Comme vous le constatez, la taille d'un échantillon influence grandement la justesse des estimés que l'on en obtient; cela est lié aux erreurs d'échantillonnage qui sont plus importantes dans les petits échantillons que dans les grands. Lorsque l'on veut inférer un paramètre (p. ex., la moyenne d'âge de toute la population) à l'aide d'une statistique (p. ex., la moyenne obtenue dans un échantillon particulier), il faut reconnaître que cette statistique comportera une erreur liée aux fluctuations d'échantillonnage que l'on qualifiera d'erreur standard.
Dans le cas qui nous intéresse on parlera de l'erreur standard de la moyenne (« standard error of the mean ») qui se calcule en divisant l'écart-type de l'échantillon (« standard deviation ») par la racine carrée de la taille de l'échantillon:
σ / √n
Voyez comment l'erreur standard de la moyenne augmente dramatiquement à mesure que nous réduisons la taille de notre échantillon:
Scénario 1 | Scénario 2 n = 500 | Scénario 3 n = 50 | Scénario 4 n = 5 |
ne s'applique pas | .241 | .764 | 2.415 |
C'est d'ailleurs en tenant compte de cette erreur standard de la moyenne que vous serez forcé d'ajuster les bornes de votre intervalle de confiance. Sans entrer dans les détails, il faut rappeler que sous une courbe normale — comme par exemple une courbe de distribution d'échantillonnage — 95% des observations se situent entre ± 1.96σ de la moyenne. Lorsque certaines conditions sont respectées, cette valeur de 1.96 vient déterminer l'intervalle de confiance associé à un niveau de probabilité de .05 de la façon suivante:
Un résultat non significatif ne permet pas de conclure car il peut correspondre à deux situations différentes qui sont impossibles à départager avec certitude (figure 4). Une différence non significative peut être le reflet d'une réelle absence d'effet du traitement mais peut aussi provenir d'un manque de puissance de l'essai qui n'a pas été en mesure de mettre en évidence une différence qui existe pourtant. Un résultat non statistiquement significatif ne signifie pas que le traitement est sans effet : "L’absence de preuve n’est pas la preuve de l’absence". Devant un résultat non significatif, il n’est pas possible de conclure à l’absence d'effet. La démonstration de l'absence d'effet demande bien plus qu'une simple différence non significative et se base sur un outil spécifique, l'essai d'équivalence.
Avec les critères continus la puissance dépend des paramètres suivants :
<!--[if !supportLists]-->· <!--[endif]-->La différence entre les moyennes, c’est-à-dire la taille de l’effet traitement. Plus l’effet traitement est important, plus la différence entre les moyennes des deux groupes sera large. À nombre de patients identiques, plus cet effet sera important plus l’essai sera puissant.
<!--[if !supportLists]-->· <!--[endif]-->La variance des mesures : plus les mesures sont variables, moins l’essai est puissant à nombre de sujets constant. En effet, une variabilité importante des mesures entraîne à son tour une variabilité importante de l’estimation des moyennes.
<!--[if !supportLists]-->· <!--[endif]-->Le nombre de patients : la puissance augmente avec le nombre de sujets car la précision d’estimation d’une moyenne augmente avec la taille des échantillons. Plus le nombre de sujets est important, plus les moyennes sont connues avec précision et donc plus il est facile de montrer qu’elles sont différentes (si c’est effectivement le cas).
<!--[if !supportLists]-->· <!--[endif]-->Et naturellement le risque alpha consenti.