Intervalle de confiance (moyenne)

03Comment ça marche

Pourquoi un intervalle de confiance est supérieur à une estimation ponctuelle

Une moyenne d'échantillon est une estimation ponctuelle — un nombre unique tiré d'un échantillon particulier. Si vous relancez l'enquête, l'essai ou le lot de production, vous obtiendrez presque certainement un nombre différent. L'objectif des statistiques inférentielles est de quantifier l'étendue plausible de cette variation, et un intervalle de confiance (IC) est l'outil qui le permet. Au lieu de dire à votre lecteur "la satisfaction moyenne est de 7,4 sur 10" — ce qui semble précis mais est implicitement erroné quant à sa propre précision — un IC dit "la satisfaction moyenne est de 7,4, et la vraie moyenne de la population se situe presque certainement entre 6,8 et 8,0". Cette seconde phrase est celle dont les décideurs ont besoin : elle leur indique si la différence entre deux produits, deux cohortes ou deux lots est probablement réelle ou probablement du bruit.

Les IC s'adaptent harmonieusement à tout ce que vous modifiez. Échantillon plus grand ? L'intervalle se réduit. Plus de variabilité dans les données sous-jacentes ? Il s'élargit. Confiance plus élevée requise ? Il s'élargit de nouveau. Un régulateur exigeant 99,9 % de certitude avant d'approuver un médicament obtiendra un intervalle plus large — et aura besoin d'un essai beaucoup plus grand — qu'un marketeur satisfait de 90 %. Les calculs rendent le compromis explicite.

L'intervalle est également le bon vocabulaire pour parler aux non-statisticiens. Les gens comprennent instinctivement "entre 6,8 et 8,0" ; ils doivent être formés pour lire les valeurs p. Cette lisibilité est la raison pour laquelle chaque revue scientifique crédible, chaque rapport d'audit et chaque tableau de bord de tests A/B rapporte désormais les IC parallèlement (ou à la place) des tests d'hypothèses.

La formule

Pour la moyenne d'une variable quantitative, l'intervalle de confiance bilatéral est :

IC = x̄ ± critical × (s / √n)

où x̄ est la moyenne de l'échantillon, s l'écart type de l'échantillon, n la taille de l'échantillon, et critical un multiplicateur lu dans une table de probabilités.

Deux distributions fournissent le multiplicateur :

Z (normale standard) lorsque l'écart type de la population σ est connu, ou lorsque l'échantillon est suffisamment grand (n ≥ 30) pour que le théorème central limite rende la distribution d'échantillonnage de la moyenne approximativement normale, quelle que soit la forme des données sous-jacentes. Les valeurs Z classiques sont 1,645 (90 %), 1,96 (95 %), 2,576 (99 %) et 3,291 (99,9 %).
t de Student avec df = n − 1 lorsque σ est inconnu et que l'échantillon est petit. La distribution t a des queues plus épaisses, donc ses valeurs critiques sont plus grandes — pour n = 5 à 95 %, le multiplicateur est 2,776 au lieu de 1,96, produisant un intervalle nettement plus large. À mesure que n augmente, la courbe t converge vers z ; pour df = 30, la différence est inférieure à 0,5 % et la plupart des praticiens passent à z.

La quantité s / √n est l'erreur standard de la moyenne — l'écart type de x̄ sur des échantillons répétés hypothétiques. La multiplier par la valeur critique l'ajuste au niveau de confiance que vous avez choisi.

Comment utiliser ce calculateur

Saisissez la moyenne de l'échantillon — la moyenne que vous avez calculée à partir de vos données (par exemple, 7,4 sur 10).
Saisissez l'écart type de l'échantillon — la dispersion des points de données individuels autour de cette moyenne. La plupart des logiciels de feuille de calcul vous donnent cela avec STDEV.S(...) ou =STDEV(...).
Saisissez la taille de l'échantillon n.
Choisissez un niveau de confiance. 95 % est la valeur par défaut des revues, 90 % est courant dans les études de marché, 99 % et 99,9 % apparaissent dans les essais cliniques et le contrôle qualité.
Laissez la Distribution sur auto sauf si vous avez une raison spécifique de la modifier. auto choisit z lorsque n ≥ 30 et t avec df = n − 1 en dessous de ce seuil. Forcez z uniquement lorsque σ est réellement connu a priori (rare). Forcez t pour être conservateur sur de petits échantillons, même au-delà du seuil de 30.

Le panneau de résultats affiche les bornes inférieure et supérieure, la marge d'erreur, la valeur critique utilisée, l'erreur standard, et quelle distribution a été utilisée.

Exemple détaillé

Un essai clinique mesure le temps de récupération sur 15 patients, trouve une moyenne de 7,4 jours avec un écart type d'échantillon de 1,2 jours, et souhaite un IC de 95 %.

n = 15 → df = 14, nous utilisons donc le t de Student.
La valeur critique t à 95 % avec df = 14 est de 2,145.
Erreur standard = 1,2 / √15 = 0,310.
Marge d'erreur = 2,145 × 0,310 = 0,665.
IC = 7,4 ± 0,665 = [6,74, 8,07] jours.

Supposons maintenant que les mêmes chiffres proviennent d'un essai beaucoup plus grand de n = 1 000 patients. L'erreur standard tombe à 1,2 / √1 000 = 0,0379, le calculateur passe à z (n ≥ 30), critique = 1,96, marge = 0,074. IC = [7,33, 7,47]. Même estimation ponctuelle, un intervalle dix fois plus serré — la taille de l'échantillon permet d'obtenir de la précision.

Pièges et erreurs d'interprétation

Un IC de 95 % n'est pas "une probabilité de 95 % que la moyenne de la population se trouve dans cet intervalle". L'interprétation fréquentiste est "si nous répétions le processus d'échantillonnage indéfiniment, 95 % des intervalles que nous construirions contiendraient la vraie moyenne". Le paramètre est fixe ; l'intervalle est aléatoire. Les personnes qui souhaitent une déclaration de probabilité ont plutôt besoin d'un intervalle crédible bayésien.

Un IC étroit n'est pas synonyme d'exactitude. Si votre méthode d'échantillonnage est biaisée — échantillons de commodité, répondants auto-sélectionnés, abandons — l'IC sera étroit mais centré sur le mauvais chiffre. Les statistiques quantifient l'erreur d'échantillonnage, pas l'erreur de mesure ou le biais de sélection. Un sondage en ligne auprès d'un million de répondants peut toujours être complètement faux si les répondants ne ressemblent pas à la population.

Les IC supposent que les données proviennent d'une distribution à peu près symétrique (ou que n est suffisamment grand pour que le Théorème Central Limite s'applique). Les données fortement asymétriques — revenus, temps de réponse, forces de réaction biologiques — doivent être transformées (log) avant d'appliquer la formule, ou analysées avec une méthode non paramétrique comme un IC bootstrap.

Un IC pour la moyenne n'est pas un intervalle de prédiction pour une observation individuelle. L'IC vous dit où se situe la moyenne ; l'intervalle de prédiction (beaucoup plus large, facteur d'environ ≈ √(1 + 1/n) plus grand) vous dit où la prochaine valeur individuelle est susceptible de tomber.

Si vous calculez de nombreux IC simultanément — en comparant 20 variantes de produits, en criblant 100 gènes — le taux d'erreur par famille explose. Les corrections de Bonferroni ou de Benjamini-Hochberg élargissent chaque intervalle pour maintenir le niveau de confiance global honnête.

Enfin, un IC ne dit rien sur la signification clinique ou commerciale. Une amélioration parfaitement significative de 0,1 point de la satisfaction utilisateur peut être statistiquement réelle et économiquement non pertinente. Lisez toujours les bornes dans les unités du domaine avant d'agir en conséquence.

Variantes et intervalles connexes

IC pour une proportion — formule entièrement différente. La version de Wald (manuel) donne de mauvais résultats près de 0 % ou 100 % ; l'intervalle de score de Wilson et la correction d'Agresti–Coull sont bien plus fiables et sont maintenant la valeur par défaut dans la plupart des logiciels.
IC pour la différence de deux moyennes — combinez les erreurs standard via la formule de Welch lorsque les variances des échantillons diffèrent ; sinon, regroupez-les. C'est ce qui alimente la plupart des rapports de tests A/B.
IC Bootstrap — rééchantillonnez les données avec remplacement des milliers de fois, recalculez la statistique à chaque fois, prenez les 2,5e et 97,5e centiles. Aucune hypothèse de normalité, fonctionne pour toute statistique (médiane, rapport, corrélation), mais nécessite un ordinateur. Particulièrement utile pour les données asymétriques ou autrement non normales.
Intervalle crédible bayésien — la réponse à "quelle est la probabilité que le paramètre se trouve dans cette plage, étant donné cette information a priori et ces données ?" Numériquement proche d'un IC fréquentiste pour une information a priori non informative, mais interprétable dans un langage de probabilité clair.
Intervalle de prédiction — la plage dans laquelle une future observation individuelle est censée tomber, étant donné l'échantillon actuel. Plus large que l'IC pour la moyenne.
Intervalle de tolérance — la plage couvrant une proportion donnée de la population (par exemple, "95 % des bouteilles seront remplies entre 498 ml et 502 ml") avec une confiance donnée. Norme de contrôle qualité, distinct des IC et des intervalles de prédiction.

Choisir le bon intervalle représente la moitié de l'analyse. Appliquer à tort un IC de moyenne là où un IC de proportion ou un intervalle de prédiction était nécessaire est l'une des erreurs les plus courantes en statistique appliquée — et l'une des plus faciles à éviter une fois les distinctions ci-dessus claires.