Écart-type

03Comment ça marche

Pourquoi ce calcul

Une seule moyenne raconte rarement toute l'histoire d'un ensemble de données. Deux classes peuvent avoir une note moyenne de 12 sur 20, et pourtant l'une peut être étroitement regroupée autour de cette moyenne, tandis que l'autre se divise en un groupe d'élèves performants et un groupe qui a du mal à suivre. Deux usines peuvent produire des pièces avec le même diamètre moyen, et pourtant l'une expédie des produits cohérents et l'autre rejette la moitié de sa production pour être hors tolérance. L'écart type capture exactement la dimension à laquelle la moyenne est aveugle : à quel point les valeurs sont dispersées autour du centre. C'est la statistique la plus utilisée en dehors de la moyenne elle-même, le bloc de construction des intervalles de confiance, des tests d'hypothèse, des cartes de contrôle et des métriques de risque, et c'est le premier chiffre que tout analyste de données calcule après la moyenne. Ce calculateur prend une liste de nombres (séparés par des espaces, des virgules ou des sauts de ligne), et retourne la moyenne, la médiane, la variance, l'écart type selon les deux conventions (échantillon et population), l'étendue, et le coefficient de variation — suffisant pour caractériser la position et la dispersion d'un ensemble de données en un seul écran.

La formule

L'écart type est la racine carrée de la variance, et la variance est la déviation quadratique moyenne par rapport à la moyenne. Il existe deux types. L'écart type de population σ utilise la formule σ = √(Σ(xᵢ − μ)² / N), où N est le nombre de valeurs et μ est la moyenne. L'écart type d'échantillon s utilise Σ(xᵢ − x̄)² / (n − 1), avec le diviseur réduit d'un — c'est la correction de Bessel, et elle supprime un petit biais qui autrement ferait sous-estimer systématiquement l'écart type d'échantillon la véritable écart type de population lorsqu'il est calculé à partir d'un échantillon fini. Lorsque les données dont vous disposez constituent la population entière (tous les étudiants de la classe, toutes les vis produites aujourd'hui), utilisez la formule de la population. Lorsque les données sont un échantillon tiré d'une population plus large (un sondage de 1 000 électeurs, un échantillon de contrôle qualité de 50 pièces), utilisez la formule de l'échantillon. Par défaut, ce calculateur utilise la formule de l'échantillon car elle correspond au cas le plus courant : vous avez un échantillon et vous voulez estimer l'écart type de la population. Le coefficient de variation est l'écart type divisé par la moyenne, exprimé en pourcentage ; il est sans unité et vous permet de comparer la dispersion entre des ensembles de données avec des unités ou des échelles différentes.

Comment l'utiliser

Collez ou tapez vos nombres dans la zone de texte. Les séparateurs peuvent être des virgules, des espaces, des points-virgules ou des sauts de ligne (ou tout mélange de ceux-ci). Les jetons non numériques sont ignorés silencieusement, vous pouvez donc coller une colonne directement depuis une feuille de calcul sans la nettoyer. Le sélecteur ci-dessous permet de choisir entre l'écart type d'échantillon et celui de population. Le panneau de résultat affiche l'écart type comme indicateur clé de performance principal, ainsi que la moyenne, la médiane (qui est robuste aux valeurs aberrantes d'une manière dont la moyenne ne l'est pas), la variance, l'étendue (maximum moins minimum) et le coefficient de variation. La série par défaut est de dix notes réparties entre 9 et 18, ce qui donne une moyenne de 13,5 et un écart type d'échantillon de 2,51 — des chiffres concrets pour jouer.

Exemple de calcul

Prenons l'ensemble de données 12, 14, 11, 15, 13, 16, 10, 18, 14, 12 (n = 10). La moyenne est la somme divisée par n : (12+14+11+15+13+16+10+18+14+12)/10 = 135/10 = 13,5. Les écarts quadratiques par rapport à la moyenne sont 2,25, 0,25, 6,25, 2,25, 0,25, 6,25, 12,25, 20,25, 0,25, 2,25, pour un total de 52,5. Diviser par n = 10 (population) donne une variance de 5,25 et un écart type de population de √5,25 ≈ 2,29. Diviser par n − 1 = 9 (échantillon) donne une variance de ≈ 5,83 et un écart type d'échantillon de ≈ 2,41. La médiane, triée, est la moyenne des cinquième et sixième valeurs, (13 + 14)/2 = 13,5 — égale à la moyenne, suggérant une distribution approximativement symétrique. L'étendue est 18 − 10 = 8. Le coefficient de variation est 2,41 / 13,5 ≈ 17,9 %, ce qui signifie que la dispersion représente environ un sixième de la taille moyenne — un niveau de variabilité typique pour les notes.

Pièges courants

Premièrement, choisir le mauvais diviseur. La formule de l'échantillon utilise n − 1 ; utiliser n sur un petit échantillon biaise l'écart type à la baisse. La différence est plus importante lorsque n est petit : à n = 5, les deux diffèrent d'environ dix pour cent ; à n = 100, d'un demi pour cent. Deuxièmement, considérer l'écart type comme un intervalle de confiance. L'écart type décrit la dispersion des données ; l'erreur type de la moyenne (ETM = écart type / √n) décrit l'incertitude sur la moyenne. Ils diffèrent d'un facteur √n. Troisièmement, calculer l'écart type sur des données qui ne sont pas normales. La règle des 68/95/99,7 (une, deux, trois écarts types couvrent ces pourcentages des données) ne s'applique qu'à une distribution gaussienne. Des données asymétriques ou à queues épaisses auront beaucoup plus de valeurs aberrantes que ne le prédit la règle. Quatrièmement, mélanger les unités. La variance est en unités au carré, l'écart type est dans les unités d'origine ; les graphiques qui tracent la variance par rapport à un axe dans les unités d'origine sont trompeurs. Cinquièmement, ignorer les valeurs aberrantes. Une seule valeur extrême peut gonfler l'écart type de manière déraisonnable ; l'écart absolu médian (EAM) est une alternative plus robuste.

Variations et contexte

L'écart type a de nombreux cousins. L'étendue interquartile (Q3 − Q1) ignore les 25 % supérieurs et inférieurs et est robuste aux valeurs aberrantes. L'écart absolu médian est la médiane des écarts absolus par rapport à la médiane — une statistique de dispersion encore plus robuste. L'écart absolu moyen utilise des valeurs absolues plutôt que des carrés et est plus proche de l'intuition d'un profane de "distance moyenne par rapport à la moyenne", mais est moins traitable mathématiquement, c'est pourquoi les carrés ont remporté l'argument historique. L'écart type pondéré permet à différentes observations de compter davantage que d'autres (utile lorsque les points de données représentent des groupes de tailles différentes). Sur les marchés financiers, l'écart type des rendements est ce que l'on appelle la volatilité, généralement citée sur une base annuelle après multiplication par √(jours de négociation par an). En physique et en ingénierie, l'écart type est rapporté comme l'incertitude sur une mesure ; en psychométrie, il sous-tend le score z, dans le contrôle qualité l'indice de capacité de processus Cpk, et en apprentissage automatique le standard scaler qui normalise les caractéristiques à une moyenne zéro et un écart type un avant l'entraînement.