Desviación estándar

03Cómo funciona

Por qué este cálculo

Una media única rara vez cuenta toda la historia de un conjunto de datos. Dos clases pueden tener la misma nota media de 12 sobre 20, pero una puede estar muy agrupada alrededor de esa media, mientras que la otra se divide en un grupo de estudiantes de alto rendimiento y otro que lucha por seguir el ritmo. Dos fábricas pueden producir piezas con el mismo diámetro medio, pero una envía productos consistentes y la otra rechaza la mitad de su producción por estar fuera de tolerancia. La desviación estándar captura exactamente la dimensión de la que la media no se da cuenta: cuán dispersos están los valores alrededor del centro. Es la estadística más utilizada, aparte de la propia media, el bloque de construcción de intervalos de confianza, pruebas de hipótesis, gráficos de control y métricas de riesgo, y es el primer número que cualquier analista de datos calcula después del promedio. Esta calculadora toma una lista de números (separados por espacios, comas o saltos de línea) y devuelve la media, la mediana, la varianza, la desviación estándar bajo ambas convenciones (muestra y población), el rango y el coeficiente de variación, lo suficiente para caracterizar la ubicación y dispersión de un conjunto de datos en una sola pantalla.

La fórmula

La desviación estándar es la raíz cuadrada de la varianza, y la varianza es la desviación cuadrática media respecto a la media. Hay dos tipos. La desviación estándar poblacional σ utiliza la fórmula σ = √(Σ(xᵢ − μ)² / N), donde N es el número de valores y μ es la media. La desviación estándar muestral s utiliza Σ(xᵢ − x̄)² / (n − 1), con el divisor reducido en uno — esta es la corrección de Bessel, y elimina un pequeño sesgo que de otro modo haría que la desviación estándar muestral subestimara sistemáticamente la desviación estándar poblacional verdadera cuando se calcula a partir de una muestra finita. Cuando los datos que usted tiene son toda la población (cada estudiante de la clase, cada tornillo producido hoy), utilice la fórmula poblacional. Cuando los datos son una muestra extraída de una población más grande (una encuesta de 1000 votantes, una muestra de control de calidad de 50 piezas), utilice la fórmula muestral. La opción predeterminada en esta calculadora es la fórmula muestral porque coincide con el caso más común: usted tiene una muestra y quiere estimar la DE poblacional. El coeficiente de variación es la desviación estándar dividida por la media, expresada como un porcentaje; no tiene unidades y le permite comparar la dispersión entre conjuntos de datos con diferentes unidades o diferentes escalas.

Cómo usarlo

Péguelo o escriba sus números en el área de texto. Los separadores pueden ser comas, espacios, punto y coma o saltos de línea (o cualquier mezcla de ellos). Los tokens no numéricos se ignoran silenciosamente, por lo que puede pegar una columna directamente de una hoja de cálculo sin limpiarla. El interruptor de abajo permite elegir entre desviación estándar muestral y poblacional. El panel de resultados muestra la DE como el KPI principal, junto con la media, la mediana (que es robusta a los valores atípicos de una manera que la media no lo es), la varianza, el rango (máximo menos mínimo) y el coeficiente de variación. La serie predeterminada son diez calificaciones dispersas entre 9 y 18, lo que da una media de 13.5 y una DE muestral de 2.51 — números concretos para jugar.

Ejemplo práctico

Tome el conjunto de datos 12, 14, 11, 15, 13, 16, 10, 18, 14, 12 (n = 10). La media es la suma dividida por n: (12+14+11+15+13+16+10+18+14+12)/10 = 135/10 = 13.5. Las desviaciones cuadradas de la media son 2.25, 0.25, 6.25, 2.25, 0.25, 6.25, 12.25, 20.25, 0.25, 2.25, sumando 52.5. Divida por n = 10 (población) y obtenga una varianza de 5.25 y una DE poblacional de √5.25 ≈ 2.29. Divida por n − 1 = 9 (muestra) y obtenga una varianza de ≈ 5.83 y una DE muestral de ≈ 2.41. La mediana, ordenada, es el promedio de los quintos y sextos valores, (13 + 14)/2 = 13.5 — igual a la media, lo que sugiere una distribución aproximadamente simétrica. El rango es 18 − 10 = 8. El coeficiente de variación es 2.41 / 13.5 ≈ 17.9 %, lo que significa que la dispersión es aproximadamente una sexta parte del tamaño promedio — un nivel de variabilidad típico para las calificaciones.

Errores comunes

Primero, elegir el divisor incorrecto. La fórmula muestral utiliza n − 1; usar n en una muestra pequeña sesga la DE a la baja. La diferencia importa más cuando n es pequeña: a n = 5, las dos difieren en un diez por ciento; a n = 100, en medio por ciento. Segundo, tratar la desviación estándar como un intervalo de confianza. La DE describe la dispersión de los datos; el error estándar de la media (SE = DE / √n) describe la incertidumbre sobre el promedio. Difieren por un factor de √n. Tercero, calcular la DE en datos que no son normales. La regla 68/95/99.7 (una, dos, tres DE cubren esos porcentajes de los datos) solo se aplica a una distribución gaussiana. Los datos sesgados o con colas pesadas tendrán muchos más valores atípicos de los que predice la regla. Cuarto, mezclar unidades. La varianza está en unidades al cuadrado, la DE está en las unidades originales; los gráficos que representan la varianza frente a un eje en las unidades originales son engañosos. Quinto, ignorar los valores atípicos. Un solo valor extremo puede inflar la DE más allá de todo reconocimiento; la desviación absoluta mediana (MAD) es una estadística de dispersión más robusta.

Variaciones y contexto

La DE tiene muchos primos. El rango intercuartílico (Q3 − Q1) ignora el 25 % superior e inferior y es robusto a los valores atípicos. La desviación absoluta mediana es la mediana de las desviaciones absolutas de la mediana — una estadística de dispersión aún más robusta. La desviación absoluta media utiliza valores absolutos en lugar de cuadrados y está más cerca de la intuición de una persona común de "distancia promedio del promedio", pero es menos manejable matemáticamente, razón por la cual los cuadrados ganaron la disputa histórica. La desviación estándar ponderada permite que diferentes observaciones cuenten más que otras (útil cuando los puntos de datos representan grupos de diferentes tamaños). En los mercados financieros, la DE de los rendimientos es lo que la gente llama volatilidad, generalmente cotizada anualmente después de multiplicar por √(días de negociación por año). En física e ingeniería, la DE se reporta como incertidumbre en una medición; en psicometría subyace la puntuación z, en control de calidad el índice de capacidad del proceso Cpk, y en aprendizaje automático el escalador estándar que normaliza las características a media cero y DE uno antes del entrenamiento.