Intervalo de confianza (media)

03Cómo funciona

Por qué un intervalo de confianza es mejor que una única estimación

La media muestral es una estimación puntual — un solo número extraído de una muestra particular. Si se repite la encuesta, el ensayo o el lote de producción, casi con toda seguridad se obtendrá un número diferente. El propósito de la estadística inferencial es cuantificar hasta dónde puede llevar plausiblemente esa variación, y un intervalo de confianza (IC) es la herramienta que lo logra. En lugar de decir a su lector "la satisfacción media es de 7,4 sobre 10" — lo que suena preciso pero es silenciosamente incorrecto sobre su propia precisión — un IC dice "la satisfacción media es de 7,4, y la verdadera media poblacional casi con toda seguridad se encuentra entre 6,8 y 8,0". Esa segunda frase es la que necesitan los responsables de la toma de decisiones: les indica si la diferencia entre dos productos, dos cohortes o dos lotes es probablemente real o ruido.

Los IC se adaptan elegantemente a cada cambio que realice. ¿Muestra más grande? El intervalo se reduce. ¿Mayor variabilidad en los datos subyacentes? Se ensancha. ¿Se requiere mayor confianza? Se ensancha de nuevo. Un regulador que exija una certeza del 99,9 % antes de aprobar un medicamento obtendrá un intervalo más amplio — y necesitará un ensayo mucho mayor — que un comercializador satisfecho con el 90 %. Las matemáticas hacen explícita la compensación.

El intervalo es también el vocabulario adecuado para hablar con no estadísticos. La gente entiende "entre 6,8 y 8,0" instintivamente; hay que enseñarles a leer los valores p. Esa legibilidad es la razón por la que cada revista científica creíble, cada informe de auditoría y cada panel de control de pruebas A/B ahora informa los IC junto con (o en lugar de) las pruebas de hipótesis.

La fórmula

Para la media de una variable cuantitativa, el intervalo de confianza bilateral es:

CI = x̄ ± crítico × (s / √n)

donde x̄ es la media muestral, s la desviación estándar muestral, n el tamaño de la muestra, y crítico un multiplicador leído de una tabla de probabilidades.

Dos distribuciones proporcionan el multiplicador:

Z (normal estándar) cuando la desviación estándar poblacional σ es conocida, o cuando la muestra es lo suficientemente grande (n ≥ 30) como para que el teorema del límite central haga que la distribución muestral de la media sea aproximadamente normal, independientemente de la forma de los datos subyacentes. Los valores Z clásicos son 1,645 (90 %), 1,96 (95 %), 2,576 (99 %) y 3,291 (99,9 %).
t de Student con gl = n − 1 cuando σ es desconocida y la muestra es pequeña. La distribución t tiene colas más pesadas, por lo que sus valores críticos son mayores — para n = 5 al 95 %, el multiplicador es 2,776 en lugar de 1,96, produciendo un intervalo notablemente más amplio. A medida que n aumenta, la curva t converge a z; para gl = 30 la diferencia es inferior al 0,5 % y la mayoría de los profesionales cambian a z.

La cantidad s / √n es el error estándar de la media — la desviación estándar de x̄ a través de muestras repetidas hipotéticas. Multiplicarlo por el valor crítico lo escala al nivel de confianza que haya elegido.

Cómo utilizar esta calculadora

Introduzca la media muestral — el promedio que calculó a partir de sus datos (p. ej., 7,4 sobre 10).
Introduzca la desviación estándar muestral — la dispersión de los puntos de datos individuales alrededor de esa media. La mayoría de los programas de hoja de cálculo le proporcionan esto con STDEV.S(...) o =STDEV(...).
Introduzca el tamaño de la muestra n.
Elija un nivel de confianza. El 95 % es el predeterminado en las revistas, el 90 % es común en la investigación de mercados, el 99 % y el 99,9 % aparecen en ensayos clínicos y control de calidad.
Deje la Distribución en auto a menos que tenga una razón específica para anularla. auto selecciona z cuando n ≥ 30 y t con gl = n − 1 por debajo de ese umbral. Force z solo cuando σ sea genuinamente conocida a priori (raro). Force t para ser conservador en muestras pequeñas incluso más allá del umbral de 30.

El panel de resultados muestra los límites inferior y superior, el margen de error, el valor crítico utilizado, el error estándar y qué distribución realizó el trabajo.

Ejemplo práctico

Un ensayo clínico mide el tiempo de recuperación en 15 pacientes, encuentra una media de 7,4 días con una desviación estándar muestral de 1,2 días, y desea un IC del 95 %.

n = 15 → gl = 14, por lo que usamos la t de Student.
El valor crítico de t al 95 % con gl = 14 es 2,145.
Error estándar = 1,2 / √15 = 0,310.
Margen de error = 2,145 × 0,310 = 0,665.
IC = 7,4 ± 0,665 = [6,74, 8,07] días.

Ahora suponga que los mismos números provienen de un ensayo mucho mayor de n = 1.000 pacientes. El error estándar baja a 1,2 / √1.000 = 0,0379, la calculadora cambia a z (n ≥ 30), crítico = 1,96, margen = 0,074. IC = [7,33, 7,47]. Misma estimación puntual, un intervalo diez veces más ajustado — el tamaño de la muestra compra precisión.

Dificultades y malas interpretaciones

Un IC del 95 % no es "una probabilidad del 95 % de que la media poblacional esté en este intervalo". La interpretación frecuentista es "si repitiéramos el proceso de muestreo indefinidamente, el 95 % de los intervalos que construyéramos contendrían la verdadera media". El parámetro es fijo; el intervalo es aleatorio. Las personas que desean la afirmación de probabilidad necesitan un intervalo creíble bayesiano en su lugar.

Un IC estrecho no es lo mismo que uno preciso. Si su método de muestreo está sesgado — muestras de conveniencia, encuestados auto-seleccionados, abandonos — el IC será ajustado pero centrado en el número incorrecto. La estadística cuantifica el error de muestreo, no el error de medición o el sesgo de selección. Una encuesta en línea de un millón de encuestados aún puede estar muy desviada si los encuestados no se parecen a la población.

Los IC asumen que los datos provienen de una distribución aproximadamente simétrica (o que n es lo suficientemente grande para que el TLC se active). Los datos muy asimétricos — ingresos, tiempos de respuesta, intensidades de reacciones biológicas — deben transformarse (log) antes de aplicar la fórmula, o analizarse con un método no paramétrico como un IC bootstrap.

Un IC para la media no es un intervalo de predicción para una observación individual. El IC le dice dónde reside la media; el intervalo de predicción (mucho más amplio, un factor de ≈ √(1 + 1/n) mayor) le dice dónde es probable que caiga el siguiente valor individual.

Si calcula muchos IC simultáneamente — comparando 20 variantes de productos, examinando 100 genes — la tasa de error familiar se dispara. Las correcciones de Bonferroni o Benjamini-Hochberg ensanchan cada intervalo para mantener la honestidad del nivel de confianza general.

Finalmente, un IC no dice nada sobre la significación clínica o empresarial. Una mejora perfectamente significativa de 0,1 puntos en la satisfacción del usuario puede ser estadísticamente real y económicamente irrelevante. Lea siempre los límites en unidades de dominio antes de actuar sobre ellos.

Variaciones e intervalos relacionados

IC para una proporción — fórmula completamente diferente. La versión de Wald (de libro de texto) funciona mal cerca del 0 % o del 100 %; el intervalo de puntuación de Wilson y la corrección de Agresti-Coull son mucho más fiables y ahora son los predeterminados en la mayoría de los programas.
IC para la diferencia de dos medias — combine errores estándar mediante la fórmula de Welch cuando las varianzas muestrales difieren; de lo contrario, agrupe. Esto es lo que impulsa la mayoría de los informes de pruebas A/B.
IC Bootstrap — remuestree los datos con reemplazo miles de veces, recalcule la estadística cada vez, tome los percentiles 2,5 y 97,5. No hay suposición de normalidad, funciona para cualquier estadística (mediana, razón, correlación), pero necesita un ordenador. Particularmente útil para datos asimétricos o no normales.
Intervalo creíble bayesiano — la respuesta a "¿cuál es la probabilidad de que el parámetro esté en este rango, dada esta a priori y estos datos?". Numéricamente cercano a un IC frecuentista para una a priori no informativa, pero interpretable en lenguaje de probabilidad simple.
Intervalo de predicción — el rango en el que se espera que caiga una futura observación individual, dada la muestra actual. Más amplio que el IC para la media.
Intervalo de tolerancia — el rango que cubre una proporción establecida de la población (p. ej., "el 95 % de las botellas se llenarán entre 498 ml y 502 ml") con una confianza establecida. Estándar de control de calidad, distinto tanto de los IC como de los intervalos de predicción.

Elegir el intervalo correcto es la mitad del análisis. Aplicar erróneamente un IC de la media cuando se necesitaba un IC de una proporción o un intervalo de predicción es uno de los errores más comunes en la estadística aplicada — y uno de los más fáciles de evitar una vez que las distinciones anteriores están claras.