Calculadora de significancia para pruebas A/B

03Cómo funciona

Por qué este cálculo

Cuando realiza una prueba A/B en un sitio web, en el asunto de un correo electrónico, en una página de precios o en cualquier otro resultado binario (hizo clic / no hizo clic, se registró / no se registró, pagó / no pagó), la pregunta que realmente desea responder es incómodamente simple: ¿el cambio realmente marcó la diferencia, o estoy viendo ruido aleatorio? Las tasas de conversión fluctúan día a día en cada producto, incluso cuando nada ha cambiado. Si la variante B convirtió al 6,4 % de los visitantes y el control A convirtió al 5,0 %, no puede declarar la victoria solo porque el número de B sea mayor. Debe preguntarse con qué frecuencia podría aparecer una diferencia de 1,4 puntos por pura casualidad, dado el tamaño de las audiencias que midió. Ese es el trabajo completo de las pruebas de significancia estadística: separar las señales del ruido de muestreo. Omítalas y lanzará cambios aleatorios, reclamará victorias que se desvanecerán el mes siguiente y perderá la confianza de su equipo. Úselas correctamente y construirá una cultura basada en la evidencia: solo lance lo que pueda defender con números.

La fórmula

La prueba estándar para experimentos A/B de dos proporciones es la prueba z de dos proporciones sobre un error estándar combinado. Dada la variante A con n_A visitantes y c_A conversiones, y la variante B con n_B visitantes y c_B conversiones, la calculadora computa:

p_A = c_A / n_A, p_B = c_B / n_B
tasa combinada p̂ = (c_A + c_B) / (n_A + n_B)
error estándar combinado SE = √( p̂·(1 − p̂) · (1/n_A + 1/n_B) )
estadístico z z = (p_B − p_A) / SE
valor p: bilateral p = 2 · (1 − Φ(|z|)) o unilateral p = 1 − Φ(z) para la alternativa B > A

Φ es la función de distribución acumulativa normal estándar, calculada a partir de la aproximación erf de Abramowitz & Stegun (precisa hasta aproximadamente 10⁻⁷). La mejora relativa es (p_B − p_A) / p_A. El intervalo de confianza del 95 % para la diferencia absoluta utiliza el error estándar no combinado SE_u = √( p_A·(1−p_A)/n_A + p_B·(1−p_B)/n_B ), ya que la forma combinada asume la hipótesis nula. La visualización muestra bigotes de ±2 SE alrededor de cada tasa para que pueda ver si las dos bandas de confianza se superponen.

Cómo usarla

Introduzca los cuatro recuentos brutos: visitantes y conversiones para cada variante. Los "visitantes" deben ser usuarios únicos asignados a la variante, no visitas de página, y la misma persona siempre debe ver la misma variante. Las "conversiones" es el recuento de aquellos visitantes que completaron el objetivo al menos una vez. Elija un nivel de confianza: el 95 % es el predeterminado en la industria; use el 99 % cuando el cambio sea arriesgado y revertirlo cueste dinero real o confianza; el 90 % es aceptable para ajustes de UI de bajo riesgo donde lo que más le importa es la velocidad de iteración. Elija una cola: bilateral es el valor predeterminado seguro, prueba si las variantes difieren en cualquier dirección, lo que le protege de la selección sesgada. Use unilateral solo cuando tenga un conocimiento previo firme de que B solo puede ser ≥ A (una afirmación casi imposible en la práctica). Lea el veredicto: si Significativo = Sí, tiene evidencia para declarar al ganador mostrado; si No, los datos son consistentes con la ausencia de una diferencia real en el α elegido. El KPI de mejora le indica la magnitud del cambio en términos relativos: una mejora de 2 puntos sobre una base del 5 % es una mejora relativa del 40 %, lo cual es enorme.

Ejemplo práctico

Realizó una prueba de rediseño de página de destino durante dos semanas. La variante A (la página existente) se mostró a 5 000 visitantes y produjo 250 registros. La variante B (el rediseño) se mostró a 5 100 visitantes y produjo 320 registros. Introduzca esos números. La calculadora computa p_A = 5,00 %, p_B = 6,27 %, una brecha absoluta de 1,27 puntos, una mejora relativa del +25,5 % — prometedor a primera vista. La tasa combinada es (250 + 320) / (5 000 + 5 100) ≈ 5,64 %, el SE combinado es aproximadamente 0,00459, y z ≈ +2,78. El valor p bilateral es aproximadamente 0,0055, muy por debajo de α = 0,05. El veredicto: Significativo = Sí, ganador = B, y puede lanzar el rediseño con una confianza razonable. El IC del 95 % para la diferencia es aproximadamente [+0,36 %, +2,18 %] — tenga en cuenta que incluso el límite inferior está cómodamente por encima de cero, que es el análogo visual de "los bigotes no se cruzan". Ahora rehaga el mismo ejemplo con solo 1 500 visitantes por variante y una mejora absoluta similar: el estadístico z se reduce por debajo de 1,96 y el resultado se vuelve no concluyente. Mismo efecto, menos datos, sin decisión de lanzamiento. Así es como la calculadora justifica su existencia.

Errores comunes

El error más grande en las pruebas A/B es espiar: verificar el valor p diariamente y detener la prueba la primera vez que cae por debajo de 0,05. Hacer esto infla su tasa de falsos positivos del 5 % nominal a aproximadamente 25-30 % en unas pocas semanas, porque cada verificación adicional es otra oportunidad para que el ruido parezca una señal. Elija un tamaño de muestra con antelación y comprométase con él. Segundo, múltiples variantes sin corrección: si ejecuta A/B/C/D/E con 4 comparaciones simultáneas contra el control, su alfa efectivo se dispara. Aplique una corrección de Bonferroni (α_per_test = α / k) o realice primero una prueba de tipo ANOVA. Tercero, detención temprana basada en la magnitud de la mejora: una mejora del 40 % durante los primeros tres días es casi siempre una regresión a la media; los primeros usuarios de una nueva variante tienden a ser entusiastas. Cuarto, efecto novedad: cualquier cambio parece mejor en la semana 1 porque los usuarios reaccionan a cualquier cosa nueva; deje que la prueba se ejecute al menos un ciclo semanal completo. Quinto, estacionalidad semanal: comenzar un lunes y terminar un sábado rompe la simetría entre variantes si la combinación de tráfico difiere según el día de la semana. Sexto, desajuste de la proporción de la muestra (SRM): si su división A/B se estableció en 50/50 pero midió 5 000 vs 5 800, algo anda mal con el mecanismo de asignación; la prueba es inválida hasta que lo arregle. Séptimo, lanzamientos con variables de confusión: nunca ejecute dos pruebas en audiencias superpuestas sin el aislamiento adecuado; los resultados se mezclan entre sí.

Variaciones

Existen varios marcos alternativos que abordan las debilidades de la prueba frecuentista clásica. Las pruebas A/B bayesianas informan la probabilidad a posteriori de que B sea el mejor dadas las probabilidades previas (priors), lo que evita el veredicto binario de "significativo / no significativo" y le permite detenerse temprano en umbrales de probabilidad, pero la respuesta depende de su prior, que debe defender. Las pruebas secuenciales con valores p siempre válidos (mSPRT, diseños secuenciales por grupos) le permiten espiar tan a menudo como desee sin inflar el error de tipo I, a costa de necesitar una muestra ligeramente mayor para alcanzar la misma confianza. CUPED (Experimento controlado utilizando datos pre-experimento) utiliza covariables del período previo para restar el ruido de la línea base, reduciendo a menudo los tamaños de muestra requeridos en un 30-50 % en métricas con alta correlación en el período previo. Los bandidos multi-brazo (muestreo de Thompson, UCB) asignan más tráfico a los brazos ganadores en tiempo real — excelentes para decisiones de ventana corta o cuando un brazo es drásticamente peor, pero inapropiados cuando se desea una lectura limpia post-prueba. Para métricas no binarias como ingresos por visitante o páginas por sesión, cambie la prueba de proporciones por una prueba t de Welch, idealmente sobre valores transformados logarítmicamente para domar las colas pesadas. Las pruebas de supervivencia o de pasos de embudo son apropiadas cuando el resultado se desarrolla con el tiempo (tiempo hasta la compra, retención al día 30): use curvas de Kaplan-Meier con una prueba de log-rank en lugar de colapsar a una sola proporción. Finalmente, realice un análisis de potencia antes de comenzar: una herramienta que le indica el tamaño de muestra mínimo requerido para detectar el tamaño de efecto más pequeño que le importa a su negocio; sin él, "necesitamos más datos" es la única respuesta honesta a casi todas las pruebas no concluyentes.