Calculadora de significância de teste A/B

03Como funciona

Por que este cálculo

Quando você executa um teste A/B em um site, um assunto de e-mail, uma página de preços ou qualquer outro resultado binário (clicou / não clicou, inscreveu-se / não se inscreveu, pagou / não pagou), a pergunta que você realmente quer responder é desconfortavelmente simples: a mudança realmente fez diferença, ou estou olhando para ruído aleatório? As taxas de conversão oscilam diariamente em todos os produtos, mesmo quando nada mudou. Se a variante B converteu 6,4 % dos visitantes e o controle A converteu 5,0 %, você não pode declarar vitória apenas porque o número de B é maior. Você precisa perguntar com que frequência uma diferença de 1,4 ponto poderia aparecer por puro acaso, dado o tamanho das audiências que você mediu. Esse é o trabalho completo do teste de significância estatística — separar sinais do ruído de amostragem. Ignore-o e você implementará mudanças aleatórias, reivindicará vitórias que evaporam no mês seguinte e perderá a confiança da sua equipe. Use-o corretamente e você construirá uma cultura de evidências: implemente apenas o que pode defender com números.

A fórmula

O teste padrão para experimentos A/B de duas proporções é o teste z de duas proporções com erro padrão agrupado. Dada a variante A com n_A visitantes e c_A conversões, e a variante B com n_B visitantes e c_B conversões, a calculadora calcula:

p_A = c_A / n_A, p_B = c_B / n_B
taxa agrupada p̂ = (c_A + c_B) / (n_A + n_B)
erro padrão agrupado SE = √( p̂·(1 − p̂) · (1/n_A + 1/n_B) )
estatística z z = (p_B − p_A) / SE
p-valor: bicaudal p = 2 · (1 − Φ(|z|)) ou unicaudal p = 1 − Φ(z) para a alternativa B > A

Φ é a função de distribuição cumulativa normal padrão, calculada a partir da aproximação erf de Abramowitz & Stegun (precisa até cerca de 10⁻⁷). O lift relativo é (p_B − p_A) / p_A. O intervalo de confiança de 95 % para a diferença absoluta usa o erro padrão não agrupado SE_u = √( p_A·(1−p_A)/n_A + p_B·(1−p_B)/n_B ), uma vez que a forma agrupada assume a hipótese nula. A visualização mostra ±2 SE barras de erro (whiskers) em torno de cada taxa para que você possa ver se as duas bandas de confiança se sobrepõem.

Como usar

Insira as quatro contagens brutas: visitantes e conversões para cada variante. "Visitantes" devem ser usuários únicos atribuídos à variante, não visualizações de página — e a mesma pessoa deve sempre ver a mesma variante. "Conversões" é a contagem daqueles visitantes que completaram o objetivo pelo menos uma vez. Escolha um nível de confiança: 95 % é o padrão da indústria; use 99 % quando a mudança for arriscada e revertê-la custar dinheiro ou confiança reais; 90 % é aceitável para ajustes de UI de baixo risco onde você se preocupa principalmente com a velocidade de iteração. Escolha uma cauda: bicaudal é o padrão seguro — testa se as variantes diferem em qualquer direção, o que o protege de selecionar resultados favoráveis (cherry-picking). Use unicaudal apenas quando você tem uma premissa forte de que B só pode ser ≥ A (uma afirmação quase impossível na prática). Leia o veredito: se Significativo = Sim você tem evidências para declarar o vencedor mostrado; se Não, os dados são consistentes com nenhuma diferença real no α escolhido. O KPI de lift (aumento) informa a magnitude da mudança em termos relativos — um aumento de 2 pontos em uma base de 5 % é um aumento relativo de 40 %, o que é enorme.

Exemplo prático

Você realizou um teste de redesign de página de destino por duas semanas. A variante A (a página existente) foi mostrada a 5.000 visitantes e produziu 250 inscrições. A variante B (o redesign) foi mostrada a 5.100 visitantes e produziu 320 inscrições. Insira esses números. A calculadora calcula p_A = 5,00 %, p_B = 6,27 %, uma diferença absoluta de 1,27 pontos, um lift relativo de +25,5 % — promissor à primeira vista. A taxa agrupada é (250 + 320) / (5 000 + 5 100) ≈ 5,64 %, o SE agrupado é de aproximadamente 0,00459, e z ≈ +2,78. O p-valor bicaudal é de aproximadamente 0,0055, bem abaixo de α = 0,05. O veredito: Significativo = Sim, vencedor = B, e você pode implementar o redesign com confiança razoável. O IC de 95 % para a diferença é de aproximadamente [+0,36 %, +2,18 %] — observe que mesmo o limite inferior está confortavelmente acima de zero, que é o análogo visual de "os bigodes não se cruzam". Agora refaça o mesmo exemplo com apenas 1.500 visitantes por variante e um lift absoluto semelhante: a estatística z encolhe para menos de 1,96 e o resultado torna-se inconclusivo. Mesmo efeito, menos dados, nenhuma decisão de implementação. Essa é a calculadora mostrando seu valor.

Armadilhas

O maior erro em testes A/B é o peeking (observação antecipada): verificar o p-valor diariamente e interromper o teste na primeira vez que ele cai abaixo de 0,05. Fazer isso infla sua taxa de falsos positivos de 5 % nominais para aproximadamente 25–30 % em poucas semanas, porque cada verificação adicional é mais uma chance para o ruído parecer um sinal. Escolha um tamanho de amostra com antecedência e comprometa-se com ele. Segundo, múltiplas variantes sem correção: se você executa A/B/C/D/E com 4 comparações simultâneas contra o controle, seu α efetivo explode. Aplique uma correção de Bonferroni (α_per_test = α / k) ou execute um único teste no estilo ANOVA primeiro. Terceiro, parada antecipada com base no tamanho do lift: um lift de 40 % nos primeiros três dias é quase sempre uma regressão à média — os primeiros adotantes de uma nova variante tendem a ser entusiasmados. Quarto, efeito novidade: qualquer mudança parece melhor na primeira semana porque os usuários reagem a qualquer coisa nova; deixe o teste rodar por pelo menos um ciclo semanal completo. Quinto, sazonalidade semanal: começar na segunda-feira e terminar no sábado quebra a simetria entre as variantes se a mistura de tráfego difere por dia da semana. Sexto, descorrespondência da proporção da amostra (SRM): se sua divisão A/B foi definida para 50/50, mas você mediu 5.000 vs 5.800, algo está errado com o mecanismo de atribuição — o teste é inválido até que você o corrija. Sétimo, lançamentos conflitantes: nunca execute dois testes em públicos sobrepostos sem isolamento adequado; os resultados se misturam.

Variações

Várias estruturas alternativas abordam as fraquezas do clássico teste frequentista. O Teste A/B Bayesiano informa a probabilidade posterior de que B é o melhor dadas as priors (premissas), o que evita o veredito binário 'significativo / não' e permite parar cedo em limiares de probabilidade — mas a resposta depende da sua prior, que você deve defender. O Teste sequencial com p-valores sempre válidos (mSPRT, designs sequenciais de grupo) permite que você observe os resultados com a frequência que desejar sem inflar o erro tipo I, ao custo de precisar de uma amostra ligeiramente maior para atingir a mesma confiança. O CUPED (Experimento Controlado Usando Dados Pré-Experimento) usa covariáveis de pré-período para subtrair o ruído da linha de base, muitas vezes diminuindo os tamanhos de amostra necessários em 30–50 % em métricas com alta correlação pré-período. Os Bandits multi-braços (amostragem de Thompson, UCB) alocam mais tráfego para os braços vencedores em tempo real — ótimo para decisões de curto prazo ou quando um braço é dramaticamente pior, mas inadequado quando você quer uma leitura pós-teste limpa. Para métricas não binárias, como receita por visitante ou páginas por sessão, substitua o teste de proporção por um teste t de Welch, idealmente em valores transformados logaritmicamente para domar caudas pesadas. Os Testes de sobrevivência ou de etapas de funil são apropriados quando o resultado se desenvolve ao longo do tempo (tempo até a compra, retenção até o dia 30): use curvas de Kaplan-Meier com um teste de log-rank em vez de colapsar para uma única proporção. Finalmente, faça uma análise de poder antes de começar: uma ferramenta que informa o tamanho mínimo da amostra necessário para detectar o menor tamanho de efeito que seu negócio considera importante — sem ela, 'precisamos de mais dados' é a única resposta honesta para quase todo teste inconclusivo.