Intervalo de confiança (média)

03Como funciona

Por que um intervalo de confiança supera uma estimativa única

Uma média amostral é uma estimativa pontual — um único número obtido de uma amostra particular. Execute novamente a pesquisa, o ensaio ou o lote de produção e você quase certamente obterá um número diferente. O propósito da estatística inferencial é quantificar o quão longe essa variação pode plausivelmente levá-lo, e um intervalo de confiança (IC) é a ferramenta que faz isso. Em vez de dizer ao seu leitor "a satisfação média é de 7,4 em 10" — o que soa preciso, mas está silenciosamente incorreto sobre sua própria precisão — um IC diz "a satisfação média é de 7,4, e a verdadeira média populacional quase certamente está entre 6,8 e 8,0". Essa segunda frase é a que os tomadores de decisão precisam: ela lhes diz se a diferença entre dois produtos, duas coortes ou dois lotes é provavelmente real ou provavelmente ruído.

Os ICs se ajustam elegantemente a cada mudança. Amostra maior? O intervalo diminui. Mais variabilidade nos dados subjacentes? Ele se alarga. Nível de confiança mais alto exigido? Ele se alarga novamente. Um regulador que exige 99,9 % de certeza antes de aprovar um medicamento obterá um intervalo mais amplo — e precisará de um ensaio muito maior — do que um profissional de marketing satisfeito com 90 %. A matemática torna o trade-off explícito.

O intervalo é também o vocabulário certo para conversar com não-estatísticos. As pessoas entendem "entre 6,8 e 8,0" instintivamente; elas precisam ser treinadas para ler valores-p. Essa legibilidade é a razão pela qual todo periódico científico credível, todo relatório de auditoria e todo painel de teste A/B agora reporta ICs juntamente (ou no lugar de) testes de hipóteses.

A fórmula

Para a média de uma variável quantitativa, o intervalo de confiança bilateral é:

CI = x̄ ± critical × (s / √n)

onde x̄ é a média da amostra, s o desvio padrão da amostra, n o tamanho da amostra, e critical um multiplicador lido de uma tabela de probabilidades.

Duas distribuições fornecem o multiplicador:

Z (normal padrão) quando o desvio padrão populacional σ é conhecido, ou quando a amostra é grande o suficiente (n ≥ 30) para que o teorema do limite central torne a distribuição amostral da média aproximadamente normal, independentemente do formato dos dados subjacentes. Os valores clássicos de Z são 1,645 (90 %), 1,96 (95 %), 2,576 (99 %) e 3,291 (99,9 %).
t de Student com df = n − 1 quando σ é desconhecido e a amostra é pequena. A distribuição t tem caudas mais pesadas, então seus valores críticos são maiores — para n = 5 a 95 %, o multiplicador é 2,776 em vez de 1,96, produzindo um intervalo visivelmente mais amplo. À medida que n cresce, a curva t converge para z; para df = 30, a diferença é inferior a 0,5 % e a maioria dos praticantes muda para z.

A quantidade s / √n é o erro padrão da média — o desvio padrão de x̄ em amostras repetidas hipotéticas. Multiplicá-lo pelo valor crítico o escala para o nível de confiança que você escolheu.

Como usar esta calculadora

Insira a média da amostra — a média que você calculou a partir de seus dados (por exemplo, 7,4 em 10).
Insira o desvio padrão da amostra — a dispersão dos pontos de dados individuais em torno dessa média. A maioria dos softwares de planilha oferece isso com STDEV.S(...) ou =STDEV(...).
Insira o tamanho da amostra n.
Escolha um nível de confiança. 95 % é o padrão em periódicos, 90 % é comum em pesquisa de mercado, 99 % e 99,9 % aparecem em ensaios clínicos e controle de qualidade.
Mantenha a Distribuição em auto a menos que tenha uma razão específica para substituir. auto escolhe z quando n ≥ 30 e t com df = n − 1 abaixo desse limiar. Force z apenas quando σ é genuinamente conhecido a priori (raro). Force t para ser conservador em amostras pequenas, mesmo além do limiar de 30.

O painel de resultados mostra os limites inferior e superior, a margem de erro, o valor crítico utilizado, o erro padrão e qual distribuição realizou o cálculo.

Exemplo prático

Um ensaio clínico mede o tempo de recuperação em 15 pacientes, encontra uma média de 7,4 dias com um desvio padrão amostral de 1,2 dias e deseja um IC de 95 %.

n = 15 → df = 14, portanto usamos o t de Student.
O valor crítico t a 95 % com df = 14 é 2,145.
Erro padrão = 1,2 / √15 = 0,310.
Margem de erro = 2,145 × 0,310 = 0,665.
IC = 7,4 ± 0,665 = [6,74, 8,07] dias.

Agora, suponha que os mesmos números vêm de um ensaio muito maior com n = 1000 pacientes. O erro padrão cai para 1,2 / √1000 = 0,0379, a calculadora muda para z (n ≥ 30), crítico = 1,96, margem = 0,074. IC = [7,33, 7,47]. Mesma estimativa pontual, um intervalo dez vezes mais apertado — o tamanho da amostra compra precisão.

Armadilhas e interpretações errôneas

Um IC de 95 % não é "uma probabilidade de 95 % de que a média populacional esteja neste intervalo". A interpretação frequentista é "se repetíssemos o processo de amostragem indefinidamente, 95 % dos intervalos que construímos conteriam a verdadeira média". O parâmetro é fixo; o intervalo é aleatório. Pessoas que desejam a declaração de probabilidade precisam de um intervalo credível Bayesiano.

Um IC estreito não é o mesmo que um preciso. Se o seu método de amostragem for enviesado — amostras de conveniência, respondentes auto-selecionados, desistências — o IC será apertado, mas centrado no número errado. A estatística quantifica o erro de amostragem, não o erro de medição ou o viés de seleção. Uma pesquisa online com um milhão de respondentes ainda pode estar muito errada se os respondentes não se parecem com a população.

Os ICs assumem que os dados vêm de uma distribuição aproximadamente simétrica (ou que n é grande o suficiente para o CLT começar a agir). Dados muito enviesados — rendas, tempos de resposta, forças de reação biológicas — devem ser transformados (log) antes de aplicar a fórmula, ou analisados com um método não-paramétrico como um IC bootstrap.

Um IC para a média não é um intervalo de previsão para uma observação individual. O IC lhe diz onde a média reside; o intervalo de previsão (muito mais amplo, fator de ≈ √(1 + 1/n) maior) lhe diz onde o próximo valor individual provavelmente cairá.

Se você calcular muitos ICs simultaneamente — comparando 20 variantes de produtos, rastreando 100 genes — a taxa de erro familiar aumenta drasticamente. As correções de Bonferroni ou Benjamini-Hochberg alargam cada intervalo para manter o nível de confiança geral honesto.

Finalmente, um IC não diz nada sobre significância clínica ou de negócios. Uma melhoria perfeitamente significativa de 0,1 ponto na satisfação do usuário pode ser estatisticamente real e economicamente irrelevante. Sempre leia os limites em unidades de domínio antes de agir sobre eles.

Variações e intervalos relacionados

IC para uma proporção — fórmula inteiramente diferente. A versão de Wald (de livro) tem um desempenho ruim perto de 0 % ou 100 %; o intervalo de pontuação de Wilson e a correção de Agresti–Coull são muito mais confiáveis e agora o padrão na maioria dos softwares.
IC para a diferença de duas médias — combine erros padrão via fórmula de Welch quando as variâncias da amostra diferem; caso contrário, junte-as. É isso que impulsiona a maioria dos relatórios de teste A/B.
IC Bootstrap — reamostre os dados com reposição milhares de vezes, recalcule a estatística a cada vez, pegue os percentis 2,5 e 97,5. Sem suposição de normalidade, funciona para qualquer estatística (mediana, razão, correlação), mas precisa de um computador. Particularmente útil para dados assimétricos ou não normais.
Intervalo credível Bayesiano — a resposta para "qual é a probabilidade de o parâmetro estar neste intervalo, dado este prior e estes dados?" Numericamente próximo de um IC frequentista para um prior não informativo, mas interpretável em linguagem de probabilidade simples.
Intervalo de previsão — o intervalo em que uma futura observação única é esperada cair, dada a amostra atual. Mais amplo que o IC para a média.
Intervalo de tolerância — o intervalo que cobre uma proporção declarada da população (por exemplo, "95 % das garrafas serão preenchidas entre 498 ml e 502 ml") com uma confiança declarada. Padrão de controle de qualidade, distinto tanto dos ICs quanto dos intervalos de previsão.

Escolher o intervalo certo é metade da análise. Aplicar erroneamente um IC da média onde um IC de proporção ou um intervalo de previsão era necessário é um dos erros mais comuns na estatística aplicada — e um dos mais fáceis de evitar uma vez que as distinções acima estejam claras.