Intervallo di confidenza (media)

03Come funziona

Perché un intervallo di confidenza è meglio di una singola stima

Una media campionaria è una stima puntuale – un singolo numero estratto da un particolare campione. Ripetendo l'indagine, la prova o il lotto di produzione, si otterrà quasi certamente un numero diverso. Lo scopo dell'inferenza statistica è quantificare quanto quel valore possa plausibilmente variare, e un intervallo di confidenza (IC) è lo strumento che lo fa. Invece di dire al lettore "la soddisfazione media è 7,4 su 10" – che sembra preciso ma è silenziosamente sbagliato riguardo alla sua stessa precisione – un IC afferma "la soddisfazione media è 7,4, e la vera media della popolazione si trova quasi certamente tra 6,8 e 8,0". Questa seconda frase è quella di cui i decisori hanno bisogno: indica loro se la differenza tra due prodotti, due coorti o due lotti è probabilmente reale o rumore.

Gli IC si adattano elegantemente a ogni cambiamento. Campione più grande? L'intervallo si restringe. Maggiore variabilità nei dati sottostanti? Si allarga. Richiesta di maggiore confidenza? Si allarga di nuovo. Un ente regolatore che richiede il 99,9 % di certezza prima di approvare un farmaco otterrà un intervallo più ampio – e avrà bisogno di una sperimentazione molto più grande – rispetto a un operatore di marketing soddisfatto del 90 %. La matematica rende esplicito il compromesso.

L'intervallo è anche il vocabolario giusto per parlare con i non statistici. Le persone capiscono istintivamente "tra 6,8 e 8,0"; devono essere istruite a leggere i p-value. Questa leggibilità è il motivo per cui ogni rivista scientifica credibile, ogni rapporto di audit e ogni dashboard di A/B testing ora riporta gli IC insieme (o al posto) dei test di ipotesi.

La formula

Per la media di una variabile quantitativa l'intervallo di confidenza bilaterale è:

IC = x̄ ± critico × (s / √n)

dove x̄ è la media campionaria, s la deviazione standard campionaria, n la dimensione del campione, e critico un moltiplicatore letto da una tabella di probabilità.

Due distribuzioni forniscono il moltiplicatore:

Z (normale standard) quando la deviazione standard della popolazione σ è nota, o quando il campione è abbastanza grande (n ≥ 30) da permettere che il teorema del limite centrale renda la distribuzione campionaria della media approssimativamente normale indipendentemente dalla forma dei dati sottostanti. I valori Z classici sono 1,645 (90 %), 1,96 (95 %), 2,576 (99 %) e 3,291 (99,9 %).
t di Student con df = n − 1 quando σ è sconosciuta e il campione è piccolo. La distribuzione t ha code più pesanti, quindi i suoi valori critici sono maggiori – per n = 5 al 95 %, il moltiplicatore è 2,776 invece di 1,96, producendo un intervallo sensibilmente più ampio. Man mano che n cresce, la curva t converge a z; con df = 30 la differenza è inferiore allo 0,5 % e la maggior parte dei professionisti passa a z.

La quantità s / √n è l'errore standard della media — la deviazione standard di x̄ tra ipotetici campioni ripetuti. Moltiplicandola per il valore critico, la si scala al livello di confidenza desiderato.

Come usare questo calcolatore

Inserite la media campionaria — la media che avete calcolato dai vostri dati (es. 7,4 su 10).
Inserite la deviazione standard campionaria — la dispersione dei singoli punti dati attorno a quella media. La maggior parte dei software di foglio di calcolo ve la fornisce con STDEV.S(...) o =STDEV(...).
Inserite la dimensione del campione n.
Scegliete un livello di confidenza. Il 95 % è il valore predefinito nelle riviste, il 90 % è comune nelle ricerche di mercato, il 99 % e il 99,9 % compaiono negli studi clinici e nel controllo qualità.
Lasciate Distribuzione su auto a meno che non abbiate un motivo specifico per modificarlo. auto sceglie z quando n ≥ 30 e t con df = n − 1 al di sotto di tale soglia. Forzate z solo quando σ è genuinamente nota a priori (raro). Forzate t per essere conservativi su piccoli campioni anche oltre la soglia di 30.

Il pannello dei risultati mostra i limiti inferiore e superiore, il margine di errore, il valore critico utilizzato, l'errore standard e quale distribuzione è stata impiegata.

Esempio pratico

Uno studio clinico misura il tempo di recupero su 15 pazienti, trova una media di 7,4 giorni con una deviazione standard campionaria di 1,2 giorni e vuole un IC al 95 %.

n = 15 → df = 14, quindi usiamo la t di Student.
Il valore critico t al 95 % con df = 14 è 2,145.
Errore standard = 1,2 / √15 = 0,310.
Margine di errore = 2,145 × 0,310 = 0,665.
IC = 7,4 ± 0,665 = [6,74, 8,07] giorni.

Ora supponiamo che gli stessi numeri provengano da uno studio molto più ampio di n = 1000 pazienti. L'errore standard scende a 1,2 / √1000 = 0,0379, il calcolatore passa a z (n ≥ 30), critico = 1,96, margine = 0,074. IC = [7,33, 7,47]. Stessa stima puntuale, un intervallo dieci volte più stretto — la dimensione del campione acquista precisione.

Insidie e interpretazioni errate

Un IC al 95 % non è "una probabilità del 95 % che la media della popolazione sia in questo intervallo". L'interpretazione frequentista è "se ripetessimo il processo di campionamento indefinitamente, il 95 % degli intervalli che costruiremmo conterrebbe la vera media". Il parametro è fisso; l'intervallo è casuale. Le persone che desiderano l'affermazione di probabilità hanno invece bisogno di un intervallo di credibilità bayesiano.

Un IC stretto non è lo stesso di uno accurato. Se il vostro metodo di campionamento è distorto – campioni di convenienza, intervistati auto-selezionati, abbandoni – l'IC sarà stretto ma centrato sul numero sbagliato. La statistica quantifica l'errore di campionamento, non l'errore di misurazione o il bias di selezione. Un sondaggio online con un milione di partecipanti può comunque essere molto impreciso se i rispondenti non riflettono la popolazione.

Gli IC presuppongono che i dati provengano da una distribuzione approssimativamente simmetrica (o che n sia sufficientemente grande affinché il CLT si attivi). Dati fortemente asimmetrici – redditi, tempi di risposta, forze di reazione biologica – dovrebbero essere trasformati (log) prima di applicare la formula, o analizzati con un metodo non parametrico come un IC bootstrap.

Un IC per la media non è un intervallo di previsione per una singola osservazione. L'IC vi dice dove si trova la media; l'intervallo di previsione (molto più ampio, un fattore di ≈ √(1 + 1/n) maggiore) vi dice dove è probabile che cada il prossimo singolo valore.

Se calcolate molti IC contemporaneamente – confrontando 20 varianti di prodotto, selezionando 100 geni – il tasso di errore familiare aumenta a dismisura. Le correzioni di Bonferroni o Benjamini-Hochberg allargano ogni intervallo per mantenere onesto il livello di confidenza complessivo.

Infine, un IC non dice nulla sulla significatività clinica o aziendale. Un miglioramento di 0,1 punti nella soddisfazione dell'utente, perfettamente significativo, può essere statisticamente reale ed economicamente irrilevante. Leggete sempre i limiti nelle unità del dominio prima di agire su di essi.

Variazioni e intervalli correlati

IC per una proporzione — formula interamente diversa. La versione di Wald (dei libri di testo) si comporta male vicino allo 0 % o al 100 %; l'intervallo di score di Wilson e la correzione di Agresti–Coull sono molto più affidabili e ora il valore predefinito nella maggior parte dei software.
IC per la differenza di due medie — combinate gli errori standard tramite la formula di Welch quando le varianze campionarie differiscono; altrimenti aggregate. Questo è ciò che alimenta la maggior parte dei rapporti di A/B-test.
IC Bootstrap — ricampionate i dati con rimpiazzo migliaia di volte, ricalcolate la statistica ogni volta, prendete il 2,5° e il 97,5° percentile. Nessuna assunzione di normalità, funziona per qualsiasi statistica (mediana, rapporto, correlazione), ma richiede un computer. Particolarmente utile per dati asimmetrici o altrimenti non normali.
Intervallo di credibilità bayesiano — la risposta a "qual è la probabilità che il parametro sia in questo intervallo, dato questo a priori e questi dati?" Numericamente vicino a un IC frequentista per un a priori non informativo, ma interpretabile in un linguaggio di probabilità semplice.
Intervallo di previsione — l'intervallo in cui si prevede che una singola osservazione futura cada, dato il campione attuale. Più ampio dell'IC per la media.
Intervallo di tolleranza — l'intervallo che copre una proporzione dichiarata della popolazione (es. "il 95 % delle bottiglie sarà riempito tra 498 ml e 502 ml") con una confidenza dichiarata. Standard di controllo qualità, distinto sia dagli IC che dagli intervalli di previsione.

Scegliere l'intervallo giusto è metà dell'analisi. Applicare erroneamente un IC della media quando era necessario un IC di proporzione o un intervallo di previsione è uno degli errori più comuni nella statistica applicata – e uno dei più facili da evitare una volta che le distinzioni di cui sopra sono chiare.