IC per la media: x̄ ± z·(σ/√n) per σ nota; t per piccoli campioni.
CI = x̄ ± critico × (s/√n). La regola automatica sceglie z quando n ≥ 30 (campione grande, CLT) e t di Student con df = n−1 altrimenti. L'intervallo del 95 % contiene la media vera in circa il 95 % dei campioni ripetuti — NON è un'affermazione di probabilità su un singolo parametro fisso.
Una media campionaria è una stima puntuale – un singolo numero estratto da un particolare campione. Ripetendo l'indagine, la prova o il lotto di produzione, si otterrà quasi certamente un numero diverso. Lo scopo dell'inferenza statistica è quantificare quanto quel valore possa plausibilmente variare, e un intervallo di confidenza (IC) è lo strumento che lo fa. Invece di dire al lettore "la soddisfazione media è 7,4 su 10" – che sembra preciso ma è silenziosamente sbagliato riguardo alla sua stessa precisione – un IC afferma "la soddisfazione media è 7,4, e la vera media della popolazione si trova quasi certamente tra 6,8 e 8,0". Questa seconda frase è quella di cui i decisori hanno bisogno: indica loro se la differenza tra due prodotti, due coorti o due lotti è probabilmente reale o rumore.
Gli IC si adattano elegantemente a ogni cambiamento. Campione più grande? L'intervallo si restringe. Maggiore variabilità nei dati sottostanti? Si allarga. Richiesta di maggiore confidenza? Si allarga di nuovo. Un ente regolatore che richiede il 99,9 % di certezza prima di approvare un farmaco otterrà un intervallo più ampio – e avrà bisogno di una sperimentazione molto più grande – rispetto a un operatore di marketing soddisfatto del 90 %. La matematica rende esplicito il compromesso.
L'intervallo è anche il vocabolario giusto per parlare con i non statistici. Le persone capiscono istintivamente "tra 6,8 e 8,0"; devono essere istruite a leggere i p-value. Questa leggibilità è il motivo per cui ogni rivista scientifica credibile, ogni rapporto di audit e ogni dashboard di A/B testing ora riporta gli IC insieme (o al posto) dei test di ipotesi.
Per la media di una variabile quantitativa l'intervallo di confidenza bilaterale è:
IC = x̄ ± critico × (s / √n)
dove x̄ è la media campionaria, s la deviazione standard campionaria, n la dimensione del campione, e critico un moltiplicatore letto da una tabella di probabilità.
Due distribuzioni forniscono il moltiplicatore:
La quantità s / √n è l'errore standard della media — la deviazione standard di x̄ tra ipotetici campioni ripetuti. Moltiplicandola per il valore critico, la si scala al livello di confidenza desiderato.
STDEV.S(...) o =STDEV(...).auto a meno che non abbiate un motivo specifico per modificarlo. auto sceglie z quando n ≥ 30 e t con df = n − 1 al di sotto di tale soglia. Forzate z solo quando σ è genuinamente nota a priori (raro). Forzate t per essere conservativi su piccoli campioni anche oltre la soglia di 30.Il pannello dei risultati mostra i limiti inferiore e superiore, il margine di errore, il valore critico utilizzato, l'errore standard e quale distribuzione è stata impiegata.
Uno studio clinico misura il tempo di recupero su 15 pazienti, trova una media di 7,4 giorni con una deviazione standard campionaria di 1,2 giorni e vuole un IC al 95 %.
Ora supponiamo che gli stessi numeri provengano da uno studio molto più ampio di n = 1000 pazienti. L'errore standard scende a 1,2 / √1000 = 0,0379, il calcolatore passa a z (n ≥ 30), critico = 1,96, margine = 0,074. IC = [7,33, 7,47]. Stessa stima puntuale, un intervallo dieci volte più stretto — la dimensione del campione acquista precisione.
Un IC al 95 % non è "una probabilità del 95 % che la media della popolazione sia in questo intervallo". L'interpretazione frequentista è "se ripetessimo il processo di campionamento indefinitamente, il 95 % degli intervalli che costruiremmo conterrebbe la vera media". Il parametro è fisso; l'intervallo è casuale. Le persone che desiderano l'affermazione di probabilità hanno invece bisogno di un intervallo di credibilità bayesiano.
Un IC stretto non è lo stesso di uno accurato. Se il vostro metodo di campionamento è distorto – campioni di convenienza, intervistati auto-selezionati, abbandoni – l'IC sarà stretto ma centrato sul numero sbagliato. La statistica quantifica l'errore di campionamento, non l'errore di misurazione o il bias di selezione. Un sondaggio online con un milione di partecipanti può comunque essere molto impreciso se i rispondenti non riflettono la popolazione.
Gli IC presuppongono che i dati provengano da una distribuzione approssimativamente simmetrica (o che n sia sufficientemente grande affinché il CLT si attivi). Dati fortemente asimmetrici – redditi, tempi di risposta, forze di reazione biologica – dovrebbero essere trasformati (log) prima di applicare la formula, o analizzati con un metodo non parametrico come un IC bootstrap.
Un IC per la media non è un intervallo di previsione per una singola osservazione. L'IC vi dice dove si trova la media; l'intervallo di previsione (molto più ampio, un fattore di ≈ √(1 + 1/n) maggiore) vi dice dove è probabile che cada il prossimo singolo valore.
Se calcolate molti IC contemporaneamente – confrontando 20 varianti di prodotto, selezionando 100 geni – il tasso di errore familiare aumenta a dismisura. Le correzioni di Bonferroni o Benjamini-Hochberg allargano ogni intervallo per mantenere onesto il livello di confidenza complessivo.
Infine, un IC non dice nulla sulla significatività clinica o aziendale. Un miglioramento di 0,1 punti nella soddisfazione dell'utente, perfettamente significativo, può essere statisticamente reale ed economicamente irrilevante. Leggete sempre i limiti nelle unità del dominio prima di agire su di essi.
Scegliere l'intervallo giusto è metà dell'analisi. Applicare erroneamente un IC della media quando era necessario un IC di proporzione o un intervallo di previsione è uno degli errori più comuni nella statistica applicata – e uno dei più facili da evitare una volta che le distinzioni di cui sopra sono chiare.