Calcolatore Z-score

03Come funziona

Perché questo calcolo

Lo z-score è la standardizzazione più utilizzata in statistica: trasforma un'osservazione in un numero di deviazioni standard dalla media della popolazione, consentendo un confronto diretto tra distribuzioni con unità di misura diverse. Un voto di 78 in una materia e 85 in un'altra non sono comparabili finché non si conosce la media e la dispersione della classe; i loro z-score lo sono. Uno z-score si collega direttamente alla distribuzione normale standard: il 95% delle osservazioni rientra in ±1,96 σ; ±3 σ segnano la regola del 99,7%. Il controllo di qualità Six Sigma, i punteggi QI, le curve di crescita (altezza/peso pediatrico), i test psicometrici e la maggior parte dei test A/B si basano sull'aritmetica dello z-score. Questo calcolatore calcola lo z-score da x, μ e σ, più il percentile, le probabilità a una coda e il p-value a due code, con una visualizzazione della curva normale che ombreggia l'area sotto l'osservazione.

La formula

Z-score: z = (x − μ) / σ.

x è l'osservazione, μ la media, σ la deviazione standard (deve essere > 0). z è adimensionale.

CDF della normale standard Φ(z): probabilità che una variabile casuale normale standard sia ≤ z. Calcolata tramite l'approssimazione erf (Abramowitz & Stegun): erf(x) = 1 − (a₁t + a₂t² + a₃t³ + a₄t⁴ + a₅t⁵) e^(−x²), dove t = 1 / (1 + p·x), con costanti p = 0,3275911 e aᵢ come specificato. Φ(z) = ½(1 + erf(z / √2)). Accuratezza fino a 1,5 × 10⁻⁷.

Output: - z: valore standardizzato. - Percentile: Φ(z) × 100, la percentuale della popolazione con valori ≤ x. - P(X ≤ x): uguale a percentile / 100. - P(X > x): 1 − Φ(z). - P-value a due code: 2 × min(Φ(z), 1 − Φ(z)) — la probabilità di osservare |z| o un valore maggiore per caso, utile per i test di ipotesi.

Fasce di interpretazione: |z| < 0,5 molto tipico; 0,5–1 tipico; 1–2 notevole; 2–3 insolito; > 3 estremo.

Come usarlo

Inserisci l'osservazione x, la media della popolazione μ e la deviazione standard σ. Il pannello dei risultati mostra z (titolo), il percentile, il p-value a due code, entrambe le probabilità a una coda e un'interpretazione verbale. Il grafico disegna la curva normale standard, ombreggia l'area sotto z e segna la posizione di z con una linea verticale.

Esempio pratico

Punteggio QI 120, μ = 100, σ = 15 (scala QI standard).

z = (120 − 100) / 15 = +1,333.
Φ(z) = 0,9088 → 90,88 %ile.
P(X ≤ 120) = 90,88 %; P(X > 120) = 9,12 %.
P-value a due code: 2 × 9,12 % = 18,24 %.
Interpretazione: Notevole (1 < |z| < 2).

Voto d'esame 78, μ = 70, σ = 10.

z = +0,8.
Φ(0,8) = 0,7881 → 78,81 %ile.

Valore anomalo: 245, μ = 100, σ = 25.

z = (245 − 100) / 25 = +5,8.
Φ(5,8) ≈ 1 (precisione del computer); P(X > 5,8 σ) ≈ 3,3 × 10⁻⁹.
Interpretazione: Estremo — un evento di questa magnitudine secondo il modello normale assunto è essenzialmente impossibile.

Potenziali insidie

Assunzione di normalità. Il percentile e il p-value richiedono che la distribuzione sottostante sia normale. Per dati non normali (asimmetrici, a coda pesante, multimodali), gli z-score sono ancora computabili ma la loro interpretazione probabilistica fallisce. Il reddito reale, i tempi di richiesta web e i rendimenti azionari non sono normali — lo z-score per "il 99° percentile dei rendimenti" può essere molto inferiore al +2,33 previsto dal modello normale.

σ della popolazione vs campione. La formula utilizza la σ della popolazione. Se si dispone di un campione e si è utilizzata la deviazione standard campionaria s, si sta in realtà calcolando una statistica t (t di Student), non uno z. Per campioni grandi (n > 30) i due sono quasi identici; per campioni piccoli utilizzare esplicitamente le tabelle t.

Sensibilità agli outlier. Sia μ che σ sono sensibili agli outlier — un singolo valore estremo può spostare μ e gonfiare σ, distorcendo tutti gli z-score. Alternative robuste (mediana, MAD) sono meno influenzate.

Limiti di approssimazione. L'approssimazione erf nel calcolatore è accurata fino a 10⁻⁷; per probabilità di coda profonda (z > 6), utilizzare librerie specializzate (mpmath, scipy.stats.norm).

P-value a due code vs a una coda. A due code: P(|Z| ≥ |z|), usato quando l'ipotesi alternativa è "diversa da μ". A una coda: P(Z ≥ z) o P(Z ≤ z), usato quando l'alternativa è specificamente "maggiore di μ" o "minore di μ". Il calcolatore mostra entrambi; scegliere quello che corrisponde alla propria ipotesi.

Test multipli. Se si calcolano gli z-score su 100 osservazioni e si chiede "ce n'è qualcuno con |z| > 2?", ci si aspetterebbero circa 5 per puro caso anche sotto l'ipotesi nulla. È necessaria la correzione di Bonferroni o FDR per i confronti multipli.

La standardizzazione non è una trasformazione in normale. Lo z-scoring di una variabile non normale non la rende normale; la sposta e la riscala soltanto. La forma rimane.

Caso limite σ = 0. Se σ = 0, il calcolatore rifiuta (nessuna varianza, nessuno z). Tutte le osservazioni sono a μ.

|z| molto grandi. La precisione doppia JS va in overflow per |z| > 38; il percentile si satura a 0% o 100%. Gli z-score nel mondo reale raramente superano 8.

Intervalli di confidenza vs z-score. Un IC al 95% utilizza z = 1,96; un IC al 99% utilizza z = 2,576. Questi sono quantili, non osservazioni — il calcolatore prende osservazioni e calcola z, non l'inverso.

Variazioni

Funzione inversa della CDF (funzione quantile): dato un percentile, trovare lo z corrispondente. Problema diverso.
Statistica t di Student: l'analogo per campioni piccoli con σ campionario.
Calcolatore della dimensione del campione: utilizza gli z-score per gli intervalli di confidenza.
Rilevamento anomalie: z-score o z-score modificati (mediana + MAD) segnalano gli outlier.
Indice Cpk Six Sigma: indice di capacità del processo basato sulla distanza z ai limiti di specifica.