Deviazione standard

03Come funziona

Perché questo calcolo

Una singola media raramente racconta l'intera storia di un set di dati. Due classi possono avere entrambe un voto medio di 12 su 20, eppure una potrebbe essere strettamente raggruppata attorno a quella media, mentre l'altra si divide in un gruppo di studenti brillanti e uno che lotta per tenere il passo. Due fabbriche possono produrre parti con lo stesso diametro medio, eppure una spedisce merci consistenti e l'altra scarta metà della sua produzione perché fuori tolleranza. La deviazione standard cattura esattamente la dimensione a cui la media è cieca: quanto sono sparsi i valori attorno al centro. È la singola statistica più utilizzata al di fuori della media stessa, il blocco fondamentale degli intervalli di confidenza, dei test di ipotesi, dei grafici di controllo e delle metriche di rischio, ed è il primo numero che ogni analista di dati calcola dopo la media. Questo calcolatore prende un elenco di numeri (separati da spazi, virgole o nuove righe) e restituisce la media, la mediana, la varianza, la deviazione standard secondo entrambe le convenzioni (campionaria e della popolazione), il range e il coefficiente di variazione — abbastanza per caratterizzare la posizione e la dispersione di un set di dati in una schermata.

La formula

La deviazione standard è la radice quadrata della varianza, e la varianza è la deviazione quadratica media dalla media. Ci sono due varianti. La deviazione standard della popolazione σ utilizza la formula σ = √(Σ(xᵢ − μ)² / N), dove N è il numero di valori e μ è la media. La deviazione standard campionaria s utilizza Σ(xᵢ − x̄)² / (n − 1), con il divisore ridotto di uno — questa è la correzione di Bessel, e rimuove un piccolo bias che altrimenti farebbe sottostimare sistematicamente la deviazione standard campionaria rispetto alla vera deviazione standard della popolazione quando viene calcolata da un campione finito. Quando i dati che hai sono l'intera popolazione (tutti gli studenti della classe, tutte le viti prodotte oggi), usa la formula della popolazione. Quando i dati sono un campione tratto da una popolazione più ampia (un sondaggio di 1.000 elettori, un campione di controllo qualità di 50 pezzi), usa la formula campionaria. L'impostazione predefinita in questo calcolatore è la formula campionaria perché corrisponde al caso più comune: hai un campione e vuoi stimare la deviazione standard della popolazione. Il coefficiente di variazione è la deviazione standard divisa per la media, espressa in percentuale; è adimensionale e consente di confrontare la dispersione tra set di dati con unità o scale diverse.

Come usarlo

Incolla o digita i tuoi numeri nella casella di testo. I separatori possono essere virgole, spazi, punti e virgola o nuove righe (o qualsiasi miscela di questi). I token non numerici vengono ignorati silenziosamente, quindi puoi incollare una colonna direttamente da un foglio di calcolo senza ripulirla. L'interruttore sottostante consente di passare dalla deviazione standard campionaria a quella della popolazione. Il pannello dei risultati mostra la DS come KPI principale, accanto alla media, alla mediana (che è robusta agli outlier in un modo in cui la media non lo è), alla varianza, al range (massimo meno minimo) e al coefficiente di variazione. La serie predefinita è di dieci voti sparsi tra 9 e 18, che danno una media di 13,5 e una DS campionaria di 2,51 — numeri concreti con cui giocare.

Esempio pratico

Prendi il set di dati 12, 14, 11, 15, 13, 16, 10, 18, 14, 12 (n = 10). La media è la somma divisa per n: (12+14+11+15+13+16+10+18+14+12)/10 = 135/10 = 13,5. Le deviazioni quadratiche dalla media sono 2,25, 0,25, 6,25, 2,25, 0,25, 6,25, 12,25, 20,25, 0,25, 2,25, che sommano a 52,5. Dividendo per n = 10 (popolazione) si ottiene una varianza di 5,25 e una DS della popolazione di √5,25 ≈ 2,29. Dividendo per n − 1 = 9 (campione) si ottiene una varianza di ≈ 5,83 e una DS campionaria di ≈ 2,41. La mediana, ordinata, è la media del quinto e sesto valore, (13 + 14)/2 = 13,5 — uguale alla media, suggerendo una distribuzione approssimativamente simmetrica. Il range è 18 − 10 = 8. Il coefficiente di variazione è 2,41 / 13,5 ≈ 17,9 %, il che significa che la dispersione è circa un sesto della dimensione media — un livello tipico di variabilità per i voti.

Errori comuni

Primo, scegliere il divisore sbagliato. La formula campionaria usa n − 1; usare n su un campione piccolo rende la DS sottostimata. La differenza è più significativa quando n è piccolo: a n = 5, i due differiscono di circa il dieci percento; a n = 100, di mezzo percento. Secondo, trattare la deviazione standard come un intervallo di confidenza. La DS descrive la dispersione dei dati; l'errore standard della media (SE = DS / √n) descrive l'incertezza sulla media. Differiscono per un fattore di √n. Terzo, calcolare la DS su dati che non sono normali. La regola del 68/95/99,7 (uno, due, tre DS coprono quelle percentuali dei dati) vale solo per una distribuzione gaussiana. Dati asimmetrici o con code pesanti avranno molti più outlier di quanto preveda la regola. Quarto, mescolare le unità. La varianza è in unità al quadrato, la DS è nelle unità originali; grafici che mostrano la varianza contro un asse nelle unità originali sono fuorvianti. Quinto, ignorare gli outlier. Un singolo valore estremo può gonfiare la DS oltre ogni ragionevolezza; la deviazione assoluta mediana (MAD) è un'alternativa più robusta.

Variazioni e contesto

La DS ha molti cugini. Il range interquartile (Q3 − Q1) ignora il 25% superiore e inferiore ed è robusto agli outlier. La deviazione assoluta mediana è la mediana delle deviazioni assolute dalla mediana — una statistica di dispersione ancora più robusta. La deviazione assoluta media utilizza valori assoluti invece di quadrati ed è più vicina all'intuizione di una persona comune di "distanza media dalla media", ma è meno trattabile matematicamente, motivo per cui i quadrati hanno vinto l'argomento storico. La deviazione standard pesata consente a diverse osservazioni di contare di più (utile quando i punti dati rappresentano gruppi di diverse dimensioni). Nei mercati finanziari, la DS dei rendimenti è ciò che la gente chiama volatilità, solitamente quotata su base annua dopo aver moltiplicato per √(giorni di negoziazione all'anno). In fisica e ingegneria, la DS viene riportata come incertezza su una misurazione; in psicometria sottende lo z-score, nel controllo qualità l'indice di capacità del processo Cpk, e nel machine learning lo standard scaler che normalizza le feature a media zero e DS uno prima dell'addestramento.