Standardabweichung

03So funktioniert's

Warum diese Berechnung

Ein einzelner Durchschnitt erzählt selten die ganze Geschichte über einen Datensatz. Zwei Klassen können beide einen Mittelwert von 12 von 20 haben, doch die eine könnte sich eng um diesen Mittelwert konzentrieren, während die andere in eine Gruppe von Hochleistern und eine Gruppe von Nachzüglern aufgeteilt ist. Zwei Fabriken können Teile mit demselben durchschnittlichen Durchmesser herstellen, doch die eine liefert konsistente Ware und die andere lehnt die Hälfte ihrer Produktion wegen Überschreitung der Toleranz ab. Die Standardabweichung erfasst genau die Dimension, die dem Mittelwert verborgen bleibt: wie stark die Werte um das Zentrum gestreut sind. Sie ist die am häufigsten verwendete Statistik außerhalb des Mittelwerts selbst, der Baustein für Konfidenzintervalle, Hypothesentests, Regelkarten und Risikokennzahlen, und die erste Zahl, die jeder Datenanalyst nach dem Durchschnitt berechnet. Dieser Rechner nimmt eine Liste von Zahlen (getrennt durch Leerzeichen, Kommas oder Zeilenumbrüche) und gibt den Mittelwert, den Median, die Varianz, die Standardabweichung nach beiden Konventionen (Stichprobe und Grundgesamtheit), die Spannweite und den Variationskoeffizienten zurück – genug, um den Ort und die Streuung eines Datensatzes auf einem Bildschirm zu charakterisieren.

Die Formel

Die Standardabweichung ist die Quadratwurzel der Varianz, und die Varianz ist die durchschnittliche quadratische Abweichung vom Mittelwert. Es gibt zwei Varianten. Die Standardabweichung der Grundgesamtheit σ verwendet die Formel σ = √(Σ(xᵢ − μ)² / N), wobei N die Anzahl der Werte und μ der Mittelwert ist. Die Standardabweichung der Stichprobe s verwendet Σ(xᵢ − x̄)² / (n − 1), wobei der Nenner um eins reduziert ist – dies ist Bessel-Korrektur, und sie entfernt eine kleine Verzerrung, die ansonsten dazu führen würde, dass die Standardabweichung der Stichprobe die wahre Standardabweichung der Grundgesamtheit, wenn sie aus einer endlichen Stichprobe berechnet wird, systematisch unterschätzt. Wenn die Daten, die Sie haben, die gesamte Grundgesamtheit sind (jeder Schüler in der Klasse, jede heute produzierte Schraube), verwenden Sie die Formel für die Grundgesamtheit. Wenn die Daten eine Stichprobe aus einer größeren Grundgesamtheit sind (eine Umfrage unter 1.000 Wählern, eine Qualitätskontrollstichprobe von 50 Teilen), verwenden Sie die Formel für die Stichprobe. Der Standard in diesem Rechner ist die Formel für die Stichprobe, da sie dem häufigsten Fall entspricht: Sie haben eine Stichprobe und möchten die Standardabweichung der Grundgesamtheit schätzen. Der Variationskoeffizient ist die Standardabweichung geteilt durch den Mittelwert, ausgedrückt als Prozentsatz; er ist dimensionslos und ermöglicht den Vergleich der Streuung über Datensätze mit unterschiedlichen Einheiten oder unterschiedlichen Skalen.

Wie man ihn benutzt

Fügen Sie Ihre Zahlen in das Textfeld ein oder tippen Sie sie ein. Trennzeichen können Kommas, Leerzeichen, Semikolons oder Zeilenumbrüche sein (oder eine beliebige Mischung davon). Nicht-numerische Token werden stillschweigend ignoriert, sodass Sie eine Spalte direkt aus einer Tabelle einfügen können, ohne sie bereinigen zu müssen. Der Schalter unten schaltet zwischen Stichproben- und Grundgesamtheits-Standardabweichung um. Das Ergebnispanel zeigt die SD als wichtigste Kennzahl (KPI), neben dem Mittelwert, dem Median (der im Gegensatz zum Mittelwert unempfindlich gegenüber Ausreißern ist), der Varianz, der Spannweite (Maximum minus Minimum) und dem Variationskoeffizienten. Die Standardreihe sind zehn Noten, die zwischen 9 und 18 gestreut sind, was einen Mittelwert von 13,5 und eine Stichproben-SD von 2,51 ergibt – konkrete Zahlen zum Spielen.

Beispielrechnung

Nehmen wir den Datensatz 12, 14, 11, 15, 13, 16, 10, 18, 14, 12 (n = 10). Der Mittelwert ist die Summe geteilt durch n: (12+14+11+15+13+16+10+18+14+12)/10 = 135/10 = 13,5. Die quadrierten Abweichungen vom Mittelwert sind 2,25, 0,25, 6,25, 2,25, 0,25, 6,25, 12,25, 20,25, 0,25, 2,25, was sich zu 52,5 summiert. Dividieren Sie durch n = 10 (Grundgesamtheit) und erhalten Sie eine Varianz von 5,25 und eine Standardabweichung der Grundgesamtheit von √5,25 ≈ 2,29. Dividieren Sie durch n − 1 = 9 (Stichprobe) und erhalten Sie eine Varianz von ≈ 5,83 und eine Standardabweichung der Stichprobe von ≈ 2,41. Der Median, sortiert, ist der Durchschnitt des fünften und sechsten Wertes, (13 + 14)/2 = 13,5 – gleich dem Mittelwert, was auf eine annähernd symmetrische Verteilung hindeutet. Die Spannweite beträgt 18 − 10 = 8. Der Variationskoeffizient beträgt 2,41 / 13,5 ≈ 17,9 %, was bedeutet, dass die Streuung etwa ein Sechstel der durchschnittlichen Größe beträgt – ein typisches Maß für die Variabilität von Noten.

Häufige Fallstricke

Erstens, die falsche Division zu wählen. Die Stichprobenformel verwendet n − 1; die Verwendung von n bei einer kleinen Stichprobe verzerrt die SD nach unten. Der Unterschied ist am größten, wenn n klein ist: bei n = 5 unterscheiden sich die beiden um etwa zehn Prozent; bei n = 100 um ein halbes Prozent. Zweitens, die Standardabweichung als Konfidenzintervall zu behandeln. SD beschreibt die Streuung der Daten; der Standardfehler des Mittelwerts (SE = SD / √n) beschreibt die Unsicherheit über den Durchschnitt. Sie unterscheiden sich um den Faktor √n. Drittens, SD für Daten zu berechnen, die nicht normalverteilt sind. Die Regel 68/95/99,7 (eine, zwei, drei SDs umfassen diese Prozentsätze der Daten) gilt nur für eine Gaußsche Verteilung. Schiefe oder fett-schwänzige Daten haben weit mehr Ausreißer als die Regel vorhersagt. Viertens, Einheiten zu mischen. Die Varianz liegt in den Einheiten im Quadrat vor, die SD in den ursprünglichen Einheiten; Diagramme, die die Varianz gegen eine Achse in den ursprünglichen Einheiten auftragen, sind irreführend. Fünftens, Ausreißer zu ignorieren. Ein einzelner extremer Wert kann die SD unkenntlich machen; die Median Absolute Deviation (MAD) ist eine robustere Alternative.

Variationen & Kontext

Die SD hat viele Verwandte. Der Interquartilsabstand (Q3 − Q1) ignoriert die obersten und untersten 25 % und ist robust gegenüber Ausreißern. Die Median Absolute Deviation ist der Median der absoluten Abweichungen vom Median – eine noch robustere Streuungsstatistik. Die Mean Absolute Deviation verwendet absolute Werte anstelle von Quadraten und liegt näher an der Intuition eines Laien von „durchschnittlicher Entfernung vom Durchschnitt“, ist aber mathematisch weniger handhabbar, weshalb Quadrate im historischen Streit gewonnen haben. Gewichtete Standardabweichung erlaubt es verschiedenen Beobachtungen, stärker zu zählen (nützlich, wenn Datenpunkte Gruppen unterschiedlicher Größe darstellen). An den Finanzmärkten ist die SD der Renditen das, was man als Volatilität bezeichnet, normalerweise auf Jahresbasis nach Multiplikation mit √(Handelstage pro Jahr) angegeben. In Physik und Ingenieurwesen wird die SD als Unsicherheit einer Messung angegeben; in der Psychometrie liegt ihr die z-Wert zugrunde, in der Qualitätskontrolle der Prozessfähigkeitsindex Cpk und im maschinellen Lernen der Standard Scaler, der Merkmale vor dem Training auf Mittelwert Null und SD eins normalisiert.