Konfidenzintervall (Mittelwert)

03So funktioniert's

Warum ein Konfidenzintervall besser ist als eine einzelne Schätzung

Ein Stichprobenmittelwert ist eine Punktschätzung – eine einzelne Zahl, die aus einer bestimmten Stichprobe gezogen wird. Wiederholen Sie die Umfrage, den Versuch oder die Produktionscharge, und Sie werden mit ziemlicher Sicherheit eine andere Zahl erhalten. Der gesamte Zweck der Inferenzstatistik besteht darin, zu quantifizieren, wie weit diese Streuung plausibel gehen kann, und ein Konfidenzintervall (KI) ist das Werkzeug, das dies leistet. Anstatt Ihrem Leser zu sagen „die durchschnittliche Zufriedenheit liegt bei 7,4 von 10“ – was präzise klingt, aber stillschweigend hinsichtlich ihrer eigenen Präzision falsch ist – sagt ein KI: „die durchschnittliche Zufriedenheit beträgt 7,4, und der wahre Populationsmittelwert liegt mit ziemlicher Sicherheit irgendwo zwischen 6,8 und 8,0“. Dieser zweite Satz ist derjenige, den Entscheidungsträger benötigen: Er sagt ihnen, ob der Unterschied zwischen zwei Produkten, zwei Kohorten oder zwei Chargen wahrscheinlich real oder wahrscheinlich Rauschen ist.

KIs passen sich elegant an alles an, was Sie ändern. Größere Stichprobe? Das Intervall schrumpft. Mehr Variabilität in den zugrunde liegenden Daten? Es erweitert sich. Höhere Konfidenz erforderlich? Es erweitert sich erneut. Ein Regulator, der 99,9 % Sicherheit vor der Zulassung eines Medikaments fordert, erhält ein breiteres Intervall – und benötigt einen viel größeren Versuch – als ein Vermarkter, der mit 90 % zufrieden ist. Die Mathematik macht den Kompromiss explizit.

Das Intervall ist auch das richtige Vokabular für Gespräche mit Nicht-Statistikern. Menschen verstehen „zwischen 6,8 und 8,0“ instinktiv; sie müssen darin geschult werden, p-Werte zu lesen. Diese Lesbarkeit ist der Grund, warum jede glaubwürdige wissenschaftliche Zeitschrift, jeder Prüfbericht und jedes A/B-Test-Dashboard KIs jetzt neben (oder anstelle von) Hypothesentests berichtet.

Die Formel

Für den Mittelwert einer quantitativen Variable ist das zweiseitige Konfidenzintervall:

KI = x̄ ± critical × (s / √n)

wobei x̄ der Stichprobenmittelwert, s die Stichprobenstandardabweichung, n der Stichprobenumfang und critical ein Multiplikator ist, der aus einer Wahrscheinlichkeitstabelle abgelesen wird.

Zwei Verteilungen liefern den Multiplikator:

Z (Standardnormalverteilung), wenn die Populationsstandardabweichung σ bekannt ist oder wenn die Stichprobe groß genug ist (n ≥ 30), dass der zentrale Grenzwertsatz die Stichprobenverteilung des Mittelwerts unabhängig von der Form der zugrunde liegenden Daten annähernd normal macht. Die klassischen Z-Werte sind 1,645 (90 %), 1,96 (95 %), 2,576 (99 %) und 3,291 (99,9 %).
Students t-Verteilung mit df = n − 1, wenn σ unbekannt und die Stichprobe klein ist. Die t-Verteilung hat schwerere Enden, daher sind ihre kritischen Werte größer – für n = 5 bei 95 % beträgt der Multiplikator 2,776 anstelle von 1,96, was ein merklich breiteres Intervall erzeugt. Mit wachsendem n konvergiert die t-Kurve gegen z; bei df = 30 liegt der Unterschied unter 0,5 %, und die meisten Anwender wechseln zu z.

Die Größe s / √n ist der Standardfehler des Mittelwerts – die Standardabweichung von x̄ über hypothetisch wiederholte Stichproben. Multipliziert man ihn mit dem kritischen Wert, skaliert er ihn auf das von Ihnen gewählte Konfidenzniveau.

So verwenden Sie diesen Rechner

Geben Sie den Stichprobenmittelwert ein – den Durchschnitt, den Sie aus Ihren Daten berechnet haben (z. B. 7,4 von 10).
Geben Sie die Stichprobenstandardabweichung ein – die Streuung der einzelnen Datenpunkte um diesen Mittelwert. Die meisten Tabellenkalkulationsprogramme liefern Ihnen dies mit STDEV.S(...) oder =STDEV(...).
Geben Sie den Stichprobenumfang n ein.
Wählen Sie ein Konfidenzniveau. 95 % ist der Standard in Fachzeitschriften, 90 % ist in der Marktforschung üblich, 99 % und 99,9 % erscheinen in klinischen Studien und der Qualitätskontrolle.
Lassen Sie die Verteilung auf auto, es sei denn, Sie haben einen speziellen Grund, dies zu ändern. auto wählt z, wenn n ≥ 30, und t mit df = n − 1 unterhalb dieses Schwellenwerts. Erzwingen Sie z nur, wenn σ a priori tatsächlich bekannt ist (selten). Erzwingen Sie t, um bei kleinen Stichproben auch über den Schwellenwert von 30 hinaus konservativ zu sein.

Das Ergebnispanel zeigt die untere und obere Grenze, die Fehlerspanne, den verwendeten kritischen Wert, den Standardfehler und welche Verteilung verwendet wurde.

Durchgerechnetes Beispiel

Eine klinische Studie misst die Erholungszeit bei 15 Patienten, findet einen Mittelwert von 7,4 Tagen mit einer Stichprobenstandardabweichung von 1,2 Tagen und möchte ein 95 % KI.

n = 15 → df = 14, daher verwenden wir Students t-Verteilung.
Der kritische t-Wert bei 95 % mit df = 14 beträgt 2,145.
Standardfehler = 1,2 / √15 = 0,310.
Fehlerspanne = 2,145 × 0,310 = 0,665.
KI = 7,4 ± 0,665 = [6,74, 8,07] Tage.

Nehmen wir nun an, dieselben Zahlen stammen aus einer viel größeren Studie mit n = 1000 Patienten. Der Standardfehler sinkt auf 1,2 / √1000 = 0,0379, der Rechner wechselt zu z (n ≥ 30), kritisch = 1,96, Fehlerspanne = 0,074. KI = [7,33, 7,47]. Dieselbe Punktschätzung, ein zehnmal engeres Intervall – Stichprobengröße kauft Präzision.

Fallstricke und Fehlinterpretationen

Ein 95 % KI ist nicht „eine 95 % Wahrscheinlichkeit, dass der Populationsmittelwert in diesem Intervall liegt“. Die frequentistische Interpretation ist „wenn wir den Stichprobenprozess unendlich oft wiederholen würden, würden 95 % der von uns konstruierten Intervalle den wahren Mittelwert enthalten“. Der Parameter ist fest; das Intervall ist zufällig. Personen, die die Wahrscheinlichkeitsaussage wünschen, benötigen stattdessen ein Bayessches Kredibilitätsintervall.

Ein engmaschiges KI ist nicht dasselbe wie ein genaues. Wenn Ihre Stichprobenmethode voreingenommen ist – Zufallsstichproben, selbstselektierte Befragte, Ausfälle – wird das KI eng sein, aber um die falsche Zahl zentriert. Statistik quantifiziert den Stichprobenfehler, nicht den Messfehler oder die Auswahlverzerrung. Eine Online-Umfrage mit einer Million Befragten kann immer noch stark danebenliegen, wenn die Befragten nicht wie die Population aussehen.

KIs gehen davon aus, dass die Daten aus einer ungefähr symmetrischen Verteilung stammen (oder dass n groß genug ist, damit der ZGS greift). Stark schiefe Daten – Einkommen, Reaktionszeiten, biologische Reaktionsstärken – sollten vor der Anwendung der Formel transformiert (logarithmiert) oder mit einer nicht-parametrischen Methode wie einem Bootstrap-KI analysiert werden.

Ein KI für den Mittelwert ist kein Vorhersageintervall für eine einzelne Beobachtung. Das KI sagt Ihnen, wo der Mittelwert liegt; das Vorhersageintervall (viel breiter, Faktor von ≈ √(1 + 1/n) größer) sagt Ihnen, wo der nächste einzelne Wert wahrscheinlich fallen wird.

Wenn Sie viele KIs gleichzeitig berechnen – 20 Produktvarianten vergleichen, 100 Gene screenen – steigt die Family-Wise Error Rate stark an. Die Bonferroni- oder Benjamini-Hochberg-Korrekturen erweitern jedes Intervall, um das gesamte Konfidenzniveau korrekt zu halten.

Schließlich sagt ein KI nichts über klinische oder geschäftliche Signifikanz aus. Eine perfekt signifikante Verbesserung der Benutzerzufriedenheit um 0,1 Punkte kann statistisch real und ökonomisch irrelevant sein. Lesen Sie immer die Grenzen in den Domain-Einheiten, bevor Sie danach handeln.

Variationen und verwandte Intervalle

KI für einen Anteil – eine völlig andere Formel. Die Wald-Version (Lehrbuch) schneidet nahe 0 % oder 100 % schlecht ab; das Wilson-Score-Intervall und die Agresti-Coull-Korrektur sind weitaus zuverlässiger und jetzt der Standard in den meisten Softwareprodukten.
KI für die Differenz zweier Mittelwerte – Standardfehler über die Welch-Formel kombinieren, wenn Stichprobenvarianzen unterschiedlich sind; andernfalls zusammenfassen. Dies ist die Grundlage der meisten A/B-Testberichte.
Bootstrap-KI – die Daten tausende Male mit Zurücklegen resampeln, die Statistik jedes Mal neu berechnen, das 2,5. und 97,5. Perzentil nehmen. Keine Normalitätsannahme, funktioniert für jede Statistik (Median, Verhältnis, Korrelation), benötigt aber einen Computer. Besonders nützlich für schiefe oder anderweitig nicht-normale Daten.
Bayessches Kredibilitätsintervall – die Antwort auf „Wie hoch ist die Wahrscheinlichkeit, dass der Parameter in diesem Bereich liegt, gegeben dieses Prior und diese Daten?“ Numerisch nahe an einem frequentistischen KI für ein nicht-informatives Prior, aber in einfacher Wahrscheinlichkeitssprache interpretierbar.
Vorhersageintervall – der Bereich, in den eine zukünftige einzelne Beobachtung voraussichtlich fallen wird, gegeben die aktuelle Stichprobe. Breiter als das KI für den Mittelwert.
Toleranzintervall – der Bereich, der einen angegebenen Anteil der Population abdeckt (z. B. „95 % der Flaschen werden zwischen 498 ml und 502 ml gefüllt sein“) mit einem angegebenen Konfidenz. Qualitätskontrollstandard, unterscheidet sich sowohl von KIs als auch von Vorhersageintervallen.

Die Wahl des richtigen Intervalls ist die halbe Analyse. Die falsche Anwendung eines Mittelwert-KI, wo ein Anteil-KI oder ein Vorhersageintervall benötigt wurde, ist einer der häufigsten Fehler in der angewandten Statistik – und einer der am einfachsten zu vermeiden, sobald die obigen Unterscheidungen klar sind.