KI für den Mittelwert: x̄ ± z·(σ/√n) für bekanntes σ; t für kleine Stichproben.
KI = x̄ ± kritischer Wert × (s/√n). Die automatische Regel wählt z, wenn n ≥ 30 (Großstichprobe, CLT) und Student's t mit df = n−1 andernfalls. Das 95 % Intervall enthält den wahren Mittelwert in ~95 % der wiederholten Stichproben — es ist KEINE Wahrscheinlichkeitsaussage über einen einzelnen festen Parameter.
Ein Stichprobenmittelwert ist eine Punktschätzung – eine einzelne Zahl, die aus einer bestimmten Stichprobe gezogen wird. Wiederholen Sie die Umfrage, den Versuch oder die Produktionscharge, und Sie werden mit ziemlicher Sicherheit eine andere Zahl erhalten. Der gesamte Zweck der Inferenzstatistik besteht darin, zu quantifizieren, wie weit diese Streuung plausibel gehen kann, und ein Konfidenzintervall (KI) ist das Werkzeug, das dies leistet. Anstatt Ihrem Leser zu sagen „die durchschnittliche Zufriedenheit liegt bei 7,4 von 10“ – was präzise klingt, aber stillschweigend hinsichtlich ihrer eigenen Präzision falsch ist – sagt ein KI: „die durchschnittliche Zufriedenheit beträgt 7,4, und der wahre Populationsmittelwert liegt mit ziemlicher Sicherheit irgendwo zwischen 6,8 und 8,0“. Dieser zweite Satz ist derjenige, den Entscheidungsträger benötigen: Er sagt ihnen, ob der Unterschied zwischen zwei Produkten, zwei Kohorten oder zwei Chargen wahrscheinlich real oder wahrscheinlich Rauschen ist.
KIs passen sich elegant an alles an, was Sie ändern. Größere Stichprobe? Das Intervall schrumpft. Mehr Variabilität in den zugrunde liegenden Daten? Es erweitert sich. Höhere Konfidenz erforderlich? Es erweitert sich erneut. Ein Regulator, der 99,9 % Sicherheit vor der Zulassung eines Medikaments fordert, erhält ein breiteres Intervall – und benötigt einen viel größeren Versuch – als ein Vermarkter, der mit 90 % zufrieden ist. Die Mathematik macht den Kompromiss explizit.
Das Intervall ist auch das richtige Vokabular für Gespräche mit Nicht-Statistikern. Menschen verstehen „zwischen 6,8 und 8,0“ instinktiv; sie müssen darin geschult werden, p-Werte zu lesen. Diese Lesbarkeit ist der Grund, warum jede glaubwürdige wissenschaftliche Zeitschrift, jeder Prüfbericht und jedes A/B-Test-Dashboard KIs jetzt neben (oder anstelle von) Hypothesentests berichtet.
Für den Mittelwert einer quantitativen Variable ist das zweiseitige Konfidenzintervall:
KI = x̄ ± critical × (s / √n)
wobei x̄ der Stichprobenmittelwert, s die Stichprobenstandardabweichung, n der Stichprobenumfang und critical ein Multiplikator ist, der aus einer Wahrscheinlichkeitstabelle abgelesen wird.
Zwei Verteilungen liefern den Multiplikator:
Die Größe s / √n ist der Standardfehler des Mittelwerts – die Standardabweichung von x̄ über hypothetisch wiederholte Stichproben. Multipliziert man ihn mit dem kritischen Wert, skaliert er ihn auf das von Ihnen gewählte Konfidenzniveau.
STDEV.S(...) oder =STDEV(...).auto, es sei denn, Sie haben einen speziellen Grund, dies zu ändern. auto wählt z, wenn n ≥ 30, und t mit df = n − 1 unterhalb dieses Schwellenwerts. Erzwingen Sie z nur, wenn σ a priori tatsächlich bekannt ist (selten). Erzwingen Sie t, um bei kleinen Stichproben auch über den Schwellenwert von 30 hinaus konservativ zu sein.Das Ergebnispanel zeigt die untere und obere Grenze, die Fehlerspanne, den verwendeten kritischen Wert, den Standardfehler und welche Verteilung verwendet wurde.
Eine klinische Studie misst die Erholungszeit bei 15 Patienten, findet einen Mittelwert von 7,4 Tagen mit einer Stichprobenstandardabweichung von 1,2 Tagen und möchte ein 95 % KI.
Nehmen wir nun an, dieselben Zahlen stammen aus einer viel größeren Studie mit n = 1000 Patienten. Der Standardfehler sinkt auf 1,2 / √1000 = 0,0379, der Rechner wechselt zu z (n ≥ 30), kritisch = 1,96, Fehlerspanne = 0,074. KI = [7,33, 7,47]. Dieselbe Punktschätzung, ein zehnmal engeres Intervall – Stichprobengröße kauft Präzision.
Ein 95 % KI ist nicht „eine 95 % Wahrscheinlichkeit, dass der Populationsmittelwert in diesem Intervall liegt“. Die frequentistische Interpretation ist „wenn wir den Stichprobenprozess unendlich oft wiederholen würden, würden 95 % der von uns konstruierten Intervalle den wahren Mittelwert enthalten“. Der Parameter ist fest; das Intervall ist zufällig. Personen, die die Wahrscheinlichkeitsaussage wünschen, benötigen stattdessen ein Bayessches Kredibilitätsintervall.
Ein engmaschiges KI ist nicht dasselbe wie ein genaues. Wenn Ihre Stichprobenmethode voreingenommen ist – Zufallsstichproben, selbstselektierte Befragte, Ausfälle – wird das KI eng sein, aber um die falsche Zahl zentriert. Statistik quantifiziert den Stichprobenfehler, nicht den Messfehler oder die Auswahlverzerrung. Eine Online-Umfrage mit einer Million Befragten kann immer noch stark danebenliegen, wenn die Befragten nicht wie die Population aussehen.
KIs gehen davon aus, dass die Daten aus einer ungefähr symmetrischen Verteilung stammen (oder dass n groß genug ist, damit der ZGS greift). Stark schiefe Daten – Einkommen, Reaktionszeiten, biologische Reaktionsstärken – sollten vor der Anwendung der Formel transformiert (logarithmiert) oder mit einer nicht-parametrischen Methode wie einem Bootstrap-KI analysiert werden.
Ein KI für den Mittelwert ist kein Vorhersageintervall für eine einzelne Beobachtung. Das KI sagt Ihnen, wo der Mittelwert liegt; das Vorhersageintervall (viel breiter, Faktor von ≈ √(1 + 1/n) größer) sagt Ihnen, wo der nächste einzelne Wert wahrscheinlich fallen wird.
Wenn Sie viele KIs gleichzeitig berechnen – 20 Produktvarianten vergleichen, 100 Gene screenen – steigt die Family-Wise Error Rate stark an. Die Bonferroni- oder Benjamini-Hochberg-Korrekturen erweitern jedes Intervall, um das gesamte Konfidenzniveau korrekt zu halten.
Schließlich sagt ein KI nichts über klinische oder geschäftliche Signifikanz aus. Eine perfekt signifikante Verbesserung der Benutzerzufriedenheit um 0,1 Punkte kann statistisch real und ökonomisch irrelevant sein. Lesen Sie immer die Grenzen in den Domain-Einheiten, bevor Sie danach handeln.
Die Wahl des richtigen Intervalls ist die halbe Analyse. Die falsche Anwendung eines Mittelwert-KI, wo ein Anteil-KI oder ein Vorhersageintervall benötigt wurde, ist einer der häufigsten Fehler in der angewandten Statistik – und einer der am einfachsten zu vermeiden, sobald die obigen Unterscheidungen klar sind.