A/B-Test-Signifikanzrechner

03So funktioniert's

Warum diese Berechnung

Wenn Sie einen A/B-Test auf einer Website, einer E-Mail-Betreffzeile, einer Preisseite oder für ein anderes binäres Ergebnis (geklickt / nicht geklickt, angemeldet / nicht angemeldet, bezahlt / nicht bezahlt) durchführen, ist die Frage, die Sie wirklich beantworten möchten, unangenehm einfach: Hat die Änderung tatsächlich etwas bewirkt, oder handelt es sich um zufälliges Rauschen? Konversionsraten schwanken bei jedem Produkt von Tag zu Tag, selbst wenn sich nichts geändert hat. Wenn Variante B 6,4 % der Besucher konvertierte und die Kontrollvariante A 5,0 % konvertierte, können Sie den Sieg nicht allein deshalb verkünden, weil die Zahl von B größer ist. Sie müssen fragen, wie oft ein Unterschied von 1,4 Prozentpunkten durch reinen Zufall auftreten könnte, angesichts der Größe der Zielgruppen, die Sie gemessen haben. Das ist die gesamte Aufgabe der statistischen Signifikanzprüfung — Signale von Stichprobenrauschen zu trennen. Überspringen Sie diese, und Sie werden zufällige Änderungen implementieren, Siege beanspruchen, die im nächsten Monat wieder verpuffen, und das Vertrauen Ihres Teams verlieren. Verwenden Sie sie korrekt, und Sie bauen eine Kultur der Evidenz auf: Implementieren Sie nur das, was Sie mit Zahlen verteidigen können.

Die Formel

Der Standardtest für A/B-Experimente mit zwei Proportionen ist der Z-Test für zwei Proportionen basierend auf einem gepoolten Standardfehler. Gegeben Variante A mit n_A Besuchern und c_A Konversionen, und Variante B mit n_B Besuchern und c_B Konversionen, berechnet der Rechner:

p_A = c_A / n_A, p_B = c_B / n_B
gepoolte Rate p̂ = (c_A + c_B) / (n_A + n_B)
gepoolter Standardfehler SE = √( p̂·(1 − p̂) · (1/n_A + 1/n_B) )
z-Statistik z = (p_B − p_A) / SE
p-Wert: zweiseitig p = 2 · (1 − Φ(|z|)) oder einseitig p = 1 − Φ(z) für die Alternative B > A

Φ ist die kumulative Verteilungsfunktion der Standardnormalverteilung, berechnet aus der erf-Approximation von Abramowitz & Stegun (genau bis etwa 10⁻⁷). Der relative Lift ist (p_B − p_A) / p_A. Das 95-%-Konfidenzintervall für die absolute Differenz verwendet den ungepoolten Standardfehler SE_u = √( p_A·(1−p_A)/n_A + p_B·(1−p_B)/n_B ), da die gepoolte Form die Nullhypothese annimmt. Die Visualisierung zeigt ±2 SE-Fehlerbalken um jede Rate, damit Sie sehen können, ob sich die beiden Konfidenzbänder überlappen.

Wie man es benutzt

Geben Sie die vier Rohwerte ein: Besucher und Konversionen für jede Variante. „Besucher“ sollten eindeutige Nutzer sein, die der Variante zugeordnet wurden, keine Seitenaufrufe — und dieselbe Person sollte immer dieselbe Variante sehen. „Konversionen“ ist die Anzahl der Besucher, die das Ziel mindestens einmal erreicht haben. Wählen Sie ein Konfidenzniveau: 95 % ist der Standard in der Branche; verwenden Sie 99 %, wenn die Änderung riskant ist und eine Rückgängigmachung echtes Geld oder Vertrauen kostet; 90 % ist akzeptabel für UI-Anpassungen mit geringem Risiko, bei denen Ihnen hauptsächlich die Iterationsgeschwindigkeit wichtig ist. Wählen Sie eine Seite: Zweiseitig ist die sichere Standardeinstellung — es testet, ob sich die Varianten in beide Richtungen unterscheiden, was Sie vor dem Rosinenpicken schützt. Verwenden Sie einseitig nur, wenn Sie eine starke Vorannahme haben, dass B nur ≥ A sein kann (eine in der Praxis nahezu unmögliche Behauptung). Lesen Sie das Ergebnis: Wenn Signifikant = Ja, haben Sie Beweise, um den angezeigten Gewinner zu erklären; wenn Nein, stimmen die Daten mit keinem echten Unterschied beim gewählten α überein. Der Lift-KPI teilt Ihnen die Größe der Änderung in relativen Begriffen mit — ein Lift von 2 Prozentpunkten auf einer Basis von 5 % ist ein relativer Lift von 40 %, was enorm ist.

Beispielrechnung

Sie haben zwei Wochen lang einen Test für ein überarbeitetes Landingpage-Design durchgeführt. Variante A (die bestehende Seite) wurde 5 000 Besuchern gezeigt und führte zu 250 Anmeldungen. Variante B (das überarbeitete Design) wurde 5 100 Besuchern gezeigt und führte zu 320 Anmeldungen. Geben Sie diese Zahlen ein. Der Rechner berechnet p_A = 5,00 %, p_B = 6,27 %, eine absolute Differenz von 1,27 Prozentpunkten, einen relativen Lift von +25,5 % — auf den ersten Blick vielversprechend. Die gepoolte Rate beträgt (250 + 320) / (5 000 + 5 100) ≈ 5,64 %, der gepoolte SE liegt bei etwa 0,00459, und z ≈ +2,78. Der zweiseitige p-Wert beträgt ungefähr 0,0055, deutlich unter α = 0,05. Das Ergebnis: Signifikant = Ja, Gewinner = B, und Sie können das überarbeitete Design mit angemessenem Vertrauen implementieren. Das 95-%-KI für die Differenz beträgt ungefähr [+0,36 %, +2,18 %] — beachten Sie, dass selbst die untere Grenze komfortabel über Null liegt, was das visuelle Analogon von „die Fehlerbalken überschneiden sich nicht“ ist. Wiederholen Sie nun dasselbe Beispiel mit nur 1 500 Besuchern pro Variante und einem ähnlichen absoluten Lift: Die z-Statistik sinkt unter 1,96 und das Ergebnis wird unschlüssig. Gleicher Effekt, weniger Daten, keine Implementierungsentscheidung. So rechtfertigt der Rechner seinen Wert.

Fallstricke

Der größte Fehler im A/B-Testing ist das „Peeking“: Täglich den p-Wert zu überprüfen und den Test beim ersten Unterschreiten von 0,05 zu stoppen. Dies erhöht Ihre Falsch-Positiv-Rate von nominal 5 % auf etwa 25–30 % über einige Wochen hinweg, da jede zusätzliche Überprüfung eine weitere Chance bietet, dass Rauschen wie ein Signal aussieht. Legen Sie die Stichprobengröße im Voraus fest und halten Sie sich daran. Zweitens, mehrere Varianten ohne Korrektur: Wenn Sie A/B/C/D/E mit 4 gleichzeitigen Vergleichen gegen eine Kontrolle durchführen, explodiert Ihr effektives α. Wenden Sie eine Bonferroni-Korrektur (α_per_test = α / k) an oder führen Sie zuerst einen einzelnen ANOVA-artigen Test durch. Drittens, vorzeitiges Stoppen aufgrund der Lift-Größe: Ein Lift von 40 % über die ersten drei Tage ist fast immer eine Regression zum Mittelwert — Frühadoptierer einer neuen Variante sind überproportional enthusiastisch. Viertens, Neuheitseffekt: Jede Änderung sieht in Woche 1 besser aus, weil Nutzer auf alles Neue reagieren; lassen Sie den Test mindestens einen vollständigen Wochenzyklus laufen. Fünftens, wöchentliche Saisonalität: Das Beginnen am Montag und das Beenden am Samstag durchbricht die Symmetrie zwischen den Varianten, wenn sich der Traffic-Mix je nach Wochentag unterscheidet. Sechstens, Sample-Ratio Mismatch (SRM): Wenn Ihre A/B-Aufteilung auf 50/50 eingestellt war, Sie aber 5 000 versus 5 800 gemessen haben, stimmt etwas mit der Zuweisungslogik nicht — der Test ist ungültig, bis Sie dies beheben. Siebtens, verwechselbare Launches: Führen Sie niemals zwei Tests an überlappenden Zielgruppen ohne ordnungsgemäße Isolation durch; die Ergebnisse beeinflussen sich gegenseitig.

Variationen

Mehrere alternative Frameworks adressieren Schwächen des klassischen frequentistischen Tests. Bayesianisches A/B-Testing berichtet die posteriore Wahrscheinlichkeit, dass B unter Berücksichtigung von Vorannahmen am besten ist, was das binäre Urteil „signifikant / nicht“ vermeidet und es Ihnen ermöglicht, frühzeitig bei Wahrscheinlichkeitsschwellen zu stoppen — aber die Antwort hängt von Ihrer Vorannahme ab, die Sie verteidigen müssen. Sequenzielles Testen mit immer gültigen p-Werten (mSPRT, gruppen-sequentielle Designs) ermöglicht es Ihnen, so oft Sie möchten hineinzuschauen, ohne den Typ-I-Fehler zu erhöhen, auf Kosten einer etwas größeren Stichprobe, um dasselbe Konfidenzniveau zu erreichen. CUPED (Controlled-experiment Using Pre-Experiment Data) verwendet Kovariaten aus der Vorperiode, um das Basisrauschen zu subtrahieren, wodurch die erforderlichen Stichprobengrößen bei Metriken mit hoher Korrelation in der Vorperiode oft um 30–50 % reduziert werden. Multi-Armed Bandits (Thompson-Sampling, UCB) weisen Gewinner-Varianten in Echtzeit mehr Traffic zu — hervorragend für kurzfristige Entscheidungen oder wenn eine Variante dramatisch schlechter ist, aber ungeeignet, wenn Sie eine saubere Ablesung nach dem Test wünschen. Für nicht-binäre Metriken wie Umsatz pro Besucher oder Seiten pro Sitzung tauschen Sie den Proportionstest gegen einen Welch-t-Test aus, idealerweise auf log-transformierten Werten, um starke Ausreißer zu zähmen. Überlebens- oder Funnel-Stufen-Tests sind geeignet, wenn sich das Ergebnis über die Zeit entwickelt (Zeit bis zum Kauf, Retention nach Tag 30): Verwenden Sie Kaplan-Meier-Kurven mit einem Log-Rank-Test, anstatt auf eine einzige Proportion zu kollabieren. Führen Sie schließlich vor Beginn eine Power-Analyse durch: ein Tool, das Ihnen die minimale Stichprobengröße angibt, die erforderlich ist, um die kleinste Effektgröße zu erkennen, die für Ihr Unternehmen relevant ist — ohne diese ist „wir brauchen mehr Daten“ die einzig ehrliche Antwort auf fast jeden unschlüssigen Test.