A/Bテスト 有意性計算機

03仕組み

この計算が必要な理由

ウェブサイト、メールの件名、価格設定ページ、またはその他の二項結果（クリックした/しなかった、サインアップした/しなかった、支払った/支払わなかった）でA/Bテストを実行する際、本当に知りたい質問は、不快なほどシンプルです。その変更は実際に効果をもたらしたのか、それとも単なるランダムなノイズを見ているだけなのか？コンバージョン率は、何も変更がなくても、あらゆる製品で日々変動します。もしバリアントBが訪問者の6.4%をコンバージョンさせ、コントロールAが5.0%をコンバージョンさせたとしても、Bの数値が大きいというだけで勝利を宣言することはできません。測定したオーディエンスの規模を考慮して、純粋な偶然によって1.4ポイントの差がどれくらいの頻度で現れる可能性があるのかを問う必要があります。それが統計的有意性検定の全工程です。つまり、サンプリングノイズからシグナルを分離することです。これを怠ると、ランダムな変更を導入し、翌月には消え去るような勝利を主張し、チームの信頼を失うことになります。正しく使用すれば、証拠に基づく文化を構築できます。つまり、数字で擁護できるものだけを導入するのです。

計算式

2つの比率のA/B実験における標準的な検定は、プールされた標準誤差に基づく2標本z検定です。バリアントAにn_A人の訪問者とc_A件のコンバージョンがあり、バリアントBにn_B人の訪問者とc_B件のコンバージョンがある場合、この計算機は以下を計算します。

p_A = c_A / n_A、p_B = c_B / n_B
プールされたレート p̂ = (c_A + c_B) / (n_A + n_B)
プールされた標準誤差 SE = √( p̂·(1 − p̂) · (1/n_A + 1/n_B) )
z統計量 z = (p_B − p_A) / SE
p値：両側 p = 2 · (1 − Φ(|z|)) または片側 p = 1 − Φ(z) （代替仮説 B > A の場合）

Φは標準正規累積分布関数であり、Abramowitz & Stegunの誤差関数近似（約10⁻⁷の精度）から計算されます。相対リフトは(p_B − p_A) / p_Aです。絶対差の95%信頼区間は、プール形式が帰無仮説を仮定するため、非プール標準誤差SE_u = √( p_A·(1−p_A)/n_A + p_B·(1−p_B)/n_B )を使用します。可視化では、各レートの周りに±2 SEのヒゲが表示され、2つの信頼帯が重なっているかどうかを確認できます。

使用方法

各バリアントの訪問者数とコンバージョン数という4つの生の値（カウント）を入力してください。「訪問者数」は、ページビューではなく、バリアントに割り当てられたユニークユーザーであるべきです。また、同じ人が常に同じバリアントを見るべきです。「コンバージョン数」は、目標を少なくとも1回完了した訪問者の数です。信頼水準を選択してください。95%が業界の標準です。変更がリスクを伴い、元に戻すのに実際の費用や信頼が失われる場合は99%を使用してください。反復速度を重視するようなリスクの低いUI調整には90%が許容されます。裾（テール）を選択してください。両側検定は安全なデフォルトです。これは、バリアントがどちらの方向にも異なるかどうかをテストし、チェリーピッキングからあなたを守ります。片側検定は、BがA以上であるという強い事前情報がある場合にのみ使用してください（実際にはほとんど不可能な主張です）。結果を読み取ってください。有意 = はい の場合、表示された勝者を宣言する証拠があります。いいえ の場合、データは選択されたα水準で実質的な差がないことと矛盾しません。リフトKPIは、変更の相対的な大きさを示します。5%のベースに対する2ポイントのリフトは、40%の相対リフトであり、これは非常に大きいです。

実施例

2週間、ランディングページのデザイン変更テストを実施しました。バリアントA（既存ページ）は5,000人の訪問者に表示され、250件のサインアップを生み出しました。バリアントB（デザイン変更ページ）は5,100人の訪問者に表示され、320件のサインアップを生み出しました。これらの数値を入力してください。計算機は、p_A = 5.00%、p_B = 6.27%、絶対差1.27ポイント、相対リフト+25.5%を計算します。一見すると有望です。プールされたレートは(250 + 320) / (5,000 + 5,100) ≈ 5.64%、プールされたSEは約0.00459、z ≈ +2.78です。両側p値は約0.0055で、α = 0.05を大幅に下回っています。判定は「有意 = はい、勝者 = B」であり、合理的な信頼度でデザイン変更を導入できます。差の95%信頼区間は、約 [+0.36%, +2.18%] です。下限値でさえゼロを十分に上回っていることに注目してください。これは「ヒゲが交差しない」という視覚的な表現に相当します。次に、同じ例を各バリアントの訪問者数を1,500人に減らし、同様の絶対リフトで再計算すると、z統計量が1.96を下回り、結果は決定不能になります。同じ効果でもデータが少ないと、導入決定はできません。これこそが、この計算機が役立つ所以です。

落とし穴

A/Bテストで最大の過ちはピーキングです。毎日p値をチェックし、最初に0.05を下回った時点でテストを停止することです。それを行うと、名目上の5%の偽陽性率が数週間で約25～30%に膨れ上がります。なぜなら、追加のチェックごとにノイズがシグナルに見える可能性が増えるからです。事前にサンプルサイズを決定し、それにコミットしてください。第2に、補正なしの複数バリアントです。コントロールに対して4つの同時比較でA/B/C/D/Eを実行すると、実効的なαが爆発的に増加します。ボンフェローニ補正（α_per_test = α / k）を適用するか、最初に単一のANOVAスタイルのテストを実行してください。第3に、リフトサイズに基づく早期停止です。最初の3日間で40%のリフトは、ほとんどの場合、平均への回帰です。新しいバリアントの初期採用者は熱狂的に偏りがちです。第4に、新奇性効果です。ユーザーは新しいものに反応するため、どんな変更も最初の1週間は良く見えます。テストは少なくとも1週間（1サイクル）実行してください。第5に、週ごとの季節性です。月曜日に開始し土曜日に終了すると、曜日によってトラフィックの構成が異なる場合、バリアント間の対称性が崩れます。第6に、サンプル比率の不一致（SRM）です。A/B分割を50/50に設定したのに、5,000対5,800という結果になった場合、割り当てメカニズムに問題があります。それを修正するまでテストは無効です。第7に、交絡するローンチです。適切な分離なしに、重複するオーディエンスに対して2つのテストを同時に実行しないでください。結果が互いに影響し合います。

バリエーション

いくつかの代替フレームワークは、古典的な頻度論的検定の弱点に対処します。ベイズA/Bテストは、事前情報が与えられた場合にBが最適である事後確率を報告し、「有意/有意でない」という二項的な判定を回避し、確率しきい値で早期に停止することを可能にします。ただし、その答えはあなたの事前情報に依存し、それを擁護する必要があります。常に有効なp値を持つ逐次検定（mSPRT、群逐次デザイン）は、タイプIエラーを増大させることなく、好きなだけピーキングすることを可能にします。ただし、同じ信頼度に到達するためには、わずかに大きなサンプルが必要になるというコストがかかります。CUPED（事前実験データを用いた対照実験）は、事前期間の共変量を使用してベースラインノイズを減算し、事前期間の相関が高い指標では、必要なサンプルサイズを30～50%削減することがよくあります。多腕バンディット（トンプソンサンプリング、UCB）は、リアルタイムで勝っているアームにより多くのトラフィックを割り当てます。短期間での意思決定や、あるアームが劇的に悪い場合に非常に優れていますが、テスト後のクリーンな結果を読みたい場合には不向きです。訪問者あたりの収益やセッションあたりのページビューなどの非二項指標の場合、比率検定をウェルチのt検定に置き換えてください。重い裾を抑えるために、理想的には対数変換された値に対して行います。結果が時間とともに展開する場合（購入までの時間、30日目のリテンション）には、生存分析またはファネルステップテストが適切です。単一の比率に集約するのではなく、ログランク検定を用いたカプラン・マイヤー曲線を使用してください。最後に、開始する前に検出力分析を行ってください。これは、あなたのビジネスが関心を持つ最小の効果量を検出するために必要な最小サンプルサイズを教えてくれるツールです。これがなければ、「もっとデータが必要です」が、ほとんどすべての決定不能なテストに対する唯一の正直な答えになります。

A/Bテスト有意性計算機

この計算が必要な理由

計算式

使用方法

実施例

落とし穴

バリエーション

関連計算機