平均のCI: σ既知の場合は x̄ ± z·(σ/√n);小標本の場合は t を使用。
CI = x̄ ± クリティカル × (s/√n)。自動ルールは、n ≥ 30(大標本、CLT)の場合はzを、それ以外の場合は自由度n-1のStudent's tを選択します。95%信頼区間は、実際の平均値を約95%の繰り返し標本で含みます。これは単一の固定パラメータに関する確率論ではありません。
標本平均は点推定値です。これは、特定の1つの標本から導き出された単一の数値です。調査、試験、または生産バッチを再実行すると、ほぼ確実に異なる数値が得られます。推測統計学の目的は、その変動がどの程度まで合理的に起こり得るかを定量化することであり、信頼区間(CI)はそのためのツールです。読者に「平均満足度は10点中7.4点である」と伝える代わりに(これは正確に聞こえますが、その精度については暗黙のうちに間違っています)、CIは「平均満足度は7.4であり、真の母平均はほぼ確実に6.8から8.0の間に位置する」と伝えます。この2番目の文こそ、意思決定者が必要とするものです。これにより、2つの製品、2つのコホート、または2つのバッチ間の違いが、本当に存在するのか、それとも単なるノイズであるのかを判断できます。
CIは、変更するすべての要素に対して適切に変化します。より大きな標本? 区間は狭まります。基となるデータの変動性が高い? 広がります。より高い信頼度が求められる? さらに広がります。医薬品を承認する前に99.9%の確実性を求める規制当局は、90%で満足するマーケターよりも広い区間を得ることになり、はるかに大規模な試験が必要になります。この数学は、トレードオフを明確にします。
この区間は、統計学者以外の聞き手に対しても適切な言葉です。人々は「6.8から8.0の間」を直感的に理解します。p値を読むように教える必要はありません。この読みやすさこそが、信頼できる科学ジャーナル、監査報告書、A/Bテストのダッシュボードのすべてが、仮説検定と並行して(またはそれに代わって)CIを報告する理由です。
定量的変数の平均に対する両側信頼区間は次のとおりです。
CI = x̄ ± critical × (s / √n)
ここで、x̄ は標本平均、s は標本標準偏差、n は標本サイズ、critical は確率表から読み取られる乗数です。
乗数には2つの分布が使用されます。
s / √n の量は平均の標準誤差です。これは、仮想的に繰り返される標本における x̄ の標準偏差です。これを臨界値で乗算することにより、選択した信頼水準に合わせて調整されます。
STDEV.S(...) または =STDEV(...) でこの値が得られます。auto のままにしてください。auto は n ≥ 30 の場合はz分布を、それより小さい場合はdf = n − 1 のt分布を選択します。σ が本当に事前に既知である場合(まれ)にのみ、強制的に z を選択してください。標本が小さい場合は、30の閾値を超えても t を選択して保守的にします。結果パネルには、下限と上限、誤差範囲、使用された臨界値、標準誤差、およびどの分布が計算に用いられたかが表示されます。
ある臨床試験では、15人の患者の回復時間を測定し、平均7.4日、標本標準偏差1.2日という結果が得られ、95%のCIを求めています。
ここで、同じ数値がn = 1000人の患者を対象としたはるかに大規模な試験から得られたとします。標準誤差は1.2 / √1000 = 0.0379に低下し、計算機はz分布に切り替わり(n ≥ 30)、臨界値 = 1.96、誤差範囲 = 0.074となります。CI = [7.33, 7.47]。同じ点推定値でも、区間は10倍狭くなります。標本サイズが精度を高めます。
A 95% CIは、「母平均がこの区間にある確率が95%である」ということではありません。頻度論的な解釈では、「サンプリングプロセスを無限に繰り返した場合、構築された区間の95%が真の平均を含む」となります。パラメータは固定されており、区間がランダムです。確率的な記述を求める人々は、代わりにベイズの信用区間を必要とします。
狭いCIが正確なCIと同じではありません。サンプリング方法に偏りがある場合(コンビニエンスサンプル、自己選択回答者、脱落者など)、CIは狭くなりますが、誤った数値を中心としてしまいます。統計学はサンプリング誤差を定量化するものであり、測定誤差や選択バイアスを定量化するものではありません。100万人の回答者がいるオンライン調査でも、回答者が母集団の特性と一致しない場合、大きく外れる可能性があります。
CIは、データがほぼ対称な分布から得られたものであること(または、CLTが適用されるのに十分な大きさのnであること)を前提としています。所得、応答時間、生物学的反応強度などの著しく歪んだデータは、計算式を適用する前に変換(対数など)するか、ブートストラップCIのようなノンパラメトリック手法で分析する必要があります。
平均のCIは、個々の観測値に対する予測区間ではありません。CIは平均が存在する場所を示し、予測区間(はるかに広く、約 √(1 + 1/n) 倍大きい)は次の単一の値がどこに落ちる可能性が高いかを示します。
同時に多くのCIを計算する場合(20の製品バリアントの比較、100の遺伝子のスクリーニングなど)、ファミリーワイズエラー率が膨れ上がります。ボンフェローニ補正またはベンジャミニ・ホルシュベルグ補正は、全体の信頼水準を維持するために各区間を広げます。
最後に、CIは臨床的またはビジネス上の有意性については何も語りません。ユーザー満足度の0.1ポイントの改善が統計的には完全に有意であっても、経済的には無関係である場合があります。常に、区間の上下限をドメイン単位で確認してから行動してください。
適切な区間を選択することは、分析の半分を占めます。比率のCIや予測区間が必要な場合に平均のCIを誤って適用することは、応用統計学における最も一般的な誤りの一つであり、上記の区別が明確になれば最も簡単に避けられる誤りの一つでもあります。