信頼区間（平均）

03仕組み

なぜ信頼区間が単一推定値よりも優れているのか

標本平均は点推定値です。これは、特定の1つの標本から導き出された単一の数値です。調査、試験、または生産バッチを再実行すると、ほぼ確実に異なる数値が得られます。推測統計学の目的は、その変動がどの程度まで合理的に起こり得るかを定量化することであり、信頼区間（CI）はそのためのツールです。読者に「平均満足度は10点中7.4点である」と伝える代わりに（これは正確に聞こえますが、その精度については暗黙のうちに間違っています）、CIは「平均満足度は7.4であり、真の母平均はほぼ確実に6.8から8.0の間に位置する」と伝えます。この2番目の文こそ、意思決定者が必要とするものです。これにより、2つの製品、2つのコホート、または2つのバッチ間の違いが、本当に存在するのか、それとも単なるノイズであるのかを判断できます。

CIは、変更するすべての要素に対して適切に変化します。より大きな標本？区間は狭まります。基となるデータの変動性が高い？広がります。より高い信頼度が求められる？さらに広がります。医薬品を承認する前に99.9%の確実性を求める規制当局は、90%で満足するマーケターよりも広い区間を得ることになり、はるかに大規模な試験が必要になります。この数学は、トレードオフを明確にします。

この区間は、統計学者以外の聞き手に対しても適切な言葉です。人々は「6.8から8.0の間」を直感的に理解します。p値を読むように教える必要はありません。この読みやすさこそが、信頼できる科学ジャーナル、監査報告書、A/Bテストのダッシュボードのすべてが、仮説検定と並行して（またはそれに代わって）CIを報告する理由です。

計算式

定量的変数の平均に対する両側信頼区間は次のとおりです。

CI = x̄ ± critical × (s / √n)

ここで、x̄ は標本平均、s は標本標準偏差、n は標本サイズ、critical は確率表から読み取られる乗数です。

乗数には2つの分布が使用されます。

Z（標準正規分布）: 母標準偏差 σ が既知の場合、または標本サイズが十分に大きい（n ≥ 30）ため、中心極限定理によって基となるデータの形状に関わらず平均の標本分布がほぼ正規分布となる場合に使用します。古典的なZ値は、1.645（90%）、1.96（95%）、2.576（99%）、3.291（99.9%）です。
スチューデントのt分布: σ が未知で標本が小さい場合に、df = n − 1 で使用します。t分布は裾が重いため、その臨界値は大きくなります。例えば、n = 5 で95%の場合、乗数は1.96ではなく2.776となり、目に見えて広い区間が得られます。nが大きくなるにつれてt曲線はzに収束し、df = 30では差が0.5%未満になるため、ほとんどの実務家はzに切り替えます。

s / √n の量は平均の標準誤差です。これは、仮想的に繰り返される標本における x̄ の標準偏差です。これを臨界値で乗算することにより、選択した信頼水準に合わせて調整されます。

この計算機の使い方

標本平均を入力します。これは、データから計算した平均値です（例: 10点中7.4点）。
標本標準偏差を入力します。これは、個々のデータ点がその平均値の周りにどの程度散らばっているかを示します。ほとんどの表計算ソフトでは、STDEV.S(...) または =STDEV(...) でこの値が得られます。
標本サイズ n を入力します。
信頼水準を選択します。95%はジャーナルでの標準であり、90%は市場調査で一般的です。99%と99.9%は臨床試験や品質管理で用いられます。
特に上書きする理由がない限り、「分布」は auto のままにしてください。auto は n ≥ 30 の場合はz分布を、それより小さい場合はdf = n − 1 のt分布を選択します。σ が本当に事前に既知である場合（まれ）にのみ、強制的に z を選択してください。標本が小さい場合は、30の閾値を超えても t を選択して保守的にします。

結果パネルには、下限と上限、誤差範囲、使用された臨界値、標準誤差、およびどの分布が計算に用いられたかが表示されます。

計算例

ある臨床試験では、15人の患者の回復時間を測定し、平均7.4日、標本標準偏差1.2日という結果が得られ、95%のCIを求めています。

n = 15 → df = 14 なので、スチューデントのt分布を使用します。
df = 14、95%におけるt臨界値は2.145です。
標準誤差 = 1.2 / √15 = 0.310
誤差範囲 = 2.145 × 0.310 = 0.665
CI = 7.4 ± 0.665 = [6.74, 8.07] 日間

ここで、同じ数値がn = 1000人の患者を対象としたはるかに大規模な試験から得られたとします。標準誤差は1.2 / √1000 = 0.0379に低下し、計算機はz分布に切り替わり（n ≥ 30）、臨界値 = 1.96、誤差範囲 = 0.074となります。CI = [7.33, 7.47]。同じ点推定値でも、区間は10倍狭くなります。標本サイズが精度を高めます。

落とし穴と誤解

A 95% CIは、「母平均がこの区間にある確率が95%である」ということではありません。頻度論的な解釈では、「サンプリングプロセスを無限に繰り返した場合、構築された区間の95%が真の平均を含む」となります。パラメータは固定されており、区間がランダムです。確率的な記述を求める人々は、代わりにベイズの信用区間を必要とします。

狭いCIが正確なCIと同じではありません。サンプリング方法に偏りがある場合（コンビニエンスサンプル、自己選択回答者、脱落者など）、CIは狭くなりますが、誤った数値を中心としてしまいます。統計学はサンプリング誤差を定量化するものであり、測定誤差や選択バイアスを定量化するものではありません。100万人の回答者がいるオンライン調査でも、回答者が母集団の特性と一致しない場合、大きく外れる可能性があります。

CIは、データがほぼ対称な分布から得られたものであること（または、CLTが適用されるのに十分な大きさのnであること）を前提としています。所得、応答時間、生物学的反応強度などの著しく歪んだデータは、計算式を適用する前に変換（対数など）するか、ブートストラップCIのようなノンパラメトリック手法で分析する必要があります。

平均のCIは、個々の観測値に対する予測区間ではありません。CIは平均が存在する場所を示し、予測区間（はるかに広く、約 √(1 + 1/n) 倍大きい）は次の単一の値がどこに落ちる可能性が高いかを示します。

同時に多くのCIを計算する場合（20の製品バリアントの比較、100の遺伝子のスクリーニングなど）、ファミリーワイズエラー率が膨れ上がります。ボンフェローニ補正またはベンジャミニ・ホルシュベルグ補正は、全体の信頼水準を維持するために各区間を広げます。

最後に、CIは臨床的またはビジネス上の有意性については何も語りません。ユーザー満足度の0.1ポイントの改善が統計的には完全に有意であっても、経済的には無関係である場合があります。常に、区間の上下限をドメイン単位で確認してから行動してください。

バリエーションと関連する区間

比率のCI — まったく異なる計算式を使用します。ワルド（教科書的）バージョンは0%または100%に近い場合では性能が悪く、ウィルソンのスコア区間とアグレスティ・クールの補正ははるかに信頼性が高く、現在ではほとんどのソフトウェアでデフォルトとなっています。
2つの平均の差のCI — 標本分散が異なる場合はウェルチの式を介して標準誤差を結合し、それ以外の場合はプールします。これがほとんどのA/Bテストレポートの根拠となっています。
ブートストラップCI — データを数千回、復元抽出で再サンプリングし、毎回統計量を再計算し、2.5パーセンタイルと97.5パーセンタイルを取ります。正規性の仮定は不要で、あらゆる統計量（中央値、比率、相関など）に機能しますが、コンピュータが必要です。特に歪んだデータや非正規データに役立ちます。
ベイズの信用区間 — 「この事前分布とこのデータが与えられたとき、パラメータがこの範囲にある確率はどのくらいか？」という問いへの答えです。ノンインフォーマティブな事前分布の場合、頻度論的CIと数値的に近いですが、平易な確率言語で解釈できます。
予測区間 — 現在の標本が与えられたとき、将来の単一の観測値が落ちると予想される範囲です。平均のCIよりも広くなります。
許容区間 — 特定の信頼度で、母集団の所定の割合をカバーする範囲です（例: 「95%のボトルが498 mlから502 mlの間に充填される」）。品質管理の基準であり、CIや予測区間とは異なります。

適切な区間を選択することは、分析の半分を占めます。比率のCIや予測区間が必要な場合に平均のCIを誤って適用することは、応用統計学における最も一般的な誤りの一つであり、上記の区別が明確になれば最も簡単に避けられる誤りの一つでもあります。

なぜ信頼区間が単一推定値よりも優れているのか

計算式

この計算機の使い方

計算例

落とし穴と誤解

バリエーションと関連する区間

関連計算機