標準偏差 — 統計

03仕組み

なぜこの計算を行うのか

単一の平均値では、データセットの全体像を把握することはできません。2つのクラスがどちらも20点満点中12点の平均成績であっても、一方はその平均値の周りに密に集まっているかもしれませんが、もう一方は優秀なグループと苦戦しているグループに分かれているかもしれません。2つの工場が同じ平均直径の部品を製造していても、一方は一貫した品質の製品を出荷し、もう一方は許容範囲外のために生産品の半分を却下しているかもしれません。標準偏差は、平均値が盲点としている次元、つまり値が中心からどれだけ散らばっているかを正確に捉えます。これは、平均値以外で最もよく使われる統計量であり、信頼区間、仮説検定、管理図、リスク指標の構築ブロックであり、データアナリストが平均値の次に最初に計算する数値です。この計算機は、数字のリスト（スペース、カンマ、改行で区切る）を受け取り、平均値、中央値、分散、両方の規約（標本および母集団）に基づく標準偏差、範囲、および変動係数を返します。これにより、1画面でデータセットの位置と散らばりを特徴づけることができます。

計算式

標準偏差は分散の平方根であり、分散は平均値からの偏差の二乗の平均です。2つの形式があります。「母集団標準偏差」σは、σ = √(Σ(xᵢ − μ)² / N) という式を使用します。ここで、Nは値の数、μは平均値です。「標本標準偏差」sは、Σ(xᵢ − x̄)² / (n − 1) という式を使用します。分母が1だけ減少します。これはベッセルの補正であり、有限標本から計算した場合に標本標準偏差が真の母集団標準偏差を系統的に過小評価するという小さなバイアスを排除します。手元にあるデータが母集団全体（クラスの全生徒、今日の全製造ネジ）である場合は、母集団の式を使用します。データがより大きな母集団から抽出された標本（1,000人の有権者調査、50個の部品の品質管理標本）である場合は、標本式を使用します。この計算機のデフォルトは標本式です。なぜなら、これが最も一般的なケース（標本があり、母集団のSDを推定したい）に一致するからです。「変動係数」は、標準偏差を平均値で割ったもので、パーセンテージで表されます。単位がなく、異なる単位または異なるスケールを持つデータセット間の散らばりを比較できます。

使用方法

テキストエリアに数字を貼り付けるか入力します。区切り文字は、カンマ、スペース、セミコロン、または改行（またはそれらの任意の混合）にできます。数値以外のトークンは静かに無視されるため、表計算ソフトから列をそのまま貼り付けても、クリーニングする必要はありません。下のトグルで、標本標準偏差と母集団標準偏差を切り替えます。結果パネルには、ヘッドラインKPIとしてのSDと、平均値、中央値（平均値とは異なり外れ値に対してロバスト）、分散、範囲（最大値-最小値）、および変動係数が表示されます。デフォルトの系列は、9から18の間に散らばった10個の成績で、平均値13.5、標本SD 2.51となります。これは、操作するための具体的な数値です。

実例

データセット12、14、11、15、13、16、10、18、14、12（n=10）を考えます。平均値は合計をnで割ったものです：(12+14+11+15+13+16+10+18+14+12)/10 = 135/10 = 13.5。平均値からの二乗偏差は2.25、0.25、6.25、2.25、0.25、6.25、12.25、20.25、0.25、2.25で、合計は52.5です。n=10（母集団）で割ると、分散は5.25、母集団SDは√5.25 ≈ 2.29です。n-1=9（標本）で割ると、分散は約5.83、標本SDは約2.41です。中央値（ソート済み）は、5番目と6番目の値の平均です。(13 + 14)/2 = 13.5。これは平均値と同じであり、ほぼ対称的な分布を示唆しています。範囲は18-10=8です。変動係数は 2.41 / 13.5 ≈ 17.9% で、これは散らばりが平均サイズの約6分の1であることを意味します。これは成績の典型的なばらつきのレベルです。

よくある落とし穴

第一に、分母の選択を誤ること。標本式はn-1を使用します。標本が小さい場合にnを使用すると、SDが過小評価されるバイアスが生じます。この差はnが小さいほど大きくなります。n=5では、2つの差は約10%、n=100では0.5%です。第二に、標準偏差を信頼区間として扱うこと。SDはデータの散らばりを記述しますが、標準誤差（SE = SD / √n）は平均値の不確実性を記述します。これらは√nの係数で異なります。第三に、正規分布しないデータでSDを計算すること。68/95/99.7ルール（SDの1、2、3倍がデータのこれらのパーセンテージをカバーする）は、ガウス分布にのみ当てはまります。歪んだ、あるいは裾の重いデータは、このルールが予測するよりもはるかに多くの外れ値を持つことになります。第四に、単位を混同すること。分散は単位の二乗、SDは元の単位です。分散を元の単位の軸に対してプロットしたグラフは誤解を招きます。第五に、外れ値を無視すること。単一の極端な値は、SDを認識不能なほどまで増加させる可能性があります。中央絶対偏差（MAD）は、よりロバストな代替手段です。

バリエーションとコンテキスト

SDには多くの類似統計量があります。「四分位範囲」（Q3-Q1）は、上位25%と下位25%を無視し、外れ値に対してロバストです。「中央絶対偏差」は、中央値からの絶対偏差の中央値であり、さらにロバストな散らばり統計量です。「平均絶対偏差」は、二乗ではなく絶対値を使用し、「平均値からの平均距離」という一般の人々の直感に近いですが、数学的に扱いが難しいため、二乗が歴史的な議論で勝利しました。「加重標準偏差」は、異なる観測値がより多くカウントされることを可能にします（データポイントが異なるサイズのグループを表す場合に役立ちます）。金融市場では、リターンのSDは「ボラティリティ」と呼ばれ、通常、年率換算され、√(年間の取引日数)が掛けられます。物理学や工学では、SDは測定値の「不確かさ」として報告されます。心理測定学では、zスコアの基礎となり、品質管理ではプロセス能力指数Cpk、機械学習ではトレーニング前に特徴量を平均ゼロおよびSD 1に正規化する「標準スケーラー」となります。

なぜこの計算を行うのか

計算式

使用方法

実例

よくある落とし穴

バリエーションとコンテキスト

関連計算機