【統計基礎】不偏分散と標本分散

2024年9月17日

今回は統計を勉強していく上で登場する不偏分散と標本分散について記載してきます。不偏分散は二乗の偏差を（標本の数ー１）で割り、標本分散は（標本の数）で割ります。両者の違いについて詳しく説明します。

統計の種類

両者の違いを説明する前にまず統計の前提条件を確認していきます。統計には大きく記述統計と推測統計があります。記述統計とは得られたデータ自体の特徴を整理、分析するための統計です。これに対して推測統計は得られたデータから元の母集団の性質を調べるための統計です。推測統計についてイメージが難しいので詳しく説明していきます。

推測統計

推測統計とは先ほど述べたように得られたデータから母集団の性質を調べる統計のことです。具体例を確認しましょう。

今、全国の中学生の身長について調べたいと考えます。最も単純な手法は全国の中学生の身長を調べ上げてデータを分析することです。しかしながら、全員の身長のデータを集めることは非常に難しいです。よって例えば全国の中学生のうち１００人のデータを使用して母数、すなわち全国の中学生の身長について推測していくというのが推測統計です。

今回のように手間をかければ可能な場合もありますが薬の副作用や病気のデータを集める際、倫理的に全員に調査することが不可能な場合も考えられます。このようなときに推測統計を用いるのです。

推測統計の性質

ここで得られたデータから母集団の性質を推測していくことを考えますが、でたらめに推測していては適切な推測がなされているとは言えません。

そこで推測する量が満たすべき性質がいくつか挙げられています。代表的なものに不偏性と一致性というものがあります。

不偏性とはその推定量の期待値を取ると母集団の値に一致する性質。

一致性とはその推定量がサンプルサイズを大きくしていくことで母集団の値に収束する性質です。

文字だけ見ていても分かりにくいので、以下では具体例を通じて説明していきます。

以下の例では$\text{平均 } \mu \text{ 分散 } \sigma^2 \text{ }$の母集団からサンプルを抜き出すことを考えます。

この母集団からｎ個のサンプルを抜き出し、母集団の平均を推定するため標本平均

$$
\overline{X} = \frac{1}{n} \sum_{i=1}^n X_i
$$

を考えます。ここまでが母集団からサンプルを抜き出し、サンプルデータから母集団の性質を分析することに該当し、母集団の平均を標本平均で推測したことになります。この標本平均が満たすべき二つの性質、不偏性、一致性を満たすかどうか確認していきます。

不偏性の確認

では標本平均が不偏性を満たすかどうか確認します。不偏性とは推定量の期待値を取ると母集団の値に一致する性質でした。今回の例では標本平均の期待値を取ると、母集団の平均 μ に一致することを示せばよいです。

では、標本平均の期待値を取ると

$$
E(\overline{X}) = E\left(\frac{1}{n} \sum_{i=1}^n X_i\right)
$$

詳細は割愛しますが、期待値の線形性より、

$$
E(\overline{X}) = \frac{1}{n} \sum_{i=1}^n E(X_i) = \frac{1}{n} \sum_{i=1}^n \mu = \frac{1}{n} \cdot n\mu = \mu
$$

となって、母集団の平均に一致したので推定量は不偏性を満たすことが確かめられました。

一致性の確認

一致性とはサンプルサイズを大きくしていくことで推定値が母集団の値に収束する性質でした。

ここで証明は複雑になってしまうので、次の項目まで飛ばしてしまっても問題ありません。

まずは、標本平均の分散を計算します。

$$
\text{Var}(\overline{X}) = \text{Var}\left(\frac{1}{n} \sum_{i=1}^n X_i\right) = \frac{1}{n^2} \sum_{i=1}^n \text{Var}(X_i) = \frac{1}{n^2} \cdot n\sigma^2 = \frac{\sigma^2}{n}
$$

ここでチェビシェフの不等式を用います。この不等式は

$$
P(|X – \mu| \geq k\sigma) \leq \frac{1}{k^2}
$$

であり、確率変数の散らばり（平均からどれだけ離れるか）と標準偏差との関係を示した不等式です。この不等式より任意の ε>0 に対して（ε = kσと変形）

$$
P(|\overline{X} – \mu| \geq \epsilon) \leq \frac{\text{Var}(\overline{X})}{\epsilon^2} = \frac{\sigma^2}{n\epsilon^2}
$$

が成立しnを大きくすることで右辺が０に収束していきます。これより左辺は「どんなに小さな正のεより、標本平均と母平均の値のずれが大きくなる確率」は右辺よりほとんど０となるので、標本平均が母平均に収束することが示され、一致性を満たすことが示されました。