当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.11.3$節「中心極限定理」の内容に基づいて中心極限定理の概要や取り扱いに関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。
・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic
Contents
中心極限定理の概要
概要
中心極限定理は正規分布に基づかない標本に対しても$n$が大きくなれば標本の平均や和は正規分布に従うことを表した定理です。中心極限定理は大まかに下記の表を元に把握すると良いです。
サンプル数 | 十分大きい | それほど大きくない |
正規母集団からの無作為抽出 | 正規分布 | 自由度$n-1$の$t$分布 |
非正規母集団からの無作為抽出 | 正規分布 $\leftarrow$ 中心極限定理 | 母集団分布による |
必要な数学
統計検定$2$級レベルでは中心極限定理の結果のみ用いるので数学的な知識は特に必要ありませんが、収束を考える際に極限や累積分布関数を表す際に積分が出てくるので極限と積分の概念は抑えておくと良いと思います。
中心極限定理
数式を用いた中心極限定理の表現
中心極限定理は$E[X_i]=\mu, V[X_i]=\sigma^2$に基づく標本列$X_1, X_2, …, X_n$に対して下記のように定義することができます。
$$
\large
\begin{align}
S_n &= \sum_{i=1}^{n} X_n \sim \mathcal{N}(n \mu, n \sigma^2) \\
\overline{X} &= \frac{1}{n} \sum_{i=1}^{n} X_n \sim \mathcal{N} \left( \mu, \frac{\sigma^2}{n} \right)
\end{align}
$$
上記に基づいて、下記のように$Z \sim \mathcal{N}(0,1)$が成立する$Z$を定義することができます。
$$
\large
\begin{align}
Z &= \frac{S_n – n \mu}{\sqrt{n} \sigma} \sim \mathcal{N}(0,1) \\
Z &= \frac{\overline{X} – \mu}{\sigma / \sqrt{n}} \sim \mathcal{N}(0,1)
\end{align}
$$
ここまで和の$S_n$と平均の$\overline{X}$の双方を確認しましたが、母平均や母比率の推定や検定では$\overline{X}$に基づいて$\mu$や$p$に関する推定や検定を行います。一方で、二項分布の正規近似などの場合は標本の和の$S_n$を用います。以下ではそれぞれの取り扱いに関して具体的に確認します。
標本平均の活用例
母平均の区間推定
$E[X_i]=\mu, V[X_i]=\sigma^2$に基づく標本列$X_1, X_2, …, X_n$の標本平均$\overline{X}$に関して$n \to \infty$のとき、$\displaystyle E[\overline{X}] = \mu, V[\overline{X}] = \frac{\sigma^2}{n}$より下記が成立します。
$$
\large
\begin{align}
\overline{X} & \sim \mathcal{N} \left( \mu, \frac{\sigma^2}{n} \right) \\
Z &= \frac{\overline{X}-\mu}{\sigma / \sqrt{n}} \sim \mathcal{N}(0,1)
\end{align}
$$
上記に基づいて$\mu$の$95$%区間は下記のように表すことができます。
$$
\large
\begin{align}
z_{\alpha=0.975} \leq & Z \leq z_{\alpha=0.025} \\
-1,96 \leq & \frac{\overline{X}-\mu}{\sigma / \sqrt{n}} \leq 1.96 \\
\overline{X} – 1.96 \frac{\sigma}{\sqrt{n}} \leq & \mu \leq \overline{X} + 1.96 \frac{\sigma}{\sqrt{n}}
\end{align}
$$
母比率の区間推定
$E[X_i]=p, V[X_i]=p(1-p)$に基づく標本列$X_1, X_2, …, X_n$の標本比率$\hat{p}=\overline{X}$に関して$n \to \infty$のとき、$\displaystyle E[\overline{X}] = p, V[\overline{X}] = \frac{p(1-p)}{n}$より下記が成立します。
$$
\large
\begin{align}
\hat{p} &= \overline{X} \sim \mathcal{N} \left( p, \frac{p(1-p)}{n} \right) \\
Z &= \frac{\hat{p}-p}{\sqrt{p(1-p) / n}} \sim \mathcal{N}(0,1)
\end{align}
$$
上記に基づいて母比率$p$の$95$%区間は下記のように表すことができます。
$$
\large
\begin{align}
z_{\alpha=0.975} \leq & Z \leq z_{\alpha=0.025} \\
-1,96 \leq & \frac{\hat{p}-p}{\sqrt{p(1-p) / n}} \leq 1.96 \quad (1) \\
\hat{p} – 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq & p \leq \hat{p} + 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \quad (2)
\end{align}
$$
$(1)$から$(2)$の変形にあたっては、$n$が十分大きいことに基づいて分散の$p$を$\hat{p}$で近似を行いました。この置き換えは母比率の推定や検定でよく出てくるので注意が必要です。
標本和の活用例
参考
中心極限定理に関しては下記でも詳しく取り扱いました。
[…] 2.11.3 中心極限定理 〜統計検定2級対応・統計学入門まとめ〜 […]