3.4.4 母比率の区間推定 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$3.4.4$節「母比率の区間推定」の内容を元に二項分布の正規近似などを用いた母比率の区間推定について取りまとめを行いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

「母比率の区間推定」の概要

概要

「特定の政党を支持するかどうか」を元に政党支持率などを調査する場合を考えます。このとき、母集団が$100$人であれば都度全数調査を行うことができますが、実際の選挙区のように数$10$万人単位となると、全数調査はあまり現実的ではありません。

このような場合に母集団の政党支持率の母比率の区間推定を行います。母比率の区間推定にあたっては、中心極限定理に基づき二項分布の正規近似を行います。中心極限定理は下記で取り扱いましたので、詳しくは合わせてご確認ください。

必要な数学

中心極限定理を元に正規近似を行うので、極限の概念は抑えておくと良いと思います。

母比率の区間推定

二項分布の期待値と分散

確率変数$Y$が$Y \sim \mathrm{Bin}(n,p)$のように二項分布に従うとき、期待値$E[Y]$と分散$V[Y]$は下記のように表されます。
$$
\large
\begin{align}
E[Y] &= np \\
V[Y] &= np(1-p)
\end{align}
$$

上記は「ベルヌーイ分布の期待値・分散」と「期待値・分散の公式」に基づいて導出することができます。
詳しい導出は下記で取り扱いました。

発展事項

実際の調査では非復元無作為抽出を行うことが多いので、二項分布ではなく超幾何分布を用いるのが正確です。超幾何分布の期待値は二項分布と同じですが、分散は有限母集団修正の項の分だけ小さくなることは抑えておくと良いです。

一方で母集団の大きさの$N$が大きくなると有限母集団修正項は$1$であると見なせるので、母集団が大きいときは二項分布で近似できると考えられます。超幾何分布と有限母集団修正に関しては下記で取り扱いましたので、詳しくはご確認ください。

標本比率

前項で確認を行った確率変数$Y$を下記のように表すことを考えます。
$$
\large
\begin{align}
X_i & \sim \mathrm{Bin}(1,p) \\
Y &= \sum_{i=1}^{n} X_i \sim \mathrm{Bin}(n,p)
\end{align}
$$

上記の$\mathrm{Bin}(1,p)$は確率$p$のベルヌーイ分布に一致します。また、下記のように$\overline{X}$を定義します。
$$
\large
\begin{align}
\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i
\end{align}
$$

このとき標本の比率$\hat{p}$は$\overline{X}$に一致するので$\hat{p}=\overline{X}$が成立します。

標本比率の期待値と分散

標本比率$\hat{p}$の期待値$E[\hat{p}]$と分散$V[\hat{p}]$は$\hat{p}=\overline{X}$であることに基づいて、それぞれ下記のように導出することができます。
$$
\large
\begin{align}
E[\hat{p}] &= E[\overline{X}] = E \left[ \frac{1}{n} \sum_{i=1}^{n} X_i \right] \\
&= \frac{1}{n} \sum_{i=1}^{n} E[X_i] = p \\
V[\hat{p}] &= V \left[ \frac{1}{n} \sum_{i=1}^{n} X_i \right] \\
&= \frac{1}{n^2} \sum_{i=1}^{n} V[X_i] \\
&= \frac{np(1-p)}{n^2} = \frac{p(1-p)}{n}
\end{align}
$$

中心極限定理

標本比率は$\hat{p}=\overline{X}$のように表せるので$n \to \infty$のとき、中心極限定理を適用することができます。よって下記のように考えることができます。
$$
\large
\begin{align}
\hat{p} &= \overline{X} \sim \mathcal{N}(E[\overline{X}],V[\overline{X}]) \\
E[\hat{p}] &= E[\overline{X}] = p, \; V[\hat{p}] = V[\overline{X}] = \frac{p(1-p)}{n} \\
\hat{p} & \sim \mathcal{N} \left( p, \frac{p(1-p)}{n} \right)
\end{align}
$$

ここで$(1)$は$n \to \infty$を元に導出を中心極限定理を用いたことから、同様に大数の法則に基づいて分散に関して$\hat{p} \to p$であると考えることができます。よって下記が成立します。
$$
\large
\begin{align}
\hat{p} \sim \mathcal{N} \left( p, \frac{\hat{p}(1-\hat{p})}{n} \right) \quad (2)
\end{align}
$$

上記の近似は分散の$p$がそのままで区間推定を行うと、$2$次不等式を解く必要が生じ、煩雑であるので原則的に用いられます。基本的にはこの流れが用いられるので、難しく考えずに流れを抑えるで十分だと思います。

母比率の区間推定

$\displaystyle \hat{p} \sim \mathcal{N} \left( p, \frac{\hat{p}(1-\hat{p})}{n} \right)$より、母比率$p$の$95$%区間は下記のように表すことができます。
$$
\large
\begin{align}
z_{\alpha=0.975} \leq & Z \leq z_{\alpha=0.025} \\
-1.96 \leq & \frac{\hat{p}-p}{\sqrt{\hat{p}(1-\hat{p})/n}} \leq 1.96 \\
\hat{p} – 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq & p \leq \hat{p} + 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
\end{align}
$$

まとめ

母比率の区間推定では下記の$3$つの近似を用いたことに注意が必要です。

① 超幾何分布を二項分布で近似 $\leftarrow$ 母集団の大きさ$N$が大きいとき有限母集団修正項が$1$となる
② 中心極限定理による二項分布の正規近似
③ $\displaystyle \mathcal{N} \left( p, \frac{p(1-p)}{n} \right)$の分散の$p$を大数の法則に基づいて$\hat{p}$で近似

上記のように$3$つも同時に近似が出てくるので難しいですが、それぞれの概要を簡単に理解しておくと良いと思います。