「統計検定$2$級 公式問題集 CBT対応版」の解答例を取りまとめるにあたって、当記事では「PART.$2$ 分野・項目別 問題・解説」のCategory.$7$「推定」の解答例を作成しました。解答例は「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。
解答例
Q.1
全体の標本比率を$\hat{p}$とおく。また、標本比率$\hat{p}_1, \hat{p}_2, \hat{p}$に対応する母比率をそれぞれ$p_1, p_2, p$とおく。このとき、全体の母比率$p$は$p_1, p_2$を用いて下記のように表せる。
$$
\large
\begin{align}
p = \frac{N_1 p_1 + N_2 p_2}{N_1+N_2}
\end{align}
$$
よって全体の母比率の推定量である$\hat{p}$は下記のように表すことができる。
$$
\large
\begin{align}
\hat{p} = \frac{N_1 \hat{p}_1 + N_2 \hat{p}_2}{N_1 + N_2}
\end{align}
$$
このとき、$\hat{p}$の分散$V[\hat{p}]$は下記のように導出できる。
$$
\large
\begin{align}
V[\hat{p}] &= V \left[ \frac{N_1 \hat{p}_1 + N_2 \hat{p}_2}{N_1 + N_2} \right] \\
&= \left( \frac{N_1}{N_1 + N_2} \right)^2 V[\hat{p}_1] + \left( \frac{N_2}{N_1 + N_2} \right)^2 V[\hat{p}_2] \\
&= \left( \frac{N_1}{N_1 + N_2} \right)^2 \frac{p_1(1-p_1)}{n_1} + \left( \frac{N_2}{N_1 + N_2} \right)^2 \frac{p_2(1-p_2)}{n_2}
\end{align}
$$
よって$\hat{p}$の標準誤差$\mathrm{se}(\hat{p})$は下記のように得られる。
$$
\large
\begin{align}
\mathrm{se}(\hat{p}) &= \sqrt{V[\hat{p}]} \\
&= \sqrt{\left( \frac{N_1}{N_1 + N_2} \right)^2 \frac{p_1(1-p_1)}{n_1} + \left( \frac{N_2}{N_1 + N_2} \right)^2 \frac{p_2(1-p_2)}{n_2}}
\end{align}
$$
以上より、正解は②である。
・参考
分散に関する公式などは下記で詳しく取り扱いました。
Q.2
Q.3
標本比率を$\hat{p}$、母平均を$p$とおくと、$n$が十分大きい時「二項分布の正規近似」より$\displaystyle \hat{p} \sim \mathcal{N} \left( p, \frac{p(1-p)}{n} \right)$が成立する。このとき$p$の$95$%区間は標本比率$\hat{p}$に実測値を代入することで下記のように導出できる。
$$
\large
\begin{align}
-1.96 \leq & \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \leq 1.96 \\
\hat{p} – 1.96 \sqrt{\frac{p(1-p)}{n}} \leq & p \leq \hat{p} + 1.96 \sqrt{\frac{p(1-p)}{n}}
\end{align}
$$
上記の区間の幅が全ての$p$に関して$6$%以下であるには下記が成立すれば良い。
$$
\large
\begin{align}
2 \times 1.96 \sqrt{\frac{p(1-p)}{n}} & \leq 0.06 \\
\sqrt{n} & \geq \frac{2 \times 1.96}{0.06} \sqrt{0.5 (1-0.5)} \geq \frac{2 \times 1.96}{0.06} \sqrt{p(1-p)} \\
n & \geq \frac{1.96^2}{0.06^2} = 1067.1 \cdots
\end{align}
$$
上記より④が正解である。
Q.4
標本比率を$\hat{p}$とおくと、「二項分布の正規近似」により、$\displaystyle \hat{p} \sim \mathcal{N} \left( p, \frac{p(1-p)}{n} \right)$が成立する。よって下記のように$Z$を考えることができる。
$$
\large
\begin{align}
Z &= \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \\
Z & \sim \mathcal{N}(0,1)
\end{align}
$$
このとき$\hat{p}=20/200=0.1$を代入することで、下記のように$p$の$95$%区間を表せる。
$$
\large
\begin{align}
-1.96 \leq & \frac{0.1-p}{\sqrt{\frac{p(1-p)}{n}}} \leq 1.96 \\
0.1 – 1.96 \sqrt{\frac{p(1-p)}{n}} \leq & p \leq 0.1 + 1.96 \sqrt{\frac{p(1-p)}{n}} \quad (1) \\
0.1 – 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq & p \leq 0.1 + 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \quad (2) \\
0.1 – 1.96 \sqrt{\frac{0.1(1-0.1)}{200}} \leq & p \leq 0.1 + 1.96 \sqrt{\frac{0.1(1-0.1)}{200}} \\
0.1 – 0.04158 \leq & p \leq 0.1 + 0.04158 \quad (3) \\
\end{align}
$$
上記の$(1)$から$(2)$にかけて標準偏差を構成する$p$を$\hat{p}$で置き換えたが、母比率の推定でよく出てくる手順なので抑えておくとよい。$(3)$の計算結果より④が正解である。
Q.5
サンプル数 | 十分大きい | それほど大きくない |
正規母集団からの無作為抽出 | 正規分布 | 自由度$n-1$の$t$分布 |
非正規母集団からの無作為抽出 | 正規分布 | 母集団分布による |
上記より、③が正解である。
Q.6
標本比率を$\hat{p}_1-\hat{p}_2$、母比率を$p_1, p_2$、標本抽出数を$n_1, n_2$のようにおくとき、二項分布の正規近似により$\hat{p}_1-\hat{p}_2$に関して下記が成立する。
$$
\large
\begin{align}
\hat{p}_1-\hat{p}_2 \sim \mathcal{N} \left( p_1-p_2, \frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2} \right)
\end{align}
$$
上記より$p_1-p_2$の$95$%区間は下記のように導出できる。
$$
\large
\begin{align}
z_{\alpha=0.975} \leq & \frac{(\hat{p}_1-\hat{p}_2)-(p_1-p_2)}{\displaystyle \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}} \leq z_{\alpha=0.025} \\
\hat{p}-1.96 \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}} \leq & p_1-p_2 \leq \hat{p}+1.96 \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}
\end{align}
$$
それぞれに値を代入することで母比率の差の$95$%区間は下記のように得られる。
$$
\large
\begin{align}
0.067 \pm 1.96 \sqrt{\frac{0.483 \times 0.517}{1897} + \frac{0.416 \times 0.584}{1925}}
\end{align}
$$
上記に基づいて下記のような計算を行うことで$95$%区間の計算を行うことができる。
import numpy as np
lower_p = (0.483-0.416) - 1.96* np.sqrt(0.483*(1.-0.483)/1897. + 0.416*(1.-0.416)/1925.)
upper_p = (0.483-0.416) + 1.96* np.sqrt(0.483*(1.-0.483)/1897. + 0.416*(1.-0.416)/1925.)
print("lower_p: {:.3f}".format(lower_p))
print("upper_p: {:.3f}".format(upper_p))
・実行結果
lower_p: 0.036
upper_p: 0.098
上記より得られた区間$0.036 \leq p_1-p_2 \leq 0.098$は$0$を含まないので有意水準$5$%で割合が変化したといえる。よって②が正解である。
参考
・【統計検定$2$級対応】統計学入門まとめ
https://www.hello-statisticians.com/stat_basic
[…] 「統計検定2級 公式問題集 CBT対応版 $7$.推定」の解答で作成 […]