統計検定2級問題解説～2017年6月実施～（問9～問15）

Contents

1 過去問題
2 問9 解答
3 問10 解答
4 問11 解答
5 問12 解答
6 問13 解答
7 問14 解答
8 問15 解答

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。

統計検定2級（2017.06）【正解】（統計検定公式）

問9 解答

（確率変数の和と差，共分散，相関係数）

[1]

$\boxed{ \ \mathsf{19}\ }$ ④

$X$と$Y$は互いに独立なので，$\mathrm{Cov}[X,Y]=\mathrm{Cov}[Y,X]=0$
$$\begin{align}
V[U]=&V[X+Y]=V[X]+V[Y]=\sigma_1^2+\sigma_2^2\\
V[V]=&V[X-Y]=V[X]+V[Y]=\sigma_1^2+\sigma_2^2\\
\mathrm{Cov}[U,V]=&\mathrm{Cov}[X+Y,X-Y]\\
=&V[X]-\mathrm{Cov}[X,Y]+\mathrm{Cov}[Y,X]-V[Y]\\
=&\sigma_1^2-\sigma_2^2\\
\therefore\ \rho_{UV}=&\frac{\mathrm{Cov}[U,V]}{\sqrt{V[U]V[V]}}
=\frac{\sigma_1^2-\sigma_2^2}{\sqrt{(\sigma_1^2+\sigma_2^2)(\sigma_1^2+\sigma_2^2)}}
=\frac{\sigma_1^2-\sigma_2^2}{\sigma_1^2+\sigma_2^2}
\end{align}$$

[2]

$\boxed{ \ \mathsf{20}\ }$ ⑤

Ⅰ．$E[U]=E[X]+E[Y]=0$，$E[V]=E[X]-E[Y]=0$なので，平均はどちらも$0$。正しい。
Ⅱ．$U$と$V$が互いに独立ならば，$\mathrm{Cov}[U,V]=0$。このとき，[1]より$\sigma_1^2-\sigma_2^2=0\Rightarrow\sigma_1^2=\sigma_2^2$。正しい。
Ⅲ．$U$と$V$は同じ平均$0$，分散$\sigma_1^2+\sigma_2^2$の正規分布に従う。正しい。

問10 解答

（標準正規分布，カイ二乗分布）

[1]

$\boxed{ \ \mathsf{21}\ }$ ④

$W_1=X_1^2\sim \chi^2(1)$なので，$P(W_1\ge w)=0.05$となる$w$の値は$\chi^2$分布表から
$$\chi^2_{0.05}(1)=3.84$$

[2]

$\boxed{ \ \mathsf{22}\ }$ ②

$W_n\sim \chi^2(n)$なので，$P(W_n\ge 2n)<0.05$になるのは，$\chi^2(n)$の上側$0.05$点が$2n$よりも小さいということである。
$$P(W_n\ge 2n)<0.05\ \Rightarrow\ 2n>\chi^2_{0.05}(n)$$
$\chi^2$分布表から
　$n=7$のとき$\chi^2_{0.05}(7)=14.07>2n=14$
　$n=8$のとき$\chi^2_{0.05}(8)=15.51<2n=16$

問11 解答

（標本サイズ）

$\boxed{ \ \mathsf{23}\ }$ ④

年間売上高の標本平均を$\bar X$，母集団平均を$\mu$とすると，相対誤差を$\pm5\%$以下に抑えるとは
$$\left|\frac{\bar X-\mu}{\mu}\right|\le0.05$$
が成り立つことである。これに売上高の母平均$\mu>0$をかけ標本平均$\bar X$の標準誤差$\mathrm{se}>0$で割ると
$$\left|\frac{\bar X-\mu}{\mathrm{se}}\right|\le\frac{0.05\mu}{\mathrm{se}}$$
である。母集団が十分大きいとき，母集団の分散を$\sigma^2$とすると，標本平均の分散は$\sigma^2/n$となり，その平方根である標準誤差は
$\mathrm{se}=\sigma/\sqrt{n}$となる。これを上式の右辺の代入して，
$$\left|\frac{\bar X-\mu}{\mathrm{se}}\right|\le\frac{0.05\mu}{\sigma}\sqrt{n}$$
となる。母集団の変動係数が$\sigma/\mu=0.4$であるので，
$$\left|\frac{\bar X-\mu}{\mathrm{se}}\right|\le\frac{0.05}{0.4}\sqrt{n}$$
となる。ここで$\begin{align}\frac{\bar X-\mu}{\mathrm{se}}\end{align}$の分布が近似的に標準正規分布に従うことから，
$$P\left(\left|\frac{\bar X-\mu}{\mathrm{se}}\right|\le\frac{0.05}{0.4}\sqrt{n}\right)=0.95\
\therefore\ \frac{0.05}{0.4}\sqrt{n}=z_{0.05/2}=1.96\ \Rightarrow\ n\fallingdotseq246$$
よって，$n$は$246$より大きければよい。

問12 解答

（母平均の区間推定，母比率の比の検定）

[1]

$\boxed{ \ \mathsf{24}\ }$ ④

無作為標本の標本平均$\bar X$の標準誤差は標本の標準偏差$s$を用いて $s/\sqrt{n}$

[2]

$\boxed{ \ \mathsf{25}\ }$ ⑤

母分散が未知の場合の母平均の区間推定は$t$分布を用いるが，今回のケースでは$n=333$と大きいので，標準正規分布を用いて区間推定を行う。
$\bar{X}\sim N(\mu,\sigma^2/n)$なので，$\begin{align}\frac{\bar{X}-\mu}{\sqrt{\sigma^2/n}}\end{align}$は標準正規分布に従う。母標準偏差$\sigma$の代わりに標本の標準偏差$s$を用いて
$$\begin{eqnarray}
P\left(z_{-0.05}\le\frac{\bar{X}-\mu}{\sqrt{s^2/n}}\le z_{0.05}\right)\ge0.90\ \ \Rightarrow\ \ P\left(|\bar{X}-\mu|\le1.645\frac{s}{\sqrt{n}}\right)\ge0.90\\
\therefore\ \ 1.645\frac{s}{\sqrt{n}}=1.645\times\frac{62}{\sqrt{333}}=5.6
\end{eqnarray}$$
仮に$t$分布を用いた場合，$z_{0.05}$の代わりに自由度$333-1=332$の$t$分布の上側$5\%$値$t_{0.05}(332)$を使う。この値は$1.64946$となり，
$t_{0.05}(332)s/\sqrt{n}=1.649\times62/\sqrt{333}=5.6$となる。

[3]

$\boxed{ \ \mathsf{26}\ }$ ①

Ⅰ．$\begin{align}E[\bar X]=E\left[\frac1n\sum_{i=1}^nx_i\right]=\frac1n\sum_{i=1}^nE[x_i]=\frac1n\sum_{i=1}^n\mu=\mu\end{align}$となるので，標本平均は母平均の不偏推定量である。正しい。
Ⅱ．信頼区間の幅は信頼係数が大きくなるほど広くなる。誤り。
Ⅲ．信頼区間の幅はデータ数の平方根に反比例する。よって，(111人の信頼区間の幅)/(333人の信頼区間の幅)$=(1/\sqrt{111})/(1/\sqrt{333})=\sqrt{3}$となる。誤り。

[4]

$\boxed{ \ \mathsf{27}\ }$ ②

２つの母集団からの標本${x_1,\dots,x_m}\sim N(\mu_x,\sigma^2_x),\ {y_1,\dots,y_n}\sim N(\mu_y,\sigma^2_y)$に従うとき，母分散が等しいという帰無仮説$\ H_0:\sigma^2_x=\sigma^2_y\ \Leftrightarrow\ \sigma^2_y/\sigma^2_x=1.0\ $，対立仮説$\ H_1:\sigma^2_x\ne\sigma^2_y\ $で，両側検定を行う。
帰無仮説の下で，以下の検定統計量($F$検定量)は自由度$(m-1,n-1)$の$F$分布に従う。
$$F=\frac{\hat\sigma_x^2}{\sigma_x^2}\cdot\frac{\sigma_y^2}{\hat\sigma_y^2}=\frac{\hat\sigma_x^2}{\hat\sigma_y^2}\sim F(m−1,n−1)$$

問13 解答

（独立性の検定）

独立性の検定は，２つの属性$A,B$が独立かどうかの検定。
属性$A$のカテゴリが$A_i$，属性$B$のカテゴリが$B_j$の観測度数を$f_{ij}=O_{ij}$とし，
　$f_{i\cdot}=\sum_jf{ij}$を$i$行の度数合計（行和），
　$f_{\cdot j}=\sum_if{ij}$を$j$列の度数合計（列和），
　$f_{\cdot\cdot}=\sum_i\sum_jf_{ij}=\sum_if_{i\cdot}=\sum_jf_{\cdot j}=n$を全度数合計という。
属性$A,B$が独立という帰無仮説は，$H_0:P(A\cap B)=P(A)P(B)$が成り立つことである。
ここで，カテゴリ$A_i,B_j$の出現確率はそれぞれ$f_{i\cdot}/n,f_{\cdot j}/n$であるので，$H_0$のもとで，属性$A$のカテゴリが$A_i$，属性$B$のカテゴリが$B_j$の期待度数は
$$E_{ij}=n(f_{i\cdot}/n)(f_{\cdot j}/n)=f_{i\cdot}f_{\cdot j}/n$$
となる。
　帰無仮説$H_0$の下で，次検定の統計量$\chi^2$は度数が大きいときに近似的に$\chi^2$分布に従う。行和と列和が固定されていることから自由度は$(r$(行の数)$-1)\times(c$(列の数)$-1)$となる。
$$\chi^2=\sum_{i=1}^r\sum_{j=1}^c\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\sim\chi^2((r-1)(c-1))$$
有意水準$100\alpha\%$で帰無仮説が棄却されるには，$\chi^2$分布の上側$\alpha$点より上で求めた$\chi^2$統計量が大きくなればよい。

[1]

$\boxed{ \ \mathsf{28}\ }$ ①

男子で菓子Ａが好きであると答える期待度数は
$$\frac{49\times27}{100}=13.23$$

[2]

$\boxed{ \ \mathsf{29}\ }$ ②

自由度は$(2-1)\times(2-1)=1$

【補足】
各カテゴリの期待度数は
　男子・Ａが好き　$13.23$
　男子・Ａが嫌い　$49\times73\div100=35.77$
　女子・Ａが好き　$51\times27\div100=13.77$
　女子・Ａが嫌い　$51\times73\div100=37.23$
属性$A,B$が独立という帰無仮説のもとで，検定に用いるカイ二乗検定統計量は
$$\chi^2=\frac{(19-13.23)^2}{13.23}+\frac{(30-35.77)^2}{35.77}+\frac{(8-13.77)^2}{13.77}+\frac{(43-37.23)^2}{37.23}=6.76$$

問14 解答

（一元配置分散分析）

　帰無仮説$H_o:$「各カテゴリの平均は同じである。」，対立仮説$H_1:$「少なくとも2つのカテゴリの平均は同じでないものがある。」としたときの$F$検定を行う。分散分析表(カテゴリ数を$n_i$とする)

変動要因	平方和	自由度	分散	$F$値
水準間	$\begin{eqnarray}S_A=\sum_{j=1}^{n_i}\sum_{i=1}^{n_j}(\bar y_{j\cdot}-\bar y_{\cdot\cdot})^2\\ =\sum_{j=1}^{n_i}n_j(\bar y_{j\cdot}-\bar y_{\cdot\cdot})^2\end{eqnarray}$	$\phi_A=n_i-1$	$V_A=S_A/\phi_A$	$F=V_A/V_E$
残差	$\displaystyle S_E=\sum_{j=1}^{n_i}\sum_{i=1}^{n_j}(y_{ji}-\bar y_{j\cdot})^2$	$\displaystyle\phi_E=\sum_{j=1}^{n_i}n_j-n_i$	$V_E=S_E/\phi_E$
合計	$S_A+S_E$	$\displaystyle\phi=\sum_{j=1}^{n_i}n_j-1$

この検定統計量$F$が自由度$(\phi_A,\phi_E)$の$F$分布に従うものとして検定を行う。

[1]

$\boxed{ \ \mathsf{30}\ }$ ①

不偏分散は全平方和をデータ数-1で除したものである。
$$\begin{align}
s=&\frac1{\phi}\sum_{j=1}^{n_i}\sum_{i=1}^{n_j}(y_{ji}-\bar y)^2=\frac1{\phi}(S_A+S_E)\\
=&(0.2204+0.3370)/(20-1)=0.02933
\end{align}$$

[2]

$\boxed{ \ \mathsf{31}\ }$ ⑤

自由度は，地域：$4-1=3$，残差：$20-4=16$
平均平方は，地域：$0.2204/3=0.07347$，残差：$0.3370/16=0.02106$
$F$値は，$0.07347/0.02106=3.488$

[3]

$\boxed{ \ \mathsf{32}\ }$ ①

$P$値が$5\%$より小さいので，帰無仮説は棄却される。

問15 解答

（重回帰モデル，統計ソフトウェアの活用）

※重回帰モデルの統計ソフトウェアによる出力結果の主な項目
$\mathtt{Estimate}$：回帰係数($\alpha,\beta_1,\beta_2,\beta_3$)の推定値
$\mathtt{Std.Error}$：回帰係数の推定値の標準誤差
$\mathtt{t\ value}$：$t$値，$\mathtt{Pr(\gt|t|)}$：$P_-$値・・・回帰係数の検定で使う
$\mathtt{Rasidual\ standard\ error}$：誤差項の標準偏差の推定値
$\mathtt{degrees\ of\ freedom}$：自由度
$\mathtt{Multiple\ R-squared}$：決定係数($R^2$)
$\mathtt{Adjusted\ R-squared}$：自由度調整済み決定係数($R^{*2}$)
$\mathtt{F-statistic}$：$F$検定統計量，$\mathtt{p-value}$：$P_-$値・・・回帰の有意性の検定で使う

[1]

$\boxed{ \ \mathsf{33}\ }$ ②

推定された回帰係数の値は$\mathtt{Estimate}$から読み取る。よって，回帰式は
最盛期年齢$=31.9271+0.3038\times$最高学位取得年齢$-4.4339\times$理論研究ダミー
これに，最高学位取得年齢＝$28$，理論研究ダミー＝$1$を代入して，
$$31.9271+0.3038\times28-4.4339\times1=36.0$$

[3]

$\boxed{ \ \mathsf{34}\ }$ ③

有意水準$5\%$で有意となるパラメータは$\alpha$，$\beta_1$，$\beta_2$のすべてであるが，このうち，有意に正となるパラメータは，値が正となる$\alpha$と$\beta_1$である。

[3]

$\boxed{ \ \mathsf{35}\ }$ ⑤

①は重回帰モデルでは説明変数間の関係を読み取ることはできない。
モデルのパラメータの正負から，学位の取得年齢が高いほど最盛期年齢も高くなり，理論研究ダミーが$1$のほうが最盛期年齢が低くなる関係になる。したがって，正しいのは⑤