統計検定2級問題解説 ~2017年6月実施~ (その2)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問9 解答

(確率変数の和と差,共分散,相関係数)

[1]

$\boxed{ \ \mathsf{19}\ }$ ④

$X$と$Y$は互いに独立なので,$\mathrm{Cov}[X,Y]=\mathrm{Cov}[Y,X]=0$
$$\begin{align}
V[U]=&V[X+Y]=V[X]+V[Y]=\sigma_1^2+\sigma_2^2\\
V[V]=&V[X-Y]=V[X]+V[Y]=\sigma_1^2+\sigma_2^2\\
\mathrm{Cov}[U,V]=&\mathrm{Cov}[X+Y,X-Y]\\
=&V[X]-\mathrm{Cov}[X,Y]+\mathrm{Cov}[Y,X]-V[Y]\\
=&\sigma_1^2-\sigma_2^2\\
\therefore\ \rho_{UV}=&\frac{\mathrm{Cov}[U,V]}{\sqrt{V[U]V[V]}}
=\frac{\sigma_1^2-\sigma_2^2}{\sqrt{(\sigma_1^2+\sigma_2^2)(\sigma_1^2+\sigma_2^2)}}
=\frac{\sigma_1^2-\sigma_2^2}{\sigma_1^2+\sigma_2^2}
\end{align}$$

[2]

$\boxed{ \ \mathsf{20}\ }$ ⑤

Ⅰ.$E[U]=E[X]+E[Y]=0$,$E[V]=E[X]-E[Y]=0$なので,平均はどちらも$0$。正しい。
Ⅱ.$U$と$V$が互いに独立ならば,$\mathrm{Cov}[U,V]=0$。このとき,[1]より$\sigma_1^2-\sigma_2^2=0\Rightarrow\sigma_1^2=\sigma_2^2$。正しい。
Ⅲ.$U$と$V$は同じ平均$0$,分散$\sigma_1^2+\sigma_2^2$の正規分布に従う。正しい。


問10 解答

(標準正規分布,カイ二乗分布)

[1]

$\boxed{ \ \mathsf{21}\ }$ ④

$W_1=X_1^2\sim \chi^2(1)$なので,$P(W_1\ge w)=0.05$となる$w$の値は$\chi^2$分布表から
$$\chi^2_{0.05}(1)=3.84$$

[2]

$\boxed{ \ \mathsf{22}\ }$ ②

$W_n\sim \chi^2(n)$なので,$P(W_n\ge 2n)<0.05$になるのは,$\chi^2(n)$の上側$0.05$点が$2n$よりも小さいということである。
$$P(W_n\ge 2n)<0.05\ \Rightarrow\ 2n>\chi^2_{0.05}(n)$$
$\chi^2$分布表から
 $n=7$のとき$\chi^2_{0.05}(7)=14.07>2n=14$
 $n=8$のとき$\chi^2_{0.05}(8)=15.51<2n=16$


問11 解答

(標本サイズ)

$\boxed{ \ \mathsf{23}\ }$ ④

年間売上高の標本平均を$\bar X$,母集団平均を$\mu$とすると,相対誤差を$\pm5\%$以下に抑えるとは
$$\left|\frac{\bar X-\mu}{\mu}\right|\le0.05$$
が成り立つことである。これに売上高の母平均$\mu>0$をかけ標本平均$\bar X$の標準誤差$\mathrm{se}>0$で割ると
$$\left|\frac{\bar X-\mu}{\mathrm{se}}\right|\le\frac{0.05\mu}{\mathrm{se}}$$
である。母集団が十分大きいとき,母集団の分散を$\sigma^2$とすると,標本平均の分散は$\sigma^2/n$となり,その平方根である標準誤差は
$\mathrm{se}=\sigma/\sqrt{n}$となる。これを上式の右辺の代入して,
$$\left|\frac{\bar X-\mu}{\mathrm{se}}\right|\le\frac{0.05\mu}{\sigma}\sqrt{n}$$
となる。母集団の変動係数が$\sigma/\mu=0.4$であるので,
$$\left|\frac{\bar X-\mu}{\mathrm{se}}\right|\le\frac{0.05}{0.4}\sqrt{n}$$
となる。ここで$\begin{align}\frac{\bar X-\mu}{\mathrm{se}}\end{align}$の分布が近似的に標準正規分布に従うことから,
$$P\left(\left|\frac{\bar X-\mu}{\mathrm{se}}\right|\le\frac{0.05}{0.4}\sqrt{n}\right)=0.95\
\therefore\ \frac{0.05}{0.4}\sqrt{n}=z_{0.05/2}=1.96\ \Rightarrow\ n\fallingdotseq246$$
よって,$n$は$246$より大きければよい。


問12 解答

(母平均の区間推定,母比率の比の検定)

[1]

$\boxed{ \ \mathsf{24}\ }$ ④

無作為標本の標本平均$\bar X$の標準誤差は標本の標準偏差$s$を用いて $s/\sqrt{n}$

[2]

$\boxed{ \ \mathsf{25}\ }$ ⑤

母分散が未知の場合の母平均の区間推定は$t$分布を用いるが,今回のケースでは$n=333$と大きいので,標準正規分布を用いて区間推定を行う。
$\bar{X}\sim N(\mu,\sigma^2/n)$なので,$\begin{align}\frac{\bar{X}-\mu}{\sqrt{\sigma^2/n}}\end{align}$は標準正規分布に従う。母標準偏差$\sigma$の代わりに標本の標準偏差$s$を用いて
$$\begin{eqnarray}
P\left(z_{-0.05}\le\frac{\bar{X}-\mu}{\sqrt{s^2/n}}\le z_{0.05}\right)\ge0.90\ \ \Rightarrow\ \ P\left(|\bar{X}-\mu|\le1.645\frac{s}{\sqrt{n}}\right)\ge0.90\\
\therefore\ \ 1.645\frac{s}{\sqrt{n}}=1.645\times\frac{62}{\sqrt{333}}=5.6
\end{eqnarray}$$
仮に$t$分布を用いた場合,$z_{0.05}$の代わりに自由度$333-1=332$の$t$分布の上側$5\%$値$t_{0.05}(332)$を使う。この値は$1.64946$となり,
$t_{0.05}(332)s/\sqrt{n}=1.649\times62/\sqrt{333}=5.6$となる。

[3]

$\boxed{ \ \mathsf{26}\ }$ ①

Ⅰ.$\begin{align}E[\bar X]=E\left[\frac1n\sum_{i=1}^nx_i\right]=\frac1n\sum_{i=1}^nE[x_i]=\frac1n\sum_{i=1}^n\mu=\mu\end{align}$となるので,標本平均は母平均の不偏推定量である。正しい。
Ⅱ.信頼区間の幅は信頼係数が大きくなるほど広くなる。誤り。
Ⅲ.信頼区間の幅はデータ数の平方根に反比例する。よって,(111人の信頼区間の幅)/(333人の信頼区間の幅)$=(1/\sqrt{111})/(1/\sqrt{333})=\sqrt{3}$となる。誤り。

[4]

$\boxed{ \ \mathsf{27}\ }$ ②

2つの母集団からの標本${x_1,\dots,x_m}\sim N(\mu_x,\sigma^2_x),\ {y_1,\dots,y_n}\sim N(\mu_y,\sigma^2_y)$に従うとき,母分散が等しいという帰無仮説$\ H_0:\sigma^2_x=\sigma^2_y\ \Leftrightarrow\ \sigma^2_y/\sigma^2_x=1.0\ $,対立仮説$\ H_1:\sigma^2_x\ne\sigma^2_y\ $で,両側検定を行う。
帰無仮説の下で,以下の検定統計量($F$検定量)は自由度$(m-1,n-1)$の$F$分布に従う。
$$F=\frac{\hat\sigma_x^2}{\sigma_x^2}\cdot\frac{\sigma_y^2}{\hat\sigma_y^2}=\frac{\hat\sigma_x^2}{\hat\sigma_y^2}\sim F(m−1,n−1)$$


問13 解答

(独立性の検定)

独立性の検定は,2つの属性$A,B$が独立かどうかの検定。
属性$A$のカテゴリが$A_i$,属性$B$のカテゴリが$B_j$の観測度数を$f_{ij}=O_{ij}$とし,
 $f_{i\cdot}=\sum_jf{ij}$を$i$行の度数合計(行和),
 $f_{\cdot j}=\sum_if{ij}$を$j$列の度数合計(列和),
 $f_{\cdot\cdot}=\sum_i\sum_jf_{ij}=\sum_if_{i\cdot}=\sum_jf_{\cdot j}=n$を全度数合計という。
属性$A,B$が独立という帰無仮説は,$H_0:P(A\cap B)=P(A)P(B)$が成り立つことである。
ここで,カテゴリ$A_i,B_j$の出現確率はそれぞれ$f_{i\cdot}/n,f_{\cdot j}/n$であるので,$H_0$のもとで,属性$A$のカテゴリが$A_i$,属性$B$のカテゴリが$B_j$の期待度数は
$$E_{ij}=n(f_{i\cdot}/n)(f_{\cdot j}/n)=f_{i\cdot}f_{\cdot j}/n$$
となる。
 帰無仮説$H_0$の下で,次検定の統計量$\chi^2$は度数が大きいときに近似的に$\chi^2$分布に従う。行和と列和が固定されていることから自由度は$(r$(行の数)$-1)\times(c$(列の数)$-1)$となる。
$$\chi^2=\sum_{i=1}^r\sum_{j=1}^c\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\sim\chi^2((r-1)(c-1))$$
有意水準$100\alpha\%$で帰無仮説が棄却されるには,$\chi^2$分布の上側$\alpha$点より上で求めた$\chi^2$統計量が大きくなればよい。

[1]

$\boxed{ \ \mathsf{28}\ }$ ①

男子で菓子Aが好きであると答える期待度数は
$$\frac{49\times27}{100}=13.23$$

[2]

$\boxed{ \ \mathsf{29}\ }$ ②

自由度は$(2-1)\times(2-1)=1$

【補足】
各カテゴリの期待度数は
 男子・Aが好き $13.23$
 男子・Aが嫌い $49\times73\div100=35.77$
 女子・Aが好き $51\times27\div100=13.77$
 女子・Aが嫌い $51\times73\div100=37.23$
属性$A,B$が独立という帰無仮説のもとで,検定に用いるカイ二乗検定統計量は
$$\chi^2=\frac{(19-13.23)^2}{13.23}+\frac{(30-35.77)^2}{35.77}+\frac{(8-13.77)^2}{13.77}+\frac{(43-37.23)^2}{37.23}=6.76$$


問14 解答

(一元配置分散分析)

 帰無仮説$H_o:$「各カテゴリの平均は同じである。」,対立仮説$H_1:$「少なくとも2つのカテゴリの平均は同じでないものがある。」としたときの$F$検定を行う。分散分析表(カテゴリ数を$n_i$とする)

変動要因平方和自由度分散$F$値
水準間$\begin{eqnarray}S_A=\sum_{j=1}^{n_i}\sum_{i=1}^{n_j}(\bar y_{j\cdot}-\bar y_{\cdot\cdot})^2\\ =\sum_{j=1}^{n_i}n_j(\bar y_{j\cdot}-\bar y_{\cdot\cdot})^2\end{eqnarray}$$\phi_A=n_i-1$$V_A=S_A/\phi_A$$F=V_A/V_E$
残差$\displaystyle S_E=\sum_{j=1}^{n_i}\sum_{i=1}^{n_j}(y_{ji}-\bar y_{j\cdot})^2$$\displaystyle\phi_E=\sum_{j=1}^{n_i}n_j-n_i$$V_E=S_E/\phi_E$
合計$S_A+S_E$$\displaystyle\phi=\sum_{j=1}^{n_i}n_j-1$

この検定統計量$F$が自由度$(\phi_A,\phi_E)$の$F$分布に従うものとして検定を行う。

[1]

$\boxed{ \ \mathsf{30}\ }$ ①

不偏分散は全平方和をデータ数-1で除したものである。
$$\begin{align}
s=&\frac1{\phi}\sum_{j=1}^{n_i}\sum_{i=1}^{n_j}(y_{ji}-\bar y)^2=\frac1{\phi}(S_A+S_E)\\
=&(0.2204+0.3370)/(20-1)=0.02933
\end{align}$$

[2]

$\boxed{ \ \mathsf{31}\ }$ ⑤

自由度は,地域:$4-1=3$,残差:$20-4=16$
平均平方は,地域:$0.2204/3=0.07347$,残差:$0.3370/16=0.02106$
$F$値は,$0.07347/0.02106=3.488$

[3]

$\boxed{ \ \mathsf{32}\ }$ ①

$P$値が$5\%$より小さいので,帰無仮説は棄却される。


問15 解答

(重回帰モデル,統計ソフトウェアの活用)

※重回帰モデルの統計ソフトウェアによる出力結果の主な項目
$\mathtt{Estimate}$:回帰係数($\alpha,\beta_1,\beta_2,\beta_3$)の推定値
$\mathtt{Std.Error}$:回帰係数の推定値の標準誤差
$\mathtt{t\ value}$:$t$値,$\mathtt{Pr(\gt|t|)}$:$P_-$値・・・回帰係数の検定で使う
$\mathtt{Rasidual\ standard\ error}$:誤差項の標準偏差の推定値
$\mathtt{degrees\ of\ freedom}$:自由度
$\mathtt{Multiple\ R-squared}$:決定係数($R^2$)
$\mathtt{Adjusted\ R-squared}$:自由度調整済み決定係数($R^{*2}$)
$\mathtt{F-statistic}$:$F$検定統計量,$\mathtt{p-value}$:$P_-$値・・・回帰の有意性の検定で使う

[1]

$\boxed{ \ \mathsf{33}\ }$ ②

推定された回帰係数の値は$\mathtt{Estimate}$から読み取る。よって,回帰式は
最盛期年齢$=31.9271+0.3038\times$最高学位取得年齢$-4.4339\times$理論研究ダミー
これに,最高学位取得年齢=$28$,理論研究ダミー=$1$を代入して,
$$31.9271+0.3038\times28-4.4339\times1=36.0$$

[3]

$\boxed{ \ \mathsf{34}\ }$ ③

有意水準$5\%$で有意となるパラメータは$\alpha$,$\beta_1$,$\beta_2$のすべてであるが,このうち,有意に正となるパラメータは,値が正となる$\alpha$と$\beta_1$である。

[3]

$\boxed{ \ \mathsf{35}\ }$ ⑤

①は重回帰モデルでは説明変数間の関係を読み取ることはできない。
モデルのパラメータの正負から,学位の取得年齢が高いほど最盛期年齢も高くなり,理論研究ダミーが$1$のほうが最盛期年齢が低くなる関係になる。したがって,正しいのは⑤