統計検定2級問題解説 ~2018年6月実施~ (その2)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問9 解答

(期待値,分散,共分散,相関)

[1]

$\boxed{ \ \mathsf{18}\ }$ ④

$$
\begin{align}
E[X^2]&=V[X]+E[X]^2=1.0+(2.0)^2=5.0\\E
[Y^2]&=V[Y]+E[Y]^2=1.0+(3.0)^2=10.0\\
\mathrm{Cov}[X,Y]&=E[XY]-E[X]E[Y]=6.3-2.0\times3.0=0.3
\end{align}
$$
※ $V[X]=E[X^2]-E[X]^2, \mathrm{Cov}[X,Y]=E[XY]-E[X]E[Y]$ は重要な式

[2]

$\boxed{ \ \mathsf{19}\ }$ ④

$$
\begin{align}
E[U]&=E[3X-2]=3E[X]-2=3\times2.0-2=4.0\\
E[V]&=E[-2Y-4]=-2E[Y]-4=-2\times3.0-4=-10.0\\
E[UV]&=E[(3X-2)(-2Y-4)]=E[-6XY-12X+4Y+8]\\
&=-6E[XY]-12E[X]+4E[Y]+8\\
&=-6\times6.3-12\times2.0+4\times3.0+8=-41.8\\
\mathrm{Cov}[U,V]&=E[UV]-E[U]E[V]=-41.8-4.0\times(-10.0)=-1.8\\
V[U]&=V[3X-2]=3^2V[X]=3^2\times1.0=9.0\\
V[V]&=V[-2Y-4]=(-2)^2V[Y]=(-2)^2\times1.0=4.0\\
r[U,V]&=\frac{\mathrm{Cov}[U,V]}{\sqrt{V[U]}\sqrt{V[V]}}=\frac{-1.8}{\sqrt{9.0}\sqrt{4.0}}=-0.3
\end{align}
$$
※ 共分散と相関係数は符号が同じになる。


問10 解答

(標準正規分布,母平均の区間推定,t分布)

[1]

$\boxed{ \ \mathsf{20}\ }$ ④

$\bar{X}\sim N(\mu,\sigma^2/n)$なので,$\begin{align}\frac{\bar{X}-\mu}{\sqrt{\sigma^2/n}}\end{align}$は標準正規分布に従う。よって
$\displaystyle P\left(z_{-0.025}\le\frac{\bar{X}-\mu}{\sqrt{\sigma^2/n}}\le z_{0.025}\right)\ge0.95\ \ \Rightarrow\ \ P\left(|\bar{X}-\mu|\le1.96{\sqrt{1/n}}\right)\ge0.95$
$\displaystyle \therefore\ \ 1.96\sqrt{1/n}=0.5\ \ \Rightarrow\ \ n=\left(\frac{1.96}{0.5}\right)^2=15.4$

[2]

$\boxed{ \ \mathsf{21}\ }$ ①

母分散$\sigma^2$を不偏分散$S^2$に置き換えた$\begin{align}\frac{\bar{X}-\mu}{\sqrt{S^2/n}}\end{align}$は自由度$n-1$の$t$分布に従う。
自由度$n-1$の上側$\alpha/2$点を$t_{\alpha/2}(n-1)$とすると
$\displaystyle \left|\frac{\bar{X}-\mu}{\sqrt{S^2/n}}\right|\le t_{\alpha/2}(n-1)\ \ \Rightarrow\ \ \ \bar{X}-t_{\alpha/2}(n-1)\sqrt{\frac{S^2}{n}}\le\mu\le\bar{X}+t_{\alpha/2}(n-1)\sqrt{\frac{S^2}{n}}$
$n=20, \bar{X}=10.50,S^2=5.41$,自由度$19$の上側$0.05/2$点 $t_{0.025}(19)=2.093$を代入すると
$\displaystyle 10.50-2.093\times\sqrt{\frac{5.41}{20}}\le\mu\le10.50+2.093\times\sqrt{\frac{5.41}{20}}$


問11 解答

(母比率の区間推定)

[1]

$\boxed{ \ \mathsf{22}\ }$ ③

成功確率$p$の試行を$n$回行うときに成功する回数$X$は二項分布$B(n,p)$に従う。$$\therefore\ \ E(X)=np,\ V(X)=np(1-p)$$このとき,$n$がある程度大きいときは,中心極限定理によって,$B(n,p)$は正規分布$N(np,np(1-p))$に近似できる。よって,$X$を標準化すると標準正規分布$N(0,1)$に従う。$$Z=\frac{X-np}{\sqrt{np(1-p)}}=\frac{X/n-p}{\sqrt{\frac{p(1-p)}n}}\sim N(0,1)$$ここで,標本平均 $\hat p=x/n$は$p$の一致推定量なので,$n$が十分大きいとき$p$は$\hat p$に置き換えられる。
したがって,母比率の$100(1-\alpha)\%$信頼区間は,標準正規分布の上側 $100\alpha/2\%$ 点を $z_{\alpha/2}$とすると,$$P\left(\hat p-z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}\le p\le\hat p+z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}\right)=1-\alpha$$
北海道における野球の行動者の母比率の$95\%$信頼区間は,$n=4633$,$\hat p=0.071$,$\alpha=0.05$として$$\hat p\pm z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}=0.071\pm1.96\times\sqrt{\frac{0.071\times(1-0.071)}{4633}}=0.0074$$

[2]

$\boxed{ \ \mathsf{23}\ }$ ②

2つの道県の母比率を$p_1,p_2$とすると,2つの道県合せた母比率は,2つの母比率の加重平均をとって,$$p=\frac{N_1p_1+N_2p_2}{N_1+N_2}$$であるから,その推定値(ア)は$$\hat p=\frac{N_1\hat p_1+N_2\hat p_2}{N_1+N_2}$$この$\hat p$の分散は,$$\begin{align}V(\hat p)&=V\left(\frac{N_1\hat p_1+N_2\hat p_2}{N_1+N_2}\right)=\left(\frac{N_1}{N_1+N_2}\right)^2V(\hat p_1)+\left(\frac{N_2}{N_1+N_2}\right)^2V(\hat p_2)\\
&=\left(\frac{N_1}{N_1+N_2}\right)^2\frac{\hat p_1(1-\hat p_1)}{n_1}+\left(\frac{N_2}{N_1+N_2}\right)^2\frac{\hat p_2(1-\hat p_2)}{n_2}\end{align}$$
$\hat p$の標準偏差(イ)は,$$\sqrt{\left(\frac{N_1}{N_1+N_2}\right)^2\frac{\hat p_1(1-\hat p_1)}{n_1}+\left(\frac{N_2}{N_1+N_2}\right)^2\frac{\hat p_2(1-\hat p_2)}{n_2}}$$


問12 解答

(母平均の差の検定(母分散未知で等分散),一元配置分散分析)

[1]

$\boxed{ \ \mathsf{24}\ }$ ④

標本$x_1,\dots,x_{n_1},\ y_1,\dots,y_{n_2}$が母分散の等しい正規分布$N(\mu_1,\sigma^2),N(\mu_2,\sigma^2)$に従うとき,標本平均の差$$d=\bar x-\bar y,\ \ \bar x=\sum_{i=1}^nx_i\sim N(\mu_1,\sigma^2/n_1),\ \ \bar y=\sum_{i=1}^ny_i\sim N(\mu_2,\sigma^2/n_2)$$も正規分布に従う(正規分布の再生性)。このとき,$\bar x,\bar y$は独立なので$$E[d]=\delta=\mu_1-\mu_2,\ \ V[d]=\sigma^2/n_1+\sigma^2/n_2=\sigma^2(1/n_1+1/n_2)$$
ここで,帰無仮説$H_0:\delta=0$の下では,$d$の分布は$$d\sim N\left(0,\left(\frac1{n_1}+\frac1{n_2}\right)\sigma^2\right)$$となり,有意水準$100\alpha\%$の棄却域は次の式で与えられる。
両側対立仮説($H_1:\delta\ne0$)の場合  $\begin{align}|d|\ge z_{\alpha/2}\sqrt{\frac1{n_1}+\frac1{n_2}}\sigma\end{align}$
以上は母分散$\sigma^2$が既知の場合であるが,母分散が未知の場合は$\sigma^2$の代わりに推定量$\hat\sigma^2$を使い,$$Z=\frac{\bar x-\bar y}{\sqrt{\frac1{n_1}+\frac1{n_2}}\sigma}\sim N(0,1)\ \leftrightarrow\ t=\frac{\bar x-\bar y}{\sqrt{\frac1{n_1}+\frac1{n_2}}\hat\sigma}\sim t(n_1+n_2-2)$$共通の分散の推定値$\hat\sigma$は,$x,y$の不偏分散をそれぞれの自由度で加重平均したものを用いる。$$\hat\sigma^2=\frac{(n_1-1)\hat\sigma_1^2+(n_2-1)\hat\sigma_2^2}{(n_1-1)+(n_2-1)}=\frac{\sum(x_i-\bar x)^2+\sum(y_i-\bar y)^2}{n_1+n_2-2}$$
 ここで,$\bar x=233.7,\ \bar y=185.3,\ n_1=n_2=6,\ \sum(x_i-\bar x)^2=13549,\ \sum(y_i-\bar y)^2=7763$を代入して$$t=\frac{\bar x-\bar y}{\sqrt{\left(\frac1{n_1}+\frac1{n_2}\right)\frac{\sum(x_i-\bar x)^2+\sum(y_i-\bar y)^2}{n_1+n_2-2}}}=\frac{233.7-185.3}{\sqrt{\left(\frac16+\frac16\right)\frac{13549+7763}{6+6-2}}}=1.816$$

[2]

$\boxed{ \ \mathsf{25}\ }$ ④

総平均 $(218+303+198+296+201+186+209+177+167+145+161+253)/12=209.5$
総平方和 $\begin{align}(218-209.5)^2&+(303-209.5)^2+(198-209.5)^2+(296-209.5)^2+(201-209.5)^2\\+(186-209.5)^2&+(209-209.5)^2+(177-209.5)^2+(167-209.5)^2+(145-209.5)^2\\+(161-209.5)^2&+(253-209.5)^2=28321\end{align}$
残差平方和 $13549+7763=21312$(自由度 $12-2=10$)
水準間平方和 $28321-21312=7009$(自由度 $2-1=1$)
$F$値 $\displaystyle F=\frac{7009/1}{21312/10}=3.29$

※ 水準数が$2$の分散分析表の結果$F$値と,[1]の”分散が未知で等しい場合の2つの母平均の差の検定”の$t$値の間には$F=t^2$の関係がある(証明省略)。
よって,[1]の結果から $F=1.816^2=3.298$で求められる。


問13 解答

(第一種の過誤,第二種の過誤,検出力)

真実
帰無仮説が正しい対立仮説が正しい
検定の結果帰無仮説を棄却しない
(対立仮説が正しいとは言えない)
正しい第二種の過誤(β)
帰無仮説を棄却する
(対立仮説が正しい)
第一種の過誤(α)
有意水準
正しい
検出力(1-β)

[1]

$\boxed{ \ \mathsf{26}\ }$ ④

[2]

$\boxed{ \ \mathsf{27}\ }$ ②

上の表をもとに,検定Ⅰ,検定Ⅱ,検定Ⅲの第一種の過誤,第二種の過誤,検出力を求めれば明らか。
 第一種の過誤:$H_0$の下での$X$の分布($P_0$)における棄却域を満たす確率の計
 第二種の過誤:$H_1$の下での$X$の分布($P_1$)における棄却域を満たさない確率の計

検定 第一種の過誤 第二種の過誤 検出力
検定Ⅰ 0.1+0.1+0.1=0.3 0.05+0.05+0=0.1 1-0.1=0.9
検定Ⅱ 0.1+0.1=0.2 0.2+0.05+0.05+0=0.3 1-0.3=0.7
検定Ⅲ 0.3 0.4+0.3+0.2+0.05+0.05+0=1 1-1=0

問14 解答

(重回帰モデル,統計ソフトウェアの活用)

※重回帰モデルの統計ソフトウェアによる出力結果の主な項目
$\mathtt{Estimate}$:回帰係数($\alpha,\beta_1,\beta_2,\beta_3$)の推定値
$\mathtt{Std.Error}$:回帰係数の推定値の標準誤差
$\mathtt{t\ value}$:$t$値,$\mathtt{Pr(\gt|t|)}$:$P_-$値・・・回帰係数の検定で使う
$\mathtt{Rasidual\ standard\ error}$:誤差項の標準偏差の推定値
$\mathtt{degrees\ of\ freedom}$:自由度
$\mathtt{Multiple\ R-squared}$:決定係数($R^2$)
$\mathtt{Adjusted\ R-squared}$:自由度調整済み決定係数($R^{*2}$)
$\mathtt{F-statistic}$:$F$検定統計量,$\mathtt{p-value}$:$P_-$値・・・回帰の有意性の検定で使う

[1]

$\boxed{ \ \mathsf{28}\ }$ ⑤

推定された回帰係数の値は$\mathtt{Estimate}$から読み取る。よって,回帰式は
$\mathrm{log}($犯罪発生率$)=-7.08851+0.09408\times$失業率$+2.41815\times\mathrm{log}($賃金$)-0.06498\times\mathrm{log}($警察官数$)$
これに,失業率=$2.8$,$\mathrm{log}$(賃金)=$5.6$,$\mathrm{log}$(警察官数)=$5.3$を代入して,
$$-7.08851+0.09408\times2.8+2.41815\times5.6-0.06498\times5.3=6.372$$

[2]

$\boxed{ \ \mathsf{29}\ }$ ④

帰無仮説$\beta_3=-0.5$,対立仮説$\beta_3\ne-0.5$の有意水準$100\alpha\%$の棄却域は次の式で与えられる。  $$\left|\frac{\hat\beta_3-\beta_3}{\mathrm{se}(\hat\beta_3)}\right|<t_{\alpha/2}(n-p-1)$$ここで,$\hat\beta_3$は$\beta_3$の推定値,$\mathrm{se}(\hat\beta_3)$は標準誤差,$n$はデータ数,$p$は説明変数の数である。$$t=\frac{-0.06498-(-0.5)}{0.22718}=1.914869$$となり,自由度$47-4=43$なので,自由度$40$と自由度$60$の$t$分布のパーセント点の値を見ると,
 自由度$=40$のとき、$t_{0.05}=1.684, t_{0.025}=2.021$
 自由度$=60$のとき、$t_{0.05}=1.671, t_{0.025}=2.000$
どちらの自由度の値を見ても、先に求めた$t$値は$t_{0.05}\lt t \lt t_{0.025}$。よって,両側$10\%$を有意水準とすると仮説は棄却され,両側$5\%$を有意水準とすると仮説は棄却されない。

[3]

$\boxed{ \ \mathsf{30}\ }$ ④

Ⅰ.$P_-$値(Pr(>|t|))が$1\%=0.01$より小さい回帰係数は定数項と$\mathrm{log}$(賃金)の2つである。正しい。
Ⅱ.$\mathrm{log}$(賃金)の回帰係数が正なので,賃金が高くなると,予測値である犯罪発生率は高くなる。誤り。
Ⅲ.出力結果の$\mathtt{Adjusted\ R-squared}$の値が$0.5787$なので正しい。


問15 解答

(独立性の検定)

独立性の検定は,2つの属性$A,B$が独立かどうかの検定。
属性$A$のカテゴリが$A_i$,属性$B$のカテゴリが$B_j$の観測度数を$f_{ij}=O_{ij}$とし,
 $f_{i\cdot}=\sum_jf{ij}$を$i$行の度数合計(行和),
 $f_{\cdot j}=\sum_if{ij}$を$j$列の度数合計(列和),
 $f_{\cdot\cdot}=\sum_i\sum_jf_{ij}=\sum_if_{i\cdot}=\sum_jf_{\cdot j}=n$を全度数合計という。
属性$A,B$が独立という帰無仮説は,$H_0:P(A\cap B)=P(A)P(B)$が成り立つことである。
ここで,カテゴリ$A_i,B_j$の出現確率はそれぞれ$f_{i\cdot}/n,f_{\cdot j}/n$であるので,$H_0$のもとで,属性$A$のカテゴリが$A_i$,属性$B$のカテゴリが$B_j$の期待度数は$$E_{ij}=n(f_{i\cdot}/n)(f_{\cdot j}/n)=f_{i\cdot}f_{\cdot j}/n$$となる。
帰無仮説$H_0$の下で,次検定の統計量$\chi^2$は度数が大きいときに近似的に$\chi^2$分布に従う。行和と列和が固定されていることから自由度は$(r$(行の数)$-1)\times(c$(列の数)$-1)$となる。$$\chi^2=\sum_{i=1}^r\sum_{j=1}^c\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\sim\chi^2((r-1)(c-1))$$有意水準$100\alpha\%$で帰無仮説が棄却されるには,$\chi^2$分布の上側$\alpha$点より上で求めた$\chi^2$統計量が大きくなればよい。

$\boxed{ \ \mathsf{31}\ }$ ③

求める期待度数は$$\frac{(105+15)\times(105+102)}{105+15+102+143}=68.0548$$

[2]

$\boxed{ \ \mathsf{32}\ }$ ②

$\chi^2$検定量は$\begin{align}\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\end{align}$をすべてのセルで合計したものである。

[3]

$\boxed{ \ \mathsf{33}\ }$ ⑤

$\chi^2$統計量の値は$69.04$で,自由度$1$の$\chi^2$分布の上側$5\%$点より大きいので,有意水準$5\%$で帰無仮説は棄却される。よって,風向と季節は独立でない→関連があるといえる。


問16 解答

(母分散の比の検定)

$\boxed{ \ \mathsf{34}\ }$ ②

2つの母集団からの標本$\{x_1,\dots,x_m\}\sim N(\mu_x,\sigma^2_x),\ \{y_1,\dots,y_n\}\sim N(\mu_y,\sigma^2_y)$に従うとき,母分散が等しいという帰無仮説$\ H_0:\sigma^2_x=\sigma^2_y\ \Leftrightarrow\ \sigma^2_y/\sigma^2_x=1.0\ $,対立仮説$\ H_1:\sigma^2_x\ne\sigma^2_y\ $で,両側検定を行う。
帰無仮説の下で,以下の検定統計量($F$検定量)は自由度$(m-1,n-1)$の$F$分布に従う。$$F=\frac{\hat\sigma_x^2}{\sigma_x^2}\cdot\frac{\sigma_y^2}{\hat\sigma_y^2}=\frac{\hat\sigma_x^2}{\hat\sigma_y^2}\sim F(m−1,n−1)$$有意水準$100\%$の両側検定の場合,この検定統計量を$F$分布の上側$\alpha/2$点と下側$\alpha/2$点(=上側$(1-\alpha/2)$点)と比較して,$$F_{1-\alpha/2}(m−1,n−1)\le\frac{\hat\sigma_x^2}{\hat\sigma_y^2}\le F_{\alpha/2}(m−1,n−1)$$を満たせば,帰無仮説を受け入れ,そうでないときは帰無仮説を棄却する。
問題の場合,$F$統計量は$$F=\frac{19.5^2}{14.5^2}=1.809$$となり,自由度($20,40$)の$F$分布の上側$2.5%$点は$2.068$,下側$2.5%$点は自由度($40,20$)の$F$分布の上側$2.5%$点の逆数から$1/2.287=0.437$なので,$F$統計量は上側$2.5%$点と下側$2.5%$点の間となり,帰無仮説は棄却しない。