統計検定2級 公式問題集 CBT対応版 解答例まとめ 〜10. 線形モデル〜

「統計検定$2$級 公式問題集 CBT対応版」の解答例を取りまとめるにあたって、当記事では「PART.$2$ 分野・項目別 問題・解説」のCategory.$10$「線形モデル」の解答例を作成しました。解答例は「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

回帰分析

Q.1

$[1]$
散布図より負の相関があることが読み取れるので④か⑤に絞られる。ここで⑤の$-0.994$がほとんど直線上にある場合に相当するので、④の$-0.794$が正解であると考えられる。

$[2]$
回帰直線が$(\bar{x},\bar{y})$を通ることと極端な外れ値がないことから②が適切であると考えることができる。

$[3]$
標本の大きさが$25$であるので自由度は$25-2=23$である。また、検定統計量の値は下記のように計算できる。
$$
\large
\begin{align}
\frac{-0.14510}{0.02316} = -6.26 \cdots
\end{align}
$$

上記より⑤が正解であると考えられる。

・考察
回帰分析を行う際に二乗誤差の偏微分から得られる正規方程式は下記のように表されます。
$$
\large
\begin{align}
\frac{\partial E(b_0, b_1)}{\partial b_0} &= -2 \sum_{i=1}^{n} (y_i – b_1 x_i – b_0) = 0 \\
\frac{\partial E(b_0, b_1)}{\partial b_1} &= -2 \sum_{i=1}^{n} (y_i – b_1 x_i – b_0)x_i = 0
\end{align}
$$

上記に$\hat{y}_i = b_0 + b_1 x_i$を代入すると、$\displaystyle \sum_{i=1}^{n} (y_i-\hat{y}_i)=0$が得られるので、$\bar{y}=\bar{\hat{y}}$が成立します。よって回帰直線は$(\bar{x},\bar{y})$を通ると考えられます。正規方程式は下記などで詳しく取り扱いました。

Q.2

・$[1]$
①が正しい。

・$[2]$
前問の考察で詳しく確認を行ったが、$\bar{y}=\bar{\hat{y}}$が成立するので正しい。
Ⅱ $\hat{y} = 0.4121\hat{x} + 14.3931, \hat{y}=31.3$より$\hat{x}=41.0$が成立するので正しい。
Ⅲ 残差$e_i$は$e_i=y_i-\hat{y}_i$で定義され、$\hat{y}+e_i=y_i$が成立するので正しい。

よって、⑤が正解である。

Q.3

・$[1]$
残差の平均$\bar{e}$は$\bar{e}=\bar{y}-\bar{\hat{y}}=0$より常に$0$である。よって④が正しい。

・$[2]$
回帰分析の出力結果を表した図との対応を考えると、①と③に絞られる。残差$e_i$は$e_i=y_i-\hat{y}_i$のように「実測ー予測」で定義されるので、①が正しい残差プロットである。

・$[3]$
$n=195$で十分大きいと考え、$t$分布の正規近似を元に回帰係数$\beta$の$90$%区間は下記のように表せる。
$$
\large
\begin{align}
-1.645 \leq & \frac{-60.263 – \beta}{4.414} \leq 1.645 \\
-60.263 – 1.645 \times 4.414 \leq & \beta \leq -60.263 + 1.645 \times 4.414 \\
-67.52 \leq & \beta \leq -53.00
\end{align}
$$

よって②が正解である。

Q.4

・$[1]$
Ⅱのみ正しいので②が正解である。

・$[2]$
Ⅰのみ正しいので①が正解である。

分散分析

Q.1

・$[1]$
全平方和は$0.2204+0.3370=0.5574$であるので、不偏標本分散は下記のように計算できる。
$$
\large
\begin{align}
\frac{0.5574}{19} = 0.0293 \cdots
\end{align}
$$

よって①が正解である。

・$[2]$
地域の自由度は$4-1=3$、残差の自由度は$20-3-1=16$である。よって地域の平均平方、残差の平均平方、$F$値はそれぞれ下記のように計算できる。

地域の平均平方
$$
\large
\begin{align}
\frac{0.2204}{3} = 0.073466 \cdots
\end{align}
$$

地域の平均平方
$$
\large
\begin{align}
\frac{0.3370}{16} = 0.02106 \cdots
\end{align}
$$

$F$値
$$
\large
\begin{align}
\frac{0.07347}{0.02106} = 3.488 \cdots
\end{align}
$$

よって⑤が正解である。

・$[3]$
対立仮説は「母平均の少なくとも一つは異なる」であるので①か②に絞られる。ここで$F$値に関して下記が成立する。
$$
\large
\begin{align}
F = 3.488 \cdots > 3.287 = F_{\alpha=0.05}(3,15) > F_{\alpha=0.05}(3,16)
\end{align}
$$

上記より帰無仮説は棄却できるので①が正解である。

Q.2

・$[1]$
水準間平方和$S_A$と残差平方和$S_e$の定義より①が正解である。

・$[2]$
③が正解である。

・$[3]$
Ⅰ 対立仮説が正しくない
Ⅱ $F=3.0471 > 1.910 = F_{\alpha=0.05}(10,120) > F_{\alpha=0.05}(11,120)$より帰無仮説は棄却されるので正しくない。
Ⅱ $F=3.0471 > 2.1570 = F_{\alpha=0.025}(10,120) > F_{\alpha=0.025}(11,120)$より帰無仮説は棄却されるので正しい。

上記より③が正解である。

Q.3

・$[1]$
下記のような計算を行うことで$t$値が得られる。

import numpy as np

sigma2 = (13549.+7763.)/(6.+6.-2)
t = (233.7-185.3)/np.sqrt((1./6.+1./6.)*sigma2)

print("t: {:.2f}".format(t))

・実行結果

t: 1.82

よって④が正解である。

・$[2]$
下記のような処理を行うことで$F$値が得られる。

import numpy as np

x = np.array([[218., 303., 198., 296., 201., 186.], [209., 177., 167., 145., 161., 253.]])
mean_x = np.mean(x,axis=1)
mean_x_mat = np.repeat(mean_x,6).reshape([2,6])

S_A = np.sum(6.*(mean_x-np.mean(x))**2)
S_E = np.sum((x-mean_x_mat)**2)

V_A = S_A/1.
V_E = S_E/10.
F = V_A/V_E

print("F: {:.2f}".format(F))

・実行結果

F: 3.29

よって④が正解である。

Q.4

参考

・【統計検定$2$級対応】統計学入門まとめ
https://www.hello-statisticians.com/stat_basic