ブログ

統計検定準1級 問題解説 ~2018年6月実施 問7 クラスタリング、主成分分析~

問題

過去問題は統計検定公式が問題と解答例を公開しています。こちらを参照してください。

解答

[1] 解答

$\boxed{ \ \mathsf{9}\ }$ : ④

ウォード法の定義より④が正しい。

[2] 解答

$\boxed{ \ \mathsf{10}\ }$ : ⑤

下記のような計算を実行することでそれぞれの回答の相関行列の作成を行う。なお、試験時はPythonを用いることはできないが、同様の計算を電卓で行えばよいので、ここでは確認しやすさの観点からPythonを用いて表す。

import numpy as np

Ans = np.array([[5., 3., 2., 4., 5.], [3., 4., 5., 5., 3.], [4., 5., 5., 4., 4.]])

print("Dist 0-1: {:.2f}".format(np.sqrt(np.sum((Ans[0,:]-Ans[1,:])**2))))
print("Dist 0-2: {:.2f}".format(np.sqrt(np.sum((Ans[0,:]-Ans[2,:])**2))))
print("Dist 1-2: {:.2f}".format(np.sqrt(np.sum((Ans[1,:]-Ans[2,:])**2))))

・実行結果

> print("Dist 0-1: {:.2f}".format(np.sqrt(np.sum((Ans[0,:]-Ans[1,:])**2))))
Dist 0-1: 4.36
> print("Dist 0-2: {:.2f}".format(np.sqrt(np.sum((Ans[0,:]-Ans[2,:])**2))))
Dist 0-2: 3.87
> print("Dist 1-2: {:.2f}".format(np.sqrt(np.sum((Ans[1,:]-Ans[2,:])**2))))
Dist 1-2: 2.00

上記より、”[イ]-[ウ]”に対応する”1-2″のユークリッド距離が最も小さいので、⑤が正しいことがわかる。

[3] 解答

$\boxed{ \ \mathsf{11}\ }$ : ④

「サーモン」と「うに・いくら」の横軸の値が負なのは④のみであるので、④が正しいとわかる。

解説

比較的解きやすい内容だと思われました。特に$[3]$は簡単な図表の読み取りだけで答えられるので、確実に解けるのが望ましいと思います。

参考

・準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

「統計学実践ワークブック」 演習問題etc Ch.16 「重回帰分析」

当記事は「統計学実践ワークブック(学術図書出版社)」の読解サポートにあたってChapter.16の「重回帰分析」に関して演習問題を中心に解説を行います。重回帰分析は回帰を行うにあたっての基本トピックなので、演習を通して抑えておくと良いと思われました。

演習問題解説

問16.1

$[1]$
Adjusted R-squaredが自由度調整済み決定係数を表しているので、この値が最も大きい値の$0.8202$を示すモデル$3$を選ぶとよい。

$[2]$
Pr(>|t|)の列の値を確認し、$0.05$よりも小さいものを選べばよく、ここではGENとAMTが該当する。

問16.2

$[1]$
係数$\hat{\beta}_5$の推定量はEstimateの値より、$0.27388$が読み取れる。また、$t$統計量は下記のように計算できる。
$$
\large
\begin{align}
\frac{0.27388}{0.22967} &= 1.1924… \\
& \simeq 1.19
\end{align}
$$

ここで自由度$111-5-1$の$t$分布の両側確率を確認すると、$t=1.19$は有意水準$\alpha=0.1$でも有意であるとはいえないことが確認できる。

$[2]$
予測誤差の観点からは$AIC$を比べるのが適切であり、モデル$1$が最も小さいのでモデル$1$を選べば良い。

問16.3

$[1]$
予測誤差は$\lambda$が小さくなるに従って小さくなるが、交差検証スコアを確認すると小さくし過ぎると過学習が生じることが確認できる。よって、$\lambda=1$が適切であると考えられる。

$[2]$
それぞれ下記が対応する。

a) $\lambda=e^{-2}, \alpha=0$
b) $\lambda=0$
c) $\lambda=e^{-2}, \alpha=1$
d) $\lambda=e^{-2}, \alpha=0.5$

$[3]$
それぞれ下記が対応する。

a) $\alpha=0$
b) $\alpha=1$
c) $\alpha=0.5$

参考

・準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

「統計学実践ワークブック」 演習問題etc Ch.18 「質的回帰」

当記事は「統計学実践ワークブック(学術図書出版社)」の読解サポートにあたってChapter.18の「質的回帰」に関して演習問題を中心に解説を行います。ロジスティック回帰やポアソン回帰など一般化線形モデルはよく出てくるトピックなので、演習を通して抑えておくと良いと思われました。

本章のまとめ

下記などで関連のテーマを取り扱ったので、こちらも合わせてご確認ください。
https://www.hello-statisticians.com/practice/stat_practice7.html

ロジスティック回帰

対数尤度の導出

「問題演習で理解する統計学【$7$】」の「ロジスティック回帰の対数尤度の導出」で取り扱った。

合成関数の微分を用いた勾配の計算

「問題演習で理解する統計学【$7$】」の「合成関数の微分とロジスティック回帰のパラメータ推定」で取り扱った。

ポアソン回帰

「問題演習で理解する統計学【$7$】」の「ポアソン回帰の対数尤度と勾配の導出」で取り扱った。

演習問題解説

問18.1

$[1]$
ロジスティックシグモイド関数の形状より、回帰式が$0$に一致するとき、確率が$0.5$に一致する。ここで導出する値を$x$とおくと、下記を$x$に関して解けば良い。
$$
\large
\begin{align}
-3.77714 + 0.14486x &= 0 \\
x &= \frac{3.77714}{0.14486} \\
x &= 26.074…
\end{align}
$$

また、ここでロジスティックシグモイド関数の変数に$x=30$を代入すると下記のように計算できる。
$$
\large
\begin{align}
\frac{1}{1+e^{-(-3.77714 + 0.14486 \times 30)}} &= \frac{1}{1+e^{-0.5686…}} \\
&= 0.6384…
\end{align}
$$

$[2]$
推定されたパラメータを$\beta_0,\beta_1$、説明変数を$x_1$とおくとき、確率の推定値$\hat{p}$のオッズは下記のように表される。
$$
\large
\begin{align}
\frac{\hat{p}}{1-\hat{p}} &= e^{\beta_0+\beta_1x_1} \\
&= e^{\beta_0}e^{\beta_1x_1}
\end{align}
$$

ここで、$x_1=a$と$x_1=a+2$のときのオッズを比較すると、$x_1=a+2$のときが$x_1=a$のときの$e^{2\beta_1}=e^{2 \times 0.14486} = 1.336…$倍であることが確認できる。

問18.2

$[1]$
確率の推定値を$\hat{p}$とおくと、$\hat{p}$は下記のように計算できる。
$$
\large
\begin{align}
\hat{p} &= \frac{1}{1+e^{-(-2.37766 – 0.06777 x_1 + 0.69531 x_2 + 0.87194 x_3)}} \\
&= \frac{1}{1+e^{-(-2.37766 – 0.06777 \cdot 1 + 0.69531 \cdot 1 + 0.87194 \cdot 1)}} \\
& \simeq 0.293555
\end{align}
$$

$[2]$
$x_1, x_3$を固定し、$x_2=0, x_2=1$の推定リスクに関して確認を行う。
・$x_2=0$
$$
\large
\begin{align}
\frac{\hat{p}}{1-\hat{p}} &= e^{(-2.37766 – 0.06777 x_1 + 0.87194 x_3)}
\end{align}
$$

・$x_2=1$
$$
\large
\begin{align}
\frac{\hat{p}}{1-\hat{p}} &= e^{(-2.37766 – 0.06777 x_1 + 0.69531 + 0.87194 x_3)}
\end{align}
$$

よって$x_2=1$のときは$x_2=0$の時に比べて$e^{0.69531} \simeq 2.00$倍のリスクを持つ。

$[3]$
推定量$0.69531$に対応する標準偏差が$0.285$であることから、推定量が標準正規分布に従うと考えた際の$95$%区間は下記のように計算できる。
$$
\large
\begin{align}
0.69531 \pm 1.96 \times 0.285 &= [0.1367, 1.254]
\end{align}
$$

よって、$95$%区間は$[e^{0.1367},e^{1.254}] = [1.146,3.504]$のように計算できる。

問18.3

$[1]$
問$18.2$と同様に$2$値変数をそれぞれ$x_1,x_2,x_3 \in {0,1}$とおく。また、標準正規分布の累積分布関数を$\Phi(z)$とおく。このとき推定値を$\hat{p}$とおくと、$\hat{p}$は下記のように計算できる。
$$
\large
\begin{align}
\hat{p} &= \Phi(-1.37312-0.03865x_1+0.39996x_2+0.46508x_3) \\
&= \Phi(-1.37312 – 0.03865 \cdot 1 + 0.39996 \cdot 1 + 0.46508 \cdot 1) \\
&= \Phi(-0.5467) \simeq 0.291
\end{align}
$$

$[2]$
係数をそれぞれ$\beta_0, \beta_1, \beta_2, \beta_3$とするとき、$x_2$に対する限界効果は定義より下記のように導出できる。
$$
\large
\begin{align}
\frac{\partial \hat{p}}{\partial x_2} &= \frac{\partial}{\partial x_2} \Phi(\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3) \\
&= \phi(\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3) \beta_2
\end{align}
$$

上記に対し、$x_1=0,x_2=0,x_3=0$を代入し、$\beta$の推定値$\hat{\beta}$にここでの結果を代入すると下記が得られる。
$$
\large
\begin{align}
\phi(\hat{\beta}_0+\hat{\beta}_1x_1+\hat{\beta}_2x_2+\hat{\beta}_3x_3) \beta_2 &= \phi(\hat{\beta}_0) \hat{\beta}_2 \\
&= \phi(-1.37312) \times 0.39996 \\
& \simeq 0.155 \times 0.39996 \simeq 0.062
\end{align}
$$

問18.4

$[1]$
得点の推定値を$\lambda$とおくと、$\lambda$は下記のような式で表される。
$$
\large
\begin{align}
\lambda &= e^{\beta_0 + \beta_1x_1 + \beta_2x_2} \\
&= e^{6.340460 – 0.081255x_1 + 0.019589x_2} \\
&= e^{6.340460}e^{-0.081255x_1}e^{0.019589x_2}
\end{align}
$$
上記より、$x_1$が$1$増えると$\lambda$が$e^{-0.081255} \simeq 0.92$倍、$x_2$が$1$増えると$\lambda$が$e^{0.019589} \simeq 1.02$倍になると推定できる。

$[2]$
Pr(>|t|)を確認すると、$x_2$に関して有意だが、$x_1$に関しては有意でないことが確認できる。

参考

・準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

「統計学実践ワークブック」 演習問題etc Ch.19 「回帰分析その他」

当記事は「統計学実践ワークブック(学術図書出版社)」の読解サポートにあたってChapter.$19$の「回帰分析その他」に関して演習問題を中心に解説を行います。

本章のまとめ

生存時間解析・ハザード関数

生存時間解析(survival time analysis)やハザード関数(hazard function)を理解するにあたっては、累積分布関数と確率密度関数を元に定義を確認することが重要である。

$0$以上の離散確率変数$T \geq 0$に対して累積分布関数を$F(t) = P(T \leq t)$、確率関数を$f(t) = P(T=t)$のように定義する。このとき、$F(t)$と$f(t)$には下記のような関係式が成立する。
$$
\large
\begin{align}
F(t) = P(T \leq t) = \sum_{x=0}^{t} P(T=x) = \sum_{x=0}^{t} f(x)
\end{align}
$$

同様に連続確率変数$T \geq 0$に関して累積分布関数$F(t)$と確率密度関数$f(t)$を考えるとそれぞれ下記のように表すことができる。
$$
\large
\begin{align}
f(t) &= \lim_{\epsilon \to 0} \frac{P(t \leq T \leq t+\epsilon)}{\epsilon} \\
F(t) &= P(T \leq t) = \int_{0}^{t} f(x) dx
\end{align}
$$

上記に対し、生存関数$S(t)$は累積分布関数で計測する事象が観測されなかった確率であるので、累積分布関数で表した事象に関する余事象を考えればよく、これは$S(t) = 1 – F(t)$で定義することができる。

また、$S(t)$と$f(t)$を用いてハザード関数$h(t)$は下記のように定義される。
$$
\large
\begin{align}
h(t) = \frac{f(t)}{S(t)} = \frac{f(t)}{1-F(t)}, \quad t \geq 0
\end{align}
$$

指数分布のハザード関数

ハザード関数の具体例を考える際に式がシンプルであることから指数分布がよく用いられる。パラメータ$\lambda$の指数分布$Ex(\lambda)$の累積分布関数$F(t)$と確率密度関数$f(t)$はそれぞれ下記のように表される。
$$
\large
\begin{align}
f(t) &= \lambda e^{-\lambda t}, \quad t \geq 0 \\
F(t) &= \int_{0}^{t} f(x) dx = \lambda \int_{0}^{t} e^{-\lambda x} dx \\
&= \left[ -e^{-\lambda x} \right]_{0}^{t} = 1 – e^{-\lambda t}, \quad t \geq 0
\end{align}
$$

上記に対して生存関数$S(t)$とハザード関数$h(t)$は下記のように導出できる。
$$
\large
\begin{align}
S(t) &= 1 – F(t) = 1 – (1 – e^{-\lambda t}) \\
&= e^{-\lambda t}, \quad t \geq 0 \\
h(t) &= \frac{f(t)}{S(t)} \\
&= \frac{\lambda e^{-\lambda t}}{e^{-\lambda t}} \\
&= \lambda
\end{align}
$$

上記より指数分布におけるハザード関数は$h(t)=\lambda$であり、$\lambda$は変数$t$に関して考えたとき変化しない定数であることに着目しておくと良い。

ハザード関数が条件付き確率と同様の式で表されると考えることで、ハザード関数は「これまで故障しなかったものがそのタイミングで故障する確率」のように解釈することもできる。これを「瞬間故障率」のように表すことがある。

・参考
赤本 章末課題$6.6$: 指数分布の瞬間故障率

ハザード関数と微分方程式

以下はワークブック$2$章の「確率分布と母関数」や「$1$級テキストの$2$章」の内容も含むが、$19$章の内容との関連が大きいので、当記事で取りまとめを行う。

$$
\large
\begin{align}
h(t) = \frac{f(t)}{S(t)} = \frac{f(t)}{1-F(t)}, \quad t \geq 0
\end{align}
$$
ハザード関数$h(x)$は上記のように定義されるが、$\log{S(x)}$の微分を考えることで下記のような関係式で表すこともできる。
$$
\large
\begin{align}
\frac{d}{dx} (\log{S(x)}) &= \frac{S(x)’}{S(x)} \\
&= \frac{(1-F(x))’}{S(x)} \\
&= \frac{-f(x)}{S(x)} = -h(x)
\end{align}
$$

上記を元に下記の微分方程式を$F(0)=0$に基づいて解くことでハザード関数$h(x)$から累積分布関数$F(x)$や確率密度関数$f(x)$の導出を行うことができる。
$$
\large
\begin{align}
\frac{d}{dx} (\log{(1-F(x))}) = -h(x)
\end{align}
$$

「指数関数」や「ワイブル分布」に関する具体例は下記で取り扱った。
・微分方程式を用いた指数分布・ワイブル分布の確率密度関数の導出

演習問題解説

問19.1

$[1]$
左打ち切りに関する$L=0$であることから、次のように尤度関数$L(\mathbf{\beta},\sigma)$を考えることができる。
$$
\large
\begin{align}
L(\mathbf{\beta},\sigma) &= \prod_{i \in \{i|y_i>L\}} \frac{1}{\sigma} \varphi \left( \frac{y_i-\mathbf{x}_i^{T} \mathbf{\beta}}{\sigma} \right) \prod_{i \in \{i|y_i \leq L\}} \Phi \left( \frac{L-\mathbf{x}_i^{T} \mathbf{\beta}}{\sigma} \right) \\
&= \prod_{i \in \{i|y_i>0\}} \frac{1}{\sigma} \varphi \left( \frac{y_i-\beta_0-\beta_1x_{i1}-\beta_2x_{i2}}{\sigma} \right) \\
& \times \prod_{i \in \{i|y_i \leq 0\}} \Phi \left( \frac{L-\beta_0-\beta_1x_{i1}-\beta_2x_{i2}}{\sigma} \right)
\end{align}
$$

$[2]$
AICはそれぞれ下記のように計算できる。

import numpy as np

logL = np.array([-262.3469, -261.9037, -261.9794, -261.8608])
num_param = np.array([4., 5., 5., 6.])

AIC = -2*logL + 2*num_param

print("AIC: {}".format(AIC))

・実行結果

> print("AIC: {}".format(AIC))
AIC: [ 532.6938  533.8074  533.9588  535.7216]

AICは小さい方が良いので、上記より、$1$つ目が良いことが確認できる。

問19.2

確率密度関数を$f(t)$、累積分布関数を$F(t)$とするとき、ハザード関数$h(t)$は下記のように定義される。
$$
\large
\begin{align}
h(t) = \frac{f(t)}{1-F(t)}
\end{align}
$$

ここで$f(t) = \lambda e^{-\lambda t}$であり、$F(t)$は下記のように導出できる。
$$
\large
\begin{align}
F(t) &= \int_{0}^{t} \lambda e^{-\lambda x} dx \\
&= \left[ -e^{-\lambda x} \right]_{0}^{t} \\
&= 1 – e^{-\lambda t}
\end{align}
$$

よって、ハザード関数$f(t)$は下記のように得られる。
$$
\large
\begin{align}
h(t) &= \frac{f(t)}{1-F(t)} \\
&= \frac{\lambda e^{-\lambda t}}{1-(1 – e^{-\lambda t})} \\
&= \frac{\lambda e^{-\lambda t}}{e^{-\lambda t}} = \lambda
\end{align}
$$

問19.3

$f(t|x)=(-\log{S(t|x)})’$より下記が成立する。
$$
\large
\begin{align}
f(t|x) &= (-\log{S(t|x)})’ \\
-\log{S(t|x)} &= \int_{0}^{t} f(u|x) du \\
-\log{S(t|x)} &= \int_{0}^{t} h_0(u) \exp(x^{T} \beta) du \\
&= \exp(x^{T} \beta) \int_{0}^{t} h_0(u) du \\
&= \exp(x^{T} \beta) H_0(t)
\end{align}
$$

上記の両辺の対数を取ることで下記が導出できる。
$$
\large
\begin{align}
-\log{S(t|x)} &= \exp(x^{T} \beta) H_0(t) \\
\log{(-\log{S(t|x)})} &= x^{T} \beta + \log{H_0(t)}
\end{align}
$$

また、上記で導出した式は式$(19.5)$に一致することも確認しておくとよい。

問19.4

$[1]$
式$(19.5)$の$\mathbf{x}$をダミー変数$x_1 \in \{0,1\}$を用いて、$\mathbf{x} = x_1$のように表すことを考える。このとき、式$(19.5)$に基づいて下記のような連立方程式が得られる。
$$
\large
\begin{align}
\log{(-\log(S(t|x_1=1)))} &= \beta + \log{H_0(t)} \\
\log{(-\log(S(t|x_1=0)))} &= \log{H_0(t)}
\end{align}
$$

上記で表した二つの式より$\log{H_0(t)}$を消去すると下記が得られる。
$$
\large
\begin{align}
\log{(-\log(S(t|x_1=1)))} = \beta + \log{(-\log(S(t|x_1=0)))} \quad (1)
\end{align}
$$

上記より比例ハザード性が成立する場合は、$x_1 \in \{0,1\}$で表した$2$群に対して生存関数の$2$重対数$\log{(-\log{S})}$が平行となると考えることができる。

ここで対象のグラフは生存関数のノンパラメトリック推定量に基づくカプランマイヤー推定量の曲線が平行していることから、グラフで表された検証結果に対して比例ハザード性を仮定することが妥当であると考えられる。

$[2]$
$[1]$で導出を行なった$(1)$は下記のように変形を行うことができる。
$$
\large
\begin{align}
\beta = \log{(-\log(S(t|x_1=1)))} – \log{(-\log(S(t|x_1=0)))}
\end{align}
$$

上記より二つのカプランマイヤー推定量の曲線の差は治療効果の大きさ$\beta$に一致すると考えることができる。

参考

・準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

・統計検定1級 統計応用 理工学の生存関数の出題例
https://www.hello-statisticians.com/toukei-kentei-1/stat_app/stat_certifi_1_app_sci_19_1.html

統計検定準1級 問題解説 ~2018年6月実施 問6 混合分布~

問題

過去問題は統計検定公式が問題と解答例を公開しています。こちらを参照してください。

解答

[1] 解答

$\boxed{ \ \mathsf{6}\ }$ : ③

Aさん、Bさんの偏差値はそれぞれ下記のように計算できる。
・Aさん
$$
\large
\begin{align}
50 + 10 \times \frac{64-65}{5} &= 50 + 10 \times -0.2 \\
&= 48
\end{align}
$$

・Bさん
$$
\large
\begin{align}
50 + 10 \times \frac{86-80}{3} &= 50 + 10 \times 2 \\
&= 70
\end{align}
$$

上記より、③が正解だとわかる。

[2] 解答

$\boxed{ \ \mathsf{7}\ }$ : ②

$2$つの山があり、右側の山が左側の山よりも分散が小さいことが必要条件であるが、②のみがこのことを反映しているので②が正しいとわかる。

[3] 解答

$\boxed{ \ \mathsf{8}\ }$ : ④

$$
\large
\begin{align}
\Phi(z) = \int_{-\infty}^{z} \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}} dx
\end{align}
$$
上記のように標準正規分布の累積密度関数$\Phi(z)$を定義する。

ここで得点が$60$点以上である確率を$P(X \geq 60)$のようにおくと、$P(X \geq 60)$は下記のように計算できる。
$$
\large
\begin{align}
P(X \geq 60) & \simeq \frac{2}{3} \left( 1-\Phi \left( \frac{60-65}{5} \right) \right) + \frac{1}{3} \left( 1-\Phi \left( \frac{60-80}{3} \right) \right) \\
&= \frac{2}{3} (1-\Phi (-1)) + \frac{1}{3} (1-\Phi(-6.67)) \\
&= \frac{2}{3} (1-0.1587) + \frac{1}{3} \simeq 0.8942
\end{align}
$$

上記より、④のおよそ$90$%が正しいことがわかる。

解説

一般的な標準偏差の問題なので、準1級の出題の中では解きやすいと思われました。$[3]$に関してはある程度数式表記を元に計算できるようにしておくと多少イレギュラーな問題にも対応しやすいと思われるので、数式を元にした計算の流れは抑えておくと良いと思います。

参考

・準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

統計検定準1級 問題解説 ~2018年6月実施 問5 ウィルコクソンの順位和検定~

問題

過去問題は統計検定公式が問題と解答例を公開しています。こちらを参照してください。

解答

[1] 解答

$\boxed{ \ \mathsf{3}\ }$ ③

$$
\large
\begin{array}{|c|*4{c|}}\hline medicine & Rank & \cdots & \cdots & sum-rank \\
\hline A & 4 & 1 & 2 & 7 \\
\hline B & 3 & 6 & 5 & 14 \\
\hline
\end{array}
$$

上記のように値の低い順に順位を割り振り順位和を計算すると③が正しいことがわかる。

[2] 解答

$\boxed{ \ \mathsf{4}\ }$ ②

$1$から$6$までの数字のうち$3$つが選ばれる組み合わせは${}_{6} C_{2} = 20$通りであり、このうち順位和が$7$以下となるのは$1,2,3$と$1,2,4$の2通りである。

ここでは片側$P$値は順位和が$7$以下の確率に一致すると考えるので、$\displaystyle \frac{2}{20} = 0.1$より、②が正しいことがわかる。

[3] 解答

$\boxed{ \ \mathsf{5}\ }$ ②

$$
\large
\begin{align}
\frac{1}{{}_n C_{r}} & \leq 0.03 \\
{}_n C_{r} & \geq \frac{1}{0.03} \\
{}_n C_{r} & \geq 33.3…
\end{align}
$$

上記より、${}_n C_{r}$が$33.3..$以上がここでの必要条件となる。ここで①〜⑤における${}_n C_{r}$を計算すると、下記のように表せる。
$$
\large
\begin{align}
{}_8 C_{4} &= \frac{8 \cdot 7 \cdot 6 \cdot 5}{4 \cdot 3 \cdot 2 \cdot 1} = 70 \\
{}_7 C_{3} &= \frac{7 \cdot 6 \cdot 5}{3 \cdot 2 \cdot 1} = 35 \\
{}_6 C_{3} &= \frac{6 \cdot 5 \cdot 4}{3 \cdot 2 \cdot 1} = 20 \\
{}_5 C_{2} &= \frac{5 \cdot 4}{2 \cdot 1} = 10 \\
{}_4 C_{2} &= \frac{4 \cdot 3}{2 \cdot 1} = 6
\end{align}
$$

上記の中で$n$が最小なのは$n=7$であるので、②が正しい。

解説

順位和検定などはノンパラメトリック法の一つであり、「統計学実践ワークブック」の$13$章にまとめられているのでそちらも合わせて確認すると良いと思います。

また、類題を下記で取り扱いましたので、こちらも合わせてご確認ください。
https://www.hello-statisticians.com/practice/stat_practice13.html

参考

・準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

統計検定準1級 問題解説 ~2018年6月実施 問2 無作為非復元抽出~

問題

過去問題は統計検定公式が問題と解答例を公開しています。こちらを参照してください。

解答

[1] 解答

$\boxed{ \ \mathsf{記述3}\ }$ : $\displaystyle \frac{1}{2}$

$X_i^2$の期待値$E[X_i^2]$は期待値の定義に基づいて下記のように計算することができる。
$$
\large
\begin{align}
E[X_i^2] &= 0^2 \times \frac{5}{10} + 1^2 \times \frac{5}{10} \\
&= \frac{5}{10} \\
&= \frac{1}{2}
\end{align}
$$

上記より、$\displaystyle E[X_i^2] = \frac{1}{2}$がわかる。

[2] 解答

$\boxed{ \ \mathsf{記述4}\ }$ : $\displaystyle \frac{2}{9}$

無作為非復元抽出であることから$X_i=1, X_j=1$となる確率は$\displaystyle \frac{{}_{5} C_2}{{}_{10} C_2} = \frac{10}{45} = \frac{2}{9}$である。よって、$E[X_iX_j]$は下記のように計算できる。
$$
\large
\begin{align}
E[X_i^2] &= 0 \times \left(1-\frac{2}{9} \right) + 1 \times \frac{2}{9} \\
&= \frac{2}{9}
\end{align}
$$

上記より、$\displaystyle E[X_iX_j] = \frac{2}{9}$がわかる。

[3] 解答

$\boxed{ \ \mathsf{記述5}\ }$ : $\displaystyle \frac{1}{36}$

$V[\bar{X}]=E[\bar{X}^2]-E[\bar{X}]^2$を元に$V[\bar{X}]$の導出を以下行う。
・$E[\bar{X}^2]$
$$
\large
\begin{align}
E[\bar{X}^2] &= E \left[ \left( \frac{1}{5} \sum_{i=1}^{5} X_i \right)^2 \right] \\
&= \frac{1}{25} E \left[ \left( \sum_{i=1}^{5} X_i \right)^2 \right] \\
&= \frac{1}{25} \left( \sum_{i=1}^{5} X_i^2 + \sum_{i \neq j} X_iX_j \right) \\
&= \frac{1}{25} ( 5E[X_i^2] + 20E[X_iX_j] ) \\
&= \frac{1}{25} \cdot \frac{5}{2} + \frac{1}{25} \cdot \frac{20 \cdot 2}{9} \\
&= \frac{5}{18}
\end{align}
$$

・$E[\bar{X}]^2$
$$
\large
\begin{align}
E[\bar{X}]^2 &= E \left[ \frac{1}{5} \sum_{i=1}^{5} X_i \right]^2 \\
&= \left( \frac{1}{2} \right)^2 \\
&= \frac{1}{4}
\end{align}
$$

よって、$V[\bar{X}]$は下記のように計算できる。
$$
\large
\begin{align}
V[\bar{X}] &= E[\bar{X}^2] – E[\bar{X}]^2 \\
&= \frac{5}{18} – \frac{1}{4} \\
&= \frac{1}{36}
\end{align}
$$

解説

$[1]$と$[2]$が$[3]$を計算する上で用いることに気づくと全体が一連の流れに沿って理解できるので良いと思います。また、$[3]$では$V[X_1+X_2]=V[X_1]+V[X_2]$が成立しないことに注意が必要で、これは有限非復元抽出に起因することを抑えておくと良いです。

この問題に関連する公式に関しては下記でも取り扱いましたので、こちらも合わせて確認しておくと良いと思います。
https://www.hello-statisticians.com/explain-terms-cat/expectation-variance-covariance.html

参考

・準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

統計検定準1級問題解説 ~2021年6月実施 選択問題及び部分記述問題 問3~

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


解答

$\boxed{ \ \mathsf{1}\ }$
$\boxed{ \ \mathsf{2}\ }$

[1] 2つの確率変数の和・差の期待値と分散を求める。$$
\begin{align}
E(X+Y)=&E(X)+E(Y)=1+2=3\\
E(Y-Z)=&E(Y)-E(Z)=2-3=-1\\
V(X+Y)=&V(X)+V(Y)+2\mathrm{cov}(X,Y)=2+3-2\times0=5\\
V(Y-Z)=&V(Y)+V(Z)-2\mathrm{cov}(Y,Z)=3+4-2\times2=3\\
\mathrm{cov}(X+Y,Y-Z)=&E((X+Y)(Y-Z))-E(X+Y)E(Y-Z)\\
=&E(XY-XZ+Y^2-YZ)-(E(X)+E(Y))(E(Y)-E(Z))\\
=&E(XY)-E(XZ)+E(Y^2)-E(YZ)\\&-E(X)E(Y)+E(X)E(Z)-E(Y)E(Y)+E(Y)E(Z)\\
=&E(XY)-E(X)E(Y)-\{E(XZ)-E(X)E(Z)\}\\&+E(Y^2)-E(Y)^2-\{E(YZ)-E(Y)E(Z)\}\\
=&\mathrm{cov}(X,Y)-\mathrm{cov}(X,Z)+V(Y)-\mathrm{cov}(Y,Z)\\
=&0-1+3-2=0\\
\end{align}$$
多変量正規分布に従う確率変数の和や差に関する性質を用いると、$\displaystyle\begin{pmatrix}X+Y\\Y-Z\end{pmatrix}$の分布は多変量正規分布
$$N\left(\begin{pmatrix}E(X+Y)\\E(Y-Z)\end{pmatrix},\begin{pmatrix}V(X+Y)&\mathrm{cov}(X+Y,Y-Z)\\\mathrm{cov}(X+Y,Y-Z)&V(Y-Z)\end{pmatrix}\right)=N\left(\begin{pmatrix}3\\-1\end{pmatrix},\begin{pmatrix}5 & 0\\0 & 3\end{pmatrix}\right)$$
に従う。

[2]
$p$次元のベクトル$\mathbf{x}$が平均$\mathbf{\mu}$、共分散行列$\mathbf{\Sigma}$の多変量正規分布に従うとする。$$\mathbf{x}\sim N(\mathbf{\mu},\ \mathbf{\Sigma})$$
ここで、$\mathbf{x}$を$q$次元のベクトル$\mathbf{x}_1$と$p-q$次元のベクトル$\mathbf{x}_2$に分割することを考える。$$\mathbf{x}=\begin{pmatrix}\mathbf{x}_1\\\mathbf{x}_2\end{pmatrix},\quad\mathbf{x}_1=\begin{pmatrix}x_1\\\vdots\\x_q\end{pmatrix},\ \mathbf{x}_2=\begin{pmatrix}x_{q+1}\\\vdots\\x_p\end{pmatrix}$$
平均ベクトル、共分散行列も同じように$q$次元で分割すれば、$$\begin{pmatrix}\mathbf{x}_1\\\mathbf{x}_2\end{pmatrix}\sim N\left(\begin{pmatrix}\mathbf{\mu}_1\\\mathbf{\mu}_2\end{pmatrix},\begin{pmatrix}\mathbf{\Sigma}_{11}&\mathbf{\Sigma}_{12}\\\mathbf{\Sigma}_{21}&\mathbf{\Sigma}_{22}\end{pmatrix}\right)$$
と表わすことができる。このとき、$\mathbf{x}_1$を固定したときの条件付き確率は$$p(\mathbf{x}_2|\mathbf{x}_1)=N(\mathbf{\mu}_2+\mathbf{\Sigma}_{21}\mathbf{\Sigma}_{11}^{-1}(\mathbf{x}_1-\mathbf{\mu}_1),\ \mathbf{\Sigma}_{22}-\mathbf{\Sigma}_{21}\mathbf{\Sigma}_{11}^{-1}\mathbf{\Sigma}_{12})$$となる。
これを問題に適用すると、$$\mathbf{\mu}_1=\begin{pmatrix}1\\2\end{pmatrix},\ \mathbf{\mu}_2=3,\ \mathbf{\Sigma}_{11}=\begin{pmatrix}2&0\\0&3\end{pmatrix},\ \mathbf{\Sigma}_{12}=\begin{pmatrix}1\\2\end{pmatrix},\ \mathbf{\Sigma}_{21}=\begin{pmatrix}1&2\end{pmatrix},\ \mathbf{\Sigma}_{22}=4$$となり、$X=x,\ Y=y$を与えたときの$Z$の条件付き分布の期待値と分散は、
$$\begin{align}
E[Z|Y=y, X=x]&=\mathbf{\mu}_2+\mathbf{\Sigma}_{21}\mathbf{\Sigma}_{11}^{-1}(\mathbf{x}_1-\mathbf{\mu}_1)\\&=3+\begin{pmatrix}1&2\end{pmatrix}\begin{pmatrix}2&0\\0&3\end{pmatrix}^{-1}\left(\begin{pmatrix}x\\y\end{pmatrix}-\begin{pmatrix}1\\2\end{pmatrix}\right)\\&=3+\begin{pmatrix}1&2\end{pmatrix}\begin{pmatrix}1/2&0\\0&1/3\end{pmatrix}\begin{pmatrix}x-1\\y-2\end{pmatrix}\\&=3+\begin{pmatrix}1/2&2/3\end{pmatrix}\begin{pmatrix}x-1\\y-2\end{pmatrix}\\&=\frac12x+\frac23y+\frac76\\
V[Z|Y=y, X=x]&=\mathbf{\Sigma}_{22}-\mathbf{\Sigma}_{21}\mathbf{\Sigma}_{11}^{-1}\mathbf{\Sigma}_{12}\\&=4-\begin{pmatrix}1&2\end{pmatrix}\begin{pmatrix}2&0\\0&3\end{pmatrix}^{-1}\begin{pmatrix}1\\2\end{pmatrix}\\&=4-\begin{pmatrix}1/2&2/3\end{pmatrix}\begin{pmatrix}1\\2\end{pmatrix}\\
&=\frac{13}{6}\end{align}$$

統計検定3級問題解説 ~2018年6月実施~ (問11~問19)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問11 解答

(クロス集計表)

$\boxed{ \ \mathsf{15}\ }$ ④

求めるクロス集計表を

コーヒー合計
飲んだ飲まなかった
紅茶飲んだaba+b
飲まなかったcdc+d
合計a+cb+d140

とします。
問題から
$a+c=140\times63\%=88,\ a+b=140\times37\%=52,\ a+b+c=115$
となりますので、
$d=140-(a+b+c)=140-115=25$
$a=(a+c)+(a+b)-(a+b+c)=88+52-115=25$
$b=(a+b)-a=52-25=27$
$c=(a+c)-a=88-25=63$
となります。


問12 解答

(時系列グラフ)

[1]

$\boxed{ \ \mathsf{16}\ }$ ③

売上割合の時間変化を表すグラフとしてはⅢのみが正しいグラフです。帯グラフは割合を表すのに適したグラフです。
ⅠとⅡは$1$種類の時間変化のみを表しており、ほかの種類の時間変化が表されていません。また、Ⅰの棒グラフは数値軸の下端が$0$から始まっていないので、時間変化が極端に誇張した表現になります。Ⅱの3Dグラフは、グラフから値の大小を直接読み取ることが困難なので、統計のグラフに用いるには好ましくありません。

[2]

$\boxed{ \ \mathsf{17}\ }$ ①

Ⅰ.売上割合のデータから、$A$の占める割合は年々小さくなっていることがわかります。
Ⅱ.$A$の割合は低下していますが、その割合は$2017$年でもまだ$50\%$と半数あり、また、このデータからは全体の数量がわかりませんので、Aの数量の増減まではわかりませんので、このデータだけでは販売の取りやめの判断はつきません。
Ⅲ.このデータは$2017$年までのものなので、$2018$年の売上割合まではわかりません。


問13 解答

(クロス集計表)

[1]

$\boxed{ \ \mathsf{18}\ }$ ⑤

$A$高校のうち、家庭学習の時間が$2$時間未満である生徒の割合は
$(6+70)/144\fallingdotseq0.53$
となります。

[2]

$\boxed{ \ \mathsf{19}\ }$ ④

Ⅰ.$1$時間以上$2$時間未満の生徒の割合は、
$A$高校:$70/144\fallingdotseq0.49$、$B$高校:$41/63\fallingdotseq0.65$
となり、$B$高校のほうが割合が大きいです。
Ⅱ.$1$時間未満の生徒の割合は、
$A$高校:$6/144\fallingdotseq0.04$、$B$高校:$5/63\fallingdotseq0.08$
となり、どちらの高校も$1$割未満です。
Ⅲ.$8$時間以上の生徒の割合は、
$A$高校:$(12+2)/144\fallingdotseq0.10$、$A$高校$+B$高校:$(12+2+1+0)/207\fallingdotseq0.07$
となり、$A$高校と$B$高校を合わせたデータのほうが割合が小さいです。


問14 解答

(散布図、相関係数)

$\boxed{ \ \mathsf{20}\ }$ ②

Ⅰ.正の相関がみられたからといって、相関係数が$1$未満であれば、最も年齢の高い人が最も年間収入が高いとはかぎりません。
Ⅱ.男性だけのデータにおける相関係数と、男女合わせたデータにおける相関係数がわかったからといって、女性だけのデータにおける相関係数はわかりません。
Ⅲ.相関が強いからといって、年齢の増加に対する収入の増加量が大きくなるとは限りません。(前者は散布図上の点の分布の状態、後者は散布図上の回帰直線の傾きで表されます。)


問15 解答

(散布図、相関係数)

[1]

$\boxed{ \ \mathsf{21}\ }$ ③

①②のグラフは横軸の目盛の範囲が第$2$次活動の値とあっていません。④のグラフは縦軸の目盛の範囲が第$3$次活動の値とあっていません。
第$2$次活動と第$3$次活動の共分散がマイナスの値なので、負の相関を表している③のグラフが正解です。

[2]

$\boxed{ \ \mathsf{22}\ }$ ⑤

それぞれの相関係数を求めると以下のようになります。
第$1$次活動と第$3$次活動の相関係数:$-7.77/\sqrt{61.85\times82.23}\fallingdotseq-0.11$
第$2$次活動と第$3$次活動の相関係数:$-74.68/\sqrt{131.05\times82.23}\fallingdotseq-0.72$
相関は、相関係数の絶対値が1に近いほど強く、$0$に近いほど弱くなります。

[3]

$\boxed{ \ \mathsf{23}\ }$ ①

秋田県の第$3$次活動の時間が$388$分から$400$分に変化した場合、
・平均値よりは値が遠くなるので、分散は大きくなります。
・散布図から秋田県の点は上に移動し、より直線状の分布傾向が強くなるので、相関係数の絶対値は大きくなります。

[4]

$\boxed{ \ \mathsf{24}\ }$ ④

単位を「分」から「時間」に変えると、データの値は$1/60$になります。したがって、平均値、範囲は$1/60$、分散、共分散は$(1/60)^2=1/3600$となりますが、相関係数の値は変わりません。

[5]

$\boxed{ \ \mathsf{25}\ }$ ⑤

Ⅰ.第$2$次活動と第$3$次活動の負の相関が強いからといって、第$1$次活動の増加が第$3$次活動の時間の少なくなる原因となるとはいえません。
Ⅱ.相関係数が$-0.7$程度で、散布図を見ても極端に外れている値がないことから、自由に使える時間が極端に多い、または少ない都道府県はないといえます。
Ⅲ.都道府県別の値の表から、東京周辺の一都三県は第$2$次活動の時間が$426$~$430$と他県に比べ高い値となっていることがわかるので、この一都三県は仕事、家事など社会生活を営む上で義務的な性格の強い活動が多い傾向にあります。


問16 解答

(指標化)

[1]

$\boxed{ \ \mathsf{26}\ }$ ④

各月の客数を$1$月の客数で割っているので、この指標の$1$月の値は$1$となります。
したがって、この指標のある月の値が$1$より小さければ、その月の値は$1$月より少なかったことになります。

[2]

$\boxed{ \ \mathsf{27}\ }$ ②

売上高および店舗数は年間通じて$2016$年が$2011$年よりも高いので、図$B$か図$C$のどちらかとなります。ここから、$X$が$2016$年、$Y$が$2011$年ということになり、図$A$は客単価のグラフとなります。($3$月だけ各年の上下関係が逆になっています。)
また、図$B$図$C$の$3$月と$7$月の値を前後の月の値と比較すると、図$B$のほうが$3$月と$7$月の値が前後の月の値より高くなっていますので、図$B$が売上高、図$C$が店舗数のグラフとなります。


問17 解答

(実験研究)

$\boxed{ \ \mathsf{28}\ }$ ①

勉強法の違いによるテストの点数への影響を調べる調査なので、グループ$A$とグループ$B$の間には勉強法以外の条件で差をつけないのが望ましい。Ⅱ、Ⅲは学年、高校といった条件で区別しているので望ましくありません。


問18 解答

(全数調査と標本調査)

$\boxed{ \ \mathsf{29}\ }$ ⑤

標本調査では、特徴や傾向などを知りたい集団全体母集団といいます。母集団からいくつかの対象を標本として抽出して調査します。


問19 解答

(無作為抽出)

$\boxed{ \ \mathsf{30}\ }$ ⑤

この調査の母集団は全校生徒となります。
①②は調査対象が応募してきた生徒から選ばれるので、この調査に積極的に参加したい生徒といった偏りができるので無作為抽出ではありません。
③④は特定のクラスの生徒全員のみを対象としているので、クラスによる偏りができるので無作為抽出ではありません。
⑤は全校生徒に番号を割り振って$5$の倍数の生徒全員を対象としているので、登校順に番号が割り振られたとしても、無作為に近い抽出をしていることになります。

統計検定3級問題解説 ~2018年6月実施~ (問1~問10)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問1 解答

(量的変数)

$\boxed{ \ \mathsf{1}\ }$ ③

量的変数は計算できる数量を扱う変数です。なので、得票数や投票者数といった集計できる数量は量的変数です。政党名は質的変数となります。


問2 解答

(度数分布表、中央値、平均値)

$\boxed{ \ \mathsf{2}\ }$ ①

Ⅰ.中央値は、データを小さい順に並べたときにちょうど中央に来るデータの値です。問題の場合、人数が$250$人ですので、中央値は下から$125$番目と$126$番目の中間の値になります。ここで、$5$点以下の人数は、$2+4+15+20+22+51=114$人、$6$点以下の人数は、$2+4+15+20+22+51+40=154$人なので、下から$125$番目と$126$番目は、$6$点になります。
Ⅱ.$2$点以下の人数は$2+4+15=21$人なので、$3$点以上の人数は$250-21=229$人となり、その割合は$229/250\times100=91.6\%$となります。
Ⅲ.$4$点以下の人数は$2+4+15+20+22=63$人、$6$点以上の人数は$40+35+25+20+16=136$人なので、明らかに平均点は$5.0$点よりも大きくなります。


問3 解答

(累積度数)

[1]

$\boxed{ \ \mathsf{3}\ }$ ②

中央値は累積度数が$0.5$の値となりますから、グラフから$3$枚となります。(下から$10$番目と$11$番目の世帯の枚数はどちらも$3$枚となります。)

[2]

$\boxed{ \ \mathsf{4}\ }$ ④

シール枚数の度数分布は、グラフから、
 $0$枚$3$世帯、$1$枚$2$世帯、$2$枚$4$世帯、$3$枚$2$世帯、$4$枚$3$世帯、
 $5$枚$1$世帯、$6$枚$1$世帯、$7$枚$3$世帯、$20$枚$1$世帯
となります。最も多くシールを保有している世帯は$20$枚保有してます。


問4 解答

(条件付き確率)

[1]

$\boxed{ \ \mathsf{5}\ }$ ④

$1$回目に赤色のボールを取り出してから、$2$回目に白色のボールを取り出す確率は、赤色のボールが$1$個減っていますので、$\displaystyle \frac{6}{9}=\frac{2}{3}\fallingdotseq0.66$となります。

[2]

$\boxed{ \ \mathsf{6}\ }$ ②

$1$回目に赤色、$2$回目に白色を取り出す確率は、$\displaystyle \frac{4}{10}\times\frac{6}{9}=\frac{4}{15}$
$1$回目に白色、$2$回目に赤色を取り出す確率は、$\displaystyle \frac{6}{10}\times\frac{4}{10}=\frac{6}{25}$
したがって、求める確率は$\displaystyle \frac{4}{15}+\frac{6}{25}=\frac{20}{75}+\frac{18}{75}=\frac{38}{75}\fallingdotseq0.51$


問5 解答

(確率)

$\boxed{ \ \mathsf{7}\ }$ ③

$2$回サイコロを投げて出た目の合計が$4$以下となる組み合わせは、
$$1-1, 1-2, 1-3, 2-1, 2-2, 3-1$$
の$6$通りあります。それぞれの確率を求めて合計したものが求める確率となります。
$$\frac{1\times1+1\times2+1\times3+2\times1+2\times2+3\times1}{21\times21}=\frac{15}{441}\fallingdotseq0.034$$


問6 解答

(箱ひげ図)

$\boxed{ \ \mathsf{8}\ }$ ②

Ⅰ.箱ひげ図から中央値がおよそ$3000$百万円とわかりますが、平均値は読み取ることができません。ちなみに、分布が右に裾が長い分布となっていますので、平均値は中央値より大きいと予測されます。
Ⅱ.四分位範囲は箱ひげ図の箱の幅で表されます。箱ひげ図から、四分位範囲はおよそ$1000$百万円と読み取れます。
Ⅲ.年間販売額が最も高い都道府県名は、箱ひげ図からは読み取ることはできません。


問7 解答

(ヒストグラム)

$\boxed{ \ \mathsf{9}\ }$ ④

Ⅰ.ヒストグラムから、$100$万人以下の都道府県の数は$10$より小さいと読み取れます。したがって、すべてその人口をすべて合わせても$1000$万人よりも少ないことは明らかです。
Ⅱ.都道府県数は$47$ですので、中央値は小さいほうから$24$番目の値となります。この値は、ヒストグラムから$100$~$200$万人の間にあることが読み取れます。
Ⅲ.ヒストグラムから分布は右に長い分布となっているので、平均値は中央値より大きい値となることがわかります。$200$万人より多い都道府県の人口と$200$万人以下の都道府県の人口を比較すると、$200$万人より多い都道府県の人口のほうが大きいので、平均値は$100$~$200$万人より上の階級に存在することがわかります。


問8 解答

(偏差値)

[1]

$\boxed{ \ \mathsf{10}\ }$ ③

平均を$\bar x$、標準偏差を$s$とすると、得点$x_i$の偏差値は、
 $\displaystyle 50+10\times\frac{x_i-\bar x}{s}$
で求められます。よって、$A$組のある生徒の偏差値は、
 $\displaystyle 50+10\times\frac{83-70}{10}=63$
となります。

[2]

$\boxed{ \ \mathsf{11}\ }$ ③
求める$C$組の生徒の得点を$x$とすると、その偏差値と、$B$組の$88$点の偏差値とが等しいのですから、$$
\begin{eqnarray}
50+10\times\frac{x-68}{10}&=&50+10\times\frac{88-72}{8}\\
\therefore\ x&=&\frac{10\times(88-72)}{8}+68=88\end{eqnarray}$$
となります。


問9 解答

(ヒストグラム)

$\boxed{ \ \mathsf{12}\ }$ ②

普通科の最高得点は得点の(平均値)+(標準偏差)$=58.7+16.30=75.00$よりは高いと見込まれます。一方、特進科の最低得点は(平均値)ー(標準偏差)$=80.1-7.64=72.46$よりは低いと見込まれます。
最低点の生徒はヒストグラムから$20$~$29$点の範囲の点数です。もし、$29$点の生徒が特進科にいるとすると、特進科の標準偏差は$\sqrt{(29-80.1)^2/20}=11.4$以上となるので、表の標準偏差$7.64$にはなりません。
学年全体の平均は$(58.7\times40+80.1\times20)/(40+20)=65.8$となります。
ヒストグラムから分布は2つの峰があり、点数の低いほうの峰が普通科、点数が高いほうの峰が特進科の影響を受けているので、学年全体の散らばりは特進科のみの散らばりより大きくなることが見込まれます。したがって学年全体の分散が特進科のみの分散と等しくなるとは考えられません。
問題のグラフ・表は数学の試験結果についてのものなので、これからは英語の試験の結果はわかりません。


問10 解答

(クロス集計表、母集団と標本)

[1]

$\boxed{ \ \mathsf{13}\ }$ ② or

Ⅰ.「施策A」をよいと答えた人数は、年齢層が上がるほど大きくなっているので、年齢層が上がるほど「施策A」が好まれているといえますが、「分からない」「無回答」を除いて考えると、「施策A」をよいと答えた人が「施策B」をよいと答えた人を上回っている年齢層は「$71$歳以上」のみであるので、年齢層が上がるほど「施策A」が好まれているとは言えないとも考えられます。
Ⅱ.各年齢層同じ人数に対して調査を行ったうえで、「分からない」と回答した人数が最も多い年齢層は「$18$~$30$歳」となっています。
Ⅲ.「施策A」と「施策B」の関係について、特定の年齢層のみほかの年齢層と傾向が違うからと言って、これを切り捨てて結論を導くことは好ましくありません。

[2]

$\boxed{ \ \mathsf{14}\ }$ ④

各年齢層の「施策A」の選択率を求めると、
「$18$~$30$歳」:$20/200=0.1$、「$31$~$40$歳」:$60/200=0.3$、
「$41$~$50$歳」:$70/200=0.35$、「$51$~$60$歳」:$90/200=0.45$、
「$61$~$70$歳」:$90/200=0.45$、「$71$歳以上」:$150/200=0.75$
となります。「施策A」の選択率について人口構成比を考慮して平均を求めると、$$0.1\times10\%+0.3\times10\%+0.35\times15\%+0.45\times15\%+0.45\times20\%+0.75\times30\%=0.475$$となります。