統計検定2級問題解説 ~2017年11月実施~ (その1)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問1 解答

(相対度数分布表)

[1]

$\boxed{ \ \mathsf{1}\ }$ ④

$0.93+5.25+35.80+38.27+$(ア)$+5.25+0.62=100$ なので,(ア)$=13.88$

[2]

$\boxed{ \ \mathsf{2}\ }$ ⑤

① 滞在日数が$1$週間未満(階級が(A)または(B))の割合は,韓国は$32.14+61.30=93.44\%$で,中国の$0.65+54.68=55.33\%$よりも高くなる。誤り。
② 米国からの訪日観光客で最も割合が高い階級は(C)($50.28\%$)である。誤り。
③ マレーシアからの訪日観光客で1週間以上滞在する人((C)~(G))の割合は$56.51+4.93+0.53+0.35+0.00=62.32\%$である。誤り。
④ 韓国からの訪日観光客で1週間未満滞在する人((A)または(B))の割合は$32.14+61.30=93.44\%$である。誤り。
⑤ 滞在日数の中央値は累積相対度数が$50\%$となる階級にあるので,韓国と中国が(B),マレーシアと米国が(C),フランスが(D)の階級となる。正しい。

[3]

$\boxed{ \ \mathsf{3}\ }$ ①

米国の相対度数分布の特徴を見ると,(C)が$50\%$以上,(B)と(D)が$10\%$台の値となっているので,これでグラフを特定できる。


問2 解答

(相関係数,散布図。単回帰)

[1]

$\boxed{ \ \mathsf{4}\ }$ ①

「平均気温」は相関係数から負の相関がみられるので,散布図はⅠ
他の$2$つは相関が弱いので散布図の点の分布から判別する。「降水量の合計」はデータの表から最大値に近い値$(190.5)$の時に「桜の開花日」が$0$となっているが,散布図でx軸最大値付近で$y$軸が$0$の点があるのがⅡなので,これが「降水量の合計」,残りのⅢが「日照時間の合計」となる。

[2]

$\boxed{ \ \mathsf{5}\ }$ ④

$t-$値は回帰係数の推定値を標準誤差で除して求める。よって標準誤差を$s$とすると$$\frac{-2.7608}{s}=-9.0938\ \ \Rightarrow\ \ s=\frac{-2.7608}{-9.0938}=0.3036$$

[3]

$\boxed{ \ \mathsf{6}\ }$ ③

単回帰モデル式に表の回帰係数の推定値を当てはめると
    (桜の開花日)$=20.0209-2.7608\times$(平均気温)
これに$2017$年のデータを代入すると
    (桜の開花日)$=20.0209-2.7608\times6.10=3.18$
よって,$4$月$3$日と予測する。


問3 解答

(変動係数,箱ひげ図,自己相関係数,コレログラム)

[1]

$\boxed{ \ \mathsf{7}\ }$ ④

データ数が$12$個なので,中央値はデータを小さい順に並べた時の$6$番目と$7$番目の値の平均値となる。$$149,154,174,180,183,213,215,218,230,242,256,356\ \ \Rightarrow\ \ (213+215)\div2=214$$また,変動係数は標準偏差を平均で割った値である。$$56.0\div214.2=0.261$$

[2]

$\boxed{ \ \mathsf{8}\ }$ ⑤

どちらの箱ひげ図も中央値が$($最大値$+$最小値$)/2$よりも小さいので,ヒストグラムは右に裾が長い傾向になる。よってⅠはどちらにも該当しない。
Ⅲのグラフは,外れ値が$2$つあることから,Ⅲはキャベツ,Ⅱはビールのヒストグラムとなる。

[3]

$\boxed{ \ \mathsf{9}\ }$ ③

自己相関係数$\cdots$時系列データにおいて,もとの時系列と時間を$t$ずらした時系列との相関係数。$t$をラグという。
コレログラム$\cdots$横軸にラグ,縦軸に自己相関係数を取ったグラフ。
Ⅰ.コレログラムでLagが$12$の値を読むと,キャベツのほうがビールよりも高い値となっているので,正しい。
Ⅱ.コレログラムから「キャベツ」の$1$か月後の値と相関係数(Lag$1$の自己相関係数)はおよそ$0.5$と読める。よって,ある月の値が平均より高ければ,翌月の値も平均より高くなる傾向がある。正しい。
Ⅲ.コレログラムからは,$2$つの違う時系列間の相関を読み取ることはできないので,誤り。


問4 解答

(物価指数,成長率)

[1]

$\boxed{ \ \mathsf{10}\ }$ ①

ラスパイレス物価指数…基準年の購入量や取引量等を重みとして算出した価格指数。
品目$i$の基準年価格$=p_{oi}$,基準年数量$=q_{oi}$,比較年価格$=p_{ti}$として$$P_L=\frac{\sum_ip_{ti}q_{0i}}{\sum_ip_{0i}q_{0i}}$$

[2]

$\boxed{ \ \mathsf{11}\ }$ ③

$1980$年までに$2$回大きく増加しているので,②と④は不適。その後は増加減少をくり返していることから,ほとんどが変化率$+$となっている①は不適。


問5 解答

(標本抽出法)

$\boxed{ \ \mathsf{12}\ }$ ④

Ⅰ.集落(クラスター)抽出法
 母集団を小集団であるクラスター(集落)に分け,その中からいくつかのクラスターを無作為に抽出し,それぞれのクラスターにおいて全数調査を行う。正しい。
Ⅱ.多段抽出法
 母集団をいくつかのグループ(第1段抽出単位)に分け,そこから無作為抽出でいくつかグループを選び,さらにその中から無作為抽出でいくつかのグループ(第2段抽出単位)を選び・・を何段か繰り返してそこから標本を無作為に抽出する。→抽出のコストは低くなるが,偏りが生じやすい。誤り。
Ⅲ.系統抽出法
 通し番号をつけた名簿を作成し,1番目の調査対象を無作為に選び、2番目以降の調査対象を一定の間隔で抽出する方法。正しい。


問6 解答

(観察研究と実験研究)

$\boxed{ \ \mathsf{13}\ }$ ③

実験研究:条件の設定を観測者が自ら設定できる試験。
 実験研究では「フィッシャーの3原則:無作為化,繰り返し,局所管理」が重要とされる。
観察研究:被験者自らが処理条件の選択している試験。
 観察研究では無作為化がなされない。
① 患者をランダムに分けて条件の違う薬を投与している。実験研究。
② 土壌の異なる土地に対して実験者がアサガオを植えている。実験研究。
③ 被験者自ら健康食品を食するかを選択している。観察研究。
④ 子供たちをランダムに色の異なる部屋に分けている。実験研究。
⑤ すべての実験が実験者の計画のもとで行われている。実験研究。


問7 解答

(ベイズの定理)

$\boxed{ \ \mathsf{14}\ }$ ④

工場Aで生産されたという事象を$A$,おもちゃが不良品であるという事象を$B$とする。
与えられた条件は$$\begin{align}    P(A)&=0.6,\ \ P(A^c)=0.4,\ \ P(B|A)=0.01,\ \ P(B|A^c)=0.005\\    \therefore P(B)&=P(B|A)\times P(A)+P(B|A^c)\times P(A^c)\\&=0.01\times0.6+0.005\times0.4\\&=0.008\end{align}$$ベイズの定理より不良品のおもちゃが工場Aで生産された確率は$$P(A|B)=P(A)\times\frac{P(B|A)}{P(B)}=0.6\times\frac{0.01}{0.008}=0.75$$


問8 解答

(連続確率分布,確率変数の期待値と分散)

[1]

$\boxed{ \ \mathsf{15}\ }$ ③

確率密度関数$f(x)$が与えられたとき,その積分値は累積分布関数となる。
$\begin{align}&F(X)=\int_{-\infty}^\infty f(x)dx=1\\&\int_0^2cx(2-x)dx=c\left[x^2-\frac13x^3\right]_0^2=c\frac{4}3=1\ \ \Rightarrow\ \ c=\frac34 \end{align}$

[2]

$\boxed{ \ \mathsf{16}\ }$ ④

$\begin{align}E[X]&=\int_0^2xf(x)dx=\int_0^2\frac34x^2(2-x)dx=\frac34\left[\frac23x^3-\frac14x^4\right]_0^2=\frac34\left(\frac{16}3-\frac{16}4\right)=1\\E[X^2]&=\int_0^2x^2f(x)dx=\int_0^2\frac34x^3(2-x)dx=\frac34\left[\frac12x^4-\frac15x^5\right]_0^2=\frac34\left(8-\frac{32}5\right)=\frac65\\\therefore\ V[X]&=E[X^2]-E[X]^2=\frac65-1^2=\frac15\end{align}$