統計検定2級問題解説 ~2018年6月実施~ (その1)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問1 解答

(箱ひげ図)

[1]

$\boxed{ \ \mathsf{1}\ }$ ⑤

縦軸の目盛を見れば,Ⅲが総得点とすぐわかる。
偏差は“得点ー平均”,標準化得点は“偏差/標準偏差”なので,縦軸のスケールから判断し,Ⅰが標準化得点,Ⅱが偏差

[2]

$\boxed{ \ \mathsf{2}\ }$ ②

平均を$\mu$,標準偏差を$\sigma$として,
 $[\mu-2\sigma, \mu+2\sigma]=[54.45-2\times11.77, 54.45+2\times11.77]=[30.91, 77.99]$
この範囲外にあるのは名古屋の85点のみである。


問2 解答

(散布図,相関係数,擬相関)

[1]

$\boxed{ \ \mathsf{3}\ }$ ①

Ⅰ.散布図を見ると正の相関関係が見受けられるので,正しい。
Ⅱ.東京都の値は他の値から大きく外れているので,相関係数に大きく影響を与えるので,正しい。
Ⅲ.Ⅰが正しい(相関がみられる)ので,誤り。

[2]

$\boxed{ \ \mathsf{4}\ }$ ⑤

Ⅰ.北海道は人口がどう程度の都府県と比べ病床数が大きい(図で上の方にある)ので,誤り。
Ⅱ.人口と病床数の間には強い相関がみられるので,個々の病床数/人口の値は大きな差が出ないので,変動係数は小さくなる。正しい。
Ⅲ.人口が多い=散布図の右側にあるデータについてみると,概ね正の相関がみられるので,誤り。

[3]

$\boxed{ \ \mathsf{5}\ }$ ①

Ⅰ.人口と相関させたときの残差は人口の影響のを除去した値となる。したがってそれらの相関係数は偏相関係数といわれるものとなるので,正しい。
Ⅱ.人口と映画館数,人口と病床数の相関が強いので,人口が増えれば,映画館数も病床数も増える傾向となり,その結果,映画館数が増えると病床数も増えるように見える。しかしこのような関係は見かけ上の相関(擬相関)といわれ,両者間に本当に相関があるかどうかは,人口の影響を取り除いて評価されるべきである。正しい。
(統計の考え方では,たまたま相関が強いからといって,全く関係が見いだされない指標同士の関係性が良いという判断は一般的に行わない。)
Ⅲ.今回の分析において,病院に併設されている映画館の大小は全く読み取れないので,誤り。


問3 解答

(ローレンツ曲線とジニ係数)

問題にある表は,五分位範囲別の所得の相対度数分布表である。ローレンツ曲線とジニ係数を求めるにあたって便利なように,人口の累積相対度数と所得の累積相対度数を求めておく。

人口の累積相対度数20406080100
所得

累積
相対
度数
日本 5.416.132.456.5100.0
アメリカ 5.115.430.853.599.9
スウェーデン 8.723.040.863.8100.0
中国 5.215.029.952.2100.1
ドイツ 8.421.538.761.4100.0

[1]

$\boxed{ \ \mathsf{6}\ }$ ⑤

グラフから読み取れる値と上の表を比較すれば,ドイツ。(人口が$40$の時,所得は$20$を超え,人口が$60$の時所得は$40$を切っている)

[2]

$\boxed{ \ \mathsf{7}\ }$ ②

ジニ係数は完全平等線(人口の累積相対度数=所得の累積相対度数となる線)とローレンツ曲線で囲まれた面積の2倍で求める。
ローレンツ曲線より下の面積(%値で計算)
  $(0+2\times8.4+2\times21.5+2\times38.7+2\times61.4+100.0)\times20\div2=3600$
完全平等線とx軸の間の面積(%値で計算)
 $100\times100\div2=5000$
ジニ係数
 $(5000-3600)\div100^2\times2=0.28$

[3]

$\boxed{ \ \mathsf{8}\ }$ ⑤

Ⅰ.人口と所得の累積相対度数を比較すると,すべての国で所得の相対度数が人口の累積相対度数以下となっているので,ローレンツ曲線は完全平等線の下に弧を描く。正しい。
Ⅱ.3か国の所得の累積相対度数を比較すると,すべての階級でアメリカが最も小さい。したがって,完全平等線から最も遠くなり,ジニ係数は大きくなる。誤り。(ただし,ジニ係数が大きいほうが不平等といえる。)
Ⅲ.中国とスウェーデンの所得の累積相対度数を比較すると,すべての階級で中国が小さい。したがって,中国のほうが完全平等線から遠くなり,不平等といえる。正しい。

「ローレンツ曲線が完全平等線より遠い(下に膨らむ)⇔ジニ係数が大きい⇔不平等」


問4 解答

(時系列データの成長率)

[1]

$\boxed{ \ \mathsf{9}\ }$ ③

時点(年,月など) $t$の観測値を$y_t$としたとき,
変化率 $(y_{t+1}-y_t)/y_t$ または $y_{t+1}/y_t-1$

[2]

$\boxed{ \ \mathsf{10}\ }$ ②

$t$年$(2010\le{t}\le2015)$の観測値を$y_t$,変化率を$r$としたとき,【条件】は
$$
\begin{align} 
r&=y_{2015}/y_{2014}-1=y_{2014}/y_{2013}-1=y_{2013}/y_{2012}-1\\
&=y_{2012}/y_{2011}-1=y_{2011}/y_{2010}-1\\
r+1&=y_{2015}/y_{2014}=y_{2014}/y_{2013}=y_{2013}/y_{2012}=y_{2012}/y_{2011}=y_{2011}/y_{2010}\\ 
y_{2015}/y_{2010}&=y_{2015}/y_{2014}\times y_{2014}/y_{2013}\times y_{2013}/y_{2012}\times y_{2012}/y_{2011}\times y_{2011}/y_{2010}\\ 
&=(r+1)^5\\
\therefore r&=(y_{2015}/y_{2010})^{1/5}-1
\end{align}
$$
上式から明らかなことは,各年の変化率の幾何平均は
最初年の値を$y_0$,最後年の値を$y_t$,期間を$t$とすると $\left({y_t}/{y_0}\right)^{1/t}$ で求められる。


問5 解答

(実験計画,フィッシャーの3原則)

$\boxed{ \ \mathsf{11}\ }$ ②

実験:条件の設定を観測者が自ら設定できる試験
フィッシャーの3原則:無作為化,繰り返し,局所管理
無作為化:対象の抽出,処理の順番など,均一にできない条件については無作為に割り付ける。
繰り返し:ばらつきや個体差の影響を見積もるために実験を繰り返しを行う。
局所管理:処理効果以外のばらつきを小さくするため,条件が均一になるようブロック化する。


問6 解答

(標本抽出法)

$\boxed{ \ \mathsf{12}\ }$ ⑤

① 単純無作為抽出法
 全部で$N$個の個体からなる母集団から$n$個の標本を得るとき,各個体が選択される確率は等しく$N/n$,どの個体の組も選択される確率が等しく${}_NC_n$
② 系統抽出法
 通し番号をつけた名簿を作成し,1番目の調査対象を無作為に選び、2番目以降の調査対象を一定の間隔で抽出する方法。
③ 多段抽出法
 母集団をいくつかのグループ(第1段抽出単位)に分け,そこから無作為抽出でいくつかグループを選び,さらにその中から無作為抽出でいくつかのグループ(第2段抽出単位)を選び・・を何段か繰り返してそこから標本を無作為に抽出する。
④ 集落(クラスター)抽出法
 母集団を小集団であるクラスター(集落)に分け,その中からいくつかのクラスターを無作為に抽出し,それぞれのクラスターにおいて全数調査を行う。
⑤ 層化無作為抽出法
 母集団をあらかじめいくつかの層(グループ)に分けておき、各層の中から必要な数の調査対象を無作為に抽出する方法
 (通常,層の大きさに比例させて調査対象を抽出する大きさを決める。(比例配分法))


問7 解答

(事象と確率)

[1]

$\boxed{ \ \mathsf{13}\ }$ ⑤

S君がお菓子を獲得するためには
 「T君に勝ち+U君に勝ち」 と 「T君に負け+U君に勝ち+T君に勝ち」
となればよい。よって,この確率は
$p\times q+(1-p)\times q\times p=pq+(1-p)qp$

[2]

$\boxed{ \ \mathsf{14}\ }$ ①

①② 「U君―T君―U君」の時にS君がお菓子を獲得できる確率は,$qp+(1-q)pq<pq+(1-p)qp\ (\because p<q)$
よって,①は正しく,②は誤り。
③ $p<q$という条件なので,具体的な値によってどちらの選択でも確率の大小は変わらない。誤り。
④ お菓子獲得の確率は,明らかに違うので,誤り。
⑤ お菓子獲得の確率は,対戦順序や対戦回数によるので,誤り。


問8 解答

(標準正規分布,確率変数の和と差)

[1]

$\boxed{ \ \mathsf{15}\ }$ ②

6月の電気料金を$X$とすると,$Z=(X-4000)/500$は標準正規分布に従う。
$\begin{align}P(X\ge4800)=P\left(Z\ge\frac{4800-4000}{500}\right)=P(Z\ge1.6)=0.0548\end{align}$

[2]

$\boxed{ \ \mathsf{16}\ }$ ③

今年の6月の電気料金を$X_1$,前年の6月の電気料金を$X_2$とすると
$X_1\sim X_2\sim N(4000,500^2)$,$X_1, X_2$は独立だから
$E(X_1-X_2)=E(X_1)-E(X_2)=0, \ \ V(X_1-X_2)=V(X_1)+V(X_2)=2\times500^2$
正規分布の和(差)は正規分布なので$X_1-X_2\sim N(0,2\times500^2)$ (正規分布の再生性)
$\begin{align}P(X_1-X_2\ge800)=P\left(Z\ge\frac{800-0}{\sqrt2\times500}\right)=P(Z\ge1.13)=0.1292\end{align}$

[3]

$\boxed{ \ \mathsf{17}\ }$ ②

今年の6月の電気料金を$X_1$,前年の6月の電気料金を$X_2$,前々年の6月の電気料金を$X_3$とする。
正規分布は連続分布なので,$X_1,X_2,X_3$のうち少なくとも2つが等しいという事象が生じる確率は0である。
$X_1,X_2,X_3$は互いに独立なので,$X_1,X_2,X_3$のうち1つが他の2つより大きくなる確率は,同様に確からしく,また互いに排反なので,
$P(\mathrm{max}(X_1,X_2,X_3)=X_1)+P(\mathrm{max}(X_1,X_2,X_3)=X_2)+P(\mathrm{max}(X_1,X_2,X_3)=X_3)=1$
$\therefore\ P(\mathrm{max}(X_1,X_2,X_3)=X_1)=P(\mathrm{max}(X_1,X_2,X_3)=X_2)=P(\mathrm{max}(X_1,X_2,X_3)=X_3)=1/3$