統計検定2級問題解説 ~2019年11月実施~ (問11~問18)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問11 解答

(歪度)

$\boxed{ \ \mathsf{20}\ }$

・歪度は分布の非対称性を表す指標で、平均$\mu$、分散$\sigma^2$の確率変数$X$に対して、
$$a=E(X-\mu)^3/\sigma^3$$
で定義される。
・定義から明らかに、歪度の正負は平均の正負に関係がない。
・$E(X-\mu)$の符号を考えれば、歪度は分布が左に裾が長い場合は負になり、右に裾が長い場合は正になる。
・歪度が0となるのは平均を中心に線対称な分布になっている場合であり、峰の数とは関係がない。


問12 解答

(推定量の不偏性・一致性)

$\boxed{ \ \mathsf{21}\ }$ ⑤

・推定量$\hat\theta_n$(推定量の標本分布が標本数$n$によって変化するものとする)が母数$\theta$に確率収束している場合、$\hat\theta$を一致推定量という。
  任意の実数$\varepsilon$に対して、$\displaystyle \lim_{n\to\infty}P(|\hat\theta_n-\theta|\lt\varepsilon)=1$
・推定量$\hat\theta$の期待値が常に母数$\theta$に等しくなる場合、$\hat\theta$を不偏推定量という。
  $E(\hat\theta)=\theta$

Ⅰ.
$$E(\hat\mu_1)=E\left[\frac12(X_1+X_n)\right]=\frac12(E[X_1]+E[X_n])=\frac12(\mu+\mu)=\mu$$
よって、$\hat\mu_1$は$\mu$の不偏推定量である。

Ⅱ.
$$V(\hat\mu_1) =V\left[\frac12(X_1+X_n)\right]=\frac14(V[X_1]+V[X_n])=\frac14(\sigma^2+\sigma^2)=\frac12\sigma^2$$
となり、Ⅰ.とあわせて$\hat\mu_1$は正規分布$\displaystyle N\left(\mu, \frac12\sigma^2\right)$に従う。
であるから、例えば
$$P\left(\left|\frac{\hat\mu_1-\mu}{\sigma/\sqrt{2}}\right|\lt1.645\right)=0.90$$
が成り立つ。これより
$$\lim_{n\to\infty}P\left(|\hat\mu_1-\mu|\lt\frac{1.645\sigma}{\sqrt{2}}\right)=0.90$$
となるから、任意の$\varepsilon>0$に対して、$\displaystyle \lim_{n\to\infty}P(|\hat\mu_1-\mu|\lt\varepsilon)=1$が成り立たない。
よって、$\hat\mu_1$は$\mu$の一致推定量ではない。

Ⅲ.
$$E(\hat\mu_2)=E\left[\frac1{n-2}\sum_{t=2}^{n-1}X_t\right]=\frac1{n-2}\sum_{t=2}^{n-1}E[X_t]=\frac1{n-2}\sum_{t=2}^{n-1}\mu=\mu$$
よって、$\hat\mu_2$は$\mu$の不偏推定量である。

Ⅳ.
$$V(\hat\mu_2) =V\left[\frac1{n-2}\sum_{t=2}^{n-1}X_t\right]=\frac1{(n-2)^2}\sum_{t=2}^{n-1}V[X_t]=\frac1{(n-2)^2}\sum_{t=2}^{n-1}\sigma^2=\frac1{n-2}\sigma^2$$
となり、Ⅲ.とあわせてチェビシェフの不等式より任意の$\varepsilon>0$に対して
$$P(|\hat\mu_2-\mu|<\varepsilon)\ge1-\frac{\sigma^2}{(n-2)\varepsilon^2}$$
となる。これより、
$$\lim_{n\to\infty}P(|\hat\mu_2-\mu|<\varepsilon)=1$$
よって、$\hat\mu_2$は$\mu$の一致推定量である。


問13 解答

(母比率の区間推定)

$\boxed{ \ \mathsf{22}\ }$ ⑤

成功確率$p$の試行を$n$回行うときに成功する回数$X$は二項分布$B(n,p)$に従う$$\therefore\ \ E(X)=np,\ V(X)=np(1-p)$$このとき,$n$がある程度大きいときは,中心極限定理によって,$B(n,p)$は正規分布$N(np,np(1-p))$に近似できる。よって,$X$を標準化すると標準正規分布$N(0,1)$に従う。$$Z=\frac{X-np}{\sqrt{np(1-p)}}=\frac{X/n-p}{\sqrt{\frac{p(1-p)}n}}\sim N(0,1)$$ここで,標本平均 $\hat p=x/n$は$p$の一致推定量なので,$n$が十分大きいとき$p$は$\hat p$に置き換えられる。
したがって,母比率の$100(1-\alpha)\%$信頼区間は,標準正規分布の上側 $100\alpha/2\%$ 点を $z_{\alpha/2}$とすると,$$P\left(\hat p-z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}\le p\le\hat p+z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}\right)=1-\alpha$$
$A$候補の得票率の$95\%$信頼区間は,$n=100$,$\hat p=54/100=0.54$,$\alpha=0.05$として$$\hat p\pm z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}=0.54\pm1.96\times\sqrt{\frac{0.54\times(1-0.54)}{100}}=0.54\pm0.0977$$


問14 解答

(中心極限定理)

[1]

$\boxed{ \ \mathsf{23}\ }$ ③

$400$万円未満の相対度数は$6.2+13.4+13.7+13.2=46.5\%$、$500$万円未満の相対度数は$46.5+10.4=56.9\%$であるから、中央値が含まれる階級は$400$万円以上$500$万円未満の階級となる。したがって、中央値の半分は$200$万円以上$250$万円未満となる。
相対度数分布表から解ることは$200$万円未満の相対度数が$6.2+13.4=19.6\%$、$300$万円未満の相対度数が$19.6+13.7=33.3\%$であるので、中央値の半分に満たない所得の世帯の割合は$19.6\%$以上$33.3\%$以下となる。

[2]

$\boxed{ \ \mathsf{24}\ }$ ③

母集団の分布が正規分布でない場合でも、標本の大きさ$n$が十分大きいとき、統計量$\displaystyle Z=\frac{\bar X-\mu}{\sqrt{S^2/n}}$は中心極限定理より標準正規分布で近似できる。したがって、標準正規分布のパーセント点を用いて信頼区間を作成することが妥当である。


問15 解答

(母比率の区間推定とサンプルサイズ)

[1]

$\boxed{ \ \mathsf{25}\ }$ ④

母比率の$100(1-\alpha)\%$信頼区間は,標準正規分布の上側 $100\alpha/2\%$ 点を $z_{\alpha/2}$とすると,$$P\left(\hat p-z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}\le p\le\hat p+z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}\right)=1-\alpha$$
ここで、政党の支持率について事前の情報が全くないとき、母比率の信頼区間の幅が最も大きくなるのは$\hat p=0.5$となるので、$95\%$信頼区間が$6\%$以下となるようにするには、
$$2\times1.96\times\sqrt{\frac{0.5(1-0.5)}n}\le 0.06\quad\Rightarrow\quad n\ge\left(\frac{2\times1.96}{0.06}\right)^2\times0.5(1-0.5) \fallingdotseq 1067$$

[2]

$\boxed{ \ \mathsf{26}\ }$ ②

政党の支持率がおよそ80%とわかっているので、$\hat p=0.8$となり、$95\%$信頼区間が$6\%$以下となるようにするには、
$$2\times1.96\times\sqrt{\frac{0.8(1-0.8)}n}\le 0.06\quad\Rightarrow\quad n\ge\left(\frac{2\times1.96}{0.06}\right)^2\times0.8(1-0.8) \fallingdotseq 683$$


問16 解答

(正規分布の母平均に関する検定)

[1]

$\boxed{ \ \mathsf{27}\ }$ ⑤

正規母集団の母分散が既知の時、統計量$\displaystyle Z=\frac{\bar X-\mu}{\sqrt{\sigma^2/n}}$は標準正規分布$N(0,1)$に従うが、母分散が未知の時、母分散の代わりに標本不偏分散$\displaystyle S^2=\frac1{n-1}\sum_{i=1}^n(X_i-\bar{X})^2$を用いた統計量$\displaystyle T=\frac{\bar X-\mu}{\sqrt{S^2/n}}$は、自由度$n-1$の$t$分布に従う。

[2]

$\boxed{ \ \mathsf{28}\ }$ ④

体重が減少したこと$(\mu>0)$を検証するため、帰無仮説は「体重に差がない$(\mu=0)$」とする。対立仮説は$\mu>0$であるため、片側検定を行う。

[3]

$\boxed{ \ \mathsf{29}\ }$ ⑤

帰無仮説は$\mu=0$で、”前$-$後”のデータに関して$\bar{X}=0.5, S=1.5$であるから、
$$t=\frac{\bar X-\mu}{\sqrt{S^2/n}}=\frac{0.5-0}{\sqrt{1.5^2/16}}=1.333$$
$t$分布のパーセント点の表の自由度$15$、$\alpha=0.05$の値を見ると、
$$t_{0.05}(15)=1.753>t$$
よって、帰無仮説は棄却されない。この場合、帰無仮説が正しいとは言い切れず、第2種の過誤の確率で対立仮説が正しいといえることがあるので、体重に変化があると判断はできない


問17 解答

(一元配置分散分析)

[1]

$\boxed{ \ \mathsf{30}\ }$ ①

月を変動要因とした一元配置分散分析を行うので、この問題では月が水準となる。
水準間平方和は「各水準の平均値と全データの平均値との差の平方和」となるので、
$$S_A=\sum_{i=1}^{12}11(\bar{y}_{i\cdot}-\bar{y}_{\cdot\cdot})^2$$
残差平方和は「個々のデータと該当する水準の平均値との差の平方和」となるので、
$$S_e=\sum_{i=1}^{12}\sum_{j=2008}^{2018}(y_{ij}-\bar{y}{i\cdot})^2$$
となる。

[2]

$\boxed{ \ \mathsf{31}\ }$ ③

水準間平方和の自由度は水準の数$-1$なので、$12-1=11$。
残差平方和の自由度は総データ数$-$水準の数なので、$12\times11-12=120$。

[3]

$\boxed{ \ \mathsf{32}\ }$ ③

一元配置分散分析では、帰無仮説$H_o:$「各水準の母平均は同じである。」,対立仮説$H_1:$「水準の母平均は少なくとも1つ他と異なるものがある。」としたときの$F$検定を行う。
分散分析表から$F_-$値は$3.0471$であり、これは$F$分布のパーセント表から読み取れる$$F_{0.05}(11,120)\lt F_{0.05}(10,120)=1.910$$ $$F_{0.025}(11,120)\lt F_{0.025}(10,120)=2.157$$よりも大きいことから、有意水準$5\%, 2.5\%$いずれにおいても帰無仮説は棄却される(このとき、$P_-$値は有意水準より小さくなる)。


問18 解答

(重回帰モデル,統計ソフトウェアの活用)

※重回帰モデルの統計ソフトウェアによる出力結果の主な項目
$\mathtt{Estimate}$:回帰係数($\alpha_0,\alpha_1,\alpha_2$)の推定値
$\mathtt{Std.Error}$:回帰係数の推定値の標準誤差
$\mathtt{t\ value}$:$t$値,$\mathtt{Pr(\gt|t|)}$:$P_-$値・・・回帰係数の検定で使う
$\mathtt{Rasidual\ standard\ error}$:誤差項の標準偏差の推定値
$\mathtt{degrees\ of\ freedom}$:自由度
$\mathtt{Multiple\ R-squared}$:決定係数($R^2$)
$\mathtt{Adjusted\ R-squared}$:自由度調整済み決定係数($R^{*2}$)
$\mathtt{F-statistic}$:$F$検定統計量,$\mathtt{p-value}$:$P_-$値・・・回帰の有意性の検定で使う

[1]

$\boxed{ \ \mathsf{33}\ }$ ①

重回帰モデルの出力結果から、定期収入$(\mathtt{income})$の偏回帰係数は$\alpha_1=0.39461$、賞与$(\mathtt{bonus})$の偏回帰係数は$\alpha_2=0.47247$となり、この係数は、定期収入や賞与が$1$増加したときに消費支出が増加する数量を表している。このことから、選択肢のうち正しいのは①である。

②は賞与と定期収入が同時に1万円増えるので、消費支出は$0.39461+0.47247$万円増えることになるので誤りである。③、④、⑤では偏回帰係数が、定期収入や賞与が増加する割合で消費支出が増加する割合を示すものではないので誤りである。

[2]

$\boxed{ \ \mathsf{34}\ }$ ⑤

最小二乗法で推定した予測値と実データの差である残差$e_i=y_i-\hat{y}_i$の平均は$0$であるので、
$$\bar{\hat{y}}=\frac1n\sum_{i=1}^n\hat{y}_i=\frac1n\sum_{i=1}^n(y_i-e_i)=\frac1n\sum_{i=1}^ny_i-\frac1n\sum_{i=1}^ne_i=\bar{y}-0=\bar{y}$$
また、消費支出の各データにおける予測値は$\hat{y}_i=\hat\beta_0+\hat\beta_1x_i$であるので、
$$\bar{\hat{y}}=\frac1n\sum_{i=1}^n\hat{y}_i=\frac1n\sum{i=1}^n(\hat\beta_0+\hat\beta_1x_i)=\hat\beta_0+\frac1n\sum_{i=1}^n\hat\beta_1x_i=\hat\beta_0+\hat\beta_1\bar{x}$$
よって、世帯主収入合計の平均は、$(31.3-14.3931)/0.4121\fallingdotseq41.0$
以上からⅠ~Ⅲはすべて正しい。

[3]

$\boxed{ \ \mathsf{35}\ }$ ③

Ⅰ.「消費支出$=\alpha_0+\alpha_1\times$定期収入$+\alpha_2\times$賞与$+u$」において、$\alpha_1=\alpha_2=\alpha$とすると、「消費支出$=\alpha_0+\alpha\times($定期収入$+$賞与$)+u$」となり、これは単回帰モデルである。正しい。
Ⅱ.自由度調整済み決定係数は重回帰モデルで$0.5161$,単回帰モデルで$0.5261$となっており、単回帰モデルのほうが大きく、単回帰モデルを選択すべきである。誤り。
Ⅲ.重回帰モデルでは賞与の値を固定すれば定期収入と消費支出の関係を、定期収入の値を固定すれば賞与と消費支出の関係をそれぞれ分析できる。単回帰モデルでは説明変数が定期収入と賞与の合計であるため、これと消費支出の関係しか分析できない。正しい。