過去問題
過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。
- 統計検定2級(2018.11)【問題】(統計検定公式)<※期間限定>
- 統計検定2級(2018.11)【正解】(統計検定公式)
問11 解答
(モーメント,歪度,尖度)
[1]
$\boxed{ \ \mathsf{17}\ }$ ①
正規分布は,歪度$=0$,尖度$=0$である。
[2]
$\boxed{ \ \mathsf{18}\ }$ ⑤
$X$ の確率密度関数を $f(x)=c$ とすると$$\begin{align}\int_{-1}^1f(x)dx=&\int_{-1}^1cdx=\left[cx\right]_{-1}^1=2c=1\ \ \Rightarrow\ \ c=1/2\\\mu=E[X]=&\int_{-1}^1xf(x)dx=\int_{-1}^1\frac x2dx=\left[\frac{x^2}4\right]_{-1}^1=0\\\mu_k=E[(X-\mu)^k]=&\int_{-1}^1(x-\mu)^kf(x)dx=\int_{-1}^1\frac {x^k}2dx\\=&\left[\frac{x^{k+1}}{2(k+1)}\right]_{-1}^1=\frac{1+(-1)^k}{2(k+1)}\\\sigma^2=\mu_2=&\frac{1+(-1)^2}{2\times(2+1)}=\frac13\\\frac{\mu_3}{\sigma^3}=&\frac{1+(-1)^3}{2\times(3+1)}\frac1{\sigma^3}=0\\\frac{\mu_4}{\sigma^4}-3=&\frac{1+(-1)^4}{2\times(4+1)}\times3^2-3=-1.2\\\end{align}$$
[3]
$\boxed{ \ \mathsf{19}\ }$ ⑤
Ⅰ.歪度は,右に裾が長い分布では正の値になり,左に裾が長い分布では負の値になる。誤り。
Ⅱ.尖度は,中心部が平坦で裾が短い分布は負の値になり,尖っていて裾の長い分布は正の値になる。誤り。
Ⅲ.$t$ 分布は自由度が大きいほど正規分布に近づくので,尖度は $0$ に近づく。誤り。
問12 解答
(母比率の区間推定)
$\boxed{ \ \mathsf{20}\ }$ ②
成功確率$p$の試行を$n$回行うときに成功する回数$X$は二項分布$B(n,p)$に従う$$\therefore\ \ E(X)=np,\ V(X)=np(1-p)$$このとき,$n$がある程度大きいときは,中心極限定理によって,$B(n,p)$は正規分布$N(np,np(1-p))$に近似できる。よって,$X$を標準化すると標準正規分布$N(0,1)$に従う。$$Z=\frac{X-np}{\sqrt{np(1-p)}}=\frac{X/n-p}{\sqrt{\frac{p(1-p)}n}}\sim N(0,1)$$ここで,標本平均 $\hat p=x/n$は$p$の一致推定量なので,$n$が十分大きいとき$p$は$\hat p$に置き換えられる。
したがって,母比率の$100(1-\alpha)\%$信頼区間は,標準正規分布の上側 $100\alpha/2\%$ 点を $z_{\alpha/2}$とすると,$$P\left(\hat p-z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}\le p\le\hat p+z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}\right)=1-\alpha$$
ほぼ毎日利用した人の割合の母比率の$95\%$信頼区間は,$n=1338$,$\hat p=0.020$,$\alpha=0.05$として$$\hat p\pm z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}=0.020\pm1.96\times\sqrt{\frac{0.020\times(1-0.020)}{1338}}=0.020\pm0.0075$$
問13 解答
(母平均の検定)
$\boxed{ \ \mathsf{21}\ }$ ④
母分散の値が未知のとき,母分散 $\sigma^2$ の代わりに不偏分散 $s^2$ を用いた統計量$$t=\frac{\bar x-\mu}{\sqrt{s^2/n}}$$は自由度 $n-1$ の $t$ 分布 $t(n-1)$ に従う。
帰無仮説 $\mu=90$,対立仮説 $\mu\ne90$ のもとで,両側検定の棄却域は有意水準 $5\%$ として,$$|t|=\left|\frac{\bar x-90}{\sqrt{s^2/n}}\right|>t_{0.05/2}(n-1)$$
ここで,$\bar x=85.6$,$n=20$,$s^2=121.9$ とすると,$$t=\frac{85.6-90}{\sqrt{121.9/20}}=-1.7822\ \ \Rightarrow\ \ |t|<t_{0.025}(19)=2.093$$よって帰無仮説は棄却しない。
問14 解答
(母分散の比の検定,第1種の過誤)
[1]
$\boxed{ \ \mathsf{22}\ }$ ⑤
2つの母集団からの標本$\{x_1,\dots,x_m\}\sim N(\mu_x,\sigma^2_x),\ \{y_1,\dots,y_n\}\sim N(\mu_y,\sigma^2_y)$に従うとき,母分散が等しいという帰無仮説$\ H_0:\sigma^2_x=\sigma^2_y\ \Leftrightarrow\ \sigma^2_y/\sigma^2_x=1.0\ $,対立仮説$\ H_1:\sigma^2_x\ne\sigma^2_y\ $で,両側検定を行う。
帰無仮説の下で,以下の検定統計量($F$検定量)は自由度$(m-1,n-1)$の$F$分布に従う。$$F=\frac{\hat\sigma_x^2}{\sigma_x^2}\cdot\frac{\sigma_y^2}{\hat\sigma_y^2}=\frac{\hat\sigma_x^2}{\hat\sigma_y^2}\sim F(m−1,n−1)$$有意水準$100\%$の両側検定の場合,この検定統計量を$F$分布の上側$\alpha/2$点と下側$\alpha/2$点(=上側$(1-\alpha/2)$点)と比較して,$$F_{1-\alpha/2}(m−1,n−1)\le\frac{\hat\sigma_x^2}{\hat\sigma_y^2}\le F_{\alpha/2}(m−1,n−1)$$を満たせば,帰無仮説を受け入れ,そうでないときは帰無仮説を棄却する。
問題の場合,$F$統計量は$$F=\frac{21.9}{20.4}\fallingdotseq1.1$$となり,これを,自由度 $(30-1,31-1)=(29,30)$ の $F$ 分布の上側 $2.5\%$ 点と下側 $2.5\%$ 点と比較する。
[2]
$\boxed{ \ \mathsf{23}\ }$ ④
真実 | |||
帰無仮説が正しい | 対立仮説が正しい | ||
検定の結果 | 帰無仮説を棄却しない (対立仮説が正しいとは言えない) | 正しい | 第二種の過誤(β) |
帰無仮説を棄却する (対立仮説が正しい) | 第一種の過誤(α) 有意水準 | 正しい 検出力(1-β) |
AとB,AとC,BとCの3つの検定のうち少なくとも1つで仮説が棄却されれば帰無仮説 $H_0$ 棄却されるので,$H_0$ は棄却されないためには3つの検定すべてが棄却されないことが必要である。よって,第一種の過誤の確率は$$1-(1-0.05)^3\fallingdotseq0.143$$
問15 解答
(二項分布,母比率の検定,母比率の差の検定)
[1]
$\boxed{ \ \mathsf{24}\ }$ ③
$5\%$ の確率で不良品が発生する試行を $200$ 回行ったときに,不良品が発生する個数 $X$ は二項分布 $B(200,0.05)$ に従う。よって,$$E[X]=np=200\times0.05=10,\ \ \ \ \ V[X]=np(1-p)=200\times0.05\times(1-0.05)=9.5$$となる。
[2]
$\boxed{ \ \mathsf{25}\ }$ ②
不良品の個数 $X$ は二項分布に従うので,$E(X)=np,\ V(X)=np(1-p)$($n$ は試行回数,$p$ は不良品率)。<br/>このとき,$n$がある程度大きいときは,中心極限定理によって,$B(n,p)$は正規分布$N(np,np(1-p))$に近似できる。よって,$X$を標準化すると標準正規分布$N(0,1)$に従う。$$Z=\frac{X-np}{\sqrt{np(1-p)}}=\frac{X/n-p}{\sqrt{p(1-p)/n}}\sim N(0,1)$$ここで,標本の不良品率は $\hat r=X/n=16/200$,母集団の不良品率(母比率)を $p=r$ としたとき,帰無仮説 $r=0.05$,対立仮説 $r>0.05$の下での統計検定量 $z$ は$$z=\frac{\hat r-r}{\sqrt{r(1-r)/n}}=\frac{16/200-0.05}{\sqrt{0.05\times(1-0.05)/200}}\fallingdotseq1.947$$となる。片側検定のもとで,$P_-$ 値は $P(Z>z)$ で与えられる。$Z$ は標準正規分布に従うので,$$P(Z>z)=P(Z>1.947)\fallingdotseq0.026$$となる。
※)離散型確率分布の正規近似でより正確な値を求めるためには,確率変数が$X=x$となる場合$x\pm0.5$の範囲の確率で近似することが適当である。上の場合,標本の不良品率は $\hat p=16.5/200$として求める方がより正確となる。(連続修正)$$z=\frac{16.5/200-0.05}{\sqrt{0.05\times(1-0.05)/200}}\fallingdotseq2.109\ \ \Rightarrow\ \ P(Z>z)=P(Z>2.109)\fallingdotseq0.017$$
[3]
$\boxed{ \ \mathsf{26}\ }$ ⑤
2つの母集団からの標本に基づいて,2つの母集団の母比率$p_1,p_2$に差があるかの検定を行う。
帰無仮説を$H_0:p_1=p_2$とする。$n_1,n_2$が十分大きいとき,標本比率$\hat p_1=x_1/n_1, \hat p_2=x_2/n_2$は近似的に正規分布$\hat p_1\sim N(p_1,p_1(1-p_1)/n_1), \hat p_2\sim N(p_2,p_2(1-p_2)/n_2)$に従うので,2つの標本比率の差も正規分布に従う。$$\hat p_1-\hat p_2\sim N\left(p_1-p_2, \frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}\right)$$$z$を以下のとおりにすると,標準正規分布に従う。ここで,標本比率$\hat p_1,\hat p_2$は母比率の一致推定量なので,分散に含まれている$p_1,p_2$は$n_1,n_2$が十分大きいとき$\hat p_1,\hat p_2$に置き換えることができる。$$z=\frac{(\hat p_1-\hat p_2)-(p_1-p_2)}{\sqrt{\frac{\hat p_1(1-\hat p_1)}{n_1}+\frac{\hat p_2(1-\hat p_2)}{n_2}}}$$$\hat p_1=16/200=0.080,\hat p_2=17/200=0.085,n_1=n_2=200$ として,帰無仮説 $d=p_1-p_2=0$,対立仮説 $d\ne0$ の下で検定統計量 $z$ を求めると$$z=\frac{(0.080-0.085)-0}{\sqrt{\frac{0.080\times(1-0.080)}{200}+\frac{0.085\times(1-0.085)}{200}}}=\frac{-0.005}{0.0275}=-0.18$$となる。両側検定のもとで,$P_-$ 値は $P(|Z|>|z|)$ で与えられる。$Z$ は標準正規分布に従うので,$$P(|Z|>|z|)=P(|Z|>|-0.18|)\fallingdotseq2\times0.429=0.858$$となる。
問16 解答
(適合度の検定)
適合度の検定は,ある属性$A$の$k$個のカテゴリの値が理論値に適合しているかどうかの検定。
属性$A$のカテゴリ$A_i$の観測度数を$O_{i}$とし,属性$A$のカテゴリ$A_i$の理論的な出現確率を$p_i$とする。
理論値に適合するという帰無仮説を$H_0:P(A_i)=p_i\ (i=1,2,\cdot,k, \sum p_i=1)$とすると,カテゴリ$A_i$の理論的な期待度数は$E_i=np_i$と計算される。
帰無仮説$H_0$の下で,検定統計量$\chi^2$は度数が大きいときに近似的に$\chi^2$分布に従う。カテゴリ数の合計が固定されていることから自由度は$k$(カテゴリ数)$-1$となる。$$\chi^2=\sum_{i=1}^k\frac{(O_{i}-E_{i})^2}{E_i}\sim\chi^2(k-1)$$有意水準$100\alpha\%$で帰無仮説が棄却されるには,$\chi^2$分布の上側$\alpha$点より上で求めた$\chi^2$統計量が大きくなればよい。
[1]
$\boxed{ \ \mathsf{27}\ }$ ①
帰無仮説が「発生率は曜日に依存しない」であるので,各曜日同じ確率で交通事故が発生するものとして,各曜日の期待度数は $102/6=17$。
[2]
$\boxed{ \ \mathsf{28}\ }$ ③
自由度はカテゴリ数$-1$ なので $6-1=5$。よって,自由度 $5$ の $\chi^2$ 分布の上側 $5\%$ 点は $11.07$。よって,帰無仮説は棄却しない。
問17 解答
(重回帰モデル,統計ソフトウェアの活用)
※重回帰モデルの統計ソフトウェアによる出力結果の主な項目
$\mathtt{Estimate}$:回帰係数($\alpha,\beta_1,\beta_2,\beta_3$)の推定値
$\mathtt{Std.Error}$:回帰係数の推定値の標準誤差
$\mathtt{t\ value}$:$t$値,$\mathtt{Pr(\gt|t|)}$:$P_-$値・・・回帰係数の検定で使う
$\mathtt{Rasidual\ standard\ error}$:誤差項の標準偏差の推定値
$\mathtt{degrees\ of\ freedom}$:自由度
$\mathtt{Multiple\ R-squared}$:決定係数($R^2$)
$\mathtt{Adjusted\ R-squared}$:自由度調整済み決定係数($R^{*2}$)
$\mathtt{F-statistic}$:$F$検定統計量,$\mathtt{p-value}$:$P_-$値・・・回帰の有意性の検定で使う
[1]
$\boxed{ \ \mathsf{29}\ }$ ④
問題の回帰モデルの自由度は,標本の大きさから推定する回帰係数の数(定数項を含む)を引いた値である。自由度は $52$,回帰係数の数は $3$ なので,標本の大きさは $55$。
[2]
$\boxed{ \ \mathsf{30}\ }$ ②
Ⅰ.出力結果から $\alpha$ の標準誤差は,$\mathtt{Intercept}$ の $\mathtt{Std.Error}$ = $1.137\times10^{+02}=113.7$ である。誤り。
Ⅱ.各回帰係数の $P_-$値は,すべて $5\%=0.05$ 未満なので,すべての回帰係数は有意である。⇒推定値の推定区間内に $0$ が含まれない。⇒ $0$ と異なる。正しい。
Ⅲ.自由度調整済み決定係数($\mathtt{Adjusted\ R-squared}$)の値は $0.8141$ である。誤り。
[3]
$\boxed{ \ \mathsf{31}\ }$ ④
Ⅰ.人口密度($\mathtt{population}$)の回帰係数の推定値($\mathtt{Estimate}$)は負なので,人口密度が高い国は,自動車普及率が低い傾向にある(負の相関)。正しい。
Ⅱ.$\mathrm{log}(1$人当たりGDP$)$($\mathtt{log(gdp)}$)の回帰係数の推定値($\mathtt{Estimate}$)は正なので,$1$人当たりGDPが高い国は,自動車普及率が高い傾向にある(正の相関で$\mathrm{log}$は単調増加関数)。正しい。
Ⅲ.重回帰モデルによる予測式により自動車普及率を予測すると,
自動車普及率$=-1.283\times10^3-6.617\times10^{-2}\times$人口密度$+1.757\times10^2\times\mathrm{log}(1$人当たりGDP$)=-1283-0.06617\times400+175.7\times10\fallingdotseq447.53$ 正しい。
問18 解答
(単回帰モデル,重回帰モデル)
[1]
$\boxed{ \ \mathsf{32}\ }$ ④
Ⅰ.残差平方和を $S_e$ とすると,残差の標準誤差は $\hat\sigma_u=\sqrt{S_e/(n-k-1)}$ となるので,残差平方和は $S_e=\hat\sigma_u^2\times(n-k-1)=0.608^2\times(5-1-1)=1.109$。正しい。
Ⅱ.回帰係数も標準誤差も1万倍になるので $t$値は変わらない。誤り。
Ⅲ.単回帰のモデル式から切片も1万倍になる。正しい。
[2]
$\boxed{ \ \mathsf{33}\ }$ ⑤
Ⅰ.回帰係数の値が $0$ に近いからといって不要ということはなく,$t$ 値や $P_-$ 値で有意性を判断する。誤り。
Ⅱ.変数間の相関係数は高く,標本サイズも小さいので,多重共線性の可能性が考えられる。誤り。
Ⅲ.$P_-$ 値の大きさが $5\%=0.05$ より大きいので,帰無仮説は棄却できない。誤り。
[3]
$\boxed{ \ \mathsf{34}\ }$ ①
Ⅰ.一般に、$y=a+bx+u$の$x$の係数$b$と$y=a’+b’x+c’z+v$の$x$の係数$b’$では異なる値となるので、データの入力ミスではない。誤り。
Ⅱ. $y=a+bx+u$の酒類への支出金額$x$の係数$b$は有意水準$10\%$で有意である$(P_-$値$=0.070<0.1)$。一方、 $y=a’+b’x+c’z+v$では、酒類への支出金額$x$の係数は有意水準$10\%$で有意ではなく$(P_-$値$=0.559>0.1)$、実収入$z$の係数が有意である$(P_-$値$=0.064<0.1)$ことから、実収入が教養娯楽サービスへの支出金額と酒類への支出金額の両方に影響を及ぼしている可能性があり、両支出金額間に見かけ上の相関をもたらしているものと考えられる。正しい。
Ⅲ.係数が有意でないということは、$b’=0$という帰無仮説が棄却できないということなので、問題文のような解釈は言えない。誤り。