ブログ

統計検定準1級 問題解説 ~2018年6月実施 問11 因子分析~

問題

過去問題は統計検定公式が問題と解答例を公開しています。こちらを参照してください。

解答

[1] 解答

$\boxed{ \ \mathsf{20}\ }$ : ①

共通性は因子負荷量の$2$乗和で計算されるので。ア)、イ)はそれぞれ下記のように計算される。
・ア)
$$
\large
\begin{align}
\pm \sqrt{0.9412-0.96^2} = \pm 0.14
\end{align}
$$

・イ)
$$
\large
\begin{align}
\pm \sqrt{0.8762-(-0.71)^2} = \pm 0.61
\end{align}
$$

上記が成立し得るのは①のみであるので、①が正しいことがわかる。

[2] 解答

$\boxed{ \ \mathsf{21}\ }$ : ④

バリマックス回転は因子負荷行列の各要素の$2$乗の分散の和を最大にする回転であるので、④が正しいことがわかる。

[3] 解答

$\boxed{ \ \mathsf{22}\ }$ : ②

図を解釈することで②が適切でないことがわかる。

解説

どれも因子分析に関する基本事項の確認なので、ワークブックなどを元に基本事項を抑えておくと良いと思われました。

参考

・準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

統計検定準1級 問題解説 ~2018年6月実施 問10 重回帰分析~

問題

過去問題は統計検定公式が問題と解答例を公開しています。こちらを参照してください。

解答

[1] 解答

$\boxed{ \ \mathsf{18}\ }$ : ⑤

ア)やウ)の推定法に見られるように、多くのパラメータが$0$と推定される場合、これをスパース性という。ここで用いた$4$つの手法のうち、スパース性を持つのは$L_1$正則化法とOLS+AICが該当する。

また、パラメータの推定値の絶対値はOLSやOLS+AICが$L_1$正則化法、$L_2$正則化法に比べて大きくなる。よって、下記のような対応であることがわかる。

ア) OLS+AIC
イ) $L_2$正則化法
ウ) $L_1$正則化法
エ) OLS

上記より⑤が正しいことがわかる。

[2] 解答

$\boxed{ \ \mathsf{19}\ }$ : ①

定義より、Elastic Net法は$L_1$正則化法と$L_2$正則化法の中間的な性質を持つ推定法であることがわかる。よって。非ゼロ回帰係数の数を確認することで、①が正しいことがわかる。

解説

ワークブックでも同様の内容が取り扱われているので、抑えておくと良いトピックだと思います。

参考

・準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

「統計学実践ワークブック」 演習問題etc Ch.22 「主成分分析」

当記事は「統計学実践ワークブック(学術図書出版社)」の読解サポートにあたってChapter.22の「主成分分析」に関して演習問題を中心に解説を行います。実際に分析などを行うにあたってよく出てくる手法なので、演習を通して抑えておくと良いと思われました。

本章のまとめ

下記などで取り扱いを行なった。
https://www.hello-statisticians.com/explain-terms-cat/pca1.html

導出で用いられる数学の重要事項

二乗和の変形

「主成分分析」の「二次形式とベクトル」で詳しく取り扱った。

ベクトルでの微分

「主成分分析」の「スカラー関数のベクトルでの微分」で詳しく取り扱った。

主成分分析の導出・固有値の解釈

「主成分分析」の「主成分分析の導出」で詳しく取り扱った。

演習問題解説

例22.1

下記を実行することで、$x_1$の分散、$x_1,x_2$の共分散、相関係数の計算を行うことができる。

import numpy as np

X = np.array([[2., 2., 3., 1.], [9., 8., 10., 9.], [8., 3., 2., 7.], [7., 1., 3., 8.], [2., 9., 8., 2.], [5., 4., 5., 5.]])
Var_x1 = np.dot(X[:,0]-np.mean(X[:,0]),X[:,0]-np.mean(X[:,0]))/5.
Var_x2 = np.dot(X[:,1]-np.mean(X[:,1]),X[:,1]-np.mean(X[:,1]))/5.
Cov_x1_x2 = np.dot(X[:,0]-np.mean(X[:,0]),X[:,1]-np.mean(X[:,1]))/5.

print("Variance x1: {:.2f}".format(Var_x1))
print("Covariance x1-x2: {:.2f}".format(Cov_x1_x2))
print("Correlation x1-x2: {:.3f}".format(Cov_x1_x2/(Var_x1*Var_x2)**0.5))

・実行結果

> print("Variance x1: {:.2f}".format(Var_x1))
Variance x1: 9.10
> print("Covariance x1-x2: {:.2f}".format(Cov_x1_x2))
Covariance x1-x2: -0.70
> print("Correlation x1-x2: {:.3f}".format(Cov_x1_x2/(Var_x1*Var_x2)**0.5))
Correlation x1-x2: -0.071

また、標本分散共分散行列、標本相関行列は下記を実行することで得られる。

import numpy as np

X = np.array([[2., 2., 3., 1.], [9., 8., 10., 9.], [8., 3., 2., 7.], [7., 1., 3., 8.], [2., 9., 8., 2.], [5., 4., 5., 5.]])
X_ = X - np.mean(X,axis=0)
Cov_mat = np.dot(X_.T,X_)/5.
Variance_row = np.repeat(np.diag(Cov_mat)**0.5, 4).reshape([4,4])
Variance_col = np.repeat(np.diag(Cov_mat)**0.5, 4).reshape([4,4]).T
Cor_mat = Cov_mat/(Variance_row*Variance_col)

print("・Covariance matrix")
print(Cov_mat)
print("・Correlation matrix")
print(Cor_mat)

・実行結果

・Covariance matrix
[[  9.1         -0.7          0.7          9.6       ]
 [ -0.7         10.7          9.5         -0.6       ]
 [  0.7          9.5         10.16666667   1.33333333]
 [  9.6         -0.6          1.33333333  10.66666667]]
・Correlation matrix
[[ 1.         -0.07093906  0.07277598  0.97439753]
 [-0.07093906  1.          0.91084069 -0.05616231]
 [ 0.07277598  0.91084069  1.          0.12803688]
 [ 0.97439753 -0.05616231  0.12803688  1.        ]]

例22.2

$[1]$
下記を実行することで、第$1$主成分、第$2$主成分の寄与率を計算することができる。

import numpy as np

lamb = np.array([20.2, 19.4, 0.85, 0.18])

print("contribution ratio of 1st principal component: {}".format(lamb[0]/np.sum(lamb)))
print("contribution ratio of 2nd principal component: {}".format(lamb[1]/np.sum(lamb)))
print("sum of 1st and 2nd: {}".format(lamb[0]/np.sum(lamb)+lamb[1]/np.sum(lamb)))

・実行結果

> print("contribution ratio of 1st principal component: {}".format(lamb[0]/np.sum(lamb)))
contribution ratio of 1st principal component: 0.497169579129
> print("contribution ratio of 2nd principal component: {}".format(lamb[1]/np.sum(lamb)))
contribution ratio of 2nd principal component: 0.477479694807
> print("sum of 1st and 2nd: {}".format(lamb[0]/np.sum(lamb)+lamb[1]/np.sum(lamb)))
sum of 1st and 2nd: 0.974649273936

上記の結果より、第$2$主成分までの寄与率で$97.5$%を占めることが読み取れるので、全体の結果を第$2$主成分までで要約することは合理的である。

$[2]$
下記のように計算できる。
$$
\large
\begin{align}
\frac{\sqrt{\lambda_{2}}u_{1,2}}{\sqrt{s_{1,1}}} = \frac{\sqrt{19.4} \times 0.564}{9.1} = 0.8234…
\end{align}
$$

問22.1

$[1]$
下記を実行することで計算を行うことができる。

import numpy as np

print(np.sqrt(2.26)*(-0.497))
print(np.sqrt(1.5)*(0.217))

・実行結果

> print(np.sqrt(2.26)*(-0.497))
-0.747154830005
> print(np.sqrt(1.5)*(0.217))
0.265769637092

$[2]$
累積寄与率を確認すると、第$1,2$主成分で全体の$54$%、第$3,4$主成分までで全体の$83$%の情報を取れることがわかる。詳細の考察に関してはワークブックにあるのでここでは省略する。

$[3]$
$A$が該当する。詳細の考察はワークブックがわかりやすいのでここでは省略する。

参考

・準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

・主成分分析の導出まとめ
https://www.hello-statisticians.com/explain-terms-cat/pca1.html

「統計学実践ワークブック」 演習問題etc Ch.14 「マルコフ連鎖」

当記事は「統計学実践ワークブック(学術図書出版社)」の読解サポートにあたってChapter.$14$の「マルコフ連鎖」に関して演習問題を中心に解説を行います。マルコフ連鎖は応用などの際によく出てくるので、演習を通して抑えておくと良いと思われました。

本章のまとめ

有限マルコフ連鎖のパラメータ推定

演習問題解説

例14.1

状態$i \in \{1,2\}$が状態$j \in \{1,2\}$に推移する確率を$p(i,j)$、推移確率行列を$Q$とおくと、それぞれ下記のように表すことができる。
$$
\large
\begin{align}
p(i,j) &= q, \qquad j=1 \\
&= 1-q, \qquad j=2 \\
Q &= \left(\begin{array}{cc} p(1,1) & p(1,2) \\ p(2,1) & p(2,2) \end{array} \right) = \left(\begin{array}{cc} q & q \\ 1-q & 1-q \end{array} \right)
\end{align}
$$

このとき、定常分布を$\pi$と定めると、$\pi$は下記のように導出できる。
$$
\large
\begin{align}
\pi &= \lim_{n \to \infty} \pi_{0} Q^{n} \\
&= \lim_{n \to \infty} \left(\begin{array}{cc} p & 1-p \end{array} \right) \left(\begin{array}{cc} q & q \\ 1-q & 1-q \end{array} \right)^n \\
&= \lim_{n \to \infty} \left(\begin{array}{cc} p & 1-p \end{array} \right) \left(\begin{array}{cc} q & q \\ 1-q & 1-q \end{array} \right) \\
&= \left(\begin{array}{cc} pq+(1-p)q & p(1-q)+(1-p)(1-q) \end{array} \right) \\
&= \left(\begin{array}{cc} q & 1-q \end{array} \right)
\end{align}
$$

よって定常分布は$\displaystyle \pi = \left(\begin{array}{cc} q & 1-q \end{array} \right)$のように表せる。

例14.2

$$
\large
\begin{align}
Q_1 = \left(\begin{array}{ccc} 0 & 1/2 & 1/2 \\ 1/2 & 0 & 1/2 \\ 1/2 & 1/2 & 0 \end{array} \right), \quad
Q_2 = \left(\begin{array}{ccc} 1/3 & 2/3 & 0 \\ 1/3 & 1/3 & 1/3 \\ 0 & 0 & 1 \end{array} \right)
\end{align}
$$
上記の$Q_1, Q_2$に定常分布があるかを以下調べる。

・$Q_1$
$\pi_i = \left(\begin{array}{ccc} a_i & b_i & c_i \end{array} \right)$とおいたとき、定常分布では$\pi_i = \pi_{i+1} = \pi_i Q_1$より$\pi_i = \pi_i Q_1$が成立する。よって下記のような計算ができる。
$$
\large
\begin{align}
\pi_i &= \pi_i Q_1 \\
\left(\begin{array}{ccc} a_i & b_i & c_i \end{array} \right) &= \left(\begin{array}{ccc} a_i & b_i & c_i \end{array} \right) \left(\begin{array}{ccc} 0 & 1/2 & 1/2 \\ 1/2 & 0 & 1/2 \\ 1/2 & 1/2 & 0 \end{array} \right) \\
\left(\begin{array}{c} a_i \\ b_i \\ c_i \end{array} \right)^{T} &= \left(\begin{array}{c} (b_i+c_i)/2 \\ (a_i+c_i)/2 \\ (a_i+b_i)/2 \end{array} \right)^{T}
\end{align}
$$

上記に$a_i+b_i+c_i=1$の制約を考えて解くと、$a_i=b_i=c_i=1/3$が得られる。よって、定常分布$\pi$は$\pi=\left(\begin{array}{ccc} a_i & b_i & c_i \end{array} \right)$のように表せる。

・$Q_2$
状態$3$が吸収状態(absorbing state)であることから、$\pi=\left(\begin{array}{ccc} 0 & 0 & 1 \end{array} \right)$が定常分布となる。

例14.3

ここでの尤度を$L(\theta)$のようにおくと、事象が起こった結果と与えられた推移行列により、$L(\theta)$は下記のように表すことができる。
$$
\large
\begin{align}
L(\theta) &= (1-\theta)^{30-5} \cdot \theta^{5} \cdot (0.9-\theta)^{50-1} \cdot \theta^{1} \cdot 0.9^{10} \\
&= 0.9^{10} \theta^{5} (1-\theta)^{25} (0.9-\theta)^{49}
\end{align}
$$

上記に対して対数尤度$\log{L(\theta)}$は下記のように表せる。
$$
\large
\begin{align}
\log{L(\theta)} &= 5 \log{\theta} + 25 \log{(1-\theta)} + 49 \log{(0.9-\theta)} + \mathrm{Const.}
\end{align}
$$
$\theta$に関係ない項に関しては$\mathrm{Const}$とおいた。

以下、$\log{L(\theta)}$を$\theta$に関して微分し、$\log{L(\theta)}$を最大にする$\theta$の推定値を求める。
$$
\large
\begin{align}
\frac{\partial \log{L(\theta)}}{\partial \theta} &= 0 \\
\frac{5}{\theta} – \frac{25}{1-\theta} – \frac{49}{0.9-\theta} &= 0 \\
5(1-\hat{\theta}) – 25\theta(0.9-\hat{\theta}) – 49\hat{\theta}(1-\hat{\theta}) &= 0 \\
… \\
\hat{\theta} & \simeq 0.07
\end{align}
$$

問14.1

$[1]$
$i$から$j$に推移するときの確率を$p(i,j)$とおくと、推移確率$Q$は下記のように表すことができる。
$$
\large
\begin{align}
Q = \left(\begin{array}{cc} p(1,1) & p(1,2) \\ p(2,1) & p(2,2) \end{array} \right)
\end{align}
$$

ここで$p(1,1)=1/6, p(1,2)=5/6, p(2,1)=1/2, p(2,2)=1/2$より、推移確率は下記のような値で表される。
$$
\large
\begin{align}
Q = \left(\begin{array}{cc} 1/6 & 5/6 \\ 1/2 & 1/2 \end{array} \right)
\end{align}
$$

$[2]$
定常分布$\displaystyle \pi = \lim_{n \to \infty} \pi_n$が存在するとき、$\pi_n = \pi_{n+1} = \pi_n Q$より$\pi_n = \pi_n Q$が成立する。

$\pi_n = \left(\begin{array}{cc} a_n & b_n \end{array} \right)$とおいて、$a_n+b_n = 1$を前提にこれを解くと、$\pi_i = \left(\begin{array}{cc} 3/8 & 5/8 \end{array} \right)$が得られる。

よって定常分布$\displaystyle \lim_{n \to \infty} \pi_n = \left(\begin{array}{cc} 3/8 & 5/8 \end{array} \right)$が存在する。

問14.2

$[1]$
推移確率行列$Q$は下記のように表される。
$$
\large
\begin{align}
Q = \left(\begin{array}{ccc} 1/3 & 1/3 & 1/3 \\ 1/6 & 1/2 & 1/3 \\ 1/9 & 2/9 & 2/3 \end{array} \right)
\end{align}
$$

$[2]$
下記のように$\pi_2 = \pi_0 Q^2$を計算できる。
$$
\large
\begin{align}
\pi_2 &= \pi_0 Q^2 \\
&= \left(\begin{array}{ccc} 0 & 0 & 1 \end{array} \right) \left(\begin{array}{ccc} 1/3 & 1/3 & 1/3 \\ 1/6 & 1/2 & 1/3 \\ 1/9 & 2/9 & 2/3 \end{array} \right)^2 \\
&= \left(\begin{array}{ccc} 1/9 & 2/9 & 2/3 \end{array} \right) \left(\begin{array}{ccc} 1/3 & 1/3 & 1/3 \\ 1/6 & 1/2 & 1/3 \\ 1/9 & 2/9 & 2/3 \end{array} \right) \\
&= \left(\begin{array}{c} \frac{1 \cdot 1}{9 \cdot 3} + \frac{2 \cdot 1}{9 \cdot 6} + \frac{2 \cdot 1}{3 \cdot 9} \\ \frac{1 \cdot 1}{9 \cdot 3} + \frac{2 \cdot 1}{9 \cdot 2} + \frac{2 \cdot 2}{3 \cdot 9} \\ \frac{1 \cdot 1}{9 \cdot 3} + \frac{2 \cdot 1}{9 \cdot 3} + \frac{2 \cdot 2}{3 \cdot 3} \end{array} \right)^{\mathrm{T}} \\
&= \left(\begin{array}{ccc} 5/27 \\ 8/27 \\ 5/9 \end{array} \right)^{\mathrm{T}}
\end{align}
$$

$[3]$
定常分布が存在するとき、$\pi_i = \pi_{i+1} = \pi_i Q$より$\pi_i = \pi_i Q$が成立する。

$\pi_i = \left(\begin{array}{ccc} a_i & b_i & c_i \end{array} \right)$とおいて、これを解くと、$\pi_i = \left(\begin{array}{ccc} 1/6 & 1/3 & 1/2 \end{array} \right)$が得られる。

よって定常分布$\pi = \left(\begin{array}{ccc} 1/6 & 1/3 & 1/2 \end{array} \right)$が存在する。

問14.3

$1)$
状態空間は$S=\{0,1,2\}$、初期確率は$\pi_0=(0,1,0)$である。また、遷移確率$Q$は下記のように表せる。
$$
\large
\begin{align}
Q &= \left(\begin{array}{ccc} 0 & 0 & 1 \\ 0 & 1-\theta & \theta \\ 1-\theta & \theta & 0 \end{array} \right)
\end{align}
$$

$2)$
尤度$L(\theta)$は下記のように計算できる。
$$
\large
\begin{align}
L(\theta) &= (1-\theta) \times \theta \times (1-\theta) \times 1 \times \theta \times (1-\theta) \times (1-\theta) \\
&= \theta^2(1-\theta)^4
\end{align}
$$

$\log{L(\theta)}=2\log{\theta}+4\log{(1-\theta)}$より、$\displaystyle \hat{\theta} = \frac{1}{3}$のように推定を行うことができる。

$3)$
$\pi_{n}=\pi_{n+1}=\pi_{n}Q$が成立すると考え、$\pi=(a,b,c)$とおき、$a+b+c=1$であることを用いて$\pi=\pi Q$を解くと、$a=1/4$が得られる。

参考

・準$1$級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

統計検定準1級 問題解説 ~2018年6月実施 問9 ピアソンのχ二乗適合度検定~

問題

過去問題は統計検定公式が問題と解答例を公開しています。こちらを参照してください。

解答

[1] 解答

$\boxed{ \ \mathsf{15}\ }$ : ④

$a$を大きくするにつれて、下記が生じる。

・$\displaystyle \frac{(O-E)^2}{E} = \frac{(b-a)^2}{a}$は、$a=2a, b=2b$で置き換えると$2$倍になる。よって、$\chi^2$統計量は大きくなる。
・$a=2a, b=2b$のように置き換えるとき、クラメールの連関係数の$n$も$n=2n$で置き換えるので、クラメールの連関係数の値は一定である。
・適合度検定では、表の大きさが変わらなければ$\chi^2$統計量の分布は変わらない。よって、サンプル数が増えるにつれて$P$値は小さくなる。

よって④が正しいことがわかる。

[2] 解答

$\boxed{ \ \mathsf{16}\ }$ : ①

$$
\large
\begin{align}
\sqrt{\frac{116.52}{1500 \times 5}} = 0.12464…
\end{align}
$$
クラメールの連関係数は上記のように計算できる。よって③は間違い。また、$P$値は$0.01$未満であるので⑤も間違い。

ここでクラメールの連関係数の値が$0.1$であることから、関連性が有意であるとは言えず、②と④が間違いで①が正しい。

[3] 解答

$\boxed{ \ \mathsf{17}\ }$ : ③

表を解釈することで③が適切でないことがわかる。

解説

$[3]$が簡単である一方で、$[2]$ではクラメールの連関係数の解釈が問われており、難しいように思われました。$[1]$に関しては適合度検定の式で$\displaystyle \frac{(O-E)^2}{E}$が用いられていることを元に考えれば解けると思います。

クラメールの連関係数は教科書などではあまり見つからなかったので、式の解釈にあたってもう少し誘導をつけるか単に計算問題にする方が良いように思われました。試験時では②と④が同時に正しいことはないことから①が正しいで正答を選ぶというのは可能かもしれません。

参考

・準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

「統計学実践ワークブック」 演習問題etc Ch.21 「標本抽出法」

当記事は「統計学実践ワークブック(学術図書出版社)」の読解サポートにあたってChapter.21の「標本抽出法」に関して演習問題を中心に解説を行います。有限母集団からの非復元抽出に関してはよく出てくるので、演習を通して抑えておくと良いと思われました。

本章のまとめ

有限母集団からの非復元抽出

大きさ$N$の母集団から大きさ$n$の標本を非復元無作為抽出を行うことを考える。非復元抽出は同じ標本を$2$回以上抽出しない方法である。このとき母平均の$\mu$の推定量に、下記で定義する標本平均$\bar{X}$を用いることを考える。
$$
\large
\begin{align}
\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i
\end{align}
$$

このとき、標本平均の期待値$E[\bar{X}]$、分散$V[\bar{X}]$は下記のように表される。
$$
\large
\begin{align}
E[\bar{X}] &= \mu \\
V[\bar{X}] &= \frac{N-n}{N-1} \cdot \frac{1}{n} \sigma^2
\end{align}
$$

上記の$\sigma^2$は母分散、$\displaystyle \frac{N-n}{N-1}$は有限修正(finite correction)項とよばれることは抑えておくと良い。以下、いくつかの$(N, n)$の組み合わせに対して有限修正項の値を確認する。

・$(N, n) = (10, 3)$
$$
\begin{align}
\frac{N-n}{N-1} &= \frac{10-3}{10-1} \\
&= \frac{7}{9}
\end{align}
$$

・$(N, n) = (10, 5)$
$$
\begin{align}
\frac{N-n}{N-1} &= \frac{10-5}{10-1} \\
&= \frac{5}{9}
\end{align}
$$

・$(N, n) = (101, 3)$
$$
\begin{align}
\frac{N-n}{N-1} &= \frac{101-3}{101-1} \\
&= \frac{98}{100}
\end{align}
$$

上記より$N$が$n$に比べて小さいときほど、有限修正項による値の補正が大きいと解釈できることがわかる。

標本配分法

層化抽出法の際に各グループからどのくらいサンプル抽出を行うかを判断するにあたって、標本配分法(sample allocation)を抑えておくと良い。標本配分法には主に「比例配分法」、「等配分法」、「ネイマン配分法」の$3$つの手法があり、以下それぞれの手法について確認を行う。

・比例配分法(proportional allocation)
各層の標本の大きさ$n_h$が各層の母集団の大きさ$N_h$に比例する標本配分法を「比例配分法(proportional allocation)」という。

・等配分法(equal allocation)
各層の標本の大きさを全て等しく$n_1=n_2=…=n_L$に設定する配分法を「等配分法(equal allocation)」という。

・ネイマン配分法(Neyman allocation)
推定量の分散を最小にする配分法を「ネイマン配分法(Neyman allocation)」もしくは「最適配分法(optimal allocation)」という。ネイマン配分法では層$h$の標本の大きさを下記のように定める。
$$
\large
\begin{align}
n_h &= \frac{N_h \sigma_h \sqrt{\frac{N_h}{N_h-1}}}{\sum_{h=1}^{L} N_h \sigma_h \sqrt{\frac{N_h}{N_h-1}}} \times n \\
n &= \sum_{i=1}^{L} N_h
\end{align}
$$

演習問題解説

例21.1

$N=1600$から$n=100$の抽出を行うときの標本平均の分散を$V[\bar{x}]$とおくと、$V[\bar{x}]$は下記のように計算できる。
$$
\large
\begin{align}
V[\bar{x}] &= \frac{N-n}{N-1} \cdot \frac{\sigma^2}{n} \\
&= \frac{1600-100}{1600-1} \cdot \frac{120}{100} \\
&= 1.1257…
\end{align}
$$

また、標本平均の分散を$0.5$以下に抑えるには、下記の式が成立しなければならない。
$$
\large
\begin{align}
V[\bar{x}] = \frac{N-n}{N-1} \cdot \frac{\sigma^2}{n} & \leq 0.5 \\
\frac{1600-n}{1600-1} \cdot \frac{120}{n} & \leq 0.5 \\
120 \cdot (1600-n) & \leq \frac{1599}{2}n \\
\frac{1599+240}{2}n & \geq 120 \cdot 1600 \\
n & \geq 208.809…
\end{align}
$$

よって、$n=209$以上を抽出する必要がある。

例21.2

・比例配分法
下記のように抽出する標本の大きさ$n_1, n_2$を決定することができる。
$$
\large
\begin{align}
n_1 &= \frac{N_1}{N_1+N_2} \times n = \frac{500}{500+500} \times 20 \\
&= 10 \\
n_2 &= n_1 = 10
\end{align}
$$

・ネイマン配分法
下記のように抽出する標本の大きさ$n_1, n_2$を決定することができる。
$$
\large
\begin{align}
n_1 &= \frac{N_h \sigma_h \sqrt{\frac{N_h}{N_h-1}}}{\sum_{h=1}^{L} N_h \sigma_h \sqrt{\frac{N_h}{N_h-1}}} \times n \\
&= \frac{500 \times 6 \times \sqrt{\frac{500}{500-1}}}{\sum_{h=1}^{L} 500 \times 6 \times \sqrt{\frac{500}{500-1}}+500 \times 18 \times \sqrt{\frac{500}{500-1}}} \times 20 \\
&= \frac{6}{6+18} \times 20 \\
&= 5 \\
n_2 &= 20-n_1 = 10
\end{align}
$$

上記の解釈にあたっては、「各層からのサンプル数を決める際に基本的に層の大きさ$N_h$と、分散の$0.5$乗の$\sigma_h$に比例して決める」と考えておけば良い。また、$\displaystyle \sqrt{\frac{N_h}{N_h-1}}$は各層の大きさ$N_h$が小さい場合は少しだけ値が大きくなるように補正すると考えればよい。この補正に関しては、サンプルが小さい層からの抽出の場合は分散を過小評価していないかを考慮する必要があると解釈することで、直感的にも合理的であるように思われる。

問21.1

①: 単純無作為抽出法
②: 集落抽出法
③: 層化抽出法
④: 有意抽出法
⑤: 二段抽出法

上記より、②が「集落抽出法」に該当する。

問21.2

$[1]$
$\hat{Y}$に関して、下記が成立する。
$$
\large
\begin{align}
E \left[ \frac{\hat{Y}}{40} \right] &= E \left[ \frac{1}{40} \sum_{h=1}^{4} \frac{N_h}{n_h} \sum_{i=1}^{n_h} y_{hi} \right] \\
&= \frac{1}{40} \sum_{h=1}^{4} \frac{N_h}{n_h} \sum_{i=1}^{n_h} E \left[ y_{hi} \right]
\end{align}
$$

上記に基づいて下記の計算を行えばよい。計算の処理の流れはPythonを用いて表した。

import numpy as np

N_h = np.array([20., 10., 5., 5.])
ave_h = np.array([15., 150., 510., 1010.])

print(np.sum(N_h*ave_h)/40.)

・実行結果

> print(np.sum(N_h*ave_h)/40.)
235.0

$[2]$

A: 等配分法
B: 比例配分法
C: ネイマン配分法

上記より、$C$のネイマン配分法を選べばよい。

$$
\large
\begin{align}
n_h &= \frac{N_h \sigma_h \sqrt{\frac{N_h}{N_h-1}}}{\sum_{h=1}^{L} N_h \sigma_h \sqrt{\frac{N_h}{N_h-1}}} \times n \\
n &= \sum_{i=1}^{L} N_h
\end{align}
$$

以下、上記の式に基づいて、$C$と同様の結果を導出する。

import numpy as np

N_h = np.array([20., 10., 5., 5.])
ave_h = np.array([15., 150., 510., 1010.])
std_h = np.array([20., 70., 290., 80.])

x_h = N_h*std_h*(N_h/(N_h-1))**0.5
print((8.*x_h)/np.sum(x_h))

・実行結果

> print((8.*x_h)/np.sum(x_h))
[ 1.02067752  1.83513132  4.0319336   1.11225755]

上記より、サンプルの配分を$n_1=1, n_2=2, n_3=4, n_4=1$のように計算できる。

また、$A, B, C$の際の推定量の分散は下記のように計算できる。

import numpy as np

N_h = np.array([20., 10., 5., 5.])
n_h_A = np.array([2., 2., 2., 2.])
n_h_B = np.array([4., 2., 1., 1.])
n_h_C = np.array([1., 2., 4., 1.])
std_h = np.array([20., 70., 290., 80.])

print(np.sum(N_h**2 * (N_h-n_h_A)/(N_h-1) * 1/n_h_A * std_h**2))
print(np.sum(N_h**2 * (N_h-n_h_B)/(N_h-1) * 1/n_h_B * std_h**2))
print(np.sum(N_h**2 * (N_h-n_h_C)/(N_h-1) * 1/n_h_C * std_h**2))

・実行結果

> print(np.sum(N_h**2 * (N_h-n_h_A)/(N_h-1) * 1/n_h_A * std_h**2))
1142004.75146
> print(np.sum(N_h**2 * (N_h-n_h_B)/(N_h-1) * 1/n_h_B * std_h**2))
2513961.9883
> print(np.sum(N_h**2 * (N_h-n_h_C)/(N_h-1) * 1/n_h_C * std_h**2))
669184.027778

上記より、$C$の配分法の分散が最も小さいことも確認できる。

問21.3

$[1]$
②、③が正しい。
$$
\large
\begin{align}
V[\bar{x}] = \frac{N-n}{N-1} \frac{\sigma^2}{n} \quad (1)
\end{align}
$$
上記で表した有限母集団の式を元に考えることで、①は正しくなく、②は正しいことがわかる。また、復元無作為抽出の場合は無限母集団と同様に考えられるので、③も正しいことがわかる。

$[2]$
$(1)$式などに基づいて、下記を実行することで$V_1$と$V_2$の計算を行うことができる。

N, n = 9585., 600.
sigma2 = 420.

V_1 = (N-n)*sigma2/((N-1.)*n)
V_2 = sigma2/n

print("V_1: {:.3f}".format(V_1))
print("V_2: {:.1f}".format(V_2))

・実行結果

> print("V_1: {:.3f}".format(V_1))
V_1: 0.656
> print("V_2: {:.1f}".format(V_2))
V_2: 0.7

参考

・準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

・有限非復元抽出における有限修正項の導出
https://www.hello-statisticians.com/explain-terms-cat/finte_correction1.html

「統計学実践ワークブック」 演習問題etc Ch.17 「回帰診断法」

当記事は「統計学実践ワークブック(学術図書出版社)」の読解サポートにあたってChapter.17の「回帰診断法」に関して演習問題を中心に解説を行います。回帰診断法は回帰を用いる際に抑えておくとよいトピックなので、演習を通して抑えておくと良いと思われました。

本章のまとめ

回帰を行う場合に外れ値(outlier)がある場合など、最小二乗法の結果が必ずしも適切ではないときがある。このような状況を防ぐにあたって、回帰診断(regression diagnostics)に関連する手法を用いることで結果が適切かを判断することができる。

主な回帰診断法には、「残差プロット」、「正規$Q-Q$プロット」、「標準化偏差の絶対値の平方根プロット」、「leverageに対する標準化残差プロットとCookの距離」などがあるので抑えておくと良い。

演習問題解説

例17.1

ア)
予測値が小さな値の$3$つのサンプルの残差が他のサンプルに比べて小さいので、当分散性の仮定が疑われる。分散が予測値に比例する場合もあるので、この辺は注意が必要である。

イ)
ほぼ直線に並ぶことから概ね正規性が成立すると考えられる。

ウ)
「標準化偏差の絶対値の平方根プロット」は「残差プロット」と同様な結果が解釈できる。

エ)
$3$つのサンプルのleverageが大きく、外れ値の可能性があるが、最もleverageが大きいサンプルのCookの距離は$0.5$よりも小さい。

問17.1

「残差プロット」や「標準化偏差の絶対値の平方根プロット」は残差の散らばりに規則性がなくなったことから、当分散性が成立することが確認できる。正規$Q-Q$プロットに関してはそれほど変化がない。

leverageは大きな値を持つ観測値がなくなっただけで、Cook’s distanceの値も全て$0.5$以下であり、外れ値があるとはいえない。

参考

・準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

「統計学実践ワークブック」 演習問題etc Ch.15 「確率過程の基礎」

当記事は「統計学実践ワークブック(学術図書出版社)」の読解サポートにあたってChapter.15の「確率過程の基礎」に関して演習問題を中心に解説を行います。確率過程はなかなか理解するのが難しいトピックであると思われるので、演習を通して抑えておくと良いと思われました。

本章のまとめ

確率過程の定義・概要

$t \in [0,\infty)$に対して、確率変数$X_t$が与えられるとき、$X=(X_t)_{t \geq 0}$は確率過程(stochastic process)である。ここで$t$が連続値を取る場合を連続時間確率過程、離散値を取る場合を時系列と呼ぶことがあることは抑えておくと良い。

時系列解析では$t=1,2,3,…$などのように考えることは確率過程と時系列解析の手法を学ぶにあたっては知っておくと良い。

確率過程では独立定常増分過程の考え方を元に、$X_{t_{n+1}}-X_{t_{n}}$に独立同分布を仮定して最尤法やモーメント法を用いてパラメータ推定などを行うことが多い。

ブラウン運動のパラメータ推定

ブラウン運動$B_t \sim N(\mu t, \sigma^2 t)$に対して、$Z_k = B_{k \Delta}-B_{(k-1) \Delta} \sim N(\mu \Delta, \sigma^2 \Delta)$とおくとき、モーメント法を用いて$\mu, \sigma^2$の推定値$\hat{\mu}, \hat{\sigma^2}$は下記のように表せる。
$$
\large
\begin{align}
\hat{\mu} \Delta &= \frac{1}{n} \sum_{k=1}^{n} Z_k \quad (1) \\
\hat{\sigma}^2 \Delta + (\hat{\mu} \Delta)^2 &= \frac{1}{n} \sum_{k=1}^{n} Z_k^2 \quad (2)
\end{align}
$$

演習問題解説

例15.1

$W=(W_t)_{t \geq 0}$をウィーナー過程(Wiener process)とするとき、$B_t = \mu t + \sigma W_t$もブラウン運動であることを以下に示す。

1) $B$が独立定常増分過程である
$B_{t+h}-B_{t}=\mu h + \sigma(W_{t+h}-W_t)$であるが、$W$の定常増分性より$W_{t+h}-W_t \sim N(0,\sigma^2 h)$が成立する。よって、$B_{t+h}-B_{t} \sim N(\mu h,\sigma^2 h)$となり、$B$は定常増分性を持つ。同様に、$W$の独立増分性より$B$の独立増分性が伴う。

2) 各$t \geq 0$に対して、$B_t \sim N(\mu t,\sigma^2 t)$が成立する
$B_{t+h}-B_{t} \sim N(\mu h,\sigma^2 h)$より$B_{t} \sim N(\mu t,\sigma^2 t)$が成立する。

3) $B$のパスが連続である
$t \to w_t$が$t$の連続関数であるから、$t \to b_t$も$t$の連続関数である。よって$B$のパスが連続である。

上記より、$B_t = \mu t + \sigma W_t$がブラウン運動であることを示すことができる。

例15.2

問15.1

$[1]$
$Z_t = X_{k \Delta}-X_{(k-1) \Delta} = \sigma(B_{k \Delta}-B_{(k-1) \Delta}) \sim N(0, \sigma^2 \Delta)$とおき、$(2)$式を用いる。
$$
\large
\begin{align}
\hat{\sigma}^2 \Delta + (\hat{\mu} \Delta)^2 &= \frac{1}{n} \sum_{k=1}^{n} Z_k^2 \\
\hat{\sigma}^2 \times 1 + (0 \times \Delta)^2 &= V \\
\hat{\sigma}^2 &= V \\
&= 0.0225 \\
\hat{\sigma} &= 0.15
\end{align}
$$

上記より、推定値$\hat{\sigma} = 0.15$が得られる。

$[2]$
$\displaystyle \Delta=\frac{1}{10}, V_1=0.00625$に基づいて、$[1]$と同様に考えればよい。
$$
\large
\begin{align}
\hat{\sigma}^2 \Delta + (\hat{\mu} \Delta)^2 &= \frac{1}{n} \sum_{k=1}^{n} Z_k^2 \\
\hat{\sigma}^2 \times \frac{1}{10} + (0 \times \Delta)^2 &= V_1 \\
\hat{\sigma}^2 &= 10V_1 \\
&= 0.0625 \\
\hat{\sigma} &= 0.25
\end{align}
$$

上記より、推定値$\hat{\sigma} = 0.25$が得られる。

問15.2

$[1]$
不良品の発生は稀な事象と考えられるので、個数の$N_t$にポアソン分布を仮定することは妥当である。ここで累積数の増加が直線であることは、ポアソン過程の強度が一定であることに対応する。よって、$N=(N_t)_{t \geq 0}$をポアソン過程と考えることは妥当である。

$[2]$
$$
\large
\begin{align}
\hat{\lambda} = \frac{N_{n \Delta}}{n \Delta}
\end{align}
$$

上記で表した式に対して、$\Delta=1, n=300, N_{300}=558$を代入し、$\lambda$の最尤推定値の$\hat{\lambda}$の計算を行う。
$$
\large
\begin{align}
\hat{\lambda} &= \frac{N_{300}}{300} \\
&= \frac{558}{300} = 1.86
\end{align}
$$

$[3]$
$X=(X_t)_{t \geq 0}$は複合ポアソン過程であり、$E[U_k]=q, V[U_k]=q(1-q)$である。従って、例15.2の$[1]$の式より、下記が成立する。
$$
\large
\begin{align}
E[X_1] &= \lambda q \times 1 = \lambda q \\
V[X_1] &= \lambda \times 1 \times (q^2 + q(1-q)) \\
&= \lambda q
\end{align}
$$

$[4]$
下記より$q$の推定値$\hat{q}$が計算できる。
$$
\large
\begin{align}
1.53 &= \hat{\lambda} \hat{q} = 1.86 \hat{q} \\
\hat{q} &= \frac{1.53}{1.86} \\
&= 0.82258…
\end{align}
$$

参考

・準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

統計検定準1級 問題解説 ~2018年6月実施 問4 クロス集計・検定~

問題

過去問題は統計検定公式が問題と解答例を公開しています。こちらを参照してください。

解答

[1] 解答

$\boxed{ \ \mathsf{1}\ }$ : ①

クロス集計表よりそれぞれの確率は下記のように計算できる。下記では処理の流れが確認しやすいようにPythonを用いたが、試験では同様の計算を電卓で行えばよい。

import numpy as np

table = np.array([[38., 73.], [60., 46.]])
print("use_prob: {}".format(table[:,0]/np.sum(table,axis=1)))

・実行結果

> print("use_prob: {}".format(table[:,0]/np.sum(table,axis=1)))
use_prob: [ 0.34234234  0.56603774]

上記に対応する図表を選べば良いので、①が正しいことがわかる。

[2] 解答

$\boxed{ \ \mathsf{2}\ }$ : ①

母平均の差の区間推定や検定に使う式より、①が正しいことがわかる。

解説

$[1]$は単に集計の結果を解釈して図表を選ぶだけなので簡単だと思います。$[2]$に関しては母平均の差の区間推定などに使う式を元に考えれば良いですが、②〜⑤が大きく違うので①を選びやすいのではないかと思います。

参考

・準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

統計検定準1級 問題解説 ~2018年6月実施 問8 ARモデル~

問題

過去問題は統計検定公式が問題と解答例を公開しています。こちらを参照してください。

解答

[1] 解答

$\boxed{ \ \mathsf{12}\ }$ : ②

$\alpha=0.5$のとき、$AR(1)$の偏自己相関係数はラグ$1$のみ正で残りは$0$となる。よって②が正しい。

[2] 解答

$\boxed{ \ \mathsf{13}\ }$ : ②

$$
\large
\begin{align}
u_{t+1} = 0.1 u_t + \epsilon_{t+1}
\end{align}
$$

上記の式に対し、両辺の分散を考えると、$u_t$と$\epsilon_{t+1}$は独立であるので、下記のように計算できる。
$$
\large
\begin{align}
V[u_{t+1}] &= V[0.1 u_t + \epsilon_{t+1}] \\
&= 0.1^2V[u_t] + V[\epsilon_{t+1}]
\end{align}
$$

ここで、上記が定常であると考えると、下記のように変形できる。
$$
\large
\begin{align}
V[u_{t+1}] &= 0.1^2V[u_t] + V[\epsilon_{t+1}] \\
\sigma_u^{2} &= 0.01\sigma_u^{2} + \sigma^2 \\
0.99 \sigma_u^{2} &= \sigma^{2} \\
\sigma_u^{2} &= \sigma^{2}/0.99
\end{align}
$$

よって②が正しい。

[3] 解答

$\boxed{ \ \mathsf{14}\ }$ : ③

$E[\epsilon_{t+1}]=0$、$|\alpha|<1$より$E[u_t]=0$などを用いることで、不偏性は示すことができる。以下、分散について確認を行う。

$$
\large
\begin{align}
u_{t+1} = \alpha u_t + \epsilon_{t+1}
\end{align}
$$

上記の式に対して、$[2]$と同様に$\sigma_u^{2}$の計算を行う。
$$
\large
\begin{align}
V[u_{t+1}] &= V[\alpha u_t + \epsilon_{t+1}] \\
&= \alpha^2V[u_t] + V[\epsilon_{t+1}] \\
\sigma_u^{2} &= \alpha^2\sigma_u^{2} + \sigma^2 \\
(1-\alpha^2) \sigma_u^{2} &= \sigma^2 \\
\sigma_u^{2} &= \frac{\sigma^2}{1-\alpha^2}
\end{align}
$$

上記より、サンプル数が同一の場合は$\sigma_u^{2}$の分散は$\sigma^2$の分散より大きくなる。よって、③が正しい。

解説

$[2]$と$[3]$に関しては定常性を用いた式の変形を抑えている必要があり、特に$[3]$はやや難しいと思われました。関連の式変形に慣れるにあたって、演習を行なっておくと良いと思われました。

参考

・準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1