ブログ

Ch.2 「確率分布」の章末問題の解答例 パターン認識と機械学習 2.21〜2.40

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.$2$の「確率分布」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・参考
パターン認識と機械学習 解答まとめ
https://www.hello-statisticians.com/answer_textbook_prml

解答まとめ

問題$2.21$

$D \times D$の対称行列を考えた際に、$(i,j)$成分と$(j,i)$成分が一致する。このことより、独立なパラメータの数は${}_D C_2$に一致するため、$\displaystyle \frac{D(D-1)}{2}$となる。

問題$2.22$

対称行列$A$を考えた際に$A$とその逆行列$A^{-1}$に関して下記が成立する。
$$
\large
\begin{align}
A A^{-1} = I
\end{align}
$$

上記の$I$は対角成分が$1$で残りの成分が$0$の単位行列である。単位行列は対称なので$I$に関して$I^{\mathrm{T}}=I$が成立する。よって、下記のように考えられる。
$$
\large
\begin{align}
(A A^{-1})^{\mathrm{T}} &= I^{\mathrm{T}} \\
(A^{-1})^{\mathrm{T}} A^{\mathrm{T}} &= I
\end{align}
$$

ここで上記の$A$も対称行列なので$A^{\mathrm{T}}=A$であり、$(A^{-1})^{\mathrm{T}} A^{\mathrm{T}} = I$はさらに下記のように変形できる。
$$
\large
\begin{align}
(A^{-1})^{\mathrm{T}} A^{\mathrm{T}} &= I \\
(A^{-1})^{\mathrm{T}} A &= I \\
(A^{-1})^{\mathrm{T}} &= A^{-1}
\end{align}
$$

上記より$A=A^{\mathrm{T}}$のとき$A^{-1}=(A^{-1})^{\mathrm{T}}$が成立するので、対称行列の逆行列は対称行列であることがわかる。

問題$2.24$

$$
\large
\begin{align}
\left(\begin{array}{cc} A & B \\ C & D \end{array} \right) &= \left(\begin{array}{cc} I_m & O \\ O^{\mathrm{T}} & I_n \end{array} \right) \quad (1) \\
M &= (A-BD^{-1}C)^{-1}
\end{align}
$$

$A,D$の次元がそれぞれ$m$次元、$n$次元であると考えるとき、$(1)$式が成立することを示す。また、上記では$m \times n$の零行列を$O$とおいた。

$$
\large
\begin{align}
& \left(\begin{array}{cc} M & -MBD^{-1} \\ -D^{-1}CM & D^{-1}+D^{-1}CMBD \end{array} \right) \left(\begin{array}{cc} A & B \\ C & D \end{array} \right) \\
&= \left(\begin{array}{cc} MA-MBD^{-1}C & MB-MB \\ -D^{-1}CMA+D^{-1}C+D^{-1}CMD^{-1}C & -D^{-1}CMB+I_n+D^{-1}CMB \end{array} \right) \\
&= \left(\begin{array}{cc} M(A-BD^{-1}C) & O \\ D^{-1}C(-MA + I +MBD^{-1}C) & I_n \end{array} \right) \\
&= \left(\begin{array}{cc} M(A-BD^{-1}C) & O \\ D^{-1}C(I_m-(A-BD^{-1}C)^{-1}(A-BD^{-1}C)) & I_n \end{array} \right) \\
&= \left(\begin{array}{cc} I_m & O \\ D^{-1}C(I_m-I_m) & I_n \end{array} \right) \\
&= \left(\begin{array}{cc} I_m & O \\ O^{\mathrm{T}} & I_n \end{array} \right) \\
\end{align}
$$

よって$(2.76)$式が成立する。

問題$2.25$

$$
\large
\begin{align}
\mathbf{\mu} = \left(\begin{array}{c} \mathbf{\mu}_{a} \\ \mathbf{\mu}_{b} \\ \mathbf{\mu}_{c} \end{array} \right), \mathbf{\Sigma} = \left(\begin{array}{ccc} \mathbf{\Sigma}_{aa} & \mathbf{\Sigma}_{ab} & \mathbf{\Sigma}_{ac} \\ \mathbf{\mu}_{ba} & \mathbf{\Sigma}_{bb} & \mathbf{\Sigma}_{bc} \\ \mathbf{\mu}_{ca} & \mathbf{\Sigma}_{cb} & \mathbf{\Sigma}_{cc} \end{array} \right) \quad (2.288)
\end{align}
$$

上記に基づいて同時分布$p(\mathbf{x}_{a},\mathbf{x}_{b},\mathbf{x}_{c})$が得られるとき、$\mathbf{x}_{c}$に関して周辺化を行なった$\displaystyle p(\mathbf{x}_{a},\mathbf{x}_{b}) = \int p(\mathbf{x}_{a},\mathbf{x}_{b},\mathbf{x}_{c}) d \mathbf{x}_{c}$の平均ベクトル$\mathbf{\mu}’$と共分散行列$\mathbf{\Sigma}’$は$(2.98)$式より下記のように考えることができる。
$$
\large
\begin{align}
\mathbf{\mu}’ &= \left(\begin{array}{c} \mathbf{\mu}_{a} \\ \mathbf{\mu}_{b} \end{array} \right) \\
\mathbf{\Sigma}’ &= \left(\begin{array}{cc} \mathbf{\Sigma}_{aa} & \mathbf{\Sigma}_{ab} \\ \mathbf{\Sigma}_{ba} & \mathbf{\Sigma}_{bb} \end{array} \right)
\end{align}
$$

次にここで得られた周辺分布$p(\mathbf{x}_{a},\mathbf{x}_{b})$に対して条件付き分布$p(\mathbf{x}_{a}|\mathbf{x}_{b})$を考える。条件付き分布の平均ベクトルを$\mathbf{\mu}_{a|b}$、共分散行列を$\mathbf{\Sigma}_{a|b}$とおくと、$(2.81),(2.82)$式より下記が得られる。
$$
\large
\begin{align}
\mathbf{\mu}_{a|b} &= \mathbf{\mu}_{a} + \mathbf{\Sigma}_{ab} \mathbf{\Sigma}_{bb}^{-1} (\mathbf{x}_{b}-\mathbf{\mu}_{b}) \\
\mathbf{\Sigma}_{a|b} &= \Sigma_{aa} – \mathbf{\Sigma}_{ab} \mathbf{\Sigma}_{bb}^{-1}\mathbf{\Sigma}_{ba}
\end{align}
$$

問題$2.26$

$$
\large
\begin{align}
(A+BCD)^{-1} = A^{-1} – A^{-1} B (C^{-1} + D A^{-1} B)^{-1} D A^{-1} \quad (2.289)
\end{align}
$$

上記の式を示すにあたって、右辺に左から$A+BCD$をかけ、下記のように変形を行う。
$$
\large
\begin{align}
& (A+BCD)(A^{-1} – A^{-1} B (C^{-1} + D A^{-1} B)^{-1} D A^{-1}) \\
&= I + BCDA^{-1} – B(C^{-1}+DA^{-1}B)^{-1}DA^{-1} – BCDA^{-1}B(C^{-1}+DA^{-1}B)^{-1}DA^{-1} \\
&= I + BCDA^{-1} – B(I+CDA^{-1}B)(C^{-1}+DA^{-1}B)^{-1}DA^{-1} \\
&= I + BCDA^{-1} – BC\cancel{(C^{-1}+DA^{-1}B)}\cancel{(C^{-1}+DA^{-1}B)^{-1}}DA^{-1} \\
&= I + BCDA^{-1} – BCDA^{-1} \\
&= I
\end{align}
$$

よって$A^{-1} – A^{-1} B (C^{-1} + D A^{-1} B)^{-1} D A^{-1}$は$A+BCD$の逆行列であると考えることができる。よってWoodbury matrix inversion formulaは成立する。

・別解
$(2.289)$式の右から$A+BCD$をかけても下記のように同様な確認を行える。
$$
\large
\begin{align}
& (A^{-1} – A^{-1} B (C^{-1} + D A^{-1} B)^{-1} D A^{-1})(A+BCD) \\
&= I + A^{-1}BCD – A^{-1} B (C^{-1} + D A^{-1} B)^{-1} D A^{-1}(A+BCD) \\
&= I + A^{-1}BCD – A^{-1} B (C^{-1} + D A^{-1} B)^{-1}(D+DA^{-1}BCD) \\
&= I + A^{-1}BCD – A^{-1} B (C^{-1} + D A^{-1} B)^{-1}(C^{-1}CD+DA^{-1}BCD) \\
&= I + A^{-1}BCD – A^{-1} B \cancel{(C^{-1} + D A^{-1} B)^{-1}}\cancel{(C^{-1}+DA^{-1}B)}CD \\
&= I + A^{-1}BCD – A^{-1}BCD = I
\end{align}
$$

なお巻末のAppendix.Cでは$(2.289)$の$C$を$D^{-1}$、$D$を$C$で置き換えて下記のような式でWoodbury matrix inversion formulaを表すことに注意しておくとよい。
$$
\large
\begin{align}
(A+BD^{-1}C)^{-1} = A^{-1} – A^{-1} B (D + C A^{-1} B)^{-1} C A^{-1} \quad (C.7)
\end{align}
$$

問題$2.29$

$$
\large
\begin{align}
R = \left(\begin{array}{cc} \Lambda+A^{\mathrm{T}}LA & -A^{\mathrm{T}}L \\ -LA & L \end{array} \right) \quad (2.104)
\end{align}
$$

上記のように表される$(2.104)$式に$(2.76)$式を用いるにあたって、先に$M = (\Lambda+A^{\mathrm{T}}LA – (-A^{\mathrm{T}}L) L^{-1} (-LA))^{-1}$の計算を行う。
$$
\large
\begin{align}
M &= (\Lambda + A^{\mathrm{T}}LA – (-A^{\mathrm{T}}L) L^{-1} (-LA))^{-1} \\
&= (\Lambda + A^{\mathrm{T}}LA – A^{\mathrm{T}}LA)^{-1} \\
&= \Lambda^{-1}
\end{align}
$$

よって$R^{-1}$は下記のようにを導出することができる。
$$
\large
\begin{align}
R^{-1} &= \left(\begin{array}{cc} \Lambda+A^{\mathrm{T}}LA & -A^{\mathrm{T}}L \\ -LA & L \end{array} \right)^{-1} \\
&= \left(\begin{array}{cc} M & -M(-A^{\mathrm{T}}L)L^{-1} \\ L^{-1}(-LA)M & L^{-1}+L^{-1}(-LA)M(-A^{\mathrm{T}}L)L^{-1} \end{array} \right) \\
&= \left(\begin{array}{cc} M & MA^{\mathrm{T}} \\ AM & L^{-1}+AMA^{\mathrm{T}} \end{array} \right) = \left(\begin{array}{cc} \Lambda^{-1} & \Lambda^{-1}A^{\mathrm{T}} \\ A\Lambda^{-1} & L^{-1}+A\Lambda^{-1}A^{\mathrm{T}} \end{array} \right) \quad (2.105)
\end{align}
$$

上記より$(2.105)$式が成立することが示される。

問題$2.30$

$$
\large
\begin{align}
\mathbb{E}[z] &= R^{-1} \left(\begin{array}{c} \Lambda \mu – A^{\mathrm{T}}Lb \\ Lb \end{array} \right) \quad (2.107) \\
R^{-1} &= \left(\begin{array}{cc} \Lambda^{-1} & \Lambda^{-1}A^{\mathrm{T}} \\ A\Lambda^{-1} & L^{-1}+A\Lambda^{-1}A^{\mathrm{T}} \end{array} \right) \quad (2.105)
\end{align}
$$

$(2.107)$式に$(2.105)$式を代入し、$(2.108)$式の導出を行う。
$$
\large
\begin{align}
\mathbb{E}[z] &= R^{-1} \left(\begin{array}{c} \Lambda \mu – A^{\mathrm{T}}Lb \\ Lb \end{array} \right) \quad (2.107) \\
&= \left(\begin{array}{cc} \Lambda^{-1} & \Lambda^{-1}A^{\mathrm{T}} \\ A\Lambda^{-1} & L^{-1}+A\Lambda^{-1}A^{\mathrm{T}} \end{array} \right) \left(\begin{array}{c} \Lambda \mu – A^{\mathrm{T}}Lb \\ Lb \end{array} \right) \\
&= \left(\begin{array}{c} \Lambda \mu – \Lambda^{-1}A^{\mathrm{T}}Lb + \Lambda^{-1}A^{\mathrm{T}}Lb \\ A \mu – A \Lambda^{-1}A^{\mathrm{T}}Lb + b + A \Lambda^{-1}A^{\mathrm{T}}Lb \end{array} \right) = \left(\begin{array}{c} \Lambda \mu \\ A \mu + b \end{array} \right) \quad (2.108)
\end{align}
$$

上記より$(2.108)$式は成立する。

問題$2.34$

$$
\large
\begin{align}
\ln{p(\mathbf{X}|\mathbf{\mu},\Sigma)} = – \frac{ND}{2} \ln{(2 \pi)} – \frac{N}{2} \ln{|\Sigma|} – \frac{1}{2} \sum_{n=1}^{N} (\mathbf{x}_{n}-\mu)^{\mathrm{T}} \Sigma^{-1} (\mathbf{x}_{n}-\mu) \quad (2.118)
\end{align}
$$

上記のように表される$(2.118)$式を$\mu = \mu_{ML}$のとき$\Sigma$に関して最大化することを考える。
$$
\large
\begin{align}
\frac{\partial}{\partial \Sigma} \ln{p(\mathbf{X}|\mathbf{\mu},\Sigma)} = – \frac{N}{2} \frac{\partial}{\partial \Sigma} \ln{|\Sigma|} – \frac{1}{2} \frac{\partial}{\partial \Sigma} \sum_{n=1}^{N} (\mathbf{x}_{n}-\mu)^{\mathrm{T}} \Sigma^{-1} (\mathbf{x}_{n}-\mu) \quad (1)
\end{align}
$$

$(1)$式の第$1$項は$(C.28)$式より下記となる。
$$
\large
\begin{align}
– \frac{N}{2} \frac{\partial}{\partial \Sigma} \ln{|\Sigma|} &= – \frac{N}{2}(\Sigma^{-1})^{\mathrm{T}} \\
&= – \frac{N}{2} \Sigma^{-1}
\end{align}
$$

また、$(1)$式の第$2$項を$\Sigma$で微分するにあたって下記のように書き換えを行う。
$$
\large
\begin{align}
\sum_{n=1}^{N} (\mathbf{x}_{n}-\mu)^{\mathrm{T}} \Sigma^{-1} (\mathbf{x}_{n}-\mu) &= \sum_{n=1}^{N} (\mathbf{x}_{n}-\mu)^{\mathrm{T}} \Lambda (\mathbf{x}_{n}-\mu) \\
&= \sum_{n=1}^{N} \sum_{i=1}^{D} \sum_{j=1}^{D} \lambda_{ij} (\mathbf{x}_{n}-\mu)_{i} (\mathbf{x}_{n}-\mu)_{j} \\
&= N \mathrm{Tr} \left[ \Sigma^{-1} S \right] \\
\Lambda &= \Sigma^{-1} \\
S &= \frac{1}{N} \sum_{n=1}^{N} (\mathbf{x}_{n}-\mu_{ML}) (\mathbf{x}_{n}-\mu_{ML})^{\mathrm{T}}
\end{align}
$$

ここで$\Sigma$の$(i,j)$成分を$\Sigma_{ij}$とおくと、$(1)$式の第$2$項の$\Sigma$に関する部分の$\Sigma_{ij}$での微分は下記のように考えられる。
$$
\large
\begin{align}
\frac{\partial}{\partial \Sigma_{ij}} \sum_{n=1}^{N} (\mathbf{x}_{n}-\mu)^{\mathrm{T}} \Sigma^{-1} (\mathbf{x}_{n}-\mu) &= N \frac{\partial}{\partial \Sigma_{ij}} \mathrm{Tr} \left[ \Sigma^{-1} S \right] \\
&= N \mathrm{Tr} \left[ \frac{\partial}{\partial \Sigma_{ij}} \Sigma^{-1} S \right] \\
&= N \mathrm{Tr} \left[ – \Sigma^{-1} \frac{\partial \Sigma}{\partial \Sigma_{ij}} \Sigma^{-1} S \right] \quad (C.21) \\
&= N \mathrm{Tr} \left[ – \frac{\partial \Sigma}{\partial \Sigma_{ij}} \Sigma^{-1} S \Sigma^{-1} \right] \quad (C.9) \\
&= – N \left( \Sigma^{-1} S \Sigma^{-1} \right)_{ij}
\end{align}
$$

よって$(1)$式の第$2$項の$\Sigma$での微分は下記のように考えられる。
$$
\large
\begin{align}
-\frac{1}{2} \frac{\partial}{\partial \Sigma} \sum_{n=1}^{N} (\mathbf{x}_{n}-\mu)^{\mathrm{T}} \Sigma^{-1} (\mathbf{x}_{n}-\mu) = \frac{N}{2} \Sigma^{-1} S \Sigma^{-1}
\end{align}
$$

$(2)$式、$(3)$式より、$(2.118)$式を最大にする$\Sigma$は下記のように計算できる。
$$
\large
\begin{align}
– \frac{N}{2} \Sigma^{-1} + \frac{N}{2} \Sigma^{-1} S \Sigma^{-1} &= 0 \\
\frac{N}{2} \Sigma^{-1} &= \frac{N}{2} \Sigma^{-1} S \Sigma^{-1} \\
\Sigma^{-1} &= S = \frac{1}{N} \sum_{n=1}^{N} (\mathbf{x}_{n}-\mu_{ML}) (\mathbf{x}_{n}-\mu_{ML})^{\mathrm{T}}
\end{align}
$$

問題$2.36$

サンプル$N$に対応する$\sigma_{ML}^{2}$を$\sigma_{(N)}^{2}$のようにおく。このとき$(2.292)$式に対して$(2.126)$式と同様の変形を考える。
$$
\large
\begin{align}
\sigma_{(N)}^{2} &= \frac{1}{N} \sum_{i=1}^{N} (x_n-\mu)^{2} \\
&= \frac{1}{N} (x_N-\mu)^{2} + \frac{1}{N} \sum_{i=1}^{N-1} (x_n-\mu)^{2} \\
&= \frac{1}{N} (x_N-\mu)^{2} + \frac{N-1}{N} \times \frac{1}{N-1} \sum_{i=1}^{N-1} (x_n-\mu)^{2} \\
&= \frac{N-1}{N} \sigma_{(N-1)}^{2} + \frac{1}{N} (x_N-\mu)^{2} \\
&= \sigma_{(N-1)}^{2} + \frac{1}{N} \left[ (x_N-\mu)^{2} – \sigma_{(N-1)}^{2} \right] \quad (1)
\end{align}
$$

また、$\sigma_{(N)}^{2} = \tau_{(N)}$のようにおき、Robbins-Monroの式を適用することを考える。
$$
\large
\begin{align}
\tau_{(N)} &= \tau_{(N-1)} + a_{N-1} \frac{\partial}{\partial \tau_{(N)}} \ln{p(x_{N}|\tau_{(N-1)})} \\
&= \tau_{(N-1)} + a_{N-1} \frac{\partial}{\partial \tau_{(N)}} \left[ – \frac{(x_N-\mu)^2}{2 \tau_{(N-1)}} – \frac{1}{2} \ln{\tau_{N-1}} + \mathrm{Const.} \right] \\
&= \tau_{(N-1)} + a_{N-1} \left[ \frac{(x_N-\mu)^2}{2 \tau_{(N-1)}^2} – \frac{1}{2 \tau_{N-1}} \right] \\
&= \tau_{(N-1)} + \frac{a_{N-1}}{2 \tau_{(N-1)}^2} \left[ (x_N-\mu)^2 – \tau_{N-1} \right] \\
&= \sigma_{(N-1)}^{2} + \frac{a_{N-1}}{2 \sigma_{(N-1)}^4} \left[ (x_N-\mu)^2 – \sigma_{N-1}^2 \right] \quad (2)
\end{align}
$$

$(1)$式と$(2)$式より$\displaystyle \frac{a_{N-1}}{2 \sigma_{(N-1)}^4} = \frac{1}{N}$が成立し、これより$\displaystyle a_{N-1} = \frac{2 \sigma_{(N-1)}^4}{N}$であることがわかる。

問題$2.38$

$(2.137)$〜$(2.140)$式より、事後分布$\mathcal{N}(\mu|\mu_{N},\sigma_{N}^{2})$を下記のように考えることができる。
$$
\large
\begin{align}
\mathcal{N}(\mu|\mu_{N},\sigma_{N}^{2}) &= p(\mu|x_1,x_2,…,x_N) \\
& \propto p(x_1,x_2,…,x_N|\mu)p(\mu) \\
& \propto \exp \left( – \frac{1}{2 \sigma^2} \sum_{n=1}^{N}(x_n-\mu)^2 \right) \times \exp \left( – \frac{(\mu-\mu_{0})^2}{2 \sigma_{0}^{2}} \right) \\
&= \exp \left( – \frac{1}{2 \sigma^2} \sum_{n=1}^{N}(\mu^2 – 2x_n \mu + x_n^2) – \frac{(\mu-\mu_{0})^2}{2 \sigma_{0}^{2}} \right) \\
&= \exp \left[ – \frac{1}{2 \sigma^2} \left( N \mu^2 – 2 N \mu_{ML} \mu + \sum_{n=1}^{N} x_n^2 \right) – \frac{(\mu-\mu_{0})^2}{2 \sigma_{0}^{2}} \right]
\end{align}
$$

上記の指数関数の内部を$\mu$に関して平方完成することを考えると、下記のように変形を行うことができる。
$$
\large
\begin{align}
& – \frac{1}{2 \sigma^2} \left( N \mu^2 – 2 N \mu_{ML} \mu + \sum_{n=1}^{N} x_n^2 \right) – \frac{(\mu-\mu_{0})^2}{2 \sigma_{0}^{2}} \\
&= – \frac{N \mu^2 – 2 N \mu_{ML} \mu}{2 \sigma^2} – \frac{\mu^2 – 2\mu_{0} \mu}{2 \sigma_{0}^{2}} + \mathrm{Const.} \\
&= – \frac{1}{2 \sigma^2 \sigma_{0}^{2}} \left( N \sigma_{0}^{2} \mu^2 – 2 N \sigma_{0}^{2} \mu_{ML} \mu + \sigma^2 \mu^2 – 2 \sigma^2 \mu_{0} \mu \right) + \mathrm{Const.} \\
&= – \frac{1}{2 \sigma^2 \sigma_{0}^{2}} \left( (N \sigma_{0}^{2} + \sigma^2) \mu^2 – 2 (N \sigma_{0}^{2} \mu_{ML} + \sigma^2 \mu_{0}) \mu \right) + \mathrm{Const.} \\
&= – \frac{N \sigma_{0}^{2} + \sigma^2}{2 \sigma^2 \sigma_{0}^{2}} \left( \mu – \frac{N \sigma_{0}^{2} \mu_{ML} + \sigma^2 \mu_{0}}{N \sigma_{0}^{2} + \sigma^2} \right) + \mathrm{Const’.}
\end{align}
$$

上記より$\mu_{N}, \sigma_{N}^{2}$は下記が対応することがわかる。
$$
\large
\begin{align}
\mu_{N} &= \frac{N \sigma_{0}^{2} \mu_{ML} + \sigma^2 \mu_{0}}{N \sigma_{0}^{2} + \sigma^2} \\
&= \frac{\sigma^2}{N \sigma_{0}^{2} + \sigma^2} \mu_{0} + \frac{N \sigma_{0}^{2}}{N \sigma_{0}^{2} + \sigma^2} \mu_{ML} \\
\frac{1}{\sigma_{N}^{2}} &= \frac{N \sigma_{0}^{2} + \sigma^2}{\sigma^2 \sigma_{0}^{2}} = \frac{1}{\sigma_{0}^{2}} + \frac{N}{\sigma^2}
\end{align}
$$

よって$(2.141)$式、$(2.142)$式が成立することが示される。

・参考
統計検定準$1$級 ベイズ法と事後分布の出題

問題$2.40$

$$
\large
\begin{align}
p(\mu) &= \mathcal{N}(\mu|\mu_{0},\Sigma_{0}) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma_{0}|^{1/2}} \exp \left[ -\frac{1}{2} (\mu-\mu_{0})^{\mathrm{T}} \Sigma_{0}^{-1} (\mu-\mu_{0}) \right] \quad (1) \\
p(\mathbf{x}_1,…,\mathbf{x}_N|\mu) &= \prod_{n=1}^{N} p(\mathbf{x}_n|\mu) = \prod_{n=1}^{N} \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left[ -\frac{1}{2} (\mathbf{x}_n-\mu)^{\mathrm{T}} \Sigma^{-1} (\mathbf{x}_n-\mu) \right] \quad (2)
\end{align}
$$

上記の$(1)$式$(2)$式より、事後分布$p(\mu|\mathbf{X}) = p(\mu|\mathbf{x}_1,…,\mathbf{x}_N)$は$\mu$を変数と見る際に下記のように考えられる。
$$
\large
\begin{align}
p(\mu|\mathbf{X}) &= p(\mu|\mathbf{x}_1,…,\mathbf{x}_N) \\
& \propto p(\mathbf{x}_1,…,\mathbf{x}_N|\mu) p(\mu) \\
& \propto \exp \left[ -\frac{1}{2} (\mu-\mu_{0})^{\mathrm{T}} \Sigma_{0}^{-1} (\mu-\mu_{0}) \right] \times \exp \left[ – \frac{1}{2} \sum_{n=1}^{N} (\mathbf{x}_n-\mu)^{\mathrm{T}} \Sigma^{-1} (\mathbf{x}_n-\mu) \right] \\
&= \exp \left[ – \frac{1}{2} (\mu-\mu_{0})^{\mathrm{T}} \Sigma_{0}^{-1} (\mu-\mu_{0}) – \frac{1}{2} \sum_{n=1}^{N}(\mathbf{x}_n-\mu)^{\mathrm{T}} \Sigma^{-1} (\mathbf{x}_n-\mu) \right] \\
& \propto \exp \left[ -\frac{1}{2} \mu^{\mathrm{T}} \left( \Sigma_{0}^{-1} + N \Sigma^{-1} \right) \mu + \mu^{\mathrm{T}} \left( \Sigma_{0}^{-1} \mu_{0} + \Sigma^{-1} \sum_{n=1}^{N} \mathbf{x}_n \right) \right] \quad (3)
\end{align}
$$

上記の$\exp$の内部を平方完成するにあたっては、$(3)$式と下記の$(2.71)$式との対応を確認すればよい。
$$
\large
\begin{align}
– \frac{1}{2} (\mathbf{x}-\mu)^{\mathrm{T}} \Sigma^{-1} (\mathbf{x}-\mu) = – \frac{1}{2} \mathbf{x}^{\mathrm{T}} \Sigma^{-1} \mathbf{x} + \mathbf{x}^{\mathrm{T}} \Sigma^{-1} \mu + \mathrm{Const.} \quad (2.71)
\end{align}
$$

事後分布の平均ベクトルを$\mu_{N}$、共分散行列を$\Sigma_{N}$とおくと、$\mu_{N}, \Sigma_{N}^{-1}$はそれぞれ下記のように表せる。
$$
\large
\begin{align}
\Sigma_{N}^{-1} &= \Sigma_{0}^{-1} + N \Sigma^{-1} \\
\Sigma_{N}^{-1} \mu_{N} &= \left( \Sigma_{0}^{-1} \mu_{0} + \Sigma^{-1} \sum_{n=1}^{N} \mathbf{x}_n \right) \\
\mu_{N} &= \Sigma_{N} \left( \Sigma_{0}^{-1} \mu_{0} + \Sigma^{-1} N \mu_{ML} \right) \\
&= \left( \Sigma_{0}^{-1} + N \Sigma^{-1} \right)^{-1} \left( \Sigma_{0}^{-1} \mu_{0} + \Sigma^{-1} N \mu_{ML} \right) \\
\mu_{ML} &= \frac{1}{N} \sum_{n=1}^{N} \mathbf{x}_n
\end{align}
$$

Ch.9 「EMアルゴリズム」の章末問題の解答例 〜パターン認識と機械学習 9.1〜9.15〜

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.$9$の「EMアルゴリズム」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

問題$9$.$1$

問題$9$.$2$

問題$9$.$3$

$(9.10), (9.11)$式はそれぞれ下記のように表される。
$$
\large
\begin{align}
p(z) &= \prod_{k=1}^{K} \pi_{k}^{z_{k}} \quad (9.10) \\
p(x|z) &= \prod_{k=1}^{K} \mathcal{N}(x|\mu_k,\Sigma_k)^{z_k} \quad (9.11)
\end{align}
$$

このとき$z$は$1$-of-$K$表現のベクトルであるので、具体的には$K=3$のとき$z$は下記のようなベクトルを取り得る。
$$
\large
\begin{align}
\left(\begin{array}{c} 1 \\ 0 \\ 0 \end{array} \right), \left(\begin{array}{c} 0 \\ 1 \\ 0 \end{array} \right), \left(\begin{array}{c} 0 \\ 0 \\ 1 \end{array} \right)
\end{align}
$$

ここで$K=3$のとき、$z$が$\displaystyle z = \left(\begin{array}{c} 1 \\ 0 \\ 0 \end{array} \right)$のように表されるとすると、$z_1=1$より対応する$p(z), p(z|x)$は下記のように計算できる。
$$
\large
\begin{align}
p(z) &= \pi_{1}^{z_{1}} \pi_{2}^{z_{2}} \pi_{3}^{z_{3}} \\
&= \pi_{1}^{1} \pi_{2}^{0} \pi_{3}^{0} \\
&= \pi_{1} \\
p(x|z) &= \mathcal{N}(x|\mu_1,\Sigma_1)^{z_1} \mathcal{N}(x|\mu_2,\Sigma_2)^{z_2} \mathcal{N}(x|\mu_3,\Sigma_3)^{z_3} \\
&= \mathcal{N}(x|\mu_1,\Sigma_1)^{1} \mathcal{N}(x|\mu_2,\Sigma_2)^{0} \mathcal{N}(x|\mu_3,\Sigma_3)^{0} \\
&= \mathcal{N}(x|\mu_1,\Sigma_1)
\end{align}
$$

よって$\displaystyle z = \left(\begin{array}{c} 1 \\ 0 \\ 0 \end{array} \right)$のとき、同時確率$p(x,z)=p(z)p(x|z)$は下記のように表すことができる。
$$
\large
\begin{align}
p(x,z) &= p(z)p(x|z) \\
&= \pi_{1} \mathcal{N}(x|\mu_1,\Sigma_1)
\end{align}
$$

これを全ての$z$の取り得る値に対して考えたものが周辺確率$p(x)$であるので、和を考えることで下記のように表記することができる。
$$
\large
\begin{align}
p(x) &= \sum_{z \in Z} p(z)p(x|z) = \pi_{1} \mathcal{N}(x|\mu_1,\Sigma_1) + \pi_{2} \mathcal{N}(x|\mu_2,\Sigma_2) + \pi_{3} \mathcal{N}(x|\mu_3,\Sigma_3) \\
&= \sum_{k=1}^{3} \pi_{k} \mathcal{N}(x|\mu_k,\Sigma_k) \quad (9.7), (9.12) \\
Z &= \left\{ \left(\begin{array}{c} 1 \\ 0 \\ 0 \end{array} \right), \left(\begin{array}{c} 0 \\ 1 \\ 0 \end{array} \right), \left(\begin{array}{c} 0 \\ 0 \\ 1 \end{array} \right) \right\}
\end{align}
$$

上記より$K=3$のとき$(9.7), (9.12)$式が成立することが確認できる。また、上記の議論は${}^{\forall} K \geq 2$で同様に成立する。

・参考
混合正規分布の尤度関数とEMアルゴリズムの導出
https://www.hello-statisticians.com/explain-terms-cat/gmm1.html

問題$9$.$4$

問題$9$.$5$

問題$9$.$6$

問題$9$.$7$

問題$9$.$8$

問題$9$.$9$

問題$9$.$10$

統計検定準1級 問題解説 ~2021年6月実施 問10 AR過程・MA過程~

問題

過去問題は統計検定公式が問題と解答例を公開しています。こちらを参照してください。

解答

[1] 解答

$\boxed{ \ \mathsf{22}\ }$ : ①

[2] 解答

$\boxed{ \ \mathsf{23}\ }$ : ③
「$\{ \varepsilon_t \} \sim \mathcal{N}(0,1), \mathrm{i.i.d.,}$」より、$y_t = -0.8 y_{t-1} + \varepsilon_{t}$に対して期待値$E[Y_t]$は下記のように計算することができる。

・期待値$E[Y_t]$
$$
\large
\begin{align}
E[Y_t] &= E[-0.8 Y_{t-1} + \varepsilon_{t}] \\
&= -0.8 E[Y_{t-1}] + E[\varepsilon_{t}] \\
&= -0.8 E[Y_{t-1}] + 0 \\
1.8 E[Y_t] &= 0 \\
E[Y_t] &= 0
\end{align}
$$

このとき分散を$\gamma(0)=V[Y_t]=E[(Y_t-E[Y_t])^2]=E[Y_t^2]$のようにおくと、$h$次の自己共分散$\gamma(h)$は下記のように考えることができる。
$$
\large
\begin{align}
\gamma(h) &= E[Y_t Y_{t-h}] – E[Y_t]E[Y_{t-h}] \\
&= E[Y_t Y_{t-h}] \\
&= E[(-0.8 Y_{t-1} + \varepsilon_{t}) Y_{t-h}] \\
&= E[(-0.8 (-0.8 Y_{t-2} + \varepsilon_{t}) + \varepsilon_{t}) Y_{t-h}] \\
&= … \\
&= (-0.8)^{h} E[Y_{t-h}] \\
&= (-0.8)^{h} \gamma(0)
\end{align}
$$

よって$\displaystyle \rho(h) = \frac{\gamma(h)}{\gamma(0)} = (-0.8)^{h}$となる。よって③と④の左のグラフが正しいことがわかる。

また、$AR(1)$過程のスペクトラム$f(\lambda)$は下記のように表される。
$$
\large
\begin{align}
f(\lambda) = \frac{1}{2 \pi} \frac{\sigma^2}{1 + \phi_{1}^2 – 2 \phi_1 \cos{(\lambda)}}
\end{align}
$$

上記に$\phi_1=-0.8$を代入すると下記が得られる。
$$
\large
\begin{align}
f(\lambda) &= \frac{1}{2 \pi} \frac{\sigma^2}{1 + (-0.8)^2 – 2 \times (-0.8) \cos{(\lambda)}} \\
&= \frac{1}{2 \pi} \frac{\sigma^2}{1.64 + 1.6 \cos{(\lambda)}}
\end{align}
$$

上記より②、③の右のグラフが正しいことがわかる。

ここまでの議論により③が正しいと考えることができる。

[3] 解答

$\boxed{ \ \mathsf{24}\ }$ : ③
$y_t = \varepsilon_{t} + 0.8 \varepsilon_{t-1}$より分散$V(y_t)$は下記のように考えることができる。
$$
\large
\begin{align}
V(y_t) &= V(\varepsilon_{t} + 0.8 \varepsilon_{t-1}) \\
&= E((\varepsilon_{t} + 0.8 \varepsilon_{t-1})^2) \\
&= E(\varepsilon_{t}^2) + 0.64 E(\varepsilon_{t-1}^2) \\
&= 1.64 \sigma^2
\end{align}
$$

一方で、標本平均$\bar{y}_n$に関する分散$V(\bar{y}_n)$は下記のように考えることができる。
$$
\large
\begin{align}
V(\bar{y}_n) &= V \left( \frac{1}{n} \sum_{t=1}^{n} y_t \right) \\
&= \frac{1}{n^2} V \left( \sum_{t=1}^{n} \varepsilon_{t} + 0.8 \varepsilon_{t-1} \right) \\
&= \frac{1}{n^2} V \left( 0.8 \varepsilon_{0} + \varepsilon_{n} + 1.8 \sum_{t=1}^{n-1} \varepsilon_{t} \right) \\
&= \frac{1}{n^2} \left[ V(0.8 \varepsilon_{0}) + V(\varepsilon_{n}) + V \left(1.8 \sum_{t=1}^{n-1} \varepsilon_{t} \right) \right] \\
&= \frac{1}{n^2} (0.8^2 \sigma^2 + \sigma^2 + 1.8^2(n-1)^2 \sigma^2) \\
&= \frac{(1.8^2n-1.6) \sigma^2}{n^2}
\end{align}
$$

よって、$\displaystyle \lim_{n \to \infty} \frac{n V(\bar{y}_n)}{V(y_t)}$は下記のように考えられる。
$$
\large
\begin{align}
\lim_{n \to \infty} \frac{n V(\bar{y}_n)}{V(y_t)} &= \lim_{n \to \infty} \frac{\displaystyle n \times \frac{(1.8n-1.6) \sigma^2}{n^2}}{1.64 \sigma^2} \\
&= \lim_{n \to \infty} \frac{(1.8^2-1.6/n)}{1.64} \\
&= 1.9756…
\end{align}
$$

上記より③の$1.98$が正しいことがわかる。

[4] 解答

$\boxed{ \ \mathsf{25}\ }$ : ④
$E(y_t)=E(a_1y_{t-1}+a_2y_{t-2}+\varepsilon_{t})=0$より、$1$次の自己共分散$\gamma(1)$は下記のように計算することができる。
$$
\large
\begin{align}
\gamma(1) &= E(y_{t}y_{t-1}) – E(y_t)E(y_{t-1}) \\
&= E((a_1y_{t-1}+a_2y_{t-2}+\varepsilon_{t})y_{t-1}) \\
&= a_1E[y_{t-1}^2] + a_2E[y_{t-1}y_{t-2}] \\
&= a_1 \gamma(0) + a_2 \gamma(1) \\
(1-a_2) \gamma(1) &= a_1 \gamma(0) \\
\gamma(1) &= \frac{a_1}{1-a_2} \gamma(0)
\end{align}
$$

また、$2$次の自己共分散$\gamma(2)$も同様に下記のように計算することができる。
$$
\large
\begin{align}
\gamma(2) &= E(y_{t}y_{t-2}) – E(y_t)E(y_{t-2}) \\
&= E((a_1y_{t-1}+a_2y_{t-2}+\varepsilon_{t})y_{t-2}) \\
&= a_1 E(y_{t-1}y_{t-2}) + a_2 E(y_{t-2}^2) \\
&= a_1 \gamma(1) + a_2 \gamma(0) \\
&= a_1 \times \frac{a_1}{1-a_2} \gamma(0) + a_2 \gamma(0) \\
&= \left( \frac{a_1^2}{1-a_2} + a_2 \right) \gamma(0)
\end{align}
$$

ここで$\displaystyle \rho(h) = \frac{\gamma(h)}{\gamma(0)}$より、$\rho(1), \rho(2)$はそれぞれ下記のように表すことができる。
$$
\large
\begin{align}
\rho(1) &= \frac{a_1}{1-a_2} \\
\rho(2) &= \frac{a_1^2}{1-a_2} + a_2
\end{align}
$$

上記に$\rho(1) = 0.5, \rho(2) = -0.25$を代入し$a_1, a_2$ついて解くことで$\displaystyle a_1 = -\frac{2}{3}, a_2 = \frac{5}{6}$が得られる。よって④が正解であるとわかる。

解説

スペクトラム以外はよく出題される問題なので抑えておくと良いと思います。

参考

準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

「統計学実践ワークブック」 演習問題 Ch.27 「時系列解析」
https://www.hello-statisticians.com/explain-books-cat/stat_workbook/stat_workbook_ch27.html

混合正規分布(Mixtures of Gaussians)の尤度関数とEMアルゴリズムの導出

混合正規分布(Mixtures of Gaussians)は多峰の確率分布の表現にあたって、複数の正規分布を確率的に混合して表す分布です。当記事では混合正規分布の尤度関数を確認し、尤度最大化にあたって用いるEMアルゴリズムの導出について確認を行いました。

「パターン認識と機械学習」の$2.3.9$節と$9.2$節の「混合正規分布(Mixtures of Gaussians)」を参考に作成を行いました。

混合正規分布

混合正規分布の式定義

$$
\large
\begin{align}
p(x) = \sum_{k=1}^{K} \pi_{k} \mathcal{N}(x|\mu_k,\Sigma_k) \quad (1)
\end{align}
$$

ここで$\pi_{k}$は混合係数(mixing coefficients)であり、分布を混ぜ合わせる割合であることから$\pi_{k}$は下記の制約が成立する必要がある。
$$
\large
\begin{align}
\sum_{k=1}^{K} \pi_{k} &= 1 \\
0 \leq \pi_{k} \leq 1
\end{align}
$$

このとき、$(1)$式は下記のように表せることも抑えておくとよい。
$$
\large
\begin{align}
p(x) &= \sum_{k=1}^{K} \pi_{k} \mathcal{N}(x|\mu_k,\Sigma_k) \\
&= \sum_{k=1}^{K} p(k)p(x|k) \quad (2)
\end{align}
$$

負担率の定義

$(2)$式の表記では$\displaystyle p(k)=\pi_{k}, p(x|k)=\mathcal{N}(x|\mu,\Sigma)$のように対応させているが、ここで$k$の事後分布$p(k|x)$を負担率$\gamma_{k} \equiv p(k|x)$のように表すと、パラメータ推定の表記を簡易化できる。

負担率$\gamma_{k}(x) \equiv p(k|x)$の式は下記のように考えることができる。
$$
\large
\begin{align}
\gamma_{k}(x) & \equiv p(k|x) \\
&= \frac{p(k)p(x|k)}{\displaystyle \sum_{l=1}^{K} p(l)p(x|l)} \\
&= \frac{\pi_{k} \mathcal{N}(x|\mu,\Sigma)}{\displaystyle \sum_{l=1}^{K} \pi_{l} \mathcal{N}(x|\mu_l,\Sigma_l)} \quad (3)
\end{align}
$$

混合正規分布の尤度関数

混合正規分布の尤度関数を$\mathcal{L}(\pi,\mu,\Sigma)$とおくと、$\mathcal{L}(\pi,\mu,\Sigma)$は観測値$x_1,…,x_N$に関する同時確率密度関数に一致するので下記のように考えることができる。
$$
\large
\begin{align}
\mathcal{L}(\pi,\mu,\Sigma) &= \prod_{n=1}^{N} p(x_n) \\
&= \prod_{n=1}^{N} \sum_{k=1}^{K} \pi_{k} \mathcal{N}(x_n|\mu_k,\Sigma_k)
\end{align}
$$

上記より、対数尤度$\log{\mathcal{L}(\pi,\mu,\Sigma)}$を下記のように考えられる。
$$
\large
\begin{align}
\log{\mathcal{L}(\pi,\mu,\Sigma)} &= \log{ \prod_{n=1}^{N} \sum_{k=1}^{K} \pi_{k} \mathcal{N}(x_n|\mu_k,\Sigma_k) } \\
&= \log{ \sum_{k=1}^{K} \pi_{k} \mathcal{N}(x_1|\mu_k,\Sigma_k) \times … \times \sum_{k=1}^{K} \pi_{k} \mathcal{N}(x_n|\mu_k,\Sigma_k) } \\
&= \sum_{n=1}^{N} \log{ \left[ \sum_{k=1}^{K} \pi_{k} \mathcal{N}(x_n|\mu_k,\Sigma_k) \right] } \quad (4)
\end{align}
$$

EMアルゴリズム

潜在変数$z$の導入

$(2)$式を下記のように定義する$1$-of-$K$表現の潜在変数$z$を用いて書き換えることを考える。
$$
\large
\begin{align}
z &= \left(\begin{array}{c} z_{1} \\ \vdots \\ z_{K} \end{array} \right) \\
z_k & \in \{ 0,1 \} \\
\sum_{k=1}^{K} z_k &= 1
\end{align}
$$

数式だとやや難しく見えるが、上記は「$z$は$z_1$から$z_K$のどれか$1$つが$1$で他が全て$0$の$K$次元ベクトルである」と解釈できるので解釈自体はそれほど難しくはない。ここで$p(z_k=1)=\pi_k$であると考えると、$p(z)$は下記のように考えることができる。
$$
\large
\begin{align}
p(z) &= p(z_1,z_2,…,z_K) \\
&= \prod_{k=1}^{K} p(z_k) \\
&= \prod_{k=1}^{K} \pi_k^{z_k} \quad (5)
\end{align}
$$

同時確率密度関数$p(x,z)$を考えるとき、$(5)$式は$z$に関する周辺分布の確率密度関数であると考えることができる。また、同様に条件付き確率$p(x|z)$も下記のように考えられる。
$$
\large
\begin{align}
p(x|z) = \prod_{k=1}^{K} \mathcal{N}(x|\mu_k,\Sigma_k)^{z_k}
\end{align}
$$

よって$p(x,z)$に対する$x$の周辺分布$p(x)$は下記のように表すことができる。
$$
\large
\begin{align}
p(x) &= \sum_{z} p(z)p(x|z) \\
&= \sum_{k=1}^{K} \pi_k \mathcal{N}(x|\mu_k,\Sigma_k) \quad (1)’
\end{align}
$$

上記の詳しい計算は章末演習$9$.$3$のように考えると良い。$(1)’$式より対数尤度は下記のように$(4)$式と同様に考えられる。
$$
\large
\begin{align}
\log{\mathcal{L}(\pi,\mu,\Sigma)} = \sum_{n=1}^{N} \log{ \left[ \sum_{k=1}^{K} \pi_{k} \mathcal{N}(x_n|\mu_k,\Sigma_k) \right] } \quad (6)
\end{align}
$$

また、負担率$\gamma(z_k)$を下記のように定義する。
$$
\large
\begin{align}
\gamma(z_k) & \equiv p(z_k=1|x) \\
&= \frac{\pi_{k} \mathcal{N}(x|\mu,\Sigma)}{\displaystyle \sum_{l=1}^{K} \pi_{l} \mathcal{N}(x|\mu_l,\Sigma_l)} \quad (7)
\end{align}
$$

EMアルゴリズムの導出

$(6)$式を$\mu_k$に関して偏微分を行うと下記が得られる。
$$
\large
\begin{align}
\frac{\partial}{\partial \mu_k} & \log{\mathcal{L}(\pi,\mu,\Sigma)} = \frac{\partial}{\partial \mu_k} \sum_{n=1}^{N} \log{ \left[ \sum_{k=1}^{K} \pi_{k} \mathcal{N}(x_n|\mu_k,\Sigma_k) \right] } \\
&= \sum_{n=1}^{N} \frac{\partial}{\partial \mu_k} \log{ \left[ \sum_{k=1}^{K} \pi_{k} \mathcal{N}(x_n|\mu_k,\Sigma_k) \right] } \\
&= \sum_{n=1}^{N} \frac{\displaystyle \frac{\partial}{\partial \mu_k} \pi_{k} \mathcal{N}(x_n|\mu_k,\Sigma_k)}{\sum_{k=1}^{K} \pi_{k} \mathcal{N}(x_n|\mu_k,\Sigma_k)} \\
&= \sum_{n=1}^{N} \frac{\mathcal{N}(x_n|\mu_k,\Sigma_k)}{\sum_{k=1}^{K} \pi_{k} \mathcal{N}(x_n|\mu_k,\Sigma_k)} \frac{\partial}{\partial \mu_k} \left( -\frac{1}{2}(x_n-\mu_k)^{\mathrm{T}} \Sigma_k^{-1} (x_n-\mu_k) \right) \\
&= -\sum_{n=1}^{N} \frac{\mathcal{N}(x_n|\mu_k,\Sigma_k)}{\sum_{k=1}^{K} \pi_{k} \mathcal{N}(x_n|\mu_k,\Sigma_k)} \Sigma_k^{-1} (x_n-\mu_k) \\
&= -\sum_{n=1}^{N} \gamma(z_{nk}) \Sigma_k^{-1} (x_n-\mu_k)
\end{align}
$$

ここで「上記$=0$」を$\mu_k$に関して解くと下記が得られる。
$$
\large
\begin{align}
\frac{\partial}{\partial \mu_k} \log{\mathcal{L}(\pi,\mu,\Sigma)} &= 0 \\
\sum_{n=1}^{N} \gamma(z_{nk}) \Sigma_k^{-1} (x_n-\mu_k) &= 0 \\
\sum_{n=1}^{N} \gamma(z_{nk}) (x_n-\mu_k) &= 0 \\
\sum_{n=1}^{N} \gamma(z_{nk}) \mu_k &= \sum_{n=1}^{N} \gamma(z_{nk}) x_n \\
N_k \mu_k &= \sum_{n=1}^{N} \gamma(z_{nk}) x_n \\
\mu_k &= \frac{1}{N_k} \sum_{n=1}^{N} \gamma(z_{nk}) x_n \quad (8)
\end{align}
$$

上記を計算するにあたって、$\displaystyle N_{k} = \sum_{n=1}^{N} \gamma(z_{nk})$のようにおいたが、「$N_k$は負担率$\gamma(z_{nk})$が表す各サンプルの事後確率$p(z_{nk}|x_n)$の$N$個のサンプル分の和」と解釈できる。

$\Sigma_k, \pi_{k}$に関しても同様に考えると下記が導出できる。
$$
\large
\begin{align}
\Sigma_k &= \frac{1}{N_k} \sum_{n=1}^{N} \gamma(z_{nk}) (x_n-\mu_k)(x_n-\mu_k)^{\mathrm{T}} \quad (9) \\
\pi_{k} &= \frac{N_k}{N} \quad (10)
\end{align}
$$
ただし、$\pi_{k}$の計算にあたっては制約条件$\displaystyle \sum_{k=1}^{K} \pi_{k} = 1$を考慮するにあたってラグランジュの未定乗数法を用いる。

$(8), (9), (10)$式には$\gamma(z_{nk})$があることでこの式だけでは最適解を考えることができないが、$(7)$式を元に繰り返しのスキームを用いることで最適解を考えることができる。ここで$(7)$式をEステップ、$(8), (9), (10)$式をMステップと考えるとこのスキームはEMアルゴリズムに合致する。このようにEMアルゴリズムでは二つのステップを交互に繰り返すことで最適解の計算を行う。

EMアルゴリズムの手順まとめ

以下の手順に沿ってEMアルゴリズムを元にパラメータ推定を行うことができる。

$1$. $\pi_k, \mu_k,\Sigma_k$に関してそれぞれ初期値を設定する。

$2$. $\pi_k, \mu_k,\Sigma_k$を固定し、$(7)$式に沿って$\gamma(z_{nk})$の計算を行う。$\leftarrow$Eステップ

$3$. $\gamma(z_{nk})$を固定し、$(8), (9), (10)$式に沿って$\pi_k, \mu_k,\Sigma_k$の計算を行う。$\leftarrow$Mステップ

$4$. $(6)$式に沿って対数尤度を計算し、収束していなければ$2$に戻り処理を繰り返す。

参考

・連続型確率分布
https://www.hello-statisticians.com/explain-terms-cat/probdist2.html

「統計検定1級テキスト」 練習問題解答例 Ch.4 「仮説検定」

本章のまとめ

練習問題解説

問$4$.$1$

$[1]$
$\sigma^2=4$と考える際に$\displaystyle Z = \frac{\bar{X}-\mu}{\sqrt{\sigma^2/n}} \sim N(0,1)$が成立する。よって、$N(0,1)$の上側$5$%点を$z_{\alpha=0.05}$とするとき、$\mu=0$に対して下記が成立すれば帰無仮説を棄却する。
$$
\large
\begin{align}
\frac{\bar{X}-\mu}{\sqrt{\sigma^2/n}} & > z_{\alpha=0.05} \\
\bar{X} & > z_{\alpha=0.05} \sqrt{\frac{\sigma^2}{n}} + \mu \\
&> 1.645 \times \frac{2}{\sqrt{n}}
\end{align}
$$

よって定数$c$は下記のように表すことができる。
$$
\large
\begin{align}
c &= 1.645 \times \frac{2}{\sqrt{n}} \\
&= \frac{3.29}{\sqrt{n}}
\end{align}
$$

$[2]$
$$
\large
\begin{align}
\frac{\mu_1-\mu_0}{\sqrt{\sigma^2/n}} & \geq z_{\alpha=0.05} + z_{\beta=0.1} \\
n & \geq \frac{\sigma^2 (z_{\alpha=0.05} + z_{\beta=0.1})^2}{(\mu_1-\mu_0)^2} \\
&= \frac{2^2 (1.645+1.28)^2}{(1-0)^2} = 34.2225
\end{align}
$$

よって、$n \geq 35$である必要がある。

問$4$.$2$

$[1]$
$\displaystyle Z = \frac{\overline{X}-\mu}{\sqrt{\sigma^2/n}} \sim N(0,1)$より下記が成立する。
$$
\large
\begin{align}
z_{\alpha/2} \leq & Z \leq z_{1-\alpha/2} \\
z_{\alpha/2} \leq & \frac{\bar{x}-\mu}{\sqrt{\sigma^2/n}} \leq -z_{\alpha/2} \\
z_{\alpha/2} \sqrt{\frac{\sigma^2}{n}} \leq & \bar{x}-\mu \leq -z_{\alpha/2} \sqrt{\frac{\sigma^2}{n}} \\
-z_{\alpha/2} \sqrt{\frac{\sigma^2}{n}} \leq & \mu – \bar{x} \leq z_{\alpha/2} \sqrt{\frac{\sigma^2}{n}} \\
\bar{x}-z_{\alpha/2} \sqrt{\frac{\sigma^2}{n}} \leq & \mu \leq \bar{x}+z_{\alpha/2} \sqrt{\frac{\sigma^2}{n}} \quad (1)
\end{align}
$$

$[2]$
正規分布$\mathcal{N}(\mu,1^2)$の尤度関数の$L(\mu)$は標本平均$\bar{x}$について単調尤度比を持つ。
$$
\large
\begin{align}
\left\{\bar{x} \middle| \bar{x} < a \, \mathrm{or} \, b < \bar{x} \right\} \quad (2)
\end{align}
$$

よって上記のように表される検定の「①有意水準が$\alpha$」で「②不偏」の場合を考えれば良い。正規分布に基づく検定が「②不偏」であるには棄却域が左右対称であるので、棄却域が左右対象で「①有意水準が$\alpha$」の場合は下記のように表される。
$$
\large
\begin{align}
\left\{\bar{x} \middle| \bar{x} – 0 < \frac{z_{\alpha/2}}{\sqrt{n}} \, \mathrm{or} \, \frac{z_{\alpha/2}}{\sqrt{n}} < \bar{x} – 0 \right\} = \left\{\bar{x} \middle| |\bar{x} | > \frac{z_{\alpha/2}}{\sqrt{n}} \right\}
\end{align}
$$

「不偏」の定義に関連する正規分布の検出関数は下記などで取り扱った。

$[3]$
$(1)$式より$\mu=0$は$100(1-\alpha)$%区間に含まれることが確認できる。また、$(2)$の棄却域に含まれない区間が$(1)$の区間に一致することは$(1), (2)$式より確認することができる。

参考

・統計検定$1$級 統計数理 関連まとめ
https://www.hello-statisticians.com/stat_certifi_1_math

カテゴリ分布(categorical distribution)のベイズ推定と多クラス分類

多クラスでの分類(1-of-K表現のモデル)などでよく出てくるカテゴリ分布のパラメータの共役事前分布を利用した推論を扱います。

カテゴリ分布(categorical distribution)

カテゴリ分布とは、ベルヌーイ分布をK次元に拡張した確率分布である。サイコロの出目の分布など多クラスの出現確率のようなものを扱う分布である。

$$
\mathrm{Cat}(\mathbf{s} | \boldsymbol{\pi}) = \prod^K_{k=1} \pi^{s_k}_k
$$

ここで、$\mathbf{s} = [s_1, s_2, \cdots, s_K]^{\top}$であり、$s_k \in \{0, 1\}$である。$\boldsymbol{\pi} = [\pi_1, \cdots, \pi_K]^{\top}$であり、それぞれのカテゴリ(次元)の確率を表す。そのため、$\pi_k = (0, 1)$であり、また、$\sum^K_{k=1} \pi_k = 1.0$である。

多項分布との関係

カテゴリ分布による試行をM回繰り返した場合のカテゴリkの出現回数$m_k$に関する分布である。ベルヌーイ分布と二項分布の関係と同様の関係にある。

多項分布については下記を参照

パラメータのベイズ推論

事後分布の導出

カテゴリ分布のパラメータベクトル$\boldsymbol{\pi}$に関する事後分布を$p(\boldsymbol{\pi} |\mathcal{D})$とすると、ベイズの定理に基づいて事後分布は以下の通りとなる。ここで、事前分布には共役事前分布であるディリクレ分布を用いている。

$$
\begin{align}
p\left(\boldsymbol{\pi} | \mathcal{D} \right) &\propto p\left( \mathcal{D} | \boldsymbol{\pi} \right) p \left( \boldsymbol{\pi} \right) \\
& = \left\{ \prod^N_{n=1} \mathrm{Cat}(\mathbf{s}_n | \boldsymbol{\pi}) \right\} \mathrm{Dir}(\boldsymbol{\pi} | \boldsymbol{\alpha})
\end{align}
$$

ここで、$\mathcal{D} = \left[ \mathbf{s}_1, \cdots, \mathbf{s}_N \right]$である。

カテゴリ分布とディリクレ分布の関係については下記参照。

上記の事後分布$p\left(\boldsymbol{\pi} | \mathcal{D} \right)$は共役事前分布を用いているため、下記の通り解析的に導出することができる。

まず、計算を簡単にするために対数を取った対数事後分布を考える。

$$
\begin{align}
\ln p\left(\boldsymbol{\pi} | \mathcal{D} \right) & = \sum^N_{n=1} \ln \prod^K_{k=1} \pi^{s_{n, k}}_k + \ln \mathrm{C_D}(\boldsymbol{\alpha}) \prod^K_{k=1} \pi^{\alpha_k – 1}_k + \mathrm{Const.} \\
&= \sum^N_{n=1} \sum^K_{k=1} s_{n, k} \ln \pi_k + \sum^K_{k=1} (\alpha_k – 1) \ln \pi_k + \mathrm{Const.} \\
&= \sum^K_{k=1} \left\{ \sum^N_{n=1} s_{n, k} + (\alpha_k – 1) \right\} \ln \pi_k + \mathrm{Const.}
\end{align}
$$

3段目の式は、ディリクレ分布の対数の形をしていることから、事後分布$p\left(\boldsymbol{\pi} | \mathcal{D} \right)$は以下のようなディリクレ分布となる。

$$
\begin{align}
p\left(\boldsymbol{\pi} | \mathcal{D} \right) &= \mathrm{Dir}(\boldsymbol{\pi} | \hat{\boldsymbol{\alpha}} ) \\
&\hat{\boldsymbol{\alpha}} = \sum^N_{n=1} s_{n, k} + \alpha_k
\end{align}
$$

事後分布の周辺分布

事後分布であるディリクレ分布を周辺化して、カテゴリ毎のパラメータ$\pi_k$の周辺事後分布を確認したい場合がある。

ディリクレ分布$\mathrm{Dir}(\boldsymbol{\pi} | \boldsymbol{\alpha} )$のカテゴリkについての周辺分布はベータ分布$\mathrm{Beta}\left( \alpha_k, (\sum \alpha_i – \alpha_k) \right)$となる。ここでは、3クラスを例として周辺分布を導出する。

$$
\begin{align}
\mathrm{Dir}(\pi_1, \pi_2, (1-\pi_1-\pi_2) | \alpha_1, \alpha_2, \alpha_3 ) \propto \pi_1^{\alpha_1-1}\pi_2^{\alpha_2-1}(1-\pi_1-\pi_2)^{\alpha_3-1}
\end{align}
$$

なお、$\sum \pi_i = 1$であることから、$\pi_3 = 1-\pi_1-\pi_2$である。

ここで、$\pi_1$についての周辺分布$p(\pi_1)$は以下の通り、$\pi_2$について積分を取った分布である。

$$
\begin{align}
p(\pi_1) &\propto \int \pi_1^{\alpha_1-1}\pi_2^{\alpha_2-1}(1-\pi_1-\pi_2)^{\alpha_3-1} d\pi_2 \\
&= \pi_1^{\alpha_1-1} \int \pi_2^{\alpha_2-1}(1-\pi_1-\pi_2)^{\alpha_3-1} d\pi_2
\end{align}
$$

2段目の積分において、$\pi_2 = (1-\pi_1)u$と変換すると、次の通り計算できる。

$$
\begin{align}
\int \pi_2^{\alpha_2-1}(1-\pi_1-\pi_2)^{\alpha_3-1} d\pi_2 &= \int (1-\pi_1)^{\alpha_2-1}u^{\alpha_2-1} \left( 1-\pi_1 – (1-\pi_1)u \right)^{\alpha_3-1} (1-\pi_1) du \\
&= \int (1-\pi_1)^{\alpha_2}(1-\pi_1)^{\alpha_3-1}u^{\alpha_2-1}(1-u)^{\alpha_3-1}du \\
&=(1-\pi_1)^{\alpha_2+\alpha_3-1} \int u^{\alpha_2-1}(1-u)^{\alpha_3-1}du
\end{align}
$$

ここで、3段目の積分の中身はベータ分布と同じ形であるため、その積分結果はベータ分布の正規化項の逆数となる。これらをまとめると周辺分布$p(\pi_1)$は以下の通りである。

$$
\begin{align}
p(\pi_1) \propto \pi_1^{\alpha_1-1} (1-\pi_1)^{\alpha_2+\alpha_3-1}
\end{align}
$$

この式の右辺もまた、ベータ分布と同じ形をしている。$p(\pi_1)$は確率分布であるため、確率分布の定義を満たすように正規化項を追加すると、結局は以下のベータ分布となる。

$$
p(\pi_1) = \mathrm{Beta}(\alpha_1, \alpha_2+\alpha_3)
$$

上記では、正規化項を省略して導出したが、正規化項を含めた計算としては、以下のページ(外部ページ)などを参照。

https://math.stackexchange.com/questions/543764/let-x-y-have-a-dirichlet-distribution-with-paramters-alpha-1-alpha-2-al

参考

n次正方行列の行列式(determinants)の定義・計算とその解釈

行列式(determinants)は多次元正規分布の定数項や多次元分布の確率密度関数の変数変換の際のヤコビアンの計算など、統計学を学ぶ上でも重要な概念です。当記事では行列式に関し、定義や定義から導出される公式、また行列式の解釈について取りまとめを行いました。

作成にあたってはWikipediaの行列式のページや、「統計のための行列代数(Matrix Algebra From a Statistician’s Perspective)」のCh.$13$や「パターン認識と機械学習」のAppendix.Cを参考に作成を行いました。

行列式の定義と具体例

行列式の定義

$n \times n$正方行列$A = (a_{ij})$の行列式を$\det{A}$のように表すとき、$\det{A}=|A|$は下記のように定義される。
$$
\large
\begin{align}
\det{A} = |A| = \sum_{\sigma \in \mathrm{Aut}(n)} \left[ \mathrm{sgn} (\sigma) \prod_{i=1}^{n} a_{i,\sigma(i)} \right]
\end{align}
$$

上記の式を理解するにあたってはまず$\sigma$を抑えると良い。ここで$\sigma(i)$は$i=1,…,n$に対応して$1,…,n$の値を並べ替えたものが対応する。たとえば、$i=1,2,3$のとき$\sigma(1)=2,\sigma(2)=3,\sigma(3)=1$が一例である。

このように$\sigma$を定義することで、「それぞれの行と列から$1$つずつ選んだ$n$個の数」を選び出すことができる。文面だけだとわかりにくいので、以下のように$3 \times 3$行列でいくつか図示を行なった。

(左) $\sigma(1)=2,\sigma(2)=3,\sigma(3)=1$、(右) $\sigma(1)=3,\sigma(2)=1,\sigma(3)=2$

上の図では$\sigma(1)=2,\sigma(2)=3,\sigma(3)=1$と$\sigma(1)=3,\sigma(2)=1,\sigma(3)=2$を元に行列$A = (a_{i,\sigma(i)})$の図示を行なった。緑の薄い順に各要素を選んだことが図より確認でき、どの行と列に着目しても緑の要素が$1$つずつ抽出されていることが確認できる。

行列式では上記のような手続きで抽出された行列$A$の要素$a_{i,\sigma(i)}$に対し積を計算し、$\mathrm{sgn}(\sigma)$をかけ、全ての考えられうる$\sigma$に対して和を計算する。ここで全ての考えられうる$\sigma$は$\sigma \in \mathrm{Aut}(n)$のように表現されているが、$n!$通りの並べ方を考慮すると理解すればよい。$n=3$の場合を例に考えると、$\sigma$は「$1,2,3$」、「$1,3,2$」、「$2,1,3$」、「$2,3,1$」、「$3,1,2$」、「$3,2,1$」の$6$通り考えることができる。

また、$\mathrm{sgn}(\sigma)$は$i<j$に対して$\sigma(i)>\sigma(j)$となる要素の組の数を$\phi_{\sigma}$とおくとき$\mathrm{sgn} (\sigma) = (-1)^{\phi_{\sigma}}$に対応する。

$\mathrm{sgn} (\sigma) = (-1)^{\phi_{\sigma}}$に関しては上記のように図示を行うことができる。

ここまでは$n \times n$正方行列に基づいて定義の確認を行なったが、以下具体的に確認するにあたって、$2 \times 2$や$3 \times 3$行列に関して確認を行う。

$2 \times 2$行列の行列式

$$
\large
\begin{align}
A = \left( \begin{array}{cc} a_{11} & a_{12} \\ a_{21} & a_{22} \end{array} \right)
\end{align}
$$

前項で取り扱った式を上記の$2 \times 2$正方行列に当てはめることを考える。$1,2$の並び替えは「$1,2$」と「$2,1$」が考えられることから、対応する行列式$\det{A}$は下記のように計算することができる。
$$
\large
\begin{align}
\det{A} &= |A| = \left| \begin{array}{cc} a_{11} & a_{12} \\ a_{21} & a_{22} \end{array} \right| = \sum_{\sigma \in \mathrm{Aut}(2)} \left[ \mathrm{sgn} (\sigma) \prod_{i=1}^{2} a_{i,\sigma(i)} \right] \\
&= (-1)^{0} a_{11} a_{22} + (-1)^{1} a_{12} a_{21} \\
&= a_{11} a_{22} – a_{12} a_{21}
\end{align}
$$

$3 \times 3$行列の行列式

$$
\large
\begin{align}
A = \left(\begin{array}{ccc} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{array} \right)
\end{align}
$$

$n \times n$行列の行列式の定義を上記の$3 \times 3$正方行列に当てはめることを考える。$1,2,3$の並び替えは「$1,2,3$」、「$1,3,2$」、「$2,1,3$」、「$2,3,1$」、「$3,1,2$」、「$3,2,1$」が考えられることから、対応する行列式$\det{A}$は下記のように計算することができる。
$$
\large
\begin{align}
& \det{A} = |A| = \sum_{\sigma \in \mathrm{Aut}(3)} \left[ \mathrm{sgn} (\sigma) \prod_{i=1}^{3} a_{i,\sigma(i)} \right] \\
&= (-1)^{0} a_{11} a_{22} a_{33} + (-1)^{1} a_{11} a_{23} a_{32} + (-1)^{1} a_{12} a_{21} a_{33} + (-1)^{2} a_{12} a_{23} a_{31} + (-1)^{2} a_{13} a_{21} a_{32} + (-1)^{3} a_{13} a_{22} a_{33} \\
&= a_{11} a_{22} a_{33} + a_{12} a_{23} a_{31} + a_{13} a_{21} a_{32} – a_{11} a_{23} a_{32} – a_{12} a_{21} a_{33} – a_{13} a_{22} a_{33}
\end{align}
$$

$(-1)$の累乗の数はそれぞれ下記に対応すると考えることができる。

行列式の解釈

平行四辺形の面積

$$
\large
\begin{align}
A = \left(\begin{array}{cc} a_{11} & a_{12} \\ a_{21} & a_{22} \end{array} \right)
\end{align}
$$
下記で詳しく取り扱ったが、上記の$2 \times 2$行列の行列式は$4$点$(0,0), (a_{11},a_{12}), (a_{11}+a_{21},a_{12}+a_{22}), (a_{21},a_{22})$で構成される平行四辺形の面積に一致する。
https://www.hello-statisticians.com/explain-terms-cat/transformation1.html

行列式に関する公式

「パターン認識と機械学習」を参考に行列式に関して抑えておくと良い公式を以下にまとめる。対応がわかりやすいように$(o.xx)$の形式の数式の番号は「パターン認識と機械学習」のものを用いた。

$|AB| = |A||B|$

$$
\large
\begin{align}
|AB| = |A||B| \quad (C.12)
\end{align}
$$

導出は複雑なので詳しくは下記で取り扱った。
https://www.hello-statisticians.com/explain-terms-cat/matrix_determinants2.html

$\displaystyle |A^{-1}| = \frac{1}{|A|}$

$AA^{-1} = A^{-1}A = I$に$(C.12)$式を用いることで下記が導出できる。
$$
\large
\begin{align}
|A^{-1}A| &= |A^{-1}||A| = |I| \quad (C.12)’ \\
|A^{-1}||A| &= 1 \\
|A^{-1}| &= \frac{1}{|A|} \quad (C.13)
\end{align}
$$

$\displaystyle |A| = \prod_{i=1}^{M} \lambda_{i}$

$A$を固有ベクトルに基づいて列を構成する直交行列$U$と、固有値$\lambda_{i}$を対角に並べた対角行列$\Lambda$を用いて下記のように固有値分解を行うことを考える。
$$
\large
\begin{align}
A = U \Lambda U^{\mathrm{T}}
\end{align}
$$

上記の式に$(C.12)$式を用いることで下記が導出できる。
$$
\large
\begin{align}
|A| &= |U \Lambda U^{\mathrm{T}}| \\
&= |U| |\Lambda| |U^{\mathrm{T}}| \\
&= |\Lambda| = \prod_{i=1}^{M} \lambda_{i} \quad (C.47)
\end{align}
$$

参考

・行列式 Wikipedia
・平行四辺形の面積の計算とヤコビ行列式
https://www.hello-statisticians.com/explain-terms-cat/transformation1.html

統計検定準1級 問題解説 ~2021年6月実施 問9 因子分析~

問題

過去問題は統計検定公式が問題と解答例を公開しています。こちらを参照してください。

解答

[1] 解答

$\boxed{ \ \mathsf{19}\ }$ : ④
$B$群の結果のみが適切な結果が得られると考えられることから、$2$因子かつ因子間に負の相関があるものが正しいと考えることができる。よって、スクリープロット$2$、因子パターン$1$、因子間相関$2$に対応する④が正しいと考えることができる。

[2] 解答

$\boxed{ \ \mathsf{20}\ }$ : ③
基本的には項目$1$〜$5$で「因子$2$ > 因子$1$」が成立し、項目$6$〜$10$で「因子$1$ > 因子$2$」が成立すると考えることができるので、成立していないものが逆転項目であると考えることができる。よって$2,3,6$に対応する③が正しいと考えることができる。

[3] 解答

$\boxed{ \ \mathsf{21}\ }$ : ⑤

解説

計算などがない選択式の問題なので、大体正答できれば良いで流し、計算問題に注力するというのもありだと思います。

参考

準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

「統計学実践ワークブック」 演習問題 Ch.25 「因子分析」
https://www.hello-statisticians.com/explain-books-cat/stat_workbook/stat_workbook_ch25.html

統計検定準1級 問題解説 ~2021年6月実施 問8 仮説検定・サンプルサイズの計算~

問題

過去問題は統計検定公式が問題と解答例を公開しています。こちらを参照してください。

解答

[1] 解答

$\boxed{ \ \mathsf{16}\ }$ : ④
$\delta = \mu_A – \mu_P > 0$が前提にあることから帰無仮説$H_0: \mu_A = \mu_P$に対し、対立仮説は$H_1: \mu_A > \mu_P$のように考える。よって④が正しい。

[2] 解答

$\boxed{ \ \mathsf{17}\ }$ : ④
$\delta$に関して帰無仮説を$H_0: \delta_0=0$、対立仮説を$H_1: \delta_1>0$とおく。このとき、有意水準$5$%、検出力$80$%で考えると下記のような式が得られる。
$$
\large
\begin{align}
1.64 + 0.84 &= \frac{\delta_1 – \delta_0}{\displaystyle \sqrt{\frac{\sigma^2}{n}+\frac{\sigma^2}{n}}} \\
&= \frac{\delta}{\displaystyle \sqrt{2\frac{\sigma^2}{n}}} \\
n &= \left( \frac{1.64+0.84}{\delta} \right)^2 \times 2 \sigma^2
\end{align}
$$

上記を元に考えると、④が正しいと考えることができる。

[3] 解答

$\boxed{ \ \mathsf{18}\ }$ : ③
$[2]$で考えた$n$の式に対し、$\delta=3.1, \sigma=4.2$を代入すると下記のように計算できる。
$$
\large
\begin{align}
n &= \left( \frac{1.64+0.84}{\delta} \right)^2 \times 2 \sigma^2 \\
&= \left( \frac{1.64+0.84}{3.1} \right)^2 \times 2 \sigma^2 \\
&= 22.579… \simeq 23
\end{align}
$$

$n$は一方の群のみを考えているので、必要なサンプルサイズはこの$2$倍の$46$が対応する。よって③が正しいと考えられる。

解説

参考

準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

「統計学実践ワークブック」 演習問題 Ch.10 「検定の基礎と検定法の導出」
https://www.hello-statisticians.com/explain-books-cat/stat_workbook/stat_workbook_ch10.html

「統計学実践ワークブック」 演習問題 Ch.11 「正規分布に関する検定」
https://www.hello-statisticians.com/explain-books-cat/stat_workbook/stat_workbook_ch11.html

統計検定準1級 問題解説 ~2021年6月実施 問6 フィッシャーの線形判別~

問題

過去問題は統計検定公式が問題と解答例を公開しています。こちらを参照してください。

解答

[1] 解答

$\boxed{ \ \mathsf{10}\ }$ : ②
分散分析と同様に考えることができるので、$S=S_W+S_B$が成立する。よって②が正しい。

[2] 解答

$\boxed{ \ \mathsf{11}\ }$ : ②
フィッシャーの線形判別では$\displaystyle J(v) = \frac{v^{\mathrm{T}} S_B v}{v^{\mathrm{T}} S_W v}$を最大にするベクトル$v$を用いて判別を行う手法である。ここで$J(v)$をベクトル$v$で微分すると下記のように変形を行うことができる。
$$
\large
\begin{align}
\frac{\partial J(v)}{\partial v} &= \frac{\partial}{\partial v}\frac{v^{\mathrm{T}} S_B v}{v^{\mathrm{T}} S_W v} \\
&= \frac{2 S_B v (v^{\mathrm{T}} S_W v) – 2(v^{\mathrm{T}} S_B v)S_W v}{(v^{\mathrm{T}} S_W v)^2}
\end{align}
$$

ここで上記が$0$ベクトルに一致する条件を考える。
$$
\large
\begin{align}
\frac{\partial J(v)}{\partial v} &= 0 \\
\frac{2 S_B v (v^{\mathrm{T}} S_W v) – 2(v^{\mathrm{T}} S_B v)S_W v}{(v^{\mathrm{T}} S_W v)^2} &= 0 \\
2 S_B v (v^{\mathrm{T}} S_W v) &= 2(v^{\mathrm{T}} S_B v)S_W v \\
S_B v & \propto S_W v \\
S_W^{-1} S_B v & \propto v \\
S_W^{-1} S_B v &= \lambda v
\end{align}
$$

上記より$S_W^{-1} S_B$の固有ベクトルが判別を行う$v$であると考えれば良いことがわかる。ここで$S_W^{-1} S_B$は下記のように得られる。
$$
\large
\begin{align}
S_W^{-1} S_B &= \left(\begin{array}{cc} 4 & 2 \\ 2 & 3 \end{array} \right)^{-1} \left(\begin{array}{cc} 4 & 2 \\ 2 & 1 \end{array} \right) \\
&= \frac{1}{4 \cdot 3 – 2 \cdot 2}\left(\begin{array}{cc} 3 & -2 \\ -2 & 4 \end{array} \right) \left(\begin{array}{cc} 4 & 2 \\ 2 & 1 \end{array} \right) \\
&= \left(\begin{array}{cc} 1 & 1/2 \\ 0 & 0 \end{array} \right)
\end{align}
$$

上記に対し$\det(S_W^{-1} S_B – \lambda I_{2})=0$を計算すると$(1-\lambda) \times (-\lambda) = 0$より$\lambda=0,1$が得られる。ここで$\lambda=1$に対応する固有ベクトルを考えることで$\displaystyle v = \left(\begin{array}{c} 1 \\ 0 \end{array} \right)$が得られるので②が正解であることがわかる。

解説

フィッシャーの線形判別は「群間分散÷郡内分散」の値を最大化する$v$を計算することで判別を行う手法です。$J(v)$の最大化が固有値問題に帰着できることは何度か演習を行うことで抑えておくと良いと思います。

参考

準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

「統計学実践ワークブック」 演習問題 Ch.23 「判別分析」
https://www.hello-statisticians.com/explain-books-cat/stat_workbook/stat_workbook_ch23.html

フィッシャーの線形判別の導出
https://www.hello-statisticians.com/explain-terms-cat/linear_discriminant1.html