当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.$9$の「EMアルゴリズム」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。
Contents
問題$9$.$1$
問題$9$.$2$
問題$9$.$3$
$(9.10), (9.11)$式はそれぞれ下記のように表される。
$$
\large
\begin{align}
p(z) &= \prod_{k=1}^{K} \pi_{k}^{z_{k}} \quad (9.10) \\
p(x|z) &= \prod_{k=1}^{K} \mathcal{N}(x|\mu_k,\Sigma_k)^{z_k} \quad (9.11)
\end{align}
$$
このとき$z$は$1$-of-$K$表現のベクトルであるので、具体的には$K=3$のとき$z$は下記のようなベクトルを取り得る。
$$
\large
\begin{align}
\left(\begin{array}{c} 1 \\ 0 \\ 0 \end{array} \right), \left(\begin{array}{c} 0 \\ 1 \\ 0 \end{array} \right), \left(\begin{array}{c} 0 \\ 0 \\ 1 \end{array} \right)
\end{align}
$$
ここで$K=3$のとき、$z$が$\displaystyle z = \left(\begin{array}{c} 1 \\ 0 \\ 0 \end{array} \right)$のように表されるとすると、$z_1=1$より対応する$p(z), p(z|x)$は下記のように計算できる。
$$
\large
\begin{align}
p(z) &= \pi_{1}^{z_{1}} \pi_{2}^{z_{2}} \pi_{3}^{z_{3}} \\
&= \pi_{1}^{1} \pi_{2}^{0} \pi_{3}^{0} \\
&= \pi_{1} \\
p(x|z) &= \mathcal{N}(x|\mu_1,\Sigma_1)^{z_1} \mathcal{N}(x|\mu_2,\Sigma_2)^{z_2} \mathcal{N}(x|\mu_3,\Sigma_3)^{z_3} \\
&= \mathcal{N}(x|\mu_1,\Sigma_1)^{1} \mathcal{N}(x|\mu_2,\Sigma_2)^{0} \mathcal{N}(x|\mu_3,\Sigma_3)^{0} \\
&= \mathcal{N}(x|\mu_1,\Sigma_1)
\end{align}
$$
よって$\displaystyle z = \left(\begin{array}{c} 1 \\ 0 \\ 0 \end{array} \right)$のとき、同時確率$p(x,z)=p(z)p(x|z)$は下記のように表すことができる。
$$
\large
\begin{align}
p(x,z) &= p(z)p(x|z) \\
&= \pi_{1} \mathcal{N}(x|\mu_1,\Sigma_1)
\end{align}
$$
これを全ての$z$の取り得る値に対して考えたものが周辺確率$p(x)$であるので、和を考えることで下記のように表記することができる。
$$
\large
\begin{align}
p(x) &= \sum_{z \in Z} p(z)p(x|z) = \pi_{1} \mathcal{N}(x|\mu_1,\Sigma_1) + \pi_{2} \mathcal{N}(x|\mu_2,\Sigma_2) + \pi_{3} \mathcal{N}(x|\mu_3,\Sigma_3) \\
&= \sum_{k=1}^{3} \pi_{k} \mathcal{N}(x|\mu_k,\Sigma_k) \quad (9.7), (9.12) \\
Z &= \left\{ \left(\begin{array}{c} 1 \\ 0 \\ 0 \end{array} \right), \left(\begin{array}{c} 0 \\ 1 \\ 0 \end{array} \right), \left(\begin{array}{c} 0 \\ 0 \\ 1 \end{array} \right) \right\}
\end{align}
$$
上記より$K=3$のとき$(9.7), (9.12)$式が成立することが確認できる。また、上記の議論は${}^{\forall} K \geq 2$で同様に成立する。
・参考
混合正規分布の尤度関数とEMアルゴリズムの導出
https://www.hello-statisticians.com/explain-terms-cat/gmm1.html
[…] 上記の詳しい計算は章末演習$9$.$3$のように考えると良い。$(1)’$式より対数尤度は下記のように$(4)$式と同様に考えられる。$$largebegin{align}log{mathcal{L}(pi,mu,Sigma)} = sum_{n=1}^{N} log{ left[ sum_{k=1}^{K} pi_{k} mathcal{N}(x_n|mu_k,Sigma_k) right] } quad (6)end{align}$$ […]