Ch.4 「線形識別モデル」の章末問題の解答例 パターン認識と機械学習 4.1〜4.15

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.$4$の「線形識別モデル」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・参考
パターン認識と機械学習 解答まとめ
https://www.hello-statisticians.com/answer_textbook_prml

解答まとめ

問題$4.4$

下記で詳細の導出を取り扱った。

・$w^{\mathrm{T}}w=1$の制約条件下での線形判別の導出

問題$4.5$

下記で同様の計算を行なった。

・フィッシャーの線形判別

問題$4.7$

$$
\large
\begin{align}
\sigma(a) = \frac{1}{1 + \exp(-a)} \quad (4.59)
\end{align}
$$

ロジスティックシグモイド関数$\sigma(a)$は上記のように表されるが、このとき$\sigma(a) = 1-\sigma(-a)$と$\displaystyle \sigma^{-1}(y) = \ln{\frac{y}{1-y}}$が成立することをそれぞれ示す。

・$\sigma(a) = 1-\sigma(-a)$
$(4.59)$式で表した定義式を元に$\sigma(a)$は下記のように変形を行うことができる。
$$
\large
\begin{align}
\sigma(a) &= \frac{1}{1 + \exp(-a)} \\
&= \frac{\exp(a)}{\exp(a) + 1} \\
&= \frac{\exp(a) + 1 – 1}{\exp(a) + 1} \\
&= \frac{\exp(a) + 1}{\exp(a) + 1} – \frac{1}{\exp(a) + 1} \\
&= 1 – \sigma(a)
\end{align}
$$

・$\displaystyle \sigma^{-1}(y) = \ln{\frac{y}{1-y}}$
$y=\sigma(a)$とおき、$a$に関して解けば良い。
$$
\large
\begin{align}
y &= \sigma(a) = \frac{1}{1 + \exp(-a)} \\
y (1 + \exp(-a)) &= 1 \\
y \exp(-a) &= 1 – y \\
\exp(-a) &= \frac{1-y}{y} \\
-a &= \ln{\frac{1-y}{y}} \\
a &= \ln{\frac{y}{1-y}} = \sigma^{-1}(y)
\end{align}
$$

問題$4.8$

$$
\large
\begin{align}
p(\mathcal{C}_{1}|\mathbf{x}) &= \sigma(a) = \frac{1}{1+\exp(-a)} \quad (4.57) \\
a &= \ln{ \frac{p(\mathbf{x}|\mathcal{C}_{1})p(\mathcal{C}_{1})}{p(\mathbf{x}|\mathcal{C}_{2})p(\mathcal{C}_{2})} } \quad (4.58) \\
p(\mathbf{x}|\mathcal{C}_{k}) &= \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left[ -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \right] \quad (4.64)
\end{align}
$$

$(4.58)$式に$(4.64)$式を代入すると下記のように変形を行える。
$$
\large
\begin{align}
a &= \ln{ \frac{p(\mathbf{x}|\mathcal{C}_{1})p(\mathcal{C}_{1})}{p(\mathbf{x}|\mathcal{C}_{2})p(\mathcal{C}_{2})} } \quad (4.58) \\
&= \ln{ \frac{(2 \pi)^{-D/2} |\Sigma|^{-1/2} \exp \left[ -\frac{1}{2}(\mathbf{x}-\mathbf{\mu_1})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu_1}) \right]}{(2 \pi)^{-D/2} |\Sigma|^{-1/2} \exp \left[ -\frac{1}{2}(\mathbf{x}-\mathbf{\mu_2})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu_2}) \right]} } + \ln{ \frac{p(\mathcal{C}_{1})}{p(\mathcal{C}_{2})} } \\
&= \ln{ \left( \exp \left[ -\frac{1}{2}(\mathbf{x}-\mathbf{\mu_1})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu_1}) + \frac{1}{2}(\mathbf{x}-\mathbf{\mu_2})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu_2}) \right] \right)} + \ln{ \frac{p(\mathcal{C}_{1})}{p(\mathcal{C}_{2})} } \\
&= -\frac{1}{2}(\mathbf{x}-\mathbf{\mu_1})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu_1}) + \frac{1}{2}(\mathbf{x}-\mathbf{\mu_2})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu_2}) + \ln{ \frac{p(\mathcal{C}_{1})}{p(\mathcal{C}_{2})} } \\
&= \mathbf{x}^{\mathrm{T}}\Sigma^{-1}(\mathbf{\mu_1}-\mathbf{\mu_2}) – \frac{1}{2}\mathbf{\mu_1}^{\mathrm{T}}\Sigma^{-1}\mathbf{\mu_1} + \frac{1}{2}\mathbf{\mu_2}^{\mathrm{T}}\Sigma^{-1}\mathbf{\mu_2} + \ln{ \frac{p(\mathcal{C}_{1})}{p(\mathcal{C}_{2})} }
\end{align}
$$

上記に$(4.66)$式、$(4.67)$式を用いることで$(4.65)$式が得られる。

問題$4.9$

尤度関数を$p(\{\phi_n,\mathbf{t}_{n}\}|\{\pi_{k}\})$とおくと、$p(\{\phi_n,\mathbf{t}_{n}\}|\{\pi_{k}\})$は下記のように表せる。
$$
\large
\begin{align}
p(\{\phi_n,\mathbf{t}_{n}\}|\{\pi_{k}\}) = \prod_{n=1}^{N} \prod_{k=1}^{K} \left[ p(\phi_{n}|\mathcal{C}_{k}) \pi_{k} \right]^{t_{nk}}
\end{align}
$$

上記の対数を取り、$\pi_{k}$を変数と見た対数尤度関数を$l(\pi_{k})$と表すと$l(\pi_{k})$は下記のように表せる。
$$
\large
\begin{align}
l(\pi_{k}) &= \ln{ \left( \prod_{n=1}^{N} \prod_{k=1}^{K} \left[ p(\phi_{n}|\mathcal{C}_{k}) \pi_{k} \right]^{t_{nk}} \right) } \\
&= \sum_{n=1}^{N} \sum_{k=1}^{K} t_{nk} \ln{\pi_{k}} + \mathrm{Const.}
\end{align}
$$

上記を制約条件$\displaystyle \sum_{k=1}^{K} \pi_{k} = 1$の下で最大化を行う。Lagrange Multipliersの$\lambda$を用いて下記のように関数$l'(\pi_{k})$を定義する。
$$
\large
\begin{align}
l'(\pi_{k}) = l(\pi_{k}) + \lambda \left( 1 – \sum_{k=1}^{K} \pi_{k} \right)
\end{align}
$$

$l'(\pi_{k})$を$\pi_{k}$に関して最大化するにあたって、$\pi_{k}$で偏微分を行う。
$$
\large
\begin{align}
\frac{\partial l'(\pi_{k})}{\partial \pi_{k}} &= \sum_{n=1}^{N} \frac{t_{nk}}{\pi_{k}} + \lambda \\
&= \frac{1}{\pi_{k}} N_{k} + \lambda
\end{align}
$$

ここで$N_{k}$は$\mathcal{C}_{k}$に含まれるサンプル数に対応する。また、$(1)$式は$\pi_{k}$に関して単調減少であることから、$\displaystyle \frac{\partial l'(\pi_{k})}{\partial \pi_{k}}=0$のとき$l'(\pi_{k})$は最大値を取る。
$$
\large
\begin{align}
\frac{\partial l'(\pi_{k})}{\partial \pi_{k}} &= 0 \\
\frac{1}{\pi_{k}} N_{k} + \lambda &= 0 \\
-\lambda \pi_{k} &= N_{k} \quad (2)
\end{align}
$$

ここで$(2)$式の両辺の$k=1,…,K$での和を取ると下記のようになる。
$$
\large
\begin{align}
\sum_{k-1}^{K} (-\lambda \pi_{k}) &= \sum_{k=1}^{K} N_{k} \\
-\lambda \sum_{k-1}^{K} \pi_{k} &= \sum_{k=1}^{K} N_{k} \\
\lambda &= -N
\end{align}
$$

上記を$(2)$式に代入し、$\pi_{k}$に関して解くと下記が得られる。
$$
\large
\begin{align}
-\lambda \pi_{k} &= N_{k} \quad (2) \\
N \pi_{k} &= N_{k} \\
\pi_{k} &= \frac{N_{k}}{N} \quad (4.159)
\end{align}
$$

問題$4.12$

$$
\large
\begin{align}
\sigma(a) = \frac{1}{1 + \exp(-a)} \quad (4.59)
\end{align}
$$

上記のように定義されたロジスティックシグモイド関数$\sigma(a)$に対して$a$で微分することを考える。
$$
\large
\begin{align}
\frac{d}{da} \sigma(a) &= – \frac{1}{(1 + \exp(-a))^2} \frac{d}{da} (1 + \exp(-a)) \\
&= \frac{\exp(-a)}{(1 + \exp(-a))^2} \\
&= \frac{1}{1 + \exp(-a)} \times \frac{\exp(-a)}{1 + \exp(-a)} \\
&= \frac{1}{1 + \exp(-a)} \times \left( 1 – \frac{1}{1 + \exp(-a)} \right) \\
&= \sigma(a) (1 – \sigma(a)) \quad (4.88)
\end{align}
$$

よって$(4.88)$が成立することがわかる。

問題$4.13$

$$
\large
\begin{align}
E(\mathbf{w}) &= – \sum_{n=1}^{N} \left[ t_n \ln{y_n} + (1-t_n) \ln{(1-y_n)} \right] \quad (4.90) \\
y_n &= \sigma(a_n) = \frac{1}{1+\exp{(a_n)}} \quad (4.59) \\
a_n &= \mathbf{w}^{\mathrm{T}} \phi_{n}
\end{align}
$$

上記の$(4.90)$式をベクトル$\mathbf{w}$で偏微分を行うと、$(4.88)$式などを用いることで下記のように変形することができる。
$$
\large
\begin{align}
\nabla E(\mathbf{w}) &= \frac{\partial E(\mathbf{w})}{\partial \mathbf{w}} \\
&= \frac{\partial E(\mathbf{w})}{\partial y_n} \frac{\partial y_n}{\partial a_n} \frac{\partial a_n}{\partial \mathbf{w}} \\
&= – \sum_{n=1}^{N} \left[ \frac{t_n}{y_n} – \frac{1-t_n}{1-y_n} \right] \times \sigma(a_n) (1 – \sigma(a_n)) \times \phi_{n} \\
&= \sum_{n=1}^{N} \left[ \frac{1-t_n}{1-y_n} – \frac{t_n}{y_n} \right] \times y_n (1 – y_n) \times \phi_{n} \\
&= \sum_{n=1}^{N} \left[ y_n(1-t_n) – (1-y_n)t_n \right] \times \phi_{n} \\
&= \sum_{n=1}^{N} \left[ y_n – y_n t_n – t_n + y_n t_n \right] \times \phi_{n} \\
&= \sum_{n=1}^{N} ( y_n – t_n ) \phi_{n} \quad (4.91)
\end{align}
$$

このように$(4.91)$の導出を行える。

「Ch.4 「線形識別モデル」の章末問題の解答例 パターン認識と機械学習 4.1〜4.15」への2件のフィードバック

  1. […] 上記で表した$(4.108)$式に対し、問題$4.13$と同様にパラメータベクトル$mathbf{w}_{j}$でベクトル微分することを考える。$$largebegin{align}nabla_{mathbf{w}_j} E(mathbf{w}_1,…,mathbf{w}_K) &= frac{partial E(mathbf{w}_1,…,mathbf{w}_K)}{partial mathbf{w}_{j}} \&= – sum_{n=1}^{N} sum_{k=1}^{K} frac{partial}{partial mathbf{w}_{j}} (t_{nk} ln{y_{nk}}) \&= – sum_{n=1}^{N} sum_{k=1}^{K} frac{partial (t_{nk} ln{y_{nk}})}{partial y_{nk}} frac{partial y_{nk}}{partial a_{nj}} frac{partial a_{nj}}{partial mathbf{w}_{j}} \&= – sum_{n=1}^{N} sum_{k=1}^{K} frac{t_{nk}}{y_{nk}} y_{nk} (mathit{I}_{kj} – y_{nj}) times phi_{n} quad (4.106) \&= – sum_{n=1}^{N} sum_{k=1}^{K} t_{nk}(mathit{I}_{kj} – y_{nj}) times phi_{n} \&= – sum_{n=1}^{N} left[ – t_{n1}y_{nj} – t_{n2}y_{nj} – … t_{nK}y_{nj} + t_{nj} right] phi_{n} \&= sum_{n=1}^{N} left[ (t_{n1}+t_{n2}+…+t_{nK})y_{nj} – t_{nj} right] phi_{n} \&= sum_{n=1}^{N} (y_{nj} – t_{nj}) phi_{n} quad (4.109)end{align}$$ […]

コメントは受け付けていません。