Ch.4 「線形識別モデル」の章末問題の解答例 パターン認識と機械学習 4.16〜4.26

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.$4$の「線形識別モデル」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・参考
パターン認識と機械学習 解答まとめ
https://www.hello-statisticians.com/answer_textbook_prml

解答まとめ

問題$4.17$

$$
\large
\begin{align}
y_{k} &= \frac{\exp(a_k)}{\sum_{l} \exp(a_l)} \quad (4.104) \\
&= \frac{\exp(a_k)}{\exp(a_1) + … + \exp(a_j) + …}
\end{align}
$$
上記のように表される$(4.104)$式に対して$a_k$や$a_j (j \neq k)$でそれぞれ偏微分を行う。

・$\displaystyle \frac{\partial y_k}{\partial a_k}$
商の導関数の公式を用いることで下記のように偏微分を計算できる。
$$
\large
\begin{align}
\frac{\partial y_k}{\partial a_k} &= \frac{\exp(a_k) \sum_{l} \exp(a_l) – \exp(a_k) \cdot \exp(a_k)}{(\sum_{l} \exp(a_l))^2} \\
&= \frac{\exp(a_k) ( \sum_{l} \exp(a_l) – \exp(a_k) )}{(\sum_{l} \exp(a_l))^2} \\
&= \frac{\exp(a_k)}{\sum_{l} \exp(a_l)} \times \frac{\sum_{l} \exp(a_l) – \exp(a_k)}{\sum_{l} \exp(a_l)} \\
&= \frac{\exp(a_k)}{\sum_{l} \exp(a_l)} \times \left( 1 – \frac{\exp(a_k)}{\sum_{l} \exp(a_l)} \right) \\
&= y_k(1-y_k) \quad (1)
\end{align}
$$

・$\displaystyle \frac{\partial y_k}{\partial a_j}, \quad j \neq k$
商の導関数の公式を用いることで下記のように偏微分を計算できる。
$$
\large
\begin{align}
\frac{\partial y_k}{\partial a_j} &= \frac{- \exp(a_k) \cdot \exp(a_j)}{(\sum_{l} \exp(a_l))^2} \\
&= – \frac{\exp(a_k)}{\sum_{l} \exp(a_l)} \times \frac{\exp(a_j)}{\sum_{l} \exp(a_l)} \\
&= – y_k y_j \quad (2)
\end{align}
$$

$(1)$式、$(2)$式より$(4.106)$式が成立することが確かめられる。

・参考
「商の導関数の公式」とその導出

問題$4.18$

$$
\large
\begin{align}
E(\mathbf{w}_1,…,\mathbf{w}_K) &= – \ln{p(T|\mathbf{w}_1,…,\mathbf{w}_K)} = – \sum_{n=1}^{N} \sum_{k=1}^{K} t_{nk} \ln{y_{nk}} \quad (4.108) \\
y_{nk} &= \frac{\exp{(a_{nk})}}{\sum_{l} \exp{(a_{nl})}} \quad (4.104)’ \\
a_{nk} &= \mathbf{w}_{k}^{\mathrm{T}} \phi_{n}
\end{align}
$$

上記で表した$(4.108)$式に対し、問題$4.13$と同様にパラメータベクトル$\mathbf{w}_{j}$でベクトル微分することを考える。
$$
\large
\begin{align}
\nabla_{\mathbf{w}_j} E(\mathbf{w}_1,…,\mathbf{w}_K) &= \frac{\partial E(\mathbf{w}_1,…,\mathbf{w}_K)}{\partial \mathbf{w}_{j}} \\
&= – \sum_{n=1}^{N} \sum_{k=1}^{K} \frac{\partial}{\partial \mathbf{w}_{j}} (t_{nk} \ln{y_{nk}}) \\
&= – \sum_{n=1}^{N} \sum_{k=1}^{K} \frac{\partial (t_{nk} \ln{y_{nk}})}{\partial y_{nk}} \frac{\partial y_{nk}}{\partial a_{nj}} \frac{\partial a_{nj}}{\partial \mathbf{w}_{j}} \\
&= – \sum_{n=1}^{N} \sum_{k=1}^{K} \frac{t_{nk}}{y_{nk}} y_{nk} (\mathit{I}_{kj} – y_{nj}) \times \phi_{n} \quad (4.106) \\
&= – \sum_{n=1}^{N} \sum_{k=1}^{K} t_{nk}(\mathit{I}_{kj} – y_{nj}) \times \phi_{n} \\
&= – \sum_{n=1}^{N} \left[ – t_{n1}y_{nj} – t_{n2}y_{nj} – … t_{nK}y_{nj} + t_{nj} \right] \phi_{n} \\
&= \sum_{n=1}^{N} \left[ (t_{n1}+t_{n2}+…+t_{nK})y_{nj} – t_{nj} \right] \phi_{n} \\
&= \sum_{n=1}^{N} (y_{nj} – t_{nj}) \phi_{n} \quad (4.109)
\end{align}
$$

途中の計算では$t$が$1$of$K$ベクトルであることから$t_{n1}+t_{n2}+…+t_{nK}=1$のように変形を行なった。また、ソフトマックス関数の微分にあたっては問題$4.17$で導出を行なった$(4.106)$式を用いた。

問題$4.21$

$$
\large
\begin{align}
\Phi(a) &= \int_{-\infty}^{a} \frac{1}{\sqrt{2 \pi}} \exp \left( – \frac{\theta^2}{2} \right) d \theta \quad (4.114) \\
\mathrm{erf}(a) &= \frac{2}{\sqrt{\pi}} \int_{0}^{a} \exp \left( – \frac{\theta^2}{2} \right) d \theta \quad (4.115) \\
\int_{0}^{a} \exp \left( – \frac{\theta^2}{2} \right) d \theta &= \frac{\sqrt{\pi}}{2} \mathrm{erf}(a)
\end{align}
$$

上記の$\Phi(a)$は下記のように変形を行える。
$$
\large
\begin{align}
\Phi(a) &= \int_{-\infty}^{a} \frac{1}{\sqrt{2 \pi}} \exp \left( – \frac{\theta^2}{2} \right) d \theta \\
&= \frac{1}{2} + \frac{1}{\sqrt{2 \pi}} \int_{0}^{a} \exp \left( – \frac{\theta^2}{2} \right) d \theta \\
&= \frac{1}{2} + \frac{1}{\sqrt{2 \pi}} \frac{\sqrt{\pi}}{2} \mathrm{erf}(a) \\
&= \frac{1}{2} + \frac{1}{2\sqrt{2}} \mathrm{erf}(a) \\
&= \frac{1}{2} \left[ 1 + \frac{1}{\sqrt{2}} \mathrm{erf}(a) \right] \quad (4.116)
\end{align}
$$

上記より$(4.116)$式が成立する。

問題$4.25$

$$
\large
\begin{align}
\sigma(a) &= \frac{1}{1+\exp(-a)} \quad (4.59) \\
\Phi(a) &= \int_{-\infty}^{a} \frac{1}{\sqrt{2 \pi}} \exp \left( -\frac{\theta^2}{2} \right) d \theta \quad (4.114) \\
\phi(a) &= \frac{1}{\sqrt{2 \pi}} \exp \left( -\frac{a^2}{2} \right)
\end{align}
$$

上記で表した$(4.59)$式と$(4.114)$式をそれぞれ$a$に関して微分するとそれぞれ下記が得られる。
$$
\large
\begin{align}
\frac{d \sigma(a)}{da} &= \frac{\exp(-a)}{(1+\exp(-a))^2} \\
\frac{d \Phi(a)}{da} &= \phi(a)
\end{align}
$$

よって$\Phi(\lambda a)$を$a$に関して微分すると下記が得られる。
$$
\large
\begin{align}
\frac{d \Phi(\lambda a)}{da} &= \phi(\lambda a) \times \frac{d}{da} (\lambda a) \\
&= \lambda \phi(\lambda a)
\end{align}
$$

ここで$\displaystyle \frac{d \sigma(a)}{da} \Bigr|_{a=0} = \frac{d \Phi(\lambda a)}{da} \Bigr|_{a=0}$が成立することより、$\lambda$は下記のように得られる。
$$
\large
\begin{align}
\frac{d \sigma(a)}{da} \Bigr|_{a=0} &= \frac{d \Phi(\lambda a)}{da} \Bigr|_{a=0} \\
\frac{\exp(0)}{(1+\exp(0))^2} &= \lambda \phi(0) \\
\frac{1}{(1+1)^2} &= \lambda \frac{1}{\sqrt{2 \pi}} \exp \left( -\frac{0^2}{2} \right) \\
\frac{1}{4} &= \frac{\lambda}{\sqrt{2 \pi}} \\
\lambda &= \frac{\sqrt{2 \pi}}{4} \\
\lambda^2 &= \frac{2 \pi}{16} \\
&= \frac{\pi}{8}
\end{align}
$$