深層学習 改訂第2版 第八章「推論の信頼性」 176p-177p 数式の表記揺れの確認

当記事は「深層学習 改訂第2版 (講談社)」の読解サポートを行います。基本的に購入者向けの解説ですので、購入されていない方は下記より入手をご検討ください。また、解説は筆者の見解であり、公式のものではないことにご注意ください。

執筆: @ShunDeveloper

176p の数式の$\sigma^2$と$\sigma(\mathbf{x}_n ; \mathbf{w})^2$の検討

「深層学習 改訂第2版 (講談社)」以下(「深層学習」) 176pには以下の数式が記述されている。

$$
\begin{eqnarray}
p(y_n| \mathbf{x}_n, \mathbf{w})
=
\frac{1}{\sqrt{2\pi \sigma^2}}
\exp\biggr\{ – \frac{\| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2}{2\sigma(\mathbf{x}_n ; \mathbf{w})^2} \biggr\}
\end{eqnarray}
$$

ここで、$\sigma^2$ と $\sigma(\mathbf{x}_n ; \mathbf{x})^2$ という二種類の記述があるが, 同じものかどうかを177pの8.5式を導出することで検討を行った。結論から述べると $\sigma^2 = \sigma(\mathbf{x}_n ; \mathbf{w})^2$ である。(以下導出)

尤度関数 $L(\mathbf{w})=\Pi_n \; p(y_n|\mathbf{x}_n, \mathbf{w})$ を変形する。

$$
\begin{eqnarray}
L(\mathbf{w})
&=&
\Pi_n \; p(y_n|\mathbf{x}_n, \mathbf{w}) \\
&=&
\prod_n \;
\frac{1}{\sqrt{2\pi \sigma^2}}
\exp\biggr\{ – \frac{\| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2}{2\sigma(\mathbf{x}_n ; \mathbf{w})^2} \biggr\} \\
&=&
\prod_n \;
\frac{1}{\sqrt{2\pi \sigma^2}}
\exp\biggr\{ – \frac{\| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2}{2\sigma(\mathbf{x}_n ; \mathbf{w})^2} \biggr\} \\
&=&
\prod_n \;
\exp\biggr\{ \log \biggr( \frac{1}{\sqrt{2\pi \sigma^2}} \biggr) – \frac{\| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2}{2\sigma(\mathbf{x}_n ; \mathbf{w})^2} \biggr\} \\
&=&
\prod_n \;
\exp\biggr\{ \log \biggr( \frac{1}{\sqrt{2\pi}} \biggr) + \log \biggr( \frac{1}{\sqrt{\sigma^2}} \biggr) – \frac{\| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2}{2\sigma(\mathbf{x}_n ; \mathbf{w})^2} \biggr\} \\
&=&
\prod_n \;
\exp\biggr\{ \log \biggr( \frac{1}{\sqrt{2\pi}} \biggr) – \frac{1}{2} \log ( \sigma^2 ) – \frac{1}{2}\sigma(\mathbf{x}_n ; \mathbf{w})^{-2} \cdot \| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2 \biggr\} \\
\end{eqnarray}
$$

従って, 対数尤度関数 $\log \: L(\mathbf{w})$ は以下のように変形できる。

$$
\begin{eqnarray}
\log \; L(\mathbf{w})
&=&
\log \;
\prod_n \;
\exp\biggr\{ \log \biggr( \frac{1}{\sqrt{2\pi}} \biggr) – \frac{1}{2} \log ( \sigma^2 ) – \frac{1}{2}\sigma(\mathbf{x}_n ; \mathbf{w})^{-2} \cdot \| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2 \biggr\} \\
&=&
\sum \;
\biggr\{ \log \biggr( \frac{1}{\sqrt{2\pi}} \biggr) – \frac{1}{2} \log ( \sigma^2 ) – \frac{1}{2}\sigma(\mathbf{x}_n ; \mathbf{w})^{-2} \cdot \| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2 \biggr\} \\
&=&
\sum \;
\biggr\{ \log \biggr( \frac{1}{\sqrt{2\pi}} \biggr) – \frac{1}{2} \log ( \sigma^2 ) – \frac{1}{2} \exp \{ – \log (\sigma(\mathbf{x}_n ; \mathbf{w})^{2} )\} \cdot \| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2 \biggr\} \\
\end{eqnarray}
$$

ここで、$\sigma^2 \geq 0$ から ※1. $s(\mathbf{x}; \mathbf{w}) \equiv \log \: \sigma^2$ を定義し, 対数尤度関数に代入する. また, 定数項 $\log \: (1/\sqrt{2\pi})$ を※2. $\text{const.}$ とおくと、

$$
\begin{eqnarray}
\log \; L(\mathbf{w})
&=&
\sum \;
\biggr\{- \frac{1}{2} \log ( \sigma^2 ) – \frac{1}{2} \exp \{ – \log (\sigma(\mathbf{x}_n ; \mathbf{w})^{2} )\} \cdot \| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2 \biggr\} + \text{const.} \\
&=&
\sum \;
\biggr\{- \frac{1}{2} s(\mathbf{x}; \mathbf{w}) – \frac{1}{2} \exp \{ – \log (\sigma(\mathbf{x}_n ; \mathbf{w})^{2} )\} \cdot \| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2 \biggr\} + \text{const.} \\
\end{eqnarray}
$$

最後に対数尤度関数の符号を反転すると、

$$
\begin{eqnarray}
– \log \; L(\mathbf{w})
&=&
\sum \;
\biggr\{\frac{1}{2} s(\mathbf{x}; \mathbf{w}) + \frac{1}{2} \exp \{ – \log (\sigma(\mathbf{x}_n ; \mathbf{w})^{2} )\} \cdot \| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2 \biggr\} + \text{const.} \\
&=&
\sum \;
\biggr\{\frac{1}{2} \exp \{ – \log (\sigma(\mathbf{x}_n ; \mathbf{w})^{2} )\} \cdot \| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2 + \frac{1}{2} s(\mathbf{x}; \mathbf{w}) \biggr\} + \text{const.} \\
\end{eqnarray}
$$

上記の式と以下に示す8.5式を比べる

$$
\begin{eqnarray}
– \log \; L(\mathbf{w})
&=&
\sum \;
\biggr\{\frac{1}{2} \exp \{ – s(\mathbf{x}_n ; \mathbf{w}) \} \cdot \| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2 + \frac{1}{2} s(\mathbf{x}; \mathbf{w}) \biggr\} + \text{const.} \\
\end{eqnarray}
$$

よって

$$
\begin{eqnarray}
\log (\sigma(\mathbf{x}_n ; \mathbf{w})^{2} )
&=&
s(\mathbf{x}_n ; \mathbf{w})\\
&=&
\log \: \sigma^2
\end{eqnarray}
$$

以上より、

$$
\begin{eqnarray}
\sigma^2 = \sigma(\mathbf{x}_n ; \mathbf{w})^2
\end{eqnarray}
$$

補足

※1. 176p最終行参照
※2. 「深層学習」では、定数項を $\text{const.}$ としているが、$\text{Const.}$ とする記法も存在する