Ch.$3$ 「線形回帰モデル」の章末問題の解答例 パターン認識と機械学習 3.16〜3.24

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.$3$の「線形回帰モデル」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・参考
パターン認識と機械学習 解答まとめ
https://www.hello-statisticians.com/answer_textbook_prml

解答まとめ

問題$3.17$

$$
\large
\begin{align}
p(\mathbf{t}|\alpha,\beta) = \int p(\mathbf{t}|\mathbf{w},\beta) p(\mathbf{w}|\alpha) d \mathbf{w} \quad (3.77)
\end{align}
$$

上記で表した$(3.77)$式の$p(\mathbf{t}|\mathbf{w},\beta)$と$p(\mathbf{w},\alpha)$式はそれぞれ下記のように表せる。

・$p(\mathbf{t}|\mathbf{w},\beta)$
$$
\large
\begin{align}
p(\mathbf{t}|\mathbf{w},\beta) &= \prod_{n=1}^{N} \mathcal{N}(t_{n}|\mathbf{w}^{\mathrm{T}}\phi(\mathbf{x}_{n}),\beta^{-1}) \quad (3.10) \\
&= \prod_{n=1}^{N} \left( \frac{\beta^{1/2}}{(2 \pi)^{1/2}} \exp \left[ -\frac{\beta}{2}(t_{n}-\mathbf{w}^{\mathrm{T}}\phi(\mathbf{x}_{n}))^2 \right] \right) \\
&= \frac{\beta^{N/2}}{(2 \pi)^{N/2}} \exp \left[ -\frac{\beta}{2} \sum_{n=1}^{N} (t_{n}-\mathbf{w}^{\mathrm{T}}\phi(\mathbf{x}_{n}))^2 \right] \quad (1)
\end{align}
$$

・$p(\mathbf{w}|\alpha)$
$$
\large
\begin{align}
p(\mathbf{w}|\alpha) &= \mathcal{N}(\mathbf{w}|\mathbf{0},\alpha^{-1}\mathbf{I}) \quad (3.52) \\
&= \frac{1}{(2 \pi)^{M/2}} \frac{1}{|\alpha^{-1}\mathbf{I}|^{1/2}} \exp \left[ -\frac{1}{2}\mathbf{w}^{\mathrm{T}}(\alpha^{-1} \mathbf{I})^{-1}\mathbf{w} \right] \\
&= \frac{\alpha^{M/2}}{(2 \pi)^{M/2}} \exp \left[ -\frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w} \right] \quad (2)
\end{align}
$$

$(1)$式、$(2)$式より$(3.77)$式は下記のように変形できる。
$$
\large
\begin{align}
& p(\mathbf{t}|\alpha,\beta) = \int p(\mathbf{t}|\mathbf{w},\beta) p(\mathbf{w}|\alpha) d \mathbf{w} \quad (3.77) \\
&= \int \frac{\beta^{N/2}}{(2 \pi)^{N/2}} \exp \left[ -\frac{\beta}{2} \sum_{n=1}^{N} (t_{n}-\mathbf{w}^{\mathrm{T}}\phi(\mathbf{x}_{n}))^2 \right] \times \frac{\alpha^{M/2}}{(2 \pi)^{M/2}} \exp \left[ -\frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w} \right] d \mathbf{w} \\
&= \left( \frac{\beta}{2 \pi} \right)^{\frac{N}{2}} \left( \frac{\alpha}{2 \pi} \right)^{\frac{M}{2}} \int \exp \left[ – \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w} – \frac{\beta}{2} \sum_{n=1}^{N} (t_{n}-\mathbf{w}^{\mathrm{T}}\phi(\mathbf{x}_{n}))^2 \right] d \mathbf{w} \\
&= \left( \frac{\beta}{2 \pi} \right)^{\frac{N}{2}} \left( \frac{\alpha}{2 \pi} \right)^{\frac{M}{2}} \int \exp \left[ – \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w} – \frac{\beta}{2} (\mathbf{t}-\Phi\mathbf{w})^{\mathrm{T}}(\mathbf{t}-\Phi\mathbf{w}) \right] d \mathbf{w} \\
&= \left( \frac{\beta}{2 \pi} \right)^{\frac{N}{2}} \left( \frac{\alpha}{2 \pi} \right)^{\frac{M}{2}} \int \exp \left[ – E(\mathbf{w}) \right] d \mathbf{w} \quad (3.78) \\
\end{align}
$$

$$
\large
\begin{align}
E(\mathbf{w}) &= \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w} + \frac{\beta}{2}(\mathbf{t}-\Phi\mathbf{w})^{\mathrm{T}}(\mathbf{t}-\Phi\mathbf{w}) \\
&= \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w} + \frac{\beta}{2}||\mathbf{t}-\Phi\mathbf{w}||^2 \quad (3.79)
\end{align}
$$

上記より、$(3.77)$式に対して$(3.79)$式を適用することで$(3.78)$式が導出できることが確認できる。よって、$E(\mathbf{w})$が$(3.79)$式のように表せることが示される。

問題$3.18$

$(3.79)$式は下記のように変形を行える。
$$
\large
\begin{align}
E(\mathbf{w}) &= \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w} + \frac{\beta}{2}||\mathbf{t}-\Phi\mathbf{w}||^2 \quad (3.79) \\
&= \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w} + \frac{\beta}{2}(\mathbf{t}-\Phi\mathbf{w})^{\mathrm{T}}(\mathbf{t}-\Phi\mathbf{w}) \\
&= \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w} + \frac{\beta}{2}(\mathbf{w}^{\mathrm{T}}\Phi^{\mathrm{T}}\Phi\mathbf{w} – 2\mathbf{w}^{\mathrm{T}}\Phi^{\mathrm{T}}\mathbf{t} + \mathbf{t}^{\mathrm{T}}\mathbf{t}) \\
&= \frac{1}{2} \left[ \mathbf{w}^{\mathrm{T}}(\alpha\mathbf{I}+\beta\Phi^{\mathrm{T}}\Phi)\mathbf{w} – 2 \beta \mathbf{w}^{\mathrm{T}}\Phi^{\mathrm{T}}\mathbf{t} + \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} \right] \\
&= \frac{1}{2} \left[ \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w} – 2 \beta \mathbf{w}^{\mathrm{T}} \Phi^{\mathrm{T}}\mathbf{t} + \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} \right] \quad (1) \\
\mathbf{A} &= \alpha\mathbf{I} + \beta\Phi^{\mathrm{T}}\Phi \quad (3.81)
\end{align}
$$

ここで$(1)$式は下記のように平方完成できる。
$$
\large
\begin{align}
E(\mathbf{w}) &= \frac{1}{2} \left[ \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w} – 2 \beta \mathbf{w}^{\mathrm{T}}\Phi^{\mathrm{T}}\mathbf{t} + \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} \right] \quad (1) \\
&= \frac{1}{2} \left[ \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w} – 2 \mathbf{w}^{\mathrm{T}}\mathbf{A}(\beta \mathbf{A}^{-1}\Phi^{\mathrm{T}}\mathbf{t}) + \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} \right] \\
&= \frac{1}{2} \left[ \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w} – 2 \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{m}_{N} + \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} \right] \\
&= \frac{1}{2} \left[ (\mathbf{w}^{\mathrm{T}}-\mathbf{m}_{N})^{\mathrm{T}}\mathbf{A}(\mathbf{w}^{\mathrm{T}}-\mathbf{m}_{N}) – \mathbf{m}_{N}^{\mathrm{T}}\mathbf{A}\mathbf{m}_{N} + \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} \right] \\
&= \frac{1}{2} \left[ (\mathbf{w}^{\mathrm{T}}-\mathbf{m}_{N})^{\mathrm{T}}\mathbf{A}(\mathbf{w}^{\mathrm{T}}-\mathbf{m}_{N}) + \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} – \mathbf{m}_{N}^{\mathrm{T}}\mathbf{A}\mathbf{m}_{N} \right] \quad (2) \\
\mathbf{m}_{N} &= \beta \mathbf{A}^{-1} \Phi^{\mathrm{T}} \mathbf{t}
\end{align}
$$

ここで$(2)$式の$\displaystyle \frac{1}{2} \left( \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} – \mathbf{m}_{N}^{\mathrm{T}}\mathbf{A}\mathbf{m}_{N} \right)$は下記のように変形できる。
$$
\large
\begin{align}
\frac{1}{2} & \left( \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} – \mathbf{m}_{N}^{\mathrm{T}} \mathbf{A}\mathbf{m}_{N} \right) = \frac{1}{2} \left( \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} – 2 \mathbf{m}_{N}^{\mathrm{T}}\mathbf{A}\mathbf{m}_{N} + \mathbf{m}_{N}^{\mathrm{T}}\mathbf{A}\mathbf{m}_{N} \right) \\
&= \frac{1}{2} \left[ \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} – 2 \mathbf{m}_{N}^{\mathrm{T}}\mathbf{A}\beta \mathbf{A}^{-1} \Phi^{\mathrm{T}} \mathbf{t} + \mathbf{m}_{N}^{\mathrm{T}}(\alpha\mathbf{I} + \beta\Phi^{\mathrm{T}}\Phi)\mathbf{m}_{N} \right] \\
&= \frac{1}{2} \left[ \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} – 2 \beta\mathbf{m}_{N}^{\mathrm{T}}\Phi^{\mathrm{T}} \mathbf{t} + \alpha\mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} + \beta\mathbf{m}_{N}^{\mathrm{T}}\Phi^{\mathrm{T}}\Phi\mathbf{m}_{N} \right] \\
&= \frac{1}{2} \left[ \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} – 2 \beta\mathbf{t}^{\mathrm{T}}\Phi\mathbf{m}_{N} + \beta\mathbf{m}_{N}^{\mathrm{T}}\Phi^{\mathrm{T}}\Phi\mathbf{m}_{N} \right] + \frac{\alpha}{2}\mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} \\
&= \frac{\beta}{2} \left[ \mathbf{t}^{\mathrm{T}}\mathbf{t} – 2 \mathbf{t}^{\mathrm{T}}\Phi\mathbf{m}_{N} + \mathbf{m}_{N}^{\mathrm{T}}\Phi^{\mathrm{T}}\Phi\mathbf{m}_{N} \right] + \frac{\alpha}{2}\mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} \\
&= \frac{\beta}{2} (\mathbf{t}-\Phi\mathbf{m}_{N})^{\mathrm{T}}(\mathbf{t}-\Phi\mathbf{m}_{N}) + \frac{\alpha}{2}\mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} \\
&= \frac{\beta}{2} ||\mathbf{t}-\Phi\mathbf{m}_{N}||^{2} + \frac{\alpha}{2}\mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} \quad (3)
\end{align}
$$

$(3)$式が$(3.82)$式に対応するので、$(2)$式が$(3.80)$式に対応する。このように$(3.79)$式から$(3.80)$を導出することができる。

・考察
$(3)$の導出が複雑だが、目標の式から逆算することで考えやすくなると思われる。

問題$3.19$

$$
\large
\begin{align}
p(\mathbf{t}|\alpha,\beta) = \left( \frac{\beta}{2 \pi} \right)^{\frac{N}{2}} & \left( \frac{\alpha}{2 \pi} \right)^{\frac{M}{2}} \int \exp \left[ – E(\mathbf{w}) \right] d \mathbf{w} \quad (3.78) \\
\int \exp \left[ – E(\mathbf{w}) \right] d \mathbf{w} &= \exp \left[ – E(\mathbf{w}_{N}) \right] (2 \pi)^{\frac{M}{2}} |\mathbf{A}|^{-\frac{1}{2}} \quad (3.85)
\end{align}
$$

$(3.78)$式に$(3.85)$式を代入すると下記が得られる。
$$
\large
\begin{align}
p(\mathbf{t}|\alpha,\beta) &= \left( \frac{\beta}{2 \pi} \right)^{\frac{N}{2}} \left( \frac{\alpha}{2 \pi} \right)^{\frac{M}{2}} \int \exp \left[ – E(\mathbf{w}) \right] d \mathbf{w} \quad (3.78) \\
&= \left( \frac{\beta}{2 \pi} \right)^{\frac{N}{2}} \left( \frac{\alpha}{2 \pi} \right)^{\frac{M}{2}} \exp \left[ – E(\mathbf{w}_{N}) \right] (2 \pi)^{\frac{M}{2}} |\mathbf{A}|^{-\frac{1}{2}} \\
&= \left( \frac{\beta}{2 \pi} \right)^{\frac{N}{2}} \alpha^{\frac{M}{2}} \exp \left[ – E(\mathbf{w}_{N}) \right] |\mathbf{A}|^{-\frac{1}{2}}
\end{align}
$$

上記の対数を取ることで$\ln{p(\mathbf{t}|\alpha,\beta)}$は下記のように計算できる。
$$
\large
\begin{align}
\ln{p(\mathbf{t}|\alpha,\beta)} &= \ln{ \left[ \left( \frac{\beta}{2 \pi} \right)^{\frac{N}{2}} \alpha^{\frac{M}{2}} \exp \left[ – E(\mathbf{w}_{N}) \right] |\mathbf{A}|^{-\frac{1}{2}} \right] } \\
&= \frac{M}{2}\ln{\alpha} + \frac{N}{2}\ln{\beta} – E(\mathbf{w}_{N}) – \frac{1}{2}\ln{|\mathbf{A}|} – \frac{1}{2}\ln{(2 \pi)} \quad (3.86)
\end{align}
$$

よって$(3.86)$式が成立する。

問題$3.20$

$$
\large
\begin{align}
\mathbf{A} &= \alpha\mathbf{I} + \beta\Phi^{\mathrm{T}}\Phi \quad (3.81) \\
(\beta \Phi^{\mathrm{T}} \Phi) \mathbf{u}_{i} &= \lambda_{i} \mathbf{u}_{i} \quad (3.87)
\end{align}
$$

$(3.87)$式のように行列$\beta \Phi^{\mathrm{T}} \Phi$の固有値を$\lambda_{i}$と定めると、$(3.81)$式より$\mathbf{A}$の固有値は$\alpha+\lambda_{i}$であると考えることができる。

ここで$(C.47)$式より$\displaystyle |\mathbf{A}| = \prod_{i} (\alpha+\lambda_{i})$で表すことができるので、$\displaystyle \frac{\partial}{\partial \alpha}\ln{|\mathbf{A}|}$は下記のように計算できる。
$$
\large
\begin{align}
\frac{\partial}{\partial \alpha}\ln{|\mathbf{A}|} &= \frac{\partial}{\partial \alpha}\ln{\prod_{i} (\alpha+\lambda_{i})} \\
&= \frac{\partial}{\partial \alpha} \sum_{i} \ln{ (\alpha+\lambda_{i}) } \\
&= \sum_{i} \frac{1}{\alpha+\lambda_{i}} \quad (3.88)
\end{align}
$$

$$
\large
\begin{align}
\ln{p(\mathbf{t}|\alpha,\beta)} = \frac{M}{2}\ln{\alpha} + \frac{N}{2}\ln{\beta} – E(\mathbf{w}_{N}) – \frac{1}{2}\ln{|\mathbf{A}|} – \frac{1}{2}\ln{(2 \pi)} \quad (3.86)
\end{align}
$$

ここで$(3.88)$式を元に上記の$(3.86)$式に対し、$\displaystyle \frac{\partial}{\partial \alpha}\ln{p(\mathbf{t}|\alpha,\beta)} = 0$を考えると下記が成立する。
$$
\large
\begin{align}
\frac{\partial}{\partial \alpha}\ln{p(\mathbf{t}|\alpha,\beta)} &= 0 \\
\frac{\partial}{\partial \alpha} \left[ \frac{M}{2}\ln{\alpha} – \frac{\alpha}{2}\mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} – \frac{1}{2}\ln{|\mathbf{A}|} + \mathrm{Const.} \right] &= 0 \quad (3.82)’ \\
\frac{M}{2 \alpha} – \frac{1}{2}\mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} – \frac{1}{2}\sum_{i} \frac{1}{\alpha+\lambda_{i}} &= 0 \quad (3.89)
\end{align}
$$

$(3.89)$の両辺に$2 \alpha$をかけ、下記のように変形を行う。
$$
\large
\begin{align}
M – \alpha \mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} – \sum_{i} \frac{\alpha}{\alpha+\lambda_{i}} &= 0 \quad (3.89)’ \\
\alpha \mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} &= M – \sum_{i} \frac{\alpha}{\alpha+\lambda_{i}} \\
&= \sum_{i} \left( 1 – \frac{\alpha}{\alpha+\lambda_{i}} \right) \\
&= \sum_{i} \left( \frac{(\alpha+\lambda_{i})-\alpha}{\alpha+\lambda_{i}} \right) \\
&= \sum_{i} \left( \frac{\lambda_{i}}{\alpha+\lambda_{i}} \right) = \gamma \quad (3.90), (3.91)
\end{align}
$$

上記より$\alpha \mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} = \gamma$のように考えられるので、下記のように$\alpha$に関して解ける。
$$
\large
\begin{align}
\alpha \mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} &= \gamma \\
\alpha &= \frac{\gamma}{\mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N}} \quad (3.92)
\end{align}
$$

問題$3.22$

$$
\large
\begin{align}
\mathbf{A} &= \alpha\mathbf{I} + \beta\Phi^{\mathrm{T}}\Phi \quad (3.81) \\
(\beta \Phi^{\mathrm{T}} \Phi) \mathbf{u}_{i} &= \lambda_{i} \mathbf{u}_{i} \quad (3.87)
\end{align}
$$

上記のように固有値$\lambda_{i}$を定義したことにより、$\lambda_{i} \propto \beta$が成立する。よって、下記が成立する。
$$
\large
\begin{align}
\frac{\partial \lambda_{i}}{\partial \beta} = \frac{\lambda_{i}}{\beta}
\end{align}
$$

このとき、合成関数の微分の考え方を用いて下記のように$\displaystyle \frac{\partial}{\partial \beta}\ln{|\mathbf{A}|}$を計算できる。
$$
\large
\begin{align}
\frac{\partial}{\partial \beta}\ln{|\mathbf{A}|} &= \frac{\partial}{\partial \beta} \sum_{i} \ln{ (\alpha+\lambda_{i}) } \\
&= \frac{\partial}{\partial \lambda_{i}} \sum_{i} \ln{(\alpha+\lambda_{i})} \times \frac{\partial \lambda_{i}}{\partial \beta} \\
&= \frac{\lambda_{i}}{\beta} \sum_{i} \frac{1}{\alpha+\lambda_{i}} \\
&= \frac{1}{\beta} \sum_{i} \frac{\lambda_{i}}{\alpha+\lambda_{i}} \\
&= \frac{\gamma}{\beta} \quad (3.93)
\end{align}
$$

以下、問題$3.20$と同様に$(3.86)$式の偏微分を考える。ここでは$\beta$に関する偏微分に対し$\displaystyle \frac{\partial}{\partial \beta}\ln{p(\mathbf{t}|\alpha,\beta)} = 0$が成立する際の$\beta$を導出する。
$$
\large
\begin{align}
\frac{\partial}{\partial \beta}\ln{p(\mathbf{t}|\alpha,\beta)} &= 0 \\
\frac{\partial}{\partial \beta} \left[ \frac{N}{2}\ln{\beta} – \frac{\beta}{2} ||\mathbf{t}-\Phi\mathbf{m}_{N}||^{2} – \frac{1}{2}\ln{|\mathbf{A}|} + \mathrm{Const.} \right] &= 0 \quad (3.82)’ \\
\frac{N}{2 \beta} – \frac{1}{2} ||\mathbf{t}-\Phi\mathbf{m}_{N}||^{2} – \frac{\gamma}{2 \beta} &= 0 \quad (3.94)
\end{align}
$$

偏微分$\displaystyle \frac{\partial}{\partial \beta}\ln{|\mathbf{A}|}$に関しては$(3.93)$式を用いた。ここで$(3.94)$の両辺に$2$をかけ、$\displaystyle \frac{1}{\beta}$に関して解くと下記のように$(3.95)$式が得られる。
$$
\large
\begin{align}
\frac{N}{\beta} – ||\mathbf{t}-\Phi\mathbf{m}_{N}||^{2} – \frac{\gamma}{\beta} &= 0 \quad (3.94)’ \\
\frac{N-\gamma}{\beta} &= ||\mathbf{t}-\Phi\mathbf{m}_{N}||^{2} \\
\frac{1}{\beta} &= \frac{1}{N-\gamma} \sum_{n=1}^{N} \left[ t_{n} – \mathbf{m}_{N}^{\mathrm{T}}\phi(\mathbf{x}_{n}) \right]^{2} \quad (3.95)
\end{align}
$$