ブログ

Ch.4 「線形識別モデル」の章末問題の解答例 パターン認識と機械学習 4.16〜4.26

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.$4$の「線形識別モデル」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・参考
パターン認識と機械学習 解答まとめ
https://www.hello-statisticians.com/answer_textbook_prml

解答まとめ

問題$4.17$

$$
\large
\begin{align}
y_{k} &= \frac{\exp(a_k)}{\sum_{l} \exp(a_l)} \quad (4.104) \\
&= \frac{\exp(a_k)}{\exp(a_1) + … + \exp(a_j) + …}
\end{align}
$$
上記のように表される$(4.104)$式に対して$a_k$や$a_j (j \neq k)$でそれぞれ偏微分を行う。

・$\displaystyle \frac{\partial y_k}{\partial a_k}$
商の導関数の公式を用いることで下記のように偏微分を計算できる。
$$
\large
\begin{align}
\frac{\partial y_k}{\partial a_k} &= \frac{\exp(a_k) \sum_{l} \exp(a_l) – \exp(a_k) \cdot \exp(a_k)}{(\sum_{l} \exp(a_l))^2} \\
&= \frac{\exp(a_k) ( \sum_{l} \exp(a_l) – \exp(a_k) )}{(\sum_{l} \exp(a_l))^2} \\
&= \frac{\exp(a_k)}{\sum_{l} \exp(a_l)} \times \frac{\sum_{l} \exp(a_l) – \exp(a_k)}{\sum_{l} \exp(a_l)} \\
&= \frac{\exp(a_k)}{\sum_{l} \exp(a_l)} \times \left( 1 – \frac{\exp(a_k)}{\sum_{l} \exp(a_l)} \right) \\
&= y_k(1-y_k) \quad (1)
\end{align}
$$

・$\displaystyle \frac{\partial y_k}{\partial a_j}, \quad j \neq k$
商の導関数の公式を用いることで下記のように偏微分を計算できる。
$$
\large
\begin{align}
\frac{\partial y_k}{\partial a_j} &= \frac{- \exp(a_k) \cdot \exp(a_j)}{(\sum_{l} \exp(a_l))^2} \\
&= – \frac{\exp(a_k)}{\sum_{l} \exp(a_l)} \times \frac{\exp(a_j)}{\sum_{l} \exp(a_l)} \\
&= – y_k y_j \quad (2)
\end{align}
$$

$(1)$式、$(2)$式より$(4.106)$式が成立することが確かめられる。

・参考
「商の導関数の公式」とその導出

問題$4.18$

$$
\large
\begin{align}
E(\mathbf{w}_1,…,\mathbf{w}_K) &= – \ln{p(T|\mathbf{w}_1,…,\mathbf{w}_K)} = – \sum_{n=1}^{N} \sum_{k=1}^{K} t_{nk} \ln{y_{nk}} \quad (4.108) \\
y_{nk} &= \frac{\exp{(a_{nk})}}{\sum_{l} \exp{(a_{nl})}} \quad (4.104)’ \\
a_{nk} &= \mathbf{w}_{k}^{\mathrm{T}} \phi_{n}
\end{align}
$$

上記で表した$(4.108)$式に対し、問題$4.13$と同様にパラメータベクトル$\mathbf{w}_{j}$でベクトル微分することを考える。
$$
\large
\begin{align}
\nabla_{\mathbf{w}_j} E(\mathbf{w}_1,…,\mathbf{w}_K) &= \frac{\partial E(\mathbf{w}_1,…,\mathbf{w}_K)}{\partial \mathbf{w}_{j}} \\
&= – \sum_{n=1}^{N} \sum_{k=1}^{K} \frac{\partial}{\partial \mathbf{w}_{j}} (t_{nk} \ln{y_{nk}}) \\
&= – \sum_{n=1}^{N} \sum_{k=1}^{K} \frac{\partial (t_{nk} \ln{y_{nk}})}{\partial y_{nk}} \frac{\partial y_{nk}}{\partial a_{nj}} \frac{\partial a_{nj}}{\partial \mathbf{w}_{j}} \\
&= – \sum_{n=1}^{N} \sum_{k=1}^{K} \frac{t_{nk}}{y_{nk}} y_{nk} (\mathit{I}_{kj} – y_{nj}) \times \phi_{n} \quad (4.106) \\
&= – \sum_{n=1}^{N} \sum_{k=1}^{K} t_{nk}(\mathit{I}_{kj} – y_{nj}) \times \phi_{n} \\
&= – \sum_{n=1}^{N} \left[ – t_{n1}y_{nj} – t_{n2}y_{nj} – … t_{nK}y_{nj} + t_{nj} \right] \phi_{n} \\
&= \sum_{n=1}^{N} \left[ (t_{n1}+t_{n2}+…+t_{nK})y_{nj} – t_{nj} \right] \phi_{n} \\
&= \sum_{n=1}^{N} (y_{nj} – t_{nj}) \phi_{n} \quad (4.109)
\end{align}
$$

途中の計算では$t$が$1$of$K$ベクトルであることから$t_{n1}+t_{n2}+…+t_{nK}=1$のように変形を行なった。また、ソフトマックス関数の微分にあたっては問題$4.17$で導出を行なった$(4.106)$式を用いた。

問題$4.21$

$$
\large
\begin{align}
\Phi(a) &= \int_{-\infty}^{a} \frac{1}{\sqrt{2 \pi}} \exp \left( – \frac{\theta^2}{2} \right) d \theta \quad (4.114) \\
\mathrm{erf}(a) &= \frac{2}{\sqrt{\pi}} \int_{0}^{a} \exp \left( – \frac{\theta^2}{2} \right) d \theta \quad (4.115) \\
\int_{0}^{a} \exp \left( – \frac{\theta^2}{2} \right) d \theta &= \frac{\sqrt{\pi}}{2} \mathrm{erf}(a)
\end{align}
$$

上記の$\Phi(a)$は下記のように変形を行える。
$$
\large
\begin{align}
\Phi(a) &= \int_{-\infty}^{a} \frac{1}{\sqrt{2 \pi}} \exp \left( – \frac{\theta^2}{2} \right) d \theta \\
&= \frac{1}{2} + \frac{1}{\sqrt{2 \pi}} \int_{0}^{a} \exp \left( – \frac{\theta^2}{2} \right) d \theta \\
&= \frac{1}{2} + \frac{1}{\sqrt{2 \pi}} \frac{\sqrt{\pi}}{2} \mathrm{erf}(a) \\
&= \frac{1}{2} + \frac{1}{2\sqrt{2}} \mathrm{erf}(a) \\
&= \frac{1}{2} \left[ 1 + \frac{1}{\sqrt{2}} \mathrm{erf}(a) \right] \quad (4.116)
\end{align}
$$

上記より$(4.116)$式が成立する。

問題$4.25$

$$
\large
\begin{align}
\sigma(a) &= \frac{1}{1+\exp(-a)} \quad (4.59) \\
\Phi(a) &= \int_{-\infty}^{a} \frac{1}{\sqrt{2 \pi}} \exp \left( -\frac{\theta^2}{2} \right) d \theta \quad (4.114) \\
\phi(a) &= \frac{1}{\sqrt{2 \pi}} \exp \left( -\frac{a^2}{2} \right)
\end{align}
$$

上記で表した$(4.59)$式と$(4.114)$式をそれぞれ$a$に関して微分するとそれぞれ下記が得られる。
$$
\large
\begin{align}
\frac{d \sigma(a)}{da} &= \frac{\exp(-a)}{(1+\exp(-a))^2} \\
\frac{d \Phi(a)}{da} &= \phi(a)
\end{align}
$$

よって$\Phi(\lambda a)$を$a$に関して微分すると下記が得られる。
$$
\large
\begin{align}
\frac{d \Phi(\lambda a)}{da} &= \phi(\lambda a) \times \frac{d}{da} (\lambda a) \\
&= \lambda \phi(\lambda a)
\end{align}
$$

ここで$\displaystyle \frac{d \sigma(a)}{da} \Bigr|_{a=0} = \frac{d \Phi(\lambda a)}{da} \Bigr|_{a=0}$が成立することより、$\lambda$は下記のように得られる。
$$
\large
\begin{align}
\frac{d \sigma(a)}{da} \Bigr|_{a=0} &= \frac{d \Phi(\lambda a)}{da} \Bigr|_{a=0} \\
\frac{\exp(0)}{(1+\exp(0))^2} &= \lambda \phi(0) \\
\frac{1}{(1+1)^2} &= \lambda \frac{1}{\sqrt{2 \pi}} \exp \left( -\frac{0^2}{2} \right) \\
\frac{1}{4} &= \frac{\lambda}{\sqrt{2 \pi}} \\
\lambda &= \frac{\sqrt{2 \pi}}{4} \\
\lambda^2 &= \frac{2 \pi}{16} \\
&= \frac{\pi}{8}
\end{align}
$$

Ch.3 「線形回帰モデル」の章末問題の解答例 パターン認識と機械学習 3.1〜3.15

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.$3$の「線形回帰モデル」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・参考
パターン認識と機械学習 解答まとめ
https://www.hello-statisticians.com/answer_textbook#prml

解答まとめ

問題$3.1$

$$
\large
\begin{align}
\tanh(a) &= \frac{e^a-e^{-a}}{e^{a}+e^{-a}} \quad (5.59) \\
\sigma(a) &= \frac{1}{1+e^{-a}} \quad (3.6)
\end{align}
$$

関数$\tanh(a)$と$\sigma(a)$はそれぞれ上記のように定義される。上記の式を元に$2 \sigma(2a) – 1$は下記のように計算を行える。
$$
\large
\begin{align}
2 \sigma(2a) – 1 &= \frac{2}{1+e^{-2a}} – 1 \\
&= \frac{2e^{a}}{e^{a}+e^{-a}} – 1 \\
&= \frac{2e^{a}}{e^{a}+e^{-a}} – \frac{e^a+e^{-a}}{e^{a}+e^{-a}} \\
&= \frac{e^a-e^{-a}}{e^{a}+e^{-a}} \\
&= \tanh(a)
\end{align}
$$

上記より$(3.100)$式で表された$\tanh(a) = 2 \sigma(2a) – 1$が成立する。

また、$(3.100)$式を元に$(3.101)$式は下記のように変形できる。
$$
\large
\begin{align}
y(x,\mathbf{w}) &= w_0 + \sum_{j=1}^{M} w_j \sigma \left( \frac{x-\mu_j}{s} \right) \quad (3.101) \\
&= w_0 + \sum_{j=1}^{M} w_j \left( \frac{1}{2} \left[ 2 \sigma \left( 2 \frac{x-\mu_j}{2s} \right) – 1 \right] + \frac{1}{2} \right) \\
&= w_0 + \sum_{j=1}^{M} w_j \left( \frac{1}{2} \tanh \left( \frac{x-\mu_j}{2s} \right) + \frac{1}{2} \right) \\
&= w_0 + \sum_{j=1}^{M} \frac{w_j}{2} \sum_{j=1}^{M} \frac{w_j}{2} \tanh \left( \frac{x-\mu_j}{2s} \right) \\
&= u_0 + \sum_{j=1}^{M} u_j \tanh \left( \frac{x-\mu_j}{2s} \right)
\end{align}
$$

ここで上記の導出にあたっては$u_0$と$u_j \quad 1 \leq j \leq M$を下記のように定義した。
$$
\large
\begin{align}
u_0 &= w_0 + \sum_{j=1}^{M} \frac{w_j}{2} \\
u_j &= \frac{w_j}{2}
\end{align}
$$

・注意
途中の計算で$\displaystyle \frac{x-\mu_j}{s}$が$\displaystyle \frac{x-\mu_j}{2s}$に変わったところは$(3.101), (3.102)$式と対応しないが、著者の解答では区別が行われていないので詳しい考察は行わなかった。

問題$3.5$

$$
\large
\begin{align}
\sum_{j=1}^{M} |w_j|^{q} & \leq \eta \quad (3.30) \\
\sum_{j=1}^{M} |w_j|^{q} – \eta & \leq 0 \\
\frac{1}{2} \left( \sum_{j=1}^{M} |w_j|^{q} – \eta \right) & \leq 0 \quad (1)
\end{align}
$$

$(3.30)$式は上記のように考えることができる。このとき、$(3.12)$式に対して$(1)$式の制約を元に最適化を行うことを考えるにあたってラグランジュの未定乗数法を用いる。ラグランジュ関数を$L(\mathbf{w},\lambda)$とおくと、$L(\mathbf{w},\lambda)$は下記のように表せる。
$$
\large
\begin{align}
L(\mathbf{w},\lambda) &= \frac{1}{2} \sum_{n=1}^{N} \left[ t_n – \mathbf{w}^{\mathrm{T}} \phi(x_n) \right]^2 + \frac{\lambda}{2} \left( \sum_{j=1}^{M} |w_j|^{q} – \eta \right) \\
&= \frac{1}{2} \sum_{n=1}^{N} \left[ t_n – \mathbf{w}^{\mathrm{T}} \phi(x_n) \right]^2 + \frac{\lambda}{2} \sum_{j=1}^{M} |w_j|^{q} + \mathrm{Const.} \quad (2)
\end{align}
$$

ここで上記の式で$\mathbf{w}^{\mathrm{T}}$を変数と考える場合、$\displaystyle \frac{\lambda \eta}{2}$は定数であるので$\mathrm{Const.}$のようにおいた。$(2)$式から$\mathrm{Const.}$を取り除けば$(3.29)$式に一致することから、$(3.12)$式に対して$(3.30)$式の制約を考えて最適化を行う場合と$(3.29)$式の最適化を行うことは同義であると考えられる。

問題$3.6$

$$
\large
\begin{align}
p(\mathbf{t}|\mathbf{W},\mathbf{\Sigma}) &= \mathcal{N}(\mathbf{t}|\mathbf{y}(\mathbf{x},\mathbf{W}),\mathbf{\Sigma}) \quad (3.107) \\
\mathbf{y}(\mathbf{x},\mathbf{W}) &= \mathbf{W}^{\mathrm{T}}\mathbf{\phi}(\mathbf{x}) \quad (3.108)
\end{align}
$$

ここでパラメータに関する尤度を$L(\mathbf{W},\mathbf{\Sigma})$とおくと、$\displaystyle L(\mathbf{W},\mathbf{\Sigma}) = \prod_{n=1}^{N} \mathcal{N}(\mathbf{t}|\mathbf{y}(\mathbf{x}_{n},\mathbf{W}),\mathbf{\Sigma})$であるので、対数尤度は$(3.107)$式、$(3.108)$式を用いて下記のように考えることができる。
$$
\large
\begin{align}
\ln{L(\mathbf{W},\mathbf{\Sigma})} &= \ln \left[ \prod_{n=1}^{N} \mathcal{N}(\mathbf{t}|\mathbf{y}(\mathbf{x}_{n},\mathbf{W}),\mathbf{\Sigma}) \right] \quad (3.107) \\
&= \ln \left[ \prod_{n=1}^{N} \mathcal{N}(\mathbf{t}|\mathbf{W}^{\mathrm{T}}\mathbf{\phi}(\mathbf{x}_{n}),\mathbf{\Sigma}) \right] \quad (3.108) \\
&= \ln \left[ \prod_{n=1}^{N} \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\mathbf{\Sigma}|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{t}-\mathbf{W}^{\mathrm{T}}\mathbf{\phi}(\mathbf{x}_{n}))^{\mathrm{T}} \mathbf{\Sigma}^{-1} (\mathbf{t}-\mathbf{W}^{\mathrm{T}}\mathbf{\phi}(\mathbf{x}_{n})) \right) \right] \\
&= – \frac{N}{2} \ln{|\mathbf{\Sigma}|} + \ln \left[ \exp \left( – \frac{1}{2} \sum_{n=1}^{N} (\mathbf{t}-\mathbf{W}^{\mathrm{T}}\mathbf{\phi}(\mathbf{x}_{n}))^{\mathrm{T}} \mathbf{\Sigma}^{-1} (\mathbf{t}-\mathbf{W}^{\mathrm{T}}\mathbf{\phi}(\mathbf{x}_{n})) \right) \right] \\
&= – \frac{N}{2} \ln{|\mathbf{\Sigma}|} – \frac{1}{2} \sum_{n=1}^{N} (\mathbf{t}-\mathbf{W}^{\mathrm{T}}\mathbf{\phi}(\mathbf{x}_{n}))^{\mathrm{T}} \mathbf{\Sigma}^{-1} (\mathbf{t}-\mathbf{W}^{\mathrm{T}}\mathbf{\phi}(\mathbf{x}_{n})) \quad (1)
\end{align}
$$

$(1)$式を$\mathbf{W}$に関して偏微分を行うと下記が得られる。
$$
\large
\begin{align}
\frac{\partial}{\partial \mathbf{W}}\ln{L(\mathbf{W},\mathbf{\Sigma})} &= \frac{\partial}{\partial \mathbf{W}} \left[ – \frac{N}{2} \ln{|\mathbf{\Sigma}|} – \frac{1}{2} \sum_{n=1}^{N} (\mathbf{t}-\mathbf{W}^{\mathrm{T}}\mathbf{\phi}(\mathbf{x}_{n}))^{\mathrm{T}} \mathbf{\Sigma}^{-1} (\mathbf{t}-\mathbf{W}^{\mathrm{T}}\mathbf{\phi}(\mathbf{x}_{n})) \right] \\
&= -\sum_{n=1}^{N} \mathbf{\Sigma}^{-1} (\mathbf{t}_{n}-\mathbf{W}^{\mathrm{T}} \mathbf{\phi}(\mathbf{x}_{n}))\mathbf{\phi}(\mathbf{x}_{n})^{\mathrm{T}}
\end{align}
$$

上記が零行列$\mathbf{O}$に等しい場合に$\mathbf{W}=\mathbf{W}_{ML}$であり、下記のように解ける。
$$
\large
\begin{align}
\sum_{n=1}^{N} \mathbf{\Sigma}^{-1} (\mathbf{t}_{n}-\mathbf{W}^{\mathrm{T}} \mathbf{\phi}(\mathbf{x}_{n}))\mathbf{\phi}(\mathbf{x}_{n})^{\mathrm{T}} &= \mathbf{O} \\
\mathbf{\Phi}^{\mathrm{T}}\mathbf{\Phi}\mathbf{W} &= \mathbf{\Phi}^{\mathrm{T}} \mathbf{T} \\
\mathbf{W} &= (\mathbf{\Phi}^{\mathrm{T}}\mathbf{\Phi})^{-1} \mathbf{\Phi}^{\mathrm{T}} \mathbf{T} \quad (3.15)
\end{align}
$$

また、$(2.122)$式と同様に考えることで$\bf{\Sigma}$の最尤解に関して下記が成立する。
$$
\large
\begin{align}
\mathbf{\Sigma}_{ML} = \frac{1}{N} \sum_{n=1}^{N} (\mathbf{t}_{n}-\mathbf{W}^{\mathrm{T}}\mathbf{\phi}(\mathbf{x}_{n}))(\mathbf{t}_{n}-\mathbf{W}^{\mathrm{T}}\mathbf{\phi}(\mathbf{x}_{n}))^{\mathrm{T}} \quad (3.109)
\end{align}
$$

$(2.122)$式の導出の詳細は$2$章の演習で取り扱った。

問題$3.7$

$$
\large
\begin{align}
p(\mathbf{t}|\mathbf{w}) &= p(t_1,…,t_N|\mathbf{w}) = \prod_{n=1}^{N} \mathcal{N}(t_n | \mathbf{w}^{\mathrm{T}}\phi(\mathbf{x}_{n}), \beta^{-1}) \quad (3.10) \\
p(\mathbf{w}) &= \mathcal{N}(\mathbf{w}|\mathbf{m}_{0},\mathbf{S}_{0}) \quad (3.48)
\end{align}
$$

上記より事後分布$p(\mathbf{w}|\mathbf{t})$は$\mathbf{w}$を変数と見る際に下記のように考えられる。
$$
\large
\begin{align}
p(\mathbf{w}|\mathbf{t}) & \propto p(\mathbf{t}|\mathbf{w}) p(\mathbf{w}) \\
&= \prod_{n=1}^{N} \mathcal{N}(t_n|\mathbf{w}^{\mathrm{T}}\phi(\mathbf{x}_{n}), \beta^{-1}) \times \mathcal{N}(\mathbf{w}|\mathbf{m}_{0},\mathbf{S}_{0}) \\
& \propto \exp \left[ – \frac{\beta}{2} \sum_{n=1}^{N} (t_n-\mathbf{w}^{\mathrm{T}}\phi(\mathbf{x}_{n}))^{2} – \frac{1}{2}(\mathbf{w}-\mathbf{m}_{0})^{\mathrm{T}} \mathbf{S}_{0}^{-1} (\mathbf{w}-\mathbf{m}_{0}) \right] \\
&= \exp \left[ – \frac{1}{2} (\mathbf{t}-\Phi \mathbf{w})^{\mathrm{T}} (\beta \mathbf{I}) (\mathbf{t}-\Phi \mathbf{w}) – \frac{1}{2}(\mathbf{w}-\mathbf{m}_{0})^{\mathrm{T}} \mathbf{S}_{0}^{-1} (\mathbf{w}-\mathbf{m}_{0}) \right] \\
& \propto \exp \left[ – \frac{1}{2} \mathbf{w}^{\mathrm{T}} \left( \beta \Phi^{\mathrm{T}} \Phi + \mathbf{S}_{0}^{-1} \right) \mathbf{w} + \mathbf{w}^{\mathrm{T}} \left( \beta \Phi^{\mathrm{T}} \mathbf{t} + \mathbf{S}_{0}^{-1} \mathbf{m}_{0} \right) \right] \quad (1)
\end{align}
$$

$\exp$の内部を平方完成するにあたっては、$(1)$式と下記の$(2.71)$式との対応を確認すればよい。ただし、$(1)$式は$\mathbf{w}$に関する平方完成、$(2.71)$式は$\mathbf{x}$に関する平方完成であることに注意が必要である。
$$
\large
\begin{align}
– \frac{1}{2} (\mathbf{x}-\mu)^{\mathrm{T}} \Sigma^{-1} (\mathbf{x}-\mu) = – \frac{1}{2} \mathbf{x}^{\mathrm{T}} \Sigma^{-1} \mathbf{x} + \mathbf{x}^{\mathrm{T}} \Sigma^{-1} \mu + \mathrm{Const.} \quad (2.71)
\end{align}
$$

事後分布の平均ベクトルを$\mathbf{m}_{N}$、共分散行列を$\mathbf{S}_{N}$とおくと、$\mathbf{m}_{N}, \mathbf{S}_{N}$はそれぞれ下記のように表せる。
$$
\large
\begin{align}
\mathbf{S}_{N}^{-1} &= \beta \Phi^{\mathrm{T}} \Phi + \mathbf{S}_{0}^{-1} \quad (3.51) \\
\mathbf{S}_{N}^{-1} \mathbf{m}_{N} &= \beta \Phi^{\mathrm{T}} \mathbf{t} + \mathbf{S}_{0}^{-1} \mathbf{m}_{0} \\
\mathbf{m}_{N} &= \mathbf{S}_{N} \left( \beta \Phi^{\mathrm{T}} \mathbf{t} + \mathbf{S}_{0}^{-1} \mathbf{m}_{0} \right) \quad (3.50)
\end{align}
$$

上記より$(3.50)$式、$(3.51)$式が成立する。

問題$3.8$

$$
\large
\begin{align}
p(t_{N+1}|\mathbf{w}) &= \mathcal{N}(t_{N+1}|\mathbf{w}^{\mathrm{T}}\phi(\mathbf{x}_{N}), \beta^{-1}) \quad (3.10)’ \\
p(\mathbf{w}) &= \mathcal{N}(\mathbf{w}|\mathbf{m}_{N},\mathbf{S}_{N}) \quad (3.49)
\end{align}
$$

上記より事後分布$p(\mathbf{w}|t_{N+1})$は$\mathbf{w}$を変数と見る際に下記のように考えられる。
$$
\large
\begin{align}
p(\mathbf{w}|t_{N+1}) & \propto p(t_{N+1}|\mathbf{w}) p(\mathbf{w}) \\
&= \mathcal{N}(t_{N+1}|\mathbf{w}^{\mathrm{T}}\phi(\mathbf{x}_{N}), \beta^{-1}) \times \mathcal{N}(\mathbf{w}|\mathbf{m}_{N},\mathbf{S}_{N}) \\
& \propto \exp \left[ – \frac{\beta}{2} (t_{N+1}-\mathbf{w}^{\mathrm{T}}\phi(\mathbf{x}_{N+1}))^{2} – \frac{1}{2}(\mathbf{w}-\mathbf{m}_{N})^{\mathrm{T}} \mathbf{S}_{N}^{-1} (\mathbf{w}-\mathbf{m}_{N}) \right] \\
&= \exp \left[ – \frac{\beta}{2} (t_{N+1} – \phi(\mathbf{x}_{N+1})^{\mathrm{T}} \mathbf{w})^{\mathrm{T}} (t_{N+1} – \phi(\mathbf{x}_{N+1})^{\mathrm{T}} \mathbf{w}) – \frac{1}{2}(\mathbf{w}-\mathbf{m}_{N})^{\mathrm{T}} \mathbf{S}_{N}^{-1} (\mathbf{w}-\mathbf{m}_{N}) \right] \\
& \propto \exp \left[ – \frac{1}{2} \mathbf{w}^{\mathrm{T}} \left( \beta \phi(\mathbf{x}_{N+1}) \phi(\mathbf{x}_{N+1})^{\mathrm{T}} + \mathbf{S}_{N}^{-1} \right) \mathbf{w} + \mathbf{w}^{\mathrm{T}} \left( \beta \phi(\mathbf{x}_{N+1}) t_{N+1} + \mathbf{S}_{N}^{-1} \mathbf{m}_{N} \right) \right]
\end{align}
$$

事後分布の平均ベクトルを$\mathbf{m}_{N}$、共分散行列を$\mathbf{S}_{N}$とおくと、問題$3.7$と同様に$(2.71)$式を元に$\mathbf{m}_{N}, \mathbf{S}_{N}$はそれぞれ下記のように表せる。
$$
\large
\begin{align}
\mathbf{S}_{N+1}^{-1} &= \beta \phi(\mathbf{x}_{N+1}) \phi(\mathbf{x}_{N+1})^{\mathrm{T}} + \mathbf{S}_{N}^{-1} \\
\mathbf{S}_{N+1}^{-1} \mathbf{m}_{N+1} &= \beta \phi(\mathbf{x}_{N+1}) t_{N+1} + \mathbf{S}_{N}^{-1} \mathbf{m}_{N} \\
\mathbf{m}_{N+1} &= \mathbf{S}_{N+1} \left( \beta \phi(\mathbf{x}_{N+1}) t_{N+1} + \mathbf{S}_{N}^{-1} \mathbf{m}_{N} \right)
\end{align}
$$

上記より$(3.49)$式の$\mathbf{S}_{N}$を$\mathbf{S}_{N+1}$、$\mathbf{m}_{N}$を$\mathbf{m}_{N+1}$で置き換えた結果が得られることがわかる。

また、ここで$\Phi^{\mathrm{T}} \Phi$が$\phi(\mathbf{x}_{N+1}) \phi(\mathbf{x}_{N+1})^{\mathrm{T}}$のように置き換わったが、$\Phi$は$\phi(\mathbf{x}_{n})$を横に並べたものであることに注意しておくとよい。少々わかりにくいので下記に少々わかりにくいので下記に成分表示を行なった。
$$
\large
\begin{align}
\phi(\mathbf{x}_{n}) &= \left(\begin{array}{c} \phi_{0}(\mathbf{x}_{n}) \\ \vdots \\ \phi_{M-1}(\mathbf{x}_{n}) \end{array} \right) \\
\phi(\mathbf{x}_{n})^{\mathrm{T}} &= \left(\begin{array}{ccc} \phi_{0}(\mathbf{x}_{n}) & \cdots & \phi_{M-1}(\mathbf{x}_{n}) \end{array} \right) \\
\Phi &= \left(\begin{array}{ccc} \phi_{0}(\mathbf{x}_{1}) & \cdots & \phi_{M-1}(\mathbf{x}_{1}) \\ \vdots & \ddots & \vdots \\ \phi_{0}(\mathbf{x}_{N}) & \cdots & \phi_{M-1}(\mathbf{x}_{N}) \end{array} \right) \quad (3.16)
\end{align}
$$

問題$3.10$

$$
\large
\begin{align}
p(t|\mathbf{t},\alpha,\beta) &= \int p(t|\mathbf{w},\beta) p(\mathbf{w}|\mathbf{t},\alpha,\beta) d \mathbf{w} \quad (3.57) \\
&= \int \mathcal{N}(t|y(\phi(\mathbf{x}),\mathbf{w}),\beta^{-1}) \mathcal{N}(\mathbf{w}|\mathbf{m}_{N},\mathbf{S}_{N}) d \mathbf{w} \quad (1)
\end{align}
$$

上記の$(1)$式の$\mathcal{N}(t|y(\mathbf{x},\mathbf{w}),\beta^{-1})$と$\mathcal{N}(\mathbf{w}|\mathbf{m}_{N},\mathbf{S}_{N})$はそれぞれ下記のように定義される。
$$
\large
\begin{align}
p(t|\mathbf{x},\mathbf{w},\beta) &= \mathcal{N}(t|y(\phi(\mathbf{x}),\mathbf{w}),\beta^{-1}) \quad (3.8)’ \\
p(\mathbf{w}) &= \mathcal{N}(\mathbf{w}|\mathbf{m}_{N},\mathbf{S}_{N}) \quad (3.49)
\end{align}
$$

よって$(3.8)$式、$(3.49)$式を$(1)$式に代入し、指数関数の内部の平方完成を行うことを考える。$(2.115)$式に基づいて考えることで、下記のように導出できる。
$$
\large
\begin{align}
p(t|\mathbf{t},\alpha,\beta) &= \int \mathcal{N}(t|y(\phi(\mathbf{x}),\mathbf{w}),\beta^{-1}) \mathcal{N}(\mathbf{w}|\mathbf{m}_{N},\mathbf{S}_{N}) d \mathbf{w} \quad (1) \\
&= \mathcal{N}(t|y(\phi(\mathbf{x}),\mathbf{m}_{N}),\beta^{-1}+\phi(\mathbf{x})^{\mathrm{T}}\mathbf{S}_{N}\phi(\mathbf{x})) \quad (3.57),(3.58),(3.59)
\end{align}
$$

上記が予測分布に一致する。

問題$3.15$

$$
\large
\begin{align}
E(\mathbf{m}_{N}) &= \frac{\beta}{2} ||\mathbf{t}-\Phi\mathbf{m}_{N}||^2 + \frac{\alpha}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N} \quad (3.82) \\
\alpha &= \frac{\gamma}{\mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}} \quad (3.92) \\
\frac{1}{\beta} &= \frac{1}{N-\gamma} \sum_{n=1}^{N} \left[ t_{n} – \mathbf{m}_{N}^{\mathrm{T}}\phi(\mathbf{x}_{n}) \right]^{2} \quad (3.95)
\end{align}
$$

上記の$(3.95)$式に対し、$\displaystyle \sum_{n=1}^{N} \left[ t_{n} – \mathbf{m}_{N}^{\mathrm{T}}\phi(\mathbf{x}_{n}) \right]^{2} = ||\mathbf{t}-\Phi\mathbf{m}_{N}||^{2}$が適用できることに注意しながら$(3.82)$式に$(3.92)$式と$(3.95)$式を代入すれば良い。
$$
\large
\begin{align}
E(\mathbf{m}_{N}) &= \frac{\beta}{2} ||\mathbf{t}-\Phi\mathbf{m}_{N}||^2 + \frac{\alpha}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N} \quad (3.82) \\
&= \frac{||\mathbf{t}-\Phi\mathbf{m}_{N}||^2}{2} \times \frac{N-\gamma}{||\mathbf{t}-\Phi\mathbf{m}_{N}||^2} + \frac{\mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}}{2} \times \frac{\gamma}{\mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}} \\
&= \frac{N-\gamma||^2}{2} + \frac{\gamma}{2} = \frac{N}{2}
\end{align}
$$

上記より$2E(\mathbf{m}_{N})=N$が成立することが確認できる。

【統計の森ちゃんねる】ゲーム×統計@桃鉄まとめ

統計の森では、「統計の森ちゃんねる」というYouTubeチャンネルを運営しています。

統計の森ちゃんねるでは、ゲームを題材に統計的手法を使ってゲームにまつわる様々な秘密をのぞいて遊ぼうという企画「ゲーム×統計」を進めています。

本記事では、ゲーム×統計の第一弾である「ゲーム×統計@桃鉄」のまとめ記事です。

#01 普通にプレイしながら企画説明

3年決戦を普通にプレイしながら、本動画企画の趣旨を説明しています。

動画企画の目的

桃鉄定番の最強キャラ「さくま鉄人」の強さの秘密はどこにあるのか?を取得したデータに基づいて考察して遊ぶ。

ゲーム設定

  • 「ひとりで桃鉄」の「桃鉄3年決戦」
  • 対戦相手(CPU)
    • ガキ
    • ようきひ
    • さくま鉄人

データの取得について

エミュレーターなどのツールは利用しない。ゲームプレイを通してデータを集める。

#02 3年決戦結果の単純集計を眺める

3年決戦を19戦した結果を単純集計しています。

単純集計結果

19戦した結果、さくま鉄人が圧倒的に強いというわけではないことがわかった。下記notebookを参照。

#03 勝敗数の差を評価する(仮説検定)

適合度の$\chi^2$検定を利用して勝敗数の違いについて有意差を評価しています。

アプローチ

各プレーヤーの「勝率」に従ってランダムに勝敗が決まると仮定し、プレーや毎の勝率が同じ(強さは変わらない)という仮説(帰無仮説)を評価する。

評価結果

5%有意基準で帰無仮説は棄却されることがわかった。つまり、各プレーヤーの勝敗数の差はランダムに生じたものとはいえず、「勝率」に差があるだろうことがわかった。

下記参照

#04 3人の勝率を推論しよう(ベイズ推定)

3人の勝率をデータに基づいて直接推論します。推論にあたっては勝率に関して確率モデルを構築し、いわゆるベイズ推論をおこなっています。

アプローチ

#03と同様に勝率に基づいてランダムに勝敗が決まると仮定する。このように仮定すると、カテゴリ分布で勝敗がモデル化できる。
カテゴリ分布の共役事前分布はディリクレ分布であり、事後分布はディリクレ分布になる。

なお、カテゴリ分布は多項分布を扱うことでも同じ結果となる。

結果

事後分布の95%区間(95%信用区間)を比較すると、「さくま鉄人」と「ようきひ」の勝率は「ようきひ」の方が高いということがわかった。

下記参照

#05 ようきひの強さを探る(データ収集回)

前回と前々回の分析結果から、「3年決戦」において「さくま鉄人」よりも「ようきひ」の方が強そうだということがわかりました。そこで、今回は「ようきひ」の強さについて、サイコロの出目の分布を評価しています。

アプローチ

#03 と同様に適合度の$\chi^2$検定を利用して、サイコロの出目が等確率であるかを評価する。
しかし、未だデータが1戦分しかないため、今回はサイコロの出目を「小さい(1~3)」と「大きい(4~6)」に分けて、小さい目と大きい目が等確率で生じるのかを評価する。

結果

さくま鉄人のサイコロ出目は等確率であるという仮説を棄却することはできなかったが、ようきひとガキはどちらも棄却された。つまり、ようきひはサイコロ出目が大きい確率が高く、ガキはサイコロ出目が小さい確率が高いと言えそうである。

ただし、データが少なく、確定はできないと考えている。

下記参照

Ch.4 「線形識別モデル」の章末問題の解答例 パターン認識と機械学習 4.1〜4.15

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.$4$の「線形識別モデル」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・参考
パターン認識と機械学習 解答まとめ
https://www.hello-statisticians.com/answer_textbook_prml

解答まとめ

問題$4.4$

下記で詳細の導出を取り扱った。

・$w^{\mathrm{T}}w=1$の制約条件下での線形判別の導出

問題$4.5$

下記で同様の計算を行なった。

・フィッシャーの線形判別

問題$4.7$

$$
\large
\begin{align}
\sigma(a) = \frac{1}{1 + \exp(-a)} \quad (4.59)
\end{align}
$$

ロジスティックシグモイド関数$\sigma(a)$は上記のように表されるが、このとき$\sigma(a) = 1-\sigma(-a)$と$\displaystyle \sigma^{-1}(y) = \ln{\frac{y}{1-y}}$が成立することをそれぞれ示す。

・$\sigma(a) = 1-\sigma(-a)$
$(4.59)$式で表した定義式を元に$\sigma(a)$は下記のように変形を行うことができる。
$$
\large
\begin{align}
\sigma(a) &= \frac{1}{1 + \exp(-a)} \\
&= \frac{\exp(a)}{\exp(a) + 1} \\
&= \frac{\exp(a) + 1 – 1}{\exp(a) + 1} \\
&= \frac{\exp(a) + 1}{\exp(a) + 1} – \frac{1}{\exp(a) + 1} \\
&= 1 – \sigma(a)
\end{align}
$$

・$\displaystyle \sigma^{-1}(y) = \ln{\frac{y}{1-y}}$
$y=\sigma(a)$とおき、$a$に関して解けば良い。
$$
\large
\begin{align}
y &= \sigma(a) = \frac{1}{1 + \exp(-a)} \\
y (1 + \exp(-a)) &= 1 \\
y \exp(-a) &= 1 – y \\
\exp(-a) &= \frac{1-y}{y} \\
-a &= \ln{\frac{1-y}{y}} \\
a &= \ln{\frac{y}{1-y}} = \sigma^{-1}(y)
\end{align}
$$

問題$4.8$

$$
\large
\begin{align}
p(\mathcal{C}_{1}|\mathbf{x}) &= \sigma(a) = \frac{1}{1+\exp(-a)} \quad (4.57) \\
a &= \ln{ \frac{p(\mathbf{x}|\mathcal{C}_{1})p(\mathcal{C}_{1})}{p(\mathbf{x}|\mathcal{C}_{2})p(\mathcal{C}_{2})} } \quad (4.58) \\
p(\mathbf{x}|\mathcal{C}_{k}) &= \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left[ -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \right] \quad (4.64)
\end{align}
$$

$(4.58)$式に$(4.64)$式を代入すると下記のように変形を行える。
$$
\large
\begin{align}
a &= \ln{ \frac{p(\mathbf{x}|\mathcal{C}_{1})p(\mathcal{C}_{1})}{p(\mathbf{x}|\mathcal{C}_{2})p(\mathcal{C}_{2})} } \quad (4.58) \\
&= \ln{ \frac{(2 \pi)^{-D/2} |\Sigma|^{-1/2} \exp \left[ -\frac{1}{2}(\mathbf{x}-\mathbf{\mu_1})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu_1}) \right]}{(2 \pi)^{-D/2} |\Sigma|^{-1/2} \exp \left[ -\frac{1}{2}(\mathbf{x}-\mathbf{\mu_2})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu_2}) \right]} } + \ln{ \frac{p(\mathcal{C}_{1})}{p(\mathcal{C}_{2})} } \\
&= \ln{ \left( \exp \left[ -\frac{1}{2}(\mathbf{x}-\mathbf{\mu_1})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu_1}) + \frac{1}{2}(\mathbf{x}-\mathbf{\mu_2})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu_2}) \right] \right)} + \ln{ \frac{p(\mathcal{C}_{1})}{p(\mathcal{C}_{2})} } \\
&= -\frac{1}{2}(\mathbf{x}-\mathbf{\mu_1})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu_1}) + \frac{1}{2}(\mathbf{x}-\mathbf{\mu_2})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu_2}) + \ln{ \frac{p(\mathcal{C}_{1})}{p(\mathcal{C}_{2})} } \\
&= \mathbf{x}^{\mathrm{T}}\Sigma^{-1}(\mathbf{\mu_1}-\mathbf{\mu_2}) – \frac{1}{2}\mathbf{\mu_1}^{\mathrm{T}}\Sigma^{-1}\mathbf{\mu_1} + \frac{1}{2}\mathbf{\mu_2}^{\mathrm{T}}\Sigma^{-1}\mathbf{\mu_2} + \ln{ \frac{p(\mathcal{C}_{1})}{p(\mathcal{C}_{2})} }
\end{align}
$$

上記に$(4.66)$式、$(4.67)$式を用いることで$(4.65)$式が得られる。

問題$4.9$

尤度関数を$p(\{\phi_n,\mathbf{t}_{n}\}|\{\pi_{k}\})$とおくと、$p(\{\phi_n,\mathbf{t}_{n}\}|\{\pi_{k}\})$は下記のように表せる。
$$
\large
\begin{align}
p(\{\phi_n,\mathbf{t}_{n}\}|\{\pi_{k}\}) = \prod_{n=1}^{N} \prod_{k=1}^{K} \left[ p(\phi_{n}|\mathcal{C}_{k}) \pi_{k} \right]^{t_{nk}}
\end{align}
$$

上記の対数を取り、$\pi_{k}$を変数と見た対数尤度関数を$l(\pi_{k})$と表すと$l(\pi_{k})$は下記のように表せる。
$$
\large
\begin{align}
l(\pi_{k}) &= \ln{ \left( \prod_{n=1}^{N} \prod_{k=1}^{K} \left[ p(\phi_{n}|\mathcal{C}_{k}) \pi_{k} \right]^{t_{nk}} \right) } \\
&= \sum_{n=1}^{N} \sum_{k=1}^{K} t_{nk} \ln{\pi_{k}} + \mathrm{Const.}
\end{align}
$$

上記を制約条件$\displaystyle \sum_{k=1}^{K} \pi_{k} = 1$の下で最大化を行う。Lagrange Multipliersの$\lambda$を用いて下記のように関数$l'(\pi_{k})$を定義する。
$$
\large
\begin{align}
l'(\pi_{k}) = l(\pi_{k}) + \lambda \left( 1 – \sum_{k=1}^{K} \pi_{k} \right)
\end{align}
$$

$l'(\pi_{k})$を$\pi_{k}$に関して最大化するにあたって、$\pi_{k}$で偏微分を行う。
$$
\large
\begin{align}
\frac{\partial l'(\pi_{k})}{\partial \pi_{k}} &= \sum_{n=1}^{N} \frac{t_{nk}}{\pi_{k}} + \lambda \\
&= \frac{1}{\pi_{k}} N_{k} + \lambda
\end{align}
$$

ここで$N_{k}$は$\mathcal{C}_{k}$に含まれるサンプル数に対応する。また、$(1)$式は$\pi_{k}$に関して単調減少であることから、$\displaystyle \frac{\partial l'(\pi_{k})}{\partial \pi_{k}}=0$のとき$l'(\pi_{k})$は最大値を取る。
$$
\large
\begin{align}
\frac{\partial l'(\pi_{k})}{\partial \pi_{k}} &= 0 \\
\frac{1}{\pi_{k}} N_{k} + \lambda &= 0 \\
-\lambda \pi_{k} &= N_{k} \quad (2)
\end{align}
$$

ここで$(2)$式の両辺の$k=1,…,K$での和を取ると下記のようになる。
$$
\large
\begin{align}
\sum_{k-1}^{K} (-\lambda \pi_{k}) &= \sum_{k=1}^{K} N_{k} \\
-\lambda \sum_{k-1}^{K} \pi_{k} &= \sum_{k=1}^{K} N_{k} \\
\lambda &= -N
\end{align}
$$

上記を$(2)$式に代入し、$\pi_{k}$に関して解くと下記が得られる。
$$
\large
\begin{align}
-\lambda \pi_{k} &= N_{k} \quad (2) \\
N \pi_{k} &= N_{k} \\
\pi_{k} &= \frac{N_{k}}{N} \quad (4.159)
\end{align}
$$

問題$4.12$

$$
\large
\begin{align}
\sigma(a) = \frac{1}{1 + \exp(-a)} \quad (4.59)
\end{align}
$$

上記のように定義されたロジスティックシグモイド関数$\sigma(a)$に対して$a$で微分することを考える。
$$
\large
\begin{align}
\frac{d}{da} \sigma(a) &= – \frac{1}{(1 + \exp(-a))^2} \frac{d}{da} (1 + \exp(-a)) \\
&= \frac{\exp(-a)}{(1 + \exp(-a))^2} \\
&= \frac{1}{1 + \exp(-a)} \times \frac{\exp(-a)}{1 + \exp(-a)} \\
&= \frac{1}{1 + \exp(-a)} \times \left( 1 – \frac{1}{1 + \exp(-a)} \right) \\
&= \sigma(a) (1 – \sigma(a)) \quad (4.88)
\end{align}
$$

よって$(4.88)$が成立することがわかる。

問題$4.13$

$$
\large
\begin{align}
E(\mathbf{w}) &= – \sum_{n=1}^{N} \left[ t_n \ln{y_n} + (1-t_n) \ln{(1-y_n)} \right] \quad (4.90) \\
y_n &= \sigma(a_n) = \frac{1}{1+\exp{(a_n)}} \quad (4.59) \\
a_n &= \mathbf{w}^{\mathrm{T}} \phi_{n}
\end{align}
$$

上記の$(4.90)$式をベクトル$\mathbf{w}$で偏微分を行うと、$(4.88)$式などを用いることで下記のように変形することができる。
$$
\large
\begin{align}
\nabla E(\mathbf{w}) &= \frac{\partial E(\mathbf{w})}{\partial \mathbf{w}} \\
&= \frac{\partial E(\mathbf{w})}{\partial y_n} \frac{\partial y_n}{\partial a_n} \frac{\partial a_n}{\partial \mathbf{w}} \\
&= – \sum_{n=1}^{N} \left[ \frac{t_n}{y_n} – \frac{1-t_n}{1-y_n} \right] \times \sigma(a_n) (1 – \sigma(a_n)) \times \phi_{n} \\
&= \sum_{n=1}^{N} \left[ \frac{1-t_n}{1-y_n} – \frac{t_n}{y_n} \right] \times y_n (1 – y_n) \times \phi_{n} \\
&= \sum_{n=1}^{N} \left[ y_n(1-t_n) – (1-y_n)t_n \right] \times \phi_{n} \\
&= \sum_{n=1}^{N} \left[ y_n – y_n t_n – t_n + y_n t_n \right] \times \phi_{n} \\
&= \sum_{n=1}^{N} ( y_n – t_n ) \phi_{n} \quad (4.91)
\end{align}
$$

このように$(4.91)$の導出を行える。

Ch.1 「序論」の章末問題の解答例 パターン認識と機械学習 1.21〜1.41

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.$1$の「序論」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・参考
パターン認識と機械学習 解答まとめ
https://www.hello-statisticians.com/answer_textbook#prml

解答まとめ

問題$1.21$

・$p(x,C_1) \geq p(x,C_2)$の区間$\mathcal{R}_{1}$
$$
\large
\begin{align}
p(x,C_2) \leq (p(x,C_1)p(x,C_2))^{\frac{1}{2}}
\end{align}
$$

・$p(x,C_1) < p(x,C_2)$の区間
$$
\large
\begin{align}
p(x,C_1) \leq (p(x,C_1)p(x,C_2))^{\frac{1}{2}}
\end{align}
$$

ここで$(1.78)$式に関して下記が成立する。
$$
\large
\begin{align}
p(\mathrm{mistake}) &= \int_{\mathcal{R}_{1}} p(x,C_2) dx + \int_{\mathcal{R}_{2}} p(x,C_1) dx \quad (1.78) \\
&= \int{\mathcal{R}_{1}} (p(x,C_1)p(x,C_2))^{\frac{1}{2}} dx + \int_{\mathcal{R}_{2}} (p(x,C_1)p(x,C_2))^{\frac{1}{2}} dx \\
& \leq \int (p(x,C_1)p(x,C_2))^{\frac{1}{2}} dx \quad (1.150)
\end{align}
$$

以上より$(1.150)$式は成立する。

問題$1.28$

$h(p^2)=h(p,p)=2h(p)$より$h(p^2)=2h(p)$が成立する。次に$h(p^k)=kh(p)$が成立するとき$h(p^{k+1})=(k+1)h(p)$が成立することを示す。
$$
\large
\begin{align}
h(p^{k+1}) &= h(p^{k},p) \\
&= h(p^{k}) + h(p) \\
&= kh(p) + h(p) = (k+1)h(p)
\end{align}
$$

上記より、数学的帰納法を用いることで任意の$n$に対し、$h(p^{n+1})=(n+1)h(p)$が成立する。また、このとき$p^{n/m}$に関して下記が成立する。
$$
\large
\begin{align}
h(p^{\frac{n}{m}}) &= n h(p^{\frac{1}{m}}) \\
&= \frac{n}{m} \times m h(p^{\frac{1}{m}}) \\
&= \frac{n}{m} h(p^{\frac{m}{m}}) = \frac{n}{m} h(p)
\end{align}
$$

以下、$h(p^{x})=xh(p)$が成立すると仮定するとき、$h(p) \propto \ln{p}$であることを示す。ここで$p=q^{x}$とおくと、$\displaystyle \frac{h(p)}{\ln{p}}$は下記のように変形を行える。
$$
\large
\begin{align}
\frac{h(p)}{\ln{p}} &= \frac{h(q^{x})}{\ln{q^{x}}} \\
&= \frac{\cancel{x}h(q)}{\cancel{x}\ln{q}} \\
&= \frac{h(q)}{\ln{q}}
\end{align}
$$

上記より$h(p) \propto \ln{p}$であることが示される。

問題$1.29$

$m$番目の状態の確率を$p(x_m)$で表すとき、全$M$状態に関するエントロピー$H[x]$は下記のように考えられる。
$$
\large
\begin{align}
H[x] = -\sum_{m=1}^{M} p(x_m) \ln{p(x_m)} = \sum_{m=1}^{M} p(x_m) \ln{\frac{1}{p(x_m)}}
\end{align}
$$

ここで$f(x) = \ln(x)$とおくと$f(x)$は上に凸の関数であるので、イェンセンの不等式を適用することで下記の変形が成立する。
$$
\large
\begin{align}
H[x] &= \sum_{m=1}^{M} p(x_m) \ln{\frac{1}{p(x_m)}} \\
& \leq \ln{ \sum_{m=1}^{M} p(x_m) \frac{1}{p(x_m)} } \\
&= \ln{ \sum_{m=1}^{M} 1} = \ln{M}
\end{align}
$$

問題$1.30$

$$
\large
\begin{align}
KL(p||q) &= – \int p(x) \ln{\frac{q(x)}{p(x)}} dx \quad (1.113) \\
&= \int p(x) \ln{p(x)} dx – \int p(x) \ln{q(x)} dx \quad (1)
\end{align}
$$

上記の$(1)$式の第$1$項は$(1.110)$式より下記のように表せる。
$$
\large
\begin{align}
\int p(x) \ln{p(x)} dx &= -H[x] \\
&= -\frac{1}{2} \left[ 1 + \ln{(2 \pi \sigma^2)} \right] \quad (1.110)
\end{align}
$$

上記の詳しい導出は演習$1.35$で取り扱った。また、$(1)$式の第$2$項は$q(x)=\mathcal{N}(x|m,s^{2})$より下記のように変形を行える。
$$
\large
\begin{align}
\int p(x) \ln{q(x)} dx &= \int p(x) \ln{\mathcal{N}(x|m,s^{2})} dx \\
&= \int p(x) \ln{ \left[ \frac{1}{\sqrt{2 \pi s^2}} \exp \left( -\frac{(x-m)^2}{2s^2} \right) \right]} dx \\
&= – \frac{1}{2} \ln{2 \pi s^2} \int p(x) dx – \frac{1}{2s^2} \int p(x)(x-m)^2 dx \quad (2)
\end{align}
$$

ここで$(2)$式を考えるにあたって、確率分布$p(x)=\mathcal{N}(x|\mu,\sigma^{2})$に関して下記が成立することを用いる。
$$
\large
\begin{align}
\int p(x) dx &= 1 \quad (1.48) \\
\int xp(x) dx &= \mu \quad (1.49) \\
\int x^2p(x) dx &= \mu^2+\sigma^2 \quad (1.50)
\end{align}
$$

上記の$(1.49),(1.50)$式の詳しい導出は演習$1.8$で取り扱った。$(1.48)$〜$(1.50)$を元に$(2)$式は下記のように変形を行える。
$$
\large
\begin{align}
& \int p(x) \ln{q(x)} dx \\
&= – \frac{1}{2} \ln{2 \pi s^2} \int p(x) dx – \frac{1}{2s^2} \int p(x)(x-m)^2 dx \quad (2) \\
&= – \frac{1}{2} \ln{2 \pi s^2} \int p(x) dx – \frac{1}{2s^2} \int p(x)(x^2-2mx+m^2) dx \\
&= – \frac{1}{2} \ln{2 \pi s^2} \int p(x) dx – \frac{1}{2s^2} \left[ \int x^2p(x) dx – 2m\int xp(x) dx + m^2 \int p(x) dx \right] \\
&= – \frac{1}{2} \ln{(2 \pi s^2)} – \frac{1}{2s^2} \left[ \mu^2+\sigma^2 – 2 \mu m + m^2 \right] \quad (3)
\end{align}
$$

$(1)$式に$(1.110)$式と$(3)$式を代入することで下記が得られる。
$$
\large
\begin{align}
KL(p||q) &= \int p(x) \ln{p(x)} dx – \int p(x) \ln{q(x)} dx \quad (1) \\
&= -\frac{1}{2} \left[ 1 + \ln{(2 \pi \sigma^2)} \right] + \frac{1}{2} \ln{(2 \pi s^2)} + \frac{1}{2s^2} \left[ \mu^2+\sigma^2 – 2 \mu m + m^2 \right] \\
&= \frac{1}{2} \ln{\frac{\cancel{2 \pi} s^2}{\cancel{2 \pi} \sigma^2}} + \frac{1}{2s^2} \left[ \mu^2+\sigma^2 – 2 \mu m + m^2 \right] – \frac{1}{2} \\
&= \frac{1}{2} \ln{\frac{s^2}{\sigma^2}} + \frac{1}{2} \left[ \frac{1}{s^2}(\mu^2+\sigma^2 – 2 \mu m + m^2) – 1 \right] \\
&= \ln{\frac{s}{\sigma}} + \frac{1}{2} \left[ \frac{1}{s^2}(\mu^2+\sigma^2 – 2 \mu m + m^2) – 1 \right]
\end{align}
$$

・考察
結果の解釈にあたって、下記でグラフ化などを取り扱った。
https://www.hello-statisticians.com/explain-terms-cat/kl_divergence1.html

問題$1.31$

$H[x,y]$は下記のように変形を行える。
$$
\large
\begin{align}
H[x,y] &= H[y|x] + H[x] \quad (1.112) \\
&= H[y|x] – H[y] + H[x] + H[y] \\
&= I[x,y] + H[x] + H[y] \quad (1.121) \\
&= \mathrm{KL}(p(x,y)||p(x)p(y)) + H[x] + H[y] \quad (1.120) \\
& \geq H[x] + H[y]
\end{align}
$$

上記の不等号は$KL$ダイバージェンスが$0$以上であることを元に成立する。また、$KL$ダイバージェンスの等号の成立条件は$p(x,y)=p(x)p(y)$であるので、「$p(x,y)=p(x)p(y)$が成立する」すなわち$x, y$が独立の場合は等号が成立する。

問題$1.35$

$(1.104)$式に$(1.109)$式を代入すると、下記のように変形を行える。
$$
\large
\begin{align}
H[x] &= – \int p(x) \ln p(x) dx \quad (1.104) \\
&= – \int p(x) \ln \left[ -\frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{(x-\mu)^2}{2 \sigma^2} \right) \right] dx \\
&= – \int p(x) \left( -\frac{(x-\mu)^2}{2 \sigma^2} – \frac{1}{2} \ln{(2 \pi \sigma^2)} \right) dx \\
&= \frac{1}{2 \sigma^2} \int p(x) (x-\mu)^2 dx + \frac{1}{2} \ln{(2 \pi \sigma^2)} \int p(x) dx \\
&= \frac{1}{2 \sigma^2} \times \sigma^2 + \frac{1}{2} \ln{(2 \pi \sigma^2)} \int p(x) dx \\
&= \frac{1}{2} \left[ 1 + \ln{(2 \pi \sigma^2)} \right] \quad (1.110)
\end{align}
$$

上記の途中計算では$(1.106)$式と$(1.107)$を用いた。

・考察
$\sigma^2$の値の変化に対して$H[x]$がどのように変化するかを以下確認する。

import numpy as np
import matplotlib.pyplot as plt

sigma2 = np.arange(0.01,5.,0.01)
h_x = (1+np.log(2*np.pi*sigma2))/2.

plt.plot(sigma2,h_x)
plt.xlabel("sigma^2")
plt.ylabel("H[x]")

plt.show()

・実行結果

$H[x]$の値の変化、$x$方向は分散$\sigma^2$の値に対応、平均$\mu$の値はエントロピーの変化に寄与しないことは抑えておくとよい

問題$1.36$

$2$階微分は$1$階微分の増減を表すので、$2$階微分が正である場合は$1$階微分が単調増加となる。$1$階微分が単調増加の場合、弦$\geq$関数となり、下に凸の定義と一致する。より厳密な証明は平均値の定理などを用いて行うことができるが直感的な理解を重視するにあたってここでは省略する。

問題$1.37$

$H[\mathbf{x},\mathbf{y}]$はエントロピーの定義より下記のように表される。
$$
\large
\begin{align}
H[\mathbf{x},\mathbf{y}] = – \int \int p(\mathbf{x},\mathbf{y}) \ln{p(\mathbf{x},\mathbf{y})} dy dx
\end{align}
$$

ここで$p(\mathbf{x},\mathbf{y}) = p(\mathbf{y}|\mathbf{x})p(\mathbf{x})$が成立するので$\ln{p(\mathbf{x},\mathbf{y})}$は下記のように変形することができる。
$$
\large
\begin{align}
\ln{p(\mathbf{x},\mathbf{y})} &= \ln{p(\mathbf{y}|\mathbf{x})p(\mathbf{x})} \\
&= \ln{p(\mathbf{y}|\mathbf{x})} + \ln{p(\mathbf{x})}
\end{align}
$$

よって$H[\mathbf{x},\mathbf{y}]$は下記のように変形することができる。
$$
\large
\begin{align}
H[\mathbf{x},\mathbf{y}] &= – \int \int p(\mathbf{x},\mathbf{y}) \ln{p(\mathbf{x},\mathbf{y})} dy dx \\
&= – \int \int p(\mathbf{x},\mathbf{y}) (\ln{p(\mathbf{y}|\mathbf{x})} + \ln{p(\mathbf{x})}) dy dx \\
&= – \int \int p(\mathbf{x},\mathbf{y}) \ln{p(\mathbf{y}|\mathbf{x})} dy dx – \int \int p(\mathbf{x},\mathbf{y}) \ln{p(\mathbf{x})} dy dx \\
&= H[\mathbf{y}|\mathbf{x}] – \int \int p(\mathbf{x}) \ln{p(\mathbf{x})} dx \\
&= H[\mathbf{y}|\mathbf{x}] + H[\mathbf{x}]
\end{align}
$$

上記より$(1.112)$式が成立する。

問題$1.38$

$$
\large
\begin{align}
f \left( \sum_{i=1}^{M} \lambda_{i} x_{i} \right) \leq \sum_{i=1}^{M} f(x_{i}) \quad (1.115)
\end{align}
$$

上記に表した$(1.115)$式を以下数学的帰納法を用いて示す。具体的には「i) $M=2$で成立」、「ⅱ) $M=k$で成立すれば$M=k+1$で成立」を示せば良い。i)は$(1.114)$式が対応するので、ⅱ)に関して下記で示す。

$$
\large
\begin{align}
f \left( \sum_{i=1}^{M+1} \lambda_{i} x_{i} \right) &= f \left( \lambda_{M+1} x_{M+1} + \sum_{i=1}^{M} \lambda_{i} x_{i} \right) \\
&= f \left( \lambda_{M+1} x_{M+1} + (1-\lambda_{M+1})\sum_{i=1}^{M} \frac{\lambda_{i}}{1-\lambda_{M+1}} x_{i} \right) \\
& \leq \lambda_{M+1} f(x_{M+1}) + (1-\lambda_{M+1}) f \left( \sum_{i=1}^{M} \frac{\lambda_{i}}{1-\lambda_{M+1}} x_{i} \right) \quad (1)
\end{align}
$$

ここで上記の式で$\displaystyle \sum_{i=1}^{k} \frac{\lambda_{i}}{1-\lambda_{k+1}} = \frac{1-\lambda_{k+1}}{1-\lambda_{k+1}} = 1$より下記が成立する。
$$
\large
\begin{align}
f \left( \sum_{i=1}^{k} \frac{\lambda_{i}}{1-\lambda_{k+1}} x_{i} \right) \leq \sum_{i=1}^{k}\frac{\lambda_{i}}{1-\lambda_{k+1}} f(x_{i}) \quad (2)
\end{align}
$$

$(1)$式と$(2)$式より下記が成立する。
$$
\large
\begin{align}
f \left( \sum_{i=1}^{k+1} \lambda_{i} x_{i} \right) & \leq \lambda_{k+1} f(x_{k+1}) + (1-\lambda_{k+1}) f \left( \sum_{i=1}^{k} \frac{\lambda_{i}}{1-\lambda_{k+1}} x_{i} \right) \\
& \leq \lambda_{k+1} f(x_{k+1}) + (1-\lambda_{k+1}) \sum_{i=1}^{k} \frac{\lambda_{i}}{1-\lambda_{k+1}} f(x_{i}) \\
&= \lambda_{k+1} f(x_{k+1}) + \sum_{i=1}^{k} \lambda_{i} f(x_{i}) = \sum_{i=1}^{k+1} \lambda_{i} f(x_{i})
\end{align}
$$

上記よりⅱ)が示される。よってi)とⅱ)が成立することより、$(1.115)$式は任意の$M \geq 2$で成立することが示される。

問題$1.40$

$$
\large
\begin{align}
\frac{1}{n} \sum_{i=1}^{n} x_n \geq \left( \prod_{i=1}^{n} x_n \right)^{\frac{1}{n}} \quad (1)
\end{align}
$$

上記の$(1)$式が成立することを示せば良いので、$\displaystyle \ln{\left( \prod_{i=1}^{n} x_n \right)^{\frac{1}{n}}} \leq \ln{ \left[ \frac{1}{n} \sum_{i=1}^{n} x_n \right] }$を示すことを考える。

$\displaystyle \ln{\left( \prod_{i=1}^{n} x_n \right)^{\frac{1}{n}}}$を下記のように変形し、イェンセンの不等式を適用することを考える。
$$
\large
\begin{align}
\ln{\left( \prod_{i=1}^{n} x_n \right)^{\frac{1}{n}}} &= \frac{1}{n} \ln{\left( \prod_{i=1}^{n} x_n \right)} \\
&= \frac{1}{n} \sum_{i=1}^{n} \ln{x_n} \\
&= \sum_{i=1}^{n} \frac{1}{n} \ln{x_n} \\
& \leq \ln{ \left[ \sum_{i=1}^{n} \frac{1}{n} x_n \right] } \\
&= \ln{ \left[ \frac{1}{n} \sum_{i=1}^{n} x_n \right] }
\end{align}
$$

上記より$(1)$式が成立することが示せる。

問題$1.41$

$(1.120)$式は下記のように変形を行える。
$$
\large
\begin{align}
I[x,y] &= \mathrm{KL}(p(x,y)||p(x)p(y)) = – \int \int p(x,y) \ln{ \left( \frac{p(x)p(y)}{p(x,y)} \right) } dx dy \quad (1.120) \\
&= \int \int p(x,y) \left( \ln{p(x)} + \ln{\frac{p(y)}{p(x,y)}} \right) dx dy \\
&= – \int \int p(x,y) \left( \ln{p(x)} – \ln{\frac{p(x,y)}{p(y)}} \right) dx dy \\
&= – \int \int p(x,y) \ln{p(x)} dx dy + \int \int p(x,y) \ln{p(x|y)} dx dy \\
&= H[x] – H[x|y] \quad (1.121)’
\end{align}
$$

上記より$I[x,y]=H[x]-H[x|y]$が成立する。また同様に考えることで$I[x,y]=H[y]-H[y|x]$も示すことができ、$(1.121)$式が成立することがわかる。

7章「母平均の区間推定」の練習問題解答例〜例題で学ぶ初歩からの統計学[第2版]〜

当記事は「白砂, 例題で学ぶ初歩からの統計学 第$2$版 (日本評論社)」の読解サポートにあたって$7$章「母平均の区間推定」の練習問題を解説します。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。(そのため著者の意図とは異なる解説となる可能性はあります)

・統計学に関する書籍の解答集
https://www.hello-statisticians.com/answer_textbook

執筆:@kakusan96

演習問題解答例

7.1 母平均の区間推定 [正規母集団で母標準偏差$\sigma$が既知:$n \ge 30$]

母集団が平均$\mu$、$分散\sigma^2$の正規分布の時、標本$\bar{X}$の分布は$平均\mu$、$分散\frac{\sigma^{2}}{n}$の正規分布になる。よって$\bar{X}$を標準化した$z = \frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}}$は標準正規分布$\mathcal{N}(0, 1)$に従う。信頼係数が$\alpha$の時、標準正規分布において上側確率が$\frac{1-\alpha}{2}$になるz値を$z_{\frac{1-\alpha}{2}}$としたとき

$$
\begin{align}
-z_{\frac{1-\alpha}{2}} \leq &\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \leq z_{\frac{1-\alpha}{2}}\\
-z_{\frac{1-\alpha}{2}} \times \frac{\sigma}{\sqrt{n}} \leq &\bar{X}-\mu \leq z_{\frac{1-\alpha}{2}} \times \frac{\sigma}{\sqrt{n}}\\
\bar{X} – z_{\frac{1-\alpha}{2}} \times \frac{\sigma}{\sqrt{n}} \leq &\mu \leq \bar{X} + z_{\frac{1-\alpha}{2}} \times \frac{\sigma}{\sqrt{n}}
\end{align}
$$

にて信頼区間を推定することができる。
ちなみによく用いられる信頼係数$\alpha$は$\alpha=90$、$\alpha=95$、$\alpha=99$であり、その場合の$z$値はそれぞれ標準正規分布表より

$$
\begin{align}
&z_{0.05}=1.645\\
&z_{0.025}=1.96\\
&z_{0.005}=2.576
\end{align}
$$

である。よって母標準偏差が既知の場合、信頼区間は以下のようにして求めることができる。

信頼区間$90$%

$$
\begin{align}
\bar{X} – z_{0.05} \times \frac{\sigma}{\sqrt{n}}\leq \mu \leq \bar{X} + z_{0.05} \times \frac{\sigma}{\sqrt{n}}\\
\bar{X} – 1.645 \times \frac{\sigma}{\sqrt{n}}\leq \mu \leq \bar{X} + 1.645 \times \frac{\sigma}{\sqrt{n}}
\end{align}
$$

信頼区間$95$%

$$
\begin{align}
\bar{X} – z_{0.025} \times \frac{\sigma}{\sqrt{n}}\leq \mu \leq \bar{X} + z_{0.025} \times \frac{\sigma}{\sqrt{n}}\\
\bar{X} – 1.96 \times \frac{\sigma}{\sqrt{n}}\leq \mu \leq \bar{X} + 1.96 \times \frac{\sigma}{\sqrt{n}}
\end{align}
$$

信頼区間$99$%

$$
\begin{align}
\bar{X} – z_{0.005} \times \frac{\sigma}{\sqrt{n}}\leq \mu \leq \bar{X} + z_{0.005} \times \frac{\sigma}{\sqrt{n}}\\
\bar{X} – 2.576 \times \frac{\sigma}{\sqrt{n}}\leq \mu \leq \bar{X} + 2.576 \times \frac{\sigma}{\sqrt{n}}
\end{align}
$$

ここで、

$\mu$: 母平均, $\bar{X}$ : 標本平均, $\sigma$ : 母標準偏差, $n$ : 標本の大きさ
である。

上記より、

①信頼区間$90$%

$$
\begin{align}
&14.5 – 1.645 \times \frac{2.1}{\sqrt{49}}\leq \mu \leq 14.5 + 1.645 \times \frac{2.1}{\sqrt{49}}\\
= &14.0065 \leq \mu \leq14.935
\end{align}
$$

②信頼区間$95$%

$$
\begin{align}
&14.5 – 1.96 \times \frac{2.1}{\sqrt{49}}\leq \mu \leq 14.5 + 1.96 \times \frac{2.1}{\sqrt{49}}\\
= &13.912 \leq \mu \leq 15.088
\end{align}
$$

③信頼区間$99$%

$$
\begin{align}
&14.5 – 2.576 \times \frac{2.1}{\sqrt{49}}\leq \mu \leq 14.5 + 2.576 \times \frac{2.1}{\sqrt{49}}\\
= &13.7272 \leq \mu \leq 15.2728
\end{align}
$$

7.2 母平均の区間推定[正規母集団で母標準偏差$\sigma$が既知]

7-1と同様に

①$n=4$

$$
\begin{align}
100.0 – 1.96 \times \frac{8}{\sqrt{4}}\leq &\mu \leq 100.0 + 1.96 \times \frac{8}{\sqrt{4}}\\
= 92.16 \leq &\mu \leq 107.84
\end{align}
$$

②$n=16$

$$
\begin{align}
100.0 – 1.96 \times \frac{8}{\sqrt{16}}\leq &\mu \leq 100.0 + 1.96 \times \frac{8}{\sqrt{16}}\\
= 96.08 \leq &\mu \leq 103.92
\end{align}
$$

③$n=64$

$$
\begin{align}
100.0 – 1.96 \times \frac{8}{\sqrt{64}}\leq &\mu \leq 100.0 + 1.96 \times \frac{8}{\sqrt{64}}\\
= 98.04 \leq &\mu \leq 101.96\\
\end{align}
$$

④$n=256$

$$
\begin{align}
100.0 – 1.96 \times \frac{8}{\sqrt{256}}\leq &\mu \leq 100.0 + 1.96 \times \frac{8}{\sqrt{256}}\\
= 99.02 \leq &\mu \leq 100.98
\end{align}
$$

7.3 母平均の区間推定[母集団分布の形と母標準偏差$\sigma$が未知 : $n \ge 30$]

母標準偏差が未知かつ標本数が十分にある場合は標準化するにあたり母標準偏差の代わりに標本不偏分散の平方根で代用して信頼区間を求める。
標準化した値は自由度n-1のt分布に従うが、標本の大きさnが十分にある場合は標準化した値は標準正規分布に近似することが可能である。
ここでいう十分な標本の大きさというのは解析によって定義は様々であるが、今回の解説においては$n\geq30$の場合を十分な標本の大きさとする。

7-1と同様に

⑴信頼区間$90$%

$$
\begin{align}
76.0 – 1.645 \times \frac{19.8}{\sqrt{121}}\leq &\mu \leq 76.0 + 1.645 \times \frac{19.8}{\sqrt{121}}\\
= 73.039 \leq &\mu \leq 78.961
\end{align}
$$

⑵信頼区間$95$%

$$
\begin{align}
76.0 – 1.96 \times \frac{19.8}{\sqrt{121}}\leq &\mu \leq 76.0 + 1.96 \times \frac{19.8}{\sqrt{121}}\\
= 72.472 \leq &\mu \leq 79.528
\end{align}
$$

⑶信頼区間$99$%

$$
\begin{align}
76.0 – 2.576 \times \frac{19.8}{\sqrt{121}}\leq &\mu \leq 76.0 + 2.576 \times \frac{19.8}{\sqrt{121}}\\
= 71.3632 \leq &\mu \leq 80.6368
\end{align}
$$

②標本平均$\bar{X}$と母平均$\mu$の差$|\bar{X} – \mu|$を$e$としたときに、$e$をある一定の値以下にするための標本の大きさnは以下のように求めることができる。
信頼区間を推定する公式を変形して

$$
\begin{align}
-z_{\frac{1-α}{2}} \leq &\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \leq z_{\frac{1-α}{2}}\\
-z_{\frac{1-α}{2}} \times \frac{\sigma}{\sqrt{n}} \leq &|\bar{X}-\mu| \leq z_{\frac{1-α}{2}} \times \frac{\sigma}{\sqrt{n}}\\
|\bar{X}-\mu| \leq &z_{\frac{1-α}{2}} \times \frac{\sigma}{\sqrt{n}}
\end{align}
$$

ここで$z_{\frac{1-α}{2}} \times \frac{\sigma}{\sqrt{n}}$を推定の誤差$e$以下になるようにおくと以下のように標本の大きさ$n$について展開できる。

$$
\begin{align}
z_{\frac{1-α}{2}} \times \frac{\sigma}{\sqrt{n}} &\leq e\\
\sqrt{n} &\geq \frac{z_{\frac{1-α}{2}} \times \sigma}{e}\\
n &\geq (\frac{z_{\frac{1-α}{2}} \times \sigma}{e})^2\\
n &\geq \left( \frac{z_{\frac{1-\alpha}{2}} \cdot \sigma}{|\bar{X} – \mu| } \right)^2
\end{align}
$$

$z_{\frac{1 – \alpha}{2}}$について、7−1で示した値を適用することで、信頼係数$90$%、$95$%、$99$%について以下の通り計算できる。

⑴信頼区間$90$%

$$
\begin{align}
n &\geq \left( \frac{1.645 \times 19.8}{2} \right)^{2}\\
&=265.21751025
\end{align}
$$

よって必要な標本数nは$n \geq 266$である。

⑵信頼区間$95$%

$$
\begin{align}
n &\geq \left( \frac{1.96 \times 19.8}{2} \right)^{2}\\
&=376.515216
\end{align}
$$

よって必要な標本数は$n \geq 377$である。

⑶信頼区間$99$%

$$
\begin{align}
n &\geq \left( \frac{2.576 \times 19.8}{2} \right)^{2}\\
&=650.37240576
\end{align}
$$

よって必要な標本数nは$n \geq 651$である。

7.4 母平均の区間推定[正規母集団で母標準偏差$\sigma$が未知 : $n < 30$]

母標準偏差が未知かつ標本数が不十分な場合は標準化するにあたって母標準偏差の代わりに標本不偏分散の平方根で代用して信頼区間を求める。標準化した値は自由度n-1のt分布に従う。よって

$$
\begin{align}
\bar{X} – t_{\frac{1-α}{2}} \times \frac{s}{\sqrt{n}} \leq \mu \leq \bar{X} + t_{\frac{1-α}{2}} \times \frac{s}{\sqrt{n}}
\end{align}
$$

ここで、$t_{\frac{1-α}{2}}$は自由度n-1のt分布における$\frac{1-\alpha}{2}$点である。90%,95%,99%の値は以下の通りである。

  • $ t_{0.05}(20-1) = 1.729$
  • $ t_{0.025}(20-1) = 2.093$
  • $ t_{0.005}(20-1) = 2.861$

これらを利用して、各信頼期間は下記の通り計算できる。

①信頼区間$90$%

$$
\begin{align}
120.3 – t_{0.050} \times \frac{8.6}{\sqrt{20}} \leq &\mu \leq 120.3 + t_{0.050} \times \frac{8.6}{\sqrt{20}}\\
= 120.3 – 1.729 \times \frac{8.6}{\sqrt{20}} \leq &\mu \leq 120.3 + 1.729 \times \frac{8.6}{\sqrt{20}}\\
=116.975 \leq &\mu \leq 123.624\\
\end{align}
$$

②信頼区間$95$%

$$
\begin{align}
120.3 – t_{0.025} \times \frac{8.6}{\sqrt{20}} \leq &\mu \leq 120.3 + t_{0.050} \times \frac{8.6}{\sqrt{20}}\\
=  120.3 – 2.093 \times \frac{8.6}{\sqrt{20}} \leq &\mu \leq 120.3 + 2.093 \times \frac{8.6}{\sqrt{20}}\\
=116.275 \leq &\mu \leq 124.324
\end{align}
$$

③信頼区間$99$%

$$
\begin{align}
120.3 – t_{0.005} \times \frac{8.6}{\sqrt{20}} \leq &\mu \leq 120.3 + t_{0.005} \times \frac{8.6}{\sqrt{20}}\\
= 120.3 – 2.861 \times \frac{8.6}{\sqrt{20}} \leq &\mu \leq 120.3 + 2.861 \times \frac{8.6}{\sqrt{20}}\\
=114.789 \leq &\mu \leq 125.801
\end{align}
$$

7.5 母平均の区間推定[正規母集団で母標準偏差$\sigma$が未知 : $n < 30$]

問の設定から各変数は以下の通りである。

  • $n = 16$
  • $\bar{X} = 105$
  • $s = 12$
  • 自由度は15

7-4と同様に

⑴信頼区間$90$%

$$
\begin{align}
105 – t_{0.050} \times \frac{12}{\sqrt{16}} \leq &\mu \leq 105 + t_{0.050} \times \frac{12}{\sqrt{16}}\\
= 105 – 1.753 \times \frac{12}{\sqrt{16}} \leq &\mu \leq 105 + 1.753 \times \frac{12}{\sqrt{16}}\\
= 99.741 \leq &\mu \leq 110.259
\end{align}
$$

⑵信頼区間$95$%

$$
\begin{align}
105 – t_{0.025} \times \frac{12}{\sqrt{16}} \leq &\mu \leq 105 + t_{0.050} \times \frac{12}{\sqrt{16}}\\
= 105 – 2.131 \times \frac{12}{\sqrt{16}} \leq &\mu \leq 105 + 2.131 \times \frac{12}{\sqrt{16}}\\
=98.607 \leq &\mu \leq 111.393
\end{align}
$$

⑶信頼区間$99$%

$$
\begin{align}
105 – t_{0.005} \times \frac{12}{\sqrt{16}} \leq &\mu \leq 105 + t_{0.005} \times \frac{12}{\sqrt{16}}\\
= 105 – 2.947 \times \frac{12}{\sqrt{16}} \leq &\mu \leq 105 + 2.947 \times \frac{12}{\sqrt{16}}\\
= 96.159 \leq &\mu \leq 113.841
\end{align}
$$

イェンセンの不等式(Jensen’s inequality)と凸関数の期待値・凸集合まとめ

統計学を取り扱う上で凸関数(convex function)や凸集合(convex set)は様々な状況で用いられます。凸関数に関してはイェンセンの不等式(Jensen’s inequality)が成立し、統計学では期待値を用いて表されることも多いです。
当記事では統計学に関連して用いられる凸関数、イェンセンの不等式、凸集合などについて取りまとめを行いました。

凸関数

凸関数の定義

凸関数は関数$f(x)$上の$2$点$(a,f(a))$と$(b,f(b))$を元に定義される。$0 \leq t \leq 1$となる任意の$t$に対し下記が成立すれば、「関数$f(x)$が上に凸である」という。
$$
\large
\begin{align}
f(ta + (1-t)b) \geq tf(a) + (1-t)f(b) \quad (1)
\end{align}
$$

ここで$x=ta + (1-t)b$は$x=a$と$x=b$を$(1-t):t$に内分する点である。このことは下記の図を用いてベクトル計算を元に理解するとわかりやすい。

$$
\large
\begin{align}
t \overrightarrow{OA} + (1-t) \overrightarrow{OB} &= \overrightarrow{OA} \, – \, \overrightarrow{OA} + t \overrightarrow{OA} + (1-t) \overrightarrow{OB} \\
&= \overrightarrow{OA} + (t-1) \overrightarrow{OA} + (1-t) \overrightarrow{OB} \\
&= \overrightarrow{OA} \, – \, (1-t) \overrightarrow{OA} + (1-t) \overrightarrow{OB} \\
&= \overrightarrow{OA} + (1-t) \left( \overrightarrow{OB} \, – \, \overrightarrow{OA} \right) \\
&= \overrightarrow{OA} + (1-t) \overrightarrow{AB}
\end{align}
$$

また、「下に凸 $\iff$ $f^{”}(x) \geq 0$」、「上に凸 $\iff$ $f^{”}(x) \leq 0$」が成立する。よって凸関数であるかを調べる際には$2$階微分を計算することが多い。

$f(x)=x^2$の凸性

$f(x)=x^2$が下に凸であることを$f(ta + (1-t)b) \leq tf(a) + (1-t)f(b)$が成立することを元に示す。

$f(ta + (1-t)b) \leq tf(a) + (1-t)f(b) \iff tf(a) + (1-t)f(b)-f(ta + (1-t)b) \geq 0$のように考えられるので、以下、$tf(a) + (1-t)f(b)-f(ta + (1-t)b) \geq 0$を示す。
$$
\large
\begin{align}
tf(a) & + (1-t)f(b)-f(ta + (1-t)b) = t a^2 (1-t) b^2 – (ta + (1-t)b)^2 \\
&= t a^2 + (1-t) b^2 – (t^2a^2 + (1-t)^2b^2 + 2t(1-t)ab) \\
&= t(1-t) a^2 (1-t)(1-(1-t)) b^2 – 2t(1-t)ab \\
&= t(1-t) a^2 t(1-t) b^2 -2t(1-t)ab \\
&= t(1-t)(a^2+b^2-2ab) \\
&= t(1-t)(a-b)^2 \geq 0
\end{align}
$$

上記より$f(ta + (1-t)b) \leq tf(a) + (1-t)f(b)$が成立するので$f(x)=x^2$は下に凸の関数であることがわかる。

$f(x)=\log{x}$の凸性

$2$階微分の$f^{”}(x)$が$f^{”}(x) < 0$であることを用いて定義域$x>0$の$f(x)=\log{x}$が上に凸であることを示す。対数関数や分数関数の微分の公式より、$f'(x), f^{”}(x)$は下記のように計算できる。
$$
\large
\begin{align}
f'(x) &= (\log{x})’ \\
&= \frac{1}{x} \\
f^{”}(x) &= (f'(x))’ \\
&= \left( f'(x) \right)’ \\
&= – \frac{1}{x^2} < 0
\end{align}
$$

上記より$f^{”}(x) < 0$であるので、$f(x)=\log{x}$は上に凸の関数であることがわかる。

・参考
指数関数、対数関数の微分の公式の導出

イェンセンの不等式

イェンセンの不等式の定義

$$
\large
\begin{align}
\lambda_i & \geq 0 \\
\sum_{i=1}^{M} \lambda_{i} &= 1
\end{align}
$$

上記のように$\lambda_1, \cdots , \lambda_M$を定義する。このとき上に凸の関数$f(x)$の任意の点$(x_i, f(x_i))$について下記の不等式が成立する。
$$
\large
\begin{align}
f \left( \sum_{i=1}^{M} \lambda_{i} x_{i} \right) \geq \sum_{i=1}^{M} \lambda_{i} f \left( x_{i} \right) \quad (2)
\end{align}
$$

上記の不等式をイェンセンの不等式という。イェンセンの不等式(Jensen’s inequality)は$(1)$式の凸関数の定義式と同様な式であり、厳密な導出は数学的帰納法を用いるなどによって示すことができる。数学的帰納法を用いた導出は下記で詳しく取り扱ったので当記事では省略する。

期待値とイェンセンの不等式

前項$(2)$式の$\lambda_{i}$について$\displaystyle \lambda_i \geq 0, \, \sum_{i=1}^{M} \lambda_i = 1$が成立することから、$\lambda_{i}$に確率関数$p(x_i)$を対応させることができる。このとき下記のような式が導出できる。
$$
\large
\begin{align}
f \left( \sum_{i=1}^{M} p(x_i) x_{i} \right) & \geq \sum_{i=1}^{M} p(x_i) f \left( x_{i} \right) \quad (2) \\
f \left( \mathbb{E} \left[ x_{i} \right] \right) & \geq \mathbb{E} \left[ f \left( x_{i} \right) \right] \quad (3)
\end{align}
$$

上記は、「上に凸の関数では点$(x_i, f(x_i))$の重心よりも重心における関数$f$の値が上にくる」と大まかに解釈すると良い。$(3)$式は離散型確率分布の式から導出したが、連続変数についても同様に下記が成立する。
$$
\large
\begin{align}
f \left( \mathbb{E} \left[ x_{i} \right] \right) & \geq \mathbb{E} \left[ f \left( x_{i} \right) \right] \quad (3) \\
f \left( \int x p(x) dx \right) & \geq \int f(x) p(x) dx
\end{align}
$$

凸集合

凸集合の定義

統計学での活用例

一様最強力不偏検定

リスクセット

下記の問題で取り扱ったように、統計的決定理論におけるリスク点の集合のリスクセットを考える際に確率化決定方式(randomized decision procedure)を含めるとリスクセットは凸集合となる。
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch5.html#55

統計の森で統一的に用いる数式表記(notation)とその出典まとめ

参照する書籍によって数式表記が異なるので、統計の森で統一的に用いる数式表記に関して以下に取りまとめました。書籍の章末課題の解答作成時など、その書籍の表記が用いやすい場合などもあるので必ずしも「統一」はしませんが、概ねここでの表記に基づいて諸々の作成を行います。
数式表記は「読みやすさ」や「計算表記の行いやすさ」、「主要文献の表記」などを重視して選定を行いました。

微分・積分

$1$変数関数の微分

関数の微分の表記を行う際に、$1$変数関数$f(x)$のように$x$で微分することが自明な場合は導関数を$f'(x), f^{”}(x), f^{(3)}(x), …, f^{(n)}(x), …$のように表されることが多い。よって$1$変数関数の微分にあたっては$f'(x), f^{”}(x), f^{(3)}(x), …, f^{(n)}(x), …$の表記を主に用いる。

一方で式定義にあたって$y=f(x)$で関数が表される場合もある。この際に$y$を$x$で微分することを表すにあたって、$\displaystyle \frac{dy}{dx}, \frac{d^2y}{dx^2}, …$などもよく用いられる。

$\displaystyle \frac{dy}{dx}$のような表記は「確率変数の変換」や「合成関数の微分」のように、どの変数をどの変数で微分を行うかがわからなくなりやすい場合に用いられやすい。よって「微分対象」と「微分する変数」を強調する場合は$\displaystyle \frac{dy}{dx}$の表現を用いる。

・参考
演習 「確率分布」の「変数変換」
演習 合成関数の微分とロジスティック回帰のパラメータ推定

多変数関数の微分

$f(x,y)$のような多変数関数の微分を考える際は「偏微分」のように$1$つの変数に関して微分を考えることが多い。$f(x,y)$の$x, y$に関する偏微分はそれぞれ下記のような記号で一般的に表される。
$$
\large
\begin{align}
& \frac{\partial f(x,y)}{\partial x}, \frac{\partial^2 f(x,y)}{\partial x^2}, \cdots \\
& \frac{\partial f(x,y)}{\partial y}, \frac{\partial^2 f(x,y)}{\partial y^2}, \cdots
\end{align}
$$

ベクトル・行列

ベクトルの表記

ベクトルの表記にあたっては数Bのベクトルなどでは$\vec{a}=(1,2)$のように表されることが多いが、統計学や機械学習の領域ではベクトルの縦表記を用いて下記のような表記がなされることが多い。
$$
\large
\begin{align}
\mathbf{x} = \left(\begin{array}{c} x_{1} \\ \vdots \\ x_{n} \end{array} \right) \quad (1)
\end{align}
$$

上記のようなベクトルの縦表記はベクトルの演算にあたって要素が見やすい。演算の具体例を下記に示す。
$$
\large
\begin{align}
(1,2,3) + (1,3,5) &= (2,5,8) \\
\left(\begin{array}{c} 1 \\ 2 \\ 3 \end{array} \right) + \left(\begin{array}{c} 1 \\ 3 \\ 5 \end{array} \right) &= \left(\begin{array}{c} 2 \\ 5 \\ 8 \end{array} \right)
\end{align}
$$

上記は要素が$3$つだが、要素が増える・項の数が増えるなどの際は縦表記でないと見にくい。統計学や機械学習では主にサンプルをベクトルの要素に対応させるので、ベクトルは基本的に縦表記を用いる。

また、$(1)$式ではベクトルを$\mathbf{x}$のように表記したが、下記で表す多次元正規分布の確率密度関数のような場合などはTeXが複雑になるので、ベクトルを$x$、要素を$x_{1}, \cdots, x_{n}$で表す場合がある。
$$
\large
\begin{align}
\mathcal{N}(\mathbf{x}|\mathbf{\mu},\mathbf{\Sigma}) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\mathbf{\Sigma}|^{1/2}} \exp \left[ -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) \right]
\end{align}
$$

式に対応するTeX、上記は基本形に過ぎないがmathbfを多用するだけで表記が複雑になる

一方でベクトルは一般的には$\mathbf{x}$のように表されることが多いので、文献に合わせる場合や式全体がそれほど複雑でない場合などは$\mathbf{x}$を主に用いる。使い分けに関しては文献表記をそのまま用いる以外は都度定義を行うので、ここではあくまで方針のみをまとめた。

行列の表記

行列の表記は基本的にはベクトルとさほど変わらないが、ベクトルは小文字、行列は大文字で表されることが多い。具体的には下記のように$n \times n$行列$\mathbf{X}$を定義する。
$$
\large
\begin{align}
\mathbf{X} = \left(\begin{array}{ccc} x_{11} & \cdots & x_{1n} \\ \vdots & \ddots & \vdots \\ x_{n1} & \cdots & x_{nn} \end{array} \right) \quad (2)
\end{align}
$$

行列はベクトル同様にTeXの簡略化にあたって$\mathbf{X}$ではなく$X$を用いる場合がある。当項では以下、$X$のような表記を用いて表す。

統計学や機械学習の分野で行列表記を考えるにあたっての文字の選定はある程度慣用的に定まっているので、「統計の森」でもそれらをなるべく用いる。以下に具体例をまとめる。

・$X,Y$
$X,Y$は統計学では説明変数と目的変数を表すにあたって主に用いられる。ここで$X,Y$の行がサンプル、列が$X$は多変量、$Y$は分類クラスにそれぞれ対応する。

重回帰問題のような場合、目的変数は各サンプルにつき$1$つであるので、$Y$は$n \times 1$行列となり、小文字の$y$を用いて表す場合が多い。よって、回帰問題の場合は観測値を$(X,y)$のように表すことが多いことも抑えておくと良い。

・$\Sigma, \Lambda$
$\Sigma, \Lambda$はそれぞれ共分散行列(covariance matrix)、精度行列(precision matrix)を表すのに用いられるので「統計の森」でも同様に表記を用いる。それぞれの定義により$\Lambda=\Sigma^{-1}$が成立する。

また、$\Lambda$は行列の対角化の際の対角行列で用いられることも多い。一方で「精度行列」と「対角行列」を混同するほど同時に用いられることは少ないので、対角行列も基本的には$\Lambda$で表現する。

・$O$
$O$は零行列を表す際に用いられることが多いので統計の森でも同様な表記を用いる。

・$I_{n}, E_{n}$
$n \times n$の単位行列を表すにあたっては$I_{n}, E_{n}$が用いられることが多い。$E$は高校数学で用いられることが多い一方で、統計学・機械学習では$I_{n}$が用いられることが多い。よって統計の森では単位行列を主に$I_{n}$で表す。

・$U$
$U$は直交行列を表す際に用いられることが多いが、直交行列は固有ベクトルの$u_{i}$を元に構成できることを鑑みると妥当であると考えられる。よって、直交行列は主に$U$で表す。

・$A,B,C,…$
$A,B,C$のような行列表記は特段の定めがない場合に用いられやすいので、統計の森でも特段の定めがない場合は$A,B,C,…$などを用いる。

行列表記は「パターン認識と機械学習」で頻繁に用いられるので、上記は主に「パターン認識と機械学習」の表記に基づく。

ベクトル・行列の要素

ベクトル・行列の要素をフォーマルに定義する際は下記のように定義することが多い。
$$
\large
\begin{align}
x &= \left(\begin{array}{c} x_1 \\ \vdots \\ x_n \end{array} \right) \\
A &= \left(\begin{array}{ccc} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{n1} & \cdots & a_{nn} \end{array} \right)
\end{align}
$$

一方で、行列$AB$の$(i,j)$成分のように、新たに定義をすると冗長になる場合もある。こういった際に$(AB)_{ij}$のように要素を表す表記を用いると定義が行いやすい。「転置行列」の「行列の成分表示」でもまとめたが、$(AB)_{ij}$のような要素の表記は複雑な行列演算を行う際に有用であるので、「統計の森」でも用いる。一方で、使用にあたっては「行列$AB$の$(i,j)$成分$(AB)_{ij}$は下記のように…」のような表現を用いることで、なるべくミスリードにならないような表記になるよう注意する。

・参考
転置行列:行列の成分表示
多次元尺度法の導出

ベクトル・行列の転置

ベクトル・行列の転置は「T」を用いて表されることが多いが、見やすさの観点から「T」の書式は「\mathrm{T}」を用いた$\mathrm{T}$になるべく統一する。この書式は「パターン認識と機械学習」と同様な書式である。

また、ベクトルの転置を考える際は「ベクトルの表記」で取り扱ったように、縦に要素が並ぶ形式で定義されることは抑えておくと良い。よってベクトルの転置は要素が横に並ぶ。このことはベクトルの内積を行列積で表すことと対応する。以下に具体的に定義したベクトルを元に確認する。
$$
\large
\begin{align}
x &= \left(\begin{array}{c} x_1 \\ \vdots \\ x_n \end{array} \right) \\
x^{\mathrm{T}} &= \left(\begin{array}{ccc} x_1 & \cdots & x_n \end{array} \right) \\
x^{\mathrm{T}} x &= \left(\begin{array}{ccc} x_1 & \cdots & x_n \end{array} \right)\left(\begin{array}{c} x_1 \\ \vdots \\ x_n \end{array} \right) = \sum_{i=1}^{n} x_{i}^2
\end{align}
$$

行列式

行列$A$の行列式は$\det(A)=|A|$のように定義されるが、$|A|$の表記がシンプルなので「統計の森」では主に$|A|$を用いる。一方で行列式であることを強調するにあたって、$\det$などを用いる場合もある。

ベクトル・行列の微分

確率変数・確率分布

確率変数

確率変数は確率分布などを考える際に「確率を考える対象を表す変数」である。通常の関数の変数は$x$や$y$で表されがちだが、統計学の教科書では確率を変数を$X$や$Y$で表すことが多い。

「東京大学出版」の「赤本」・「青本」や「統計検定準$1$級」対応の「統計学実践ワークブック」などでは確率変数を$X,Y$で表されるので、統計の森では確率変数を$X,Y$のように表記する。具体的には「$X=1$の確率が$0.3$」や「$X=k$の確率が$\pi_k$」を下記のように表記する。
$$
\large
\begin{align}
P(X=1) &= 0.3 \\
P(X=k) &= \pi_k
\end{align}
$$

確率分布

期待値

Ch.1 「序論」の章末問題の解答例 パターン認識と機械学習 1.1〜1.20

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.1の「序論」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・参考
パターン認識と機械学習 解答まとめ
https://www.hello-statisticians.com/answer_textbook#prml

解答まとめ

問題$1.1$

問題$1.2$

問題$1.3$

箱を表す確率変数を$B$、果物を表す確率変数を$F$とおく。このとき、確率$p(F=\mathrm{apple})$は下記のように計算できる。
$$
\begin{align}
p(F=\mathrm{apple}) &= p(B=r,F=\mathrm{apple}) + p(B=b,F=\mathrm{apple}) + p(B=g,F=\mathrm{apple}) \\
&= 0.2 \times 0.3 + 0.2 \times 0.5 + 0.6 \times 0.3 \\
&= 0.06 + 0.1 + 0.18 = 0.34
\end{align}
$$

また、オレンジが選ばれたときに緑の箱から選ばれた確率$p(B=g|F=\mathrm{orange})$は下記のように求められる。
$$
\large
\begin{align}
& p(B=g|F=\mathrm{orange}) = \frac{p(B=g,F=\mathrm{orange})}{p(F=\mathrm{orange})} \\
&= \frac{p(B=g,F=\mathrm{orange})}{p(B=r,F=\mathrm{orange}) + p(B=b,F=\mathrm{orange}) + p(B=g,F=\mathrm{orange})} \\
&= \frac{0.6 \times 0.3}{0.2 \times 0.4 + 0.2 \times 0.5 + 0.6 \times 0.3} \\
&= \frac{0.18}{0.08 + 0.1 + 0.18} \\
&= 0.5
\end{align}
$$

問題$1.4$

問題$1.5$

$(1.38)$式の$\mathrm{var}[f] = \mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]$は下記のように変形することができる。
$$
\large
\begin{align}
\mathrm{var}[f] &= \mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2] \\
&= \mathbb{E}[f(x)^2 – 2f(x)\mathbb{E}[f(x)] + \mathbb{E}[f(x)]^2] \\
&= \mathbb{E}[f(x)^2] – 2 \mathbb{E}[f(x)\mathbb{E}[f(x)]] + \mathbb{E}[f(x)]^2 \\
&= \mathbb{E}[f(x)^2] – 2 \mathbb{E}[f(x)]^2 + \mathbb{E}[f(x)]^2 \\
&= \mathbb{E}[f(x)^2] – \mathbb{E}[f(x)]^2 \quad (1.39)
\end{align}
$$

上記は確率変数が離散である場合も連続である場合も成立する。

問題$1.6$

$$
\large
\begin{align}
\mathrm{cov}[x,y] = \mathbb{E}_{x,y}[xy] – \mathbb{E}[x]\mathbb{E}[y] \quad (1.41)
\end{align}
$$

上記で表した$(1.41)$に対して$x,y$が独立のとき$\mathrm{cov}[x,y]=0$であることを示す。ここで$\mathbb{E}_{x,y}[xy]$は$p(x,y)$を用いて期待値を計算したことを意味することに注意する。

$x,y$が連続であるとき、$\mathbb{E}_{x,y}[xy], \mathbb{E}[x], \mathbb{E}[y]$は期待値の定義より下記のようにそれぞれ表される。
$$
\large
\begin{align}
\mathbb{E}_{x,y}[xy] &= \int \int xy p(x,y) dx dy \\
\mathbb{E}[x] &= \int x p(x) dx \\
\mathbb{E}[y] &= \int y p(y) dx
\end{align}
$$

上記で$x,y$が独立であることより$p(x,y)=p(x)p(y)$が成立する。よって、$\mathbb{E}_{x,y}[xy]$は下記のように変形できる。
$$
\large
\begin{align}
\mathbb{E}_{x,y}[xy] &= \int \int xy p(x,y) dx dy \\
&= \int \int xy p(x)p(y) dx dy \\
&= \int x p(x) dx \int y p(y) dy = \mathbb{E}[x]\mathbb{E}[y]
\end{align}
$$

上記より$\mathrm{cov}[x,y] = \mathbb{E}_{x,y}[xy] – \mathbb{E}[x]\mathbb{E}[y] = 0$が成立することがわかる。また、$x,y$が離散である場合も同様の計算により$\mathrm{cov}[x,y]=0$を導出することができる。

問題$1.7$

下記で詳しく取り扱った。
https://www.hello-statisticians.com/explain-terms-cat/gaussian_integral1.html

問題$1.8$

$$
\large
\begin{align}
\mathbb{E}[x] &= \int_{-\infty}^{\infty} x \mathcal{N}(x|\mu,\sigma^2) dx \\
&= \int_{-\infty}^{\infty} x \times \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{(x-\mu)^2}{2 \sigma^2} \right) dx
\end{align}
$$

上記の計算を行うにあたって、$y = x-\mu$のように変数変換を行うことを考える。このとき$\displaystyle \frac{dx}{dy}=1$かつ$y$の区間が$(-\infty,\infty)$であることから下記のように式変形できる。
$$
\large
\begin{align}
\mathbb{E}[x] &= \int_{-\infty}^{\infty} x \times \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{(x-\mu)^2}{2 \sigma^2} \right) dx \\
&= \int_{-\infty}^{\infty} (y+\mu) \times \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{y^2}{2 \sigma^2} \right) \frac{dx}{dy} dy \\
&= \mu \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{y^2}{2 \sigma^2} \right) dy + \int_{-\infty}^{\infty} y \times \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{y^2}{2 \sigma^2} \right) dy \quad (1)
\end{align}
$$

$(1)$式の第$1$項の積分部分は正規分布の全区間の積分であるから第$1$項は$\mu$である。第$2$項の$y$は原点を中心に点対称である奇関数であることから積分は$0$になる。よって下記が成立する。
$$
\large
\begin{align}
\mathbb{E}[x] &= \mu \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{y^2}{2 \sigma^2} \right) dy + \int_{-\infty}^{\infty} y \times \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{y^2}{2 \sigma^2} \right) dy \quad (1) \\
&= \mu \times 1 + 0 = \mu \quad (1.49)
\end{align}
$$

次に$(1.127)$に対して$\sigma^2$で微分を行うにあたって、$\tau=\sigma^2$で置き換え、下記のように式の修正を行う。
$$
\large
\begin{align}
\int_{-\infty}^{\infty} \mathcal{N}(x|\mu,\sigma^2) dx &= 1 \quad (1.127) \\
\int_{-\infty}^{\infty} \exp \left( -\frac{(x-\mu)^2}{2 \sigma^2} \right) dx &= \sqrt{2 \pi \sigma^2} \\
\int_{-\infty}^{\infty} \exp \left( -\frac{(x-\mu)^2}{2 \tau} \right) dx &= \sqrt{2 \pi \tau} \quad (2)
\end{align}
$$

$(2)$式の両辺を$\tau$で微分すると下記のように変形できる。
$$
\large
\begin{align}
\frac{\partial}{\partial \tau} \int_{-\infty}^{\infty} \exp \left( -\frac{(x-\mu)^2}{2 \tau} \right) dx &= \frac{\partial}{\partial \tau} \sqrt{2 \pi \tau} \quad (2)’ \\
\int_{-\infty}^{\infty} \exp \left( -\frac{(x-\mu)^2}{2 \tau} \right) \times \frac{(x-\mu)^2}{2 \tau^2} dx &= \sqrt{2 \pi} \times \frac{1}{2 \sqrt{\tau}} \\
\int_{-\infty}^{\infty} \exp \left( -\frac{(x-\mu)^2}{2 \tau} \right) \times \frac{(x-\mu)^2}{2 \tau^2} dx &= \frac{\sqrt{2 \pi \tau}}{2 \tau} \\
\frac{1}{\sqrt{2 \pi \tau}} \int_{-\infty}^{\infty} \exp \left( -\frac{(x-\mu)^2}{2 \tau} \right) (x-\mu)^2 dx &= \frac{2 \tau^2}{2 \tau} \\
\int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{(x-\mu)^2}{2 \sigma^2} \right) (x-\mu)^2 dx &= \sigma^2
\end{align}
$$

上記より$\mathrm{var}[x]=\mathbb{E}[(x-\mu)^2]=\sigma^2$が成立すると考えられる。ここで、$\mathbb{E}[x]=\mu$を用いることで$\mathbb{E}[(x-\mu)^2]=\sigma^2$は下記のように変形できる。
$$
\large
\begin{align}
\mathbb{E}[(x-\mu)^2] &= \sigma^2 \\
\mathbb{E}[x^2] – 2 \mu \mathbb{E}[x] + \mu^2 &= \sigma^2 \\
\mathbb{E}[x^2] – 2 \mu^2 + \mu^2 &= \sigma^2 \\
\mathbb{E}[x^2] &= \mu^2 + \sigma^2 \quad (1.50)
\end{align}
$$

また、$\mathrm{var}[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^2$に$(1.49)$式と$(1.50)$式を代入することで下記が得られる。
$$
\large
\begin{align}
\mathrm{var}[x] &= \mathbb{E}[x^2] – \mathbb{E}[x]^2 \quad (1.40) \\
&= (\mu^2 + \sigma^2) – \mu^2 \\
&= \sigma^2 \quad (1.51)
\end{align}
$$

・考察
$\mathrm{var}[x]$は$\mathbb{E}[(x-\mu)^2]$で表されるので、$(1.50)$式を経由して$(1.51)$式を導出するのはやや冗長であるように思われた。

問題$1.9$

$$
\large
\begin{align}
p(x|\mu,\sigma^2) &= \mathcal{N}(x|\mu,\sigma^2) = \frac{1}{(2 \pi \sigma^2)^{1/2}} \exp \left( – \frac{1}{2 \sigma^2} (x-\mu)^2 \right) \quad (1.46) \\
p(\mathbf{x}|\mathbf{\mu},\mathbf{\Sigma}) &= \mathcal{N}(\mathbf{x}|\mathbf{\mu},\mathbf{\Sigma}) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\mathbf{\Sigma}|^{1/2}} \exp \left( – \frac{1}{2} (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1} (\mathbf{x}-\mathbf{\mu}) \right) \quad (1.52)
\end{align}
$$

上記のように表した$(1.46), (1.52)$式を最大にする$x, \mathbf{x}$を以下求める。$x, \mathbf{x}$に関して最大化を考えるならばそれぞれ指数関数の内部のみに着目するだけで良いので、下記のように関数$f(x), f(\mathbf{x})$を考える。
$$
\large
\begin{align}
f(x) &= – \frac{1}{2 \sigma^2} (x-\mu)^2 \\
f(\mathbf{x}) &= – \frac{1}{2} (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1} (\mathbf{x}-\mathbf{\mu})
\end{align}
$$

上記で定義した$f(x), f(\mathbf{x})$の最大値問題をそれぞれ考える。

・$f(x)$
$$
\large
\begin{align}
\frac{\partial}{\partial x}f(x) &= – \frac{1}{2 \sigma^2} \frac{\partial}{\partial x} (x-\mu)^2 \\
&= – \frac{1}{\sigma^2} (x-\mu)
\end{align}
$$

上記より$\displaystyle \frac{\partial}{\partial x}f(x)$は$x$に関して単調減少であるので、$\displaystyle \frac{\partial}{\partial x}f(x)=0$のとき$f(x)$は最大値を取る。
$$
\large
\begin{align}
\frac{\partial}{\partial x}f(x) &= 0 \\
– \frac{1}{\sigma^2} (x-\mu) &= 0 \\
x &= \mu
\end{align}
$$

・$f(\mathbf{x})$
$$
\large
\begin{align}
\frac{\partial}{\partial \mathbf{x}}f(\mathbf{x}) &= – \frac{1}{2} \frac{\partial}{\partial \mathbf{x}} (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1} (\mathbf{x}-\mathbf{\mu}) \\
&= – \mathbf{\Sigma}^{-1} (\mathbf{x}-\mathbf{\mu})
\end{align}
$$

上記の計算にあたっては$\mathbf{\Sigma}^{-1}$が対称行列であることを前提においた。ここで上記の$\displaystyle \frac{\partial}{\partial \mathbf{x}}f(\mathbf{x})$は$\mathbf{x}$のそれぞれの要素に関して単調減少であるので、$\displaystyle \frac{\partial}{\partial \mathbf{x}}f(\mathbf{x})=\mathbf{0}$のとき$f(\mathbf{x})$は最大値を取る。
$$
\large
\begin{align}
\frac{\partial}{\partial \mathbf{x}}f(\mathbf{x}) &= 0 \\
\mathbf{\Sigma}^{-1} (\mathbf{x}-\mathbf{\mu}) &= 0 \\
\mathbf{x} &= \mathbf{\mu}
\end{align}
$$

ここまでの議論により、$1$変量正規分布$\mathcal{N}(x|\mu,\sigma^2)$のモードは$\mu$、多変量正規分布$\mathcal{N}(\mathbf{x}|\mathbf{\mu},\mathbf{\Sigma})$のモードは$\mathbf{\mu}$であると考えることができる。

問題$1.10$

下記で離散型確率分布に関して導出を行なった。
https://www.hello-statisticians.com/explain-terms-cat/expectation-variance-covariance.html

連続型の確率分布に関しても$\displaystyle \sum$を$\displaystyle \int$に置き換えるだけで同様に導出できる。

問題$1.11$

$$
\large
\begin{align}
\ln{p(\mathbf{x}|\mu,\sigma^2)} &= \ln{p(x_1,…,x_n|\mu,\sigma^2)} \\
&= – \frac{1}{2 \sigma^2} \sum_{n=1}^{N} (x_n-\mu)^2 – \frac{N}{2} \ln{\sigma^2} – \frac{N}{2} \ln{2 \pi} \quad (1.54)
\end{align}
$$

上記は$(1.54)$式の理解がしやすいように追記を行なったものである。ここで$f(x)=-x^2$や$f(x)=\ln{x}$が下に凸の関数であることから、式を$\mu$と$\sigma^2$に関してそれぞれ偏微分し$=0$を解くことで最尤推定を行うことができる。

また、ここで$\sigma^2$に関して微分を行うにあたって$\sigma^2$を文字とみなすと表記がわかりにくいので$\tau=\sigma^2$のようにおき、$(1.54)$式を下記のように書き直す。
$$
\large
\begin{align}
\ln{p(\mathbf{x}|\mu,\tau)} = – \frac{1}{2 \tau} \sum_{n=1}^{N} (x_n-\mu)^2 – \frac{N}{2} \ln{\tau} – \frac{N}{2} \ln{2 \pi}
\end{align}
$$

上記を$\mu, \tau$に関して偏微分し$=0$を解くことで最尤推定解が得られる。
・$\displaystyle \frac{\partial \ln{p(\mathbf{x}|\mu,\tau)}}{\partial \mu} = 0$
$$
\large
\begin{align}
\frac{\partial \ln{p(\mathbf{x}|\mu,\tau)}}{\partial \mu} &= – \frac{1}{\tau} \sum_{n=1}^{N} (x_n-\mu) = 0 \\
\sum_{n=1}^{N} (x_n-\mu) &= 0 \\
N \mu &= \sum_{n=1}^{N} x_n \\
\mu &= \frac{1}{N} \sum_{n=1}^{N} x_n \\
\mu_{ML} &= \frac{1}{N} \sum_{n=1}^{N} x_n
\end{align}
$$

・$\displaystyle \frac{\partial \ln{p(\mathbf{x}|\mu_{ML},\tau)}}{\partial \tau} = 0$
$$
\large
\begin{align}
\frac{\partial \ln{p(\mathbf{x}|\mu_{ML},\tau)}}{\partial \tau} &= \frac{1}{2 \tau^2} \sum_{n=1}^{N} (x_n-\mu_{ML})^2 – \frac{N}{2 \tau} = 0 \\
\frac{N}{2 \tau} &= \frac{1}{2 \tau^2} \sum_{n=1}^{N} (x_n-\mu_{ML})^2 \\
N \tau &= \sum_{n=1}^{N} (x_n-\mu_{ML})^2 \\
\tau &= \frac{1}{N} \sum_{n=1}^{N} (x_n-\mu_{ML})^2 \\
\sigma_{ML}^{2} &= \frac{1}{N} \sum_{n=1}^{N} (x_n-\mu_{ML})^2
\end{align}
$$

上記より$(1.55), (1.56)$が成立する。

問題$1.12$

$(1.130)$式が成立することを$n = m$の場合と$n \neq m$の場合に分けて示す。

・$n=m$の場合
$(1.50)$式より$\mathbb{E}[x^2] = \mu^2 + \sigma^2$が成立し、これは$(1.130)$式に一致する。

・$n \neq m$の場合
$\mathbb{E}[x_n x_m]$は$x_n$と$x_m$が$\mathrm{i.i.d.}$であることから下記のように考えることができる。
$$
\large
\begin{align}
\mathbb{E}[x_n x_m] &= \int \int x_n x_m p(x_n,x_m) dx_n dx_m \\
&= \int \int x_n x_m p(x_n)p(x_m) dx_n dx_m \\
&= \int x_n p(x_n) dx_n \int x_m p(x_m) dx_m \\
&= \mu \times \mu \\
&= \mu^2
\end{align}
$$
上記は$(1.130)$式に一致する。

よって、$(1.130)$式が成立する。

また、$(1.57)$式、$(1.58)$式はそれぞれ下記のように示せる。

・$(1.57)$式の導出
$$
\large
\begin{align}
\mathbb{E}[\mu_{ML}] &= \mathbb{E} \left[ \frac{1}{N} \sum_{n=1}^{N} x_n \right] = \frac{1}{N} \mathbb{E} \left[ \sum_{n=1}^{N} x_n \right] \\
&= \frac{1}{N} \times N \mathbb{E}[x_n] \\
&= \mu
\end{align}
$$

・$(1.58)$式の導出
$$
\large
\begin{align}
\mathbb{E}[\sigma_{ML}^{2}] &= \mathbb{E} \left[ \frac{1}{N} \sum_{n=1}^{N} (x_n-\mu_{ML})^2 \right] \\
&= \frac{1}{N} \sum_{n=1}^{N} \mathbb{E} \left[ \left( x_n – \sum_{m=1}^{N} x_m \right)^2 \right] \\
&= \frac{1}{N} \sum_{n=1}^{N} \mathbb{E} \left[ \left( x_n^2 – \frac{2}{N} x_n \sum_{m=1}^{N} x_m + \frac{1}{N^2} \sum_{m=1}^{N} x_m \sum_{l=1}^{N} x_l \right) \right] \\
&= \frac{1}{N} \sum_{n=1}^{N} \mathbb{E} \left[ \left( x_n^2 – \frac{2}{N} x_n \sum_{m=1}^{N} x_m + \frac{1}{N^2} \sum_{m=1}^{N} \sum_{l=1}^{N} x_m x_l \right) \right] \\
&= \frac{1}{N} \sum_{n=1}^{N} \left[ (\mu^2+\sigma^2) – 2 \left( \mu^2 + \frac{1}{N} \sigma^2 \right) + \mu^2 + \frac{1}{N} \sigma^2 \right] \\
&= \mu^2 + \sigma^2 – 2 \left( \mu^2 + \frac{1}{N} \sigma^2 \right) + \mu^2 + \frac{1}{N} \sigma^2 \\
&= \sigma^2 – \frac{2}{N} \sigma^2 + \frac{1}{N} \sigma^2 = \frac{N-1}{N} \sigma^2
\end{align}
$$

問題$1.13$

$(1.56)$式の$\mu_{ML}$が$\mu = E[x]$で置き換えられる場合、$(1.38)$式などで表される分散の定義に一致するので、この場合は$\mathbb{E}[\sigma_{ML}^{2}] = \sigma^2$が成立する。

・考察
標本平均$\mu_{ML}$は標本から計算される統計量でしかないが$\mu$は母集団のパラメータであることに注意することでこの結果は妥当であると考えられる。

問題$1.14$

問題$1.15$

問題$1.16$

問題$1.17$

$$
\large
\begin{align}
\Gamma(x) \equiv \int_{0}^{\infty} u^{x-1} e^{-u} du
\end{align}
$$
上記のガンマ関数の定義の式に対し、$\Gamma(x+1)$の式を考えると下記のようになる。
$$
\large
\begin{align}
\Gamma(x+1) &= \int_{0}^{\infty} u^{x} e^{-u} du \\
&= \left[ -u^{x} e^{-u} \right]_{0}^{\infty} + \int_{0}^{\infty} x u^{x-1} e^{-u} du \\
&= 0 + x \int_{0}^{\infty} u^{x-1} e^{-u} du \\
&= x \Gamma(x)
\end{align}
$$

同様に$\Gamma(1)$は下記のように計算できる。
$$
\large
\begin{align}
\Gamma(1) &= \int_{0}^{\infty} u^{1-1} e^{-u} du \\
&= \int_{0}^{\infty} e^{-u} du \\
&= \left[ -e^{-u} \right]_{0}^{\infty} \\
&= -(0-1) \\
&= 1
\end{align}
$$

$\Gamma(x+1)=x\Gamma(x), \Gamma(1)=1$より、下記のように$\Gamma(x+1)=x!$が導出できる。
$$
\large
\begin{align}
\Gamma(x+1) &= x \Gamma(x) \\
&= x(x-1) \Gamma(x-1) \\
&= x(x-1)(x-2) \Gamma(x-2) \\
&= … \\
&= x!
\end{align}
$$

問題$1.18$

$$
\large
\begin{align}
\prod_{i=1}^{D} \int_{-\infty}^{\infty} e^{-x_{i}^{2}} dx_{i} &= S_{D} \int_{0}^{\infty} e^{-r^2} r^{D-1} dr \quad (1.142) \\
I &= \int_{-\infty}^{\infty} e^{-x^{2}} dx = \pi^{\frac{1}{2}} \quad (1.126)’
\end{align}
$$

上記で表した$(1.126)’$式は$(1.126)$式の変数変換を行うことで得られる。$(1.126)’$式を用いることで$(1.142)$式の左辺は下記のように変形できる。
$$
\large
\begin{align}
\prod_{i=1}^{D} \int_{-\infty}^{\infty} e^{-x_{i}^{2}} dx_{i} &= \prod_{i=1}^{D} \pi^{\frac{1}{2}} \\
&= \pi^{\frac{D}{2}} \quad (1)
\end{align}
$$

次に$(1.142)$式の右辺に対して$u=r^2$で変数変換を行うことを考える。$\displaystyle r=\sqrt{u}$より$\displaystyle \frac{dr}{du}=\frac{1}{2 \sqrt{u}}$が成立する。また、$0 \leq r < \infty$には$0 \leq u \leq \infty$が対応する。

よって、$(1.142)$は下記のように計算できる。
$$
\large
\begin{align}
S_{D} \int_{0}^{\infty} e^{-r^2} r^{D-1} dr &= S_{D} \int_{0}^{\infty} e^{-u} u^{(D-1)/2} \times \frac{1}{2 \sqrt{u}} du \\
&= \frac{S_{D}}{2} \int_{0}^{\infty} e^{-u} u^{D/2 – 1} du \\
&= \frac{S_{D}}{2} \times \Gamma \left( \frac{D}{2} \right) \quad (2)
\end{align}
$$

$(1),(2)$式を$(1.142)$式に代入し、$S_{D}$に関して解くと下記のように$(1.143)$式が得られる。
$$
\large
\begin{align}
\prod_{i=1}^{D} \int_{-\infty}^{\infty} e^{-x_{i}^{2}} dx_{i} &= S_{D} \int_{0}^{\infty} e^{-r^2} r^{D-1} dr \quad (1.142) \\
\pi^{\frac{D}{2}} &= \frac{S_{D}}{2} \times \Gamma \left( \frac{D}{2} \right) \\
S_{D} &= \frac{2 \pi^{\frac{D}{2}}}{\displaystyle \Gamma \left( \frac{D}{2} \right)} \quad (1.143)
\end{align}
$$

半径$r$の表面積は$S_{D}r^{D-1}$に一致することから、$r=1$のときの体積$V_{D}$は下記のように得られる。
$$
\large
\begin{align}
V_{D} &= \int_{0}^{1} S_{D} r^{D-1} dr \\
&= \left[ \frac{S_{D}}{D} r^{D} \right]_{0}^{1} \\
&= \frac{S_{D}}{D} \quad (1.144)
\end{align}
$$

ここで半径$r$、次元$D$の表面積を$S_{D}(r)$、体積を$V_{D}(r)$とおくと、ここまでの導出により$S_{D}(r), V_{D}(r)$は下記のように表せる。
$$
\large
\begin{align}
S_{D}(r) &= \frac{2 \pi^{\frac{D}{2}}}{\displaystyle \Gamma \left( \frac{D}{2} \right)} r^{D-1} \quad (1.143)’ \\
V_{D}(r) &= \frac{S_{D}}{D} r^{D} \quad (1.144)’ \\
&= \frac{2 \pi^{\frac{D}{2}}}{\displaystyle \Gamma \left( \frac{D}{2} \right) D} r^{D}
\end{align}
$$

上記を元に$r=a, D=2,3$の場合についてそれぞれ計算を行う。
$$
\large
\begin{align}
S_{2}(a) &= \frac{2 \pi^{\frac{2}{2}}}{\displaystyle \Gamma \left( \frac{2}{2} \right)} a^{2-1} \\
&= 2 \pi a \\
V_{2}(a) &= \frac{\cancel{2} \pi^{\frac{2}{2}}}{\displaystyle \Gamma \left( \frac{2}{2} \right) \times \cancel{2}} a^{2} \\
&= \pi a^{2} \\
S_{3}(a) &= \frac{2 \pi^{\frac{3}{2}}}{\displaystyle \Gamma \left( \frac{3}{2} \right)} a^{3-1} \\
&= 2 \pi^{\frac{3}{2}} \times \frac{2}{\sqrt{\pi}} \times a^{2} \\
&= 4 \pi a^{2} \\
V_{3}(a) &= \frac{2 \pi^{\frac{3}{2}}}{\displaystyle \Gamma \left( \frac{3}{2} \right) \times 3} r^{3} \\
&= 2 \pi^{\frac{3}{2}} \times \frac{2}{3 \sqrt{\pi}} \times a^{3} \\
&= \frac{4}{3} \pi a^{3}
\end{align}
$$

上記より、$S_{2}(a), V_{2}(a)$は円周と円の面積に対応し、$S_{3}(a), V_{3}(a)$が球の表面積と体積に一致することが確認できる。

問題$1.19$

・$(1.145)$式の導出
半径$r$の$D$次元超球の体積を$V_{D}(r)$とおくと、演習問題$1.18$より下記が成立する。
$$
\large
\begin{align}
V_{D}(a) = \frac{2 \pi^{\frac{D}{2}}}{\displaystyle \Gamma \left( \frac{D}{2} \right) D} a^{D}
\end{align}
$$

また、辺の長さが$x$の$D$次元超立方体(hypercube)の体積を$V_{\mathrm{HC}}(x)$とおくと$V_{\mathrm{HC}}(2a)$は下記のように計算できる。
$$
\large
\begin{align}
V_{\mathrm{HC}}(2a) = (2a)^{D}
\end{align}
$$

よって、$\displaystyle \frac{V_{D}(a)}{V_{\mathrm{HC}}(2a)}$は下記のように計算できる。
$$
\large
\begin{align}
\frac{V_{D}(a)}{V_{\mathrm{HC}}(2a)} &= \frac{2 \pi^{\frac{D}{2}}}{\displaystyle \Gamma \left( \frac{D}{2} \right) D} \cancel{a^{D}} \times \frac{1}{2^{D} \cancel{a^{D}}} \\
&= \frac{\pi^{\frac{D}{2}}}{\displaystyle D 2^{D-1} \Gamma \left( \frac{D}{2} \right)} \quad (1.145)
\end{align}
$$

・$\displaystyle \lim_{D \to \infty} \frac{V_{D}(a)}{V_{\mathrm{HC}}(2a)} = 0$の導出
$\displaystyle \Gamma \left( \frac{D}{2} \right)$に$(1.146)$式を適用すると下記のように変形を行える。
$$
\large
\begin{align}
\Gamma \left( \frac{D}{2} \right) &= \Gamma \left( \frac{D}{2}-1+1 \right) \\
& \simeq (2 \pi)^{1/2} e^{-D/2-1} \left( \frac{D}{2}-1 \right)^{D/2-1+1/2} \\
&= (2 \pi)^{1/2} e^{-D/2-1} \left( \frac{D}{2}-1 \right)^{(D-1)/2} \quad (1)
\end{align}
$$

$(1)$式を$(1.145)$式に適用すると下記が得られる。
$$
\large
\begin{align}
\frac{V_{D}(a)}{V_{\mathrm{HC}}(2a)} &= \frac{\pi^{\frac{D}{2}}}{\displaystyle D 2^{D-1} \Gamma \left( \frac{D}{2} \right)} \quad (1.145) \\
& \simeq \frac{\pi^{\frac{D}{2}}}{\displaystyle D 2^{D-1}} \times \frac{1}{\displaystyle (2 \pi)^{1/2}e^{-D/2-1} \left( \frac{D}{2}-1 \right)^{(D-1)/2}} \\
& \to 0 \qquad D \to \infty
\end{align}
$$

上記は$x \to \infty$のときの$a^{x}$と$x^{x}$の発散の速さに基づいて$0$に収束することを確かめた。

・others
辺の長さが$2a$のD次元超立方体の中心から辺の長さは$a$である一方で、中心から頂点の長さは$\displaystyle l^2 = \sum_{i=1}^{D} a^2 = Da^2$より、$l = \sqrt{D}a$のように得られる。よって$\displaystyle \frac{l}{a}$は下記のように得られる。
$$
\large
\begin{align}
\frac{l}{a} &= \frac{\sqrt{D} \cancel{a}}{\cancel{a}} \\
&= \sqrt{D}
\end{align}
$$

上記より$D \to \infty$のとき、$\displaystyle \frac{l}{a} \to \infty$となることが確認できる。

問題$1.20$

Ch.2 「確率分布」の章末問題の解答例 パターン認識と機械学習 2.41〜2.61

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.2の「確率分布」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・参考
パターン認識と機械学習 解答まとめ

解答まとめ

問題2.41

$$
\begin{align}
Gamma(\lambda|a,b) = \frac{b^a}{\Gamma(a)} \lambda^{a-1} e^{-b \lambda}
\end{align}
$$
上記のように定義されるガンマ分布に対して、$0 \leq \lambda \leq \infty$の区間で積分を行う。
$$
\begin{align}
\int_{0}^{\infty} Gamma(\lambda|a,b) d \lambda &= \frac{b^a}{\Gamma(a)} \int_{0}^{\infty} \lambda^{a-1} e^{-b \lambda} d \lambda
\end{align}
$$
上記において、$(1.141)$式を参考に$u = b \lambda$のように置き換えることを考える。このとき$d \lambda = b^{-1} du$のように置き換えることができる。
$$
\begin{align}
\int_{0}^{\infty} Gamma(\lambda|a,b) d \lambda &= \frac{b^a}{\Gamma(a)} \int_{0}^{\infty} \lambda^{a-1} e^{-b \lambda} d \lambda \\
&= \frac{b^a}{\Gamma(a)} \int_{0}^{\infty} \left(\frac{u}{b}\right)^{a-1} e^{-u} b^{-1} du \\
&= \frac{1}{\Gamma(a)} \int_{0}^{\infty} u^{a-1} e^{-u} du
\end{align}
$$
ガンマ関数の定義より、$\displaystyle \Gamma(a) = \int_{0}^{\infty} u^{a-1} e^{-u} du$が成立するので、$\displaystyle \int_{0}^{\infty} Gamma(\lambda|a,b) d \lambda=1$となり、これはガンマ分布が正規化されていることを表す。

問題2.42

期待値を$E[\lambda]$、分散を$V[\lambda]$とした際に、それぞれ下記のような数式で定義される。
$$
\begin{align}
E[\lambda] &= \int_{0}^{\infty} \lambda Gamma(\lambda|a,b) d \lambda \\
V[\lambda] &= \int_{0}^{\infty} (\lambda-E[\lambda])^2 Gamma(\lambda|a,b) d \lambda
\end{align}
$$
以下、それぞれの式について計算する。

期待値$E[\lambda]$は下記のように計算することができる。
$$
\begin{align}
E[\lambda] &= \int_{0}^{\infty} \lambda Gamma(\lambda|a,b) d \lambda \\
&= \frac{b^a}{\Gamma(a)} \int_{0}^{\infty} \lambda^{a} e^{-b \lambda} d \lambda \\
&= \frac{b^a}{\Gamma(a)} \left[ -\lambda^{a} b^{-1} e^{-b \lambda} \right]_{0}^{\infty} + \frac{b^a}{\Gamma(a)} \int_{0}^{\infty} a b^{-1} \lambda^{a-1} e^{-b \lambda} d \lambda \\
&= \frac{1}{\Gamma(a)} \Gamma(a) a b^{-1} \\
&= \frac{a}{b}
\end{align}
$$
途中の計算では問題$2.41$の結果を利用した。

問題$2.43$

$$
\large
\begin{align}
p(x|\sigma^2,q) = \frac{q}{2 (2 \sigma^2)^{1/q} \Gamma(1/q)} \exp \left( -\frac{|x|^{q}}{2 \sigma^2} \right) \quad (2.293)
\end{align}
$$

・$(2.293)$式が正規化されていることの確認
$(2.293)$式は$x=0$で線対称であるので、区間$0 \leq x \leq \infty$での積分を計算し$2$倍することで全区間での積分が得られる。$0 \leq x \leq \infty$の区間での$(2.293)$式の積分は下記のように表せる。
$$
\large
\begin{align}
\int_{0}^{\infty} p(x|\sigma^2,q) dx = \int_{0}^{\infty} \frac{q}{2 (2 \sigma^2)^{1/q} \Gamma(1/q)} \exp \left( -\frac{x^{q}}{2 \sigma^2} \right) dx \quad (1)
\end{align}
$$

上記に対して$\displaystyle u = \frac{x^{q}}{2 \sigma^2}$で変数変換を行うことを考える。このとき$\displaystyle x = (2 \sigma^2 u)^{\frac{1}{q}}$より$\displaystyle \frac{dx}{du}$は下記のように計算できる。
$$
\large
\begin{align}
\frac{dx}{du} &= \frac{d}{du} (2 \sigma^2 u)^{\frac{1}{q}} \\
&= \frac{1}{q} (2 \sigma^2)^{\frac{1}{q}} u^{\frac{1}{q}-1}
\end{align}
$$

また、$0 \leq x \leq \infty$に対応する$u$の区間は$0 \leq u \leq \infty$である。よって$(1)$式は下記のように変数を置換できる。
$$
\large
\begin{align}
\int_{0}^{\infty} p(x|\sigma^2,q) dx &= \int_{0}^{\infty} \frac{q}{2 (2 \sigma^2)^{1/q} \Gamma(1/q)} \exp \left( -\frac{x^{q}}{2 \sigma^2} \right) dx \quad (1) \\
&= \int_{0}^{\infty} \frac{q}{2 (2 \sigma^2)^{1/q} \Gamma(1/q)} \exp(-u) \times \frac{dx}{du} du \\
&= \int_{0}^{\infty} \frac{q}{2 (2 \sigma^2)^{1/q} \Gamma(1/q)} \exp(-u) \times \frac{1}{q} (2 \sigma^2)^{\frac{1}{q}} u^{\frac{1}{q}-1} du \\
&= \frac{1}{2 \Gamma(1/q)} \int_{0}^{\infty} u^{\frac{1}{q}-1} \exp(-u) du \\
&= \frac{\Gamma(1/q)}{2 \Gamma(1/q)} = \frac{1}{2}
\end{align}
$$

したがって下記が成立する。
$$
\large
\begin{align}
\int_{-\infty}^{\infty} p(x|\sigma^2,q) dx &= 2 \int_{0}^{\infty} p(x|\sigma^2,q) dx \\
&= 2 \times \frac{1}{2} = 1 \quad (2.294)
\end{align}
$$

・$(2.293)$式に$q=2$を代入すると正規分布が得られることの確認
$(2.293)$式に$q=2$を代入すると下記が得られる。
$$
\large
\begin{align}
p(x|\sigma^2,q) &= \frac{q}{2 (2 \sigma^2)^{1/q} \Gamma(1/q)} \exp \left( -\frac{|x|^{q}}{2 \sigma^2} \right) \quad (2.293) \\
&= \frac{2}{2 (2 \sigma^2)^{1/2} \Gamma(1/2)} \exp \left( -\frac{|x|^{2}}{2 \sigma^2} \right) \\
&= \frac{1}{(2 \pi \sigma^2)^{1/2}} \exp \left( -\frac{x^{2}}{2 \sigma^2} \right) = \mathcal{N}(0,\sigma^2)
\end{align}
$$

上記の導出にあたって、$\Gamma(1/2)=\sqrt{\pi}$であることを用いた。

・対数尤度が$(2.295)$式で得られることの確認
$(2.293)$式に基づいて同時確率$p(\mathbf{t}|\mathbf{X},\mathbf{w},\sigma^2)$は下記のように得られる。
$$
\large
\begin{align}
p(\mathbf{t}|\mathbf{X},\mathbf{w},\sigma^2) &= \prod_{n=1}^{N} \frac{q}{2 (2 \sigma^2)^{1/q} \Gamma(1/q)} \exp \left( -\frac{|t_{n}-y(\mathbf{x}_{n},\mathbf{w})|^{q}}{2 \sigma^2} \right)
\end{align}
$$

尤度関数は上記を$\mathbf{w},\sigma^2$を変数と見なした関数であるので、上記は下記のように整理できる。
$$
\large
\begin{align}
p(\mathbf{t}|\mathbf{X},\mathbf{w},\sigma^2) &= \prod_{n=1}^{N} \frac{q}{2 (2 \sigma^2)^{1/q} \Gamma(1/q)} \exp \left( -\frac{|t_{n}-y(\mathbf{x}_{n},\mathbf{w})|^{q}}{2 \sigma^2} \right) \\
&= \prod_{n=1}^{N} \exp \left( -\frac{|t_{n}-y(\mathbf{x}_{n},\mathbf{w})|^{q}}{2 \sigma^2} – \frac{1}{q}\ln{(2 \sigma^2)} + \mathrm{Const.} \right) \\
&= \exp \left( – \sum_{n=1}^{N} \frac{|t_{n}-y(\mathbf{x}_{n},\mathbf{w})|^{q}}{2 \sigma^2} – \frac{N}{q}\ln{(2 \sigma^2)} + \mathrm{Const.}’ \right)
\end{align}
$$

対数尤度は上記の対数を取ることで得られる。
$$
\large
\begin{align}
\ln{p(\mathbf{t}|\mathbf{X},\mathbf{w},\sigma^2)} &= \ln{ \left[ \exp \left( – \sum_{n=1}^{N} \frac{|t_{n}-y(\mathbf{x}_{n},\mathbf{w})|^{q}}{2 \sigma^2} – \frac{N}{q}\ln{(2 \sigma^2)} + \mathrm{Const.}’ \right) \right] } \\
&= – \sum_{n=1}^{N} \frac{|t_{n}-y(\mathbf{x}_{n},\mathbf{w})|^{q}}{2 \sigma^2} – \frac{N}{q}\ln{(2 \sigma^2)} + \mathrm{Const.}’ \quad (2.295)
\end{align}
$$

よって$(2.295)$式が対数尤度に対応すると考えられる。

問題$2.44$

サンプル$\mathbf{X}$が観測された際の尤度を$p(\mathbf{X}|\mu,\lambda)$とおくと、$p(\mathbf{X}|\mu,\lambda)$に関して下記が成立する。
$$
\large
\begin{align}
p(\mathbf{X}|\mu,\lambda) & \propto \left[ \lambda^{1/2} \exp \left( -\frac{\lambda \mu^{2}}{2} \right) \right]^{N} \exp \left[ \lambda \mu \sum_{n=1}^{N} x_n – \frac{\lambda}{2} \sum_{n=1}^{N} x_{n}^{2} \right] \quad (2.152)
\end{align}
$$

このとき上記と同じような関数形の事前分布は下記のように考えることができる。
$$
\large
\begin{align}
p(\mu,\lambda) & \propto \left[ \lambda^{1/2} \exp \left( -\frac{\lambda \mu^{2}}{2} \right) \right]^{N} \exp \left[ c \lambda \mu – d \lambda \right] \\
&= \exp \left[ – \frac{\beta \lambda}{2} \left( \mu – \frac{c}{\beta} \right)^2 \right] \times \lambda^{\beta/2} \exp \left[ – \left( d – \frac{c^2}{2 \beta} \right) \lambda \right] \quad (2.153)
\end{align}
$$

上記のように表された$(2.153)$の正規化を行えば正規分布$\displaystyle \mathcal{N} \left( \frac{c}{\beta}, (\beta \lambda)^{-1} \right)$とガンマ分布$\displaystyle \mathrm{Gamma} \left( \frac{\beta}{2}+1,d – \frac{c^2}{2 \beta} \right)$の積に一致すると考えることができる。よって、$\displaystyle \mu_{0} \frac{c}{\beta}, a=\frac{\beta}{2}+1, b=d – \frac{c^2}{2 \beta}$のようにおくと$(2.154)$式の比例に一致する。

よって$(2.154)$式の正規-ガンマ分布を事前分布に定めると、事後分布も正規ガンマ分布となると考えられる。
$$
\large
\begin{align}
p(\mu,\lambda) = \mathcal{N}(\mu|\mu_{0},(\beta \lambda)^{-1}) \mathrm{Gam}(\lambda|a_{0},b_{0}) \quad (2.154)
\end{align}
$$

以下、事前分布$p(\mu,\lambda)$のパラメータを$\mu_{0}, a_{0}, b_{0}$、事後分布$p(\mu,\lambda|\mathbf{X})$のパラメータを$\mu_{N}, a_{N}, b_{N}$のようにおき、事後分布のパラメータの式の導出を行う。
$$
\large
\begin{align}
& p(\mu_{N},\lambda_{N}|\mathbf{X}) \propto p(\mathbf{X}|\mu,\lambda) p(\mu_{0},\lambda) \\
& \propto \left[ \lambda^{1/2} \exp \left( -\frac{\lambda \mu^{2}}{2} \right) \right]^{N} \exp \left[ \lambda \mu \sum_{n=1}^{N} x_n – \frac{\lambda}{2} \sum_{n=1}^{N} x_{n}^{2} \right] \times \mathcal{N}(\mu|\mu_{0},(\beta_{0} \lambda)^{-1}) \mathrm{Gam}(\lambda|a_{0},b_{0}) \\
& \propto \lambda^{N/2} \exp \left( -\frac{\lambda N \mu^{2}}{2} \right) \exp \left[ \lambda \mu \sum_{n=1}^{N} x_n – \frac{\lambda}{2} \sum_{n=1}^{N} x_{n}^{2} \right] \times \exp \left[ -\frac{\beta \lambda(\mu-\mu_{0})^2}{2} \right] \lambda^{a_{0}-1} \exp(-b_{0} \lambda) \\
&= \exp \left[ -\frac{\lambda}{2}\left( N + \beta \right) \mu^2 + \left( \sum_{n=1}^{N}x_n + \beta \mu_{0} \right) \mu \right] \lambda^{a_{0}+\frac{N}{2}-1} \exp \left[ -\left( b_{0} + \frac{\beta \mu_{0}^{2}}{2} \right) \lambda \right] \\
&= \exp \left[ -\frac{\lambda(N + \beta)}{2}\left( \mu – \frac{ \displaystyle \sum_{n=1}^{N}x_n + \beta \mu_{0}}{N + \beta} \right)^2 \right] \lambda^{a_{0}+\frac{N}{2}-1} \exp \left[ -\left( b_{0} + \frac{\beta \mu_{0}^{2}}{2} – \frac{ \displaystyle \left( \sum_{n=1}^{N}x_n + \beta \mu_{0} \right)^2}{2(N + \beta)} \right) \lambda \right]
\end{align}
$$

よって、$\mu_{N}, a_{N}, b_{N}$はそれぞれ下記のように得られる。
$$
\large
\begin{align}
\mu_{N} &= \frac{ \displaystyle \sum_{n=1}^{N}x_n + \beta \mu_{0}}{N + \beta} \\
a_{N} &= a_{0}+\frac{N}{2}-1 \\
b_{N} &= b_{0} + \frac{\beta \mu_{0}^{2}}{2} – \frac{ \displaystyle \left( \sum_{n=1}^{N}x_n + \beta \mu_{0} \right)^2}{2(N + \beta)}
\end{align}
$$

問題$2.45$

多次元正規分布の確率密度関数$\mathcal{N}(\mathbf{x}|\mathbf{\mu},\mathbf{\Lambda}^{-1})$は下記のように表される。
$$
\large
\begin{align}
\mathcal{N}(\mathbf{x}|\mathbf{\mu},\mathbf{\Lambda}^{-1}) = \frac{|\Lambda|^{1/2}}{(2 \pi)^{D/2}} \exp \left[ -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Lambda} (\mathbf{x}-\mathbf{\mu}) \right]
\end{align}
$$

このとき、$\mathbf{x}_{1},…,\mathbf{x}_{N}$に関する尤度を$L(\mathbf{\Lambda})$とおくと、$L(\mathbf{\Lambda})$は下記のように表せる。
$$
\large
\begin{align}
L(\mathbf{\Lambda}) &= \prod_{n=1}^{N} \mathcal{N}(\mathbf{x}_{n}|\mathbf{\mu},\mathbf{\Lambda}^{-1}) \\
&= \prod_{n=1}^{N} \frac{|\mathbf{\Lambda}|^{1/2}}{(2 \pi)^{D/2}} \exp \left[ -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Lambda} (\mathbf{x}-\mathbf{\mu}) \right] \\
&= \frac{|\mathbf{\Lambda}|^{N/2}}{(2 \pi)^{ND/2}} \exp \left[ -\frac{1}{2} \sum_{n=1}^{N} (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Lambda}(\mathbf{x}-\mathbf{\mu}) \right] \quad (1)
\end{align}
$$

上記の$(1)$式を$\Lambda$に関する式と見た際に$(2.155)$式と同様の関数形であることを以下に示す。
$$
\large
\begin{align}
L(\mathbf{\Lambda}) & \propto |\mathbf{\Lambda}|^{N/2} \exp \left[ -\frac{1}{2} \sum_{n=1}^{N} (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Lambda}(\mathbf{x}-\mathbf{\mu}) \right] \quad (1)’ \\
&= |\mathbf{\Lambda}|^{N/2} \exp \left[ -\frac{1}{2} \sum_{n=1}^{N} \mathrm{Tr}((\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Lambda}(\mathbf{x}-\mathbf{\mu})) \right] \\
&= |\mathbf{\Lambda}|^{N/2} \exp \left[ -\frac{1}{2} \sum_{n=1}^{N} \mathrm{Tr}((\mathbf{x}-\mathbf{\mu})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Lambda}) \right] \\
&= |\mathbf{\Lambda}|^{N/2} \exp \left[ -\frac{1}{2} \mathrm{Tr} \left( \sum_{n=1}^{N} (\mathbf{x}-\mathbf{\mu})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Lambda} \right) \right] \\
&= |\mathbf{\Lambda}|^{N/2} \exp \left[ -\frac{1}{2} \mathrm{Tr}(\mathbf{S}\mathbf{\Lambda}) \right] \quad (2) \\
\mathbf{S} &= \sum_{n=1}^{N} (\mathbf{x}-\mathbf{\mu})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}
\end{align}
$$

$(2.155)$式は$\Lambda$に関して$(2)$式と同様な関数形であるので、共役事前分布であると考えることができる。

問題$2.46$

$$
\large
\begin{align}
p(x|\mu,a,b) = \int_{0}^{\infty} \mathcal{N}(x|\mu,\tau^{-1}) \mathrm{Gam}(\tau|a,b) \quad (2.158)
\end{align}
$$

上記で表した$(2.158)$式に対して下記のように変形を考えられる。
$$
\large
\begin{align}
p(x|\mu,a,b) &= \int_{0}^{\infty} \mathcal{N}(x|\mu,\tau^{-1}) \mathrm{Gam}(\tau|a,b) d \tau \quad (2.158) \\
&= \int_{0}^{\infty} \left( \frac{\tau}{2 \pi} \right)^{1/2} \exp \left( -\frac{\tau(x-\mu)^2}{2} \right) \times \frac{b^{a} \tau^{a-1} e^{-b \tau}}{\Gamma(a)} d \tau \\
&= \frac{b^{a}}{\Gamma(a) \sqrt{2 \pi}} \int_{0}^{\infty} \sqrt{\tau} \exp \left( -\frac{\tau(x-\mu)^2}{2} \right) \times \tau^{a-1} e^{-b \tau} d \tau \\
&= \frac{b^{a}}{\Gamma(a) \sqrt{2 \pi}} \int_{0}^{\infty} \tau^{a+\frac{1}{2}-1} \exp \left( -\tau \left[ b + \frac{(x-\mu)^2}{2} \right] \right) d \tau \\
&= \frac{b^{a}}{\Gamma(a) \sqrt{2 \pi}} \times \Gamma \left( a+\frac{1}{2} \right) \left[ b + \frac{(x-\mu)^2}{2} \right]^{-a-\frac{1}{2}} \quad (1)
\end{align}
$$

上記に対し、$\displaystyle \nu = 2a, \lambda=\frac{a}{b}$のように文字を置き換えることを考える。$a, b$に関して解くと$\displaystyle a = \frac{\nu}{2}, b = \frac{\nu}{2 \lambda}$なので、それぞれ$(1)$式に代入を行う。
$$
\large
\begin{align}
p(x|\mu,a,b) &= \frac{b^{a}}{\Gamma(a) \sqrt{2 \pi}} \times \Gamma \left( a+\frac{1}{2} \right) \left[ b + \frac{(x-\mu)^2}{2} \right]^{-a-\frac{1}{2}} \quad (1) \\
&= \frac{\displaystyle \left( \frac{\nu}{2 \lambda} \right)^{\frac{\nu}{2}}}{\displaystyle \Gamma \left( \frac{\nu}{2} \right) \sqrt{2 \pi}} \times \Gamma \left( \frac{\nu+1}{2} \right) \left[ \frac{\nu}{2 \lambda} + \frac{(x-\mu)^2}{2} \right]^{-\frac{\nu+1}{2}} \\
&= \frac{\displaystyle \Gamma \left( \frac{\nu+1}{2} \right)}{\displaystyle \Gamma \left( \frac{\nu}{2} \right) \sqrt{2 \pi}} \times \left( \frac{\nu}{2 \lambda} \right)^{-\frac{1}{2}} \left( \frac{\nu}{2 \lambda} \right)^{\frac{\nu+1}{2}} \times \left[ \frac{\nu}{2 \lambda} + \frac{(x-\mu)^2}{2} \right]^{-\frac{\nu+1}{2}} \\
&= \frac{\displaystyle \Gamma \left( \frac{\nu+1}{2} \right)}{\displaystyle \Gamma \left( \frac{\nu}{2} \right) \sqrt{2 \pi}} \times \sqrt{ \frac{2 \lambda}{\nu} } \times \left[ \frac{2 \lambda}{\nu} \left( \frac{\nu}{2 \lambda} + \frac{(x-\mu)^2}{2} \right) \right]^{-\frac{\nu+1}{2}} \\
&= \frac{\displaystyle \Gamma \left( \frac{\nu+1}{2} \right)}{\displaystyle \Gamma \left( \frac{\nu}{2} \right)} \sqrt{ \frac{\lambda}{\pi \nu} } \times \left[ 1 + \frac{\lambda(x-\mu)^2}{\nu} \right]^{-\frac{\nu+1}{2}} \\
&= \mathrm{St}(x|\mu,\lambda,\nu) \quad (2.159)
\end{align}
$$

上記のように考えることで$(2.158)$から$(2.159)$を示せる。

問題$2.47$

下記で詳しく取り扱った。

・現代数理統計学 演習$4.5$

問題$2.48$

$$
\large
\begin{align}
\mathrm{St}(\mathbf{x}|\mathbf{\mu},\mathbf{\Lambda},\nu) = \int_{0}^{\infty} \mathcal{N}(\mathbf{x}|\mathbf{\mu},(\eta\mathbf{\Lambda})^{-1}) \mathrm{Gam} \left(\eta \Bigr| \frac{\nu}{2}, \frac{\nu}{2} \right) d \eta \quad (2.261)
\end{align}
$$

上記で表した$(2.261)$式に出てくる、$\mathcal{N}(\mathbf{x}|\mathbf{\mu},(\eta\mathbf{\Lambda})^{-1})$と$\displaystyle \mathrm{Gam} \left(\eta \Bigr| \frac{\nu}{2}, \frac{\nu}{2} \right)$はそれぞれ下記のように表せる。

・$\mathcal{N}(\mathbf{x}|\mathbf{\mu},(\eta\mathbf{\Lambda})^{-1})$
$$
\large
\begin{align}
\mathcal{N}(\mathbf{x}|\mathbf{\mu},(\eta\mathbf{\Lambda})^{-1}) &= \frac{|\eta \mathbf{\Lambda}|^{1/2}}{(2 \pi)^{D/2}} \exp \left[ – \frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}(\eta \mathbf{\Lambda})(\mathbf{x}-\mathbf{\mu}) \right] \\
&= \frac{\eta^{D/2}|\mathbf{\Lambda}|^{1/2}}{(2 \pi)^{D/2}} \exp \left[ – \frac{\eta}{2} \Delta^{2} \right] \quad (1) \\
\Delta^2 &= (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\mathbf{\Lambda}(\mathbf{x}-\mathbf{\mu})
\end{align}
$$

・$\displaystyle \mathrm{Gam} \left(\eta \Bigr| \frac{\nu}{2}, \frac{\nu}{2} \right)$
$$
\large
\begin{align}
\mathrm{Gam} \left(\eta \Bigr| \frac{\nu}{2}, \frac{\nu}{2} \right) = \frac{\displaystyle \left( \frac{\nu}{2} \right)^{\nu/2}}{\displaystyle \Gamma \left( \frac{\nu}{2} \right)} \eta^{\frac{\nu}{2}-1} \exp \left( – \frac{\nu \eta}{2} \right) \quad (2)
\end{align}
$$

$(1)$式、$(2)$式より、$(2.261)$式は下記のように変形できる。
$$
\large
\begin{align}
& \mathrm{St}(\mathbf{x}|\mathbf{\mu},\mathbf{\Lambda},\nu) = \int_{0}^{\infty} \mathcal{N}(\mathbf{x}|\mathbf{\mu},(\eta\mathbf{\Lambda})^{-1}) \mathrm{Gam} \left(\eta \Bigr| \frac{\nu}{2}, \frac{\nu}{2} \right) d \eta \quad (2.261) \\
&= \int_{0}^{\infty} \frac{\eta^{D/2}|\mathbf{\Lambda}|^{1/2}}{(2 \pi)^{D/2}} \exp \left[ – \frac{\eta}{2} \Delta^{2} \right] \times \frac{\displaystyle \left( \frac{\nu}{2} \right)^{\nu/2}}{\displaystyle \Gamma \left( \frac{\nu}{2} \right)} \eta^{\frac{\nu}{2}-1} \exp \left( – \frac{\nu \eta}{2} \right) d \eta \\
&= \frac{|\mathbf{\Lambda}|^{1/2}}{(2 \pi)^{D/2}} \frac{\displaystyle \left( \frac{\nu}{2} \right)^{\nu/2}}{\displaystyle \Gamma \left( \frac{\nu}{2} \right)} \int_{0}^{\infty} \eta^{\frac{D+\nu}{2}-1} \exp \left[ – \eta \left( \frac{\nu+\Delta^2}{2} \right) \right] d \eta \\
&= \frac{|\mathbf{\Lambda}|^{1/2}}{(2 \pi)^{D/2}} \frac{\displaystyle \left( \frac{\nu}{2} \right)^{\nu/2}}{\displaystyle \Gamma \left( \frac{\nu}{2} \right)} \frac{\displaystyle \Gamma \left( \frac{D+\nu}{2} \right)}{\displaystyle \left( \frac{\nu+\Delta^2}{2} \right)^{\frac{D+\nu}{2}}} \\
&= \frac{\displaystyle \Gamma \left( \frac{\nu}{2} \right)}{\displaystyle \Gamma \left( \frac{D+\nu}{2} \right)} \frac{|\mathbf{\Lambda}|^{1/2} \nu^{\nu/2}}{\displaystyle \pi^{D/2} 2^{(D+\nu)/2} \nu^{(D+\nu)/2} \left( \frac{1+\Delta^2/\nu}{2} \right)^{\frac{D+\nu}{2}}} \\
&= \frac{\displaystyle \Gamma \left( \frac{\nu}{2} \right)}{\displaystyle \Gamma \left( \frac{D+\nu}{2} \right)} \frac{|\mathbf{\Lambda}|^{1/2}}{\displaystyle (\pi \nu)^{D/2} \left( 1+\frac{\Delta^2}{\nu} \right)^{\frac{D+\nu}{2}}} \\
&= \frac{\displaystyle \Gamma \left( \frac{\nu}{2} \right)}{\displaystyle \Gamma \left( \frac{D+\nu}{2} \right)} \frac{|\mathbf{\Lambda}|^{1/2}}{\displaystyle (\pi \nu)^{D/2}} \left( 1+\frac{\Delta^2}{\nu} \right)^{-\frac{D+\nu}{2}} \quad (2.162)
\end{align}
$$

ここまでの導出により、$(2.162)$式が成立することを示せた。

問題$2.50$

$$
\large
\begin{align}
\mathrm{St}(\mathbf{x}|\mathbf{\mu},\mathbf{\Lambda},\nu) &= \frac{\displaystyle \Gamma \left( \frac{\nu}{2} \right)}{\displaystyle \Gamma \left( \frac{D+\nu}{2} \right)} \frac{|\mathbf{\Lambda}|^{1/2}}{\displaystyle (\pi \nu)^{D/2}} \left( 1+\frac{\Delta^2}{\nu} \right)^{-\frac{D+\nu}{2}} \quad (2.162) \\
\Delta^2 &= (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\mathbf{\Lambda}(\mathbf{x}-\mathbf{\mu}) \quad (2.163)
\end{align}
$$

$(2.162)$式を$\mathbf{x}$の関数と見ると、下記のように考えることができる。
$$
\large
\begin{align}
\mathrm{St}(\mathbf{x}|\mathbf{\mu},\mathbf{\Lambda},\nu) & \propto \left( 1+\frac{\Delta^2}{\nu} \right)^{-\frac{D+\nu}{2}} \\
&= \left( 1+\frac{\Delta^2}{\nu} \right)^{-\frac{D}{2}} \times \left( 1+\frac{\Delta^2}{\nu} \right)^{-\frac{\nu}{2}} \\
&= \left( 1+\frac{\Delta^2}{\nu} \right)^{-\frac{D}{2}} \times \left[ \left( 1+\frac{\Delta^2}{\nu} \right)^{\frac{\nu}{\Delta^2}} \right]^{-\frac{\Delta^2}{2}}
\end{align}
$$

上記に対して$\nu \to \infty$を考えると$\displaystyle \frac{\nu}{\Delta^2} \to \infty$より下記が成立する。
$$
\large
\begin{align}
\lim_{\nu \to \infty} \mathrm{St}(\mathbf{x}|\mathbf{\mu},\mathbf{\Lambda},\nu) & \propto \lim_{\frac{\nu}{\Delta^2} \to \infty} \left( 1+\frac{\Delta^2}{\nu} \right)^{-\frac{D}{2}} \times \left[ \left( 1+\frac{\Delta^2}{\nu} \right)^{\frac{\nu}{\Delta^2}} \right]^{-\frac{\Delta^2}{2}} \\
&= 1 \times \exp \left[ -\frac{\Delta^2}{2} \right] \\
&= \exp \left[ -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\mathbf{\Lambda}(\mathbf{x}-\mathbf{\mu}) \right]
\end{align}
$$

よって$\nu \to \infty$のとき$(2.262)$式は多次元正規分布$\mathcal{N}(\mathbf{\mu},\mathbf{\Lambda}^{-1})$に収束する。

問題$2.51$

・$(2.177)$式$\cos^{2}{A} + \sin^{2}{A} = 1$の導出
$\exp(iA)\exp(-iA) = 1$に$(2.296)$式を代入すると下記のように変形を行える。
$$
\large
\begin{align}
\exp(iA)\exp(-iA) &= 1 \\
(\cos{A} + i\sin{A})(\cos{A} – i\sin{A}) &= 1 \\
\cos^2{A} – i^2\sin^2{A} &= 1 \\
\cos^2{A} + \sin^2{A} &= 1
\end{align}
$$

・$(2.178)$式$\cos{A}\cos{B}+\sin{A}\sin{B}=\cos{(A-B)}$の導出
$(2.298)$式$\cos(A-B) = \mathrm{Re}[\exp{(i(A-B))}]$の右辺は下記のように変形を行える。
$$
\large
\begin{align}
\mathrm{Re}[\exp{(i(A-B))}] &= \mathrm{Re}[\exp{iA)}\exp{(-iB)}] \\
&= \mathrm{Re}[(\cos{A} + i\sin{A})(\cos{B} – i\sin{B})] \\
&= \mathrm{Re}[\cos{A}\cos{B} – i\cos{A}\sin{B} + i\sin{A}\cos{B} – i^2\sin{A}\sin{B}] \\
&= \mathrm{Re}[\cos{A}\cos{B} + \sin{A}\sin{B} + i(-\cos{A}\sin{B} + \sin{A}\cos{B})] \\
&= \cos{A}\cos{B} + \sin{A}\sin{B}
\end{align}
$$

上記と$(2.298)$式より$\cos{A}\cos{B}+\sin{A}\sin{B}=\cos{(A-B)}$が成立する。

・$(2.183)$式$\sin{(A-B)}=\sin{A}\cos{B}-\cos{A}\sin{B}$の導出
$$
\large
\begin{align}
\sin(A-B) = \mathrm{Im}[\exp{(i(A-B))}] \quad (1)
\end{align}
$$

上記の$(1)$の右辺は下記のように変形を行える。
$$
\large
\begin{align}
\mathrm{Im}[\exp{(i(A-B))}] &= \mathrm{Im}[\exp{iA)}\exp{(-iB)}] \\
&= \mathrm{Im}[(\cos{A} + i\sin{A})(\cos{B} – i\sin{B})] \\
&= \mathrm{Im}[\cos{A}\cos{B} – i\cos{A}\sin{B} + i\sin{A}\cos{B} – i^2\sin{A}\sin{B}] \\
&= \mathrm{Im}[\cos{A}\cos{B} + \sin{A}\sin{B} + i(-\cos{A}\sin{B} + \sin{A}\cos{B})] \\
&= \sin{A}\cos{B} – \cos{A}\sin{B}
\end{align}
$$

上記と$(1)$式より$\sin{(A-B)}=\sin{A}\cos{B}-\cos{A}\sin{B}$が成立する。

・参考
三角関数の加法定理・倍角の公式 etc.

問題$2.53$

$$
\large
\begin{align}
\sum_{n=1}^{N} \sin(\theta_n-\theta_0) = 0 \quad (2.182)
\end{align}
$$

上記の$(2.182)$式を$\theta_{0}$に関して解けばよい。
$$
\large
\begin{align}
\sum_{n=1}^{N} \sin(\theta_n-\theta_0) &= 0 \quad (2.182) \\
\sum_{n=1}^{N} (\sin{\theta_n}\cos{\theta_0} – \cos{\theta_n}\sin{\theta_0}) &= 0 \\
\cos{\theta_0} \sum_{n=1}^{N} \sin{\theta_n} &= \sin{\theta_0} \sum_{n=1}^{N} \cos{\theta_n} \\
\sum_{n=1}^{N} \sin{\theta_n} &= \tan{\theta_0} \sum_{n=1}^{N} \cos{\theta_n} \\
\tan{\theta_0} &= \frac{\displaystyle \sum_{n=1}^{N} \sin{\theta_n}}{\displaystyle \sum_{n=1}^{N} \cos{\theta_n}} \\
\theta_0 &= \tan^{-1}{ \left[ \frac{\displaystyle \sum_{n=1}^{N} \sin{\theta_n}}{\displaystyle \sum_{n=1}^{N} \cos{\theta_n}} \right] }
\end{align}
$$

上記より$(2.184)$式の$\theta_{0}^{ML} = \tan^{-1}{ \left[ \frac{\displaystyle \sum_{n=1}^{N} \sin{\theta_n}}{\displaystyle \sum_{n=1}^{N} \cos{\theta_n}} \right] }$が成立する。

問題$2.54$

$$
\large
\begin{align}
p(\theta|\theta_{0},m) &= \frac{1}{2 \pi \mathit{I}_{0}(m)} \exp(m \cos(\theta-\theta_0)) \\
& \propto \exp(m \cos(\theta-\theta_0))
\end{align}
$$

$(2.179)$式は$\theta$を変数と見る場合上記のように考えることができる。このとき$f(\theta) = \exp(m \cos(\theta-\theta_0))$のようにおくと、$\theta = \theta_{0}, (\mod 2 \pi)$のときに$f(\theta)$が最大となり、$\theta = \theta_{0} + \pi, (\mod 2 \pi)$が示せれば$(2.179)$式に関しても同時に成立すると考えられる。よって、以下$f(\theta)$の$1$階微分$f'(\theta)$、$2$階微分$f^{”}(\theta)$を計算し、$f(\theta)$が最大・最小となる$\theta$の条件を導出する。

・$1$階微分$f'(\theta)$の計算
$$
\large
\begin{align}
f'(\theta) &= (\exp(m \cos(\theta-\theta_0)))’ \\
&= \exp(m \cos(\theta-\theta_0)) \times (-m) \sin(\theta-\theta_0) \\
&= -m \sin(\theta-\theta_0) \exp(m \cos(\theta-\theta_0))
\end{align}
$$

・$2$階微分$f^{”}(\theta)$の計算
$$
\large
\begin{align}
f^{”}(\theta) &= -m \cos(\theta-\theta_0) \exp(m \cos(\theta-\theta_0)) + m^2 \sin^{2}(\theta-\theta_0) \exp(m \cos(\theta-\theta_0)) \\
&= \left[ m^2 \sin^{2}(\theta-\theta_0) – m \cos(\theta-\theta_0) \right] \exp(m \cos(\theta-\theta_0))
\end{align}
$$

ここで$1$階微分$f'(\theta)$に関し、$f'(\theta)=0$となる$\theta$を導出することを考える。
$$
\large
\begin{align}
f'(\theta) &= 0 \\
m \sin(\theta-\theta_0) \exp(m \cos(\theta-\theta_0)) &= 0 \\
\sin(\theta-\theta_0) &= 0
\end{align}
$$

上記より$\theta = \theta_{0}, \theta_{0} + \pi, \mod 2 \pi$がここでの解であると考えられる。$f'(\theta)=0$は極値の必要条件であるので、それぞれの解に関して$f^{”}(\theta)$の符号を確認する。

・$f^{”}(\theta_{0})$の符号
$$
\large
\begin{align}
f^{”}(\theta_{0}) &= \left[ m^2 \sin^{2}(\theta_{0}-\theta_0) – m \cos(\theta_{0}-\theta_0) \right] \exp(m \cos(\theta_{0}-\theta_0)) \\
&= -m \exp(m) < 0
\end{align}
$$

・$f^{”}(\theta_{0} + \pi)$の符号
$$
\large
\begin{align}
f^{”}(\theta_{0} + \pi) &= \left[ m^2 \sin^{2}(\theta_{0}+\pi-\theta_0) – m \cos(\theta_{0}+\pi-\theta_0) \right] \exp(m \cos(\theta_{0}+\pi-\theta_0)) \\
&= m \exp(-m) > 0
\end{align}
$$

よって$\theta = \theta_{0}, \mod 2 \pi$のときに$(2.179)$式が最大となり、$\theta = \theta_{0} + \pi, \mod 2 \pi$のときに$(2.179)$式が最小となると考えることができる。

問題$2.56$

$x = \exp[\ln{x}]$が成立することを元に全ての項を指数関数の中に入れた後に変形を考えるとわかりやすいので、以下この方針に基づいて変形を行う。

・ベータ分布
$$
\large
\begin{align}
Beta(x|a,b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} x^{a-1} (1-x)^{b-1} \quad (2.13)
\end{align}
$$

ベータ分布の$(2.13)$式は上記のように表されるが、この式は下記のように変形することができる。
$$
\large
\begin{align}
Beta(x|a,b) &= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} x^{a-1} (1-x)^{b-1} \quad (2.13) \\
&= \exp \left[ \ln{ \left( \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} x^{a-1} (1-x)^{b-1} \right) } \right] \\
&= \exp \left[ \ln{ \left( \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \right) + (a-1) \ln{x} + (b-1)\ln{(1-x)} } \right] \\
&= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \exp \left[ (a-1) \ln{x} + (b-1)\ln{(1-x)} \right] \\
&= h(\mathbf{x})g(a,b) \exp \left[ \eta^{\mathrm{T}} \mathbf{u}(\mathbf{x}) \right]
\end{align}
$$

上記の一番下の式では下記のように文字を置いた。
$$
\large
\begin{align}
h(\mathbf{x}) &= 1 \\
g(a,b) &= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \\
\eta(a,b) &= \left(\begin{array}{c} a-1 \\ b-1 \end{array} \right) \\
\mathbf{u}(\mathbf{x}) &= \left(\begin{array}{c} \ln{x} \\ \ln{(1-x)} \end{array} \right)
\end{align}
$$

・ガンマ分布
$$
\large
\begin{align}
\mathrm{Gamma}(x|a,b) = \frac{b^{a}}{\Gamma(a)} \lambda^{a-1} \exp{(-b \lambda)} \quad (2.146)
\end{align}
$$

ベータ分布の$(2.146)$式は上記のように表されるが、この式は下記のように変形することができる。
$$
\large
\begin{align}
\mathrm{Gamma}(x|a,b) &= \frac{b^{a}}{\Gamma(a)} x^{a-1} \exp{(-b x)} \quad (2.146) \\
&= \frac{b^{a}}{\Gamma(a)} \exp[\ln{(x^{a-1})}] \exp{(-b x)} \\
&= \frac{b^{a}}{\Gamma(a)} \exp[(a-1)\ln{x} – bx] = h(\mathbf{x})g(a,b) \exp \left[ \eta^{\mathrm{T}} \mathbf{u}(\mathbf{x}) \right]
\end{align}
$$

上記の一番下の式では下記のように文字を置いた。
$$
\large
\begin{align}
h(\mathbf{x}) &= 1 \\
g(a,b) &= \frac{b^{a}}{\Gamma(a)} \\
\eta(a,b) &= \left(\begin{array}{c} a-1 \\ -b \end{array} \right) \\
\mathbf{u}(\mathbf{x}) &= \left(\begin{array}{c} \ln{x} \\ x \end{array} \right)
\end{align}
$$

・von Mises分布
$$
\large
\begin{align}
p(x|\theta_0,m) = \frac{1}{2 \pi \mathit{I}_{0}(m)} \exp \left[ m \cos(x-\theta_{0}) \right] \quad (2.179)
\end{align}
$$

von Mises分布の$(2.179)$式は上記のように表されるが、この式は下記のように変形することができる。
$$
\large
\begin{align}
p(x|\theta_0,m) &= \frac{1}{2 \pi \mathit{I}_{0}(m)} \exp \left[ m \cos(x-\theta_{0}) \right] \quad (2.179) \\
&= \frac{1}{2 \pi \mathit{I}_{0}(m)} \exp \left[ m ( \cos{x}\cos{\theta_{0}} + \sin{x}\sin{\theta_{0}} ) \right] \\
&= \frac{1}{2 \pi \mathit{I}_{0}(m)} \exp \left[ m \cos{x}\cos{\theta_{0}} + m \sin{x}\sin{\theta_{0}} \right] = h(\mathbf{x})g(\theta_0,m) \exp \left[ \eta^{\mathrm{T}} \mathbf{u}(\mathbf{x}) \right]
\end{align}
$$

上記の一番下の式では下記のように文字を置いた。
$$
\large
\begin{align}
h(\mathbf{x}) &= 1 \\
g(a,b) &= \frac{1}{2 \pi \mathit{I}_{0}(m)} \\
\eta(\theta_0,m) &= \left(\begin{array}{c} m \cos{\theta_{0}} \\ m \sin{\theta_{0}} \end{array} \right) \\
\mathbf{u}(\mathbf{x}) &= \left(\begin{array}{c} \cos{x} \\ \sin{x} \end{array} \right)
\end{align}
$$

問題$2.58$

$$
\large
\begin{align}
g(\eta) \int h(x) \exp \left[ \eta^{\mathrm{T}} u(x) \right] dx = 1 \quad (2.195)
\end{align}
$$

上記で表した$(2.195)$式を$2$階微分することを考える。
$$
\large
\begin{align}
& \nabla \nabla g(\eta) \int h(x) \exp \left[ \eta^{\mathrm{T}} u(x) \right] dx = 0 \\
& – \nabla \nabla g(\eta) \int h(x) \exp \left[ \eta^{\mathrm{T}} u(x) \right] dx = \nabla g(\eta) \int h(x) \exp \left[ \eta^{\mathrm{T}} u(x) \right] u(x) dx \\
& – \frac{1}{g(\eta)} \nabla \nabla g(\eta) = \int h(x) \exp \left[ \eta^{\mathrm{T}} u(x) \right] u(x) dx \nabla g(\eta)^{\mathrm{T}} + g(\eta) \int h(x) \exp \left[ \eta^{\mathrm{T}} u(x) \right] u(x) u(x)^{\mathrm{T}} dx \\
& – \nabla \nabla \ln{g(\eta)} = \mathbb{E}[u(x)] \times \frac{1}{g(\eta)} \nabla g(\eta)^{\mathrm{T}} + \mathbb{E}[u(x)u(x)^{\mathrm{T}}] \\
& – \nabla \nabla \ln{g(\eta)} = – \mathbb{E}[u(x)] \mathbb{E}[u(x)^{\mathrm{T}}] + \mathbb{E}[u(x)u(x)^{\mathrm{T}}] \\
& – \nabla \nabla \ln{g(\eta)} = – \mathrm{cov}[u(x)] \quad (2.300)
\end{align}
$$

上記より$(2.300)$式が成立することが確かめられる。

・参考
ヘッセ行列(Hessian matrix)

問題$2.59$

確率密度関数$f(x)$が正規化されている際に確率密度関数$\displaystyle \frac{1}{\sigma} f \left( \frac{x}{\sigma} \right)$も正規化されていることを示す。導出にあたっては$f(y)$を$\displaystyle y = \frac{x}{\sigma}$で変数変換した際の確率密度関数$g(x)$を考えれば良い。

$$
\large
\begin{align}
\frac{dy}{dx} = \frac{1}{\sigma}
\end{align}
$$

上記より、$g(x)$は下記のように表せる。
$$
\large
\begin{align}
g(x) &= f(y) \frac{dy}{dx} = f \left( \frac{x}{\sigma} \right) \frac{dy}{dx} \\
&= \frac{1}{\sigma} f \left( \frac{x}{\sigma} \right)
\end{align}
$$

ここで$g(x)$は正規化された確率密度関数であることより、$\displaystyle \frac{1}{\sigma} f \left( \frac{x}{\sigma} \right)$も正規化されていると考えられる。

・考察
変数変換を用いる際は変数変換後の確率密度関数$g(x)$を定義することで変数変換の公式をそのままあてはめることができ、考えやすいと思われる。