Ch.2 「確率分布」の章末問題の解答例 パターン認識と機械学習 2.1〜2.20

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.2の「確率分布」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・参考
パターン認識と機械学習 解答まとめ

解答まとめ

問題$2.1$

$$
\large
\begin{align}
p(x|\mu) = \mathrm{Bern}(x|\mu) = \mu^{x} (1-\mu)^{1-x}
\end{align}
$$

上記のように$(2.2)$式を表すことを考える。このとき$x=1,0$を代入した、$p(x=1|\mu), p(x=0|\mu)$はそれぞれ下記のように考えることができる。
$$
\large
\begin{align}
p(x=1|\mu) &= \mu^{1} (1-\mu)^{1-1} \\
&= \mu \\
p(x=0|\mu) &= \mu^{0} (1-\mu)^{1-0} \\
&= 1 – \mu
\end{align}
$$

よって$\displaystyle \sum_{x=0}^{1} p(x|\mu), \mathbb{E}[x], \mathrm{var}[x]$はそれぞれ下記のように計算できる。
$$
\large
\begin{align}
\sum_{x=0}^{1} p(x|\mu) &= p(x=0|\mu) + p(x=1|\mu) \\
&= \mu + (1-\mu) = 1 \\
\mathbb{E}[x] &= \sum_{x=0}^{1} x p(x|\mu) \\
&= 0 \times p(x=0|\mu) + 1 \times p(x=1|\mu) = \mu \\
\mathrm{var}[x] &= \mathbb{E}[x^2] – \mathbb{E}[x]^2 \\
&= 1^2 \times p(x=1|\mu) – \mathbb{E}[x]^2 \\
&= \mu – \mu^2 = \mu(1-\mu)
\end{align}
$$

また、エントロピー$H[x]$に関しても同様に下記のように計算を行える。
$$
\large
\begin{align}
H[x] &= – \sum_{x=0}^{1} p(x|\mu) \ln{p(x|\mu)} \\
&= – \mu \ln{\mu} – (1-\mu) \ln{(1-\mu)}
\end{align}
$$

問題$2.3$

・$\displaystyle \left(\begin{array}{c} N \\ m \end{array} \right) + \left(\begin{array}{c} N \\ m-1 \end{array} \right) = \left(\begin{array}{c} N+1 \\ m \end{array} \right)$の導出
定義に基づいて下記のように導出を行える。
$$
\large
\begin{align}
\left(\begin{array}{c} N \\ m \end{array} \right) + \left(\begin{array}{c} N \\ m-1 \end{array} \right) &= \frac{N!}{(N-m)!m!} + \frac{N!}{(N-m+1)!(m-1)!} \\
&= \frac{N!}{(N-m+1)!m!} ((N-m+1) + m) \\
&= \frac{(N+1)!}{(N-m+1)!m!} = \left(\begin{array}{c} N+1 \\ m \end{array} \right)
\end{align}
$$

問題$2.5$

問題文に基づいて$(2.266)$式は下記のように変形を行うことができる。
$$
\large
\begin{align}
\Gamma(a) \Gamma(b) &= \int_{0}^{\infty} x^{a-1} \exp(-x) dx \int_{0}^{\infty} y^{b-1} \exp(-y) dy \quad (2.266) \\
&= \int_{0}^{\infty} x^{a-1} \exp(-x) \int_{0}^{\infty} y^{b-1} \exp(-y) dy dx \\
&= \int_{0}^{\infty} \int_{0}^{\infty} x^{a-1} y^{b-1} \exp(-(x+y)) dy dx \quad (1)
\end{align}
$$

上記で得られた$(1)$式に対して、$x$を固定して$t=y+x$のように変数を置き換えることを考える。$x$は固定するので、$y$から$t$への変数変換であると考えられる。$\displaystyle \frac{dy}{dt}=1, 0 \leq t = x+y \leq \infty$より$(1)$式は下記のように変形できる。
$$
\large
\begin{align}
\Gamma(a) \Gamma(b) &= \int_{0}^{\infty} \int_{0}^{\infty} x^{a-1} y^{b-1} \exp(-(x+y)) dy dx \quad (1) \\
&= \int_{0}^{\infty} \int_{0}^{\infty} x^{a-1} (t-x)^{b-1} \exp(-t) \frac{dy}{dt} dt dx \\
&= \int_{0}^{\infty} \int_{0}^{\infty} x^{a-1} (t-x)^{b-1} \exp(-t) dt dx \quad (2)
\end{align}
$$

上記で得られた$(2)$式に対して、$t$を固定して$x=t \mu$のように変数を置き換えることを考える。$t$は固定するので、$x$から$\mu$への変数変換であると考えられる。$\displaystyle \frac{dx}{d \mu}=t, 0 \leq \mu = \frac{x}{t} \leq \infty$より$(2)$式は下記のように変形できる。
$$
\large
\begin{align}
\Gamma(a) \Gamma(b) &= \int_{0}^{\infty} \int_{0}^{\infty} x^{a-1} (t-x)^{b-1} \exp(-t) dt dx \quad (2) \\
&= \int_{0}^{\infty} \int_{0}^{\infty} x^{a-1} (t-x)^{b-1} \exp(-t) dx dt \\
&= \int_{0}^{\infty} \int_{0}^{\infty} (t \mu)^{a-1} (t – t \mu)^{b-1} \exp(-t) \frac{dx}{d \mu} dt d \mu \\
&= \int_{0}^{\infty} \int_{0}^{\infty} t^{a-1} \mu^{a-1} t^{b-1} (1 – \mu)^{b-1} \exp(-t) t dt d \mu \\
&= \int_{0}^{\infty} \int_{0}^{\infty} t^{a+b-1} \mu^{a-1} (1 – \mu)^{b-1} \exp(-t) dt d \mu \\
&= \int_{0}^{\infty} \mu^{a-1} (1 – \mu)^{b-1} \int_{0}^{\infty} t^{a+b-1} \exp(-t) dt d \mu \\
&= \int_{0}^{\infty} \mu^{a-1} (1 – \mu)^{b-1} d \mu \int_{0}^{\infty} t^{a+b-1} \exp(-t) dt \\
&= B(a,b) \Gamma(a+b)
\end{align}
$$

上記より$\Gamma(a) \Gamma(b) = B(a,b) \Gamma(a+b)$が成立することが確認できる。

・解説
$\Gamma(a) \Gamma(b) = B(a,b) \Gamma(a+b)$はガンマ分布とベータ分布を理解するにあたって重要なので、何度か計算の流れを確認しておくと良いと思います。

問題$2.6$

・$\displaystyle \mathbb{E}[\mu] = \frac{a}{a+b}$の導出
$$
\large
\begin{align}
\mathbb{E}[\mu] &= \int_{0}^{1} \mu \times \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \mu^{a-1} (1-\mu)^{b-1} d \mu \\
&= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \int_{0}^{1} \mu^{(a+1)-1} (1-\mu)^{b-1} d \mu \\
&= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \times \frac{\Gamma(a+1)\Gamma(b)}{\Gamma(a+b+1)} \\
&= \frac{(a+b-1)!}{(a-1)!(b-1)!} \times \frac{a!(b-1)!}{(a+b)!} \\
&= \frac{a}{a+b}
\end{align}
$$

・$\displaystyle \mathrm{var}[\mu] = \frac{ab}{(a+b)^2(a+b+1)}$の導出
$\mathrm{var}[\mu] = \mathbb{E}[\mu^2] – \mathbb{E}[\mu]^2$を用いることを考える。$\mathbb{E}[\mu^2]$は下記のように計算できる。
$$
\large
\begin{align}
\mathbb{E}[\mu^2] &= \int_{0}^{1} \mu^2 \times \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \mu^{a-1} (1-\mu)^{b-1} d \mu \\
&= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \int_{0}^{1} \mu^{(a+2)-1} (1-\mu)^{b-1} d \mu \\
&= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \times \frac{\Gamma(a+2)\Gamma(b)}{\Gamma(a+b+2)} \\
&= \frac{(a+b-1)!}{(a-1)!(b-1)!} \times \frac{(a+1)!(b-1)!}{(a+b+1)!} \\
&= \frac{a(a+1)}{(a+b+1)(a+b)}
\end{align}
$$

よって$\mathrm{var}[\mu] = \mathbb{E}[\mu^2] – \mathbb{E}[\mu]^2$は下記のようになる。
$$
\large
\begin{align}
\mathrm{var}[\mu] &= \mathbb{E}[\mu^2] – \mathbb{E}[\mu]^2 \\
&= \frac{a(a+1)}{(a+b)(a+b+1)} – \left( \frac{a}{a+b} \right)^2 \\
&= \frac{a(a+1)(a+b)}{(a+b)^2(a+b+1)} – \frac{a^2(a+b+1)}{(a+b)^2(a+b+1)} \\
&= \frac{a((a+1)(a+b) – a(a+b+1))}{(a+b)^2(a+b+1)} \\
&= \frac{a(a^2+ab+a+b-(a^2+ab+a))}{(a+b)^2(a+b+1)} \\
&= \frac{ab}{(a+b)^2(a+b+1)}
\end{align}
$$

・$\displaystyle \mathrm{mode}[\mu] = \frac{a-1}{a+b-2}$の導出
関数$f(\mu) = \mu^{a-1} (1-\mu)^{b-1}$が$0 \leq \mu \leq 1$で上に凸であることより、$\displaystyle \frac{d f(\mu)}{d \mu} = 0$となる$\mu$を求めれば良い。
$$
\large
\begin{align}
\frac{d f(\mu)}{d \mu} &= \frac{d}{d \mu} (\mu^{a-1} (1-\mu)^{b-1}) \\
&= (a-1) \mu^{a-2} (1-\mu)^{b-1} – (b-1) \mu^{a-1} (1-\mu)^{b-2} \\
&= \mu^{a-2} (1-\mu)^{b-2} ((a-1)(1-\mu) – (b-1) \mu) = 0 \\
(a-1)(1-\mu) – (b-1) \mu &= 0 \\
a-1 – \mu (a-1) – \mu (b-1) &= 0 \\
(a-1+b-1) \mu &= a-1 \\
\mu &= \frac{a-1}{a+b-2} \\
\mathrm{mode}[\mu] &= \frac{a-1}{a+b-2}
\end{align}
$$

問題$2.10$

・$\displaystyle \mathbb{E}[\mu_{j}] = \frac{\alpha_{j}}{\alpha_{0}}$の導出
$$
\large
\begin{align}
\mathbb{E}[\mu_{j}] &= \int_{0}^{1} \mu_{j} \times \mathrm{Dir}(\mu_1,…,\mu_K|\alpha_1,…,\alpha_K) d \mu \\
&= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)…\Gamma(\alpha_K)} \int_{0}^{1} \mu_{j} \times \mu_{1}^{\alpha_1-1}…\mu_{j}^{\alpha_j-1}…\mu_{K}^{\alpha_K-1} d \mu \\
&= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)…\Gamma(\alpha_K)} \int_{0}^{1} \mu_{1}^{\alpha_1-1}…\mu_{j}^{\alpha_j}…\mu_{K}^{\alpha_K-1} d \mu \\
&= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)…\Gamma(\alpha_j)…\Gamma(\alpha_K)} \times \frac{\Gamma(\alpha_1)…\Gamma(\alpha_j+1)…\Gamma(\alpha_K)}{\Gamma(\alpha_0+1)} \\
&= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_j)} \frac{\Gamma(\alpha_j+1)}{\Gamma(\alpha_0+1)} \\
&= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_j)} \frac{\alpha_j \Gamma(\alpha_j)}{\alpha_0 \Gamma(\alpha_0)} \\
&= \frac{\alpha_j}{\alpha_0}
\end{align}
$$

・$\displaystyle \mathbb{E}[\mu_j] = \frac{\alpha_{j}(\alpha_{0}-\alpha_{j})}{\alpha_{0}^2(\alpha_0+1)}$の導出
$\mathrm{var}[\mu_j] = \mathbb{E}[\mu_j^2] – \mathbb{E}[\mu_j]^2$を用いることを考える。$\mathbb{E}[\mu_j^2]$は$\mathbb{E}[\mu_{j}]$の導出と同様に考えることで下記のように計算できる。
$$
\large
\begin{align}
\mathbb{E}[\mu_{j}^2] &= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)…\Gamma(\alpha_j)…\Gamma(\alpha_K)} \times \frac{\Gamma(\alpha_1)…\Gamma(\alpha_j+2)…\Gamma(\alpha_K)}{\Gamma(\alpha_0+2)} \\
&= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_j)} \frac{\Gamma(\alpha_j+2)}{\Gamma(\alpha_0+2)} \\
&= \frac{\alpha_j(\alpha_j+1)}{\alpha_0(\alpha_0+1)}
\end{align}
$$

よって$\mathrm{var}[\mu] = \mathbb{E}[\mu^2] – \mathbb{E}[\mu]^2$は下記のように求められる。
$$
\large
\begin{align}
\mathrm{var}[\mu] &= \mathbb{E}[\mu_k^2] – \mathbb{E}[\mu_k]^2 \\
&= \frac{\alpha_j(\alpha_j+1)}{\alpha_0(\alpha_0+1)} – \left( \frac{\alpha_j}{\alpha_0} \right)^2 \\
&= \frac{\alpha_0\alpha_j(\alpha_j+1)}{\alpha_0^2(\alpha_0+1)} – \frac{\alpha_j^2(\alpha_0+1)}{\alpha_0^2(\alpha_0+1)} \\
&= \frac{\alpha_j(\alpha_0(\alpha_j+1)-\alpha_j(\alpha_0+1))}{\alpha_0^2(\alpha_0+1)} \\
&= \frac{\alpha_j(\alpha_0 \alpha_j + \alpha_0 – (\alpha_0 \alpha_j + \alpha_j))}{\alpha_0^2(\alpha_0+1)} \\
&= \frac{\alpha_j(\alpha_0-\alpha_j)}{\alpha_0^2(\alpha_0+1)}
\end{align}
$$

・$\displaystyle \mathrm{cov}[\mu_{j},\mu_{l}] = – \frac{\alpha_j \alpha_l}{\alpha_0^2(\alpha_0+1)}, \quad j \neq l$の導出
$\mathrm{cov}[\mu_{j},\mu_{l}] = \mathbb{E}[\mu_j \mu_l] – \mathbb{E}[\mu_j] \mathbb{E}[\mu_l]$を用いることを考える。$\mathbb{E}[\mu_j \mu_l]$は$\mathbb{E}[\mu_{j}]$の導出と同様に考えることで下記のように計算できる。
$$
\large
\begin{align}
\mathbb{E}[\mu_j \mu_l] &= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_j) \Gamma(\alpha_l)} \times\frac{\Gamma(\alpha_j+1)\Gamma(\alpha_l+1)}{\Gamma(\alpha_0+2)} \\
&= \frac{\alpha_j \alpha_l}{\alpha_0(\alpha_0+1)}
\end{align}
$$

よって$\mathrm{cov}[\mu_{j},\mu_{l}] = \mathbb{E}[\mu_j \mu_l] – \mathbb{E}[\mu_j] \mathbb{E}[\mu_l]$は下記のように求められる。
$$
\large
\begin{align}
\mathrm{cov}[\mu_{j},\mu_{l}] &= \mathbb{E}[\mu_j \mu_l] – \mathbb{E}[\mu_j] \mathbb{E}[\mu_l] \\
&= \frac{\alpha_j \alpha_l}{\alpha_0(\alpha_0+1)} – \frac{\alpha_{j}}{\alpha_{0}} \times \frac{\alpha_{l}}{\alpha_{0}} \\
&= \frac{\alpha_{j}\alpha_{l}\alpha_{0}}{\alpha_{0}^2(\alpha_{0}+1)} – \frac{\alpha_{j}\alpha_{l}(\alpha_{0}+1)}{\alpha_{0}^2(\alpha_{0}+1)} = – \frac{\alpha_j \alpha_l}{\alpha_0^2(\alpha_0+1)}
\end{align}
$$

問題$2.12$

確率分布が正規化されているかどうかは全定義域で積分した際に$1$に一致するかを確かめれば良い。
$$
\large
\begin{align}
U(x|a, b) = \frac{1}{b-a} \qquad a \leq x \leq b
\end{align}
$$
以下では上記に対し、$\displaystyle \int_{a}^{b} U(x|a, b) dx = 1$が成立することを確かめる。
$$
\large
\begin{align}
\int_{a}^{b} U(x|a, b) dx &= \int_{a}^{b} \frac{1}{b-a} dx \\
&= \frac{1}{b-a} \left[ x \right]_{a}^{b} \\
&= \frac{1}{b-a} (b-a) \\
&= 1
\end{align}
$$
上記より、一様分布$U(x|a, b)$は正規化されていると考えることができる。

また、期待値$E[X]$と分散$V[X]$は下記のように表すことができる。
$$
\begin{align}
E[X] &= \int_{a}^{b} \frac{1}{b-a} x dx \\
&= \frac{1}{b-a} \left[ \frac{1}{2}x^2 \right]_{a}^{b} \\
&= \frac{1}{2(b-a)} (b^2-a^2) \\
&= \frac{(b+a)(b-a)}{2(b-a)} \\
&= \frac{(a+b)}{2} \\
V[X] &= \int_{a}^{b} \frac{1}{b-a} (x-E[X])^2 dx \\
&= \frac{1}{3(b-a)} \left[ (x-E[X])^3 \right]_{a}^{b} \\
&= \frac{1}{3(b-a)} ((b-E[X])^3-(a-E[X])^3) \\
&= \frac{1}{3(b-a)} ((b-E[X])-(a-E[X]))((a-E[X])^2 + (a-E[X])(b-E[X]) + (b-E[X])^2) \\
&= \frac{1}{3(b-a)} (b-a)\left( \left( a-\frac{(a+b)}{2} \right)^2 + \left( a-\frac{(a+b)}{2} \right)\left( b-\frac{(a+b)}{2} \right) + \left( b-\frac{(a+b)}{2} \right)^2\right) \\
&= \frac{1}{3} \left( \left(\frac{(a-b)}{2}\right)^2 + \left(\frac{(a-b)}{2}\right)\left(\frac{(b-a)}{2}\right) + \left(\frac{(b-a)}{2})^2\right) \right) \\
&= \frac{1}{3} \left( \left(\frac{(a-b)}{2}\right)^2 + \left(\frac{(a-b)}{2}\right)\left(\frac{(b-a)}{2}\right) + \left(\frac{(b-a)}{2})^2\right) \right) \\
&= \frac{(b-a)^2}{12}
\end{align}
$$

問題$2.20$

$(2.48)$式より、$D$次元の分散共分散行列の$\mathbf{\Sigma}$は下記のように表せる。
$$
\large
\begin{align}
\mathbf{\Sigma} = \sum_{i=1}^{D} \lambda_{i} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm{T}}
\end{align}
$$
これを二次形式の$\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a}$に代入すると下記のようになる。
$$
\large
\begin{align}
\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a} &= \mathbf{a}^{\mathrm{T}} \left( \sum_{i=1}^{D} \lambda_{i} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm{T}} \right) \mathbf{a} \\
&= \lambda_{i} \sum_{i=1}^{D} \mathbf{a}^{\mathrm{T}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm{T}} \mathbf{a} \\
&= \lambda_{i} \sum_{i=1}^{D} (\mathbf{a}^{\mathrm{T}} \mathbf{u}_{i})^2
\end{align}
$$
$\lambda_{i} \leq 0$の$\lambda_{i}$が存在する場合、$\mathbf{u}_i=1$かつ$\mathbf{u}_j=0 (j \neq i)$が成立するように$\mathbf{a}$を考えることで、二次形式の$\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a}$は$0$以下の値となる。よって、$\lambda_{i} > 0$は必要条件となる。