Ch.2 「確率分布」の章末問題の解答例 パターン認識と機械学習 2.1〜2.20

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.2の「確率分布」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・参考
パターン認識と機械学習 解答まとめ

解答まとめ

問題$2.1$

$$
\large
\begin{align}
p(x|\mu) = \mathrm{Bern}(x|\mu) = \mu^{x} (1-\mu)^{1-x}
\end{align}
$$

上記のように$(2.2)$式を表すことを考える。このとき$x=1,0$を代入した、$p(x=1|\mu), p(x=0|\mu)$はそれぞれ下記のように考えることができる。
$$
\large
\begin{align}
p(x=1|\mu) &= \mu^{1} (1-\mu)^{1-1} \\
&= \mu \\
p(x=0|\mu) &= \mu^{0} (1-\mu)^{1-0} \\
&= 1 – \mu
\end{align}
$$

よって$\displaystyle \sum_{x=0}^{1} p(x|\mu), \mathbb{E}[x], \mathrm{var}[x]$はそれぞれ下記のように計算できる。
$$
\large
\begin{align}
\sum_{x=0}^{1} p(x|\mu) &= p(x=0|\mu) + p(x=1|\mu) \\
&= \mu + (1-\mu) = 1 \\
\mathbb{E}[x] &= \sum_{x=0}^{1} x p(x|\mu) \\
&= 0 \times p(x=0|\mu) + 1 \times p(x=1|\mu) = \mu \\
\mathrm{var}[x] &= \mathbb{E}[x^2] – \mathbb{E}[x]^2 \\
&= 1^2 \times p(x=1|\mu) – \mathbb{E}[x]^2 \\
&= \mu – \mu^2 = \mu(1-\mu)
\end{align}
$$

また、エントロピー$H[x]$に関しても同様に下記のように計算を行える。
$$
\large
\begin{align}
H[x] &= – \sum_{x=0}^{1} p(x|\mu) \ln{p(x|\mu)} \\
&= – \mu \ln{\mu} – (1-\mu) \ln{(1-\mu)}
\end{align}
$$

問題$2.2$

$$
\large
\begin{align}
p(x|\mu) = \left( \frac{1-\mu}{2} \right)^{\frac{1-x}{2}} \left( \frac{1+\mu}{2} \right)^{\frac{1+x}{2}} \quad (2.261)
\end{align}
$$

上記の$(2.261)$式に対し、$p(x=1|\mu)+p(x=-1|\mu)=1$であることを示す。
$$
\large
\begin{align}
p(x=1|\mu) + p(x=-1|\mu) &= \left( \frac{1-\mu}{2} \right)^{\frac{1-1}{2}} \left( \frac{1+\mu}{2} \right)^{\frac{1+1}{2}} + \left( \frac{1-\mu}{2} \right)^{\frac{1+1}{2}} \left( \frac{1+\mu}{2} \right)^{\frac{1-1}{2}} \\
&= \frac{1+\mu}{2} + \frac{1-\mu}{2} = 1
\end{align}
$$

よって$(2.261)$式は正規化されていると考えられる。また、以下に平均$E[X]$、分散$V[X]$、エントロピー$H[X]$を計算する。

・平均$E[X]$
$$
\large
\begin{align}
E[X] &= 1 \times \left( \frac{1-\mu}{2} \right)^{\frac{1-1}{2}} \left( \frac{1+\mu}{2} \right)^{\frac{1+1}{2}} + (-1) \times \left( \frac{1-\mu}{2} \right)^{\frac{1+1}{2}} \left( \frac{1+\mu}{2} \right)^{\frac{1-1}{2}} \\
&= \frac{1+\mu}{2} – \frac{1-\mu}{2} = \mu
\end{align}
$$

・分散$V[X]$
$$
\large
\begin{align}
V[X] &= E[X^2] – E[X]^2 \\
&= \frac{1+\mu}{2} + \frac{1-\mu}{2} – \mu^2 \\
&= 1 – \mu^2
\end{align}
$$

・エントロピー$H[X]$
$$
\large
\begin{align}
H[X] = – \frac{1+\mu}{2} \ln{\frac{1+\mu}{2}} – \frac{1-\mu}{2} \ln{\frac{1-\mu}{2}}
\end{align}
$$

問題$2.3$

・$\displaystyle \left(\begin{array}{c} N \\ m \end{array} \right) + \left(\begin{array}{c} N \\ m-1 \end{array} \right) = \left(\begin{array}{c} N+1 \\ m \end{array} \right)$の導出
定義に基づいて下記のように導出を行える。
$$
\large
\begin{align}
\left(\begin{array}{c} N \\ m \end{array} \right) + \left(\begin{array}{c} N \\ m-1 \end{array} \right) &= \frac{N!}{(N-m)!m!} + \frac{N!}{(N-m+1)!(m-1)!} \\
&= \frac{N!}{(N-m+1)!m!} ((N-m+1) + m) \\
&= \frac{(N+1)!}{(N-m+1)!m!} = \left(\begin{array}{c} N+1 \\ m \end{array} \right)
\end{align}
$$

・$\displaystyle (1+x)^{N} = \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) x^{m}$の導出
数学的帰納法を用いることから「i)$N=1$で成立」、「ⅱ)$N=k$で成立すれば$N=k+1$で成立」をそれぞれ示せば良い。

i) 「$N=1$で成立」の導出
$$
\large
\begin{align}
(1+x)^{1} &= 1 + x \\
&= \left(\begin{array}{c} 1 \\ 0 \end{array} \right) x^{0} + \left(\begin{array}{c} 1 \\ 1 \end{array} \right) x^{1} \\
&= \sum_{m=0}^{1} \left(\begin{array}{c} 1 \\ m \end{array} \right) x^{m}
\end{align}
$$
上記より$N=1$で$\displaystyle (1+x)^{N} = \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) x^{m}$が成立する。

ⅱ)「$N=k$で成立すれば$N=k+1$で成立」の導出
$N=k$で成立することより下記が成立する。
$$
\large
\begin{align}
(1+x)^{k} = \sum_{m=0}^{k} \left(\begin{array}{c} k \\ m \end{array} \right) x^{m}
\end{align}
$$

このとき下記のように$(1+x)^{k+1}$に関して計算することができる。
$$
\large
\begin{align}
(1+x)^{k+1} &= (1+x)(1+x)^{k} \\
&= (1+x) \sum_{m=0}^{k} \left(\begin{array}{c} k \\ m \end{array} \right) x^{m} \\
&= \sum_{m=0}^{k} \left(\begin{array}{c} k \\ m \end{array} \right) (x^{m} + x^{m+1}) \\
&= \left(\begin{array}{c} k \\ 0 \end{array} \right) x^{0} + \left(\begin{array}{c} k \\ 0 \end{array} \right) x^{1} + \left(\begin{array}{c} k \\ 1 \end{array} \right) x^{1} + … + \left(\begin{array}{c} k \\ k-1 \end{array} \right) x^{k} + \left(\begin{array}{c} k \\ k \end{array} \right) x^{k} + \left(\begin{array}{c} k \\ k \end{array} \right) x^{k+1} \\
&= x^{0} + \left( \left(\begin{array}{c} k \\ 0 \end{array} \right) + \left(\begin{array}{c} k \\ 1 \end{array} \right) \right) x^{1} + … + \left( \left(\begin{array}{c} k \\ k-1 \end{array} \right) + \left(\begin{array}{c} k \\ k \end{array} \right) \right) x^{k} + x^{k+1} \\
&= \left(\begin{array}{c} k+1 \\ 0 \end{array} \right) x^{0} + \left(\begin{array}{c} k+1 \\ 1 \end{array} \right) x^{1} + … + \left(\begin{array}{c} k+1 \\ k \end{array} \right) x^{k} + \left(\begin{array}{c} k+1 \\ k+1 \end{array} \right) x^{k+1} \\
&= \sum_{m=0}^{k+1} \left(\begin{array}{c} k+1 \\ m \end{array} \right) x^{m}
\end{align}
$$

i)、ⅱ)が成立することより、任意の自然数$N$に関して$\displaystyle (1+x)^{N} = \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) x^{m}$が成立すると考えられる。

・$\displaystyle \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m} (1-\mu)^{N-m} = 1$の導出
$\displaystyle \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m} (1-\mu)^{N-m}$は下記のように変形を行える。
$$
\large
\begin{align}
\sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m} (1-\mu)^{N-m} &= (1-\mu)^{N} \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m} (1-\mu)^{-m} \\
&= (1-\mu)^{N} \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \left( \frac{\mu}{1-\mu} \right)^{m} \\
&= (1-\mu)^{N} \left( 1 + \frac{\mu}{1-\mu} \right)^{N} \\
&= (1-\mu)^{N} \left( \frac{1 – \mu + \mu}{1-\mu} \right)^{N} \\
&= (1-\mu)^{N} \left( \frac{1}{1-\mu} \right)^{N} \\
&= 1
\end{align}
$$

問題$2.4$

問題文には$n$とあるが、$(2.11), (2.12)$式では$m$を用いているので以下$n$ではなく$m$を用いて表記する。

・$(2.11)$式の導出
$\displaystyle \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m} (1-\mu)^{N-m} = 1$の両辺を$\mu$で微分すると下記が得られる。
$$
\begin{align}
\frac{d}{d \mu} \left( \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m} (1-\mu)^{N-m} \right) &= \frac{d}{d \mu} 1 \\
\sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) ( m \mu^{m-1} (1-\mu)^{N-m} – (N-m) \mu^{m} (1-\mu)^{N-m-1} ) &= 0 \\
\sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m-1} (1-\mu)^{N-m-1} ( m (1-\mu) – (N-m) \mu ) &= 0 \\
\sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m-1} (1-\mu)^{N-m-1} ( m – m \mu – N \mu + m \mu ) &= 0 \\
\sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m-1} (1-\mu)^{N-m-1} ( m – N \mu ) &= 0 \\
\sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m-1} (1-\mu)^{N-m-1} m &= \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m-1} (1-\mu)^{N-m-1} N \mu \\
\sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m} (1-\mu)^{N-m} m &= N \mu \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m} (1-\mu)^{N-m} \\
\mathbb{E}[m] &= N \mu
\end{align}
$$

・$(2.12)$式の導出
$\displaystyle mu^{m} (1-\mu)^{N-m}$を$\mu$で$2$階微分すると下記が得られる。
$$
\begin{align}
\frac{d^2}{d \mu^2} & ( \mu^{m} (1-\mu)^{N-m} ) = \frac{d}{d \mu} ( \mu^{m-1} (1-\mu)^{N-m-1} ( m – N \mu ) ) \\
&= m(m-1) \mu^{m-2} (1-\mu)^{N-m} – 2 m(N-m) \mu^{m-1} (1-\mu)^{N-m-1} + (N-m)(N-m+1) \mu^{m} (1-\mu)^{N-m-2} \\
&= \mu^{m-2} (1-\mu)^{N-m-2} \left[ m(m-1)(1-\mu)^2 -2m(N-m)\mu(1-\mu) + (N-m)(N-m+1) \mu^{2} \right] \\
&= … \\
&= \mu^{m-2} (1-\mu)^{N-m-2} \left[ m^2 + (2(1-N) \mu-1) m + N(1-N) \mu^2 \right] \\
&= 0
\end{align}
$$

上記より下記が得られる。
$$
\large
\begin{align}
\mathbb{E}[m^2] &= – ( 2(1-N) \mu – 1 ) \mathbb{E}[m] + N(1-N) \mu^2 \\
\mathrm{var}[m] &= \mathbb{E}[m^2] – \mathbb{E}[m]^2 \\
&= – ( 2(1-N) \mu + 1 ) \mathbb{E}[m] + N(1-N) \mu^2 – \mathbb{E}[m]^2 \\
&= – ( 2(1-N) \mu + 1 ) N \mu + N(1-N) \mu^2 – N^2 \mu^2 \\
&= – 2 N \mu^2 + 2 N^2 \mu^2 + N \mu + N \mu^2 – N^2 \mu^2 – N^2 \mu^2 \\
&= N \mu – N \mu^2 = N \mu (1 – \mu)
\end{align}
$$

・考察
ここでの導出ではかなり複雑な式展開になったが、二項分布の平均や分散に関しては下記のように計算するとシンプルに導出を行うことができる。
二項分布の平均・分散・モーメント母関数

問題$2.5$

問題文に基づいて$(2.266)$式は下記のように変形を行うことができる。
$$
\large
\begin{align}
\Gamma(a) \Gamma(b) &= \int_{0}^{\infty} x^{a-1} \exp(-x) dx \int_{0}^{\infty} y^{b-1} \exp(-y) dy \quad (2.266) \\
&= \int_{0}^{\infty} x^{a-1} \exp(-x) \int_{0}^{\infty} y^{b-1} \exp(-y) dy dx \\
&= \int_{0}^{\infty} \int_{0}^{\infty} x^{a-1} y^{b-1} \exp(-(x+y)) dy dx \quad (1)
\end{align}
$$

上記で得られた$(1)$式に対して、$x$を固定して$t=y+x$のように変数を置き換えることを考える。$x$は固定するので、$y$から$t$への変数変換であると考えられる。$\displaystyle \frac{dy}{dt}=1, 0 \leq t = x+y \leq \infty$より$(1)$式は下記のように変形できる。
$$
\large
\begin{align}
\Gamma(a) \Gamma(b) &= \int_{0}^{\infty} \int_{0}^{\infty} x^{a-1} y^{b-1} \exp(-(x+y)) dy dx \quad (1) \\
&= \int_{0}^{\infty} \int_{0}^{\infty} x^{a-1} (t-x)^{b-1} \exp(-t) \frac{dy}{dt} dt dx \\
&= \int_{0}^{\infty} \int_{0}^{\infty} x^{a-1} (t-x)^{b-1} \exp(-t) dt dx \quad (2)
\end{align}
$$

上記で得られた$(2)$式に対して、$t$を固定して$x=t \mu$のように変数を置き換えることを考える。$t$は固定するので、$x$から$\mu$への変数変換であると考えられる。$\displaystyle \frac{dx}{d \mu}=t, 0 \leq \mu = \frac{x}{t} \leq \infty$より$(2)$式は下記のように変形できる。
$$
\large
\begin{align}
\Gamma(a) \Gamma(b) &= \int_{0}^{\infty} \int_{0}^{\infty} x^{a-1} (t-x)^{b-1} \exp(-t) dt dx \quad (2) \\
&= \int_{0}^{\infty} \int_{0}^{\infty} x^{a-1} (t-x)^{b-1} \exp(-t) dx dt \\
&= \int_{0}^{\infty} \int_{0}^{\infty} (t \mu)^{a-1} (t – t \mu)^{b-1} \exp(-t) \frac{dx}{d \mu} dt d \mu \\
&= \int_{0}^{\infty} \int_{0}^{\infty} t^{a-1} \mu^{a-1} t^{b-1} (1 – \mu)^{b-1} \exp(-t) t dt d \mu \\
&= \int_{0}^{\infty} \int_{0}^{\infty} t^{a+b-1} \mu^{a-1} (1 – \mu)^{b-1} \exp(-t) dt d \mu \\
&= \int_{0}^{\infty} \mu^{a-1} (1 – \mu)^{b-1} \int_{0}^{\infty} t^{a+b-1} \exp(-t) dt d \mu \\
&= \int_{0}^{\infty} \mu^{a-1} (1 – \mu)^{b-1} d \mu \int_{0}^{\infty} t^{a+b-1} \exp(-t) dt \\
&= B(a,b) \Gamma(a+b)
\end{align}
$$

上記より$\Gamma(a) \Gamma(b) = B(a,b) \Gamma(a+b)$が成立することが確認できる。

・解説
$\Gamma(a) \Gamma(b) = B(a,b) \Gamma(a+b)$はガンマ分布とベータ分布を理解するにあたって重要なので、何度か計算の流れを確認しておくと良いと思います。

問題$2.6$

・$\displaystyle \mathbb{E}[\mu] = \frac{a}{a+b}$の導出
$$
\large
\begin{align}
\mathbb{E}[\mu] &= \int_{0}^{1} \mu \times \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \mu^{a-1} (1-\mu)^{b-1} d \mu \\
&= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \int_{0}^{1} \mu^{(a+1)-1} (1-\mu)^{b-1} d \mu \\
&= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \times \frac{\Gamma(a+1)\Gamma(b)}{\Gamma(a+b+1)} \\
&= \frac{(a+b-1)!}{(a-1)!(b-1)!} \times \frac{a!(b-1)!}{(a+b)!} \\
&= \frac{a}{a+b}
\end{align}
$$

・$\displaystyle \mathrm{var}[\mu] = \frac{ab}{(a+b)^2(a+b+1)}$の導出
$\mathrm{var}[\mu] = \mathbb{E}[\mu^2] – \mathbb{E}[\mu]^2$を用いることを考える。$\mathbb{E}[\mu^2]$は下記のように計算できる。
$$
\large
\begin{align}
\mathbb{E}[\mu^2] &= \int_{0}^{1} \mu^2 \times \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \mu^{a-1} (1-\mu)^{b-1} d \mu \\
&= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \int_{0}^{1} \mu^{(a+2)-1} (1-\mu)^{b-1} d \mu \\
&= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \times \frac{\Gamma(a+2)\Gamma(b)}{\Gamma(a+b+2)} \\
&= \frac{(a+b-1)!}{(a-1)!(b-1)!} \times \frac{(a+1)!(b-1)!}{(a+b+1)!} \\
&= \frac{a(a+1)}{(a+b+1)(a+b)}
\end{align}
$$

よって$\mathrm{var}[\mu] = \mathbb{E}[\mu^2] – \mathbb{E}[\mu]^2$は下記のようになる。
$$
\large
\begin{align}
\mathrm{var}[\mu] &= \mathbb{E}[\mu^2] – \mathbb{E}[\mu]^2 \\
&= \frac{a(a+1)}{(a+b)(a+b+1)} – \left( \frac{a}{a+b} \right)^2 \\
&= \frac{a(a+1)(a+b)}{(a+b)^2(a+b+1)} – \frac{a^2(a+b+1)}{(a+b)^2(a+b+1)} \\
&= \frac{a((a+1)(a+b) – a(a+b+1))}{(a+b)^2(a+b+1)} \\
&= \frac{a(a^2+ab+a+b-(a^2+ab+a))}{(a+b)^2(a+b+1)} \\
&= \frac{ab}{(a+b)^2(a+b+1)}
\end{align}
$$

・$\displaystyle \mathrm{mode}[\mu] = \frac{a-1}{a+b-2}$の導出
関数$f(\mu) = \mu^{a-1} (1-\mu)^{b-1}$が$0 \leq \mu \leq 1$で上に凸であることより、$\displaystyle \frac{d f(\mu)}{d \mu} = 0$となる$\mu$を求めれば良い。
$$
\large
\begin{align}
\frac{d f(\mu)}{d \mu} &= \frac{d}{d \mu} (\mu^{a-1} (1-\mu)^{b-1}) \\
&= (a-1) \mu^{a-2} (1-\mu)^{b-1} – (b-1) \mu^{a-1} (1-\mu)^{b-2} \\
&= \mu^{a-2} (1-\mu)^{b-2} ((a-1)(1-\mu) – (b-1) \mu) = 0 \\
(a-1)(1-\mu) – (b-1) \mu &= 0 \\
a-1 – \mu (a-1) – \mu (b-1) &= 0 \\
(a-1+b-1) \mu &= a-1 \\
\mu &= \frac{a-1}{a+b-2} \\
\mathrm{mode}[\mu] &= \frac{a-1}{a+b-2}
\end{align}
$$

問題$2.7$

パラメータ$\mu$の事前分布がベータ分布$\mathrm{Beta}(a,b)$であると考えると、事後分布$p(\mu|m,l)$は下記のように考えられる。
$$
\large
\begin{align}
p(\mu|m,l) & \propto \mu^{m}(1-\mu)^{l} \times \mu^{a-1} (1-\mu)^{b-1} \\
&= \mu^{a+m-1}(1-\mu)^{b+l-1}
\end{align}
$$

ここで二項分布の確率を表すパラメータ$\mu$の最尤推定解を$\mu_{ML}$、$\mu$の事前分布と事後分布の平均をそれぞれ$\mu_0, \mu_{N}$と定義すると、問題文より下記のように表せる。
$$
\large
\begin{align}
\mu_{ML} &= \frac{m}{m+l} \\
\mu_0 &= \frac{a}{a+b} \\
\mu_N &= \frac{a+m}{a+m+b+l}
\end{align}
$$

このとき、下記のように考えることで$\mu_N = \lambda \mu_{0} + (1-\lambda) \mu_{ML}, \quad 0 \leq \mu \leq 1$のように表すことができる。
$$
\large
\begin{align}
\mu_N &= \frac{a+m}{a+m+b+l} \\
&= \frac{a}{a+m+b+l} + \frac{m}{a+m+b+l} \\
&= \frac{a+b}{a+m+b+l} \times \frac{a}{a+b} + \frac{m+l}{a+m+b+l} \times \frac{m}{m+l} \\
&= \frac{a+b}{a+m+b+l} \mu_0 + \frac{m+l}{a+m+b+l} \mu_{ML} \\
&= \lambda \mu_{0} + (1-\lambda) \mu_{ML} \\
\lambda &= \frac{a+b}{a+m+b+l}
\end{align}
$$

上記より事後分布の平均は事前分布の平均と最尤推定解の間にあることも同時に示される。

・参考
共役事前分布
https://www.hello-statisticians.com/explain-terms-cat/conjugate_dist1.html

問題$2.8$

正規分布のように確率変数が連続かつ定義域が全ての実数である場合を元に考える。
$$
\large
\begin{align}
\mathbb{E}_{y}[\mathbb{E}_{x}[x|y]] = \int_{-\infty}^{\infty} \left[ \int_{-\infty}^{\infty} x p(x|y) dx \right] p(y) dy \quad (1)
\end{align}
$$

$\mathbb{E}_{y}[\mathbb{E}_{x}[x|y]]$は$(1)$式のように定義される。下記のように$(1)$式の変形を行える。
$$
\large
\begin{align}
\mathbb{E}_{y}[\mathbb{E}_{x}[x|y]] &= \int_{-\infty}^{\infty} \left[ \int_{-\infty}^{\infty} x p(x|y) dx \right] p(y) dy \quad (1) \\
&= \int_{-\infty}^{\infty} \left[ \int_{-\infty}^{\infty} x \frac{p(x,y)}{p(y)} dx \right] p(y) dy \\
&= \int_{-\infty}^{\infty} \left[ \int_{-\infty}^{\infty} x p(x,y) dx \right] dy \\
&= \int_{-\infty}^{\infty} \left[ \int_{-\infty}^{\infty} x p(x,y) dy \right] dx \\
&= \int_{-\infty}^{\infty} x p(x) dx = \mathbb{E}_{x}[x] \quad (2.270)
\end{align}
$$

上記より$(2.270)$が成立する。

・参考
「条件付き期待値」と「期待値の繰り返しの公式」
https://www.hello-statisticians.com/explain-terms-cat/conditional_expectation1.html

問題$2.10$

・$\displaystyle \mathbb{E}[\mu_{j}] = \frac{\alpha_{j}}{\alpha_{0}}$の導出
$$
\large
\begin{align}
\mathbb{E}[\mu_{j}] &= \int_{0}^{1} \mu_{j} \times \mathrm{Dir}(\mu_1,…,\mu_K|\alpha_1,…,\alpha_K) d \mu \\
&= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)…\Gamma(\alpha_K)} \int_{0}^{1} \mu_{j} \times \mu_{1}^{\alpha_1-1}…\mu_{j}^{\alpha_j-1}…\mu_{K}^{\alpha_K-1} d \mu \\
&= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)…\Gamma(\alpha_K)} \int_{0}^{1} \mu_{1}^{\alpha_1-1}…\mu_{j}^{\alpha_j}…\mu_{K}^{\alpha_K-1} d \mu \\
&= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)…\Gamma(\alpha_j)…\Gamma(\alpha_K)} \times \frac{\Gamma(\alpha_1)…\Gamma(\alpha_j+1)…\Gamma(\alpha_K)}{\Gamma(\alpha_0+1)} \\
&= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_j)} \frac{\Gamma(\alpha_j+1)}{\Gamma(\alpha_0+1)} \\
&= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_j)} \frac{\alpha_j \Gamma(\alpha_j)}{\alpha_0 \Gamma(\alpha_0)} \\
&= \frac{\alpha_j}{\alpha_0}
\end{align}
$$

・$\displaystyle \mathbb{E}[\mu_j] = \frac{\alpha_{j}(\alpha_{0}-\alpha_{j})}{\alpha_{0}^2(\alpha_0+1)}$の導出
$\mathrm{var}[\mu_j] = \mathbb{E}[\mu_j^2] – \mathbb{E}[\mu_j]^2$を用いることを考える。$\mathbb{E}[\mu_j^2]$は$\mathbb{E}[\mu_{j}]$の導出と同様に考えることで下記のように計算できる。
$$
\large
\begin{align}
\mathbb{E}[\mu_{j}^2] &= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)…\Gamma(\alpha_j)…\Gamma(\alpha_K)} \times \frac{\Gamma(\alpha_1)…\Gamma(\alpha_j+2)…\Gamma(\alpha_K)}{\Gamma(\alpha_0+2)} \\
&= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_j)} \frac{\Gamma(\alpha_j+2)}{\Gamma(\alpha_0+2)} \\
&= \frac{\alpha_j(\alpha_j+1)}{\alpha_0(\alpha_0+1)}
\end{align}
$$

よって$\mathrm{var}[\mu] = \mathbb{E}[\mu^2] – \mathbb{E}[\mu]^2$は下記のように求められる。
$$
\large
\begin{align}
\mathrm{var}[\mu] &= \mathbb{E}[\mu_k^2] – \mathbb{E}[\mu_k]^2 \\
&= \frac{\alpha_j(\alpha_j+1)}{\alpha_0(\alpha_0+1)} – \left( \frac{\alpha_j}{\alpha_0} \right)^2 \\
&= \frac{\alpha_0\alpha_j(\alpha_j+1)}{\alpha_0^2(\alpha_0+1)} – \frac{\alpha_j^2(\alpha_0+1)}{\alpha_0^2(\alpha_0+1)} \\
&= \frac{\alpha_j(\alpha_0(\alpha_j+1)-\alpha_j(\alpha_0+1))}{\alpha_0^2(\alpha_0+1)} \\
&= \frac{\alpha_j(\alpha_0 \alpha_j + \alpha_0 – (\alpha_0 \alpha_j + \alpha_j))}{\alpha_0^2(\alpha_0+1)} \\
&= \frac{\alpha_j(\alpha_0-\alpha_j)}{\alpha_0^2(\alpha_0+1)}
\end{align}
$$

・$\displaystyle \mathrm{cov}[\mu_{j},\mu_{l}] = – \frac{\alpha_j \alpha_l}{\alpha_0^2(\alpha_0+1)}, \quad j \neq l$の導出
$\mathrm{cov}[\mu_{j},\mu_{l}] = \mathbb{E}[\mu_j \mu_l] – \mathbb{E}[\mu_j] \mathbb{E}[\mu_l]$を用いることを考える。$\mathbb{E}[\mu_j \mu_l]$は$\mathbb{E}[\mu_{j}]$の導出と同様に考えることで下記のように計算できる。
$$
\large
\begin{align}
\mathbb{E}[\mu_j \mu_l] &= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_j) \Gamma(\alpha_l)} \times\frac{\Gamma(\alpha_j+1)\Gamma(\alpha_l+1)}{\Gamma(\alpha_0+2)} \\
&= \frac{\alpha_j \alpha_l}{\alpha_0(\alpha_0+1)}
\end{align}
$$

よって$\mathrm{cov}[\mu_{j},\mu_{l}] = \mathbb{E}[\mu_j \mu_l] – \mathbb{E}[\mu_j] \mathbb{E}[\mu_l]$は下記のように求められる。
$$
\large
\begin{align}
\mathrm{cov}[\mu_{j},\mu_{l}] &= \mathbb{E}[\mu_j \mu_l] – \mathbb{E}[\mu_j] \mathbb{E}[\mu_l] \\
&= \frac{\alpha_j \alpha_l}{\alpha_0(\alpha_0+1)} – \frac{\alpha_{j}}{\alpha_{0}} \times \frac{\alpha_{l}}{\alpha_{0}} \\
&= \frac{\alpha_{j}\alpha_{l}\alpha_{0}}{\alpha_{0}^2(\alpha_{0}+1)} – \frac{\alpha_{j}\alpha_{l}(\alpha_{0}+1)}{\alpha_{0}^2(\alpha_{0}+1)} = – \frac{\alpha_j \alpha_l}{\alpha_0^2(\alpha_0+1)}
\end{align}
$$

問題$2.11$

$$
\large
\begin{align}
\mathrm{Dir}(\mathbf{\mu}|\mathbf{\alpha}) &= \frac{\alpha_{0}}{\Gamma(\alpha_{1}) \cdots \Gamma(\alpha_{K})} \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1} \quad (2.38) \\
\alpha_{0} &= \sum_{k=1}^{K} \alpha_{k} \quad (2.39)
\end{align}
$$

上記の表記の簡易化にあたって下記のように$K(\mathbf{\alpha})$を定め、$\mathrm{Dir}(\mathbf{\mu}|\mathbf{\alpha})$の表記を行う。
$$
\large
\begin{align}
\mathrm{Dir}(\mathbf{\mu}|\mathbf{\alpha}) &= K(\mathbf{\alpha}) \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1} \quad (1) \\
K(\mathbf{\alpha}) &= \frac{\alpha_{0}}{\Gamma(\alpha_{1}) \cdots \Gamma(\alpha_{K})} \quad (2)
\end{align}
$$

ここで$\displaystyle \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1}$を$\alpha_{j}$で偏微分することを考えると、下記のように結果が得られる。
$$
\large
\begin{align}
\frac{\partial}{\partial \alpha_{j}} \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1} &= \frac{\partial}{\partial \alpha_{j}} \prod_{k=1}^{K} \exp \left[ \ln{\mu_{k}^{\alpha_{k}-1}} \right] \\
&= \frac{\partial}{\partial \alpha_{j}} \prod_{k=1}^{K} \exp \left[ (\alpha_{k}-1)\ln{\mu_{k}} \right] \\
&= \prod_{k=1}^{K} \exp \left[ (\alpha_{k}-1)\ln{\mu_{k}} \right] \times \frac{\partial}{\partial \alpha_{j}} \left[ (\alpha_{j}-1)\ln{\mu_{j}} \right] \\
&= \ln{\mu_{j}} \prod_{k=1}^{K} \exp \left[ (\alpha_{k}-1)\ln{\mu_{k}} \right] \\
&= \ln{\mu_{j}} \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1}
\end{align}
$$

$(3)$式に基づいて$\mathbb{E}[\ln{\mu_{j}}]$は下記のように変形できる。
$$
\large
\begin{align}
\mathbb{E}[\ln{\mu_{j}}] &= \int_{0}^{1} \cdots \int_{0}^{1} \left[ \ln{\mu_{j}} K(\mathbf{\alpha}) \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1} \right] d \mu_{1} \cdots d \mu_{K} \\
&= K(\mathbf{\alpha}) \int_{0}^{1} \cdots \int_{0}^{1} \left[ \frac{\partial}{\partial \alpha_{j}} \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1} \right] d \mu_{1} \cdots d \mu_{K} \\
&= K(\mathbf{\alpha}) \frac{\partial}{\partial \alpha_{j}} \int_{0}^{1} \cdots \int_{0}^{1} \left[ \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1} \right] d \mu_{1} \cdots d \mu_{K} \\
&= K(\mathbf{\alpha}) \frac{\partial}{\partial \alpha_{j}} \frac{1}{K(\mathbf{\alpha})} \\
&= K(\mathbf{\alpha}) \frac{\partial}{\partial \alpha_{j}} \frac{\Gamma(\alpha_{1}) \cdots \Gamma(\alpha_{K})}{\Gamma(\alpha_{0})} \\
&= K(\mathbf{\alpha}) \frac{1}{\Gamma(\alpha_{0})^2} \left[ \Gamma(\alpha_{0}) \frac{\partial (\Gamma(\alpha_{1}) \cdots \Gamma(\alpha_{K}))}{\partial \alpha_{j}} – (\Gamma(\alpha_{1}) \cdots \Gamma(\alpha_{K})) \frac{\partial \Gamma(\alpha_{0})}{\partial \alpha_{j}} \right] \\
&= \frac{1}{\Gamma(\alpha_{j})} \frac{\partial \Gamma(\alpha_{j})}{\partial \alpha_{j}} – \frac{1}{\Gamma(\alpha_{0})} \frac{\partial \Gamma(\alpha_{0})}{\partial \alpha_{0}} \frac{\partial \alpha_{0}}{\partial \alpha_{j}} \\
&= \frac{1}{\Gamma(\alpha_{j})} \frac{\partial \Gamma(\alpha_{j})}{\partial \alpha_{j}} – \frac{1}{\Gamma(\alpha_{0})} \frac{\partial \Gamma(\alpha_{0})}{\partial \alpha_{0}} \\
&= \frac{\partial}{\partial \alpha_{j}} \ln{\Gamma(\alpha_{j})} – \frac{\partial}{\partial \alpha_{0}} \ln{\Gamma(\alpha_{0})} \\
&= \psi(\alpha_{j}) – \psi(\alpha_{0}) \quad (2.276)
\end{align}
$$

問題$2.12$

確率分布が正規化されているかどうかは全定義域で積分した際に$1$に一致するかを確かめれば良い。
$$
\large
\begin{align}
U(x|a, b) = \frac{1}{b-a} \qquad a \leq x \leq b
\end{align}
$$
以下では上記に対し、$\displaystyle \int_{a}^{b} U(x|a, b) dx = 1$が成立することを確かめる。
$$
\large
\begin{align}
\int_{a}^{b} U(x|a, b) dx &= \int_{a}^{b} \frac{1}{b-a} dx \\
&= \frac{1}{b-a} \left[ x \right]_{a}^{b} \\
&= \frac{1}{b-a} (b-a) \\
&= 1
\end{align}
$$
上記より、一様分布$U(x|a, b)$は正規化されていると考えることができる。

また、期待値$E[X]$と分散$V[X]$は下記のように表すことができる。
$$
\begin{align}
E[X] &= \int_{a}^{b} \frac{1}{b-a} x dx \\
&= \frac{1}{b-a} \left[ \frac{1}{2}x^2 \right]_{a}^{b} \\
&= \frac{1}{2(b-a)} (b^2-a^2) \\
&= \frac{(b+a)(b-a)}{2(b-a)} \\
&= \frac{(a+b)}{2} \\
V[X] &= \int_{a}^{b} \frac{1}{b-a} (x-E[X])^2 dx \\
&= \frac{1}{3(b-a)} \left[ (x-E[X])^3 \right]_{a}^{b} \\
&= \frac{1}{3(b-a)} ((b-E[X])^3-(a-E[X])^3) \\
&= \frac{1}{3(b-a)} ((b-E[X])-(a-E[X]))((a-E[X])^2 + (a-E[X])(b-E[X]) + (b-E[X])^2) \\
&= \frac{1}{3(b-a)} (b-a)\left( \left( a-\frac{(a+b)}{2} \right)^2 + \left( a-\frac{(a+b)}{2} \right)\left( b-\frac{(a+b)}{2} \right) + \left( b-\frac{(a+b)}{2} \right)^2\right) \\
&= \frac{1}{3} \left( \left(\frac{(a-b)}{2}\right)^2 + \left(\frac{(a-b)}{2}\right)\left(\frac{(b-a)}{2}\right) + \left(\frac{(b-a)}{2})^2\right) \right) \\
&= \frac{1}{3} \left( \left(\frac{(a-b)}{2}\right)^2 + \left(\frac{(a-b)}{2}\right)\left(\frac{(b-a)}{2}\right) + \left(\frac{(b-a)}{2})^2\right) \right) \\
&= \frac{(b-a)^2}{12}
\end{align}
$$

問題$2.15$

$$
\large
\begin{align}
H[\mathbf{x}] = – \int p(\mathbf{x}) \ln{p(\mathbf{x})} d \mathbf{x} \quad (1.104)
\end{align}
$$

上記で表した$(1.104)$式に$p(\mathbf{x}) = \mathcal{N}(\mathbf{x}|\mathbf{\mu},\Sigma)$を代入すると下記のように変形を行える。
$$
\large
\begin{align}
H[\mathbf{x}] &= – \int p(\mathbf{x}) \ln{\mathcal{N}(\mathbf{x}|\mathbf{\mu},\Sigma)} d \mathbf{x} \\
&= – \int p(\mathbf{x}) \ln{ \left[ \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \right) \right] } d \mathbf{x} \\
&= – \int p(\mathbf{x}) \ln{ \left[ \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \right] } d \mathbf{x} – \int p(\mathbf{x}) \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \right) d \mathbf{x} \\
&= – \int p(\mathbf{x}) \left( – \frac{D}{2} \ln{(2 \pi)} – \frac{1}{2} \ln{|\Sigma|} \right) d \mathbf{x} + \frac{1}{2}\int p(\mathbf{x})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) d \mathbf{x} \\
&= \left( \frac{D}{2} \ln{(2 \pi)} + \frac{1}{2} \ln{|\Sigma|} \right) \int p(\mathbf{x}) d \mathbf{x} + \frac{1}{2}\int p(\mathbf{x})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) d \mathbf{x} \\
&= \frac{D}{2} \ln{(2 \pi)} + \frac{1}{2} \ln{|\Sigma|} + \frac{1}{2}\int p(\mathbf{x})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) d \mathbf{x} \quad (1)
\end{align}
$$

以下、第$3$項の$\displaystyle \frac{1}{2}\int p(\mathbf{x})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) d \mathbf{x}$に着目し、変形を行う。
$$
\large
\begin{align}
\frac{1}{2}\int p(\mathbf{x}) & (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) d \mathbf{x} = \frac{1}{2}\int p(\mathbf{x}) \mathrm{Tr} \left[ (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \right] d \mathbf{x} \\
&= \frac{1}{2}\int p(\mathbf{x}) \mathrm{Tr} \left[ \Sigma^{-1}(\mathbf{x}-\mathbf{\mu})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \right] d \mathbf{x} \\
&= \frac{1}{2} \mathbb{E} \left[ \mathrm{Tr} \left( \Sigma^{-1}(\mathbf{x}-\mathbf{\mu})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \right) \right] \\
&= \frac{1}{2} \mathrm{Tr} \left( \Sigma^{-1} \mathbb{E} \left[(\mathbf{x}-\mathbf{\mu})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \right] \right) \\
&= \frac{1}{2} \mathrm{Tr} \left( \Sigma^{-1} \mathbb{E} \left[(\mathbf{x}\mathbf{x}^{\mathrm{T}}-2\mathbf{x}\mathbf{\mu}^{\mathrm{T}}+\mathbf{\mu}\mathbf{\mu}^{\mathrm{T}}) \right] \right) \\
&= \frac{1}{2} \mathrm{Tr} \left( \Sigma^{-1} (\mathbf{\mu}\mathbf{\mu}^{\mathrm{T}}+\Sigma-2\mathbf{\mu}\mathbf{\mu}^{\mathrm{T}}+\mathbf{\mu}\mathbf{\mu}^{\mathrm{T}}) \right) \\
&= \frac{1}{2} \mathrm{Tr} \left( \Sigma^{-1}\Sigma \right) \\
&= \frac{1}{2} \mathrm{Tr}(I_{D}) = \frac{D}{2} \quad (2)
\end{align}
$$

途中の式変形にあたっては$(2.59)$式や$(2.62)$式を用いた。$(2)$式を$(1)$式に代入することで下記が得られる。
$$
\large
\begin{align}
H[\mathbf{x}] &= \frac{D}{2} \ln{(2 \pi)} + \frac{1}{2} \ln{|\Sigma|} + \frac{1}{2}\int p(\mathbf{x})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) d \mathbf{x} \quad (1) \\
&= \frac{D}{2} \ln{(2 \pi)} + \frac{1}{2} \ln{|\Sigma|} + \frac{D}{2} \\
&= \frac{1}{2} \ln{|\Sigma|} + \frac{D}{2}(1+\ln{(2 \pi)}) \quad (2.283)
\end{align}
$$

よって$(2.283)$式が成立する。

問題$2.19$

$$
\large
\begin{align}
\mathbf{\Sigma} \mathbf{u}_{i} &= \lambda_{i} \mathbf{u}_{i} \\
|\mathbf{u}_{i}| &= 1
\end{align}
$$

$\lambda_{i}$を$\mathbf{\Sigma}$の固有値、$\mathbf{u}_{i} $を$\mathbf{\Sigma}$の大きさ$1$の固有ベクトルと定めると、上記が成立する。このとき$i$列が$\mathbf{u}_{i}^{\mathrm{T}}$の行列を$\mathbf{U}$、$(i,i)$成分が$\lambda_{i}$の対称行列を$\Lambda$とおくと、下記が成立する。
$$
\large
\begin{align}
\mathbf{\Sigma} \mathbf{U} = \mathbf{U} \Lambda
\end{align}
$$

このとき$\mathbf{U}$が直交行列であるので$\mathbf{U}\mathbf{U}^{\mathrm{T}}=\mathit{I}$より、$\mathbf{U}^{\mathrm{T}}=\mathbf{U}^{-1}$が成立する。よって、$(1)$式は下記のように変形できる。
$$
\large
\begin{align}
\mathbf{\Sigma} \mathbf{U} &= \mathbf{U} \Lambda \quad (1) \\
\mathbf{\Sigma} \mathbf{U} \mathbf{U}^{-1} &= \mathbf{U} \Lambda \mathbf{U}^{-1} \\
\mathbf{\Sigma} &= \mathbf{U} \Lambda \mathbf{U}^{\mathrm{T}} \quad (2)
\end{align}
$$

また、$(1)$式より下記のように$\mathbf{\Sigma}^{-1}$を導出することもできる。
$$
\large
\begin{align}
\mathbf{\Sigma} \mathbf{U} &= \mathbf{U} \Lambda \quad (1) \\
\mathbf{\Sigma}^{-1} \mathbf{\Sigma} \mathbf{U} &= \mathbf{\Sigma}^{-1} \mathbf{U} \Lambda \\
\mathbf{\Sigma}^{-1} \mathbf{U} \Lambda &= \mathbf{U} \\
\mathbf{\Sigma}^{-1} \mathbf{U} \Lambda \Lambda^{-1} \mathbf{U}^{-1} &= \mathbf{U} \Lambda^{-1} \mathbf{U}^{-1} \\
\mathbf{\Sigma}^{-1} &= \mathbf{U} \Lambda^{-1} \mathbf{U}^{\mathrm{T}} \quad (3)
\end{align}
$$

以下、$(2)$式に基づいて$(2.48)$式を、$(3)$式に基づいて$(2.49)$式を示す。

・$(2.48)$式の導出
$(2)$式の$\mathbf{U} \Lambda \mathbf{U}^{\mathrm{T}}$の$i,j$成分を$(\mathbf{U} \Lambda \mathbf{U}^{\mathrm{T}})_{ij}$とおくとき、$(\mathbf{U} \Lambda \mathbf{U}^{\mathrm{T}})_{ij}$は下記のように考えられる。
$$
\large
\begin{align}
(\mathbf{U} \Lambda \mathbf{U}^{\mathrm{T}})_{ij} &= \left(\begin{array}{ccc} u_{i1} & \cdots & u_{iD} \end{array} \right) \Lambda \left(\begin{array}{c} u_{j1} \\ \vdots \\ u_{jD} \end{array} \right) \\
&= \left(\begin{array}{ccc} \lambda_{1} u_{i1} & \cdots & \lambda_{D} u_{iD} \end{array} \right) \left(\begin{array}{c} u_{j1} \\ \vdots \\ u_{jD} \end{array} \right) \\
&= \sum_{k=1}^{D} \lambda_{k} u_{ik} u_{jk}
\end{align}
$$

また、$\lambda_{k} \mathbf{u}_{k} \mathbf{u}_{k}^{\mathrm{T}}$の$i,j$成分$(\lambda_{k} \mathbf{u}_{k} \mathbf{u}_{k}^{\mathrm{T}})_{ij}$は下記のように考えることができる。
$$
\large
\begin{align}
(\lambda_{k} \mathbf{u}_{k} \mathbf{u}_{k}^{\mathrm{T}})_{ij} = \lambda_{k} u_{ik} u_{jk} \quad (4)
\end{align}
$$

よって$\displaystyle \left(\sum_{k=1}^{D} \lambda_{k} \mathbf{u}_{k} \mathbf{u}_{k}^{\mathrm{T}}\right)_{ij}$は下記のように考えられる。
$$
\large
\begin{align}
\left(\sum_{k=1}^{D} \lambda_{k} \mathbf{u}_{k} \mathbf{u}_{k}^{\mathrm{T}}\right)_{ij} = \sum_{k=1}^{D} \lambda_{k} u_{ik} u_{jk} \quad (5)
\end{align}
$$

$(4)$式と$(5)$式が一致することより$(2.48)$式が示される。

・$(2.49)$式の導出
$(3)$式の$\Lambda^{-1}$は$i,i$成分が$\lambda_{i}^{-1}$の対角行列である。よって$(2.48)$式の導出と同様に考えることで$(2.49)$式が示される。

・参考
分散共分散行列の逆行列の導出

問題$2.20$

$(2.48)$式より、$D$次元の分散共分散行列の$\mathbf{\Sigma}$は下記のように表せる。
$$
\large
\begin{align}
\mathbf{\Sigma} = \sum_{i=1}^{D} \lambda_{i} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm{T}}
\end{align}
$$
これを二次形式の$\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a}$に代入すると下記のようになる。
$$
\large
\begin{align}
\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a} &= \mathbf{a}^{\mathrm{T}} \left( \sum_{i=1}^{D} \lambda_{i} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm{T}} \right) \mathbf{a} \\
&= \lambda_{i} \sum_{i=1}^{D} \mathbf{a}^{\mathrm{T}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm{T}} \mathbf{a} \\
&= \lambda_{i} \sum_{i=1}^{D} (\mathbf{a}^{\mathrm{T}} \mathbf{u}_{i})^2
\end{align}
$$
$\lambda_{i} \leq 0$の$\lambda_{i}$が存在する場合、$\mathbf{u}_i=1$かつ$\mathbf{u}_j=0 (j \neq i)$が成立するように$\mathbf{a}$を考えることで、二次形式の$\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a}$は$0$以下の値となる。よって、$\lambda_{i} > 0$は必要条件となる。