Ch.1 「序論」の章末問題の解答例 パターン認識と機械学習 1.1〜1.20

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.1の「序論」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・参考
パターン認識と機械学習 解答まとめ
https://www.hello-statisticians.com/answer_textbook#prml

解答まとめ

問題$1.1$

問題$1.2$

問題$1.3$

箱を表す確率変数を$B$、果物を表す確率変数を$F$とおく。このとき、確率$p(F=\mathrm{apple})$は下記のように計算できる。
$$
\begin{align}
p(F=\mathrm{apple}) &= p(B=r,F=\mathrm{apple}) + p(B=b,F=\mathrm{apple}) + p(B=g,F=\mathrm{apple}) \\
&= 0.2 \times 0.3 + 0.2 \times 0.5 + 0.6 \times 0.3 \\
&= 0.06 + 0.1 + 0.18 = 0.34
\end{align}
$$

また、オレンジが選ばれたときに緑の箱から選ばれた確率$p(B=g|F=\mathrm{orange})$は下記のように求められる。
$$
\large
\begin{align}
& p(B=g|F=\mathrm{orange}) = \frac{p(B=g,F=\mathrm{orange})}{p(F=\mathrm{orange})} \\
&= \frac{p(B=g,F=\mathrm{orange})}{p(B=r,F=\mathrm{orange}) + p(B=b,F=\mathrm{orange}) + p(B=g,F=\mathrm{orange})} \\
&= \frac{0.6 \times 0.3}{0.2 \times 0.4 + 0.2 \times 0.5 + 0.6 \times 0.3} \\
&= \frac{0.18}{0.08 + 0.1 + 0.18} \\
&= 0.5
\end{align}
$$

問題$1.4$

問題$1.5$

$(1.38)$式の$\mathrm{var}[f] = \mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]$は下記のように変形することができる。
$$
\large
\begin{align}
\mathrm{var}[f] &= \mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2] \\
&= \mathbb{E}[f(x)^2 – 2f(x)\mathbb{E}[f(x)] + \mathbb{E}[f(x)]^2] \\
&= \mathbb{E}[f(x)^2] – 2 \mathbb{E}[f(x)\mathbb{E}[f(x)]] + \mathbb{E}[f(x)]^2 \\
&= \mathbb{E}[f(x)^2] – 2 \mathbb{E}[f(x)]^2 + \mathbb{E}[f(x)]^2 \\
&= \mathbb{E}[f(x)^2] – \mathbb{E}[f(x)]^2 \quad (1.39)
\end{align}
$$

上記は確率変数が離散である場合も連続である場合も成立する。

問題$1.6$

$$
\large
\begin{align}
\mathrm{cov}[x,y] = \mathbb{E}_{x,y}[xy] – \mathbb{E}[x]\mathbb{E}[y] \quad (1.41)
\end{align}
$$

上記で表した$(1.41)$に対して$x,y$が独立のとき$\mathrm{cov}[x,y]=0$であることを示す。ここで$\mathbb{E}_{x,y}[xy]$は$p(x,y)$を用いて期待値を計算したことを意味することに注意する。

$x,y$が連続であるとき、$\mathbb{E}_{x,y}[xy], \mathbb{E}[x], \mathbb{E}[y]$は期待値の定義より下記のようにそれぞれ表される。
$$
\large
\begin{align}
\mathbb{E}_{x,y}[xy] &= \int \int xy p(x,y) dx dy \\
\mathbb{E}[x] &= \int x p(x) dx \\
\mathbb{E}[y] &= \int y p(y) dx
\end{align}
$$

上記で$x,y$が独立であることより$p(x,y)=p(x)p(y)$が成立する。よって、$\mathbb{E}_{x,y}[xy]$は下記のように変形できる。
$$
\large
\begin{align}
\mathbb{E}_{x,y}[xy] &= \int \int xy p(x,y) dx dy \\
&= \int \int xy p(x)p(y) dx dy \\
&= \int x p(x) dx \int y p(y) dy = \mathbb{E}[x]\mathbb{E}[y]
\end{align}
$$

上記より$\mathrm{cov}[x,y] = \mathbb{E}_{x,y}[xy] – \mathbb{E}[x]\mathbb{E}[y] = 0$が成立することがわかる。また、$x,y$が離散である場合も同様の計算により$\mathrm{cov}[x,y]=0$を導出することができる。

問題$1.7$

下記で詳しく取り扱った。
https://www.hello-statisticians.com/explain-terms-cat/gaussian_integral1.html

問題$1.8$

$$
\large
\begin{align}
\mathbb{E}[x] &= \int_{-\infty}^{\infty} x \mathcal{N}(x|\mu,\sigma^2) dx \\
&= \int_{-\infty}^{\infty} x \times \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{(x-\mu)^2}{2 \sigma^2} \right) dx
\end{align}
$$

上記の計算を行うにあたって、$y = x-\mu$のように変数変換を行うことを考える。このとき$\displaystyle \frac{dx}{dy}=1$かつ$y$の区間が$(-\infty,\infty)$であることから下記のように式変形できる。
$$
\large
\begin{align}
\mathbb{E}[x] &= \int_{-\infty}^{\infty} x \times \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{(x-\mu)^2}{2 \sigma^2} \right) dx \\
&= \int_{-\infty}^{\infty} (y+\mu) \times \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{y^2}{2 \sigma^2} \right) \frac{dx}{dy} dy \\
&= \mu \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{y^2}{2 \sigma^2} \right) dy + \int_{-\infty}^{\infty} y \times \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{y^2}{2 \sigma^2} \right) dy \quad (1)
\end{align}
$$

$(1)$式の第$1$項の積分部分は正規分布の全区間の積分であるから第$1$項は$\mu$である。第$2$項の$y$は原点を中心に点対称である奇関数であることから積分は$0$になる。よって下記が成立する。
$$
\large
\begin{align}
\mathbb{E}[x] &= \mu \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{y^2}{2 \sigma^2} \right) dy + \int_{-\infty}^{\infty} y \times \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{y^2}{2 \sigma^2} \right) dy \quad (1) \\
&= \mu \times 1 + 0 = \mu \quad (1.49)
\end{align}
$$

次に$(1.127)$に対して$\sigma^2$で微分を行うにあたって、$\tau=\sigma^2$で置き換え、下記のように式の修正を行う。
$$
\large
\begin{align}
\int_{-\infty}^{\infty} \mathcal{N}(x|\mu,\sigma^2) dx &= 1 \quad (1.127) \\
\int_{-\infty}^{\infty} \exp \left( -\frac{(x-\mu)^2}{2 \sigma^2} \right) dx &= \sqrt{2 \pi \sigma^2} \\
\int_{-\infty}^{\infty} \exp \left( -\frac{(x-\mu)^2}{2 \tau} \right) dx &= \sqrt{2 \pi \tau} \quad (2)
\end{align}
$$

$(2)$式の両辺を$\tau$で微分すると下記のように変形できる。
$$
\large
\begin{align}
\frac{\partial}{\partial \tau} \int_{-\infty}^{\infty} \exp \left( -\frac{(x-\mu)^2}{2 \tau} \right) dx &= \frac{\partial}{\partial \tau} \sqrt{2 \pi \tau} \quad (2)’ \\
\int_{-\infty}^{\infty} \exp \left( -\frac{(x-\mu)^2}{2 \tau} \right) \times \frac{(x-\mu)^2}{2 \tau^2} dx &= \sqrt{2 \pi} \times \frac{1}{2 \sqrt{\tau}} \\
\int_{-\infty}^{\infty} \exp \left( -\frac{(x-\mu)^2}{2 \tau} \right) \times \frac{(x-\mu)^2}{2 \tau^2} dx &= \frac{\sqrt{2 \pi \tau}}{2 \tau} \\
\frac{1}{\sqrt{2 \pi \tau}} \int_{-\infty}^{\infty} \exp \left( -\frac{(x-\mu)^2}{2 \tau} \right) (x-\mu)^2 dx &= \frac{2 \tau^2}{2 \tau} \\
\int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{(x-\mu)^2}{2 \sigma^2} \right) (x-\mu)^2 dx &= \sigma^2
\end{align}
$$

上記より$\mathrm{var}[x]=\mathbb{E}[(x-\mu)^2]=\sigma^2$が成立すると考えられる。ここで、$\mathbb{E}[x]=\mu$を用いることで$\mathbb{E}[(x-\mu)^2]=\sigma^2$は下記のように変形できる。
$$
\large
\begin{align}
\mathbb{E}[(x-\mu)^2] &= \sigma^2 \\
\mathbb{E}[x^2] – 2 \mu \mathbb{E}[x] + \mu^2 &= \sigma^2 \\
\mathbb{E}[x^2] – 2 \mu^2 + \mu^2 &= \sigma^2 \\
\mathbb{E}[x^2] &= \mu^2 + \sigma^2 \quad (1.50)
\end{align}
$$

また、$\mathrm{var}[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^2$に$(1.49)$式と$(1.50)$式を代入することで下記が得られる。
$$
\large
\begin{align}
\mathrm{var}[x] &= \mathbb{E}[x^2] – \mathbb{E}[x]^2 \quad (1.40) \\
&= (\mu^2 + \sigma^2) – \mu^2 \\
&= \sigma^2 \quad (1.51)
\end{align}
$$

・考察
$\mathrm{var}[x]$は$\mathbb{E}[(x-\mu)^2]$で表されるので、$(1.50)$式を経由して$(1.51)$式を導出するのはやや冗長であるように思われた。

問題$1.9$

$$
\large
\begin{align}
p(x|\mu,\sigma^2) &= \mathcal{N}(x|\mu,\sigma^2) = \frac{1}{(2 \pi \sigma^2)^{1/2}} \exp \left( – \frac{1}{2 \sigma^2} (x-\mu)^2 \right) \quad (1.46) \\
p(\mathbf{x}|\mathbf{\mu},\mathbf{\Sigma}) &= \mathcal{N}(\mathbf{x}|\mathbf{\mu},\mathbf{\Sigma}) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\mathbf{\Sigma}|^{1/2}} \exp \left( – \frac{1}{2} (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1} (\mathbf{x}-\mathbf{\mu}) \right) \quad (1.52)
\end{align}
$$

上記のように表した$(1.46), (1.52)$式を最大にする$x, \mathbf{x}$を以下求める。$x, \mathbf{x}$に関して最大化を考えるならばそれぞれ指数関数の内部のみに着目するだけで良いので、下記のように関数$f(x), f(\mathbf{x})$を考える。
$$
\large
\begin{align}
f(x) &= – \frac{1}{2 \sigma^2} (x-\mu)^2 \\
f(\mathbf{x}) &= – \frac{1}{2} (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1} (\mathbf{x}-\mathbf{\mu})
\end{align}
$$

上記で定義した$f(x), f(\mathbf{x})$の最大値問題をそれぞれ考える。

・$f(x)$
$$
\large
\begin{align}
\frac{\partial}{\partial x}f(x) &= – \frac{1}{2 \sigma^2} \frac{\partial}{\partial x} (x-\mu)^2 \\
&= – \frac{1}{\sigma^2} (x-\mu)
\end{align}
$$

上記より$\displaystyle \frac{\partial}{\partial x}f(x)$は$x$に関して単調減少であるので、$\displaystyle \frac{\partial}{\partial x}f(x)=0$のとき$f(x)$は最大値を取る。
$$
\large
\begin{align}
\frac{\partial}{\partial x}f(x) &= 0 \\
– \frac{1}{\sigma^2} (x-\mu) &= 0 \\
x &= \mu
\end{align}
$$

・$f(\mathbf{x})$
$$
\large
\begin{align}
\frac{\partial}{\partial \mathbf{x}}f(\mathbf{x}) &= – \frac{1}{2} \frac{\partial}{\partial \mathbf{x}} (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1} (\mathbf{x}-\mathbf{\mu}) \\
&= – \mathbf{\Sigma}^{-1} (\mathbf{x}-\mathbf{\mu})
\end{align}
$$

上記の計算にあたっては$\mathbf{\Sigma}^{-1}$が対称行列であることを前提においた。ここで上記の$\displaystyle \frac{\partial}{\partial \mathbf{x}}f(\mathbf{x})$は$\mathbf{x}$のそれぞれの要素に関して単調減少であるので、$\displaystyle \frac{\partial}{\partial \mathbf{x}}f(\mathbf{x})=\mathbf{0}$のとき$f(\mathbf{x})$は最大値を取る。
$$
\large
\begin{align}
\frac{\partial}{\partial \mathbf{x}}f(\mathbf{x}) &= 0 \\
\mathbf{\Sigma}^{-1} (\mathbf{x}-\mathbf{\mu}) &= 0 \\
\mathbf{x} &= \mathbf{\mu}
\end{align}
$$

ここまでの議論により、$1$変量正規分布$\mathcal{N}(x|\mu,\sigma^2)$のモードは$\mu$、多変量正規分布$\mathcal{N}(\mathbf{x}|\mathbf{\mu},\mathbf{\Sigma})$のモードは$\mathbf{\mu}$であると考えることができる。

問題$1.10$

下記で離散型確率分布に関して導出を行なった。
https://www.hello-statisticians.com/explain-terms-cat/expectation-variance-covariance.html

連続型の確率分布に関しても$\displaystyle \sum$を$\displaystyle \int$に置き換えるだけで同様に導出できる。

問題$1.11$

$$
\large
\begin{align}
\ln{p(\mathbf{x}|\mu,\sigma^2)} &= \ln{p(x_1,…,x_n|\mu,\sigma^2)} \\
&= – \frac{1}{2 \sigma^2} \sum_{n=1}^{N} (x_n-\mu)^2 – \frac{N}{2} \ln{\sigma^2} – \frac{N}{2} \ln{2 \pi} \quad (1.54)
\end{align}
$$

上記は$(1.54)$式の理解がしやすいように追記を行なったものである。ここで$f(x)=-x^2$や$f(x)=\ln{x}$が下に凸の関数であることから、式を$\mu$と$\sigma^2$に関してそれぞれ偏微分し$=0$を解くことで最尤推定を行うことができる。

また、ここで$\sigma^2$に関して微分を行うにあたって$\sigma^2$を文字とみなすと表記がわかりにくいので$\tau=\sigma^2$のようにおき、$(1.54)$式を下記のように書き直す。
$$
\large
\begin{align}
\ln{p(\mathbf{x}|\mu,\tau)} = – \frac{1}{2 \tau} \sum_{n=1}^{N} (x_n-\mu)^2 – \frac{N}{2} \ln{\tau} – \frac{N}{2} \ln{2 \pi}
\end{align}
$$

上記を$\mu, \tau$に関して偏微分し$=0$を解くことで最尤推定解が得られる。
・$\displaystyle \frac{\partial \ln{p(\mathbf{x}|\mu,\tau)}}{\partial \mu} = 0$
$$
\large
\begin{align}
\frac{\partial \ln{p(\mathbf{x}|\mu,\tau)}}{\partial \mu} &= – \frac{1}{\tau} \sum_{n=1}^{N} (x_n-\mu) = 0 \\
\sum_{n=1}^{N} (x_n-\mu) &= 0 \\
N \mu &= \sum_{n=1}^{N} x_n \\
\mu &= \frac{1}{N} \sum_{n=1}^{N} x_n \\
\mu_{ML} &= \frac{1}{N} \sum_{n=1}^{N} x_n
\end{align}
$$

・$\displaystyle \frac{\partial \ln{p(\mathbf{x}|\mu_{ML},\tau)}}{\partial \tau} = 0$
$$
\large
\begin{align}
\frac{\partial \ln{p(\mathbf{x}|\mu_{ML},\tau)}}{\partial \tau} &= \frac{1}{2 \tau^2} \sum_{n=1}^{N} (x_n-\mu_{ML})^2 – \frac{N}{2 \tau} = 0 \\
\frac{N}{2 \tau} &= \frac{1}{2 \tau^2} \sum_{n=1}^{N} (x_n-\mu_{ML})^2 \\
N \tau &= \sum_{n=1}^{N} (x_n-\mu_{ML})^2 \\
\tau &= \frac{1}{N} \sum_{n=1}^{N} (x_n-\mu_{ML})^2 \\
\sigma_{ML}^{2} &= \frac{1}{N} \sum_{n=1}^{N} (x_n-\mu_{ML})^2
\end{align}
$$

上記より$(1.55), (1.56)$が成立する。

問題$1.12$

$(1.130)$式が成立することを$n = m$の場合と$n \neq m$の場合に分けて示す。

・$n=m$の場合
$(1.50)$式より$\mathbb{E}[x^2] = \mu^2 + \sigma^2$が成立し、これは$(1.130)$式に一致する。

・$n \neq m$の場合
$\mathbb{E}[x_n x_m]$は$x_n$と$x_m$が$\mathrm{i.i.d.}$であることから下記のように考えることができる。
$$
\large
\begin{align}
\mathbb{E}[x_n x_m] &= \int \int x_n x_m p(x_n,x_m) dx_n dx_m \\
&= \int \int x_n x_m p(x_n)p(x_m) dx_n dx_m \\
&= \int x_n p(x_n) dx_n \int x_m p(x_m) dx_m \\
&= \mu \times \mu \\
&= \mu^2
\end{align}
$$
上記は$(1.130)$式に一致する。

よって、$(1.130)$式が成立する。

また、$(1.57)$式、$(1.58)$式はそれぞれ下記のように示せる。

・$(1.57)$式の導出
$$
\large
\begin{align}
\mathbb{E}[\mu_{ML}] &= \mathbb{E} \left[ \frac{1}{N} \sum_{n=1}^{N} x_n \right] = \frac{1}{N} \mathbb{E} \left[ \sum_{n=1}^{N} x_n \right] \\
&= \frac{1}{N} \times N \mathbb{E}[x_n] \\
&= \mu
\end{align}
$$

・$(1.58)$式の導出
$$
\large
\begin{align}
\mathbb{E}[\sigma_{ML}^{2}] &= \mathbb{E} \left[ \frac{1}{N} \sum_{n=1}^{N} (x_n-\mu_{ML})^2 \right] \\
&= \frac{1}{N} \sum_{n=1}^{N} \mathbb{E} \left[ \left( x_n – \sum_{m=1}^{N} x_m \right)^2 \right] \\
&= \frac{1}{N} \sum_{n=1}^{N} \mathbb{E} \left[ \left( x_n^2 – \frac{2}{N} x_n \sum_{m=1}^{N} x_m + \frac{1}{N^2} \sum_{m=1}^{N} x_m \sum_{l=1}^{N} x_l \right) \right] \\
&= \frac{1}{N} \sum_{n=1}^{N} \mathbb{E} \left[ \left( x_n^2 – \frac{2}{N} x_n \sum_{m=1}^{N} x_m + \frac{1}{N^2} \sum_{m=1}^{N} \sum_{l=1}^{N} x_m x_l \right) \right] \\
&= \frac{1}{N} \sum_{n=1}^{N} \left[ (\mu^2+\sigma^2) – 2 \left( \mu^2 + \frac{1}{N} \sigma^2 \right) + \mu^2 + \frac{1}{N} \sigma^2 \right] \\
&= \mu^2 + \sigma^2 – 2 \left( \mu^2 + \frac{1}{N} \sigma^2 \right) + \mu^2 + \frac{1}{N} \sigma^2 \\
&= \sigma^2 – \frac{2}{N} \sigma^2 + \frac{1}{N} \sigma^2 = \frac{N-1}{N} \sigma^2
\end{align}
$$

問題$1.13$

$(1.56)$式の$\mu_{ML}$が$\mu = E[x]$で置き換えられる場合、$(1.38)$式などで表される分散の定義に一致するので、この場合は$\mathbb{E}[\sigma_{ML}^{2}] = \sigma^2$が成立する。

・考察
標本平均$\mu_{ML}$は標本から計算される統計量でしかないが$\mu$は母集団のパラメータであることに注意することでこの結果は妥当であると考えられる。

問題$1.14$

問題$1.15$

問題$1.16$

問題$1.17$

$$
\large
\begin{align}
\Gamma(x) \equiv \int_{0}^{\infty} u^{x-1} e^{-u} du
\end{align}
$$
上記のガンマ関数の定義の式に対し、$\Gamma(x+1)$の式を考えると下記のようになる。
$$
\large
\begin{align}
\Gamma(x+1) &= \int_{0}^{\infty} u^{x} e^{-u} du \\
&= \left[ -u^{x} e^{-u} \right]_{0}^{\infty} + \int_{0}^{\infty} x u^{x-1} e^{-u} du \\
&= 0 + x \int_{0}^{\infty} u^{x-1} e^{-u} du \\
&= x \Gamma(x)
\end{align}
$$

同様に$\Gamma(1)$は下記のように計算できる。
$$
\large
\begin{align}
\Gamma(1) &= \int_{0}^{\infty} u^{1-1} e^{-u} du \\
&= \int_{0}^{\infty} e^{-u} du \\
&= \left[ -e^{-u} \right]_{0}^{\infty} \\
&= -(0-1) \\
&= 1
\end{align}
$$

$\Gamma(x+1)=x\Gamma(x), \Gamma(1)=1$より、下記のように$\Gamma(x+1)=x!$が導出できる。
$$
\large
\begin{align}
\Gamma(x+1) &= x \Gamma(x) \\
&= x(x-1) \Gamma(x-1) \\
&= x(x-1)(x-2) \Gamma(x-2) \\
&= … \\
&= x!
\end{align}
$$

問題$1.18$

$$
\large
\begin{align}
\prod_{i=1}^{D} \int_{-\infty}^{\infty} e^{-x_{i}^{2}} dx_{i} &= S_{D} \int_{0}^{\infty} e^{-r^2} r^{D-1} dr \quad (1.142) \\
I &= \int_{-\infty}^{\infty} e^{-x^{2}} dx = \pi^{\frac{1}{2}} \quad (1.126)’
\end{align}
$$

上記で表した$(1.126)’$式は$(1.126)$式の変数変換を行うことで得られる。$(1.126)’$式を用いることで$(1.142)$式の左辺は下記のように変形できる。
$$
\large
\begin{align}
\prod_{i=1}^{D} \int_{-\infty}^{\infty} e^{-x_{i}^{2}} dx_{i} &= \prod_{i=1}^{D} \pi^{\frac{1}{2}} \\
&= \pi^{\frac{D}{2}} \quad (1)
\end{align}
$$

次に$(1.142)$式の右辺に対して$u=r^2$で変数変換を行うことを考える。$\displaystyle r=\sqrt{u}$より$\displaystyle \frac{dr}{du}=\frac{1}{2 \sqrt{u}}$が成立する。また、$0 \leq r < \infty$には$0 \leq u \leq \infty$が対応する。

よって、$(1.142)$は下記のように計算できる。
$$
\large
\begin{align}
S_{D} \int_{0}^{\infty} e^{-r^2} r^{D-1} dr &= S_{D} \int_{0}^{\infty} e^{-u} u^{(D-1)/2} \times \frac{1}{2 \sqrt{u}} du \\
&= \frac{S_{D}}{2} \int_{0}^{\infty} e^{-u} u^{D/2 – 1} du \\
&= \frac{S_{D}}{2} \times \Gamma \left( \frac{D}{2} \right) \quad (2)
\end{align}
$$

$(1),(2)$式を$(1.142)$式に代入し、$S_{D}$に関して解くと下記のように$(1.143)$式が得られる。
$$
\large
\begin{align}
\prod_{i=1}^{D} \int_{-\infty}^{\infty} e^{-x_{i}^{2}} dx_{i} &= S_{D} \int_{0}^{\infty} e^{-r^2} r^{D-1} dr \quad (1.142) \\
\pi^{\frac{D}{2}} &= \frac{S_{D}}{2} \times \Gamma \left( \frac{D}{2} \right) \\
S_{D} &= \frac{2 \pi^{\frac{D}{2}}}{\displaystyle \Gamma \left( \frac{D}{2} \right)} \quad (1.143)
\end{align}
$$

半径$r$の表面積は$S_{D}r^{D-1}$に一致することから、$r=1$のときの体積$V_{D}$は下記のように得られる。
$$
\large
\begin{align}
V_{D} &= \int_{0}^{1} S_{D} r^{D-1} dr \\
&= \left[ \frac{S_{D}}{D} r^{D} \right]_{0}^{1} \\
&= \frac{S_{D}}{D} \quad (1.144)
\end{align}
$$

ここで半径$r$、次元$D$の表面積を$S_{D}(r)$、体積を$V_{D}(r)$とおくと、ここまでの導出により$S_{D}(r), V_{D}(r)$は下記のように表せる。
$$
\large
\begin{align}
S_{D}(r) &= \frac{2 \pi^{\frac{D}{2}}}{\displaystyle \Gamma \left( \frac{D}{2} \right)} r^{D-1} \quad (1.143)’ \\
V_{D}(r) &= \frac{S_{D}}{D} r^{D} \quad (1.144)’ \\
&= \frac{2 \pi^{\frac{D}{2}}}{\displaystyle \Gamma \left( \frac{D}{2} \right) D} r^{D}
\end{align}
$$

上記を元に$r=a, D=2,3$の場合についてそれぞれ計算を行う。
$$
\large
\begin{align}
S_{2}(a) &= \frac{2 \pi^{\frac{2}{2}}}{\displaystyle \Gamma \left( \frac{2}{2} \right)} a^{2-1} \\
&= 2 \pi a \\
V_{2}(a) &= \frac{\cancel{2} \pi^{\frac{2}{2}}}{\displaystyle \Gamma \left( \frac{2}{2} \right) \times \cancel{2}} a^{2} \\
&= \pi a^{2} \\
S_{3}(a) &= \frac{2 \pi^{\frac{3}{2}}}{\displaystyle \Gamma \left( \frac{3}{2} \right)} a^{3-1} \\
&= 2 \pi^{\frac{3}{2}} \times \frac{2}{\sqrt{\pi}} \times a^{2} \\
&= 4 \pi a^{2} \\
V_{3}(a) &= \frac{2 \pi^{\frac{3}{2}}}{\displaystyle \Gamma \left( \frac{3}{2} \right) \times 3} r^{3} \\
&= 2 \pi^{\frac{3}{2}} \times \frac{2}{3 \sqrt{\pi}} \times a^{3} \\
&= \frac{4}{3} \pi a^{3}
\end{align}
$$

上記より、$S_{2}(a), V_{2}(a)$は円周と円の面積に対応し、$S_{3}(a), V_{3}(a)$が球の表面積と体積に一致することが確認できる。

問題$1.19$

・$(1.145)$式の導出
半径$r$の$D$次元超球の体積を$V_{D}(r)$とおくと、演習問題$1.18$より下記が成立する。
$$
\large
\begin{align}
V_{D}(a) = \frac{2 \pi^{\frac{D}{2}}}{\displaystyle \Gamma \left( \frac{D}{2} \right) D} a^{D}
\end{align}
$$

また、辺の長さが$x$の$D$次元超立方体(hypercube)の体積を$V_{\mathrm{HC}}(x)$とおくと$V_{\mathrm{HC}}(2a)$は下記のように計算できる。
$$
\large
\begin{align}
V_{\mathrm{HC}}(2a) = (2a)^{D}
\end{align}
$$

よって、$\displaystyle \frac{V_{D}(a)}{V_{\mathrm{HC}}(2a)}$は下記のように計算できる。
$$
\large
\begin{align}
\frac{V_{D}(a)}{V_{\mathrm{HC}}(2a)} &= \frac{2 \pi^{\frac{D}{2}}}{\displaystyle \Gamma \left( \frac{D}{2} \right) D} \cancel{a^{D}} \times \frac{1}{2^{D} \cancel{a^{D}}} \\
&= \frac{\pi^{\frac{D}{2}}}{\displaystyle D 2^{D-1} \Gamma \left( \frac{D}{2} \right)} \quad (1.145)
\end{align}
$$

・$\displaystyle \lim_{D \to \infty} \frac{V_{D}(a)}{V_{\mathrm{HC}}(2a)} = 0$の導出
$\displaystyle \Gamma \left( \frac{D}{2} \right)$に$(1.146)$式を適用すると下記のように変形を行える。
$$
\large
\begin{align}
\Gamma \left( \frac{D}{2} \right) &= \Gamma \left( \frac{D}{2}-1+1 \right) \\
& \simeq (2 \pi)^{1/2} e^{-D/2-1} \left( \frac{D}{2}-1 \right)^{D/2-1+1/2} \\
&= (2 \pi)^{1/2} e^{-D/2-1} \left( \frac{D}{2}-1 \right)^{(D-1)/2} \quad (1)
\end{align}
$$

$(1)$式を$(1.145)$式に適用すると下記が得られる。
$$
\large
\begin{align}
\frac{V_{D}(a)}{V_{\mathrm{HC}}(2a)} &= \frac{\pi^{\frac{D}{2}}}{\displaystyle D 2^{D-1} \Gamma \left( \frac{D}{2} \right)} \quad (1.145) \\
& \simeq \frac{\pi^{\frac{D}{2}}}{\displaystyle D 2^{D-1}} \times \frac{1}{\displaystyle (2 \pi)^{1/2}e^{-D/2-1} \left( \frac{D}{2}-1 \right)^{(D-1)/2}} \\
& \to 0 \qquad D \to \infty
\end{align}
$$

上記は$x \to \infty$のときの$a^{x}$と$x^{x}$の発散の速さに基づいて$0$に収束することを確かめた。

・others
辺の長さが$2a$のD次元超立方体の中心から辺の長さは$a$である一方で、中心から頂点の長さは$\displaystyle l^2 = \sum_{i=1}^{D} a^2 = Da^2$より、$l = \sqrt{D}a$のように得られる。よって$\displaystyle \frac{l}{a}$は下記のように得られる。
$$
\large
\begin{align}
\frac{l}{a} &= \frac{\sqrt{D} \cancel{a}}{\cancel{a}} \\
&= \sqrt{D}
\end{align}
$$

上記より$D \to \infty$のとき、$\displaystyle \frac{l}{a} \to \infty$となることが確認できる。

問題$1.20$

「Ch.1 「序論」の章末問題の解答例 パターン認識と機械学習 1.1〜1.20」への1件の返信

コメントは受け付けていません。