ブログ

統計量と標本分布(sampling distribution)の具体例 

推測統計においては標本の関数を統計量(statistic)と呼ぶが、この統計量の分布が標本分布(sampling distribution)である。標本分布の具体例は、$\chi^2$分布、$t$分布、$F$分布などが具体的に挙げられるが、どれも正規分布などに基づいて変数変換を行うことで導出できる。
当記事では統計量と標本分布について簡単に確認した後に、$\chi^2$分布、$t$分布、$F$分布などの具体的な導出を行う。作成にあたっては「現代数理統計学(学術図書出版社)」の$4.2$節の「統計量と標本分布」や$4.3$節の「正規分布のもとでの標本分布論」を参考に、作成を行った。

基本事項の確認

統計量

推測統計において母集団から抽出された標本を$X_1,X_2,X_3,…,X_n$に基づいて統計処理を行うと考えるとき、標本をそのまま用いるというよりも「標本平均」や「標本分散/不偏標本分散」を計算するなど、何らかの処理を行った指標を用いることが多い。

このとき標本の関数を統計量(statistic)といい、下記のように定義する。
$$
\large
\begin{align}
T(\mathbf{X})=T(X_1,X_2,X_3,…,X_n)
\end{align}
$$
標本平均$\bar{X}$や標本分散$S^2$などは、上記の統計量の定義に基づき下記のように定義できるので、統計量であるといえる。
$$
\large
\begin{align}
\bar{X} &= \frac{1}{n} (X_1+X_2+…+X_n) \\
&= T_1(X_1,X_2,X_3,…,X_n) \\
S^2 &= \frac{1}{n} \sum_{i=1}^{n} (X_i – \bar{X})^2 \\
&= T_2(X_1,X_2,X_3,…,X_n)
\end{align}
$$

また、k個の統計量を同時に考え$\mathbf{T}$とまとめるとき、$\mathbf{T} = (T_1,T_2,…,T_k)$をk次元統計量(k-dimensional statistic)という。
たとえば前述の$\bar{X}, S^2$を$\mathbf{T} = (T_1, T_2) = (\bar{X}, S^2)$のように2次元統計量の表記で表すことができる。統計量と聞くと抽象的な印象を受けるかもしれないが、とにかく「標本の関数である」とだけ注意して抑えておくと良いと思われる。

標本分布

統計量の分布を考える際に「標本分布(sampling distribution)」と表すことが多い。数学的には確率変数に対応する確率分布と、統計量に対応する標本分布は同じ概念であり区別する必要はないが、母集団と標本という統計的な概念を強調するにあたって、「標本分布」という表現は用いられる。
ここで標本や統計量が確率変数であることは、標本抽出(sampling)が無作為かつ確率的に行われることに基づくことも抑えておくと良い。

さて、統計量を具体的に考えるなら前項の$\mathbf{T} = (T_1, T_2) = (\bar{X}, S^2)$を例に考えるのがわかりやすい。
ここで$T_1=\bar{X}$は正規分布に従い、$\displaystyle s^2 = \frac{n}{n-1}T_2 = \frac{n}{n-1}S^2$は$\chi^2$分布に従うなど、「統計量の従う標本分布」を考える際は具体的には正規分布、t分布、$\chi^2$分布、$F$分布を例に考えると良い。

変数変換

https://www.hello-statisticians.com/explain-terms-cat/transformation1.html
https://www.hello-statisticians.com/explain-terms-cat/gaussian_integral1.html
https://www.hello-statisticians.com/explain-terms-cat/beta_distribution1.html
変数変換については詳しくは上記などで取り扱ったが、下記の式などを抑えておくと良い。

・1次元の変数変換
$$
\large
\begin{align}
g(y) &= f(\phi^{-1}(y)) \left| \frac{d \phi^{-1}(y)}{d y} \right|
\end{align}
$$

・2次元の変数変換
$$
\large
\begin{align}
g(y_1,y_2) &= f(\phi_1^{-1}(y_1,y_2), \phi_2^{-1}(y_1,y_2)) \left| \begin{array}{cc} \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_1} & \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_2} \\ \frac{\partial \phi_2^{-1}(y_1,y_2)}{\partial y_1} & \frac{\partial \phi_2^{-1}(y_1,y_2)}{\partial y_2} \end{array} \right|
\end{align}
$$

具体的な標本分布の導出

$\chi^2$分布

$X_1, X_2, …, X_n \sim N(0,1) \quad i.i.d.,$に関して、$Y=X_1^2+…+X_n^2$のようにおくと、$Y$は自由度$n$の$\chi^2$分布に従う。このことは$Y = X_1^2+…+X_n^2 \sim \chi^2(n)$のように表すことができる。

上記に関して、「確率密度関数の導出」と「標本分散の標本分布が$\chi^2$分布で表されることの導出」を以下で取り扱う。

モーメント母関数を用いた$\chi^2$分布の確率密度関数の導出

下記の議論より、$Y=X_1^2+…+X_n^2$のモーメント母関数は$\displaystyle Ga \left( \frac{n}{2}, 2 \right)$のモーメント母関数に一致するので、自由度$\nu$の$\chi^2$分布$\chi^2(\nu)$は$\displaystyle Ga \left( \frac{n}{2}, 2 \right)$に一致する
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch4.html#41

・参考
ガンマ分布$Ga(\nu,\alpha)$のモーメント母関数$m_{ga}(t)$は下記のように表すことができる。
$$
\large
\begin{align}
m_{ga}(t) &= (1 – t \alpha)^{-\nu}
\end{align}
$$

また、ここで表される$\displaystyle Ga \left( \frac{n}{2}, 2 \right)$のモーメント母関数は下記のように表される。
$$
\large
\begin{align}
m_{Ga \left( \frac{n}{2}, 2 \right)}(t) = E[e^{tY}] = (1-2t)^{-\frac{n}{2}}
\end{align}
$$

たたみこみを用いた$\chi^2$分布の確率密度関数の導出

$Y=X_1^2+…+X_n^2$を考えるにあたって$n=1, Y=X_1^2$のときを考える。確率変数$X_1$は標準正規分布に従うことから、確率密度関数を$f(x_1)$と定義すると、$f(x_1)$は下記のように表すことができる。
$$
\large
\begin{align}
f(x_1) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{x_1^2}{2}}
\end{align}
$$

上記に対して$y = x_1^2$を元に変数変換を行うことを考える。「$Y \leq y \iff \sqrt{y} \leq X_1 \leq \sqrt{y}$」より、$P(Y \leq y)$に関して下記が成立する。
$$
\large
\begin{align}
P(Y \leq y) &= P(\sqrt{y} \leq X_1 \leq \sqrt{y}) \\
&= \int_{-\sqrt{y}}^{\sqrt{y}} f(x_1) dx_1 \\
&= \int_{0}^{\sqrt{y}} 2f(x_1) dx_1
\end{align}
$$
上記では標準正規分布$f(x_1)$が$x_1=0$を中心に線対称であることを用いた。

ここで、$y$に関する確率密度関数を$g(y)$とおくと、下記が成立する。
$$
\large
\begin{align}
g(y) &= 2f(x_1) \left| \frac{dx_1}{dy} \right| \\
&= 2f(\sqrt{y}) \left| \frac{dx_1}{dy} \right| \\
&= 2 \times \frac{1}{\sqrt{2 \pi}} e^{-\frac{\sqrt{y}^2}{2}} \times \frac{d}{dy} \sqrt{y} \\
&= 2 \times \frac{1}{\sqrt{2 \pi}} e^{-\frac{y}{2}} \times \frac{1}{2 \sqrt{y}} \\
&= \frac{1}{\sqrt{2 \pi}} e^{-\frac{y}{2}} \times \frac{1}{\sqrt{y}} \\
&= \frac{1}{\sqrt{2 \pi}} y^{\frac{1}{2}-1} e^{-\frac{y}{2}}
\end{align}
$$
上記の$y$に着目すると、上記がガンマ分布$\displaystyle Ga \left( \frac{1}{2}, 2 \right)$の確率密度関数であることがわかる。

さらにここでガンマ分布に関するたたみこみを活用することで、$Y=X_1^2+…+X_n^2$の確率密度関数がガンマ分布$\displaystyle Ga \left( \frac{n}{2}, 2 \right)$に一致することがわかる。

・考察
変数変換を行うにあたって定積分の式が出てきたが、これは下記で取り扱ったように「変数変換の式」が元々は定積分の保存にあたって導出されたと考えると分かりやすいと思われる。
https://www.hello-statisticians.com/practice/stat_practice15.html#i-2

標本分散と$\chi^2$分布

$n$個の標本$\displaystyle \mathbf{X} = \left( \begin{array}{c} X_1 \\ X_2 \\ \vdots \\ X_n \end{array} \right)$に関して、標本平均$\bar{X}$と標本分散$S^2$を一般的な定義に基づいて下記のように考える。
$$
\large
\begin{align}
\bar{X} &= \frac{1}{n} \sum_{i=1}^{n} X_i \\
S^2 &= \frac{1}{n} \sum_{i=1}^{n} (X_i-\bar{X})^2
\end{align}
$$
このとき、「①標本平均$\bar{X}$と標本分散$S^2$が互いに独立」と「②$\displaystyle \frac{ns^2}{\sigma^2}$が自由度$n-1$の$\chi^2$分布$\chi^2(n-1)$に従う」の2つが成立する。

以下、①と②の証明について確認する。$X_i$の代わりに$\displaystyle Z_i = \frac{X_i-\mu}{\sigma}$について示し、$X_i$も成立すると示すことができるため、ここでは${X_i}$に関して$\mu=0, \sigma^2=1$が成立するとおいて議論を行う。

ここで$n$次元の単位行列を$\mathbf{I}_n$とするとき、$n$個の標本$\displaystyle \mathbf{X} = \left( \begin{array}{c} X_1 \\ X_2 \\ … \\ X_n \end{array} \right)$が独立同分布に従うことにより、$\mathbf{X} \sim N(\mathbf{0},\mathbf{I}_n)$が成立すると考えられる。

次に$\mathbf{X}$にHelmert変換を表す行列$\mathbf{G}$をかけ、$\mathbf{Y}=\mathbf{G}\mathbf{X}$を計算することを考える。Helmert変換に関しては下記に詳しくまとめたので、詳細はここでは省略する。
https://www.hello-statisticians.com/explain-terms-cat/helmert1.html

Helmert変換を表す行列$\mathbf{G}$は直交行列であるため、逆変換に関して$\mathbf{X}=\mathbf{G}^{\mathrm{T}}\mathbf{Y}$や、ヤコビアンに関して$|\det \mathbf{G}| = |\det \mathbf{G}^{\mathrm{T}}| = 1$が成立する。

ここで$\mathbf{G}$が直交行列であることにより、下記が成立する。
$$
\large
\begin{align}
\sum_{i=1}^{n} X_i^2 &= \mathbf{X}^{\mathrm{T}} \mathbf{X} \\
&= \mathbf{X}^{\mathrm{T}} \mathbf{G}^{\mathrm{T}} \mathbf{G} \mathbf{X} \\
&= (\mathbf{G}\mathbf{X})^{\mathrm{T}} \mathbf{G} \mathbf{X} \\
&= \mathbf{Y}^{\mathrm{T}} \mathbf{Y} \\
&= \sum_{i=1}^{n} Y_i^2
\end{align}
$$

このとき、$\mathbf{G}$の第1行の選び方により、$Y_1 = \sqrt{n}\bar{X}$が成立する。よって$nS^2$に関して下記が成立する。
$$
\large
\begin{align}
nS^2 &= \sum_{i=1}^{n} (X_i-\bar{X})^2 \\
&= \sum_{i=1}^{n} X_i^2 – n\bar{X}^2 \\
&= \sum_{i=1}^{n} Y_i^2 – Y_1 \\
&= \sum_{i=2}^{n} Y_i^2
\end{align}
$$

上記の議論などにより、①と②を示すことができる。

$t$分布

確率変数の$U$と$V$を互いに独立に定義し、$U \sim N(0,1)$と$V \sim \chi^2(m)$が成立するという前提をおき、下記のように$T$を考える。
$$
\large
\begin{align}
T = \frac{U}{\frac{V}{m}}
\end{align}
$$
上記のように定めた$T$の分布を自由度$m$の$t$分布と定義する。これに関連して、「$t$分布の確率密度関数の導出」と「$t$統計量の標本分布が$t$分布に従うこと」を以下で取り扱う。

$t$分布の確率密度関数

$U \sim N(0,1)$と$V \sim \chi^2(n)$より、$u, v$に関する同時確率密度関数$f(u,v)$は下記のように表される。
$$
\large
\begin{align}
f(u,v) &= f(u)f(v) \\
&= \frac{1}{\sqrt{2 \pi}} e^{-\frac{u^2}{2}} \times \frac{v^{\frac{m}{2}-1} e^{-\frac{v}{2}}}{2^{\frac{m}{2}} \Gamma \left( \frac{m}{2} \right)}
\end{align}
$$

ここで下記のように変数変換を行うことを考える。
$$
\large
\begin{align}
T &= \frac{U}{\sqrt{\frac{V}{m}}} \\
V &= V
\end{align}
$$
上記の逆変換は下記のようになる。
$$
\large
\begin{align}
U &= T \sqrt{\frac{V}{m}} \\
V &= V
\end{align}
$$

ここでヤコビ行列$\mathbf{J}$は下記のように計算できる。
$$
\large
\begin{align}
\mathbf{J} &= \left(\begin{array}{cc} \frac{\partial u}{\partial t} & \frac{\partial u}{\partial v} \\ \frac{\partial v}{\partial t} & \frac{\partial v}{\partial v} \end{array} \right) \\
&= \left(\begin{array}{cc} \sqrt{\frac{v}{m}} & \frac{t}{2}\sqrt{\frac{1}{mv}} \\ 0 & 1 \end{array} \right)
\end{align}
$$
上記を元にヤコビアン$|\det \mathbf{J}|$の計算を行う。
$$
\large
\begin{align}
|\det \mathbf{J}| &= \left| \sqrt{\frac{v}{m}} \cdot 1 – \frac{t}{2}\sqrt{\frac{1}{mv}} \cdot 0 \right| \\
&= \sqrt{\frac{v}{m}}
\end{align}
$$

ここで$t,v$に関する同時確率密度関数を$g(t,v)$とおくと、下記のように導出することができる。
$$
\large
\begin{align}
g(t,v) &= f(u,v) |\det \mathbf{J}| \\
&= f \left( t \sqrt{\frac{v}{m}} , v \right) |\det \mathbf{J}| \\
&= \frac{1}{\sqrt{2 \pi}} e^{-\frac{\left( t \sqrt{\frac{v}{m}} \right)^2}{2}} \times \frac{v^{\frac{m}{2}-1} e^{-\frac{v}{2}}}{2^{\frac{m}{2}} \Gamma \left( \frac{m}{2} \right)} \times \sqrt{\frac{v}{m}} \\
&= \frac{1}{\sqrt{2 \pi}} e^{-v\frac{t^2}{2m}} \times \frac{v^{\frac{m}{2}-1} e^{-\frac{v}{2}}}{2^{\frac{m}{2}} \Gamma \left( \frac{m}{2} \right)} \times \sqrt{\frac{v}{m}} \\
&= \frac{v^{\frac{m+1}{2}-1} e^{-v \left( 1 + \frac{t^2}{2m} \right)}}{2^{\frac{m}{2}} \Gamma \left( \frac{m}{2} \right) \sqrt{2 \pi m}} \quad (1)
\end{align}
$$

ここで(1)式の積分に対して、下記で表す(2)式を適用することを考える。
$$
\large
\begin{align}
\int_{0}^{\infty} v^{\frac{m+1}{2}-1} e^{-\frac{v(1+t^2/m)}{2}} dv = 2^{\frac{m+1}{2}} \Gamma \left( \frac{m+1}{2} \right) \left( 1 + \frac{t^2}{m} \right)^{-\frac{m+1}{2}} \quad (2)
\end{align}
$$
(2)式は下記で詳しく導出を行った。
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch4.html#44

$\displaystyle \int_{0}^{\infty} g(t,v) dv$に関して(2)式を適用することで、下記のような計算を行うことができる。
$$
\large
\begin{align}
\int_{0}^{\infty} g(t,v) dv &= \int_{0}^{\infty} \frac{v^{\frac{m+1}{2}-1} e^{-v \left( 1 + \frac{t^2}{2m} \right)}}{2^{\frac{m}{2}} \Gamma \left( \frac{m}{2} \right) \sqrt{2 \pi m}} dv \\
&= \frac{1}{2^{\frac{m}{2}} \Gamma \left( \frac{m}{2} \right) \sqrt{2 \pi m}}\int_{0}^{\infty} v^{\frac{m+1}{2}-1} e^{-\frac{v(1+t^2/m)}{2}} dv \\
&= \frac{1}{2^{\frac{m}{2}} \Gamma \left( \frac{m}{2} \right) \sqrt{2 \pi m}} \times 2^{\frac{m+1}{2}} \Gamma \left( \frac{m+1}{2} \right) \left( 1 + \frac{t^2}{m} \right)^{-\frac{m+1}{2}} \\
&= \frac{\Gamma \left( \frac{m+1}{2} \right)}{\sqrt{\pi m} \Gamma \left( \frac{m}{2} \right)} \left( 1 + \frac{t^2}{m} \right)^{-\frac{m+1}{2}}
\end{align}
$$
上記が自由度$m$の$t$分布$t(m)$の確率密度関数を表す。

$t$統計量と$t$分布

$X_1,X_2,…,X_n \sim N(\mu,\sigma^2), \quad i.i.d.,$の標本平均を$\bar{X}$、不偏標本分散を$s^2$のように表すとき、$t$統計量は下記のように定義される。
$$
\large
\begin{align}
T = \frac{\sqrt{n}(\bar{X}-\mu)}{s}
\end{align}
$$

上記のように定義した$T$は下記のように変形を行うことができる。
$$
\large
\begin{align}
T &= \frac{\sqrt{n}(\bar{X}-\mu)}{s} \\
&= \frac{\frac{(\bar{X}-\mu)}{1/\sqrt{n}}}{\sqrt{s^2}} \\
&= \frac{\frac{(\bar{X}-\mu)}{\sigma/\sqrt{n}}}{\sqrt{s^2/\sigma^2}}
\end{align}
$$

ここで$\displaystyle U=\frac{(\bar{X}-\mu)}{\sigma/\sqrt{n}}, V=\frac{(n-1)s^2}{\sigma^2}$のように定義すると、$\displaystyle \frac{(\bar{X}-\mu)}{\sigma/\sqrt{n}}=U, \frac{s^2}{\sigma^2}=\frac{V}{n-1}$より、(3)式は下記のように変形できる。
$$
\large
\begin{align}
T &= \frac{\frac{(\bar{X}-\mu)}{\sigma/\sqrt{n}}}{\sqrt{s^2/\sigma^2}} \\
&= \frac{U}{\sqrt{\frac{V}{n-1}}} \quad (3)’
\end{align}
$$

ここで$t$分布の定義より、$(3)’$式は自由度$n-1$の$t$分布$t(n-1)$を表す。ここまでの議論で、$t$統計量が$t$分布に従うことが確認できた。

$F$分布

確率変数の$U$と$V$を互いに独立に定義し、$U \sim \chi^2(l)$と$V \sim \chi^2(m)$が成立するという前提をおき、下記のように$Y$を考える。
$$
\large
\begin{align}
Y = \frac{U/l}{V/m}
\end{align}
$$
上記のように定めた$F$の分布を自由度$(l,m)$の$F$分布$F(l,m)$と定義する。これに関連して、「$F$分布の確率密度関数の導出」を以下で取り扱う。

$F$分布の確率密度関数

$F$分布の確率密度関数の導出にあたって、下記のように$\tilde{Y}, Z$を定義する。
$$
\large
\begin{align}
\tilde{Y} &= \frac{U}{V} \\
Z &= \frac{\tilde{Y}}{1+\tilde{Y}} \\
&= \frac{U/V}{1+U/V} \\
&= \frac{U}{U+V}
\end{align}
$$

ここで$U \sim Ga(l/2,2), V \sim Ga(m/2,2)$であるので、$Z \sim Be(l/2,m/2)$が成立する。よって$Z$の確率密度関数を$f_1(z)$とおくと、$f_1(z)$は下記のように表すことができる。
$$
\large
\begin{align}
f_1(z) = \frac{1}{B(l/2,m/2)} z^{\frac{l}{2}-1} (1-z)^{\frac{m}{2}-1}
\end{align}
$$
上記に対して、$\displaystyle Z = \frac{\tilde{Y}}{1+\tilde{Y}}$に基づいて変数変換を行う。ヤコビアンの$J$は下記のように計算できる。
$$
\large
\begin{align}
J &= \frac{d z}{d \tilde{y}} \\
&= \frac{d}{d \tilde{y}} \frac{\tilde{y}}{1+\tilde{y}} \\
&= \frac{1}{(1+\tilde{y})^2}
\end{align}
$$

よって、$\tilde{Y}$の確率密度関数を$f_2(\tilde{y})$とおくと、$f_2(\tilde{y})$は下記のように表すことができる。
$$
\large
\begin{align}
f_2(\tilde{y}) &= f(z) \times J \\
&= f \left( \frac{\tilde{y}}{1+\tilde{y}} \right) \times J \\
&= \frac{1}{B(l/2,m/2)} \left( \frac{\tilde{y}}{1+\tilde{y}} \right)^{\frac{l}{2}-1} \left( 1-\frac{\tilde{y}}{1+\tilde{y}} \right)^{\frac{m}{2}-1} \times \frac{1}{(1+\tilde{y})^2} \\
&= \frac{1}{B(l/2,m/2)} \left( \frac{\tilde{y}}{1+\tilde{y}} \right)^{\frac{l}{2}-1} \left( \frac{1}{1+\tilde{y}} \right)^{\frac{m}{2}-1} \times \frac{1}{(1+\tilde{y})^2} \\
&= \frac{1}{B(l/2,m/2)} \frac{\tilde{y}^{\frac{l}{2}-1}}{(1+\tilde{y})^{\frac{l+m}{2}}}
\end{align}
$$

上記に対し$\displaystyle \tilde{Y} = \frac{lY}{m}$を用いて変数変換を行う。変数$y$の確率密度関数を$f_3(y)$とおくと、$f_3(y)$は下記のように導出することができる。
$$
\large
\begin{align}
f_3(y) &= f_2(\tilde{y}) \times \left| \frac{d \tilde{y}}{dy} \right| \\
&= f_2 \left( \frac{ly}{m} \right) \times \frac{l}{m} \\
&= \frac{1}{B(l/2,m/2)} \frac{\left( \frac{ly}{m} \right)^{\frac{l}{2}-1}}{\left( 1 + \frac{ly}{m} \right)^{\frac{l+m}{2}}} \times \frac{l}{m} \\
&= \frac{l^{\frac{l}{2}} m^{\frac{m}{2}}}{B(l/2,m/2)} \frac{y^{\frac{m}{2}-1}}{(1+ly)^{\frac{l+m}{2}}}
\end{align}
$$
上記が自由度$(l,m)$の$F$分布$F(l,m)$の確率密度関数である。

Helmert変換に使用される行列が直交行列であることを具体的に確認する

$A^{T}A=I$が成立する行列$A$は直交行列と定義されるが、多次元正規分布の理解を始め、様々なところで直交行列は出てくる。標本分散が$\chi^2$分布に従うことを示すにあたって用いられるHelmert変換にも直交行列が用いられる。
Helmert変換で用いられる行列は手順に沿って作成されるが、抽象的に手順だけを抑えるよりも具体的な行列で確認した方がわかりやすいと思われるため、当記事ではHelmert変換で用いられる行列について具体的に確認する。
作成にあたっては「現代数理統計学(学術図書出版社)」の4.3節の「正規分布のもとでの標本分布論」や章末問題の4.2を参考とした。

概要の把握

直交行列の定義

https://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist1.html#i-2
https://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist1.html#i-3
上記に詳しくまとめたが、$\mathbf{U}^{T}\mathbf{U}=\mathbf{U}\mathbf{U}^{T}=\mathbf{I}$が成立する行列$\mathbf{U}$を直交行列という。

名称の通り、直交するベクトルを正規化し、並べることで直交行列は作成することができる。

Helmert変換における行列

前項では直交行列の定義について確認を行ったが、当記事ではHelmert変換の際に用いる行列も直交行列であるということを具体的に確認する。当項ではHelmert変換の際に定義する行列について確認する。
Helmert変換に用いる行列を「現代数理統計学(学術図書出版社)」4.3節の「正規分布のもとでの標本分布論」の表記を参考に$n$次行列$\mathbf{G}$とおくことにする。このとき、$\mathbf{G}$は下記のように表すことができる。
$$
\large
\begin{align}
\mathbf{G} = \left( \begin{array}{cccccc} \frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} & … & \frac{1}{\sqrt{n}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} & 0 & 0 & … & 0 \\ \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{6}} & -\frac{2}{\sqrt{6}} & 0 & … & 0 \\ … & … & … & … & … & … \\ … & … & … & … & … & … \\ … & … & … & … & … & … \end{array} \right)
\end{align}
$$

上記では3行目までの記載を行ったが、以降の第$k$行は左から$k-1$個$1$が並び、その次の$k$列目が$-k+1$となるベクトルを作成し、それを$\sqrt{k(k-1)}$で割ることで正規化したベクトルで表される。説明ではわかりにくいので、詳しくは次節で取り扱う。

Helmert変換の行列を具体的に確認する

前節でまとめたHelmert変換を表す行列について、以下具体的に行列の次数ごとに確認を行う。

2次の行列

Helmert変換を表す2次の行列を$\mathbf{G}_2$とおくと、$\mathbf{G}_2$は下記のように表すことができる。
$$
\large
\begin{align}
\mathbf{G}_2 = \left( \begin{array}{cc} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \end{array} \right)
\end{align}
$$

以下、$\mathbf{G}_2$が直交行列であることを確認する。
$$
\large
\begin{align}
\mathbf{G}_2^{T}\mathbf{G}_2 &= \left( \begin{array}{cc} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \end{array} \right) \left( \begin{array}{cc} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \end{array} \right) \\
&= \left( \begin{array}{cc} \left(\frac{1}{\sqrt{2}}\right)^2+\left(\frac{1}{\sqrt{2}}\right)^2 & \left(\frac{1}{\sqrt{2}}\right)^2-\left(\frac{1}{\sqrt{2}}\right)^2 \\ \left(\frac{1}{\sqrt{2}}\right)^2-\left(\frac{1}{\sqrt{2}}\right)^2 & \left(\frac{1}{\sqrt{2}}\right)^2+\left(\frac{1}{\sqrt{2}}\right)^2 \end{array} \right) \\
&= \left( \begin{array}{cc} 1 & 0 \\ 0 & 1 \end{array} \right)
\end{align}
$$
上記より$\mathbf{G}_2$が直交行列であることが確認できる。$\mathbf{G}_2\mathbf{G}_2^{T}$も同様に単位行列となる。

3次の行列

Helmert変換を表す3次の行列を$\mathbf{G}_3$とおくと、$\mathbf{G}_3$は下記のように表すことができる。
$$
\large
\begin{align}
\mathbf{G}_3 = \left( \begin{array}{ccc} \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{3}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} & 0 \\ \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{6}} & -\frac{2}{\sqrt{6}} \end{array} \right)
\end{align}
$$

以下、$\mathbf{G}_3$が直交行列であることを確認する。
$$
\large
\begin{align}
\mathbf{G}_3^{T}\mathbf{G}_3 &= \left( \begin{array}{ccc} \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{6}} \\ \frac{1}{\sqrt{3}} & -\frac{1}{\sqrt{2}} & \frac{1}{\sqrt{6}} \\ \frac{1}{\sqrt{3}} & 0 & -\frac{2}{\sqrt{6}} \end{array} \right) \left( \begin{array}{ccc} \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{3}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} & 0 \\ \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{6}} & -\frac{2}{\sqrt{6}} \end{array} \right) \\
&= \left( \begin{array}{ccc} \frac{1}{3}+\frac{1}{2}+\frac{1}{6} & \frac{1}{3}-\frac{1}{2}+\frac{1}{6} & \frac{1}{\sqrt{3}}+0-\frac{2}{6} \\ \frac{1}{3}-\frac{1}{2}+\frac{1}{6} & \frac{1}{3}+\frac{1}{2}+\frac{1}{6} & \frac{1}{3}+0-\frac{2}{6} \\ \frac{1}{3}+0-\frac{2}{6} & \frac{1}{3}+0-\frac{2}{6} & \frac{1}{3}+0+\frac{4}{6} \end{array} \right) \\
&= \left( \begin{array}{cc} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right)
\end{align}
$$
上記より$\mathbf{G}_3$が直交行列であることが確認できる。また、$\mathbf{G}_3\mathbf{G}_3^{T}$も同様に3次の単位行列となる。

n次の行列

Helmert変換を表す$n$次の行列を$\mathbf{G}_n$とするとき、$i$行目$j$行目をそれぞれ$\mathbf{g}_i, \mathbf{g}_j$とする。このとき、下記が成立すれば$\mathbf{G}_n$は直交行列であると考えることができる。
$$
\large
\begin{align}
\mathbf{g}_i \cdot \mathbf{g}_j = 1 \quad (i=j) \\
\mathbf{g}_i \cdot \mathbf{g}_j = 0 \quad (i \neq j)
\end{align}
$$

まず$\mathbf{g}_i \cdot \mathbf{g}_j = 1 \quad (i=j)$について確認する。
$$
\large
\begin{align} \mathbf{g}_1 \cdot \mathbf{g}_1 &= \frac{1}{\sqrt{n}}\left( \begin{array}{c} 1 \\ 1 \\ 1 \\ … \\ 1 \end{array} \right) \cdot \frac{1}{\sqrt{n}}\left( \begin{array}{c} 1 \\ 1 \\ 1 \\ … \\ 1 \end{array} \right) \\
&= \frac{1}{n} \sum_{i=1}^{n} 1 \\
&= \frac{1}{n} = 1 \\
\mathbf{g}_2 \cdot \mathbf{g}_2 &= \frac{1}{\sqrt{2}}\left( \begin{array}{c} 1 \\ -1 \\ 0 \\ … \\ 0 \end{array} \right) \cdot \frac{1}{\sqrt{2}}\left( \begin{array}{c} 1 \\ -1 \\ 0 \\ … \\ 0 \end{array} \right) \\
&= \frac{1}{2} (1+1) \\
&= 1
\end{align}
$$
$i=j=1, i=j=2$では上記のように計算できる。

同様に$i=j=k$行目を考えると下記のようになる。
$$
\large
\begin{align}
\mathbf{g}_k \cdot \mathbf{g}_k &= \frac{1}{\sqrt{k(k-1)}} \left( \begin{array}{c} 1 \\ … \\ 1 \\ -k+1 \\ 0 \\ … \\ 0 \end{array} \right) \cdot \frac{1}{\sqrt{k(k-1)}} \left( \begin{array}{c} 1 \\ … \\ 1 \\ -k+1 \\ 0 \\ … \\ 0 \end{array} \right) \\
&= \frac{1}{k(k-1)} ( (k-1)+(-k+1)^2 ) \\
&= \frac{1}{k(k-1)} ( (k-1)+(k-1)(k-1) ) \\
&= \frac{1}{k(k-1)} ( (k-1)(1+k-1) ) \\
&= \frac{k(k-1)}{k(k-1)} = 1
\end{align}
$$

次に$\mathbf{g}_i \cdot \mathbf{g}_j = 0 \quad (i \neq j)$について確認する。
$$
\large
\begin{align}
\mathbf{g}_1 \cdot \mathbf{g}_2 &= \frac{1}{\sqrt{n}}\left( \begin{array}{c} 1 \\ 1 \\ 1 \\ … \\ 1 \end{array} \right) \cdot \frac{1}{\sqrt{2}}\left( \begin{array}{c} 1 \\ -1 \\ 0 \\ … \\ 0 \end{array} \right) \\
&= \frac{1}{\sqrt{2n}} (1 \cdot 1 + 1 \cdot (-1)) \\
&= 0
\end{align}
$$
$i=1, j=2$では上記のように計算できる。

同様に$i=1, 2$に対して$j=k$の場合を考えると下記のようになる。
$$
\large
\begin{align}
\mathbf{g}_1 \cdot \mathbf{g}_k &= \frac{1}{\sqrt{n}}\left( \begin{array}{c} 1 \\ … \\ 1 \\ 1 \\ 1 \\ … \\ 1 \end{array} \right) \cdot \frac{1}{\sqrt{k(k-1)}}\left( \begin{array}{c} 1 \\ … \\ 1 \\ -k+1 \\ 0 \\ … \\ 0 \end{array} \right) \\
&= \frac{1}{\sqrt{nk(k-1)}} ( (k-1)+(-k+1) ) \\
&= 0 \\
\mathbf{g}_2 \cdot \mathbf{g}_k &= \frac{1}{\sqrt{2}}\left( \begin{array}{c} 1 \\ … \\ -1 \\ 0 \\ 0 \\ … \\ 0 \end{array} \right) \cdot \frac{1}{\sqrt{k(k-1)}}\left( \begin{array}{c} 1 \\ … \\ 1 \\ -k+1 \\ 0 \\ … \\ 0 \end{array} \right) \\
&= \frac{1}{\sqrt{2k(k-1)}} ( 1 \cdot 1 + 1 \cdot (-1) ) \\
&= 0
\end{align}
$$
$i \neq j$の場合は、上記の$i=2, j=k$の例で確認したように$ij$ならば$j$のベクトルの要素が0でない項の和が0かつ、もう片方のベクトルの対応する要素は全て同じ値であることから、内積0が計算される。

ここまでの議論により、$\mathbf{G}_n$は直交行列であるということを示すことができる。

ベータ分布(Beta distribution)の定義と期待値・分散の計算

ベータ分布(Beta distribution)は$F$分布などを考える際にも出てくる分布である。当記事ではベータ分布の基準化定数に関連するベータ関数がガンマ関数で表されることについて確認したのちに、ベータ分布の平均$E[X]$と分散$V[X]$について計算する。
作成にあたっては「現代数理統計学(学術図書出版社)」の2.4節の「主な1次元分布」や3.2節の「変数の変換とヤコビアン」を参考に、省略されている計算については追記を行った。

ベータ分布の定義とその理解

ベータ分布の定義

ベータ分布(Beta distribution)は$0 < x < 1$の連続分布である。$a>0,b>0$となる$a,b$をパラメータとするベータ分布の確率密度関数$f(x|a,b)$は下記のように定義される。
$$
\large
\begin{align}
f(x|a,b) = cx^{a-1}(1-x)^{b-1} \quad (0 < x < 1)
\end{align}
$$
ベータ分布は上記の確率密度関数を持ち、$Be(a,b)$のように表される。

基準化定数とベータ関数

ベータ分布の確率密度関数における基準化定数$c$の逆数はベータ関数と呼ばれ、下記のように表される。
$$
\large
\begin{align}
B(a,b) = \frac{1}{c} = \int_{0}^{1} x^{a-1}(1-x)^{b-1} dx
\end{align}
$$

ベータ関数とガンマ関数

ベータ関数とガンマ関数には下記のような式が成立する。
$$
\large
\begin{align}
B(a,b) = \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}
\end{align}
$$
以下では上記が成立することを確認する。

$X \sim Ga(a,1), Y \sim Ga(b,1)$かつ$X,Y$はそれぞれ独立であるとする。確率変数$X,Y$に対応するガンマ分布の確率密度関数$f(x|\nu=a),f(y|\nu=b)$は下記のように表すことができる。
$$
\large
\begin{align}
f(x|\nu=a) &= \frac{1}{\Gamma(a)} x^{a-1} e^{-x} \quad (x>0) \\
f(y|\nu=b) &= \frac{1}{\Gamma(b)} y^{b-1} e^{-y} \quad (y>0)
\end{align}
$$

ここで下記のような変換を考える。
$$
\large
\begin{align}
U &= \frac{X}{X+Y} \\
V &= X+Y
\end{align}
$$
この時、逆変換は連立方程式を$X,Y$に対して解くことで求めることができ、下記のようになる。
$$
\large
\begin{align}
X &= UV \\
Y &= V(1-U)
\end{align}
$$

変換前と変換後の確率密度関数をそれぞれ$f(x,y), g(u,v)$とすると、$f(x,y), g(u,v)$は下記のように求められる。
$$
\large
\begin{align}
f(x,y) &= f(x)f(y) \\
&= \frac{1}{\Gamma(a)} x^{a-1} e^{-x} \times \frac{1}{\Gamma(b)} y^{b-1} e^{-y} \\
g(u,v) &= f(uv,v(1-u)) \left| \begin{array}{cc} \frac{\partial x}{\partial u} & \frac{\partial x}{\partial v} \\ \frac{\partial x}{\partial u} & \frac{\partial y}{\partial v} \end{array} \right| \\
&= f(uv,v(1-u)) \left| \begin{array}{cc} v & u \\ -v & (1-u) \end{array} \right| \\
&= f(uv,v(1-u)) v \\
&= \frac{1}{\Gamma(a)} (uv)^{a-1} e^{-uv} \times \frac{1}{\Gamma(b)} (v(1-u))^{b-1} e^{-v(1-u)} v \\
&= \frac{1}{\Gamma(a)\Gamma(b)} v^{(a-1)+(b-1)+1} e^{-uv-v(1-u)} \times u^{a-1}(1-u)^{b-1} \\
&= \frac{1}{\Gamma(a)\Gamma(b)} v^{a+b-1} e^{-v} \times u^{a-1}(1-u)^{b-1} \quad (v>0, 0<u<1)
\end{align}
$$
上記に対して定数を無視して考えると、上記はガンマ分布の確率密度関数とベータ分布の確率密度関数の積の形で表されていることがわかる。関数のパラメータより、それぞれ$U \sim Be(a,b), V \sim Ga(a+b,1)$であることがわかる。これに合わせて$g(u,v)$の基準化定数を調整する。

$$
\large
\begin{align}
g(u,v) &= \frac{1}{\Gamma(a)\Gamma(b)} v^{a+b-1} e^{-v} \times u^{a-1}(1-u)^{b-1} \\
&= \frac{1}{\Gamma(a+b)} v^{a+b-1} e^{-v} \times \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} u^{a-1}(1-u)^{b-1}
\end{align}
$$
上記において、ベータ分布の確率密度関数の基準化定数$c$の逆数が$B(a,b)$であることより、$B(a,b)$は下記のようになる。
$$
\large
\begin{align}
\frac{1}{B(a,b)} &= c = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \\
B(a,b) &= \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}
\end{align}
$$

ここで導出したベータ関数とガンマ関数の式を用いて、次節ではベータ分布の期待値・分散の導出を行う。

ベータ分布の期待値・分散の計算

ベータ分布の期待値$E[X]$の計算

ベータ分布の定義より、ベータ分布の確率密度関数$f(x|a,b)$は下記のように表すことができる。
$$
\large
\begin{align}
f(x|a,b) = \frac{1}{B(a,b)} x^{a-1}(1-x)^{b-1} \quad (0 < x < 1)
\end{align}
$$

この時、$\displaystyle E[X] = \int_{0}^{1} xf(x|a,b) dx$より、$E[X]$は下記のように計算できる。
$$
\large
\begin{align}
E[X] &= \int_{0}^{1} xf(x|a,b) dx \\
&= \int_{0}^{1} x \frac{1}{B(a,b)} x^{a-1}(1-x)^{b-1} dx \\
&= \frac{1}{B(a,b)} \int_{0}^{1} x^{a}(1-x)^{b-1} dx \\
&= \frac{B(a+1,b)}{B(a,b)} \\
&= \frac{\Gamma(a+1)\Gamma(b)}{\Gamma(a+b+1)} \times \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \\
&= \frac{a\Gamma(a)\Gamma(b)}{(a+b)\Gamma(a+b)} \times \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \\
&= \frac{a}{a+b}
\end{align}
$$

ベータ分布の分散$V[X]$の計算

$V[X]=E[X^2]-E[X]^2$を活用する。$\displaystyle E[X^2] = \int_{0}^{1} x^2f(x|a,b) dx$は下記のように計算できる。
$$
\large
\begin{align}
E[X^2] &= \int_{0}^{1} x^2f(x|a,b) dx \\
&= \int_{0}^{1} x^2 \frac{1}{B(a,b)} x^{a-1}(1-x)^{b-1} dx \\
&= \frac{1}{B(a,b)} \int_{0}^{1} x^{a+1}(1-x)^{b-1} dx \\
&= \frac{B(a+2,b)}{B(a,b)} \\
&= \frac{\Gamma(a+2)\Gamma(b)}{\Gamma(a+b+2)} \times \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \\
&= \frac{a(a+1)\Gamma(a)\Gamma(b)}{(a+b)(a+b+1)\Gamma(a+b)} \times \frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} \\
&= \frac{a(a+1)}{(a+b)(a+b+1)}
\end{align}
$$

よって、$V[X]=E[X^2]-E[X]^2$は下記のように計算できる。
$$
\large
\begin{align}
V[X] &= E[X^2]-E[X]^2 \\
&= \frac{a(a+1)}{(a+b)(a+b+1)} – \left( \frac{a}{a+b} \right)^2 \\
&= \frac{a(a+1)}{(a+b)(a+b+1)} – \frac{a^2}{(a+b)^2} \\
&= \frac{a(a+1)(a+b)}{(a+b)^2(a+b+1)} – \frac{a^2(a+b+1)}{(a+b)^2(a+b+1)} \\
&= \frac{a(a+1)(a+b)-a^2(a+b+1)}{(a+b)^2(a+b+1)} \\
&= \frac{ab}{(a+b)^2(a+b+1)}
\end{align}
$$

ガンマ分布(Gamma distribution)のモーメント母関数の導出と期待値・分散の計算

ガンマ分布(Gamma distribution)は$\chi^2$分布などを考える際にも出てくる分布であり、推測統計の数理的な理解を行う上では重要となるトピックである。当記事ではガンマ分布のモーメント母関数の導出を行い、計算したモーメント母関数に基づいてガンマ分布の期待値と分散の計算を行う。
作成にあたっては「現代数理統計学(学術図書出版社)」の2.4節の「主な1次元分布」を参考に、省略されている計算については追記を行った。

ガンマ関数とガンマ分布

ガンマ関数

正の実数$a$に対応するガンマ関数を$\Gamma(a)$とすると、$\Gamma(a)$は下記のように定義される。
$$
\large
\begin{align}
\Gamma(a) = \int_{0}^{\infty} x^{a-1} e^{-x} dx
\end{align}
$$
上記で表すガンマ関数は階乗の一般化と考えることができる。このことについて以下確認する。

まずは$\Gamma(1)=1=1!$が成立することを確認する。
$$
\large
\begin{align}
\Gamma(1) &= \int_{0}^{\infty} x^{1-1} e^{-x} dx \\
&= \int_{0}^{\infty} e^{-x} dx \\
&= \left[ -e^{-x} \right]_{0}^{\infty} \\
&= -(0-1) \\
&= 1 = 1!
\end{align}
$$

次に漸化式$\Gamma(a+1)=a \Gamma(a)$が成立することを確認する。
$$
\large
\begin{align}
\Gamma(a+1) &= \int_{0}^{\infty} x^{a+1-1} e^{-x} dx \\
&= \int_{0}^{\infty} x^{a} e^{-x} dx \\
&= \left[ – x^{a} e^{-x} \right]_{0}^{\infty} + \int_{0}^{\infty} a x^{a-1} e^{-x} dx \\
&= 0 + a \int_{0}^{\infty} x^{a-1} e^{-x} dx \\
&= a \Gamma(a)
\end{align}
$$

$\Gamma(0+1)=1=1!, \Gamma(a+1)=a \Gamma(a)$より、$\Gamma(a+1)=a!$が成立することは以下のように確認できる。
$$
\large
\begin{align}
\Gamma(a+1) &= a \Gamma(a) \\
&= a (a-1) \Gamma(a-1) \\
&= … \\
&= a \cdot (a-1) \cdot …2 \cdot 1 \cdot \Gamma(1) \\
&= a!
\end{align}
$$

ここまでの議論により、ガンマ関数は階乗を一般化したものであるということを確認することができた。

ガンマ分布

ガンマ分布は前項で確認したガンマ関数を用いて定義される分布であり、ガンマ分布の確率密度関数の$f(x)$は下記のように定義される。
$$
\large
\begin{align}
f(x) = \frac{1}{\Gamma(\nu)} x^{\nu-1} e^{-x} \quad (x>0)
\end{align}
$$
確率密度関数における変数が定義域が$0<x$の$x$であることは注意しておきたい。また、ここで$\nu$はパラメータであるので、確率密度関数は$f(x|\nu)$のように表記するとわかりやすいと思われる。

さて、ここで変数の$x$に対し、$y = \alpha x$で表される$y$を導入し、変数変換を行うことを考える。この時、$y$に関する密度関数$f(y|\nu, \alpha)$は下記のように表すことができる。
$$
\large
\begin{align}
f(y|\nu, \alpha) &= f \left( \frac{y}{\alpha} \middle| \nu \right) \cdot \frac{dx}{dy} \\
&= \frac{1}{\Gamma(\nu)} \left( \frac{y}{\alpha} \right)^{\nu-1} e^{-x} \frac{1}{\alpha} \\
&= \frac{1}{\alpha^{\nu} \Gamma(\nu)} y^{\nu-1} e^{-x} \quad (y>0, \alpha>0)
\end{align}
$$
上記が形状母数$\nu$、尺度母数$\alpha$のガンマ分布$Ga(\nu,\alpha)$を表すと考える。

モーメント母関数の導出と期待値・分散の計算

モーメント母関数の導出

確率変数$Y = \alpha X$に対応するガンマ分布のモーメント母関数を$m_Y(t)$と定義する。この時、$m_Y(t)$は下記のように表される。
$$
\large
\begin{align}
m_Y(t) = E[e^{tY}] = E[e^{t \alpha X}]
\end{align}
$$
ここで$a=t \alpha$とおき、計算を行う。
$$
\large
\begin{align}
m_Y(t) &= E[e^{t \alpha X}] = E[e^{aX}] \\
&= \int_{0}^{\infty} e^{ax} f(\alpha x|\nu) dx \\
&= \int_{0}^{\infty} e^{ax} \times \frac{1}{\Gamma(\nu)} x^{\nu-1} e^{-x} dx \\
&= \frac{1}{\Gamma(\nu)} \int_{0}^{\infty} x^{\nu-1} e^{-x}e^{ax} dx \\
&= \frac{1}{\Gamma(\nu)} \int_{0}^{\infty} x^{\nu-1} e^{-x+ax} dx \\
&= \frac{1}{\Gamma(\nu)} \int_{0}^{\infty} x^{\nu-1} e^{-x(1-a)} dx
\end{align}
$$

上記において、$u=x(1-a)$と変数変換することを考える。$\displaystyle x=\frac{u}{1-a}, \frac{dx}{du} = \frac{1}{1-a}$より、$m_Y(t)$は下記のように変形できる。
$$
\large
\begin{align}
m_Y(t) &= \frac{1}{\Gamma(\nu)} \int_{0}^{\infty} x^{\nu-1} e^{-x(1-a)} dx \\
&= \frac{1}{\Gamma(\nu)} \int_{0}^{\infty} \left( \frac{u}{1-a} \right)^{\nu-1} e^{-u} \frac{dx}{du} du \\
&= \frac{1}{\Gamma(\nu)} \int_{0}^{\infty} \left( \frac{u}{1-a} \right)^{\nu-1} e^{-u} \frac{1}{1-a} du \\
&= \frac{(1-a)^{-\nu}}{\Gamma(\nu)} \int_{0}^{\infty} u^{\nu-1} e^{-u} du \\
&= \frac{(1-a)^{-\nu}}{\Gamma(\nu)} \Gamma(\nu) \\
&= (1-a)^{-\nu} \\
&= (1-t \alpha)^{-\nu}
\end{align}
$$

期待値$E[Y]$の計算

期待値は前項で計算したモーメント母関数を用いて$m_Y'(t=0)$を計算することで導出できる。
$$
\large
\begin{align}
m_Y(t) = (1-t \alpha)^{-\nu}
\end{align}
$$
上記に対して$m_Y'(t)$を計算すると下記のようになる。
$$
\large
\begin{align}
m_Y'(t) &= – \nu(1 – t \alpha)^{-\nu-1} \cdot (- \alpha) \\
&= \nu \alpha (1 – t \alpha)^{-\nu-1}
\end{align}
$$

よって、$E[Y]=m_Y'(t=0)$は下記のように導出できる。
$$
\large
\begin{align}
E[Y] &= m_Y'(0) \\
&= \nu \alpha (1 – 0 \cdot \alpha)^{-\nu-1} \\
&= \nu \alpha \cdot 1^{-\nu-1} \\
&= \nu \alpha
\end{align}
$$

分散$V[Y]$の計算

分散は期待値と同様にモーメント母関数を用いて$m_Y^{”}(t=0)$を計算することで導出できる。
$$
\large
\begin{align}
m_Y(t) &= (1-t \alpha)^{-\nu} \\
m_Y'(t) &= \nu \alpha (1 – t \alpha)^{-\nu-1}
\end{align}
$$
上記に対して$m_Y^{”}(t)$を計算すると下記のようになる。
$$
\large
\begin{align}
m_Y^{”}(t) &= – \nu(\nu+1) \alpha (1 – t \alpha)^{-\nu-2} (-\alpha) \\
&= \nu(\nu+1) \alpha^2 (1 – t \alpha)^{-\nu-2}
\end{align}
$$

よって、$V[Y]=m_Y^{”}(t=0)-(m_Y'(t=0))^2$は下記のように導出できる。
$$
\large
\begin{align}
V[Y] &= m_Y^{”}(t=0)-(m_Y'(t=0))^2 \\
&= \nu(\nu+1) \alpha^2 (1 – 0 \cdot \alpha)^{-\nu-2} – (\nu \alpha)^2 \\
&= \nu(\nu+1) \alpha^2 – (\nu \alpha)^2 \\
&= \nu^2 \alpha^2 + \nu \alpha^2 – \nu^2 \alpha^2 \\
&= \nu \alpha^2
\end{align}
$$

ガンマ分布のたたみこみ

下記の議論により、$Ga(\nu_1, \alpha)*Ga(\nu_2, \alpha) = Ga(\nu_1+\nu_2, \alpha)$のようなガンマ分布に関するたたみこみを示すことができる。
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch3.html#38

ガウス積分(Gaussian integral)の導出と標準正規分布の規格化

正規分布の規格化など、様々なところでガウス積分(Gaussian integral)は利用される。一方で、書籍などでは導出が省略されることも多いので、当記事ではガウス積分の導出について取り扱う。
また、ガウス積分の活用例の確認にあたって、標準正規分布の規格化についても取り扱う。

ガウス積分の導出

概要

Wikipediaの記載を参考にする。
https://ja.wikipedia.org/wiki/ガウス積分
ガウス積分は関数$e^{-x^2}$を実数全体で積分した際に$\sqrt{\pi}$に一致することを表し、これは数学者のガウスに由来する。ガウス積分を数式で表現すると下記のようになる。
$$
\large
\begin{align}
\int_{-\infty}^{\infty} e^{-x^2} dx = \sqrt{\pi}
\end{align}
$$

導出の方針

$$
\large
\begin{align}
I &= \int_{-\infty}^{\infty} e^{-x^2} dx \\
I^2 &= \left(\int_{-\infty}^{\infty} e^{-x^2} dx\right)^2 \\
&= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e^{-x^2} e^{-y^2} dx dy \\
&= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e^{-(x^2+y^2)} dx dy
\end{align}
$$
上記のように積分値$I$とその二乗$I^2$を定義し、$I^2$について計算することを考える。

ここで$(x,y)$を$(r,\theta)$で表すことを考える。それぞれの変数の関係式は下記のようになる。
$$
\large
\begin{align}
x &= r \cos{\theta} \\
y &= r \sin{\theta}
\end{align}
$$
また、$-\infty<x<\infty, \infty<y<\infty$に対応する$r, \theta$はそれぞれ$0 \leq r < \infty, 0 \leq \theta \leq 2 \pi$である。
この関係式に基づいて、$I^2$を求めることを考える。

置換積分

$$
\large
\begin{align}
x &= r \cos{\theta} \\
y &= r \sin{\theta}
\end{align}
$$
上記に基づいて$I^2$に対し置換積分を行うことを考える。$f(x,y)=e^{-(x^2+y^2)}$を$g(r,\theta)$のように変換したと考えると、下記が成立する。
$$
\large
\begin{align}
I^2 &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x,y) dx dy \\
&= \int_{0}^{2 \pi} \int_{0}^{\infty} g(r,\theta) dr d \theta
\end{align}
$$
ここで$g(r,\theta)$は下記のように表すことができる。
$$
\large
\begin{align}
g(r,\theta) &= f(x,y)\left| \begin{array}{cc} \frac{\partial x}{\partial r} & \frac{\partial y}{\partial r} \\ \frac{\partial y}{\partial \theta} & \frac{\partial y}{\partial \theta} \end{array} \right| \\
&= f(x,y)\left| \begin{array}{cc} \cos{\theta} & \sin{\theta} \\ -r\sin{\theta} & r\cos{\theta} \end{array} \right| \\
&= (r \cos^2{\theta} – (-r \sin^2{\theta})f(x,y) \\
&= r f(r \cos{\theta}, r \sin{\theta})
\end{align}
$$

よって、$I^2$は下記のように計算できる。
$$
\large
\begin{align}
I^2 &= \int_{0}^{2 \pi} \int_{0}^{\infty} g(r,\theta) dr d \theta \\
&= \int_{0}^{2 \pi} \int_{0}^{\infty} r f(r \cos{\theta}, r \sin{\theta}) dr d \theta \\
&= \int_{0}^{2 \pi} \int_{0}^{\infty} r e^{-(r^2 \cos{\theta} + r^2\sin^2{\theta})} dr d \theta \\
&= \int_{0}^{2 \pi} \int_{0}^{\infty} r e^{-r^2} dr d \theta \\
&= 2 \pi \int_{0}^{\infty} r e^{-r^2} dr \\
&= 2 \pi \left[ -\frac{1}{2}e^{-r^2} \right]_{0}^{\infty} \\
&= 2 \pi \times \frac{1}{2} \\
&= \pi
\end{align}
$$
上記より、下記が成立する。
$$
\large
\begin{align}
I = \int_{-\infty}^{\infty} e^{-x^2} dx = \sqrt{\pi}
\end{align}
$$

標準正規分布の規格化

標準正規分布$\mathcal{N}(0,1)$の確率密度関数$f(x)$を定数$C$を用いて下記のように表すことができると考える。
$$
\large
\begin{align}
f(x) = C e^{-\frac{x^2}{2}}
\end{align}
$$
この時確率密度関数の定義より、下記が成立する。
$$
\large
\begin{align}
\int_{-\infty}^{\infty} f(x) dx = 1
\end{align}
$$

「ガウス積分の導出」で取り扱ったのと同様に$x,y,r,\theta,I,I^2$を考えると、$I^2$は下記のように表すことができる。
$$
\large
\begin{align}
I^2 &= 2 \pi C^2 \int_{0}^{\infty} r e^{-\frac{r^2}{2}} dr \\
&= 2 \pi C^2 \left[ -e^{-\frac{r^2}{2}} \right]_{0}^{\infty} \\
&= 2 \pi C^2
\end{align}
$$
上記において$I^2=1$より、$2 \pi C^2=1$となる。よって、規格化定数の$C$は下記のようになる。
$$
\large
\begin{align}
2 \pi C^2 &= 1 \\
C^2 &= \frac{1}{2 \pi} \\
C &= \frac{1}{\sqrt{2 \pi}}
\end{align}
$$

平行四辺形の面積の計算とヤコビ行列式・多次元の確率変数の変換

下記では1次元の確率変数の変換を対数正規分布の導出を例に確認を行った。
https://www.hello-statisticians.com/explain-terms-cat/log_normal_dist1.html
当記事では「多次元の確率変数の変換」を取り扱うにあたって、1次元の確率変数の変換の内容に基づきながら確認を行う。途中で平行四辺形の面積の計算も出てくるので、行列式と面積の計算について詳しく確認した上で詳細の確認を行う構成でまとめることにした。
作成にあたっては「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の第7章の「付節:数学的証明、多次元の確率変数の変換」を参考にした。なお、$dx, dy$などの記号の用い方にあたっては厳密さよりも直感的な理解を重視しているので、厳密に考えた際に間違いが含まれる場合がある。

行列式を用いた平行四辺形の面積の公式と証明

行列式と平行四辺形の面積の公式

4点が$(0, 0), (a_1, a_2), (b_1, b_2), (a_1+b_1, a_2+b_2)$で与えられる平行四辺形の面積を計算することを考える。$\displaystyle \mathbf{a}=\left(\begin{array}{cc} a_1 \\ a_2 \end{array}\right), \mathbf{b}=\left(\begin{array}{cc} b_1 \\ b_2 \end{array}\right)$のように表し、$\mathbf{a}, \mathbf{b}$が$x$軸となす角をそれぞれ$\alpha, \beta$とし、$\displaystyle 0 < \alpha < \beta < \frac{\pi}{2}$が成立すると考える。

このとき、4点で表され平行四辺形の面積$S$は下記のように行列式を用いて表すことができる。
$$
\large
\begin{align}
S &= a_1b_2 – a_2b_1 \\
&= \left| \begin{array}{cc} a_1 & a_2 \\ b_1 & b_2 \end{array} \right|
\end{align}
$$

証明① 内積の式$\mathbf{a} \cdot \mathbf{b} = |\mathbf{a}||\mathbf{b}|\cos{\theta}$の活用

平行四辺形の面積$S$が下記のように表せることから導出を行う。
$$
\large
\begin{align}
S &= |\mathbf{a}||\mathbf{b}|\sin{\theta} \\
\theta &= \beta-\alpha
\end{align}
$$
上記の式は平行四辺形の公式の「底辺×高さ」に基づいているが、$\theta$は$\mathbf{a}$と$\mathbf{b}$のなす角を表すにあたって、$\theta = \beta-\alpha$によって定義した。

$$
\large
\begin{align}
\sin^2{\theta} &= 1-\cos^2{\theta} \\
\mathbf{a} \cdot \mathbf{b} &= |\mathbf{a}||\mathbf{b}|\cos{\theta}
\end{align}
$$
以下では上記の式に基づいて$S=|\mathbf{a}||\mathbf{b}|\sin{\theta}$を計算する。
$$
\large
\begin{align}
S &= |\mathbf{a}||\mathbf{b}|\sin{\theta} \\
&= |\mathbf{a}||\mathbf{b}|\sqrt{1-\cos^2{\theta}} \\
&= |\mathbf{a}||\mathbf{b}|\sqrt{1-\frac{(\mathbf{a} \cdot \mathbf{b})^2}{(|\mathbf{a}||\mathbf{b}|)^2}} \\
&= \sqrt{(|\mathbf{a}||\mathbf{b}|)^2-(\mathbf{a} \cdot \mathbf{b})^2} \quad (1)
\end{align}
$$

上記において、$\displaystyle \mathbf{a}=\left(\begin{array}{cc} a_1 \\ a_2 \end{array}\right), \mathbf{b}=\left(\begin{array}{cc} b_1 \\ b_2 \end{array}\right)$より下記が成立する。
$$
\large
\begin{align}
|\mathbf{a}| &= a_1^2+a_2^2 \\
|\mathbf{b}| &= b_1^2+b_2^2 \\
(\mathbf{a} \cdot \mathbf{b})^2 &= (a_1b_1+a_2b_2)^2
\end{align}
$$
上記を$(1)$式に代入する。
$$
\large
\begin{align}
S &= \sqrt{(|\mathbf{a}||\mathbf{b}|)^2-(\mathbf{a} \cdot \mathbf{b})^2} \quad (1) \\
&= \sqrt{(a_1^2+a_2^2)(b_1^2+b_2^2) – (a_1b_1+a_2b_2)^2} \\
&= \sqrt{a_1^2b_1^2 + a_1^2b_2^2 + a_2^2b_1^2 + a_2^2b_2^2 – (a_1^2b_1^2 + a_2^2b_2^2 – 2a_1a_2b_1b_2)} \\
&= \sqrt{a_1^2b_2^2 + a_2^2b_1^2 – 2a_1a_2b_1b_2} \\
&= \sqrt{(a_1b_2-a_2b_1)^2} \\
&= a_1b_2-a_2b_1 \\
&= \left| \begin{array}{cc} a_1 & a_2 \\ b_1 & b_2 \end{array} \right|
\end{align}
$$

証明② 加法定理$\sin{(\beta-\alpha)} = \sin{\beta}\cos{\alpha}-\cos{\beta}\sin{\alpha}$の活用

平行四辺形の面積$S$が下記のように表せることから導出を行う。
$$
\large
\begin{align}
S = |\mathbf{a}||\mathbf{b}|\sin{(\beta-\alpha)}
\end{align}
$$
上記における$\sin{(\beta-\alpha)}$に加法定理を用いることで、$S$は下記のように変形できる。
$$
\large
\begin{align}
S &= |\mathbf{a}||\mathbf{b}|\sin{(\beta-\alpha)} \\
&= |\mathbf{a}||\mathbf{b}|(\sin{\beta}\cos{\alpha}-\cos{\beta}\sin{\alpha}) \\
&= |\mathbf{a}|\cos{\alpha}|\mathbf{b}|\sin{\beta}-|\mathbf{a}|\sin{\alpha}|\mathbf{b}|\cos{\beta} \\
&= a_1b_2 – a_2b_1 \\
&= \left| \begin{array}{cc} a_1 & a_2 \\ b_1 & b_2 \end{array} \right|
\end{align}
$$

加法定理の導出に関しては下記がわかりやすいのでこちらも抑えておくと良い。
https://www.hello-statisticians.com/explain-terms-cat/trigonometric_function1.html

多次元の確率変数の変換

変換の公式

$x,y$に関する確率密度関数をそれぞれ$f(x), g(y)$、$x,y$の関係式を$y=\phi(x), x=\phi^{-1}(y)$のように表されるとき、「1次元の確率変数の変換」の式は下記を用いて導出することができる。
$$
\large
\begin{align}
g(y) &= f(\phi^{-1}(y)) \left| \frac{d \phi^{-1}(y)}{d y} \right|
\end{align}
$$

以下、2次元の確率変数の変換について具体的に取り扱う。$(x_1,x_2)$が下記のような変換によって$(y_1,y_2)$に移ったと考える。
$$
\large
\begin{align}
y_1 &= \phi_1(x_1,x_2) \\
y_2 &= \phi_2(x_1,x_2)
\end{align}
$$

この時、確率密度関数$f(x_1,x_2)$と$g(y_1,y_2)$の関係は下記のように表せる。
$$
\large
\begin{align}
g(y_1,y_2) &= f(\phi_1^{-1}(y_1,y_2), \phi_2^{-1}(y_1,y_2)) \frac{d S’}{d S} \quad (2)
\end{align}
$$
上記において$\displaystyle \frac{d S’}{d S}$は$\phi_1^{-1}, \phi_2^{-1}$による面積の伸縮率であるが、これは変動関数の関数で表される。これより式$(2)$は下記のように表すことができる。
$$
\large
\begin{align}
g(y_1,y_2) = f(\phi_1^{-1}(y_1,y_2), \phi_2^{-1}(y_1,y_2)) \left| \begin{array}{cc} \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_1} & \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_2} \\ \frac{\partial \phi_2^{-1}(y_1,y_2)}{\partial y_1} & \frac{\partial \phi_2^{-1}(y_1,y_2)}{\partial y_2} \end{array} \right|
\end{align}
$$
上記の行列式をヤコビ行列式という。ヤコビ行列の解釈については次項で取り扱う。

ヤコビ行列式の解釈

ここでは前項で導入されたヤコビ行列の解釈について確認する。

ヤコビ行列は$J$で表されることが多いので、ここでは$J$とおくと、$J$は下記のように表される。
$$
\large
\begin{align}
J = \left( \begin{array}{cc} \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_1} & \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_2} \\ \frac{\partial \phi_2^{-1}(y_1,y_2)}{\partial y_1} & \frac{\partial \phi_2^{-1}(y_1,y_2)}{\partial y_2} \end{array} \right)
\end{align}
$$
以下では、上記が前項で出てきた面積の伸縮率$\displaystyle \frac{d S’}{d S}$に対応することを確認する。

$dS$は$y$空間の4点の$(y_1,y_2), (y_1+d y_1,y_2), (y_1,y_2+d y_2), (y_1+d y_1,y_2+d y_2)$を頂点とする微小長方形の面積である。一方で$dS’$は$\phi_1^{-1}, \phi_2^{-1}$により$y$空間から$x$空間に変換された4点の$(\phi_1^{-1}(y_1,y_2),\phi_2^{-1}(y_1,y_2)), (\phi_1^{-1}(y_1,y_2)+a_{11}dy_1,\phi_2^{-1}(y_1,y_2)+a_{21}dy_1),$ $(\phi_1^{-1}(y_1,y_2)+a_{12}dy_2,\phi_2^{-1}(y_1,y_2)+a_{22}dy_2), (\phi_1^{-1}(y_1,y_2)+a_{11}dy_1+a_{12}dy_2,\phi_2^{-1}(y_1,y_2)+a_{21}dy_1+a_{22}dy_2)$を頂点とする微小平行四辺形の面積に対応する。ここで導入した$a_{11},a_{12},a_{21},a_{22}$は下記のように表すと考える。計算の詳細は次項で確認を行う。
$$
\large
\begin{align}
a_{11} &= \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_1} \\
a_{12} &= \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_2} \\
a_{21} &= \frac{\partial \phi_2^{-1}(y_1,y_2)}{\partial y_1} \\
a_{22} &= \frac{\partial \phi_2^{-1}(y_1,y_2)}{\partial y_2}
\end{align}
$$
この時、微小面積$dS, dS’$は下記のように表すことができる。
$$
\large
\begin{align}
dS &= dy_1dy_2 \\
dS’ &= 平行四辺形(0,0), (a_{11}dy_1,a_{21}dy_1), (a_{12}dy_2,a_{22}dy_2), (a_{11}dy_1+a_{12}dy_2,a_{21}dy_1+a_{22}dy_2)の面積 \\
&= \left| \begin{array}{cc} a_{11} dy_1 & a_{21}dy_1 \\ a_{12}dy_2 & a_{22}dy_2 \end{array} \right| \\
&= dy_1dy_2 \left| \begin{array}{cc} a_{11} & a_{21} \\ a_{12} & a_{22} \end{array} \right| \\
&= |J|dy_1dy_2
\end{align}
$$
上記に基づいて$\displaystyle \frac{d S’}{d S}=|J|$が導出できる。

具体例を用いた変換に関する計算の詳細の確認とテイラー展開

前項で用いた$a_{11}$〜$a_{22}$を用いた変換に関する計算の詳細に関して以下確認を行う。まず変換が1次式で表される場合に関しては、「ヤコビ行列$\mathbf{J}$とヤコビアン$det \mathbf{J}$」の演習で取り扱ったのでこちらを元に確認を行う。

$$
\large
\begin{align}
y_1 &= 2x_1 + x_2 \\
y_2 &= x_1 + 2x_2
\end{align}
$$
上記のような変換で$x_1, x_2$に対して$y_1, y_2$が得られるとき、逆変換$\phi_1^{-1}, \phi_2^{-1}$は下記のように表される。
$$
\large
\begin{align}
x_1 &= \phi_1^{-1}(y_1,y_2) = \frac{2}{3}y_1 – \frac{1}{3}y_2 \\
x_2 &= \phi_2^{-1}(y_1,y_2) = -\frac{1}{3}y_1 + \frac{2}{3}y_2
\end{align}
$$

このとき、$\phi_1^{-1}(y_1+dy_1,y_2+dy_2)$は下記のように表すことができる。
$$
\large
\begin{align}
\phi_1^{-1}(y_1+dy_1,y_2+dy_2) &= \frac{2}{3}(y_1+dy_1) – \frac{1}{3}(y_2+dy_2) \\
&= \left( \frac{2}{3}y_1 – \frac{1}{3}y_2 \right) + \frac{2}{3}dy_1 – \frac{1}{3}dy_2 \\
&= \phi_1^{-1}(y_1,y_2) + \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_1}dy_1 +
\frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_2}dy_2
\end{align}
$$
上記と同様に他の変換も考えることで、この例におけるヤコビ行列を考える際の変換が導出できる。また、1次式に関してはここで行なった議論と同じ議論を行うことで、同様の結果を示すことができる。

1次式以外に関しては1次のテイラー展開による近似であると考えると良い。
$$
\large
\begin{align}
\phi_1^{-1}(y_1+dy_1,y_2+dy_2) \simeq \phi_1^{-1}(y_1,y_2) + \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_1}dy_1 + \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_2}dy_2
\end{align}
$$
上記の式の$y_1$に注目する際に、$y_1$を$a$、$dy_1$を$x_1-a$と考えればテイラー展開の1次の項の$\displaystyle \frac{f'(a)}{1!}(x_1-a)^1=\frac{d f(x_1)}{d x_1}(x_1-a)$に対し、$\displaystyle \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_1}dy_1$を対応させて理解することができる。$y_2$に注目する際も同様に、$y_2$を$b$、$dy_2$を$x_2-b$と考えればテイラー展開の1次の項の$\displaystyle \frac{f'(b)}{1!}(x_2-b)^1=\frac{d f(x_2)}{d x_2}(x_2-b)$に対し、$\displaystyle \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_2}dy_2$を対応させて理解することができる。

確率変数の変換と対数正規分布(log-normal distribution)の導出

確率変数$X$に対してその関数の$X^2$や$\log{X}$などの確率分布を求めたい場合がある。この際に重要となるのが「確率変数の変換」という考え方である。当記事では「確率変数の変換」を具体的に考えるにあたって、「対数正規分布(log-normal distribution)」の導出に関して取り扱う。
https://www.hello-statisticians.com/explain-books-cat/workbook-sec3-2.html
確率変数の変換について上記でも取り扱ったが、「対数正規分布(log-normal distribution)」に関して具体的に取り扱うにあたって「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の5.5節や6.11節などを参考にした。

確率変数の変換

以下の議論においては直感的なイメージを重視し、数式の厳密さはそれほど重視しないものとする。微分と差分の話を厳密に考えると難しいため、ここでは直感的なイメージを優先する。
確率変数の変換においては関数$Y=\phi(X)$を用いて$X$を$Y$に変換できると考える。

ここで、区間$x \leq X \leq x + \Delta x$が関数$\phi(x)$を用いて区間$y \leq Y \leq y + \Delta y$に移ったと考える。このとき、それぞれの区間の確率に関して下記が成立する。
$$
\large
\begin{align}
P(x \leq X \leq x + \Delta x) = P(y \leq Y \leq y + \Delta y)
\end{align}
$$

また、確率変数$X, Y$に対応する確率密度関数をそれぞれ$f(x), g(x)$とするとき、それぞれの微小区間$\Delta x, \Delta y$に対して下記が成立する。
$$
\large
\begin{align}
g(y) \Delta y = f(x) \Delta x
\end{align}
$$
上記の式は、下記のように変形できる。
$$
\large
\begin{align}
g(y) &= f(x) \frac{\Delta x}{\Delta y} \\
&\simeq f(x) \frac{d x}{d y} \qquad (1)
\end{align}
$$
厳密さは重視しないため、以下では$\simeq$を$=$と同様に考えることとする。

ここで$y=\phi(x)$より、$x=\phi^{-1}(y)$が成立する。これを$(1)$式に代入すると下記のようになる。
$$
\large
\begin{align}
g(y) &\simeq f(x) \frac{d x}{d y} \\
&= f(\phi^{-1}(y)) \left| \frac{d \phi^{-1}(y)}{d y} \right|
\end{align}
$$

対数正規分布の導出

確率変数の変換」のところで確認した式を用いて対数正規分布(log-normal distribution)の導出を行う。
$X$が正規分布の$N(\mu, \sigma^2)$に従っている時、$Y=e^X$の確率分布を求める。
$$
\large
\begin{align}
g(y) = f(\phi^{-1}(y)) \left| \frac{d \phi^{-1}(y)}{d y} \right|
\end{align}
$$

$y=\phi(x)=e^x, x=\phi^{-1}(y)=\log{y}$を考えて、上記の式に対応する関数を計算すると下記のようになる。
$$
\large
\begin{align}
\phi^{-1}(y) &= \log{y} \\
\left| \frac{d \phi^{-1}(y)}{d y} \right| &= \left| \frac{d \log{y}}{d y} \right| \\
&= \frac{1}{y}
\end{align}
$$

よって、確率密度関数の$g(y)$は下記のように表すことができる。
$$
\large
\begin{align}
g(y) &= f(\phi^{-1}(y)) \left| \frac{d \phi^{-1}(y)}{d y} \right| \\
&= f(\log{y}) \frac{1}{y} \\
&= \frac{1}{\sqrt{2 \pi \sigma^2}y} exp \left( -\frac{(\log{y}-\mu)^2}{2 \sigma^2} \right)
\end{align}
$$
ここで確率密度関数の$g(y)$の変数に関して、定義域が$y = e^x > 0$であることも抑えておくと良い。

ここまでに導出した、$y$を$x$に置き換えると、対数正規分布の確率密度関数の式に一致する。
$$
\large
\begin{align}
f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}x} exp \left( -\frac{(\log{x}-\mu)^2}{2 \sigma^2} \right)
\end{align} \quad x > 0
$$
また、対数正規分布の期待値と分散は下記のようになる。
$$
\large
\begin{align}
E[X] &= \exp \left( \mu + \frac{\sigma^2}{2} \right) \\
V[X] &= \exp \left( 2\mu + 2\sigma^2 \right) – \exp \left( 2\mu + \sigma^2 \right)
\end{align}
$$

Ch.2 「確率分布」の章末問題の解答例 パターン認識と機械学習 2.1〜2.20

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.2の「確率分布」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・参考
パターン認識と機械学習 解答まとめ

解答まとめ

問題$2.1$

$$
\large
\begin{align}
p(x|\mu) = \mathrm{Bern}(x|\mu) = \mu^{x} (1-\mu)^{1-x}
\end{align}
$$

上記のように$(2.2)$式を表すことを考える。このとき$x=1,0$を代入した、$p(x=1|\mu), p(x=0|\mu)$はそれぞれ下記のように考えることができる。
$$
\large
\begin{align}
p(x=1|\mu) &= \mu^{1} (1-\mu)^{1-1} \\
&= \mu \\
p(x=0|\mu) &= \mu^{0} (1-\mu)^{1-0} \\
&= 1 – \mu
\end{align}
$$

よって$\displaystyle \sum_{x=0}^{1} p(x|\mu), \mathbb{E}[x], \mathrm{var}[x]$はそれぞれ下記のように計算できる。
$$
\large
\begin{align}
\sum_{x=0}^{1} p(x|\mu) &= p(x=0|\mu) + p(x=1|\mu) \\
&= \mu + (1-\mu) = 1 \\
\mathbb{E}[x] &= \sum_{x=0}^{1} x p(x|\mu) \\
&= 0 \times p(x=0|\mu) + 1 \times p(x=1|\mu) = \mu \\
\mathrm{var}[x] &= \mathbb{E}[x^2] – \mathbb{E}[x]^2 \\
&= 1^2 \times p(x=1|\mu) – \mathbb{E}[x]^2 \\
&= \mu – \mu^2 = \mu(1-\mu)
\end{align}
$$

また、エントロピー$H[x]$に関しても同様に下記のように計算を行える。
$$
\large
\begin{align}
H[x] &= – \sum_{x=0}^{1} p(x|\mu) \ln{p(x|\mu)} \\
&= – \mu \ln{\mu} – (1-\mu) \ln{(1-\mu)}
\end{align}
$$

問題$2.2$

$$
\large
\begin{align}
p(x|\mu) = \left( \frac{1-\mu}{2} \right)^{\frac{1-x}{2}} \left( \frac{1+\mu}{2} \right)^{\frac{1+x}{2}} \quad (2.261)
\end{align}
$$

上記の$(2.261)$式に対し、$p(x=1|\mu)+p(x=-1|\mu)=1$であることを示す。
$$
\large
\begin{align}
p(x=1|\mu) + p(x=-1|\mu) &= \left( \frac{1-\mu}{2} \right)^{\frac{1-1}{2}} \left( \frac{1+\mu}{2} \right)^{\frac{1+1}{2}} + \left( \frac{1-\mu}{2} \right)^{\frac{1+1}{2}} \left( \frac{1+\mu}{2} \right)^{\frac{1-1}{2}} \\
&= \frac{1+\mu}{2} + \frac{1-\mu}{2} = 1
\end{align}
$$

よって$(2.261)$式は正規化されていると考えられる。また、以下に平均$E[X]$、分散$V[X]$、エントロピー$H[X]$を計算する。

・平均$E[X]$
$$
\large
\begin{align}
E[X] &= 1 \times \left( \frac{1-\mu}{2} \right)^{\frac{1-1}{2}} \left( \frac{1+\mu}{2} \right)^{\frac{1+1}{2}} + (-1) \times \left( \frac{1-\mu}{2} \right)^{\frac{1+1}{2}} \left( \frac{1+\mu}{2} \right)^{\frac{1-1}{2}} \\
&= \frac{1+\mu}{2} – \frac{1-\mu}{2} = \mu
\end{align}
$$

・分散$V[X]$
$$
\large
\begin{align}
V[X] &= E[X^2] – E[X]^2 \\
&= \frac{1+\mu}{2} + \frac{1-\mu}{2} – \mu^2 \\
&= 1 – \mu^2
\end{align}
$$

・エントロピー$H[X]$
$$
\large
\begin{align}
H[X] = – \frac{1+\mu}{2} \ln{\frac{1+\mu}{2}} – \frac{1-\mu}{2} \ln{\frac{1-\mu}{2}}
\end{align}
$$

問題$2.3$

・$\displaystyle \left(\begin{array}{c} N \\ m \end{array} \right) + \left(\begin{array}{c} N \\ m-1 \end{array} \right) = \left(\begin{array}{c} N+1 \\ m \end{array} \right)$の導出
定義に基づいて下記のように導出を行える。
$$
\large
\begin{align}
\left(\begin{array}{c} N \\ m \end{array} \right) + \left(\begin{array}{c} N \\ m-1 \end{array} \right) &= \frac{N!}{(N-m)!m!} + \frac{N!}{(N-m+1)!(m-1)!} \\
&= \frac{N!}{(N-m+1)!m!} ((N-m+1) + m) \\
&= \frac{(N+1)!}{(N-m+1)!m!} = \left(\begin{array}{c} N+1 \\ m \end{array} \right)
\end{align}
$$

・$\displaystyle (1+x)^{N} = \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) x^{m}$の導出
数学的帰納法を用いることから「i)$N=1$で成立」、「ⅱ)$N=k$で成立すれば$N=k+1$で成立」をそれぞれ示せば良い。

i) 「$N=1$で成立」の導出
$$
\large
\begin{align}
(1+x)^{1} &= 1 + x \\
&= \left(\begin{array}{c} 1 \\ 0 \end{array} \right) x^{0} + \left(\begin{array}{c} 1 \\ 1 \end{array} \right) x^{1} \\
&= \sum_{m=0}^{1} \left(\begin{array}{c} 1 \\ m \end{array} \right) x^{m}
\end{align}
$$
上記より$N=1$で$\displaystyle (1+x)^{N} = \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) x^{m}$が成立する。

ⅱ)「$N=k$で成立すれば$N=k+1$で成立」の導出
$N=k$で成立することより下記が成立する。
$$
\large
\begin{align}
(1+x)^{k} = \sum_{m=0}^{k} \left(\begin{array}{c} k \\ m \end{array} \right) x^{m}
\end{align}
$$

このとき下記のように$(1+x)^{k+1}$に関して計算することができる。
$$
\large
\begin{align}
(1+x)^{k+1} &= (1+x)(1+x)^{k} \\
&= (1+x) \sum_{m=0}^{k} \left(\begin{array}{c} k \\ m \end{array} \right) x^{m} \\
&= \sum_{m=0}^{k} \left(\begin{array}{c} k \\ m \end{array} \right) (x^{m} + x^{m+1}) \\
&= \left(\begin{array}{c} k \\ 0 \end{array} \right) x^{0} + \left(\begin{array}{c} k \\ 0 \end{array} \right) x^{1} + \left(\begin{array}{c} k \\ 1 \end{array} \right) x^{1} + … + \left(\begin{array}{c} k \\ k-1 \end{array} \right) x^{k} + \left(\begin{array}{c} k \\ k \end{array} \right) x^{k} + \left(\begin{array}{c} k \\ k \end{array} \right) x^{k+1} \\
&= x^{0} + \left( \left(\begin{array}{c} k \\ 0 \end{array} \right) + \left(\begin{array}{c} k \\ 1 \end{array} \right) \right) x^{1} + … + \left( \left(\begin{array}{c} k \\ k-1 \end{array} \right) + \left(\begin{array}{c} k \\ k \end{array} \right) \right) x^{k} + x^{k+1} \\
&= \left(\begin{array}{c} k+1 \\ 0 \end{array} \right) x^{0} + \left(\begin{array}{c} k+1 \\ 1 \end{array} \right) x^{1} + … + \left(\begin{array}{c} k+1 \\ k \end{array} \right) x^{k} + \left(\begin{array}{c} k+1 \\ k+1 \end{array} \right) x^{k+1} \\
&= \sum_{m=0}^{k+1} \left(\begin{array}{c} k+1 \\ m \end{array} \right) x^{m}
\end{align}
$$

i)、ⅱ)が成立することより、任意の自然数$N$に関して$\displaystyle (1+x)^{N} = \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) x^{m}$が成立すると考えられる。

・$\displaystyle \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m} (1-\mu)^{N-m} = 1$の導出
$\displaystyle \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m} (1-\mu)^{N-m}$は下記のように変形を行える。
$$
\large
\begin{align}
\sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m} (1-\mu)^{N-m} &= (1-\mu)^{N} \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m} (1-\mu)^{-m} \\
&= (1-\mu)^{N} \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \left( \frac{\mu}{1-\mu} \right)^{m} \\
&= (1-\mu)^{N} \left( 1 + \frac{\mu}{1-\mu} \right)^{N} \\
&= (1-\mu)^{N} \left( \frac{1 – \mu + \mu}{1-\mu} \right)^{N} \\
&= (1-\mu)^{N} \left( \frac{1}{1-\mu} \right)^{N} \\
&= 1
\end{align}
$$

問題$2.4$

問題文には$n$とあるが、$(2.11), (2.12)$式では$m$を用いているので以下$n$ではなく$m$を用いて表記する。

・$(2.11)$式の導出
$\displaystyle \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m} (1-\mu)^{N-m} = 1$の両辺を$\mu$で微分すると下記が得られる。
$$
\begin{align}
\frac{d}{d \mu} \left( \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m} (1-\mu)^{N-m} \right) &= \frac{d}{d \mu} 1 \\
\sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) ( m \mu^{m-1} (1-\mu)^{N-m} – (N-m) \mu^{m} (1-\mu)^{N-m-1} ) &= 0 \\
\sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m-1} (1-\mu)^{N-m-1} ( m (1-\mu) – (N-m) \mu ) &= 0 \\
\sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m-1} (1-\mu)^{N-m-1} ( m – m \mu – N \mu + m \mu ) &= 0 \\
\sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m-1} (1-\mu)^{N-m-1} ( m – N \mu ) &= 0 \\
\sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m-1} (1-\mu)^{N-m-1} m &= \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m-1} (1-\mu)^{N-m-1} N \mu \\
\sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m} (1-\mu)^{N-m} m &= N \mu \sum_{m=0}^{N} \left(\begin{array}{c} N \\ m \end{array} \right) \mu^{m} (1-\mu)^{N-m} \\
\mathbb{E}[m] &= N \mu
\end{align}
$$

・$(2.12)$式の導出
$\displaystyle mu^{m} (1-\mu)^{N-m}$を$\mu$で$2$階微分すると下記が得られる。
$$
\begin{align}
\frac{d^2}{d \mu^2} & ( \mu^{m} (1-\mu)^{N-m} ) = \frac{d}{d \mu} ( \mu^{m-1} (1-\mu)^{N-m-1} ( m – N \mu ) ) \\
&= m(m-1) \mu^{m-2} (1-\mu)^{N-m} – 2 m(N-m) \mu^{m-1} (1-\mu)^{N-m-1} + (N-m)(N-m+1) \mu^{m} (1-\mu)^{N-m-2} \\
&= \mu^{m-2} (1-\mu)^{N-m-2} \left[ m(m-1)(1-\mu)^2 -2m(N-m)\mu(1-\mu) + (N-m)(N-m+1) \mu^{2} \right] \\
&= … \\
&= \mu^{m-2} (1-\mu)^{N-m-2} \left[ m^2 + (2(1-N) \mu-1) m + N(1-N) \mu^2 \right] \\
&= 0
\end{align}
$$

上記より下記が得られる。
$$
\large
\begin{align}
\mathbb{E}[m^2] &= – ( 2(1-N) \mu – 1 ) \mathbb{E}[m] + N(1-N) \mu^2 \\
\mathrm{var}[m] &= \mathbb{E}[m^2] – \mathbb{E}[m]^2 \\
&= – ( 2(1-N) \mu + 1 ) \mathbb{E}[m] + N(1-N) \mu^2 – \mathbb{E}[m]^2 \\
&= – ( 2(1-N) \mu + 1 ) N \mu + N(1-N) \mu^2 – N^2 \mu^2 \\
&= – 2 N \mu^2 + 2 N^2 \mu^2 + N \mu + N \mu^2 – N^2 \mu^2 – N^2 \mu^2 \\
&= N \mu – N \mu^2 = N \mu (1 – \mu)
\end{align}
$$

・考察
ここでの導出ではかなり複雑な式展開になったが、二項分布の平均や分散に関しては下記のように計算するとシンプルに導出を行うことができる。
二項分布の平均・分散・モーメント母関数

問題$2.5$

問題文に基づいて$(2.266)$式は下記のように変形を行うことができる。
$$
\large
\begin{align}
\Gamma(a) \Gamma(b) &= \int_{0}^{\infty} x^{a-1} \exp(-x) dx \int_{0}^{\infty} y^{b-1} \exp(-y) dy \quad (2.266) \\
&= \int_{0}^{\infty} x^{a-1} \exp(-x) \int_{0}^{\infty} y^{b-1} \exp(-y) dy dx \\
&= \int_{0}^{\infty} \int_{0}^{\infty} x^{a-1} y^{b-1} \exp(-(x+y)) dy dx \quad (1)
\end{align}
$$

上記で得られた$(1)$式に対して、$x$を固定して$t=y+x$のように変数を置き換えることを考える。$x$は固定するので、$y$から$t$への変数変換であると考えられる。$\displaystyle \frac{dy}{dt}=1, 0 \leq t = x+y \leq \infty$より$(1)$式は下記のように変形できる。
$$
\large
\begin{align}
\Gamma(a) \Gamma(b) &= \int_{0}^{\infty} \int_{0}^{\infty} x^{a-1} y^{b-1} \exp(-(x+y)) dy dx \quad (1) \\
&= \int_{0}^{\infty} \int_{0}^{\infty} x^{a-1} (t-x)^{b-1} \exp(-t) \frac{dy}{dt} dt dx \\
&= \int_{0}^{\infty} \int_{0}^{\infty} x^{a-1} (t-x)^{b-1} \exp(-t) dt dx \quad (2)
\end{align}
$$

上記で得られた$(2)$式に対して、$t$を固定して$x=t \mu$のように変数を置き換えることを考える。$t$は固定するので、$x$から$\mu$への変数変換であると考えられる。$\displaystyle \frac{dx}{d \mu}=t, 0 \leq \mu = \frac{x}{t} \leq \infty$より$(2)$式は下記のように変形できる。
$$
\large
\begin{align}
\Gamma(a) \Gamma(b) &= \int_{0}^{\infty} \int_{0}^{\infty} x^{a-1} (t-x)^{b-1} \exp(-t) dt dx \quad (2) \\
&= \int_{0}^{\infty} \int_{0}^{\infty} x^{a-1} (t-x)^{b-1} \exp(-t) dx dt \\
&= \int_{0}^{\infty} \int_{0}^{\infty} (t \mu)^{a-1} (t – t \mu)^{b-1} \exp(-t) \frac{dx}{d \mu} dt d \mu \\
&= \int_{0}^{\infty} \int_{0}^{\infty} t^{a-1} \mu^{a-1} t^{b-1} (1 – \mu)^{b-1} \exp(-t) t dt d \mu \\
&= \int_{0}^{\infty} \int_{0}^{\infty} t^{a+b-1} \mu^{a-1} (1 – \mu)^{b-1} \exp(-t) dt d \mu \\
&= \int_{0}^{\infty} \mu^{a-1} (1 – \mu)^{b-1} \int_{0}^{\infty} t^{a+b-1} \exp(-t) dt d \mu \\
&= \int_{0}^{\infty} \mu^{a-1} (1 – \mu)^{b-1} d \mu \int_{0}^{\infty} t^{a+b-1} \exp(-t) dt \\
&= B(a,b) \Gamma(a+b)
\end{align}
$$

上記より$\Gamma(a) \Gamma(b) = B(a,b) \Gamma(a+b)$が成立することが確認できる。

・解説
$\Gamma(a) \Gamma(b) = B(a,b) \Gamma(a+b)$はガンマ分布とベータ分布を理解するにあたって重要なので、何度か計算の流れを確認しておくと良いと思います。

問題$2.6$

・$\displaystyle \mathbb{E}[\mu] = \frac{a}{a+b}$の導出
$$
\large
\begin{align}
\mathbb{E}[\mu] &= \int_{0}^{1} \mu \times \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \mu^{a-1} (1-\mu)^{b-1} d \mu \\
&= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \int_{0}^{1} \mu^{(a+1)-1} (1-\mu)^{b-1} d \mu \\
&= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \times \frac{\Gamma(a+1)\Gamma(b)}{\Gamma(a+b+1)} \\
&= \frac{(a+b-1)!}{(a-1)!(b-1)!} \times \frac{a!(b-1)!}{(a+b)!} \\
&= \frac{a}{a+b}
\end{align}
$$

・$\displaystyle \mathrm{var}[\mu] = \frac{ab}{(a+b)^2(a+b+1)}$の導出
$\mathrm{var}[\mu] = \mathbb{E}[\mu^2] – \mathbb{E}[\mu]^2$を用いることを考える。$\mathbb{E}[\mu^2]$は下記のように計算できる。
$$
\large
\begin{align}
\mathbb{E}[\mu^2] &= \int_{0}^{1} \mu^2 \times \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \mu^{a-1} (1-\mu)^{b-1} d \mu \\
&= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \int_{0}^{1} \mu^{(a+2)-1} (1-\mu)^{b-1} d \mu \\
&= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \times \frac{\Gamma(a+2)\Gamma(b)}{\Gamma(a+b+2)} \\
&= \frac{(a+b-1)!}{(a-1)!(b-1)!} \times \frac{(a+1)!(b-1)!}{(a+b+1)!} \\
&= \frac{a(a+1)}{(a+b+1)(a+b)}
\end{align}
$$

よって$\mathrm{var}[\mu] = \mathbb{E}[\mu^2] – \mathbb{E}[\mu]^2$は下記のようになる。
$$
\large
\begin{align}
\mathrm{var}[\mu] &= \mathbb{E}[\mu^2] – \mathbb{E}[\mu]^2 \\
&= \frac{a(a+1)}{(a+b)(a+b+1)} – \left( \frac{a}{a+b} \right)^2 \\
&= \frac{a(a+1)(a+b)}{(a+b)^2(a+b+1)} – \frac{a^2(a+b+1)}{(a+b)^2(a+b+1)} \\
&= \frac{a((a+1)(a+b) – a(a+b+1))}{(a+b)^2(a+b+1)} \\
&= \frac{a(a^2+ab+a+b-(a^2+ab+a))}{(a+b)^2(a+b+1)} \\
&= \frac{ab}{(a+b)^2(a+b+1)}
\end{align}
$$

・$\displaystyle \mathrm{mode}[\mu] = \frac{a-1}{a+b-2}$の導出
関数$f(\mu) = \mu^{a-1} (1-\mu)^{b-1}$が$0 \leq \mu \leq 1$で上に凸であることより、$\displaystyle \frac{d f(\mu)}{d \mu} = 0$となる$\mu$を求めれば良い。
$$
\large
\begin{align}
\frac{d f(\mu)}{d \mu} &= \frac{d}{d \mu} (\mu^{a-1} (1-\mu)^{b-1}) \\
&= (a-1) \mu^{a-2} (1-\mu)^{b-1} – (b-1) \mu^{a-1} (1-\mu)^{b-2} \\
&= \mu^{a-2} (1-\mu)^{b-2} ((a-1)(1-\mu) – (b-1) \mu) = 0 \\
(a-1)(1-\mu) – (b-1) \mu &= 0 \\
a-1 – \mu (a-1) – \mu (b-1) &= 0 \\
(a-1+b-1) \mu &= a-1 \\
\mu &= \frac{a-1}{a+b-2} \\
\mathrm{mode}[\mu] &= \frac{a-1}{a+b-2}
\end{align}
$$

問題$2.7$

パラメータ$\mu$の事前分布がベータ分布$\mathrm{Beta}(a,b)$であると考えると、事後分布$p(\mu|m,l)$は下記のように考えられる。
$$
\large
\begin{align}
p(\mu|m,l) & \propto \mu^{m}(1-\mu)^{l} \times \mu^{a-1} (1-\mu)^{b-1} \\
&= \mu^{a+m-1}(1-\mu)^{b+l-1}
\end{align}
$$

ここで二項分布の確率を表すパラメータ$\mu$の最尤推定解を$\mu_{ML}$、$\mu$の事前分布と事後分布の平均をそれぞれ$\mu_0, \mu_{N}$と定義すると、問題文より下記のように表せる。
$$
\large
\begin{align}
\mu_{ML} &= \frac{m}{m+l} \\
\mu_0 &= \frac{a}{a+b} \\
\mu_N &= \frac{a+m}{a+m+b+l}
\end{align}
$$

このとき、下記のように考えることで$\mu_N = \lambda \mu_{0} + (1-\lambda) \mu_{ML}, \quad 0 \leq \mu \leq 1$のように表すことができる。
$$
\large
\begin{align}
\mu_N &= \frac{a+m}{a+m+b+l} \\
&= \frac{a}{a+m+b+l} + \frac{m}{a+m+b+l} \\
&= \frac{a+b}{a+m+b+l} \times \frac{a}{a+b} + \frac{m+l}{a+m+b+l} \times \frac{m}{m+l} \\
&= \frac{a+b}{a+m+b+l} \mu_0 + \frac{m+l}{a+m+b+l} \mu_{ML} \\
&= \lambda \mu_{0} + (1-\lambda) \mu_{ML} \\
\lambda &= \frac{a+b}{a+m+b+l}
\end{align}
$$

上記より事後分布の平均は事前分布の平均と最尤推定解の間にあることも同時に示される。

・参考
共役事前分布
https://www.hello-statisticians.com/explain-terms-cat/conjugate_dist1.html

問題$2.8$

正規分布のように確率変数が連続かつ定義域が全ての実数である場合を元に考える。
$$
\large
\begin{align}
\mathbb{E}_{y}[\mathbb{E}_{x}[x|y]] = \int_{-\infty}^{\infty} \left[ \int_{-\infty}^{\infty} x p(x|y) dx \right] p(y) dy \quad (1)
\end{align}
$$

$\mathbb{E}_{y}[\mathbb{E}_{x}[x|y]]$は$(1)$式のように定義される。下記のように$(1)$式の変形を行える。
$$
\large
\begin{align}
\mathbb{E}_{y}[\mathbb{E}_{x}[x|y]] &= \int_{-\infty}^{\infty} \left[ \int_{-\infty}^{\infty} x p(x|y) dx \right] p(y) dy \quad (1) \\
&= \int_{-\infty}^{\infty} \left[ \int_{-\infty}^{\infty} x \frac{p(x,y)}{p(y)} dx \right] p(y) dy \\
&= \int_{-\infty}^{\infty} \left[ \int_{-\infty}^{\infty} x p(x,y) dx \right] dy \\
&= \int_{-\infty}^{\infty} \left[ \int_{-\infty}^{\infty} x p(x,y) dy \right] dx \\
&= \int_{-\infty}^{\infty} x p(x) dx = \mathbb{E}_{x}[x] \quad (2.270)
\end{align}
$$

上記より$(2.270)$が成立する。

・参考
「条件付き期待値」と「期待値の繰り返しの公式」
https://www.hello-statisticians.com/explain-terms-cat/conditional_expectation1.html

問題$2.10$

・$\displaystyle \mathbb{E}[\mu_{j}] = \frac{\alpha_{j}}{\alpha_{0}}$の導出
$$
\large
\begin{align}
\mathbb{E}[\mu_{j}] &= \int_{0}^{1} \mu_{j} \times \mathrm{Dir}(\mu_1,…,\mu_K|\alpha_1,…,\alpha_K) d \mu \\
&= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)…\Gamma(\alpha_K)} \int_{0}^{1} \mu_{j} \times \mu_{1}^{\alpha_1-1}…\mu_{j}^{\alpha_j-1}…\mu_{K}^{\alpha_K-1} d \mu \\
&= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)…\Gamma(\alpha_K)} \int_{0}^{1} \mu_{1}^{\alpha_1-1}…\mu_{j}^{\alpha_j}…\mu_{K}^{\alpha_K-1} d \mu \\
&= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)…\Gamma(\alpha_j)…\Gamma(\alpha_K)} \times \frac{\Gamma(\alpha_1)…\Gamma(\alpha_j+1)…\Gamma(\alpha_K)}{\Gamma(\alpha_0+1)} \\
&= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_j)} \frac{\Gamma(\alpha_j+1)}{\Gamma(\alpha_0+1)} \\
&= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_j)} \frac{\alpha_j \Gamma(\alpha_j)}{\alpha_0 \Gamma(\alpha_0)} \\
&= \frac{\alpha_j}{\alpha_0}
\end{align}
$$

・$\displaystyle \mathbb{E}[\mu_j] = \frac{\alpha_{j}(\alpha_{0}-\alpha_{j})}{\alpha_{0}^2(\alpha_0+1)}$の導出
$\mathrm{var}[\mu_j] = \mathbb{E}[\mu_j^2] – \mathbb{E}[\mu_j]^2$を用いることを考える。$\mathbb{E}[\mu_j^2]$は$\mathbb{E}[\mu_{j}]$の導出と同様に考えることで下記のように計算できる。
$$
\large
\begin{align}
\mathbb{E}[\mu_{j}^2] &= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)…\Gamma(\alpha_j)…\Gamma(\alpha_K)} \times \frac{\Gamma(\alpha_1)…\Gamma(\alpha_j+2)…\Gamma(\alpha_K)}{\Gamma(\alpha_0+2)} \\
&= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_j)} \frac{\Gamma(\alpha_j+2)}{\Gamma(\alpha_0+2)} \\
&= \frac{\alpha_j(\alpha_j+1)}{\alpha_0(\alpha_0+1)}
\end{align}
$$

よって$\mathrm{var}[\mu] = \mathbb{E}[\mu^2] – \mathbb{E}[\mu]^2$は下記のように求められる。
$$
\large
\begin{align}
\mathrm{var}[\mu] &= \mathbb{E}[\mu_k^2] – \mathbb{E}[\mu_k]^2 \\
&= \frac{\alpha_j(\alpha_j+1)}{\alpha_0(\alpha_0+1)} – \left( \frac{\alpha_j}{\alpha_0} \right)^2 \\
&= \frac{\alpha_0\alpha_j(\alpha_j+1)}{\alpha_0^2(\alpha_0+1)} – \frac{\alpha_j^2(\alpha_0+1)}{\alpha_0^2(\alpha_0+1)} \\
&= \frac{\alpha_j(\alpha_0(\alpha_j+1)-\alpha_j(\alpha_0+1))}{\alpha_0^2(\alpha_0+1)} \\
&= \frac{\alpha_j(\alpha_0 \alpha_j + \alpha_0 – (\alpha_0 \alpha_j + \alpha_j))}{\alpha_0^2(\alpha_0+1)} \\
&= \frac{\alpha_j(\alpha_0-\alpha_j)}{\alpha_0^2(\alpha_0+1)}
\end{align}
$$

・$\displaystyle \mathrm{cov}[\mu_{j},\mu_{l}] = – \frac{\alpha_j \alpha_l}{\alpha_0^2(\alpha_0+1)}, \quad j \neq l$の導出
$\mathrm{cov}[\mu_{j},\mu_{l}] = \mathbb{E}[\mu_j \mu_l] – \mathbb{E}[\mu_j] \mathbb{E}[\mu_l]$を用いることを考える。$\mathbb{E}[\mu_j \mu_l]$は$\mathbb{E}[\mu_{j}]$の導出と同様に考えることで下記のように計算できる。
$$
\large
\begin{align}
\mathbb{E}[\mu_j \mu_l] &= \frac{\Gamma(\alpha_0)}{\Gamma(\alpha_j) \Gamma(\alpha_l)} \times\frac{\Gamma(\alpha_j+1)\Gamma(\alpha_l+1)}{\Gamma(\alpha_0+2)} \\
&= \frac{\alpha_j \alpha_l}{\alpha_0(\alpha_0+1)}
\end{align}
$$

よって$\mathrm{cov}[\mu_{j},\mu_{l}] = \mathbb{E}[\mu_j \mu_l] – \mathbb{E}[\mu_j] \mathbb{E}[\mu_l]$は下記のように求められる。
$$
\large
\begin{align}
\mathrm{cov}[\mu_{j},\mu_{l}] &= \mathbb{E}[\mu_j \mu_l] – \mathbb{E}[\mu_j] \mathbb{E}[\mu_l] \\
&= \frac{\alpha_j \alpha_l}{\alpha_0(\alpha_0+1)} – \frac{\alpha_{j}}{\alpha_{0}} \times \frac{\alpha_{l}}{\alpha_{0}} \\
&= \frac{\alpha_{j}\alpha_{l}\alpha_{0}}{\alpha_{0}^2(\alpha_{0}+1)} – \frac{\alpha_{j}\alpha_{l}(\alpha_{0}+1)}{\alpha_{0}^2(\alpha_{0}+1)} = – \frac{\alpha_j \alpha_l}{\alpha_0^2(\alpha_0+1)}
\end{align}
$$

問題$2.11$

$$
\large
\begin{align}
\mathrm{Dir}(\mathbf{\mu}|\mathbf{\alpha}) &= \frac{\alpha_{0}}{\Gamma(\alpha_{1}) \cdots \Gamma(\alpha_{K})} \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1} \quad (2.38) \\
\alpha_{0} &= \sum_{k=1}^{K} \alpha_{k} \quad (2.39)
\end{align}
$$

上記の表記の簡易化にあたって下記のように$K(\mathbf{\alpha})$を定め、$\mathrm{Dir}(\mathbf{\mu}|\mathbf{\alpha})$の表記を行う。
$$
\large
\begin{align}
\mathrm{Dir}(\mathbf{\mu}|\mathbf{\alpha}) &= K(\mathbf{\alpha}) \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1} \quad (1) \\
K(\mathbf{\alpha}) &= \frac{\alpha_{0}}{\Gamma(\alpha_{1}) \cdots \Gamma(\alpha_{K})} \quad (2)
\end{align}
$$

ここで$\displaystyle \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1}$を$\alpha_{j}$で偏微分することを考えると、下記のように結果が得られる。
$$
\large
\begin{align}
\frac{\partial}{\partial \alpha_{j}} \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1} &= \frac{\partial}{\partial \alpha_{j}} \prod_{k=1}^{K} \exp \left[ \ln{\mu_{k}^{\alpha_{k}-1}} \right] \\
&= \frac{\partial}{\partial \alpha_{j}} \prod_{k=1}^{K} \exp \left[ (\alpha_{k}-1)\ln{\mu_{k}} \right] \\
&= \prod_{k=1}^{K} \exp \left[ (\alpha_{k}-1)\ln{\mu_{k}} \right] \times \frac{\partial}{\partial \alpha_{j}} \left[ (\alpha_{j}-1)\ln{\mu_{j}} \right] \\
&= \ln{\mu_{j}} \prod_{k=1}^{K} \exp \left[ (\alpha_{k}-1)\ln{\mu_{k}} \right] \\
&= \ln{\mu_{j}} \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1}
\end{align}
$$

$(3)$式に基づいて$\mathbb{E}[\ln{\mu_{j}}]$は下記のように変形できる。
$$
\large
\begin{align}
\mathbb{E}[\ln{\mu_{j}}] &= \int_{0}^{1} \cdots \int_{0}^{1} \left[ \ln{\mu_{j}} K(\mathbf{\alpha}) \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1} \right] d \mu_{1} \cdots d \mu_{K} \\
&= K(\mathbf{\alpha}) \int_{0}^{1} \cdots \int_{0}^{1} \left[ \frac{\partial}{\partial \alpha_{j}} \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1} \right] d \mu_{1} \cdots d \mu_{K} \\
&= K(\mathbf{\alpha}) \frac{\partial}{\partial \alpha_{j}} \int_{0}^{1} \cdots \int_{0}^{1} \left[ \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1} \right] d \mu_{1} \cdots d \mu_{K} \\
&= K(\mathbf{\alpha}) \frac{\partial}{\partial \alpha_{j}} \frac{1}{K(\mathbf{\alpha})} \\
&= K(\mathbf{\alpha}) \frac{\partial}{\partial \alpha_{j}} \frac{\Gamma(\alpha_{1}) \cdots \Gamma(\alpha_{K})}{\Gamma(\alpha_{0})} \\
&= K(\mathbf{\alpha}) \frac{1}{\Gamma(\alpha_{0})^2} \left[ \Gamma(\alpha_{0}) \frac{\partial (\Gamma(\alpha_{1}) \cdots \Gamma(\alpha_{K}))}{\partial \alpha_{j}} – (\Gamma(\alpha_{1}) \cdots \Gamma(\alpha_{K})) \frac{\partial \Gamma(\alpha_{0})}{\partial \alpha_{j}} \right] \\
&= \frac{1}{\Gamma(\alpha_{j})} \frac{\partial \Gamma(\alpha_{j})}{\partial \alpha_{j}} – \frac{1}{\Gamma(\alpha_{0})} \frac{\partial \Gamma(\alpha_{0})}{\partial \alpha_{0}} \frac{\partial \alpha_{0}}{\partial \alpha_{j}} \\
&= \frac{1}{\Gamma(\alpha_{j})} \frac{\partial \Gamma(\alpha_{j})}{\partial \alpha_{j}} – \frac{1}{\Gamma(\alpha_{0})} \frac{\partial \Gamma(\alpha_{0})}{\partial \alpha_{0}} \\
&= \frac{\partial}{\partial \alpha_{j}} \ln{\Gamma(\alpha_{j})} – \frac{\partial}{\partial \alpha_{0}} \ln{\Gamma(\alpha_{0})} \\
&= \psi(\alpha_{j}) – \psi(\alpha_{0}) \quad (2.276)
\end{align}
$$

問題$2.12$

確率分布が正規化されているかどうかは全定義域で積分した際に$1$に一致するかを確かめれば良い。
$$
\large
\begin{align}
U(x|a, b) = \frac{1}{b-a} \qquad a \leq x \leq b
\end{align}
$$
以下では上記に対し、$\displaystyle \int_{a}^{b} U(x|a, b) dx = 1$が成立することを確かめる。
$$
\large
\begin{align}
\int_{a}^{b} U(x|a, b) dx &= \int_{a}^{b} \frac{1}{b-a} dx \\
&= \frac{1}{b-a} \left[ x \right]_{a}^{b} \\
&= \frac{1}{b-a} (b-a) \\
&= 1
\end{align}
$$
上記より、一様分布$U(x|a, b)$は正規化されていると考えることができる。

また、期待値$E[X]$と分散$V[X]$は下記のように表すことができる。
$$
\begin{align}
E[X] &= \int_{a}^{b} \frac{1}{b-a} x dx \\
&= \frac{1}{b-a} \left[ \frac{1}{2}x^2 \right]_{a}^{b} \\
&= \frac{1}{2(b-a)} (b^2-a^2) \\
&= \frac{(b+a)(b-a)}{2(b-a)} \\
&= \frac{(a+b)}{2} \\
V[X] &= \int_{a}^{b} \frac{1}{b-a} (x-E[X])^2 dx \\
&= \frac{1}{3(b-a)} \left[ (x-E[X])^3 \right]_{a}^{b} \\
&= \frac{1}{3(b-a)} ((b-E[X])^3-(a-E[X])^3) \\
&= \frac{1}{3(b-a)} ((b-E[X])-(a-E[X]))((a-E[X])^2 + (a-E[X])(b-E[X]) + (b-E[X])^2) \\
&= \frac{1}{3(b-a)} (b-a)\left( \left( a-\frac{(a+b)}{2} \right)^2 + \left( a-\frac{(a+b)}{2} \right)\left( b-\frac{(a+b)}{2} \right) + \left( b-\frac{(a+b)}{2} \right)^2\right) \\
&= \frac{1}{3} \left( \left(\frac{(a-b)}{2}\right)^2 + \left(\frac{(a-b)}{2}\right)\left(\frac{(b-a)}{2}\right) + \left(\frac{(b-a)}{2})^2\right) \right) \\
&= \frac{1}{3} \left( \left(\frac{(a-b)}{2}\right)^2 + \left(\frac{(a-b)}{2}\right)\left(\frac{(b-a)}{2}\right) + \left(\frac{(b-a)}{2})^2\right) \right) \\
&= \frac{(b-a)^2}{12}
\end{align}
$$

問題$2.15$

$$
\large
\begin{align}
H[\mathbf{x}] = – \int p(\mathbf{x}) \ln{p(\mathbf{x})} d \mathbf{x} \quad (1.104)
\end{align}
$$

上記で表した$(1.104)$式に$p(\mathbf{x}) = \mathcal{N}(\mathbf{x}|\mathbf{\mu},\Sigma)$を代入すると下記のように変形を行える。
$$
\large
\begin{align}
H[\mathbf{x}] &= – \int p(\mathbf{x}) \ln{\mathcal{N}(\mathbf{x}|\mathbf{\mu},\Sigma)} d \mathbf{x} \\
&= – \int p(\mathbf{x}) \ln{ \left[ \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \right) \right] } d \mathbf{x} \\
&= – \int p(\mathbf{x}) \ln{ \left[ \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \right] } d \mathbf{x} – \int p(\mathbf{x}) \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \right) d \mathbf{x} \\
&= – \int p(\mathbf{x}) \left( – \frac{D}{2} \ln{(2 \pi)} – \frac{1}{2} \ln{|\Sigma|} \right) d \mathbf{x} + \frac{1}{2}\int p(\mathbf{x})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) d \mathbf{x} \\
&= \left( \frac{D}{2} \ln{(2 \pi)} + \frac{1}{2} \ln{|\Sigma|} \right) \int p(\mathbf{x}) d \mathbf{x} + \frac{1}{2}\int p(\mathbf{x})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) d \mathbf{x} \\
&= \frac{D}{2} \ln{(2 \pi)} + \frac{1}{2} \ln{|\Sigma|} + \frac{1}{2}\int p(\mathbf{x})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) d \mathbf{x} \quad (1)
\end{align}
$$

以下、第$3$項の$\displaystyle \frac{1}{2}\int p(\mathbf{x})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) d \mathbf{x}$に着目し、変形を行う。
$$
\large
\begin{align}
\frac{1}{2}\int p(\mathbf{x}) & (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) d \mathbf{x} = \frac{1}{2}\int p(\mathbf{x}) \mathrm{Tr} \left[ (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \right] d \mathbf{x} \\
&= \frac{1}{2}\int p(\mathbf{x}) \mathrm{Tr} \left[ \Sigma^{-1}(\mathbf{x}-\mathbf{\mu})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \right] d \mathbf{x} \\
&= \frac{1}{2} \mathbb{E} \left[ \mathrm{Tr} \left( \Sigma^{-1}(\mathbf{x}-\mathbf{\mu})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \right) \right] \\
&= \frac{1}{2} \mathrm{Tr} \left( \Sigma^{-1} \mathbb{E} \left[(\mathbf{x}-\mathbf{\mu})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \right] \right) \\
&= \frac{1}{2} \mathrm{Tr} \left( \Sigma^{-1} \mathbb{E} \left[(\mathbf{x}\mathbf{x}^{\mathrm{T}}-2\mathbf{x}\mathbf{\mu}^{\mathrm{T}}+\mathbf{\mu}\mathbf{\mu}^{\mathrm{T}}) \right] \right) \\
&= \frac{1}{2} \mathrm{Tr} \left( \Sigma^{-1} (\mathbf{\mu}\mathbf{\mu}^{\mathrm{T}}+\Sigma-2\mathbf{\mu}\mathbf{\mu}^{\mathrm{T}}+\mathbf{\mu}\mathbf{\mu}^{\mathrm{T}}) \right) \\
&= \frac{1}{2} \mathrm{Tr} \left( \Sigma^{-1}\Sigma \right) \\
&= \frac{1}{2} \mathrm{Tr}(I_{D}) = \frac{D}{2} \quad (2)
\end{align}
$$

途中の式変形にあたっては$(2.59)$式や$(2.62)$式を用いた。$(2)$式を$(1)$式に代入することで下記が得られる。
$$
\large
\begin{align}
H[\mathbf{x}] &= \frac{D}{2} \ln{(2 \pi)} + \frac{1}{2} \ln{|\Sigma|} + \frac{1}{2}\int p(\mathbf{x})(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) d \mathbf{x} \quad (1) \\
&= \frac{D}{2} \ln{(2 \pi)} + \frac{1}{2} \ln{|\Sigma|} + \frac{D}{2} \\
&= \frac{1}{2} \ln{|\Sigma|} + \frac{D}{2}(1+\ln{(2 \pi)}) \quad (2.283)
\end{align}
$$

よって$(2.283)$式が成立する。

問題$2.19$

$$
\large
\begin{align}
\mathbf{\Sigma} \mathbf{u}_{i} &= \lambda_{i} \mathbf{u}_{i} \\
|\mathbf{u}_{i}| &= 1
\end{align}
$$

$\lambda_{i}$を$\mathbf{\Sigma}$の固有値、$\mathbf{u}_{i} $を$\mathbf{\Sigma}$の大きさ$1$の固有ベクトルと定めると、上記が成立する。このとき$i$列が$\mathbf{u}_{i}^{\mathrm{T}}$の行列を$\mathbf{U}$、$(i,i)$成分が$\lambda_{i}$の対称行列を$\Lambda$とおくと、下記が成立する。
$$
\large
\begin{align}
\mathbf{\Sigma} \mathbf{U} = \mathbf{U} \Lambda
\end{align}
$$

このとき$\mathbf{U}$が直交行列であるので$\mathbf{U}\mathbf{U}^{\mathrm{T}}=\mathit{I}$より、$\mathbf{U}^{\mathrm{T}}=\mathbf{U}^{-1}$が成立する。よって、$(1)$式は下記のように変形できる。
$$
\large
\begin{align}
\mathbf{\Sigma} \mathbf{U} &= \mathbf{U} \Lambda \quad (1) \\
\mathbf{\Sigma} \mathbf{U} \mathbf{U}^{-1} &= \mathbf{U} \Lambda \mathbf{U}^{-1} \\
\mathbf{\Sigma} &= \mathbf{U} \Lambda \mathbf{U}^{\mathrm{T}} \quad (2)
\end{align}
$$

また、$(1)$式より下記のように$\mathbf{\Sigma}^{-1}$を導出することもできる。
$$
\large
\begin{align}
\mathbf{\Sigma} \mathbf{U} &= \mathbf{U} \Lambda \quad (1) \\
\mathbf{\Sigma}^{-1} \mathbf{\Sigma} \mathbf{U} &= \mathbf{\Sigma}^{-1} \mathbf{U} \Lambda \\
\mathbf{\Sigma}^{-1} \mathbf{U} \Lambda &= \mathbf{U} \\
\mathbf{\Sigma}^{-1} \mathbf{U} \Lambda \Lambda^{-1} \mathbf{U}^{-1} &= \mathbf{U} \Lambda^{-1} \mathbf{U}^{-1} \\
\mathbf{\Sigma}^{-1} &= \mathbf{U} \Lambda^{-1} \mathbf{U}^{\mathrm{T}} \quad (3)
\end{align}
$$

以下、$(2)$式に基づいて$(2.48)$式を、$(3)$式に基づいて$(2.49)$式を示す。

・$(2.48)$式の導出
$(2)$式の$\mathbf{U} \Lambda \mathbf{U}^{\mathrm{T}}$の$i,j$成分を$(\mathbf{U} \Lambda \mathbf{U}^{\mathrm{T}})_{ij}$とおくとき、$(\mathbf{U} \Lambda \mathbf{U}^{\mathrm{T}})_{ij}$は下記のように考えられる。
$$
\large
\begin{align}
(\mathbf{U} \Lambda \mathbf{U}^{\mathrm{T}})_{ij} &= \left(\begin{array}{ccc} u_{i1} & \cdots & u_{iD} \end{array} \right) \Lambda \left(\begin{array}{c} u_{j1} \\ \vdots \\ u_{jD} \end{array} \right) \\
&= \left(\begin{array}{ccc} \lambda_{1} u_{i1} & \cdots & \lambda_{D} u_{iD} \end{array} \right) \left(\begin{array}{c} u_{j1} \\ \vdots \\ u_{jD} \end{array} \right) \\
&= \sum_{k=1}^{D} \lambda_{k} u_{ik} u_{jk}
\end{align}
$$

また、$\lambda_{k} \mathbf{u}_{k} \mathbf{u}_{k}^{\mathrm{T}}$の$i,j$成分$(\lambda_{k} \mathbf{u}_{k} \mathbf{u}_{k}^{\mathrm{T}})_{ij}$は下記のように考えることができる。
$$
\large
\begin{align}
(\lambda_{k} \mathbf{u}_{k} \mathbf{u}_{k}^{\mathrm{T}})_{ij} = \lambda_{k} u_{ik} u_{jk} \quad (4)
\end{align}
$$

よって$\displaystyle \left(\sum_{k=1}^{D} \lambda_{k} \mathbf{u}_{k} \mathbf{u}_{k}^{\mathrm{T}}\right)_{ij}$は下記のように考えられる。
$$
\large
\begin{align}
\left(\sum_{k=1}^{D} \lambda_{k} \mathbf{u}_{k} \mathbf{u}_{k}^{\mathrm{T}}\right)_{ij} = \sum_{k=1}^{D} \lambda_{k} u_{ik} u_{jk} \quad (5)
\end{align}
$$

$(4)$式と$(5)$式が一致することより$(2.48)$式が示される。

・$(2.49)$式の導出
$(3)$式の$\Lambda^{-1}$は$i,i$成分が$\lambda_{i}^{-1}$の対角行列である。よって$(2.48)$式の導出と同様に考えることで$(2.49)$式が示される。

・参考
分散共分散行列の逆行列の導出

問題$2.20$

$(2.48)$式より、$D$次元の分散共分散行列の$\mathbf{\Sigma}$は下記のように表せる。
$$
\large
\begin{align}
\mathbf{\Sigma} = \sum_{i=1}^{D} \lambda_{i} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm{T}}
\end{align}
$$
これを二次形式の$\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a}$に代入すると下記のようになる。
$$
\large
\begin{align}
\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a} &= \mathbf{a}^{\mathrm{T}} \left( \sum_{i=1}^{D} \lambda_{i} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm{T}} \right) \mathbf{a} \\
&= \lambda_{i} \sum_{i=1}^{D} \mathbf{a}^{\mathrm{T}} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm{T}} \mathbf{a} \\
&= \lambda_{i} \sum_{i=1}^{D} (\mathbf{a}^{\mathrm{T}} \mathbf{u}_{i})^2
\end{align}
$$
$\lambda_{i} \leq 0$の$\lambda_{i}$が存在する場合、$\mathbf{u}_i=1$かつ$\mathbf{u}_j=0 (j \neq i)$が成立するように$\mathbf{a}$を考えることで、二次形式の$\mathbf{a}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{a}$は$0$以下の値となる。よって、$\lambda_{i} > 0$は必要条件となる。

標本調査(sample survey)法の基本トピックまとめ

標本調査(sample survey)法」は母集団(population)からその一部の標本(sample)を取り出す標本抽出(sampling)に基づいて行う調査である。当記事では主に標本調査を行うにあたっての標本抽出の方法についてを中心に取りまとめを行う。
内容の作成にあたっては「統計学実践ワークブック」の$21$章などを参考にした。

・ワークブックまとめ
https://www.hello-statisticians.com/toukeikentei-semi1

標本抽出法

無作為抽出法・有意抽出法

無作為抽出法(random sampling)」は母集団に対して、主に乱数などを用いて標本抽出を行う手法である。抽出にあたっては母集団のそれぞれの抽出単位(標本)に対して予め確率を定めることもあれば、それぞれの抽出単位に等しい確率を割り当てることもある。
等しい確率を割り振る場合を「単純無作為抽出法(simple random sampling)」という。

一方で、母集団からの標本の抽出にあたって、調査を行う側の主観や意図が入る方法を「有意抽出法(purposive sampling)」と呼ぶ。

復元抽出・非復元抽出

復元抽出(sampling with replacement)」はサンプリング1回毎に抽出した標本を母集団に戻してサンプリングを行う手法、「非復元抽出(sampling without replacement)」は同じ抽出単位を2回以上抽出しない手法である。

復元抽出と非復元抽出の違いに関しては母平均$\mu$の推定を考えると顕著である。まず非復元抽出を行なって得たサンプルの$x_i \quad (i=1,2,…,n)$に関して考える。
$$
\large
\begin{align}
\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i
\end{align}
$$
母平均の推定量を考えるにあたって、上記のような標本平均$\bar{x}$を用いることを考える。このとき$\bar{x}$の期待値の$E[\bar{x}]$と分散の$V[\bar{x}]$は下記のようになる。
$$
\large
\begin{align}
E[\bar{x}] &= \mu \\
V[\bar{x}] &= \frac{N-n}{N-1} \cdot \frac{1}{n} \sigma^2
\end{align}
$$

分散の導出に関しては下記などが参考になる。

一方で、復元抽出に関しては、標本平均$\bar{x}$の期待値の$E[\bar{x}]$と分散の$V[\bar{x}]$は下記のようになる。
$$
\large
\begin{align}
E[\bar{x}] &= \mu \\
V[\bar{x}] &= \frac{\sigma^2}{n}
\end{align}
$$
上記は非復元抽出において$N \to \infty$を計算することで導出したと考えることもできる。

クラスター抽出法

標本抽出において推定の精度を高めるにあたって、様々な手法が用いられるが、「クラスター抽出法(cluster sampling)」もその一つである。たとえば学校の生徒の例で考えると、母集団の学校全体の生徒に対して、クラスを一つの単位と見て標本抽出を行うことも考えられる。
このようなクラスター抽出法は調査する対象がまとまっていることで調査が行いやすい一方で、どのクラスを選ぶかによって結果のばらつきが大きいことにも注意が必要である。

クラスター抽出法は、多段抽出法、層化抽出法、系統的抽出法などに大別できるので以下はそれぞれについて確認する。

多段抽出法

二段抽出法(two-stage sampling)」は、母集団をいくつかのグループに分け、その中からいくつかを抽出する手法である。母集団を振り分けるグループを第1次抽出単位(first-stage sampling unit)、抽出した第1次抽出単位から第2次抽出単位(two-stage sampling unit)を抽出する。

また、2次抽出単位からさらに第3次抽出単位、第4次抽出単位と抽出することもでき、これを「多段抽出法」と呼ぶ。

たとえば全国調査を行うにあたって、都道府県を第1次抽出単位としたのちに、市区町村を第2次、丁目番地を第3次を考え、そこから各世帯を抽出する方法などが多段抽出法の例だと抑えておくと良い。

層化抽出法

層化抽出法(stratified sampling)」は、母集団を層(stratum)と呼ばれるグループに分け、全ての層から決められた大きさの調査単位を抽出する手法である。

系統的抽出法

まとめ

マルコフ連鎖の定常分布・パラメータ推定|問題演習で理解する統計学【14】

下記などで取り扱った、マルコフ連鎖の定常分布・パラメータ推定に関する問題演習を通した理解ができるように問題・解答・解説をそれぞれ作成しました。

・標準演習$100$選
https://www.hello-statisticians.com/practice_100

基本問題

マルコフ連鎖の定義

・問題
$$
\begin{align}
P(X_{n+1}|X_{n}, X_{n-1}, … , X_{1}, X_{0}) = P(X_{n+1}|X_{n})
\end{align}
$$
マルコフ連鎖の定義にあたっては基本的に上記の式で定義される。この式は一度理解すればシンプルで見やすい一方で、確率の表記に慣れていないとイメージがつきにくい。
よって、マルコフ連鎖の定義式のイメージがつくように演習問題を作成することとした。

下記の問題に答えよ。
i) 全事象が$U={1,2,3,4,5,6,7,8,9,10}$、事象$A$が$A={1,5,7}$のように表されるとき、確率$P(A)$を求めよ。ただし、それぞれの値が観測される確率は同様に確からしいとする。
ⅱ) $0$より大きい整数で表される確率変数$X$に関し、$P(X=1)=0.2, P(X=2)=0.3$のとき、$P(X \geq 3)$を求めよ。
ⅲ) 事象$B$が起こった前提での事象$A$の起こる確率を条件付き確率といい、$P(A|B)$のように表す。条件付き確率$P(A|B)$を$B$が起こる確率の$P(B)$と$A$と$B$が同時に起こる確率の$P(A \cap B)$を用いて表せ。
iv) 季節を$S$、その日の最高気温を$T$、場所を$P$のように表す際に、下記の確率がどのようになり得るかについて考えよ。
$$
\begin{align}
& P(T \geq 15|S=夏、P=東京) \\
& P(T \geq 15|S=冬、P=東京) \\
& P(T \geq 15|S=冬、P=沖縄)
\end{align}
$$
v) マルコフ連鎖はⅲ)、iv)で取り扱った条件付き確率を用いて定義するが、冒頭の式を条件付き確率の理解に基づいて解釈せよ。

・解答
i)
求める確率$P(A)$は下記のようになる。
$$
\large
\begin{align}
P(A) &= \frac{3}{10} \\
&= 0.3
\end{align}
$$

ⅱ)
求める確率$P(X \geq 3)$は下記のようになる。
$$
\large
\begin{align}
P(X \geq 3) &= 1 – (P(X=1) + P(X=2)) \\
&= 1 – (0.2 + 0.3) \\
&= 0.5
\end{align}
$$

ⅲ)
条件付き確率$P(A|B)$は$P(B)$と$P(A \cap B)$を用いて下記のように表すことができる。
$$
\large
\begin{align}
P(A|B) = \frac{P(A \cap B)}{P(B)}
\end{align}
$$

iv)
東京の夏の最高気温は基本的に$15$度を超えることが多いので、$P(T \geq 15|S=夏、P=東京)$は$1$に近い値になる。また、冬の最高気温が$15$度を超えることは少ないため$P(T \geq 15|S=冬、P=東京)$は$0$に近い値となる。
一方で東京より赤道に近い沖縄では冬もそれなりに暖かいため、$P(T \geq 15|S=冬、P=沖縄)$は$1$に近い値となる。

v)
マルコフ連鎖は条件付き確率の形式で表されるが、「直前の値に基づいてのみ次の値が決まる」と解釈することができる。

・解説
マルコフ連鎖の理解にあたって数式が抽象的でわかりにくい場合もあると思われたため、数式の表記になれることができるように作成を行いました。特にⅲ)〜ⅴ)で取り扱った条件付き確率については様々なトピックで出てくるので、式の定義がわからないと全くわからないになりがちです。
また、ここで取り扱ったマルコフ連鎖の定義を拡張して強化学習の数式なども表されたりするので、抑えておくことで様々な概念の理解に役立つと思います。

状態確率ベクトル・確率行列・定常分布

・問題
マルコフ連鎖を考えるにあたって主要トピックとなるのは状態確率ベクトル(state probability vector)と確率行列(probability matrix)である。
ここでマルコフ連鎖は「直前の値に基づいてのみ次の値が決まる」ことを定義しているため、状態を確率的に表したベクトルに確率行列を作用させることで具現化することができるというのは抑えておくと良い。
状態確率ベクトルが$N$個の状態を持つと考えた際に、時点$n$における状態確率ベクトル$\pi_n$と確率行列$Q$を下記のように定義する。
$$
\begin{align}
\pi_n &= \left(\begin{array}{ccc} p_n(1) & … & p_n(N) \end{array} \right) \\
Q &= \left(\begin{array}{ccc} p(1,1) & … & p(1,N) \\ … & … & … \\ p(N,1) & … & p(N,N) \end{array} \right)
\end{align}
$$
このとき下記の問題に答えよ。

i) 時点$0$が初期状態を表し、状態の数が$N=3$かつ状態$2$の確率が$0.8$、状態$3$の確率が$0.2$のとき、初期分布$\pi_0$を求めよ。「時点$0$における状態確率ベクトル=初期分布」であることは前提とした。
ⅱ) i)のように初期分布$\pi_0$が与えられ、確率行列$Q$が下記のように与えられるとき、時点$1$における状態確率ベクトルの$\pi_1=\pi_0 Q$を求めよ。
$$
\begin{align}
Q &= \left(\begin{array}{ccc} 0.5 & 0.3 & 0.2 \\ 0.2 & 0.6 & 0.2 \\ 0.2 & 0.3 & 0.5 \end{array} \right)
\end{align}
$$
ⅲ) $\pi=\pi Q$が成立する$\pi$を定常分布であると考えるとき、ⅱ)で定義した$Q$に対応する定常分布の$\pi$を求めよ。

・解答
i)
初期分布$\pi_0$は下記のように表すことができる。
$$
\large
\begin{align}
\pi_n &= \left(\begin{array}{ccc} 0 & 0.8 & 0.2 \end{array} \right)
\end{align}
$$

ⅱ)
時点$1$における状態確率ベクトルの$\pi_1=\pi_0 Q$を計算すると下記のようになる。
$$
\large
\begin{align}
\pi_1 &= \pi_0 Q \\
&= \left(\begin{array}{ccc} 0 & 0.8 & 0.2 \end{array} \right) \left(\begin{array}{ccc} 0.5 & 0.3 & 0.2 \\ 0.2 & 0.6 & 0.2 \\ 0.2 & 0.3 & 0.5 \end{array} \right) \\
&= \left(\begin{array}{ccc} 0.16+0.04 & 0.48+0.06 & 0.16+0.1 \end{array} \right) \\
&= \left(\begin{array}{ccc} 0.2 & 0.54 & 0.26 \end{array} \right)
\end{align}
$$

ⅲ)
$\pi = \left(\begin{array}{ccc} a & b & c \end{array} \right)$とおき、$\pi=\pi Q$に代入する。
$$
\large
\begin{align}
\pi &= \pi Q \\
\left(\begin{array}{ccc} a & b & c \end{array} \right) &= \left(\begin{array}{ccc} a & b & c \end{array} \right) \left(\begin{array}{ccc} 0.5 & 0.3 & 0.2 \\ 0.2 & 0.6 & 0.2 \\ 0.2 & 0.3 & 0.5 \end{array} \right) \\
\left(\begin{array}{ccc} a & b & c \end{array} \right) &= \left(\begin{array}{ccc} 0.5a+0.2b+0.2c & 0.3a+0.6b+0.3c & 0.2a+0.2b+0.5c \end{array} \right)
\end{align}
$$
上記より、$b=1.5a=1.5c$が得られる。$a+b+c=1$に代入することで下記を求めることができる。
$$
\large
\begin{align}
a &= \frac{2}{7} \\
b &= \frac{3}{7} \\
c &= \frac{2}{7}
\end{align}
$$
上記より、定常分布の$\pi$は下記のように表せる。
$$
\large
\begin{align}
\pi = \left(\begin{array}{ccc} \displaystyle \frac{2}{7} & \displaystyle \frac{3}{7} & \displaystyle \frac{2}{7} \end{array} \right)
\end{align}
$$

・解説
状態確率ベクトル・確率行列・定常分布について取り扱いました。確率行列については行と列の定義がわかりにくいですが、$p(i,j)$とあれば「$i$から$j$に推移する確率」と解釈するのが良いです。
この行列の設定については転置行列を考えて状態確率ベクトルの左からかけるという定義の仕方も可能なように思われますが、$\pi_1=\pi_0 Q$が成立するように定義されているというのもあるので、基本的に教科書などの定義に合わせて表記を抑えておくと良いと思います。
$(\pi_n Q)^{\mathrm{T}} = Q^{\mathrm{T}} \pi_n^{\mathrm{T}}$のようにも考えられるとは思いますが、表記は統一しておく方が良さそうです。

発展問題

遷移確率行列と定常分布の式

・問題
「状態確率ベクトル・確率行列・定常分布」で取り扱ったように、マルコフ連鎖を考えた際に定常分布$\pi$は遷移確率行列$Q$を元に$\pi = \pi Q$を解くことによって得られる。以下、$\pi = \pi Q$の式に関して考察を行う。下記の問いにそれぞれ答えよ。

i) $\pi = \pi Q$は行列$Q$の固有値$1$に対応する左固有ベクトルと考えることができる。$\pi = \pi Q$の両辺の転置を考えることで、$Q^{\mathrm{T}} \pi^{\mathrm{T}} = \pi^{\mathrm{T}}$が成立することを確かめよ。

ⅱ) $Q^{\mathrm{T}} \pi^{\mathrm{T}} = \pi^{\mathrm{T}}$より、$Q^{\mathrm{T}}, \pi^{\mathrm{T}}$を考える場合、$Q^{\mathrm{T}}$の固有値$1$の固有ベクトルが$\pi^{\mathrm{T}}$であると解釈できる。以下、$Q^{\mathrm{T}}$が固有値$1$を持つことを確認し、示す。
$$
\large
\begin{align}
Q &= \left(\begin{array}{cc} 0.1 & 0.9 \\ 0.2 & 0.8 \end{array} \right) \\
Q^{\mathrm{T}} &= \left(\begin{array}{cc} 0.1 & 0.2 \\ 0.9 & 0.8 \end{array} \right)
\end{align}
$$

上記の$2$次正方行列$Q^{\mathrm{T}}$の固有値を計算せよ。

ⅲ) ⅱ)で定めた$Q^{\mathrm{T}}$の固有値$1$に対応する要素の和が$1$である固有ベクトルを計算し、$\pi^{\mathrm{T}}$が定常分布$\pi$の転置ベクトルであることを確認せよ。

iv) 余因子展開を用いて下記の行列$X$の行列式$\det{X}$を計算せよ。
$$
\large
\begin{align}
X &= \left( \begin{array}{ccc} 2 & 0 & 0 \\ 3 & 1 & 5 \\ 1 & 2 & 1 \end{array} \right)
\end{align}
$$

v) $n$次の遷移行列の転置行列$Q^{\mathrm{T}}$に関して$(Q^{\mathrm{T}} – \lambda I_n)$を考える。このとき$2$行目から$n$行目を$1$行目に加えるとき、$1$行目に$1-\lambda$が並ぶことを確認し、基本変形と余因子展開を用いることで$Q^{\mathrm{T}}$が固有値$1$を持つことを示せ。

・解答
i)
$(AB)^{\mathrm{T}}=B^{\mathrm{T}}A^{\mathrm{T}}$より、$\pi Q = \pi$の両辺の転置は下記のように考えることができる。
$$
\large
\begin{align}
(\pi Q)^{\mathrm{T}} &= \pi^{\mathrm{T}} \\
Q^{\mathrm{T}} \pi^{\mathrm{T}} &= \pi^{\mathrm{T}}
\end{align}
$$

ⅱ)
下記のように固有方程式$\det{(\lambda I_2 – Q^{\mathrm{T}})} = 0$を固有値$\lambda$に関して解くことができる。
$$
\large
\begin{align}
\det{(Q^{\mathrm{T}}-\lambda I_2)} &= 0 \\
\left| \begin{array}{cc} 0.1-\lambda & 0.2 \\ 0.9 & 0.8-\lambda \end{array} \right| &= 0 \\
(0.1-\lambda)(0.8-\lambda) – 0.18 &= 0 \\
\lambda^2 – 0.9 \lambda + 0.08 – 0.18 &= 0 \\
\lambda^2 – 0.9 \lambda – 0.1 &= 0 \\
(\lambda – 1)(\lambda + 0.1) &= 0 \\
\lambda &= 1, -0.1
\end{align}
$$

ⅲ)
$\displaystyle \pi^{\mathrm{T}} = \left( \begin{array}{c} x \ y \end{array} \right)$とおくと、$Q^{\mathrm{T}} \pi^{\mathrm{T}} = \pi^{\mathrm{T}}$は下記のように表せる。
$$
\large
\begin{align}
Q^{\mathrm{T}} \pi^{\mathrm{T}} &= \pi^{\mathrm{T}} \\
\left( \begin{array}{cc} 0.1 & 0.2 \\ 0.9 & 0.8 \end{array} \right) \left( \begin{array}{c} x \\ y \end{array} \right) &= \left( \begin{array}{c} x \\ y \end{array} \right) \\
\left( \begin{array}{c} 0.1x+0.2y \\ 0.9x+0.8y \end{array} \right) &= \left( \begin{array}{c} x \\ y \end{array} \right)
\end{align}
$$

上記より$0.9x=0.2y$が得られるので、$x+y=1$の場合は$\displaystyle x=\frac{2}{11}, y=\frac{9}{11}$が得られる。

$Q^{\mathrm{T}} \pi^{\mathrm{T}} = \pi^{\mathrm{T}}$は$\pi = \pi Q$から導出されることからここで得られた$\pi^{\mathrm{T}}$は定常分布$\pi$の転置ベクトルであると考えることができる。

iv) $\det{X}$は下記のように余因子展開を用いて計算できる。
$$
\large
\begin{align}
\det{X} &= \left| \begin{array}{ccc} 2 & 0 & 0 \\ 3 & 1 & 5 \\ 1 & 2 & 1 \end{array} \right| \\
&= 2 \cdot (-1)^{1+1} \left| \begin{array}{ccc} 1 & 5 \\ 2 & 1 \end{array} \right| \\
&= 2(1 – 5 \cdot 2) = -18
\end{align}
$$

v)
$\det{(Q^{\mathrm{T}} – \lambda I_n)}$は下記のように考えることができる。
$$
\large
\begin{align}
\det{(Q^{\mathrm{T}} – \lambda I_n)} &= \left| \begin{array}{ccccc} q_{11}-\lambda & q_{21} & q_{31} & \cdots & q_{51} \\ q_{12} & q_{22}-\lambda & q_{32} & \cdots & q_{52} \\ q_{13} & q_{23} & q_{33}-\lambda & \cdots & q_{53} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ q_{1n} & q_{2n} & q_{3n} & \cdots & q_{nn}-\lambda \end{array} \right| \\
&= \left| \begin{array}{ccccc} \displaystyle \sum_{i=1}^{n} q_{1i}-\lambda & \displaystyle \sum_{i=1}^{n} q_{2i}-\lambda & \displaystyle \sum_{i=1}^{n} q_{3i}-\lambda & \cdots & \displaystyle \sum_{i=1}^{n} q_{ni}-\lambda \\ q_{12} & q_{22}-\lambda & q_{32} & \cdots & q_{52} \\ q_{13} & q_{23} & q_{33}-\lambda & \cdots & q_{53} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ q_{1n} & q_{2n} & q_{3n} & \cdots & q_{nn}-\lambda \end{array} \right| \\
&= \left| \begin{array}{ccccc} 1-\lambda & 1-\lambda & 1-\lambda & \cdots & 1-\lambda \\ q_{12} & q_{22}-\lambda & q_{32} & \cdots & q_{52} \\ q_{13} & q_{23} & q_{33}-\lambda & \cdots & q_{53} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ q_{1n} & q_{2n} & q_{3n} & \cdots & q_{nn}-\lambda \end{array} \right| \\
&= \left| \begin{array}{ccccc} 1-\lambda & 0 & 0 & \cdots & 0 \\ q_{12} & -q_{12}+q_{22}-\lambda & -q_{12}+q_{32} & \cdots & -q_{12}+q_{52} \\ q_{13} & -q_{13}+q_{23} & -q_{13}+q_{33}-\lambda & \cdots & -q_{13}+q_{53} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ q_{1n} & -q_{1n}+q_{2n} & -q_{1n}+q_{3n} & \cdots & -q_{1n}+q_{nn}-\lambda \end{array} \right| \\
&= (1-\lambda) \cdot (-1)^{1+1} \left| \begin{array}{cccc} -q_{12}+q_{22}-\lambda & -q_{12}+q_{32} & \cdots & -q_{12}+q_{52} \\ -q_{13}+q_{23} & -q_{13}+q_{33}-\lambda & \cdots & -q_{13}+q_{53} \\ \vdots & \vdots & \ddots & \vdots \\ -q_{1n}+q_{2n} & -q_{1n}+q_{3n} & \cdots & -q_{1n}+q_{nn}-\lambda \end{array} \right|
\end{align}
$$

上記より$\det{(Q^{\mathrm{T}} – \lambda I_n)}=0$の解の一つが$\lambda=1$であることが示される。

・解説
v)の$Q^{\mathrm{T}}$の要素は$Q=(q_{ij})$の転置を元に$q_{ji}$で表したことに注意が必要です。$1$行目に$1-\lambda$が並んだのは遷移確率行列の定義から導出できることに関して抑えておくと良いと思います。

マルコフ連鎖のパラメータ推定

・問題
マルコフ連鎖のパラメータ推定を考えるにあたっては基本的に「最尤法」と同様に考えれば良い。最尤法は同時確率を尤度と読み替え、尤度を最大にするパラメータを求めるという手法である。確率変数列${X_n}$に関し、観測列${x_n}$が与えられたとき、同時確率は下記のようになる。
$$
\large
\begin{align}
P(X_0=x_0, X_1=x_1, …, X_n=x_n) = p(x_0) \prod_{k=1}^{n} p_{\theta}(x_{k-1}, x_{k}) \qquad (1)
\end{align}
$$
上記において、$p_{\theta}(x_{k-1}, x_{k})$を考えたが、$p_{\theta}(i, j)$を「状態$i$から状態$j$に移る確率をパラメータ$\theta$を用いて表したもの」と考えるものとする。
下記の問題に答えよ。

i) 冒頭で表した式$(1)$が成立するにあたってはマルコフ性が成立していなければならない。このことを下記のマルコフ連鎖の定義式を用いて説明せよ。
$$
\begin{align}
P(X_{n+1}|X_{n}, X_{n-1}, … , X_{1}, X_{0}) = P(X_{n+1}|X_{n})
\end{align}
$$
ⅱ) 状態の数を$N=3$、確率行列$Q_{\theta}$が下記のように表すことができるとする。
$$
\begin{align}
Q_{\theta} &= \left(\begin{array}{ccc} 0.5 & \theta & 0.5-\theta \\ 0.3-\theta & 0.7 & \theta \\ 0.1 & 0.2 & 0.7 \end{array} \right)
\end{align}
$$
このとき$p_{\theta}(1,2), p_{\theta}(1,3), p_{\theta}(2,3)$をそれぞれ$\theta$を用いて表せ。
ⅲ) 観測列$\{x_n\}$が$\{1,1,2,3,2,1\}$のように観測される確率$P(X_0=1,X_1=1,X_2=2,X_3=3,X_4=2,X_5=1)$を$\theta$を用いて表せ。
iv) 尤度を$L(\theta)=P(X_0=1,X_1=1,X_2=2,X_3=3,X_4=2,X_5=1)$のようにおくとき、$L(\theta)$を最大にする$\theta$と$\log{L(\theta)}$を最大にする$\theta$は同じであることを説明せよ。
v) $L(\theta)$を最大にする$\theta$を求めよ。

・解答
i)
同時確率$P(X_0,X_1,X_2)$を考えるとき、条件付き確率の公式に基づいて下記のように表すことができる。
$$
\large
\begin{align}
P(X_0,X_1,X_2) &= P(X_1,X_2|X_0)P(X_0) \\
&= P(X_2|X_1,X_0)P(X_1|X_0)P(X_0)
\end{align}
$$
上記の$P(X_2|X_1,X_0)$はマルコフ連鎖の定義式より、$P(X_2|X_1,X_0)=P(X_2|X_1)$のように変形することができるので、$P(X_0,X_1,X_2)$は下記のように変形できる。
$$
\large
\begin{align}
P(X_0,X_1,X_2) &= P(X_2|X_1,X_0)P(X_1|X_0)P(X_0) \\
&= P(X_2|X_1)P(X_1|X_0)P(X_0) \\
&= P(X_0) \prod_{k=1}^{2} p_{\theta}(X_{k-1}, X_{k})
\end{align}
$$
$P(X_2|X_1,X_0)=P(X_2|X_1)$がマルコフ性に基づいており、同様に$P(X_0,X_1,X_2,…,X_n)$についても考えることができる。

ⅱ)
確率行列$Q_{\theta}$より、$p_{\theta}(1,2), p_{\theta}(1,3), p_{\theta}(2,3)$はそれぞれ下記のように表せる。
$$
\large
\begin{align}
p_{\theta}(1,2) &= \theta \\
p_{\theta}(1,3) &= 0.5-\theta \\
p_{\theta}(2,3) &= \theta
\end{align}
$$

ⅲ)
確率行列$Q_{\theta}$より、$P(X_0=1,X_1=1,X_2=2,X_3=3,X_4=2,X_5=1)$は下記のように計算できる。
$$
\large
\begin{align}
P(X_0=1,X_1=1, &X_2=2,X_3=3,X_4=2,X_5=1) \\
&= 0.5 \times \theta \times \theta \times 0.2 \times (0.3-\theta) \\
&= 0.1 \theta^2 (0.3-\theta)
\end{align}
$$

iv)
対数関数$\log{x}$は定義域$x>0$において単調増加関数であるので、$L(\theta)$を最大にする$\theta$と$\log{L(\theta)}$を最大にする$\theta$は同じとなる。

v)
iv)より、$L(\theta)$を最大にする$\theta$を求めるにあたっては、$\log{L(\theta)}$を考えればよい。
$$
\large
\begin{align}
\log{L(\theta)} &= \log{0.1 \theta^2 (0.3-\theta)} \\
&= 2 \log{\theta} + \log{(0.3-\theta)} + Const
\end{align}
$$
上記を$\theta$に関して微分し、微分した値が$0$となるような$\theta$を求める。
$$
\large
\begin{align}
\frac{\partial \log{L(\theta)}}{\partial \theta} &= 0 \\
\frac{2}{\theta} – \frac{1}{0.3-\theta} &= 0 \\
\frac{2}{\theta} &= \frac{1}{0.3-\theta} \\
2(0.3-\theta) &= \theta \\
0.6 &= 3 \theta \\
\theta &= 0.2
\end{align}
$$
上記より、$L(\theta)$を最大にする$\theta$は$\theta=0.2$となる。

マルコフ連鎖と強化学習

・問題
強化学習は意思決定問題などの解法に用いられるが、問題設定がマルコフ連鎖に基づくことに注意が必要である。条件付き確率のフォーマットを用いて$P(a_t|s_t)$のように立式されることが多いが、流れが複雑かつ直感的にわかりやすい解説などが少ない。

そこで当問題では強化学習の基本的な立式に関して確認を行い、「どのような問題」を「どのように解くのか」について具体的に確認を行う。下記の問いにそれぞれ答えよ。
i) 強化学習は「意思決定の最適化」を行う一連のアルゴリズムを指すことが多い。「最適な意思決定」とは状態$s_t$を観測した際に最適な行動$a_t$を選ぶことであると大まかに理解することができる。チェス・将棋・囲碁を元に状態$s_t$と行動$a_t$を例示せよ。
ⅱ) チェス・将棋・囲碁における「意思決定の最適化」を行うにあたって、マルコフ性がどのように成立するかについて簡単に解説せよ。

・解答
i)
チェス・将棋・囲碁では状態は「盤面」に対応し、行動はそれぞれのプレイヤーの手に相当する。プレイヤーの一連の手をまとめたものが「棋譜」であるので、「棋譜」は行動$a_t$の「系列」に相当する。

ⅱ)
チェス・将棋・囲碁のようなゲームでは手の推移に関わらず、盤面の状態のみを元に評価が可能である。よって、盤面のみを元に意思決定$a_t$を計算できることからマルコフ性が成立すると考えることができる。

・解説
i)の解答の「系列」は数の並びを表す「数列」を数以外も取り扱うように拡張した概念であると理解しておけば良いです。

参考書籍

・統計学実践ワークブック