ブログ

多次元正規分布におけるベイズの定理を用いた条件付き確率・周辺確率の導出

多次元正規分布に対してベイズの定理を適用した際の条件付き確率や周辺確率の確率密度関数の式の導出を取り扱います。ここでの導出結果を元に予測分布(Predictive distribution)なども考えることができるので、一通りの流れを抑えておくと良いと思います。

「パターン認識と機械学習」の上巻の$2.3.3$節の「Bayes’ theorem for Gaussian variables」を参考に作成を行いました。

また、$(\mathrm{o.xx})$の形式の式番号は「パターン認識と機械学習」の式番号に対応させました。

・参考
多次元正規分布における条件付き確率の導出
多次元正規分布における周辺分布の導出

前提の確認

問題設定

下記のように周辺分布$p(\mathbf{x})$と条件付き確率分布$p(\mathbf{y}|\mathbf{x})$を考える。
$$
\large
\begin{align}
p(\mathbf{x}) &= \mathcal{N}(\mathbf{x}|\mathbf{\mu},\mathbf{\Lambda}^{-1}) \quad (2.99) \\
p(\mathbf{y}|\mathbf{x}) &= \mathcal{N}(\mathbf{y}|\mathbf{A}\mathbf{x}+\mathbf{b},\mathbf{L}^{-1}) \quad (2.100)
\end{align}
$$

ここで上記に対し、周辺分布$p(\mathbf{y})$と条件付き確率分布$p(\mathbf{x}|\mathbf{y})$を求めることを考える。ここでの周辺分布の導出は予測分布の導出に出てくるので、特に抑えておくと良い。

条件付き確率分布

$$
\large
\begin{align}
N(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma}) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) \right) \quad (1)
\end{align}
$$

$(1)$式の$\mathbf{x}, \mathbf{\mu}, \mathbf{\Sigma}$に関して下記のような分割を考える。
$$
\large
\begin{align}
\mathbf{x} &= \left(\begin{array}{c} \mathbf{x}_{a} \\ \mathbf{x}_{b} \end{array} \right) \\
\mathbf{\mu} &= \left(\begin{array}{c} \mathbf{\mu}_{a} \\ \mathbf{\mu}_{b} \end{array} \right) \\
\mathbf{\Sigma} &= \left(\begin{array}{c} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \end{array} \right)
\end{align}
$$

上記のように$\mathbf{x}, \mathbf{\mu}, \mathbf{\Sigma}$の分割を考えた際に、条件付き確率分布分布$\displaystyle p(\mathbf{x}_{a}|\mathbf{x}_{b})$の期待値$\mathbb{E}[\mathbf{x}_{a}]$と共分散行列$\mathrm{cov}[\mathbf{x}_{a}]$に関して、$\mathbb{E}[\mathbf{x}_{a}|\mathbf{x}_{b}]=\mathbf{\mu}_{a} – \mathbf{\Lambda}_{aa}^{-1}\mathbf{\Lambda}_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b})=\mathbf{\mu}_{a} + \mathbf{\Sigma}_{ab}\mathbf{\Sigma}_{bb}^{-1}(\mathbf{x}_{b}-\mathbf{\mu}_{b})$、$\mathrm{cov}[\mathbf{x}_{a}|\mathbf{x}_{b}]=\mathbf{\Lambda}_{aa}^{-1}=\mathbf{\Sigma}_{aa}-\mathbf{\Sigma}_{ab}\mathbf{\Sigma}_{bb}^{-1}\mathbf{\Sigma}_{ba}$が成立する。

・参考
多次元正規分布における条件付き確率分布の数式の導出

周辺分布

$$
\large
\begin{align}
N(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma}) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) \right) \quad (1)
\end{align}
$$

$(1)$式の$\mathbf{x}, \mathbf{\mu}, \mathbf{\Sigma}$に関して下記のような分割を考える。
$$
\large
\begin{align}
\mathbf{x} &= \left(\begin{array}{c} \mathbf{x}_{a} \\ \mathbf{x}_{b} \end{array} \right) \\
\mathbf{\mu} &= \left(\begin{array}{c} \mathbf{\mu}_{a} \\ \mathbf{\mu}_{b} \end{array} \right) \\
\mathbf{\Sigma} &= \left(\begin{array}{c} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \end{array} \right)
\end{align}
$$

上記のように$\mathbf{x}, \mathbf{\mu}, \mathbf{\Sigma}$の分割を考えた際に、周辺分布$\displaystyle p(\mathbf{x}_{a}) = \int p(\mathbf{x}_{a},\mathbf{x}_{b}) d \mathbf{x}_{b}$の期待値$\mathbb{E}[\mathbf{x}_{a}]$と共分散行列$\mathrm{cov}[\mathbf{x}_{a}]$に関して、$\mathbb{E}[\mathbf{x}_{a}]=\mathbf{\mu}_{a}, \mathrm{cov}[\mathbf{x}_{a}]=\Sigma_{aa}$が成立する。

・参考
多次元正規分布における周辺分布の数式の導出

導出の詳細

同時分布の導出

$p(\mathbf{x})$と$p(\mathbf{y}|\mathbf{x})$から$\mathbf{x}$と$\mathbf{y}$に関する同時分布を考えるにあたって、下記のように$\mathbf{z}$を定義する。
$$
\large
\begin{align}
\mathbf{z} = \left(\begin{array}{c} \mathbf{x} \\ \mathbf{y} \end{array} \right) \quad (2.101)
\end{align}
$$

このとき$p(\mathbf{z})$の対数を取った$\ln{p(\mathbf{z})}$に関して下記が成立する。
$$
\large
\begin{align}
& \ln{p(\mathbf{z})} = \ln{p(\mathbf{x},\mathbf{y})} = \ln{p(\mathbf{x})} + \ln{p(\mathbf{y}|\mathbf{x})} \\
&= – \frac{1}{2} (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Lambda} (\mathbf{x}-\mathbf{\mu}) – \frac{1}{2} (\mathbf{y}-\mathbf{A}\mathbf{x}-\mathbf{b})^{\mathrm{T}} \mathbf{L} (\mathbf{y}-\mathbf{A}\mathbf{x}-\mathbf{b}) + \mathrm{Const.} \quad (2.102)
\end{align}
$$

なお、式表記にあたっては$\mathbf{x}$と$\mathbf{y}$に関係ない項は$\mathrm{Const.}$でまとめた。このとき、$(2.102)$から$\mathbf{x}, \mathbf{y}$に関する$2$次の項だけを書き出すと以下のように表される。
$$
\large
\begin{align}
& – \frac{1}{2}\mathbf{x}^{\mathrm{T}} \left( \mathbf{\Lambda} + \mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{A} \right) \mathbf{x} – \frac{1}{2}\mathbf{y}^{\mathrm{T}}\mathbf{L}\mathbf{y} + \frac{1}{2}\mathbf{y}^{\mathrm{T}}\mathbf{L}\mathbf{A}\mathbf{x} + \frac{1}{2}\mathbf{x}^{\mathrm{T}}\mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{y} \\
&= – \frac{1}{2} \left(\begin{array}{cc} \mathbf{x}^{\mathrm{T}} & \mathbf{y}^{\mathrm{T}} \end{array} \right) \left(\begin{array}{cc} \mathbf{\Lambda} + \mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{A} & -\mathbf{A}^{\mathrm{T}}\mathbf{L} \\ -\mathbf{L}\mathbf{A} & \mathbf{L} \end{array} \right) \left(\begin{array}{c} \mathbf{x} \\ \mathbf{y} \end{array} \right) \\
&= – \frac{1}{2} \left(\begin{array}{c} \mathbf{x} \\ \mathbf{y} \end{array} \right)^{\mathrm{T}} \left(\begin{array}{cc} \mathbf{\Lambda} + \mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{A} & -\mathbf{A}^{\mathrm{T}}\mathbf{L} \\ -\mathbf{L}\mathbf{A} & \mathbf{L} \end{array} \right) \left(\begin{array}{c} \mathbf{x} \\ \mathbf{y} \end{array} \right) = – \frac{1}{2} \mathbf{z}^{\mathrm{T}} \mathbf{R} \mathbf{z}
\end{align}
$$

ここで$\mathbf{R}$は$p(\mathbf{z})$の精度行列であることから$\mathbf{z}$の共分散行列$\mathrm{cov}[\mathbf{z}]$に関して$\mathrm{cov}[\mathbf{z}]=\mathbf{R}^{-1}$が成立する。「演習 $2.29$」の導出により、$\mathrm{cov}[\mathbf{z}]$は下記のように表される。
$$
\large
\begin{align}
\mathrm{cov}[\mathbf{z}] &= \mathbf{R}^{-1} = \left(\begin{array}{cc} \mathbf{\Lambda} + \mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{A} & -\mathbf{A}^{\mathrm{T}}\mathbf{L} \\ -\mathbf{L}\mathbf{A} & \mathbf{L} \end{array} \right)^{-1} \\
&= \left(\begin{array}{cc} \mathbf{\Lambda}^{-1} & \mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}} \\ \mathbf{A}\mathbf{\Lambda}^{-1} & \mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}} \end{array} \right) \quad (2.105)
\end{align}
$$

次に$(2.102)$から$\mathbf{x}, \mathbf{y}$に関する$1$次の項だけを書き出すと以下のように表される。
$$
\large
\begin{align}
\mathbf{x}^{\mathrm{T}}\mathbf{\Lambda}\mathbf{\mu} – \mathbf{x}^{\mathrm{T}} \mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{b} + \mathbf{y}^{\mathrm{T}} \mathbf{L} \mathbf{b} &= \left(\begin{array}{cc} \mathbf{x}^{\mathrm{T}} & \mathbf{y}^{\mathrm{T}} \end{array} \right) \left(\begin{array}{c} \mathbf{\Lambda}\mathbf{\mu} – \mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{b} \\ \mathbf{L} \mathbf{b} \end{array} \right) \\
&= \left(\begin{array}{c} \mathbf{x} \\ \mathbf{y} \end{array} \right)^{\mathrm{T}} \left(\begin{array}{c} \mathbf{\Lambda}\mathbf{\mu} – \mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{b} \\ \mathbf{L} \mathbf{b} \end{array} \right) \quad (2.106)
\end{align}
$$

よって$\mathbf{z}$の期待値$\mathbb{E}[\mathbf{z}]$に関して下記が成立する。
$$
\large
\begin{align}
\mathbf{R}\mathbb{E}[\mathbf{z}] &= \left(\begin{array}{c} \mathbf{\Lambda}\mathbf{\mu} – \mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{b} \\ \mathbf{L} \mathbf{b} \end{array} \right) \\
\mathbb{E}[\mathbf{z}] &= \mathbf{R}^{-1} \left(\begin{array}{c} \mathbf{\Lambda}\mathbf{\mu} – \mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{b} \\ \mathbf{L} \mathbf{b} \end{array} \right) \\
&= \left(\begin{array}{cc} \mathbf{\Lambda}^{-1} & \mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}} \\ \mathbf{A}\mathbf{\Lambda}^{-1} & \mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}} \end{array} \right) \left(\begin{array}{c} \mathbf{\Lambda}\mathbf{\mu} – \mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{b} \\ \mathbf{L} \mathbf{b} \end{array} \right) \\
&= \left(\begin{array}{c} \mathbf{\mu} – \mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{b} + \mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{b} \\ \mathbf{A}\mathbf{\mu} – \mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{b} + \mathbf{b} + \mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{b} \end{array} \right) \\
&= \left(\begin{array}{c} \mathbf{\mu} \\ \mathbf{A}\mathbf{\mu} + \mathbf{b} \end{array} \right) \quad (2.108)
\end{align}
$$

条件付き確率分布の導出

・期待値$\mathbb{E}[\mathbf{x}|\mathbf{y}]$
$(2.105)$、$(2.108)$式は下記のように書き表せる。
$$
\large
\begin{align}
\mathbb{E}[\mathbf{z}] &= \left(\begin{array}{c} \mathbf{\mu} \\ \mathbf{A}\mathbf{\mu} + \mathbf{b} \end{array} \right) \quad (2.108) \\
\mathrm{cov}[\mathbf{z}] &= \mathbf{R}^{-1} = \left(\begin{array}{cc} \mathbf{\Lambda} + \mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{A} & -\mathbf{A}^{\mathrm{T}}\mathbf{L} \\ -\mathbf{L}\mathbf{A} & \mathbf{L} \end{array} \right)^{-1} = \left(\begin{array}{cc} \mathbf{\Lambda}^{-1} & \mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}} \\ \mathbf{A}\mathbf{\Lambda}^{-1} & \mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}} \end{array} \right) \quad (2.105)
\end{align}
$$

周辺分布の導出

・期待値$\mathbb{E}[\mathbf{y}]$
$(2.108)$式は下記のように書き表せる。
$$
\large
\begin{align}
\mathbb{E}[\mathbf{z}] = \left(\begin{array}{c} \mathbf{\mu} \\ \mathbf{A}\mathbf{\mu} + \mathbf{b} \end{array} \right) \quad (2.108)
\end{align}
$$

上記に対し、周辺分布$p(\mathbf{y})$の期待値の導出結果を適用すると、$\mathbb{E}[\mathbf{y}]=\mathbf{A}\mathbf{\mu} + \mathbf{b}$が対応することが確認できる。

・共分散行列$\mathrm{cov}[\mathbf{y}]$
$(2.105)$式は下記のように書き表せる。
$$
\large
\begin{align}
\mathrm{cov}[\mathbf{z}] = \left(\begin{array}{cc} \mathbf{\Lambda}^{-1} & \mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}} \\ \mathbf{A}\mathbf{\Lambda}^{-1} & \mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}} \end{array} \right) \quad (2.105)
\end{align}
$$

上記に対し、周辺分布$p(\mathbf{y})$の共分散行列の導出結果を適用すると、$\mathrm{cov}[\mathbf{y}]=\mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}} $が対応することが確認できる。

よって、$p(\mathbf{y}) = \mathcal{N}(\mathbf{x}|\mathbf{A}\mathbf{\mu} + \mathbf{b},\mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}})$のように考えられる。

多次元正規分布における周辺分布(Marginal distribution)の数式の導出を理解する

多次元正規分布の周辺分布(Marginal distribution)の導出を取り扱います。「パターン認識と機械学習(PRML)」の上巻の$2.3.2$節を参考に取りまとめを行いました。
積分消去やシューア補行列を用いた逆行列の取り扱いなど計算がかなり複雑なのでなるべく計算の詳細が確認できるように所々追記を行いました。なお、$2$次元正規分布における周辺分布の取り扱いに関しては下記でまとめましたのでこちらも合わせてご確認ください。
https://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist3.html

また、$(\mathrm{o.xx})$の形式の式番号は「パターン認識と機械学習」の式番号に対応させました。

前提の確認

問題設定

$$
\large
\begin{align}
N(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma}) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) \right) \quad (1)
\end{align}
$$

$(1)$式の$\mathbf{x}, \mathbf{\mu}, \mathbf{\Sigma}$に関して下記のような分割を考える。
$$
\large
\begin{align}
\mathbf{x} &= \left(\begin{array}{c} \mathbf{x}_{a} \\ \mathbf{x}_{b} \end{array} \right) \\
\mathbf{\mu} &= \left(\begin{array}{c} \mathbf{\mu}_{a} \\ \mathbf{\mu}_{b} \end{array} \right) \\
\mathbf{\Sigma} &= \left(\begin{array}{c} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \end{array} \right)
\end{align}
$$

上記のように$\mathbf{x}, \mathbf{\mu}, \mathbf{\Sigma}$の分割を考えた際に、周辺分布$\displaystyle p(\mathbf{x}_{a}) = \int p(\mathbf{x}_{a},\mathbf{x}_{b}) d \mathbf{x}_{b}$の期待値$\mathbb{E}[\mathbf{x}_{a}]$と共分散行列$\mathrm{cov}[\mathbf{x}_{a}]$を求め、$p(\mathbf{x}_{a}) = \mathcal{N}(\mathbb{E}[\mathbf{x}_{a}],\mathrm{cov}[\mathbf{x}_{a}])$のように表すことがここでの目標である。

精度行列の定義と共分散行列との対応

共分散行列の逆行列を取り扱うにあたって下記のように精度行列が定義される。
$$
\large
\begin{align}
\mathbf{\Lambda} &= \mathbf{\Sigma}^{-1}
\end{align}
$$

このとき共分散行列と精度行列の部分行列の対応は下記のように表される。
$$
\large
\begin{align}
\left(\begin{array}{cc} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \end{array} \right)^{-1} = \left(\begin{array}{cc} \Lambda_{aa} & \Lambda_{ab} \\ \Lambda_{ba} & \Lambda_{bb} \end{array} \right)
\end{align}
$$

「シューア補行列に基づく逆行列の公式」で詳しく取り扱ったが、上記のように表した$\Lambda_{aa}, \Lambda_{ab}, \Lambda_{bb}$は下記のように$\Sigma_{aa}, \Sigma_{ab}, \Sigma_{bb}$と対応する。
$$
\large
\begin{align}
M &= (A – B D^{-1} C)^{-1} \\
&= (\Sigma_{aa} – \Sigma_{ab} \Sigma_{bb}^{-1} \Sigma_{ba})^{-1} \\
\Lambda_{aa} &= M = (\Sigma_{aa} – \Sigma_{ab} \Sigma_{bb}^{-1} \Sigma_{ba})^{-1} \\
\Lambda_{ab} &= -MBD \\
&= (\Sigma_{aa} – \Sigma_{ab} \Sigma_{bb}^{-1} \Sigma_{ba})^{-1} \Sigma_{ab} \Sigma_{bb} \\
\Lambda_{bb} &= D^{-1}+D^{-1}CMBD \\
&= \Sigma_{bb}^{-1} + \Sigma_{bb}^{-1}(\Sigma_{aa} – \Sigma_{ab} \Sigma_{bb}^{-1} \Sigma_{ba})^{-1} \Sigma_{ab} \Sigma_{bb}
\end{align}
$$

ここで上記の$M$をシューア補行列という。シューア補行列の詳細に関しては下記で詳しく取り扱った。

・シューア補行列
https://www.hello-statisticians.com/explain-terms-cat/schur_complement_mat1.html

また、$\mathbf{\Sigma} = \mathbf{\Lambda}^{-1}$であることを元に$\Sigma_{aa}, \Sigma_{ab}, \Sigma_{bb}$は$\Lambda_{aa}, \Lambda_{ab}, \Lambda_{bb}$を用いて下記のように表せる。
$$
\large
\begin{align}
\Sigma_{aa} &= (\Lambda_{aa} – \Lambda_{ab} \Lambda_{bb}^{-1} \Lambda_{ba})^{-1} \\
\Sigma_{ab} &= (\Lambda_{aa} – \Lambda_{ab} \Lambda_{bb}^{-1} \Lambda_{ba})^{-1} \Lambda_{ab} \Lambda_{bb} \\
\Sigma_{bb} &= \Lambda_{bb}^{-1} + \Lambda_{bb}^{-1}(\Lambda_{aa} – \Lambda_{ab} \Lambda_{bb}^{-1} \Lambda_{ba})^{-1} \Lambda_{ab} \Lambda_{bb}
\end{align}
$$

平方完成

$\displaystyle – \frac{1}{2} \Delta^2 = -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) = -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Lambda}(\mathbf{x}-\mathbf{\mu})$は$\mathbf{x}$を変数と見るとき下記のように展開できる。
$$
\large
\begin{align}
– \frac{1}{2} \Delta^2 &= -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) \\
&= -\frac{1}{2} \mathbf{x}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{x} + \mathbf{x}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{\mu} + \mathrm{Const.} \quad (2.71) \\
&= -\frac{1}{2} \left( \mathbf{x}^{\mathrm{T}} \mathbf{\Lambda} \mathbf{x} – 2 \mathbf{x}^{\mathrm{T}} \mathbf{\Lambda} \mathbf{\mu} + \mathbf{\mu}^{\mathrm{T}} \mathbf{\Lambda} \mathbf{\mu} \right) \quad (2.71)’
\end{align}
$$

上記で表した$(2.71)$式を元に$\mathbf{x}$に関して平方完成を行うことができる。周辺分布の導出では平方完成を$2$度行う必要があるので式の対応を抑えておくことが重要である。

・参考
二次形式の平方完成の計算の流れ
https://www.hello-statisticians.com/explain-terms-cat/completing_the_square1.html

周辺分布の導出

$\mathbf{x}_{b}$の積分消去

$$
\large
\begin{align}
p(\mathbf{x}_{a}) = \int p(\mathbf{x}_{a},\mathbf{x}_{b}) d \mathbf{x}_{b} \quad (2.83)
\end{align}
$$

「パターン認識と機械学習」の$(2.83)$式から$p(\mathbf{x}_{a})$を導出するにあたっては確率密度関数の$\exp$の中身を$\mathbf{x}_{b}$に関して平方完成し、残りの項を積分の外に書き出し、$\mathbf{x}_{a}$に関して平方完成を行えばよい。

$p(\mathbf{x})=p(\mathbf{x}_{a},\mathbf{x}_{b})$は下記のように表される。
$$
\large
\begin{align}
p(\mathbf{x}) &= p(\mathbf{x}_{a},\mathbf{x}_{b}) \\
&= \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left[ -\frac{1}{2}\left(\begin{array}{cc} (\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}} & (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}} \end{array} \right) \left(\begin{array}{c} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \end{array} \right)^{-1} \left(\begin{array}{c} \mathbf{x}_{a}-\mathbf{\mu}_{a} \\ \mathbf{x}_{b}-\mathbf{\mu}_{b} \end{array} \right) \right] \\
&= \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left[ -\frac{1}{2}\left(\begin{array}{cc} (\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}} & (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}} \end{array} \right) \left(\begin{array}{cc} \Lambda_{aa} & \Lambda_{ab} \\ \Lambda_{ba} & \Lambda_{bb} \end{array} \right) \left(\begin{array}{c} \mathbf{x}_{a}-\mathbf{\mu}_{a} \\ \mathbf{x}_{b}-\mathbf{\mu}_{b} \end{array} \right) \right]
\end{align}
$$

上記の$\exp$の中の式を$\displaystyle – \frac{1}{2} \Delta^2$とおくと、$\displaystyle – \frac{1}{2} \Delta^2$は下記のように変形できる。
$$
\large
\begin{align}
– \frac{1}{2} \Delta^2 &= -\frac{1}{2}\left(\begin{array}{cc} (\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}} & (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}} \end{array} \right) \left(\begin{array}{cc} \Lambda_{aa} & \Lambda_{ab} \\ \Lambda_{ba} & \Lambda_{bb} \end{array} \right) \left(\begin{array}{c} \mathbf{x}_{a}-\mathbf{\mu}_{a} \\ \mathbf{x}_{b}-\mathbf{\mu}_{b} \end{array} \right) \\
&= -\frac{1}{2} \left(\begin{array}{cc} (\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}} & (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}} \end{array} \right) \left(\begin{array}{c} \Lambda_{aa}(\mathbf{x}_{a}-\mathbf{\mu}_{a})+\Lambda_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b}) \\ \Lambda_{ba}(\mathbf{x}_{a}-\mathbf{\mu}_{a})+\Lambda_{bb}(\mathbf{x}_{b}-\mathbf{\mu}_{b}) \end{array} \right) \\
&= -\frac{1}{2} \left[ (\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}}\Lambda_{aa}(\mathbf{x}_{a}-\mathbf{\mu}_{a}) + 2(\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}}\Lambda_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b}) + (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}}\Lambda_{bb}(\mathbf{x}_{b}-\mathbf{\mu}_{b}) \right] \quad (2)
\end{align}
$$

上記の計算にあたって$(\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}}\Lambda_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b}) = (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}}\Lambda_{ba}(\mathbf{x}_{a}-\mathbf{\mu}_{a})$を用いたが、これは下記より導出できる。
$$
\large
\begin{align}
(\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}}\Lambda_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b}) &= ((\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}}\Lambda_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b}))^{\mathrm{T}} \\
&= (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}}\Lambda_{ab}^{\mathrm{T}}(\mathbf{x}_{a}-\mathbf{\mu}_{a}) \\
&= (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}}\Lambda_{ba}(\mathbf{x}_{a}-\mathbf{\mu}_{a})
\end{align}
$$

上記では$\Lambda_{ab}^{\mathrm{T}}=\Lambda_{ba}$であることを用いたが、これは精度行列が対称行列であることに基づく。なお、精度行列が対称行列であることは共分散行列が対称行列であることから「パターン認識と機械学習 演習$2.22$」の導出などに基づき示すことができる。

ここで$(2)$式は$\mathbf{x}_{b}$に着目して下記のように変形を行える。
$$
\large
\begin{align}
– \frac{1}{2} \Delta^2 &= -\frac{1}{2} \left[ (\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}}\Lambda_{aa}(\mathbf{x}_{a}-\mathbf{\mu}_{a}) + 2(\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}}\Lambda_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b}) + (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}}\Lambda_{bb}(\mathbf{x}_{b}-\mathbf{\mu}_{b}) \right] \quad (2) \\
&= -\frac{1}{2} \left[ (\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}}\Lambda_{aa}(\mathbf{x}_{a}-\mathbf{\mu}_{a}) + 2(\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}}\Lambda_{ba}(\mathbf{x}_{a}-\mathbf{\mu}_{a}) + (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}}\Lambda_{bb}(\mathbf{x}_{b}-\mathbf{\mu}_{b}) \right] \\
&= -\frac{1}{2} \left[ \mathbf{x}_{b}^{\mathrm{T}}\Lambda_{bb}\mathbf{x}_{b} + \mathbf{x}_{b}^{\mathrm{T}} \left( – 2 \Lambda_{bb} \mathbf{\mu}_{b} + 2 \Lambda_{ba} (\mathbf{x}_{a}-\mathbf{\mu}_{a}) \right) \right] + \mathrm{Const.} \\
&= -\frac{1}{2} \left[ \mathbf{x}_{b}^{\mathrm{T}}\Lambda_{bb}\mathbf{x}_{b} – 2 \mathbf{x}_{b}^{\mathrm{T}} \left( \Lambda_{bb} \mathbf{\mu}_{b} – \Lambda_{ba} (\mathbf{x}_{a}-\mathbf{\mu}_{a}) \right) \right] + \mathrm{Const.} \\
&= -\frac{1}{2} \left( \mathbf{x}_{b}^{\mathrm{T}}\Lambda_{bb}\mathbf{x}_{b} – 2 \mathbf{x}_{b}^{\mathrm{T}} \mathbf{m} \right) + \mathrm{Const.} \quad (3) \\
\mathbf{m} &= \Lambda_{bb} \mathbf{\mu}_{b} – \Lambda_{ba} (\mathbf{x}_{a}-\mathbf{\mu}_{a}) \quad (2.85)
\end{align}
$$

ここで$(3)$式と$(2.71)’$式の対応を考えることにより、$(3)$式の$\mathbf{x}_{b}$に関する項は下記のように変形できる。
$$
\large
\begin{align}
-\frac{1}{2} \left( \mathbf{x}_{b}^{\mathrm{T}}\Lambda_{bb}\mathbf{x}_{b} – 2 \mathbf{x}_{b}^{\mathrm{T}} \mathbf{m} \right) &= -\frac{1}{2} \left( \mathbf{x}_{b}^{\mathrm{T}}\Lambda_{bb}\mathbf{x}_{b} – 2 \mathbf{x}_{b}^{\mathrm{T}} \mathbf{m} + \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\mathbf{m} – \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\mathbf{m} \right) \\
&= -\frac{1}{2} \left( \mathbf{x}_{b}^{\mathrm{T}}\Lambda_{bb}\mathbf{x}_{b} – 2 \mathbf{x}_{b}^{\mathrm{T}} \Lambda_{bb} \Lambda_{bb}^{-1} \mathbf{m} + \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\Lambda_{bb} \Lambda_{bb}^{-1}\mathbf{m} \right) + \frac{1}{2} \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\mathbf{m} \\
&= -\frac{1}{2} \left( \mathbf{x}_{b}^{\mathrm{T}}\Lambda_{bb}\mathbf{x}_{b} – 2 \mathbf{x}_{b}^{\mathrm{T}} \Lambda_{bb} (\Lambda_{bb}^{-1} \mathbf{m}) + \mathbf{m}^{\mathrm{T}}(\Lambda_{bb}^{-1})^{\mathrm{T}}\Lambda_{bb}\Lambda_{bb}^{-1} \mathbf{m} \right) + \frac{1}{2} \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\mathbf{m} \\
&= -\frac{1}{2} \left( \mathbf{x}_{b}^{\mathrm{T}}\Lambda_{bb}\mathbf{x}_{b} – 2 \mathbf{x}_{b}^{\mathrm{T}} \Lambda_{bb} (\Lambda_{bb}^{-1} \mathbf{m}) + (\Lambda_{bb}^{-1}\mathbf{m})^{\mathrm{T}}\Lambda_{bb}(\Lambda_{bb}^{-1} \mathbf{m}) \right) + \frac{1}{2} \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\mathbf{m} \\
&= -\frac{1}{2}(\mathbf{x}_{b}-\Lambda_{bb}^{-1}\mathbf{m})^{\mathrm{T}} \Lambda_{bb} (\mathbf{x}_{b}-\Lambda_{bb}^{-1}\mathbf{m}) + \frac{1}{2} \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\mathbf{m} \quad (4)
\end{align}
$$

よって、$(2.83)$式は$(4)$式を用いて$\mathbf{x}_{b}$について平方完成したのちに残りの項を積分の外に出し、$\mathbf{x}_{a}$に着目することで下記のように変形できる。
$$
\large
\begin{align}
p(\mathbf{x}_{a}) &= \int p(\mathbf{x}_{a},\mathbf{x}_{b}) d \mathbf{x}_{b} \quad (2.83) \\
&= \int -\frac{1}{2} (\mathbf{x}_{b}-\Lambda_{bb}^{-1}\mathbf{m})^{\mathrm{T}} \Lambda_{bb} (\mathbf{x}_{b}-\Lambda_{bb}^{-1}\mathbf{m}) d \mathbf{x}_{b} \\
& \qquad \times \exp \left[ \frac{1}{2} \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\mathbf{m} – \frac{1}{2} \mathbf{x}_{a}^{\mathrm{T}}\Lambda_{aa}\mathbf{x}_{a} + \mathbf{x}_{a}^{\mathrm{T}}(\Lambda_{aa}\mathbf{\mu}_{a}+\Lambda_{ab}\mathbf{\mu}_{b}) + \mathrm{Const.} \right] \quad (5)
\end{align}
$$

ここで$\displaystyle \int -\frac{1}{2}(\mathbf{x}_{b}-\Lambda_{bb}^{-1}\mathbf{m})^{\mathrm{T}} \Lambda_{bb} (\mathbf{x}_{b}-\Lambda_{bb}^{-1}\mathbf{m}) d \mathbf{x}_{b}$は正規分布の確率密度関数に比例することから、定数項と見なすことができる。よって$p(\mathbf{x}_{a})$に関して調べるにあたっては、積分の外に書き出した$\exp$の中の項を$\mathbf{x}_{a}$について平方完成を行えばよく、この計算を次項で取り扱う。

$\mathbf{x}_{a}$に関する平方完成

$(5)$式の$\exp$の$\mathbf{x}_{a}$に関する項を$f(\mathbf{x}_{a})$とおくと$f(\mathbf{x}_{a})$は下記のように書き出せる。
$$
\large
\begin{align}
f(\mathbf{x}_{a}) &= \frac{1}{2} \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\mathbf{m} – \frac{1}{2} \mathbf{x}_{a}^{\mathrm{T}}\Lambda_{aa}\mathbf{x}_{a} + \mathbf{x}_{a}^{\mathrm{T}}(\Lambda_{aa}\mathbf{\mu}_{a}+\Lambda_{ab}\mathbf{\mu}_{b}) \\
\mathbf{m} &= \Lambda_{bb} \mathbf{\mu}_{b} – \Lambda_{ba} (\mathbf{x}_{a}-\mathbf{\mu}_{a}) \quad (2.85)
\end{align}
$$

$f(\mathbf{x}_{a})$に$(2.85)$式を代入し、$\mathbf{x}_{a}$を変数と見ると下記のように変形できる。
$$
\large
\begin{align}
f(\mathbf{x}_{a}) &= \frac{1}{2} \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\mathbf{m} – \frac{1}{2} \mathbf{x}_{a}^{\mathrm{T}}\Lambda_{aa}\mathbf{x}_{a} + \mathbf{x}_{a}^{\mathrm{T}}(\Lambda_{aa}\mathbf{\mu}_{a}+\Lambda_{ab}\mathbf{\mu}_{b}) \\
&= \frac{1}{2} (\Lambda_{bb} \mathbf{\mu}_{b} – \Lambda_{ba} (\mathbf{x}_{a}-\mathbf{\mu}_{a}))^{\mathrm{T}}\Lambda_{bb}^{-1}(\Lambda_{bb} \mathbf{\mu}_{b} – \Lambda_{ba} (\mathbf{x}_{a}-\mathbf{\mu}_{a})) – \frac{1}{2} \mathbf{x}_{a}^{\mathrm{T}}\Lambda_{aa}\mathbf{x}_{a} + \mathbf{x}_{a}^{\mathrm{T}}(\Lambda_{aa}\mathbf{\mu}_{a}+\Lambda_{ab}\mathbf{\mu}_{b}) + \mathrm{Const.} \\
&= -\frac{1}{2} \mathbf{x}_{a}^{\mathrm{T}} \left( \Lambda_{aa}-\Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba} \right) \mathbf{x}_{a} + \mathbf{x}_{a}^{\mathrm{T}} \left( \Lambda_{aa} – \Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba} \right) \mu_{a} + \mathrm{Const’.} \\
&= -\frac{1}{2} \left[ \mathbf{x}_{a}^{\mathrm{T}} \left( \Lambda_{aa}-\Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba} \right) \mathbf{x}_{a} – 2 \mathbf{x}_{a}^{\mathrm{T}} \left( \Lambda_{aa} – \Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba} \right) \mu_{a} \right] + \mathrm{Const’.} \\
&= -\frac{1}{2} \left[ \mathbf{x}_{a}^{\mathrm{T}} \Sigma_{aa}^{-1} \mathbf{x}_{a} – 2 \mathbf{x}_{a}^{\mathrm{T}} \Sigma_{aa}^{-1} \mu_{a} \right] + \mathrm{Const’.} \\
&= -\frac{1}{2} \left[ \mathbf{x}_{a}^{\mathrm{T}} \Sigma_{aa}^{-1} \mathbf{x}_{a} – 2 \mathbf{x}_{a}^{\mathrm{T}} \Sigma_{aa}^{-1} \mu_{a} \right] + \mathrm{Const’.} \\
&= -\frac{1}{2} (\mathbf{x}_{a}-\mu_{a})^{\mathrm{T}} \Sigma_{aa}^{-1} (\mathbf{x}_{a}-\mu_{a}) + \mathrm{Const^{”}.}
\end{align}
$$

上記の式変形にあたっては、「精度行列の定義と共分散行列との対応」より、$\Sigma_{aa} = (\Lambda_{aa} – \Lambda_{ab} \Lambda_{bb}^{-1} \Lambda_{ba})^{-1}$が成立することを用いた。

よって$\displaystyle p(\mathbf{x}_{a}) = \int p(\mathbf{x}_{a},\mathbf{x}_{b}) d \mathbf{x}_{b} = \mathcal{N}(\mathbf{x}_{a},\Sigma_{aa})$が成立することが示される。

ここでの結果は数式がシンプルかつ直感的に解釈しやすいので、単にここでの結果を用いることが目的の場合は導出を考えずに結果だけを用いるで十分であると思われる。

二次形式の平方完成(Completing the square)の計算の流れ

二次形式の平方完成(Completing the square)を行うにあたって、行列演算の取り扱いはいきなり出てくると対応が難しいです。そこで当記事では行列が出てくる際の平方完成はどのように行えるかに関して取りまとめます。
作成にあたっては「パターン認識と機械学習」の$2.3.1$節の$(2.71)$式周辺の内容を元になるべくわかりやすく表すにあたって追記を行いました。なお、出典との対応がわかりやすいように重要な数式に関しては出典の番号も追記しました。

多次元正規分布の二次形式

$$
\large
\begin{align}
N(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma}) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) \right) \quad (2.43)
\end{align}
$$

上記のように定義される多次元正規分布の$\exp$の内部の$(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu})$を$\Delta^2$のように定義する。このとき$\Delta^2$は下記のように表される。
$$
\large
\begin{align}
\Delta^2 = (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) \quad (2.44)
\end{align}
$$

上記の$\Delta^2$は平均ベクトル$\mathbf{\mu}$、共分散行列$\mathbf{\Sigma}$の多次元正規分布$N(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma})$に対応しており、逆に平方完成を行う場合は$(2.44)$式の形式にまとめることが目標となる。$(2.44)$式の展開と平方完成に関しては次節で取り扱う。

二次形式の展開と平方完成

多次元正規分布における展開

前節で表した$(2.44)$式は下記のように展開を行うことができる。下記では計算の流れが追いやすいように詳しい変形の流れを確認した。
$$
\large
\begin{align}
\Delta^2 &= (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) \quad (2.44) \\
&= (\mathbf{x}^{\mathrm{T}}-\mathbf{\mu}^{\mathrm{T}}) \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) \\
&= \mathbf{x}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{x} – \mathbf{x}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{\mu} – \mathbf{\mu}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{x} + \mathbf{\mu}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{\mu} \\
&= \mathbf{x}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{x} – \mathbf{x}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{\mu} – \mathbf{x}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{\mu} + \mathbf{\mu}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{\mu} \\
&= \mathbf{x}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{x} – 2 \mathbf{x}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{\mu} + \mathbf{\mu}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{\mu} \quad (1), (2.71)’
\end{align}
$$

$(1)$式に$\displaystyle – \frac{1}{2}$をかけたものが$(2.71)$式に対応するので、上記では$(2.71)’$のように表記を行なった。また、上記の計算にあたっては$\mathbf{x}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{\mu}, \mathbf{\mu}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{x}$がそれぞれスカラーであることより下記が成立することを用いた。
$$
\large
\begin{align}
\mathbf{x}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{\mu} &= (\mathbf{x}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{\mu})^{\mathrm{T}} \\
&= \mathbf{\mu}^{\mathrm{T}} (\mathbf{\Sigma}^{-1})^{\mathrm{T}} \mathbf{x} \\
&= \mathbf{\mu}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{x}
\end{align}
$$

ここで$\mathbf{\Sigma}^{-1}$が対称行列であることは「パターン認識と機械学習 演習$2.22$」より確認できる。

一般的な文字を用いた展開の表記

前項で取り扱った式表現をより一般的に表記するにあたって、下記のようなベクトルや行列を定義する。
$$
\large
\begin{align}
\mathbf{x} &= \left(\begin{array}{c} x_{1} \\ \vdots \\ x_{D} \end{array} \right) \\
\mathbf{p} &= \left(\begin{array}{c} a_{1} \\ \vdots \\ p_{D} \end{array} \right) \\
\mathbf{A} &= \left(\begin{array}{ccc} A_{11} & \cdots & A_{1D} \\ \vdots & \ddots & \vdots \\ A_{D1} & \cdots & A_{DD} \end{array} \right)
\end{align}
$$

ここで上記の行列$\mathbf{A}$は対称行列であり、$\mathbf{A}^{\mathrm{T}}=\mathbf{A}$が成立するとする。

このとき、平方完成を$(\mathbf{x}-\mathbf{p})^{\mathrm{T}}\mathbf{A}^{-1}(\mathbf{x}-\mathbf{p})$のように定義すると、前項と同様に$(\mathbf{x}-\mathbf{p})^{\mathrm{T}}A^{-1}(\mathbf{x}-\mathbf{p})$は下記のように展開できる。
$$
\large
\begin{align}
(\mathbf{x}-\mathbf{p})^{\mathrm{T}}\mathbf{A}^{-1}(\mathbf{x}-\mathbf{p}) = \mathbf{x}^{\mathrm{T}} \mathbf{A}^{-1} \mathbf{x} – 2 \mathbf{x}^{\mathrm{T}} \mathbf{A}^{-1} \mathbf{p} + \mathbf{p}^{\mathrm{T}} \mathbf{A}^{-1} \mathbf{p} \quad (2)
\end{align}
$$

ここで$(2)$式の$\mathbf{A}^{-1}$は$D \times D$正方行列、$\mathbf{A}^{-1} \mathbf{p}$は$D \times 1$ベクトルであることは抑えておくと良い。

平方完成

前項で取り扱った$(2)$式の右辺から左辺への対応を考えることで平方完成を行うことができる。以下、具体的にいくつかの例に対して$(2)$式との対応を考えることで$\mathbf{x}$に関する平方完成を行う。まず、$\mathbf{p}$、$\mathbf{A}$の代わりに下記のベクトルと行列を定義する。
$$
\large
\begin{align}
\mathbf{b} &= \left(\begin{array}{c} b_{1} \\ \vdots \\ b_{D} \end{array} \right) \\
\mathbf{B} &= \left(\begin{array}{ccc} B_{11} & \cdots & B_{1D} \\ \vdots & \ddots & \vdots \\ B_{D1} & \cdots & B_{DD} \end{array} \right) \\
\mathbf{C} &= \left(\begin{array}{ccc} C_{11} & \cdots & C_{1D} \\ \vdots & \ddots & \vdots \\ C_{D1} & \cdots & C_{DD} \end{array} \right)
\end{align}
$$

上記の$\mathbf{B},\mathbf{C}$は$\mathbf{A}$と同様に対称行列のみを考える。

・$\mathbf{x}^{\mathrm{T}} \mathbf{B} \mathbf{x} – 2 \mathbf{x}^{\mathrm{T}} \mathbf{B} \mathbf{b}$
$$
\large
\begin{align}
\mathbf{x}^{\mathrm{T}} \mathbf{B} \mathbf{x} – 2 \mathbf{x}^{\mathrm{T}} \mathbf{B} \mathbf{b} = \mathbf{x}^{\mathrm{T}} \mathbf{B} \mathbf{x} – 2 \mathbf{x}^{\mathrm{T}} (\mathbf{B} \mathbf{b})
\end{align}
$$

$(2)$式との対応により、下記のように$\mathbf{p}$、$\mathbf{A}$を導出できる。
$$
\large
\begin{align}
\mathbf{A}^{-1} &= \mathbf{B} \\
\mathbf{A}^{-1} \mathbf{p} &= \mathbf{B} \mathbf{b} \\
\mathbf{p} &= \mathbf{A} \mathbf{B} \mathbf{b}
\end{align}
$$

・$\mathbf{x}^{\mathrm{T}} (\mathbf{B}+\mathbf{C)} \mathbf{x} + \mathbf{x}^{\mathrm{T}} \mathbf{B} \mathbf{b}$
$$
\large
\begin{align}
\mathbf{x}^{\mathrm{T}} (\mathbf{B}+\mathbf{C)} \mathbf{x} + \mathbf{x}^{\mathrm{T}} \mathbf{B} \mathbf{b} = \mathbf{x}^{\mathrm{T}} (\mathbf{B}+\mathbf{C}) \mathbf{x} – 2 \mathbf{x}^{\mathrm{T}} \left( – \frac{1}{2} \mathbf{B} \mathbf{b} \right)
\end{align}
$$

$(2)$式との対応により、下記のように$\mathbf{p}$、$\mathbf{A}$を導出できる。
$$
\large
\begin{align}
\mathbf{A}^{-1} &= \mathbf{B} + \mathbf{C} \\
\mathbf{A}^{-1} \mathbf{p} &= – \frac{1}{2} \mathbf{B} \mathbf{b} \\
\mathbf{p} &= – \frac{1}{2} \mathbf{A} \mathbf{B} \mathbf{b}
\end{align}
$$

参考

・多次元正規分布の確率密度関数の直感的な理解
https://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist1.html

統計学を学ぶにあたって最低限抑えておきたい数学 〜数列の表記:一般項・漸化式〜

当記事では「統計学を学ぶにあたって最低限抑えておきたい数学」の中から「数列の表記」に関して取り扱います。数列を理解するにあたっては、「要素の列挙」、「一般項」、「漸化式」の主に$3$パターンがあり、それぞれの対応や使い分けを把握するとスムーズだと思います。
取りまとめにあたっては数学の解説に関してはなるべくシンプルに取り扱いますが、統計学への応用に関連した複雑な内容に関しては目次に「*」をつけました。「*」がついているものはやや難しいので、読み飛ばしても問題ありません。

・基本数学まとめ
https://www.hello-statisticians.com/math_basic

数列の表記法

数列を理解するにあたっては、「数列」:「数の並びを何らかの表記を用いて表したもの」のように理解すると良いです。「一般項」や「漸化式」のような表記が難しく見える場合もあるかもしれませんが、「数の並びを表す」という目的に基づいて理解すればそれほど難しくないのではないかと思います。

以下、数列の表記の$3$パターンの解説を行うにあたって、「要素の列挙」、「一般項」、「漸化式」の$3$パターンについてそれぞれ確認を行います。

要素の列挙

数列を表すにあたって最も直感的な表記法が「要素の列挙」です。たとえば、下記のように要素を列挙することで数列を表すことができます。
$$
\large
\begin{align}
& \{ 1, 2, 3, 4, 5, …, 100, … \} \\
& \{ 1, 3, 5, 7, 9 \} \\
& \{ a_1, a_2, …, a_n \}
\end{align}
$$

上記で表したように${ 1, 2, 3, , 4, 5, …, 100, … }$や${ 1, 3, 5, 7, 9 }$のように単に数を列挙する場合もあれば、$n$番目の項を$a_n$のようにおいて表す場合もあります。

$a_n$のような表記は次項と次々項で取り扱う「一般項」と「漸化式」でも出てくるので重要です。

一般項

「一般項」は$n$番目の項$a_n$を$n$の式で表す表記です。ここでの$n$は関数$f(x)$と対応していると考えることができますが、$x$が実数値を取るのに対して$n$は自然数であり、$n=1,2,3,…$のように表されることに注意が必要です。

以下具体的に確認するにあたって、「一般項」の式を$3$つ確認します。
$$
\large
\begin{align}
a_n &= n \\
a_n &= 2n – 1 \\
a_n &= 2^n – 1
\end{align}
$$

上記の「一般項」の表記に基づいて$n=1,2,3,4,5,6,7,8$で「要素を列挙」すると下記のように表すことができます。
$$
\large
\begin{align}
& \{ 1, 2, 3, 4, 5, 6, 7, 8 \} \\
& \{ 1, 3, 5, 7, 9, 11, 13, 15 \} \\
& \{ 1, 3, 7, 15, 31, 63, 127 \}
\end{align}
$$

ここで当然のようで重要なのが、「一般項」は単に「数列を表す表記法」の一つであるということです。数式表記だと難しく見えるかもしれませんが、目的を抑えることでそれほど難しくないというのがわかると思います。

漸化式

漸化式は「隣接する項の関係式」を元に「数列を表す表記法」です。たとえば下記のように「漸化式」を用いた数列が表されます。
$$
\large
\begin{align}
a_{n+1} &= a_{n} + 1, a_{1}=1 \\
a_{n+1} &= a_{n} + 2, a_{1}=1 \\
a_{n+1} &= 2(a_{n}+1) – 1, a_{1}=1
\end{align}
$$

上記の「漸化式」の表記に基づいて$n=1,2,3,4,5,6,7,8$で「要素を列挙」すると下記のように表すことができます。
$$
\large
\begin{align}
& \{ 1, 2, 3, 4, 5, 6, 7, 8 \} \\
& \{ 1, 3, 5, 7, 9, 11, 13, 15 \} \\
& \{ 1, 3, 7, 15, 31, 63, 127 \}
\end{align}
$$

列挙した要素を確認すると、「一般項」で取り扱ったものと同様の数列が得られることがわかります。詳しい対応の仕組みについては次節の「一般項と漸化式の対応」で取り扱いますので、ここでは「同じ数列を様々な表記で表すことができる」とだけ抑えれば十分です。

ここまでで「要素の列挙」、「一般項」、「漸化式」の三つの「数列の表記法」を確認しましたが、どれも難しく考え過ぎずに単なる「数列の表記法」の一つであると考えることが重要です。

一般項と漸化式

前節で取り扱った「一般項」と「漸化式」はよく用いられるので、以下では抑えておくと良い重要トピックに関して取りまとめます。

等差数列と等比数列

「等差数列」と「等比数列」は様々な分野で「前提の理解」で必要なので抑えておくと良いです。大まかには「隣接する二項の差が一定である数列」を「等差数列」、「隣接する二項の比が一定である数列」を「等比数列」というと理解しておくと良いです。

以下、「等差数列」と「等比数列」に対して具体的に確認します。「要素を列挙」したのちに「一般項」と「漸化式」を用いた表記をそれぞれ確認します。

等差数列

「等差数列」は「隣接する二項の差が一定である数列」であり、具体的には下記のような数列が「等差数列」です。
$$
\large
\begin{align}
& \{ 1, 2, 3, 4, 5, 6, 7, 8, … \} \\
& \{ 1, 3, 5, 7, 9, 11, 13, 15, … \} \\
& \{ 19, 17, 15, 13, 11, 9, 7, … \}
\end{align}
$$

上記を「一般項」の形式で表記すると下記のように表すことができます。
$$
\large
\begin{align}
a_n &= n \\
a_n &= 2n-1 \\
a_n &= -2n + 21
\end{align}
$$

上二つは前節の例を用いましたが、一番下は$-2$ずつ減る「等差数列」を例に用いました。$3$つの数列はそれぞれ$1, 2, -2$ずつ変化しますが、この変化する「差」を「等差数列」の「公差」ということも抑えておくと良いです。

次に漸化式の形式で表記すると下記のように表すことができます。
$$
\large
\begin{align}
a_{n+1} &= a_{n} + 1, a_{1}=1 \\
a_{n+1} &= a_{n} + 2, a_{1}=1 \\
a_{n+1} &= a_{n} – 2, a_{1}=19
\end{align}
$$

等比数列

「等比数列」は「隣接する二項の比が一定である数列」であり、具体的には下記のような数列が「等比数列」です。
$$
\large
\begin{align}
& \{ 1, 2, 4, 8, 16, … \} \\
& \{ 1, 3, 9, 27, 81, … \} \\
& \left\{ 3, 1, \frac{1}{3}, \frac{1}{9}, \frac{1}{27}, … \right\}
\end{align}
$$

上記を「一般項」の形式で表記すると下記のように表すことができます。
$$
\large
\begin{align}
a_n &= 2^{n-1} \\
a_n &= 3^{n-1} \\
a_n &= 3 \times \left( \frac{1}{3} \right)^{n-1}
\end{align}
$$

$3$つの数列はそれぞれ$\displaystyle \times 2, \times 3, \times \frac{1}{3}$ずつ変化しますが、この変化する「比率」を「等比」の「公比」ということも抑えておくと良いです。

次に漸化式の形式で表記すると下記のように表すことができます。
$$
\large
\begin{align}
a_{n+1} &= 2a_{n}, a_{1}=1 \\
a_{n+1} &= 3a_{n}, a_{1}=1 \\
a_{n+1} &= \frac{1}{3}a_{n}, a_{1}=3
\end{align}
$$

一般項と漸化式の対応

ここまでで「一般項」と「漸化式」の表記をいくつか確認しましたが、双方の対応に関してはあまり考えませんでしたが、数学の演習問題などでは「漸化式から一般項を計算する」というのがよく出題されます。

一方で、演習問題などで取り扱われる「漸化式から一般項を計算する」問題などは少々難しいものが多く、実際にはシンプルな数列を元に原理原則だけを抑えておくだけで十分だと思います。ここでは下記の等差数列に関して考えます。
$$
\large
\begin{align}
\{ 1, 3, 5, 7, 9, 11, 13, 15, … \}
\end{align}
$$

上記は初項$1$、交差$2$の等差数列であり、「一般項」の表記では$a_{n}=2n-1$、「漸化式」の表記では$a_{n+1}=a_{n}+2,a_{1}=1$のようにそれぞれ表されます。このような表記にあたっては、「一般項」は「第$n$項を$n$の式で表すにあたって関数と同様に立式する」、「漸化式」は「初項を定めて隣接する項の関係式を作成する」のように考えると良いです。この例では初項$1$、交差$2$の等差数列であるので、$y=2x+b$を元に$x=1$のとき$y=1$であることから$b=-1$を導出することができます。一方で「漸化式」は次の項が前の項の$2$倍であることから$a_{n+1}=2a_{n}$、初項が$1$から$a_{1}=1$のように考えられます。

このように「一般項」は「関数」、「漸化式」は「隣接する$2$項の関係式をどのように作成するか」にだけ着目しておけば基本的な対応については行えると思います。統計学を学ぶ上で必須ではないですが、より詳細の変形などを確認する場合は数Bのチャート式などに取り組むと良いと思います。

数列の統計学への応用

観測値の表記と母集団のパラメータの推定*

勾配法・ニュートン法と漸化式*

シューア補行列に基づく逆行列の公式を用いた多次元正規分布の精度行列の導出

多次元正規分布に対して共分散行列の逆行列である精度行列(precision matrix)を考えることで、条件付き確率分布、周辺分布、ベイズの定理などの導出が可能になり、線形回帰に同様の考え方を用いることでパラメータの事後確率や予測分布の導出なども可能です。
シューア補行列に基づく精度行列の導出の計算は複雑なので、当記事では一連の導出に関して取り扱いました。作成にあたっては「パターン認識と機械学習」の$2.3.1$節を主に参考にしました。

精度行列の定義

多次元正規分布の式の確認

多次元正規分布の確率密度関数を$f(\mathbf{x})$とおくと、$f(\mathbf{x})$は下記のように表される。
$$
\begin{align}
N(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma}) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) \right) \quad (1)
\end{align}
$$

上記において、$\mathbf{\mu}$は平均ベクトル、$\mathbf{\Sigma}$は分散共分散行列を表す。

・参考
多次元正規分布の直感的理解

精度行列の定義

前項で取り扱った、多次元正規分布の式を取り扱うにあたって、$\mathbf{\Sigma}^{-1}$があることで具体的な計算を行うのが難しい場合がある。この取り扱いにあたって、分散共分散行列$\mathbf{\Sigma}$の逆行列の$\mathbf{\Lambda}$を下記のように定義する。
$$
\begin{align}
\mathbf{\Lambda} \equiv \mathbf{\Sigma}^{-1}
\end{align}
$$

上記のように定義した$\mathbf{\Lambda}$を精度行列(precision matrix)という。精度行列を定義することで、$(1)$式の指数関数の中身は下記のように書き直すことができる。
$$
\begin{align}
-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu})
= -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Lambda}(\mathbf{x}-\mathbf{\mu}) \quad (1)’
\end{align}
$$

シューア補行列

部分行列とシューア補行列

$$
\large
\begin{align}
\left(\begin{array}{cc} A & B \\ C & D \end{array} \right)
\end{align}
$$

上記のように行列を$4$つの部分に分解することを考える。ここで$A$が$m \times m$行列、$D$が$n \times n$行列であるとき、$B$は$m \times n$行列、$C$は$n \times m$行列である。

上記のように行列を表すとき、下記のように逆行列を考えることができる。
$$
\large
\begin{align}
\left(\begin{array}{cc} A & B \\ C & D \end{array} \right)^{-1} &= \left(\begin{array}{cc} M & -MBD^{-1} \\ -D^{-1}CM & D^{-1}+D^{-1}CMBD \end{array} \right) \quad (2) \\
M &= (A-BD^{-1}C)^{-1}
\end{align}
$$

ここで上記で$M = (A-BD^{-1}C)^{-1}$のように定義される行列をシューア補行列(Schur complement of the matrix)という。次項で$(2)$式が成立することを示す。

シューア補行列に基づく逆行列の公式が成立することの確認

$$
\large
\begin{align}
\left(\begin{array}{cc} M & -MBD^{-1} \\ -D^{-1}CM & D^{-1}+D^{-1}CMBD \end{array} \right) & \left(\begin{array}{cc} A & B \\ C & D \end{array} \right) = \left(\begin{array}{cc} I_m & O \\ O^{\mathrm{T}} & I_n \end{array} \right) \quad (3) \\
M &= (A-BD^{-1}C)^{-1}
\end{align}
$$

$A,D$の次元がそれぞれ$m$次元、$n$次元であると考えるとき、$(3)$式が成立することを示す。また、上記では$m \times n$の零行列を$O$とおいた。

$$
\large
\begin{align}
& \left(\begin{array}{cc} M & -MBD^{-1} \\ -D^{-1}CM & D^{-1}+D^{-1}CMBD \end{array} \right) \left(\begin{array}{cc} A & B \\ C & D \end{array} \right) \\
&= \left(\begin{array}{cc} MA-MBD^{-1}C & MB-MB \\ -D^{-1}CMA+D^{-1}C+D^{-1}CMD^{-1}C & -D^{-1}CMB+I_n+D^{-1}CMB \end{array} \right) \\
&= \left(\begin{array}{cc} (A-BD^{-1}C)^{-1}(A-BD^{-1}C) & O \\ D^{-1}C(-MA + I_m +MBD^{-1}C) & I_n \end{array} \right) \\
&= \left(\begin{array}{cc} M(A-BD^{-1}C) & O \\ D^{-1}C(I_m-(A-BD^{-1}C)^{-1}(A-BD^{-1}C)) & I_n \end{array} \right) \\
&= \left(\begin{array}{cc} I_m & O \\ D^{-1}C(I_m-I_m)) & I_n \end{array} \right) \\
&= \left(\begin{array}{cc} I_m & O \\ O^{\mathrm{T}} & I_n \end{array} \right)
\end{align}
$$

よって$(2.76)$式が成立する。

・参考
「パターン認識と機械学習」 第$2$章 演習

$2 \times 2$正方行列の逆行列の公式との対応

$$
\large
\begin{align}
\left(\begin{array}{cc} a & b \\ c & d \end{array} \right)^{-1} = \frac{1}{ad-bc}\left(\begin{array}{cc} d & -b \\ -c & a \end{array} \right)
\end{align}
$$

まず$M=(A-BD^{-1}C)^{-1}$の$A,B,C,D$を$a,b,c,d$で置き換えると下記が得られる。
$$
\large
\begin{align}
M &= (a-bd^{-1}c)^{-1} = \left( a – \frac{bc}{d} \right)^{-1} \\
&= \left( \frac{ad-bc}{d} \right)^{-1} \\
&= \frac{d}{ad-bc}
\end{align}
$$

また、上記を$a$に関して解くと下記が得られる。
$$
\large
\begin{align}
M &= \frac{d}{ad-bc} \\
(ad-bc)M &= d \\
adM &= d + bcM \\
a &= \frac{d + bcM}{dM} \\
&= M^{-1} + d^{-1}cb
\end{align}
$$

以下、$2 \times 2$正方行列の逆行列の公式の$a,b,c,d$を$M,B,C,D$で置き換えることを考える。
$$
\large
\begin{align}
\left(\begin{array}{cc} a & b \\ c & d \end{array} \right)^{-1} &= \frac{1}{ad-bc}\left(\begin{array}{cc} d & -b \\ -c & a \end{array} \right) \\
&= \frac{d}{ad-bc}\left(\begin{array}{cc} 1 & -bd^{-1} \\ -d^{-1}c & ad^{-1} \end{array} \right) \\
&= M\left(\begin{array}{cc} 1 & -bd^{-1} \\ -d^{-1}c & (M^{-1} + d^{-1}cb)d^{-1} \end{array} \right) \\
&= \left(\begin{array}{cc} M & -Mbd^{-1} \\ -Md^{-1}c & d^{-1} + d^{-1}cMbd^{-1} \end{array} \right) \\
&= \left(\begin{array}{cc} M & -MBD^{-1} \\ -D^{-1}CM & D^{-1}+D^{-1}CMBD \end{array} \right)
\end{align}
$$

ここまでの式変形により、$2 \times 2$正方行列の逆行列の公式と部分行列の逆行列の公式の対応が確認できる。

多次元正規分布の精度行列の導出

共分散行列の部分行列

共分散行列$\mathbf{\Sigma}$の部分行列を下記のように表すことを考える。
$$
\large
\begin{align}
\mathbf{\Sigma} = \left(\begin{array}{cc} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \end{array} \right)
\end{align}
$$

また、精度行列$\mathbf{\Lambda}$を下記のように定義する。
$$
\large
\begin{align}
\mathbf{\Lambda} = \left(\begin{array}{cc} \Lambda_{aa} & \Lambda_{ab} \\ \Lambda_{ba} & \Lambda_{bb} \end{array} \right)
\end{align}
$$

次項で$\Lambda_{aa}, \Lambda_{ab}, \Lambda_{bb}$を$\Sigma_{aa}, \Sigma_{ab}, \Sigma_{bb}$で表すことを考える。なお、$\mathbf{\Sigma}$と$\mathbf{\Lambda}$はどちらも対称行列であるので$\Lambda_{ba}, \Sigma_{ba}$に関しては考える必要がないと考えられる。

精度行列の導出

$$
\large
\begin{align}
\left(\begin{array}{cc} A & B \\ C & D \end{array} \right)^{-1} &= \left(\begin{array}{cc} M & -MBD^{-1} \\ -D^{-1}CM & D^{-1}+D^{-1}CMBD \end{array} \right) \quad (2) \\
M &= (A-BD^{-1}C)^{-1} \quad (4) \\
\left(\begin{array}{cc} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \end{array} \right)^{-1} &= \left(\begin{array}{cc} \Lambda_{aa} & \Lambda_{ab} \\ \Lambda_{ba} & \Lambda_{bb} \end{array} \right) \quad (5)
\end{align}
$$

$(2)$、$(4)$式と$(5)$式の対応により、$\Lambda_{aa}, \Lambda_{ab}, \Lambda_{bb}$を$\Sigma_{aa}, \Sigma_{ab}, \Sigma_{bb}$で表すことができる。下記にそれぞれ導出を行なった。
$$
\large
\begin{align}
M &= (A – B D^{-1} C)^{-1} \\
&= (\Sigma_{aa} – \Sigma_{ab} \Sigma_{bb}^{-1} \Sigma_{ba})^{-1} \\
\Lambda_{aa} &= M = (\Sigma_{aa} – \Sigma_{ab} \Sigma_{bb}^{-1} \Sigma_{ba})^{-1} \\
\Lambda_{ab} &= -MBD \\
&= (\Sigma_{aa} – \Sigma_{ab} \Sigma_{bb}^{-1} \Sigma_{ba})^{-1} \Sigma_{ab} \Sigma_{bb} \\
\Lambda_{bb} &= D^{-1}+D^{-1}CMBD \\
&= \Sigma_{bb}^{-1} + \Sigma_{bb}^{-1}(\Sigma_{aa} – \Sigma_{ab} \Sigma_{bb}^{-1} \Sigma_{ba})^{-1} \Sigma_{ab} \Sigma_{bb}
\end{align}
$$

統計学を学ぶにあたって最低限抑えておきたい数学 〜1次関数・2次関数とその応用〜

当記事では「統計学を学ぶにあたって最低限抑えておきたい数学」の中から「$1$次関数・$2$次関数とその応用」に関して取り扱います。特に平方完成がよく出てくる一方で計算が複雑になることが多いので、具体的な応用事例なども合わせて取り扱いました。
取りまとめにあたっては数学の解説に関してはなるべくシンプルに取り扱いますが、統計学への応用に関連した複雑な内容に関しては目次に「*」をつけました。「*」がついているものはやや難しいので、読み飛ばしても問題ありません。

・基本数学まとめ
https://www.hello-statisticians.com/math_basic

$1$次関数

$1$次関数の概要

$f(x) = ax + b$で表される関数を$1$次関数といいます。また、$a$は傾き、$b$は切片などと呼ばれます。$1$次関数を理解するにあたってはグラフの描画を行うとわかりやすいです。以下、Pythonを用いてグラフの描画を行います。

import numpy as np
import matplotlib.pyplot as plt

x = np.arange(-2,3,1)
a, b = np.array([1,1,2,-1]), np.array([1,0,0,1])

for i in range(a.shape[0]):
    y = a[i]*x+b[i]
    plt.subplot(2,2,i+1)
    plt.title("a={}, b={}".format(a[i],b[i]))
    plt.plot(x,y)
    plt.scatter(x,y)
    plt.plot(np.array([0,0]),np.array([-3*np.abs(a[i])+b[i],b[i]]),"k--")
    plt.plot(np.array([-3,0]),np.array([b[i],b[i]]),"k--")

plt.show()

・実行結果

回帰

$2$次関数

$2$次関数の概要

$f(x)=ax^2+bx+c,a \neq 0$で表される関数を$2$次関数といいます。$f(x)=ax^2+bx+c$は次項で取り扱う平方完成の考え方を用いることで$a(x-p)^2+q$の式に変形できることから、以下当項では$f(x)=ax^2$のみを取り扱います。

$1$次関数と同様にグラフで確認するとわかりやすいので、下記では$a=1,2,-1,2$に対してそれぞれPythonを用いて$f(x)=ax^2$の描画を行います。

import numpy as np
import matplotlib.pyplot as plt

x = np.arange(-2,3,1)
x_ = np.arange(-2,2.01,0.01)
a = np.array([1,2,-1,-2])

for i in range(a.shape[0]):
    y, y_ = a[i]*x**2, a[i]*x_**2
    plt.subplot(2,2,i+1)
    plt.title("a={}".format(a[i]))
    plt.plot(x_,y_)
    plt.scatter(x,y)

plt.show()

・実行結果

平方完成の概要

$f(x)=a(x-p)^2+q$は$f(x)=ax^2$を$x$方向に$p$、$y$方向に$q$平行移動させた関数です。式だけではわかりにくいので、前項の$a=1,2,-1,2$に対応する$f(x)=ax^2$に対し、$f(x)=a(x-1)^2+2$を描画することで$x$方向に$1$、$y$方向に$2$平行移動することを確認します。

import numpy as np
import matplotlib.pyplot as plt

x = np.arange(-1,4,1)
x_ = np.arange(-1,3.01,0.01)
a = np.array([1,2,-1,-2])

for i in range(a.shape[0]):
    y, y_ = a[i]*(x-1)**2+2, a[i]*(x_-1)**2+2
    plt.subplot(2,2,i+1)
    plt.title("a={}".format(a[i]))
    plt.plot(x_,y_)
    plt.scatter(x,y)

plt.show()

・実行結果

上記よりグラフが$x$方向に$1$、$y$方向に$2$平行移動されたことが確認できます。このことに基づいて$f(x)=ax^2+bx+c$を$f(x)=a(x-p)^2+q$に変形することで$f(x)=ax^2$の平行移動であると考えることができます。

このとき$f(x)=ax^2+bx+c$を$f(x)=a(x-p)^2+q$に式変形することを「平方完成」といいます。$f(x)=ax^2+bx+c$の平方完成の方法に関しては次項で取り扱います。

$f(x)=ax^2+bx+c$の平方完成

$f(x)=ax^2+bx+c$の平方完成は下記のように行うことができます。
$$
\large
\begin{align}
f(x) &= ax^2 + bx + c \\
&= a \left( x^2 + \frac{b}{a}x \right) + c \\
&= a \left( x^2 + 2 \times \frac{b}{2a}x + \left(\frac{b}{2a}\right)^2 – \left(\frac{b}{2a}\right)^2 \right) + c \\
&= a \left( x^2 + 2 \times \frac{b}{2a}x + \left(\frac{b}{2a}\right)^2 \right) + c – a \left(\frac{b}{2a}\right)^2 \\
&= a \left( x + \frac{b}{2a} \right)^2 + c – \frac{b^2}{4a}
\end{align}
$$

上記はなるべく変形がわかりやすいように丁寧に式変形を行いましたので、実際に行う場合は適宜省略して計算を行うと良いと思います。

平方完成を行う際の計算の簡略化のコツ*

平方完成を行うにあたって、前項のようにストレートな方法で計算を行う方法もありますが、複雑な計算になる場合も多いことから「$f(x)=a(x-p)^2+q$の展開式を元に公式のように理解する」という考え方も重要であるというのが筆者の見解です。

$f(x)=a(x-p)^2+q$の展開は下記のように行うことができます。
$$
\large
\begin{align}
f(x) &= a(x-p)^2 + q \\
&= a(x^2-2px+p^2) + q \\
&= ax^2 – 2apx + ap^2 + q
\end{align}
$$

上記を$f(x)=ax^2+bx+c$に対応させるにあたって、$p,q$を$a,b,c$を用いて表すことを考えます。
$$
\large
\begin{align}
-2ap &= b \\
p &= – \frac{b}{2a} \\
ap^2 + q &= c \\
q &= c – a \times \left( – \frac{b}{2a} \right) \\
&= c – \frac{ab}{4a^2} = c – \frac{b}{4a}
\end{align}
$$

上記の計算は前項で取り扱った計算とそれほど違いがあるように見えませんが、$f(x)=ax^2+bx+c$が$\displaystyle – \frac{1}{2 \sigma^2} \left( N \mu^2 – 2 N \mu_{ML} \mu + \sum_{n=1}^{N} x_n^2 \right) – \frac{(\mu-\mu_{0})^2}{2 \sigma_{0}^{2}}$を$\mu$に関して平方完成を行う場合などのように複雑な計算を直接的に計算するのはなかなか大変です。よって、ここで考えたように$p,q$を$a,b,c$で表した上で代入するという考え方も抑えておくと良いと思います。

また、定数項の$\displaystyle q = c – \frac{b^2}{4a}$が考察に必要ない際は、具体的な計算を行わないで$\mathrm{Const.}$のように表す場合もあることは抑えておくと良いです。たとえば$\displaystyle – \frac{1}{2 \sigma^2} \left( N \mu^2 – 2 N \mu_{ML} \mu + \sum_{n=1}^{N} x_n^2 \right) – \frac{(\mu-\mu_{0})^2}{2 \sigma_{0}^{2}}$などの計算を通して「正規分布」における「事後分布の導出」を行う際などは、$(\mu-\mu_N)^2$の$\mu_N$がわかればよく、定数項は$\mathrm{Const.}$を用いて計算を行わない場合が多いです。

・参考
パターン認識と機械学習 演習問題 $2.38$

正規分布の事後分布と平方完成*

正規分布に対してベイズ法を用いて「事前分布」と「観測されたサンプル」から「事後分布」を導出する際に平方完成の考え方を用います。「事前分布」を$p(\mu_{0},\sigma_{0}^2)$、「サンプルが観測される確率」を$p(x_1,…,x_n|\mu,\sigma^2)$とするとき、それぞれ下記のように式で表せます。
$$
\large
\begin{align}
p(\mu_{0},\sigma_{0}^2) &= \frac{1}{\sqrt{2 \pi \sigma_0^2}} \exp \left( -\frac{(x-\mu_0)^2}{2 \sigma_0^2} \right) \\
p(x_1,…,x_n|\mu,\sigma^2) &= \prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{(x_i-\mu)^2}{2 \sigma^2} \right)
\end{align}
$$

5章 「独立同一分布」の演習問題解答例 〜入門統計解析(新世社)〜

当記事は「倉田+, 入門統計解析 (新世社)」の読解サポートにあたって5章「独立同一分布」の演習問題を解説します。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。(そのため著者の意図とは異なる解説となる可能性はあります)

執筆:@masumasumath1

演習問題解答例

5.1 多次元確率分布

5.1.1

(1) まず$X$の周辺分布$P(X=-1)$,$P(X=0)$,$P(X=1)$をそれぞれ求める.
表を横方向に足し合わせれば良い(行和)ので,

$P(X=-1) = 0.3$,$P(X=0) = 0.4$,$P(X=1) = 0.3$

である.したがって,$X$の期待値$E(X)$は

$$
E(X) = -1\times 0.3 + 0\times 0.4 + 1\times 0.3=0
$$

である.また,分散$V(X)$は
$$V(X) = E(X^2) – E(X)^2 = (-1)^2\times 0.3 + 0^2\times 0.4 + 1^2\times 0.3 – 0^2 = 0.6$$

(2) $Y$については表を縦方向に足し合わせる(列和).したがって,

$P(Y=-1) = 0.4$,$P(Y=0) = 0.2$,$P(Y=1) = 0.4$

であるから,期待値$E(Y)$は

$$E(Y) = -1\times 0.4 + 0\times 0.2 + 1\times 0.4 = 0$$

である.また分散$V(Y)$は

   $$V(Y) = E(Y^2)-E(Y)^2 = (-1)^2\times 0.4 + 0^2 \times 0.2+ 1^2\times 0.4 – 0^2 = 0.8$$

である.

(3) $C(X,Y) = E(XY) – E(X)E(Y)$であるから,$E(XY)$を計算する.

$X$,$Y$はどちらも$-1,0,1$のいずれかの値をとるので,$XY$は$(-1)\times (-1), (-1)\times 0, (-1)\times 1,  0\times(-1), 0\times 0, 0\times 1, 1\times(-1), 1\times 0, 1\times1$のいずれかとなる.

それぞれの確率は表からわかるのでそれを用いて期待値$E(XY)$を計算すると,

$$
\begin{align*}
 E(XY) &=& (-1)&\cdot(-1)\cdot 0.1 &+ (-1)&\cdot 0 \cdot 0.1 &+ (-1)&\cdot 1 \cdot 0.1 \\
           & &+0&\cdot(-1)\cdot 0.2    &+    0&\cdot 0 \cdot 0   &+    0&\cdot 1 \cdot 0.2 \\
             & &+1&\cdot(-1)\cdot 0.1    &+    1&\cdot 0 \cdot 0.1 &+    1&\cdot 1 \cdot 0.1 \\
             &= 0
    \end{align*}
$$

となる.したがって,共分散$C(X,Y)$は

$$C(X,Y) = E(XY)- E(X)E(Y) = 0 – 0 = 0$$

また,${\displaystyle \rho_{XY} = \frac{C(X,Y)}{\sqrt{V(X)}\sqrt{V(Y)}} = 0}$.

これを表の$9$箇所の値について計算して,その和をとれば$E(XY)$を求めることができる.

5.1.2

(1) $X$の周辺分布は横方向に和をとれば良い(行和).

  $$ P(X = 0) = \frac{8}{20} , P(X=1) = \frac{4}{20} , P(X=2) = \frac{8}{20} $$

   $Y$の周辺分布は縦方向に和をとれば良い(列和).

  $$ P(Y=1) = \frac{8}{20} , P(Y=2) = \frac{4}{20} , P(Y=3) = \frac{8}{20} $$

(2) $E(X)$は(1)の結果を用いて計算すると,$E(X) = 1$.
また,${\displaystyle E(X^2)=\frac{9}{5} } $ であるから

   $$ V(X) = E(X^2) – E(X)^2 = \frac{9}{5} – 1^2 = \frac{4}{5} $$

   となる.

(3) $C(XY) = E(XY) – E(X)E(Y)$であるから,$E(XY)$と$E(Y)$を求める.

$E(XY)$はさきほどの$5.1.1$と同様に表から計算すればよく,その値は$E(XY) = 2$,$ E(Y) = 2$であるから,

$$ C(X,Y) = E(XY)-E(X)E(Y) = 2-1\cdot 2 = 0 $$

   である.

(4) 各$x,y$に対して$P(X=x,Y=y) = P(X=x)P(Y=y)$が成り立つとき$X$と$Y$は独立であるという(テキストでは5.2節に定義の記載がある).

しかし,例えば$P(X=1,Y=2) = 0$,${\displaystyle P(X=1) = \frac{4}{20}}$,${\displaystyle P(Y=2) = \frac{2}{10}}$であり,$P(X=1,Y=2) \neq P(X=1)P(Y=2)$であるから,$X$と$Y$は独立ではない.

5.1.3

(1) 5.1.1と同様に$X$の周辺分布は$P(X=1)=0.3$,$P(X=2)=0.3$,$P(X=3) = 0.4$.

したがって,期待値$E(X)$は$E(X)=2.10$である.

また,$E(X^2) =  5.10$であるから,分散$V(X)$は$V(X) = E(X^2)-E(X)^2 = 5.10-4.41 = 0.69$.

(2) $Y$も同様に計算すればよい.

$Y$の周辺分布は$P(Y=90)=0.09$,$P(Y=100)=0.28$,$P(Y=110) = 0.28$,$P(Y=120) = 0.26$,$P(Y=130) = 0.09$.

したがって,期待値$E(Y)$は$E(Y) = 109.8$.

また,$E(Y^2) = 12182.0$であるから,分散$V(Y)$は$V(Y) = E(Y^2)-E(Y)^2 = 12182.0-12056.0 = 125.9$.

(3) 共分散$C(X,Y)$は$C(X,Y) = E(XY)-E(X)E(Y)$で求めることができる.

$E(XY)$は,やはり$5.1.1$と同様に,各$XY$の値とその確率が表から直ちにわかり,その値は$E(XY) = 236.4$である.

したがって,

     $$ C(X,Y) = E(XY)-E(X)E(Y) = 236.4 – 230.58 = 5.82 $$

となる.

また,${\displaystyle\rho_{XY} = \frac{C(X,Y)}{\sqrt{V(X)}\sqrt{V(Y)}} }$なので,

           $$ \rho_{XY} = \frac{5.82}{\sqrt{0.69}\sqrt{125.9}} = 0.62. $$

5.1.4

(1) ${\displaystyle P(Y=y|X=90) = \frac{P(Y=y,X=90)}{P(X=90)}}$である.

したがって,

           $$ P(Y=250|X=90) = \frac{0.1}{0.7} = 0.14$$

           $$ P(Y=300|X=90) = \frac{0.2}{0.7} = 0.29$$

           $$ P(Y=350|X=90) = \frac{0.4}{0.7} = 0.57$$

となる.

(2) $(1)$の結果を用いて計算する.

$${\displaystyle E(Y=y|X=90) = 250\cdot\frac{1}{7} + 300\cdot \frac{2}{7} + 350\cdot \frac{4}{7} = 321.4}$$

(3) $(1)$における$X=90$を$X=110$として計算すればよい.

           \[ P(Y=250|X=110) = \frac{0.1}{0.3} = 0.33\]

           \[ P(Y=300|X=110) = \frac{0.1}{0.3} = 0.33\]

           \[ P(Y=350|X=110) = \frac{0.1}{0.3} = 0.33\]

(4) $(2)$と同様.

   ${\displaystyle E(Y=y|X=110) = 250\cdot\frac{1}{3} + 300\cdot \frac{1}{3} + 350\cdot \frac{1}{3} = 300.0}$

5.1.5

(1) $i$を任意に$1$つ固定して考える.結果$C_i$が起こる確率が$p_i$なので,$C_i$以外の結果が起こることをまとめて$1$つの結果だと考えると,その確率は$1-p_i$である.これは成功確率$p_i$,長さ$n$のベルヌーイ試行とみなすことができる.

よって,$X_i$は二項分布$B(n,p_i)$に従う.したがって,$E(X_i)=np_i$である.
(ここで,$B(n,p)$の期待値は$np$であることを用いた.)

(2) $(1)$と同様に,二項分布$B(n,p_i)$の分散が$np(1-p)$であることを利用すると,$V(X)=np_i(1-p_i)$とわかる.

(3) $C(X_i,X_j) = E(X_iX_j)-E(X_i)E(X_j)$を利用する.$E(X_i)$,$E(X_j)$は$(1)$からわかるので,$E(X_iX_j)$を計算する.

$X_i=n_i$かつ$X_j=n_j$となる確率は

\[
P(X_i=n_i,X_j=n_j) = \frac{n!}{n_i!n_j!(n-n_i-n_j)!}p_i^{n_i}p_j^{n_j}(1-p_i-p_j)^{n-n_i-n_j}
\]

である.従って,$E(X_iX_j)$は

$$
\begin{align*}
&E(X_iX_j)\\
&= \sum_{\substack{ 1\leq n_i,n_j \leq n \\ n_i + n_j \leq n}} n_i n_j
\frac{n!}{n_i!n_j!(n-n_i-n_j)!}p_i^{n_i}p_j^{n_j}(1-p_i-p_j)^{n-n_i-n_j} \\
&=n(n-1)p_ip_j \times\\
& \quad  \sum_{\substack{ 1\leq n_i,n_j \leq n \\ n_i + n_j \leq n}} \frac{(n-2)!}{(n_i-1)!(n_j-1)!(n-n_i-n_j)!}p_i^{n_i-1}p_j^{n_j-1}(1-p_i-p_j)^{n-n_i-n_j} \\
&= n(n-1)p_ip_j(p_i+p_j+(1-p_i-p_j))^{n-2}\\
&= n(n-1)p_ip_j
\end{align*}
$$

となる(ここで$3$行目から$4$行目の式変形には多項定理を利用した).以上から

$$
\begin{align*}
               C(X_i,X_j) &= E(X_iX_j)-E(X_i)E(X_j)\\
                          &= n(n-1)p_ip_j – np_i \cdot np_j\\
                          &= -np_ip_j
\end{align*}
$$

となる.

(補足)多項定理

$(a+b+c)^n$の展開式における$a^p b^q c^r$の項の係数は${\displaystyle \frac{n!}{p!q!r!}}$である.ただし,$p+q+r = n $.

これを利用すると

\[
(a+b+c)^n = \sum_{\substack{0\leq p,q,r \leq n \\ p+q+r=n}}\frac{n!}{p!q!r!}a^p b^q c^r
\]

とわかる.
従って,$a = p_i$,$b = p_j$,$c = 1 – p_i – q_j$とし,また$n-2 = n + (n_i-1) + (n_j-1)$と考えて多項定理を適用すればよい.

5.2 独立同一分布

5.3 独立性と無相関性

5.4 和の分布

深層学習 改訂第2版 第八章「推論の信頼性」 176p-177p 数式の表記揺れの確認

当記事は「深層学習 改訂第2版 (講談社)」の読解サポートを行います。基本的に購入者向けの解説ですので、購入されていない方は下記より入手をご検討ください。また、解説は筆者の見解であり、公式のものではないことにご注意ください。

執筆: @ShunDeveloper

176p の数式の$\sigma^2$と$\sigma(\mathbf{x}_n ; \mathbf{w})^2$の検討

「深層学習 改訂第2版 (講談社)」以下(「深層学習」) 176pには以下の数式が記述されている。

$$
\begin{eqnarray}
p(y_n| \mathbf{x}_n, \mathbf{w})
=
\frac{1}{\sqrt{2\pi \sigma^2}}
\exp\biggr\{ – \frac{\| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2}{2\sigma(\mathbf{x}_n ; \mathbf{w})^2} \biggr\}
\end{eqnarray}
$$

ここで、$\sigma^2$ と $\sigma(\mathbf{x}_n ; \mathbf{x})^2$ という二種類の記述があるが, 同じものかどうかを177pの8.5式を導出することで検討を行った。結論から述べると $\sigma^2 = \sigma(\mathbf{x}_n ; \mathbf{w})^2$ である。(以下導出)

尤度関数 $L(\mathbf{w})=\Pi_n \; p(y_n|\mathbf{x}_n, \mathbf{w})$ を変形する。

$$
\begin{eqnarray}
L(\mathbf{w})
&=&
\Pi_n \; p(y_n|\mathbf{x}_n, \mathbf{w}) \\
&=&
\prod_n \;
\frac{1}{\sqrt{2\pi \sigma^2}}
\exp\biggr\{ – \frac{\| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2}{2\sigma(\mathbf{x}_n ; \mathbf{w})^2} \biggr\} \\
&=&
\prod_n \;
\frac{1}{\sqrt{2\pi \sigma^2}}
\exp\biggr\{ – \frac{\| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2}{2\sigma(\mathbf{x}_n ; \mathbf{w})^2} \biggr\} \\
&=&
\prod_n \;
\exp\biggr\{ \log \biggr( \frac{1}{\sqrt{2\pi \sigma^2}} \biggr) – \frac{\| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2}{2\sigma(\mathbf{x}_n ; \mathbf{w})^2} \biggr\} \\
&=&
\prod_n \;
\exp\biggr\{ \log \biggr( \frac{1}{\sqrt{2\pi}} \biggr) + \log \biggr( \frac{1}{\sqrt{\sigma^2}} \biggr) – \frac{\| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2}{2\sigma(\mathbf{x}_n ; \mathbf{w})^2} \biggr\} \\
&=&
\prod_n \;
\exp\biggr\{ \log \biggr( \frac{1}{\sqrt{2\pi}} \biggr) – \frac{1}{2} \log ( \sigma^2 ) – \frac{1}{2}\sigma(\mathbf{x}_n ; \mathbf{w})^{-2} \cdot \| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2 \biggr\} \\
\end{eqnarray}
$$

従って, 対数尤度関数 $\log \: L(\mathbf{w})$ は以下のように変形できる。

$$
\begin{eqnarray}
\log \; L(\mathbf{w})
&=&
\log \;
\prod_n \;
\exp\biggr\{ \log \biggr( \frac{1}{\sqrt{2\pi}} \biggr) – \frac{1}{2} \log ( \sigma^2 ) – \frac{1}{2}\sigma(\mathbf{x}_n ; \mathbf{w})^{-2} \cdot \| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2 \biggr\} \\
&=&
\sum \;
\biggr\{ \log \biggr( \frac{1}{\sqrt{2\pi}} \biggr) – \frac{1}{2} \log ( \sigma^2 ) – \frac{1}{2}\sigma(\mathbf{x}_n ; \mathbf{w})^{-2} \cdot \| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2 \biggr\} \\
&=&
\sum \;
\biggr\{ \log \biggr( \frac{1}{\sqrt{2\pi}} \biggr) – \frac{1}{2} \log ( \sigma^2 ) – \frac{1}{2} \exp \{ – \log (\sigma(\mathbf{x}_n ; \mathbf{w})^{2} )\} \cdot \| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2 \biggr\} \\
\end{eqnarray}
$$

ここで、$\sigma^2 \geq 0$ から ※1. $s(\mathbf{x}; \mathbf{w}) \equiv \log \: \sigma^2$ を定義し, 対数尤度関数に代入する. また, 定数項 $\log \: (1/\sqrt{2\pi})$ を※2. $\text{const.}$ とおくと、

$$
\begin{eqnarray}
\log \; L(\mathbf{w})
&=&
\sum \;
\biggr\{- \frac{1}{2} \log ( \sigma^2 ) – \frac{1}{2} \exp \{ – \log (\sigma(\mathbf{x}_n ; \mathbf{w})^{2} )\} \cdot \| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2 \biggr\} + \text{const.} \\
&=&
\sum \;
\biggr\{- \frac{1}{2} s(\mathbf{x}; \mathbf{w}) – \frac{1}{2} \exp \{ – \log (\sigma(\mathbf{x}_n ; \mathbf{w})^{2} )\} \cdot \| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2 \biggr\} + \text{const.} \\
\end{eqnarray}
$$

最後に対数尤度関数の符号を反転すると、

$$
\begin{eqnarray}
– \log \; L(\mathbf{w})
&=&
\sum \;
\biggr\{\frac{1}{2} s(\mathbf{x}; \mathbf{w}) + \frac{1}{2} \exp \{ – \log (\sigma(\mathbf{x}_n ; \mathbf{w})^{2} )\} \cdot \| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2 \biggr\} + \text{const.} \\
&=&
\sum \;
\biggr\{\frac{1}{2} \exp \{ – \log (\sigma(\mathbf{x}_n ; \mathbf{w})^{2} )\} \cdot \| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2 + \frac{1}{2} s(\mathbf{x}; \mathbf{w}) \biggr\} + \text{const.} \\
\end{eqnarray}
$$

上記の式と以下に示す8.5式を比べる

$$
\begin{eqnarray}
– \log \; L(\mathbf{w})
&=&
\sum \;
\biggr\{\frac{1}{2} \exp \{ – s(\mathbf{x}_n ; \mathbf{w}) \} \cdot \| y_n – \mu(\mathbf{x}_n; \mathbf{w}) \|^2 + \frac{1}{2} s(\mathbf{x}; \mathbf{w}) \biggr\} + \text{const.} \\
\end{eqnarray}
$$

よって

$$
\begin{eqnarray}
\log (\sigma(\mathbf{x}_n ; \mathbf{w})^{2} )
&=&
s(\mathbf{x}_n ; \mathbf{w})\\
&=&
\log \: \sigma^2
\end{eqnarray}
$$

以上より、

$$
\begin{eqnarray}
\sigma^2 = \sigma(\mathbf{x}_n ; \mathbf{w})^2
\end{eqnarray}
$$

補足

※1. 176p最終行参照
※2. 「深層学習」では、定数項を $\text{const.}$ としているが、$\text{Const.}$ とする記法も存在する

Ch.5 「ニューラルネットワーク」の章末問題の解答例 パターン認識と機械学習 5.1〜5.20

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.$5$の「ニューラルネットワーク」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・参考
パターン認識と機械学習 解答まとめ
https://www.hello-statisticians.com/answer_textbook_prml

解答まとめ

問題$5.1$

問題$3.1$の導出より、$\tanh(a) = 2 \sigma(2a) – 1$が成立する。この式は下記のように変形できる。
$$
\large
\begin{align}
\sigma(2a) = \frac{\tanh(a)+1}{2}
\end{align}
$$

よって、ロジスティックシグモイド関数が$2a$の場合に、$a$が出力されるような$w$を持ち活性化関数の出力に$1$を加え$2$で割ることにより同様の結果を得ることができる。また、ここでは$\tanh(a)$が$(-1,1)$を取り得るので$1$を加え$2$で割ることにより$(0,1)$に調整を行なったと考えられる。

問題$5.2$

$$
\large
\begin{align}
p(\mathbf{t}|\mathbf{x},\mathbf{w}) = \mathcal{N}(\mathbf{t}|\mathbf{y}(\mathbf{x},\mathbf{w}),\beta^{-1}\mathbf{I}) \quad (5.16)
\end{align}
$$

尤度を$L(\mathbf{w},\beta)$とおくと、上記に表した$(5.16)$より、$L(\mathbf{w},\beta)$は下記のように求められる。
$$
\large
\begin{align}
L(\mathbf{w},\beta) &= \prod_{n=1}^{N} p(\mathbf{t}_{n}|\mathbf{x}_{n},\mathbf{w}) \\
&= \prod_{n=1}^{N} \mathcal{N}(\mathbf{t}_{n}|\mathbf{y}(\mathbf{x}_{n},\mathbf{w}),\beta^{-1}\mathbf{I}) \\
&= \prod_{n=1}^{N} \frac{\beta}{\sqrt{2 \pi}|\mathbf{I}|} \exp \left( -\frac{1}{2}(\mathbf{y}(\mathbf{x}_{n},\mathbf{w})-\mathbf{t}_{n})^{\mathrm{T}} (\beta^{-1} \mathbf{I})^{-1}(\mathbf{y}(\mathbf{x}_{n},\mathbf{w})-\mathbf{t}_{n}) \right) \\
&= \prod_{n=1}^{N} \frac{\beta}{\sqrt{2 \pi}} \exp \left( -\frac{\beta}{2}(\mathbf{y}(\mathbf{x}_{n},\mathbf{w})-\mathbf{t}_{n})^{\mathrm{T}} (\mathbf{y}(\mathbf{x}_{n},\mathbf{w})-\mathbf{t}_{n}) \right) \\
&= \prod_{n=1}^{N} \frac{\beta}{\sqrt{2 \pi}} \exp \left( -\frac{\beta ||\mathbf{y}(\mathbf{x}_{n},\mathbf{w})-\mathbf{t}_{n}||^2}{2} \right)
\end{align}
$$

上記より対数尤度$\ln{L(\mathbf{w},\beta)}$を$\mathbf{w}$のみに着目すると下記のように考えられる。
$$
\large
\begin{align}
\ln{L(\mathbf{w},\beta)} &= \ln{ \left[ \prod_{n=1}^{N} \frac{\beta}{\sqrt{2 \pi}} \exp \left( -\frac{\beta ||\mathbf{y}(\mathbf{x}_{n},\mathbf{w})-\mathbf{t}_{n}||^2}{2} \right) \right] } \\
&= \ln{ \left[ \prod_{n=1}^{N} \exp \left( -\frac{\beta ||\mathbf{y}(\mathbf{x}_{n},\mathbf{w})-\mathbf{t}_{n}||^2}{2} \right) \right] } + \mathrm{Const.} \\
&= \ln{ \left[ \exp \left( – \sum_{n=1}^{N} \frac{\beta ||\mathbf{y}(\mathbf{x}_{n},\mathbf{w})-\mathbf{t}_{n}||^2}{2} \right) \right] } + \mathrm{Const.} \\
&= – \sum_{n=1}^{N} \frac{\beta ||\mathbf{y}(\mathbf{x}_{n},\mathbf{w})-\mathbf{t}_{n}||^2}{2} + \mathrm{Const.} \\
& \propto – \frac{1}{2} \sum_{n=1}^{N} ||\mathbf{y}(\mathbf{x}_{n},\mathbf{w})-\mathbf{t}_{n}||^2 + \mathrm{Const.}’
\end{align}
$$

上記より$(5.11)$式を最大化することは$(5.16)$式を最小化することに一致すると考えられる。

問題$5.3$

問題$5.4$

問題$5.5$

$$
\large
\begin{align}
y_{k}(\mathbf{x}_{n},\mathbf{w}) = p(t_{k}=1|\mathbf{x}_{n})
\end{align}
$$

上記のような数式に基づいて予測を行うと考えるときの尤度を$L(\mathbf{w})$とおくと、$L(\mathbf{w})$は下記のように考えられる。
$$
\large
\begin{align}
L(\mathbf{w}) = \prod_{n=1}^{N} \prod_{k=1}^{K} y_{k}(\mathbf{x}_{n},\mathbf{w})^{t_{nk}}
\end{align}
$$

上記に対し$-\ln{L(\mathbf{w})}$は下記のように考えられる。
$$
\large
\begin{align}
-\ln{L(\mathbf{w})} &= – \ln{ \left[ \prod_{n=1}^{N} \prod_{k=1}^{K} y_{k}(\mathbf{x}_{n},\mathbf{w})^{t_{nk}} \right] } \\
&= – \sum_{n=1}^{N} \sum_{k=1}^{K} \ln{ y_{k}(\mathbf{x}_{n},\mathbf{w})^{t_{nk}} } \\
&= – \sum_{n=1}^{N} \sum_{k=1}^{K} t_{nk} \ln{y_{k}(\mathbf{x}_{n},\mathbf{w})} \quad (5.24)
\end{align}
$$

$(5.24)$式はクロスエントロピー誤差関数に一致する一方で、最尤法から導出されたことより$(5.24)$式の最小化は尤度の最大化に一致すると考えられる。

問題$5.6$

$$
\large
\begin{align}
E &= – \sum_{n=1}^{N} \left[ t_{n} \ln{y_{n}} + (1-t_{n}) \ln{(1-y_{n})} \right] \quad (5.21) \\
y_{n} &= \sigma(a_{n}) = \frac{1}{1+\exp(-a_{n})}
\end{align}
$$

上記で表した$(5.21)$式を$k$番目のサンプルの$a_{k}$で偏微分することを考えると、下記のように計算できる。
$$
\large
\begin{align}
\frac{\partial E}{\partial a_{k}} &= – \left( \frac{t_{k}}{y_{k}} \times y_{k}(1-y_{k}) – \frac{1-t_{k}}{1-y_{k}} \times y_{k}(1-y_{k}) \right) \\
&= – \left( t_{k}(1-y_{k}) – (1-t_{k})y_{k} \right) \\
&= – (t_{k} – y_{k}) = y_{k} – t_{k} \quad (5.18)
\end{align}
$$

途中計算におけるロジスティックシグモイド関数の微分の詳細は下記などで取り扱ったので省略を行なった。
・パターン認識と機械学習 章末問題 $4.12$解答
・パターン認識と機械学習 章末問題 $4.13$解答

問題$5.7$

$$
\large
\begin{align}
E &= – \sum_{n=1}^{N} \sum_{k=1}^{K} t_{nk} \ln{y_{k}(\mathbf{x}_{n},\mathbf{w})} \quad (5.24) \\
y_{nk} &= \mathrm{softmax}(a_{nk}) = \frac{\exp(a_{nk})}{\sum_{j} \exp(a_{nj})}
\end{align}
$$

上記で表した$(5.24)$式を$l$番目のサンプルの$k$番目の出力層の入力に対応する$a_{lk}$で偏微分することを考えると、下記のように計算できる。
$$
\large
\begin{align}
\frac{\partial E}{\partial a_{lk}} &= – \sum_{n=1}^{N} \sum_{k=1}^{K} \frac{\partial (t_{nk} \ln{y_{nk}})}{\partial y_{nk}} \frac{\partial y_{nk}}{\partial a_{lj}} \\
&= – \sum_{k=1}^{K} \frac{t_{lk}}{y_{lk}} y_{lk} (\mathit{I}_{kj} – y_{lj}) \quad (4.106) \\
&= – \sum_{k=1}^{K} t_{lk}(\mathit{I}_{lj} – y_{lj}) \\
&= – (- t_{l1}y_{lj} – t_{l2}y_{lj} – … t_{lK}y_{lj}) + t_{lj} \\
&= (t_{l1}+t_{l2}+…+t_{lK})y_{lj} – t_{lj} \\
&= y_{lj} – t_{lj} \quad (5.18)
\end{align}
$$

問題$5.8$

$$
\large
\begin{align}
\tanh(a) &= \frac{e^a-e^{-a}}{e^{a}+e^{-a}} \quad (5.59)
\end{align}
$$

上記のように表される$(5.59)$式を$a$で微分すると下記のように変形を行える。
$$
\large
\begin{align}
\frac{d}{da} \tanh(a) &= \frac{(e^a+e^{-a})(e^a+e^{-a}) – (e^a-e^{-a})(e^a-e^{-a})}{(e^{a}+e^{-a})^2} \\
&= \frac{(e^a+e^{-a})^2 – (e^a-e^{-a})^2}{(e^{a}+e^{-a})^2} \\
&= 1 – \frac{(e^a-e^{-a})^2}{(e^{a}+e^{-a})^2} = 1 – \tanh^2(a) \quad (5.60)
\end{align}
$$

上記は$(5.60)$式に対応する。

問題$5.9$

$$
\large
\begin{align}
\tanh(a) &= \frac{e^a-e^{-a}}{e^{a}+e^{-a}} \quad (5.59)
\end{align}
$$

$-1 \leq y(\mathbf{x},\mathbf{w}) \leq 1$に出力を制御するにあたっては$(5.59)$式で表される$\tanh(a)$を活性化関数に用いれば良い。また、$\tanh(a) = 2\sigma(2a)-1$が成立するので、結果の解釈にあたってはロジスティックシグモイド関数を用いるときと同様に考えることができる。下記のように類題が取り扱われているので、合わせて確認しておくと良いと思われる。

・パターン認識と機械学習 章末問題 $3.1$解答
・パターン認識と機械学習 章末問題 $5.1$解答

問題$5.10$

$$
\large
\begin{align}
\mathbf{v} &= \sum_{i} c_{i} \mathbf{u}_{i} \quad (5.38) \\
\mathbf{v}^{\mathrm{T}} \mathbf{H} \mathbf{v} &= \sum_{i} c_{i}^{2} \lambda_{i} \quad (5.39)
\end{align}
$$
上記で表した$(5.39)$式の全ての$\lambda_{i}$が$\lambda_{i} > 0$であれば任意の$\mathbf{v}$に関して$\mathbf{v}^{\mathrm{T}} \mathbf{H} \mathbf{v} > 0$が成り立つので$\mathbf{H}$は正定値行列となる。

以下、$\mathbf{v}^{\mathrm{T}} \mathbf{H} \mathbf{v}$に$(5.38)$式を代入し、$\displaystyle \sum_{i} c_{i}^{2} \lambda_{i}$が得られることを確認し、$(5.39)$式が成立することを示す。
$$
\large
\begin{align}
\mathbf{v}^{\mathrm{T}} \mathbf{H} \mathbf{v} &= \left( \sum_{i} c_{i} \mathbf{u}_{i} \right)^{\mathrm{T}} \mathbf{H} \left( \sum_{j} c_{j} \mathbf{u}_{j} \right) \\
&= \left( \sum_{i} c_{i} \mathbf{u}_{i} \right)^{\mathrm{T}} \left( \sum_{j} c_{j} \mathbf{H} \mathbf{u}_{j} \right) \\
&= \left( \sum_{i} c_{i} \mathbf{u}_{i} \right)^{\mathrm{T}} \left( \sum_{j} \lambda_{j} c_{j} \mathbf{u}_{j} \right) \\
&= \sum_{i} \sum_{j} \lambda_{j} c_{i}c_{j} \mathbf{u}_{i}^{\mathrm{T}} \mathbf{u}_{j} \\
&= \sum_{i} \lambda_{i} c_{i}^{2} \quad (5.39)
\end{align}
$$

問題$5.11$

$$
\large
\begin{align}
\mathbf{w}-\mathbf{w}^{*} &= \sum_{i} \alpha_{i} \mathbf{u}_{i} \quad (5.35) \\
E(\mathbf{w}) &= E(\mathbf{w}^{*}) + \frac{1}{2} \sum_{i} \lambda_{i} \alpha_{i}^{2} \quad (5.36)
\end{align}
$$

誤差関数は上記の$(5.36)$式で表されるが、$E(\mathbf{w})=\mathrm{Const.}$とおくと、$(5.36)$式は下記のように変形できる。
$$
\large
\begin{align}
E(\mathbf{w}) = E(\mathbf{w}^{*}) + \frac{1}{2} \sum_{i} \lambda_{i} \alpha_{i}^{2} &= \mathrm{Const.} \\
\sum_{i} \lambda_{i} \alpha_{i}^{2} &= 2(\mathrm{Const.} – E(\mathbf{w}^{*}))
\end{align}
$$

ここで上記の$2(\mathrm{Const.} – E(\mathbf{w}^{*}))$も定数であると考えられるので、$\displaystyle \sum_{i} \lambda_{i} \alpha_{i}^{2}=\mathrm{Const.}’$が成立し、楕円の方程式に一致する。

ここで$(5.35)$式より$\alpha_{i}$はベクトル$\mathbf{w}-\mathbf{w}^{*}$を構成する$\mathbf{u}_{i}$の成分であると解釈できる。また、$\alpha_{i}$以外が$0$のとき、固有値$\lambda_{i}$に関して下記が成立する。
$$
\large
\begin{align}
\lambda_{i} \alpha_{i}^{2} &= \mathrm{Const}’. \\
\alpha_{i} &= \sqrt{\frac{\mathrm{Const}’.}{\lambda_{i}}}
\end{align}
$$

以上を元に、誤差関数が一定の$\mathbf{w}$の等高線が、図$5.6$のような回転した楕円を元に表されると考えることができる。

問題$5.13$

$$
\large
\begin{align}
E(\mathbf{w}) \simeq E(\hat{\mathbf{w}}) + (\mathbf{w}-\hat{\mathbf{w}})^{\mathrm{T}} \mathbf{b} + \frac{1}{2}(\mathbf{w}-\hat{\mathbf{w}})^{\mathrm{T}} \mathbf{H} (\mathbf{w}-\hat{\mathbf{w}}) \quad (5.28)
\end{align}
$$

上記で表した$(5.28)$式の$\mathbf{b}$は$W$、$\mathbf{H}$は演習$2.21$で取り扱ったように$\displaystyle \frac{W(W+1)}{2}$の自由度を持つ。よって、$(5.28)$式全体での自由度は下記のように表される。
$$
\large
\begin{align}
W + \frac{W(W+1)}{2} &= W + \frac{W(W+1) + 2W}{2} \\
&= \frac{W(W+3)}{2}
\end{align}
$$

問題$5.14$

$(5.68)$式に出てくる$E_{n}(w_{ji}+\epsilon)$に関して、下記のようにテイラー展開を行うことができる。
$$
\large
\begin{align}
E_{n}(w_{ji}+\epsilon) &= E_{n}(w_{ji}) + \frac{\partial E_{n}(w_{ji})}{\partial w_{ji}} \epsilon + \frac{\partial^2 E_{n}(w_{ji})}{\partial w_{ji}^2} \frac{\epsilon^{2}}{2!} + \cdots \quad (1)
\end{align}
$$

上記の$(1)$式は下記のように変形できる。
$$
\large
\begin{align}
E_{n}(w_{ji}+\epsilon) &= E_{n}(w_{ji}) + \frac{\partial E_{n}(w_{ji})}{\partial w_{ji}} \epsilon + \frac{\partial^2 E_{n}(w_{ji})}{\partial w_{ji}^2} \frac{\epsilon^{2}}{2!} + \cdots \\
\frac{\partial E_{n}(w_{ji})}{\partial w_{ji}} \epsilon &= E_{n}(w_{ji}+\epsilon) – E_{n}(w_{ji}) – \left[ \frac{\partial^2 E_{n}(w_{ji})}{\partial w_{ji}^2} \frac{\epsilon^{2}}{2!} + \cdots \right] \\
\frac{\partial E_{n}(w_{ji})}{\partial w_{ji}} &= \frac{E_{n}(w_{ji}+\epsilon) – E_{n}(w_{ji})}{\epsilon} + O(\epsilon) \quad (5.68)
\end{align}
$$

上記の$O(\epsilon)$は剰余項の$\epsilon$に関する最小次数の項が$\epsilon$であることを意味する。同様の変形を中心差分に関して行うにあたって、下記のような$E_{n}(w_{ji}+\epsilon)$と$E_{n}(w_{ji}-\epsilon)$のテイラー展開を考える。
$$
\large
\begin{align}
E_{n}(w_{ji}+\epsilon) &= E_{n}(w_{ji}) + \frac{\partial E_{n}(w_{ji})}{\partial w_{ji}} \epsilon + \frac{\partial^2 E_{n}(w_{ji})}{\partial w_{ji}^2} \frac{\epsilon^{2}}{2!} + \cdots \quad (1) \\
E_{n}(w_{ji}+\epsilon) &= E_{n}(w_{ji}) – \frac{\partial E_{n}(w_{ji})}{\partial w_{ji}} \epsilon + \frac{\partial^2 E_{n}(w_{ji})}{\partial w_{ji}^2} \frac{\epsilon^{2}}{2!} – \cdots \quad (2)
\end{align}
$$

両辺に関して$(1)-(2)$式を計算すると下記のように計算できる。
$$
\large
\begin{align}
& E_{n}(w_{ji}+\epsilon) – E_{n}(w_{ji}+\epsilon) \\
&= \left[ E_{n}(w_{ji}) + \frac{\partial E_{n}(w_{ji})}{\partial w_{ji}} \epsilon + \frac{\partial^2 E_{n}(w_{ji})}{\partial w_{ji}^2} \frac{\epsilon^{2}}{2!} + \cdots \right] – \left[ E_{n}(w_{ji}) – \frac{\partial E_{n}(w_{ji})}{\partial w_{ji}} \epsilon + \frac{\partial^2 E_{n}(w_{ji})}{\partial w_{ji}^2} \frac{\epsilon^{2}}{2!} – \cdots \right] \\
&= 2 \frac{\partial E_{n}(w_{ji})}{\partial w_{ji}} \epsilon + 2 \frac{\partial^3 E_{n}(w_{ji})}{\partial w_{ji}^3} \frac{\epsilon^3}{3!} + \cdots
\end{align}
$$

上記の両辺を$2 \epsilon$で割り、$\displaystyle \frac{\partial E_{n}(w_{ji})}{\partial w_{ji}}$に関して解くことで下記のように$(5.69)$式を導出することができる。
$$
\large
\begin{align}
E_{n}(w_{ji}+\epsilon) – E_{n}(w_{ji}+\epsilon) &= 2 \frac{\partial E_{n}(w_{ji})}{\partial w_{ji}} \epsilon + 2 \frac{\partial^3 E_{n}(w_{ji})}{\partial w_{ji}^3} \frac{\epsilon^3}{3!} + \cdots \\
\frac{E_{n}(w_{ji}+\epsilon) – E_{n}(w_{ji}+\epsilon)}{2 \epsilon} &= \frac{\partial E_{n}(w_{ji})}{\partial w_{ji}} + \frac{\partial^3 E_{n}(w_{ji})}{\partial w_{ji}^3} \frac{\epsilon^2}{3!} + \cdots \\
\frac{\partial E_{n}(w_{ji})}{\partial w_{ji}} &= \frac{E_{n}(w_{ji}+\epsilon) – E_{n}(w_{ji}+\epsilon)}{2 \epsilon} + O(\epsilon^2) \quad (5.69)
\end{align}
$$

8章「母比率の区間推定」の練習問題解答例〜例題で学ぶ初歩からの統計学[第2版]〜

当記事は「白砂, 例題で学ぶ初歩からの統計学 第$2$版 (日本評論社)」の読解サポートにあたって$8$章「母比率の区間推定」の練習問題を解説します。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。(そのため著者の意図とは異なる解説となる可能性はあります)

・統計学に関する書籍の解答集
https://www.hello-statisticians.com/answer_textbook

執筆:@kakusan96

演習問題解答例

8-1 母比率の区間推定

二項分布の母集団から無作為に抽出した標本より標本比率$\hat{p}$を求めると$\hat{p}$はnが大きくなるにつれて近似的に正規分布$\mathcal{N}(p, \frac{p(1-p)}{n})$に近似できる。
よって、$\hat{p}$を標準化した値zの分布は標準正規分布$\mathcal{N}(0, 1)$に従う。

$$
z = \frac{\hat{p} – p}{\sqrt{\frac{p(1-p)}{n}}}
$$

ここで標本数nが十分に大きいとき、母比率pは標本比率$\hat{p}$に近似することが可能である。
信頼係数が$\alpha$の時、標準正規分布において上側確率が$\frac{1-\alpha}{2}$になるz値を$z_{\frac{1-\alpha}{2}}$としたとき

$$
\begin{align}
– z_{\frac{1-\alpha}{2}} \leq &\frac{\hat{p} – p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}} \leq + z_{\frac{1-\alpha}{2}} \\
\hat{p} – z_{\frac{1-\alpha}{2}} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq &p \leq \hat{p} + z_{\frac{1-\alpha}{2}} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} 
\end{align}
$$

ちなみによく用いられる信頼係数αはα=90、α=95、α=99であり、その場合のz値はそれぞれ標準正規分布表より以下の通りとなる。

$$
\begin{align}
z_{0.05} &=1.645 \\
z_{0.025} &=1.96 \\
z_{0.005} &=2.576\\
\end{align}
$$

である。よって、それぞれ信頼係数におけるの推定区間は以下のようになる。

信頼区間$90$%

$$
\begin{align}
\hat{p} – z_{0.05} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq &p \leq \hat{p} + z_{0.05} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}  \\
\hat{p} – 1.645 \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq &p \leq \hat{p} + 1.645 \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} 
\end{align}
$$

信頼区間$95$%

$$
\begin{align}
\hat{p} – z_{0.025} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq &p \leq \hat{p} + z_{0.025} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}  \\
\hat{p} – 1.96 \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq &p \leq \hat{p} + 1.96 \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
\end{align}
$$

信頼区間$99$%

$$
\begin{align}
\hat{p} – z_{0.005} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq &p \leq \hat{p} + z_{0.005} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}  \\
\hat{p} – 2.576 \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq &p \leq \hat{p} + 2.576 \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} 
\end{align}
$$

標本比率$\hat{p}$は $\hat{p} = \frac{578}{850} = 0.68$ であるのでそれぞれの推定区間は以下の通り。

①信頼区間$90$%

$$
\begin{align}
\hat{p} – z_{0.05} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq &p \leq \hat{p} + z_{0.05} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}  \\
0.68 – 1.645 \times\sqrt{\frac{0.68(1-0.68)}{850}} \leq &p \leq 0.68 + 1.645 \times\sqrt{\frac{0.68(1-0.68)}{850}} \\
0.65368\leq &p \leq 0.70632
\end{align}
$$

②信頼区間$95$%

$$
\begin{align}
\hat{p} – z_{0.025} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq &p \leq \hat{p} + z_{0.025} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}  \\
0.68 – 1.96 \times\sqrt{\frac{0.68(1-0.68)}{850}} \leq &p \leq 0.68 + 1.96 \times\sqrt{\frac{0.68(1-0.68)}{850}}  \\
0.64864\leq &p \leq 0.71136
\end{align}
$$

③信頼区間$99$%

$$
\begin{align}
\hat{p} – z_{0.005} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq &p \leq \hat{p} + z_{0.005} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}  \\
0.68 – 2.576 \times\sqrt{\frac{0.68(1-0.68)}{850}} \leq &p \leq 0.68 + 2.576 \times\sqrt{\frac{0.68(1-0.68)}{850}}  \\
0.638784\leq &p \leq 0.721216\\
\end{align}
$$

8-2 母比率の区間推定・標本の大きさの決定[標本比率pの情報あり]

標本比率$\hat{p}$は$\hat{p} = \frac{96}{2400}= 0.04$である。

①区間推定
区間推定値は8-1と同様に計算できる。

(1)信頼区間$90$%

$$
\begin{align}
\hat{p} – z_{0.05} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq &p \leq \hat{p} + z_{0.05} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}  \\
0.04 – 1.645 \times\sqrt{\frac{0.04(1-0.04)}{2400}} \leq &p \leq 0.04 + 1.645 \times\sqrt{\frac{0.04(1-0.04)}{2400}}  \\
0.03342\leq &p \leq 0.04658
\end{align}
$$

(2)信頼区間$95$%は

$$
\begin{align}
\hat{p} – z_{0.025} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq &p \leq \hat{p} + z_{0.025} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}  \\
0.04 – 1.96 \times\sqrt{\frac{0.04(1-0.04)}{2400}} \leq &p \leq 0.04 + 1.96 \times\sqrt{\frac{0.04(1-0.04)}{2400}}  \\
0.03216\leq &p \leq 0.04784
\end{align}
$$

(3)信頼区間$99$%

$$
\begin{align}
\hat{p} – z_{0.005} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq &p \leq \hat{p} + z_{0.005} \times\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}  \\
0.04 – 2.576 \times\sqrt{\frac{0.04(1-0.04)}{2400}} \leq &p \leq 0.04 + 2.576 \times\sqrt{\frac{0.04(1-0.04)}{2400}}  \\
0.029696\leq &p \leq 0.050304\\
\end{align}
$$

②標本の大きさ

母比率を$p$、標本比率を$\hat{p}$、推定の誤差$|\hat{p}-p|$をある値$e$以下のしたいとき、前述の信頼区間を推定する式より

$$
\begin{align}
&- z_{\frac{1-α}{2}} \leq \frac{\hat{p} – p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}} \leq + z_{\frac{1-α}{2}}\\
&|\hat{p} – p| \leq z_{\frac{1-α}{2}} \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
\end{align}
$$

右辺が推定の誤差$e$以下になるようにおくと

$$
\begin{align}
&z_{\frac{1-α}{2}} \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq e\\
&\frac{\hat{p}(1-\hat{p})}{n} \leq \left( \frac{e}{z_{\frac{1-α}{2}}} \right)^2 \\
&n \geq \left( \frac{z_\frac{1-α}{2}}{e} \right)^2 \times \hat{p}(1-\hat{p})
\end{align}
$$

よって母比率$p$の区間推定において推定の誤差$|\hat{p}-p|$をある値$e$以下のしたいとき必要な標本の大きさnは信頼区間$90$%において

$$
\begin{align}
&n \geq \left( \frac{z_{0.05}}{e} \right)^2\hat{p}(1-\hat{p})\\
&n \geq \left( \frac{1.645}{e} \right)^2\hat{p}(1-\hat{p})
\end{align}
$$

信頼区間$95$%において

$$
\begin{align}
&n \geq \left( \frac{z_{0.025}}{e} \right)^2\hat{p}(1-\hat{p})\\
&n \geq \left( \frac{1.96}{e} \right)^2\hat{p}(1-\hat{p})
\end{align}
$$

信頼区間$99$%において

$$
\begin{align}
n \geq \left( \frac{z_{0.005}}{e} \right)^2\hat{p}(1-\hat{p})\\
n \geq \left( \frac{2.576}{e} \right)^2\hat{p}(1-\hat{p})\\
\end{align}
$$

となる。

上記より信頼区間$99$%において、推定の誤差が$0.5$%以下になるような標本の大きさは

$$
\begin{align}
&n \geq \left( \frac{2.576}{0.005} \right)^2{0.04}(1-0.04)\\
&n \geq 10192.551936
\end{align}
$$

よって標本の大きさは少なくとも$10,193$以上にする必要がある。

8-3 母比率の区間推定の応用

標本比率$\hat{p}$は$\hat{p} = \frac{20}{100} = 0.2$。
8-1と同様に推定区間を求められる。
①90%信頼区間

$$
\begin{align}
0.2 – 1.645 \times\sqrt{\frac{0.2(1-0.2)}{100}} \leq &p \leq 0.2 + 1.645 \times\sqrt{\frac{0.2(1-0.2)}{100}}  \\
0.1342 \leq &p \leq 0.2658
\end{align}
$$

よって、②タヌキの総数を$n$とおくと

$$
\begin{align}
0.1342 \leq &\frac{300}{n} \leq 0.2658 \\
\frac{300}{0.2658} \leq &n \leq \frac{300}{0.1342}\\
1128.66 \leq &n \leq 2235.46
\end{align}
$$

よってタヌキの総数の$95$%信頼区間は$1128$匹以上$2236$匹以下である。

8-4 母比率の区間推定・標本の大きさの決定[標本比率pの情報あり]

標本比率$\hat{p}$は$\hat{p} = \frac{1470}{2100} = 0.7$

8-1と同様に①信頼区間は以下のようになる

(1)信頼区間90%

$$
\begin{align}
0.7 – 1.645 \times\sqrt{\frac{0.7(1-0.7)}{2100}} \leq &p \leq 0.7 + 1.645 \times\sqrt{\frac{0.7(1-0.7)}{2100}}  \\
0.68355\leq &p \leq 0.71645
\end{align}
$$

(2)信頼区間95%

$$
\begin{align}
0.7 – 1.96 \times\sqrt{\frac{0.7(1-0.7)}{2100}} \leq &p \leq 0.7 + 1.96 \times\sqrt{\frac{0.7(1-0.7)}{2100}}  \\
0.6804\leq &p \leq 0.7196
\end{align}
$$

(3)信頼区間99%

$$
\begin{align}
0.7 – 2.576 \times\sqrt{\frac{0.7(1-0.7)}{2100}} \leq &p \leq 0.7 + 2.576 \times\sqrt{\frac{0.7(1-0.7)}{2100}}  \\
0.67424\leq &p \leq 0.72576\\
\end{align}
$$

②推定の誤差が95%信頼区間において1%以下になる標本の大きさは8-2と同様に

$$
\begin{align}
n &\geq (\frac{1.96}{0.01})^2{0.7}(1-0.7)\\
n &\geq 8067.36
\end{align}
$$

よって標本の大きさは少なくとも8,068以上にする必要がある

8-5 標本の大きさの決定[標本比率$p$の情報なし]

母比率pの区間推定において標本比率$\hat{p}$がわからないとき推定の誤差$|\hat{p}-p|$をある値e以下にしたいとき必要な標本の大きさnは$\hat{p}(1-\hat{p})$の最大値である$\frac{1}{4}$を代用して推定する。

$$
\begin{align}
n &\geq \left( \frac{z_\frac{1-α}{2}}{e} \right)^2 \times \hat{p}(1-\hat{p})\\
n &\geq \left( \frac{z_\frac{1-α}{2}}{e} \right)^2 \times \frac{1}{4}
\end{align}
$$

よって上記の式より

$$
\begin{align}
n &\geq \left( \frac{1.96}{0.04} \right)^2\times\frac{1}{4}\\
n &\geq 600.25
\end{align}
$$

よって必要な標本の大きさは$601$以上である。