多次元正規分布におけるベイズの定理を用いた条件付き確率・周辺確率の導出

多次元正規分布に対してベイズの定理を適用した際の条件付き確率や周辺確率の確率密度関数の式の導出を取り扱います。ここでの導出結果を元に予測分布(Predictive distribution)なども考えることができるので、一通りの流れを抑えておくと良いと思います。

「パターン認識と機械学習」の上巻の$2.3.3$節の「Bayes’ theorem for Gaussian variables」を参考に作成を行いました。

また、$(\mathrm{o.xx})$の形式の式番号は「パターン認識と機械学習」の式番号に対応させました。

・参考
多次元正規分布における条件付き確率の導出
多次元正規分布における周辺分布の導出

前提の確認

問題設定

下記のように周辺分布$p(\mathbf{x})$と条件付き確率分布$p(\mathbf{y}|\mathbf{x})$を考える。
$$
\large
\begin{align}
p(\mathbf{x}) &= \mathcal{N}(\mathbf{x}|\mathbf{\mu},\mathbf{\Lambda}^{-1}) \quad (2.99) \\
p(\mathbf{y}|\mathbf{x}) &= \mathcal{N}(\mathbf{y}|\mathbf{A}\mathbf{x}+\mathbf{b},\mathbf{L}^{-1}) \quad (2.100)
\end{align}
$$

ここで上記に対し、周辺分布$p(\mathbf{y})$と条件付き確率分布$p(\mathbf{x}|\mathbf{y})$を求めることを考える。ここでの周辺分布の導出は予測分布の導出に出てくるので、特に抑えておくと良い。

条件付き確率分布

$$
\large
\begin{align}
N(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma}) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) \right) \quad (1)
\end{align}
$$

$(1)$式の$\mathbf{x}, \mathbf{\mu}, \mathbf{\Sigma}$に関して下記のような分割を考える。
$$
\large
\begin{align}
\mathbf{x} &= \left(\begin{array}{c} \mathbf{x}_{a} \\ \mathbf{x}_{b} \end{array} \right) \\
\mathbf{\mu} &= \left(\begin{array}{c} \mathbf{\mu}_{a} \\ \mathbf{\mu}_{b} \end{array} \right) \\
\mathbf{\Sigma} &= \left(\begin{array}{c} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \end{array} \right)
\end{align}
$$

上記のように$\mathbf{x}, \mathbf{\mu}, \mathbf{\Sigma}$の分割を考えた際に、条件付き確率分布分布$\displaystyle p(\mathbf{x}_{a}|\mathbf{x}_{b})$の期待値$\mathbb{E}[\mathbf{x}_{a}]$と共分散行列$\mathrm{cov}[\mathbf{x}_{a}]$に関して、$\mathbb{E}[\mathbf{x}_{a}|\mathbf{x}_{b}]=\mathbf{\mu}_{a} – \mathbf{\Lambda}_{aa}^{-1}\mathbf{\Lambda}_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b})=\mathbf{\mu}_{a} + \mathbf{\Sigma}_{ab}\mathbf{\Sigma}_{bb}^{-1}(\mathbf{x}_{b}-\mathbf{\mu}_{b})$、$\mathrm{cov}[\mathbf{x}_{a}|\mathbf{x}_{b}]=\mathbf{\Lambda}_{aa}^{-1}=\mathbf{\Sigma}_{aa}-\mathbf{\Sigma}_{ab}\mathbf{\Sigma}_{bb}^{-1}\mathbf{\Sigma}_{ba}$が成立する。

・参考
多次元正規分布における条件付き確率分布の数式の導出

周辺分布

$$
\large
\begin{align}
N(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma}) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) \right) \quad (1)
\end{align}
$$

$(1)$式の$\mathbf{x}, \mathbf{\mu}, \mathbf{\Sigma}$に関して下記のような分割を考える。
$$
\large
\begin{align}
\mathbf{x} &= \left(\begin{array}{c} \mathbf{x}_{a} \\ \mathbf{x}_{b} \end{array} \right) \\
\mathbf{\mu} &= \left(\begin{array}{c} \mathbf{\mu}_{a} \\ \mathbf{\mu}_{b} \end{array} \right) \\
\mathbf{\Sigma} &= \left(\begin{array}{c} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \end{array} \right)
\end{align}
$$

上記のように$\mathbf{x}, \mathbf{\mu}, \mathbf{\Sigma}$の分割を考えた際に、周辺分布$\displaystyle p(\mathbf{x}_{a}) = \int p(\mathbf{x}_{a},\mathbf{x}_{b}) d \mathbf{x}_{b}$の期待値$\mathbb{E}[\mathbf{x}_{a}]$と共分散行列$\mathrm{cov}[\mathbf{x}_{a}]$に関して、$\mathbb{E}[\mathbf{x}_{a}]=\mathbf{\mu}_{a}, \mathrm{cov}[\mathbf{x}_{a}]=\Sigma_{aa}$が成立する。

・参考
多次元正規分布における周辺分布の数式の導出

導出の詳細

同時分布の導出

$p(\mathbf{x})$と$p(\mathbf{y}|\mathbf{x})$から$\mathbf{x}$と$\mathbf{y}$に関する同時分布を考えるにあたって、下記のように$\mathbf{z}$を定義する。
$$
\large
\begin{align}
\mathbf{z} = \left(\begin{array}{c} \mathbf{x} \\ \mathbf{y} \end{array} \right) \quad (2.101)
\end{align}
$$

このとき$p(\mathbf{z})$の対数を取った$\ln{p(\mathbf{z})}$に関して下記が成立する。
$$
\large
\begin{align}
& \ln{p(\mathbf{z})} = \ln{p(\mathbf{x},\mathbf{y})} = \ln{p(\mathbf{x})} + \ln{p(\mathbf{y}|\mathbf{x})} \\
&= – \frac{1}{2} (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Lambda} (\mathbf{x}-\mathbf{\mu}) – \frac{1}{2} (\mathbf{y}-\mathbf{A}\mathbf{x}-\mathbf{b})^{\mathrm{T}} \mathbf{L} (\mathbf{y}-\mathbf{A}\mathbf{x}-\mathbf{b}) + \mathrm{Const.} \quad (2.102)
\end{align}
$$

なお、式表記にあたっては$\mathbf{x}$と$\mathbf{y}$に関係ない項は$\mathrm{Const.}$でまとめた。このとき、$(2.102)$から$\mathbf{x}, \mathbf{y}$に関する$2$次の項だけを書き出すと以下のように表される。
$$
\large
\begin{align}
& – \frac{1}{2}\mathbf{x}^{\mathrm{T}} \left( \mathbf{\Lambda} + \mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{A} \right) \mathbf{x} – \frac{1}{2}\mathbf{y}^{\mathrm{T}}\mathbf{L}\mathbf{y} + \frac{1}{2}\mathbf{y}^{\mathrm{T}}\mathbf{L}\mathbf{A}\mathbf{x} + \frac{1}{2}\mathbf{x}^{\mathrm{T}}\mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{y} \\
&= – \frac{1}{2} \left(\begin{array}{cc} \mathbf{x}^{\mathrm{T}} & \mathbf{y}^{\mathrm{T}} \end{array} \right) \left(\begin{array}{cc} \mathbf{\Lambda} + \mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{A} & -\mathbf{A}^{\mathrm{T}}\mathbf{L} \\ -\mathbf{L}\mathbf{A} & \mathbf{L} \end{array} \right) \left(\begin{array}{c} \mathbf{x} \\ \mathbf{y} \end{array} \right) \\
&= – \frac{1}{2} \left(\begin{array}{c} \mathbf{x} \\ \mathbf{y} \end{array} \right)^{\mathrm{T}} \left(\begin{array}{cc} \mathbf{\Lambda} + \mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{A} & -\mathbf{A}^{\mathrm{T}}\mathbf{L} \\ -\mathbf{L}\mathbf{A} & \mathbf{L} \end{array} \right) \left(\begin{array}{c} \mathbf{x} \\ \mathbf{y} \end{array} \right) = – \frac{1}{2} \mathbf{z}^{\mathrm{T}} \mathbf{R} \mathbf{z}
\end{align}
$$

ここで$\mathbf{R}$は$p(\mathbf{z})$の精度行列であることから$\mathbf{z}$の共分散行列$\mathrm{cov}[\mathbf{z}]$に関して$\mathrm{cov}[\mathbf{z}]=\mathbf{R}^{-1}$が成立する。「演習 $2.29$」の導出により、$\mathrm{cov}[\mathbf{z}]$は下記のように表される。
$$
\large
\begin{align}
\mathrm{cov}[\mathbf{z}] &= \mathbf{R}^{-1} = \left(\begin{array}{cc} \mathbf{\Lambda} + \mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{A} & -\mathbf{A}^{\mathrm{T}}\mathbf{L} \\ -\mathbf{L}\mathbf{A} & \mathbf{L} \end{array} \right)^{-1} \\
&= \left(\begin{array}{cc} \mathbf{\Lambda}^{-1} & \mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}} \\ \mathbf{A}\mathbf{\Lambda}^{-1} & \mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}} \end{array} \right) \quad (2.105)
\end{align}
$$

次に$(2.102)$から$\mathbf{x}, \mathbf{y}$に関する$1$次の項だけを書き出すと以下のように表される。
$$
\large
\begin{align}
\mathbf{x}^{\mathrm{T}}\mathbf{\Lambda}\mathbf{\mu} – \mathbf{x}^{\mathrm{T}} \mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{b} + \mathbf{y}^{\mathrm{T}} \mathbf{L} \mathbf{b} &= \left(\begin{array}{cc} \mathbf{x}^{\mathrm{T}} & \mathbf{y}^{\mathrm{T}} \end{array} \right) \left(\begin{array}{c} \mathbf{\Lambda}\mathbf{\mu} – \mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{b} \\ \mathbf{L} \mathbf{b} \end{array} \right) \\
&= \left(\begin{array}{c} \mathbf{x} \\ \mathbf{y} \end{array} \right)^{\mathrm{T}} \left(\begin{array}{c} \mathbf{\Lambda}\mathbf{\mu} – \mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{b} \\ \mathbf{L} \mathbf{b} \end{array} \right) \quad (2.106)
\end{align}
$$

よって$\mathbf{z}$の期待値$\mathbb{E}[\mathbf{z}]$に関して下記が成立する。
$$
\large
\begin{align}
\mathbf{R}\mathbb{E}[\mathbf{z}] &= \left(\begin{array}{c} \mathbf{\Lambda}\mathbf{\mu} – \mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{b} \\ \mathbf{L} \mathbf{b} \end{array} \right) \\
\mathbb{E}[\mathbf{z}] &= \mathbf{R}^{-1} \left(\begin{array}{c} \mathbf{\Lambda}\mathbf{\mu} – \mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{b} \\ \mathbf{L} \mathbf{b} \end{array} \right) \\
&= \left(\begin{array}{cc} \mathbf{\Lambda}^{-1} & \mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}} \\ \mathbf{A}\mathbf{\Lambda}^{-1} & \mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}} \end{array} \right) \left(\begin{array}{c} \mathbf{\Lambda}\mathbf{\mu} – \mathbf{A}^{\mathrm{T}} \mathbf{L} \mathbf{b} \\ \mathbf{L} \mathbf{b} \end{array} \right) \\
&= \left(\begin{array}{c} \mathbf{\mu} – \mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{b} + \mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{b} \\ \mathbf{A}\mathbf{\mu} – \mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{b} + \mathbf{b} + \mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{b} \end{array} \right) \\
&= \left(\begin{array}{c} \mathbf{\mu} \\ \mathbf{A}\mathbf{\mu} + \mathbf{b} \end{array} \right) \quad (2.108)
\end{align}
$$

条件付き確率分布の導出

・期待値$\mathbb{E}[\mathbf{x}|\mathbf{y}]$
$(2.105)$、$(2.108)$式は下記のように書き表せる。
$$
\large
\begin{align}
\mathbb{E}[\mathbf{z}] &= \left(\begin{array}{c} \mathbf{\mu} \\ \mathbf{A}\mathbf{\mu} + \mathbf{b} \end{array} \right) \quad (2.108) \\
\mathrm{cov}[\mathbf{z}] &= \mathbf{R}^{-1} = \left(\begin{array}{cc} \mathbf{\Lambda} + \mathbf{A}^{\mathrm{T}}\mathbf{L}\mathbf{A} & -\mathbf{A}^{\mathrm{T}}\mathbf{L} \\ -\mathbf{L}\mathbf{A} & \mathbf{L} \end{array} \right)^{-1} = \left(\begin{array}{cc} \mathbf{\Lambda}^{-1} & \mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}} \\ \mathbf{A}\mathbf{\Lambda}^{-1} & \mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}} \end{array} \right) \quad (2.105)
\end{align}
$$

周辺分布の導出

・期待値$\mathbb{E}[\mathbf{y}]$
$(2.108)$式は下記のように書き表せる。
$$
\large
\begin{align}
\mathbb{E}[\mathbf{z}] = \left(\begin{array}{c} \mathbf{\mu} \\ \mathbf{A}\mathbf{\mu} + \mathbf{b} \end{array} \right) \quad (2.108)
\end{align}
$$

上記に対し、周辺分布$p(\mathbf{y})$の期待値の導出結果を適用すると、$\mathbb{E}[y]=\mathbf{A}\mathbf{\mu} + \mathbf{b}$が対応することが確認できる。

・共分散行列$\mathrm{cov}[\mathbf{y}]$
$(2.105)$式は下記のように書き表せる。
$$
\large
\begin{align}
\mathrm{cov}[\mathbf{z}] = \left(\begin{array}{cc} \mathbf{\Lambda}^{-1} & \mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}} \\ \mathbf{A}\mathbf{\Lambda}^{-1} & \mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}} \end{array} \right) \quad (2.105)
\end{align}
$$

上記に対し、周辺分布$p(\mathbf{y})$の共分散行列の導出結果を適用すると、$\mathrm{cov}[y]=\mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}} $が対応することが確認できる。

よって、$p(\mathbf{y}) = \mathcal{N}(\mathbf{x}|\mathbf{A}\mathbf{\mu} + \mathbf{b},\mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}})$のように考えられる。

「多次元正規分布におけるベイズの定理を用いた条件付き確率・周辺確率の導出」への1件の返信

コメントは受け付けていません。