多次元正規分布における周辺分布(Marginal distribution)の数式の導出を理解する

多次元正規分布の周辺分布(Marginal distribution)の導出を取り扱います。「パターン認識と機械学習(PRML)」の上巻の$2.3.2$節を参考に取りまとめを行いました。
積分消去やシューア補行列を用いた逆行列の取り扱いなど計算がかなり複雑なのでなるべく計算の詳細が確認できるように所々追記を行いました。なお、$2$次元正規分布における周辺分布の取り扱いに関しては下記でまとめましたのでこちらも合わせてご確認ください。
https://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist3.html

また、$(\mathrm{o.xx})$の形式の式番号は「パターン認識と機械学習」の式番号に対応させました。

Contents

1 前提の確認
2 周辺分布の導出
- 2.1 $\mathbf{x}_{b}$の積分消去
- 2.2 $\mathbf{x}_{a}$に関する平方完成

前提の確認

問題設定

$$
\large
\begin{align}
N(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma}) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) \right) \quad (1)
\end{align}
$$

$(1)$式の$\mathbf{x}, \mathbf{\mu}, \mathbf{\Sigma}$に関して下記のような分割を考える。
$$
\large
\begin{align}
\mathbf{x} &= \left(\begin{array}{c} \mathbf{x}_{a} \\ \mathbf{x}_{b} \end{array} \right) \\
\mathbf{\mu} &= \left(\begin{array}{c} \mathbf{\mu}_{a} \\ \mathbf{\mu}_{b} \end{array} \right) \\
\mathbf{\Sigma} &= \left(\begin{array}{c} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \end{array} \right)
\end{align}
$$

上記のように$\mathbf{x}, \mathbf{\mu}, \mathbf{\Sigma}$の分割を考えた際に、周辺分布$\displaystyle p(\mathbf{x}_{a}) = \int p(\mathbf{x}_{a},\mathbf{x}_{b}) d \mathbf{x}_{b}$の期待値$\mathbb{E}[\mathbf{x}_{a}]$と共分散行列$\mathrm{cov}[\mathbf{x}_{a}]$を求め、$p(\mathbf{x}_{a}) = \mathcal{N}(\mathbb{E}[\mathbf{x}_{a}],\mathrm{cov}[\mathbf{x}_{a}])$のように表すことがここでの目標である。

精度行列の定義と共分散行列との対応

共分散行列の逆行列を取り扱うにあたって下記のように精度行列が定義される。
$$
\large
\begin{align}
\mathbf{\Lambda} &= \mathbf{\Sigma}^{-1}
\end{align}
$$

このとき共分散行列と精度行列の部分行列の対応は下記のように表される。
$$
\large
\begin{align}
\left(\begin{array}{cc} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \end{array} \right)^{-1} = \left(\begin{array}{cc} \Lambda_{aa} & \Lambda_{ab} \\ \Lambda_{ba} & \Lambda_{bb} \end{array} \right)
\end{align}
$$

「シューア補行列に基づく逆行列の公式」で詳しく取り扱ったが、上記のように表した$\Lambda_{aa}, \Lambda_{ab}, \Lambda_{bb}$は下記のように$\Sigma_{aa}, \Sigma_{ab}, \Sigma_{bb}$と対応する。
$$
\large
\begin{align}
M &= (A – B D^{-1} C)^{-1} \\
&= (\Sigma_{aa} – \Sigma_{ab} \Sigma_{bb}^{-1} \Sigma_{ba})^{-1} \\
\Lambda_{aa} &= M = (\Sigma_{aa} – \Sigma_{ab} \Sigma_{bb}^{-1} \Sigma_{ba})^{-1} \\
\Lambda_{ab} &= -MBD \\
&= (\Sigma_{aa} – \Sigma_{ab} \Sigma_{bb}^{-1} \Sigma_{ba})^{-1} \Sigma_{ab} \Sigma_{bb} \\
\Lambda_{bb} &= D^{-1}+D^{-1}CMBD \\
&= \Sigma_{bb}^{-1} + \Sigma_{bb}^{-1}(\Sigma_{aa} – \Sigma_{ab} \Sigma_{bb}^{-1} \Sigma_{ba})^{-1} \Sigma_{ab} \Sigma_{bb}
\end{align}
$$

ここで上記の$M$をシューア補行列という。シューア補行列の詳細に関しては下記で詳しく取り扱った。

・シューア補行列
https://www.hello-statisticians.com/explain-terms-cat/schur_complement_mat1.html

また、$\mathbf{\Sigma} = \mathbf{\Lambda}^{-1}$であることを元に$\Sigma_{aa}, \Sigma_{ab}, \Sigma_{bb}$は$\Lambda_{aa}, \Lambda_{ab}, \Lambda_{bb}$を用いて下記のように表せる。
$$
\large
\begin{align}
\Sigma_{aa} &= (\Lambda_{aa} – \Lambda_{ab} \Lambda_{bb}^{-1} \Lambda_{ba})^{-1} \\
\Sigma_{ab} &= (\Lambda_{aa} – \Lambda_{ab} \Lambda_{bb}^{-1} \Lambda_{ba})^{-1} \Lambda_{ab} \Lambda_{bb} \\
\Sigma_{bb} &= \Lambda_{bb}^{-1} + \Lambda_{bb}^{-1}(\Lambda_{aa} – \Lambda_{ab} \Lambda_{bb}^{-1} \Lambda_{ba})^{-1} \Lambda_{ab} \Lambda_{bb}
\end{align}
$$

平方完成

$\displaystyle – \frac{1}{2} \Delta^2 = -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) = -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Lambda}(\mathbf{x}-\mathbf{\mu})$は$\mathbf{x}$を変数と見るとき下記のように展開できる。
$$
\large
\begin{align}
– \frac{1}{2} \Delta^2 &= -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) \\
&= -\frac{1}{2} \mathbf{x}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{x} + \mathbf{x}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{\mu} + \mathrm{Const.} \quad (2.71) \\
&= -\frac{1}{2} \left( \mathbf{x}^{\mathrm{T}} \mathbf{\Lambda} \mathbf{x} – 2 \mathbf{x}^{\mathrm{T}} \mathbf{\Lambda} \mathbf{\mu} + \mathbf{\mu}^{\mathrm{T}} \mathbf{\Lambda} \mathbf{\mu} \right) \quad (2.71)’
\end{align}
$$

上記で表した$(2.71)$式を元に$\mathbf{x}$に関して平方完成を行うことができる。周辺分布の導出では平方完成を$2$度行う必要があるので式の対応を抑えておくことが重要である。

・参考
二次形式の平方完成の計算の流れ
https://www.hello-statisticians.com/explain-terms-cat/completing_the_square1.html

周辺分布の導出

$\mathbf{x}_{b}$の積分消去

$$
\large
\begin{align}
p(\mathbf{x}_{a}) = \int p(\mathbf{x}_{a},\mathbf{x}_{b}) d \mathbf{x}_{b} \quad (2.83)
\end{align}
$$

「パターン認識と機械学習」の$(2.83)$式から$p(\mathbf{x}_{a})$を導出するにあたっては確率密度関数の$\exp$の中身を$\mathbf{x}_{b}$に関して平方完成し、残りの項を積分の外に書き出し、$\mathbf{x}_{a}$に関して平方完成を行えばよい。

$p(\mathbf{x})=p(\mathbf{x}_{a},\mathbf{x}_{b})$は下記のように表される。
$$
\large
\begin{align}
p(\mathbf{x}) &= p(\mathbf{x}_{a},\mathbf{x}_{b}) \\
&= \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left[ -\frac{1}{2}\left(\begin{array}{cc} (\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}} & (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}} \end{array} \right) \left(\begin{array}{c} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \end{array} \right)^{-1} \left(\begin{array}{c} \mathbf{x}_{a}-\mathbf{\mu}_{a} \\ \mathbf{x}_{b}-\mathbf{\mu}_{b} \end{array} \right) \right] \\
&= \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left[ -\frac{1}{2}\left(\begin{array}{cc} (\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}} & (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}} \end{array} \right) \left(\begin{array}{cc} \Lambda_{aa} & \Lambda_{ab} \\ \Lambda_{ba} & \Lambda_{bb} \end{array} \right) \left(\begin{array}{c} \mathbf{x}_{a}-\mathbf{\mu}_{a} \\ \mathbf{x}_{b}-\mathbf{\mu}_{b} \end{array} \right) \right]
\end{align}
$$

上記の$\exp$の中の式を$\displaystyle – \frac{1}{2} \Delta^2$とおくと、$\displaystyle – \frac{1}{2} \Delta^2$は下記のように変形できる。
$$
\large
\begin{align}
– \frac{1}{2} \Delta^2 &= -\frac{1}{2}\left(\begin{array}{cc} (\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}} & (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}} \end{array} \right) \left(\begin{array}{cc} \Lambda_{aa} & \Lambda_{ab} \\ \Lambda_{ba} & \Lambda_{bb} \end{array} \right) \left(\begin{array}{c} \mathbf{x}_{a}-\mathbf{\mu}_{a} \\ \mathbf{x}_{b}-\mathbf{\mu}_{b} \end{array} \right) \\
&= -\frac{1}{2} \left(\begin{array}{cc} (\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}} & (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}} \end{array} \right) \left(\begin{array}{c} \Lambda_{aa}(\mathbf{x}_{a}-\mathbf{\mu}_{a})+\Lambda_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b}) \\ \Lambda_{ba}(\mathbf{x}_{a}-\mathbf{\mu}_{a})+\Lambda_{bb}(\mathbf{x}_{b}-\mathbf{\mu}_{b}) \end{array} \right) \\
&= -\frac{1}{2} \left[ (\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}}\Lambda_{aa}(\mathbf{x}_{a}-\mathbf{\mu}_{a}) + 2(\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}}\Lambda_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b}) + (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}}\Lambda_{bb}(\mathbf{x}_{b}-\mathbf{\mu}_{b}) \right] \quad (2)
\end{align}
$$

上記の計算にあたって$(\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}}\Lambda_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b}) = (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}}\Lambda_{ba}(\mathbf{x}_{a}-\mathbf{\mu}_{a})$を用いたが、これは下記より導出できる。
$$
\large
\begin{align}
(\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}}\Lambda_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b}) &= ((\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}}\Lambda_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b}))^{\mathrm{T}} \\
&= (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}}\Lambda_{ab}^{\mathrm{T}}(\mathbf{x}_{a}-\mathbf{\mu}_{a}) \\
&= (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}}\Lambda_{ba}(\mathbf{x}_{a}-\mathbf{\mu}_{a})
\end{align}
$$

上記では$\Lambda_{ab}^{\mathrm{T}}=\Lambda_{ba}$であることを用いたが、これは精度行列が対称行列であることに基づく。なお、精度行列が対称行列であることは共分散行列が対称行列であることから「パターン認識と機械学習演習$2.22$」の導出などに基づき示すことができる。

ここで$(2)$式は$\mathbf{x}_{b}$に着目して下記のように変形を行える。
$$
\large
\begin{align}
– \frac{1}{2} \Delta^2 &= -\frac{1}{2} \left[ (\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}}\Lambda_{aa}(\mathbf{x}_{a}-\mathbf{\mu}_{a}) + 2(\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}}\Lambda_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b}) + (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}}\Lambda_{bb}(\mathbf{x}_{b}-\mathbf{\mu}_{b}) \right] \quad (2) \\
&= -\frac{1}{2} \left[ (\mathbf{x}_{a}-\mathbf{\mu}_{a})^{\mathrm{T}}\Lambda_{aa}(\mathbf{x}_{a}-\mathbf{\mu}_{a}) + 2(\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}}\Lambda_{ba}(\mathbf{x}_{a}-\mathbf{\mu}_{a}) + (\mathbf{x}_{b}-\mathbf{\mu}_{b})^{\mathrm{T}}\Lambda_{bb}(\mathbf{x}_{b}-\mathbf{\mu}_{b}) \right] \\
&= -\frac{1}{2} \left[ \mathbf{x}_{b}^{\mathrm{T}}\Lambda_{bb}\mathbf{x}_{b} + \mathbf{x}_{b}^{\mathrm{T}} \left( – 2 \Lambda_{bb} \mathbf{\mu}_{b} + 2 \Lambda_{ba} (\mathbf{x}_{a}-\mathbf{\mu}_{a}) \right) \right] + \mathrm{Const.} \\
&= -\frac{1}{2} \left[ \mathbf{x}_{b}^{\mathrm{T}}\Lambda_{bb}\mathbf{x}_{b} – 2 \mathbf{x}_{b}^{\mathrm{T}} \left( \Lambda_{bb} \mathbf{\mu}_{b} – \Lambda_{ba} (\mathbf{x}_{a}-\mathbf{\mu}_{a}) \right) \right] + \mathrm{Const.} \\
&= -\frac{1}{2} \left( \mathbf{x}_{b}^{\mathrm{T}}\Lambda_{bb}\mathbf{x}_{b} – 2 \mathbf{x}_{b}^{\mathrm{T}} \mathbf{m} \right) + \mathrm{Const.} \quad (3) \\
\mathbf{m} &= \Lambda_{bb} \mathbf{\mu}_{b} – \Lambda_{ba} (\mathbf{x}_{a}-\mathbf{\mu}_{a}) \quad (2.85)
\end{align}
$$

ここで$(3)$式と$(2.71)’$式の対応を考えることにより、$(3)$式の$\mathbf{x}_{b}$に関する項は下記のように変形できる。
$$
\large
\begin{align}
-\frac{1}{2} \left( \mathbf{x}_{b}^{\mathrm{T}}\Lambda_{bb}\mathbf{x}_{b} – 2 \mathbf{x}_{b}^{\mathrm{T}} \mathbf{m} \right) &= -\frac{1}{2} \left( \mathbf{x}_{b}^{\mathrm{T}}\Lambda_{bb}\mathbf{x}_{b} – 2 \mathbf{x}_{b}^{\mathrm{T}} \mathbf{m} + \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\mathbf{m} – \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\mathbf{m} \right) \\
&= -\frac{1}{2} \left( \mathbf{x}_{b}^{\mathrm{T}}\Lambda_{bb}\mathbf{x}_{b} – 2 \mathbf{x}_{b}^{\mathrm{T}} \Lambda_{bb} \Lambda_{bb}^{-1} \mathbf{m} + \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\Lambda_{bb} \Lambda_{bb}^{-1}\mathbf{m} \right) + \frac{1}{2} \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\mathbf{m} \\
&= -\frac{1}{2} \left( \mathbf{x}_{b}^{\mathrm{T}}\Lambda_{bb}\mathbf{x}_{b} – 2 \mathbf{x}_{b}^{\mathrm{T}} \Lambda_{bb} (\Lambda_{bb}^{-1} \mathbf{m}) + \mathbf{m}^{\mathrm{T}}(\Lambda_{bb}^{-1})^{\mathrm{T}}\Lambda_{bb}\Lambda_{bb}^{-1} \mathbf{m} \right) + \frac{1}{2} \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\mathbf{m} \\
&= -\frac{1}{2} \left( \mathbf{x}_{b}^{\mathrm{T}}\Lambda_{bb}\mathbf{x}_{b} – 2 \mathbf{x}_{b}^{\mathrm{T}} \Lambda_{bb} (\Lambda_{bb}^{-1} \mathbf{m}) + (\Lambda_{bb}^{-1}\mathbf{m})^{\mathrm{T}}\Lambda_{bb}(\Lambda_{bb}^{-1} \mathbf{m}) \right) + \frac{1}{2} \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\mathbf{m} \\
&= -\frac{1}{2}(\mathbf{x}_{b}-\Lambda_{bb}^{-1}\mathbf{m})^{\mathrm{T}} \Lambda_{bb} (\mathbf{x}_{b}-\Lambda_{bb}^{-1}\mathbf{m}) + \frac{1}{2} \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\mathbf{m} \quad (4)
\end{align}
$$

よって、$(2.83)$式は$(4)$式を用いて$\mathbf{x}_{b}$について平方完成したのちに残りの項を積分の外に出し、$\mathbf{x}_{a}$に着目することで下記のように変形できる。
$$
\large
\begin{align}
p(\mathbf{x}_{a}) &= \int p(\mathbf{x}_{a},\mathbf{x}_{b}) d \mathbf{x}_{b} \quad (2.83) \\
&= \int -\frac{1}{2} (\mathbf{x}_{b}-\Lambda_{bb}^{-1}\mathbf{m})^{\mathrm{T}} \Lambda_{bb} (\mathbf{x}_{b}-\Lambda_{bb}^{-1}\mathbf{m}) d \mathbf{x}_{b} \\
& \qquad \times \exp \left[ \frac{1}{2} \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\mathbf{m} – \frac{1}{2} \mathbf{x}_{a}^{\mathrm{T}}\Lambda_{aa}\mathbf{x}_{a} + \mathbf{x}_{a}^{\mathrm{T}}(\Lambda_{aa}\mathbf{\mu}_{a}+\Lambda_{ab}\mathbf{\mu}_{b}) + \mathrm{Const.} \right] \quad (5)
\end{align}
$$

ここで$\displaystyle \int -\frac{1}{2}(\mathbf{x}_{b}-\Lambda_{bb}^{-1}\mathbf{m})^{\mathrm{T}} \Lambda_{bb} (\mathbf{x}_{b}-\Lambda_{bb}^{-1}\mathbf{m}) d \mathbf{x}_{b}$は正規分布の確率密度関数に比例することから、定数項と見なすことができる。よって$p(\mathbf{x}_{a})$に関して調べるにあたっては、積分の外に書き出した$\exp$の中の項を$\mathbf{x}_{a}$について平方完成を行えばよく、この計算を次項で取り扱う。

$\mathbf{x}_{a}$に関する平方完成

$(5)$式の$\exp$の$\mathbf{x}_{a}$に関する項を$f(\mathbf{x}_{a})$とおくと$f(\mathbf{x}_{a})$は下記のように書き出せる。
$$
\large
\begin{align}
f(\mathbf{x}_{a}) &= \frac{1}{2} \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\mathbf{m} – \frac{1}{2} \mathbf{x}_{a}^{\mathrm{T}}\Lambda_{aa}\mathbf{x}_{a} + \mathbf{x}_{a}^{\mathrm{T}}(\Lambda_{aa}\mathbf{\mu}_{a}+\Lambda_{ab}\mathbf{\mu}_{b}) \\
\mathbf{m} &= \Lambda_{bb} \mathbf{\mu}_{b} – \Lambda_{ba} (\mathbf{x}_{a}-\mathbf{\mu}_{a}) \quad (2.85)
\end{align}
$$

$f(\mathbf{x}_{a})$に$(2.85)$式を代入し、$\mathbf{x}_{a}$を変数と見ると下記のように変形できる。
$$
\large
\begin{align}
f(\mathbf{x}_{a}) &= \frac{1}{2} \mathbf{m}^{\mathrm{T}}\Lambda_{bb}^{-1}\mathbf{m} – \frac{1}{2} \mathbf{x}_{a}^{\mathrm{T}}\Lambda_{aa}\mathbf{x}_{a} + \mathbf{x}_{a}^{\mathrm{T}}(\Lambda_{aa}\mathbf{\mu}_{a}+\Lambda_{ab}\mathbf{\mu}_{b}) \\
&= \frac{1}{2} (\Lambda_{bb} \mathbf{\mu}_{b} – \Lambda_{ba} (\mathbf{x}_{a}-\mathbf{\mu}_{a}))^{\mathrm{T}}\Lambda_{bb}^{-1}(\Lambda_{bb} \mathbf{\mu}_{b} – \Lambda_{ba} (\mathbf{x}_{a}-\mathbf{\mu}_{a})) – \frac{1}{2} \mathbf{x}_{a}^{\mathrm{T}}\Lambda_{aa}\mathbf{x}_{a} + \mathbf{x}_{a}^{\mathrm{T}}(\Lambda_{aa}\mathbf{\mu}_{a}+\Lambda_{ab}\mathbf{\mu}_{b}) + \mathrm{Const.} \\
&= -\frac{1}{2} \mathbf{x}_{a}^{\mathrm{T}} \left( \Lambda_{aa}-\Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba} \right) \mathbf{x}_{a} + \mathbf{x}_{a}^{\mathrm{T}} \left( \Lambda_{aa} – \Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba} \right) \mu_{a} + \mathrm{Const’.} \\
&= -\frac{1}{2} \left[ \mathbf{x}_{a}^{\mathrm{T}} \left( \Lambda_{aa}-\Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba} \right) \mathbf{x}_{a} – 2 \mathbf{x}_{a}^{\mathrm{T}} \left( \Lambda_{aa} – \Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba} \right) \mu_{a} \right] + \mathrm{Const’.} \\
&= -\frac{1}{2} \left[ \mathbf{x}_{a}^{\mathrm{T}} \Sigma_{aa}^{-1} \mathbf{x}_{a} – 2 \mathbf{x}_{a}^{\mathrm{T}} \Sigma_{aa}^{-1} \mu_{a} \right] + \mathrm{Const’.} \\
&= -\frac{1}{2} \left[ \mathbf{x}_{a}^{\mathrm{T}} \Sigma_{aa}^{-1} \mathbf{x}_{a} – 2 \mathbf{x}_{a}^{\mathrm{T}} \Sigma_{aa}^{-1} \mu_{a} \right] + \mathrm{Const’.} \\
&= -\frac{1}{2} (\mathbf{x}_{a}-\mu_{a})^{\mathrm{T}} \Sigma_{aa}^{-1} (\mathbf{x}_{a}-\mu_{a}) + \mathrm{Const^{”}.}
\end{align}
$$

上記の式変形にあたっては、「精度行列の定義と共分散行列との対応」より、$\Sigma_{aa} = (\Lambda_{aa} – \Lambda_{ab} \Lambda_{bb}^{-1} \Lambda_{ba})^{-1}$が成立することを用いた。

よって$\displaystyle p(\mathbf{x}_{a}) = \int p(\mathbf{x}_{a},\mathbf{x}_{b}) d \mathbf{x}_{b} = \mathcal{N}(\mathbf{x}_{a},\Sigma_{aa})$が成立することが示される。

ここでの結果は数式がシンプルかつ直感的に解釈しやすいので、単にここでの結果を用いることが目的の場合は導出を考えずに結果だけを用いるで十分であると思われる。

「多次元正規分布における周辺分布(Marginal distribution)の数式の導出を理解する」への3件のフィードバック

多次元正規分布におけるベイズの定理を用いた条件付き確率・周辺確率の導出 - あつまれ統計の森 より:

2022-07-16 22:34

[…] ・参考多次元正規分布における条件付き確率の導出多次元正規分布における周辺分布の導出 […]
ベイズ線形回帰(Bayes linear regression)における事後確率と予測分布の導出 - あつまれ統計の森 より:

2022-07-17 19:54

[…] ・参考多次元正規分布における周辺分布の導出多次元正規分布におけるベイズの定理 […]
統計検定準1級問題解説～2017年6月実施選択問題及び部分記述問題問5～ - あつまれ統計の森 より:

2022-10-14 00:06

[…] ・多次元正規分布における周辺分布(Marginal distribution)の数式の導出を理解するhttps://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist4.html […]

コメントは受け付けていません。