2次元正規分布における条件付き確率分布・周辺分布の数式の導出を理解する

多次元正規分布の直感的な理解については下記で取り扱ったが、当記事ではその多次元分布において条件付き確率分布・周辺分布を考える。
https://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist1.html
「パターン認識と機械学習(PRML)」の上巻の2.3.1節、2.3.2節の導出が詳しいので、下記を参考に取りまとめた。多次元の取り扱いは複雑になることから、ここでは2次元の導出のみを取り扱う。

前提の確認

2次元正規分布

$$
\large
\begin{align}
P(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma}) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{T} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \right) \quad (1.1)
\end{align}
$$
詳しくは下記で取り扱ったが、多次元正規分布の式は上記のように表される。
https://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist1.html#i-8

多次元の取り扱いはなかなか複雑であるので、ここでは2次元の$\mathbf{x}, \mathbf{\mu}, \mathbf{\Sigma}$を考え、それぞれ下記のように定義する。
$$
\large
\begin{align}
\mathbf{x} &= \left(\begin{array}{c} x_{1} \\ x_{2} \end{array} \right) \quad (1.2) \\
\mathbf{\mu} &= \left(\begin{array}{c} \mu_{1} \\ \mu_{2} \end{array} \right) \quad (1.3) \\
\mathbf{\Sigma} &= \left(\begin{array}{cc} \sigma_{11} & \sigma_{12} \\ \sigma_{21} & \sigma_{22} \end{array} \right) \quad (1.4)
\end{align}
$$

また、$\mathbf{\Sigma}$の取り扱いにあたって、$\mathbf{\Lambda} \equiv \mathbf{\Sigma}^{-1}$となる$\mathbf{\Lambda}$を定義する。このとき、$\mathbf{\Sigma}$と$\mathbf{\Lambda}$は下記のように表すことができる。
$$
\large
\begin{align}
\mathbf{\Sigma}^{-1} &= \mathbf{\Lambda} \\
\left(\begin{array}{cc} \sigma_{11} & \sigma_{12} \\ \sigma_{21} & \sigma_{22} \end{array} \right)^{-1} &= \left(\begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) \quad (1.5)
\end{align}
$$

ここで(1.2)〜(1.5)より、(1.1)の二次形式の$\displaystyle -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{T} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu})$は下記のように表現できる。
$$
\large
\begin{align}
-\frac{1}{2} & (\mathbf{x}-\mathbf{\mu})^{T} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \\
&= -\frac{1}{2} \left( \begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left( \begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) \left(\begin{array}{c} x_{1}-\mu_{1} \\ x_{2}-\mu_{2} \end{array} \right) \quad (1.6)
\end{align}
$$

2次元の行列の逆行列の公式

$$
\large
\begin{align}
\mathbf{A} = \left(\begin{array}{cc} a_{11} & a_{12} \\ a_{21} & a_{22} \end{array} \right) \\
\end{align}
$$
上記のように2次元の正則行列$A$を考えると、正則行列$A$は逆行列を持つ。2次元の行列の逆行列については公式があり、$\mathbf{A}$の逆行列は下記のように表すことができる。
$$
\large
\begin{align}
\mathbf{A}^{-1} = \frac{1}{a_{11}a_{22}-a_{12}a_{21}} \left(\begin{array}{cc} a_{22} & -a_{12} \\ -a_{21} & a_{11} \end{array} \right) \quad (1.7)
\end{align}
$$

$\mathbf{\Lambda}$を$\mathbf{\Sigma}$を用いて表す

(1.5)式と(1.7)式より、$\mathbf{\Lambda}$は下記のように$\mathbf{\Sigma}$を用いて表すことができる。
$$
\large
\begin{align}
\left(\begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) &= \left(\begin{array}{cc} \sigma_{11} & \sigma_{12} \\ \sigma_{21} & \sigma_{22} \end{array} \right)^{-1} \\
&= \frac{1}{\sigma_{11}\sigma_{22}-\sigma_{12}\sigma_{21}} \left(\begin{array}{cc} \sigma_{22} & -\sigma_{12} \\ -\sigma_{21} & \sigma_{11} \end{array} \right) \quad (1.8)
\end{align}
$$

条件付き確率分布の導出

$x_1$に関する二次形式の平方完成

(1.6)式を$x_1$に関して平方完成を行うことで、条件付き確率分布$P(x_1|x_2,\mathbf{\mu}, \mathbf{\Sigma})$が正規分布$N(\mu_{x_1|x_2}, \Sigma_{x_1|x_2})$であることや、確率分布のパラメータの$\mu_{x_1|x_2}, \Sigma_{x_1|x_2}$を求めることができる。
$$
\large
\begin{align}
-\frac{1}{2} & (\mathbf{x}-\mathbf{\mu})^{T} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \\
&= -\frac{1}{2} \left(\begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left( \begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) \left(\begin{array}{c} x_{1}-\mu_{1} \\ x_{2}-\mu_{2} \end{array} \right) \\
&= -\frac{1}{2} \left(\begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left(\begin{array}{c} \lambda_{11}(x_{1}-\mu_{1}) + \lambda_{12}(x_{2}-\mu_{2}) \\ \lambda_{21}(x_{1}-\mu_{1}) + \lambda_{22}(x_{2}-\mu_{2}) \end{array} \right) \\
&= -\frac{1}{2} (\lambda_{11}(x_{1}-\mu_{1})^2 + (\lambda_{12}+\lambda_{21})(x_{1}-\mu_{1})(x_{2}-\mu_{2}) + Const) \\
&= -\frac{1}{2} \left( \lambda_{11} \left( x_{1}^2-2\mu_{1}x_{1}+\frac{2\lambda_{12}}{\lambda_{11}}(x_{2}-\mu_{2})x_1 \right) + Const’ \right) \\
&= -\frac{1}{2} \left( \lambda_{11} \left( x_{1}- \left( \mu_{1}-\frac{\lambda_{12}}{\lambda_{11}}(x_{2}-\mu_{2}) \right) \right)^2 + Const^{”} \right) \quad (2.1)
\end{align}
$$
上記の変形において、$x_1$に関係しない項を$Const, Const’, Const^{”}$と表したが、それぞれ変形の過程で出てきた項を取り込んだことから、それぞれを$Const, Const’, Const^{”}$のように分けて表した。
また、$\mathbf{\Sigma}, \mathbf{\Lambda}$が対称行列であることから、途中の式変形において$\lambda_{12}=\lambda_{21}, \lambda_{12}+\lambda_{21}=2\lambda_{12}$を用いた。

$\mu_{x_1|x_2}, \Sigma_{x_1|x_2}$の導出

(2.1)式より、$\mu_{x_1|x_2}, \Sigma_{x_1|x_2}$は下記のように表すことができる。
$$
\large
\begin{align}
\mu_{x_1|x_2} &= \mu_{1}-\frac{\lambda_{12}}{\lambda_{11}}(x_{2}-\mu_{2}) \quad (2.2) \\
\Sigma_{x_1|x_2}^{-1} &= \lambda_{11} \\
\Sigma_{x_1|x_2} &= \frac{1}{\lambda_{11}} \quad (2.3)
\end{align}
$$

ここで(2.2)式、(2.3)式に(1.8)式を代入することで下記を得ることができる。
$$
\large
\begin{align}
\mu_{x_1|x_2} &= \mu_{1}-\frac{\lambda_{12}}{\lambda_{11}}(x_{2}-\mu_{2}) \\
&= \mu_{1}-\frac{-\sigma_{21}}{\sigma_{22}}(x_{2}-\mu_{2}) \times \frac{\sigma_{11}\sigma_{22}-\sigma_{12}\sigma_{21}}{\sigma_{11}\sigma_{22}-\sigma_{12}\sigma_{21}} \\
&= \mu_{1}+\frac{\sigma_{12}}{\sigma_{22}}(x_{2}-\mu_{2}) \\
\Sigma_{x_1|x_2} &= \frac{1}{\lambda_{11}} \\
&= \frac{\sigma_{11}\sigma_{22}-\sigma_{12}\sigma_{21}}{\sigma_{22}} \\
&= \sigma_{11} – \frac{\sigma_{12}\sigma_{21}}{\sigma_{22}} \\
&= \sigma_{11} – \frac{\sigma_{12}^2}{\sigma_{22}}
\end{align}
$$
上記が条件付き正規分布$N(\mu_{x_1|x_2}, \Sigma_{x_1|x_2})$のパラメータ$\mu_{x_1|x_2}, \Sigma_{x_1|x_2}$の値である。

周辺分布の導出

(1.1)式の$P(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma})$の$\mathbf{x}$は$x_1, x_2$で表すことができるので、$P(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma})=P(x_1,x_2)$のように略記すると、周辺分布$P(x_1)$は下記のように定義できる。
$$
\large
\begin{align}
P(x_1) &= \int P(x_1, x_2) d x_2 \\
&= \int \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{T} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \right) d x_2 \\
&= \frac{1}{(2 \pi)^{2/2}} \frac{1}{|\Sigma|^{1/2}} \int \exp \left( -\frac{1}{2} \left(\begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left( \begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) \left(\begin{array}{c} x_{1}-\mu_{1} \\ x_{2}-\mu_{2} \end{array} \right) \right) d x_2
\end{align}
$$

上記の式を$x_2$に関して積分するにあたっては、$\exp$の内部の二次形式を$x_2$について平方完成を行いガウス積分を適用することで積分を消去できる。また、$x_2$を消去したのちは$x_1$について平方完成を行い、$x_1$に関する正規分布$N(E[x_1], V[x_1])$になることも確認できる。
ここでは周辺分布のパラメータを$E[x_1], V[x_1]$とおいた。確率密度関数における全確率の公式を元に考えても良い。$\exp$の内部について詳しく考えるにあたって、下記のように$\Delta^2$を定義する。
$$
\large
\begin{align}
\Delta^2 &= \left(\begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left( \begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) \left(\begin{array}{c} x_{1}-\mu_{1} \\ x_{2}-\mu_{2} \end{array} \right)
\end{align}
$$

$\Delta^2$に対して、下記では$x_2$に関しての平方完成を行う。$x_2$の平方完成の計算にあたっては条件付き分布と同様に考えられるが、積分を消去したのちは$x_1$に関して平方完成を行うことでパラメータを導出するので、$x_1$についての項も同時に確認する必要がある。
$$
\large
\begin{align}
& \Delta^2 = \left(\begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left( \begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) \left(\begin{array}{c} x_{1}-\mu_{1} \\ x_{2}-\mu_{2} \end{array} \right) \\
&= \left(\begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left(\begin{array}{c} \lambda_{11}(x_{1}-\mu_{1})+\lambda_{12}(x_{2}-\mu_{2}) \\ \lambda_{21}(x_{1}-\mu_{1})+\lambda_{22}(x_{2}-\mu_{2}) \end{array} \right) \\
&= \lambda_{11}(x_{1}-\mu_{1})^2 + 2\lambda_{12}(x_{1}-\mu_{1})(x_{2}-\mu_{2}) + \lambda_{22}(x_{2}-\mu_{2})^2 \\
&= \lambda_{22} \left( x_{2}- \left( \mu_{2}-\frac{\lambda_{12}}{\lambda_{22}}(x_{1}-\mu_{1}) \right) \right)^2 – \lambda_{22} \left( \mu_{2}-\frac{\lambda_{12}}{\lambda_{22}}(x_{1}-\mu_{1}) \right)^2 \\
&+ \lambda_{11}x_1^2 – 2 \lambda_{11}\mu_{1}x_1 – 2 \lambda_{12}\mu_{2}x_1 + Const
\end{align}
$$

上記の$\displaystyle \lambda_{22} \left( x_{2}- \left( \mu_{2}-\frac{\lambda_{12}}{\lambda_{22}}(x_{1}-\mu_{1}) \right) \right)^2$は積分によって消去されるため、それ以外の項を元に$x_1$について平方完成を行う。
$$
\large
\begin{align}
& – \lambda_{22} \left( \mu_{2}-\frac{\lambda_{12}}{\lambda_{22}}(x_{1}-\mu_{1}) \right)^2 + \lambda_{11}x_1^2 – 2 \lambda_{11}\mu_{1}x_1 – 2 \lambda_{12}\mu_{2}x_1 \\
&= -\frac{\lambda_{12}^2}{\lambda_{22}}x_1^2 + 2 \lambda_{12} \left( \mu_{2} + \frac{\lambda_{12}}{\lambda_{22}}\mu_{1} \right) x_1 + \lambda_{11}x_1^2 – 2 \lambda_{11}\mu_{1}x_1 – 2 \lambda_{12}\mu_{2}x_1 + Const \\
&= \left(\lambda_{11} – \frac{\lambda_{12}^2}{\lambda_{22}} \right) x_1^2 – 2 \left( \lambda_{11}\mu_{1} + \lambda_{12}\mu_{2} – \lambda_{12} \left( \mu_{2} + \frac{\lambda_{12}}{\lambda_{22}}\mu_{1} \right) \right) x_1 \\
&= \left(\lambda_{11} – \frac{\lambda_{12}^2}{\lambda_{22}} \right) x_1^2 – 2 \left( \lambda_{11}\mu_{1} – \frac{\lambda_{12}^2}{\lambda_{22}}\mu_{1} \right)
\end{align}
$$

ここで$\displaystyle V[x_1] = \left(\lambda_{11} – \frac{\lambda_{12}^2}{\lambda_{22}} \right)^{-1}$より、(1.8)式を代入することで$V[x_1]$は下記のように求めることができる。
$$
\large
\begin{align}
V[x_1] &= \left(\lambda_{11} – \frac{\lambda_{12}^2}{\lambda_{22}} \right)^{-1} \\
&= \left(\frac{\sigma_{22}}{\sigma_{11}\sigma_{22}-\sigma_{12}^2} – \frac{\sigma_{12}^2}{\sigma_{11}(\sigma_{11}\sigma_{22}-\sigma_{12}^2)} \right)^{-1} \\
&= \left( \frac{\sigma_{11}\sigma_{22} – \sigma_{12}^2}{\sigma_{11}(\sigma_{11}\sigma_{22}-\sigma_{12}^2)} \right)^{-1} \\
&= \left(\frac{1}{\sigma_{11}} \right)^{-1} \\
&= \sigma_{11}
\end{align}
$$

また、$\displaystyle E[x_1] = \sigma_{11} \left( \lambda_{11}\mu_{1} – \frac{\lambda_{12}^2}{\lambda_{22}}\mu_{1} \right)$より、$E[x_1]$の計算を行う。
$$
\large
\begin{align}
E[x_1] &= \sigma_{11} \left( \lambda_{11}\mu_{1} – \frac{\lambda_{12}^2}{\lambda_{22}}\mu_{1} \right) \\
&= \sigma_{11} \cdot \frac{1}{\sigma_{11}\sigma_{22}-\sigma_{12}} \left( \sigma_{22}\mu_{1} – \frac{\sigma_{12}^2}{\sigma_{11}}\mu_{1} \right) \\
&= \frac{\sigma_{11}}{\sigma_{11}\sigma_{22}-\sigma_{12}} \cdot \frac{\sigma_{11}\sigma_{22}-\sigma_{12}^2}{\sigma_{11}}\mu_{1} \\
&= \mu_{1}
\end{align}
$$

よって、$x_2$に関して積分を行った周辺分布$N(E[x_1],V[x_1])$のパラメータ$E[x_1],V[x_1]$は下記のように表すことができる。
$$
\large
\begin{align}
E[x_1] &= \mu_{1} \\
V[x_1] &= \sigma_{11}
\end{align}
$$