2次元正規分布における条件付き確率分布・周辺分布の数式の導出を理解する

多次元正規分布の直感的な理解については下記で取り扱ったが、当記事ではその多次元分布において条件付き確率分布・周辺分布を考える。
https://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist1.html
「パターン認識と機械学習(PRML)」の上巻の$2.3.1$節、$2.3.2$節の導出が詳しいので、下記を参考に取りまとめた。多次元の取り扱いは複雑になることから、ここでは$2$次元の導出のみを取り扱う。

前提の確認

2次元正規分布

$$
\large
\begin{align}
P(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma}) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \right) \quad (1.1)
\end{align}
$$
詳しくは下記で取り扱ったが、多次元正規分布の式は上記のように表される。
https://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist1.html#i-8

多次元の取り扱いはなかなか複雑であるので、ここでは$2$次元の$\mathbf{x}, \mathbf{\mu}, \mathbf{\Sigma}$を考え、それぞれ下記のように定義する。
$$
\large
\begin{align}
\mathbf{x} &= \left(\begin{array}{c} x_{1} \\ x_{2} \end{array} \right) \quad (1.2) \\
\mathbf{\mu} &= \left(\begin{array}{c} \mu_{1} \\ \mu_{2} \end{array} \right) \quad (1.3) \\
\mathbf{\Sigma} &= \left(\begin{array}{cc} \sigma_{11} & \sigma_{12} \\ \sigma_{21} & \sigma_{22} \end{array} \right) \quad (1.4)
\end{align}
$$

また、$\mathbf{\Sigma}$の取り扱いにあたって、$\mathbf{\Lambda} \equiv \mathbf{\Sigma}^{-1}$となる$\mathbf{\Lambda}$を定義する。このとき、$\mathbf{\Sigma}$と$\mathbf{\Lambda}$は下記のように表すことができる。
$$
\large
\begin{align}
\mathbf{\Sigma}^{-1} &= \mathbf{\Lambda} \\
\left(\begin{array}{cc} \sigma_{11} & \sigma_{12} \\ \sigma_{21} & \sigma_{22} \end{array} \right)^{-1} &= \left(\begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) \quad (1.5)
\end{align}
$$

ここで$(1.2)$〜$(1.5)$より、$(1.1)$の二次形式の$\displaystyle -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu})$は下記のように表現できる。
$$
\large
\begin{align}
-\frac{1}{2} & (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \\
&= -\frac{1}{2} \left( \begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left( \begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) \left(\begin{array}{c} x_{1}-\mu_{1} \\ x_{2}-\mu_{2} \end{array} \right) \quad (1.6)
\end{align}
$$

$2$次元の行列の逆行列の公式

$$
\large
\begin{align}
\mathbf{A} = \left(\begin{array}{cc} a_{11} & a_{12} \\ a_{21} & a_{22} \end{array} \right) \\
\end{align}
$$

上記のように$2$次元の正則行列$A$を考えると、正則行列$A$は逆行列を持つ。$2$次元の行列の逆行列については公式があり、$\mathbf{A}$の逆行列は下記のように表すことができる。
$$
\large
\begin{align}
\mathbf{A}^{-1} = \frac{1}{a_{11}a_{22}-a_{12}a_{21}} \left(\begin{array}{cc} a_{22} & -a_{12} \\ -a_{21} & a_{11} \end{array} \right) \quad (1.7)
\end{align}
$$

$\mathbf{\Lambda}$を$\mathbf{\Sigma}$を用いて表す

$(1.5)$式と$(1.7)$式より、$\mathbf{\Lambda}$は下記のように$\mathbf{\Sigma}$を用いて表すことができる。
$$
\large
\begin{align}
\left(\begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) &= \left(\begin{array}{cc} \sigma_{11} & \sigma_{12} \\ \sigma_{21} & \sigma_{22} \end{array} \right)^{-1} \\
&= \frac{1}{\sigma_{11}\sigma_{22}-\sigma_{12}\sigma_{21}} \left(\begin{array}{cc} \sigma_{22} & -\sigma_{12} \\ -\sigma_{21} & \sigma_{11} \end{array} \right) \quad (1.8)
\end{align}
$$

条件付き確率分布の導出

$x_1$に関する二次形式の平方完成

$(1.6)$式を$x_1$に関して平方完成を行うことで、条件付き確率分布$P(x_1|x_2,\mathbf{\mu}, \mathbf{\Sigma})$が正規分布$N(\mu_{x_1|x_2}, \Sigma_{x_1|x_2})$であることや、確率分布のパラメータの$\mu_{x_1|x_2}, \Sigma_{x_1|x_2}$を求めることができる。
$$
\large
\begin{align}
-\frac{1}{2} & (\mathbf{x}-\mathbf{\mu})^{T} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \\
&= -\frac{1}{2} \left(\begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left( \begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) \left(\begin{array}{c} x_{1}-\mu_{1} \\ x_{2}-\mu_{2} \end{array} \right) \\
&= -\frac{1}{2} \left(\begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left(\begin{array}{c} \lambda_{11}(x_{1}-\mu_{1}) + \lambda_{12}(x_{2}-\mu_{2}) \\ \lambda_{21}(x_{1}-\mu_{1}) + \lambda_{22}(x_{2}-\mu_{2}) \end{array} \right) \\
&= -\frac{1}{2} (\lambda_{11}(x_{1}-\mu_{1})^2 + (\lambda_{12}+\lambda_{21})(x_{1}-\mu_{1})(x_{2}-\mu_{2}) + \mathrm{Const}) \\
&= -\frac{1}{2} \left( \lambda_{11} \left( x_{1}^2-2\mu_{1}x_{1}+\frac{2\lambda_{12}}{\lambda_{11}}(x_{2}-\mu_{2})x_1 \right) + \mathrm{Const}’ \right) \\
&= -\frac{1}{2} \left( \lambda_{11} \left( x_{1}- \left( \mu_{1}-\frac{\lambda_{12}}{\lambda_{11}}(x_{2}-\mu_{2}) \right) \right)^2 + \mathrm{Const}^{”} \right) \quad (2.1)
\end{align}
$$

上記の変形において、$x_1$に関係しない項を$\mathrm{Const}, \mathrm{Const}’, \mathrm{Const}^{”}$と表したが、それぞれ変形の過程で出てきた項を取り込んだことから、それぞれを$\mathrm{Const}, \mathrm{Const}’, \mathrm{Const}^{”}$のように分けて表した。
また、$\mathbf{\Sigma}, \mathbf{\Lambda}$が対称行列であることから、途中の式変形において$\lambda_{12}=\lambda_{21}, \lambda_{12}+\lambda_{21}=2\lambda_{12}$を用いた。

$\mu_{x_1|x_2}, \Sigma_{x_1|x_2}$の導出

$(2.1)$式より、$\mu_{x_1|x_2}, \Sigma_{x_1|x_2}$は下記のように表すことができる。
$$
\large
\begin{align}
\mu_{x_1|x_2} &= \mu_{1}-\frac{\lambda_{12}}{\lambda_{11}}(x_{2}-\mu_{2}) \quad (2.2) \\
\Sigma_{x_1|x_2}^{-1} &= \lambda_{11} \\
\Sigma_{x_1|x_2} &= \frac{1}{\lambda_{11}} \quad (2.3)
\end{align}
$$

ここで$(2.2)$式、$(2.3)$式に$(1.8)$式を代入することで下記を得ることができる。
$$
\large
\begin{align}
\mu_{x_1|x_2} &= \mu_{1}-\frac{\lambda_{12}}{\lambda_{11}}(x_{2}-\mu_{2}) \\
&= \mu_{1}-\frac{-\sigma_{21}}{\sigma_{22}}(x_{2}-\mu_{2}) \times \frac{\sigma_{11}\sigma_{22}-\sigma_{12}\sigma_{21}}{\sigma_{11}\sigma_{22}-\sigma_{12}\sigma_{21}} \\
&= \mu_{1}+\frac{\sigma_{12}}{\sigma_{22}}(x_{2}-\mu_{2}) \\
\Sigma_{x_1|x_2} &= \frac{1}{\lambda_{11}} \\
&= \frac{\sigma_{11}\sigma_{22}-\sigma_{12}\sigma_{21}}{\sigma_{22}} \\
&= \sigma_{11} – \frac{\sigma_{12}\sigma_{21}}{\sigma_{22}} \\
&= \sigma_{11} – \frac{\sigma_{12}^2}{\sigma_{22}}
\end{align}
$$

上記が条件付き正規分布$N(\mu_{x_1|x_2}, \Sigma_{x_1|x_2})$のパラメータ$\mu_{x_1|x_2}, \Sigma_{x_1|x_2}$の値である。$\mu_{x_1|x_2}$の傾き$\displaystyle \frac{\sigma_{12}}{\sigma_{22}}$は単回帰分析の傾きの式に一致することも抑えておくと良い。

周辺分布の導出

$(1.1)$式の$P(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma})$の$\mathbf{x}$は$x_1, x_2$で表すことができるので、$P(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma})=P(x_1,x_2)$のように略記すると、周辺分布$P(x_1)$は下記のように定義できる。
$$
\large
\begin{align}
P(x_1) &= \int P(x_1, x_2) d x_2 \\
&= \int \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{T} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \right) d x_2 \\
&= \frac{1}{(2 \pi)^{2/2}} \frac{1}{|\Sigma|^{1/2}} \int \exp \left( -\frac{1}{2} \left(\begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left( \begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) \left(\begin{array}{c} x_{1}-\mu_{1} \\ x_{2}-\mu_{2} \end{array} \right) \right) d x_2
\end{align}
$$

上記の式を$x_2$に関して積分するにあたっては、$\exp$の内部の二次形式を$x_2$について平方完成を行いガウス積分を適用することで積分を消去できる。また、$x_2$を消去したのちは$x_1$について平方完成を行い、$x_1$に関する正規分布$N(E[x_1], V[x_1])$になることも確認できる。
ここでは周辺分布のパラメータを$E[x_1], V[x_1]$とおいた。確率密度関数における全確率の公式を元に考えても良い。$\exp$の内部について詳しく考えるにあたって、下記のように$\Delta^2$を定義する。
$$
\large
\begin{align}
\Delta^2 &= \left(\begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left( \begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) \left(\begin{array}{c} x_{1}-\mu_{1} \\ x_{2}-\mu_{2} \end{array} \right)
\end{align}
$$

$\Delta^2$に対して、下記では$x_2$に関しての平方完成を行う。$x_2$の平方完成の計算にあたっては条件付き分布と同様に考えられるが、積分を消去したのちは$x_1$に関して平方完成を行うことでパラメータを導出するので、$x_1$についての項も同時に確認する必要がある。
$$
\large
\begin{align}
& \Delta^2 = \left(\begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left( \begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) \left(\begin{array}{c} x_{1}-\mu_{1} \\ x_{2}-\mu_{2} \end{array} \right) \\
&= \left(\begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left(\begin{array}{c} \lambda_{11}(x_{1}-\mu_{1})+\lambda_{12}(x_{2}-\mu_{2}) \\ \lambda_{21}(x_{1}-\mu_{1})+\lambda_{22}(x_{2}-\mu_{2}) \end{array} \right) \\
&= \lambda_{11}(x_{1}-\mu_{1})^2 + 2\lambda_{12}(x_{1}-\mu_{1})(x_{2}-\mu_{2}) + \lambda_{22}(x_{2}-\mu_{2})^2 \\
&= \lambda_{22} \left( x_{2}- \left( \mu_{2}-\frac{\lambda_{12}}{\lambda_{22}}(x_{1}-\mu_{1}) \right) \right)^2 – \lambda_{22} \left( \mu_{2}-\frac{\lambda_{12}}{\lambda_{22}}(x_{1}-\mu_{1}) \right)^2 \\
&+ \lambda_{11}x_1^2 – 2 \lambda_{11}\mu_{1}x_1 – 2 \lambda_{12}\mu_{2}x_1 + \mathrm{Const}
\end{align}
$$

上記の$\displaystyle \lambda_{22} \left( x_{2}- \left( \mu_{2}-\frac{\lambda_{12}}{\lambda_{22}}(x_{1}-\mu_{1}) \right) \right)^2$は積分によって消去されるため、それ以外の項を元に$x_1$について平方完成を行う。
$$
\large
\begin{align}
& – \lambda_{22} \left( \mu_{2}-\frac{\lambda_{12}}{\lambda_{22}}(x_{1}-\mu_{1}) \right)^2 + \lambda_{11}x_1^2 – 2 \lambda_{11}\mu_{1}x_1 – 2 \lambda_{12}\mu_{2}x_1 \\
&= -\frac{\lambda_{12}^2}{\lambda_{22}}x_1^2 + 2 \lambda_{12} \left( \mu_{2} + \frac{\lambda_{12}}{\lambda_{22}}\mu_{1} \right) x_1 + \lambda_{11}x_1^2 – 2 \lambda_{11}\mu_{1}x_1 – 2 \lambda_{12}\mu_{2}x_1 \\
&= \left(\lambda_{11} – \frac{\lambda_{12}^2}{\lambda_{22}} \right) x_1^2 – 2 \left( \lambda_{11}\mu_{1} + \lambda_{12}\mu_{2} – \lambda_{12} \left( \mu_{2} + \frac{\lambda_{12}}{\lambda_{22}}\mu_{1} \right) \right) x_1 \\
&= \left(\lambda_{11} – \frac{\lambda_{12}^2}{\lambda_{22}} \right) x_1^2 – 2 \left( \lambda_{11}\mu_{1} – \frac{\lambda_{12}^2}{\lambda_{22}}\mu_{1} \right)
\end{align}
$$

ここで$\displaystyle V[x_1] = \left(\lambda_{11} – \frac{\lambda_{12}^2}{\lambda_{22}} \right)^{-1}$より、$(1.8)$式を代入することで$V[x_1]$は下記のように求めることができる。
$$
\large
\begin{align}
V[x_1] &= \left(\lambda_{11} – \frac{\lambda_{12}^2}{\lambda_{22}} \right)^{-1} \\
&= \left(\frac{\sigma_{22}}{\sigma_{11}\sigma_{22}-\sigma_{12}^2} – \frac{\sigma_{12}^2}{\sigma_{11}(\sigma_{11}\sigma_{22}-\sigma_{12}^2)} \right)^{-1} \\
&= \left( \frac{\sigma_{11}\sigma_{22} – \sigma_{12}^2}{\sigma_{11}(\sigma_{11}\sigma_{22}-\sigma_{12}^2)} \right)^{-1} \\
&= \left(\frac{1}{\sigma_{11}} \right)^{-1} \\
&= \sigma_{11}
\end{align}
$$

また、$\displaystyle E[x_1] = \sigma_{11} \left( \lambda_{11}\mu_{1} – \frac{\lambda_{12}^2}{\lambda_{22}}\mu_{1} \right)$より、$E[x_1]$の計算を行う。
$$
\large
\begin{align}
E[x_1] &= \sigma_{11} \left( \lambda_{11}\mu_{1} – \frac{\lambda_{12}^2}{\lambda_{22}}\mu_{1} \right) \\
&= \sigma_{11} \cdot \frac{1}{\sigma_{11}\sigma_{22}-\sigma_{12}} \left( \sigma_{22}\mu_{1} – \frac{\sigma_{12}^2}{\sigma_{11}}\mu_{1} \right) \\
&= \frac{\sigma_{11}}{\sigma_{11}\sigma_{22}-\sigma_{12}} \cdot \frac{\sigma_{11}\sigma_{22}-\sigma_{12}^2}{\sigma_{11}}\mu_{1} \\
&= \mu_{1}
\end{align}
$$

よって、$x_2$に関して積分を行った周辺分布$N(E[x_1],V[x_1])$のパラメータ$E[x_1],V[x_1]$は下記のように表すことができる。
$$
\large
\begin{align}
E[x_1] &= \mu_{1} \\
V[x_1] &= \sigma_{11}
\end{align}
$$

「2次元正規分布における条件付き確率分布・周辺分布の数式の導出を理解する」への5件のフィードバック

  1. […] 多次元正規分布の周辺分布(Marginal distribution)の導出を取り扱います。「パターン認識と機械学習(PRML)」の上巻の$2.3.2$節を参考に取りまとめを行いました。積分消去やシューア補行列を用いた逆行列の取り扱いなど計算がかなり複雑なのでなるべく計算の詳細が確認できるように所々追記を行いました。なお、$2$次元正規分布における周辺分布の取り扱いに関しては下記でまとめましたのでこちらも合わせてご確認ください。https://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist3.html […]

コメントは受け付けていません。