ベイズ線形回帰(Bayes linear regression)における事後確率と予測分布の導出

ベイズ線形回帰(Bayesian Linear Regression)におけるパラメータの事後確率と予測分布(Predictive distribution)の導出は正規分布の条件付き分布や周辺分布の計算を用いることで導出することができます。当記事では事後確率と予測分布の導出に関して取り扱いました。

「パターン認識と機械学習」の上巻の$3.3$節の「Bayesian Linear Regression」を参考に作成を行いました。

また、$(\mathrm{o.xx})$の形式の式番号は「パターン認識と機械学習」の式番号に対応させました。

・参考
多次元正規分布における周辺分布の導出
多次元正規分布におけるベイズの定理

前提の確認

問題設定

下記のようにパラメータの事後分布$p(\mathbf{\mathbf{w}})$とパラメータに基づく目的変数$t$の条件付き確率分布$p(y|\mathbf{w})$を考える。
$$
\large
\begin{align}
p(\mathbf{\mathbf{w}}) &= \mathcal{N}(\mathbf{m}_{N},\mathbf{S}_{N}) \quad (3.49) \\
p(t|\mathbf{w}) &= \mathcal{N}(\phi^{\mathrm{T}}\mathbf{w},\beta^{-1}) \quad (3.8)
\end{align}
$$

ここで上記に対し、周辺分布$p(t)$を求めることを考える。この周辺分布$p(t)$は$t$に関する予測分布に対応する。

多次元正規分布におけるベイズの定理を用いた導出

$$
\large
\begin{align}
p(\mathbf{x}) &= \mathcal{N}(\mathbf{x}|\mathbf{\mu},\mathbf{\Lambda}^{-1}) \quad (2.99) \\
p(\mathbf{y}|\mathbf{x}) &= \mathcal{N}(\mathbf{y}|\mathbf{A}\mathbf{x}+\mathbf{b},\mathbf{L}^{-1}) \quad (2.100)
\end{align}
$$

上記が定められるとき、周辺分布$p(\mathbf{y})$には下記が成立する。
$$
\large
\begin{align}
p(\mathbf{y}) = \mathcal{N}(\mathbf{x}|\mathbf{A}\mathbf{\mu} + \mathbf{b},\mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}}) \quad (2.115)
\end{align}
$$

$(2.115)$式の導出は「多次元正規分布におけるベイズの定理を用いた条件付き確率・周辺確率の導出」で取り扱った。$(3.8)、(3.49)$式に$(2.115)$式を活用することで周辺分布$p(t)$は下記のように得られる。
$$
\large
\begin{align}
p(t) &= \int \mathcal{N}(t|y(\phi(\mathbf{x}),\mathbf{w}),\beta^{-1}) \mathcal{N}(\mathbf{w}|\mathbf{m}_{N},\mathbf{S}_{N}) d \mathbf{w} \\
&= \mathcal{N}(t|y(\phi(\mathbf{x}),\mathbf{m}_{N}),\beta^{-1}+\phi(\mathbf{x})^{\mathrm{T}}\mathbf{S}_{N}\phi(\mathbf{x})) \quad (3.57),(3.58),(3.59)
\end{align}
$$

上記の導出の詳細は「パターン認識と機械学習 演習$3.10$」で取り扱った。ここまでの導出が演繹的な導出であり具体的に考えるにあたってはわかりにくいので、次節の「ベイズ線形回帰の導出」では$(2.115)$式を用いないで導出を行うことを考える。

パラメータの事後確率

$(3.49)$のパラメータの事後確率の式の$\mathbf{m}_{N},\mathbf{S}_{N}$は下記の$(3.50),(3.51)$式で表される。
$$
\large
\begin{align}
\mathbf{m}_{N} &= \mathbf{S}_{N} \left( \beta \Phi^{\mathrm{T}} \mathbf{t} + \mathbf{S}_{0}^{-1} \mathbf{m}_{0} \right) \quad (3.50) \\
\mathbf{S}_{N}^{-1} &= \beta \Phi^{\mathrm{T}} \Phi + \mathbf{S}_{0}^{-1} \quad (3.51)
\end{align}
$$

詳しい導出は「パターン認識と機械学習 演習$3.7$」で取り扱われているのでここでは省略する。

ベイズ線形回帰の導出

基本的には「多次元正規分布におけるベイズの定理を用いた条件付き確率・周辺確率の導出」の流れをそのまま用いるが、$t$がスカラーであるなど、多少シンプルな数式で表すことができる。

同時分布の期待値・共分散行列の導出

周辺分布$p(t)$は下記のように考えることができる。
$$
\large
\begin{align}
p(t) = \int p(t|\mathbf{w})p(\mathbf{\mathbf{w}}) d \mathbf{w}
\end{align}
$$

上記の$\mathbf{w})$と$t$に関する同時分布を考えるにあたって、下記のように$\mathbf{z}$を定義する。
$$
\large
\begin{align}
\mathbf{z} = \left(\begin{array}{c} \mathbf{w} \\ t \end{array} \right) \quad (2.101)
\end{align}
$$

このとき$p(\mathbf{z})$の対数を取った$\ln{p(\mathbf{z})}$に関して下記が成立する。
$$
\large
\begin{align}
& \ln{p(\mathbf{z})} = \ln{p(\mathbf{w},t)} = \ln{p(t|\mathbf{w})} \ln{p(\mathbf{w})} \\
&= – \frac{\beta}{2} (t-\phi^{\mathrm{T}}\mathbf{w})^{\mathrm{T}} (t-\phi^{\mathrm{T}}\mathbf{w}) – \frac{1}{2} (\mathbf{w}-\mathbf{m}_{N})^{\mathrm{T}} \mathbf{S}_{N}^{-1} (\mathbf{w}-\mathbf{m}_{N}) + \mathrm{Const.} \quad (1)
\end{align}
$$

なお、式表記にあたっては$\mathbf{x}$と$\mathbf{y}$に関係ない項は$\mathrm{Const.}$でまとめた。このとき、$(1)$式から$\mathbf{w}, t$に関する$2$次の項だけを書き出すと以下のように表される。
$$
\large
\begin{align}
& -\frac{1}{2} \left[ \mathbf{w}^{\mathrm{T}} \left( \beta \phi \phi^{\mathrm{T}} + \mathbf{S}_{N}^{-1} \right) \mathbf{w} – \beta \mathbf{w}^{\mathrm{T}} \phi t – \beta t \phi^{\mathrm{T}} \mathbf{w} – \beta t^2 \right] \\
&= – \frac{1}{2} \left(\begin{array}{cc} \mathbf{w}^{\mathrm{T}} & t \end{array} \right) \left(\begin{array}{cc} \beta \phi \phi^{\mathrm{T}} + \mathbf{S}_{N}^{-1} & -\beta \phi \\ -\beta \phi^{\mathrm{T}} & \beta \end{array} \right) \left(\begin{array}{c} \mathbf{w} \\ t \end{array} \right) \\
&= – \frac{1}{2} \left(\begin{array}{c} \mathbf{w} \\ t \end{array} \right)^{\mathrm{T}} \left(\begin{array}{cc} \mathbf{S}_{N}^{-1} + \beta \phi \phi^{\mathrm{T}} & -\beta \phi \\ -\beta \phi^{\mathrm{T}} & \beta \end{array} \right) \left(\begin{array}{c} \mathbf{w} \\ t \end{array} \right) = -\frac{1}{2} \mathbf{z}^{\mathrm{T}} \mathbf{R} \mathbf{z}
\end{align}
$$

ここで$\mathbf{R}$は$p(\mathbf{z})$の精度行列であることから$\mathbf{z}$の共分散行列$\mathrm{cov}[\mathbf{z}]$に関して$\mathrm{cov}[\mathbf{z}]=\mathbf{R}^{-1}$が成立する。$\mathrm{cov}[\mathbf{z}]$は下記のように表される。
$$
\large
\begin{align}
\mathbf{M} &= (\mathbf{S}_{N}^{-1}+\beta\phi\phi^{\mathrm{T}} – (-\beta\phi)\beta^{-1}(-\beta\phi^{\mathrm{T}}))^{-1} \\
&= (\mathbf{S}_{N}^{-1} + \beta\phi\phi^{\mathrm{T}} – \beta\phi\phi^{\mathrm{T}})^{-1} = \mathbf{S}_{N} \\
\mathrm{cov}[\mathbf{z}] &= \mathbf{R}^{-1} = \left(\begin{array}{cc} \mathbf{S}_{N}^{-1} + \beta \phi \phi^{\mathrm{T}} & -\beta \phi \\ -\beta \phi^{\mathrm{T}} & \beta \end{array} \right)^{-1} \\
&= \left(\begin{array}{cc} \mathbf{M} & – \mathbf{M}(-\beta\phi)\beta^{-1} \\ -\beta^{-1}(-\beta\phi^{\mathrm{T}})\mathbf{M} & \beta^{-1}+\beta^{-1}(-\beta\phi^{\mathrm{T}})M(-\beta\phi)\beta^{-1} \end{array} \right) \\
&= \left(\begin{array}{cc} \mathbf{S}_{N} & \mathbf{S}_{N}\phi \\ \phi^{\mathrm{T}}\mathbf{S}_{N} & \beta^{-1}+\phi^{\mathrm{T}}\mathbf{S}_{N}\phi \end{array} \right) \quad (2)
\end{align}
$$

次に$(1)$式から$\mathbf{w}, t$に関する$1$次の項だけを書き出すと以下のように表すことができる。
$$
\large
\begin{align}
\mathbf{w}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N} &= \left(\begin{array}{cc} \mathbf{w}^{\mathrm{T}} & t \end{array} \right) \left(\begin{array}{c} \mathbf{S}_{N}^{-1}\mathbf{m}_{N} \\ 0 \end{array} \right) \\
&= \left(\begin{array}{c} \mathbf{w} \\ t \end{array} \right)^{\mathrm{T}} \left(\begin{array}{c} \mathbf{S}_{N}^{-1}\mathbf{m}_{N} \\ 0 \end{array} \right)
\end{align}
$$

ここで$\displaystyle \mathbf{R}\mathbb{E}[\mathbf{z}]=\left(\begin{array}{c} \mathbf{S}_{N}^{-1}\mathbf{m}_{N} \\ 0 \end{array} \right)$より$\mathbb{E}[\mathbf{z}]$に関して下記が成立する。
$$
\large
\begin{align}
\mathbf{R}\mathbb{E}[\mathbf{z}] &= \left(\begin{array}{c} \mathbf{S}_{N}^{-1}\mathbf{m}_{N} \\ 0 \end{array} \right) \\
\mathbb{E}[\mathbf{z}] &= \mathbf{R}^{-1} \left(\begin{array}{c} \mathbf{S}_{N}^{-1}\mathbf{m}_{N} \\ 0 \end{array} \right) \\
&= \left(\begin{array}{cc} \mathbf{S}_{N} & \mathbf{S}_{N}\phi \\ \phi^{\mathrm{T}}\mathbf{S}_{N} & \beta^{-1}+\phi^{\mathrm{T}}\mathbf{S}_{N}\phi \end{array} \right) \left(\begin{array}{c} \mathbf{S}_{N}^{-1}\mathbf{m}_{N} \\ 0 \end{array} \right) = \left(\begin{array}{c} \mathbf{m}_{N} \\ \phi^{\mathrm{T}}\mathbf{m}_{N} \end{array} \right) \quad (3)
\end{align}
$$

予測分布の導出

多次元正規分布における周辺分布の数式の導出」の導出結果を用いれば良い。

・$t$の期待値$\mathbb{E}[t]$
$(3)$式より$\mathbb{E}[t]=\phi^{\mathrm{T}}\mathbf{m}_{N}$が成立する。この結果は$(3.58)$式に一致する。

・$t$の分散$V[t]$
$(2)$式より$\displaystyle V[t]=\beta^{-1}+\phi^{\mathrm{T}}\mathbf{S}_{N}\phi$が成立する。この結果は$(3.58),(3.59)$式に一致する。

「ベイズ線形回帰(Bayes linear regression)における事後確率と予測分布の導出」への1件の返信

コメントは受け付けていません。