共役事前分布(Conjugate Prior Distribution)まとめ

共役事前分布(Conjugate Prior Distribution)はベイズ統計学に基づいてベイズの定理を用いるにあたって計算負荷を減らすことができるので抑えておくと良い。当記事では観測値に仮定される確率分布に対して共役なパラメータの事前分布に関して取りまとめを行なった。
「現代数理統計学」の$14$章「ベイズ法」や、「自然科学の統計学」の$9$章「ベイズ決定」などを参考に作成を行なった。

共役事前分布の概要

概要

ベイズ統計ではベイズの定理に基づいて、事後分布$P(\theta|X=x)$を事前分布$P(\theta)$と尤度関数$L(\theta)=f(x|\theta)$の積に基づいて導出する。
$$
\large
\begin{align}
P(\theta|X=x) &= \frac{P(\theta)f(x|\theta)}{P(X=x)} \\
& \propto P(\theta)f(x|\theta)
\end{align}
$$

上記に関して取り扱うにあたっては、事前分布$P(\theta)$と尤度関数$L(\theta)=f(x|\theta)$の関数の形がパラメータ$\theta$に関して同じであればシンプルになることを抑えておくと良い。以下、二項分布とベータ分布を例に詳しく確認を行う。

確率変数$X$が二項分布$Bin(n,p)$に従うとき、パラメータ$p$の事前分布$P(p)$がベータ分布$Be(a,b)$で表されると仮定する。このとき、事前分布$P(p)$と尤度関数$L(p)=f(x|p)$は下記のように表される。
$$
\large
\begin{align}
P(p) &= \frac{1}{B(a,b)} p^{a-1} (1-p)^{b-1} \\
L(p) &= f(x|p) = {}_{n} C_{x} p^{x} (1-p)^{n-x}
\end{align}
$$

このとき、事後分布$P(p|X=x)$は下記のように考えることができる。
$$
\large
\begin{align}
P(p|X=x) & \propto P(\theta)f(x|p) \\
&= \frac{1}{B(a,b)} p^{a-1} (1-p)^{b-1} \times {}_{n} C_{x} p^{x} (1-p)^{n-x} \\
&= \frac{{}_{n} C_{x}}{B(a,b)} p^{a+x-1} (1-p)^{b+n-x-1}
\end{align}
$$
上記より、事後分布$P(p|X=x)$がベータ分布$Be(a+x,b+n-x)$に一致することが確認できる。

ここまでの議論のように、事前分布$P(\theta)$と尤度関数$L(\theta)=f(x|\theta)$をパラメータ$\theta$に関して同様な関数形になるように定めることでベイズの定理の適用にあたっての計算を簡略化することができる。

実用上は尤度関数が先に定められ、その後に事前分布を考えることが多い。上記で確認したような事前分布は共役事前分布(Conjugate Prior Distribution)といわれ、ベイズの定理の適用にあたっての計算を簡略化するにあたって役立てることができる。

共役事前分布の見つけ方

前項で取り扱った「二項分布」と「ベータ分布」のように、確率密度関数に基づく尤度関数をパラメータの関数で見た際に同じ関数形の確率分布がないかを探せば良い。
二項分布の尤度関数の$p$に関する項が$p^{x} (1-p)^{n-x}$で表されることに着目すれば、類似の確率分布は$p^{a-1} (1-p)^{b-1}$で確率密度関数の主要部分が表されるベータ分布が適用できることが推察できる。

ここで確認したような関数形に着目して得られる共役事前分布は、自然共役事前分布(Natural Conjugate Prior Distribution)ともいわれる。

自然共役事前分布(Natural Conjugate Prior Distribution)を用いた事後分布の導出に関しての手順を下記にまとめる。

i) 尤度関数$f(x|\theta)=L(\theta)$をパラメータ$\theta$の関数と見たときに、類似する確率分布がないか探し、事前分布$P(\theta)$を定義する。尤度関数が「二項分布」で表されるときはベータ分布$Be(a,b)$が対応する。
ⅱ) パラメータの事後分布$P(\theta|X)$を尤度関数と事前分布の積から計算する。尤度関数が「二項分布」で表されるときは$P(p|X=x) \propto P(p)f(x|p)$が対応する。
ⅲ) ⅱ)で得られた事後分布$P(\theta|X)$の式から事後分布のパラメータを抜き出し、事前分布と比較する。尤度関数が「二項分布」で表されるときはベータ分布$Be(a,b)$が$Be(a+x,b+n-x)$に更新されることに対応する。

具体的な共役事前分布

二項分布とベータ分布

共役事前分布の概要」の具体例で確認を行なったので省略する。

正規分布

確率変数$X$が正規分布$N(\mu,\sigma^2)$に従うとき、パラメータ$\mu$の事前分布$P(\mu)$が正規分布$N(\lambda,\tau^2)$で表されると仮定する。このとき、事前分布$P(\mu)$と尤度関数$L(\mu)=f(x_1,…,x_n|\mu)$は下記のように表される。
$$
\large
\begin{align}
P(\mu) &= \frac{1}{\sqrt{2 \pi}\tau} \exp \left[ -\frac{(\mu-\lambda)^2}{2 \tau^2} \right] \\
L(\mu) &= f(x_1,…,x_n|\mu) = \prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi}\sigma} \exp \left[ -\frac{(x_i-\mu)^2}{2 \sigma^2} \right] \\
&= \left( \frac{1}{\sqrt{2 \pi}\sigma} \right)^{n} \exp \left[ – \frac{1}{2 \sigma^2}\sum_{i=1}^{n} (x_i-\mu)^2 \right] \\
&= \left( \frac{1}{\sqrt{2 \pi}\sigma} \right)^{n} \exp \left[ – \frac{1}{2 \sigma^2}\sum_{i=1}^{n} \left( (x_i-\bar{x})^2 + (\bar{x}-\mu)^2 + 2(x_i-\bar{x})(\bar{x}-\mu) \right) \right] \\
&= \exp \left[ – \sum_{i=1}^{n} \frac{(\bar{x}-\mu)^2}{2 \sigma^2} \right] \left( \frac{1}{\sqrt{2 \pi}\sigma} \right)^{n} \exp \left[ – \frac{1}{2 \sigma^2}\sum_{i=1}^{n} (\bar{x}-\mu)^2 + 2(\bar{x}-\mu)\sum_{i=1}^{n}(x_i-\bar{x}) \right] \\
&= \exp \left[ – \frac{n(\mu-\bar{x})^2}{2 \sigma^2} \right] \left( \frac{1}{\sqrt{2 \pi}\sigma} \right)^{n} \exp \left[ – \frac{1}{2 \sigma^2}\sum_{i=1}^{n} (\bar{x}-\mu)^2 \right]
\end{align}
$$

このとき、事後分布$P(\mu|X=x_1,…,x_n)$は下記のように考えることができる。
$$
\large
\begin{align}
P(\mu|X=x_1,…,x_n) & \propto P(\mu)f(x_1,…,x_n|\mu) \\
& \propto \exp \left[ -\frac{(\mu-\lambda)^2}{2 \tau^2} \right] \times \exp \left[ – \frac{n(\mu-\bar{x})^2}{2 \sigma^2} \right] \\
&= \exp \left[ -\frac{\sigma^2(\mu-\lambda)^2 + n \tau^2(\mu-\bar{x})^2}{2 \sigma^2 \tau^2} \right] \\
&= \exp \left[ -\frac{(n \tau^2 + \sigma^2)\mu^2 – 2(n \tau^2 \bar{x} + \sigma^2 \lambda)\mu + …}{2 \sigma^2 \tau^2} \right] \\
& \propto \exp \left[ -\frac{n \tau^2 + \sigma^2}{2 \sigma^2 \tau^2} \left(\mu – \frac{n \tau^2 \bar{x} + \sigma^2 \lambda}{n \tau^2 + \sigma^2} \right)^2 \right]
\end{align}
$$

ここまでの議論により、$\mu$に関する事前分布$N(\lambda,\tau^2)$が、$N(\mu,\sigma^2)$に基づく観測値$x_1,…,x_n$を用いて、事後分布$\displaystyle N \left( \frac{n \tau^2 \bar{x} + \sigma^2 \lambda}{n \tau^2 + \sigma^2} , \frac{\sigma^2 \tau^2}{n \tau^2 + \sigma^2} \right)$を得ることができる。

ポアソン分布とガンマ分布

確率変数$X$がポアソン分布$Po(\lambda)$に従うとき、パラメータ$\lambda$の事前分布$P(\lambda)$がガンマ分布$Ga(a,1)$で表されると仮定する。このとき、事前分布$P(\lambda)$と尤度関数$L(\lambda)=f(x_1,…,x_n|\lambda)$は下記のように表される。
$$
\large
\begin{align}
P(\lambda) &= \frac{1}{\Gamma(a)} \lambda^{a-1} e^{-\lambda} \\
L(\lambda) &= f(x_1,…,x_n|\lambda) = \prod_{i=1}^{n} \frac{\lambda^{x_i} e^{-\lambda}}{x_i!} \\
&= \lambda^{\sum_{i=1}^{n} x_i} e^{-n \lambda} \prod_{i=1}^{n} \frac{1}{x_i!} \\
&= \lambda^{n \bar{x}} e^{-n \lambda} \prod_{i=1}^{n} \frac{1}{x_i!}
\end{align}
$$

このとき、事後分布$P(\lambda|X=x_1,…,x_n)$は下記のように考えることができる。
$$
\large
\begin{align}
P(\lambda|X=x_1,…,x_n) & \propto P(\lambda)f(x_1,…,x_n|\lambda) \\
&= \frac{1}{\Gamma(a)} \lambda^{a-1} e^{-\lambda} \times \lambda^{n \bar{x}} e^{-n \lambda} \prod_{i=1}^{n} \frac{1}{x_i!} \\
& \propto \lambda^{a + n \bar{x} – 1} e^{-(n+1)\lambda} \\
\end{align}
$$
ここまでの議論により、$\lambda$に関する事前分布$Ga(a,1)$が、$Po(\lambda)$に基づく観測値$x_1,…,x_n$を用いて、事後分布$Ga(a + n \bar{x}, n+1)$を得ることができる。

さらに、ガンマ分布$Ga(a,b)$の期待値が$\displaystyle \frac{a}{b}$、分散が$\displaystyle \frac{a}{b^2}$であることから、事前分布$Ga(a,1)$と事後分布$Ga(a + n \bar{x}, n+1)$の期待値$E[\lambda], E[\lambda|x_1,…,x_n]$と分散$V[\lambda], V[\lambda|x_1,…,x_n]$はそれぞれ下記のように得られる。
$$
\large
\begin{align}
E[\lambda] &= a \\
E[\lambda|x_1,…,x_n] &= \frac{a + n \bar{x}}{n+1} \\
V[\lambda] &= a \\
V[\lambda|x_1,…,x_n] &= \frac{a + n \bar{x}}{(n+1)^2}
\end{align}
$$

上記より、$n$が大きくなるにつれて、$E[\lambda|x_1,…,x_n]$が$\bar{x}$に近づくことと、$V[\lambda|x_1,…,x_n]$が$0$に近づくことが確認できる。

ガンマ分布の期待値や分散に関しては下記で詳しく取り扱った。ここでの$b$に対して$\displaystyle b = \frac{1}{\alpha}$のように置き換えられていることに注意。
https://www.hello-statisticians.com/explain-terms-cat/gamma_distribution1.html

演習

「二項分布」と「ベータ分布」に関する演習を下記で取り扱った。
https://www.hello-statisticians.com/practice/stat_practice20.html#i-3

参考

「共役事前分布(Conjugate Prior Distribution)まとめ」への6件のフィードバック

  1. […] https://www.hello-statisticians.com/explain-terms-cat/conjugate_dist1.html#i-6上記の導出結果の事後分布$displaystyle N left( frac{n tau^2 bar{x} + sigma^2 lambda}{n tau^2 + sigma^2} , frac{sigma^2 tau^2}{n tau^2 + sigma^2} right)$に対して値を代入することで結果を得ることができる。 […]

コメントは受け付けていません。