事前分布・ベイズとMAP推定・予測分布|問題演習で理解する統計学【20】

最尤法は観測値のみを元に推定を行うが、トピックによっては事前知識がわかっている場合や、サンプル数が少ない場合に最尤法が極端な結果を示す場合の補正にあたって、事前分布に基づくベイズ法は役に立つ。事前分布やMAP推定、予測分布が理解できるように演習を取り扱った。
・現代数理統計学 Ch.14 「ベイズ法」の章末演習の解答例
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch14.html

基本問題

ベイズの定理と事前分布・事後分布

二項分布の共役事前分布と事後分布の解釈

共役事前分布(conjugate prior distribution)を用いることで、事後分布の導出をシンプルに行うことができる。共役事前分布はフォーマルな表記だと難しい印象があると思われるので、以下では二項分布を例に共役事前分布について確認し、事後分布の解釈を行う。

ベイズ法ではパラメータの推定にあたって、下記のように事後分布の$P(\theta|x)$が事前分布の$P(\theta)$と尤度の$p(x|\theta)$の積に比例することを利用する。
$$
\large
\begin{align}
P(\theta|x) \propto P(\theta)p(x|\theta) \quad (1)
\end{align}
$$

上記の式は多くの書籍などで出てくるが、抽象的な表記より具体的な確率分布を例に考える方がわかりやすい。以下では二項分布に関して$(1)$式を表すことを考える。

ここまでの内容を元に下記の問いに答えよ。
i) 二項分布におけるパラメータは事象が起こる確率であるので、以下では$\theta=p$のように、パラメータを$\theta$ではなく$p$を用いて表す。確率$p$の試行を$n$回繰り返すとき、事象が起こる回数を$x$、この確率関数を$p(x|p,n)$のように表すとき、確率関数$p(x|p,n)$の式を表せ。
ⅱ) ベータ分布$Be(a,b)$の確率密度関数を答えよ。
ⅲ) i)で取り扱った確率関数$p(x|p,n)$は尤度と考えることができる。ここで$p(x|p,n)$を$x$ではなく$p$の関数と見るときベータ分布と同様の形を持つことをⅱ)の結果と見比べることで示せ。
iv) $p$の事前分布の$P(p)$がベータ分布$Be(a,b)$であるとき、事前分布$P(p)$の関数を記載せよ。
v) $p(x|p,n)P(p)$を計算せよ。
vi) 事後分布$P(p|x)$が$P(p|x) \propto p(x|p,n)P(p)$のように表されることを元に、事後分布$P(p|x)$がどのような分布になるか答えよ。
vⅱ) v)、vi)の結果を確認することでベータ分布$Be(a,b)$の$a,b$のこの事例での意味を考察せよ。

・解答
i)
確率関数$p(x|p,n)$は下記のように表すことができる。
$$
\large
\begin{align}
p(x|p,n) = {}_{n} C_{x} p^{x} (1-p)^{n-x}
\end{align}
$$

ⅱ)
ベータ分布$Be(a,b)$の確率密度関数を$f(x|a,b)$とおくとき、$f(x|a,b)$は下記のように表される。
$$
\large
\begin{align}
f(x|a,b) = \frac{1}{B(a,b)} x^{a-1} (1-x)^{b-1}
\end{align}
$$
ここで上記における$B(a,b)$はベータ関数を表す。

ⅲ)
i)とⅱ)の結果を見比べることで、どちらも変数を$x$と見た際に、$x^{a-1} (1-x)^{b-1}$の形状の関数であることを読み取ることができる。

iv)
事前分布$P(p)$はⅱ)の結果の$x$を$p$で置き換えることで得られるので、下記のように表すことができる。
$$
\large
\begin{align}
P(p) = \frac{1}{B(a,b)} p^{a-1} (1-p)^{b-1}
\end{align}
$$

v)
$p(x|p,n)P(p)$は下記のように計算できる。
$$
\large
\begin{align}
p(x|p,n)P(p) &= {}_{n} C_{x} p^{x} (1-p)^{n-x} \times \frac{1}{B(a,b)} p^{a-1} (1-p)^{b-1} \\
&= \frac{{}_{n} C_{x}}{B(a,b)} p^{a+x-1} (1-p)^{b+n-x-1}
\end{align}
$$

vi)
v)の結果より、下記が成立する。
$$
\large
\begin{align}
P(p|x) & \propto p(x|p,n)P(p) \\
&= {}_{n} C_{x} p^{x} (1-p)^{n-x} \times \frac{1}{B(a,b)} p^{a-1} (1-p)^{b-1} \\
& \propto p^{a+x-1} (1-p)^{b+n-x-1}
\end{align}
$$
よって事後分布$P(p|x)$はベータ分布$Be(a+x,b+n-x)$に一致する。

vⅱ)
二項分布における$x, n-x$はコイン投げにおける表と裏の回数に一致する。事前分布における$(a,b)$が事後分布において$(a+x,b+n-x)$になることは、実際の実験を行う前に事前に表が$a$回、裏が$b$回出たと考えることに一致する。

・解説
vⅱ)より、事前分布のベータ分布におけるパラメータの$a, b$に事前知識を組み込むことが可能になります。このようにすることで、試行回数が$5$回や$10$回などの少ない際に事前知識による補正ができると抑えておくと良いと思います。

MAP推定

発展問題

共役事前分布と指数型分布族