「尤度」と「事前確率」に関してベイズの定理を適用することでパラメータの事後分布が得られます。当記事では事前分布の選定にあたって用いられることのあるジェフリーズの事前分布(Jeffreys prior distribution)の概要と具体例に関して取り扱いました。
「数理統計学 統計的推論の基礎(共立出版)」の第$12$章「ベイズ推論」の内容などを参考に、作成を行いました。
・参考
共役事前分布(Conjugate Prior Distribution)まとめ
Contents
ジェフリーズの事前分布の概要
概要
ジェフリーズの事前分布(Jeffreys prior distribution)はフィッシャー情報量を$I(\theta)$とおく際に、$\sqrt{I(\theta)}$に比例するように定義される事前分布である。
フィッシャー情報量
パラメータ$\theta$の確率分布から標本$\mathbf{x} = x_1, \cdots , x_n$が得られたとき、尤度を$L(\theta|\mathbf{x})$とおく。このときフィッシャー情報量$I(\theta)$は下記のように定められる。
$$
\large
\begin{align}
I(\theta) = E \left[ \left( \frac{\partial \log{L(\theta|\mathbf{X})}}{\partial \theta} \right)^{2} \right] = – E \left[ \frac{\partial^2 \log{L(\theta|\mathbf{X})}}{\partial \theta^2} \right]
\end{align}
$$
ジェフリーズ事前分布の具体例
二項分布$\mathrm{Bin}(n,p)$
確率変数$X$に関して$X \sim \mathrm{Bin}(n,p)$が成立するとき、尤度を$L(p|X)$とおくと$L(p|X), \log{L(p|X)}$下記のように表せる。
$$
\large
\begin{align}
L(p|X) &= {}_{n} C_{X} p^{X} (1-p)^{n-X} \\
\log{L(p|X)} &= X \log{p} + (n-X) \log{(1-p)} + \mathrm{Const.}
\end{align}
$$
ここで$\log{L(p|X)}$を$p$で偏微分すると下記が得られる。
$$
\large
\begin{align}
\frac{\partial \log{L(p|X)}}{\partial p} &= \frac{X}{p} – \frac{n-X}{1-p} \\
&= \frac{X(1-p) – p(n-X)}{p(1-p)} = \frac{X – \cancel{Xp} – np + \cancel{Xp})}{p(1-p)} \\
&= \frac{X – np}{p(1-p)}
\end{align}
$$
このときフィッシャー情報量$I(p)$は下記のように得られる。
$$
\large
\begin{align}
I(p) &= E \left[ \left( \frac{\partial \log{L(p|\mathbf{x})}}{\partial p} \right)^{2} \right] \\
&= E \left[ \left( \frac{X – np}{p(1-p)} \right)^{2} \right] \\
&= \frac{1}{p^2(1-p)^2} E[X^2 – 2npX + n^2p^2] \\
&= \frac{1}{p^2(1-p)^2} (V[X] + E[X]^2 -2npE[X] + n^2p^2) \\
&= \frac{1}{p^2(1-p)^2} (np(1-p) + \cancel{n^2p^2} -2 \cancel{n^2p^2} + \cancel{n^2p^2}) \\
&= \frac{n}{p(1-p)}
\end{align}
$$
よって$\displaystyle \sqrt{I(p)} = \sqrt{\frac{n}{p(1-p)}}$に比例する事前分布を考えれば良いが、二項分布の共役事前分布であるベータ分布を元に考えると、$\displaystyle \mathrm{Be} \left( \frac{1}{2},\frac{1}{2} \right)$がジェフリーズ事前分布に該当する。
「数理統計学 統計的推論の基礎(共立出版)」の例$12.5$の内容を参考に上記は作成を行ったので合わせて参照すると良い。
ポアソン分布$\mathrm{Po}(\lambda)$
確率変数$X_i$に関して$X_1, X_2, \cdots , X_n \sim \mathrm{Po}(\lambda), \quad \mathrm{i.i.d}.,$が成立するとき、$\mathrm{X}=X_1, \cdots , X_n$に関して尤度を$L(\lambda|\mathrm{X})$とおくと$L(\lambda|\mathrm{X}), \log{L(\lambda|\mathrm{X})}$は下記のように表せる。
$$
\large
\begin{align}
L(\lambda|\mathrm{X}) &= \prod_{i=1}^{n} \frac{\lambda^{X_i e^{-\lambda}}}{X_i} \\
&= \prod_{i=1}^{n} \exp{(X_i \log{\lambda} – \lambda – \log{X_i})} \\
&= \exp{\left[ \sum_{i=1}^{n} \left( X_i \log{\lambda} – \lambda – \log{X_i} \right) \right]} \\
\log{L(\lambda|\mathrm{X})} &= \log{ \left( \exp{\left[ \sum_{i=1}^{n} \left( X_i \log{\lambda} – \lambda – \log{X_i} \right) \right]} \right) } \\
&= \sum_{i=1}^{n} \left( X_i \log{\lambda} – \lambda – \log{X_i} \right)
\end{align}
$$
ここで$\log{L(\lambda|\mathrm{X})}$を$\lambda$で偏微分すると下記が得られる。
$$
\large
\begin{align}
\frac{\partial \log{L(\lambda|\mathrm{X})}}{\partial \lambda} &= \sum_{i=1}^{n} \left( \frac{X_i}{\lambda} – 1 \right) \\
\frac{\partial^2 \log{L(\lambda|\mathrm{X})}}{\partial \lambda^2} &= \sum_{i=1}^{n} \left( -\frac{X_i}{\lambda^2} \right)
\end{align}
$$
このときフィッシャー情報量$I(\lambda)$は下記のように得られる。
$$
\large
\begin{align}
I(\lambda) &= – E \left[ \frac{\partial^2 \log{L(\lambda|\mathbf{x})}}{\partial \theta^2} \right] \\
&= – E \left[ \sum_{i=1}^{n} \left( -\frac{X_i}{\lambda^2} \right) \right] \\
&= \frac{n}{\lambda^2} E[X_i^2] \\
&= \frac{n}{\lambda^2} \times \lambda \\
&= \frac{n}{\lambda}
\end{align}
$$
よって$\displaystyle \sqrt{I(\lambda)} = \sqrt{\frac{n}{\lambda}}$に比例するジェフリーズ事前分布に$1/\sqrt{\lambda}$を考えることができる。