不偏推定量〜クラメル・ラオの不等式、完備十分統計量〜|問題演習で理解する統計学【17】

推定論に基づく点推定に関しては「最尤推定」がよく用いられるが、推定論では「不偏推定」に関しても「最尤推定」に並んで重要トピックとされる。当記事ではクラメル・ラオの不等式などに基づいた、不偏推定量の取り扱いに関して演習形式で確認を行った。
・バイアス・バリアンス分解と不偏推定量(unbiased estimator)
https://www.hello-statisticians.com/explain-terms-cat/unbiased_estimator1.html

・クラメルラオの不等式を用いた一様最小分散不偏推定量(UMVU estimator)の判定
https://www.hello-statisticians.com/explain-terms-cat/unbiased_estimator2.html

・一様分布(uniform distribution)の不偏推定量・最尤推定量
https://www.hello-statisticians.com/explain-terms-cat/uniform_dist1.html

基本問題

ポアソン分布とクラメル・ラオの不等式

・問題
$X_1, X_2, …, X_n \sim Po(\lambda), i.i.d.,$で表されるように、確率変数列$X_1,…,X_n$がそれぞれ独立にポアソン分布$Po(\lambda)$に従う場合を考える。このとき、確率関数$P(X_i=x_i|\lambda)$は下記のように表される。
$$
\begin{align}
P(X_i=x_i|\lambda) = \frac{\lambda^{x_i} \exp (-\lambda)}{x_i!}
\end{align}
$$

このとき、同時確率$P(X_1=x_1,…X_n|\lambda)$を$\lambda$に関する尤度$L(\lambda)$と考えると、対数尤度の$\log{L(\lambda)}$は下記のように表すことができる。
$$
\begin{align}
\log{L(\lambda)} &= \log{P(X_1=x_1,…X_n|\lambda)} \\
&= \sum_{i=1}^{n} \log{ P(X_i=x_i|\lambda) } \\
&= \sum_{i=1}^{n} (x_i \log{\lambda} – \lambda – \log{x_i!})
\end{align}
$$
上記の詳しい導出は下記で取り扱った。
https://www.hello-statisticians.com/practice/stat_practice16.html#i-5

ここで、「現代数理統計学」の(7.26)式より、フィッシャー情報量$\mathit{I}_n(\lambda)$は下記のように定義される。
$$
\begin{align}
\mathit{I}_n(\lambda) = E \left[ -\frac{\partial^2}{\partial \lambda^2} \log{L(\lambda)} \right]
\end{align}
$$

ここまでの内容を元に、下記の問いに答えよ。
i) $\displaystyle \frac{\partial}{\partial \lambda} \log{L(\lambda)}$を計算せよ。
ⅱ) $\displaystyle \frac{\partial^2}{\partial \lambda^2} \log{L(\lambda)}$を計算せよ。
ⅲ) $\displaystyle \mathit{I}_n(\lambda) = E \left[ – \frac{\partial^2}{\partial \lambda^2} \log{L(\lambda)} \right]$を計算せよ。
iv) $\displaystyle V[\bar{X}] = \frac{1}{n}V[X]$を利用して、$V[\bar{X}]$を求めよ。
v) $\lambda$の推定量に$\hat{\lambda} = \bar{X}$を考えるとき、下記が成立すれば$\bar{X}$は$\lambda$の一様最小分散不偏推定量となる。
$$
\begin{align}
V[\bar{X}] = \frac{1}{\mathit{I}_n(\lambda)} \quad (1)
\end{align}
$$
ここでiv)で求めた$V[\bar{X}]$に対して、(1)式が成立することを示せ。

・解答
i) $\displaystyle \frac{\partial}{\partial \lambda} \log{L(\lambda)}$は下記のように計算できる。
$$
\large
\begin{align}
\frac{\partial}{\partial \lambda} \log{L(\lambda)} &= \frac{\partial}{\partial \lambda} \sum_{i=1}^{n} (x_i \log{\lambda} – \lambda – \log{x_i!}) \\
&= \sum_{i=1}^{n} \left( \frac{x_i}{\lambda} – 1 \right)
\end{align}
$$

ⅱ) $\displaystyle \frac{\partial^2}{\partial \lambda^2} \log{L(\lambda)}$は下記のように計算できる。
$$
\large
\begin{align}
\frac{\partial^2}{\partial \lambda^2} \log{L(\lambda)}
&= \frac{\partial}{\partial \lambda} \sum_{i=1}^{n} \left( \frac{x_i}{\lambda} – 1 \right) \\
&= -\sum_{i=1}^{n} \left( \frac{x_i}{\lambda^2} \right)
\end{align}
$$

ⅲ) $\displaystyle \mathit{I}_n(\lambda) = E \left[ – \frac{\partial^2}{\partial \lambda^2} \log{L(\lambda)} \right]$は下記のように計算できる。
$$
\large
\begin{align}
\mathit{I}_n(\lambda) &= E \left[ – \frac{\partial^2}{\partial \lambda^2} \log{L(\lambda)} \right] \\
&= E \left[ (-1) \times -\sum_{i=1}^{n} \left( \frac{x_i}{\lambda^2} \right) \right] \\
&= E \left[ \sum_{i=1}^{n} \left( \frac{x_i}{\lambda^2} \right) \right] \\
&= E \left[ \frac{1}{\lambda^2} \sum_{i=1}^{n} x_i \right] \\
&= \frac{nE[X]}{\lambda^2} \\
&= \frac{n \lambda}{\lambda^2} \\
&= \frac{n}{\lambda}
\end{align}
$$

iv)
$\displaystyle V[\bar{X}] = \frac{1}{n}V[X]$に基づいて、$V[\bar{X}]$は下記のように計算することができる。
$$
\large
\begin{align}
V[\bar{X}] &= \frac{1}{n}V[X] \\
&= \frac{\lambda}{n}
\end{align}
$$

v)
$$
\large
\begin{align}
\frac{1}{\mathit{I}_n(\lambda)} &= \frac{1}{n / \lambda} \\
&= \frac{\lambda}{n}
\end{align}
$$
上記より、(1)式が成立することが確認できる。

・解説
v)で確認した(1)式はクラメル・ラオの不等式を等式だけ抜き出したもので、実際はパラメータ$\theta$に関するクラメル・ラオの不等式は下記のような不等式で表されます。
$$
\large
\begin{align}
V[\hat{\theta}] \geq \frac{1}{\mathit{I}_n(\theta)}
\end{align}
$$
推定量$\hat{\theta}$が一様最小分散不偏推定量である場合、上記において等号が成立し、この問題では等号が成立する場合について取り扱いを行いました。

フィッシャー情報量の定義とその変形

・問題
クラメル・ラオの不等式を考える際に、パラメータの対数尤度からフィッシャー情報量を計算し、推定量の分散と比較を行うが、フィッシャー情報量の表記が様々あるので、大元の式定義から他の式の導出の確認をしておくとよい。ここでは「現代数理統計学」の(7.6)式の変形を確認する。

観測値$x_1,x_2,…,x_n$に関するパラメータ$\theta$のフィッシャー情報量を$\mathit{I}_{n}(\theta)$、同時確率分布を$P(x_1,x_2,…,x_n|\theta)$とおくと、$\mathit{I}_{n}(\theta)$は「現代数理統計学」の(7.6)式に基づいて下記のように表すことができる。
$$
\begin{align}
\mathit{I}_{n}(\theta) = E \left[ \left( \frac{\partial \log{P(x_1,x_2,…,x_n|\theta)}}{\partial \theta} \right)^2 \right] \quad (1)
\end{align}
$$

ここまでを元に下記の問いに答えよ。
i) 合成関数の微分の公式に基づいて下記が成立することを示せ。
$$
\begin{align}
\frac{\partial \log{P(x_1,x_2,…,x_n|\theta)}}{\partial \theta} = \frac{1}{P(x_1,x_2,…,x_n|\theta)} \times \frac{\partial P(x_1,x_2,…,x_n|\theta)}{\partial \theta}
\end{align}
$$
ⅱ) i)の結果と期待値の定義に基づいて、(1)式に関して下記が成立することを示せ。
$$
\begin{align}
\mathit{I}_{n}(\theta) &= E \left[ \left( \frac{\partial \log{P(x_1,x_2,…,x_n|\theta)}}{\partial \theta} \right)^2 \right] \\
&= \int\int…\int \frac{1}{P(x_1,x_2,…,x_n|\theta)} \times \left( \frac{\partial P(x_1,x_2,…,x_n|\theta)}{\partial \theta} \right)^2 dx_1dx_2…dx_n
\end{align}
$$
ⅲ) i)の式の右辺を下記のように表す。
$$
\begin{align}
l'(\theta) = \left( \frac{1}{P(x_1,x_2,…,x_n|\theta)} \times \frac{\partial P(x_1,x_2,…,x_n|\theta)}{\partial \theta} \right)
\end{align}
$$
このとき、$\displaystyle l^{”}(\theta) = \frac{\partial}{\partial \theta} l'(\theta)$が下記のように計算できることを示せ。
$$
\begin{align}
l^{”}(\theta) &= \frac{\partial^2 P(x_1,x_2,…,x_n|\theta) / \partial \theta^2}{P(x_1,x_2,…,x_n|\theta)} – \left( \frac{\partial P(x_1,x_2,…,x_n|\theta) / \partial \theta}{P(x_1,x_2,…,x_n|\theta)} \right)^2
\end{align}
$$
iv) ⅲ)に基づいて$E[l^{”}(\theta)]$を計算すると、下記の結果に一致することを示せ。
$$
\begin{align}
E[l^{”}(\theta)] = \int \int … \int \frac{\partial^2 P(x_1,x_2,…,x_n|\theta) / \partial \theta^2}{P(x_1,x_2,…,x_n|\theta)} dx_1dx_2…d_n – \mathit{I}_{n}(\theta)
\end{align}
$$
v) $\displaystyle \int \int … \int \frac{\partial^2 P(x_1,x_2,…,x_n|\theta) / \partial \theta^2}{P(x_1,x_2,…,x_n|\theta)} dx_1dx_2…d_n = 0$が成立する際に、$E[-l^{”}(\theta)] = \mathit{I}_{n}(\theta)$が成立することを確認せよ。

・解答
i)
$u = P(x_1,x_2,…,x_n|\theta), y = \log{P(x_1,x_2,…,x_n|\theta)}$とおくと、$y = \log{P(x_1,x_2,…,x_n|\theta)} = \log{u}$が成立する。このとき、合成関数の微分の公式より、$\displaystyle \frac{\partial y}{\partial \theta} = \frac{\partial \log{P(x_1,x_2,…,x_n|\theta)}}{\partial \theta}$は下記のように計算できる。
$$
\large
\begin{align}
\frac{\partial \log{P(x_1,x_2,…,x_n|\theta)}}{\partial \theta} &= \frac{\partial y}{\partial \theta} \\
&= \frac{\partial y}{\partial u} \cdot \frac{\partial u}{\partial \theta} \\
&= \frac{\partial \log{u}}{\partial u} \cdot \frac{\partial P(x_1,x_2,…,x_n|\theta)}{\partial \theta} \\
&= \frac{1}{u} \times \frac{\partial P(x_1,x_2,…,x_n|\theta)}{\partial \theta} \\
&= \frac{1}{P(x_1,x_2,…,x_n|\theta)} \times \frac{\partial P(x_1,x_2,…,x_n|\theta)}{\partial \theta}
\end{align}
$$

ⅱ)
$$
\large
\begin{align}
& E \left[ \left( \frac{\partial \log{P(x_1,x_2,…,x_n|\theta)}}{\partial \theta} \right)^2 \right] \\
&= \int\int…\int \left( \frac{\partial \log{P(x_1,x_2,…,x_n|\theta)}}{\partial \theta} \right)^2 \times P(x_1,x_2,…,x_n|\theta) dx_1dx_2…dx_n
\end{align}
$$
期待値の定義より、上記のように表すことができる。この式にi)の式を代入すると、下記のように導出できる。
$$
\large
\begin{align}
& E \left[ \left( \frac{\partial \log{P(x_1,x_2,…,x_n|\theta)}}{\partial \theta} \right)^2 \right] \\
&= \int\int…\int \left( \frac{\partial \log{P(x_1,x_2,…,x_n|\theta)}}{\partial \theta} \right)^2 \times P(x_1,x_2,…,x_n|\theta) dx_1dx_2…dx_n \\
&= \int\int…\int \left( \frac{1}{P(x_1,x_2,…,x_n|\theta)} \times \frac{\partial P(x_1,x_2,…,x_n|\theta)}{\partial \theta} \right)^2 \times P(x_1,x_2,…,x_n|\theta) dx_1dx_2…dx_n \\
&= \int\int…\int \frac{1}{P(x_1,x_2,…,x_n|\theta)} \times \left( \frac{\partial P(x_1,x_2,…,x_n|\theta)}{\partial \theta} \right)^2 dx_1dx_2…dx_n
\end{align}
$$

ⅲ)
$$
\large
\begin{align}
f(\theta) &= P(x_1,x_2,…,x_n|\theta) \\
f'(\theta) &= \frac{\partial}{\partial \theta} P(x_1,x_2,…,x_n|\theta)
\end{align}
$$
表記の簡略化にあたって、上記のように$f(\theta), f'(\theta)$を考える。このとき商の導関数の公式より、$l^{”}(\theta)$は下記のように計算できる。
$$
\large
\begin{align}
l^{”}(\theta) &= \left( \frac{f'(\theta)}{f(\theta)} \right)’ \\
&= \frac{f^{”}(\theta)f(\theta) – f'(\theta)f'(\theta)}{(f(\theta))^2} \\
&= \frac{f^{”}(\theta)}{f(\theta)} – \frac{(f'(\theta))^2}{(f(\theta))^2} \\
&= \frac{f^{”}(\theta)}{f(\theta)} – \left( \frac{f'(\theta)}{f(\theta)} \right)^2 \\
&= \frac{\partial^2 P(x_1,x_2,…,x_n|\theta) / \partial \theta^2}{P(x_1,x_2,…,x_n|\theta)} – \left( \frac{\partial P(x_1,x_2,…,x_n|\theta) / \partial \theta}{P(x_1,x_2,…,x_n|\theta)} \right)^2
\end{align}
$$

iv)
ⅱ)の結果に基づき考えることで、積分を行った際の第2項が$- \mathit{I}_{n}(\theta)$に一致することが確認できる。

v)
iv)の式に$\displaystyle \int \int … \int \frac{\partial^2 P(x_1,x_2,…,x_n|\theta) / \partial \theta^2}{P(x_1,x_2,…,x_n|\theta)} dx_1dx_2…d_n = 0$を代入すると、$E[-l^{”}(\theta)] = \mathit{I}_{n}(\theta)$が成立することが確認できる。


・解説
v)より、前問で用いた$E[-l^{”}(\theta)] = \mathit{I}_{n}(\theta)$を導出することができたことは抑えておくと良いです。同時確率などに関しての定義に基づく式表記が略記が多いことから、$P(x_1,x_2,…,x_n|\theta)$などを用いましたが、i)〜ⅲ)の計算表記が複雑に思われたため、ⅲ)では$f(\theta), f'(\theta)$を用いて置き換えることで、商の導関数の公式をそのまま用いることができるように工夫を行いました。
このように、定義に基づく式表記と計算にあたって用いやすい表記が異なる場合があるので、目的に応じて使い分けられるようにしておくと良いと思います。

バイアス・バリアンス分解と不偏推定量

・問題
母集団分布のパラメータ$\theta$の推定量を$\hat{\theta}$と考える。このとき、下記が成立すれば「推定量$\hat{\theta}$が不偏推定量である」と考えることができる。
$$
\begin{align}
E[\hat{\theta}] = \theta \quad (1)
\end{align}
$$

ここで、推定量に関しては「現代数理統計学」の7.1節の記載に基づき、推定量(estimator)は確率変数と考え、その実際の値を推定値(estimate)とそれぞれ区別することとする。よって、推定量$\hat{\theta}$は確率変数列$X_1,…,X_n$の関数の表記で下記のように表すことを考える。
$$
\begin{align}
\hat{\theta} = \hat{\theta}(X_1,X_2,…,X_n)
\end{align}
$$

以下、ここで定義した不偏推定量のバイアス・バリアンス分解について考える。以下の問いに答えよ。
i) ポアソン分布の$n$回試行に関連して確率変数列が$X_1,…,X_n \sim Po(\lambda), i.i.d.$のように与えられる場合を考える。
このとき$\lambda$の推定値を$\displaystyle \hat{\lambda} = \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$とすれば、$E[X_1]=\lambda$より、不偏推定量の式(1)を用いて$\bar{X}$が不偏推定量であることを示せ。
ⅱ) 下記のように推定量$\hat{\theta}$とパラメータ$\theta$の平均二乗誤差に関して考える。
$$
\begin{align}
E \left[ \left( \hat{\theta} – \theta \right)^2 \right]
\end{align}
$$
このとき、平均二乗誤差に関して下記が成立することを確認せよ。
$$
\begin{align}
E \left[ \left( \hat{\theta} – \theta \right)^2 \right] = E \left[ \left( \hat{\theta} – E[\hat{\theta}] \right)^2 \right] + E \left[ \left( E[\hat{\theta}] – \theta \right)^2 \right] + 2\left( E[\hat{\theta}] – \theta \right) E \left[ \hat{\theta} – E[\hat{\theta}] \right]
\end{align}
$$
ⅲ) ⅱ)式に関して$\hat{\theta}$が不偏推定量であることを仮定しなくても$\displaystyle 2\left( E[\hat{\theta}] – \theta \right) E \left[ \hat{\theta} – E[\hat{\theta}] \right]=0$とできることを示せ。
iv) ⅱ)とⅲ)に対して、推定量$\hat{\theta}$の分散を$V[\hat{\theta}]$、推定量$\hat{\theta}$のバイアスを$b(\theta)$を定義し、下記のバイアス・バリアンス分解の式を導け。
$$
\begin{align}
E \left[ \left( \hat{\theta} – \theta \right)^2 \right] = V[\hat{\theta}] + b(\theta)^2 \quad (2)
\end{align}
$$
v) (2)式で$\hat{\theta}$が不偏推定量であれば$b(\theta)=0$となり、下記が成立する。
$$
\begin{align}
E \left[ \left( \hat{\theta} – \theta \right)^2 \right] = V[\hat{\theta}] \quad (3)
\end{align}
$$
(3)式に関連して一様最小分散不偏推定量(UMVU)の定義を記せ。

・解答
i)
$E[\hat{\lambda}] = E[\bar{X}] = \lambda$が成立することを確認すれば良い。
$$
\large
\begin{align}
E \left[ \hat{\lambda} \right] &= E \left[ \bar{X} \right] \\
&= E \left[ \frac{1}{n} \sum_{i=1}^{n} X_i \right] \\
&= \frac{1}{n} E \left[ \sum_{i=1}^{n} X_i \right] \\
&= \frac{1}{n} \sum_{i=1}^{n} E[X_i] \\
&= \frac{n \lambda}{n} \\
&= \lambda
\end{align}
$$
上記より、推定量$\hat{\lambda}=\bar{X}$は$\lambda$の不偏推定量である。

ⅱ)
$\hat{\theta} – \theta = (\hat{\theta} – E[\hat{\theta}]) + (E[\hat{\theta}] – \theta)$が成立することを利用し、$E[(\hat{\theta} – \theta)^2]$を計算する。
$$
\large
\begin{align}
E[(\hat{\theta} – \theta)^2] &= E[((\hat{\theta} – E[\hat{\theta}]) + (E[\hat{\theta}] – \theta))^2] \\
&= E \left[ \left( \hat{\theta} – E[\hat{\theta}] \right)^2 \right] + E \left[ \left( E[\hat{\theta}] – \theta \right)^2 \right] + 2\left( E[\hat{\theta}] – \theta \right) E \left[ \hat{\theta} – E[\hat{\theta}] \right]
\end{align}
$$

ⅲ)
$$
\large
\begin{align}
E[E[\hat{\theta}]] &= E[\hat{\theta}] \\
E[\hat{\theta} – E[\hat{\theta}]] &= E[\hat{\theta}] – E[E[\hat{\theta}]] \\
&= E[\hat{\theta}] – E[\hat{\theta}] \\
&= 0
\end{align}
$$
上記が成立するので、$\displaystyle 2\left( E[\hat{\theta}] – \theta \right) E \left[ \hat{\theta} – E[\hat{\theta}] \right] = 0$が成立する。

iv)
$$
\large
\begin{align}
V[\hat{\theta}] &= E \left[ \left( \hat{\theta} – E[\hat{\theta}] \right)^2 \right] \\
b(\theta) &= E[\hat{\theta}] – \theta
\end{align}
$$
上記のように$V[\hat{\theta}], b(\theta)$を定義し、ⅱ)式に代入し、ⅲ)式を用いれば(2)のバイアス・バリアンス分解の式を導出することができる。

v)
$\hat{\theta}$が不偏推定量の場合、不偏推定量の定義より、$b(\theta) = E[\hat{\theta}] – \theta$が成立する。よって、平均二乗誤差について下記が成立する。
$$
\large
\begin{align}
E \left[ \left( \hat{\theta} – \theta \right)^2 \right] = V[\hat{\theta}] + b(\theta)^2
\end{align}
$$
上記を解釈すると、不偏推定量に限れば分散を最小にする推定量が望ましいと考えられる。よって、下記のように一様最小分散不偏推定量$\hat{\theta}^{*}$を定義する。
$$
\large
\begin{align} V[\hat{\theta}^{*}] \leq V[\hat{\theta}], \quad {}^{\forall} \theta
\end{align}
$$

・解説
ⅲ)の結果に関しては、不偏推定量の場合は、定義より$E[\hat{\theta}] – \theta = 0$を用いることもできることは抑えておくと良いです。一方で、バイアス・バリアンス分解はバイアス項が必ずしも$0$ではない前提で考えることから、ここでは不偏性が前提ではないことは注意しておくと良いです。
$$
\large
\begin{align}
V[\hat{\theta}] &= E \left[ \left( \hat{\theta} – E[\hat{\theta}] \right)^2 \right] \\
b(\theta) &= E[\hat{\theta}] – \theta
\end{align}
$$

また、クラメル・ラオの不等式はv)で確認した一様最小分散不偏推定量であることを示すにあたって用いられることも改めて抑えておくと良いと思います。

発展問題

クラメル・ラオの不等式とフィッシャー情報量

・問題
・解答
・解説

完備十分統計量に基づく十分統計量

・問題
・解答
・解説