一様分布(uniform distribution)の不偏推定量・最尤推定量とその直感的な解釈

「点推定」を考える際に出てくる「不偏推定量」と「最尤推定量」はどちらも重要トピックである一方で、導出が複雑で抽象的な議論の際は解釈が難しいケースが多い。そこで当記事では具体例を考えるにあたって、「一様分布(uniform distribution)」の「不偏推定量」と「最尤推定量」について取り扱った。
作成にあたっては「現代数理統計学（学術図書出版社）」の6.3節の「完備十分統計量に基づく不偏推定量」や7.5節の「最尤推定量」を参考とした。

新装改訂版現代数理統計学

竹村彰通

2,970円(08/25 08:10時点)

Amazon

Contents

1 問題設定と直感的な解釈
- 1.1 一様分布の数式
- 1.2 標本から一様分布を推定するにあたって
2 最尤法を用いたパラメータ推定
3 ラオ・ブラックウェルの定理を用いた推定

問題設定と直感的な解釈

一様分布の数式

一様分布の$U[0,\theta]$の確率密度関数$f(x|\theta)$を下記のように考える。
$$
\large
\begin{align}
f(x|\theta) &= \frac{1}{\theta} \quad (0 \leq x \leq \theta) \\
f(x|\theta) &= 0 \quad (x < 0, \theta < x)
\end{align}
$$
上記において、$\theta > 0$は前提としたが、定義の話であるので単に「そのように定めた」と解釈すればよく、一般性は失われない。
また、一様分布の累積分布関数を$F(x)$とすると、$F(x)$は下記のように表すことができる。
$$
\large
\begin{align}
F(x) &= 0 \quad (x < 0) \\
F(x) &= \int_{0}^{x} \frac{1}{\theta} dX \quad (0 \leq x \leq \theta) \\
F(x) &= 0 \quad (\theta < x)
\end{align}
$$
上記において、$\displaystyle F(x) = \int_{0}^{x} \frac{1}{\theta} dX$は下記のように計算できる。
$$
\large
\begin{align}
F(x) &= \int_{0}^{x} \frac{1}{\theta} dX \\
&= \left[ \frac{X}{\theta} \right]_{0}^{x} \\
&= \frac{x}{\theta}
\end{align}
$$

標本から一様分布を推定するにあたって

母集団と標本を考えるとき、標本から母集団のパラメータを求めることを推定という。ここでは一様分布$U[0,\theta]$に沿って、標本$\mathbf{X} = (X_1, X_2, …, X_n)$が得られたと考える。
上記のように標本が得られた際に、母集団のパラメータ$\theta$をどのように考えれば良いかを考えるときに、標本が複数であることを鑑みて標本の最大値に着目することがまず考えられる。たとえば標本$\mathbf{X} = (X_1=3, X_2=2, X_3=6)$が得られたとき、$\theta$の値を考えるにあたっては$X_3=6$に着目するのが良いと思われる。が、$\hat{\theta}=6$のように$\theta$を導出して良いかについては難しいところで、標本が母集団から小さな値が偶然に観測されたと考えることもできる。

そう考えると、「単に最大値に着目すること自体は理にかなっている一方で、そのまま最大値を用いて良いかについては議論の余地がある」というのが客観的な見解であると思われる。標本が多い場合は最大値に近い値が$\theta$である傾向が比較的大きく、標本が少ない場合はその限りでないかもしれない。

さて、ここまでの問題設定に対し、「点推定」の考え方を当てはめることを考える。最尤法を用いて計算した推定量をLikelihoodより$\hat{\theta}_l$、不偏推定量の考え方を用いて計算した推定量をunbiasedより$\hat{\theta}_{ub}$とおくと、それぞれ下記のように導出される。
$$
\large
\begin{align}
\hat{\theta}_l &= max(X_1, X_2, …, X_n) \\
\hat{\theta}_{ub} &= \left( 1 + \frac{1}{n} \right) max(X_1, X_2, …, X_n)
\end{align}
$$
上記を確認すると「最尤推定量」は標本の最大値をそのまま用いており、「不偏推定量」は標本の最大値に補正をかけていることがわかる。標本の数を$n$とおいた。
「最尤推定量」と「不偏推定量」はどちらも$n \to \infty$のような標本の大きな際は同じ結果となる一方で、標本数が少ない場合は「最尤推定量」よりも「不偏推定量」の方が妥当な結果が得られるであろうことは推測できる。

ここで注意しておくと良いのが一様分布の例では「不偏推定量」の結果の方が良いように見えるが、これは「不偏推定量が最尤推定量よりも良い」という結論を導出するものではないことである。どちらの推定量も万能ではないので、それぞれ大まかな考え方を抑えつつ、活用していくのが良いと思われる。

最尤法を用いたパラメータ推定

標本$\mathbf{X} = (X_1, X_2, …, X_n)$に関する同時確率密度関数は下記のように表される。
$$
\large
\begin{align}
f(X_1, X_2, …, X_n|\theta) = \frac{1}{\theta^n} \quad (0 \leq x_1, x_2, …, x_n \leq \theta)
\end{align}
$$
上記において、$\displaystyle \frac{1}{\theta^n}$は$\theta$に関する単調減少関数であり、$\theta$の値が大きくなればなるほど$\displaystyle \frac{1}{\theta^n}$の値は小さくなる。最尤推定量は「同時確率密度関数＝尤度」を最大にするパラメータの値を求める手法であるので、$\theta$の値はなるべく小さな値が良いという結論になる。一方でここで注意が必要なのが、「$\theta$は観測された標本のどの値よりも小さくなってはならない」という制約が存在することである。
よって、「$\theta$は観測された標本のどの値よりも小さくなってはならない」かつ「単調減少関数$\displaystyle \frac{1}{\theta^n}$より$\theta$の値はなるべく小さな値が良い」を勘案し、$\theta$を標本の最大値で推定を行おうというのが最尤法を用いた一様分布のパラメータ推定である。
$$
\large
\begin{align}
\hat{\theta}_l &= max(X_1, X_2, …, X_n)
\end{align}
$$
数式で表すと上記のように表すことができる。正規分布やベルヌーイ分布などの最尤推定とは異なり、一様分布の最尤推定は「パラメータで微分した関数＝0」を解くわけではないことに注意が必要である。

ラオ・ブラックウェルの定理を用いた推定

以下では「現代数理統計学」の内容に基づいてラオ・ブラックウェルの定理を用いて不偏推定量の導出の確認を行なったが、議論がわかりにくい。一様分布の不偏推定量の導出に関しては下記の統計検定の解答の[3]の導出の方がシンプルで良いと思われる。
https://www.hello-statisticians.com/toukei-kentei-1/stat_math/stat_certifi_1_math_19_3.html

統計的決定理論における十分統計量

ラオ・ブラックウェルの定理は「統計的決定理論における十分統計量」を考える際に導入される。

先に「十分統計量」に関して確認を行う。「十分統計量」は「標本$\mathbf{X} = (X_1, X_2, …, X_n)$について知らなくても、十分統計量$T(\mathbf{X}) = T(X_1, X_2, …, X_n)$を知れば、未知のパラメータ$\theta$の推定には十分である統計量」と抑えておくとよい。

上記に対して「統計的決定理論」では十分統計量のみに依存する決定関数$\delta(T)$を考えることによって表す。詳細の設定は任意の「決定関数$\delta(\mathbf{X})$」に対して十分統計量の$T$のみに関係する「決定関数$\delta^{*}(T(\mathbf{X}))$」を定義し、双方の比較を行う。

このとき、「現代数理統計学」の6.2節の議論により、$\delta(\mathbf{X})$と$\delta^{*}(T(\mathbf{X}))$のリスクが同等となる$\delta^{*}(T(\mathbf{X}))$が存在することが示される。このことはリスク関数$R$を用いて下記のように表される。
$$
\large
\begin{align}
R(\theta, \delta) = R(\theta, \delta^{*}), \quad {}^{\forall} \theta \quad (1)
\end{align}
$$

(1)の式は、「十分統計量$t=T(\mathbf{X})$が与えられた際に、$t$が与えられた際の$\mathbf{X}$の条件付き分布に基づいて新たな確率変数$\tilde{\mathbf{X}}$を生成し、これに基づいて決定を行うと考える」ことに基づいて示すことができる。

また、(1)でリスク関数を考えたが、「現代数理統計学」5.1節において、リスク関数は下記のように定義される。
$$
\large
\begin{align}
R(\theta, \delta) = E[L(\theta, \delta(\mathbf{X}))] \quad (2)
\end{align}
$$

ここで(2)の$L(\theta, \delta(\mathbf{X}))$は損失関数であり、下記のような二乗誤差が損失関数の一例である。
$$
\large
\begin{align}
L(\theta, \delta(\mathbf{X})) = (\theta, \delta(\mathbf{X}))^2 \quad (3)
\end{align}
$$

ラオ・ブラックウェルの定理と不偏推定量

$$
\large
\begin{align}
\delta^{*}(T(\mathbf{X})) &= E[\delta(\mathbf{X})|T(\mathbf{X})] \quad (4) \\
&= \int \delta(\mathbf{X}) P(\mathbf{X}|T(\mathbf{X})) d \mathbf{X}
\end{align}
$$
上記のように決定関数$\delta(\mathbf{X})$の条件付き期待値$\delta^{*}(T(\mathbf{X}))$を考える。このとき前項の(3)式のように損失関数を考えると、リスク関数は下記のように平均二乗誤差となる。
$$
\large
\begin{align}
R(\theta, \delta) &= E[L(\theta, \delta(\mathbf{X}))] \\
&= E[(\theta – \delta(\mathbf{X}))^2]
\end{align}
$$

このとき、下記のラオ・ブラックウェルの定理が成立する。
$$
\large
\begin{align}
E[(\delta^{*}(T(\mathbf{X})) – \delta(\mathbf{X}))^2] \leq E[(\theta – \delta(\mathbf{X}))^2], \quad {}^{\forall} \theta \quad (5)
\end{align}
$$
また、等号は$P(\delta(\mathbf{X})=\delta^{*}(T(\mathbf{X}))=1$のとき成立する。

以下ではラオ・ブラックウェルの定理を用いて不偏推定量について考える。$\hat{\theta}(\mathbf{X})$を不偏推定量、$T(\mathbf{X})$を十分統計量とし、(4)式と同様に十分統計量$t=T(\mathbf{X})$に基づく推定量$\hat{\theta}^{*}(t)$を下記のように定義する。
$$
\large
\begin{align} \hat{\theta}^{*}(t) = E[\hat{\theta}(\mathbf{X})|T(\mathbf{X})=t]
\end{align}
$$

ここで期待値の繰り返しの公式より下記が成立する。
$$
\large
\begin{align}
\theta &= E[\hat{\theta}(\mathbf{X})] \\
&= E[E[\hat{\theta}(\mathbf{X})|t]] \\
&= E[\hat{\theta}^{*}(t)]
\end{align}
$$
上記より、$\hat{\theta}^{*}(t)$は不偏推定量であることがわかる。

一様分布の推定量の推定

以下では$X_1,X_2,…X_n \sim U[0,\theta], \quad i.i.d.,$における$X_1,X_2,…X_n$を用いた$\theta$の推定について考える。$E[X_1] = \theta/2$より、$\hat{\theta} = 2X_1$とおけば$\theta$は不偏推定量となる。

上記のように考えた$\hat{\theta}$は不偏推定量である一方で、$X_1$以外の観測値を無視しているという意味では不合理な推定量である。よって、ラオ・ブラックウェルの定理に基づいて$\hat{\theta}$の改善を行うことを考える。

ここで一様分布における十分統計量$t$は$t=T(X_1,X_2,…X_n)=\max{X_i}$で与えられるので、$t$が与えられた際の$X_1$の条件付き分布は下記のように与えられる。
$$
\large
\begin{align}
P(X_1=t|T(X_1,X_2,…X_n)=t) &= \frac{1}{n} \\
P(X_1 \leq x|T(X_1,X_2,…X_n)=t) &= \left( 1 – \frac{1}{n} \right) \frac{x}{t} \quad (0<x<t) \\
P(X_1 = x|T(X_1,X_2,…X_n)=t) &= \left( 1 – \frac{1}{n} \right) \frac{1}{t} \quad (0<x<t)
\end{align}
$$

上記は「現代数理統計学」の7.3節の式を表したが、3式目は2式目を$x$に関して微分することで導出した。1式目と3式目を用いて条件付き期待値$E[\hat{\theta}(\mathbf{X})|t]$を考えると下記のように求めることができる。
$$
\large
\begin{align}
E[\hat{\theta}(\mathbf{X})|t] &= 2E[X_1|T(X_1,X_2,…X_n)=t] \\
&= t \times P(X_1=t|T(X_1,X_2,…X_n)=t) + \int_{0}^{t} x \times P(X_1 = x|T(X_1,X_2,…X_n)=t) dx \\
&= 2 \left( t \times \frac{1}{n} + \int_{0}^{t} x \times \left( 1 – \frac{1}{n} \right) \frac{1}{t} dx \right) \\
&= 2 \left( \frac{t}{n} + \left[\left( 1 – \frac{1}{n} \right) \frac{x^2}{2t} \right]_{0}^{t} \right) \\
&= 2 \left( \frac{t}{n} + \left( 1 – \frac{1}{n} \right) \frac{t}{2} \right) \\
&= \frac{2t}{n} + t\left( 1 – \frac{1}{n} \right) \\
&= t + \frac{t}{n} \\
&= \left( 1 + \frac{1}{n} \right)t
\end{align}
$$

ここで、$\hat{\theta}^{*}(t)$は下記のように求めることができる。
$$
\large \begin{align} \hat{\theta}^{*}(t) &= E[\hat{\theta}(\mathbf{X})|t] \\
&= \left( 1 + \frac{1}{n} \right)t \\
&= \left( 1 + \frac{1}{n} \right) \max{X_i}
\end{align}
$$
ラオ・ブラックウェルの定理より、上記がリスク関数を最小にする不偏推定量となる。このとき、$\hat{\theta}^{*}(t)$を$\hat{\theta}_{ub}$とおいたのが、前節の推定量である。