バイアス・バリアンス分解と不偏推定量(unbiased estimator)

推測統計学における「推定」は「区間推定」と「点推定」にわけられるが、「点推定論」では「一様最小分散不偏推定量(UMVU; Uniformly Minimum Variance Unbiased estimator)」や「最尤推定量」について主に取り扱われる。
当記事では一様最小分散不偏推定量の構成要素の一つである不偏推定量に関して、バイアス・バリアンス分解の視点から確認を行う。
作成にあたっては「現代数理統計学(学術図書出版社)」の7.1節の「点推定論の枠組み」を参考にした。

不偏推定量の概要

点推定論」では「推定にあたっての計算方法」を表す「推定量(estimator)」と、「推定量の実現値」を表す「推定値(estimate)」の関係について主に取り扱う。「推定量」と「推定値」の区別は常に厳密に行う必要はないが、このように区別をすると便利であることが多い。
不偏推定量(unbiased estimator)」も同様に「推定量」と「推定値」の関係について取り扱うが、具体的には以下のような数式で表すことができる。
$$
\large
\begin{align}
E_{\theta}[ \hat{\theta}(X) ] = \theta, \quad {}^\forall \theta
\end{align}
$$
上記が成立する際に$\theta$が不偏推定量(unbiased estimator)であるという。

不偏推定量の解釈にあたっては、真のパラメータ$\theta$がどのような値を取っても$\hat{\theta}$の期待値が$\theta$に一致することを意味すると抑えておくと良い。

バイアス・バリアンス分解

不偏推定量の解釈について考えるにあたっては、不偏推定量以外の推定量も考えて評価を行うと良い。このとき、推定量$\hat{\theta}$のバイアス$b(\theta)$を下記のように定義する。
$$
\large
\begin{align}
b(\theta) = E_{\theta}[ \hat{\theta} ] – \theta
\end{align}
$$

上記で定義したバイアスについて考えるときはバイアス・バリアンス分解に基づいて考えると良い。バイアス・バリアンス分解は下記のように推定量$\hat{\theta}$とパラメータ$\theta$の平均二乗誤差の期待値$E[(\hat{\theta} – \theta)^2]$を分解する考え方である。
$$
\large
\begin{align}
E[(\hat{\theta} – \theta)^2] &= E[(\hat{\theta} – E[\hat{\theta}] + E[\hat{\theta}] – \theta)^2] \\
&= E[((\hat{\theta} – E[\hat{\theta}]) + (E[\hat{\theta}] – \theta))^2] \\
&= E[(\hat{\theta} – E[\hat{\theta}])^2] + E[(E[\hat{\theta}] – \theta)^2] + 2E[(\hat{\theta} – E[\hat{\theta}])(E[\hat{\theta}] – \theta)] \\
&= E[(\hat{\theta} – E[\hat{\theta}])^2] + (E[\hat{\theta}] – \theta)^2 + 2(E[\hat{\theta}] – \theta)E[\hat{\theta} – E[\hat{\theta}]] \\
&= E[(\hat{\theta} – E[\hat{\theta}])^2] + (E[\hat{\theta}] – \theta)^2 \\
&= V[\hat{\theta}] + b(\theta)^2
\end{align}
$$

上記の変形においては、期待値に関して下記が成立することを前提とした。
$$
\large
\begin{align}
E[\theta] &= \theta \\
E[E[\hat{\theta}]] &= E[\hat{\theta}] \\
E[\hat{\theta} – E[\hat{\theta}]] &= E[\hat{\theta}] – E[E[\hat{\theta}]] \\
&= E[\hat{\theta}] – E[\hat{\theta}] \\
&= 0
\end{align}
$$

ここで注意しておくと良いのが「現代数理統計学(学術図書出版社)」などでは$E[(\hat{\theta} – \theta)^2]$を$E_{\theta}[(\hat{\theta} – \theta)^2]$のように表す一方で、期待値を取る際の確率変数は変数$x$を考えることである。
$$
\large
\begin{align}
E_{\theta}[(\hat{\theta} – \theta)^2] = \int p_{\theta} (\hat{\theta} – \theta)^2 dx
\end{align}
$$
上記のように表せるように、$\theta$は確率分布のパラメータであり積分の変数ではないので、$E[\theta] = \theta$が成立する。

一方で、推定量$\hat{\theta}$に関しては$E[\hat{\theta}] = \hat{\theta}$のように変形することはできない。これは$\hat{\theta} = \delta(x)$のように、$\hat{\theta}$が$x$の関数であることに起因する。

このように表記がミスリードとなる場合があるので、期待値に関して考える際は積分を行う変数が何かは常に抑えておくのが良いと思われる。

バイアス・バリアンス分解と不偏推定量

バイアス・バリアンス分解の式において不偏推定量では$b(\theta) = E_{\theta}[ \hat{\theta} ] – \theta = 0$のようにバイアスが0になる。これより、不偏推定量$\hat{\theta}$を考える場合は下記の式が成立する。
$$
\large
\begin{align}
E \left[ (\hat{\theta} – \theta)^2 \right] = V \left[ \hat{\theta} \right]
\end{align}
$$

上記のように$\hat{\theta}$が不偏推定量である場合は分散が最小となる推定量が望ましい推定量となる。これを考えるにあたって一様最小分散不偏推定量(UMVU; Uniformly Minimum Variance Unbiased estimator)という考え方が導入される。

また、$\hat{\theta}$がバイアスを持つ場合も推定量を修正して$b(\theta)=0$とすることもできるが、推定する$\theta$は道でもあるためバイアスの修正は容易ではない。したがって、不偏推定量のみに絞って議論することは必ずしも望ましくなく、最尤法を代替に用いることも多い。

「バイアス・バリアンス分解と不偏推定量(unbiased estimator)」への2件のフィードバック

  1. […] https://www.hello-statisticians.com/explain-terms-cat/unbiased_estimator1.html上記のバイアス・バリアンス分解で確認したように、不偏推定量ではバイアス項が0となる。このとき不偏推定量は分散に一致するため、不偏推定量を考える際は分散を最小にする推定量が望ましい。このことを表す概念に一様最小分散不偏推定量(UMVU; Uniformly Minimum Variance Unbiased estimator)があるが、UMVUを示すにあたっては「クラメル・ラオの不等式を用いる方法」と「完備十分統計量を用いる方法」の二つがある。当記事では「クラメル・ラオの不等式」を用いたUMVUの判定について取り扱った。作成にあたっては「現代数理統計学(学術図書出版社)」の7.2節の「不偏推定量とフィッシャー情報量」を参考にした。 […]

  2. […] 推定論に基づく点推定に関しては「最尤推定」がよく用いられるが、推定論では「不偏推定」に関しても「最尤推定」に並んで重要トピックとされる。当記事ではクラメル・ラオの不等式などに基づいた、不偏推定量の取り扱いに関して演習形式で確認を行った。・バイアス・バリアンス分解と不偏推定量(unbiased estimator)https://www.hello-statisticians.com/explain-terms-cat/unbiased_estimator1.html […]

コメントは受け付けていません。