推測統計を理解するにあたって知っておきたい点推定(point estimation)まとめ

点推定(point estimation)は観測値から推定値を求めることであるが、パターンが決まっている区間推定に比べて考えることが多く、詳しく理解しようとするとなかなか難しい。そこで当記事では点推定の基本的なトピックについてまとめることとした。
作成にあたっては、「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の11.1節〜11.4節を主に参考にした。

前提の整理

推定について

統計学の確率論との大きな違いの一つに、母集団の確率分布を決める定数である母数(parameter)を推定するかしないかが挙げられる。たとえば何らかの現象が正規分布$N(\mu,\sigma^2)$に従うことがわかっていても、$\mu$や$\sigma^2$のある程度の値がわからなければ意味がない。

推測統計学では実際の問題では未知である母集団の母数を標本$X_1, X_2, …, X_n$から求めることを行うが、このことを「母数の推定」と呼ぶ。また、標本平均$\bar{X}$や不偏標本分散$s^2$のように、母数を推定するにあたって標本から求めた統計量を一般に推定量(estimator)という。

実際の推定にあたっては母数を考えるにあたって母平均$\mu$や母分散$\sigma^2$のようにそれぞれに文字を与えるが、より一般的に議論する場合はこれらを総称して$\theta$とおくことは抑えておく必要がある。
また、母平均や母分散のような母数と標本から求める推定量は意味的に異なるため、それぞれ$\theta$と$\hat{\theta}$のように区別する。たとえば$\theta$が母平均のとき、$\theta$を推定するにあたって標本平均を下記のように表す。
$$
\begin{align}
\hat{\theta} = \frac{X_1+X_2+…+X_n}{n}
\end{align}
$$
一般的に$\hat{\theta}$は標本$X_1, X_2, …, X_n$の関数であるが、このことを特に強調するにあたって$\hat{\theta}(X_1, X_2, …, X_n)$のように表記することもある。また、複数の母数を同時に考える場合は母数$\theta_1, \theta_2, …, \theta_k$に関して、推定量$\hat{\theta}_1, \hat{\theta}_2, …, \hat{\theta}_k$のように表記することができる。

点推定と区間推定

点推定(point estimation)と区間推定(interval estimation)についてそれぞれ簡単にまとめると下記のようになる。

・点推定:母集団の未知の母数$\theta$をある一つの値$\hat{\theta}$で推定する方法
・区間推定:母数$\theta$の入る確率がある値(95%以上など)以上と保証される区間を求める方法

当記事のテーマは点推定であるので、以下点推定についてのみ確認する。点推定にあたっては、標本平均$\bar{X}$で母平均$\mu$の推定をするように、$\hat{\theta}$は$X_1, X_2, …, X_n$の関数となる。
この関数が推定量であるが、推定量$\hat{\theta}$が母数の$\theta$に一致せず、実際の推定にはなにがしかの誤差を伴うことを理解しておかねばならない。このような誤差を議論するにあたって、不偏推定量や一致推定量などの基準が出てくる。

点推定の考え方とその手順

推定量と推定値

少々紛らわしいが、推定量(estimator)はあくまで計算式の定義に用いられ、実際の標本の値に基づいて数字を計算した値は推定値(estimate)と呼ばれる。
$$
\begin{align}
\bar{X} = \frac{X_1+X_2+…+X_n}{n}
\end{align}
$$
たとえば上記のように確率変数$X_1$〜$X_n$に基づいて推定量を考えた際に、$X_1=x_1$〜$X_n=x_n$が標本で与えられて計算した値が推定値である。実際に観測されたサンプルから計算するのは推定値であり、推定量の取り得る値の一つが実現したと考えると良い。

ここで、どのような推定量を考えるかが重要であり、推定量の候補は多数存在する。この時に、計算される推定値をいかに真の母数の値に近いものにするかを考える基準が必要になるので、「点推定の基準」で後述する。

点推定の手順

モーメント法

モーメント法(method of moments)は母集団の1次モーメント$\mu_1$と2次モーメント$\mu_2$などを考えることによって、母数の推定を行う手法である。ここで標本からの推定量の$\hat{\mu}_1$と$\hat{\mu}_2$を下記のように考えることとする。
$$
\begin{align}
\hat{\mu}_1 &= \frac{1}{n} \sum_{i=1}^{n} X_i \\
\hat{\mu}_2 &= \frac{1}{n} \sum_{i=1}^{n} X_i^2
\end{align}
$$
ここで下記のように母モーメント$\mu_1$、$\mu_2$と標本モーメント$\hat{\mu}1$、$\hat{\mu}_2$がそれぞれ等しいと考える。
$$
\begin{align}
\mu_1 &= \hat{\mu}_1 \\
\mu_2 &= \hat{\mu}_2 \qquad (1)
\end{align}
$$
また、母モーメント$\mu_1$、$\mu_2$については下記が成立する。
$$
\begin{align}
\mu_1 &= \mu \\
\mu_2 &= \sigma^2+\mu^2 \qquad (2)
\end{align}
$$
$\mu_2 = \sigma^2 + \mu^2$は$\sigma^2 = E[X^2]-E[X]^2 = \mu_2-\mu^2$に基づいて導出が行える。ここまでの話に基づいて、$\mu$と$\sigma^2$の推定量$\hat{\mu}$と$\hat{\sigma^2}$は$(1)$式と$(2)$式より下記のように求めることができる。
$$
\begin{align}
\hat{\mu} &= \hat{\mu}_1 \\
&= \frac{1}{n} \sum{i=1}^{n} X_i \\
\hat{\sigma^2} &= \hat{\mu}_2 – \hat{\mu}^2 \\
&= \frac{1}{n} \sum_{i=1}^{n} X_i^2 – \left( \frac{1}{n} \sum_{i=1}^{n} X_i \right)^2 \\
&= \frac{1}{n} \sum_{i=1}^{n} (X_i-\bar{X})^2
\end{align}
$$

最尤法

最尤法は「現実の標本は確率最大のものが実現した」という仮定を用いた、最尤原理(principle of maximum likelihood)という考え方に基づく。
詳しくは下記でまとめたのでここでは省略する。
https://www.amazon.co.jp/dp/B08FYMTYBW/

点推定の基準

推定量(estimator)は一つと限らず、複数考えることができる。たとえば正規分布$N(\theta,\sigma^2)$について考えた際に、平均値の母数$\theta$を求めたいとする。このとき$\theta$を求めるにあたっては記述統計の代表値的な考え方に基づいて、いくつか推定方法がある。

・標本平均
・メディアン

代表値を求めるにあたっては標本平均とメディアンを求めるのが一般的である。これらはどれも母数$\theta$を考えるにあたっての推定量の候補となり得る。

このように一つの母数に関して推定量をいくつか考えることができるので、「どのような推定量を選ぶのが良いのか」に関する基準が必要となる。以下、4つの基準の「不偏性」、「一致性」、「漸近正規性」、「有効性」についてそれぞれ紹介する。

不偏性

「推定量$\hat{\theta}$が母数$\theta$の周辺に散布していなければならない」と考える際の基準の一つが不偏性である。不偏性は「推定量の期待値が母数の値となるか」について考える指標で、数式で表すと下記のようになる。
$$
\begin{align}
E[ \hat{\theta} ] = \theta
\end{align}
$$
上記が成り立つ推定量を不偏推定量(unbiased estimator)と呼ぶ。以下、標本平均、標本分散に関して不偏性を考える。
$$
\begin{align}
\bar{X} = \frac{1}{n}(X_1+X_2+…+X_n)
\end{align}
$$
上記のように定義した標本平均は$E[\bar{X}] = \mu$が成立するので母平均の不偏推定量である。

次に標本分散について考える。
$$
\begin{align}
s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i-\bar{X})^2
\end{align}
$$
上記のように定義した不偏標本分散に対して$E[ s^2 ] = \sigma^2$が成立するので、$s^2$が母分散の不偏推定量となる。

ここまで不偏推定量について確認したが、一般的に不偏でない推定量を用いることは偏りのある推定量を求めることになるので、望ましくないと考えておくと良い。

一致性

一致性は標本の大きさの$n$が大きくなるにしたがって、$n$によって変化する推定量$\hat{\theta}_n$が真の母数の値$\theta$に近づく性質である。これを数式で表すと以下のようになる。
$$
\begin{align}
\lim_{n \to \infty} P(|\hat{\theta}_n-\theta| > \epsilon) = 0 \qquad ({}^\forall \epsilon \in \mathbb{R})
\end{align}
$$
上記が成立する際に推定量$\hat{\theta}_n$を一致推定量(consistent estimator)と呼ぶ。確率収束の表記で表すこともあるがやや難しいのでここでは省略するものとする。
また、一致推定量を考えるにあたっては、標本平均$\bar{X}$が$n$が大きくなった際に「大数の法則」により母平均$\mu$の一致推定量となることを元に理解しておくとイメージがつかみやすい。

推定量を考えるにあたっては不偏性と一致性が最低限成立しなくてはならないことを抑えておくと良い。

漸近正規性

漸近正規性(asymptotic normality)は、「$n \to \infty$の際の漸近分布が中心極限定理を用いて正規分布となること」を意味する。中心極限定理を用いることで、標本平均$\bar{X}$の漸近分布が母集団分布に関係なく$N(\mu, \sigma^2/n)$になるが、このようなイメージで把握しておくと良い。

有効性

一つの母数に対して二つの推定量$\hat{\theta}$と$\tilde{\theta}$を考えた際に、どちらも「不偏推定量」かつ「一致推定量」であるとする。この際に不偏推定量は$E[\hat{\theta}] = \mu$、$E[\tilde{\theta}] = \mu$であるので、二つの推定量のうち分散が小さい方がより望ましい推定量であると考えることができる。
ここでいかなる不偏推定量よりも分散が小さい推定量が存在すれば、非常に望ましい推定量であるといえ、これを有効推定量(efficient estimator)や最小分散不偏推定量(minimum variance unbiased estimator)と呼ぶ。

具体的には、母集団分布が$N(\mu, \sigma^2)$の正規分布である場合は標本平均$\bar{X}$が$\mu$の有効推定量であるということが知られている。

点推定の例

正規分布に関する推定

詳しくは下記でまとめたのでここでは省略する。
https://www.amazon.co.jp/dp/B08FYMTYBW/

二項分布に関する推定

詳しくは下記でまとめたのでここでは省略する。
https://www.amazon.co.jp/dp/B08FYMTYBW/

ポアソン分布に関する推定

詳しくは下記でまとめたのでここでは省略する。
https://www.amazon.co.jp/dp/B08FYMTYBW/

一様分布に関する推定

ノンパラメトリックの場合

まとめ

当記事では点推定(point estimation)についてまとめました。「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の11.1節〜11.4節の記載が秀逸でしたので、詳しく確認したい方はこちらなどを参照すると良いと思います。

「推測統計を理解するにあたって知っておきたい点推定(point estimation)まとめ」への2件のフィードバック

  1. […] 「点推定」を考える際に出てくる「不偏推定量」と「最尤推定量」はどちらも重要トピックである一方で、導出が複雑で抽象的な議論の際は解釈が難しいケースが多い。そこで当記事では具体例を考えるにあたって、「一様分布(uniform distribution)」の「不偏推定量」と「最尤推定量」について取り扱った。作成にあたっては「現代数理統計学(学術図書出版社)」の6.3節の「完備十分統計量に基づく不偏推定量」や7.5節の「最尤推定量」を参考とした。 […]

  2. […] 推測統計学における「推定」は「区間推定」と「点推定」にわけられるが、「点推定論」では「一様最小分散不偏推定量(UMVU; Uniformly Minimum Variance Unbiased estimator)」や「最尤推定量」について主に取り扱われる。当記事では一様最小分散不偏推定量の構成要素の一つである不偏推定量に関して、バイアス・バリアンス分解の視点から確認を行う。作成にあたっては「現代数理統計学(学術図書出版社)」の7.1節の「点推定論の枠組み」を参考にした。 […]

コメントは受け付けていません。