母集団分布・標本分布・統計量を把握する|推測統計を理解する【1】

「推測統計」を考えるにあたっては「区間推定・点推定」と「検定」の二つが主に取り上げられがちであるので、母集団分布・標本分布・統計量についてはいまいちわからない方も多いかもしれません。
そこで当記事では母集団分布・標本分布・統計量についてそれぞれ簡単な取りまとめを行いました。作成にあたっては「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の第9章の「標本分布」の内容を主に参考にしましたので、下記も合わせてご確認ください。

母集団分布・標本分布・統計量の概要

母集団分布

母集団分布(population distribution)は、統計的推測(statistical inference)において推測する対象となる母集団に関する分布である。最尤法などで仮定する正規分布やベルヌーイ分布はそれぞれ母集団分布を表していることも知っておくと良い。

統計学においては有限の母集団よりも$N = \infty$の無限母集団を考えることが多いため、有限母集団におけるヒストグラムや相対頻度よりも、無限母集団における確率分布や確率密度関数を考えることが多い。最尤法において仮定する確率分布も同様である。

母集団分布を考える際に、ある程度法則がある方が取り扱いやすいので、正規分布やベルヌーイ分布のように特定のパラメータを用いて確率分布を表すことが多い。たとえば正規分布は平均の$\mu$と分散の$\sigma^2$を用いて$N(\mu, \sigma^2)$のように表し、ベルヌーイ分布は確率を表す$p$を用いて$Bin(1,p)$のように表す。このように確率分布をパラメータを用いて表す場合をパラメトリックと呼び、単に具体的な分布で表す場合をノンパラメトリックと呼ぶ。基本的にはパラメトリックを用いて表すことが多いため、パラメトリックを中心に把握しておくと良い。

確率分布をパラメトリックに取り扱うにあたって、確率分布の式を合わせて確認すると良いので、正規分布とベルヌーイ分布についてそれぞれ確認する。
$$
\large
\begin{align}
f(x) &= N(x|\mu, \sigma^2) = \frac{1}{\sqrt{2 \pi \sigma^2}} exp \left( – \frac{(x-\mu)^2}{2 \sigma^2} \right) \\
f(x) &= Bin(x|p) = p^x(1-p)^{1-x}
\end{align}
$$
上記のような数式は少数のパラメータで確率分布を表すことができることを把握しておくと良い。またここで用いているパラメータを母数(parameter)と呼ぶ。

母集団分布を考える際には、標本$X_i \quad (1 \leq i \leq n)$はこの母集団分布に従って得られたと考えることも抑えておくと良い。この時、$n$は標本数(sample size)を表す。

統計量

母集団分布$f(x)$を特定する代表的な母数は平均と考えることができ、母平均(population mean)は下記のように表すことができる。
$$
\large
\begin{align}
\mu &= \sum_{x} xf(x) \\
\mu &= \int_{-\infty}^{\infty} xf(x) dx
\end{align}
$$
上記において1つ目が確率変数が離散となる場合で、2つ目が確率変数が連続となる場合である。

同様に母分散は下記のように表すことができ、これも母集団分布$f(x)$の特定に役に立つ。
$$
\large
\begin{align}
\sigma^2 &= \sum_{x} (x-\mu)^2f(x) \\
\sigma^2 &= \int_{-\infty}^{\infty} (x-\mu)^2f(x) dx
\end{align}
$$

ここまでのように母集団分布の母平均と母分散を知ることで母集団について考えることができるが、$N = \infty$の無限母集団を考えることも多く、母集団全体を調べると考えることは現実的ではない。近年応用事例の多い機械学習では全体を取り扱うことを考える場合もあるかもしれないが、以下では統計学の前提とは少々異なるので、ここでは「母集団全体を調べることは難しい」という前提で考えることとする。母平均を取り扱うのが難しい際は、母集団分布に沿って得られたと考える「標本」に基づく「標本平均」を用いることが多い。
$$
\large
\begin{align}
\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i
\end{align}
$$
標本サイズが$n$の「標本平均」は上記のように表すことができる。

標本平均」を用いて「母平均」を考えることが妥当なのは下記に基づく。
・$E[X]=\mu$ (不偏性)
・$\displaystyle \lim_{n \to \infty} \bar{X} = \mu$ (大数の法則、一致性)
2つ目の式は標本平均の分散が$1/n$に比例することで、サンプルが大きくなると分散が限りなく小さくなることに基づくと考えればよい。

ここまでの議論における「標本平均」のように「標本を要約し、母集団の母数の推測に用いられるもの」を「統計量(statistic)」と呼ぶ。統計量は「標本を要約したものに過ぎず、未知のパラメータを含まない」ということについては注意が必要である。

統計量は「標本平均」、「標本の分散」、「標本の標準偏差」、「標本のメディアン」、「標本の相関係数」など多くのものがあるが、重要な点は分布の特徴を要約するのに適した統計量を選択することである。

標本$X_1, X_2, … X_n$は母集団分布に従って分布し、統計量は標本の関数で、下記のように表すことができる。
$$
\large
\begin{align}
t(X_1, …, X_n)
\end{align}
$$
上記の確率分布は母集団分布から求めることができるが、逆に考えると「統計量の値から母集団分布を求める」ことができる。また、統計量$t(X_1, …, X_n)$の確率分布をその統計量の「標本分布(sampling distribution)」という。

標本から求める標本平均や不偏標本分散のような統計量の周辺に母平均や母分散があると考えることができ、このことに基づいて区間推定などを行う。また、記述統計で算出する量は概ね統計量と理解しておくと良いと思われる。

標本分布

「標本分布(sampling distribution)」は統計量$t(X_1, …, X_n)$の確率分布である。標本和$X_1+X_2+…+X_n$や標本平均$\bar{X}$の標本分布は母集団分布に依存し、母集団分布が下記で取り扱った再生性を持っている場合、シンプルな計算で求めることができる。
https://www.hello-statisticians.com/explain-terms-cat/probdist3.html

「再生性」は「独立な二つ以上の確率変数が同一の分布族に属する場合、その和もそれに属する」ことを意味し、参照先のように二項分布、ポアソン分布、正規分布などが再生性を持つ。

まとめ

母集団分布・標本分布・統計量は時折出てくるトピックである一方で、それぞれの定義について理解する機会は少ないと思われたので、「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の第9章の内容を元に簡単に取りまとめを行いました。