超幾何分布(Hypergeometric distribution)の定義と期待値・分散

超幾何分布(Hypergeometric distribution)は$2$種からなる有限の集団から無作為非復元サンプリングを行う際に考える分布である。当記事では超幾何分布の定義や期待値・分散の導出、有限母集団修正の修正項の導出に関して取り扱った。
「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の6.1節の「超幾何分布」や「統計学実践ワークブック」の5章の「離散型分布」を参考に作成を行なった。

・離散確率分布まとめ
https://www.hello-statisticians.com/explain-terms-cat/probdist1.html

超幾何分布の定義とその理解

超幾何分布の定義

$2$種の$A,B$から構成される$N$個の集団があり、$A,B$はそれぞれ$M, N-M$個であると考えるとき、この集団から$n$個取り出したとき、$A$の個数を確率変数$Y$で表すと考える。このとき、$n$個を取り出す際に復元抽出(sampling with replacement)を行う場合は$Y$は二項分布$\displaystyle Bin \left( n,\frac{M}{N} \right)$に従う一方で、非復元抽出(sampling without replacement)を行う場合は$Y$は超幾何分布$HyperGeo(N,M,n)$に従う。

以下、非復元抽出の場合を考えるにあたって、超幾何分布の確率関数を$P(Y=y|N,M,n)$とおくと、$P(Y=y|N,M,n)$は下記のように表される。
$$
\large
\begin{align}
P(Y=y|N,&M,n) = \frac{{}_M C_{y} \times {}_{N-M} C_{n-y}}{{}_{N} C_{n}} \\
{}_a C_b &= 0, \quad if \quad a<b \quad or \quad b<0
\end{align}
$$

上記の式の解釈にあたっては、「集団全体の$N$から$n$個抽出する組み合わせ」と「($A$に関して$M$から$y$個抽出する組み合わせ) × ($B$に関して$N-M$から$n-y$個抽出する組み合わせ)」の割合であると考えると良い。またここでの問題の定義より、${}_a C_b$に対して$a < b$と$b < 0$が成立するときはないので${}_a C_b = 0$と定義した。元の定義上は$a, b$の定義域を定める方が直接的だが、$a < b$と$b < 0$のときは${}_a C_b = 0$と定める方が取り扱いがシンプルになるのでこの式の形で抑えておく方がわかりやすいと思われる。

超幾何分布に基づく具体的な確率の確認

以下、「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の例に基づいて確認を行う。$N=1000, M=200, n=5$のとき$Y=0, Y=1$のときの確率関数$P(Y=0|N=1000,M=200,n=5), P(Y=1|N=1000,M=200,n=5)$の計算をそれぞれ行う。

・$P(Y=0|N=1000,M=200,n=5)$
$$
\large
\begin{align}
P(Y=0|&N=1000,M=200,n=5) = \frac{{}_{200} C_{0} \times {}_{1000-200} C_{5-0}}{{}_{1000} C_{5}} \\
&= \frac{800 \cdot 799 \cdot 798 \cdot 797 \cdot 796}{5!} \times \frac{5!}{1000 \cdot 999 \cdot 998 \cdot 997 \cdot 996} \\
&= 0.326859…
\end{align}
$$

・$P(Y=1|N=1000,M=200,n=5)$
$$
\large
\begin{align}
P(Y=1|&N=1000,M=200,n=5) = \frac{{}_{200} C_{1} \times {}_{1000-200} C_{5-1}}{{}_{1000} C_{5}} \\
&= \frac{200}{1!} \times \frac{800 \cdot 799 \cdot 798 \cdot 797}{4!} \times \frac{5!}{1000 \cdot 999 \cdot 998 \cdot 997 \cdot 996} \\
&= 0.410626…
\end{align}
$$

超幾何分布を用いた資源調査

超幾何分布の期待値・分散の計算と有限母集団修正

超幾何分布の期待値$E[X]$の計算

超幾何分布の分散$V[X]$の計算

有限母集団修正

参考

・統計学実践ワークブック5章: 離散型分布