超幾何分布(Hypergeometric distribution)の定義と期待値・分散

超幾何分布(Hypergeometric distribution)は$2$種からなる有限の集団から無作為非復元サンプリングを行う際に考える分布である。当記事では超幾何分布の定義や期待値・分散の導出、有限母集団修正の修正項の導出に関して取り扱った。
「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の$6.1$節の「超幾何分布」や「統計学実践ワークブック」の$5$章の「離散型分布」を参考に作成を行なった。

・離散確率分布まとめ
https://www.hello-statisticians.com/explain-terms-cat/probdist1.html

超幾何分布の定義とその理解

超幾何分布の定義

$2$種の$A,B$から構成される$N$個の集団があり、$A,B$はそれぞれ$M, N-M$個であると考えるとき、この集団から$n$個取り出したとき、$A$の個数を確率変数$Y$で表すと考える。このとき、$n$個を取り出す際に復元抽出(sampling with replacement)を行う場合は$Y$は二項分布$\displaystyle \mathrm{Bin} \left( n,\frac{M}{N} \right)$に従う一方で、非復元抽出(sampling without replacement)を行う場合は$Y$は超幾何分布$\mathrm{HyperGeo}(N,M,n)$に従う。

以下、非復元抽出の場合を考えるにあたって、超幾何分布の確率関数を$P(Y=y|N,M,n)$とおくと、$P(Y=y|N,M,n)$は下記のように表される。
$$
\large
\begin{align}
P(Y=y|N,&M,n) = \frac{{}_M C_{y} \times {}_{N-M} C_{n-y}}{{}_{N} C_{n}} \\
{}_a C_b &= 0, \quad if \quad a<b \quad or \quad b<0
\end{align}
$$

上記の式の解釈にあたっては、「集団全体の$N$から$n$個抽出する組み合わせ」と「($A$に関して$M$から$y$個抽出する組み合わせ) × ($B$に関して$N-M$から$n-y$個抽出する組み合わせ)」の割合であると考えると良い。またここでの問題の定義より、${}_a C_b$に対して$a < b$と$b < 0$が成立するときはないので${}_a C_b = 0$と定義した。元の定義上は$a, b$の定義域を定める方が直接的だが、$a < b$と$b < 0$のときは${}_a C_b = 0$と定める方が取り扱いがシンプルになるのでこの式の形で抑えておく方がわかりやすいと思われる。

超幾何分布に基づく具体的な確率の確認

以下、「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の例に基づいて確認を行う。$N=1000, M=200, n=5$のとき$Y=0, Y=1$のときの確率関数$P(Y=0|N=1000,M=200,n=5), P(Y=1|N=1000,M=200,n=5)$の計算をそれぞれ行う。

・$P(Y=0|N=1000,M=200,n=5)$
$$
\large
\begin{align}
P(Y=0|&N=1000,M=200,n=5) = \frac{{}_{200} C_{0} \times {}_{1000-200} C_{5-0}}{{}_{1000} C_{5}} \\
&= \frac{800 \cdot 799 \cdot 798 \cdot 797 \cdot 796}{5!} \times \frac{5!}{1000 \cdot 999 \cdot 998 \cdot 997 \cdot 996} \\
&= 0.326859…
\end{align}
$$

・$P(Y=1|N=1000,M=200,n=5)$
$$
\large
\begin{align}
P(Y=1|&N=1000,M=200,n=5) = \frac{{}_{200} C_{1} \times {}_{1000-200} C_{5-1}}{{}_{1000} C_{5}} \\
&= \frac{200}{1!} \times \frac{800 \cdot 799 \cdot 798 \cdot 797}{4!} \times \frac{5!}{1000 \cdot 999 \cdot 998 \cdot 997 \cdot 996} \\
&= 0.410626…
\end{align}
$$

超幾何分布を用いた資源調査

超幾何分布の期待値・分散の計算と有限母集団修正

$i$回目の抽出でグループ$A$を引いた場合に$X_i=1$、グループ$B$を引いた場合に$X_i=0$のように確率変数$X_i$を定義する。このとき確率変数$Y$は$Y = X_1 + X_2 + \cdots + X_n$のように表せることに基づいて超幾何分布の期待値$E[Y]$や分散$V[Y]$の導出を行える。

超幾何分布の期待値$E[Y]$の計算

$E[X_i]$は次のように表せる。
$$
\large
\begin{align}
E[X_i] &= 0 \cdot P(X_i=0) + 1 \cdot P(X_i=1) \\
&= P(X_i=1) \\
&= \frac{M}{N}
\end{align}
$$

よって、超幾何分布の期待値$E[Y]$は下記のように考えることができる。
$$
\large
\begin{align}
E[Y] &= E[X_1 + X_2 + \cdots + X_n] \\
&= nE[X_i] \\
&= \frac{nM}{N}
\end{align}
$$

超幾何分布の分散$V[Y]$の計算

$E[X_i^2], E[X_iX_j], \, i \neq j$は次のように表せる。
$$
\large
\begin{align}
E[X_i^2] &= 0^2 \cdot P(X_i=0) + 1^2 \cdot P(X_i=1) \\
&= P(X_i=1) \\
&= \frac{M}{N} \\
E[X_iX_j] &= 0 \cdot (P(X_i=0,X_j=0)+P(X_i=1,X_j=0)+P(X_i=0,X_j=1)) + 1 \cdot P(X_i=1,X_j=1) \\
&= P(X_i=1,X_j=1) \\
&= \frac{M(M-1)}{N(N-1)}
\end{align}
$$

このとき、確率変数$X_i, X_j$に関して下記のように$V[X_i], \mathrm{Cov}(X_i,X_j)$が得られる。
$$
\large
\begin{align}
V[X_i] &= E[X_i^2] – E[X_i]^2 \\
&= \frac{M}{N} – \left( \frac{M}{N} \right)^2 \\
&= \frac{M(N-M)}{N^2} \\
\mathrm{Cov}(X_i,X_j) &= E[X_iX_j] – E[X_i]E[X_j] \\
&= \frac{M(M-1)}{N(N-1)} – \frac{M^2}{N^2} \\
&= \frac{MN(M-1)}{N^2(N-1)} – \frac{M^2(N-1)}{N^2(N-1)} \\
&= \frac{\cancel{M^2N} – MN – \cancel{M^2N} + M^2}{N^2(N-1)} \\
&= -\frac{M(N-M)}{N^2(N-1)}
\end{align}
$$

よって、超幾何分布の分散$V[Y]$は下記のように考えることができる。
$$
\large
\begin{align}
V[Y] &= V[X_1 + X_2 + \cdots + X_n] \\
&= nV[X_i] + 2 \cdot {}_{n} C_{2} \mathrm{Cov}(X_i,X_j) \\
&= nV[X_i] + n(n-1) \mathrm{Cov}(X_i,X_j) \\
&= \frac{nM(N-M)}{N^2} – \frac{n(n-1)M(N-M)}{N^2(N-1)} \\
&= \frac{nM(N-M)}{N^2(N-1)} [(N-\cancel{1})-(n-\cancel{1})] \\
&= \frac{nM(N-M)(N-n)}{N^2(N-1)} \\
&= n \cdot \frac{M}{N} \left( 1-\frac{M}{N} \right) \times \frac{N-n}{N-1}
\end{align}
$$

有限母集団修正

「復元抽出」の場合は二項分布を元に考えることができる。$Z \sim \mathrm{Bin}(n,p)$の分散を$V[Z]$とおくと$V[Z]=np(1-p)$のように表せる。ここで$p=M/N$のように表すとき、$V[Z]$は下記のように表せる。
$$
\large
\begin{align}
V[Z] &= np(1-p) \\
&= n \cdot \frac{M}{N} \left( 1-\frac{M}{N} \right)
\end{align}
$$

このとき$V[Y]/V[Z]$は下記のように計算できる。
$$
\large
\begin{align}
\frac{V[Y]}{V[Z]} = \frac{N-n}{N-1}
\end{align}
$$

上記が有限母集団修正にあたっての修正項に一致する。

参考

・統計学実践ワークブック$5$章: 離散型分布
・統計学実践ワークブック$5$章: 問題$5.3$

「超幾何分布(Hypergeometric distribution)の定義と期待値・分散」への4件のフィードバック

コメントは受け付けていません。