適合度検定(test of goodness of fit)の流れについて把握する

仮定された理論上の確率分布に対して標本から求めた度数が適合するかどうかを確認するのが適合度検定(test of goodness of fit)である。
当記事では「基礎統計学Ⅰ 統計学入門(東京大学出版会)」や「自然科学の統計学(東京大学出版会)」を元に適合度検定についてまとめるものとする。

適合度の検定の原理

適合度の検定の原理は下記のように考えると良い。
$$
\large
\begin{align}
\chi^2 = \sum_{i=1}^{k} \frac{(O_i-E_i)^2}{E_i}
\end{align}
$$
上記において、OはObserved(観測された)、EはExpected(理論によって期待された)をそれぞれ意味する。また、サンプルのインデックスを明示的に表現にするにあたって$O_i$と$E_i$のように表記を行った。

この考えに基づいて適合度検定などを行う。

K.ピアソンの適合度基準

K.ピアソンの適合度基準は下記のように計算することができる。
$$
\large
\begin{align}
\chi^2 = \sum_{i=1}^{k} \frac{(f_i-np_i)^2}{np_i}
\end{align}
$$
上記において、観測度数の$f_i$が観測の$O_i$に、理論確率$p_i$から計算した理論度数の$np_i$が期待値の$E_i$にそれぞれ対応すると抑えておくと良い。

上記の式に基づいて計算した$\chi^2$を用いて$\chi^2$検定を行うことで、適合度検定を行うことができる。

まとめ

当記事では「基礎統計学Ⅰ 統計学入門(東京大学出版会)」や「自然科学の統計学(東京大学出版会)」を参考に適合度検定(test of goodness of fit)について取りまとめを行なった。