k標本問題の解法(母平均の差の検定、1元配置分散分析、2元配置分散分析)

異なる母集団からの標本を仮定した際にそれぞれを比較するというのは統計学を利用するニーズとしては大きい。入門書では2標本の母平均の差や母比率の比に関して区間推定や検定が行われるが、これをk個の母集団に拡張して考えたい場合もある。
このときに出てくるのが集団を区別するのに用いる因子(factor)という概念であり、因子の値(水準)に基づいて標本を分け比較を行う。本稿ではこのような複数の標本が存在する際の取り扱いの手法について取りまとめる。内容作成にあたっては「自然科学の統計学」の3章の「実験データの分析」を主に参考にした。

前提の確認

2標本問題

「2標本問題(two-sample problem)」は何らかの処理を施した「処理群(treatment group)」とそうでない「対照群(control group)」や、異なる地点での気温のように、2つの対象の比較(comparison)を行う問題である。
https://www.hello-statisticians.com/explain-terms-cat/flow_chart_stat1.html
基本的には上記などでまとめた2標本の「母平均の差」や「母分散の比」などの考察によって2つの推測を行うと考えておけば良い。

「母平均の差」、「母分散の比」の推定・検定

「基礎統計学Ⅰ 統計学入門」の11.5.2節、12.2.3節、12.2.4節、「自然科学の統計学」の3.1節が参考になる。
https://www.hello-statisticians.com/explain-terms-cat/flow_chart_stat1.html
上記でまとめた内容を理解しておけば十分だと思われるため当稿では省略する。

利用する確率分布

$\chi^2$分布

「基礎統計学Ⅰ 統計学入門」の10.3節などを参考に以下取りまとめる。標準正規分布$N(0,1)$に独立に従う確率変数$Z_1, Z_2, …, Z_k$を考える。
$$
\large
\begin{align}
\chi^2 = Z_1^2 + Z_2^2 + … + Z_k^2
\end{align}
$$
このとき上記のように確率変数$\chi^2$を定義した際に、$\chi^2$が従う確率分布を自由度$k$の$\chi^2$分布とし、$\chi^2(k)$のように表す。

$\chi^2$分布では推測統計において抽出した標本の分散を扱う時に必ず出てくる確率分布である。以下、正規母集団からの標本$X_1, X_2, …, X_n$の不偏標本分散$s^2$と$\chi^2$分布の関係について具体的に確認する。まず、不偏標本分散$s^2$は下記のように計算される。
$$
\large
\begin{align}
s^2 = \frac{1}{n-1} \left( (X_1-\bar{X})^2 + (X_2-\bar{X})^2 + … + (X_n-\bar{X})^2 \right) \quad (1)
\end{align}
$$
上記において、$\bar{X}$は標本の平均であるとする。この時$(1)$の両辺に$\displaystyle \frac{n-1}{\sigma^2}$をかけると下記のようになる。
$$
\large
\begin{align}
\frac{(n-1)s^2}{\sigma^2} &= \frac{1}{\sigma^2} \left( (X_1-\bar{X})^2 + (X_2-\bar{X})^2 + … + (X_n-\bar{X})^2 \right) \\
&= \left( \frac{X_1-\bar{X}}{\sigma} \right)^2 + \left( \frac{X_2-\bar{X}}{\sigma} \right)^2 + … + \left( \frac{X_n-\bar{X}}{\sigma} \right)^2
\end{align}
$$
上記において$\bar{X}$を$\mu$に置き換えると考えれば標準正規分布の二乗和となり、厳密な証明ではないが$\displaystyle \chi^2 = \frac{(n-1)s^2}{\sigma^2}$が自由度$n-1$の$\chi^2$分布$\chi^2(n-1)$に従うことと対応づけて抑えておくと良い。

上記のように$\displaystyle \chi^2 = \frac{(n-1)s^2}{\sigma^2}$を考え、自由度$n-1$の$\chi^2$分布$\chi^2(n-1)$と見比べることで母分散に関する区間推定や検定を行うことが可能である。

$F$分布の概要

$F$分布は標本分散の比やフィッシャーの分散分析を行う際に用いられる分布である。ここでは$F$分布の概要について確認する。

(a) 確率変数$U$が自由度$k_1$の$\chi^2$分布$\chi^2(k_1)$に従う。
(b) 確率変数$V$が自由度$k_2$の$\chi^2$分布$\chi^2(k_2)$に従う。
(c) $U$と$V$が独立である。

確率変数$U$と$V$が上記の条件を満たすとした際に、$U$と$V$をそれぞれの自由度$k_1$と$k_2$で割って調整した後にとったフィッシャーの分散比を下記のように定義する。
$$
\large
\begin{align}
F = \frac{U/k_1}{V/k_2}
\end{align}
$$
上記で定義した$F$は自由度$(k_1, k_2)$の$F$分布$F(k_1,k_2)$に従う。また、このとき$F$分布において上側確率が$100\alpha$%となるパーセント点に対応する$F$の値を$F_{\alpha}(k_1,k_2)$とすると、$F_{\alpha=0.05}(k_1,k_2)$、$F_{\alpha=0.01}(k_1,k_2)$、$F_{\alpha=0.025}(k_1,k_2)$、$F_{\alpha=0.005}(k_1,k_2)$などが$F$分布の表から読み取ることができる。$k_1$と$k_2$に関しては分子の確率変数を割るのが$k_1$、分母の確率変数を割るのが$k_2$と抑えておくと良い。

さらにここで注意しておくと良いのが、$F$分布の表を考える際に$\alpha=0.05$や$\alpha=0.025$の表がある一方で、$\alpha=0.95$や$\alpha=0.975$の表がないことである。これは$F$値が確率変数の比を用いて計算することから、下記の対応が成立することを用いて計算すればよい。
$$
\large
\begin{align}
F_{\alpha=0.95}(k_1,k_2) &= 1/F_{\alpha=0.05}(k_2,k_1) \\
F_{\alpha=0.975}(k_1,k_2) &= 1/F_{\alpha=0.025}(k_2,k_1)
\end{align}
$$

$F$分布を用いた母分散比の区間推定と等分散の検定

$F$分布は分散比の区間推定や等分散の検定を行うなどに用いることができる。具体的に考える方がわかりやすいので、ここではそれぞれ標本数が$m$と$n$である二つの標本の標本分散$s_1^2$、$s_2^2$の比について等分散の検定を行うことを考える。ここで下記が成立する。

i) $\displaystyle \frac{(m-1)s_1^2}{\sigma_1^2}$は自由度$m-1$の$\chi^2$分布$\chi^2(m-1)$に従う。
ⅱ) $\displaystyle \frac{(n-1)s_2^2}{\sigma_2^2}$は自由度$m-1$の$\chi^2$分布$\chi^2(n-1)$に従う。
ⅲ) $s_1^2$と$s_2^2$は独立である。

上記に基づいて$F$値を計算すると下記のようになる。
$$
\large
\begin{align}
F &= \frac{\frac{(m-1)s_1^2}{\sigma_1^2}/(m-1)}{\frac{(n-1)s_2^2}{\sigma_2^2}/(n-1)} \\
&= \frac{s_1^2/\sigma_1^2}{s_2^2/\sigma_2^2} \\
&= \frac{\sigma_2^2}{\sigma_1^2} \cdot \frac{s_1^2}{s_2^2}
\end{align}
$$
上記が自由度$(m-1,n-1)$の$F$分布$F(m-1,n-1)$に従う。このとき母分散の比の区間推定にあたって、95%の両側区間は下記のように計算できる。
$$
\large
\begin{align}
F_{\alpha=0.975}(k_1,k_2) \leq &F \leq F_{\alpha=0.025}(k_1,k_2) \\
\frac{1}{F_{\alpha=0.025}(k_2,k_1)} \leq &F \leq F_{\alpha=0.025}(k_1,k_2) \\
\frac{1}{F_{\alpha=0.025}(k_2,k_1)} \leq &\frac{\sigma_2^2}{\sigma_1^2} \cdot \frac{s_1^2}{s_2^2} \leq F_{\alpha=0.025}(k_1,k_2) \\
\frac{1}{F_{\alpha=0.025}(k_2,k_1)} \frac{s_2^2}{s_1^2} \leq &\frac{\sigma_2^2}{\sigma_1^2} \leq F_{\alpha=0.025}(k_1,k_2)\frac{s_2^2}{s_1^2}
\end{align}
$$

次に、母分散の値が「$\sigma_1^2=\sigma_2^2$のように等しい」を帰無仮説と考える、等母分散の検定について確認する。
$$
\large
\begin{align}
F &= \frac{\sigma_2^2}{\sigma_1^2} \cdot \frac{s_1^2}{s_2^2} \\
&= \frac{s_1^2}{s_2^2}
\end{align}
$$
等母分散を仮定すると$F$値は上記のように求めることができる。この際に95%で両側検定すると考えるとすると、下記が成立するかを調べれば良いことがわかる。
$$
\large
\begin{align}
\frac{1}{F_{\alpha=0.025}(k_2,k_1)} \leq \frac{s_1^2}{s_2^2} \leq F_{\alpha=0.025}(k_1,k_2)
\end{align}
$$
上記が成立すれば帰無仮説を棄却できないため、等母分散であると考えることができる。一方、上記が成立しなければ帰無仮説を棄却し、等母分散を仮定できないことになる。

和の二乗の展開

統計学では$(a+b)^2=a^2+b^2+2ab$のように和の二乗を展開する計算がよく出てくる。この際に、問題の前提から$ab$に何らかの計算が行える場合が多く、これに基づいて分解を考えることが多い。分散に関する$V[X]=E[(X-E[X])^2]=E[X^2]-E[X]^2$がわかりやすい具体例である。
$$
\large
\begin{align}
V[X] &= E[(X-E[X])^2] \\
&= E[X^2-2XE[X]+E[X^2]] \\
&= E[X^2]-2E[XE[X]]+E[X^2] \\
&= E[X^2]-2E[X^2]+E[X^2] \\
&= E[X^2]-E[X^2]
\end{align}
$$

k標本問題

3つ以上の標本の比較は「k標本問題(k-sample problem)」と考えられる。$n$個の集団の母集団平均$\mu_1, \mu_2, …, \mu_n$の比較にあたっては分散分析(ANOVA; analysis of variance)が基本的な役割を果たす。
このとき集団の区別にあたって用いる指標を因子(factor)と呼ぶ。カテゴリ変数を知っているならカテゴリ変数と同様であると考えるとわかりやすい。また、因子の値を水準(level)と呼ぶ。これはカテゴリ変数の値と対応させておくとよい。
説明だけだとわかりにくいので、具体的に考える。例えば「ストレートの平均球速」と「防御率」の関係を考えるにあたって、「ストレートの平均球速」を因子とすると、「140km/h」、「145km/h」、「150km/h」が水準となる。このとき、各集団における「防御率の母平均」の比較を行うにあたって分散分析を用いることができる。

分散分析について把握するにあたっては、因子が1つある「1元配置分散分析」と因子が2つの「2元配置分散分析」の二つについて抑えておくとよい。以下、それぞれについて確認する。

1元配置分散分析

問題設定

1元配置分散分析の問題設定について確認する。いくつかの数式を用いて必要事項の定義を行う。まず、因子に対応する水準を$A_1$〜$A_m$とし、各水準におけるサンプルの数を$n_1$〜$n_m$、サンプルの標本平均をそれぞれ$\hat{\mu}_1$〜$\hat{\mu}_m$、母平均を$\mu_1$〜$\mu_m$とおく。 また、サンプル全体の数を$n$、サンプル全体の標本平均を$\hat{\mu}$、母平均の一般平均を$\mu$とおく。この際に$A_i$水準の$j$番目のサンプル$y{ij}$は$N(0,\sigma^2)$に従う実験誤差$\epsilon_{ij}$を用いて下記のように表すことができる。
$$
\large
\begin{align}
y_{ij} = \mu_i + \epsilon_{ij} \qquad (1)
\end{align}
$$
また、各水準の平均$\mu_i$から一般平均$\mu$を引いたものがそれぞれの水準の実質的な値となり、これを水準$A_i$の効果$\alpha_i$と呼び、下記のような数式で表すことができる。
$$
\large
\begin{align}
\alpha_i = \mu_i – \mu
\end{align}
$$
これにより$(1)$式は下記のように表すことができる。
$$
\large
\begin{align}
y_{ij} = \mu + \alpha_i + \epsilon_{ij}
\end{align}
$$
上記は「(共通の効果)+(第$i$水準の効果)+(それ以外の誤差)」という形式であると理解すればよい。

1元配置分散分析の実行

1元配置分散分析では、前項のような問題設定が与えられた際に、下記の仮説について検定を行う。
$$
\large
\begin{align}
&H_0: \quad \mu_1 = \mu_2 = … = \mu_m \\
&H_1: \quad H_0が成立しない
\end{align}
$$

前項の(1)にあてはめたときの誤差平方和$S_e$を下記のように考える。$$
\large
\begin{align}
S_e = \sum_{i=1}^{m} \sum_{j=1}^{n_i} (y_{ij}-\hat{\mu}_i)^2
\end{align}
$$
上記より、$S_e/\sigma^2$は自由度$\nu_e = n – m$の$\chi^2$分布にしたがう。

また、下記のように級間平方和$S_A$を定義する。
$$
\large
\begin{align}
S_A = \sum_{i=1}^{m} n_i (\hat{\mu}_i-\hat{\mu})^2
\end{align}
$$
ここで$S_e$と$S_A$は独立で、帰無仮説$H_0$が成立するなら$S_A/\sigma^2$は自由度$\nu_A = m-1$の$\chi^2$分布にしたがう。
$$
\large
\begin{align}
F = \frac{S_A/\nu_A}{S_e/\nu_e} \qquad (2)
\end{align}
$$
上記のように$F$値を定義すると、$F$は$F(\nu_A,\nu_e)$に従う。これを用いて帰無仮説$H_0$について検定を行うのが1元配置分散分析検定(1 way layout Analysis of Variance Test)である。
また、このとき$(2)$式がフィッシャーの線形判別の際に評価指標に用いた「群間分散/群内分散」の比と同様な式であることも抑えておくと良い。
https://www.hello-statisticians.com/explain-terms-cat/linear_discriminant1.html#i-6

2元配置分散分析

問題設定

2元配置分散分析の問題設定について確認する。いくつかの数式を用いて必要事項の定義を行う。まず、因子に対応する水準を$A_1$〜$A_a$、$B_1$〜$B_b$とし、各水準におけるサンプルの数を$r$、サンプルの標本平均をそれぞれ$\hat{\mu}_{11}$〜$\hat{\mu}_{ab}$、母平均を$\mu_{11}$〜$\mu_{ab}$とおく。 また、サンプル全体の数を$n=abr$、サンプル全体の平均を$\hat{\mu}$、母平均を$\mu$とおく。この際に$A_i$水準かつ$B_j$水準の$k$番目のサンプル$y_{ijk}$は$N(0,\sigma^2)$に従う実験誤差$\epsilon_{ijk}$を用いて下記のように表すことができる。
$$
\large
\begin{align}
y_{ijk} = \mu_{ij} + \epsilon_{ijk} \qquad (3)
\end{align}
$$
ここでAに関しての各水準の平均$\mu_i$やBに関しての各水準の平均$\mu_j$から一般平均$\mu$を引いたものがそれぞれの水準の実質的な値となり、これを水準$A_i$の効果$\alpha_i$、水準$B_i$の効果$\beta_j$と呼び、下記のような数式で表すことができる。
$$
\large
\begin{align}
\alpha_i &= \mu_i – \mu \\
\beta_j &= \mu_j – \mu \qquad (4)
\end{align}
$$
また、下記のように因子AとBの主効果(main effect)の$(\alpha\beta)_{ij}$を定義する。
$$
\large
\begin{align}
(\alpha\beta)_{ij} &= \mu_{ij} – (\mu + \alpha_i + \beta_j) \\
&= \mu_{ij} – (\mu + \mu_i – \mu + \mu_j – \mu) \\
&= \mu_{ij} – \mu_i – \mu_j + \mu \qquad (5)
\end{align}
$$
$(4)$式、$(5)$式により$(3)$式は下記のように表すことができる。
$$
\large
\begin{align}
y_{ij} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \epsilon_{ijk}
\end{align}
$$
上記は「(一般平均)+(因子Aの効果)+(因子Bの効果)+(因子ABの交互作用)+(それ以外の誤差)」という形式であると理解すればよい。

2元配置分散分析の実行

誤差平方和$S_e$を下記のように考える。
$$
\large
\begin{align}
S_e = \sum_{i=1}^{m} \sum_{j=1}^{n_i} (y_{ij}-\hat{\mu}_i)^2
\end{align}
$$
上記の自由度は$\nu_e=ab(r-1)$である。

また、下記のように$S_A$、$S_B$、$S_{AB}$を定義する。
$$
\large
\begin{align}
S_A &= br\sum_{i=1}^{a} (\hat{\mu}_i-\hat{\mu})^2 \\
S_B &= ar\sum_{j=1}^{b} (\hat{\mu}_j-\hat{\mu})^2 \\
S_{A \times B} &= r \sum_{i=1}^{a} \sum_{j=1}^{b} (\hat{\mu}_{ij}- \hat{\mu}_i – \hat{\mu}_j + \hat{\mu})^2
\end{align}
$$
上記の自由度はそれぞれ$\nu_A=a-1$、$\nu_B=b-1$、$\nu_{A \times B} = (a-1)(b-1)$である。

ここまでの定義に基づいて、$S_A$、$S_B$、$S_{AB}$についてそれぞれ$S_e$を用いて$F$値を計算し、1元配置と同様に因子Aの効果、因子Bの効果、因子ABの交互作用についてそれぞれ$F$検定を行う。

まとめ

k標本問題の解法について取り扱いました。分散分析(ANOVA; Analysis of Variance)について理解するのは少々難しい印象でしたが、導出方法だけは抑えておくと良さそうでした。

https://www.amazon.co.jp/dp/4130420674

「k標本問題の解法(母平均の差の検定、1元配置分散分析、2元配置分散分析)」への1件の返信

コメントは受け付けていません。