統計検定準1級問題解説 ~2019年6月実施 問4 独立性の検定~

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


解答

[1] 解答

$\boxed{ \ \mathsf{5}\ }$ : ④

CMの影響の有無と購入の有無は関連がないと仮定すると、CMの影響の有無の確率と購入の有無は独立である。よって、CMの影響ありかつ購入ありの期待値は、
$$
300\times\frac{135}{300}\times\frac{190}{300}=\frac{135\times190}{300}=85.5
$$

[2] 解答

$\boxed{ \ \mathsf{6}\ }$ : ③

CMの影響の有無と購入の有無は関連性を検定するには独立性の検定を行う。
帰無仮説として2つの属性の間に関連がないとすると、
このときの検定統計量($\chi^2$統計量)は、2つの属性のそれぞれのケースの組み合わせについての$($観測値$-$期待値$)^2/$期待値の和でもとめる。
$$
\begin{eqnarray}
\chi^2統計量&=&\frac{(93-135\times190/300)^2}{135\times190/300}+\frac{(42-135\times110/300)^2}{135\times110/300}\\&+&\frac{(97-165\times190/300)^2}{165\times190/300}+\frac{(68-165\times110/300)^2}{165\times110/300}\\
&=&3.262
\end{eqnarray}
$$

[3] 解答

$\boxed{ \ \mathsf{7}\ }$ : ②

$2\times 2$分割表の2つの因子の独立性の検定においては、[2]で求めた統計検定量は自由度$1(=($行の個数$-1)\times($列の個数$-1)=(2-1)\times(2-1))$の$\chi^2$分布に従う。$\chi^2$分布のパーセント表から、
$$
\chi^2_{0.10}=2.71,\quad\chi^2_{0.05}=3.54
$$
よって、[2]の統計量は$\chi^2_{0.10}<3.262<\chi^2_{0.05}$となることから、帰無仮説は有意水準$10\%$では棄却されるが、有意水準$5\%$では棄却されない。


解説

独立性の検定

2つの属性(因子)に従って属性の値(水準)の組み合わせごとの頻度を集計して表にしたものを分割表という。
ここで、下表のような$r\times c$分割表について考える。

$$
\begin{array}{c|cccc|c}
& B_1 & B_2 & \cdots & B_c & total \\
\hline
A_1 & x_{11} & x_{12} & \cdots & x_{1c} & x_{1\cdot}\\
A_2 & x_{21} & x_{22} & \cdots & x_{2c} & x_{2\cdot}\\
\vdots & \vdots & \vdots & & \vdots & \vdots\\
A_r & x_{r1} & x_{r2} & \cdots & x_{rc} & x_{r\cdot}\\
\hline
total & x_{\cdot 1} & x_{\cdot 2} & \cdots & x_{\cdot c} & x_{\cdot\cdot}=n
\end{array}
$$

ここで、2つの因子$A,B$の間に関係性が見られないこと、すなわち独立であることを検証する。
2つの因子$A,B$が独立とは、帰無仮説
$$
H_0 : P(A_i\cap B_j)=P(A_i)P(B_j)\quad \forall i,j
$$
が成り立つことをいう。ここで、分割表の$(i,j)$セルの起こる確率を$P(A_i\cap B_j)=p_{ij}$で表し、$A,B$の周辺確率分布は$P(A_i)=p_{i\cdot}=\sum_j p_{ij},P(B_i)=p_{\cdot j}=\sum_i p_{ij}$とすると、先の帰無仮説は、
$$
H_0 : p_{ij}=p_{i\cdot}\cdot p_{\cdot j}\quad \forall i,j
$$
で表わせられる。

ところで、$p_{ij}$の確率分布は$r\times c$個の項目を持つ多項分布であるから、
$$
p_{ij}=\frac{n!}{\prod_{i=1}^r\prod_{j=1}^cx_{ij}!}\prod_{i=1}^r\prod_{j=1}^cp_{ij}^{x_{ij}}
$$
上式の対数尤度は、すべての$p_{ij}$の関数として、
$$
\begin{align*}
\log L(\boldsymbol{p})&=\log\left(\frac{n!}{\prod_{i=1}^r\prod_{j=1}^cx_{ij}!}\right)+\sum_{i=1}^r\sum_{j=1}^cx_{ij}\log p_{ij}\\
&=const.+\sum_{i=1}^r\sum_{j=1}^cx_{ij}\log p_{ij}
\end{align*}
$$
ここで、独立の仮説($p_{ij}=p_{i\cdot}\cdot p_{\cdot j}$)の下で対数尤度は
$$
\log L(\boldsymbol{p})=const.+\sum_{i=1}^rx_{i\cdot}\log p_{i\cdot}+\sum_{j=1}^cx_{\cdot j}\log p_{\cdot j}
$$
と表わされる。これを最大化する$p_{i\cdot}, p_{\cdot j}$の推定量(最尤推定量)を求める。

上式の対数尤度関数の最大化は、条件$\sum_{i=1}^r p_{i\cdot}=1, \sum_{j=1}^c p_{\cdot j}=1$に対するラグランジュ未定係数を$\lambda_1,\lambda_2$として、次の関数
$$
L^*=const.+\sum_{i=1}^rx_{i\cdot}\log p_{i\cdot}+\sum_{j=1}^cx_{\cdot j}\log p_{\cdot j}-\lambda_1(\sum_{i=1}^r p_{i\cdot}-1)-\lambda_2(\sum_{j=1}^c p_{\cdot j}-1)
$$
の最大化を考えればよい。$L^*$を$p_{i\cdot},p_{\cdot j},\lambda_1,\lambda_2$でそれぞれ偏微分して$0$とおくと、連立方程式
$$
\begin{eqnarray}
\left\{
\begin{array}{l}
\frac{\partial L^*}{\partial p_{i\cdot}}&=x_{i\cdot}/p_{i\cdot}-\lambda_1=0,\quad i=1,\cdots,r\\
\frac{\partial L^*}{\partial p_{\cdot j}}&=x_{\cdot j}/p_{\cdot j}-\lambda_2=0,\quad j=1,\cdots,c\\
\frac{\partial L^*}{\partial \lambda_1}&=\sum_{i=1}^r p_{i\cdot}-1=0\\
\frac{\partial L^*}{\partial \lambda_2}&=\sum_{j=1}^c p_{\cdot j}-1=0
\end{array}
\right.
\end{eqnarray}
$$
が得られる。このうち、上の2式から
$p_{i\cdot}=x_{i\cdot}/\lambda_1,p_{\cdot j}=x_{\cdot j}/\lambda_2$
これを下の2式に代入して、
$\sum_{i=1}^r x_{i\cdot}/\lambda_1=1,\quad \sum_{j=1}^c x_{\cdot j}/\lambda_2=1\Rightarrow \lambda_1=\lambda_2=n,$
したがって、$p_{i\cdot}, p_{\cdot j}$の最尤推定量は
$$
\begin{eqnarray}
\hat p_{i\cdot}&=&x_{i\cdot}/n,\quad i=1,\cdots,r \\
\hat p_{\cdot j}&=&x_{\cdot j}/n\quad j=1,\cdots,c
\end{eqnarray}
$$
となり、独立の仮説の下で$p_{ij}$の最尤推定量は、
$$
\hat p_{ij}=x_{i\cdot}x_{\cdot j}/n^2
$$
となる。これから、独立の仮説の下での分割表の$(i,j)$セルの度数(理論度数)は
$$
\hat x_{ij}=n\cdot\hat p_{ij}=x_{i\cdot}x_{\cdot j}/n
$$
となる。これと実際に観測された$x_{ij}$の値(観測度数)から得られる以下の$\chi^2$統計量
$$
\chi^2=\frac{(x_{ij}-\hat x_{ij})^2}{\hat x_{ij}}=\frac{(x_{ij}-x_{i\cdot}x_{\cdot j}/n)^2}{x_{i\cdot}x_{\cdot j}/n}
$$
は、$n$が十分大きいとき、漸近的に$\chi^2$分布に従う。ここで、自由度は周辺度数$x_{i\cdot}=\sum_jx_{ij},x_{\cdot j}=\sum_jx_{ij}$が固定なので、$(r-1)(c-1)$となる。