「統計学実践ワークブック」 演習問題etc Ch.20 「分散分析と実験計画法」

当記事は「統計学実践ワークブック(学術図書出版社)」の読解サポートにあたってChapter.20の「分散分析と実験計画法」に関して演習問題を中心に解説を行います。「分散分析と実験計画法」は少々手順が複雑なので、演習を通して抑えておくと良いと思われました。

本章のまとめ

分散分析に関しては下記などで取りまとめを行なった。
https://www.hello-statisticians.com/explain-terms-cat/k_sample_problem1.html

演習問題解説

問20.1

$[1]$
×
ランダム化の原則に基づいて、苗の大小に関係なく、ランダムに肥料$A_1, A_2$を割り当てる必要がある。

$[2]$
×
局所管理の原則に基づいて、均一と見なし得る$8$つの区画それぞれで肥料$A_1, A_2$の違いを実験する必要がある。

$[3]$
×
反復・繰り返しの原則と、局所管理の原則に基づいて、$A_1, A_2$のそれぞれで複数回の収穫値を観測できるように区画をいくつかに分けた上で実験を行うと良い。

問20.2

$[1]$
予測式は下記のようになる。
$$
\large
\begin{align}
y_{ij} = \mu + \alpha_{i} + \epsilon_{ij} \quad i=1, 2, …, 4; j=1, 2, …, n_i
\end{align}
$$

帰無仮説$H_{0}$は「研磨機械に差がない」ことを表す$\alpha_{1}=\alpha_{2}=…=\alpha_{4}=0$、対立仮説は「研磨機械の少なくとも$1$つに差がある」ことを表す。

$[2]$
因子$A$の水準間平方和$S_A$、誤差平方和$S_E$はそれぞれ下記のように表される。
$$
\large
\begin{align}
S_A &= \sum_{i=1}^{4} \sum_{j=1}^{n_{i}} (\bar{y}_{A_{i}}-\bar{y})^2 \\
S_E &= \sum_{i=1}^{4} \sum_{j=1}^{n_{i}} (y_{ij}-\bar{y}_{A_{i}})^2
\end{align}
$$

上記は下記を実行することでそれぞれの値を得ることができる。

import numpy as np

y_1 = np.array([15., 13., 15., 16., 14.])
y_2 = np.array([18., 17., 16., 15., 18.])
y_3 = np.array([19., 16., 17., 18.])
y_4 = np.array([17., 15., 16.])
y = [y_1, y_2, y_3, y_4]
y_average_A = [np.sum(y_1)/y_1.shape[0], np.sum(y_2)/y_2.shape[0], np.sum(y_3)/y_3.shape[0], np.sum(y_4)/y_4.shape[0]]
y_average = (np.sum(y_1)+np.sum(y_2)+np.sum(y_3)+np.sum(y_4))/17.

S_A = 0
S_E = 0
for i in range(4):
    S_A += np.sum(y[i].shape[0]*(y_average_A[i]-y_average)**2)
    S_E += np.sum((y[i]-y_average_A[i])**2)

print(S_A, S_E)
print(S_A/3., S_E/13.)
print((S_A/3.)/(S_E/13.))

・実行結果

> print(S_A, S_E)
(21.47058823529413, 19.0)
> print(S_A/3., S_E/13.)
(7.1568627450980431, 1.4615384615384615)
> print((S_A/3.)/(S_E/13.))
4.89680082559

上記の実行結果に基づいて下記の表を得ることができる。
$$
\large
\begin{array}{|c|*4{c|}}\hline machine & S & \phi & V & F \\
\hline A & 21.47 & 3 & 7.157 & 4.897 \\
\hline error & 19.00 & 13 & 1.462 & \\
\hline
\end{array}
$$

$F$値の$4.897$は自由度$(3,13)$の$F$分布の上側$5%$点の$F_{\alpha=0.05}(3,13)=3.41$を上回るので帰無仮説$H_0$を棄却し、対立仮説$H_1$を採択する。すなわち、「有意水準$5%$で機械により生産個数の母平均が異なる」と考えることができる。

$[3]$
点推定値$\bar{y}_{A_{3}}$とその$95$%区間$\bar{y}_{A_{3}} \pm t_{\alpha=0.025}(\phi_{E}) \sqrt{V_E/n_3}$は下記のように求めることができる。
$$
\large
\begin{align}
\bar{y}_{A_{3}} &= 17.5 \\
\bar{y}_{A_{3}} \pm t_{\alpha=0.025}(\phi_{E}) \sqrt{\frac{V_E}{n_3}} &= 17.5 \pm 2.16 \times \sqrt{\frac{1.462}{4}} \\
&= 17.5 \pm 1.31
\end{align}
$$

問20.3

$[1]$
×
Aの$1$元配置分散分析とA,Bの$2$元配置分散分析では誤差分散は異なる値を取る。

$[2]$
×
Aの平方和は$1$元配置分散分析と$2$元配置分散分析のどちらも変わらない。

$[3]$

問20.4

$[1]$
$S_{A \times B} = S_{T} – S_{A} – S_{B} – S_{E}$などを元に値を計算することで、下記のような分散分析表を作成することができる。
$$
\large
\begin{array}{|c|*4{c|}}\hline & S & \phi & V & F \\
\hline A & 3.00 & 3 & 3.00 & 4.50 \\
\hline B & 18.00 & 3 & 9.00 & 13.50 \\
\hline A \times B & 32.00 & 2 & 16.00 & 24.00 \\
\hline error & 4.00 & 6 & 0.67 & \\
\hline Total & 57.00 & 11 & & \\
\hline
\end{array}
$$

上記と$F_{\alpha=0.05}(3,6), F_{\alpha=0.05}(2,6)$などを比較することにより、$B$の主効果と$A \times B$の交互作用が有意水準$5$%で効果があると判断することができる。

$[2]$
$B$の主効果と交互作用$A \times B$が存在するので、$A, B$を組み合わせた表から$y$を大きくする$A, B$の水準を選べばよく、$A_2, B_3$の組み合わせがこれに該当する。

問20.5

$[1]$
予測式は下記のようになる。
$$
\large
\begin{align}
y_{ij} = \mu + \alpha_{i} + \beta_{j} + (\alpha \beta)_{ij} + \epsilon_{ijk}
\end{align}
$$

分散分析表は下記のように表せる。
$$
\large
\begin{array}{|c|*4{c|}}\hline & S & \phi & V & F \\
\hline A & 320.0 & 1 & 320.0 & 1.77 \\
\hline B & 125.0 & 1 & 125.0 & 0.69 \\
\hline A \times B & 320.0 & 1 & 320.0 & 1.77 \\
\hline error & 2891.2 & 16 & 180.7 & \\
\hline Total & 3656.2 & 19 & & \\
\hline
\end{array}
$$

上記より、$A, B$の主効果、交互作用$A \times B$は$5$%で有意とならない。

$[2]$
予測式は下記のようになる。
$$
\large
\begin{align}
y_{ij} = \mu + \alpha_{i} + \beta_{j} + (\alpha \beta)_{ij} + \gamma_{k} + \epsilon_{ijk}
\end{align}
$$

分散分析表は下記のように表せる。
$$
\large
\begin{array}{|c|*4{c|}}\hline & S & \phi & V & F \\
\hline A & 320.0 & 1 & 320.0 & 132.41 \\
\hline B & 125.0 & 1 & 125.0 & 51.72 \\
\hline A \times B & 320.0 & 1 & 320.0 & 132.41 \\
\hline V & 320.0 & 4 & 715.6 & 296.06 \\
\hline error & 2862.2 & 12 & 2.42 & \\
\hline Total & 3656.2 & 19 & & \\
\hline
\end{array}
$$

上記より、$A, B, V$の主効果、交互作用$A \times B$は$5$%で有意となる。

$[3]$
ブロック因子による変動が大きい場合には$[2]$のように誤差から分離する方が$A, B$などの効果の検出がしやすい。一方で、ブロック因子による変動がほとんどない場合にブロック因子を導入すると誤差の自由度が小さくなることで$A, B$などの効果の検出が行いにくくなる。

問20.6

$[1]$
直交表$L_8(2^7)$から第$[1]$列、第$[2]$列、第$[4]$列、第$[7]$列をそれぞれ$A,B,C,D$に対応すれば良いので、一部実施要因計画は下記のように表せる。
$$
\large
\begin{array}{|c|*4{c|}}\hline No. & A & B & C & D \\
\hline 1 & 1 & 1 & 1 & 1 \\
\hline 2 & 1 & 1 & 2 & 2 \\
\hline 3 & 1 & 2 & 1 & 2 \\
\hline 4 & 1 & 2 & 2 & 1 \\
\hline 5 & 2 & 1 & 1 & 2 \\
\hline 6 & 2 & 1 & 2 & 1 \\
\hline 7 & 2 & 2 & 1 & 1 \\
\hline 8 & 2 & 2 & 2 & 2 \\
\hline
\end{array}
$$

$[2]$
i) 主効果と$2$因子交互作用が交絡する組み合わせはない。
ⅱ) $2$因子交互作用は選ばなかった残りの$2$因子からなる$2$因子交互作用と交絡する。

$[3]$
$[1]$の$D$の列のみ$A \times B$に置き換えることで、一部実施要因計画は下記のように表すことができる。
$$
\large
\begin{array}{|c|*4{c|}}\hline No. & A & B & C & D \\
\hline 1 & 1 & 1 & 1 & 1 \\
\hline 2 & 1 & 1 & 2 & 1 \\
\hline 3 & 1 & 2 & 1 & 2 \\
\hline 4 & 1 & 2 & 2 & 2 \\
\hline 5 & 2 & 1 & 1 & 2 \\
\hline 6 & 2 & 1 & 2 & 2 \\
\hline 7 & 2 & 2 & 1 & 1 \\
\hline 8 & 2 & 2 & 2 & 1 \\
\hline
\end{array}
$$
上記を確認することで、$D$と$A,B,C$が直交することが確認できる。

$[4]$
i) $A$の主効果と$B \times D$、$B$の主効果と$A \times D$、$D$の主効果と$A \times B$が行楽する。
ⅱ) 行楽する$2$因子交互作用の組み合わせはない。

$[5]$
$C$の主効果や$C$に関連する$2$因子交互作用を調べる場合には$C$の主効果や$A \times C, B \times C, C \times D$の交絡がない$[3]$の計画を用いると良い。それ以外の場合では$[1]$の計画を用いると良い。

問20.7

$[1]$
交互作用$A \times B$は第$[3]$列、交互作用$A \times C$は第$[5]$列に現れる。

$[2]$
成分記号を元に$A \times B, A \times C, A \times D, B \times C, B \times D, C \times D$が対応する成分記号を考えると下記が得られる。
$$
\large
\begin{array}{|c|*2{c|}}\hline & abc & column \\
\hline A \times B & ab & [3] \\
\hline A \times C & ac & [5] \\
\hline A \times D & a^2bc=bc & [6] \\
\hline B \times C & bc & [6] \\
\hline B \times D & ab^2c=ac & [5] \\
\hline C \times D & abc^2=ab & [3] \\
\hline
\end{array}
$$

上記より、$A,B,C,D$の$2$因子交互作用同士は交絡する組み合わせがある一方で、主効果と$2$因子交互作用は交絡せず直交することがわかる。

$[3]$
分散分析表は下記のように作成できる。
$$
\large
\begin{array}{|c|*4{c|}}\hline & S & \phi & V & F \\
\hline A & 171.125 & 1 & 171.125 & 6.084 \\
\hline B & 45.125 & 1 & 45.125 & 1.604 \\
\hline C & 66.125 & 1 & 66.125 & 2.351 \\
\hline D & 6.125 & 1 & 6.125 & 0.218 \\
\hline A \times B & 3.125 & 1 & 0.111 \\
\hline A \times C & 136.125 & 1 & 4.840 \\
\hline error & 28.125 & 1 & 28.125 & \\
\hline Total & 455.875 & 7 & & \\
\hline
\end{array}
$$

$[4]$
$F$検定統計量に$F=2$を用いる場合、$[3]$で作成を行なった表より、$A, C, A \times C$を考慮する必要があることがわかる。また、応答$y$の値を小さくするにあたっては$A_1,C_2$の組み合わせが良いことが読み取れる。

参考文献