Ch.3 「実験データの分析」の章末問題の解答例 〜自然科学の統計学(東京大学出版会)〜

当記事は「基礎統計学Ⅲ 自然科学の統計学(東京大学出版会)」の読解サポートにあたってChapter.3の「実験データの分析」の章末問題の解説について行います。
基本的には書籍の購入者向けの解答例・解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

章末の演習問題について

問題3.1の解答例

i)
標本平均を$\bar{x}_1$、$\bar{x}_2$、不偏標本分散を$s_1^2$、$s_2^2$、母分散を$\sigma_1^2$、$\sigma_2^2$とする。このとき、$F$値は下記のように計算できる。
$$
\begin{align}
F = \frac{s_1^2}{s_2^2} \cdot \frac{\sigma_2^2}{\sigma_1^2}
\end{align}
$$
上記で計算した$F$値は自由度$(m-1, n-1)=(9-1, 9-1)=(8, 8)$の$F$分布$F(8, 8)$に従う。ここで等分散の検定を行うにあたって、$\sigma_1^2=\sigma_2^2$を帰無仮説とする。これを有意水準$5$%で検定するにあたっては、$\displaystyle F = \frac{s_1^2}{s_2^2}$が$F(8, 8)$の$95$%区間に含まれるかどうかを確認すればよい。ここで$\bar{x}_1$、$\bar{x}_2$、$s_1^2$、$s_2^2$、$F$は下記のように計算できる。
$$
\begin{align}
\bar{x}_1 &= \frac{1}{9}(0.813+0.820+0.771+0.908+0.944+0.771+0.763+0.996+0.886) \\
&= 0.8524… \\
\bar{x}_2 &= \frac{1}{9}(1.045+1.100+1.013+1.009+1.204+0.996+1.352+1.173+0.934) \\
&= 1.09177… \\
s_1^2 &= \frac{9}{8}(E[X^2]-E[X]^2) \\
&= \frac{9}{8}((0.813^2+0.820^2+0.771^2+0.908^2+0.944^2+0.771^2+0.763^2+0.996^2+0.886^2)/9-\bar{x}_1^2) \\
&= 0.0071… \\
s_2^2 &= \frac{9}{8}((1.045^2+1.100^2+1.013^2+1.009^2+1.204^2+0.996^2+1.352^2+1.173^2+0.934^2)/9-\bar{x}_2^2) \\
&= 0.0170… \\
F &= \frac{s_1^2}{s_2^2} \\
&= \frac{0.00713…}{0.0170…} \\
&= 0.4194…
\end{align}
$$
$F$分布において上側確率が$100\alpha$%となるパーセント点に対応する$F$の値を$F_{\alpha}$とする。
等分散の検定にあたっては、$F_{\alpha=0.975}(8,8) \leq F \leq F_{\alpha=0.025}(8,8)$となるかを確認すればよい。$F_{\alpha=0.975}(8,8)$についての$F$分布表は用意されないことが多いが、$F$分布の性質より$F_{\alpha=0.975}(8,8)=1/F_{\alpha=0.025}(8,8)$が成立するためこのことを利用する。
ここで$F_{\alpha=0.025}(8,8)=4.433$、$1/F_{\alpha=0.025}(8,8)=0.2256$だから有意水準$5$%では等分散を前提とする帰無仮説を棄却できず、有意ではない。そのため、以降の問題では等分散を仮定する。

ⅱ)
i)の結果より、等分散を仮定する。ここで全体の不偏標本分散を$s^2$とすると下記のように計算することができる。
$$
\begin{align}
s^2 &= \frac{(m-1)s_1^2+(n-1)s_2^2}{m+n-2} \\
&= 0.01208…
\end{align}
$$
このとき、$t$値を下記のように計算できる。
$$
\begin{align}
t &= \frac{\bar{x}_1-\bar{x}_2}{s\sqrt{(1/m)+(1/n)}} \\
&= -4.6182…
\end{align}
$$
上記が自由度$16$の$t$分布$t(16)$に従う。ここで、$t$分布において上側確率が$100\alpha$%となるパーセント点に対応する$t$の値を$t{\alpha}$とする。このとき$t_{\alpha=0.025}(16)=2.120$、$t_{\alpha=0.975}(16)=-t_{\alpha=0.025}(16)=-2.120$であるので、母平均が等しいとする帰無仮説は棄却できる。よって、平均には有意な差があると考えることができる。

ⅲ)
$$
\begin{align}
t = \frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{s\sqrt{(1/m)+(1/n)}}
\end{align}
$$
上記のように$t$値を計算すると、上記は自由度16の$t$分布$t(16)$に従う。ここで、$t$分布において上側確率が$100\alpha$%となるパーセント点に対応する$t$の値を$t{\alpha}$とすると、下記が成立する。
$$
\begin{align}
t_{\alpha=0.975}(16) \leq t \leq t_{\alpha=0.025}(16)
\end{align}
$$
上記において、$t_{\alpha=0.025}(16)=2.120$、$t_{\alpha=0.975}(16)=-t_{\alpha=0.025}(16)=-2.120$が成立する。これに基づいて$\mu_1-\mu_2$の区間の推定を行う。
$$
\begin{align}
t_{\alpha=0.975}(16) \leq &t \leq t_{\alpha=0.025}(16) \\
t_{\alpha=0.975}(16) \leq &\frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{s\sqrt{(1/m)+(1/n)}} \leq t_{\alpha=0.025}(16) \\
t_{\alpha=0.975}(16)s\sqrt{\frac{1}{m}+\frac{1}{n}} \leq &(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2) \leq t_{\alpha=0.025}(16)s\sqrt{\frac{1}{m}+\frac{1}{n}} \\
-t_{\alpha=0.025}(16)s\sqrt{\frac{1}{m}+\frac{1}{n}} \leq &(\mu_1-\mu_2)-(\bar{x}_1-\bar{x}_2) \leq -t_{\alpha=0.975}(16)s\sqrt{\frac{1}{m}+\frac{1}{n}} \\
(\bar{x}_1-\bar{x}_2)-t_{\alpha=0.025}(16)s\sqrt{\frac{1}{m}+\frac{1}{n}} \leq &(\mu_1-\mu_2) \leq (\bar{x}_1-\bar{x}_2)+t_{\alpha=0.025}(16)s\sqrt{\frac{1}{m}+\frac{1}{n}} \\
(\bar{x}_1-\bar{x}_2)-2.120s\sqrt{\frac{1}{9}+\frac{1}{9}} \leq &(\mu_1-\mu_2) \leq (\bar{x}_1-\bar{x}_2)+2.120s\sqrt{\frac{1}{9}+\frac{1}{9}} \\
-0.349… \leq &(\mu_1-\mu_2) \leq -0.129…
\end{align}
$$
よって求める区間は$[-0.349…, -0.129…]$となる。

問題3.2の解答例

温度$A_1$〜$A_4$に対応する得られたサンプルの平均を$\mu_1$〜$\mu_4$、全体の平均を$\mu$とする。それぞれは下記のように計算できる。
$$
\begin{align}
\mu_1 &= \frac{1}{4}(70+73+75+72) \\
&= 72.5 \\
\mu_2 &= \frac{1}{4}(74+74+77+75) \\
&= 75 \\
\mu_3 &= \frac{1}{4}(78+75+79+80) \\
&= 78 \\
\mu_4 &= \frac{1}{4}(76+78+75+75) \\
&= 76 \\
\mu &= \frac{1}{16}(70+73+75+72+74+74+77+75+78+75+79+80+76+78+75+75) \\
&= 75.375
\end{align}
$$
級間平方和を$S_A$、誤差平方和を$S_e$とおくと、それぞれ下記のように計算することができる。
$$
\begin{align}
S_A &= 4(72.5-75.375)^2+4(75-75.375)^2+4(78-75.375)^2+4(76-75.375)^2 \\
&= 62.75
\end{align}
$$
$$
\begin{align}
S_e &= (70-72.5)^2+(73-72.5)^2+(75-72.5)^2+(72-72.5)^2 \\
&+ (74-75)^2+(74-75)^2+(77-75)^2+(75-75)^2 \\
&+ (78-78)^2+(75-78)^2+(79-78)^2+(80-78)^2 \\
&+ (76-76)^2+(78-76)^2+(75-76)^2+(75-76)^2 \\
&= 39
\end{align}
$$
ここでそれぞれの自由度を$\nu_A=4-1=3$、$\nu_e=16-4=12$なので、下記のように$F$値が計算できる。
$$
\begin{align}
F &= \frac{S_A/\nu_A}{S_e/\nu_e} \\
&= \frac{62.75/3}{39/12} \\
&= 6.43589…
\end{align}
$$
ここで、$F$分布において上側確率が$100\alpha$%となるパーセント点に対応する$F$の値を$F_{\alpha}$とする。$F_{\alpha=0.025}(3,12)=4.474$より帰無仮説は棄却できる。よって、4水準の平均は異なると考えられる。

問題3.3の解答例

$$
\large
\begin{align}
S_{T} = S_{A} + S_{B} + S_{A \times B} + S_{e}
\end{align}
$$
以下、上記で表される(3.27)式が成立することを確認する。

$S_{T}, S_{A}, S_{B}, S_{A \times B}, S_{e}$はそれぞれ下記のように定義される。
$$
\large
\begin{align}
S_{T} &= \sum_{i} \sum_{j} \sum_{k} (y_{ijk}-\bar{y})^2 \\
S_{A} &= \sum_{i} \sum_{j} \sum_{k} (\bar{y}_{A_{i}}-\bar{y})^2 \\
S_{B} &= \sum_{i} \sum_{j} \sum_{k} (\bar{y}_{B_{j}}-\bar{y})^2 \\
S_{A \times B} &= \sum_{j} \sum_{k} (\bar{y}_{A_{i}B_{j}}-\bar{y}_{A_{i}}-\bar{y}_{B_{j}}+\bar{y})^2 \\
S_{e} &= \sum_{j} \sum_{k} (y_{ijk}-\bar{y}_{A_{i}B_{j}})^2
\end{align}
$$

上記を元に下記のような変形を行うことで$(1)$式が成立することを示すことができる。
$$
\large
\begin{align}
S_{T} &= \sum_{i} \sum_{j} \sum_{k} (y_{ijk}-\bar{y})^2 \\
&= \sum_{i} \sum_{j} \sum_{k} ((y_{ijk}-\bar{y}_{A_{i}B_{j}}) + (\bar{y}_{A_{i}B_{j}}-\bar{y}_{A_{i}}-\bar{y}_{B_{j}}+\bar{y}) + (\bar{y}_{A_{i}}-\bar{y}) + (\bar{y}_{B_{j}}-\bar{y}))^2 \\
&= \sum_{i} \sum_{j} \sum_{k} \left( (y_{ijk}-\bar{y}_{A_{i}B_{j}})^2 + (\bar{y}_{A_{i}B_{j}}-\bar{y}_{A_{i}}-\bar{y}_{B_{j}}+\bar{y})^2 + (\bar{y}_{A_{i}}-\bar{y})^2 + (\bar{y}_{B_{j}}-\bar{y})^2 \right) \\
&+ \sum_{i} \sum_{j} \sum_{k} \left( (y_{ijk}-\bar{y}_{A_{i}B_{j}})(\bar{y}_{A_{i}B_{j}}-\bar{y}_{A_{i}}-\bar{y}_{B_{j}}+\bar{y}) + … (\bar{y}_{A_{i}}-\bar{y})(\bar{y}_{B_{j}}-\bar{y}) \right) \\
&= S_{A} + S_{B} + S_{A \times B} + S_{e}
\end{align}
$$

上記の導出にあたっては下記が成立することを利用した。
$$
\large
\begin{align}
\sum_{i} \sum_{j} \sum_{k} (\bar{y}_{A_{i}}-\bar{y}) &= 0 \\
\sum_{i} \sum_{j} \sum_{k} (\bar{y}_{B_{j}}-\bar{y}) &= 0 \\
\sum_{j} \sum_{k} (\bar{y}_{A_{i}B_{j}}-\bar{y}_{A_{i}}-\bar{y}_{B_{j}}+\bar{y})^2 &= 0 \\
\sum_{j} \sum_{k} (y_{ijk}-\bar{y}_{A_{i}B_{j}})^2 &= 0
\end{align}
$$

問題3.4の解答例

問題3.5の解答例

問題3.6の解答例

下記を実行することで諸々の値を得ることができる。

import numpy as np

observed = np.array([[[54.,55.],[63.,60.],[61.,58.],[51.,53.]], [[64.,67.],[70.,70.],[67.,62.],[58.,61.]], [[54.,50.],[48.,64.],[57.,47.],[47.,42.]]])

S_A = 8.*(np.mean(observed[0,:,:])-np.mean(observed))**2 + 8.*(np.mean(observed[1,:,:])-np.mean(observed))**2 + 8.*(np.mean(observed[2,:,:])-np.mean(observed))**2
S_B = 6.*(np.mean(observed[:,0,:])-np.mean(observed))**2 + 6.*(np.mean(observed[:,1,:])-np.mean(observed))**2 + 6.*(np.mean(observed[:,2,:])-np.mean(observed))**2 + 6.*(np.mean(observed[:,3,:])-np.mean(observed))**2
S_AB = 0
S_e = 0
for i in range(observed.shape[0]):
    for j in range(observed.shape[1]):
        S_AB += 2.*(np.mean(observed[i,j,:])-np.mean(observed[i,:,:])-np.mean(observed[:,j,:])+np.mean(observed))**2
        S_e += np.sum((observed[i,j,:]-np.mean(observed[i,j,:]))**2)

print("S_A, S_B, S_AB, S_e: {}, {}, {}, {}".format(S_A, S_B, S_AB, S_e))
print("V_A, V_B, V_AB, V_e: {}, {}, {}, {}".format(S_A/2., S_B/3., S_AB/6., S_e/12.))
print("F_A, F_B, F_AB: {}, {}, {}".format((S_A/2.)/(S_e/12.), (S_B/3.)/(S_e/12.), (S_AB/6./(S_e/12.))))

・実行結果

> print("S_A, S_B, S_AB, S_e: {}, {}, {}, {}".format(S_A, S_B, S_AB, S_e))
S_A, S_B, S_AB, S_e: 763.0, 339.458333333, 25.6666666667, 231.5
> print("V_A, V_B, V_AB, V_e: {}, {}, {}, {}".format(S_A/2., S_B/3., S_AB/6., S_e/12.))
V_A, V_B, V_AB, V_e: 381.5, 113.152777778, 4.27777777778, 19.2916666667
> print("F_A, F_B, F_AB: {}, {}, {}".format((S_A/2.)/(S_e/12.), (S_B/3.)/(S_e/12.), (S_AB/6./(S_e/12.))))
F_A, F_B, F_AB: 19.7753779698, 5.86537077034, 0.221742260619

上記より、下記のような分散分析表を作成することができる。
$$
\large
\begin{array}{|c|*4{c|}}\hline & S & \phi & V & F \\
\hline A & 763.0 & 2 & 381.5 & 19.78 \\
\hline B & 339.5 & 3 & 113.2 & 5.87 \\
\hline A \times B & 25.7 & 6 & 4.28 & 0.22 \\
\hline \mathrm{error} & 231.5 & 12 & 19.29 & \\
\hline \mathrm{Total} & 1359.6 & 23 & & \\
\hline
\end{array}
$$

上記より主効果$A, B$に関して有意水準$5$%で有意であることが確認できる。

まとめ

Chapter.3の「実験データの分析」の演習について取り扱いました。

https://www.amazon.co.jp/dp/4130420674