Ch.3 「実験データの分析」の章末問題の解答例 〜自然科学の統計学(東京大学出版会)〜

当記事は「基礎統計学Ⅲ 自然科学の統計学(東京大学出版会)」の読解サポートにあたってChapter.3の「実験データの分析」の章末問題の解説について行います。
※ 基本的には書籍の購入者向けの解答例・解説なので、まだ入手されていない方は下記より入手をご検討いただけたらと思います。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。(そのため著者の意図とは異なる解説となる可能性はあります)

章末の演習問題について

問題3.1の解答例

i)
標本平均を$\bar{x}_1$、$\bar{x}_2$、不偏標本分散を$s_1^2$、$s_2^2$、母分散を$\sigma_1^2$、$\sigma_2^2$とする。このとき、$F$値は下記のように計算できる。
$$
\begin{align}
F = \frac{s_1^2}{s_2^2} \cdot \frac{\sigma_2^2}{\sigma_1^2}
\end{align}
$$
上記で計算した$F$値は自由度$(m-1, n-1)=(9-1, 9-1)=(8, 8)$の$F$分布$F(8, 8)$に従う。ここで等分散の検定を行うにあたって、$\sigma_1^2=\sigma_2^2$を帰無仮説とする。これを有意水準$5$%で検定するにあたっては、$\displaystyle F = \frac{s_1^2}{s_2^2}$が$F(8, 8)$の$95$%区間に含まれるかどうかを確認すればよい。ここで$\bar{x}_1$、$\bar{x}_2$、$s_1^2$、$s_2^2$、$F$は下記のように計算できる。
$$
\begin{align}
\bar{x}_1 &= \frac{1}{9}(0.813+0.820+0.771+0.908+0.944+0.771+0.763+0.996+0.886) \\
&= 0.8524… \\
\bar{x}_2 &= \frac{1}{9}(1.045+1.100+1.013+1.009+1.204+0.996+1.352+1.173+0.934) \\
&= 1.09177… \\
s_1^2 &= \frac{9}{8}(E[X^2]-E[X]^2) \\
&= \frac{9}{8}((0.813^2+0.820^2+0.771^2+0.908^2+0.944^2+0.771^2+0.763^2+0.996^2+0.886^2)/9-\bar{x}_1^2) \\
&= 0.0071… \\
s_2^2 &= \frac{9}{8}((1.045^2+1.100^2+1.013^2+1.009^2+1.204^2+0.996^2+1.352^2+1.173^2+0.934^2)/9-\bar{x}_2^2) \\
&= 0.0170… \\
F &= \frac{s_1^2}{s_2^2} \\
&= \frac{0.00713…}{0.0170…} \\
&= 0.4194…
\end{align}
$$
$F$分布において上側確率が$100\alpha$%となるパーセント点に対応する$F$の値を$F_{\alpha}$とする。
等分散の検定にあたっては、$F_{\alpha=0.975}(8,8) \leq F \leq F_{\alpha=0.025}(8,8)$となるかを確認すればよい。$F_{\alpha=0.975}(8,8)$についての$F$分布表は用意されないことが多いが、$F$分布の性質より$F_{\alpha=0.975}(8,8)=1/F_{\alpha=0.025}(8,8)$が成立するためこのことを利用する。
ここで$F_{\alpha=0.025}(8,8)=4.433$、$1/F_{\alpha=0.025}(8,8)=0.2256$だから有意水準$5$%では等分散を前提とする帰無仮説を棄却できず、有意ではない。そのため、以降の問題では等分散を仮定する。

ⅱ)
i)の結果より、等分散を仮定する。ここで全体の不偏標本分散を$s^2$とすると下記のように計算することができる。
$$
\begin{align}
s^2 &= \frac{(m-1)s_1^2+(n-1)s_2^2}{m+n-2} \\
&= 0.01208…
\end{align}
$$
このとき、$t$値を下記のように計算できる。
$$
\begin{align}
t &= \frac{\bar{x}_1-\bar{x}_2}{s\sqrt{(1/m)+(1/n)}} \\
&= -4.6182…
\end{align}
$$
上記が自由度$16$の$t$分布$t(16)$に従う。ここで、$t$分布において上側確率が$100\alpha$%となるパーセント点に対応する$t$の値を$t{\alpha}$とする。このとき$t_{\alpha=0.025}(16)=2.120$、$t_{\alpha=0.975}(16)=-t_{\alpha=0.025}(16)=-2.120$であるので、母平均が等しいとする帰無仮説は棄却できる。よって、平均には有意な差があると考えることができる。

ⅲ)
$$
\begin{align}
t = \frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{s\sqrt{(1/m)+(1/n)}}
\end{align}
$$
上記のように$t$値を計算すると、上記は自由度16の$t$分布$t(16)$に従う。ここで、$t$分布において上側確率が$100\alpha$%となるパーセント点に対応する$t$の値を$t{\alpha}$とすると、下記が成立する。
$$
\begin{align}
t_{\alpha=0.975}(16) \leq t \leq t_{\alpha=0.025}(16)
\end{align}
$$
上記において、$t_{\alpha=0.025}(16)=2.120$、$t_{\alpha=0.975}(16)=-t_{\alpha=0.025}(16)=-2.120$が成立する。これに基づいて$\mu_1-\mu_2$の区間の推定を行う。
$$
\begin{align}
t_{\alpha=0.975}(16) \leq &t \leq t_{\alpha=0.025}(16) \\
t_{\alpha=0.975}(16) \leq &\frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{s\sqrt{(1/m)+(1/n)}} \leq t_{\alpha=0.025}(16) \\
t_{\alpha=0.975}(16)s\sqrt{\frac{1}{m}+\frac{1}{n}} \leq &(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2) \leq t_{\alpha=0.025}(16)s\sqrt{\frac{1}{m}+\frac{1}{n}} \\
-t_{\alpha=0.025}(16)s\sqrt{\frac{1}{m}+\frac{1}{n}} \leq &(\mu_1-\mu_2)-(\bar{x}_1-\bar{x}_2) \leq -t_{\alpha=0.975}(16)s\sqrt{\frac{1}{m}+\frac{1}{n}} \\
(\bar{x}_1-\bar{x}_2)-t_{\alpha=0.025}(16)s\sqrt{\frac{1}{m}+\frac{1}{n}} \leq &(\mu_1-\mu_2) \leq (\bar{x}_1-\bar{x}_2)+t_{\alpha=0.025}(16)s\sqrt{\frac{1}{m}+\frac{1}{n}} \\
(\bar{x}_1-\bar{x}_2)-2.120s\sqrt{\frac{1}{9}+\frac{1}{9}} \leq &(\mu_1-\mu_2) \leq (\bar{x}_1-\bar{x}_2)+2.120s\sqrt{\frac{1}{9}+\frac{1}{9}} \\
-0.349… \leq &(\mu_1-\mu_2) \leq -0.129…
\end{align}
$$
よって求める区間は$[-0.349…, -0.129…]$となる。

問題3.2の解答例

温度$A_1$〜$A_4$に対応する得られたサンプルの平均を$\mu_1$〜$\mu_4$、全体の平均を$\mu$とする。それぞれは下記のように計算できる。
$$
\begin{align}
\mu_1 &= \frac{1}{4}(70+73+75+72) \\
&= 72.5 \\
\mu_2 &= \frac{1}{4}(74+74+77+75) \\
&= 75 \\
\mu_3 &= \frac{1}{4}(78+75+79+80) \\
&= 78 \\
\mu_4 &= \frac{1}{4}(76+78+75+75) \\
&= 76 \\
\mu &= \frac{1}{16}(70+73+75+72+74+74+77+75+78+75+79+80+76+78+75+75) \\
&= 75.375
\end{align}
$$
級間平方和を$S_A$、誤差平方和を$S_e$とおくと、それぞれ下記のように計算することができる。
$$
\begin{align}
S_A &= 4(72.5-75.375)^2+4(75-75.375)^2+4(78-75.375)^2+4(76-75.375)^2 \\
&= 62.75
\end{align}
$$
$$
\begin{align}
S_e &= (70-72.5)^2+(73-72.5)^2+(75-72.5)^2+(72-72.5)^2 \\
&+ (74-75)^2+(74-75)^2+(77-75)^2+(75-75)^2 \\
&+ (78-78)^2+(75-78)^2+(79-78)^2+(80-78)^2 \\
&+ (76-76)^2+(78-76)^2+(75-76)^2+(75-76)^2 \\
&= 39
\end{align}
$$
ここでそれぞれの自由度を$\nu_A=4-1=3$、$\nu_e=16-4=12$なので、下記のように$F$値が計算できる。
$$
\begin{align}
F &= \frac{S_A/\nu_A}{S_e/\nu_e} \\
&= \frac{62.75/3}{39/12} \\
&= 6.43589…
\end{align}
$$
ここで、$F$分布において上側確率が$100\alpha$%となるパーセント点に対応する$F$の値を$F_{\alpha}$とする。$F_{\alpha=0.025}(3,12)=4.474$より帰無仮説は棄却できる。よって、4水準の平均は異なると考えられる。

問題3.3の解答例

$$
\large
\begin{align}
S_{T} = S_{A} + S_{B} + S_{A \times B} + S_{e}
\end{align}
$$
以下、上記で表される(3.27)式が成立することを確認する。

$S_{T}, S_{A}, S_{B}, S_{A \times B}, S_{e}$はそれぞれ下記のように定義される。
$$
\large
\begin{align}
S_{T} &= \sum_{i} \sum_{j} \sum_{k} (y_{ijk}-\bar{y})^2 \\
S_{A} &= \sum_{i} \sum_{j} \sum_{k} (\bar{y}_{A_{i}}-\bar{y})^2 \\
S_{B} &= \sum_{i} \sum_{j} \sum_{k} (\bar{y}_{B_{j}}-\bar{y})^2 \\
S_{A \times B} &= \sum_{j} \sum_{k} (\bar{y}_{A_{i}B_{j}}-\bar{y}_{A_{i}}-\bar{y}_{B_{j}}+\bar{y})^2 \\
S_{e} &= \sum_{j} \sum_{k} (y_{ijk}-\bar{y}_{A_{i}B_{j}})^2
\end{align}
$$

上記を元に下記のような変形を行うことで$(1)$式が成立することを示すことができる。
$$
\large
\begin{align}
S_{T} &= \sum_{i} \sum_{j} \sum_{k} (y_{ijk}-\bar{y})^2 \\
&= \sum_{i} \sum_{j} \sum_{k} ((y_{ijk}-\bar{y}_{A_{i}B_{j}}) + (\bar{y}_{A_{i}B_{j}}-\bar{y}_{A_{i}}-\bar{y}_{B_{j}}+\bar{y}) + (\bar{y}_{A_{i}}-\bar{y}) + (\bar{y}_{B_{j}}-\bar{y}))^2 \\
&= \sum_{i} \sum_{j} \sum_{k} \left( (y_{ijk}-\bar{y}_{A_{i}B_{j}})^2 + (\bar{y}_{A_{i}B_{j}}-\bar{y}_{A_{i}}-\bar{y}_{B_{j}}+\bar{y})^2 + (\bar{y}_{A_{i}}-\bar{y})^2 + (\bar{y}_{B_{j}}-\bar{y})^2 \right) \\
&+ \sum_{i} \sum_{j} \sum_{k} \left( (y_{ijk}-\bar{y}_{A_{i}B_{j}})(\bar{y}_{A_{i}B_{j}}-\bar{y}_{A_{i}}-\bar{y}_{B_{j}}+\bar{y}) + … (\bar{y}_{A_{i}}-\bar{y})(\bar{y}_{B_{j}}-\bar{y}) \right) \\
&= S_{A} + S_{B} + S_{A \times B} + S_{e}
\end{align}
$$

上記の導出にあたっては下記が成立することを利用した。
$$
\large
\begin{align}
\sum_{i} \sum_{j} \sum_{k} (\bar{y}_{A_{i}}-\bar{y}) &= 0 \\
\sum_{i} \sum_{j} \sum_{k} (\bar{y}_{B_{j}}-\bar{y}) &= 0 \\
\sum_{j} \sum_{k} (\bar{y}_{A_{i}B_{j}}-\bar{y}_{A_{i}}-\bar{y}_{B_{j}}+\bar{y})^2 &= 0 \\
\sum_{j} \sum_{k} (y_{ijk}-\bar{y}_{A_{i}B_{j}})^2 &= 0
\end{align}
$$

問題3.4の解答例

問題3.5の解答例

問題3.6の解答例

下記を実行することで諸々の値を得ることができる。

import numpy as np

observed = np.array([[[54.,55.],[63.,60.],[61.,58.],[51.,53.]], [[64.,67.],[70.,70.],[67.,62.],[58.,61.]], [[54.,50.],[48.,64.],[57.,47.],[47.,42.]]])

S_A = 8.*(np.mean(observed[0,:,:])-np.mean(observed))**2 + 8.*(np.mean(observed[1,:,:])-np.mean(observed))**2 + 8.*(np.mean(observed[2,:,:])-np.mean(observed))**2
S_B = 6.*(np.mean(observed[:,0,:])-np.mean(observed))**2 + 6.*(np.mean(observed[:,1,:])-np.mean(observed))**2 + 6.*(np.mean(observed[:,2,:])-np.mean(observed))**2 + 6.*(np.mean(observed[:,3,:])-np.mean(observed))**2
S_AB = 0
S_e = 0
for i in range(observed.shape[0]):
    for j in range(observed.shape[1]):
        S_AB += 2.*(np.mean(observed[i,j,:])-np.mean(observed[i,:,:])-np.mean(observed[:,j,:])+np.mean(observed))**2
        S_e += np.sum((observed[i,j,:]-np.mean(observed[i,j,:]))**2)

print("S_A, S_B, S_AB, S_e: {}, {}, {}, {}".format(S_A, S_B, S_AB, S_e))
print("V_A, V_B, V_AB, V_e: {}, {}, {}, {}".format(S_A/2., S_B/3., S_AB/6., S_e/12.))
print("F_A, F_B, F_AB: {}, {}, {}".format((S_A/2.)/(S_e/12.), (S_B/3.)/(S_e/12.), (S_AB/6./(S_e/12.))))

・実行結果

> print("S_A, S_B, S_AB, S_e: {}, {}, {}, {}".format(S_A, S_B, S_AB, S_e))
S_A, S_B, S_AB, S_e: 763.0, 339.458333333, 25.6666666667, 231.5
> print("V_A, V_B, V_AB, V_e: {}, {}, {}, {}".format(S_A/2., S_B/3., S_AB/6., S_e/12.))
V_A, V_B, V_AB, V_e: 381.5, 113.152777778, 4.27777777778, 19.2916666667
> print("F_A, F_B, F_AB: {}, {}, {}".format((S_A/2.)/(S_e/12.), (S_B/3.)/(S_e/12.), (S_AB/6./(S_e/12.))))
F_A, F_B, F_AB: 19.7753779698, 5.86537077034, 0.221742260619

上記より、下記のような分散分析表を作成することができる。
$$
\large
\begin{array}{|c|*4{c|}}\hline & S & \phi & V & F \\
\hline A & 763.0 & 2 & 381.5 & 19.78 \\
\hline B & 339.5 & 3 & 113.2 & 5.87 \\
\hline A \times B & 25.7 & 6 & 4.28 & 0.22 \\
\hline error & 231.5 & 12 & 19.29 & \\
\hline Total & 1359.6 & 23 & & \\
\hline
\end{array}
$$

上記より主効果$A, B$に関して有意水準$5$%で有意であることが確認できる。

まとめ

Chapter.3の「実験データの分析」の演習について取り扱いました。

https://www.amazon.co.jp/dp/4130420674