ブログ

統計検定2級 公式問題集 CBT対応版 解答例まとめ 〜10. 線形モデル〜

「統計検定$2$級 公式問題集 CBT対応版」の解答例を取りまとめるにあたって、当記事では「PART.$2$ 分野・項目別 問題・解説」のCategory.$10$「線形モデル」の解答例を作成しました。解答例は「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

回帰分析

Q.1

$[1]$
散布図より負の相関があることが読み取れるので④か⑤に絞られる。ここで⑤の$-0.994$がほとんど直線上にある場合に相当するので、④の$-0.794$が正解であると考えられる。

$[2]$
回帰直線が$(\bar{x},\bar{y})$を通ることと極端な外れ値がないことから②が適切であると考えることができる。

$[3]$
標本の大きさが$25$であるので自由度は$25-2=23$である。また、検定統計量の値は下記のように計算できる。
$$
\large
\begin{align}
\frac{-0.14510}{0.02316} = -6.26 \cdots
\end{align}
$$

上記より⑤が正解であると考えられる。

・考察
回帰分析を行う際に二乗誤差の偏微分から得られる正規方程式は下記のように表されます。
$$
\large
\begin{align}
\frac{\partial E(b_0, b_1)}{\partial b_0} &= -2 \sum_{i=1}^{n} (y_i – b_1 x_i – b_0) = 0 \\
\frac{\partial E(b_0, b_1)}{\partial b_1} &= -2 \sum_{i=1}^{n} (y_i – b_1 x_i – b_0)x_i = 0
\end{align}
$$

上記に$\hat{y}_i = b_0 + b_1 x_i$を代入すると、$\displaystyle \sum_{i=1}^{n} (y_i-\hat{y}_i)=0$が得られるので、$\bar{y}=\bar{\hat{y}}$が成立します。よって回帰直線は$(\bar{x},\bar{y})$を通ると考えられます。正規方程式は下記などで詳しく取り扱いました。

Q.2

・$[1]$
①が正しい。

・$[2]$
前問の考察で詳しく確認を行ったが、$\bar{y}=\bar{\hat{y}}$が成立するので正しい。
Ⅱ $\hat{y} = 0.4121\hat{x} + 14.3931, \hat{y}=31.3$より$\hat{x}=41.0$が成立するので正しい。
Ⅲ 残差$e_i$は$e_i=y_i-\hat{y}_i$で定義され、$\hat{y}+e_i=y_i$が成立するので正しい。

よって、⑤が正解である。

Q.3

・$[1]$
残差の平均$\bar{e}$は$\bar{e}=\bar{y}-\bar{\hat{y}}=0$より常に$0$である。よって④が正しい。

・$[2]$
回帰分析の出力結果を表した図との対応を考えると、①と③に絞られる。残差$e_i$は$e_i=y_i-\hat{y}_i$のように「実測ー予測」で定義されるので、①が正しい残差プロットである。

・$[3]$
$n=195$で十分大きいと考え、$t$分布の正規近似を元に回帰係数$\beta$の$90$%区間は下記のように表せる。
$$
\large
\begin{align}
-1.645 \leq & \frac{-60.263 – \beta}{4.414} \leq 1.645 \\
-60.263 – 1.645 \times 4.414 \leq & \beta \leq -60.263 + 1.645 \times 4.414 \\
-67.52 \leq & \beta \leq -53.00
\end{align}
$$

よって②が正解である。

Q.4

・$[1]$
Ⅱのみ正しいので②が正解である。

・$[2]$
Ⅰのみ正しいので①が正解である。

分散分析

Q.1

・$[1]$
全平方和は$0.2204+0.3370=0.5574$であるので、不偏標本分散は下記のように計算できる。
$$
\large
\begin{align}
\frac{0.5574}{19} = 0.0293 \cdots
\end{align}
$$

よって①が正解である。

・$[2]$
地域の自由度は$4-1=3$、残差の自由度は$20-3-1=16$である。よって地域の平均平方、残差の平均平方、$F$値はそれぞれ下記のように計算できる。

地域の平均平方
$$
\large
\begin{align}
\frac{0.2204}{3} = 0.073466 \cdots
\end{align}
$$

地域の平均平方
$$
\large
\begin{align}
\frac{0.3370}{16} = 0.02106 \cdots
\end{align}
$$

$F$値
$$
\large
\begin{align}
\frac{0.07347}{0.02106} = 3.488 \cdots
\end{align}
$$

よって⑤が正解である。

・$[3]$
対立仮説は「母平均の少なくとも一つは異なる」であるので①か②に絞られる。ここで$F$値に関して下記が成立する。
$$
\large
\begin{align}
F = 3.488 \cdots > 3.287 = F_{\alpha=0.05}(3,15) > F_{\alpha=0.05}(3,16)
\end{align}
$$

上記より帰無仮説は棄却できるので①が正解である。

Q.2

・$[1]$
水準間平方和$S_A$と残差平方和$S_e$の定義より①が正解である。

・$[2]$
③が正解である。

・$[3]$
Ⅰ 対立仮説が正しくない
Ⅱ $F=3.0471 > 1.910 = F_{\alpha=0.05}(10,120) > F_{\alpha=0.05}(11,120)$より帰無仮説は棄却されるので正しくない。
Ⅱ $F=3.0471 > 2.1570 = F_{\alpha=0.025}(10,120) > F_{\alpha=0.025}(11,120)$より帰無仮説は棄却されるので正しい。

上記より③が正解である。

Q.3

・$[1]$
下記のような計算を行うことで$t$値が得られる。

import numpy as np

sigma2 = (13549.+7763.)/(6.+6.-2)
t = (233.7-185.3)/np.sqrt((1./6.+1./6.)*sigma2)

print("t: {:.2f}".format(t))

・実行結果

t: 1.82

よって④が正解である。

・$[2]$
下記のような処理を行うことで$F$値が得られる。

import numpy as np

x = np.array([[218., 303., 198., 296., 201., 186.], [209., 177., 167., 145., 161., 253.]])
mean_x = np.mean(x,axis=1)
mean_x_mat = np.repeat(mean_x,6).reshape([2,6])

S_A = np.sum(6.*(mean_x-np.mean(x))**2)
S_E = np.sum((x-mean_x_mat)**2)

V_A = S_A/1.
V_E = S_E/10.
F = V_A/V_E

print("F: {:.2f}".format(F))

・実行結果

F: 3.29

よって④が正解である。

Q.4

参考

・【統計検定$2$級対応】統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

1.1 変数の分類 質的変数・量的変数など 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$1.1$節「変数の分類」の内容を元に質的変数・量的変数や、尺度などの統計学における重要な用語に関して取り扱いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

「変数の分類」の概要

概要

統計的な分析では下記のような表型のデータに基づく計算結果を元に分析を行います。

ID 近さ家賃間取り大きさ($m^2$)方角築年数(年)
$1$ B$68,000$$1K$$19$西$12$
$2$ B$68,000$$1K$$19$$12$
$3$ B$69,000$$1K$$19$北西$14$
$\vdots$ $\vdots$$\vdots$$\vdots$$\vdots$$\vdots$$\vdots$
$139$ A$148,000$$1LDK$$42$$13$
$140$ B$150,000$$1LDK$$41$南東$5$
統計検定$2$級対応 統計学基礎 表$1.1$

上記の詳細は下記より入手することができます。
http://www.tokyo-tosho.co.jp/books/978-4-489-02227-2/

表$1.1$の$1$行は個体・ケース・サンプルに対応し、$1$列は調査項目が対応します。特に調査項目のことを変数(variable)ということは抑えておくと良いです。当記事では以下、「変数」の分類に関して詳しく確認を行います。

必要な数学

用語の定義の確認が主なので、必要な数学知識は特にありません。

変数の分類

質的変数/量的変数

変数の種類はカテゴリで表される質的変数(qualitative variable)と、観測値で表される量的変数(quantitative variable)に大別されます。前節で取り扱った表では「近さ」、「間取り」、「方角」が質的変数、「家賃」、「大きさ」、「築年数」が量的変数に対応します。

尺度

変数はそれぞれの値が持つ性質に基づいて$4$つの尺度に分けて考えられることがあります。尺度には「名義尺度」、「順序尺度」、「間隔尺度」、「比例尺度」の$4$つがあり、それぞれ下記のように定義されます。

尺度 値の意味
名義尺度 同じ値かどうかに意味がある国籍、職業
順序尺度 値の大小関係に意味がある成績評価
間隔尺度 値の大小や間隔に意味があるが$0$には意味がない摂氏での気温、偏差値
比例尺度 値の大小関係、値の大きさ、比に意味があり、$0$が絶対的な意味を持つ敷地の面積
統計検定$2$級対応 統計学基礎 表$1.2$に基づいて作成

離散変数/連続変数

統計の森への質問・意見の投稿について【投稿フォームを利用ください】

いつも当サイトを閲覧いただきありがとうございます。

当サイトに対するご意見、また、記事に関する質問など何かメッセージをお送りしたい場合には、下記の投稿フォームをご利用ください(Googleフォームに遷移するので、そちらに記載ください)。

投稿フォーム

質問・意見の投稿は以下のリンク先のGoogleフォームより投稿ください。

投稿フォームはこちら

お願い

質問への回答には当方としても工数がかかります。少人数で運営している都合上、ご質問の回答をお受けしたら、幾許かの寄付をお願いします(PayPal経由でのお支払いをお願いします)。

当方から回答させていただいた後に、合わせて寄付金についてご案内させていただきます。

質問フォームに寄付金額の選択項目がありますが、内容によっては寄付金については不要であることをお伝えすることもあります(記事の誤植や間違いなどの指摘については当方の過失なので)。

寄付金入力はこちらからお願いします

2.10.3 F分布 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.10.3$節「$F$分布」の内容に基づいて$F$分布の定義や確率密度関数のグラフ化に関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

F分布の概要

概要

必要な数学

確率密度関数の図示にあたって、指数関数やベータ関数の理解が必要になります。統計検定$2$級範囲では$F$分布の確率密度関数は出てきませんが、「統計数値表」の形式で使用する必要があるので確率密度関数の式とグラフの描画に関しては抑えておくと良いと思います。

ベータ関数はガンマ関数を用いて表すことができますが、下記でガンマ関数とベータ関数に関する計算について取りまとめました。

F分布

確率変数の対応

$$
\large
\begin{align}
X & \sim \chi^2(m) \\
Y & \sim \chi^2(n)
\end{align}
$$

上記のように$X$と$Y$がそれぞれ自由度$m$と$n$の$\chi^2$分布に従う場合を仮定します。このとき、下記のように$F$を定義します。
$$
\large
\begin{align}
F = \frac{X/m}{Y/n}
\end{align}
$$

上記の式で定めた$F$は自由度$(m,n)$の$F$分布(F-distribution)$F(m,n)$に従い、$F \sim F(m,n)$のように表されます。

確率密度関数

確率密度関数の数式

自由度$m,n$の$F$分布$F(m,n)$の確率変数を$Z$、確率密度関数を$f(z)$とおくと、$f(z)$は下記のように表すことができます。
$$
\large
\begin{align}
f(z) = \frac{z^{\frac{m}{2}-1}}{\displaystyle B \left( \frac{m}{2},\frac{n}{2} \right)} \left( \frac{m}{n} \right)^{\frac{m}{2}} \left( 1+\frac{m}{n}z \right)^{-\frac{m+n}{2}}, \quad z>0
\end{align}
$$

ガンマ関数とベータ関数

ガンマ関数$\Gamma(\alpha)$は下記のように定義されます。
$$
\large
\begin{align}
\Gamma(\alpha) = \int_{0}^{\infty} x^{\alpha-1} e^{-x} dx \quad (1)
\end{align}
$$

このとき、ガンマ関数$\Gamma(\alpha)$に関して以下の式が成立します。
$$
\large
\begin{align}
\Gamma(\alpha+1) &= \alpha \Gamma(\alpha), \quad (2) \\
\Gamma(1) &= 1, \quad (3) \\
\Gamma(n) &= (n-1)!, n \in \mathbb{N}, \quad (4) \\
\Gamma \left( \frac{1}{2} \right) &= \sqrt{\pi}, \quad (5)
\end{align}
$$

また、ベータ関数$B(\alpha,\beta)$は下記のように定義されます。
$$
\large
\begin{align}
B(\alpha,\beta) = \int_{0}^{\infty} x^{\alpha-1} (1-x)^{\beta-1} dx \quad (6)
\end{align}
$$

上記で定義したベータ関数$B(\alpha,\beta)$に関して以下の式が成立します。
$$
\large
\begin{align}
B(\alpha,\beta) &= B(\beta,\alpha), \quad (7) \\
B(\alpha,\beta) &= \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}, \quad (8) \\
\Gamma(m,n) &= \frac{(m-1)!(n-1)!}{(m+n-1)!}, m,n \in \mathbb{N}, \quad (9)
\end{align}
$$

詳しい導出はそれぞれ下記で取り扱いました。

発展事項①

$F$分布の確率密度関数の導出にあたっては統計検定準$1$級や$1$級で出てくる変数変換などが必要で難しいので当記事では省略しました。詳しくは下記で取り扱いましたので、導出を確認する際は下記などをご確認ください。

確率密度関数の図示

以下では$F(1,1), F(2,1), F(10,1)$の$F$分布の図示を行います。それぞれの分布のベータ関数は前項の式に基づいて下記のように計算できます。
$$
\large
\begin{align}
B \left( \frac{1}{2},\frac{1}{2} \right) &= \frac{\Gamma(1/2)\Gamma(1/2)}{\Gamma(1/2+1/2)} \\
&= \frac{\sqrt{\pi} \times \sqrt{\pi}}{1!} = \pi \\
B \left( \frac{2}{2},\frac{1}{2} \right) &= \frac{\Gamma(1)\Gamma(1/2)}{\Gamma(1+1/2)} \\
&= \frac{\sqrt{\pi}}{\sqrt{\pi}/2} = 2 \\
B \left( \frac{10}{2},\frac{1}{2} \right) &= \frac{\Gamma(5)\Gamma(1/2)}{\Gamma(5+1/2)} \\
&= \frac{3 \cdot 2^8}{9 \cdot 7 \cdot 5 \cdot 3}
\end{align}
$$

上記より、確率密度関数の式に基づいて下記を実行することで$F$分布の確率密度関数を描くことができます。

import numpy as np
import matplotlib.pyplot as plt

z = np.arange(0.01,5.01,0.01)

f_z = {}

f_z[0] = z**(1./2.-1.) * (1./1.)**(10./2.) * (1.+1.*z/1.)**(-(1.+1.)/2.) / np.pi
f_z[1] = z**(2./2.-1.) * (2./1.)**(2./2.) * (1.+2.*z/1.)**(-(2.+1.)/2.) / 2.
f_z[2] = z**(10./2.-1.) * (10./1.)**(10./2.) * (1.+10.*z/1.)**(-(10.+1.)/2.) * 9. * 7. * 5. * 3. / (3.*2.**8)

label_z = {}
label_z[0], label_z[1], label_z[2] = "(m,n) = (1,1)", "(m,n) = (2,1)", "(m,n) = (10,1)"

for i in range(3):
    plt.plot(z,f_z[i],label=label_z[i])

plt.legend()
plt.ylim([0.,2.5])
plt.show()

・実行結果

上図は「統計検定$2$級対応 統計学基礎」の図$2.11$に対応します。

発展事項②

標本分布の確率密度関数から「統計数値表」の作成にあたっては「数値積分」が用いられます。教科書などで取り扱われることは少ないですが、台形の公式などに基づいて近似値の計算ができるので、概要は抑えておくと良いかもしれません。

Ch.24 「分割行列による計算」の演習問題の解答例 〜統計学のための数学入門30講(朝倉書店)〜

当記事は「統計学のための数学入門$30$講(朝倉書店)」の読解サポートにあたってChapter.$24$の「分割行列による計算」の章末問題の解答の作成を行いました。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は購入の上ご確認ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・書籍解答まとめ
https://www.hello-statisticians.com/answer_textbook_math#math_stat

本章のまとめ

演習問題解答

問題$24.1$

・$[1]$
$$
\large
\begin{align}
\left|\begin{array}{cc} AB & AD \\ CB & CD \end{array} \right| = 0
\end{align}
$$

上記は下記のように示すことができる。
$$
\large
\begin{align}
\left|\begin{array}{cc} AB & AD \\ CB & CD \end{array} \right| &= \left|\begin{array}{cc} A & O \\ C & O \end{array} \right|\left|\begin{array}{cc} B & D \\ O & O \end{array} \right| \\
&= 0
\end{align}
$$

・$[2]$
$$
\large
\begin{align}
\left|\begin{array}{cc} A & B \\ B & A \end{array} \right| = |A+B||A-B|
\end{align}
$$

上記は下記のように示すことができる。
$$
\large
\begin{align}
\left|\begin{array}{cc} A & B \\ B & A \end{array} \right| &= \left|\begin{array}{cc} A+B & A+B \\ B & A \end{array} \right| \\
&= \left|\begin{array}{cc} A+B & O \\ B & A-B \end{array} \right| \\
&= |A+B||A-B|
\end{align}
$$

問題$24.2$

統計検定2級 公式問題集 CBT対応版 解答例まとめ 〜7. 推定〜

「統計検定$2$級 公式問題集 CBT対応版」の解答例を取りまとめるにあたって、当記事では「PART.$2$ 分野・項目別 問題・解説」のCategory.$7$「推定」の解答例を作成しました。解答例は「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

解答例

Q.1

全体の標本比率を$\hat{p}$とおく。また、標本比率$\hat{p}_1, \hat{p}_2, \hat{p}$に対応する母比率をそれぞれ$p_1, p_2, p$とおく。このとき、全体の母比率$p$は$p_1, p_2$を用いて下記のように表せる。
$$
\large
\begin{align}
p = \frac{N_1 p_1 + N_2 p_2}{N_1+N_2}
\end{align}
$$

よって全体の母比率の推定量である$\hat{p}$は下記のように表すことができる。
$$
\large
\begin{align}
\hat{p} = \frac{N_1 \hat{p}_1 + N_2 \hat{p}_2}{N_1 + N_2}
\end{align}
$$

このとき、$\hat{p}$の分散$V[\hat{p}]$は下記のように導出できる。
$$
\large
\begin{align}
V[\hat{p}] &= V \left[ \frac{N_1 \hat{p}_1 + N_2 \hat{p}_2}{N_1 + N_2} \right] \\
&= \left( \frac{N_1}{N_1 + N_2} \right)^2 V[\hat{p}_1] + \left( \frac{N_2}{N_1 + N_2} \right)^2 V[\hat{p}_2] \\
&= \left( \frac{N_1}{N_1 + N_2} \right)^2 \frac{p_1(1-p_1)}{n_1} + \left( \frac{N_2}{N_1 + N_2} \right)^2 \frac{p_2(1-p_2)}{n_2}
\end{align}
$$

よって$\hat{p}$の標準誤差$\mathrm{se}(\hat{p})$は下記のように得られる。
$$
\large
\begin{align}
\mathrm{se}(\hat{p}) &= \sqrt{V[\hat{p}]} \\
&= \sqrt{\left( \frac{N_1}{N_1 + N_2} \right)^2 \frac{p_1(1-p_1)}{n_1} + \left( \frac{N_2}{N_1 + N_2} \right)^2 \frac{p_2(1-p_2)}{n_2}}
\end{align}
$$

以上より、正解は②である。

・参考
分散に関する公式などは下記で詳しく取り扱いました。

Q.2

Q.3

標本比率を$\hat{p}$、母平均を$p$とおくと、$n$が十分大きい時「二項分布の正規近似」より$\displaystyle \hat{p} \sim \mathcal{N} \left( p, \frac{p(1-p)}{n} \right)$が成立する。このとき$p$の$95$%区間は標本比率$\hat{p}$に実測値を代入することで下記のように導出できる。
$$
\large
\begin{align}
-1.96 \leq & \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \leq 1.96 \\
\hat{p} – 1.96 \sqrt{\frac{p(1-p)}{n}} \leq & p \leq \hat{p} + 1.96 \sqrt{\frac{p(1-p)}{n}}
\end{align}
$$

上記の区間の幅が全ての$p$に関して$6$%以下であるには下記が成立すれば良い。
$$
\large
\begin{align}
2 \times 1.96 \sqrt{\frac{p(1-p)}{n}} & \leq 0.06 \\
\sqrt{n} & \geq \frac{2 \times 1.96}{0.06} \sqrt{0.5 (1-0.5)} \geq \frac{2 \times 1.96}{0.06} \sqrt{p(1-p)} \\
n & \geq \frac{1.96^2}{0.06^2} = 1067.1 \cdots
\end{align}
$$

上記より④が正解である。

Q.4

標本比率を$\hat{p}$とおくと、「二項分布の正規近似」により、$\displaystyle \hat{p} \sim \mathcal{N} \left( p, \frac{p(1-p)}{n} \right)$が成立する。よって下記のように$Z$を考えることができる。
$$
\large
\begin{align}
Z &= \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \\
Z & \sim \mathcal{N}(0,1)
\end{align}
$$

このとき$\hat{p}=20/200=0.1$を代入することで、下記のように$p$の$95$%区間を表せる。
$$
\large
\begin{align}
-1.96 \leq & \frac{0.1-p}{\sqrt{\frac{p(1-p)}{n}}} \leq 1.96 \\
0.1 – 1.96 \sqrt{\frac{p(1-p)}{n}} \leq & p \leq 0.1 + 1.96 \sqrt{\frac{p(1-p)}{n}} \quad (1) \\
0.1 – 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq & p \leq 0.1 + 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \quad (2) \\
0.1 – 1.96 \sqrt{\frac{0.1(1-0.1)}{200}} \leq & p \leq 0.1 + 1.96 \sqrt{\frac{0.1(1-0.1)}{200}} \\
0.1 – 0.04158 \leq & p \leq 0.1 + 0.04158 \quad (3) \\
\end{align}
$$

上記の$(1)$から$(2)$にかけて標準偏差を構成する$p$を$\hat{p}$で置き換えたが、母比率の推定でよく出てくる手順なので抑えておくとよい。$(3)$の計算結果より④が正解である。

Q.5

サンプル数 十分大きいそれほど大きくない
正規母集団からの無作為抽出 正規分布自由度$n-1$の$t$分布
非正規母集団からの無作為抽出 正規分布母集団分布による

上記より、③が正解である。

Q.6

標本比率を$\hat{p}_1-\hat{p}_2$、母比率を$p_1, p_2$、標本抽出数を$n_1, n_2$のようにおくとき、二項分布の正規近似により$\hat{p}_1-\hat{p}_2$に関して下記が成立する。
$$
\large
\begin{align}
\hat{p}_1-\hat{p}_2 \sim \mathcal{N} \left( p_1-p_2, \frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2} \right)
\end{align}
$$

上記より$p_1-p_2$の$95$%区間は下記のように導出できる。
$$
\large
\begin{align}
z_{\alpha=0.975} \leq & \frac{(\hat{p}_1-\hat{p}_2)-(p_1-p_2)}{\displaystyle \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}} \leq z_{\alpha=0.025} \\
\hat{p}-1.96 \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}} \leq & p_1-p_2 \leq \hat{p}+1.96 \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}
\end{align}
$$

それぞれに値を代入することで母比率の差の$95$%区間は下記のように得られる。
$$
\large
\begin{align}
0.067 \pm 1.96 \sqrt{\frac{0.483 \times 0.517}{1897} + \frac{0.416 \times 0.584}{1925}}
\end{align}
$$

上記に基づいて下記のような計算を行うことで$95$%区間の計算を行うことができる。

import numpy as np

lower_p = (0.483-0.416) - 1.96* np.sqrt(0.483*(1.-0.483)/1897. + 0.416*(1.-0.416)/1925.)
upper_p = (0.483-0.416) + 1.96* np.sqrt(0.483*(1.-0.483)/1897. + 0.416*(1.-0.416)/1925.)

print("lower_p: {:.3f}".format(lower_p))
print("upper_p: {:.3f}".format(upper_p))

・実行結果

lower_p: 0.036
upper_p: 0.098

上記より得られた区間$0.036 \leq p_1-p_2 \leq 0.098$は$0$を含まないので有意水準$5$%で割合が変化したといえる。よって②が正解である。

参考

・【統計検定$2$級対応】統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

4.4.3 母分散の比の検定 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$4.4.3$節「母分散の比の検定」の内容を元に$F$分布を用いた母分散の比の検定の一連の流れについて確認を行います。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

「母分散の比の検定」の概要

概要

発展事項

$F$検定に用いる$F$分布の確率密度関数の導出に関しては下記などで詳しく取り扱いました。

必要な数学

母分散の比の検定

F統計量

母分散$\sigma_x^2$と$\sigma_y^2$の$2$つの母集団に関して、それぞれ$m$個と$n$個の標本の不偏標本分散$\hat{\sigma}_x^2$と$\hat{\sigma}_y^2$を仮定します。このとき下記が成立します。
$$
\large
\begin{align}
\frac{(m-1)\hat{\sigma}_x^{2}}{\sigma_x^{2}} & \sim \chi^{2}(m-1) \\
\frac{(n-1)\hat{\sigma}_y^{2}}{\sigma_y^{2}} & \sim \chi^{2}(n-1)
\end{align}
$$

上記に基づいて$2$つの母集団の母分散の比の統計量$F$を下記のように定義することができます。
$$
\large
\begin{align}
F &= \frac{\frac{(m-1)\hat{\sigma}_x^{2}}{\sigma_x^{2} (m-1)}}{\frac{(n-1)\hat{\sigma}_y^{2}}{\sigma_y^{2} (n-1)}} \\
&= \frac{\hat{\sigma}_x^{2}}{\sigma_x^{2}} \cdot \frac{\sigma_y^{2}}{\hat{\sigma}_y^{2}} \sim F(m-1,n-1)
\end{align}
$$

詳しい導出の流れは下記で取り扱いました。

母分散の比の検定

$F$統計量」の導出より、下記のように$2$つの母集団の母分散の比の統計量$F$を定義することができます。
$$
\large
\begin{align}
F = \frac{\hat{\sigma}_x^{2}}{\sigma_x^{2}} \cdot \frac{\sigma_y^{2}}{\hat{\sigma}_y^{2}} \sim F(m-1,n-1)
\end{align}
$$

ここで上記の統計量に対し、帰無仮説$H_0: \, \sigma_x^2 = \sigma_y^2$を考えると、$F$統計量は下記のように変形できます。
$$
\large
\begin{align}
F &= \frac{\hat{\sigma}_x^{2}}{\sigma_x^{2}} \cdot \frac{\sigma_y^{2}}{\hat{\sigma}_y^{2}} \\
&= \frac{\hat{\sigma}_x^{2}}{\hat{\sigma}_y^{2}} \sim F(m-1,n-1)
\end{align}
$$

上記を元に「母分散の比の検定」を行うことができます。

確率変数の和X+Yの分散V[X+Y]などに関する公式とその導出

確率変数の和や差に関する分散の計算は二項分布、負の二項分布、超幾何分布を考える際や$2$標本の差の検定など、統計学ではよく出てきます。一方で、分散の計算にあたっては$X$と$Y$の相関を考慮する必要があり難しいので当記事では分散$V[X+Y]$に関する公式やその導出について取り扱いました。
「現代数理統計学(学術図書出版社)」の$3$章「多次元の確率変数」の解説や演習などを参考に作成を行いました。

・$3$章演習の解答例:現代数理統計学
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch3.html

公式

V[X+Y]の取り扱い

確率変数$X$と$Y$の和$X+Y$の分散$V[X+Y]$は下記のように表される。
$$
\large
\begin{align}
V[X+Y] = V[X] + V[Y] + 2 \mathrm{Cov}(X,Y)
\end{align}
$$

$X,Y$が独立である場合は$\mathrm{Cov}(X,Y)=0$であるので、$V[X+Y]=V[X]+V[Y]$が成立する。$V[X+Y]=V[X]+V[Y]$の式に関しては下記でも取り扱った。

V[X-Y]の取り扱い

確率変数$X$と$Y$の差$X-Y$の分散$V[X-Y]$は下記のように表される。
$$
\large
\begin{align}
V[X-Y] = V[X] + V[Y] – 2 \mathrm{Cov}(X,Y)
\end{align}
$$

$V[a_1 X_1 + \cdots + a_nX_n]$の取り扱い

確率変数$X_1, \cdots , X_n$の線形和$a_1 X_1 + \cdots + a_nX_n$の分散$V[a_1 X_1 + \cdots + a_nX_n]$は下記に基づいて計算できる。
$$
\large
\begin{align}
V[a_1 X_1 + \cdots + a_nX_n] = \sum_{i=1}^{n} a_i^2 V[X_i] + 2 \sum_{i<j} a_ia_j \mathrm{Cov}(X_i,X_j)
\end{align}
$$

式の導出

$V[X+Y]=V[X] + V[Y] + 2 \mathrm{Cov}(X,Y)$

$E[X+Y]=E[X]+E[Y], V[X]=E[(X-E[X])^2]=E[X^2]-E[X]^2$などが成立することに基づいて下記のように導出できる。
$$
\large
\begin{align}
V[X+Y] &= E[((X+Y)-E[X+Y])^2] \\
&= E[(X + Y – E[X] – E[Y])^2] \\
&= E[(X^2 + Y^2 + E[X]^2 + E[Y]^2 + 2XY – 2XE[X] \\
& – 2YE[Y] – 2XE[Y] – 2YE[X] + 2E[X]E[Y])] \\
&= E[X^2] – E[X]^2 + E[Y^2] – E[Y]^2 + 2E[XY] – 2E[X]E[Y] \\
&= V[X] + V[Y] + 2 \mathrm{Cov}(X,Y)
\end{align}
$$

$V[X-Y] = V[X] + V[Y] – 2 \mathrm{Cov}(X,Y)$

$E[X+Y]=E[X]+E[Y], V[X]=E[(X-E[X])^2]=E[X^2]-E[X]^2$などが成立することに基づいて下記のように導出できる。
$$
\large
\begin{align}
V[X+Y] &= E[((X-Y)-E[X-Y])^2] \\
&= E[(X – Y – E[X] + E[Y])^2] \\
&= E[(X^2 + Y^2 + E[X]^2 + E[Y]^2 – 2XY – 2XE[X] \\
& – 2YE[Y] + 2XE[Y] + 2YE[X] – 2E[X]E[Y])] \\
&= E[X^2] – E[X]^2 + E[Y^2] – E[Y]^2 – 2E[XY] + 2E[X]E[Y] \\
&= V[X] + V[Y] + 2 \mathrm{Cov}(X,Y)
\end{align}
$$

$\displaystyle V[a_1 X_1 + \cdots + a_nX_n] = \sum_{i=1}^{n} a_i^2 V[X_i] + 2 \sum_{i<j} a_ia_j \mathrm{Cov}(X_i,X_j)$

$Z = a_1 X_1 + \cdots + a_nX_n$と定義し、$V[Z]=E[(Z-E[Z])^2]$を計算することで導出できる。詳しい導出は下記で取り扱った。

参考

4.4.2 対応ある2標本の検定 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$4.4.2$節「対応ある$2$標本の場合」の内容を元に対応のある$2$標本に関する検定について確認を行います。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

「対応ある$2$標本の検定」の概要

概要

$d_1$ $65.0$$79.3$$55.9$$73.2$$58.0$$68.5$$68.1$$69.9$$71.7$$58.3$
$d_2$ $65.1$$75.1$$49.5$$69.9$$55.0$$64.3$$65.3$$70.8$$75.2$$53.5$
$\Delta$ $0.1$$-4.2$$-6.4$$-3.3$$-3.0$$-4.2$$-2.8$$0.9$$3.5$$-4.8$
「統計検定$2$級対応 統計学基礎」 第$4$章 例$2$

上記はダイエット処方の効果を確かめるにあたって、処方前の体重$d_1$、処方後の体重$d_2$と体重の変化$\Delta$を表にしたものです。以下、実際の効果を確かめるにあたって、帰無仮説$H_0: \, \Delta=0$と対立仮説$H_1: \, \Delta<0$に関して仮説検定を行います。

このときに$d_1$と$d_2$に相関があり「$4.4.1$ 母平均の差の検定」と同様な手法を用いることはできないので、当記事で以下取り扱う「対応ある$2$標本の取り扱い」の流れを抑えておく必要があります。

必要な数学

$\sqrt{x}$や$x^2$の取り扱いなど、基本的な計算を抑えておけば十分です。

対応ある$2$標本の検定

検定の流れ

前節の$d_1, d_2$の行の値は用いず、$\Delta$の行のみを用います。観測値を$\delta_1, \cdots , \delta_{10}$とおき、下記のように$\bar{\delta}, \hat{\sigma}_{\delta}^{2}$を定義します。
$$
\large
\begin{align}
\bar{\delta} &= \frac{1}{10} \sum_{i=1}^{10} \delta_{i} \\
\hat{\sigma}_{\delta}^{2} &= \frac{1}{9} \sum_{i=1}^{10} (\delta_{i}-\bar{\delta})^2
\end{align}
$$

このとき、下記のように検定統計量の実現値$t$を計算します。
$$
\large
\begin{align}
t &= \frac{\bar{\delta}}{\hat{\sigma}_{\delta}/\sqrt{n}} \\
&= \frac{\sqrt{n} \bar{\delta}}{\hat{\sigma}_{\delta}}
\end{align}
$$

上記に対応する統計量が自由度$10-1=9$の$t$分布$t(9)$に従うことを元に仮説検定を行うことができます。

具体的な計算例

対応ある$2$標本の検定法を用いる

前項の式に基づいて下記を実行することで検定を行うことができます。

import numpy as np
from scipy import stats

delta = np.array([0.1, -4.2, -6.4, -3.3, -3.0, -4.2, -2.8, 0.9, 3.5, -4.8])
sigma2 = np.sum((delta-np.mean(delta))**2)/(delta.shape[0]-1.)

t = np.sqrt(delta.shape[0]) * np.mean(delta) / np.sqrt(sigma2)

if stats.t.cdf(t,10-1)<0.05:
    print("t: {:.3f}, reject H_0.".format(t))
else:
    print("t: {:.3f}, accept H_0.".format(t))

・実行結果

t: -2.543, reject H_0.

通常の$2$標本の検定を用いる

$4.4.1$ 母平均の差の検定」の内容に基づいて下記を実行することで検定を行うことができます。

import numpy as np
from scipy import stats

d = np.array([[65.0, 79.3, 55.9, 73.2, 58.0, 68.5, 68.1, 69.9, 71.7, 58.3], [65.1, 75.1, 49.5, 69.9, 55.0, 64.3, 65.3, 70.8, 75.2, 53.5]])
mean_d = np.mean(d,axis=1)
mean_d_mat = np.repeat(mean_d,10).reshape([2,10])

sum_sigma2 = np.sum((d-mean_d_mat)**2,axis=1)
sigma2 = np.sum(sum_sigma2)/(d.shape[1]+d.shape[1]-2.)

t = (mean_d[1]-mean_d[0]) / (np.sqrt(1./d.shape[1] + 1./d.shape[1]) * np.sqrt(sigma2))

if stats.t.cdf(t,10+10-2)<0.05:
    print("t: {:.3f}, reject H_0.".format(t))
else:
    print("t: {:.3f}, accept H_0.".format(t))

・実行結果

t: -0.652, accept H_0.

計算結果

「対応ある$2$標本」の検定法を用いた場合結果が有意であり、「通常の$2$標本の検定」を用いるとき有意でない結果が得られました。この解釈に関しては次項で取り扱います。

対応ある2標本の取り扱いの必要性の解釈

標本平均の差$\overline{X}-\overline{Y}$の分散$V[\overline{X}-\overline{Y}]$は$\overline{X}$と$\overline{Y}$に相関がある場合、下記のように表されます。
$$
\large
\begin{align}
V[\overline{X}-\overline{Y}] = V[\overline{X}] + V[\overline{Y}] – 2 \mathrm{Cov}(\overline{X},\overline{Y})
\end{align}
$$

$4.4.1$ 母平均の差の検定」では$\mathrm{Cov}(\overline{X},\overline{Y})=0$を前提としているので、$V[\overline{X}-\overline{Y}] = V[\overline{X}] + V[\overline{Y}]$のように表されたことに注意が必要です。

このように「対応ある$2$標本」の場合は、$2$つのグループ間に正の相関があると$\overline{X}-\overline{Y}$の分散$V[\overline{X}-\overline{Y}]$が小さくなることに注意が必要です。冒頭の例に対し、$d_1$と$d_2$の散布図を描くと下記が得られます。

import numpy as np
import matplotlib.pyplot as plt

d = np.array([[65.0, 79.3, 55.9, 73.2, 58.0, 68.5, 68.1, 69.9, 71.7, 58.3], [65.1, 75.1, 49.5, 69.9, 55.0, 64.3, 65.3, 70.8, 75.2, 53.5]])

plt.scatter(d[0], d[1])
plt.show()

・実行結果

上記のように$2$つの標本には相関があることが確認できます。相関係数は下記のように計算できます。

import numpy as np

d = np.array([[65.0, 79.3, 55.9, 73.2, 58.0, 68.5, 68.1, 69.9, 71.7, 58.3], [65.1, 75.1, 49.5, 69.9, 55.0, 64.3, 65.3, 70.8, 75.2, 53.5]])
mean_d = np.mean(d,axis=1)
mean_d_mat = np.repeat(mean_d,10).reshape([2,10])

cov = np.mean((d[0]-np.mean(d[0]))*(d[1]-np.mean(d[0])))
sigma2 = np.mean((d-mean_d_mat)**2,axis=1)
r = cov / np.sqrt(sigma2[0]*sigma2[1]) 

print("r: {:.3f}".format(r))

・実行結果

r: 0.950

ここでの相関係数の値が$0.950$が得られるなど$2$標本間には強相関があるので、前項のような結果が得られたと解釈しておくと良いです。

発展事項①

通常の$2$標本の検定を用いる」の計算で用いる分散から$2 \mathrm{Cov}(\overline{X},\overline{Y})$分を引いた際の検定は下記のように計算できます。

import numpy as np
from scipy import stats

d = np.array([[65.0, 79.3, 55.9, 73.2, 58.0, 68.5, 68.1, 69.9, 71.7, 58.3], [65.1, 75.1, 49.5, 69.9, 55.0, 64.3, 65.3, 70.8, 75.2, 53.5]])
mean_d = np.mean(d,axis=1)
mean_d_mat = np.repeat(mean_d,10).reshape([2,10])

sum_sigma2 = np.sum((d-mean_d_mat)**2,axis=1)
sum_cov = np.sum((d[0]-np.mean(d[0]))*(d[1]-np.mean(d[0])))
sigma2 = (np.sum(sum_sigma2)-2*sum_cov)/(d.shape[1]+d.shape[1]-2.)

t = (mean_d[1]-mean_d[0]) / (np.sqrt(1./d.shape[1] + 1./d.shape[1]) * np.sqrt(sigma2))

if stats.t.cdf(t,10+10-2)<0.05:
    print("t: {:.3f}, reject H_0.".format(t))
else:
    print("t: {:.3f}, accept H_0.".format(t))

・実行結果

t: -2.543, reject H_0.

この結果は「対応ある$2$標本の検定法を用いる」の結果と一致します。

発展事項②

$$
\large
\begin{align}
V[\overline{X}-\overline{Y}] = V[\overline{X}] + V[\overline{Y}] – 2 \mathrm{Cov}(\overline{X},\overline{Y})
\end{align}
$$

上記の式の導出は下記などで取り扱いました。

正規分布のモーメント母関数を用いた「母平均の差」の推定に関する導出

「母平均の差」の「区間推定」や「検定」は統計検定$2$級などでよく出題される基本的な問題です。一方で、「標本平均の差」が従う確率分布に関する導出に関する解説がなされない場合が多いです。そこで当記事では正規分布のモーメント母関数を元に詳しい導出を取りまとめました。

正規分布のモーメント母関数

正規分布のモーメント母関数の式

正規分布のモーメント母関数を$m_{X}(t)$とおくと、$m_{X}(t)$は下記のように表せる。
$$
\large
\begin{align}
m_{X}(t) = \exp \left( \mu t + \frac{\sigma^2 t^2}{2} \right) \quad (1)
\end{align}
$$

正規分布のモーメント母関数の導出

モーメント母関数の定義である$m_{X}(t)=E[e^{tX}]$に基づいて導出を行うことができる。詳しくは「正規分布のモーメント母関数の導出」で詳しく取り扱った。

標本平均の差が従う分布

母分散が既知かつ等しい場合の「母平均の差」の推定の流れ

標本平均$\overline{X}, \overline{Y}$がそれぞれ下記のように正規分布に従うと仮定する。
$$
\large
\begin{align}
\overline{X} & \sim \mathcal{N} \left( \mu_1, \frac{\sigma^2}{m} \right) \\
\overline{Y} & \sim \mathcal{N} \left( \mu_2, \frac{\sigma^2}{n} \right)
\end{align}
$$

このとき、$\overline{X}-\overline{Y}$に関して下記が成立する。
$$
\large
\begin{align}
\overline{X}-\overline{Y} \sim \mathcal{N} \left( \mu_1-\mu_2, \frac{\sigma^2}{m}+\frac{\sigma^2}{n} \right) \quad (2)
\end{align}
$$

上記に基づいて母平均の差$\mu_1-\mu_2$の区間推定や仮説検定を考えることができる。$\mu_1-\mu_2$の$95$%区間は下記のように表せる。
$$
\large
\begin{align}
-1.96 \leq & \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2}{m}+\frac{\sigma^2}{n}}} \leq 1.96 \\
-1.96 \leq & \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{1}{m}+\frac{1}{n}}\sigma} \leq 1.96 \\
(\overline{X}-\overline{Y}) – 1.96 \sqrt{\frac{1}{m}+\frac{1}{n}}\sigma \leq & \mu_1-\mu_2 \leq (\overline{X}-\overline{Y}) + 1.96 \sqrt{\frac{1}{m}+\frac{1}{n}}\sigma
\end{align}
$$

同様に帰無仮説を$H_0: \, \mu_1-\mu_2 = 0$とする際の検定統計量$Z$は下記のように表せる。
$$
\large
\begin{align}
Z &= \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2}{m}+\frac{\sigma^2}{n}}} \\
&= \frac{\overline{X}-\overline{Y}}{\sqrt{\frac{1}{m}+\frac{1}{n}}\sigma}
\end{align}
$$

ここでは「母分散が既知かつ等しい場合」を取り扱ったが、そのほかの場合に関しても$(2)$に基づいて導出が行われるので基本的な考え方は同様である。「母分散が既知かつ等しい」場合以外に関しては詳しくは下記などで取り扱った。

次項では$(2)$が成立することを正規分布のモーメント母関数を用いて示す。

(2)の導出

確率変数$X \sim \mathcal{N}(\mu_1,\sigma_1^2)$と$Y \sim \mathcal{N}(\mu_2,\sigma_2^2)$に対応するモーメント母関数を$m_{X}(t), m_{Y}(t)$とおくと、$(1)$式に基づいてそれぞれ下記のように表せる。
$$
\large
\begin{align}
m_{X}(t) &= \exp \left( \mu_1 t + \frac{\sigma_1^2 t^2}{2} \right) \\
m_{Y}(t) &= \exp \left( \mu_2 t + \frac{\sigma_2^2 t^2}{2} \right)
\end{align}
$$

このとき確率変数$X-Y$のモーメント母関数は下記のように考えることができる。
$$
\large
\begin{align}
m_{X-Y}(t) &= E[e^{t(X-Y)}] \\
&= E[e^{tX}]E[e^{-tY}] \\
&= m_{X}(t) m_{Y}(-t) \\
&= \exp \left( \mu_1 t + \frac{\sigma_1^2 t^2}{2} \right) \times \exp \left( \mu_2 (-t) + \frac{\sigma_2^2 (-t)^2}{2} \right) \\
&= \exp \left( (\mu_1-\mu_2) t + \frac{(\sigma_1^2+\sigma_2^2) t^2}{2} \right)
\end{align}
$$

モーメント母関数と確率分布の$1$対$1$対応が成立するので、上記より$X \sim \mathcal{N}(\mu_1,\sigma_1^2), Y \sim \mathcal{N}(\mu_2,\sigma_2^2)$のとき$X-Y \sim \mathcal{N}(\mu_1-\mu_2,\sigma_1^2+\sigma_2^2)$が成立することが示せる。

「$X \sim \mathcal{N}(\mu_1,\sigma_1^2), Y \sim \mathcal{N}(\mu_2,\sigma_2^2)$のとき$X-Y \sim \mathcal{N}(\mu_1-\mu_2,\sigma_1^2+\sigma_2^2)$が成立する」を用いることで$(2)$が成立することも確認できる。