ブログ

統計検定2級 公式問題集 CBT対応版 解答例まとめ 〜6. 標本分布〜

「統計検定$2$級 公式問題集 CBT対応版」の解答例を取りまとめるにあたって、当記事では「PART.$2$ 分野・項目別 問題・解説」のCategory.$6$「標本分布」の解答例を作成しました。解答例は「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

解答例

Q.1

標本比率の確率変数$\hat{p}$に関して$\displaystyle \hat{p} \sim \mathcal{N} \left( p, \frac{p(1-p)}{n} \right)$が成立することから、確率変数$Z$は下記のように表せる。
$$
\large
\begin{align}
Z = \frac{\hat{p}-p}{\sqrt{p(1-p)/n}} \quad (1)
\end{align}
$$

よって、$p$の$95$%区間に関して下記が成立する。
$$
\large
\begin{align}
z_{\alpha=0.975} \leq & Z \leq z_{\alpha=0.025} \\
-1.96 \leq & \frac{\hat{p}-p}{\sqrt{p(1-p)/n}} \leq 1.96 \\
-1.96 \sqrt{\frac{p(1-p)}{n}} \leq & \hat{p}-p \leq 1.96 \sqrt{\frac{p(1-p)}{n}} \\
-1.96 \sqrt{\frac{p(1-p)}{n}} \leq & p-\hat{p} \leq 1.96 \sqrt{\frac{p(1-p)}{n}} \\
\hat{p} – 1.96 \sqrt{\frac{p(1-p)}{n}} \leq & p \leq \hat{p} + 1.96 \sqrt{\frac{p(1-p)}{n}} \quad (2)
\end{align}
$$

$(1), (2)$より③が正解である。

Q.2

標本$(X_1, X_2)$の実現値、$\overline{X}$の値、それぞれの確率は下記のように表せる。

$(X_1,X_2)$の実現値$(2,2)$$(2,4)$$(4,2)$$(2,6)$$(4,4)$$(6,2)$$(2,8)$$(4,6)$$(6,4)$$(8,2)$$(4,8)$$(6,6)$$(8,4)$$(8,6)$$(6,8)$$(8,8)$
$\overline{X}$の値 $2.0$$3.0$$4.0$$5.0$$6.0$$7.0$$8.0$
確率 $\displaystyle \frac{1}{16}$$\displaystyle \frac{2}{16}$$\displaystyle \frac{3}{16}$$\displaystyle \frac{4}{16}$$\displaystyle \frac{3}{16}$$\displaystyle \frac{2}{16}$$\displaystyle \frac{1}{16}$

上記より中央値$5.0$、最頻値$5.0$であるので③が正しい。

Q.3

$B$の重さの推定量を$\hat{b}$とおくと、$\hat{b}$は下記のように表せる。
$$
\large
\begin{align}
\hat{b} &= \frac{X-Y}{2} \\
&= b + \frac{\varepsilon_{1} – \varepsilon_{2}}{2}
\end{align}
$$

ここで$\varepsilon_{1}, \varepsilon_{2}$がそれぞれ独立であることから$V[\hat{b}]$は下記のように考えることができる。
$$
\large
\begin{align}
V[\hat{b}] &= V \left[ b + \frac{\varepsilon_{1} – \varepsilon_{2}}{2} \right] \\
&= \frac{1}{4} (V[\varepsilon_{1}] + V[\varepsilon_{2}]) \\
&= \frac{1}{4} (\sigma^2 + \sigma^2) = \frac{\sigma^2}{2}
\end{align}
$$

よって正解は③である。

Q.4

Ⅰ. $X \sim \mathcal{N}(0,\sigma_1^2), Y \sim \mathcal{N}(0,\sigma_2^2)$より下記が成立する。
$$
\large
\begin{align}
E[U] &= E[X+Y] = E[X]+E[Y] = 0 \\
E[V] &= E[X-Y] = E[X]-E[Y] = 0
\end{align}
$$

よって、$U$と$V$の平均は等しい。

Ⅱ. 共分散$\mathrm{Cov}(U,V)$は下記のように式変形できる。
$$
\large
\begin{align}
\mathrm{Cov}(U,V) &= E[UV] – E[U]E[V] \\
&= E[(X+Y)(X-Y)] \\
&= E[X^2] – E[Y^2] = \sigma_1^2 – \sigma_2^2
\end{align}
$$

上記が$0$の時のみ$U,V$は互いに独立であるので、$U,V$が独立なのは$\sigma_1^2 = \sigma_2^2$の時に限る。

Ⅲ. $E[U]=E[V]=0, V[U]=V[V]=\sigma_1^2+\sigma_2^2$より、$\sigma_1^2, \sigma_2^2$の値によらず$U$と$V$は同じ分布に従う。

上記より⑤が正解である。

Q.5

母分散未知の場合の母平均の取り扱いであるので、$\displaystyle T = \frac{\overline{X}-\mu}{\sqrt{S^2/9}}$は自由度$8$の$t$分布に従う。また、$P(T \geq 1.86)$に対応する確率は$t$分布の表より$0.05$であることが確認できる。よって③が正解である。

Q.6

$X_1, X_2, X_3$が標準化されていることから、$E[X_1]=E[X_2]=E[X_3]=0, V[X_1]=V[X_2]=V[X_3]=1$が成立する。このとき$X_1$と$Y$の相関係数を$r_{X_1,Y}$とおくと、$r_{X_1,Y}$は下記のように表せる。
$$
\large
\begin{align}
r_{X_1,Y} &= \frac{\mathrm{Cov}(X_1,Y)}{\sqrt{V[X_1]V[Y]}} \\
&= \frac{E[X_1Y]-E[X_1]E[Y]}{\sqrt{V[Y]}} \\
&= \frac{E[X_1Y]}{\sqrt{V[Y]}} \\
&= \frac{E[X_1^2 + X_1X_2 + X_1X_3]}{3 \sqrt{V[Y]}} \\
&= \frac{E[X_1^2] + E[X_1X_2] + E[X_1X_3]}{3 \sqrt{V[Y]}}
\end{align}
$$

ここで$E[X_1]=E[X_2]=E[X_3]=0, V[X_1]=V[X_2]=V[X_3]=1, r_{X_1,X_2}=r_{X_1,X_3}=0.5$より、下記が成立する。
$$
\large
\begin{align}
E[X_1^2] &= V[X_1]+E[X_1]^2 = 1 \\
E[X_1X_2] &= 0.5 \sqrt{V[X_1]V[X_2]} + E[X_1]E[X_2] \\
&= 0.5 \\
E[X_1X_2] &= 0.5 \sqrt{V[X_1]V[X_2]} + E[X_1]E[X_2] \\
&= 0.5 \\
V[Y] &= V \left[ \frac{1}{3}(X_1+X_2+X_3) \right] \\
&= \frac{1}{9} V[X_1+X_2+X_3] \\
&= \frac{1}{9} (3V[X_1] + 6 \mathrm{Cov}(X_1,X_2)) \\
&= \frac{1}{9} (3 + 6 (E[X_1X_2] – E[X_1]E[X_2])) \\
&= \frac{3 + 6 \times 0.5}{9} \\
&= \frac{2}{3}
\end{align}
$$

よって$r_{X_1,Y}$は下記のように計算できる。
$$
\large
\begin{align}
r_{X_1,Y} &= \frac{E[X_1^2] + E[X_1X_2] + E[X_1X_3]}{3 \sqrt{V[Y]}} \\
&= \frac{1+0.5+0.5}{3 \sqrt{2/3}} \\
&= \sqrt{\frac{2}{3}} = 0.816 \cdots
\end{align}
$$

よって⑤が正解である。

Q.7

$E[X]=\mu, V[X]=\sigma^2$のとき、$\sigma^2=V[X]=E[(X-E[X])^2]$に基づいて下記が成立する。
$$
\large
\begin{align}
\sigma^2 &= V[X] = E[(X-E[X])^2] \\
&= E[(X^2 – 2XE[X] + E[X]^2)] \\
&= E[X^2] – E[X]^2 = E[X^2] – \mu^2
\end{align}
$$

上記より、$E[X^2] = \mu^2 + \sigma^2$が成立するので③が正解である。

Q.8

ア)
自由度$5$の$t$分布に従う。

イ)
自由度$(5,1)$の$F$分布に従う。

ウ)
$\displaystyle \frac{1}{\sqrt{\alpha}}=2.571$を解いて$\alpha=0.151 \cdots$が得られる。

上記より⑤が正しい。

参考

・【統計検定$2$級対応】統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

【統計の森 独自評価】統計学・数学などの参考書のレビュー 〜チャート式 大学教養 線形代数〜

当記事では「チャート式シリーズ 大学教養 線形代数(数研出版)」のレビューに関して取りまとめを行いました。

・レビュー一覧
https://www.hello-statisticians.com/textbook_review1

レビューまとめ

Bestレビュー

「統計の森」運営レビュー

全体評価: $4.8$
大学の教養レベルの線形代数対応のチャート式であり、「微分積分」と同じシリーズである。分量的に豊富であり、手元に置いておくと良い。

読み進める際の参考事項まとめ

統計検定2級 公式問題集 CBT対応版 解答例まとめ 〜5. 確率分布〜

「統計検定$2$級 公式問題集 CBT対応版」の解答例を取りまとめるにあたって、当記事では「PART.$2$ 分野・項目別 問題・解説」のCategory.$5$「確率分布」の解答例を作成しました。解答例は「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

解答例

Q.1

$$
\large
\begin{align}
f(x) &= a \left( 1 – \frac{x}{20} \right) \quad (0 \leq x \leq 20) \\
&= 0 \qquad (\mathrm{Otherwise})
\end{align}
$$

上記の$f(x)$が確率密度関数であるので、$\displaystyle \int_{-\infty}^{\infty} f(x) dx = 1$が成立しなくてはならない。よって、下記のように考えることができる。
$$
\large
\begin{align}
\int_{-\infty}^{\infty} f(x) dx &= \int_{0}^{20} a \left( 1 – \frac{x}{20} \right) dx \\
&= a \left[ x – \frac{x^2}{40} \right]_{0}^{20} \\
&= a \left( 20 – \frac{20^2}{40} \right) \\
&= a (20 – 10) \\
&= 10a = 1 \\
a &= \frac{1}{10}
\end{align}
$$

上記より$\displaystyle a = \frac{1}{10}$の④が正しい。

Q.2

$X \sim \mathcal{N}(2,3^2)$より、$P(-1 < X \geq 4)$は$Z \sim \mathcal{N}(0,1)$である$Z$を用いて下記のように表すことができる。
$$
\large
\begin{align}
P(-1 < X \geq 4) &= P \left( \frac{-1-2}{3} < \frac{X-2}{3} \geq \frac{4-2}{3} \right) \\
&= P \left( -1 < Z \geq \frac{2}{3} \right) \\
&= 1 – 0.1587 – \left( \frac{1}{3} \cdot 0.2546 + \frac{2}{3} \cdot 0.2514 \right) \\
&= 1 – 0.1587 – 0.252 \\
&= 0.589
\end{align}
$$

上記より$0.59$の⑤が正しい。

Q.3

確率密度関数$f(x)$は上記のように図示できる。ここで水道料金は$0 \leq x \leq 10$で$1,000$円、$10 \leq x \leq 15$で$1,120$円、$15 \leq x \leq 20$で$1,280$円であるので、期待値$E[X]$は下記のように計算できる。
$$
\large
\begin{align}
E[X] &= \int_{0}^{10} 1000 f(x) dx + \int_{0}^{10} 1120 f(x) dx + \int_{0}^{10} 1280 f(x) dx \\
&= 1000 \left( \frac{20 \cdot 0.1}{2} – \frac{10 \cdot 0.05}{2} \right) + 1120 \left( \frac{10 \cdot 0.05}{2}-\frac{5 \cdot 0.025}{2} \right) + 1280 \cdot \frac{5 \cdot 0.025}{2} \\
&= 1000 \times \frac{3}{4} + 1120 \times \frac{3}{16} + 1280 \times \frac{1}{16} \\
&= 750 + 70 \times 3 + 80 \\
&= 1040
\end{align}
$$

上記より②が正解である。

・考察
確率密度関数に基づく三角形の面積が$\displaystyle 1:\frac{1}{4}:\frac{1}{16}$であることに着目すると計算しやすい。

Q.4

標本比率$\hat{p}$に関して下記が成立する。
$$
\large
\begin{align}
\hat{p} \sim \mathcal{N} \left( p,\frac{\hat{p}(1-\hat{p})}{n} \right)
\end{align}
$$

よって$Z \sim \mathcal{N}(0,1)$である確率変数$Z$を用いて$P(|\hat{p}-p| \leq 0.1)$は下記のように計算できる。
$$
\large
\begin{align}
P(|\hat{p}-p| \leq 0.1) &= P(-0.1 \leq \hat{p}-p \leq 0.1) \\
&= P \left( -\frac{0.1}{\sqrt{\hat{p}(1-\hat{p})/n}} \leq \frac{\hat{p}-p}{\sqrt{\hat{p}(1-\hat{p})/n}} \leq \frac{0.1}{\sqrt{\hat{p}(1-\hat{p})/n}} \right) \\
&= P \left( -\frac{0.1}{\sqrt{0.54(1-0.54)/100}} \leq Z \leq \frac{0.1}{\sqrt{0.54(1-0.54)/100}} \right) \\
& \simeq P( -2.01 \leq Z \leq 2.01) \\
& \simeq 1 – 2 \times 0.0222 = 0.9556
\end{align}
$$

上記より正解は⑤である。

Q.5

$2$以下の目が出る確率を$p$とおくと、$X \sim \mathrm{Bin}(7,p)$より下記が成立する。
$$
\large
\begin{align}
P(X=x) &= {}_{7} C_{x} p^{x} (1-p)^{7-x} \\
P(X=x+1) &= {}_{7} C_{x} p^{x+1} (1-p)^{6-x}
\end{align}
$$

このとき$\displaystyle \frac{P(X=x+1)}{P(X=x)}$は下記のように計算できる。
$$
\large
\begin{align}
\frac{P(X=x+1)}{P(X=x)} &= \frac{{}_{7} C_{x} p^{x+1} (1-p)^{6-x}}{{}_{7} C_{x} p^{x} (1-p)^{7-x}} \\
&= \frac{7!}{(x+1)!(6-x)!} \times \frac{x!(7-x)!}{7!} \times \frac{p}{1-p} \\
&= \frac{7-x}{x+1} \times \frac{p}{1-p}
\end{align}
$$

上記に$\displaystyle p = \frac{1}{3}$を代入すると下記が得られる。
$$
\large
\begin{align}
\frac{P(X=x+1)}{P(X=x)} &= \frac{7-x}{x+1} \times \frac{p}{1-p} \\
&= \frac{7-x}{x+1} \times \frac{1}{3} \times \frac{3}{2} \\
&= \frac{-x+7}{2x+2}
\end{align}
$$

上記より②が正解である。

Q.6

Ⅰ 右に裾の長い分布では歪度は正の値であり、左に裾が長い分布では歪度は負の値であるので×

Ⅱ 尖度は中心部の尖り具合の指標であるので×

Ⅲ 自由度が大きいほど尖度の絶対値は小さくなり、$n \to \infty$で正規分布に収束するので×

上記より正解は⑤である。

Q.7

$X \sim \mathcal{N}(4000,500^2), Y \sim \mathcal{N}(4000,500^2)$のとき、$X-Y \sim \mathcal{N}(0,2 \cdot 500^2)$が成立する。よって確率$P(X-Y \geq 800)$は下記のように計算できる。
$$
\large
\begin{align}
P(X-Y \geq 800) &= P \left( Z \geq \frac{800}{500 \sqrt{2}} \right) \\
&= P( Z \geq 1.13 \cdots ) \\
&= 0.1292
\end{align}
$$

よって正解は③である。

Q.8

$$
\large
\begin{align}
E[X] &= 2.0, \, E[Y] = 3.0, \, E[XY] = 6.3, \, V[X] = 1.0, \, V[Y] = 1.0 \\
U &= 3X-2, \, V = -2Y-4
\end{align}
$$

上記に基づいて$E[U], E[V], E[UV]$は下記のように計算できる。
$$
\large
\begin{align}
E[U] &= E[3X-2] \\
&= 3E[X]-2 = 4 \\
E[V] &= E[-2Y-4] \\
&= -2E[Y]-4 = -10 \\
E[UV] &= E[(3X-2)(-2Y-4)] \\
&= – 6E[XY] – 12E[X] + 4E[Y] + 8 \\
&= -41.8
\end{align}
$$

よって共分散$\mathrm{Cov}[U,V]$は下記のように計算できる。
$$
\large
\begin{align}
\mathrm{Cov}[U,V] &= E[UV] – E[U]E[V] \\
&= -41.8 – 4 \times (-10) \\
&= -1.8
\end{align}
$$

また、$V[U], V[V]$は下記のように計算できる。
$$
\large
\begin{align}
V[U] &= V[3X-2] \\
&= 3^2 V[X] \\
&= 9 \\
V[V] &= V[-2Y-4] \\
&= (-2)^2 V[Y] \\
&= 4
\end{align}
$$

したがって相関係数$r[U,V]$は下記のように計算できる。
$$
\large
\begin{align}
r[U,V] &= \frac{\mathrm{Cov}[U,V]}{\sqrt{V[U]V[V]}} \\
&= \frac{-1.8}{3 \times 2} \\
&= -0.3
\end{align}
$$

以上より正解は④である。

参考

・【統計検定$2$級対応】統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

2.9.1 同時分布と周辺分布 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.9.1$節「同時分布と周辺分布」の内容を元に同時分布と周辺分布の定義に関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

「同時分布と周辺分布」の概要

概要

前記事までは確率変数は「$1$つのサイコロの出目$X$」のように$1$変数のみを取り扱う場合についてのみ取り扱いましたが、$2$つのサイコロの出目をそれぞれ$X, Y$とおき、$2$変数の確率分布を取り扱うこともあります。

$2$変数の確率分布を同時確率分布といい、どちらかの確率変数に関して和や積分を考えることで消去した場合の確率分布を周辺分布といいます。当記事では以下、同時確率分布や周辺分布に関して詳しく取り扱います。

必要な数学

周辺分布の導出にあたっては$\displaystyle \sum$や「積分」を元に計算されるので、$\displaystyle \sum$の定義や「積分」の概念の理解が必要です。積分は定義のみを取り扱うので、数Ⅱレベルの積分を抑えておけば十分です。

同時分布と周辺分布

離散型

離散型の確率変数$X, Y$に関して同時確率分布(joint probability distribution)を考えるにあたっては、下記のように同時確率関数(joint probability function)の$p(x_i,y_i)$を定義します。
$$
\large
\begin{align}
p(x_i,y_i) = P(X=x_i, Y=y_i)
\end{align}
$$

このとき、確率変数$X$に関する周辺確率関数(marginal probability function)を$p_{x}(x_i)$、確率変数$Y$に関する周辺確率関数を$p_{y}(y_i)$とおくと、それぞれ下記のように定義されます。
$$
\large
\begin{align}
p_{x}(x_i) &= \sum_{j} p(x_i,y_j) = P(X=x_i) \\
p_{y}(y_j) &= \sum_{i} p(x_i,y_j) = P(Y=y_j)
\end{align}
$$

連続型

確率変数の$X, Y$が連続値をとる場合、同時確率分布を考えるにあたっては、下記のように同時確率密度関数(joint probability density function)の$f(x,y)$を定義します。
$$
\large
\begin{align}
P(x \leq X \leq x + \Delta x, y \leq Y \leq y + \Delta y) \simeq f(x,y) \Delta x \Delta y
\end{align}
$$

上記のように$f(x,y)$を考えると、周辺確率密度関数(marginal probability density function)の$f(x), f(y)$はそれぞれ下記のように定義されます。
$$
\large
\begin{align}
f(x) &= \int_{-\infty}^{\infty} f(x,y) dy \\
f(y) &= \int_{-\infty}^{\infty} f(x,y) dx
\end{align}
$$

また、確率密度関数は確率分布に対応することから$f(x,y)$に関して下記が成立する必要があります。
$$
\large
\begin{align}
0 \leq & f(x,y) \leq 1 \\
\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} & f(x,y) dx dy = 1
\end{align}
$$

3.4.3 母分散の区間推定 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$3.4.3$節「母分散の区間推定」の内容を元に$\chi^2$分布を用いた母分散の区間推定について取りまとめを行いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

「母分散の区間推定」の概要

概要

当記事では「標本」の「実測値」に基づいて「母分散の区間推定」を行います。区間推定にあたっては自由度$n-1$の$\chi^2$分布を用いて計算を行います。

必要な数学

「区間推定」の結果の導出にあたっては不等号に関する計算がよく出てくるので、抑えておく必要があります。
$$
\large
\begin{align}
\chi^2_{\alpha=0.975}(n-1) \leq \frac{(n-1)s^2}{\sigma^2} \leq \chi^2_{\alpha=0.025}(n-1)
\end{align}
$$

上記のような数式を$\sigma^2$に関して解く必要があるので、特に$1/x<1/y$が$x>y$に対応することは必須です。

母分散の区間推定

母分散が未知の場合の母平均の推定

「標本」の確率変数を$X_i \sim \mathcal{N}(\mu,\sigma^2)$と考えるとき、検定統計量$\chi^2$を下記のように考えることができます。
$$
\large
\begin{align}
\chi^2 &= \frac{\sum(X_i-\overline{X})}{\sigma^2} = \frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1) \\
\overline{X} &= \frac{1}{n} \sum_{i=1}^{n} X_i \\
s^2 &= \frac{1}{n-1} \sum_{i=1}^{n} (X_i-\overline{X})^2
\end{align}
$$

上記の$\chi^2(n-1)$は自由度$n-1$の$\chi^2$分布を表します。ここで標本平均の実現値を$\overline{x}$、不偏標本分散の実現値を$\hat{s}^2$、自由度$n-1$の$\chi^2$分布$\chi^2(n-1)$の上側$\alpha’$点を$\chi^2_{\alpha=\alpha’}(n-1)$のようにおくと、$\displaystyle \chi^2 = \frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1)$より$\sigma^2$の$95$%区間に関して下記が成立します。
$$
\large
\begin{align}
\chi^2_{\alpha=0.975}(n-1) \leq \frac{(n-1)s^2}{\sigma^2} \leq \chi^2_{\alpha=0.025}(n-1) \quad (1)
\end{align}
$$

上記の$(1)$式は下記のように変形できます。
$$
\large
\begin{align}
\chi^2_{\alpha=0.975}(n-1) \leq & \frac{(n-1)\hat{s}^2}{\sigma^2} \leq \chi^2_{\alpha=0.025}(n-1) \quad (1) \\
\frac{1}{\chi^2_{\alpha=0.025}(n-1)} \leq & \frac{\sigma^2}{(n-1)\hat{s}^2} \leq \frac{1}{\chi^2_{\alpha=0.975}(n-1)} \\
\frac{(n-1)\hat{s}^2}{\chi^2_{\alpha=0.025}(n-1)} \leq & \sigma^2 \leq \frac{(n-1)\hat{s}^2}{\chi^2_{\alpha=0.975}(n-1)}
\end{align}
$$

上記の$\sigma^2$が得られた観測値に基づく母分散$\sigma^2$の$95$%区間であると考えることができます。

$\chi^2$分布の上側%点と自由度

下記の値は概ね抑えておくと良いと思います。

自由度 $10$$20$$60$$120$$240$
上側$1.0$%点 $23.21$$37.57$$88.38$$158.95$$293.89$
上側$2.5$%点$20.48$$34.17$$83.30$$152.21$$284.80$
上側$5.0$%点 $18.31$$31.41$$79.08$$146.57$$277.14$
上側$97.5$%点 $3.25$$9.59$$40.48$$91.57$$198.98$
上側$99.0$%点 $2.56$$8.26$$37.48$$86.92$$191.99$

発展事項

$\chi^2$分布の確率密度関数の導出は下記で詳しく取り扱いました。

ベイズ統計学の用語まとめ 〜ベイズ統計学、ベイズ法、ベイズ推定、ベイズ推定量、ベイズの定理〜

ベイズ統計学(Bayes statistics)にはベイズ法、ベイズ推論、ベイズ推定など様々な用語が用いられる一方で、教科書・参考書などではそれぞれの定義がない場合が多いです。そこで当記事ではベイズ統計学に関連する用語に関して取りまとめを行いました。

前提の確認

概要

ベイズ統計学(Bayes statistics)では様々な用語が用いられる一方で、用語の定義が厳密になされる場合は少ない。

・ベイズ統計学(Bayes statistics)
・ベイズ推論
・ベイズ法
・ベイズ推定
・ベイズ推定量(Bayes estimator)
・ベイズの定理(Bayes theorem)

具体的には上記のような用語が「ベイズ統計学」を学ぶ上でよく出てくるが、「ベイズの定理(Bayes theorem)」以外では上記の使い分けは難しい。そこで当記事ではベイズ統計学の用語について取りまとめの作成を行なった。

参考書籍

「統計学準$1$級対応 ワークブック(学術図書出版社)」、「現代数理統計学(学術図書出版社)」、「数理統計学(共立出版)」などを用いた。

上記の書籍では定義が確認できない点が多く見受けられたので、そもそもの用語の意味やWikipediaの内容に加えて筆者の仮説なども交えながら取りまとめを行なった。確定版ではないので適切な参考文献が見つかり次第アップデートを行う予定である。

必要な事前知識

「ベイズ統計学」に関して一通り学んだことを前提としており、「事前確率」、「事後確率」、「尤度」、「最尤推定」、「MAP推定」、「推定量」、「推定値」、「予測分布」などについては解説なくそのまま用語を用いる。

用語の定義

定義が明示的になされており、確実であるものから順に以下取り扱う。

ベイズの定理

事象$A$の原因に互いに排反な$n$個の事象$H_1, H_2, \cdots , H_n$を考える。このとき条件付き確率$P(H_i|A)$は下記のように表せる。
$$
\large
\begin{align}
P(H_i|A) &= \frac{P(H_i)P(A|H_i)}{P(A)} \\
&= \frac{\displaystyle P(H_i)P(A|H_i)}{\displaystyle \sum_{i=1}^{n} P(A \cap H_i)}
\end{align}
$$

上記をベイズの定理(Bayes theorem)という。ベイズの定理は「条件付き確率の定義」や「確率の情報定理」に基づく数式であり、基本的に全ての文献で定義が一致する。

ベイズ推定量

ベイズ推定量(Bayes estimator)はパラメータ$\theta$の事後分布$P(\theta|x)$の期待値を元にパラメータ推定を行う際に用いる推定量である。「数理統計学(共立出版)」のようにEAP推定量(Expected a Posterior Estimator)と表されることもある。

「ベイズ推定量」と表すと「最大事後確率推定量(MAP推定量)」は「ベイズ的な推定量ではない」と見えなくもないので、「統計の森」では「期待事後推定量(EAP推定量)」と表す場合が多い。

ベイズ統計学

ベイズ統計学:Wikipedia」では「ベイズ統計学」は「確率のベイズ的解釈に基づく統計学」であるとされます。基本的には「ベイズの定理」を統計学に適用したと考えておけば良いと思われる。

ベイズ法

「現代数理統計学」では「ベイズ統計学の手法」が「ベイズ法」とされる。よって、前項の「ベイズ統計学」における手法であると解釈できる。

ベイズ推定

ベイズ推定:Wikipedia」では「ベイズ推定」は「ベイズ確率の考え方に基づき、観測事象から、推定したい事柄を、確率的な意味で推論すること」や、「ベイズ確率に基づいて推定量を計算すること」などの記載がある。

上記はあまり明確な定義ではないが、「推定」という用語は「母集団のパラメータを標本から推定する際に用いる」ことも合わせて考慮することで「ベイズ推定」は「事後分布に基づいて母集団のパラメータを推定することを指す」のではないかというのが筆者の仮説である。

「ベイズ推定:事後分布に基づいて行う母集団のパラメータの推定」であれば、「EAP推定量」や「MAP推定量」と同様に考えると良い。

ベイズ推論

「推定」と「推論」は基本的に同様の意味であるように思われるが、機械学習では「推論」が「未知サンプルの予測」という意味で用いられる。よって、「ベイズ推論」は「母集団のパラメータ推定」ではなく「予測分布」を指すのではないかというのが筆者の仮説である。

4.2 基本的な仮説検定の構造 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$4.2$節「基本的な仮説検定の構造」の内容を元に仮説検定におけるいくつかの重要な観点について確認を行います。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

「基本的な仮説検定の構造」の概要

概要

上記で取り扱った「仮説検定」の基本的な考え方を元に、当記事では「仮説検定」における重要な観点に関して取りまとめを行いました。

必要な数学

推測統計の基盤の「概念の理解」であるので、数学の理解は必要ありませんが、議論が抽象的なので定期的に復習を行うと良いと思います。

仮説検定における重要事項

帰無仮説・対立仮説

「仮説検定」では「母数(パラメータ)」の値を仮定した際に標本の「実測値」が「珍しいかどうか」に基づいて考察を行う考え方です。この際に仮定する「母数」の値を「帰無仮説(null hypothesis)」といいます。

「帰無仮説を元に考えると実測値が有意水準$\alpha$を超えて珍しい結果である」場合に「帰無仮説」を棄却しますが、この際に採択されるのが「対立仮説(alternative hypothesis)」です。

帰無仮説と対立仮説はそれぞれ$H_0$、$H_1$のように表されますが、「仮説検定」の手順では「帰無仮説が正しくない」には統計的な裏付けがある一方で、「帰無仮説が正しい」には統計的な裏付けがありません。よって、実用的に「仮説検定」を行う際には「帰無仮説が正しくない」を「主張」できるように論理展開を行うことが多いです。たとえば「新薬の効果があるか」については「効果がない」を帰無仮説$H_0$に設定し、仮説検定を行うなどがこの例にあげられます。

片側対立仮説と両側対立仮説

前項で確認した「対立仮説」の設定にあたっては、主に$2$つの設定方法があります。たとえばテストの点数を元に評価を行う場合、「上回る場合」と「下回る場合」の両側について考慮する必要があります。この際は帰無仮説$H_0 \, \mu=80$に対し、対立仮説$H_1 \, \mu \neq 80$を考えます。

一方で、「新薬の効果」のように「現状の改善」が前提にある場合は「片側」への数値の移動のみを考慮します。この際は帰無仮説$H_0 \, \mu=0$に対し、対立仮説を$H_1 \, \mu > 0$のように設定します。

このように対立仮説$H_1$は「片側」のみを考える「片側対立仮説」と「両側」を考える「両側対立仮説」の$2$つの設定方法があります。片側と両側の使い分けに関しては厳密には難しいので、ある程度慣用的に判断するのが良いと思います。

検定統計量と棄却域

「仮説検定」では「母集団」から得られる「標本」に基づいて計算される「統計量」の値に基づいて考察を行います。
$$
\large
\begin{align}
\overline{X} &= \frac{1}{n} \sum_{i=1}^{n} X_i \\
\hat{p} &= \frac{X}{n}
\end{align}
$$

上記のように定義される標本平均$\overline{X}$や標本比率$\hat{p}$のように、「仮説検定」に用いられる「統計量」を「検定統計量(test statistic)」といいます。「仮説検定」では「母数(パラメータ)」の値を仮定した際に「検定統計量」の値が「珍しいかどうか」を元に考察を行います。

観測された標本の「実測値」を元に「検定統計量」を計算した際に「有意水準$\alpha$を超えて珍しい結果である」場合は帰無仮説が棄却されます。ここで「帰無仮説」が棄却される範囲を仮説検定の棄却域(rejection region)といいます。

棄却と受容、2種の過誤

母集団の平均に関する仮説

4.1 仮説検定の考え方 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$4.1$節「仮説検定の考え方」の内容を元に仮説検定の概要と基本的な考え方について確認を行います。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

「仮説検定の考え方」の概要

概要

「推測統計」では得られた「観測値」を元に「母集団」についてなんらかの推測を行います。「区間推定」では「母平均」のような母集団のパラメータの値を区間での予測を行いますが、「仮説検定」では「パラメータの値を特定の値に定めて良いか」を確率的に検証します。

必要な数学

「統計検定2級対応 統計学基礎」では$2$項分布の例が出てくるので当記事でも同様の例を取り扱います。よって、「順列・組み合わせ」の理解が必要になります。

仮説検定

基本的な考え方

「仮説検定」では母集団に対して「母平均」や「母比率」のようなパラメータの値を定めた際に、「手元に得られた観測値が確率的に珍しいかどうか」を元に考察を行います。たとえば「同様に確からしい」サイコロのが$3$回中$3$回が$1$である確率は下記のように計算できます。
$$
\large
\begin{align}
\left( \frac{1}{6} \right)^{3} &= \frac{1}{216} \\
&= 0.00462 \cdots
\end{align}
$$

上記のようにサイコロを$3$回投げた際に$3$回とも$1$が出る確率は約$0.46$%であり、低い確率であると考えられます。状況によりますがこのような場合は「サイコロに仕掛けがあるのではないか」と考える場合があると思います。

同様に「統計検定2級対応 統計学基礎」では「タコが$20$試合中$14$試合の結果を予測した場合、珍しいと言えるか」について取り扱われています。的中させる確率を$1/2$と考えるとき、「$20$試合中$14$試合の結果を予測する確率」は下記のように計算できます。
$$
\large
\begin{align}
{}_{20} C_{14} \left( \frac{1}{2} \right)^{14} \left( \frac{1}{2} \right)^{6} = 0.0369 \cdots
\end{align}
$$

上記のように約$3.7$%が得られますが、「この結果が珍しいか」を判断するにあたっては、$15$試合以上的中させた場合と$6$試合以下のみの的中の場合を加えて珍しいかを判断する必要があります。この確率が約$11.5$%なので$14$試合の的中はそれほど珍しくないと考えることができます。

下記を実行することで具体的な計算を行いました。

import math

prob1 = math.factorial(20)/(math.factorial(14)*math.factorial(6)*2.**20)

prob2 = 0.
for i in range(14,21):
    prob2 += math.factorial(20)/(math.factorial(i)*math.factorial(20-i)*2.**20)

print(prob1)
print(prob2*2)

上記では「珍しくないか」を確認するにあたって、サイコロでは$1/6$、タコの予測では$1/2$のように「一様な確率」を母集団の確率の「母比率」に仮定しました。ここで設定した確率を「帰無仮説」といい、珍しい結果が得られた場合に「帰無仮説を棄却する」というのが仮説検定の考え方です。

このとき、帰無仮説を棄却する基準が必要になりますが、ここで設定する確率を統計学では「有意水準(level of significance)」といい、$\alpha$で表します。

また、サイコロの例では「片側確率」、タコの例では「両側確率」を取り扱いましたが、これらの取り扱いは問題によって使い分ける必要があります。詳しくは「基本的な仮説検定の構造」で取り扱いました。

3.4.2 母分散が未知の場合の母平均の推定 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$3.4.2$節「母分散が未知の場合の母平均の推定」の内容を元に母分散未知の際の母平均の推定について取りまとめを行いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

母分散が未知の場合の母平均の推定の概要

概要

上記で取り扱った「正規分布の母平均の推定」に際して、母分散が未知の場合を当記事では取り扱います。

必要な数学

「区間推定」の結果の導出にあたっては不等号に関する計算がよく出てくるので、抑えておく必要があります。
$$
\large
\begin{align}
-1.96 \frac{\sigma}{\sqrt{n}} \leq \bar{x}-\mu \leq 1.96 \frac{\sigma}{\sqrt{n}}
\end{align}
$$

正規分布の母平均の推定

母分散が未知の場合の母平均の推定

母分散$\sigma^2$が未知の場合は不偏標本分散$s^2$を用います。このとき標本平均$\overline{X}$に関して下記が成立します。
$$
\large
\begin{align}
\frac{\overline{X}-\mu}{s/\sqrt{n}} & \sim t(n-1) \\
\overline{X} &= \frac{1}{n} \sum_{i=1}^{n} X_i \\
s^2 &= \frac{1}{n-1} \sum_{i=1}^{n} (X-\overline{X})^2
\end{align}
$$

上記の$t(n-1)$は自由度$n-1$の$t$分布を表します。ここで標本平均の実現値を$\overline{x}$、不偏標本分散の実現値を$\hat{s}^2$、自由度$n-1$の$t$分布$t(n-1)$の上側$\alpha’$点を$t_{\alpha=\alpha’}(n-1)$のようにおくと、$\displaystyle \frac{\overline{X}-\mu}{s/\sqrt{n}} \sim t(n-1)$より$\mu$の$95$%区間に関して下記が成立します。
$$
\large
\begin{align}
t_{\alpha=0.975}(n-1) \leq \frac{\bar{x}-\mu}{\hat{s}/\sqrt{n}} \leq t_{\alpha=0.025}(n-1) \quad (1)
\end{align}
$$

$t_{\alpha=0.975}(n-1)=-t_{\alpha=0.025}(n-1)$上記の$(1)$式は下記のように変形できます。
$$
\large
\begin{align}
t_{\alpha=0.975}(n-1) \leq & \frac{\bar{x}-\mu}{\hat{s}/\sqrt{n}} \leq t_{\alpha=0.025}(n-1) \quad (1) \\
-t_{\alpha=0.025}(n-1) \leq & \frac{\bar{x}-\mu}{\hat{s}/\sqrt{n}} \leq t_{\alpha=0.025}(n-1) \\
-t_{\alpha=0.025}(n-1) \frac{\hat{s}}{\sqrt{n}} \leq & \bar{x}-\mu \leq t_{\alpha=0.025}(n-1) \frac{\hat{s}}{\sqrt{n}} \\
-t_{\alpha=0.025}(n-1) \frac{\hat{s}}{\sqrt{n}} \leq & \mu-\bar{x} \leq t_{\alpha=0.025}(n-1) \frac{\hat{s}}{\sqrt{n}} \\
\bar{x} – t_{\alpha=0.025}(n-1) \frac{\hat{s}}{\sqrt{n}} \leq & \mu \leq \bar{x} + t_{\alpha=0.025}(n-1) \frac{\hat{s}}{\sqrt{n}}
\end{align}
$$

上記の$\mu$が得られた観測値に基づく母平均$\mu$の$95$%区間であると考えることができます。

$t$分布の上側%点と自由度

下記の値は概ね抑えておくと良いと思います。

自由度 $10$$20$$30$$60$$120$$240$正規分布
$0.5$%点 $3.169$$2.845$$2.750$$2.660$$2.617$$2.596$$2.576$
$2.5$%点 $2.228$$2.086$$2.042$$2.000$$1.980$$1.970$$1.960$
$5.0$%点 $1.812$$1.725$$1.697$$1.671$$1.658$$1.651$$1.645$
「統計検定2級対応 統計学基礎」表$3.1$

発展事項

$t$分布の確率密度関数の導出は下記で詳しく取り扱いました。

3.4.1 正規分布の母平均の推定 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$3.4.1$節「正規分布の母平均の推定」の内容を元に母分散既知の際の母平均の推定について取りまとめを行いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

正規分布の母平均の推定の概要

概要

「区間推定」で取り扱った例に関して当記事では詳しく取り扱います。

必要な数学

「区間推定」の結果の導出にあたっては不等号に関する計算がよく出てくるので、抑えておく必要があります。

$$
\large
\begin{align}
-1.96 \frac{\sigma}{\sqrt{n}} \leq \bar{x}-\mu \leq 1.96 \frac{\sigma}{\sqrt{n}}
\end{align}
$$

上記のような数式を$\mu$に関して解く必要があるので、特に$-x<-y$が$x>y$に対応することは必須です。

正規分布の母平均の推定

母分散が既知のとき

母平均$\mu$の$95$%区間は下記を計算することで得られます。
$$
\large
\begin{align}
\bar{x}-1.96 \frac{\sigma}{\sqrt{n}} \leq & \mu \leq \bar{x} + 1.96 \frac{\sigma}{\sqrt{n}} \quad (1)
\end{align}
$$

上記の導出に関しては下記で詳しく取り扱いました。

また、母平均$\mu$の$99$%区間は$z_{\alpha=0.01}=2.58$より、下記を計算することで得られます。
$$
\large
\begin{align}
\bar{x} – 2.58 \frac{\sigma}{\sqrt{n}} \leq & \mu \leq \bar{x} + 2.58 \frac{\sigma}{\sqrt{n}} \quad (2)
\end{align}
$$

母分散未知だがサンプル数が大きいとき

サンプル数が大きい際は一致性に基づき、観測値から計算された標準偏差$\hat{\sigma}$を$(1)$式$(2)$式の$\sigma$の代わりに用いて計算を行えば良いです。

母分散未知かつサンプル数がそれほど大きくないとき

「母分散が未知の場合の母平均の推定:分布の利用」で詳しく取り扱います。