ブログ

1.3.1 平均・分散・標準偏差 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$1.3.1$節「平均・分散・標準偏差」の内容を元に得られた観測値の概要を掴む際に用いられる平均・分散・標準偏差に関して取り扱いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

平均・分散・標準偏差の概要

概要

$n$個の観測値を$x_1, x_2, x_3 \cdots , x_{n-1}, x_{n}$のように定義します。これらの観測値を把握するにあたっては度数分布表や度数分布表に基づくヒストグラムを描くなどがありますが、数値を元に要約できると役に立つ場合が多いです。

観測値を数値で要約を行う場合、「観測値の中心を表す指標」と「観測値の散らばりを表す指標」の$2$つが得られれば、観測結果の大まかな理解が可能になります。

当記事では以下、「中心を表す指標」の「平均」と、「散らばりを表す指標」の「分散」と「標準偏差」に関してそれぞれ取りまとめました。

必要な数学

平均や分散の式の定義にあたって、和を表す記号の$\displaystyle \sum$が用いられることが多いので、抑えておく必要があります。

平均・分散・標準偏差

平均

観測値$x_1, x_2, x_3 \cdots , x_{n-1}, x_{n}$の平均$\bar{x}$は下記のように定義されます。
$$
\large
\begin{align}
\bar{x} = \frac{1}{n} (x_1 + x_2 + \cdots + x_n)
\end{align}
$$

「観測値が左右対称に分布する」場合、「平均」が概ね中心になるので、このような場合は「中心を表す指標」に「平均」が用いられることが多いです。

分散

観測値$x_1, x_2, x_3 \cdots , x_{n-1}, x_{n}$の分散$S^2$は下記のように定義されます。
$$
\large
\begin{align}
S^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2
\end{align}
$$

分散は平均からの偏差$x_i-\bar{x}$の$2$乗の和で表されるので、観測値が平均からどのくらい散らばるかを表す指標に用いられます。

標準偏差

標準偏差は分散の$\sqrt{}$を計算することで定義されます。
$$
\large
\begin{align}
S = \sqrt{S^2} = \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2 }
\end{align}
$$

具体例

$3$$4$$5$$6$$7$
$1$$3$$5$$7$$9$
$0$$4$$5$$6$$10$
$0$$1$$5$$9$$10$

以下、上記の観測値を元に①〜④の平均、分散、標準偏差の計算を行います。それぞれ平均を$\bar{x}_1$〜$\bar{x}_4$、標準偏差を$S_1$〜$S_4$のように定義すると、それぞれ下記のように計算できます。

import numpy as np

x = np.array([[3., 4., 5., 6., 7.], [1., 3., 5., 7., 9.], [0., 4., 5., 6., 10.], [0., 1., 5., 9., 10.]])
mean_x = np.mean(x,axis=1)
mean_x_mat = np.repeat(mean_x,5).reshape([4,5])

s2 = np.mean((x-mean_x_mat)**2, axis=1)
s = np.sqrt(s2)

print(mean_x)
print(s2)
print(s)

・実行結果

[ 5.  5.  5.  5.]
[  2.    8.   10.4  16.4]
[ 1.41421356  2.82842712  3.2249031   4.04969135]

ラスパイレス指数(Laspeyres index)の解釈と具体例

物価のような価格を表す価格指数によく用いられるのがラスパイレス指数(Laspeyres index)です。ラスパイレス指数の定義式が難しく書かれることが多いことで難しく見えますが実際にはそれほど難しくないので、当記事ではラスパイレス指数の解釈と具体例に関して取りまとめました。
「統計検定$2$級対応 統計学基礎」の$1.7.5$節の「指数の作成と利用」や、「統計検定 統計調査士対応 経済統計の実際」の$5.7$節の「国民経済計算、経済指数など」の内容を参考に作成を行いました。

・用語/公式解説
https://www.hello-statisticians.com/explain-terms

ラスパイレス指数

ラスパイレス指数の定義

基準年の第$i$財の価格を$p_{0i}$、購入数量を$q_{0i}$、対象年の第$i$財の価格を$p_{ti}$、購入数量を$q_{ti}$とおく。このとき「対象年に基準年と同じ購入量を購入した場合の総購入金額の比率」を表すラスパイレス価格指数$L_{t}$は下記のように定義される。
$$
\large
\begin{align}
L_{t} = \frac{\displaystyle \sum_{i=1}^{n} p_{ti} q_{0i}}{\displaystyle \sum_{i=1}^{n} p_{0i} q_{0i}} \times 100
\end{align}
$$

ラスパイレス指数の解釈

ラスパイレス指数(Laspeyres index)を用いる利点は「コストのかかる数量調査を基準年以外は行わなくて良い」点にある。たとえば「卵」の価格調査であれば、全国のスーパーの店舗を無作為に$1000$ほど抽出し、それぞれの価格の平均を計算することで価格の区間推定を行うことができる。

一方で、「卵」がいくつ売れたかの調査を行うにあたっては全数を数える必要があるので、流通した卵の総数を計算する必要がある。

このように、「価格調査」と「数量調査」のコストが同じでないことから、「基準年の数量を用いて計算する」というのがコストパフォーマンスの良い方法であると理解しておけば良い。

ラスパイレス指数の具体例

ラスパイレス式以外の算式

パーシェ式

フィッシャー式

3.4.4 母比率の区間推定 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$3.4.4$節「母比率の区間推定」の内容を元に二項分布の正規近似などを用いた母比率の区間推定について取りまとめを行いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

「母比率の区間推定」の概要

概要

「特定の政党を支持するかどうか」を元に政党支持率などを調査する場合を考えます。このとき、母集団が$100$人であれば都度全数調査を行うことができますが、実際の選挙区のように数$10$万人単位となると、全数調査はあまり現実的ではありません。

このような場合に母集団の政党支持率の母比率の区間推定を行います。母比率の区間推定にあたっては、中心極限定理に基づき二項分布の正規近似を行います。中心極限定理は下記で取り扱いましたので、詳しくは合わせてご確認ください。

必要な数学

中心極限定理を元に正規近似を行うので、極限の概念は抑えておくと良いと思います。

母比率の区間推定

二項分布の期待値と分散

確率変数$Y$が$Y \sim \mathrm{Bin}(n,p)$のように二項分布に従うとき、期待値$E[Y]$と分散$V[Y]$は下記のように表されます。
$$
\large
\begin{align}
E[Y] &= np \\
V[Y] &= np(1-p)
\end{align}
$$

上記は「ベルヌーイ分布の期待値・分散」と「期待値・分散の公式」に基づいて導出することができます。
詳しい導出は下記で取り扱いました。

発展事項

実際の調査では非復元無作為抽出を行うことが多いので、二項分布ではなく超幾何分布を用いるのが正確です。超幾何分布の期待値は二項分布と同じですが、分散は有限母集団修正の項の分だけ小さくなることは抑えておくと良いです。

一方で母集団の大きさの$N$が大きくなると有限母集団修正項は$1$であると見なせるので、母集団が大きいときは二項分布で近似できると考えられます。超幾何分布と有限母集団修正に関しては下記で取り扱いましたので、詳しくはご確認ください。

標本比率

前項で確認を行った確率変数$Y$を下記のように表すことを考えます。
$$
\large
\begin{align}
X_i & \sim \mathrm{Bin}(1,p) \\
Y &= \sum_{i=1}^{n} X_i \sim \mathrm{Bin}(n,p)
\end{align}
$$

上記の$\mathrm{Bin}(1,p)$は確率$p$のベルヌーイ分布に一致します。また、下記のように$\overline{X}$を定義します。
$$
\large
\begin{align}
\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i
\end{align}
$$

このとき標本の比率$\hat{p}$は$\overline{X}$に一致するので$\hat{p}=\overline{X}$が成立します。

標本比率の期待値と分散

標本比率$\hat{p}$の期待値$E[\hat{p}]$と分散$V[\hat{p}]$は$\hat{p}=\overline{X}$であることに基づいて、それぞれ下記のように導出することができます。
$$
\large
\begin{align}
E[\hat{p}] &= E[\overline{X}] = E \left[ \frac{1}{n} \sum_{i=1}^{n} X_i \right] \\
&= \frac{1}{n} \sum_{i=1}^{n} E[X_i] = p \\
V[\hat{p}] &= V \left[ \frac{1}{n} \sum_{i=1}^{n} X_i \right] \\
&= \frac{1}{n^2} \sum_{i=1}^{n} V[X_i] \\
&= \frac{np(1-p)}{n^2} = \frac{p(1-p)}{n}
\end{align}
$$

中心極限定理

標本比率は$\hat{p}=\overline{X}$のように表せるので$n \to \infty$のとき、中心極限定理を適用することができます。よって下記のように考えることができます。
$$
\large
\begin{align}
\hat{p} &= \overline{X} \sim \mathcal{N}(E[\overline{X}],V[\overline{X}]) \\
E[\hat{p}] &= E[\overline{X}] = p, \; V[\hat{p}] = V[\overline{X}] = \frac{p(1-p)}{n} \\
\hat{p} & \sim \mathcal{N} \left( p, \frac{p(1-p)}{n} \right)
\end{align}
$$

ここで$(1)$は$n \to \infty$を元に導出を中心極限定理を用いたことから、同様に大数の法則に基づいて分散に関して$\hat{p} \to p$であると考えることができます。よって下記が成立します。
$$
\large
\begin{align}
\hat{p} \sim \mathcal{N} \left( p, \frac{\hat{p}(1-\hat{p})}{n} \right) \quad (2)
\end{align}
$$

上記の近似は分散の$p$がそのままで区間推定を行うと、$2$次不等式を解く必要が生じ、煩雑であるので原則的に用いられます。基本的にはこの流れが用いられるので、難しく考えずに流れを抑えるで十分だと思います。

母比率の区間推定

$\displaystyle \hat{p} \sim \mathcal{N} \left( p, \frac{\hat{p}(1-\hat{p})}{n} \right)$より、母比率$p$の$95$%区間は下記のように表すことができます。
$$
\large
\begin{align}
z_{\alpha=0.975} \leq & Z \leq z_{\alpha=0.025} \\
-1.96 \leq & \frac{\hat{p}-p}{\sqrt{\hat{p}(1-\hat{p})/n}} \leq 1.96 \\
\hat{p} – 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq & p \leq \hat{p} + 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
\end{align}
$$

まとめ

母比率の区間推定では下記の$3$つの近似を用いたことに注意が必要です。

① 超幾何分布を二項分布で近似 $\leftarrow$ 母集団の大きさ$N$が大きいとき有限母集団修正項が$1$となる
② 中心極限定理による二項分布の正規近似
③ $\displaystyle \mathcal{N} \left( p, \frac{p(1-p)}{n} \right)$の分散の$p$を大数の法則に基づいて$\hat{p}$で近似

上記のように$3$つも同時に近似が出てくるので難しいですが、それぞれの概要を簡単に理解しておくと良いと思います。

統計検定2級 公式問題集 CBT対応版 解答例まとめ 〜模擬テスト〜

統計検定$2$級のCBT(Computer Based Testing)形式の解答例を取りまとめるにあたって、当記事では「統計検定$2$級 公式問題集 CBT対応版」の「PART.$3$ 模擬テスト」の解答例を作成しました。
解答例は「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

解答例

Q.1

箱ひげ図より、③が正解である。

Q.2

Ⅰ 正しい
Ⅱ 正しくない
Ⅲ 正しい

よって④が正解である。

Q.3

Ⅰ 正しい
Ⅱ 正しくない
Ⅲ 正しくない

よって①が正解である。

Q.4

確率変数$Y$の期待値を$E[Y]$、分散を$V[Y]$とおくと、$E[2Y], V[2Y]$は下記のように表せる。
$$
\large
\begin{align}
E[2Y] &= 2E[Y] \\
V[2Y] &= 2^2V[X]
\end{align}
$$

よって変動係数$CV=\sqrt{V[2Y]}/E[2Y]$は下記のように表せる。
$$
\large
\begin{align}
CV &= \frac{\sqrt{V[2Y]}}{E[2Y]} \\
&= \frac{2\sqrt{V[Y]}}{2E[Y]} \\
&= \frac{\sqrt{V[Y]}}{E[Y]}
\end{align}
$$

上記より$Y$を$2$倍にしても変動係数は変化しない。また、$X,Y$の共分散を$\mathrm{Cov}[X,Y]$とおくとき、$\mathrm{Cov}[X,2Y]$は下記のように表せる。
$$
\large
\begin{align}
\mathrm{Cov}[X,2Y] &= E[2XY] – E[X]E[2Y] \\
&= 2(E[XY]-E[X]E[Y]) \\
&= 2 \mathrm{Cov}[X,Y]
\end{align}
$$

上記より$Y$を$2$倍すると共分散も$2$倍になる。

以上より、②が正解である。

Q.5

⑤が正しい。

Q.6

$1,2$回目に$2$連勝するか$2,3$回目に$2$連勝するかのどちらかである。よって確率は下記のように計算できる。
$$
\large
\begin{align}
pq + (1-p)qp
\end{align}
$$

よって⑤が正解である。

Q.7

電気料金の確率変数を$X$とおくと、$X \sim \mathcal{N}(4000,500^2)$である。よって確率$P(X \geq 4800)$の値は$Z \sim \mathcal{N}(0,1)$である確率変数$Z$などを用いることで下記のように得られる。
$$
\large
\begin{align}
P(X \geq 4800) &= P \left( \frac{X-4000}{500} \geq \frac{4800-4000}{500} \right) \\
&= P \left( \frac{X-4000}{500} \geq \frac{4800-4000}{500} \right) \\
&= P(Z \geq 1.6) \simeq 0.548
\end{align}
$$

よって正解は②である。

Q.8

$$
\large
\begin{align}
E[X] &= 1, \, E[Y] = 2, \, E[XY] = 4 \\
Z &= X+Y, \, W=2X-Y, \, V[Z]=V[W]=24
\end{align}
$$

以下、上記を元に$\mathrm{Cov}[X,Y], E[X^2], E[Y^2]$の値の計算を行う。

・$\mathrm{Cov}[X,Y]$
$\mathrm{Cov[X,Y]} = E[XY]-E[X]E[Y]$を元に下記のように計算できる。
$$
\large
\begin{align}
\mathrm{Cov}[X,Y] &= E[XY] – E[X]E[Y] \\
&= 4 – 1 \cdot 2 \\
&= 2
\end{align}
$$

・$E[X^2], E[Y^2]$
$V[Z]=V[X+Y]=V[X]+V[Y]+2\mathrm{Cov}[X,Y]$より下記が得られる。
$$
\large
\begin{align}
V[Z] &= 24 \\
V[X] + V[Y] + 2\mathrm{Cov}[X,Y] &= 24 \\
V[X] + V[Y] &= 20 \quad (1)
\end{align}
$$

$V[W]=V[X-2Y]=4V[X]+V[Y]-4\mathrm{Cov}[X,Y]$より下記が得られる。
$$
\large
\begin{align}
V[Z] &= 24 \\
4V[X] + V[Y] – 2\mathrm{Cov}[X,Y] &= 24 \\
4V[X] + V[Y] &= 32 \quad (2)
\end{align}
$$

$(2)-(1)$より、$3V[X]=12$が得られるので$V[Y]=4$である。ここで$(1)$に$V[X]=4$を代入することで$V[Y]=16$が得られる。$V[X]=E[X^2]-E[X]^2, V[Y]=E[Y^2]-E[Y]^2$が成立するので下記のように$E[X^2], E[Y^2]$の値を計算できる。
$$
\large
\begin{align}
V[X] &= E[X^2] – E[X]^2 \\
E[X^2] &= V[X]+E[X]^2 \\
&= 4 + 1^2 = 5 \\
V[Y] &= E[Y^2] – E[Y]^2 \\
E[Y^2] &= V[Y]+E[Y]^2 \\
&= 16 + 2^2 = 20
\end{align}
$$

以上より、③が正しい。

Q.9

統計量$\displaystyle T = \frac{\overline{X}-\mu}{\sqrt{S^2/16}}$は自由度$15$の$t$分布に従う。よって⑤が正解である。

Q.10

$|\overline{X}-\mu| \leq 0.5$は下記のように考えることができる。
$$
\large
\begin{align}
-0.5 \leq & \overline{X}-\mu \leq 0.5 \\
-\frac{0.5}{1/\sqrt{n}} \leq & \frac{\overline{X}-\mu}{1/\sqrt{n}} \leq \frac{0.5}{1/\sqrt{n}} \\
-0.5 \sqrt{n} \leq & Z \leq 0.5 \sqrt{n}, \, Z \sim \mathcal{N}(0,1)
\end{align}
$$

よって、$P(|\overline{X}-\mu| \leq 0.5) \geq 0.95$は下記のように変形できる。
$$
\large
\begin{align}
P(|\overline{X}-\mu| \leq 0.5) & \geq 0.95 \\
P(-0.5 \sqrt{n} \leq Z \leq 0.5 \sqrt{n}) & \geq 0.95 \\
0.5 \sqrt{n} & \geq z_{\alpha=0.025} \\
\sqrt{n} & \geq 2 \cdot 1.96 \\
n & \geq 3.92^2 = 15.36 \cdots
\end{align}
$$

よって正解は④である。

Q.11

標本比率を$\hat{p}$、母比率を$p$とおくと、二項分布の正規近似より下記が成立する。
$$
\large
\begin{align}
\hat{p} \sim \mathcal{N} \left( p, \frac{p(1-p)}{n} \right)
\end{align}
$$

ここで$p \simeq 0.8$より母比率$p$の$95$%区間に関して下記が成立する。
$$
\large
\begin{align}
z_{\alpha=0.975} \leq & Z \leq z_{\alpha=0.025} \\
-1.96 \leq & \frac{\hat{p}-p}{\sqrt{p(1-p)/n}} \leq 1.96 \\
\hat{p} – 1.96 \sqrt{\frac{0.8 \cdot 0.2}{n}} \leq & p \leq \hat{p} + 1.96 \sqrt{\frac{0.8 \cdot 0.2}{n}}
\end{align}
$$

ここで上記の区間が$6$%以下であるには下記が成立すれば良い。
$$
\large
\begin{align}
2 \times 1.96 \sqrt{\frac{0.8 \cdot 0.2}{n}} & \leq 0.06 \\
n & \geq \left( \frac{2 \times 1.96 \times 0.4}{0.06} \right)^2 \\
n & \geq 682.9 \cdots
\end{align}
$$

よって②が正解である。

Q.12

Ⅰ $E[\hat{\mu_1}]=\mu$より$\hat{\mu_1}$は$\mu$の不偏推定量である。
Ⅱ $\hat{\mu_1}$は$\mu$の一致推定量ではない。
Ⅲ $E[\hat{\mu_2}]=\mu$より$\hat{\mu_2}$は$\mu$の不偏推定量である。
ⅠⅤ $\hat{\mu_1}$は$\mu$の一致推定量である。

よって⑤が正解である。

Q.13

第$1$種の過誤の確率$\alpha$は上図の青の領域、第$2$種の過誤の確率$\beta$は上図の緑の領域、にそれぞれ対応すると考えることができる。$H_0: \, \theta=0$、$H_1: \, \theta=1$、棄却域を$x \geq 0.8$のように考えるので、$\alpha, \beta$は統計数値表より、下記のように値が得られる。
$$
\large
\begin{align}
\alpha &= P(Z \geq 0.8) \simeq 0.2119 \\
\beta &= P(Z \leq -0.2) = P(Z \geq 0.2) \simeq 0.4207
\end{align}
$$

上記より②が正解である。

Q.14

検定統計量の実現値$t$は下記のように計算できる。
$$
\large
\begin{align}
t &= \frac{\overline{X}-\mu}{S/\sqrt{n}} \\
&= \frac{0.5-0}{1.5/4} \\
&= \frac{4}{3}
\end{align}
$$

また、自由度$16-1=15$の$t$分布の上側$5$%点は$t_{\alpha=0.05}(15)=1.753$であるので、$t=1.33 \cdots < 1.753 = t_{\alpha=0.05}(15)$より帰無仮説は棄却されない。

上記より④と⑤に絞られる。ここで④は「変化がないと判断する」、⑤は「変化があると判断できない」とそれぞれ主張されるが、仮説検定の論理展開上、帰無仮説が棄却できる際は「判断を行う」が棄却できない際は「判断を保留する」が適切であるので⑤が適切である。

Q.15

$$
\large
\begin{align}
\chi^2 = \sum_{i} \frac{(O_i-E_i)^2}{E_i}
\end{align}
$$

適合度検定の検定統計量は上記のように計算される。ここで$O_i$はそれぞれの観測値、$E_i$は$E_i=147/7=21$が対応するので、④か⑤に絞られる。

また、$\chi^2 \sim \chi^2(6)$であるので、棄却域は$\chi^2 \geq \chi^2_{\alpha=0.05}(6)=12.59$である。よって⑤が正しい。

・参考
$\chi^2$統計量は下記のように計算できる。

import numpy as np

observed_x = np.array([20., 18., 17., 24., 24., 22., 22.])
expected_x = np.repeat(21., 7)

chi2 = np.sum((observed_x-expected_x)**2/expected_x)
print("chi^2: {:.2f}".format(chi2))

・実行結果

chi^2: 2.19

上記より、帰無仮説は棄却できないことが確認できる。

Q.16

・$[1]$
回帰分析における残差の自由度は「サンプルの数」から「定数項を含む推定式の係数の数」を引いた数に一致するので、用いたサンプルの数は$52+3=55$である。よって④が正解である。

・$[2]$
Ⅰ $\alpha$の推定値の標準誤差はは$1.137e+02=113.7$であるので正しくない。$11.75=1.175e+01$は$\beta_2$の標準誤差である。
Ⅱ パラメータの$P$値が$1.39e-15 = 1.39 \times 10^{-15}, 5.87e-08=5.87 \times 10^{-8}, < 2e-16 < 2 \times 10^{16}$であり、どれも$0.05$よりも小さく有意水準$5$%で$0$ではないと判断できるので正しい。
Ⅲ 自由度調整済み決定係数はAdjusted R-squaredに対応するので正しくない。

よって②が正解である。

参考

・【統計検定$2$級対応】統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

2.11.3 中心極限定理 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.11.3$節「中心極限定理」の内容に基づいて中心極限定理の概要や取り扱いに関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

中心極限定理の概要

概要

中心極限定理は正規分布に基づかない標本に対しても$n$が大きくなれば標本の平均や和は正規分布に従うことを表した定理です。中心極限定理は大まかに下記の表を元に把握すると良いです。

サンプル数 十分大きいそれほど大きくない
正規母集団からの無作為抽出 正規分布自由度$n-1$の$t$分布
非正規母集団からの無作為抽出 正規分布 $\leftarrow$ 中心極限定理母集団分布による
「統計検定2級 公式問題集 CBT対応版 $7$.推定」の解答で作成

必要な数学

統計検定$2$級レベルでは中心極限定理の結果のみ用いるので数学的な知識は特に必要ありませんが、収束を考える際に極限や累積分布関数を表す際に積分が出てくるので極限と積分の概念は抑えておくと良いと思います。

中心極限定理

数式を用いた中心極限定理の表現

中心極限定理は$E[X_i]=\mu, V[X_i]=\sigma^2$に基づく標本列$X_1, X_2, …, X_n$に対して下記のように定義することができます。
$$
\large
\begin{align}
S_n &= \sum_{i=1}^{n} X_n \sim \mathcal{N}(n \mu, n \sigma^2) \\
\overline{X} &= \frac{1}{n} \sum_{i=1}^{n} X_n \sim \mathcal{N} \left( \mu, \frac{\sigma^2}{n} \right)
\end{align}
$$

上記に基づいて、下記のように$Z \sim \mathcal{N}(0,1)$が成立する$Z$を定義することができます。
$$
\large
\begin{align}
Z &= \frac{S_n – n \mu}{\sqrt{n} \sigma} \sim \mathcal{N}(0,1) \\
Z &= \frac{\overline{X} – \mu}{\sigma / \sqrt{n}} \sim \mathcal{N}(0,1)
\end{align}
$$

ここまで和の$S_n$と平均の$\overline{X}$の双方を確認しましたが、母平均や母比率の推定や検定では$\overline{X}$に基づいて$\mu$や$p$に関する推定や検定を行います。一方で、二項分布の正規近似などの場合は標本の和の$S_n$を用います。以下ではそれぞれの取り扱いに関して具体的に確認します。

標本平均の活用例

母平均の区間推定

$E[X_i]=\mu, V[X_i]=\sigma^2$に基づく標本列$X_1, X_2, …, X_n$の標本平均$\overline{X}$に関して$n \to \infty$のとき、$\displaystyle E[\overline{X}] = \mu, V[\overline{X}] = \frac{\sigma^2}{n}$より下記が成立します。
$$
\large
\begin{align}
\overline{X} & \sim \mathcal{N} \left( \mu, \frac{\sigma^2}{n} \right) \\
Z &= \frac{\overline{X}-\mu}{\sigma / \sqrt{n}} \sim \mathcal{N}(0,1)
\end{align}
$$

上記に基づいて$\mu$の$95$%区間は下記のように表すことができます。
$$
\large
\begin{align}
z_{\alpha=0.975} \leq & Z \leq z_{\alpha=0.025} \\
-1,96 \leq & \frac{\overline{X}-\mu}{\sigma / \sqrt{n}} \leq 1.96 \\
\overline{X} – 1.96 \frac{\sigma}{\sqrt{n}} \leq & \mu \leq \overline{X} + 1.96 \frac{\sigma}{\sqrt{n}}
\end{align}
$$

母比率の区間推定

$E[X_i]=p, V[X_i]=p(1-p)$に基づく標本列$X_1, X_2, …, X_n$の標本比率$\hat{p}=\overline{X}$に関して$n \to \infty$のとき、$\displaystyle E[\overline{X}] = p, V[\overline{X}] = \frac{p(1-p)}{n}$より下記が成立します。
$$
\large
\begin{align}
\hat{p} &= \overline{X} \sim \mathcal{N} \left( p, \frac{p(1-p)}{n} \right) \\
Z &= \frac{\hat{p}-p}{\sqrt{p(1-p) / n}} \sim \mathcal{N}(0,1)
\end{align}
$$

上記に基づいて母比率$p$の$95$%区間は下記のように表すことができます。
$$
\large
\begin{align}
z_{\alpha=0.975} \leq & Z \leq z_{\alpha=0.025} \\
-1,96 \leq & \frac{\hat{p}-p}{\sqrt{p(1-p) / n}} \leq 1.96 \quad (1) \\
\hat{p} – 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq & p \leq \hat{p} + 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \quad (2)
\end{align}
$$

$(1)$から$(2)$の変形にあたっては、$n$が十分大きいことに基づいて分散の$p$を$\hat{p}$で近似を行いました。この置き換えは母比率の推定や検定でよく出てくるので注意が必要です。

標本和の活用例

参考

中心極限定理に関しては下記でも詳しく取り扱いました。

2.10.3 $\chi^2$分布 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.10.1$節「$\chi^2$分布」の内容に基づいて$\chi^2$分布の定義や確率密度関数のグラフ化に関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

$\chi^2$分布の概要

概要

必要な数学

確率密度関数の図示にあたって、指数関数やガンマ関数の理解が必要になります。統計検定$2$級範囲では$\chi^2$分布の確率密度関数は出てきませんが、「統計数値表」の形式で使用する必要があるので確率密度関数の式とグラフの描画に関しては抑えておくと良いと思います。

ガンマ関数の取り扱いに関しては下記で取りまとめました。

$\chi^2$分布

確率変数の対応

$X_i \sim \mathcal{N}(0,1)$が成立するとき、下記のように$Y$を定義します。
$$
\large
\begin{align}
Y = \sum_{i=1}^{n} X_i^2
\end{align}
$$

このとき$Y$は自由度$n$の$\chi^2$分布$\chi^2(n)$に従い、$Y \sim \chi^2(n)$のように表され表されます。

確率密度関数

確率密度関数の数式

自由度$n$の$\chi^2$分布$\chi^2(n)$の確率変数を$Y$、確率密度関数を$f(y)$とおくと、$f(y)$は下記のように表すことができます。
$$
\large
\begin{align}
f(y) = \frac{1}{2^{\frac{n}{2}} \Gamma \left( \frac{n}{2} \right)} y^{\frac{n}{2}-1} \exp \left( -\frac{y}{2} \right)
\end{align}
$$

上記はガンマ分布$\displaystyle \mathrm{Ga} \left( \frac{n}{2},2 \right)$の確率密度関数に一致するので、$\chi^2(n)$はガンマ分布$\displaystyle \mathrm{Ga} \left( \frac{n}{2},2 \right)$に一致します。

ガンマ関数

ガンマ関数$\Gamma(\alpha)$は下記のように定義されます。
$$
\large
\begin{align}
\Gamma(\alpha) = \int_{0}^{\infty} x^{\alpha-1} e^{-x} dx \quad (1)
\end{align}
$$

このとき、ガンマ関数$\Gamma(\alpha)$に関して以下の式が成立します。
$$
\large
\begin{align}
\Gamma(\alpha+1) &= \alpha \Gamma(\alpha), \quad (2) \\
\Gamma(1) &= 1, \quad (3) \\
\Gamma(n) &= (n-1)!, n \in \mathbb{N}, \quad (4) \\
\Gamma \left( \frac{1}{2} \right) &= \sqrt{\pi}, \quad (5)
\end{align}
$$

詳しい導出は下記で取り扱いました。

発展事項①

$\chi^2$分布の確率密度関数の導出にあたっては統計検定準$1$級や$1$級で出てくる変数変換などが必要で難しいので当記事では省略しました。詳しくは下記で取り扱いましたので、導出を確認する際は下記などをご確認ください。

確率密度関数の図示

以下では$\chi^2(1), \chi^2(3), \chi^2(10)$の$\chi^2$分布の図示を行います。それぞれの分布のガンマ関数は前項の式に基づいて下記のように計算できます。
$$
\large
\begin{align}
\Gamma \left( \frac{1}{2} \right) &= \sqrt{\pi} \\
\Gamma \left( \frac{3}{2} \right) &= \frac{1}{2} \Gamma \left( \frac{1}{2} \right) \\
&= \frac{\sqrt{\pi}}{2} \\
\Gamma \left( \frac{10}{2} \right) &= \Gamma(5) \\
&= (5-1)! = 4!
\end{align}
$$

上記より、確率密度関数の式に基づいて下記を実行することで$F$分布の確率密度関数を描くことができます。

import numpy as np
import matplotlib.pyplot as plt
import math

y = np.arange(0.1,20.1,0.01)

f_y = {}

f_y[0] = y**(1./2.-1) * np.e**(-y/2.) / (2**(1./2.) * np.sqrt(np.pi))
f_y[1] = y**(3./2.-1) * np.e**(-y/2.) * 2. / (2**(3./2.) * np.sqrt(np.pi))
f_y[2] = y**(10./2.-1) * np.e**(-y/2.) / (2**(10./2.) * math.factorial(4))

label_y = {}
label_y[0], label_y[1], label_y[2] = "n = 1", "n = 3", "n = 10,"

for i in range(3):
    plt.plot(y,f_y[i],label=label_y[i])

plt.legend()
plt.ylim([0.,0.5])
plt.show()

・実行結果

上図は「統計検定$2$級対応 統計学基礎」の図$2.9$に対応します。

発展事項②

標本分布の確率密度関数から「統計数値表」の作成にあたっては「数値積分」が用いられます。教科書などで取り扱われることは少ないですが、台形の公式などに基づいて近似値の計算ができるので、概要は抑えておくと良いかもしれません。

$\chi^2$分布の期待値・分散

自由度$n$の$\chi^2$分布の期待値$E[Y]$と分散$V[Y]$は下記のように表される。
$$
\large
\begin{align}
E[Y] &= n \\
V[Y] &= 2n
\end{align}
$$

上記の詳しい導出は下記で取り扱いました。

統計検定2級 公式問題集 CBT対応版 解答例まとめ 〜10. 線形モデル〜

「統計検定$2$級 公式問題集 CBT対応版」の解答例を取りまとめるにあたって、当記事では「PART.$2$ 分野・項目別 問題・解説」のCategory.$10$「線形モデル」の解答例を作成しました。解答例は「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

回帰分析

Q.1

$[1]$
散布図より負の相関があることが読み取れるので④か⑤に絞られる。ここで⑤の$-0.994$がほとんど直線上にある場合に相当するので、④の$-0.794$が正解であると考えられる。

$[2]$
回帰直線が$(\bar{x},\bar{y})$を通ることと極端な外れ値がないことから②が適切であると考えることができる。

$[3]$
標本の大きさが$25$であるので自由度は$25-2=23$である。また、検定統計量の値は下記のように計算できる。
$$
\large
\begin{align}
\frac{-0.14510}{0.02316} = -6.26 \cdots
\end{align}
$$

上記より⑤が正解であると考えられる。

・考察
回帰分析を行う際に二乗誤差の偏微分から得られる正規方程式は下記のように表されます。
$$
\large
\begin{align}
\frac{\partial E(b_0, b_1)}{\partial b_0} &= -2 \sum_{i=1}^{n} (y_i – b_1 x_i – b_0) = 0 \\
\frac{\partial E(b_0, b_1)}{\partial b_1} &= -2 \sum_{i=1}^{n} (y_i – b_1 x_i – b_0)x_i = 0
\end{align}
$$

上記に$\hat{y}_i = b_0 + b_1 x_i$を代入すると、$\displaystyle \sum_{i=1}^{n} (y_i-\hat{y}_i)=0$が得られるので、$\bar{y}=\bar{\hat{y}}$が成立します。よって回帰直線は$(\bar{x},\bar{y})$を通ると考えられます。正規方程式は下記などで詳しく取り扱いました。

Q.2

・$[1]$
①が正しい。

・$[2]$
前問の考察で詳しく確認を行ったが、$\bar{y}=\bar{\hat{y}}$が成立するので正しい。
Ⅱ $\hat{y} = 0.4121\hat{x} + 14.3931, \hat{y}=31.3$より$\hat{x}=41.0$が成立するので正しい。
Ⅲ 残差$e_i$は$e_i=y_i-\hat{y}_i$で定義され、$\hat{y}+e_i=y_i$が成立するので正しい。

よって、⑤が正解である。

Q.3

・$[1]$
残差の平均$\bar{e}$は$\bar{e}=\bar{y}-\bar{\hat{y}}=0$より常に$0$である。よって④が正しい。

・$[2]$
回帰分析の出力結果を表した図との対応を考えると、①と③に絞られる。残差$e_i$は$e_i=y_i-\hat{y}_i$のように「実測ー予測」で定義されるので、①が正しい残差プロットである。

・$[3]$
$n=195$で十分大きいと考え、$t$分布の正規近似を元に回帰係数$\beta$の$90$%区間は下記のように表せる。
$$
\large
\begin{align}
-1.645 \leq & \frac{-60.263 – \beta}{4.414} \leq 1.645 \\
-60.263 – 1.645 \times 4.414 \leq & \beta \leq -60.263 + 1.645 \times 4.414 \\
-67.52 \leq & \beta \leq -53.00
\end{align}
$$

よって②が正解である。

Q.4

・$[1]$
Ⅱのみ正しいので②が正解である。

・$[2]$
Ⅰのみ正しいので①が正解である。

分散分析

Q.1

・$[1]$
全平方和は$0.2204+0.3370=0.5574$であるので、不偏標本分散は下記のように計算できる。
$$
\large
\begin{align}
\frac{0.5574}{19} = 0.0293 \cdots
\end{align}
$$

よって①が正解である。

・$[2]$
地域の自由度は$4-1=3$、残差の自由度は$20-3-1=16$である。よって地域の平均平方、残差の平均平方、$F$値はそれぞれ下記のように計算できる。

地域の平均平方
$$
\large
\begin{align}
\frac{0.2204}{3} = 0.073466 \cdots
\end{align}
$$

地域の平均平方
$$
\large
\begin{align}
\frac{0.3370}{16} = 0.02106 \cdots
\end{align}
$$

$F$値
$$
\large
\begin{align}
\frac{0.07347}{0.02106} = 3.488 \cdots
\end{align}
$$

よって⑤が正解である。

・$[3]$
対立仮説は「母平均の少なくとも一つは異なる」であるので①か②に絞られる。ここで$F$値に関して下記が成立する。
$$
\large
\begin{align}
F = 3.488 \cdots > 3.287 = F_{\alpha=0.05}(3,15) > F_{\alpha=0.05}(3,16)
\end{align}
$$

上記より帰無仮説は棄却できるので①が正解である。

Q.2

・$[1]$
水準間平方和$S_A$と残差平方和$S_e$の定義より①が正解である。

・$[2]$
③が正解である。

・$[3]$
Ⅰ 対立仮説が正しくない
Ⅱ $F=3.0471 > 1.910 = F_{\alpha=0.05}(10,120) > F_{\alpha=0.05}(11,120)$より帰無仮説は棄却されるので正しくない。
Ⅱ $F=3.0471 > 2.1570 = F_{\alpha=0.025}(10,120) > F_{\alpha=0.025}(11,120)$より帰無仮説は棄却されるので正しい。

上記より③が正解である。

Q.3

・$[1]$
下記のような計算を行うことで$t$値が得られる。

import numpy as np

sigma2 = (13549.+7763.)/(6.+6.-2)
t = (233.7-185.3)/np.sqrt((1./6.+1./6.)*sigma2)

print("t: {:.2f}".format(t))

・実行結果

t: 1.82

よって④が正解である。

・$[2]$
下記のような処理を行うことで$F$値が得られる。

import numpy as np

x = np.array([[218., 303., 198., 296., 201., 186.], [209., 177., 167., 145., 161., 253.]])
mean_x = np.mean(x,axis=1)
mean_x_mat = np.repeat(mean_x,6).reshape([2,6])

S_A = np.sum(6.*(mean_x-np.mean(x))**2)
S_E = np.sum((x-mean_x_mat)**2)

V_A = S_A/1.
V_E = S_E/10.
F = V_A/V_E

print("F: {:.2f}".format(F))

・実行結果

F: 3.29

よって④が正解である。

Q.4

参考

・【統計検定$2$級対応】統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

1.1 変数の分類 質的変数・量的変数など 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$1.1$節「変数の分類」の内容を元に質的変数・量的変数や、尺度などの統計学における重要な用語に関して取り扱いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

「変数の分類」の概要

概要

統計的な分析では下記のような表型のデータに基づく計算結果を元に分析を行います。

ID 近さ家賃間取り大きさ($m^2$)方角築年数(年)
$1$ B$68,000$$1K$$19$西$12$
$2$ B$68,000$$1K$$19$$12$
$3$ B$69,000$$1K$$19$北西$14$
$\vdots$ $\vdots$$\vdots$$\vdots$$\vdots$$\vdots$$\vdots$
$139$ A$148,000$$1LDK$$42$$13$
$140$ B$150,000$$1LDK$$41$南東$5$
統計検定$2$級対応 統計学基礎 表$1.1$

上記の詳細は下記より入手することができます。
http://www.tokyo-tosho.co.jp/books/978-4-489-02227-2/

表$1.1$の$1$行は個体・ケース・サンプルに対応し、$1$列は調査項目が対応します。特に調査項目のことを変数(variable)ということは抑えておくと良いです。当記事では以下、「変数」の分類に関して詳しく確認を行います。

必要な数学

用語の定義の確認が主なので、必要な数学知識は特にありません。

変数の分類

質的変数/量的変数

変数の種類はカテゴリで表される質的変数(qualitative variable)と、観測値で表される量的変数(quantitative variable)に大別されます。前節で取り扱った表では「近さ」、「間取り」、「方角」が質的変数、「家賃」、「大きさ」、「築年数」が量的変数に対応します。

尺度

変数はそれぞれの値が持つ性質に基づいて$4$つの尺度に分けて考えられることがあります。尺度には「名義尺度」、「順序尺度」、「間隔尺度」、「比例尺度」の$4$つがあり、それぞれ下記のように定義されます。

尺度 値の意味
名義尺度 同じ値かどうかに意味がある国籍、職業
順序尺度 値の大小関係に意味がある成績評価
間隔尺度 値の大小や間隔に意味があるが$0$には意味がない摂氏での気温、偏差値
比例尺度 値の大小関係、値の大きさ、比に意味があり、$0$が絶対的な意味を持つ敷地の面積
統計検定$2$級対応 統計学基礎 表$1.2$に基づいて作成

離散変数/連続変数

統計の森への質問・意見の投稿について【投稿フォームを利用ください】

いつも当サイトを閲覧いただきありがとうございます。

当サイトに対するご意見、また、記事に関する質問など何かメッセージをお送りしたい場合には、下記の投稿フォームをご利用ください(Googleフォームに遷移するので、そちらに記載ください)。

投稿フォーム

質問・意見の投稿は以下のリンク先のGoogleフォームより投稿ください。

投稿フォームはこちら

お願い

質問への回答には当方としても工数がかかります。少人数で運営している都合上、ご質問の回答をお受けしたら、幾許かの寄付をお願いします(PayPal経由でのお支払いをお願いします)。

当方から回答させていただいた後に、合わせて寄付金についてご案内させていただきます。

質問フォームに寄付金額の選択項目がありますが、内容によっては寄付金については不要であることをお伝えすることもあります(記事の誤植や間違いなどの指摘については当方の過失なので)。

寄付金入力はこちらからお願いします

2.10.3 F分布 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.10.3$節「$F$分布」の内容に基づいて$F$分布の定義や確率密度関数のグラフ化に関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

F分布の概要

概要

必要な数学

確率密度関数の図示にあたって、指数関数やベータ関数の理解が必要になります。統計検定$2$級範囲では$F$分布の確率密度関数は出てきませんが、「統計数値表」の形式で使用する必要があるので確率密度関数の式とグラフの描画に関しては抑えておくと良いと思います。

ベータ関数はガンマ関数を用いて表すことができますが、下記でガンマ関数とベータ関数に関する計算について取りまとめました。

F分布

確率変数の対応

$$
\large
\begin{align}
X & \sim \chi^2(m) \\
Y & \sim \chi^2(n)
\end{align}
$$

上記のように$X$と$Y$がそれぞれ自由度$m$と$n$の$\chi^2$分布に従う場合を仮定します。このとき、下記のように$F$を定義します。
$$
\large
\begin{align}
F = \frac{X/m}{Y/n}
\end{align}
$$

上記の式で定めた$F$は自由度$(m,n)$の$F$分布(F-distribution)$F(m,n)$に従い、$F \sim F(m,n)$のように表されます。

確率密度関数

確率密度関数の数式

自由度$m,n$の$F$分布$F(m,n)$の確率変数を$Z$、確率密度関数を$f(z)$とおくと、$f(z)$は下記のように表すことができます。
$$
\large
\begin{align}
f(z) = \frac{z^{\frac{m}{2}-1}}{\displaystyle B \left( \frac{m}{2},\frac{n}{2} \right)} \left( \frac{m}{n} \right)^{\frac{m}{2}} \left( 1+\frac{m}{n}z \right)^{-\frac{m+n}{2}}, \quad z>0
\end{align}
$$

ガンマ関数とベータ関数

ガンマ関数$\Gamma(\alpha)$は下記のように定義されます。
$$
\large
\begin{align}
\Gamma(\alpha) = \int_{0}^{\infty} x^{\alpha-1} e^{-x} dx \quad (1)
\end{align}
$$

このとき、ガンマ関数$\Gamma(\alpha)$に関して以下の式が成立します。
$$
\large
\begin{align}
\Gamma(\alpha+1) &= \alpha \Gamma(\alpha), \quad (2) \\
\Gamma(1) &= 1, \quad (3) \\
\Gamma(n) &= (n-1)!, n \in \mathbb{N}, \quad (4) \\
\Gamma \left( \frac{1}{2} \right) &= \sqrt{\pi}, \quad (5)
\end{align}
$$

また、ベータ関数$B(\alpha,\beta)$は下記のように定義されます。
$$
\large
\begin{align}
B(\alpha,\beta) = \int_{0}^{\infty} x^{\alpha-1} (1-x)^{\beta-1} dx \quad (6)
\end{align}
$$

上記で定義したベータ関数$B(\alpha,\beta)$に関して以下の式が成立します。
$$
\large
\begin{align}
B(\alpha,\beta) &= B(\beta,\alpha), \quad (7) \\
B(\alpha,\beta) &= \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}, \quad (8) \\
\Gamma(m,n) &= \frac{(m-1)!(n-1)!}{(m+n-1)!}, m,n \in \mathbb{N}, \quad (9)
\end{align}
$$

詳しい導出はそれぞれ下記で取り扱いました。

発展事項①

$F$分布の確率密度関数の導出にあたっては統計検定準$1$級や$1$級で出てくる変数変換などが必要で難しいので当記事では省略しました。詳しくは下記で取り扱いましたので、導出を確認する際は下記などをご確認ください。

確率密度関数の図示

以下では$F(1,1), F(2,1), F(10,1)$の$F$分布の図示を行います。それぞれの分布のベータ関数は前項の式に基づいて下記のように計算できます。
$$
\large
\begin{align}
B \left( \frac{1}{2},\frac{1}{2} \right) &= \frac{\Gamma(1/2)\Gamma(1/2)}{\Gamma(1/2+1/2)} \\
&= \frac{\sqrt{\pi} \times \sqrt{\pi}}{1!} = \pi \\
B \left( \frac{2}{2},\frac{1}{2} \right) &= \frac{\Gamma(1)\Gamma(1/2)}{\Gamma(1+1/2)} \\
&= \frac{\sqrt{\pi}}{\sqrt{\pi}/2} = 2 \\
B \left( \frac{10}{2},\frac{1}{2} \right) &= \frac{\Gamma(5)\Gamma(1/2)}{\Gamma(5+1/2)} \\
&= \frac{3 \cdot 2^8}{9 \cdot 7 \cdot 5 \cdot 3}
\end{align}
$$

上記より、確率密度関数の式に基づいて下記を実行することで$F$分布の確率密度関数を描くことができます。

import numpy as np
import matplotlib.pyplot as plt

z = np.arange(0.01,5.01,0.01)

f_z = {}

f_z[0] = z**(1./2.-1.) * (1./1.)**(10./2.) * (1.+1.*z/1.)**(-(1.+1.)/2.) / np.pi
f_z[1] = z**(2./2.-1.) * (2./1.)**(2./2.) * (1.+2.*z/1.)**(-(2.+1.)/2.) / 2.
f_z[2] = z**(10./2.-1.) * (10./1.)**(10./2.) * (1.+10.*z/1.)**(-(10.+1.)/2.) * 9. * 7. * 5. * 3. / (3.*2.**8)

label_z = {}
label_z[0], label_z[1], label_z[2] = "(m,n) = (1,1)", "(m,n) = (2,1)", "(m,n) = (10,1)"

for i in range(3):
    plt.plot(z,f_z[i],label=label_z[i])

plt.legend()
plt.ylim([0.,2.5])
plt.show()

・実行結果

上図は「統計検定$2$級対応 統計学基礎」の図$2.11$に対応します。

発展事項②

標本分布の確率密度関数から「統計数値表」の作成にあたっては「数値積分」が用いられます。教科書などで取り扱われることは少ないですが、台形の公式などに基づいて近似値の計算ができるので、概要は抑えておくと良いかもしれません。