ブログ

2.10.2 t分布 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.10.2$節「$t$分布」の内容に基づいて$t$分布の定義や確率密度関数のグラフ化に関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

t分布の概要

概要

必要な数学

確率密度関数の図示にあたって、指数関数やベータ関数の理解が必要になります。統計検定$2$級範囲では$t$分布の確率密度関数は出てきませんが、「統計数値表」の形式で使用する必要があるので確率密度関数の式とグラフの描画に関しては抑えておくと良いと思います。

ベータ関数はガンマ関数を用いて表すことができますが、下記でガンマ関数とベータ関数に関する計算について取りまとめました。

t分布

確率変数の対応

$$
\large
\begin{align}
X & \sim \mathcal{N}(0,1) \\
Y & \sim \chi^{2}(n)
\end{align}
$$

上記のように確率変数$X$が標準正規分布$\mathcal{N}(0,1)$、確率変数$Y$が自由度$n$の$\chi^2$分布$\chi^{2}(n)$に従う場合を仮定します。このとき、下記のように$t$を定義します。
$$
\large
\begin{align}
t = \frac{X}{\sqrt{Y/n}}
\end{align}
$$

上記の式で定めた$t$は自由度$n$の$t$分布(t-distribution)$t(n)$に従い、$t \sim t(n)$のように表されます。

確率密度関数

確率密度関数の数式

自由度$n$の$t$分布$F(n)$の確率変数を$Z$、確率密度関数を$f(z)$とおくと、$f(z)$は下記のように表すことができます。
$$
\large
\begin{align}
f(z) = \frac{\Gamma((n+1)/2)}{\sqrt{\pi n} \Gamma(n/2)} \left( 1+\frac{z^2}{n} \right)^{-\frac{n+1}{2}} = \frac{1}{\sqrt{n} B(1/2,n/2)} \left( 1+\frac{z^2}{n} \right)^{-\frac{n+1}{2}}
\end{align}
$$

ガンマ関数とベータ関数

ガンマ関数$\Gamma(\alpha)$は下記のように定義されます。
$$
\large
\begin{align}
\Gamma(\alpha) = \int_{0}^{\infty} x^{\alpha-1} e^{-x} dx \quad (1)
\end{align}
$$

このとき、ガンマ関数$\Gamma(\alpha)$に関して以下の式が成立します。
$$
\large
\begin{align}
\Gamma(\alpha+1) &= \alpha \Gamma(\alpha), \quad (2) \\
\Gamma(1) &= 1, \quad (3) \\
\Gamma(n) &= (n-1)!, n \in \mathbb{N}, \quad (4) \\
\Gamma \left( \frac{1}{2} \right) &= \sqrt{\pi}, \quad (5)
\end{align}
$$

また、ベータ関数$B(\alpha,\beta)$は下記のように定義されます。
$$
\large
\begin{align}
B(\alpha,\beta) = \int_{0}^{\infty} x^{\alpha-1} (1-x)^{\beta-1} dx \quad (6)
\end{align}
$$

上記で定義したベータ関数$B(\alpha,\beta)$に関して以下の式が成立します。
$$
\large
\begin{align}
B(\alpha,\beta) &= B(\beta,\alpha), \quad (7) \\
B(\alpha,\beta) &= \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}, \quad (8) \\
\Gamma(m,n) &= \frac{(m-1)!(n-1)!}{(m+n-1)!}, m,n \in \mathbb{N}, \quad (9)
\end{align}
$$

詳しい導出はそれぞれ下記で取り扱いました。

発展事項①

$t$分布の確率密度関数の導出にあたっては統計検定準$1$級や$1$級で出てくる変数変換などが必要で難しいので当記事では省略しました。詳しくは下記で取り扱いましたので、導出を確認する際は下記などをご確認ください。

確率密度関数の図示

以下では$t(1), t(2), t(10)$の$t$分布の図示を行います。それぞれの分布のベータ関数は前項の式に基づいて下記のように計算できます。
$$
\large
\begin{align}
B \left( \frac{1}{2},\frac{1}{2} \right) &= \frac{\Gamma(1/2)\Gamma(1/2)}{\Gamma(1/2+1/2)} \\
&= \frac{\sqrt{\pi} \times \sqrt{\pi}}{1!} = \pi \\
B \left( \frac{1}{2},\frac{2}{2} \right) &= \frac{\Gamma(1/2)\Gamma(1)}{\Gamma(1/2+1)} \\
&= \frac{\sqrt{\pi}}{\sqrt{\pi}/2} = 2 \\
B \left( \frac{1}{2},\frac{10}{2} \right) &= \frac{\Gamma(1/2)\Gamma(5)}{\Gamma(1/2+5)} \\
&= \frac{3 \cdot 2^8}{9 \cdot 7 \cdot 5 \cdot 3}
\end{align}
$$

上記より、確率密度関数の式に基づいて下記を実行することで$t$分布の確率密度関数を描くことができます。

import numpy as np
import matplotlib.pyplot as plt

z = np.arange(-5.01,5.01,0.01)

f_z = {}

f_z[0] = (1+z**2/1.)**(-(1.+1.)/2.) / (np.sqrt(1.) * np.pi)
f_z[1] = (1+z**2/2.)**(-(2.+1.)/2.) / (np.sqrt(2.) * 2.)
f_z[2] = (1+z**2/10.)**(-(10.+1.)/2.) * 9. * 7. * 5. * 3. / (np.sqrt(10.) * 3. * 2.**8)

label_z = {}
label_z[0], label_z[1], label_z[2] = "n = 1", "n = 2", "n = 10"

for i in range(3):
    plt.plot(z,f_z[i],label=label_z[i])

plt.legend()
plt.ylim([0.,0.5])
plt.show()

・実行結果

上図は「統計検定$2$級対応 統計学基礎」の図$2.10$に対応します。

発展事項②

標本分布の確率密度関数から「統計数値表」の作成にあたっては「数値積分」が用いられます。教科書などで取り扱われることは少ないですが、台形の公式などに基づいて近似値の計算ができるので、概要は抑えておくと良いかもしれません。

1.3.3 変動係数 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$1.3.3$節「変動係数」の内容を元に、平均の値を元に散らばり具合を判定する変動係数に関して取り扱いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

変動係数の概要

概要

標準偏差を元に散らばり具合を数値化することができますが、「食料品の購買」と「車の購買」のように品物の平均金額が変わると散らばり具合も大きくなることに注意が必要です。

たとえば卵$1$個あたりの金額は高級品も含めて数十円〜数百円で入手が可能ですが、車は数百万〜数千万が概ねの相場だと思います。このとき、卵の標準偏差はせいぜい数十円〜数百円程度であるのに対して、車の場合は百万以上になるということはあり得ます。

このように平均価格が大きく異なる観測値を考える際に、平均価格が大きいものがばらつきが大きいという結果になりがちです。そこで平均価格に関係なくばらつきを表すにあたって変動係数(CV; Coefficient of Variation)という値を定義します。当記事では変動係数について詳しく確認を行いました。

必要な数学

変動係数の計算に用いる平均や標準偏差の式の定義にあたって、和を表す記号の$\displaystyle \sum$が用いられることが多いので、抑えておく必要があります。

変動係数

変動係数の式定義

変動係数を$CV$とおくと、$CV$は平均$\bar{x}$と標準偏差$S$を用いて下記のように定義されます。
$$
\large
\begin{align}
CV = \frac{S}{\bar{x}}
\end{align}
$$

変動係数の解釈

変動係数の解釈にあたっては、変動係数の逆数が下記のように$x_i = 2 \bar{x}$の標準化得点に一致することを元に考えると良いと思います。
$$
\large
\begin{align}
CV &= \frac{S}{\bar{x}} \\
&= \frac{1}{\bar{x}/S} \\
&= \left( \frac{2 \bar{x} – \bar{x}}{S} \right)^{-1}
\end{align}
$$

1.3.2 標準化得点と偏差値 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$1.3.2$節「標準化得点」の内容を元に観測値が平均を基準にどのくらいの値であるかを表す標準化得点と偏差値に関して取り扱いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

標準化得点と偏差値の概要

概要

成績評価は試験の結果などによって行われることが多いですが、試験によって簡単だったり難しかったりと得点の取りやすさにはばらつきが生じます。たとえば共通テストのように科目選択式の場合など、全員が同じ科目を受けない際などは科目を横断した評価が難しいです。

このような際によく用いられるのが、「平均点を基準にどのくらいの得点であるかの指標」の「標準化得点」や「偏差値」です。一般的には「偏差値」が使われることが多いですが、統計では「標準化得点」が用いられることもあります。当記事では以下、標準化得点と偏差値に関して取り扱いました。

必要な数学

標準化得点や偏差値の計算に用いる平均や標準偏差の式の定義にあたって、和を表す記号の$\displaystyle \sum$が用いられることが多いので、抑えておく必要があります。

標準化得点・偏差値の概要

標準化得点

$n$個の観測値を$x_1, x_2, x_3 \cdots , x_{n-1}, x_{n}$のように定義します。このとき、観測値の平均$\bar{x}$と標準偏差$S$を下記のように定めます。
$$
\large
\begin{align}
\bar{x} &= \frac{1}{n} (x_1 + x_2 + \cdots + x_n) \\
S &= \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2 }
\end{align}
$$

上記を元に$i$番目の観測値$x_i$の標準化得点$z_i$を下記のように定義します。
$$
\large
\begin{align}
z_i = \frac{x_i-\bar{x}}{S}
\end{align}
$$

上記のように定義した標準化得点を用いることで得点から平均を引き、標準偏差で割ることで複数の試験の結果を統合して成績評価を行うことが可能になります。

観測値が概ね正規分布に従うときは、$-1.96 \leq z_i \leq 1.96$に$95$%の観測値が入るので、「標準偏差$\pm 2$よりも外にある観測値は特殊な観測値であることが多い」と大まかに解釈しておくと良いです。

偏差値

偏差値は標準化得点の値の基準を$0$から$50$や$100$にずらしたものです。平均を$50$とする場合は下記のような式で表されます。
$$
\large
\begin{align}
10 z_i + 50
\end{align}
$$

偏差値$60$は標準偏差$1$つ分平均を上回る、偏差値$70$は標準偏差$2$つ分平均を上回ると大まかに理解しておくと良いと思います。

Ch.25 「偏微分と微分」の演習問題の解答例 〜統計学のための数学入門30講(朝倉書店)〜

当記事は「統計学のための数学入門$30$講(朝倉書店)」の読解サポートにあたってChapter.$25$の「偏微分と微分」の章末問題の解答の作成を行いました。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は購入の上ご確認ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・書籍解答まとめ
https://www.hello-statisticians.com/answer_textbook_math#math_stat

本章のまとめ

演習問題解答

問題$25.1$

$$
\large
\begin{align}
f(x,y) = e^{-x}y^2 + xy^3
\end{align}
$$

上記に対し、$f_x, x_{xx}, f_{xy}, f_y, f_{yx}, f_{yy}$はそれぞれ下記のように計算できる。
$$
\large
\begin{align}
f_x &= -e^{-x}y^2 + y^3 \\
f_{xx} &= e^{-x}y^2 \\
f_{xy} &= -2e^{-x}y + 3y^2 \\
f_y &= 2e^{-x}y + 3xy^2 \\
f_{yx} &= -2e^{-x}y + 3y^2 \\
f_{yy} &= 2e^{-x} + 6xy
\end{align}
$$

問題$25.2$

問題$25.1$の結果より下記が成立する。
$$
\large
\begin{align}
f_x &= -e^{-x}y^2 + y^3 \\
f_y &= 2e^{-x}y + 3xy^2
\end{align}
$$

上記を元に$f_x(x,y)=-e^{-x}y^2 + y^3, f_y(x,y)=2e^{-x}y + 3xy^2$のように定めると、$f_x(1,2), f_y(1,2), f(1,2)$は下記のように得られる。
$$
\large
\begin{align}
f_x(1,2) &= -e^{-1} \cdot 2^2 + 2^3 = 8-4e^{-1} \\
f_y(1,2) &= 2e^{-1} \cdot 2 + 3 \cdot 1 \cdot 2^2 = 12+4e^{-1} \\
f(1,2) &= e^{-1} \cdot 2^2 + 1 \cdot 2^3 = 8+4e^{-1}
\end{align}
$$

よって点$(1,2,f(1,2))$における接平面の方程式は下記のように得られる。
$$
\large
\begin{align}
z – f(1,2) &= f_x(1,2)(x-1) + f_y(1,2)(y-2) \\
z – (8+4e^{-1}) &= (8-4e^{-1})(x-1) + (12+4e^{-1})(y-2)
\end{align}
$$

1.3.1 平均・分散・標準偏差 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$1.3.1$節「平均・分散・標準偏差」の内容を元に得られた観測値の概要を掴む際に用いられる平均・分散・標準偏差に関して取り扱いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

平均・分散・標準偏差の概要

概要

$n$個の観測値を$x_1, x_2, x_3 \cdots , x_{n-1}, x_{n}$のように定義します。これらの観測値を把握するにあたっては度数分布表や度数分布表に基づくヒストグラムを描くなどがありますが、数値を元に要約できると役に立つ場合が多いです。

観測値を数値で要約を行う場合、「観測値の中心を表す指標」と「観測値の散らばりを表す指標」の$2$つが得られれば、観測結果の大まかな理解が可能になります。

当記事では以下、「中心を表す指標」の「平均」と、「散らばりを表す指標」の「分散」と「標準偏差」に関してそれぞれ取りまとめました。

必要な数学

平均や分散の式の定義にあたって、和を表す記号の$\displaystyle \sum$が用いられることが多いので、抑えておく必要があります。

平均・分散・標準偏差

平均

観測値$x_1, x_2, x_3 \cdots , x_{n-1}, x_{n}$の平均$\bar{x}$は下記のように定義されます。
$$
\large
\begin{align}
\bar{x} = \frac{1}{n} (x_1 + x_2 + \cdots + x_n)
\end{align}
$$

「観測値が左右対称に分布する」場合、「平均」が概ね中心になるので、このような場合は「中心を表す指標」に「平均」が用いられることが多いです。

分散

観測値$x_1, x_2, x_3 \cdots , x_{n-1}, x_{n}$の分散$S^2$は下記のように定義されます。
$$
\large
\begin{align}
S^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2
\end{align}
$$

分散は平均からの偏差$x_i-\bar{x}$の$2$乗の和で表されるので、観測値が平均からどのくらい散らばるかを表す指標に用いられます。

標準偏差

標準偏差は分散の$\sqrt{}$を計算することで定義されます。
$$
\large
\begin{align}
S = \sqrt{S^2} = \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2 }
\end{align}
$$

具体例

$3$$4$$5$$6$$7$
$1$$3$$5$$7$$9$
$0$$4$$5$$6$$10$
$0$$1$$5$$9$$10$

以下、上記の観測値を元に①〜④の平均、分散、標準偏差の計算を行います。それぞれ平均を$\bar{x}_1$〜$\bar{x}_4$、標準偏差を$S_1$〜$S_4$のように定義すると、それぞれ下記のように計算できます。

import numpy as np

x = np.array([[3., 4., 5., 6., 7.], [1., 3., 5., 7., 9.], [0., 4., 5., 6., 10.], [0., 1., 5., 9., 10.]])
mean_x = np.mean(x,axis=1)
mean_x_mat = np.repeat(mean_x,5).reshape([4,5])

s2 = np.mean((x-mean_x_mat)**2, axis=1)
s = np.sqrt(s2)

print(mean_x)
print(s2)
print(s)

・実行結果

[ 5.  5.  5.  5.]
[  2.    8.   10.4  16.4]
[ 1.41421356  2.82842712  3.2249031   4.04969135]

ラスパイレス指数(Laspeyres index)の解釈と具体例

物価のような価格を表す価格指数によく用いられるのがラスパイレス指数(Laspeyres index)です。ラスパイレス指数の定義式が難しく書かれることが多いことで難しく見えますが実際にはそれほど難しくないので、当記事ではラスパイレス指数の解釈と具体例に関して取りまとめました。
「統計検定$2$級対応 統計学基礎」の$1.7.5$節の「指数の作成と利用」や、「統計検定 統計調査士対応 経済統計の実際」の$5.7$節の「国民経済計算、経済指数など」の内容を参考に作成を行いました。

・用語/公式解説
https://www.hello-statisticians.com/explain-terms

ラスパイレス指数

ラスパイレス指数の定義

基準年の第$i$財の価格を$p_{0i}$、購入数量を$q_{0i}$、対象年の第$i$財の価格を$p_{ti}$、購入数量を$q_{ti}$とおく。このとき「対象年に基準年と同じ購入量を購入した場合の総購入金額の比率」を表すラスパイレス価格指数$L_{t}$は下記のように定義される。
$$
\large
\begin{align}
L_{t} = \frac{\displaystyle \sum_{i=1}^{n} p_{ti} q_{0i}}{\displaystyle \sum_{i=1}^{n} p_{0i} q_{0i}} \times 100
\end{align}
$$

ラスパイレス指数の解釈

ラスパイレス指数(Laspeyres index)を用いる利点は「コストのかかる数量調査を基準年以外は行わなくて良い」点にある。たとえば「卵」の価格調査であれば、全国のスーパーの店舗を無作為に$1000$ほど抽出し、それぞれの価格の平均を計算することで価格の区間推定を行うことができる。

一方で、「卵」がいくつ売れたかの調査を行うにあたっては全数を数える必要があるので、流通した卵の総数を計算する必要がある。

このように、「価格調査」と「数量調査」のコストが同じでないことから、「基準年の数量を用いて計算する」というのがコストパフォーマンスの良い方法であると理解しておけば良い。

ラスパイレス指数の具体例

ラスパイレス式以外の算式

パーシェ式

フィッシャー式

3.4.4 母比率の区間推定 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$3.4.4$節「母比率の区間推定」の内容を元に二項分布の正規近似などを用いた母比率の区間推定について取りまとめを行いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

「母比率の区間推定」の概要

概要

「特定の政党を支持するかどうか」を元に政党支持率などを調査する場合を考えます。このとき、母集団が$100$人であれば都度全数調査を行うことができますが、実際の選挙区のように数$10$万人単位となると、全数調査はあまり現実的ではありません。

このような場合に母集団の政党支持率の母比率の区間推定を行います。母比率の区間推定にあたっては、中心極限定理に基づき二項分布の正規近似を行います。中心極限定理は下記で取り扱いましたので、詳しくは合わせてご確認ください。

必要な数学

中心極限定理を元に正規近似を行うので、極限の概念は抑えておくと良いと思います。

母比率の区間推定

二項分布の期待値と分散

確率変数$Y$が$Y \sim \mathrm{Bin}(n,p)$のように二項分布に従うとき、期待値$E[Y]$と分散$V[Y]$は下記のように表されます。
$$
\large
\begin{align}
E[Y] &= np \\
V[Y] &= np(1-p)
\end{align}
$$

上記は「ベルヌーイ分布の期待値・分散」と「期待値・分散の公式」に基づいて導出することができます。
詳しい導出は下記で取り扱いました。

発展事項

実際の調査では非復元無作為抽出を行うことが多いので、二項分布ではなく超幾何分布を用いるのが正確です。超幾何分布の期待値は二項分布と同じですが、分散は有限母集団修正の項の分だけ小さくなることは抑えておくと良いです。

一方で母集団の大きさの$N$が大きくなると有限母集団修正項は$1$であると見なせるので、母集団が大きいときは二項分布で近似できると考えられます。超幾何分布と有限母集団修正に関しては下記で取り扱いましたので、詳しくはご確認ください。

標本比率

前項で確認を行った確率変数$Y$を下記のように表すことを考えます。
$$
\large
\begin{align}
X_i & \sim \mathrm{Bin}(1,p) \\
Y &= \sum_{i=1}^{n} X_i \sim \mathrm{Bin}(n,p)
\end{align}
$$

上記の$\mathrm{Bin}(1,p)$は確率$p$のベルヌーイ分布に一致します。また、下記のように$\overline{X}$を定義します。
$$
\large
\begin{align}
\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i
\end{align}
$$

このとき標本の比率$\hat{p}$は$\overline{X}$に一致するので$\hat{p}=\overline{X}$が成立します。

標本比率の期待値と分散

標本比率$\hat{p}$の期待値$E[\hat{p}]$と分散$V[\hat{p}]$は$\hat{p}=\overline{X}$であることに基づいて、それぞれ下記のように導出することができます。
$$
\large
\begin{align}
E[\hat{p}] &= E[\overline{X}] = E \left[ \frac{1}{n} \sum_{i=1}^{n} X_i \right] \\
&= \frac{1}{n} \sum_{i=1}^{n} E[X_i] = p \\
V[\hat{p}] &= V \left[ \frac{1}{n} \sum_{i=1}^{n} X_i \right] \\
&= \frac{1}{n^2} \sum_{i=1}^{n} V[X_i] \\
&= \frac{np(1-p)}{n^2} = \frac{p(1-p)}{n}
\end{align}
$$

中心極限定理

標本比率は$\hat{p}=\overline{X}$のように表せるので$n \to \infty$のとき、中心極限定理を適用することができます。よって下記のように考えることができます。
$$
\large
\begin{align}
\hat{p} &= \overline{X} \sim \mathcal{N}(E[\overline{X}],V[\overline{X}]) \\
E[\hat{p}] &= E[\overline{X}] = p, \; V[\hat{p}] = V[\overline{X}] = \frac{p(1-p)}{n} \\
\hat{p} & \sim \mathcal{N} \left( p, \frac{p(1-p)}{n} \right)
\end{align}
$$

ここで$(1)$は$n \to \infty$を元に導出を中心極限定理を用いたことから、同様に大数の法則に基づいて分散に関して$\hat{p} \to p$であると考えることができます。よって下記が成立します。
$$
\large
\begin{align}
\hat{p} \sim \mathcal{N} \left( p, \frac{\hat{p}(1-\hat{p})}{n} \right) \quad (2)
\end{align}
$$

上記の近似は分散の$p$がそのままで区間推定を行うと、$2$次不等式を解く必要が生じ、煩雑であるので原則的に用いられます。基本的にはこの流れが用いられるので、難しく考えずに流れを抑えるで十分だと思います。

母比率の区間推定

$\displaystyle \hat{p} \sim \mathcal{N} \left( p, \frac{\hat{p}(1-\hat{p})}{n} \right)$より、母比率$p$の$95$%区間は下記のように表すことができます。
$$
\large
\begin{align}
z_{\alpha=0.975} \leq & Z \leq z_{\alpha=0.025} \\
-1.96 \leq & \frac{\hat{p}-p}{\sqrt{\hat{p}(1-\hat{p})/n}} \leq 1.96 \\
\hat{p} – 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq & p \leq \hat{p} + 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
\end{align}
$$

まとめ

母比率の区間推定では下記の$3$つの近似を用いたことに注意が必要です。

① 超幾何分布を二項分布で近似 $\leftarrow$ 母集団の大きさ$N$が大きいとき有限母集団修正項が$1$となる
② 中心極限定理による二項分布の正規近似
③ $\displaystyle \mathcal{N} \left( p, \frac{p(1-p)}{n} \right)$の分散の$p$を大数の法則に基づいて$\hat{p}$で近似

上記のように$3$つも同時に近似が出てくるので難しいですが、それぞれの概要を簡単に理解しておくと良いと思います。

統計検定2級 公式問題集 CBT対応版 解答例まとめ 〜模擬テスト〜

統計検定$2$級のCBT(Computer Based Testing)形式の解答例を取りまとめるにあたって、当記事では「統計検定$2$級 公式問題集 CBT対応版」の「PART.$3$ 模擬テスト」の解答例を作成しました。
解答例は「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

解答例

Q.1

箱ひげ図より、③が正解である。

Q.2

Ⅰ 正しい
Ⅱ 正しくない
Ⅲ 正しい

よって④が正解である。

Q.3

Ⅰ 正しい
Ⅱ 正しくない
Ⅲ 正しくない

よって①が正解である。

Q.4

確率変数$Y$の期待値を$E[Y]$、分散を$V[Y]$とおくと、$E[2Y], V[2Y]$は下記のように表せる。
$$
\large
\begin{align}
E[2Y] &= 2E[Y] \\
V[2Y] &= 2^2V[X]
\end{align}
$$

よって変動係数$CV=\sqrt{V[2Y]}/E[2Y]$は下記のように表せる。
$$
\large
\begin{align}
CV &= \frac{\sqrt{V[2Y]}}{E[2Y]} \\
&= \frac{2\sqrt{V[Y]}}{2E[Y]} \\
&= \frac{\sqrt{V[Y]}}{E[Y]}
\end{align}
$$

上記より$Y$を$2$倍にしても変動係数は変化しない。また、$X,Y$の共分散を$\mathrm{Cov}[X,Y]$とおくとき、$\mathrm{Cov}[X,2Y]$は下記のように表せる。
$$
\large
\begin{align}
\mathrm{Cov}[X,2Y] &= E[2XY] – E[X]E[2Y] \\
&= 2(E[XY]-E[X]E[Y]) \\
&= 2 \mathrm{Cov}[X,Y]
\end{align}
$$

上記より$Y$を$2$倍すると共分散も$2$倍になる。

以上より、②が正解である。

Q.5

⑤が正しい。

Q.6

$1,2$回目に$2$連勝するか$2,3$回目に$2$連勝するかのどちらかである。よって確率は下記のように計算できる。
$$
\large
\begin{align}
pq + (1-p)qp
\end{align}
$$

よって⑤が正解である。

Q.7

電気料金の確率変数を$X$とおくと、$X \sim \mathcal{N}(4000,500^2)$である。よって確率$P(X \geq 4800)$の値は$Z \sim \mathcal{N}(0,1)$である確率変数$Z$などを用いることで下記のように得られる。
$$
\large
\begin{align}
P(X \geq 4800) &= P \left( \frac{X-4000}{500} \geq \frac{4800-4000}{500} \right) \\
&= P \left( \frac{X-4000}{500} \geq \frac{4800-4000}{500} \right) \\
&= P(Z \geq 1.6) \simeq 0.548
\end{align}
$$

よって正解は②である。

Q.8

$$
\large
\begin{align}
E[X] &= 1, \, E[Y] = 2, \, E[XY] = 4 \\
Z &= X+Y, \, W=2X-Y, \, V[Z]=V[W]=24
\end{align}
$$

以下、上記を元に$\mathrm{Cov}[X,Y], E[X^2], E[Y^2]$の値の計算を行う。

・$\mathrm{Cov}[X,Y]$
$\mathrm{Cov[X,Y]} = E[XY]-E[X]E[Y]$を元に下記のように計算できる。
$$
\large
\begin{align}
\mathrm{Cov}[X,Y] &= E[XY] – E[X]E[Y] \\
&= 4 – 1 \cdot 2 \\
&= 2
\end{align}
$$

・$E[X^2], E[Y^2]$
$V[Z]=V[X+Y]=V[X]+V[Y]+2\mathrm{Cov}[X,Y]$より下記が得られる。
$$
\large
\begin{align}
V[Z] &= 24 \\
V[X] + V[Y] + 2\mathrm{Cov}[X,Y] &= 24 \\
V[X] + V[Y] &= 20 \quad (1)
\end{align}
$$

$V[W]=V[X-2Y]=4V[X]+V[Y]-4\mathrm{Cov}[X,Y]$より下記が得られる。
$$
\large
\begin{align}
V[Z] &= 24 \\
4V[X] + V[Y] – 2\mathrm{Cov}[X,Y] &= 24 \\
4V[X] + V[Y] &= 32 \quad (2)
\end{align}
$$

$(2)-(1)$より、$3V[X]=12$が得られるので$V[Y]=4$である。ここで$(1)$に$V[X]=4$を代入することで$V[Y]=16$が得られる。$V[X]=E[X^2]-E[X]^2, V[Y]=E[Y^2]-E[Y]^2$が成立するので下記のように$E[X^2], E[Y^2]$の値を計算できる。
$$
\large
\begin{align}
V[X] &= E[X^2] – E[X]^2 \\
E[X^2] &= V[X]+E[X]^2 \\
&= 4 + 1^2 = 5 \\
V[Y] &= E[Y^2] – E[Y]^2 \\
E[Y^2] &= V[Y]+E[Y]^2 \\
&= 16 + 2^2 = 20
\end{align}
$$

以上より、③が正しい。

Q.9

統計量$\displaystyle T = \frac{\overline{X}-\mu}{\sqrt{S^2/16}}$は自由度$15$の$t$分布に従う。よって⑤が正解である。

Q.10

$|\overline{X}-\mu| \leq 0.5$は下記のように考えることができる。
$$
\large
\begin{align}
-0.5 \leq & \overline{X}-\mu \leq 0.5 \\
-\frac{0.5}{1/\sqrt{n}} \leq & \frac{\overline{X}-\mu}{1/\sqrt{n}} \leq \frac{0.5}{1/\sqrt{n}} \\
-0.5 \sqrt{n} \leq & Z \leq 0.5 \sqrt{n}, \, Z \sim \mathcal{N}(0,1)
\end{align}
$$

よって、$P(|\overline{X}-\mu| \leq 0.5) \geq 0.95$は下記のように変形できる。
$$
\large
\begin{align}
P(|\overline{X}-\mu| \leq 0.5) & \geq 0.95 \\
P(-0.5 \sqrt{n} \leq Z \leq 0.5 \sqrt{n}) & \geq 0.95 \\
0.5 \sqrt{n} & \geq z_{\alpha=0.025} \\
\sqrt{n} & \geq 2 \cdot 1.96 \\
n & \geq 3.92^2 = 15.36 \cdots
\end{align}
$$

よって正解は④である。

Q.11

標本比率を$\hat{p}$、母比率を$p$とおくと、二項分布の正規近似より下記が成立する。
$$
\large
\begin{align}
\hat{p} \sim \mathcal{N} \left( p, \frac{p(1-p)}{n} \right)
\end{align}
$$

ここで$p \simeq 0.8$より母比率$p$の$95$%区間に関して下記が成立する。
$$
\large
\begin{align}
z_{\alpha=0.975} \leq & Z \leq z_{\alpha=0.025} \\
-1.96 \leq & \frac{\hat{p}-p}{\sqrt{p(1-p)/n}} \leq 1.96 \\
\hat{p} – 1.96 \sqrt{\frac{0.8 \cdot 0.2}{n}} \leq & p \leq \hat{p} + 1.96 \sqrt{\frac{0.8 \cdot 0.2}{n}}
\end{align}
$$

ここで上記の区間が$6$%以下であるには下記が成立すれば良い。
$$
\large
\begin{align}
2 \times 1.96 \sqrt{\frac{0.8 \cdot 0.2}{n}} & \leq 0.06 \\
n & \geq \left( \frac{2 \times 1.96 \times 0.4}{0.06} \right)^2 \\
n & \geq 682.9 \cdots
\end{align}
$$

よって②が正解である。

Q.12

Ⅰ $E[\hat{\mu_1}]=\mu$より$\hat{\mu_1}$は$\mu$の不偏推定量である。
Ⅱ $\hat{\mu_1}$は$\mu$の一致推定量ではない。
Ⅲ $E[\hat{\mu_2}]=\mu$より$\hat{\mu_2}$は$\mu$の不偏推定量である。
ⅠⅤ $\hat{\mu_1}$は$\mu$の一致推定量である。

よって⑤が正解である。

Q.13

第$1$種の過誤の確率$\alpha$は上図の青の領域、第$2$種の過誤の確率$\beta$は上図の緑の領域、にそれぞれ対応すると考えることができる。$H_0: \, \theta=0$、$H_1: \, \theta=1$、棄却域を$x \geq 0.8$のように考えるので、$\alpha, \beta$は統計数値表より、下記のように値が得られる。
$$
\large
\begin{align}
\alpha &= P(Z \geq 0.8) \simeq 0.2119 \\
\beta &= P(Z \leq -0.2) = P(Z \geq 0.2) \simeq 0.4207
\end{align}
$$

上記より②が正解である。

Q.14

検定統計量の実現値$t$は下記のように計算できる。
$$
\large
\begin{align}
t &= \frac{\overline{X}-\mu}{S/\sqrt{n}} \\
&= \frac{0.5-0}{1.5/4} \\
&= \frac{4}{3}
\end{align}
$$

また、自由度$16-1=15$の$t$分布の上側$5$%点は$t_{\alpha=0.05}(15)=1.753$であるので、$t=1.33 \cdots < 1.753 = t_{\alpha=0.05}(15)$より帰無仮説は棄却されない。

上記より④と⑤に絞られる。ここで④は「変化がないと判断する」、⑤は「変化があると判断できない」とそれぞれ主張されるが、仮説検定の論理展開上、帰無仮説が棄却できる際は「判断を行う」が棄却できない際は「判断を保留する」が適切であるので⑤が適切である。

Q.15

$$
\large
\begin{align}
\chi^2 = \sum_{i} \frac{(O_i-E_i)^2}{E_i}
\end{align}
$$

適合度検定の検定統計量は上記のように計算される。ここで$O_i$はそれぞれの観測値、$E_i$は$E_i=147/7=21$が対応するので、④か⑤に絞られる。

また、$\chi^2 \sim \chi^2(6)$であるので、棄却域は$\chi^2 \geq \chi^2_{\alpha=0.05}(6)=12.59$である。よって⑤が正しい。

・参考
$\chi^2$統計量は下記のように計算できる。

import numpy as np

observed_x = np.array([20., 18., 17., 24., 24., 22., 22.])
expected_x = np.repeat(21., 7)

chi2 = np.sum((observed_x-expected_x)**2/expected_x)
print("chi^2: {:.2f}".format(chi2))

・実行結果

chi^2: 2.19

上記より、帰無仮説は棄却できないことが確認できる。

Q.16

・$[1]$
回帰分析における残差の自由度は「サンプルの数」から「定数項を含む推定式の係数の数」を引いた数に一致するので、用いたサンプルの数は$52+3=55$である。よって④が正解である。

・$[2]$
Ⅰ $\alpha$の推定値の標準誤差はは$1.137e+02=113.7$であるので正しくない。$11.75=1.175e+01$は$\beta_2$の標準誤差である。
Ⅱ パラメータの$P$値が$1.39e-15 = 1.39 \times 10^{-15}, 5.87e-08=5.87 \times 10^{-8}, < 2e-16 < 2 \times 10^{16}$であり、どれも$0.05$よりも小さく有意水準$5$%で$0$ではないと判断できるので正しい。
Ⅲ 自由度調整済み決定係数はAdjusted R-squaredに対応するので正しくない。

よって②が正解である。

参考

・【統計検定$2$級対応】統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

2.11.3 中心極限定理 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.11.3$節「中心極限定理」の内容に基づいて中心極限定理の概要や取り扱いに関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

中心極限定理の概要

概要

中心極限定理は正規分布に基づかない標本に対しても$n$が大きくなれば標本の平均や和は正規分布に従うことを表した定理です。中心極限定理は大まかに下記の表を元に把握すると良いです。

サンプル数 十分大きいそれほど大きくない
正規母集団からの無作為抽出 正規分布自由度$n-1$の$t$分布
非正規母集団からの無作為抽出 正規分布 $\leftarrow$ 中心極限定理母集団分布による
「統計検定2級 公式問題集 CBT対応版 $7$.推定」の解答で作成

必要な数学

統計検定$2$級レベルでは中心極限定理の結果のみ用いるので数学的な知識は特に必要ありませんが、収束を考える際に極限や累積分布関数を表す際に積分が出てくるので極限と積分の概念は抑えておくと良いと思います。

中心極限定理

数式を用いた中心極限定理の表現

中心極限定理は$E[X_i]=\mu, V[X_i]=\sigma^2$に基づく標本列$X_1, X_2, …, X_n$に対して下記のように定義することができます。
$$
\large
\begin{align}
S_n &= \sum_{i=1}^{n} X_n \sim \mathcal{N}(n \mu, n \sigma^2) \\
\overline{X} &= \frac{1}{n} \sum_{i=1}^{n} X_n \sim \mathcal{N} \left( \mu, \frac{\sigma^2}{n} \right)
\end{align}
$$

上記に基づいて、下記のように$Z \sim \mathcal{N}(0,1)$が成立する$Z$を定義することができます。
$$
\large
\begin{align}
Z &= \frac{S_n – n \mu}{\sqrt{n} \sigma} \sim \mathcal{N}(0,1) \\
Z &= \frac{\overline{X} – \mu}{\sigma / \sqrt{n}} \sim \mathcal{N}(0,1)
\end{align}
$$

ここまで和の$S_n$と平均の$\overline{X}$の双方を確認しましたが、母平均や母比率の推定や検定では$\overline{X}$に基づいて$\mu$や$p$に関する推定や検定を行います。一方で、二項分布の正規近似などの場合は標本の和の$S_n$を用います。以下ではそれぞれの取り扱いに関して具体的に確認します。

標本平均の活用例

母平均の区間推定

$E[X_i]=\mu, V[X_i]=\sigma^2$に基づく標本列$X_1, X_2, …, X_n$の標本平均$\overline{X}$に関して$n \to \infty$のとき、$\displaystyle E[\overline{X}] = \mu, V[\overline{X}] = \frac{\sigma^2}{n}$より下記が成立します。
$$
\large
\begin{align}
\overline{X} & \sim \mathcal{N} \left( \mu, \frac{\sigma^2}{n} \right) \\
Z &= \frac{\overline{X}-\mu}{\sigma / \sqrt{n}} \sim \mathcal{N}(0,1)
\end{align}
$$

上記に基づいて$\mu$の$95$%区間は下記のように表すことができます。
$$
\large
\begin{align}
z_{\alpha=0.975} \leq & Z \leq z_{\alpha=0.025} \\
-1,96 \leq & \frac{\overline{X}-\mu}{\sigma / \sqrt{n}} \leq 1.96 \\
\overline{X} – 1.96 \frac{\sigma}{\sqrt{n}} \leq & \mu \leq \overline{X} + 1.96 \frac{\sigma}{\sqrt{n}}
\end{align}
$$

母比率の区間推定

$E[X_i]=p, V[X_i]=p(1-p)$に基づく標本列$X_1, X_2, …, X_n$の標本比率$\hat{p}=\overline{X}$に関して$n \to \infty$のとき、$\displaystyle E[\overline{X}] = p, V[\overline{X}] = \frac{p(1-p)}{n}$より下記が成立します。
$$
\large
\begin{align}
\hat{p} &= \overline{X} \sim \mathcal{N} \left( p, \frac{p(1-p)}{n} \right) \\
Z &= \frac{\hat{p}-p}{\sqrt{p(1-p) / n}} \sim \mathcal{N}(0,1)
\end{align}
$$

上記に基づいて母比率$p$の$95$%区間は下記のように表すことができます。
$$
\large
\begin{align}
z_{\alpha=0.975} \leq & Z \leq z_{\alpha=0.025} \\
-1,96 \leq & \frac{\hat{p}-p}{\sqrt{p(1-p) / n}} \leq 1.96 \quad (1) \\
\hat{p} – 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq & p \leq \hat{p} + 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \quad (2)
\end{align}
$$

$(1)$から$(2)$の変形にあたっては、$n$が十分大きいことに基づいて分散の$p$を$\hat{p}$で近似を行いました。この置き換えは母比率の推定や検定でよく出てくるので注意が必要です。

標本和の活用例

参考

中心極限定理に関しては下記でも詳しく取り扱いました。

2.10.3 $\chi^2$分布 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.10.1$節「$\chi^2$分布」の内容に基づいて$\chi^2$分布の定義や確率密度関数のグラフ化に関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

$\chi^2$分布の概要

概要

必要な数学

確率密度関数の図示にあたって、指数関数やガンマ関数の理解が必要になります。統計検定$2$級範囲では$\chi^2$分布の確率密度関数は出てきませんが、「統計数値表」の形式で使用する必要があるので確率密度関数の式とグラフの描画に関しては抑えておくと良いと思います。

ガンマ関数の取り扱いに関しては下記で取りまとめました。

$\chi^2$分布

確率変数の対応

$X_i \sim \mathcal{N}(0,1)$が成立するとき、下記のように$Y$を定義します。
$$
\large
\begin{align}
Y = \sum_{i=1}^{n} X_i^2
\end{align}
$$

このとき$Y$は自由度$n$の$\chi^2$分布$\chi^2(n)$に従い、$Y \sim \chi^2(n)$のように表され表されます。

確率密度関数

確率密度関数の数式

自由度$n$の$\chi^2$分布$\chi^2(n)$の確率変数を$Y$、確率密度関数を$f(y)$とおくと、$f(y)$は下記のように表すことができます。
$$
\large
\begin{align}
f(y) = \frac{1}{2^{\frac{n}{2}} \Gamma \left( \frac{n}{2} \right)} y^{\frac{n}{2}-1} \exp \left( -\frac{y}{2} \right)
\end{align}
$$

上記はガンマ分布$\displaystyle \mathrm{Ga} \left( \frac{n}{2},2 \right)$の確率密度関数に一致するので、$\chi^2(n)$はガンマ分布$\displaystyle \mathrm{Ga} \left( \frac{n}{2},2 \right)$に一致します。

ガンマ関数

ガンマ関数$\Gamma(\alpha)$は下記のように定義されます。
$$
\large
\begin{align}
\Gamma(\alpha) = \int_{0}^{\infty} x^{\alpha-1} e^{-x} dx \quad (1)
\end{align}
$$

このとき、ガンマ関数$\Gamma(\alpha)$に関して以下の式が成立します。
$$
\large
\begin{align}
\Gamma(\alpha+1) &= \alpha \Gamma(\alpha), \quad (2) \\
\Gamma(1) &= 1, \quad (3) \\
\Gamma(n) &= (n-1)!, n \in \mathbb{N}, \quad (4) \\
\Gamma \left( \frac{1}{2} \right) &= \sqrt{\pi}, \quad (5)
\end{align}
$$

詳しい導出は下記で取り扱いました。

発展事項①

$\chi^2$分布の確率密度関数の導出にあたっては統計検定準$1$級や$1$級で出てくる変数変換などが必要で難しいので当記事では省略しました。詳しくは下記で取り扱いましたので、導出を確認する際は下記などをご確認ください。

確率密度関数の図示

以下では$\chi^2(1), \chi^2(3), \chi^2(10)$の$\chi^2$分布の図示を行います。それぞれの分布のガンマ関数は前項の式に基づいて下記のように計算できます。
$$
\large
\begin{align}
\Gamma \left( \frac{1}{2} \right) &= \sqrt{\pi} \\
\Gamma \left( \frac{3}{2} \right) &= \frac{1}{2} \Gamma \left( \frac{1}{2} \right) \\
&= \frac{\sqrt{\pi}}{2} \\
\Gamma \left( \frac{10}{2} \right) &= \Gamma(5) \\
&= (5-1)! = 4!
\end{align}
$$

上記より、確率密度関数の式に基づいて下記を実行することで$F$分布の確率密度関数を描くことができます。

import numpy as np
import matplotlib.pyplot as plt
import math

y = np.arange(0.1,20.1,0.01)

f_y = {}

f_y[0] = y**(1./2.-1) * np.e**(-y/2.) / (2**(1./2.) * np.sqrt(np.pi))
f_y[1] = y**(3./2.-1) * np.e**(-y/2.) * 2. / (2**(3./2.) * np.sqrt(np.pi))
f_y[2] = y**(10./2.-1) * np.e**(-y/2.) / (2**(10./2.) * math.factorial(4))

label_y = {}
label_y[0], label_y[1], label_y[2] = "n = 1", "n = 3", "n = 10,"

for i in range(3):
    plt.plot(y,f_y[i],label=label_y[i])

plt.legend()
plt.ylim([0.,0.5])
plt.show()

・実行結果

上図は「統計検定$2$級対応 統計学基礎」の図$2.9$に対応します。

発展事項②

標本分布の確率密度関数から「統計数値表」の作成にあたっては「数値積分」が用いられます。教科書などで取り扱われることは少ないですが、台形の公式などに基づいて近似値の計算ができるので、概要は抑えておくと良いかもしれません。

$\chi^2$分布の期待値・分散

自由度$n$の$\chi^2$分布の期待値$E[Y]$と分散$V[Y]$は下記のように表される。
$$
\large
\begin{align}
E[Y] &= n \\
V[Y] &= 2n
\end{align}
$$

上記の詳しい導出は下記で取り扱いました。