ブログ

「確率分布」の「変数変換」の仕組みの理解とその応用|問題演習で理解する統計学【15】

数理統計学における「変数変換」は下記のように、ガウス積分やガンマ分布・ベータ分布に関する議論など、様々なところで出てきます。仕組みの理解も重要な一方で、計算のプロセスに慣れることも重要なので、実践的な演習を通して理解ができるような構成となるよう演習課題の作成を行いました。
https://www.hello-statisticians.com/explain-terms-cat/beta_distribution1.html
https://www.hello-statisticians.com/explain-terms-cat/gaussian_integral1.html

・標準演習$100$選
https://www.hello-statisticians.com/practice_100

基本問題

変数変換と置換積分

・問題
数理統計学などに出てくる「確率密度関数」の「変数変換」は、「置換積分」と対応づけて理解するとわかりやすい。以下では置換積分に関して確認し、類題的な視点で「確率密度関数」の「変数変換」について確認を行う。
i) 以下の定積分を計算せよ。
$$
\begin{align}
\int_{0}^{2} x dx
\end{align}
$$
ⅱ) i)において、$u=2x$と置き換えるとき、$0 \leq x \leq 2$に対応する$u$の区間と、$\displaystyle \frac{dx}{du}$を求めよ。また、これによってi)の定積分を$u$の「置換積分」を用いて計算せよ。
ⅲ) i)とⅱ)で計算した定積分の結果が一致することについて、直感的に考察せよ。
iv) 区間$[0,2]$における一様分布の確率密度関数を$f(x)$とすると、$f(x)$は下記のように表すことができる。
$$
\begin{align}
f(x) &= \frac{1}{2} \quad (0 \leq x \leq 2) \\
&= 0 \quad (x < 0 , 2 < x)
\end{align}
$$
上記を元に、$\displaystyle \int_{-\infty}^{\infty} f(x) dx$を計算せよ。
v) iv) で計算した一様分布に対して$\displaystyle y = \frac{1}{2}x$となる$y$を考える。この時の$y$の確率密度関数を$g(y)$とするとき、$g(y)$を関数$f$を用いて表せ。また、求めた確率密度関数$g(y)$に対して$\displaystyle \int_{-\infty}^{\infty} g(y) dy$を計算せよ。

・解答

i)
多項式関数の定積分の計算の手順に沿って、下記のように計算することができる。
$$
\large
\begin{align}
\int_{0}^{2} x dx &= \left[ \frac{1}{2}x^2 \right]_{0}^{2} \\
&= \frac{1}{2} (2^2 – 0^2) \\
&= 2
\end{align}
$$

ⅱ)
$u=2x$より、$0 \leq x \leq 2$に対応する$u$の区間は$0 \leq u \leq 4$となる。また、$\displaystyle x = \frac{1}{2}u$より、$\displaystyle \frac{dx}{du}$は下記のように求めることができる。
$$
\large
\begin{align}
\frac{dx}{du} &= \frac{d}{du}\left( \frac{1}{2}u \right) \\
&= \frac{1}{2}
\end{align}
$$
また、この時、$\displaystyle \int_{0}^{2} x dx$に置換積分の考え方を用いることで、下記のように計算することができる。
$$
\large
\begin{align}
\int_{0}^{2} x dx &= \int_{0}^{4} \frac{1}{2}u \frac{dx}{du} du \\
&= \int_{0}^{4} \frac{1}{2}u \cdot \frac{1}{2} du \\
&= \frac{1}{4} \int_{0}^{4} u du \\
&= \frac{1}{4} \left[ \frac{1}{2}x^2 \right]_{0}^{4} \\
&= \frac{1}{8} (4^2 – 0^2) \\
&= 2
\end{align}
$$

ⅲ)
変数$x$を変数$u$で置き換えるにあたって、「積分の区間」を「$0 \leq x \leq 2 \to 0 \leq u \leq 4$」、「変数」を$\displaystyle x \to \frac{1}{2}u$、「積分の微小区間$\displaystyle dx \to \frac{1}{2}du$」のように置き換えを行った。
このことは直感的な視点からは定義域が広くなる一方で、関数の値や微小区間に半減の補正が入ったように考えておくとよいように思われる。

iv)
$\displaystyle \int_{-\infty}^{\infty} f(x) dx$は下記のように計算することができる。
$$
\large
\begin{align}
\int_{-\infty}^{\infty} f(x) dx &= \int_{-\infty}^{0} 0 dx + \int_{0}^{2} \frac{1}{2} dx + \int_{2}^{\infty} 0 dx \\
&= \left[ \frac{x}{2} \right]_{0}^{2} \\
&= \frac{2}{2} = 1
\end{align}
$$

v)
$$
\large
\begin{align}
y &= \frac{1}{2}x \\
x &= 2y \\
\frac{dx}{dy} &= 2
\end{align}
$$
上記と変数変換の式より$g(y)$は$f$を用いて下記のように表すことができる。
$$
\large
\begin{align}
g(y) &= f(x)\frac{dx}{dy} \\
&= f(2y)\frac{dx}{dy} \\
&= 2f(2y)
\end{align}
$$

また、ここで$g(y)=2f(2y)=1$であり、定義域は$0 \leq y \leq 1$である。よって、$\displaystyle \int_{-\infty}^{\infty} g(y) dy$は下記のように計算できる。
$$
\large
\begin{align}
\int_{-\infty}^{\infty} g(y) dy &= \int_{-\infty}^{0} 0 dy + \int_{0}^{1} 1 dy + \int_{1}^{\infty} 0 dy \\
&= \left[ y \right]_{0}^{1} \\
&= 1
\end{align}
$$

・解説
i)とⅱ)で行った置換積分と、iv)とv)で行った変数変換はどちらも積分後の値が同じになるように変形を行う点で同様であると考えて良いと思われます。数理統計学における変数変換は変数変換の公式がメインで取り扱われることが多いですが、このような対応で理解しておくと直感的な理解がしやすいです。

行列式$\det \mathbf{A}$の図形的解釈と平行四辺形の面積

・問題
多次元の変数変換を行うにあたって、前問の$\displaystyle \frac{dx}{dy}$と同様に考えるのがヤコビ行列$\mathbf{J}$やその行列式のヤコビアン$\det \mathbf{J}$である。
https://www.hello-statisticians.com/explain-terms-cat/transformation1.html
上記で取り扱ったようにヤコビ行列$\mathbf{J}$は下記のように表される。
$$
\large
\begin{align}
\mathbf{J} = \left( \begin{array}{cc} \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_1} & \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_2} \\ \frac{\partial \phi_2^{-1}(y_1,y_2)}{\partial y_1} & \frac{\partial \phi_2^{-1}(y_1,y_2)}{\partial y_2} \end{array} \right)
\end{align}
$$
上記に対して行列式の$\det \mathbf{J}$を考えるわけだが、このとき行列式の図形的解釈が理解の前提となるので、以下では行列式の図形的解釈について取り扱う。なお、ヤコビ行列については次問で取り扱う。

行列式の図形的解釈に関連する以下の問いに答えよ。
i) 以下の行列$\mathbf{A}, \mathbf{B}, \mathbf{C}$に対して、それぞれ行列式を求めよ。
$$
\begin{align}
\mathbf{A} = \left( \begin{array}{cc} 3 & 1 \\ 1 & 2 \end{array} \right) \\
\mathbf{B} = \left( \begin{array}{cc} 2 & 1 \\ 1 & 2 \end{array} \right) \\
\mathbf{C} = \left( \begin{array}{cc} 1 & 0 \\ 0 & 1 \end{array} \right)
\end{align}
$$
ⅱ) 下記のように$\mathbf{a}, \mathbf{b}$を定義する。
$$
\begin{align}
\mathbf{a} &= \left( \begin{array}{c} a_1 \\ a_2 \end{array} \right) \\
\mathbf{b} &= \left( \begin{array}{c} b_1 \\ b_2 \end{array} \right)
\end{align}
$$
このとき4点$(0,0), (a_1,a_2), (b_1,b_2), (a_1+b_1,a_2+b_2)$を描画し、平行四辺形を描くことを確認せよ。
ⅲ) ⅱ)で確認した平行四辺形の面積を$S$とするとき、$\displaystyle S=|\mathbf{a}||\mathbf{b}|\sin{\theta}, \mathbf{a} \cdot \mathbf{b}=|\mathbf{a}||\mathbf{b}|\cos{\theta}$が成立することなどを利用して、$S$に関して下記の式が成立することを示せ。
$$
\begin{align}
S = \sqrt{(|\mathbf{a}||\mathbf{b}|)^2-(\mathbf{a} \cdot \mathbf{b})^2}
\end{align}
$$
iv) (3)式に対し、(1)式と(2)式を代入することで、下記が成立することを確認せよ。
$$
\large
\begin{align}
S = a_1b_2 – a_2b_1
\end{align}
$$
v) i)で定義した$\mathbf{A}, \mathbf{B}, \mathbf{C}$に対し、iv)の式を用いてそれぞれ平行四辺形の面積$S$を求めよ。

・解答
i)
$$
\large
\begin{align}
\det \mathbf{A} &= \det \left( \begin{array}{cc} 3 & 1 \\ 1 & 2 \end{array} \right) \\
&= 3 \cdot 2 – 1 \cdot 1 \\
&= 5 \\
\det \mathbf{B} &= \det \left( \begin{array}{cc} 2 & 1 \\ 1 & 2 \end{array} \right) \\
&= 2 \cdot 2 – 1 \cdot 1 \\
&= 3 \\
\det \mathbf{C} &= \det \left( \begin{array}{cc} 1 & 0 \\ 0 & 1 \end{array} \right) \\
&= 1 \cdot 1 – 0 \cdot 0 \\
&= 1
\end{align}
$$

ⅱ)

それぞれの点を描画すると上図のようになり、平行四辺形をなすことが確認できる。

ⅲ)
(3)式は下記のように導出できる。
$$
\large
\begin{align}
S &= |\mathbf{a}||\mathbf{b}|\sin{\theta} \\
&= |\mathbf{a}||\mathbf{b}|\sqrt{1-\cos^2{\theta}} \\
&= |\mathbf{a}||\mathbf{b}|\sqrt{1-\frac{(\mathbf{a} \cdot \mathbf{b})^2}{(|\mathbf{a}||\mathbf{b}|)^2}} \\
&= \sqrt{(|\mathbf{a}||\mathbf{b}|)^2-(\mathbf{a} \cdot \mathbf{b})^2}
\end{align}
$$

iv)
$$
\large
\begin{align}
|\mathbf{a}| &= a_1^2+a_2^2 \\
|\mathbf{b}| &= b_1^2+b_2^2 \\
(\mathbf{a} \cdot \mathbf{b})^2 &= (a_1b_1+a_2b_2)^2
\end{align}
$$
上記を(3)式に代入することで下記のように導出できる。
$$
\large
\begin{align}
S &= \sqrt{(|\mathbf{a}||\mathbf{b}|)^2-(\mathbf{a} \cdot \mathbf{b})^2}\\
&= \sqrt{(a_1^2+a_2^2)(b_1^2+b_2^2) – (a_1b_1+a_2b_2)^2} \\
&= \sqrt{a_1^2b_1^2 + a_1^2b_2^2 + a_2^2b_1^2 + a_2^2b_2^2 – (a_1^2b_1^2 + a_2^2b_2^2 – 2a_1a_2b_1b_2)} \\
&= \sqrt{a_1^2b_2^2 + a_2^2b_1^2 – 2a_1a_2b_1b_2} \\
&= \sqrt{(a_1b_2-a_2b_1)^2} \\
&= a_1b_2-a_2b_1 \\
&= \left| \begin{array}{cc} a_1 & a_2 \\ b_1 & b_2 \end{array} \right|
\end{align}
$$

v)
それぞれi)の結果に一致する。

・解説
ⅲ)〜iv)の導出によって、行列式が平行四辺形の面積に一致することが確認できました。ここで得た結果は行列式をヤコビ行列などの様々な場合に適用する場合に役に立つので、このような導出ができることを抑えておくと良いと思います。

ヤコビ行列$\mathbf{J}$とヤコビアン$\det \mathbf{J}$

・問題
2次元のヤコビ行列は下記のように表される。
$$
\large
\begin{align}
\mathbf{J} = \left( \begin{array}{cc} \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_1} & \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_2} \\ \frac{\partial \phi_2^{-1}(y_1,y_2)}{\partial y_1} & \frac{\partial \phi_2^{-1}(y_1,y_2)}{\partial y_2} \end{array} \right)
\end{align}
$$
一般的なヤコビ行列は2次元ではなく$n$次元で定義するが、2次元と$n$次元で取り扱いが大きく異なる訳ではないことから、以下では行列の操作などの計算が比較的行いやすい2次元のヤコビ行列を元に考える。

以下の問いに答えよ。
i) ヤコビ行列に出てくる$\phi_1^{-1}(y_1,y_2)$は$x_1 = \phi_1^{-1}(y_1,y_2)$を表すが、下記のような連立方程式が成立するときの$x_1=\phi_1^{-1}(y_1,y_2), x_2=\phi_2^{-1}(y_1,y_2)$を求めよ。
$$
\large
\begin{align}
y_1 &= 2x_1 + x_2 \\
y_2 &= x_1 + 2x_2
\end{align}
$$
ⅱ) i)で求めた$x_1=\phi_1^{-1}(y_1,y_2), x_2=\phi_2^{-1}(y_1,y_2)$を元に、ヤコビ行列$\mathbf{J}$を求めよ。
ⅲ) $(y_1,y_2), (y_1+dy_1,y_2), (y_1,y_2+dy_2), (y_1+dy_1,y_2+dy_2)$に対してそれぞれ$\phi_1^{-1}, \phi_2^{-1}$を作用させた時にそれぞれの点がどのように変換されるかを求めよ。
iv) $(y_1,y_2), (y_1+dy_1,y_2), (y_1,y_2+dy_2), (y_1+dy_1,y_2+dy_2)$を$(y_1,y_2)$からの位置ベクトルで計算すると、$(0,0), (dy_1,0), (0,dy_2), (dy_1,dy_2)$のようになる。ⅲ)で求めた結果も同様に$(\phi_1^{-1}(y_1,y_2),\phi_2^{-1}(y_1,y_2))$からの位置ベクトルで表せ。
v) $(0,0), (dy_1,0), (0,dy_2), (dy_1,dy_2)$の正方形の面積を$dS$とすると、$dS=dy_1dy_2$となる。iv)で計算した4点の平行四辺形の面積を$dS’$とおいたとき、$dS’$を$dy_1, dy_2$で表せ。ただし、下記で表す前問ⅲ)の式を用いて良い。
$$
\large
\begin{align}
S = \sqrt{(|\mathbf{a}||\mathbf{b}|)^2-(\mathbf{a} \cdot \mathbf{b})^2} \quad (3)
\end{align}
$$
vi) ⅱ)で求めたヤコビ行列$\mathbf{J}$に対して、ヤコビアン$\det \mathbf{J}$を計算せよ。
vⅱ) v)で求めた$dS’$に対して$\displaystyle \frac{dS’}{dS}$を計算すると、vi)で求めた$\det \mathbf{J}$に一致することを確認せよ。

・解答
i)
$$
\large
\begin{align}
y_1 &= 2x_1 + x_2 \\
2y_2 &= 2x_1 + 4x_2
\end{align}
$$
上記の両辺の差を取ることで$x_1$を消去することで、$\displaystyle x_2 = -\frac{1}{3}y_1+\frac{2}{3}y_2$を求めることができる。これを、$x_1=y_2-2x_2$に代入することで、$\displaystyle x_1 = \frac{2}{3}y_1-\frac{1}{3}y_2$を得ることができる。

ここまでの計算により、$x_1=\phi_1^{-1}(y_1,y_2), x_2=\phi_2^{-1}(y_1,y_2)$に関して下記が成立する。
$$
\large
\begin{align}
x_1 &= \phi_1^{-1}(y_1,y_2) = \frac{2}{3}y_1 – \frac{1}{3}y_2 \\
x_2 &= \phi_2^{-1}(y_1,y_2) = -\frac{1}{3}y_1 + \frac{2}{3}y_2
\end{align}
$$

ⅱ)
i)の結果を元に、ヤコビ行列は下記のように計算できる。
$$
\large
\begin{align}
\mathbf{J} &= \left( \begin{array}{cc} \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_1} & \frac{\partial \phi_1^{-1}(y_1,y_2)}{\partial y_2} \\ \frac{\partial \phi_2^{-1}(y_1,y_2)}{\partial y_1} & \frac{\partial \phi_2^{-1}(y_1,y_2)}{\partial y_2} \end{array} \right) \\
&= \left( \begin{array}{cc} \frac{\partial x_1}{\partial y_1} & \frac{\partial x_1}{\partial y_2} \\ \frac{\partial x_2}{\partial y_1} & \frac{\partial x_2}{\partial y_2} \end{array} \right) \\
&= \frac{1}{3} \left( \begin{array}{cc} \frac{\partial}{\partial y_1}(2y_1-y_2) & \frac{\partial}{\partial y_2}(2y_1-y_2) \\ \frac{\partial}{\partial y_1}(-y_1+2y_2) & \frac{\partial}{\partial y_2}(-y_1+2y_2) \end{array} \right) \\
&= \frac{1}{3} \left( \begin{array}{cc} 2 & -1 \\ -1 & 2 \end{array} \right)
\end{align}
$$

ⅲ)
それぞれ下記のように計算できる。
$$
\large
\begin{align}
\left( \begin{array}{c} \phi_1^{-1}(y_1,y_2) \\ \phi_2^{-1}(y_1,y_2) \end{array} \right) &= \frac{1}{3} \left( \begin{array}{c} 2y_1-y_2 \\ -y_1+2y_2 \end{array} \right) \\
\left( \begin{array}{c} \phi_1^{-1}(y_1+dy_1,y_2) \\ \phi_2^{-1}(y_1+dy_1,y_2) \end{array} \right) &= \frac{1}{3} \left( \begin{array}{c} 2(y_1+dy_1)-y_2 \\ -(y_1+dy_1)+2y_2 \end{array} \right) \\
\left( \begin{array}{c} \phi_1^{-1}(y_1,y_2+dy_2) \\ \phi_2^{-1}(y_1,y_2+dy_2) \end{array} \right) &= \frac{1}{3} \left( \begin{array}{c} 2y_1-(y_2+dy_2) \\ -y_1+2(y_2+dy_2) \end{array} \right) \\
\left( \begin{array}{c} \phi_1^{-1}(y_1+dy_1,y_2+dy_2) \\ \phi_2^{-1}(y_1+dy_1,y_2+dy_2) \end{array} \right) &= \frac{1}{3} \left( \begin{array}{c} 2(y_1+dy_1)-(y_2+dy_2) \\ -(y_1+dy_1)+2(y_2+dy_2) \end{array} \right)
\end{align}
$$

iv)
$$
\large
\begin{align}
\phi_1^{-1}(y_1+dy_1,y_2) – \phi_1^{-1}(y_1,y_2) &= \frac{1}{3} (2(y_1+dy_1)-y_2 – (2y_1-y_2)) \\
&= \frac{2}{3}dy_1 \\
\phi_1^{-1}(y_1,y_2+dy_2) – \phi_1^{-1}(y_1,y_2) &= \frac{1}{3} (2y_1-(y_2+dy_2) – (2y_1-y_2)) \\
&= -\frac{1}{3}dy_2 \\
\phi_1^{-1}(y_1+dy_1,y_2+dy_2) – \phi_1^{-1}(y_1,y_2) &= \frac{1}{3} (2(y_1+dy_1)-(y_2+dy_1) – (2y_1-y_2)) \\
&= \frac{2}{3}dy_1-\frac{1}{3}dy_2 \\
\phi_2^{-1}(y_1+dy_1,y_2) – \phi_2^{-1}(y_1,y_2) &= \frac{1}{3} (-(y_1+dy_1)+2y_2 – (-y_1+2y_2)) \\
&= -\frac{1}{3}dy_1 \\
\phi_2^{-1}(y_1,y_2+dy_2) – \phi_2^{-1}(y_1,y_2) &= \frac{1}{3} (-y_1+2(y_2+dy_2) – (-y_1+2y_2)) \\
&= \frac{2}{3}dy_2 \\
\phi_2^{-1}(y_1+dy_1,y_2+dy_2) – \phi_2^{-1}(y_1,y_2) &= \frac{1}{3} (-(y_1+dy_1)+2(y_2+dy_2) – (-y_1+2y_2)) \\
&= -\frac{1}{3}dy_1+\frac{2}{3}dy_2
\end{align}
$$
上記より、位置ベクトルはそれぞれ下記のように計算できる。
$$
\large
\begin{align}
\left( \begin{array}{c} \phi_1^{-1}(y_1,y_2) \\ \phi_2^{-1}(y_1,y_2) \end{array} \right)-\left( \begin{array}{c} \phi_1^{-1}(y_1,y_2) \\ \phi_2^{-1}(y_1,y_2) \end{array} \right) &= \left( \begin{array}{c} 0 \\ 0 \end{array} \right) \\
\left( \begin{array}{c} \phi_1^{-1}(y_1+dy_1,y_2) \\ \phi_2^{-1}(y_1+dy_1,y_2) \end{array} \right)-\left( \begin{array}{c} \phi_1^{-1}(y_1,y_2) \\ \phi_2^{-1}(y_1,y_2) \end{array} \right) &= \frac{1}{3} \left( \begin{array}{c} 2dy_1 \\ -dy_1 \end{array} \right) \\
\left( \begin{array}{c} \phi_1^{-1}(y_1,y_2+dy_2) \\ \phi_2^{-1}(y_1,y_2+dy_2) \end{array} \right)-\left( \begin{array}{c} \phi_1^{-1}(y_1,y_2) \\ \phi_2^{-1}(y_1,y_2) \end{array} \right) &= \frac{1}{3} \left( \begin{array}{c} -dy_2 \\ 2dy_2 \end{array} \right) \\
\left( \begin{array}{c} \phi_1^{-1}(y_1+dy_1,y_2+dy_2) \\ \phi_2^{-1}(y_1+dy_1,y_2+dy_2) \end{array} \right)-\left( \begin{array}{c} \phi_1^{-1}(y_1,y_2) \\ \phi_2^{-1}(y_1,y_2) \end{array} \right) &= \frac{1}{3} \left( \begin{array}{c} 2dy_1-dy_2 \\ -dy_1+2dy_2 \end{array} \right)
\end{align}
$$

v)
面積$dS’$は与えられた式を用いることで下記のように計算できる。
$$
\large
\begin{align}
dS’ &= \sqrt{\frac{5}{9}dy_1^2 \times \frac{5}{9}dy_2^2 – \left( \frac{1}{9}(-2dy_1dy_2 – 2dy_1dy_2) \right)^2} \\
&= \sqrt{ \frac{25}{81}(dy_1dy_2)^2 – \frac{16}{81}(dy_1dy_2)^2 } \\
&= \sqrt{ \frac{9}{81}(dy_1dy_2)^2 } \\
&= \sqrt{ \frac{1}{9}(dy_1dy_2)^2 } \\
&= \frac{1}{3}dy_1dy_2
\end{align}
$$

vi)
ヤコビアン$\det \mathbf{J}$は下記のように計算できる。
$$
\large
\begin{align}
\det \mathbf{J} &= \left| \begin{array}{cc} \frac{2}{3} & -\frac{1}{3} \\ -\frac{1}{3} & \frac{2}{3} \end{array} \right| \\
&= \frac{2}{3} \cdot \frac{2}{3} – \frac{-1}{3} \cdot \frac{-1}{3} \\
&= \frac{1}{3}
\end{align}
$$

vⅱ)
$\displaystyle \frac{dS’}{dS}$は下記のように計算できる。
$$
\large
\begin{align}
\frac{dS’}{dS} &= \frac{\frac{1}{3}dy_1dy_2}{dy_1dy_2} \\
&= \frac{1}{3}
\end{align}
$$
上記はvi)で求めたヤコビアン$\det \mathbf{J}$に一致する。

・解説
ヤコビアンは直感的には面積の変動率と考えることができ、変数変換にあたって微小区間を変更する際に用いられます。v)では前問の解答の$S=a_1b_2-a_1b_2$をそのまま用いる方が計算しやすいですが、少し計算がある方が良いと思われたので、前問における導出前の式を用いました。
ヤコビアンを考えることで$n$次元の変数変換を1次元と同様に考えることができるようになるので、単に公式を抑えるだけでなく、直感的な解釈も同様に身につけておくと良いと思います。

発展問題

ガウス積分

・問題
正規分布の規格化定数の導出などの際に用いられるガウス積分(Gaussian integral)にも変数変換の考え方が用いられている。ガウス積分の基本式は下記のように表される。
$$
\begin{align}
\int_{-\infty}^{\infty} e^{-x^2} dx = \sqrt{\pi}
\end{align}
$$
ガウス積分に関しては上記だけを抑えておくだけで、変数変換から具体的な確率分布に関して導出することができる。以下では変数変換を用いたガウス積分の導出と、標準正規分布の確率密度関数の導出について演習形式で確認を行う。

変数変換を用いたガウス積分の導出にあたって、下記のように積分値を$I$と$I^2$を考える。
$$
\begin{align}
I &= \int_{-\infty}^{\infty} e^{-x^2} dx \quad (1) \\
I^2 &= \left(\int_{-\infty}^{\infty} e^{-x^2} dx\right)^2 \\
&= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e^{-x^2} e^{-y^2} dx dy \\
&= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e^{-(x^2+y^2)} dx dy \quad (2)
\end{align}
$$

ここまでの内容を元に、下記の問いに答えよ。
i) $x = r \cos{\theta}, y = r \sin{\theta}$のようにおくとき、$x^2+y^2$を計算せよ。
ⅱ) i)で設定を行った$r, \theta$に関して、下記のヤコビ行列$\mathbf{J}$を計算せよ。
$$
\begin{align}
\mathbf{J} &= \left( \begin{array}{cc} \frac{\partial x}{\partial r} & \frac{\partial x}{\partial \theta} \\ \frac{\partial y}{\partial r} & \frac{\partial y}{\partial \theta} \end{array} \right)
\end{align}
$$
ⅲ) ⅱ)で計算したヤコビ行列$\mathbf{J}$に関して、ヤコビアン$|\det \mathbf{J}|$を計算せよ。
iv) $-\infty < x < \infty, -\infty < y < \infty$に対応する、$r$と$\theta$の区間を求めよ。
v) i)〜iv)の結果を元に、(2)式を$r$と$\theta$に関する定積分の式に直し、$I^2$の値を求めよ。ただし下記の計算が成立することを利用してよい。
$$
\begin{align}
\int_{0}^{\infty} r e^{-r^2} dr &= \int_{0}^{\infty} r e^{-r^2} dr \\
&= \left[ -\frac{1}{2}e^{-r^2} \right]_{0}^{\infty} \\
&= \frac{1}{2}
\end{align}
$$
vi) 標準正規分布の確率密度関数を$\displaystyle f(x) = C e^{-\frac{x^2}{2}}$のようにおき、$\displaystyle t = \frac{x}{\sqrt{2}}$を用いて変数変換を行うことを考える。
$$
\begin{align}
\int_{-\infty}^{\infty} C e^{-\frac{x^2}{2}} dx &= 1 \\
\int_{-\infty}^{\infty} e^{-t^2} dx &= \sqrt{\pi}
\end{align}
$$
上記が成立することを利用し、$C$の値を求めよ。
vⅱ) vi)で導出した確率密度関数の式に対して、$y = \mu + \sigma x$を用いて変数変換を行うことを考える。このとき$y$に関する確率密度関数を$g(y)$とおくとき、$g(y)$を導出せよ。

・解答
i)
$x^2+y^2$は下記のように計算できる。
$$
\large
\begin{align}
x^2+y^2 &= r^2 \cos^2{\theta} + r^2 \sin^2{\theta} \\
&= r^2 ( \cos^2{\theta} + \sin^2{\theta} ) \\
&= r^2
\end{align}
$$

ⅱ)
ヤコビ行列$\mathbf{J}$は下記のように計算できる。
$$
\large
\begin{align}
\mathbf{J} &= \left( \begin{array}{cc} \frac{\partial x}{\partial r} & \frac{\partial x}{\partial \theta} \\ \frac{\partial y}{\partial r} & \frac{\partial y}{\partial \theta} \end{array} \right) \\
&= \left( \begin{array}{cc} \frac{\partial}{\partial r}(r \cos{\theta}) & \frac{\partial}{\partial \theta}(r \cos{\theta}) \\ \frac{\partial}{\partial r}(r \sin{\theta}) & \frac{\partial}{\partial \theta}(r \sin{\theta}) \end{array} \right) \\
&= \left( \begin{array}{cc} \cos{\theta} & -r \sin{\theta} \\ \sin{\theta} & r \cos{\theta} \end{array} \right)
\end{align}
$$

ⅲ)
ヤコビアン$|\det \mathbf{J}|$は下記のように計算できる。
$$
\large
\begin{align}
|\det \mathbf{J}| &= \left| \begin{array}{cc} \cos{\theta} & -r \sin{\theta} \\ \sin{\theta} & r \cos{\theta} \end{array} \right| \\
&= \cos{\theta} \cdot r \cos{\theta} – (-r \sin{\theta}) \cdot \sin{\theta} \\
&= r(\cos^2{\theta}+\sin^2{\theta}) \\
&= r
\end{align}
$$

iv)
$0 < r < \infty, 0 \leq \theta \leq 2 \pi$を考えることで、$-\infty < x < \infty, -\infty < y < \infty$に対応させることができる。

v)
下記のように計算を行うことができる。
$$
\large
\begin{align}
I^2 &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e^{-(x^2+y^2)} dx dy \\
&= \int_{0}^{2 \pi} \int_{0}^{\infty} e^{-r^2} |\det \mathbf{J}| dr d \theta \\
&= \int_{0}^{2 \pi} \int_{0}^{\infty} re^{-r^2} dr d \theta \\
&= 2 \pi \int_{0}^{\infty} re^{-r^2} dr \\
&= 2 \pi \left[ -\frac{1}{2}e^{-r^2} \right]_{0}^{\infty} \\
&= \frac{2 \pi}{2} \\
&= \pi
\end{align}
$$

vi)
変数変換後の$t$に関する確率密度関数を$f_1(t)$とおくと、$\displaystyle f_1(t)=f(x)\left| \frac{dx}{dt} \right|, x = \sqrt{2}t$より、$f_1(t)$は下記のように計算できる。
$$
\large
\begin{align}
f_1(t) &= f(x)\left| \frac{dx}{dt} \right| \\
&= f(\sqrt{2}t) \times \sqrt{2} \\
&= \sqrt{2} C e^{-\frac{(\sqrt{2}t)^2}{2}} \\
&= \sqrt{2} C e^{-\frac{(2t^2}{2}} \\
&= \sqrt{2} C e^{-t^2}
\end{align}
$$

ここで$f_1(t)$の全区間に対して積分を考える。
$$
\large
\begin{align}
\int_{-\infty}^{\infty} f_1(t) dt &= \int_{-\infty}^{\infty} \sqrt{2} C e^{-t^2} dt \\
&= \sqrt{2} C \int_{-\infty}^{\infty} e^{-t^2} dt \\
&= \sqrt{2 \pi} C
\end{align}
$$
上記の計算にあたって与えられたガウス積分の式を用いた。

ここで$\displaystyle \int_{-\infty}^{\infty} f_1(t) dt = \int_{-\infty}^{\infty} C e^{-\frac{x^2}{2}} dx = 1$より、$\sqrt{2 \pi} C = 1$が成立する。よって、$C$は下記であることがわかる。
$$
\large
\begin{align}
\sqrt{2 \pi} C &= 1 \\
C &= \frac{1}{\sqrt{2 \pi}}
\end{align}
$$

vⅱ)
https://www.hello-statisticians.com/practice/stat_practice1.html#i-6
上記のv)と同様に、$g(y)$は下記のように導出される。
$$
\large
\begin{align}
g(y) &= f(x) \left| \frac{dx}{dy} \right| \\
&= f \left( \frac{y-\mu}{\sigma} \right) \left| \frac{d}{dy} \left( \frac{y-\mu}{\sigma} \right) \right| \\
&= \frac{1}{\sqrt{2 \pi}} \exp \left( -\frac{(y-\mu / \sigma)^2}{2} \right) \times \frac{1}{\sigma} \\
&= \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{(y-\mu)^2}{2 \sigma^2} \right)
\end{align}
$$

・解説
i)〜v)より$I^2=\pi$が得られ、これよりガウス積分に関する$\displaystyle \int_{-\infty}^{\infty} e^{-x^2} dx = \sqrt{\pi}$が成立することが確認できます。また、vi)とvⅱ)によって、標準正規分布$N(0,1)$や正規分布$N(\mu,\sigma^2)$の確率密度関数を導出することができます。このように変数変換を用いることでガウス積分が導出でき、正規分布の確率密度関数における定数項の導出に役立てることができます。

下記のガウス積分についての記事も合わせて参考にしてみてください。
https://www.hello-statisticians.com/explain-terms-cat/gaussian_integral1.html

ガンマ分布とベータ分布

下記で取り扱った。
https://www.hello-statisticians.com/practice/stat_practice_basic5.html#i-9

変数変換による標本分布の確率密度関数の導出

・問題
標本を表す確率変数$X_1,X_2,…,X_n$に対する標本の関数を$T=T(X_1,X_2,…,X_n)$のようにおくとき、$T$は統計量と定義される。「統計量」は難しい印象があるかもしれないが、単に「標本の関数」と考えればそれほど難しくない。

統計量の具体例に関しては、下記のように標本平均や標本分散を考えることができる。
$$
\large
\begin{align}
\bar{X} &= \frac{1}{n} \sum_{i=1}^{n} X_i \\
S^2 &= \frac{1}{n} \sum_{i=1}^{n} (X_i – \bar{X})^2
\end{align}
$$

さて、このように統計量を定義することができるが、この統計量の確率分布は「標本分布」と言われる。標本分布の具体例は「正規分布」、「$\chi^2$分布」、「$t$分布」、「$F$分布」などがあるが、以下では「$t$分布」を例に変数変換を用いた確率密度関数の導出を行う。

これまでの内容を元に以下の問いに答えよ。
i) $X_1,X_2,…,X_n$に関する不偏標本分散を$s^2$とおくとき、$s^2$を式で表せ。
ⅱ) 「$X_1,X_2,…,X_n \sim N(\mu,\sigma^2), i.i.d.$」とするとき、$t$統計量$T$を答えよ。
ⅲ) ⅱ)で表した$t$統計量$T$を変形し、下記を導出せよ。
$$
\large
\begin{align}
T = \frac{\frac{(\bar{X}-\mu)}{\sigma/\sqrt{n}}}{\sqrt{\frac{s^2}{\sigma^2}}} \quad (1)
\end{align}
$$
iv) $(1)$式の分子はどのような分布に従うか答えよ。
v) $U,V$が互いに独立かつ、$U \sim N(0,1), V \sim \chi^2(m)$が成立するとき、下記で定義する$T$が自由度$m$の$t$分布$t(m)$に従う。
$$
\begin{align}
T = \frac{U}{\sqrt{V/m}} \quad (2)
\end{align}
$$
$(1)$式に対して、$\displaystyle U=\frac{(\bar{X}-\mu)}{\sigma/\sqrt{n}}, V=\frac{(n-1)s^2}{\sigma^2}$を用いて変数を置き換えよ。また、導出結果を$(2)$式と見比べることで$m$を$n$を用いて表し、これが何を表すか解釈せよ。
vi) $U \sim N(0,1), V \sim \chi^2(m)$の同時確率密度関数$f(u,v)$は下記のように表される。
$$
\large
\begin{align}
f(u,v) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{u^2}{2}} \frac{v^{\frac{m}{2}-1} e^{-\frac{v}{2}}}{2^{\frac{m}{2}} \Gamma \left( \frac{m}{2} \right)}
\end{align}
$$
ここで$(2)$式を元に$\displaystyle T = \frac{U}{\sqrt{V/m}}, V=V$のような変数変換を行うとき、$U$を$T$で表し、ヤコビ行列$\mathbf{J}$、ヤコビアン$|\det \mathbf{J}|$を計算せよ。
vⅱ) $(3)$式に対して$\displaystyle T = \frac{U}{\sqrt{V/m}}, V=V$のような変数変換を行った際の確率密度関数を$g(t,v)$とおくとき、$g(t,v)$は下記に一致することを確認せよ。
$$
\large
\begin{align}
g(t,v) = \frac{v^{\frac{m+1}{2}-1} e^{-v \left( 1 + \frac{t^2}{2m} \right)}}{2^{\frac{m}{2}} \Gamma \left( \frac{m}{2} \right) \sqrt{2 \pi m}}
\end{align}
$$

・解答
i)
不偏標本分散$s^2$は下記のように表すことができる。
$$
\large
\begin{align}
s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i-\bar{X})^2
\end{align}
$$

ⅱ)
$t$統計量$T$は下記のように表すことができる。
$$
\large
\begin{align}
T = \frac{\sqrt{n}(\bar{X}-\mu)}{s}
\end{align}
$$

ⅲ)
ⅱ)の結果を元に下記のように変形を行うことで導出することができる。
$$
\large
\begin{align}
T &= \frac{\sqrt{n}(\bar{X}-\mu)}{s} \\
&= \frac{\sqrt{n}(\bar{X}-\mu)/\sigma}{s/\sigma} \\
&= \frac{\frac{(\bar{X}-\mu)}{\sigma/\sqrt{n}}}{\sqrt{\frac{s^2}{\sigma^2}}}
\end{align}
$$
分子と分母に$1/\sigma$をかけ合わせることで導出できる。

iv)
標準正規分布$N(0,1)$に従う。

v)
下記のように変数の置き換えを行うことができる。
$$
\large
\begin{align}
T &= \frac{\frac{(\bar{X}-\mu)}{\sigma/\sqrt{n}}}{\sqrt{\frac{s^2}{\sigma^2}}} \\
&= \frac{\frac{(\bar{X}-\mu)}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)s^2}{\sigma^2}/(n-1)}} \\
&= \frac{U}{\sqrt{V/(n-1)}}
\end{align}
$$
上記を$(2)$式を見比べると$m=n-1$であり、これより$t$統計量が自由度$n-1$の$t$分布$t(n-1)$に従うと解釈することができる。

vi)
ヤコビ行列$\mathbf{J}$は下記のように計算できる。
$$
\large
\begin{align}
\mathbf{J} &= \left(\begin{array}{cc} \frac{\partial u}{\partial t} & \frac{\partial u}{\partial v} \\ \frac{\partial v}{\partial t} & \frac{\partial v}{\partial v} \end{array} \right) \\
&= \left(\begin{array}{cc} \sqrt{\frac{v}{m}} & \frac{t}{2}\sqrt{\frac{1}{mv}} \\ 0 & 1 \end{array} \right)
\end{align}
$$
上記を元にヤコビアン$|\det \mathbf{J}|$は下記のように計算できる。
$$
\large
\begin{align}
|\det \mathbf{J}| &= \left| \sqrt{\frac{v}{m}} \cdot 1 – \frac{t}{2}\sqrt{\frac{1}{mv}} \cdot 0 \right| \\
&= \sqrt{\frac{v}{m}}
\end{align}
$$

vⅱ)
$g(t,v)$は下記のように導出することができる。
$$
\large
\begin{align}
g(t,v) &= f(u,v) |\det \mathbf{J}| \\
&= f \left( t \sqrt{\frac{v}{m}} , v \right) |\det \mathbf{J}| \\
&= \frac{1}{\sqrt{2 \pi}} e^{-\frac{\left( t \sqrt{\frac{v}{m}} \right)^2}{2}} \times \frac{v^{\frac{m}{2}-1} e^{-\frac{v}{2}}}{2^{\frac{m}{2}} \Gamma \left( \frac{m}{2} \right)} \times \sqrt{\frac{v}{m}} \\
&= \frac{1}{\sqrt{2 \pi}} e^{-v\frac{t^2}{2m}} \times \frac{v^{\frac{m}{2}-1} e^{-\frac{v}{2}}}{2^{\frac{m}{2}} \Gamma \left( \frac{m}{2} \right)} \times \sqrt{\frac{v}{m}} \\
&= \frac{v^{\frac{m+1}{2}-1} e^{-v \left( 1 + \frac{t^2}{2m} \right)}}{2^{\frac{m}{2}} \Gamma \left( \frac{m}{2} \right) \sqrt{2 \pi m}}
\end{align}
$$

・解説
i)〜v)では$n$個の確率変数に基づく$t$統計量が自由度$n-1$の$t$分布$t(n-1)$に従うことについて確認を行いました。
vi)とvⅱ)で$t$分布の確率密度関数の導出にあたっての変数変換について取り扱いました。ここでは取り扱いませんでしたが、vⅱ)式で$v$を積分消去することで$t$分布の確率密度関数$f(t)$は下記のようになります。
$$
\large
\begin{align}
f(t) &= \int_{0}^{\infty} g(t,v) dv \\
&= \frac{\Gamma \left( \frac{m+1}{2} \right)}{\sqrt{\pi m} \Gamma \left( \frac{m}{2} \right)} \left( 1 + \frac{t^2}{m} \right)^{-\frac{m+1}{2}}
\end{align}
$$
上記に関しては下記で詳しい導出を取り扱いました。
https://www.hello-statisticians.com/explain-terms-cat/sampling_distribution1.html#t-2

確率密度関数の畳み込み

累積分布関数の変数変換

・問題
確率密度関数の変数変換を行う際はヤコビアンなどを含む公式に基づいて基本的には導出を行うことができる。一方で、自由度$1$の$\chi^2$分布の確率密度関数の導出の際に標準正規分布$\mathcal{N}(0,1)$に関して$Y=X^2$の変数変換を考える場合などは確率密度関数を元に考えると区間の表示が難しい。

このような際は累積分布関数の変数変換を考えると置換積分の考え方に基づいてシンプルに導出を行える。以下、累積分布関数の置換積分に関して確認を行う。下記の問いにそれぞれ答えよ。

i) 標準正規分布$\mathcal{N}(0,1)$の確率密度関数を$f_1(x)$、累積分布関数$F_1(x)$とおくとき、$f_1(x), F_1(x)$を$x$の式で表せ。
ⅱ) i)で取り扱った変数$x$に対応する確率変数$X$に対して変数変換$Y=X^2$を考える。この際、$P(Y \leq u)$を$P(0 \leq X \leq \sqrt{u})$を用いて表せ。
ⅲ) 自由度$1$の$\chi^2$分布の確率密度関数を$f_2(y)$、累積分布関数を$F_2(y)$のようにおくとき、$\displaystyle P(0 \leq X \leq \sqrt{u}) = \int_{0}^{\sqrt{u}} f_1(x) dx$であることに基づいて、$F_2(u) = P(Y \leq u)$を導出せよ。
iv) ⅲ)の導出結果より自由度$1$の$\chi^2$分布の確率密度関数$f_2(y)$を$y$の式で表せ。
v) 自由度$1$の$\chi^2$分布がガンマ分布$\displaystyle \mathrm{Ga} \left( \frac{1}{2},2 \right)$に一致することを確認せよ。
vi) 変数変換$Y=X^2$を考える際に累積分布関数を考える利点に関して論じよ。

・解答
i)
$f_1(x), F_1(x)$はそれぞれ下記のように表せる。
$$
\large
\begin{align}
f_1(x) &= \frac{1}{\sqrt{2 \pi}} \exp{ \left( -\frac{x^2}{2} \right) } \\
F_1(x) &= \int_{-\infty}^{x} f_1(t) dt \\
&= \frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{x} \exp{ \left( -\frac{t^2}{2} \right) } dt
\end{align}
$$

ⅱ)
$Y \leq u$は$-\sqrt{u} \leq X \leq \sqrt{u}$に対応する。標準正規分布は$x=0$に対称な偶関数であるので、$P(Y \leq u) = 2P(0 \leq X \leq \sqrt{u})$のように表すことができる。

ⅲ)
$P(Y \leq u) = 2P(0 \leq X \leq \sqrt{u})$や$\displaystyle P(0 \leq X \leq \sqrt{u}) = \int_{0}^{\sqrt{u}} f_1(x) dx$より、$F_2(u) = P(Y \leq u)$は下記のように表せる。
$$
\large
\begin{align}
F_2(u) &= P(Y \leq u) = 2P(0 \leq X \leq \sqrt{u}) \\
&= 2 \int_{0}^{\sqrt{u}} f_1(x) dx \quad (1)
\end{align}
$$

上記に対して$y=x^2$のように変数変換を考える。$x \geq 0$であれば$\displaystyle x = \sqrt{y}, dx = \frac{1}{2 \sqrt{y}}$が成立する。また、$x$と$y$の区間は下記のように対応する。

$x$$0 \to u$
$y$$0 \to \sqrt{u}$

よって$(1)$式は下記のように変形できる。
$$
\large
\begin{align}
F_2(u) &= P(Y \leq u) = 2P(0 \leq X \leq \sqrt{u}) \\
&= 2 \int_{0}^{\sqrt{u}} f_1(x) dx \quad (1) \\
&= 2 \int_{0}^{u} f_2(\sqrt{y}) \cdot \frac{1}{2 \sqrt{y}} dy \\
&= \cancel{2} \int_{0}^{u} \frac{1}{\sqrt{2 \pi}} \exp{ \left( -\frac{y}{2} \right) } \cdot \frac{1}{\cancel{2} \sqrt{y}} dy \\
&= \int_{0}^{u} \frac{1}{\sqrt{2 \pi y}} \exp{ \left( -\frac{y}{2} \right) } dy
\end{align}
$$

iv)
ⅲ)の導出結果より、$f_2(y)$は下記のように表せる。
$$
\large
\begin{align}
f_2(y) = \frac{1}{\sqrt{2 \pi y}} \exp{ \left( -\frac{y}{2} \right) }
\end{align}
$$

v)
ガンマ分布$\mathrm{Ga}(\alpha,\beta)$の確率密度関数を$f(x)$とおくと$f(x)$は下記のように表せる。
$$
\large
\begin{align}
f(x) = \frac{1}{\beta^{\alpha} \Gamma(\alpha)} y^{\alpha-1} \exp{ \left( -\frac{y}{\beta} \right) }
\end{align}
$$

パラメータの対応を考えることにより、自由度$1$の$\chi^2$分布がガンマ分布$\displaystyle\mathrm{Ga} \left( \frac{1}{2},2 \right)$に一致することが確認できる。

vi)
$Y=X^2$は$Y=aX+b$のような$1$対$1$対応の変換ではないので、$X<0$の場合と$X<0$の場合に分けて考察する必要が生じるが、この取り扱いを数式展開で表すことはなかなか複雑であり難しい。一方で累積分布関数を考える場合は関数の対称性などを用いて式の取り扱いがしやすい。

・解説
この問題で取り扱ったように「確率密度関数の変数変換」と「累積分布関数の変数変換」は対応するので、基本的には変数変換が$1$対$1$対応の場合は確率密度関数、$1$対$1$でない場合は累積分布関数を用いると良いと思います。

1の∞乗の不定形とネイピア数eの定義に関連する公式や指数関数・対数関数の微分の導出まとめ

$1^{\infty}$の形式の極限を考えるにあたって、下記のネイピア数の定義はよく用いられる。
$$
\large
\begin{align}
\lim_{n \to \infty} \left( 1 + \frac{1}{n} \right)^{n} = e \quad (1)
\end{align}
$$

$(1)$式の$e$はネイピア数(Napier’s constant)と呼ばれるが、$e=2.71…$が成立する数が元々あったというよりは、上記の数式が成立する数を$e$と定義したと考える方が良いと思われる。この$e$の式が出てくるのが数Ⅲ以降でありやや直感的にわかりにくいかもしれないので、円周率で用いる$\pi$が「半径$r$の円の円周の長さが$2 \pi r$に一致する」ように定義することと同様に考えるとわかりやすいと思われる。

数理統計学を学ぶにあたって$(1)$式は「正規分布」などに関連するトピックによく出てくるので、様々なパターンに慣れておく方が良い。当記事では$(1)$式に関連する式や指数関数の微分などの$(1)$式からの導出などをまとめた。

ネイピア数の定義と関連する式の導出

ネイピア数の定義

$$
\large
\begin{align}
\lim_{n \to \infty} \left( 1 + \frac{1}{n} \right)^{n} = e \quad (1)
\end{align}
$$

冒頭でも確認を行ったのと同様に、上記の式を用いてネイピア数は定義される。ここで上記の左辺は$1^{\infty}$形式の不定形だが、$e=2.71…$に収束すると考えてネイピア数$e$の定義を行う。

ネイピア数の定義が急に出てくると分からなくなりがちなので、以下$\displaystyle \left( 1 + \frac{1}{n} \right)^{n}$の$n$に具体的な数字を入れて確認を行う。
・$n=1$
$$
\large
\begin{align}
\left( 1 + \frac{1}{n} \right)^{n} &= \left( 1 + \frac{1}{1} \right)^{1} \\
&= 2^1 \\
&= 2
\end{align}
$$

・$n=2$
$$
\large
\begin{align}
\left( 1 + \frac{1}{n} \right)^{n} &= \left( 1 + \frac{1}{2} \right)^{2} \\
&= \left( \frac{3}{2} \right)^{2} \\
&= \frac{9}{4} = 2.25
\end{align}
$$

・$n=3$
$$
\large
\begin{align}
\left( 1 + \frac{1}{n} \right)^{n} &= \left( 1 + \frac{1}{3} \right)^{3} \\
&= \left( \frac{4}{3} \right)^{3} \\
&= \frac{64}{27} = 2.37…
\end{align}
$$

・$n=10$
$$
\large
\begin{align}
\left( 1 + \frac{1}{n} \right)^{n} &= \left( 1 + \frac{1}{10} \right)^{10} \\
&= \left( \frac{11}{10} \right)^{2} \\
&= 2.59…
\end{align}
$$

・$n=100$
$$
\large
\begin{align}
\left( 1 + \frac{1}{n} \right)^{n} &= \left( 1 + \frac{1}{100} \right)^{100} \\
&= \left( \frac{101}{100} \right)^{100} \\
&= 2.70…
\end{align}
$$

上記のようにだんだんと$e=2.71…$に近づいていることが確認できる。

$\displaystyle \lim_{n \to – \infty} \left( 1 + \frac{1}{n} \right)^{n} = e$の導出

前項で確認したネイピア数の定義式に基づいて導出を行う。
$$
\large
\begin{align}
\lim_{n \to – \infty} \left( 1 + \frac{1}{n} \right)^{n} \quad (1)’
\end{align}
$$

上記を考えるにあたって、$m = -n$のように$m$を定義する。このとき、$n=-m, m \to \infty$なので$(1)’$式は下記のように書き換えることができる。
$$
\large
\begin{align}
\lim_{n \to – \infty} \left( 1 + \frac{1}{n} \right)^{n} = \lim_{m \to \infty} \left( 1 – \frac{1}{m} \right)^{-m} \quad (2)
\end{align}
$$

上記は下記のように変形できる。
$$
\large
\begin{align}
\lim_{n \to – \infty} \left( 1 + \frac{1}{n} \right)^{n} &= \lim_{m \to \infty} \left( 1 – \frac{1}{m} \right)^{-m} \\
&= \lim_{m \to \infty} \left( \frac{m-1}{m} \right)^{-m} \\
&= \lim_{m \to \infty} \left( \frac{m}{m-1} \right)^{m}
\end{align}
$$

ここで$l = m-1$のように$l$を考えると、$l=m+1, l \to \infty$なので(3)式は下記のように書き換えることができる。
$$
\large
\begin{align}
\lim_{m \to \infty} \left( \frac{m}{m-1} \right)^{m} &= \lim_{l \to \infty} \left( \frac{l+1}{l} \right)^{l+1} \\
&= \lim_{l \to \infty} \left( 1+\frac{1}{l} \right)^{l} \times \left( 1+\frac{1}{l} \right) \\
&= e \times 1 = e
\end{align}
$$

ここまでの導出により、下記が示される。
$$
\large
\begin{align}
\lim_{n \to – \infty} \left( 1 + \frac{1}{n} \right)^{n} = e
\end{align}
$$

$\displaystyle \lim_{x \to 0} \left( 1 + x \right)^{\frac{1}{x}} = e$の導出

$x \to +0$と$x \to -0$に分けて導出を行う。

・$x \to +0$の際の導出
$$
\large
\begin{align}
\lim_{x \to +0} \left( 1 + x \right)^{\frac{1}{x}} = e
\end{align}
$$

上記を下記のネイピア数の定義の式を用いて示す。
$$
\large
\begin{align}
\lim_{n \to \infty} \left( 1 + \frac{1}{n} \right)^{n} = e
\end{align}
$$

$\displaystyle \lim_{x \to +0} \left( 1 + x \right)^{\frac{1}{x}} = e$において、$\displaystyle n = \frac{1}{x}$を考えると、$\displaystyle x = \frac{1}{n}, n \to \infty$が対応する。これより下記のように導出できる。
$$
\large
\begin{align}
\lim_{x \to +0} \left( 1 + x \right)^{\frac{1}{x}} &= \lim_{n \to \infty} \left( 1 + \frac{1}{n} \right)^{n} \\
&= e
\end{align}
$$

・$x \to -0$の際の導出
$$
\large
\begin{align}
\lim_{x \to +0} \left( 1 + x \right)^{\frac{1}{x}} = e
\end{align}
$$

上記を下記の式を用いて示す。
$$
\large
\begin{align}
\lim_{n \to – \infty} \left( 1 + \frac{1}{n} \right)^{n} = e
\end{align}
$$

$\displaystyle \lim_{x \to -0} \left( 1 + x \right)^{\frac{1}{x}} = e$において、$\displaystyle n = \frac{1}{x}$を考えると、$\displaystyle x = \frac{1}{n}, n \to -\infty$が対応する。これより下記のように導出できる。
$$
\large
\begin{align}
\lim_{x \to +0} \left( 1 + x \right)^{\frac{1}{x}} &= \lim_{n \to -\infty} \left( 1 + \frac{1}{n} \right)^{n} \\
&= e
\end{align}
$$

ここまでの議論により、下記を示すことができる。
$$
\large
\begin{align}
\lim_{x \to 0} \left( 1 + x \right)^{\frac{1}{x}} = e
\end{align}
$$

派生した計算例の確認

例題形式の方がわかりやすいと思われるので、以下例題と解答の形式で確認する。
・例題
$$
\large
\begin{align}
& (1) \quad \lim_{n \to \infty} \left( 1 + \frac{2}{n} \right)^{n} \\
& (2) \quad \lim_{n \to \infty} \left( 1 + \frac{1}{2n} \right)^{n} \\
& (3) \quad \lim_{x \to 0} \left( 1 – 2x \right)^{1/x}
\end{align}
$$

・解答
$(1)$
$$
\large
\begin{align}
\lim_{n \to \infty} \left( 1 + \frac{2}{n} \right)^{n} &= \lim_{n \to \infty} \left( 1 + \frac{1}{n/2} \right)^{n} \\
&= \lim_{\substack{n \to \infty \\ n/2 \to \infty}} \left( \left( 1 + \frac{1}{n/2} \right)^{n/2} \right)^{2} \\
&= e^2
\end{align}
$$

$(2)$
$$
\large
\begin{align}
\lim_{n \to \infty} \left( 1 + \frac{1}{2n} \right)^{n} &= \lim_{n \to \infty} \left( 1 + \frac{1}{2n} \right)^{n} \\
&= \lim_{\substack{n \to \infty \\ 2n \to \infty}} \left( \left( 1 + \frac{1}{2n} \right)^{2n} \right)^{1/2} \\
&= e^{\frac{1}{2}}
\end{align}
$$

$(3)$
$$
\large
\begin{align}
\lim_{x \to 0} \left( 1 – 2x \right)^{1/x} &= \lim_{x \to 0} \left( \left( 1 – 2x \right)^{-1/2x} \right)^{-2} \\
&= \lim_{\substack{x \to 0 \\ -2x \to 0}} \left( \left( 1 – 2x \right)^{-1/2x} \right)^{-2} \\
&= e^{-2}
\end{align}
$$

統計学における応用例

二項分布からのポアソン分布の導出

二項分布からのポアソン分布の導出の際にネイピア数の定義に派生する式が用いられる。
$$
\large
\begin{align}
P(X=k|n,p) &= {}_n C_k \, p^{k} (1-p)^{n-k} \\
&= \frac{n!}{k!(n-k)!} p^{k} (1-p)^{n-k} \quad (4)
\end{align}
$$

上記で定義した二項分布$\mathrm{Bin}(n,p)$の確率関数$P(X=k|n,p)$の式において、$\lambda = np$が一定で$n \to \infty$となる場合を考える。

$\displaystyle \lambda = np, p = \frac{\lambda}{n}$などを考えることで、$(4)$式は下記のように変形できる。
$$
\large
\begin{align}
P(X=k|n,p) &= \frac{n!}{k!(n-k)!} p^{k} (1-p)^{n-k} \\
&= \frac{n \cdot (n-1)…(n-k+1)}{k!} \left( \frac{\lambda}{n} \right)^{k} \left( 1-\frac{\lambda}{n} \right)^{n-k} \\
&= \frac{\lambda^{k}}{k!} \times 1 \cdot \left( 1 – \frac{1}{n} \right)…\left( 1 – \frac{k-1}{n} \right) \times \left( 1-\frac{\lambda}{n} \right)^{n-k} \quad (5)
\end{align}
$$

$(5)$式の右辺の第$1$項はポアソン分布の式に現れるので、第$2$項と第$3$項の$n \to \infty$の極限について以下確認する。

・第$2$項
下記が成立する。
$$
\large
\begin{align}
\lim_{n \to \infty} \left( 1 – \frac{1}{n} \right)…\left( 1 – \frac{k-1}{n} \right) &= 1 \cdot … \cdot 1 \\
&= 1
\end{align}
$$

・第$3$項
下記が成立する。
$$
\large
\begin{align}
\lim_{n \to \infty} \left( 1-\frac{\lambda}{n} \right)^{n-k} &= \lim_{n \to \infty} \left\{ \left( 1-\frac{\lambda}{n} \right)^{n} \times \left( 1-\frac{\lambda}{n} \right)^{k} \right\} \\
&= \lim_{\substack{n \to \infty \\ -n/\lambda \to -\infty}} \left\{ \left( \left( 1-\frac{\lambda}{n} \right)^{-n/\lambda} \right)^{-\lambda} \times \left( 1-\frac{\lambda}{n} \right)^{k} \right\} \\
&= e^{-\lambda} \times 1 = e^{-\lambda}
\end{align}
$$

ここまでの議論を元に、$(4)$式に対して$n \to \infty$を考えることでポアソン分布の確率関数を導出することができる。
$$
\large
\begin{align}
\lim_{n \to \infty} P(X=k|n,p) &= \lim_{n \to \infty} \frac{n!}{k!(n-k)!} p^{k} (1-p)^{n-k} \\
&= \frac{\lambda^{k}}{k!} \times 1 \times e^{-\lambda} \\
&= \frac{\lambda^{k} e^{-\lambda}}{k!}
\end{align}
$$
上記はポアソン分布$Po(\lambda)$の確率関数$P(X=k|\lambda)$を表す。

ここで$\displaystyle \lim_{n \to \infty} P(X=k|n,p) = P(X=k|\lambda)$のように$n,p$が$\lambda$に置き換わったが、$\lambda=np$のように定義したことを考慮するとこのことは自然だと考えることができる。

$t$分布の極限と正規分布

指数関数・対数関数の定義に基づく微分

$e^x$の微分

$f(x)$の微分$f'(x)$は下記のように定義される。
$$
\large
\begin{align}
f'(x) = \lim_{h \to 0} \frac{f(x+h)-f(x)}{h}
\end{align}
$$

上記を用いて$f(x)=e^x$の際の$f'(x)$の計算を行う。
$$
\large
\begin{align}
f'(x) &= \lim_{h \to 0} \frac{f(x+h)-f(x)}{h} \\
&= \lim_{h \to 0} \frac{e^{x+h}-e^{x}}{h} \\
&= \lim_{h \to 0} \frac{e^{x}(e^h-1)}{h} \quad (6)
\end{align}
$$

$(6)$式に対して、$k=e^h-1$のように変数変換を行うことを考える。この時、下記のように$h$について解くことができる。
$$
\large
\begin{align}
k &= e^h-1 \\
e^h &= k+1 \\
h &= \log{ (k+1) }
\end{align}
$$
また、$h \to 0$のとき、$k \to e^0-1 = 1-1 = 0$が成立する。

$k=e^h-1, h=\log{(k+1)}$を元に下記のように$(6)$式を変形することができる。
$$
\large
\begin{align}
f'(x) &= \lim_{h \to 0} \frac{e^{x}(e^h-1)}{h} \\
&= \lim_{k \to 0} \left( e^{x} \cdot \frac{k}{\log{(k+1)}} \right) \\
&= \lim_{k \to 0} \left( e^{x} \cdot \frac{1}{\frac{1}{k} \log{(k+1)}} \right) \\
&= \lim_{k \to 0} \left( e^{x} \cdot \frac{1}{\log{(1+k)^{\frac{1}{k}}}} \right) \\
&= e^{x} \cdot \frac{1}{\log{e}} \\
&= e^{x}
\end{align}
$$

ここまでの議論により、$(e^{x})’ = e^{x}$を導出することができる。

$a^x(a>1)$の微分

$\log_e {x}$の微分

$$
\large
\begin{align}
f'(x) = \lim_{h \to 0} \frac{f(x+h)-f(x)}{h}
\end{align}
$$

上記を用いて$f(x)=\log_e{x}$の際の$f'(x)$の計算を行う。
$$
\large
\begin{align}
f'(x) &= \lim_{h \to 0} \frac{f(x+h)-f(x)}{h} \\
&= \lim_{h \to 0} \frac{\log_e{(x+h)}-\log_e{x}}{h} \\
&= \lim_{h \to 0} \frac{1}{h}\log_e{\left( \frac{x+h}{x} \right)} \\
&= \lim_{h \to 0} \log_e{\left( 1 + \frac{h}{x} \right)^{\frac{1}{h}}} \\
&= \lim_{h \to 0} \log_e{\left( \left( 1 + \frac{h}{x} \right)^{\frac{x}{h}} \right)^{\frac{1}{x}} } \\
&= \lim_{\substack{h \to 0 \\ h/x \to 0}} \frac{1}{x} \log_e{ \left( 1 + \frac{h}{x} \right)^{\frac{1}{h/x}} } \\
&= \frac{1}{x} \cdot \log_e{e} = \frac{1}{x}
\end{align}
$$

ここまでの議論により、$\displaystyle (\log_e {x})’ = \frac{1}{x}$を導出することができる。

対数微分法

$y = x^{x}$のような関数の微分を行うにあたって、両辺の対数を取ってから微分を行う「対数微分法」を用いることができることは抑えておくと良い。以下、「対数微分法」を用いて$y = x^{x}$の計算を行う。
$$
\large
\begin{align}
y &= x^{x} \\
\log{y} &= \log{(x^x)} \\
&= x \log{x}
\end{align}
$$

上記の両辺を$x$で微分を行うと下記のように導関数$\displaystyle y’ = \frac{dy}{dx}$の計算を行える。
$$
\large
\begin{align}
\frac{d}{dx}\log{y} &= \frac{d}{dx} (x \log{x}) \\
\frac{y’}{y} &= \log{x} + \cancel{x} \cdot \frac{1}{\cancel{x}} \\
&= \log{x} + 1 \\
y’ &= y(\log{x} + 1) \\
&= x^{x} (\log{x} + 1)
\end{align}
$$

統計検定2級問題解説 ~2016年6月実施~ (問8~問14)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問8 解答

(連続型確率変数,確率変数の分散)

[1]

$\boxed{ \ \mathsf{19}\ }$ ④

中央値を $c$ とすると,$\displaystyle F(c)=\frac12\ (0\le c\le 1)$。よって
$$c^2=\frac12\ \ \Rightarrow\ \ c=\sqrt{\frac12}\fallingdotseq0.707$$

[2]

$\boxed{ \ \mathsf{20}\ }$ ②

確率変数 $X$ の確率密度関数は,分布関数を微分して求める。
$$\begin{eqnarray}f(x)=\begin{cases}2x&:&0\le x\le1\\0&:&other\end{cases}\end{eqnarray}$$よって
$$\begin{align}
E[X]=&\int_0^1xf(x)dx=\int_0^12x^2dx=\left[\frac23x^3\right]_0^1=\frac23\\
E[X^2]=&\int_0^1x^2f(x)dx=\int_0^12x^3dx=\left[\frac12x^4\right]_0^1=\frac12\\
V[X]=&E[X^2]-E[X]^2=\frac12-\left(\frac23\right)^2=\frac1{18}\fallingdotseq0.056\
\end{align}$$


問9 解答

(標本サイズ)

[1]

$\boxed{ \ \mathsf{21}\ }$ ①

母集団から抽出した標本 $X_1,\dots,X_n$ の標本平均 $\bar X$ の平均,分散は$$\begin{align}
E\left[\bar X\right]=&E\left[\frac1n\sum_iX_i\right]=\frac1n\sum_iE\left[X_i\right]=\frac1n\times n\mu=\mu\\
V\left[\bar X\right]=&V\left[\frac1n\sum_iX_i\right]=\frac1{n^2}\sum_iV\left[X_i\right]=\frac1{n^2}\times n\sigma^2=\frac{\sigma^2}{n}
\end{align}$$となる。よって推定量の変動係数は $\displaystyle\frac{\sqrt{\sigma^2/n}}{\mu}$

[2]

$\boxed{ \ \mathsf{22}\ }$ ②

母集団での変動係数が $0.8$ 以下なので,$$\frac{\sigma}{\mu}\le0.8$$推定量の変動係数 $0.05$ 以下に抑えるためには$$\frac{\sqrt{\sigma^2/n}}{\mu}\le0.05\ \ \Rightarrow\ \ \sqrt{n}\ge\frac1{0.05}\frac{\sigma}{\mu}\ge\frac1{0.05}\times0.8=16$$よって,$n\ge16^2=256$。


問10 解答

(二項分布,一致性,不偏性,推定量と推定値)

[1]

$\boxed{ \ \mathsf{23}\ }$ ⑤

無作為に抽出した有権者に質問して市長か新人かの二択で回答する。同じ有権者に質問しないので,抽出は非復元抽出であるが,母集団にあたる投票した全有権者数が十分大きいために,復元抽出とみなすことができる。
復元抽出で2択の一方に回答(ベルヌーイ試行)した有権者数が従う分布は二項分布となる。

[2]

$\boxed{ \ \mathsf{24}\ }$ ②

$x_1,\dots,x_n\ (x_i\in{0,\ 1})$ を無作為標本としたとき,標本平均 $\displaystyle\bar x=\frac1n\sum_ix_i$ は,$n$ が十分大きいとき $\bar x$ は明らかに母集団の平均 $\mu$ に近づくので,一致推定量である。
また,$\displaystyle E\left[\bar x\right]=\frac1n\sum_iE[x_i]=\mu$となるので不偏推定量でもある。

[3]

$\boxed{ \ \mathsf{25}\ }$ ⑤

$X_i$ が二項分布 $N(n,p)$ に従うとすると,平均は $E[X_i]=np$,分散は $V[X_i]=np(1-p)$ となる。
そこで,標本平均の分散は$$V[\bar X]=V\left[\frac1n\sum_iX_i\right]=\frac1{n^2}\sum_iV\left[X_i\right]=\frac{p(1-p)}{n}$$ここで,$p=0.45,\ n=2000$ を代入すると$$V[\bar X]=\frac{0.45\times0.55}{2000}$$


問11 解答

(母平均の区間推定,母平均の検定(母分散未知),母平均の差の検定)

[1]

$\boxed{ \ \mathsf{26}\ }$ ③

母分散の値が未知のとき,母分散 $\sigma^2$ の代わりに不偏分散 $s^2$ を用いた統計量$$t=\frac{\bar x-\mu}{\sqrt{s^2/n}}$$は自由度 $n-1$ の $t$ 分布 $t(n-1)$ に従う。区間推定のためには,上側確率が $\alpha/2$ となる値 $t_{\alpha/2}(n-1)$ を求めると,$$P(|t|\le t_{\alpha/2}(n-1))=1-\alpha$$
となるので,母平均の $100(1-\alpha)\%$ 信頼区間は$$\begin{eqnarray}&\left|\frac{\bar x-\mu}{\sqrt{s^2/n}}\right|\le t_{\alpha/2}(n-1)\\&\therefore\ \bar x-t_{\alpha/2}(n-1)\sqrt{s^2/n}\le\mu\le\bar x+t_{\alpha/2}(n-1)\sqrt{s^2/n}\end{eqnarray}$$これから,母比率の$99\%$信頼区間は,$\bar x=1.01$,$n=6$,$s^2=0.11^2$,$\alpha=0.01$ として $t_{0.005}(5)=4.032$ なので,$$\begin{eqnarray}&1.01-4.032\sqrt{0.11^2/6}\le\mu\le1.01+4.032\sqrt{0.11^2/6}\\&0.83\le\mu\le1.19\end{eqnarray}$$

[2]

$\boxed{ \ \mathsf{27}\ }$ ⑤

帰無仮説 $H_0:\mu=1$,対立仮説 $H_1:\mu\ne1$ の下で統計検定量は$$t=\frac{\bar x-\mu}{\sqrt{s^2/n}}=\frac{1.01-1}{\sqrt{0.11^2/6}}=0.223$$一方,$t$ 分布表から,自由度 $5$ の $t$ 分布の上側 $10\%$ 点は $t_{0.1}(5)=1.476$であり,上の統計検定量よりも大きい。したがって,両側検定なので,$P_-$ 値は $10\%=0.1$ の2倍の $0.2$ よりも大きくなる。

[3]

$\boxed{ \ \mathsf{28}\ }$ ③

2つの母集団 $N(\mu_a,\sigma^2),N(\mu_b,\sigma^2)$からの標本 (データ数 $m,n$,標本平均 $\bar x_a,\bar x_b$,不偏分散 $s^2_a,s^2_b$ があるとき,2つの母集団の平均の差を検定する。
帰無仮説 $H_0:\mu_a=\mu_b$の下で,統計検定量$$t=\frac{\bar x_a-\bar x_b}{\sqrt{\frac1m+\frac1n}}\hat s\ \ \left(\hat s=\frac{(m-1)s^2_a+(n-1)s^2_b}{m-n-2}\right)$$は,自由度 $m-n-2$ の $t$ 分布に従う。


問12 解答

(検出力)

$\boxed{ \ \mathsf{29}\ }$ ④

真実
帰無仮説が正しい対立仮説が正しい
検定の結果帰無仮説を棄却しない
(対立仮説が正しいとは言えない)
正しい第二種の過誤(β)
帰無仮説を棄却する
(対立仮説が正しい)
第一種の過誤(α)
有意水準
正しい
検出力(1-β)

対立仮説が $\mu=630$となるので,検出力はこの対立仮説が正しいときの棄却域の確率を求めればよい。$$\begin{eqnarray}&P\left(\frac{\bar X-600}{10}>2.33\right)=P\left(\frac{\bar X-630+30}{10}>2.33\right)\\&=P\left(\frac{\bar X-630}{10}>2.33-3=-0.67\right)\end{eqnarray}$$
ここで,対立仮説が正しいとき,$\displaystyle\frac{\bar X-630}{10}$ は標準正規分布に従うので,$$P\left(\frac{\bar X-630}{10}>-0.67\right)=1-P\left(\frac{\bar X-630}{10}>0.67\right)=1-0.2514=0.7486$$


問13 解答

(独立性の検定)

独立性の検定は,2つの属性$A,B$が独立かどうかの検定である。
属性$A$のカテゴリが$A_i$,属性$B$のカテゴリが$B_j$の観測度数を$f_{ij}=O_{ij}$とし,
 $f_{i\cdot}=\sum_jf{ij}$を$i$行の度数合計(行和),
 $f_{\cdot j}=\sum_if{ij}$を$j$列の度数合計(列和),
 $f_{\cdot\cdot}=\sum_i\sum_jf_{ij}=\sum_if_{i\cdot}=\sum_jf_{\cdot j}=n$を全度数合計という。

$B_1$$B_2$$\cdots$$B_c$
$A_1$$f_{11}$$f_{12}$$\cdots$$f_{1c}$$f_{1\cdot}$
$A_2$$f_{21}$$f_{22}$$\cdots$$f_{2c}$$f_{2\cdot}$
$\vdots$$\vdots$$\vdots$$\vdots$$\vdots$
$f_{\cdot1}$$f_{\cdot2}$$\cdots$$f_{\cdot\cdot}$

属性$A,B$が独立という帰無仮説は,$H_0:P(A\cap B)=P(A)P(B)$が成り立つことである。
ここで,カテゴリ$A_i,B_j$の出現確率はそれぞれ$f_{i\cdot}/n,f_{\cdot j}/n$であるので,$H_0$のもとで,属性$A$のカテゴリが$A_i$,属性$B$のカテゴリが$B_j$の期待度数は
$$E_{ij}=n(f_{i\cdot}/n)(f_{\cdot j}/n)=f_{i\cdot}f_{\cdot j}/n$$
となる。
帰無仮説$H_0$の下で,次の検定統計量$\chi^2$は度数が大きいときに近似的に$\chi^2$分布に従う。行和と列和が固定されていることから自由度は$(r$(行の数)$-1)\times(c$(列の数)$-1)$となる。
$$\chi^2=\sum_{i=1}^r\sum_{j=1}^c\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\sim\chi^2((r-1)(c-1))$$
有意水準$100\alpha\%$で帰無仮説が棄却されるには,$\chi^2$分布の上側$\alpha$点より上で求めた$\chi^2$統計量が大きくなればよい。

[1]

$\boxed{ \ \mathsf{30}\ }$ ⑤

期待度数は以下の通り。

購入したいと思う購入したいと思わない
男性$\frac{120\times120}{220}\fallingdotseq65.5$$\frac{120\times100}{220}\fallingdotseq54.5$$120$
女性$\frac{100\times120}{220}\fallingdotseq54.5$$\frac{100\times100}{220}\fallingdotseq45.5$$100$
$120$$100$$220$

よって,帰無仮説:「2つの変数は独立である」の下で,検定統計量$\chi^2$は$$\begin{align}\chi^2=&\sum_{i=1}^r\sum_{j=1}^c\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\\=&\frac{(80-65.5)^2}{65.5}+\frac{(40-54.5)^2}{54.5}+\frac{(40-54.5)^2}{54.5}+\frac{(60-45.5)^2}{45.5}\end{align}$$

[2]

$\boxed{ \ \mathsf{31}\ }$ ①

自由度は$(2-1)\times(2-1)=1$


問14 解答

(単回帰モデル,統計ソフトウェアの活用)

※重回帰モデルの統計ソフトウェアによる出力結果の主な項目
$\mathtt{Estimate}$:回帰係数($\alpha,\beta_1,\beta_2$)の推定値
$\mathtt{Std.Error}$:回帰係数の推定値の標準誤差
$\mathtt{t\ value}$:$t$値,$\mathtt{Pr(\gt|t|)}$:$P_-$値・・・回帰係数の検定で使う
$\mathtt{Rasidual\ standard\ error}$:誤差項の標準偏差の推定値
$\mathtt{degrees\ of\ freedom}$:自由度
$\mathtt{Multiple\ R-squared}$:決定係数($R^2$)
$\mathtt{Adjusted\ R-squared}$:自由度調整済み決定係数($R^{*2}$)
$\mathtt{F-statistic}$:$F$検定統計量,$\mathtt{p-value}$:$P_-$値・・・回帰の有意性の検定で使う

[1]

$\boxed{ \ \mathsf{32}\ }$ ④

定数項を含む回帰係数の推定値 $\hat\beta_i$ について,帰無仮説 $\beta_i=0$,対立仮説 $\beta_i\ne0$ のもとで,統計検定量 $t$ 値は$$t=\frac{\hat\beta_i-\beta_i}{\mathrm{se}(\hat\beta_i)}=\frac{\hat\beta_i}{\mathrm{se}(\hat\beta_i)}$$は自由度 $n-p-1$ の $t$ 分布に従う($n$は観測数,$p$は説明変数の数)。
このとき,有意水準$100\alpha\%$で帰無仮説を棄却する棄却域は次の式で与えられる。$$|t|=\left|\frac{\hat\beta_i}{\mathrm{se}(\hat\beta_i)}\right|\ge t_{\alpha/2}(n-p-1)$$一方,$P_-$ 値は統計検定量 $t$ 値が与えられたとき,$P(X>|t|)$となる確率であり,この値が有意水準より小さければ帰無仮説は棄却され,回帰係数の有意性がいえる。

[2]

$\boxed{ \ \mathsf{33}\ }$ ⑤

平均給与は標本平均が $0$ となるように全国平均からの偏差の値を用いているため,新聞購読数の予測をするためには,回帰式に平均給与 $=0$,高齢者数 $=0.5$を代入して求める。

[3]

$\boxed{ \ \mathsf{34}\ }$ ③

① 出力結果の $F$ 値の値は,「平均給与と高齢者数の係数がともに $0$ である」という帰無仮説に関する検定統計量の値である。$P_-$ 値はこの検定量から求められるが,$P_-$ 値が有意水準より小さい場合は,$F$ 値が棄却域に含まれるため,帰無仮説が棄却される。誤り。
② 決定係数はモデルの回帰係数の当てはまり具合を表す指標(回帰による平方和が総平方和に占める割合)であって,予測の精度を表す指標ではない。誤り。
③ 高齢者数の回帰係数が約 $1.0$ であることから,高齢者数が $0.1$ 増加すると新聞購読数は $0.1\times1.0=0.1$ 増加する。正しい。
④ $P_-$ 値から,平均給与の回帰係数は有意水準 $1\%$ でも有意新聞購読数の大小に影響があるといえる。誤り。
⑤ 高齢者数の回帰係数は「回帰係数は0に等しい」という帰無仮説の下で有意水準 $5\%$ で有意であるので,回帰係数の $(100-5)\%$ 信頼区間は $0$ を含まない。誤り。


統計検定2級問題解説 ~2016年6月実施~ (問1~問7)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問1 解答

(箱ひげ図,ヒストグラム,散布図)

[1]

$\boxed{ \ \mathsf{1}\ }$ ②

Ⅰ. 箱ひげ図からは標準偏差は読み取れない。誤り。
Ⅱ. 箱ひげ図から今年の中央値が $8^\circ\mathrm{C}$ 強,昨年の中央値が $6^\circ\mathrm{C}$ 強で,今年の方が約 $2^\circ\mathrm{C}$ 高い。正しい。
Ⅲ. 箱ひげ図から今年の方が昨年よりも範囲が大きい。誤り。

[2]

$\boxed{ \ \mathsf{2}\ }$ ③

箱ひげ図の最大値の値から,最大値の階級は$12\sim14^\circ\mathrm{C}$なので,③か⑤
箱ひげ図の中央値から左右の幅を見ると右に裾が長い分布とみられるので③が正解。

[3]

$\boxed{ \ \mathsf{3}\ }$ ④

Ⅰ. 右上の散布図から日平均気温と日最高気温の間には正の相関がみられる。正しい。
Ⅱ. 左下の散布図から日最低気温の範囲は約 $11^\circ\mathrm{C}$ で, 日最高気温の範囲は約 $19^\circ\mathrm{C}$ となっている。正しい。
Ⅲ. 左上の散布図から日平均気温と日最低気温の間には正の相関がみられる。誤り。


問2 解答

(平均値)

[1]

$\boxed{ \ \mathsf{4}\ }$ ⑤

試験Aで $100$ 点をとっていない生徒の人数は $6$ 人なので,$100$ 点をとった人数は $20-6=14$ 人

[2]

$\boxed{ \ \mathsf{5}\ }$ ③

クラス全員の試験Bの得点の合計は平均値から $79.5\times20=1590$ 点
これから試験Aで $100$ 点を取っていない $6$ 人の生徒の試験Bの得点を差し引いて,残り $14$ 人で平均をとると
$$(1590-20-30-60-70-80-90)/14=1240/14\fallingdotseq88.6$$


問3 解答

(2元クロス表,相関係数)

[1]

$\boxed{ \ \mathsf{6}\ }$ ④

「いいえ」と答えた人の割合は $100$ 人中 $80$ 人,$(0.8)$。属性Bの人数は $60$ 人なので,属性Bで「いいえ」と答えた人数は $60\times0.8=48$ 人

[2]

$\boxed{ \ \mathsf{7}\ }$ ①

属性の平均 $\bar x$,回答の平均 $\bar y$,属性の分散 $\sigma^2_x$,回答の分散 $\sigma^2_y$,属性と回答の共分散を $\sigma^2_{xy}$とすると,相関係数は$$r=\frac{\sigma_{xy}}{\sigma_x\sigma_y}=\frac{\frac1n\sum_i(x_i-\bar x)(y_i-\bar y)}{\sqrt{\frac1n\sum_i(x_i-\bar x)^2}\sqrt{\frac1n\sum_i(y_i-\bar y)^2}}=\frac{\sum_i(x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum_i(x_i-\bar x)^2}\sqrt{\sum_i(y_i-\bar y)^2}}$$

となる。ここで,$$\begin{align}
\bar x=&(0\times50+1\times50)/100=1/2\\
\bar y=&(0\times50+1\times50)/100=1/2\\
\sum_i(x_i-\bar x)^2=&(0-1/2)^2\times50+(1-1/2)^2\times50=25\\
\sum_i(y_i-\bar y)^2=&(0-1/2)^2\times50+(1-1/2)^2\times50=25\\
\sum_i(x_i-\bar x)(y_i-\bar y)=&(0-1/2)\times(0-1/2)\times40+(0-1/2)\times(1-1/2)\times10\\
&+(1-1/2)\times(0-1/2)\times10+(1-1/2)\times(1-1/2)\times40\\
=&15\\
\therefore r_1=&\frac{15}{\sqrt{25}\sqrt{25}}=\frac35=0.6
\end{align}$$

[3]

$\boxed{ \ \mathsf{8}\ }$ ①

属性について$x^*=ax+b$と変数変換を考えると, $$\begin{align}\bar x^*=&\frac1n\sum_{i=1}^nx^*_i=\frac1n\sum_{i=1}^n(ax_i+b)=a\bar x+b\\
\sum_{i=1}^n(x^*_i-\bar x^*)^2=&\sum_{i=1}^n{(ax_i+b)-(a\bar x+b)}^2=a^2\sum_{i=1}^n(x_i-\bar x)^2\\
\sum_{i=1}^n(x^*_i-\bar x^*)(y_i-\bar y)=&\sum_{i=1}^n{(ax_i+b)-(a\bar x+b)}(y_i-\bar y)\\
=&a\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)\\
\therefore r^*=&\frac{\sum_{i=1}^n(x^*_i-\bar x^*)(y_i-\bar y)}{\sqrt{{\sum_{i=1}^n(ax_i+b)-(a\bar x+b)}^2}\sqrt{\sum_{i=1}^n(y_i-\bar y)^2}}\\
=&\frac{a\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sqrt{a^2\sum_{i=1}^n(x_i-\bar x)^2}\sqrt{\sum_{i=1}^n(y_i-\bar y)^2}}
=\frac{a}{|a|}r
\end{align}
$$

$r_2$の属性は$r_1$の場合から$\displaystyle x^*=\frac12x$と変数変換すれば,$\displaystyle r_2=\frac{1/2}{|1/2|}r_1=r_1$
$r_3$の属性は$r_1$の場合から$x^*=-x+1$と変数変換すれば,$\displaystyle r_3=\frac{-1}{|-1|}r_1=-r_1$

【別解】

$r_2$の場合$$\begin{align}
\bar x=&(0\times50+(1/2)\times50)/100=1/4\\
\sum_{i=1}^n(x_i-\bar x)^2=&(0-1/4)^2\times50+(1/2-1/4)^2\times50=25/4\\
\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)=&(0-1/4)\times(0-1/2)\times40+(0-1/4)\times(1-1/2)\times10\\
&+(1/2-1/4)\times(0-1/2)\times10+(1/2-1/4)\times(1-1/2)\times40\\
=&15/2\\
\therefore r_2=&\frac{15/2}{\sqrt{25/4}\sqrt{25}}=\frac35=0.6
\end{align}$$
$r_3$の場合$$\begin{align}
\bar x=&(1\times50+0\times50)/100=1/2\\
\sum_{i=1}^n(x_i-\bar x)^2=&(1-1/2)^2\times50+(0-1/2)^2\times50=25\\
\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)=&(1-1/2)\times(0-1/2)\times40+(1-1/2)\times(1-1/2)\times10\\
&+(0-1/2)\times(0-1/2)\times10+(0-1/2)\times(1-1/2)\times40\\
=&-15\\
\therefore r_3=&\frac{-15}{\sqrt{25}\sqrt{25}}=-\frac35=-0.6
\end{align}$$よって,$r_1=r_2=-r_3$


問4 解答

(成長率,指数化)

[1]

$\boxed{ \ \mathsf{9}\ }$ ②

当年の物価指数=前年の物価指数×物価上昇率なので,
$$103.2\times(1+1.0\%)\times(1+1.8\%)=103.2\times1.010\times1.018=106.1$$

[2]

$\boxed{ \ \mathsf{10}\ }$ ③

Ⅰ.月次消費者物価指数を平均したものが年平均の消費者物価指数になるので,前年と年平均の消費者物価指数が同じだからと言って,月次消費者物価指数がすべて同じ値であるとは言えない。誤り。
Ⅱ.指数の値が前年より減少している年があるので,上昇を続けているとは言えない。誤り。
Ⅲ.各年の物価上昇率は前年と当年の物価の比率なので,指数の基準年を変更したとしても,物価上昇率は変化しない。正しい。


問5 解答

(単回帰モデル)

[1]

$\boxed{ \ \mathsf{11}\ }$ ①

原系列は全体的に増加傾向にあるので,階差系列は正の値が多くなるので,①か④。
一方,2009年付近で大きく値が落ち込んでいるので,この時期の階差系列は大きく負の値となるので,①が正解。

[2]

$\boxed{ \ \mathsf{12}\ }$ ①

$t$ 値=回帰係数÷標準誤差なので,
$21.86=0.937/$(ア) $\Rightarrow$ (ア)$=0.937/21.86=0.0429$

[3]

$\boxed{ \ \mathsf{13}\ }$ ④

2015年7-9月期なので,この単回帰モデル式に $t=87$ を代入して予測する
$$0.937\times87+452.011=533.530$$


問6 解答

(標本抽出法)

[1]

$\boxed{ \ \mathsf{14}\ }$ ②

① 全数調査の方が標本調査よりも調査するサンプル数が多いので費用がかかる場合が多い。正しい。
② 無作為抽出に伴う誤差は標準誤差として評価することができる。誤り。
③ 無作為抽出の標本誤差の値は調査員の品質に関連しない。正しい。
④ 標本調査の方が調査対象が少ないので速く調査を終えることができる。正しい。
⑤ どの調査を行うにしても,事前に母集団の状態を正確に把握できる方が望ましい。正しい。

[2]

$\boxed{ \ \mathsf{15}\ }$ ④

① 二段抽出法
母集団をいくつかのグループ(第1段抽出)に分け,そこから無作為抽出でいくつかグループを選び,さらにその中から標本を無作為に抽出(第2段抽出)する。
② 二相抽出法(標本層別抽出法)
母集団からまず多数の標本を抽出しておき、この標本について層別に必要な事項を調査して、その予備統計処理の結果に基づいて層別した上で標本抽出を行う。
③ 単純無作為抽出法
全部で$N$個の個体からなる母集団から$n$個の標本を得るとき,各個体が選択される確率は等しく$N/n$,どの個体の組も選択される確率が等しく${}_NC_n$となるように標本を抽出する。
④ 集落(クラスター)抽出法
母集団を小集団であるクラスター(集落)に分け,その中からいくつかのクラスターを無作為に抽出し,それぞれのクラスターにおいて全数調査を行う。
⑤ 層別抽出法
母集団をあらかじめいくつかの層(グループ)に分けておき、各層の中から必要な数の調査対象を無作為に抽出する方法
 (通常,層の大きさに比例させて調査対象を抽出する大きさを決める。(比例配分法))


問7 解答

(条件付き確率)

[1]

$\boxed{ \ \mathsf{16}\ }$ ⑤

Aが勝つ確率は $\displaystyle\frac12$,Cが勝つ確率は $\displaystyle\frac12$,Aが負けた後に優勝する確率は $r$ なので,求める確率は$$\frac12\times\frac12\times r=\frac14r$$

[2]

$\boxed{ \ \mathsf{17}\ }$ ③

最初からAが2連勝する場合の確率は,$$\frac12\times\frac12=\frac14$$最初Bに負け,その後Aが優勝する場合の確率は,$$\frac12\times r=\frac12r$$よって,Aが優勝する確率は,$$P_A=\frac14r+\frac14+\frac12r=\frac14+\frac34r$$

[3]

$\boxed{ \ \mathsf{18}\ }$ ②

最初にAとBが戦うので,Bが優勝する確率 $P_B$ はAが優勝する確率 $P_A$ と等しい。
Cが優勝するのは「Cが2連勝する」場合と「CがAorBに勝った後にCが負け,その後Cが優勝する」場合の2つがある。それぞれの確率は,$\displaystyle\frac12\times\frac12=\frac14$,$\displaystyle\frac12\times\frac12\times r=\frac14r$であるので,Cが優勝する確率は
$$P_C=\frac14+\frac14r<P_A$$


統計検定2級問題解説 ~2016年11月実施~ (問9~問16)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問9 解答

(ポアソン分布,正規近似)

[1]

$\boxed{ \ \mathsf{16}\ }$ ①

ポアソン分布の分散は平均(期待値)に等しい。

[2]

$\boxed{ \ \mathsf{17}\ }$ ⑤

平均$\lambda$が20以上のポアソン分布は正規分布で近似できるので
$X\sim Po(\lambda)\approx N(\lambda,\lambda)$
よって,確率変数$Z=\displaystyle\frac{X-\lambda}{\sqrt{\lambda}}$は標準正規分布に従う。
$\lambda=50$なので
$$P(X>60)=P\left(Z>\frac{60-50}{\sqrt{50}}\right)\fallingdotseq P(Z>1.41)=0.0793$$

※)正規近似でより正確な値を求めるためには,確率変数が$X=x$となる場合$x\pm0.5$の範囲の確率で近似することが適当である。上の場合$P(X>60)$のかわりに$P(X>60+0.5)$で求める方がより正確となる。(連続修正)
$$P(X>60.5)=P\left(Z>\frac{60.5-50}{\sqrt{50}}\right)\fallingdotseq P(Z>1.48)=0.0694$$

[3]

$\boxed{ \ \mathsf{18}\ }$ ③

$30$人の事前登録者に追加参加を足したら記念品個数$x$を超す確率が$0.05$なので,
$$P(X+30>x)=0.05\ \Rightarrow\ P(X>x-30)=0.05$$
[2]同様,確率変数$Z=\displaystyle\frac{X-\lambda}{\sqrt{\lambda}}$は標準正規分布に従う。$\lambda=20$なので
$$P\left(Z>\frac{x-30-20}{\sqrt{20}}\right)=0.05$$
標準正規分布表から
$$\frac{x-30-20}{\sqrt{20}}=1.645\ \Rightarrow\ x\fallingdotseq57$$

※)前問同様,連続修正を用いた場合
$$\begin{eqnarray}
&P(X+30>x+0.5)=0.05\ \Rightarrow\ P(X>x-29.5)=0.05\\
&P\left(Z>\frac{x-29.5-20}{\sqrt{20}}\right)=0.05\\
&\frac{x-29.5-20}{\sqrt{20}}=1.645\ \Rightarrow\ x\fallingdotseq57
\end{eqnarray}$$

ポアソン分布について

ポアソン分布は,二項分布$B(n,p)$において期待値$np=\lambda$を固定し,試行回数と成功確率について$n\rightarrow\infty,\ p\rightarrow0$のような極限を取った時に得られる確率分布として定義される。(『まれに起きる現象』に対する確率モデルともいわれる。)
・確率変数$X$はパラメータ$\lambda$のポアソン分布に従うとする。$X$の確率関数は,
$$p(x)=P(X=x)=\frac{\lambda^x}{x!}e^{-\lambda}\ \ \ (x=0,1,2,\dots)$$

(証明)
ポアソン分布の定義から,試行回数$n$,成功確率$p$の二項分布$B(n,p)$(確率関数:$f(x)={}_nC_xp^x(1-p)^{n-x}$)で$\lambda=np$とおき,$n\rightarrow\infty(p\rightarrow0)$とした極限の分布であるから,$\lambda=np\Rightarrow p=\lambda/n$を用いて二項分布の確率関数を変形すると,
$$\begin{align}
f(x)&={}_nC_xp^x(1-p)^{n-x}=\frac{n(n-1)\cdots(n-x+1)}{x!}\left(\frac\lambda n\right)^x\left(1-\frac\lambda n\right)^{n-x}\\ &=\frac{\lambda^x}{x!}\frac{n(n-1)\cdots(n-x+1)}{n^x}\left(1-\frac\lambda n\right)^{n-x}
\end{align}$$
ここで,
$$\begin{align}
\frac{n(n-1)\cdots(n-x+1)}{n^x}&=\frac{n}{n}\frac{n-1}{n}\cdots\frac{n-x+1}{n}\\
&=1\times\left(1-\frac1n\right)\times\cdots\times\left(1-\frac{x-1}n\right)
\end{align}$$
$n\rightarrow\infty$のとき,$\begin{align}1-\frac1n\rightarrow0,\cdots,1-\frac{x-1}n\rightarrow0\end{align}$となるので,上式は$1$となる。また,ネイピア数の性質から,
$$\lim_{n\rightarrow\infty}\left(1+\frac{x}{n}\right)^n=e^x$$
なので,$n\rightarrow\infty$のとき,
$$\left(1-\frac\lambda n\right)^{n-x}=\left(1+\frac{-\lambda}n\right)^{n}\left(1-\frac\lambda n\right)^{-x}=e^{-\lambda}\times(1-0)^{-x}=e^{-\lambda}$$
以上から,$n\rightarrow\infty$のとき,
$$f(x)=\frac{\lambda^x}{x!}e^{-\lambda}$$
である。

・ポアソン分布の期待値は$\lambda$,分散も$\lambda$である。

(証明)
$$\begin{align}
E[X]=&\sum_{x=0}^\infty x\frac{\lambda^x}{x!}e^{-\lambda}=e^{-\lambda}\sum_{x=1}^\infty\frac{\lambda\times\lambda^{x-1}}{(x-1)!}=e^{-\lambda}\lambda\sum_{k=0}^\infty\frac{\lambda^k}{k!}\\
=&e^{-\lambda}\lambda e^{\lambda}=\lambda\\
E[X(X-1)]=&\sum_{x=0}^\infty x(x-1)\frac{\lambda^x}{x!}e^{-\lambda}=e^{-\lambda}\sum_{x=2}^\infty\frac{\lambda^2\times\lambda^{x-2}}{(x-2)!}=e^{-\lambda}\lambda^2\sum_{k=0}^\infty\frac{\lambda^k}{k!}\\
=&e^{-\lambda}\lambda^2 e^{\lambda}=\lambda^2\\
\therefore\ V[X]=&E[X(X-1)]+E[X]-E[X]^2=\lambda^2+\lambda-\lambda^2=\lambda
\end{align}$$

(少し難しい証明)
ポアソン分布のモーメント母関数(積率母関数)は
$$\begin{align}
M_X(t)=&E[e^{tx}]=\sum_{x=0}^\infty e^{tx}\frac{\lambda^x}{x!}e^{-\lambda}=e^{-\lambda}\sum_{x=0}^\infty \frac{(e^t\lambda)^x}{x!}\\
=&e^{-\lambda}\times\mathrm{exp}(e^t\lambda)=\mathrm{exp}[\lambda(e^t-1)]
\end{align}$$
これを用いて,$E[X],V[X]$を求める。
$$\begin{align}
M_X'(t)&=\frac{d}{dt}M_X(t)=\frac{d}{dt}\mathrm{exp}[\lambda(e^t-1)]=\lambda e^t\mathrm{exp}[\lambda(e^t-1)]\\
M_X”(t)&=\frac{d}{dt}M_X'(t)=\frac{d}{dt}\lambda e^t\mathrm{exp}[\lambda(e^t-1)]=\lambda e^t(1+\lambda e^t)\mathrm{exp}[\lambda(e^t-1)]\\
\therefore\ E[X]&=M_X'(0)=\lambda e^0\mathrm{exp}[\lambda(e^0-1)]=\lambda\\
E[X^2]&=M_X”(0)=\lambda e^0(1+\lambda e^0)\mathrm{exp}[\lambda(e^0-1)]=\lambda(1+\lambda)\\
\therefore\ V[X]&=E[X^2]-E[X]^2=\lambda(1+\lambda)-\lambda^2=\lambda
\end{align}$$


問10 解答

(連続型確率変数,確率密度関数)

[1]

$\boxed{ \ \mathsf{19}\ }$ ①

$$\begin{align}
E[X]=&\int_{-1}^0x(x+1)dx+\int_0^1x(-x+1)dx\\
=&\left[\frac13x^3+\frac12x^2\right]_{-1}^0+\left[-\frac13x^3+\frac12x^2\right]_0^1\\
=&\frac13-\frac12-\frac13+\frac12=0\\
V[X]=&E[X^2]-E[X]^2\\
=&\int{-1}^0x^2(x+1)dx+\int_0^1x^2(-x+1)dx\\
=&\left[\frac14x^4+\frac13x^3\right]_{-1}^0+\left[-\frac14x^4+\frac13x^3\right]_0^1\\
=&-\frac14+\frac13-\frac14+\frac13=\frac16\\
\end{align}$$

[2]

$\boxed{ \ \mathsf{20}\ }$ ③

確率密度関数のグラフは以下のとおり

グラフから確率変数$X$の中央値は$0\ \ \left(\displaystyle P(X\le0)=\int_{-1}^0f(x)dx=\frac12\right)$
なので,第1四分位数は$-1\ge X<0$の間にある。
$$\begin{align}
P(X\le a)=\int_{-1}^a(x+1)dx=&\frac14\\
\left[\frac12x^2+x\right]_{-1}^a=&\frac14\\
\frac12a^2+a+\frac12=&\frac14\\
2(a^2+2a+1)-1=&0\\
(a+1)^2=&\frac12\\
a+1=&\pm\sqrt{\frac12}\\
a=&-1\pm\frac{\sqrt{2}}2\\
\end{align}$$
このうち,$-1\ge a<0$を満たすのは $\displaystyle a=-1+\frac{\sqrt{2}}2$


問11 解答

(標本平均の期待値・分散,不偏性)

[1]

$\boxed{ \ \mathsf{21}\ }$ ③

$$E[X_1^2]=V[X_1]+E[X_1]^2=\sigma^2+\mu^2$$

[2]

$\boxed{ \ \mathsf{22}\ }$ ②

$$\begin{align}
\sum_{i=1}^n(X_i-\bar X)^2=&\sum_{i=1}^n{(X_i-\mu)-(\bar X-\mu)}^2\\
=&\sum_{i=1}^n{(X_i-\mu)^2-2(X_i-\mu)(\bar X-\mu)+(\bar X-\mu)^2}\\
=&\sum_{i=1}^n(X_i-\mu)^2-2\sum_{i=1}^n(X_i-\mu)(\bar X-\mu)+\sum_{i=1}^n(\bar X-\mu)^2\\
=&\sum_{i=1}^n(X_i-\mu)^2-2n(\bar X-\mu)^2+n(\bar X-\mu)^2\\
=&\sum_{i=1}^n(X_i-\mu)^2-n(\bar X-\mu)^2\\
E\left[\sum_{i=1}^n(X_i-\bar X)^2\right]=&E\left[\sum_{i=1}^n(X_i-\mu)^2-n(\bar X-\mu)^2\right]\\
=&\sum_{i=1}^nE\left[(X_i-\mu)^2\right]-nE\left[(\bar X-\mu)^2\right]\\
=&\sum_{i=1}^nV\left[X_i\right]-nV\left[\bar X\right]\\
=&n\sigma^2-nV\left[\frac1n\sum_{i=1}^nX_i\right]\\
=&n\sigma^2-n\left(\frac1n\right)^2\sum_{i=1}^nV\left[X_i\right]\\
=&n\sigma^2-n\left(\frac1n\right)^2n\sigma^2=(n-1)\sigma^2\\
\therefore \ E\left[\frac1{n-1}\sum_{i=1}^n(X_i-\bar X)^2\right]=&\frac1{n-1}E\left[\sum_{i=1}^n(X_i-\bar X)^2\right]=\sigma^2
\end{align}$$
よって,$\displaystyle\frac1{n-1}\sum_{i=1}^n(X_i-\bar X)^2$は$\sigma^2$の不偏推定量である。また,
$$\begin{align}
\sum_{i=1}^n(X_i-\bar X)^2=&\sum_{i=1}^n(X_i^2-2X_i\bar X+\bar X^2)\\
=&\sum_{i=1}^nX_i^2-2\sum_{i=1}^nX_i\bar X+\sum_{i=1}^n\bar X^2\\
=&\sum_{i=1}^nX_i^2-n\bar X^2\\
E\left[\sum_{i=1}^n(X_i-\bar X)^2\right]=&E\left[\sum_{i=1}^nX_i^2-n\bar X^2\right]\\
=&\sum_{i=1}^nE\left[X_i^2\right]-nE\left[\bar X^2\right]\\
\therefore \ E\left[\bar X^2-\frac{\hat\sigma^2}n\right]=&E\left[\bar X^2\right]-\frac1nE\left[\hat\sigma^2\right]\\
=&\frac1n\left(\sum_{i=1}^nE\left[X_i^2\right]-E\left[\sum_{i=1}^n(X_i-\bar X)^2\right]\right)-\frac1nE\left[\hat\sigma^2\right]\\
=&\frac1n\left\{n\left(\sigma^2+\mu^2\right)-(n-1)\sigma^2\right\}-\frac1n\sigma^2\\
=&\sigma^2+\mu^2-\frac{n-1}n\sigma^2-\frac1n\sigma^2\\
=&\mu^2
\end{align}$$
よって,$\displaystyle\bar X^2-\frac{\hat\sigma^2}n$は$\mu^2$の不偏推定量である。


問12 解答

(母比率の検定)

[1]

$\boxed{ \ \mathsf{23}\ }$ ④

確率変数$X_i$は独立に成功確率$p$のベルヌーイ分布に従う。
この試行を$n$回繰り返した時の成功回数$\sum X_i$は二項分布$B(n,p)$に従う。したがって,$\sum X_i$の分散は$np(1-p)$である。
$$\begin{align}
V\left[\hat p\right]=&V\left[\frac1n\sum_{i=1}^nX_i\right]\\
=&\left(\frac1n\right)^2V\left[\sum_{i=1}^nX_i\right]\\
=&\frac1{n^2}np(1-p)\\
=&\frac1np(1-p)\\
=&\frac1n\left(-p^2+2\times\frac12p-\frac14+\frac14\right)\\
=&\frac1n\left\{-\left(p-\frac12\right)^2+\frac14\right\}
\end{align}$$
よって,$V\left[\hat p\right]$の最大値は$\displaystyle p=\frac12$のとき$\displaystyle\frac1{4n}$となる。

[2]

$\boxed{ \ \mathsf{24}\ }$ ⑤

帰無仮説 $H_0:p=p_0$,対立仮説 $H_1:p\ne p_0$なので,両側検定となる。
$Z$は標準正規分布で近似できるので,$$|Z|>z_{0.05/2}=1.96$$が棄却域となる。
検定統計量が棄却域にあるとき帰無仮説を棄却する。


問13 解答

(独立性の検定)

独立性の検定は,2つの属性$A,B$が独立かどうかの検定である。
属性$A$のカテゴリが$A_i$,属性$B$のカテゴリが$B_j$の観測度数を$f_{ij}=O_{ij}$とし,
 $f_{i\cdot}=\sum_jf{ij}$を$i$行の度数合計(行和),
 $f_{\cdot j}=\sum_if{ij}$を$j$列の度数合計(列和),
 $f_{\cdot\cdot}=\sum_i\sum_jf_{ij}=\sum_if_{i\cdot}=\sum_jf_{\cdot j}=n$を全度数合計という。
属性$A,B$が独立という帰無仮説は,$H_0:P(A\cap B)=P(A)P(B)$が成り立つことである。
ここで,カテゴリ$A_i,B_j$の出現確率はそれぞれ$f_{i\cdot}/n,f_{\cdot j}/n$であるので,$H_0$のもとで,属性$A$のカテゴリが$A_i$,属性$B$のカテゴリが$B_j$の期待度数は
$$E_{ij}=n(f_{i\cdot}/n)(f_{\cdot j}/n)=f_{i\cdot}f_{\cdot j}/n$$
となる。
帰無仮説$H_0$の下で,次検定の統計量$\chi^2$は度数が大きいときに近似的に$\chi^2$分布に従う。行和と列和が固定されていることから自由度は$(r$(行の数)$-1)\times(c$(列の数)$-1)$となる。
$$\chi^2=\sum_{i=1}^r\sum_{j=1}^c\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\sim\chi^2((r-1)(c-1))$$
有意水準$100\alpha\%$で帰無仮説が棄却されるには,$\chi^2$分布の上側$\alpha$点より上で求めた$\chi^2$統計量が大きくなればよい。

[1]

$\boxed{ \ \mathsf{25}\ }$ ④

夏季と冬季の分布の同等性は,両者が独立であるかを検定すればよい。
夏季と冬季の各階級の死者数についてクロス集計表を作成すると以下のとおりである。

$60\sim100$$100\sim120$$120\sim140$$140\sim160$$160\sim200$
夏季$18$$42$$24$$11$$1$$96$
冬季$13$$25$$23$$19$$16$$96$
合計$31$$67$$47$$30$$17$$192$

夏季の「100人以上120人未満」の階級の期待度数は
$$\frac{67\times96}{192}=33.5$$

[2]

$\boxed{ \ \mathsf{26}\ }$ ②

自由度は$(5-1)\times(2-1)=4$

[3]

$\boxed{ \ \mathsf{27}\ }$ ①

自由度が$4$のカイ二乗分布の上側$5\%$点の値は$9.49$で,統計検定量はこれより大きいので,帰無仮説は棄却され,両者は独立でない,すなわち,2つの分布は同等でない。(分布は季節に関係している。)


問14 解答

(2つの母平均の差の検定(対応のある場合))

$\boxed{ \ \mathsf{28}\ }$ ②

対応のある2つの標本に関して,対をなす値から求められる1つの値(例えば差)を用いることで,1標本の検定の問題に帰着される。この問題では対応する2つの値の差を用いて,2標本の母平均の差について検定を行う。
各月の増分は独立に同一の正規分布に従うので,増分が$0$等しいという仮定の下で,サンプル数を$n$,標本平均を$\bar X$,不偏標準偏差を$s$とすると,統計量
$$t=\frac{\bar X-0}{s/\sqrt{n}}$$は自由度$n-1$の$t$分布にしたがう。(母分散の値が未知の時の母平均の検定と同じ考え)
問題は$n=12$(データは12対),$\bar X=-13.1$,$s=19.9$なので,
$$t=\frac{-13.1}{19.9/\sqrt{12}}\fallingdotseq-2.28$$となり,自由度は$n-1=11$である。

【補足】有意水準$5\%$で両側検定を行うと
$$t_{0.025}(11)=2.201\ \rightarrow\ t=-2.28<-t_{0.025}(11) $$となり,帰無仮説は棄却され,2標本の母平均に差がみられる。
また,有意水準$1\%$で両側検定を行うと
$$t_{0.005}(11)=3.106\ \rightarrow\ t=-2.28>-t_{0.005}(11)$$となり,帰無仮説は棄却されない。


問15 解答

(標本平均,分散。中心極限定理,仮説検定の理論)

[1]

$\boxed{ \ \mathsf{29}\ }$ ④

(ア) 確率変数$X_1,\dots,X_n$が独立で同一の正規分布$N(0,\sigma^2)$に従うとき,標本平均は
$$\bar X=\frac1n\sum_{t=1}^nX_t\sim N\left(0,\frac{\sigma^2}n\right)$$となる。したがって,求める分散は$\displaystyle\frac{\sigma^2}{21}$となる。

[2]

$\boxed{ \ \mathsf{30}\ }$ ①

(イ) 検定統計量$\displaystyle Z=\frac{\bar X}{\sigma/\sqrt{21}}$は帰無仮説の下で標準正規分布に従うので,有意水準$5\%$の両側検定では標準正規分布の上側$2.5\%$点を用いて,$$|Z|>z_{0.025}=1.96$$が棄却域となる。
(ウ) 母分散$\sigma^2$が未知のとき,検定統計量$\displaystyle T=\frac{\bar X}{\hat\sigma/\sqrt{21}}$は帰無仮説の下で自由度$21-1=20$の$t$分布に従うので,有意水準$5\%$の両側検定では自由度$20$の$t$分布の上側$2.5\%$点を用いて,$$|T|>t_{0.025}(20)=2.086$$が棄却域となる。
(エ) $X_t$が正規分布に従わない場合,中心極限定理に基づいた正規近似を用いるため,検定統計量$T$の分布は標準正規分布で近似される。したがって,有意水準$5\%$の両側検定では標準正規分布の上側$2.5\%$点を用いて,$$|T|>z_{0.025}=1.96$$が棄却域となる。

[3]

$\boxed{ \ \mathsf{31}\ }$ ①

(オ) $P(Z>0.63)=0.2643$なので,両側検定の場合$P_-$値は$2\times0.2643=0.5286$。
(カ) ここで,$P_-$値は$5\%$より大きいので,帰無仮説は棄却されない。


問16 解答

(単回帰モデル,統計ソフトウェアの活用)

※重回帰モデルの統計ソフトウェアによる出力結果の主な項目
$\mathtt{Estimate}$:回帰係数($\alpha,\beta_1,\beta_2,\beta_3$)の推定値
$\mathtt{Std.Error}$:回帰係数の推定値の標準誤差
$\mathtt{t\ value}$:$t$値,$\mathtt{Pr(\gt|t|)}$:$P_-$値・・・回帰係数の検定で使う
$\mathtt{Rasidual\ standard\ error}$:誤差項の標準偏差の推定値
$\mathtt{degrees\ of\ freedom}$:自由度
$\mathtt{Multiple\ R-squared}$:決定係数($R^2$)
$\mathtt{Adjusted\ R-squared}$:自由度調整済み決定係数($R^{*2}$)
$\mathtt{F-statistic}$:$F$検定統計量,$\mathtt{p-value}$:$P_-$値・・・回帰の有意性の検定で使う

[1]

$\boxed{ \ \mathsf{33}\ }$ ④

① この回帰モデルの自由度は,標本の大きさ$197$から推定する回帰係数の数$2$を引いた値の$195$である。誤り。
② 決定係数はこのモデルの当てはまりの尺度であり,予測の的中率を表すものではない。誤り。
③ 単回帰モデルでは,被説明変数を説明変数に回帰した場合の説明変数の回帰係数の推定値は,
  説明変数と被説明変数の標本共分散/説明変数の標本分散
である。したがって,説明変数と被説明変数を入れ替えたときに,一方の推定値がもう一方の推定値の逆数となるためには,それぞれの変数の標本分散が等しいときである。今回のケースでは,散布図から2つの変数の標本分散が異なることは明らかである。誤り。
④ 回帰モデルで推定された残差の総和は$0$であるので,残差の平均も$0$であり,中央値よりも大きくなる。正しい。
⑤ 「$\mathtt{F-statistic}$」はモデルの中に説明力のある(回帰係数$\ne0$)変数(定数項を除く)が含まれているかを判断する$F$検定の統計量である。誤り。

[2]

$\boxed{ \ \mathsf{34}\ }$ ①

 Creの観測値の最小値に対応する残差は,散布図の観測値の点と回帰直線の間隔から20よりやや小さい値となっている。これを選択肢の図についてみると,あてはまるのは①の図である。Creの観測値の上位10位の点についてみても,すべて残差は$\pm10$以内であるが,これについてもあてはまるのは①の図である
(なお,③の図は残差の正負が逆になっている図で,④の図では残差の平均が明らかに$0$,②は残差のばらつきが大きくなっている。)

[3]

$\boxed{ \ \mathsf{35}\ }$ ②

回帰係数の区間推定は$n=197$と大きいので,正規近似を用いて区間推定を行う。このとき,$\displaystyle\frac{\hat\beta-\beta}{se(\hat\beta)}$は標準正規分布に従う。統計ソフトウェアの結果から,回帰係数の推定値は$\hat\beta=-60.263$,標準誤差は$se(\hat\beta)=4.414$なので,$90\%$信頼区間の場合
$$\begin{align}&P\left(z_{-0.05}\le\frac{-60.263-\beta}{4.414}\le z_{0.05}\right)\ge0.90\\&\ \Rightarrow\ \ P\left(|-60.263-\beta|\le1.645\times4.414\right)\ge0.90\\
&\therefore\ \ \beta=-60.263\pm1.645\times4.414=[67.524, 53.002]\end{align}$$仮に$t$分布を用いた場合,$z_{0.05}$の代わりに自由度$197-2=195$の$t$分布の上側$5\%$値$t_{0.05}(195)$を使う。この値は$1.652$となり,$$\beta=-60.263\pm1.652\times4.414=[67.555, 52.971]$$となる。


統計検定2級問題解説 ~2016年11月実施~ (問1~問8)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問1 解答

(幹葉図)

[1]

$\boxed{ \ \mathsf{1}\ }$ ③

すべて,幹葉図から,

① 期末試験の最高得点は$90$点である。誤り。
② 期末試験の最低得点は$40$点である。誤り。
③ 期末試験の得点が$60$点未満の学生は$7$名である。正しい。
④ 期末試験の得点が上から$5$番目の学生の成績は$78$点である。誤り。
⑤ 期末試験の得点の最頻値(モード)は$58$点($5$名)である。誤り。

[2]

$\boxed{ \ \mathsf{2}\ }$ ⑤

学生数が$25$名なので,中央値は下から(上から)$13$番目の得点である$68$点である。


問2 解答

(度数分布表・ヒストグラム)

まず,度数分布表の(ア)~(カ)を求める。
$50+$(ア)$+$(イ)$+134+173+110+20=730$
$\ \rightarrow\ $(ア)$+$(イ)$=730-50-134-173-110-20=243$
(ア)と(イ)のいずれかが$144$なので,もう一方は$243-144=99$
(カ)$+35=112\ \rightarrow\ $(カ)$=112-35=77$
$50+$(オ)$+$(カ)$+35=302\ \rightarrow\ $(オ)$=302-50-35-77=140$
これにより,(ア)$=$(ウ)$+$(オ)$=$(ウ)$+140$,(イ)$=$(エ)$+$(カ)$=$(エ)$+77$なので
(ア)$=144$,(イ)$=99$
よって,(ウ)$=$(ア)$-$(オ)$=144-140=4$,(エ)$=$(イ)$-$(カ)$=99-77=22$

階級度数(期間全体)度数(夏季)度数(冬季)
0℃を超えて 5℃以下50050
5℃を超えて10℃以下1444140
10℃を超えて15℃以下992277
15℃を超えて20℃以下1349935
20℃を超えて25℃以下1731730
25℃を超えて30℃以下1101100
30℃を超えて35℃以下20200

[1]

$\boxed{ \ \mathsf{3}\ }$ ①

期間全体の最大頻度は「20℃を超えて25℃以下」(下から5番目の階級)の$173$,「5℃を超えて10℃以下」(下から2番目の階級)の$144$となるので,ヒストグラムは①

[2]

$\boxed{ \ \mathsf{4}\ }$ ③

① [1]のヒストグラムから峰が2つある形状をしている。正しい。
② 度数分布表から$50+144=194$日以上$194+99=293$以下である。正しい。
③ 度数分布表から$(99+134+173)/730=0.56$。誤り。
④ 度数の一番高い階級の代表値は$(20+25)/2=22.5$℃である。正しい。
⑤ 度数が最大の階級と2番目に大きい階級を足した度数は全体の$(173+144)/730=0.43$。正しい。


問3 解答

(ヒストグラム,分布の形状)

ヒストグラムから度数分布表を作る。

階級相対度数(%)累積相対度数(%)
~100万円未満6.76.7
100万円以上~200万円未満13.920.6
200万円以上~300万円未満14.334.9
300万円以上~400万円未満13.448.3
400万円以上~500万円未満10.158.4
500万円以上~600万円未満8.466.8
600万円以上~700万円未満6.973.7
700万円以上~800万円未満6.480.1
800万円以上~900万円未満5.085.1
900万円以上~1000万円未満3.888.9
1000万円以上~1100万円未満2.891.7
1100万円以上~1200万円未満2.293.9
1200万円以上~1500万円未満3.297.1
1500万円以上~2000万円未満1.798.8
2000万円以上~1.2100.0

[1]

$\boxed{ \ \mathsf{5}\ }$ ②

右に裾の長い分布では最頻値<中央値<平均という関係が成り立つ。
累積相対度数が$50\%$となる階級は「400万円以上~500万円未満」なので,(ア)は中央値。
となると,(イ)は平均。
※左に裾の長い分布では,平均<中央値<最頻値

[2]

$\boxed{ \ \mathsf{6}\ }$ ④

Ⅰ.累積度数を見ると,第1四分位数(累積度数25%)が含まれる階級は「200万円以上~300万円未満」。誤り。
Ⅱ.第3四分位数(累積度数75%)が含まれる階級は「700万円以上~800万円未満」。よって四分位範囲は$700-300=400$万円以上$800-200=600$万円以上となる。正しい。
Ⅲ.その通り。正しい。


問4 解答

(散布図,相関係数)

[1]

$\boxed{ \ \mathsf{7}\ }$ ⑤

プロットされたデータが左下から右上に分布し、直線状に分布しているので、散布図は正の相関が強くみられる。

[2]

$\boxed{ \ \mathsf{8}\ }$ ④

すべて,散布図から
Ⅰ.得点が一番大きいチームは失点が一番小さい。正しい。
Ⅱ.得点と勝点は強い正の相関,失点と勝点は強い負の相関がみられ,得点と失点は負の相関がみられるが強さは他の2つよりも小さくみられる。正しい。
Ⅲ.得点の範囲はおよそ$20\sim80$の間,失点の範囲はおよそ$30\sim70$の間である。誤り。


問5 解答

(標本抽出法)

[1]

$\boxed{ \ \mathsf{9}\ }$ ⑤

Ⅰ.特定の場所で調査票を行うと,そこの場所に行かない人の回答が収集できない。誤り。
Ⅱ.回答を特定の方向に誘導する質問になりうるので,公平な評価が得られない。誤り。
Ⅲ.難しく厳密な用語は調査対象者に伝わらず,無回答や誤解を与える可能性が高い。誤り。
(上記3つとも調査でやってはいけないことあるある)

[2]

$\boxed{ \ \mathsf{10}\ }$ ②

① 各層内を母集団の構成に合わせる必要はない。誤り。
② 各層を散らばりが小さい同質な構成にして,そこから標本を抽出することにより調査精度を上げることができる。正しい。
③ 各層の構成が等質なグループになっていない。誤り。
④⑤ 各層のサイズの大小は等質性とは直接的に関係がない。誤り。


問6 解答

(フィッシャーの三原則)

$\boxed{ \ \mathsf{11}\ }$ ③

フィッシャーの3原則:無作為化,繰り返し,局所管理
無作為化(ランダム化):対象の抽出,処理の順番など,均一にできない条件については無作為に割り付ける。
繰り返し:ばらつきや個体差の影響を見積もるために実験を繰り返しを行う。
局所管理:処理効果以外のばらつきを小さくするため,条件が均一になるようブロック化する。


問7 解答

(ベイズの定理)

[1]

$\boxed{ \ \mathsf{12}\ }$ ②

無作為に選んだ人に$40\%$の確率でA型かと聞いてあたる確率は$40\%\times0.4=0.16$
同様にO型は$30\%\times0.3=0.09$,B型は$20\%\times0.2=0.04$,AB型は$10\%\times0.1=0.01$
これらは排反なので,求める確率は
$$0.16+0.09+0.04+0.01=0.30=30\%$$

[2]

$\boxed{ \ \mathsf{13}\ }$ ③

Eさんがある人をA型であるという事象を$E$,血液型がA型である事象を$A$とする。
$$P(A)=0.4,\ P(E|A)=2/3,\ P(E^c|A^c)=2/3$$
これから
$$
\begin{align}
P(A^c)=&1-P(A)=1-0.4=0.6,\\
P(E|A^c)=&1-P(E^c|A^c)=1-2/3=1/3\\
P(E)=&P(E|A)\times P(A)+P(E|A^c)\times P(A^c)\\
=&2/3\times0.4+1/3\times0.6\\
\therefore\ P(A|E)=&\frac{P(E|A)P(A)}{P(E)}\\
=&\frac{2/3\times0.4}{2/3\times0.4+1/3\times0.6}=\frac{0.8}{0.8+0.6}=0.57
\end{align}
$$


問8 解答

(確率変数の共分散,相関係数)

[1]

$\boxed{ \ \mathsf{14}\ }$ ④

$X_1$,$X_2$,$X_3$が互いに無相関なので,
$Cov[X_1,X_2]=0, Cov[X_1,X_3]=0, Cov[X_2,X_3]=0$
$$\begin{align}
Cov[X_1,Y]=&Cov\left[X_1, \frac{X_1+X_2+X_3}{3}\right]\\
=&\frac13Cov[X_1,X_1]+\frac13Cov[X_1,X_2]+\frac13Cov[X_1,X_3]\\
=&\frac13V[X_1]=\frac13\\
V[Y]=&V\left[\frac{X_1+X_2+X_3}{3}\right]\\
=&\frac19(V[X_1]+V[X_2]+V[X_3]\\
&+2Cov[X_1,X_2]+2Cov[X_1,X_3]+2Cov[X_2,X_3])\\
=&\frac{1+1+1}{9}=\frac13\\
\therefore\ \rho=&\frac{Cov[X_1,Y]}{\sqrt{V[X_1]}\sqrt{V[Y]}}\\
=&\frac{1/3}{\sqrt{1\times1/3}}=\frac{\sqrt{3}}{3}=0.577
\end{align}$$

[2]

$\boxed{ \ \mathsf{15}\ }$ ③

問題文より
$$\begin{align}
\frac{Cov[X_1,X_2]}{\sqrt{V[X_1]}\sqrt{V[X_2]}}=\frac{Cov[X_2,X_3]}{\sqrt{V[X_2]}\sqrt{V[X_3]}}=\frac{Cov[X_3,X_1]}{\sqrt{V[X_3]}\sqrt{V[X_1]}}=0.5\\
\Rightarrow\ Cov[X_1,X_2]=Cov[X_2,X_3]=Cov[X_3,X_1]=0.5
\end{align}$$
よって
$$\begin{align}
Cov[X_1,Y]=&Cov\left[X_1, \frac{X_1+X_2+X_3}{3}\right]\\
=&\frac13Cov[X_1,X_1]+\frac13Cov[X_1,X_2]+\frac13Cov[X_1,X_3]\\
=&\frac13+\frac13\times0.5+\frac13\times0.5=\frac23\\
V[Y]=&V\left[\frac{X_1+X_2+X_3}{3}\right]\\
=&\frac19(V[X_1]+V[X_2]+V[X_3]\\
&+2Cov[X_1,X_2]+2Cov[X_1,X_3]+2Cov[X_2,X_3])\\
=&\frac{1+1+1+2\times0.5+2\times0.5+2\times0.5}{9}=\frac23\\
\therefore\ \rho=&\frac{Cov[X_1,Y]}{\sqrt{V[X_1]}\sqrt{V[Y]}}\\
=&\frac{2/3}{\sqrt{1\times2/3}}=\frac{\sqrt{2}}{\sqrt{3}}=0.816
\end{align}$$


統計検定2級問題解説 ~2017年6月実施~ (問9~問15)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問9 解答

(確率変数の和と差,共分散,相関係数)

[1]

$\boxed{ \ \mathsf{19}\ }$ ④

$X$と$Y$は互いに独立なので,$\mathrm{Cov}[X,Y]=\mathrm{Cov}[Y,X]=0$
$$\begin{align}
V[U]=&V[X+Y]=V[X]+V[Y]=\sigma_1^2+\sigma_2^2\\
V[V]=&V[X-Y]=V[X]+V[Y]=\sigma_1^2+\sigma_2^2\\
\mathrm{Cov}[U,V]=&\mathrm{Cov}[X+Y,X-Y]\\
=&V[X]-\mathrm{Cov}[X,Y]+\mathrm{Cov}[Y,X]-V[Y]\\
=&\sigma_1^2-\sigma_2^2\\
\therefore\ \rho_{UV}=&\frac{\mathrm{Cov}[U,V]}{\sqrt{V[U]V[V]}}
=\frac{\sigma_1^2-\sigma_2^2}{\sqrt{(\sigma_1^2+\sigma_2^2)(\sigma_1^2+\sigma_2^2)}}
=\frac{\sigma_1^2-\sigma_2^2}{\sigma_1^2+\sigma_2^2}
\end{align}$$

[2]

$\boxed{ \ \mathsf{20}\ }$ ⑤

Ⅰ.$E[U]=E[X]+E[Y]=0$,$E[V]=E[X]-E[Y]=0$なので,平均はどちらも$0$。正しい。
Ⅱ.$U$と$V$が互いに独立ならば,$\mathrm{Cov}[U,V]=0$。このとき,[1]より$\sigma_1^2-\sigma_2^2=0\Rightarrow\sigma_1^2=\sigma_2^2$。正しい。
Ⅲ.$U$と$V$は同じ平均$0$,分散$\sigma_1^2+\sigma_2^2$の正規分布に従う。正しい。


問10 解答

(標準正規分布,カイ二乗分布)

[1]

$\boxed{ \ \mathsf{21}\ }$ ④

$W_1=X_1^2\sim \chi^2(1)$なので,$P(W_1\ge w)=0.05$となる$w$の値は$\chi^2$分布表から
$$\chi^2_{0.05}(1)=3.84$$

[2]

$\boxed{ \ \mathsf{22}\ }$ ②

$W_n\sim \chi^2(n)$なので,$P(W_n\ge 2n)<0.05$になるのは,$\chi^2(n)$の上側$0.05$点が$2n$よりも小さいということである。
$$P(W_n\ge 2n)<0.05\ \Rightarrow\ 2n>\chi^2_{0.05}(n)$$
$\chi^2$分布表から
 $n=7$のとき$\chi^2_{0.05}(7)=14.07>2n=14$
 $n=8$のとき$\chi^2_{0.05}(8)=15.51<2n=16$


問11 解答

(標本サイズ)

$\boxed{ \ \mathsf{23}\ }$ ④

年間売上高の標本平均を$\bar X$,母集団平均を$\mu$とすると,相対誤差を$\pm5\%$以下に抑えるとは
$$\left|\frac{\bar X-\mu}{\mu}\right|\le0.05$$
が成り立つことである。これに売上高の母平均$\mu>0$をかけ標本平均$\bar X$の標準誤差$\mathrm{se}>0$で割ると
$$\left|\frac{\bar X-\mu}{\mathrm{se}}\right|\le\frac{0.05\mu}{\mathrm{se}}$$
である。母集団が十分大きいとき,母集団の分散を$\sigma^2$とすると,標本平均の分散は$\sigma^2/n$となり,その平方根である標準誤差は
$\mathrm{se}=\sigma/\sqrt{n}$となる。これを上式の右辺の代入して,
$$\left|\frac{\bar X-\mu}{\mathrm{se}}\right|\le\frac{0.05\mu}{\sigma}\sqrt{n}$$
となる。母集団の変動係数が$\sigma/\mu=0.4$であるので,
$$\left|\frac{\bar X-\mu}{\mathrm{se}}\right|\le\frac{0.05}{0.4}\sqrt{n}$$
となる。ここで$\begin{align}\frac{\bar X-\mu}{\mathrm{se}}\end{align}$の分布が近似的に標準正規分布に従うことから,
$$P\left(\left|\frac{\bar X-\mu}{\mathrm{se}}\right|\le\frac{0.05}{0.4}\sqrt{n}\right)=0.95\
\therefore\ \frac{0.05}{0.4}\sqrt{n}=z_{0.05/2}=1.96\ \Rightarrow\ n\fallingdotseq246$$
よって,$n$は$246$より大きければよい。


問12 解答

(母平均の区間推定,母比率の比の検定)

[1]

$\boxed{ \ \mathsf{24}\ }$ ④

無作為標本の標本平均$\bar X$の標準誤差は標本の標準偏差$s$を用いて $s/\sqrt{n}$

[2]

$\boxed{ \ \mathsf{25}\ }$ ⑤

母分散が未知の場合の母平均の区間推定は$t$分布を用いるが,今回のケースでは$n=333$と大きいので,標準正規分布を用いて区間推定を行う。
$\bar{X}\sim N(\mu,\sigma^2/n)$なので,$\begin{align}\frac{\bar{X}-\mu}{\sqrt{\sigma^2/n}}\end{align}$は標準正規分布に従う。母標準偏差$\sigma$の代わりに標本の標準偏差$s$を用いて
$$\begin{eqnarray}
P\left(z_{-0.05}\le\frac{\bar{X}-\mu}{\sqrt{s^2/n}}\le z_{0.05}\right)\ge0.90\ \ \Rightarrow\ \ P\left(|\bar{X}-\mu|\le1.645\frac{s}{\sqrt{n}}\right)\ge0.90\\
\therefore\ \ 1.645\frac{s}{\sqrt{n}}=1.645\times\frac{62}{\sqrt{333}}=5.6
\end{eqnarray}$$
仮に$t$分布を用いた場合,$z_{0.05}$の代わりに自由度$333-1=332$の$t$分布の上側$5\%$値$t_{0.05}(332)$を使う。この値は$1.64946$となり,
$t_{0.05}(332)s/\sqrt{n}=1.649\times62/\sqrt{333}=5.6$となる。

[3]

$\boxed{ \ \mathsf{26}\ }$ ①

Ⅰ.$\begin{align}E[\bar X]=E\left[\frac1n\sum_{i=1}^nx_i\right]=\frac1n\sum_{i=1}^nE[x_i]=\frac1n\sum_{i=1}^n\mu=\mu\end{align}$となるので,標本平均は母平均の不偏推定量である。正しい。
Ⅱ.信頼区間の幅は信頼係数が大きくなるほど広くなる。誤り。
Ⅲ.信頼区間の幅はデータ数の平方根に反比例する。よって,(111人の信頼区間の幅)/(333人の信頼区間の幅)$=(1/\sqrt{111})/(1/\sqrt{333})=\sqrt{3}$となる。誤り。

[4]

$\boxed{ \ \mathsf{27}\ }$ ②

2つの母集団からの標本${x_1,\dots,x_m}\sim N(\mu_x,\sigma^2_x),\ {y_1,\dots,y_n}\sim N(\mu_y,\sigma^2_y)$に従うとき,母分散が等しいという帰無仮説$\ H_0:\sigma^2_x=\sigma^2_y\ \Leftrightarrow\ \sigma^2_y/\sigma^2_x=1.0\ $,対立仮説$\ H_1:\sigma^2_x\ne\sigma^2_y\ $で,両側検定を行う。
帰無仮説の下で,以下の検定統計量($F$検定量)は自由度$(m-1,n-1)$の$F$分布に従う。
$$F=\frac{\hat\sigma_x^2}{\sigma_x^2}\cdot\frac{\sigma_y^2}{\hat\sigma_y^2}=\frac{\hat\sigma_x^2}{\hat\sigma_y^2}\sim F(m−1,n−1)$$


問13 解答

(独立性の検定)

独立性の検定は,2つの属性$A,B$が独立かどうかの検定。
属性$A$のカテゴリが$A_i$,属性$B$のカテゴリが$B_j$の観測度数を$f_{ij}=O_{ij}$とし,
 $f_{i\cdot}=\sum_jf{ij}$を$i$行の度数合計(行和),
 $f_{\cdot j}=\sum_if{ij}$を$j$列の度数合計(列和),
 $f_{\cdot\cdot}=\sum_i\sum_jf_{ij}=\sum_if_{i\cdot}=\sum_jf_{\cdot j}=n$を全度数合計という。
属性$A,B$が独立という帰無仮説は,$H_0:P(A\cap B)=P(A)P(B)$が成り立つことである。
ここで,カテゴリ$A_i,B_j$の出現確率はそれぞれ$f_{i\cdot}/n,f_{\cdot j}/n$であるので,$H_0$のもとで,属性$A$のカテゴリが$A_i$,属性$B$のカテゴリが$B_j$の期待度数は
$$E_{ij}=n(f_{i\cdot}/n)(f_{\cdot j}/n)=f_{i\cdot}f_{\cdot j}/n$$
となる。
 帰無仮説$H_0$の下で,次検定の統計量$\chi^2$は度数が大きいときに近似的に$\chi^2$分布に従う。行和と列和が固定されていることから自由度は$(r$(行の数)$-1)\times(c$(列の数)$-1)$となる。
$$\chi^2=\sum_{i=1}^r\sum_{j=1}^c\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\sim\chi^2((r-1)(c-1))$$
有意水準$100\alpha\%$で帰無仮説が棄却されるには,$\chi^2$分布の上側$\alpha$点より上で求めた$\chi^2$統計量が大きくなればよい。

[1]

$\boxed{ \ \mathsf{28}\ }$ ①

男子で菓子Aが好きであると答える期待度数は
$$\frac{49\times27}{100}=13.23$$

[2]

$\boxed{ \ \mathsf{29}\ }$ ②

自由度は$(2-1)\times(2-1)=1$

【補足】
各カテゴリの期待度数は
 男子・Aが好き $13.23$
 男子・Aが嫌い $49\times73\div100=35.77$
 女子・Aが好き $51\times27\div100=13.77$
 女子・Aが嫌い $51\times73\div100=37.23$
属性$A,B$が独立という帰無仮説のもとで,検定に用いるカイ二乗検定統計量は
$$\chi^2=\frac{(19-13.23)^2}{13.23}+\frac{(30-35.77)^2}{35.77}+\frac{(8-13.77)^2}{13.77}+\frac{(43-37.23)^2}{37.23}=6.76$$


問14 解答

(一元配置分散分析)

 帰無仮説$H_o:$「各カテゴリの平均は同じである。」,対立仮説$H_1:$「少なくとも2つのカテゴリの平均は同じでないものがある。」としたときの$F$検定を行う。分散分析表(カテゴリ数を$n_i$とする)

変動要因平方和自由度分散$F$値
水準間$\begin{eqnarray}S_A=\sum_{j=1}^{n_i}\sum_{i=1}^{n_j}(\bar y_{j\cdot}-\bar y_{\cdot\cdot})^2\\ =\sum_{j=1}^{n_i}n_j(\bar y_{j\cdot}-\bar y_{\cdot\cdot})^2\end{eqnarray}$$\phi_A=n_i-1$$V_A=S_A/\phi_A$$F=V_A/V_E$
残差$\displaystyle S_E=\sum_{j=1}^{n_i}\sum_{i=1}^{n_j}(y_{ji}-\bar y_{j\cdot})^2$$\displaystyle\phi_E=\sum_{j=1}^{n_i}n_j-n_i$$V_E=S_E/\phi_E$
合計$S_A+S_E$$\displaystyle\phi=\sum_{j=1}^{n_i}n_j-1$

この検定統計量$F$が自由度$(\phi_A,\phi_E)$の$F$分布に従うものとして検定を行う。

[1]

$\boxed{ \ \mathsf{30}\ }$ ①

不偏分散は全平方和をデータ数-1で除したものである。
$$\begin{align}
s=&\frac1{\phi}\sum_{j=1}^{n_i}\sum_{i=1}^{n_j}(y_{ji}-\bar y)^2=\frac1{\phi}(S_A+S_E)\\
=&(0.2204+0.3370)/(20-1)=0.02933
\end{align}$$

[2]

$\boxed{ \ \mathsf{31}\ }$ ⑤

自由度は,地域:$4-1=3$,残差:$20-4=16$
平均平方は,地域:$0.2204/3=0.07347$,残差:$0.3370/16=0.02106$
$F$値は,$0.07347/0.02106=3.488$

[3]

$\boxed{ \ \mathsf{32}\ }$ ①

$P$値が$5\%$より小さいので,帰無仮説は棄却される。


問15 解答

(重回帰モデル,統計ソフトウェアの活用)

※重回帰モデルの統計ソフトウェアによる出力結果の主な項目
$\mathtt{Estimate}$:回帰係数($\alpha,\beta_1,\beta_2,\beta_3$)の推定値
$\mathtt{Std.Error}$:回帰係数の推定値の標準誤差
$\mathtt{t\ value}$:$t$値,$\mathtt{Pr(\gt|t|)}$:$P_-$値・・・回帰係数の検定で使う
$\mathtt{Rasidual\ standard\ error}$:誤差項の標準偏差の推定値
$\mathtt{degrees\ of\ freedom}$:自由度
$\mathtt{Multiple\ R-squared}$:決定係数($R^2$)
$\mathtt{Adjusted\ R-squared}$:自由度調整済み決定係数($R^{*2}$)
$\mathtt{F-statistic}$:$F$検定統計量,$\mathtt{p-value}$:$P_-$値・・・回帰の有意性の検定で使う

[1]

$\boxed{ \ \mathsf{33}\ }$ ②

推定された回帰係数の値は$\mathtt{Estimate}$から読み取る。よって,回帰式は
最盛期年齢$=31.9271+0.3038\times$最高学位取得年齢$-4.4339\times$理論研究ダミー
これに,最高学位取得年齢=$28$,理論研究ダミー=$1$を代入して,
$$31.9271+0.3038\times28-4.4339\times1=36.0$$

[3]

$\boxed{ \ \mathsf{34}\ }$ ③

有意水準$5\%$で有意となるパラメータは$\alpha$,$\beta_1$,$\beta_2$のすべてであるが,このうち,有意に正となるパラメータは,値が正となる$\alpha$と$\beta_1$である。

[3]

$\boxed{ \ \mathsf{35}\ }$ ⑤

①は重回帰モデルでは説明変数間の関係を読み取ることはできない。
モデルのパラメータの正負から,学位の取得年齢が高いほど最盛期年齢も高くなり,理論研究ダミーが$1$のほうが最盛期年齢が低くなる関係になる。したがって,正しいのは⑤


統計検定2級問題解説 ~2017年6月実施~ (問1~問8)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問1 解答

(箱ひげ図,ヒストグラム)

[1]

$\boxed{ \ \mathsf{1}\ }$ ④

すべて,箱ひげ図から,
Ⅰ.TV保有率の最小値(○の値)$\gt$PC保有率最大値(ひげの最上部の値)なので,正しい。
Ⅱ.$47/4=11.75$なので,PC保有率の最大値~第$3$四分位数の人数は$10$人以上。PC保有率の第3四分位数$\gt$DVD/BD保有率の最大値なので,正しい。
Ⅲ.SP保有率の最小値$\lt$MP保有率の最大値なので,誤り。

[2]

$\boxed{ \ \mathsf{2}\ }$ ③

各ヒストグラムの最大値の階級がすべて違っており,小さい方から$e\lt b \lt a\lt c\lt d$。
一方,箱ひげ図から保有率の最大値は,小さい方からDVD/BD$\lt$MP$\lt$SP$\lt$PC$\lt$TV。
よって,MPが$b$,SPが$a$。
(箱ひげ図の最大値,最小値,中央値,四分位数からヒストグラムの形状がわかるようにする。)


問2 解答

(度数分布表,相対度数)

[1]

$\boxed{ \ \mathsf{3}\ }$ ③

茨城県の総度数の半分は$57681\div2=28840.5$。
茨城県の階級(C)までの累積度数は$371+8375+17131=25877$,階級(D)までの累積度数は$25877+10644=36521$なので,中央値は階級(D)に含まれる。

[2]

$\boxed{ \ \mathsf{2}\ }$ ②

長野県の総度数の$1/4,3/4$はそれぞれ$57681\times1/4=13306,57681\times3/4=39918$。
長野県の階級別累積度数は下の階級から順に$1851,15909,36305,44022,\cdots$となるので,第1四分位数は階級(B),第3四分位数は階級(D)にそれぞれ含まれる。

[3]

$\boxed{ \ \mathsf{5}\ }$ ⑤

4道県の(A)~(B)の相対度数を求めると,
北海道:$(342+986)/39620=0.034$,秋田県:$(251+3219)/38539=0.090$,
茨城県:$(371+8375)/57681=0.152$,長野県:$(1851+14058)/53224=0.299$
となり,グラフの(A)~(B)の大きさから北海道は(エ),秋田県は(ウ)


問3 解答

(成長率,コレログラム)

[1]

$\boxed{ \ \mathsf{6}\ }$ ③

2015年8月の前年同月比伸び率は$$\frac{1668}{995}-1=0.676=67.6\%$$

[2]

$\boxed{ \ \mathsf{7}\ }$ ②

Ⅰ.季節性のある時系列データのトレンドを把握するためには,季節の影響を排除するために,前年同月比伸び率や移動平均を調べる。誤り。
Ⅱ.左図よりアジア計と北アメリカ計の訪日外客数の差は拡大する傾向にある。正しい。
Ⅲ.前年同月比伸び率の違いには実データの差は関係しない。誤り。

[3]

$\boxed{ \ \mathsf{8}\ }$ ①

多少の増減はあるものの,全体的には増加傾向にあるため①。
②は増減を1カ月毎にくり返す。③は時系列的な傾向がみられない。④は4カ月毎の周期性がある。


問4 解答

解答

(散布図,相関係数,回帰係数の検定)

[1]

$\boxed{ \ \mathsf{9}\ }$ ④

散布図の点は全体的に左上から右下に点が分布していることから,負の相関になる。負の相関係数の2つの選択肢(④,⑤)のうち,⑤の$-0.994$となるのは,散布図の点がほぼ直線状に並んでいる状態である。

[2]

$\boxed{ \ \mathsf{10}\ }$ ②

単回帰モデルの回帰直線は,散布図の点のほぼ中央部分を通る。①③は直線の上側に点が多く直線の位置が下にずれており,④⑤は線の下側に点が多く直線の位置が上にずれている。5つの図のなかでは②があてはまりがよい。

[3]

$\boxed{ \ \mathsf{11}\ }$ ⑤

回帰係数の検定では母分散が未定の時に使われる$t$検定を行うのが標準的である。このとき,傾きが$\beta_0=0$であるという帰無仮説に対する検定の$t$検定統計量は
$$t=\frac{\hat\beta-\beta_0}{\mathrm{se}(\hat\beta)}=\frac{(-0.14510)-0}{0.02316}=-6.27$$
ここで,$\hat\beta$は傾き$\beta$の推定値,$\mathrm{se}(\hat\beta)$は標準誤差である。
自由度は,(データ件数)-(推定される回帰係数(定数項含む))$=25-2=23$である。


問5 解答

(標本抽出法)

$\boxed{ \ \mathsf{12}\ }$ ④

① 多段抽出で段数が多くなるほど,調査対象が特定のグループに絞られるので,平均などの制度は落ちてくる。誤り。
② 層別抽出は,母集団をできるだけ等質な構成要素の層に分割してから抽出するため,各層の散らばり具合は必ずしも均質とはならない。誤り。
③ 街頭インタビューでいかに無作為に抽出したところで,その街全体の人が街頭にいるわけでないので,街全体を無作為抽出したことにならない。誤り。
④ クラスター抽出法では母集団をクラスターを分け,そこからいくつかのクラスターを抽出してそのクラスターの全体調査をするので,コストは低減できるが精度は落ちる。正しい。
⑤ 調査対象者を紹介してもらうと,調査対象が同質となる傾向にあるので,回答率は上がるかもしれないが,精度は向上するとは言えない。誤り。


問6 解答

(確率変数の和と差)

$\boxed{ \ \mathsf{13}\ }$ ③

$b$の推定値は
$$\frac{X-Y}2=\frac{(a+b+\varepsilon_1)-(a-b+\varepsilon_2)}{2}=b+\frac{\varepsilon_1-\varepsilon_2}{2}$$
よって,この推定値の分散は$\varepsilon_1,\varepsilon_2$が互いに独立だから
$$V\left[\frac{\varepsilon_1+\varepsilon_2}{2}\right]=\frac14(V[\varepsilon_1]+V[\varepsilon_2])=\frac14(\sigma^2+\sigma^2)=\frac{\sigma^2}2$$


問7 解答

(ベイズの定理、確率の乗法定理)

抽出された貝が漁港Xから仕入れたという事象を$X$,
抽出された貝が規格外であるという事象を$A$とする。

[1]

$\boxed{ \ \mathsf{14}\ }$ ④

$P(X\cap A)=P(X)\times P(A|X)=0.4\times0.1=0.04$

[2]

$\boxed{ \ \mathsf{15}\ }$ ③

各漁港から仕入れるという事象は互いに排反なので
$P(A)=0.4\times0.1+0.3\times0.05+0.3\times0.02=0.061$

[3]

$\boxed{ \ \mathsf{16}\ }$ ②

抽出した貝が規格外という条件の下で,その貝が漁港Xから仕入れたものという条件付き確率は
$\begin{align}P(X|A)=\frac{P(X\cap A)}{P(A)}=\frac{0.04}{0.061}=0.656\end{align}$

【別解】ベイズの定理を用いて求める
$\begin{align}P(X|A)=\frac{P(A|X)}{P(A)}P(X)=\frac{0.1}{0.061}\times0.4=0.656\end{align}$


問8 解答

(二項分布)

[1]

$\boxed{ \ \mathsf{17}\ }$ ①

「対局が第5局で終了し,名人Aが4勝する」確率は,「第4局までに名人Aが3勝し,第5局目に名人Aが勝つ」確率を求める。
${}_4\mathrm{C}_3\times0.7^3\times0.3\times0.7=4\times0.7^4\times0.3=0.288$

[2]

$\boxed{ \ \mathsf{18}\ }$ ⑤

「対局が第7局で終了する」確率は,「第6局までに名人Aと挑戦者Bがそれぞれ3勝する」確率を求める。
${}_6\mathrm{C}_3\times0.7^3\times0.3^3=20\times0.21^3=0.185$


統計検定2級問題解説 ~2017年11月実施~ (問9~問16)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問9 解答

(標準正規分布,$t$分布,$\chi^2$分布,$F$分布)

[1]

$\boxed{ \ \mathsf{17}\ }$ ⑤

・確率変数 $Z_1,Z_2,\dots,Z_n$ が互いに独立に標準正規分布$N(0,1)$に従うとき$$W=Z_1^2+Z_2^2+\cdots+Z_n^2$$は自由度$n$のカイ二乗分布に従う。
・標準正規分布$N(0,1)$に従う確率変数 $Z$ が $W$ と独立であれば$$\frac Z{\sqrt{W/n}}$$は自由度$n$の$t$分布に従う。
・確率変数 $W_1,W_2$ が互いに独立に自由度 $m_1,m_2$ のカイ二乗分布に従うとき$$\frac{W_1/m_1}{W_2/m_2}$$は自由度 $(m_1,m_2)$の$F$分布に従う。

[2]

$\boxed{ \ \mathsf{18}\ }$ ②

$Y$は自由度$(20,10)$の$F$分布に従う。([1]の定義から)
ここで,$1/Y$は自由度$(10,20)$のF分布に従うから$$P(Y\le a)=P\left(\frac1Y\ge\frac1a\right)=0.05$$となる$1/a$を求めればよい。$F$分布表から$$\frac1a=2.348\ \ \Rightarrow\ \ a=\frac1{2.348}$$


問10 解答

(標準正規分布,標本平均の確率分布)

[1]

$\boxed{ \ \mathsf{19}\ }$ ①

$X_1\sim N(50,10^2)$なので,標準正規分布に従う確率変数を$Z\sim N(0,1)$とするとき$$Z=\frac{X_1-50}{10},\ \ P(X_1\ge60)=P(Z\ge\frac{60-50}{10})=P(Z\ge1)=0.1587$$

[2]

$\boxed{ \ \mathsf{20}\ }$ ④

$1$人が$60$点以上取る確率は[1]で計算した。よって求める確率は$${}_5\mathrm{C}_1\times0.1587^1\times(1-0.1587)^4=0.3975$$

[3]

$\boxed{ \ \mathsf{21}\ }$ ②

$5$人の点数の標本平均$Y=(X_1+\cdots+X_5)/5$は平均$50$,標準偏差$10/\sqrt{5}$の正規分布に従う(中心極限定理)。
よって,$$P(Y\ge52)=P\left(\frac{Y-50}{10/\sqrt{5}}\ge\frac{52-50}{10/\sqrt{5}}\right)=P(Z\ge0.447)\fallingdotseq0.33$$


問11 解答

(ポアソン分析)

ポアソン分布:
 二項分布$B(n,p)$において,期待値$np=\lambda$を固定し,$n\rightarrow\infty,\ p\rightarrow0$ のような極限を取った時の確率分布。試行回数が大きく成功確率が低いことから,まれに起きる現象に対する確率分布として使われる。
 確率密度関数:$\begin{align}f(x)=\frac{\lambda^xe^{-\lambda}}{x!}\ \ (x=0,1,2,\dots)\end{align}$
 期待値:$E[X]=\lambda$ 分散:$V[X]=\lambda$
<証明>$$\begin{align}    E(X)&=\sum_{x=1}^\infty xP(X=x)=\sum_{x=1}^\infty x\frac{\lambda^x}{x!}e^{-\lambda}\\    &=e^{-\lambda}\lambda\sum_{x-1=0}^\infty \frac{\lambda^{x-1}}{(x-1)!}    =e^{-\lambda}\lambda e^{\lambda}=\lambda\\    E(X(X-1))&=\sum_{x=1}^\infty x(x-1)P(X=x)=\sum_{x=1}^\infty x(x-1)\frac{\lambda^x}{x!}e^{-\lambda}\\    &=e^{-\lambda}\lambda^2\sum_{x-2=0}^\infty \frac{\lambda^{x-2}}{(x-2)!}    =e^{-\lambda}\lambda^2 e^{\lambda}=\lambda^2\\    V(X)&=E(X(X-1))+E(X)-E(X)^2=\lambda^2+\lambda-\lambda^2=\lambda\end{align}$$

[1]

$\boxed{ \ \mathsf{22}\ }$ ②

ポワソン分布では分散は期待値(平均)に等しい。

[2]

$\boxed{ \ \mathsf{23}\ }$ ③

ポワソン分布で$x=0$の時の確率を求めればよい。$$P(X=0)=f(0)=\frac{\lambda^0e^{-\lambda}}{0!}=\frac1{e^{518/365}}\fallingdotseq\frac1{4.19}=0.24$$


問12 解答

(重回帰モデル,回帰係数の検定,統計ソフトウェアの活用)

※重回帰モデルの統計ソフトウェアによる出力結果の主な項目
$\mathtt{Estimate}$:回帰係数($\alpha,\beta_1,\beta_2,\beta_3$)の推定値
$\mathtt{Std.Error}$:回帰係数の推定値の標準誤差
$\mathtt{t\ value}$:$t$値,$\mathtt{Pr(\gt|t|)}$:$P_-$値・・・回帰係数の検定で使う
$\mathtt{Rasidual\ standard\ error}$:誤差項の標準偏差の推定値
$\mathtt{degrees\ of\ freedom}$:自由度
$\mathtt{Multiple\ R-squared}$:決定係数($R^2$)
$\mathtt{Adjusted\ R-squared}$:自由度調整済み決定係数($R^{*2}$)
$\mathtt{F-statistic}$:$F$検定統計量,$\mathtt{p-value}$:$P_-$値・・・回帰の有意性の検定で使う

[1]

$\boxed{ \ \mathsf{24}\ }$ ⑤

このモデルの誤差項の標準偏差の自由度は標本のサイズから推定された回帰係数(定数項含む)の数を差し引いたものになる。
出力結果から誤差項の標準偏差の自由度は$199$,回帰係数の数は$2$なので,標本のサイズは$199+2=201$

[2]

$\boxed{ \ \mathsf{25}\ }$ ①

回帰係数の検定では母分散が未定の時に使われる$t$検定を行うのが標準的である。このとき,$t$検定統計量は  $$t=\frac{\hat\beta-\beta_0}{\mathrm{se}(\hat\beta)}=\frac{-4.89615-(-1)}{0.28922}$$ここで,$\hat\beta$は$\beta$の推定値,$\mathrm{se}(\hat\beta)$は標準誤差である。

[3]

$\boxed{ \ \mathsf{26}\ }$ ③

Ⅰ.$\mathrm{log}$(販売価格)の回帰係数が$-4.89615$なので,正しい。
Ⅱ.$\mathrm{log}$(販売価格)の回帰係数が負なので,販売価格が大きくなると,予測値である販売数量は小さくなる。正しい。
Ⅲ.モデル式に値を代入すると$7.92546+(-4.89615)\times(-0.3)=9.394$となる。誤り。


問13 解答

(母比率の区間推定,母比率の差の区間推定・検定)

[1]

$\boxed{ \ \mathsf{27}\ }$ ③

成功確率$p$の試行を$n$回行うときに成功する回数$X$は二項分布$B(n,p)$に従う。
$\therefore\ \ E(X)=np,\ V(X)=np(1-p)$このとき,$n$がある程度大きいときは,中心極限定理によって,$B(n,p)$は正規分布$N(mp,np(1-p))$に近似できる。よって,$X$を標準化すると標準正規分布$N(0,1)$に従う。$$Z=\frac{X-np}{\sqrt{np(1-p)}}=\frac{X/n-p}{\sqrt{\frac{p(1-p)}n}}\sim N(0,1)$$ここで,標本比率 $\hat p=x/n$は$p$の一致推定量なので,$n$が十分大きいとき$p$は$\hat p$に置き換えられる。
したがって,母比率の$100(1-\alpha)\%$信頼区間は,標準正規分布の上側 $100\alpha/2\%$ 点を $z_{\alpha/2}$とすると,$$P\left(\hat p-z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}\le p\le\hat p+z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}\right)=1-\alpha$$
「非常に関心がある」の母比率の$95\%$信頼区間は,$n=1897$,$\hat p=0.483$,$\alpha=0.05$として$$\hat p\pm z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}=0.483\pm1.96\times\sqrt{\frac{0.483\times(1-0.483)}{1897}}=0.483\pm0.022$$

[2]

$\boxed{ \ \mathsf{28}\ }$ ②

2つの母集団からの標本に基づいて,2つの母集団の母比率$p_1,p_2$に差があるかの検定を行う。
帰無仮説を$H_0:p_1=p_2$とする。$n_1,n_2$が十分大きいとき,標本比率$\hat p_1=x_1/n_1, \hat p_2=x_2/n_2$は近似的に正規分布$\hat p_1\sim N(p_1,p_1(1-p_1)/n_1), \hat p_2\sim N(p_2,p_2(1-p_2)/n_2)$に従うので,2つの標本比率の差も正規分布に従う。$$\hat p_1-\hat p_2\sim N\left(p_1-p_2, \frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}\right)$$$z$を以下のとおりにすると,標準正規分布に従う。ここで,標本比率$\hat p_1,\hat p_2$は母比率の一致推定量なので,分散に含まれている$p_1,p_2$は$n_1,n_2$が十分大きいとき$\hat p_1,\hat p_2$に置き換えることができる。$$z=\frac{(\hat p_1-\hat p_2)-(p_1-p_2)}{\sqrt{\frac{\hat p_1(1-\hat p_1)}{n_1}+\frac{\hat p_2(1-\hat p_2)}{n_2}}}$$これを用いて,$p_1-p_2$の$95\%$信頼区間を求めると$$\begin{align}&(\hat p_1-\hat p_2)\pm z_{0.025}\sqrt{\frac{\hat p_1(1-\hat p_1)}{n_1}+\frac{\hat p_2(1-\hat p_2)}{n_2}}\\=&(0.483-0.416)\pm1.96\sqrt{\frac{0.483\times(1-0.483)}{1897}+\frac{0.416\times(1-0.416)}{1925}}\\=&0.067\pm1.96\sqrt{\frac{0.483\times0.517}{1897}+\frac{0.416(1-0.416)}{1925}}\\=&0.067\pm0.0315\end{align}$$となる。$95\%$信頼区間$[0.036,0.098]$は$0$を含まないので,有意水準$5\%$で母比率の差は$0$でないといえる(帰無仮説は棄却される)。


問14 解答

(仮説検定の理論,検出力,$P_-$値)

真実
帰無仮説が正しい対立仮説が正しい
検定の結果帰無仮説を棄却しない
(対立仮説が正しいとは言えない)
正しい第二種の過誤(β)
帰無仮説を棄却する
(対立仮説が正しい)
第一種の過誤(α)
有意水準
正しい
検出力(1-β)

$\boxed{ \ \mathsf{29}\ }$ ⑤

Ⅰ.検出力は対立仮説が正しいときに帰無仮説を棄却する確率である。誤り。
Ⅱ.$P_-$値は,帰無仮説が正しいときに「検定統計量が実現と同じかそれ以上に極端な値をとる確率」と定義される。$P_-$値が有意水準より小さいときは検定統計値が棄却域にあるので,帰無仮説は棄却される。正しい。
Ⅲ.$P_-$値は確率なので$0$以上$1$以下である。正しい。


問15 解答

(適合度の検定)

適合度の検定は,ある属性$A$の$k$個のカテゴリの値が理論値に適合しているかどうかの検定。
属性$A$のカテゴリ$A_i$の観測度数を$O_{i}$とし,属性$A$のカテゴリ$A_i$の理論的な出現確率を$p_i$とする。<br/>理論値に適合するという帰無仮説を$H_0:P(A_i)=p_i\ (i=1,2,\cdot,k, \sum p_i=1)$とすると,カテゴリ$A_i$の理論的な期待度数は$E_i=np_i$と計算される。
 帰無仮説$H_0$の下で,検定統計量$\chi^2$は度数が大きいときに近似的に$\chi^2$分布に従う。カテゴリ数の合計が固定されていることから自由度は$k$(カテゴリ数)$-1$となる。$$\chi^2=\sum_{i=1}^k\frac{(O_{i}-E_{i})^2}{E_i}\sim\chi^2(k-1)$$有意水準$100\alpha\%$で帰無仮説が棄却されるには,$\chi^2$分布の上側$\alpha$点より上で求めた$\chi^2$統計量が大きくなればよい。

[1]

$\boxed{ \ \mathsf{30}\ }$ ②

自由度は(カテゴリ数)$-1=3-1=2$

[2]

$\boxed{ \ \mathsf{31}\ }$ ⑤

$\chi^2$検定量は$$\chi^2=\frac{(5-0.2\times50)^2}{0.2\times50}+\frac{(12-0.3\times50)^2}{0.3\times50}+\frac{(33-0.5\times50)^2}{0.5\times50}=5.66$$自由度$2$のカイ二乗分布の上側$5\%$点は$\chi^2$分布表から$5.99$
よって,帰無仮説は棄却することができない。


問16 解答

(一元配置分散分析)

帰無仮説$H_o:$「各カテゴリの平均は同じである。」,対立仮説$H_1:$「少なくとも2つのカテゴリの平均は同じでないものがある。」としたときの$F$検定を行う。 
分散分析表(カテゴリ数を$n_i$とする)

変動要因平方和自由度分散$F$値
水準間$S_A=\sum_{j=1}^{n_i}\sum_{i=1}^{n_j}(\bar y_{j\cdot}-\bar y_{\cdot\cdot})^2$
$=\sum_{j=1}^{n_i}n_j(\bar y_{j\cdot}-\bar y_{\cdot\cdot})^2$
$\phi_A=n_i-1$$V_A=S_A/\phi_A$$F=V_A/V_E$
残差$S_E=\sum_{j=1}^{n_i}\sum_{i=1}^{n_j}(y_{ji}-\bar y_{j\cdot})^2$$\phi_E=\sum_{j=1}^{n_i}n_j-n_i$$V_E=S_E/\phi_E$
合計$S_A+S_E$$\phi=\sum_{j=1}^{n_i}n_j-1$


この検定統計量$F$が自由度$(\phi_A,\phi_E)$の$F$分布に従うものとして検定を行う。

[1]

$\boxed{ \ \mathsf{32}\ }$ ②

要約統計量の表にある各地域の平均値を,各地域の観測数で加重平均をとれば,全体の平均が求められる。$$210\times27+89\times13+712\times2+515\times31+192\times7+559\times3)/83=328.1566$$

[2]

$\boxed{ \ \mathsf{33}\ }$ ④

上の分散分析表より,$F_-$値は,$n_i=6,\sum_{j=1}^{n_i}n_j=83$なので,$$F=\frac{S_A/\phi_A}{S_E/\phi_E}=\frac{\sum_{j=1}^6n_j(\bar y_{j\cdot}-\bar y_{\cdot\cdot})^2/5}{\sum_{j=1}^6\sum_{i=1}^{n_j}(y_{ji}-\bar y_{j\cdot})^2/77}$$

[3]

$\boxed{ \ \mathsf{34}\ }$ ①

Ⅰ.統計ソフトウェアの一元配置分散分析の出力結果から,$P_-$値が$1\%$より小さいので,$F_-$値は$F$分布の上側$1\%$点よりも大きい。正しい。
Ⅱ.$P_-$値が$1\%$より小さいので,帰無仮説は棄却され,少なくとも2つの地域間で平均の信頼区間に重なりがない。誤り。
Ⅲ.出力結果から,$P_-$値が$1\%$より小さい。誤り。


統計検定2級問題解説 ~2017年11月実施~ (問1~問8)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問1 解答

(相対度数分布表)

[1]

$\boxed{ \ \mathsf{1}\ }$ ④

$0.93+5.25+35.80+38.27+$(ア)$+5.25+0.62=100$ なので,(ア)$=13.88$

[2]

$\boxed{ \ \mathsf{2}\ }$ ⑤

① 滞在日数が$1$週間未満(階級が(A)または(B))の割合は,韓国は$32.14+61.30=93.44\%$で,中国の$0.65+54.68=55.33\%$よりも高くなる。誤り。
② 米国からの訪日観光客で最も割合が高い階級は(C)($50.28\%$)である。誤り。
③ マレーシアからの訪日観光客で1週間以上滞在する人((C)~(G))の割合は$56.51+4.93+0.53+0.35+0.00=62.32\%$である。誤り。
④ 韓国からの訪日観光客で1週間未満滞在する人((A)または(B))の割合は$32.14+61.30=93.44\%$である。誤り。
⑤ 滞在日数の中央値は累積相対度数が$50\%$となる階級にあるので,韓国と中国が(B),マレーシアと米国が(C),フランスが(D)の階級となる。正しい。

[3]

$\boxed{ \ \mathsf{3}\ }$ ①

米国の相対度数分布の特徴を見ると,(C)が$50\%$以上,(B)と(D)が$10\%$台の値となっているので,これでグラフを特定できる。


問2 解答

(相関係数,散布図。単回帰)

[1]

$\boxed{ \ \mathsf{4}\ }$ ①

「平均気温」は相関係数から負の相関がみられるので,散布図はⅠ
他の$2$つは相関が弱いので散布図の点の分布から判別する。「降水量の合計」はデータの表から最大値に近い値$(190.5)$の時に「桜の開花日」が$0$となっているが,散布図でx軸最大値付近で$y$軸が$0$の点があるのがⅡなので,これが「降水量の合計」,残りのⅢが「日照時間の合計」となる。

[2]

$\boxed{ \ \mathsf{5}\ }$ ④

$t-$値は回帰係数の推定値を標準誤差で除して求める。よって標準誤差を$s$とすると$$\frac{-2.7608}{s}=-9.0938\ \ \Rightarrow\ \ s=\frac{-2.7608}{-9.0938}=0.3036$$

[3]

$\boxed{ \ \mathsf{6}\ }$ ③

単回帰モデル式に表の回帰係数の推定値を当てはめると
    (桜の開花日)$=20.0209-2.7608\times$(平均気温)
これに$2017$年のデータを代入すると
    (桜の開花日)$=20.0209-2.7608\times6.10=3.18$
よって,$4$月$3$日と予測する。


問3 解答

(変動係数,箱ひげ図,自己相関係数,コレログラム)

[1]

$\boxed{ \ \mathsf{7}\ }$ ④

データ数が$12$個なので,中央値はデータを小さい順に並べた時の$6$番目と$7$番目の値の平均値となる。$$149,154,174,180,183,213,215,218,230,242,256,356\ \ \Rightarrow\ \ (213+215)\div2=214$$また,変動係数は標準偏差を平均で割った値である。$$56.0\div214.2=0.261$$

[2]

$\boxed{ \ \mathsf{8}\ }$ ⑤

どちらの箱ひげ図も中央値が$($最大値$+$最小値$)/2$よりも小さいので,ヒストグラムは右に裾が長い傾向になる。よってⅠはどちらにも該当しない。
Ⅲのグラフは,外れ値が$2$つあることから,Ⅲはキャベツ,Ⅱはビールのヒストグラムとなる。

[3]

$\boxed{ \ \mathsf{9}\ }$ ③

自己相関係数$\cdots$時系列データにおいて,もとの時系列と時間を$t$ずらした時系列との相関係数。$t$をラグという。
コレログラム$\cdots$横軸にラグ,縦軸に自己相関係数を取ったグラフ。
Ⅰ.コレログラムでLagが$12$の値を読むと,キャベツのほうがビールよりも高い値となっているので,正しい。
Ⅱ.コレログラムから「キャベツ」の$1$か月後の値と相関係数(Lag$1$の自己相関係数)はおよそ$0.5$と読める。よって,ある月の値が平均より高ければ,翌月の値も平均より高くなる傾向がある。正しい。
Ⅲ.コレログラムからは,$2$つの違う時系列間の相関を読み取ることはできないので,誤り。


問4 解答

(物価指数,成長率)

[1]

$\boxed{ \ \mathsf{10}\ }$ ①

ラスパイレス物価指数…基準年の購入量や取引量等を重みとして算出した価格指数。
品目$i$の基準年価格$=p_{oi}$,基準年数量$=q_{oi}$,比較年価格$=p_{ti}$として$$P_L=\frac{\sum_ip_{ti}q_{0i}}{\sum_ip_{0i}q_{0i}}$$

[2]

$\boxed{ \ \mathsf{11}\ }$ ③

$1980$年までに$2$回大きく増加しているので,②と④は不適。その後は増加減少をくり返していることから,ほとんどが変化率$+$となっている①は不適。


問5 解答

(標本抽出法)

$\boxed{ \ \mathsf{12}\ }$ ④

Ⅰ.集落(クラスター)抽出法
 母集団を小集団であるクラスター(集落)に分け,その中からいくつかのクラスターを無作為に抽出し,それぞれのクラスターにおいて全数調査を行う。正しい。
Ⅱ.多段抽出法
 母集団をいくつかのグループ(第1段抽出単位)に分け,そこから無作為抽出でいくつかグループを選び,さらにその中から無作為抽出でいくつかのグループ(第2段抽出単位)を選び・・を何段か繰り返してそこから標本を無作為に抽出する。→抽出のコストは低くなるが,偏りが生じやすい。誤り。
Ⅲ.系統抽出法
 通し番号をつけた名簿を作成し,1番目の調査対象を無作為に選び、2番目以降の調査対象を一定の間隔で抽出する方法。正しい。


問6 解答

(観察研究と実験研究)

$\boxed{ \ \mathsf{13}\ }$ ③

実験研究:条件の設定を観測者が自ら設定できる試験。
 実験研究では「フィッシャーの3原則:無作為化,繰り返し,局所管理」が重要とされる。
観察研究:被験者自らが処理条件の選択している試験。
 観察研究では無作為化がなされない。
① 患者をランダムに分けて条件の違う薬を投与している。実験研究。
② 土壌の異なる土地に対して実験者がアサガオを植えている。実験研究。
③ 被験者自ら健康食品を食するかを選択している。観察研究。
④ 子供たちをランダムに色の異なる部屋に分けている。実験研究。
⑤ すべての実験が実験者の計画のもとで行われている。実験研究。


問7 解答

(ベイズの定理)

$\boxed{ \ \mathsf{14}\ }$ ④

工場Aで生産されたという事象を$A$,おもちゃが不良品であるという事象を$B$とする。
与えられた条件は$$\begin{align}    P(A)&=0.6,\ \ P(A^c)=0.4,\ \ P(B|A)=0.01,\ \ P(B|A^c)=0.005\\    \therefore P(B)&=P(B|A)\times P(A)+P(B|A^c)\times P(A^c)\\&=0.01\times0.6+0.005\times0.4\\&=0.008\end{align}$$ベイズの定理より不良品のおもちゃが工場Aで生産された確率は$$P(A|B)=P(A)\times\frac{P(B|A)}{P(B)}=0.6\times\frac{0.01}{0.008}=0.75$$


問8 解答

(連続確率分布,確率変数の期待値と分散)

[1]

$\boxed{ \ \mathsf{15}\ }$ ③

確率密度関数$f(x)$が与えられたとき,その積分値は累積分布関数となる。
$\begin{align}&F(X)=\int_{-\infty}^\infty f(x)dx=1\\&\int_0^2cx(2-x)dx=c\left[x^2-\frac13x^3\right]_0^2=c\frac{4}3=1\ \ \Rightarrow\ \ c=\frac34 \end{align}$

[2]

$\boxed{ \ \mathsf{16}\ }$ ④

$\begin{align}E[X]&=\int_0^2xf(x)dx=\int_0^2\frac34x^2(2-x)dx=\frac34\left[\frac23x^3-\frac14x^4\right]_0^2=\frac34\left(\frac{16}3-\frac{16}4\right)=1\\E[X^2]&=\int_0^2x^2f(x)dx=\int_0^2\frac34x^3(2-x)dx=\frac34\left[\frac12x^4-\frac15x^5\right]_0^2=\frac34\left(8-\frac{32}5\right)=\frac65\\\therefore\ V[X]&=E[X^2]-E[X]^2=\frac65-1^2=\frac15\end{align}$