当記事は「統計学実践ワークブック(学術図書出版社)」の読解サポートにあたってChapter.6の「連続型分布と標本分布」に関して演習問題を中心に解説を行います。正規分布、指数分布、ガンマ分布などの確率分布や、$t$分布$\chi^2$分布などの標本分布はあらゆる場面でよく用いられるので抑えておくと良いです。
本章のまとめ
正規分布
「連続型確率分布の数式まとめ」の「正規分布」で詳しく取り扱いました。
指数分布
「連続型確率分布の数式まとめ」の「指数分布」で詳しく取り扱いました。
演習問題解説
問6.1
$[1]$
下記を実行することで計算できる。
import numpy as np
mu, sigma = 65., 10.
T_A = 50. + 10.*(85.- mu)/sigma
T_B = 50. + 10.*(60.- mu)/sigma
print("A: {:.0f}".format(T_A))
print("B: {:.0f}".format(T_B))
・実行結果
> print("A: {:.0f}".format(T_A))
A: 70
> print("B: {:.0f}".format(T_B))
B: 45
$[2]$
下記を実行することで計算できる。
import numpy as np
from scipy import stats
n = 1000.
mu, sigma = 65., 10.
Z_A = (85.- mu)/sigma
Z_B = (60.- mu)/sigma
estimated_num = n*(stats.norm.cdf(Z_A)-stats.norm.cdf(Z_B))
print("A: {:.0f}".format(estimated_num))
・実行結果
> print("A: {:.0f}".format(estimated_num))
A: 669
$[3]$
下記を実行することで計算できる。
import numpy as np
from scipy import stats
sigma = 10.
q_range = sigma*(stats.norm.ppf(0.75)-stats.norm.ppf(0.25))
print("Box length: {:.1f}".format(q_range))
・実行結果
> print("Box length: {:.1f}".format(q_range))
Box length: 13.5
$[4]$
$X \sim N(65,10^2)$、$Z = (X-65)/10 \sim N(0,1)$に対して、$E[X|X \geq 65]=E[65+10Z|Z \geq 0]=65+10E[Z|Z \geq 0]$が成立する。ここで$Z \geq 0$における$Z$の条件付き分布の確率密度関数$f(z|z \geq 0)$は下記のように表すことができる。
$$
\begin{align}
f(z|z \geq 0) &= \frac{f(z)}{P(Z \geq 0)} \\
&= 2 f(z) = 2 \times \frac{1}{\sqrt{2 \pi}} e^{-\frac{z^2}{2}} \\
&= \sqrt{\frac{2}{\pi}} e^{-\frac{z^2}{2}}
\end{align}
$$
上記に基づいて$E[Z|Z \geq 0]$の計算を行う。
$$
\begin{align}
E[Z|Z \geq 0] &= \int_{0}^{\infty} z f(z|z \geq 0) dz \\
&= \int_{0}^{\infty} \sqrt{\frac{2}{\pi}} z e^{-\frac{z^2}{2}} dz \\
&= \left[ – \sqrt{\frac{2}{\pi}} e^{-\frac{z^2}{2}} \right]_{0}^{\infty} \\
&= \sqrt{\frac{2}{\pi}} \\
&= 0.7978…
\end{align}
$$
よって、$E[X|X \geq 65]=E[65+10Z|Z \geq 0]=65+10E[Z|Z \geq 0]$を用いて$E[X|X \geq 65]$は下記のように計算できる。
$$
\begin{align}
E[X|X \geq 65] &= 65 + 10E[Z|Z \geq 0] \\
&= 65 + 10 \times 0.7978… \\
&= 72.978…
\end{align}
$$
問6.2
$[1]$
$V[X+Y]=V[X]+V[Y]+2Cov(X,Y)$などを用いることによって、相関係数は下記のように計算できる。
import numpy as np
sigma_x, sigma_y, sigma_xy = 80., 90., 150.
r = (sigma_xy**2-sigma_x**2-sigma_y**2)/(2*sigma_x*sigma_y)
print("r: {:.2f}".format(r))
・実行結果
> print("r: {:.2f}".format(r))
r: 0.56
$[2]$
$\displaystyle E[Y|X=x] = E[Y] + \rho[X,Y] \cdot \sqrt{\frac{V[Y]}{V[X]}} (x-E[X])$より、下記のように計算を行うことができる。
x = 335.
mean_x, mean_y = 305., 250.
res = mean_y + r*np.sqrt(sigma_y/sigma_x)*(x-mean_x)
print("E[Y|X=335): {:.0f}".format(res))
・実行結果
> print("E[Y|X=335): {:.0f}".format(res))
E[Y|X=335): 268
・参考
2次元正規分布における条件付き確率分布・周辺分布の数式の導出
https://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist3.html
問6.3
$[1]$
累積分布関数を$F(t) = P(T \leq t)$とおくと、$F(t)$に関して下記が成立する。
$$
\large
\begin{align}
F(t) &= P(T \leq t) = 1 – P(T > t) \\
&= 1 – S(t) \\
&= 1 – \exp(- \lambda t)
\end{align}
$$
ここで確率密度関数$f(t)$に関して$f(t)=F'(t)$が成立するので、$f(t)$は下記のように導出できる。
$$
\large
\begin{align}
f(t) &= \frac{d F(t)}{d t} \\
&= \frac{d}{d t} (- \exp(- \lambda t)) \\
&= \lambda \exp(- \lambda t) \quad (t \geq 0)
\end{align}
$$
$[2]$
分布の平均を$E[T]$とおくと、期待値の定義に基づいて$E[T]$は下記のように計算できる。
$$
\large
\begin{align}
E[T] &= \int_{0}^{\infty} t f(t) dt \\
&= \int_{0}^{\infty} \lambda t \exp(- \lambda t) dt \\
&= \left[ \frac{-\lambda}{\lambda} t \exp(- \lambda t) \right]_{0}^{\infty} + \int_{0}^{\infty} \exp(- \lambda t) dt \\
&= 0 + \left[ – \frac{1}{\lambda} \exp(- \lambda t) \right]_{0}^{\infty} \\
&= \frac{1}{\lambda}
\end{align}
$$
また、上側$25$%点に対応する$t$を$t_{0.25}$とおくと、$\exp(- \lambda t_{0.25}) = S(t_{0.25})=P(T>t_{0.25})=1/4$が成立する。これを$t_{0.25}$に関して解く。
$$
\large
\begin{align}
S(t_{0.25}) &= P(T>t_{0.25}) \\
-\exp(- \lambda t_{0.25}) &= \frac{1}{4} \\
-\lambda t_{0.25} &= \log{\frac{1}{4}} \\
-\lambda t_{0.25} &= – \log{4} \\
t_{0.25} &= \frac{\log{4}}{\lambda}
\end{align}
$$
$[3]$
$E[T]=1/\lambda$を標本平均$\bar{t}=3.0=1/\hat{\lambda}$で推定したと考える。このとき、$t_{0.25}$の推定値$\hat{t_{0.25}}$は$[2]$の結果を用いて下記のように計算できる。
$$
\large
\begin{align}
\hat{t_{0.25}} &= \frac{\log{4}}{\hat{\lambda}} \\
&= 6 \log{2} \\
&= 4.2
\end{align}
$$
$[4]$
$X \sim N(65,10^2)$、$Z = (X-65)/10 \sim N(0,1)$に対して、$E[X|X \geq 65]=E[65+10Z|Z \geq 0]=65+10E[Z|Z \geq 0]$が成立する。ここで$Z \geq 0$における$Z$の条件付き分布の確率密度関数$f(z|z \geq 0)$は下記のように表すことができる。
$$
\begin{align}
f(z|z \geq 0) &= \frac{f(z)}{P(Z \geq 0)} \\
&= 2 f(z) = 2 \times \frac{1}{\sqrt{2 \pi}} e^{-frac{z^2}{2}} \\
&= \sqrt{\frac{2}{\pi}} e^{-\frac{z^2}{2}}
\end{align}
$$
問6.4
$[1]$
偏差値はそれぞれ下記のように計算できる。
・Aさん
$$
\large
\begin{align}
50 + 10 \times \frac{67-65}{4} &= 50 + 10 \times \frac{1}{2} \\
&= 55
\end{align}
$$
・Bさん
$$
\large
\begin{align}
50 + 10 \times \frac{82-85}{3} &= 50 + 10 \times (-1) \\
&= 40
\end{align}
$$
$[2]$
$$
\large
\begin{align}
\Phi(z) = \int_{-\infty}^{z} \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}} dx
\end{align}
$$
上記のように標準正規分布の累積密度関数$\Phi(z)$を定義する。
ここで得点が$60$点以上である確率を$P(X \geq 60)$のようにおくと、$P(X \geq 60)$は下記のように計算できる。
$$
\large
\begin{align}
P(X \geq 60) & \simeq \frac{300}{500} \left( 1-\Phi \left( \frac{60-65}{4} \right) \right) + \frac{200}{500} \left( 1-\Phi \left( \frac{60-85}{3} \right) \right) \\
&= 1 – \frac{3}{5} \Phi (-1.25) + \frac{2}{5} \Phi(-8.33) \\
&= \frac{2}{3} \times 0.1056 + \frac{2}{5} \Phi(-8.33) = 0.9366…
\end{align}
$$
上記より、試験の合格率が概ね$94$%であると考えることができる。
なお、Pythonを用いて下記を計算することで結果を計算することができる。
import numpy as np
from scipy import stats
print(stats.norm.cdf(-1.25))
print(stats.norm.cdf(-8.33))
print(1-3*stats.norm.cdf(-1.25)/5.-2*stats.norm.cdf(-8.33)/5.)
参考
・準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1