Ch.7 「多次元の確率分布」の章末問題の解答例 〜基礎統計学Ⅰ 統計学入門(東京大学出版会)〜

当記事は基礎統計学Ⅰ 統計学入門(東京大学出版会)」の読解サポートにあたってChapter.$7$の「多次元の確率分布」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は購入の上ご確認ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

https://www.amazon.co.jp/dp/4130420658

章末の演習問題について

問題7.1の解答例

i)
$V(X+Y)=E[(X+Y)^2]-E[X+Y]^2$を用いて導出する。
$$
\begin{align}
V(X+Y) &= E[(X+Y)^2] – E[X+Y]^2 \\
&= E[X^2+Y^2+2XY] – (E[X]+E[Y])^2 \\
&= E[X^2]+E[Y^2]+2E[XY] – (E[X]^2+E[Y]^2+2E[X]E[Y]) \\
&= (E[X^2]-E[X]^2) + (E[Y^2]-E[Y]^2) + 2(E[XY]-E[X]E[Y]) \\
&= V(X) + V(Y) + 2\mathrm{Cov}(X,Y)
\end{align}
$$

上記より、$V(X+Y) = V(X) + V(Y) + 2\mathrm{Cov}(X,Y)$が成立する。

ⅱ)
i)と同様に$V(aX+bY)=E[(aX+bY)^2]-E[aX+bY]^2$を用いて導出する。
$$
\begin{align}
V(aX+bY) &= E[(aX+bY)^2] – E[aX+bY]^2 \\
&= E[a^2X^2+b^2Y^2+2abXY] – (E[aX]+E[bY])^2 \\
&= a^2E[X^2]+b^2E[Y^2]+2abE[XY] – (a^2E[X]^2+b^2E[Y]^2+2abE[X]E[Y]) \\
&= a^2(E[X^2]-E[X]^2) + b^2(E[Y^2]-E[Y]^2) + 2ab(E[XY]-E[X]E[Y]) \\
&= a^2V(X) + b^2V(Y) + 2ab\mathrm{Cov}(X,Y)
\end{align}
$$

上記より、$V(aX+bY) = a^2V(X) + b^2V(Y) + 2ab\mathrm{Cov}(X,Y)$が成立する。

問題7.2の解答例

i)
$R_p = xR_1+(1-x)R_2$の期待値E(R_p)と分散V(R_p)は下記のようになる。
$$
\begin{align}
E(R_p) &= E(xR_1+(1-x)R_2) \\
&= xE(R_1) + (1-x)E(R_2) \\
&= xe_1 + (1-x)e_2 \\
V(R_p) &= V(xR_1+(1-x)R_2) \\
&= x^2V(R_1) + (1-x)^2V(R_2) + 2x(1-x)\mathrm{Cov}(R_1,R_2) \\
&= x^2 \sigma_1^2 + (1-x)^2 \sigma_2^2 + 2x(1-x)\rho\sigma_1\sigma_2 \\
&= (\sigma_1^2-2\rho\sigma_1\sigma_2+\sigma_2^2)x^2 -2(\sigma_2^2-\rho\sigma_1\sigma_2)+\sigma_2^2
\end{align}
$$

問題7.3の解答例

確率変数$X$の取りうる値は$X=0,1,2,3$、確率変数$Y$の取りうる値は$Y=1,2$のため、$2 \times 4 = 8$パターンについて計算することで同時確率分布を求めることができる。
$$
\begin{align}
P(X=0,Y=1) &= \frac{1}{2^3} = \frac{1}{8} \\
P(X=1,Y=1) &= 0 \\
P(X=2,Y=1) &= 0 \\
P(X=3,Y=1) &= \frac{1}{2^3} = \frac{1}{8} \\
P(X=0,Y=2) &= 0 \\
P(X=1,Y=2) &= \frac{3}{2^3} = \frac{3}{8} \\
P(X=2,Y=2) &= \frac{3}{2^3} = \frac{3}{8} \\
P(X=3,Y=2) &= 0
\end{align}
$$

ここで$\displaystyle P(X=0)=\frac{1}{8}$、$\displaystyle P(Y=1)=\frac{1}{2}$であるが、$\displaystyle P(X=0, Y=1) = \frac{1}{8} \neq \frac{1}{32} = P(X=0)P(Y=1)$なので、$X$と$Y$は独立ではない。
また、$X$、$Y$、$XY$の確率分布を作成すると下記のようになる。
$$
\begin{align}
P(X=0) &= \frac{1}{8} \\
P(X=1) &= \frac{3}{8} \\
P(X=2) &= \frac{3}{8} \\
P(X=3) &= \frac{1}{8} \\
P(Y=1) &= \frac{1}{4} \\
P(Y=2) &= \frac{3}{4} \\
P(XY=0) &= P(X=0,Y=1)+P(X=0,Y=2) = \frac{1}{8} \\
P(XY=1) &= P(X=1,Y=1) = 0 \\
P(XY=2) &= P(X=2,Y=1)+P(X=1,Y=2) = \frac{3}{8} \\
P(XY=3) &= P(X=3,Y=1) = \frac{1}{8} \\
P(XY=4) &= P(X=2,Y=2) = \frac{3}{8} \\
P(XY=6) &= P(X=3,Y=2) = 0
\end{align}
$$

上記より、$E[X]$、$E[Y]$、$E[XY]$は下記のように計算できる。
$$
\begin{align}
E[X] &= 0 \cdot \frac{1}{8} + 1 \cdot \frac{3}{8} + 2 \cdot \frac{3}{8} + 3 \cdot \frac{1}{8} \\
&= \frac{3}{8} + \frac{6}{8} + \frac{3}{8} \\
&= \frac{3}{2} \\
E[Y] &= 1 \cdot \frac{1}{4} + 2 \cdot \frac{3}{4} \\
&= \frac{7}{4} \\
E[XY] &= 0 \cdot \frac{1}{8} + 1 \cdot 0 + 2 \cdot \frac{3}{8} + 3 \cdot \frac{1}{8} + 4 \cdot \frac{3}{8} + 6 \cdot 0 \\
&= \frac{21}{8}
\end{align}
$$

上記より$\displaystyle E[XY] = \frac{21}{8} = \frac{3}{2} \cdot \frac{7}{4} = E[X]E[Y]$が成立するので$\mathrm{Cov}(X,Y)=0$となり無相関である。

問題7.4の解答例

(Ⅰ)の方法で$m_A$と$m_b$を測った際の計測値をそれぞれ$X_A$、$X_B$とする。このとき、天秤の測定誤差が$\sigma^2$であることから、$V(X_A)=V(X_B)=\sigma^2$となる。
また、(Ⅱ)の方法で計測した重さの和を$Y$、差を$Z$とすると、$m_A$と$m_B$の推定値はそれぞれ$\displaystyle \frac{Y+Z}{2}$、$\displaystyle \frac{Y-Z}{2}$となる。このとき、$\displaystyle V\left( \frac{Y+Z}{2} \right) = V\left( \frac{Y-Z}{2} \right) = \frac{1}{2}\sigma^2$となり、(Ⅱ)の方が優れた方法であるといえる。

問題7.5の解答例

$$
\large
\begin{align}
V[U] &= V[aX+b] \\
&= a^2V[X] \\
V[V] &= V[cY+d] \\
&= c^2V[Y] \\
\mathrm{Cov}(U,V) &= \mathrm{Cov}(aX+b, cY+d) \\
&= ac\mathrm{Cov}(X,Y)
\end{align}
$$

上記を利用して、下記のように導出することができる。
$$
\large
\begin{align}
\rho_{UV} &= \frac{\mathrm{Cov}(U,V)}{\sqrt{V[U]V[V]}} \\
&= \frac{\mathrm{Cov}(aX+b, cY+d)}{\sqrt{V[aX+b]V[cY+d]}} \\
&= \frac{\cancel{ac}\mathrm{Cov}(X,Y)}{\cancel{ac}\sqrt{V[X]V[Y]}} \\
&= \frac{\mathrm{Cov}(X,Y)}{\sqrt{V[X]V[Y]}} \\
&= \rho_{XY}
\end{align}
$$

問題7.6の解答例

i)
$$
\large
\begin{align}
X_{1}, X_{2} & \sim N(0,1) \quad i.i.d., \\
Y_{1} &= aX_{1} + bX_{2} \\
Y_{2} &= cX_{1} + dX_{2}
\end{align}
$$

$7.3$節の議論により、上記のように定義した$Y_{1}, Y_{2}$の相関係数$\rho$は下記のように表すことができる。
$$
\large
\begin{align}
\rho &= \frac{\mathrm{Cov}(Y_1,Y_2)}{\sqrt{V[Y_1]}\sqrt{V[Y_2]}} \\
&= \frac{ac+bd}{\sqrt{a^2+b^2}\sqrt{c^2+d^2}}
\end{align}
$$

上記に$a=1, b=0, c=c, d=1$を代入し、$\rho=0.5$を$c$に関して解く。
$$
\large
\begin{align}
\rho &= 0 \\
\frac{1 \times c + 0 \times 1}{\sqrt{1^2+0^2}\sqrt{c^2+1^2}} &= 0.5 \\
c &= 0.5 \sqrt{c^2+1^2} \\
c^2 &= 0.25(c^2+1) \\
c^2 &= \frac{1}{3} \\
c &= \frac{1}{\sqrt{3}}
\end{align}
$$

ⅱ)
i)と同様に考え、$c^2 = \rho^2(c^2+1)$を$c$に関して解く。
$$
\large
\begin{align}
c^2 &= \rho^2(c^2+1) \\
(1-\rho^2)c^2 &= \rho^2 \\
c &= \frac{\rho}{\sqrt{1-\rho^2}}
\end{align}
$$

ⅲ)

問題7.7の解答例

i)
並列のシステムは全てが故障するまで継続すると考えられるため、$Y=\max(X_1,X_2)$が成立する。このとき確率変数$Y$の確率密度関数を$f_Y(y)$、累積分布関数を$F_Y(y)$とするとそれぞれ下記のように求めることができる。
$$
\large
\begin{align}
F_Y(y) &= F_Y(Y \leq y) \\
&= F_Y(X_1 \leq y, X_2 \leq y) \\
&= F_Y(X_1 \leq y)F_Y(X_2 \leq y) \\
&= (1-e^{-\lambda y})^2
\end{align}
$$
$$
\large
\begin{align}
f_Y(y) &= F_Y'(Y \leq y) \\
&= ( (1-e^{-\lambda y})^2 )’ \\
&= 2\lambda e^{-\lambda y}(1-e^{-\lambda y})
\end{align}
$$

ⅱ)
直列のシステムは一つが故障するまで継続すると考えられるため、$Y=\min(X_1,X_2)$が成立する。このとき確率変数$Y$の確率密度関数を$f_Y(y)$、累積分布関数を$F_Y(y)$とするとそれぞれ下記のように求めることができる。
$$
\large
\begin{align}
F_Y(y) &= F_Y(Y \leq y) \\
&= 1 – F_Y(Y > y) \\
&= 1 – F_Y(X_1 > y)F_Y(X_2 > y) \\
&= 1 – (e^{-\lambda y})^2 \\
&= 1 – (e^{-2\lambda y})
\end{align}
$$
$$
\large
\begin{align}
f_Y(y) &= F_Y'(Y \leq y) \\
&= ( 1 – (e^{-2\lambda y}) )’ \\
&= 2\lambda(e^{-2\lambda y})
\end{align}
$$

問題7.8の解答例

問題7.9の解答例

i) 二項分布

$X_1+X_2=x$を考えた際に$X_1=k$とすると、$X_2=x-k$となる。このときの確率分布を$P(X_1+X_2=x|m,n,p)$を考えると、下記のように計算することができる。($X_1$に対応する試行回数を$m$、$X_2$に対応する試行回数を$n$とする)
$$
\begin{align}
P(X_1+X_2=x|m,n,p) &= \sum_{k=0}^{x} P(X_1=k|m,p)P(X_2=x-k|n,p) \\
&= \sum_{k=0}^{x} {}_m C_k p^{k}(1-p)^{m-k} {}_n C_{x-k} p^{x-k}(1-p)^{n-(x-k)} \\
&= p^{k}(1-p)^{m-k}p^{x-k}(1-p)^{n-(x-k)} \sum_{k=0}^{x} {}_m C_k {}_n C_{x-k} \\
&= p^{k+x-k}(1-p)^{m-k+n-(x-k)} \sum_{k=0}^{x} {}_m C_k {}_n C_{x-k} \\
&= p^{x}(1-p)^{n+m-x} \sum_{k=0}^{x} {}_n C_k {}_m C_{x-k}
\end{align}
$$
このときヴァンデルモンドの畳み込みより、$\displaystyle {}_{m+n} C_x = \sum_{k=0}^{x} {}_m C_k {}_n C_{x-k}$が成立するので、$P(X_1+X_2=x|m,n,p)$は下記のように変形できる。
$$
\begin{align}
P(X_1+X_2=x|m,n,p) &= p^{x}(1-p)^{n+m-x} \sum_{k=0}^{x} {}_n C_k {}_m C_{x-k} \\
&= p^{x}(1-p)^{n+m-x} {}_{m+n} C_x \\
&= {}_{m+n} C_x p^{x}(1-p)^{n+m-x}
\end{align}
$$
上記により二項分布の再生性を示すことができた。(ヴァンデルモンドの畳み込みの式は、$m+n$個の中から$x$個取り出す際に、$m$個から$k$個、$n$個から$x-k$個取り出す方法を考えることで示すことができる)

ⅱ) ポアソン分布

$X_1+X_2=x$を考えた際に$X_1=k$とすると、$X_2=x-k$となる。このときの確率分布を$P(X_1+X_2=x|\lambda_1,\lambda_2)$を考えると、下記のように計算することができる。($X_1$に対応するポアソン分布のパラメータを$\lambda_1$、$X_2$に対応するポアソン分布のパラメータを$\lambda_2$とする)
$$
\begin{align}
P(X_1+X_2=x|\lambda_1,\lambda_2) &= \sum_{k=0}^{x} P(X_1=k|\lambda_1)P(X_2=x-k|\lambda_2) \\
&= \sum_{k=0}^{x} \frac{\lambda_1^k e^{-\lambda_1}}{k!} \frac{\lambda_2^{x-k} e^{-\lambda_2}}{(x-k)!} \\
&= e^{-\lambda_1}e^{-\lambda_2} \sum_{k=0}^{x} \frac{1}{x!} \frac{x!}{k!(x-k)!} \lambda_1^k \lambda_2^{x-k} \\
&= \frac{e^{-(\lambda_1+\lambda_2})}{x!} \sum_{k=0}^{x} {}_x C_k \lambda_1^k \lambda_2^{x-k} \\
&= \frac{e^{-(\lambda_1+\lambda_2})}{x!} (\lambda_1+\lambda_2)^x \\
&= \frac{(\lambda_1+\lambda_2)^x e^{-(\lambda_1+\lambda_2)}}{x!}
\end{align}
$$
上記のたたみこみ(convolution)演算によってポアソン分布の再生性が示された。

ⅲ) 正規分布

$X_1+X_2=x$を考えた際に$X_1=k$とすると、$X_2=x-k$となる。このときの確率分布を$P(X_1+X_2=x|\mu_1,\mu_2,\sigma_1^2,\sigma_2^2)$を考えると、下記のように計算することができる。($X_1$に対応する正規分布のパラメータを$\mu_1$と$\sigma_1^2$、$X_2$に対応する正規分布のパラメータを$\mu_2$と$\sigma_2^2$とする)
$$
\begin{align}
P(X_1 &+ X_2=x|\mu_1,\mu_2,\sigma_1^2,\sigma_2^2) \\
&= \sum_{k=0}^{x} P\left( X_1=k|\mu_1,\sigma_1^2\right) P\left(X_2=x-k|\mu_2,\sigma_2^2\right) \\
&= \sum_{k=0}^{x} \frac{1}{\sqrt{2 \pi \sigma_1^2}}\exp \left( -\frac{(k-\mu_1)^2}{2\sigma_1^2} \right) \times \frac{1} {\sqrt{2 \pi \sigma_2^2}}\exp \left( -\frac{((x-k)-\mu_2)^2}{2\sigma_2^2} \right)
\end{align}
$$
上記に対してガウス積分などを用いて導出を行う。

まとめ

Chapter.$7$「多次元の確率分布」について確認する内容でした。他のChapterに比較しても高度な話題が多いため、徐々に理解すれば十分な内容だと思います。

「Ch.7 「多次元の確率分布」の章末問題の解答例 〜基礎統計学Ⅰ 統計学入門(東京大学出版会)〜」への2件のフィードバック

コメントは受け付けていません。