統計検定1級の2019年11月の「統計数理」の問3の解答例と解説について取り扱いました。他の問題の解答に関しては下記よりご確認ください。
https://www.hello-statisticians.com/stat_certifi_1_math
問題
詳しくは統計検定公式よりご確認ください。
解答
[1]
二項分布$Bin(n,p)$は$n$回のベルヌーイ試行に基づく分布であるので、$i$回目の試行を表す確率変数を$X_i \in \{0,1\}$のようにおくと、二項分布の確率変数$X$は$\displaystyle X = \sum_{i=1}^{n} X_i$のように表すことができる。
ここで確率変数$X_i$に対して期待値$E[X_i]$と分散$V[X_i]$は下記のように表すことができる。
$$
\large
\begin{align}
E[X_i] &= 0 \times (1-p) + 1 \times p \\
&= p \\
V[X_i] &= E[(X_i-E[X_i])^2] \\
&= E[X_i^2] – E[X_i]^2 \\
&= 0^2 \times (1-p) + 1^2 \times p – p^2 \\
&= p – p^2 \\
&= p(1-p)
\end{align}
$$
$X_1,X_2,…,X_n \sim Bin(1,p) \quad i.i.d.,$かつ上記より二項分布$Bin(n,p)$の期待値$E[X]$と分散$V[X]$は下記のように計算できる。
$$
\large
\begin{align}
E[X] &= E[X_1+X_2+…+X_n] \\
&= E[X_1]+E[X_2]+…+E[X_n] \\
&= np \\
V[X] &= V[X_1+X_2+…+X_n] \\
&= V[X_1]+V[X_2]+…+V[X_n] \\
&= np(1-p)
\end{align}
$$
$V[X_1+X_2+…+X_n]=V[X_1]+V[X_2]+…+V[X_n]$は一般的には成立しないが、$X_1,X_2,…,X_n$が$i.i.d.,$のときは成立するので上記の計算を行うことができた。
https://www.hello-statisticians.com/explain-terms-cat/expectation-variance-covariance.html
[2]
条件付き確率に関する公式より、$h(x) = P(X = x|X \geq 1)$は下記のように表すことができる。
$$
\large
\begin{align}
h(x) &= P(X = x|X \geq 1) \\
&= \frac{P(X = x, X \geq 1)}{P(X \geq 1)}
\end{align}
$$
ここで$P(X \geq 1) = 1 – P(X = 0)$より、$P(X \geq 1)$は下記のように求められる。
$$
\large
\begin{align}
P(X \geq 1) &= 1 – P(X = 0) \\
&= 1 – (1 – \theta)^n
\end{align}
$$
よって、条件付き確率$h(x)$は、下記のように導出できる。
$$
\large
\begin{align}
h(x) &= \frac{P(X = x, X \geq 1)}{P(X \geq 1)} \\
&= \frac{{}_n C_x \theta^x (1-\theta)^{n-x}}{1 – (1 – \theta)^n} \quad (x=1,2,…,n)
\end{align}
$$
[3]
・期待値$\eta(\theta)=E[X|X \geq 1]$の導出
$$
\large
\begin{align}
\eta(\theta) &= E[X|X \geq 1] \\
&= \sum_{x=1}^{n} x \times h(x) \\
&= \frac{1}{1 – (1 – \theta)^n} \sum_{x=1}^{n} x {}_n C_x \theta^x (1-\theta)^{n-x} \quad (1)
\end{align}
$$
期待値の定義に基づいて、$E[X|X \geq 1]$は上記のように変形できる。ここで$x {}_n C_x = n {}_{n-1} C_{x-1}$であることは下記のように示すことができる。
$$
\large
\begin{align}
x {}_n C_x &= x \times \frac{n!}{x!(n-x)!} \\
&= n \times \frac{(n-1)!}{(x-1)!(n-x)!} \\
&= n {}_{n-1} C_{x-1} \quad (2)
\end{align}
$$
$(2)$式より$(1)$式は下記のように変形できる。
$$
\large
\begin{align}
\eta(\theta) &= \frac{1}{1 – (1 – \theta)^n} \sum_{x=1}^{n} x {}_n C_x \theta^x (1-\theta)^{n-x} \\
&= \frac{1}{1 – (1 – \theta)^n} \sum_{x=1}^{n} n {}_{n-1} C_{x-1} \theta^x (1-\theta)^{n-x} \\
&= \frac{n}{1 – (1 – \theta)^n} \sum_{y=0}^{n-1} {}_{n-1} C_{y} \theta^{y+1} (1-\theta)^{n-y-1} \quad (3)
\end{align}
$$
上記の変形にあたっては$y=x-1, x=y+1$を用いて文字を置き換えた。
ここで$(3)$式の$\displaystyle \sum_{y=0}^{n-1} {}_{n-1} C_{y} \theta^{y+1} (1-\theta)^{n-x-1}$に対して二項定理より下記が成立する。
$$
\large
\begin{align}
\eta(\theta) &= \frac{n}{1 – (1 – \theta)^n} \sum_{y=0}^{n-1} {}_{n-1} C_{y} \theta^{y+1} (1-\theta)^{n-y-1} \\
&= \frac{n \theta}{1 – (1 – \theta)^n} \sum_{y=0}^{n-1} {}_{n-1} C_{y} \theta^{y} (1-\theta)^{n-y-1} \\
&= \frac{n \theta}{1 – (1 – \theta)^n} (\theta + 1 – \theta)^{n-1} \\
&= \frac{n \theta}{1 – (1 – \theta)^n}
\end{align}
$$
・分散$\xi(\theta)=V[X|X \geq 1]$の導出
$$
\large
\begin{align}
\xi(\theta) &= V[X|X \geq 1] \\
&= E[X(X-1)|X \geq 1] + E[X|X \geq 1] – E[X|X \geq 1]^2 \quad (4)
\end{align}
$$
期待値の定義に基づいて、$V[X|X \geq 1]$は上記のように変形できる。$E[X|X \geq 1]$はすでに求めたので、以下、$E[X(X-1)|X \geq 1]$の導出を行う。
$$
\large
\begin{align}
E[X(X-1)|X \geq 1] &= \sum_{x=1}^{n} x(x-1) \times h(x) \\
&= \frac{1}{1 – (1 – \theta)^n} \sum_{x=1}^{n} x(x-1) {}_n C_x \theta^x (1-\theta)^{n-x} \quad (5) \end{align}
$$ ここで$x(x-1) {}_n C_x$は$x=1$のとき$0$、$x \geq 2$のとき$x(x-1) {}_n C_x = n(n-1) {}_{n-2} C_{x-2}$であることは下記のように示すことができる。
$$
\large
\begin{align}
x(x-1) {}_n C_x &= x(x-1) \times \frac{n!}{x!(n-x)!} \\
&= n(n-1) \times \frac{(n-2)!}{(x-2)!(n-x)!} \\
&= n(n-1) {}_{n-2} C_{x-2} \quad (6)
\end{align}
$$
$(6)$式に基づいて$(5)$式は下記のように変形できる。
$$
\large
\begin{align}
E[X(X-1)|X \geq 1] &= \frac{1}{1 – (1 – \theta)^n} \sum_{x=1}^{n} x(x-1) {}_n C_x \theta^x (1-\theta)^{n-x} \\
&= \frac{1}{1 – (1 – \theta)^n} \sum_{x=2}^{n} x(x-1) {}_n C_x \theta^x (1-\theta)^{n-x} \\
&= \frac{1}{1 – (1 – \theta)^n} \sum_{x=2}^{n} n(n-1) {}_{n-2} C_{x-2} \theta^x (1-\theta)^{n-x} \\
&= \frac{n(n-1)}{1 – (1 – \theta)^n} \sum_{x=2}^{n} {}_{n-2} C_{x-2} \theta^x (1-\theta)^{n-x} \\
&= \frac{n(n-1)}{1 – (1 – \theta)^n} \sum_{y=0}^{n-2} {}_{n-2} C_{y} \theta^{y+2} (1-\theta)^{n-y-2} \\
&= \frac{n(n-1) \theta^2}{1 – (1 – \theta)^n} \sum_{y=0}^{n-2} {}_{n-2} C_{y} \theta^{y} (1-\theta)^{n-y-2} \\
&= \frac{n(n-1) \theta^2}{1 – (1 – \theta)^n} (\theta + 1 – \theta)^{n-2} \\
&= \frac{n(n-1) \theta^2}{1 – (1 – \theta)^n} \quad (7)
\end{align}
$$
$(4)$式は$(7)$式と$\eta(\theta)$の導出結果を用いることで、下記のように導出できる。
$$
\large
\begin{align}
\xi(\theta) &= E[X(X-1)|X \geq 1] + E[X|X \geq 1] – E[X|X \geq 1]^2 \\
&= \frac{n(n-1) \theta^2}{1 – (1 – \theta)^n} + \frac{n \theta}{1 – (1 – \theta)^n} – \left( \frac{n \theta}{1 – (1 – \theta)^n} \right)^2 \\
&= \frac{n^2 \theta – n \theta^2 + n \theta}{1 – (1 – \theta)^n} – \frac{n^2 \theta^2}{\left\{ 1 – (1 – \theta)^n \right\}^2} \\
&= \frac{n \theta(1 – \theta)}{1 – (1 – \theta)^n} + \frac{n^2 \theta^2(1 – (1 – \theta)^n) – n^2 \theta^2}{\left\{ 1 – (1 – \theta)^n \right\}^2} \\
&= \frac{n \theta(1 – \theta)}{1 – (1 – \theta)^n} + \frac{- n^2 \theta^2(1 – \theta)^n}{\left\{ 1 – (1 – \theta)^n \right\}^2} \\
&= \frac{n \theta(1 – \theta)}{1 – (1 – \theta)^n} – \frac{n^2 \theta^2(1 – \theta)^n}{\left\{ 1 – (1 – \theta)^n \right\}^2}
\end{align}
$$
[4]
$E[X] = n \theta$であるので、$\eta(\theta) = 2n \theta$が成立する$\theta$を求めればよい。
$$
\large
\begin{align}
\eta(\theta) &= 2n \theta \\
\frac{n \theta}{1 – (1 – \theta)^n} &= 2n \theta \\
\frac{1}{1 – (1 – \theta)^n} &= 2 \\
1 &= 2(1 – (1 – \theta)^n) \\
1 &= 2 – 2(1 – \theta)^n) \\
2(1 – \theta)^n) &= 1 \\
(1 – \theta)^n &= 0.5 \\
1 – \theta &= (0.5)^{\frac{1}{n}} \\
\theta &= 1 – (0.5)^{\frac{1}{n}}
\end{align}
$$
上記に対して$n=8$のときの$\theta$を計算すると、$\theta \simeq 1 – 0.917 = 0.083$が得られる。
[5]
観測値$y_1,…,y_m$に関する尤度を$L(\theta|\theta|y_1,…,y_m)$のようにおくと、$L(\theta|y_1,…,y_m)$は同時確率に一致することから下記のように表すことができる。
$$
\large
\begin{align}
L(\theta|y_1,…,y_m) = \prod_{i=1}^{n} \frac{{}_n C_{y_i} \theta^{y_i} (1-\theta)^{n-y_i}}{1-(1-\theta)^n}
\end{align}
$$
このとき対数尤度を$l(\theta) = \log L(\theta|y_1,…,y_m)$のようにおくと、$l(\theta)$は下記のように変形できる。
$$
\large
\begin{align}
l(\theta) &= \log L(\theta|y_1,…,y_m) \\
&= \log \prod_{i=1}^{n} \frac{{}_n C_{y_i} \theta^{y_i} (1-\theta)^{n-y_i}}{1-(1-\theta)^n} \\
&= \sum_{i=1}^{n} \log \left\{ \frac{{}_n C_{y_i} \theta^{y_i} (1-\theta)^{n-y_i}}{1-(1-\theta)^n} \right\} \\
&= \sum_{i=1}^{n} \left\{ \log {}_n C_{y_i} + y_i \log \theta (n-y_i) \log (1-\theta) – \log(1-(1-\theta)^n) \right\} \\
&= \sum_{i=1}^{n} \left\{y_i \log \theta + (n-y_i) \log (1-\theta) – \log(1-(1-\theta)^n) + Const. \right\}
\end{align}
$$
上記では$\theta$に関係ない項を$Const.$のようにおいた。
ここで$l(\theta)$を$\theta$で偏微分することを考える。
$$
\large
\begin{align}
\frac{\partial l(\theta)}{\partial \theta} &= \sum_{i=1}^{n} \left\{ \frac{y_i}{\theta} – \frac{n-y_i}{1-\theta} – \frac{-n(1-\theta)^{n-1} \times (-1)}{1-(1-\theta)^n} \right\} \\
&= \sum_{i=1}^{n} \left\{ \frac{y_i}{\theta} – \frac{n-y_i}{1-\theta} – \frac{n(1-\theta)^{n-1}}{1-(1-\theta)^n} \right\} \\
&= \frac{m \bar{y}}{\theta} – \frac{mn – m \bar{y}}{1-\theta} – \frac{mn(1-\theta)^{n-1}}{1-(1-\theta)^n}
\end{align}
$$
上記が$0$になる$\theta$の値を以下導出を行う。
$$
\large
\begin{align}
\frac{\partial l(\theta)}{\partial \theta} &= 0 \\
\frac{m \bar{y}}{\theta} – \frac{mn – m \bar{y}}{1-\theta} – \frac{mn(1-\theta)^{n-1}}{1-(1-\theta)^n} &= 0 \\
\frac{\bar{y}}{\theta} – \frac{n – \bar{y}}{1-\theta} &= \frac{n(1-\theta)^{n-1}}{1-(1-\theta)^n} \\
(\bar{y}(1-\theta) – (n – \bar{y})\theta) \left\{ 1-(1-\theta)^n \right\} &= n(1-\theta)^{n-1} \theta(1-\theta) \\
(\bar{y} – \bar{y}\theta – n \theta + \bar{y} \theta) \left\{ 1-(1-\theta)^n \right\} &= n \theta (1-\theta)^{n} \\
(\bar{y} – n \theta) \left\{ 1-(1-\theta)^n \right\} &= n \theta (1-\theta)^{n} \\
\bar{y} – \bar{y}(1-\theta)^n – n \theta + n \theta (1-\theta)^n &= n \theta (1-\theta)^{n} \\
n \theta &= \bar{y} \left\{ 1-(1-\theta)^n) \right\}
\end{align}
$$
パラメータ$\theta$の最尤推定値$\hat{\theta}$は上記に基づいて、何らかの数値計算の手法などを用いて計算することができる。
また、$(8)$式より、$\bar{y}$に関して下記が成立する。
$$
\large
\begin{align}
\bar{y} = \frac{n \theta}{1-(1-\theta)^n)} = \eta(\theta)
\end{align}
$$
よって、$\hat{\theta}$はモーメント法に基づく推定値でもあることが確認できる。
解説
[2]の分子の$P(X = x, X \geq 1)$の取り扱いがいきなり出てくるのでやや難しいかもしれません。[3]も期待値の定義に基づく変形に気づかなければ解くのが難しい印象でした。上記の解答では$x {}_n C_x = n {}_{n-1} C_{x-1}$と二項定理を用いましたが、計算ミスが多くなりやすいかもしれません。また、[3]の分散の計算にあたっては$V[X]=E[X(X-1)]+E[X]-E[X]^2$を用いましたが、これは確率母関数による$E[X], V[X]$の導出の際の式と同様なので、抑えておくと良いと思います。
20点配分なら[1]が3点、[2]が3点、[3]が5点、[4]が3点、[5]が6点ほどが全体の難易度から見ると妥当な印象ですが、解答状況を鑑みて序盤の問題に多めに点が配分されるかもしれません。