ブログ

統計検定1級 統計数理 問題解説 ~2019年11月実施 問3~

統計検定1級の2019年11月の「統計数理」の問3の解答例と解説について取り扱いました。他の問題の解答に関しては下記よりご確認ください。
https://www.hello-statisticians.com/stat_certifi_1_math

問題

詳しくは統計検定公式よりご確認ください。

解答

[1]
一様分布を考えるにあたって指示関数$\mathit{I}_{[x \leq c]}(x)$を下記のように定義する。
$$
\large
\begin{align}
\mathit{I}_{[x \leq c]}(x) &= 1, \quad if \quad x \leq c \\
&= 0 \quad otherwise
\end{align}
$$

上記は$x$に関して$x \leq c$が成立すれば$\mathit{I}_{[x \leq c]}(x)=1$、そうでなければ$\mathit{I}_{[x \leq c]}(x)=0$を表す。

このとき一様分布$U(0,\theta)$に従う確率変数$X_i$の確率密度関数を$f(x_i)$と定義すると、$f(x_i)$は指示関数を用いて下記のように表すことができる。
$$
\large
\begin{align}
f(x_i) = \frac{1}{\theta} \mathit{I}_{[0 \leq x_i \leq \theta]}(x_i)
\end{align}
$$

上記に基づいて、確率変数$X_1,X_2,…,X_n$に関する同時確率密度関数を$f(x_1,x_2,…,x_n)$のように定義すると、$f(x_1,x_2,…,x_n)$は下記のように表せる。
$$
\large
\begin{align}
f(x_1,x_2,…,x_n) &= \prod_{i=1}^{n} \frac{1}{\theta} \mathit{I}_{[0 \leq x_i \leq \theta]}(x_i) \\
&= \frac{1}{\theta^n} \prod_{i=1}^{n} \mathit{I}_{[0 \leq x_i \leq \theta]}(x_i) \\
&= \frac{1}{\theta^n} \mathit{I}_{[0 \leq x_1 \leq \theta, …, 0 \leq x_n \leq \theta]}(x_1,…,x_n) \\
&= \frac{1}{\theta^n} \mathit{I}_{[0 \leq \min x_i]}(x_1,…,x_n) \mathit{I}_{[\max x_i \leq \theta]}(x_1,…,x_n) \\
&= \frac{1}{\theta^n} \mathit{I}_{[0 \leq \min x_i]}(x_1,…,x_n) \mathit{I}_{[y \leq \theta]}(y)
\end{align}
$$

上記より、Fisher-Neymanの分解定理により、$Y$が$\theta$に関する十分統計量であることが確認できる。

[2]
$Y$の累積分布関数を$G(y)$とおくとき、$G(y)$は$0 < y < \theta$の範囲で下記のように表すことができる。
$$
\large
\begin{align}
G(y) &= P(Y \leq y) \\
&= P(X_1,X_2,…,X_n \leq y) \\
&= P(X_1 \leq y)P(X_2 \leq y)…P(X_n \leq y) \\
&= \prod_{i=1}^{n} \frac{y}{\theta} \\
&= \frac{y^n}{\theta^n}
\end{align}
$$

$Y$の確率密度関数の$g(y)$は$G(y)$を$y$で微分することで、$0 < y < \theta$の範囲で下記のように得ることができる。
$$
\large
\begin{align}
g(y) &= \frac{d}{dy} G'(y) \\
&= \frac{d}{dy} \left( \frac{y^n}{\theta^n} \right)’ \\
&= \frac{n}{\theta^n} y^{n-1}
\end{align}
$$

[3]
$Y=y$が与えられた際の$X_1,…,X_n$に関する条件付き同時確率密度関数を$Y$以外の確率変数を$X_1,…,X_{n-1}$とおくことで$f(x_1,…,x_{n-1}|y)$のように定義する。このとき条件付き確率の式より、$f(x_1,…,x_{n-1}|y)$は下記のように表すことができる。
$$
\large
\begin{align}
f(x_1,…,x_{n-1}|y) = \frac{f(x_1,…,x_{n-1},y)}{g(y)}
\end{align}
$$

上記の$g(y)$は[2]で求めた。$f(x_1,…,x_{n-1},y)$は一様分布の1つの地点であり、$Y$の選び方が$n$通りあると考えると下記が成立する。
$$
\large
\begin{align}
f(x_1,…,x_{n-1},y) = \frac{n}{\theta^n}
\end{align}
$$

ここまでの議論により、条件付き確率$f(x_1,…,x_{n-1}|y)$は下記のように導出できる。
$$
\large
\begin{align}
f(x_1,…,x_{n-1}|y) &= \frac{f(x_1,…,x_{n-1},y)}{g(y)} \\
&= \frac{\frac{n}{\theta^n}}{\frac{n}{\theta^n} y^{n-1}} \\
&= \frac{1}{y^{n-1}}
\end{align}
$$

・別解
$Y=X_n$となる確率が$1/n$と考えて解く方法もある。← 公式書籍に記載されているので、そちらを参照ください。

[4]
$Y$の期待値$E[Y]$は下記のように計算することができる。
$$
\large
\begin{align}
E[Y] &= \int_{0}^{\theta} y \cdot g(y) dy \\
&= \int_{0}^{\theta} y \cdot \frac{n}{\theta^n} y^{n-1} dy \\
&= \frac{n}{\theta^n} \int_{0}^{\theta} y^{n} dy \\
&= \frac{n}{\theta^n} \left[ \frac{1}{n+1} y^{n+1} \right]_{0}^{\theta} \\
&= \frac{n}{\theta^n} \times \frac{\theta^{n+1}}{n+1} \\
&= \frac{n}{n+1} \theta
\end{align}
$$

また、上記より、下記が成立する。
$$
\large
\begin{align}
E \left[ \frac{n+1}{n}Y \right] &= \frac{n+1}{n} E[Y] \\
&= \frac{n+1}{n} \times \frac{n}{n+1} \theta \\
&= \theta
\end{align}
$$
上記より$\displaystyle \tilde{\theta} = \frac{n+1}{n} Y$とおけば$E[\tilde{\theta}]=\theta$より、$\tilde{\theta}$が不偏推定量であることがわかる。

[5]
$E[u(Y)]=0$であることより、下記のように考えることができる。
$$
\large
\begin{align}
E[u(Y)] &= \int_{0}^{\theta} u(y) \cdot g(y) dy \\
&= \int_{0}^{\theta} u(y) \cdot \frac{n}{\theta^n} y^{n-1} dy \\
&= \frac{n}{\theta^n} \int_{0}^{\theta} u(y) y^{n-1} dy = 0 \\
\end{align}
$$

上記が全ての$\theta$で成立するには$u(Y)$がなめらかであることより$u(Y) \equiv 0$でなければならない。

[6]
$s(Y)$を$\theta$の別の不偏推定量であると考えると、$E[s(Y)]=\theta$が成立する。ここで$u(Y)=s(Y)-\tilde{\theta}$とおくと、$E[u(Y)]$は下記のように変形できる。
$$
\large
\begin{align}
E[u(Y)] &= E \left[ s(Y)-\tilde{\theta} \right] \\
&= E \left[ s(Y) \right] – E \left[ \frac{n+1}{n}Y \right] \\
&= \theta – \theta \\
&= 0
\end{align}
$$
ここで[5]より$E[u(Y)]=0 \implies u(Y) \equiv 0$が成立し、$u(Y) \equiv 0$より$s(Y) \equiv \tilde{\theta}$も成立する。よって、[4]で計算を行なった$\tilde{\theta}$が唯一の不偏推定量であることがわかる。

解説

[1]でFisher-Neymanの分解定理を用いて示した十分統計量に関しては[3]の式が$\theta$に依存しないことを確認することで示すことができます。[1]と[3]が重複することでミスリードを生むとも思われるので、何かしら問題文に追記がある方が良い印象でした。
また、[4]で導出を行なった一様分布の不偏推定量が$\displaystyle \tilde{\theta} = \frac{n+1}{n} Y = \frac{n+1}{n} \max X_i$となるのは最尤推定量が$\max X_i$であるのと合わせて抑えておくと良いと思います。
20点配分なら[1]が5点、[2]が3点、[3]が3点、[4]が3点、[5]が3点、[6]が3点ほどが妥当だと思われました。

統計検定1級 統計数理 問題解説 ~2019年11月実施 問1~

統計検定1級の2019年11月の「統計数理」の問1の解答例と解説について取り扱いました。他の問題の解答に関しては下記よりご確認ください。
https://www.hello-statisticians.com/stat_certifi_1_math

問題

詳しくは統計検定公式よりご確認ください。

解答

[1]
$G_{X}(t)$を$t$に関して$1$階微分、$2$階微分を行うと下記が得られる。
$$
\large
\begin{align}
\frac{d}{dt} G_{X}(t) &= \frac{d}{dt} E[t^X] \\
&= E \left[ \frac{d}{dt} t^X \right] \\
&= E[Xt^{X-1}] \\
\frac{d^2}{dt^2} G_{X}(t) &= \frac{d}{dt} E[Xt^{X-1}] \\
&= E \left[ \frac{d}{dt} Xt^{X-1} \right] \\
&= E[X(X-1)t^{X-2}]
\end{align}
$$

上記に対し、$t=1$を代入することで下記が得られる。
$$
\large
\begin{align}
\frac{d}{dt} G_{X}(t) \Bigr|_{t=1} &= E[X 1^{X-1}] \\
&= E[X] = G{X}'(1) \\
\frac{d^2}{dt^2} G_{X}(t) \Bigr|_{t=1} &= E[X(X-1) 1^{X-2}] \\
&= E[X(X-1)] = G{X}^{”}(1)
\end{align}
$$

ここで$V[X]=E[X^2]-E[X]^2$より確率変数$X$の期待値と分散は下記のように確率母関数を用いて表すことができる。
$$
\large
\begin{align}
E[X] &= G_{X}'(1) \\
V[X] &= E[X^2]-E[X]^2 \\
&= E[X(X-1+1)]-E[X]^2 \\
&= E[X(X-1)+X]-E[X]^2 \\
&= E[X(X-1)]+E[X]-E[X]^2 \\
&= G_{X}^{”}(1) + G_{X}'(1) – G_{X}'(1)^2
\end{align}
$$

[2]
二項分布の確率変数$X$に対し、$i$回目のベルヌーイ試行の確率変数を$X_i \in {0,1}$とおく。このとき$X_i$に関して$E[t^{X_i}]$は下記のように計算できる。
$$
\large
\begin{align}
E[t^{X_i}] &= p t^{1} + (1-p) t^{0} \\
&= pt + 1 – p
\end{align}
$$

ここで$\displaystyle X = \sum_{i=1}^{n} X_i$のように表せることから、二項分布に関する確率母関数$G_{X}(t)=E[t^X]$は下記のように求めることができる。
$$
\large
\begin{align}
G_{X}(t) &= E[t^{X}] \\
&= E[t^{\sum_{i=1}^{n} X_i}] \\
&= E[t^{X_1}] \times E[t^{X_2}] \times … \times E[t^{X_n}] \\
&= (pt + 1 – p) \times … \times (pt + 1 – p) \\
&= (pt + 1 – p)^n
\end{align}
$$

また、$G_{X}'(t), G_{X}^{”}(t)$は下記のように計算できる。
$$
\large
\begin{align}
G_{X}'(t) &= \frac{d}{dt} (pt + 1 – p)^n \\
&= np(pt + 1 – p)^{n-1} \\
G_{X}^{”}(t) &= \frac{d}{dt} G_{X}'(t) \\
&= \frac{d}{dt} (np(pt + 1 – p)^{n-1}) \\
&= n(n-1)p^2 (pt + 1 – p)^{n-2}
\end{align}
$$

よって、$G_{X}'(1), G_{X}^{”}(1)$に関して下記が得られる。
$$
\large
\begin{align}
G_{X}'(1) &= np(p \cdot 1 + 1 – p)^{n-1} \\
&= np \times 1^{n-1} \\
&= np \\
G_{X}^{”}(1) &= n(n-1)p^2 (p \cdot 1 + 1 – p)^{n-2} \\
&= n(n-1)p^2 \times 1^{n-1} \\
&= n(n-1)p^2
\end{align}
$$

上記と[1]の結果を元に、二項分布$Bin(n,p)$の期待値$E[X]$と分散$V[X]$は下記のように導出することができる。
$$
\large
\begin{align}
E[X] &= G_{X}'(1) \\
&= np \\
V[X] &= G_{X}^{”}(1) + G_{X}'(1) – G_{X}'(1)^2 \\
&= n(n-1)p^2 + np – (np)^2 \\
&= n^2p^2 – np^2 + np – n^2p^2 \\
&= np – np^2 \\
&= np(1-p)
\end{align}
$$

・別解
公式の書籍での解答のように定義に沿って計算し、二項定理を用いて導出を行うこともできる。が、少々式が複雑なので、ここではベルヌーイ分布の確率変数$X_i$を考え、その和を元に二項分布の確率変数$X$を考えた。

[3]
$$
\large
\begin{align}
G_{X}(t) = E[t^X] = \sum_{k} t^k P(X=k) \quad (-1 \leq t \leq 1) \qquad (1)
\end{align}
$$
問題文では上記の$(1)$式が与えられるが、右辺の$\displaystyle \sum_{k}$に対し、$\displaystyle \sum_{k} = \sum_{k \leq r} + \sum_{k > r}$を考えると下記が得られる。
$$
\large
\begin{align}
\sum_{k} t^k P(X=k) = \sum_{k \leq r} t^k P(X=k) + \sum_{k > r} t^k P(X=k)
\end{align}
$$

ここで$\displaystyle \sum_{k \leq r} t^k P(X=k) \leq 0, \sum_{k > r} t^k P(X=k) \leq 0$より$G_{X}(t)$に関して下記が得られる。
$$
\large
\begin{align}
G_{X}(t) &= \sum_{k} t^k P(X=k) \\
& \geq \sum_{k \leq r} t^k P(X=k)
\end{align}
$$

上記の両辺に$t^{-r}$をかけることを考える。ここで$0 < t \leq 1$より$t^{-r}>0$であり、不等号は入れ替わらない。
$$
\large
\begin{align}
t^{-r} G_{X}(t) & \geq t^{-r} \sum_{k \leq r} t^k P(X=k) \\
&= \sum_{k \leq r} t^{k-r} P(X=k)
\end{align}
$$
上記に対し、$k-r \leq 0$より、$0 < t \leq 1$から$t^{k-r} \geq 1$が成立する。
$$
\large
\begin{align}
\sum_{k \leq r} t^{k-r} P(X=k) & \geq \sum_{k \leq r} P(X=k) \\
&= P(X \leq r)
\end{align}
$$

ここまでの議論により、$P(X \leq r) \leq t^{-r} G_{X}(t)$を示すことができる。

[4]
[3]の結果に対して$r=an$を代入し、下記を得る。
$$
\large
\begin{align}
P(X \leq an) \leq t^{-an} G_{X}(t)
\end{align}
$$

ここで右辺の$t^{-an} G_{X}(t) = t^{-an} (pt+1-p)^n$を$f(t)$とおき、$0 < t \leq 1$における最小値を求めることを考える。$t$に関する$f'(t)$を計算する。
$$
\large
\begin{align}
f'(t) &= \frac{d}{dt} (t^{-an} (pt+1-p)^n) \\
&= -an t^{-an-1} \times (pt+1-p)^n + t^{-an} \times np(pt+1-p)^{n-1} \\
&= n t^{-an-1} (pt+1-p)^{n-1} \times -a(pt+1-p) + n t^{-an-1} (pt+1-p)^{n-1} \times pt \\
&= n t^{-an-1} (pt+1-p)^{n-1} \left(-a(pt+1-p) + pt \right) \\
&= n t^{-an-1} np(pt+1-p)^{n-1} \left( pt(1-a) – a(1-p) \right) \\
&= n t^{-an-1} np(pt+1-p)^{n-1} \left( p(1-a)t – a(1-p) \right)
\end{align}
$$

上記に対して$f'(t)=0$となる$t$を考える。
$$
\large
\begin{align}
f'(t) &= 0 \\
p(1-a)t – a(1-p) &= 0 \\
t &= \frac{a(1-p)}{p(1-a)}
\end{align}
$$
ここで$a0, t^{-an-1}>0, pt+1-p>0, p>0, 1-a>0$より、$f'(t)$は$t$に関する単調増加関数である。

よって、$f(t)$は$\displaystyle t=\frac{a(1-p)}{p(1-a)}$の時、最小値をとる。これを$t^{-an} G_{X}(t)$に代入を行うことで下記が導出できる。
$$
\large
\begin{align}
P(X \leq an) & \leq \min ( t^{-an} G_{X}(t) ) \\
&= \min ( t^{-an} (pt+1-p)^{n} ) \\
&= \left( \frac{a(1-p)}{p(1-a)} \right)^{-an} \left( p \cdot \frac{a(1-p)}{p(1-a)} + 1 – p \right)^{n} \\
&= \left( \frac{a(1-p)}{p(1-a)} \right)^{-an} \left( \frac{a(1-p)}{1-a} + 1 – p \right)^{n} \\
&= \left( \frac{a(1-p)}{p(1-a)} \right)^{-an} \left( \frac{a(1-p)+(1-a)(1-p)}{1-a} \right)^{n} \\
&= \left( \frac{a(1-p)}{p(1-a)} \right)^{-an} \left( \frac{(1-p)}{1-a} \right)^{n} \\
&= \left( \frac{a}{p} \right)^{-an} \left( \frac{(1-p)}{1-a} \right)^{(1-a)n}
\end{align}
$$

解説

[2]までは教科書などでも出てくる導出であるので、ここまでは必ず解けるようにしておくと良いと思います。確率母関数やモーメント母関数を用いる際は確率変数の和を考えると計算が簡単になる場合が多いので、このような解法も抑えておくと良いです。
20点配分なら[1]が3点、[2]が7点、[3]が2点、[4]が8点くらいが良い印象で、[4]の計算は少々複雑なので[3]まで解いて[4]は部分点狙いでも十分だと思います。
また、[4]の公式の解答に、$f'(t)$が単調増加であることが書かれていないですが、$f'(t)=0$は最小値の必要条件でしかないので、単調増加も議論しておく方が良いと思います。

統計検定1級 統計数理 問題解説 ~2019年11月実施 問2~

統計検定1級の2019年11月の「統計数理」の問2の解答例と解説について取り扱いました。他の問題の解答に関しては下記よりご確認ください。
https://www.hello-statisticians.com/stat_certifi_1_math

問題

詳しくは統計検定公式よりご確認ください。

解答

[1]
$E[U]=E[X_1+X_2]=2E[X_1]$より、$E[X_1]$を求めることを考える。
$$
\large
\begin{align}
E[X_1] &= \int_{0}^{\infty} x \times \lambda e^{-\lambda x} dx \\
&= \left[ x \times -\frac{\lambda}{\lambda} e^{-\lambda x} \right]_{0}^{\infty} + \int_{0}^{\infty} x e^{-\lambda x} dx \\
&= \left[ -\frac{1}{\lambda} x e^{-\lambda x} \right]_{0}^{\infty} \\
&= -\frac{1}{\lambda} (0-1) \\
&= \frac{1}{\lambda}
\end{align}
$$

よって、$E[U]$は下記のように求められる。
$$
\large
\begin{align}
E[U] &= 2E[X_1] \\
&= 2 \times \frac{1}{\lambda} \\
&= \frac{2}{\lambda}
\end{align}
$$

[2]
下記のように確率変数$X_1,X_2$から確率変数$U,V$への変換を考える。
$$
\large
\begin{align}
U &= X_1+X_2 \\
V &= X_1
\end{align}
$$
このとき、逆変換は下記のように表せる。
$$
\large
\begin{align}
X_1 &= V \\
X_2 &= U-V
\end{align}
$$

ここでこの変換に関するヤコビ行列を$\mathbf{J}$とおくと、$\mathbf{J}$は下記のように表せる。
$$
\large
\begin{align}
\mathbf{J} &= \left( \begin{array}{cc} \frac{\partial x_1}{\partial u} & \frac{\partial x_1}{\partial v} \\ \frac{\partial x_2}{\partial u} & \frac{\partial x_1}{\partial v} \end{array} \right) \\
&= \left( \begin{array}{cc} 0 & 1 \\ 1 & -1 \end{array} \right)
\end{align}
$$
よって、ヤコビアン$|\det \mathbf{J}|$は下記のように計算できる。
$$
\large
\begin{align}
|\det \mathbf{J}| &= abs \left| \begin{array}{cc} 0 & 1 \\ 1 & -1 \end{array} \right| \\
&= |0 \cdot (-1) – 1 \cdot 1| \\
&= 1
\end{align}
$$

ここで$U,V$に関する確率密度関数の$g(u,v)$を考えると、変数変換に関する公式より下記のように導出できる。
$$
\large
\begin{align}
g(u,v) &= f(x_1,x_2) |\det \mathbf{J}| \\
&= f(x_1)f(x_2) \\
&= f(v)f(u-v) \\
&= \lambda e^{-\lambda v} \times \lambda e^{-\lambda (u-v)} \\
&= \lambda^2 e^{-\lambda u}
\end{align}
$$

また、$x_1>0,x_2>0$より、$v$に関して$0<v<u$が成立する。よって、確率密度関数$g(u)$は下記のように導出できる。
$$
\large
\begin{align}
g(u) &= \int_{0}^{\infty} g(u,v) dv \\
&= \int_{0}^{\infty} \lambda^2 e^{-\lambda u} dv \\
&= \lambda^2 e^{-\lambda u} [v]_{0}^{u} \\
&= u \lambda^2 e^{-\lambda u}
\end{align}
$$

[3]
期待値$\displaystyle E \left[ \frac{1}{U} \right]$は下記のように計算を行うことができる。
$$
\large
\begin{align}
E \left[ \frac{1}{U} \right] &= \int_{0}^{\infty} \frac{1}{u} g(u) du \\
&= \int_{0}^{\infty} \frac{1}{u} \times u \lambda^2 e^{-\lambda u} du \\
&= \int_{0}^{\infty} \lambda^2 e^{-\lambda u} du \\
&= \left[ -\frac{1}{\lambda} \lambda^2 e^{-\lambda u} \right]_{0}^{\infty} \\
&= \left[ -\lambda e^{-\lambda u} \right]_{0}^{\infty} \\
&= -\lambda(0-1) \\
&= \lambda
\end{align}
$$

[4]
$R(\alpha,\theta)$を定義に基づいて計算を行う。
$$
\large
\begin{align}
R(\alpha,\theta) &= E[L(\alpha \bar{X},\theta)] \\
&= E \left[ \frac{\alpha \bar{X}}{\theta} + \frac{\theta}{\alpha \bar{X}} – 2 \right] \\
&= E \left[ \frac{\alpha U}{2 \theta} \right] + E \left[ \frac{2 \theta}{\alpha U} \right] – 2 \\
&= \frac{2 \alpha}{2 \theta \lambda} + \frac{2 \theta \lambda}{\alpha} – 2 \\
&= \frac{\alpha}{\theta \lambda} + \frac{2 \theta \lambda}{\alpha} – 2 \\
&= \alpha + \frac{2}{\alpha} – 2
\end{align}
$$
上記の途中式では$\displaystyle \theta = \frac{1}{\lambda}$を用いた。

ここで$\displaystyle R(\alpha) = \alpha + \frac{2}{\alpha} – 2$が最小となる際の$\alpha$を求めるにあたって、$R(\alpha)$を$\alpha$で微分する。
$$
\large
\begin{align}
\frac{d}{d \alpha}R(\alpha) = 1 – \frac{2}{\alpha^2}
\end{align}
$$
上記より$\alpha=\sqrt{2}$の前後で$\displaystyle \frac{d}{d \alpha}R(\alpha)$の符号が$-$から$+$に入れ替わる。よって、$R(\alpha,\theta)$が最小になる$\alpha$の条件は$\alpha=\sqrt{2}$であることがわかる。

・別解
$\displaystyle \alpha + \frac{2}{\alpha}$に関して相加平均・相乗平均の不等式の等号成立条件の$\displaystyle \alpha = \frac{2}{\alpha}$を考えても良い。
$$
\large
\begin{align}
\alpha &= \frac{2}{\alpha} \\
\alpha^2 &= 2
\end{align}
$$
上記に対して$\alpha>0$より$\alpha=\sqrt{2}$となる。

解説

[2]が2変数の変数変換であり計算が複雑なのと、$V=X_1$とおくところが問題文にないことから少々難しいのではという印象でした。また、$g(u,v)$の導出後に積分を行うことや、その後の[3]が簡単なことからも問題を2つに分割しても良いと思われます。
20点配分なら[1]が3点、[2]が9点、[3]が2点、[4]が6点くらいが妥当な印象で、[2]を解かないと[3]が解けないことから[4]に比べても[2]の配点を大きくするのが良いのではと思われました。

指数型分布族における一様最強力不偏検定(UMPU test)とその図形的解釈

当記事では指数型分布族の式に関して一様最強力不偏検定(Uniformly Most Powerful Unbiased test)に関する補題を適用し、凸関数と直線の比較により両側検定の導出の解釈を行った。「現代数理統計学」の8章の「検定論」を参考に作成を行った。

一様最強力不偏検定に関する補題

一様最強力検定と片側検定

下記で取り扱った。
https://www.hello-statisticians.com/explain-terms-cat/most_powerful_test1.html

一様最強力不偏検定に関する補題

以下、「現代数理統計学」の補題8.5の確認を行う。

・現代数理統計学の補題8.5より一部改変
$$
\large
\begin{align}
H_0 &: \quad \theta = \theta_0 \\
H_1 &: \quad \theta \neq \theta_0
\end{align}
$$
上記のような検定を考える際に、$\beta_{\delta^{*}}(\theta_0)=\alpha,\beta_{\delta^{*}}'(\theta_0)=0$が成立すると仮定する。
ここで$\theta_1 \neq \theta_0$となる$\theta_1$を任意に固定したとき、$\delta^{*}$がある$c_1, c_2$を用いて下記の形式で表されれば$\delta^{*}$は不偏検定である。
$$
\large
\begin{align}
\delta^{*}(x) &= 1, \quad if \quad f(x,\theta_1) – c_1f(x,\theta_0) – c_2 \frac{\partial}{\partial \theta}f(x,\theta_0) > 0 \\
&= r(x), \quad if \quad f(x,\theta_1) – c_1f(x,\theta_0) – c_2 \frac{\partial}{\partial \theta}f(x,\theta_0) = 0 \\
&= 0, \quad if \quad f(x,\theta_1) – c_1f(x,\theta_0) – c_2 \frac{\partial}{\partial \theta}f(x,\theta_0) < 0 \quad (1.1)
\end{align}
$$

ここで任意の$\theta_1 \neq \theta_0$に関して$c_1=c_1(\theta_1),c_2=c_2(\theta_1)$を適当に選んだ際に$\delta^{*}$が$(1.1)$式の形で表されるならば$\delta^{*}$は一様最強力不偏検定である。

$(1.1)$式に関して以降で考えるにあたって、式の共通部分を$g(x,\theta_0,\theta_1)$と定義する。$g(x,\theta_0,\theta_1)$は下記のように表すことができる。
$$
\large
\begin{align}
g(x,\theta_0,\theta_1) = f(x,\theta_1) – c_1f(x,\theta_0) – c_2 \frac{\partial}{\partial \theta}f(x,\theta_0) \quad (1.2)
\end{align}
$$

指数型分布族における一様最強力不偏検定

指数型分布族の式の確認

変数$x$、自然パラメータ$\psi$の指数型分布族の確率関数・確率密度関数を$f(x,\psi)$とおくと、$f(x,\psi)$は下記のように表すことができる。
$$
\large
\begin{align}
f(x,\psi) = h(x) \exp \left\{ \psi T(x) – c(\psi) \right\}
\end{align}
$$

このとき、尤度比$\displaystyle \frac{f(x,\psi)}{f(x,\psi_0)}$は下記のように計算することができる。
$$
\large
\begin{align}
\frac{f(x,\psi)}{f(x,\psi_0)} &= \frac{h(x) \exp \left\{ \psi T(x) – c(\psi) \right\}}{h(x) \exp \left\{ \psi_0 T(x) – c(\psi_0) \right\}} \\
&= \exp \left\{ (\psi – \psi_0) T(x) – (c(\psi) – c(\psi_0)) \right\} \quad (2.1)
\end{align}
$$

上記の$(2.1)$式の両辺に$f(x,\psi_0)$をかけることで、下記で表すような「現代数理統計学」の$(8.56)$式を導出することができる。
$$
\large
\begin{align}
f(x,\psi) = \exp \left\{ (\psi – \psi_0) T(x) – (c(\psi) – c(\psi_0)) \right\} f(x,\psi_0) \quad (2.2)
\end{align}
$$

指数型分布族の微分

前項で取り扱った指数型分布族の確率関数・確率密度関数の$f(x,\psi)$に対して自然パラメータの$\psi$に関して微分を行うと、下記のように計算を行うことができる。
$$
\large
\begin{align}
\frac{\partial}{\partial \psi} f(x,\psi) &= \frac{\partial}{\partial \psi} \left\{ h(x) \exp \left\{ \psi T(x) – c(\psi) \right\} \right\} \\
&= h(x) \exp \left\{ \psi T(x) – c(\psi) \right\} \times \frac{\partial}{\partial \psi} (\psi T(x) – c(\psi)) \\
&= (T(x) – c'(\psi)) f(x,\psi) \quad (2.3)
\end{align}
$$

補題への確率関数の適用

$(1.1),(1.2)$式に対して、$(2.2)$式や$(2.3)$式を元に指数型分布族に関する計算を反映させることを考える。$\theta$と$\psi$が違うとわかりにくいので、$(1.1),(1.2)$式を$\psi$を用いた表記に書き直す。
$$
\large
\begin{align}
\delta^{*}(x) &= 1, \quad if \quad f(x,\psi_1) – c_1f(x,\psi_0) – c_2 \frac{\partial}{\partial \theta}f(x,\psi_0) > 0 \\
&= r(x), \quad if \quad f(x,\psi_1) – c_1f(x,\psi_0) – c_2 \frac{\partial}{\partial \psi}f(x,\psi_0) = 0 \\
&= 0, \quad if \quad f(x,\psi_1) – c_1f(x,\psi_0) – c_2 \frac{\partial}{\partial \theta}f(x,\psi_0) < 0 \quad (1.1)’
\end{align}
$$
$$
\large
\begin{align}
g(x,\psi_0,\psi_1) = f(x,\psi_1) – c_1f(x,\psi_0) – c_2 \frac{\partial}{\partial \psi}f(x,\psi_0) \quad (1.2)’
\end{align}
$$

また、$(2.2)$式を元に$f(x,\psi_1)$を、$(2.3)$式を元に$\displaystyle \frac{\partial}{\partial \psi}f(x,\psi_0)$を考えると下記のように導出できる。
$$
\large
\begin{align}
f(x,\psi_1) = \exp \left\{ (\psi_1 – \psi_0) T(x) – (c(\psi_1) – c(\psi_0)) \right\} f(x,\psi_0) \quad (2.4)
\end{align}
$$
$$
\large
\begin{align}
\frac{\partial}{\partial \psi} f(x,\psi_0) &= \frac{\partial}{\partial \psi} f(x,\psi) \Bigr|_{\psi=\psi_0} \\
&= (T(x) – c'(\psi_0)) f(x,\psi_0) \quad (2.5)
\end{align}
$$

$(1.2)’$式に$(2.4),(2.5)$式の代入を行う。
$$
\large
\begin{align}
g(x,\psi_0,\psi_1) &= f(x,\psi_1) – c_1f(x,\psi_0) – c_2 \frac{\partial}{\partial \psi}f(x,\psi_0) \\
&= \exp \left\{ (\psi_1 – \psi_0) T(x) – (c(\psi_1) – c(\psi_0)) \right\} f(x,\psi_0) – c_1f(x,\psi_0) – c_2 (T(x) – c'(\psi_0)) f(x,\psi_0) \\
&= \left[ \exp \left\{ (\psi_1 – \psi_0) T(x) – (c(\psi_1) – c(\psi_0)) \right\} – c_1 – c_2 (T(x) – c'(\psi_0)) \right] f(x,\psi_0) \quad (2.6)
\end{align}
$$

$(2.6)$式を元に$(1.1)’$式の1番目の式の$g(x,\psi_0,\psi_1)>0$について考える。
$$
\large
\begin{align}
g(x,\psi_0,\psi_1) &> 0 \\
\left[ \exp \left\{ (\psi_1 – \psi_0) T(x) – (c(\psi_1) – c(\psi_0)) \right\} – c_1 – c_2 (T(x) – c'(\psi_0)) \right] f(x,\psi_0) &> 0 \\
\exp \left\{ (\psi_1 – \psi_0) T(x) – (c(\psi_1) – c(\psi_0)) \right\} – c_1 – c_2 (T(x) – c'(\psi_0)) &> 0 \\
\exp \left\{ (\psi_1 – \psi_0) T(x) – (c(\psi_1) – c(\psi_0)) \right\} &> c_1 + c_2 (T(x) – c'(\psi_0)) \\
\exp \left\{ (\psi_1 – \psi_0) T(x) \right\} &> (c_1 + c_2 (T(x) – c'(\psi_0))) \exp \left\{ c(\psi_1) – c(\psi_0) \right\} \\
\exp \left\{ (\psi_1 – \psi_0) T(x) \right\} &> ((c_1- c'(\psi_0)) + c_2 T(x)) \exp \left\{ c(\psi_1) – c(\psi_0) \right\} \quad (2.7)
\end{align}
$$

ここで上記に対し、$\tilde{c}_1=(c_1- c'(\psi_0))\exp \left\{ c(\psi_1) – c(\psi_0) \right\}, \tilde{c}_2=c_2 T(x) \exp \left\{ c(\psi_1) – c(\psi_0) \right\}$のように置き直すことを考える。このとき$(2.7)$式は下記のように変形できる。
$$
\large
\begin{align}
\exp \left\{ (\psi_1 – \psi_0) T(x) \right\} &> ((c_1- c'(\psi_0)) + c_2 T(x)) \exp \left\{ c(\psi_1) – c(\psi_0) \right\} \\
\exp \left\{ (\psi_1 – \psi_0) T(x) \right\} &> \tilde{c}_1 + \tilde{c}_2 T(x) \quad (2.8)
\end{align}
$$

図形的解釈

前項で導出を行なった$(2.8)$式に関して図形的解釈を行う。
$$
\large
\begin{align}
\exp \left\{ (\psi_1 – \psi_0) T(x) \right\} > \tilde{c}_1 + \tilde{c}_2 T(x) \quad (2.8)
\end{align}
$$

$T(x)$を変数、左辺と右辺をそれぞれ関数と見るとき、上記の左辺は$T(x)$に関する指数関数、右辺は$T(x)$に関する一次関数である。

このとき$(2.8)$式の図形的解釈は、「左辺の指数関数が右辺の一次関数を上回る$T(x)$の範囲を表す式」と考えることができる。ここまでで$\psi_0, \psi_1$の大小関係は考えていないが、$\psi_1 – \psi_0 > 0, \psi_1 – \psi_0 < 0$のどちらの場合も「指数関数と一次関数の形状の比較から、両端で指数関数の方が大きくなり、中心で一次関数の方が大きくなるような解しか持ち得ない」ことがわかる。

よって、$\exp \left\{ (\psi_1 – \psi_0) T(x) \right\} > \tilde{c}_1 + \tilde{c}_2 T(x) = 0$が解を持つように$\tilde{c}_1, \tilde{c}_2$を設定する場合、$(2.8)$式の$T(x)$の解は$T(x)<a, b<T(x)$という形式になる。この形式を元に両側検定を導出することができる。

両側検定

前項の導出を元に、下記のような両側検定を考えることができる。
$$
\large
\begin{align}
T(x) > a, b < T(x) \implies reject
\end{align}
$$
上記は下記のように表す一様最強力不偏検定$\delta$に対応する。
$$
\large
\begin{align}
\beta(\phi_0)=\alpha, \beta'(\phi_0)=0
\end{align}
$$
$$
\large
\begin{align}
\delta(x) &= 1, \quad if \quad T(x)<a,b<T(x) \\
&= 0, \quad if \quad a<T(x)<b \\
&= r_a \quad if \quad T(x)=a \\
&= r_b \quad if \quad T(x)=b
\end{align}
$$
具体例がある方がわかりやすければ、下記で解答をまとめた「現代数理統計学」の章末課題の$8.9$で二項分布について取り扱われているので、合わせて確認すると良いと思われる。
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch8.html#89

抑えておきたいニュートン法と勾配法(Gradient Descent)の解釈の違いに関して

最適化問題を解くにあたって、勾配法(Gradient Descent)と同様によく用いられるのがニュートン法である。一方で、元々の数式がシンプルな勾配法とは異なり、ニュートン法は式が難しく表記されることが多いような印象を受ける。
ニュートン法の解説に関しては「ゼロから作るDeep Learning③」の解説が非常にわかりやすいと思われたので、当記事では「ゼロから作るDeep Learning③」の記載を元にニュートン法と勾配法の違いについて更新式の違いに着目することで確認を行う。

勾配法(Gradient Descent)

勾配法の手法の確認

勾配法(Gradient Descent)は最適化問題を繰り返し演算を用いて解く手法である。以下、下に凸の関数$f(x)$に関して$f(x)$が最小になる$x$を求めることを考える。

$f(x)$に対して勾配法を用いるにあたっては、下記の漸化式を用いた更新式を用いる。
$$
\large
\begin{align}
x_{n+1} = x_{n} – \alpha f'(x_{n}) \quad (1)
\end{align}
$$

上記の解釈にあたっては、「点$x_n$における傾きのマイナスの向きに$x_n$を動かす=傾きが正なら数直線の左、傾きが負なら数直線の右に動かす」と考えれば良い。これにより、少なくとも点$x_n$よりも小さい点がある向きに動かして$x_{n+1}$を得ると考えることができる。

また、$\alpha$は学習率であり、$x_n$をどのくらい動かして$x_{n+1}$を得るかということを制御すると考えれば良い。

具体例を元に確認

下に凸の関数$f(x)=x^2$に対して、前項で確認した勾配法を元に値の更新を確認する。計算の簡易化にあたって、$x_0=8, \alpha=0.25$と定義する。このとき$x_1, x_2, x_3$は下記のように計算することができる。
$$
\large
\begin{align}
x_1 &= x_{0} – \alpha f'(x_{0}) \\
&= x_{0} – 0.25 \times 2x_0 \\
&= 0.5x_{0} = 4 \\
x_2 &= x_{1} – \alpha f'(x_{1}) \\
&= x_{1} – 0.25 \times 2x_1 \\
&= 0.5x_{1} = 2 \\
x_3 &= x_{2} – \alpha f'(x_{2}) \\
&= x_{2} – 0.25 \times 2x_2 \\
&= 0.5x_{2} = 1
\end{align}
$$

上記を確認すると、$x_0=8, x_1=4, x_2=2, x_3=1$のように、徐々に値が半分に変化することが確認できる。

ここまでの内容を元に一般項の$x_n$について考える。前項で表した$(1)$式は$x_0=8, \alpha=0.25$のとき下記のように変形を行うことができる。
$$
\large
\begin{align}
x_{n+1} &= x_{n} – \alpha f'(x_{n}) \\
&= x_{n} – 0.25 \times 2 x_n \\
&= 0.5x_{n}
\end{align}
$$
上記は数列$\{x_n\}$が公比$0.5$の等比数列であることを表している。

ニュートン法

$2$次のテイラー展開による関数の近似と最小値

ニュートン法は$x=a$の周辺における$2$次のテイラー展開による関数近似を元に理解するとわかりやすい。
$$
\large
\begin{align}
f(x) &\simeq \frac{f(a)}{0!}(x-a)^0 + \frac{f'(a)}{1!}(x-a)^1 + \frac{f^{”}(a)}{2!}(x-a)^2 \\
&= f(a) + f'(a)(x-a) + \frac{f^{”}(a)}{2}(x-a)^2 = g(x)
\end{align}
$$

上記のように近似を行なった関数$g(x)$が最小値を持つ$x$の値を考えるにあたって、$g'(x)$の計算を行う。
$$
\large
\begin{align}
g'(x) &= \frac{d}{dx} \left( f(a) + f'(a)(x-a) + \frac{f^{”}(a)}{2}(x-a)^2 \right) \\
&= f'(a) + \frac{f^{”}(a)}{2} \cdot 2(x-a) \\
&= f'(a) + f^{”}(a)(x-a)
\end{align}
$$

$g(x)$は下に凸の関数なので、$g'(x)=0$の際に$g(x)$は最小値を持つ。
$$
\large
\begin{align}
g'(x) &= 0 \\
f'(a) + f^{”}(a)(x-a) &= 0 \\
\frac{f'(a)}{f^{”}(a)} + x – a &= 0 \\
x &= a – \frac{f'(a)}{f^{”}(a)}
\end{align}
$$

ここまでの議論により、$g(x)$は$\displaystyle x = a – \frac{f'(a)}{f^{”}(a)}$の時に最小値を持つ。

ニュートン法の手法の確認

ニュートン法は前節の$\displaystyle x = a – \frac{f'(a)}{f^{”}(a)}$の式に対して、$x_{n}=a, x_{n+1}=x$のように置き換えることで更新式を作成することができる。
$$
\large
\begin{align}
x_{n+1} = x_{n} – \frac{f'(x_n)}{f^{”}(x_n)}
\end{align}
$$

具体例を元に確認

ニュートン法は前節の$\displaystyle x = a – \frac{f'(a)}{f^{”}(a)}$の式に対して、$x_{n}=a, x_{n+1}=x$のように置き換えることで更新式を作成することができる。
$$
\large
\begin{align}
x_{n+1} = x_{n} – \frac{f'(x_n)}{f^{”}(x_n)}
\end{align}
$$

具体例を元に確認

勾配法における具体例と同様に$f(x) = x^2, x_0 = 8$に対してニュートン法を考える。このとき$f^{”}(x)=2$より、$x_1$は下記のように計算することができる。
$$
\large
\begin{align}
x_1 &= x_{0} – \frac{f'(x_0)}{f^{”}(x_0)} \\
&= x_{0} – \frac{2 x_0}{2} \\
&= 0
\end{align}
$$
上記では繰り返し計算を行うことなく結果が導出できたが、これはニュートン法が$2$次のテイラー展開による関数近似に基づくことに起因すると考えるとわかりやすい。

上記の例ではニュートン法がそのまま答えを出すことより、比較になりにくいので、$f(x)=x^4$に関しても以下考える。$f'(x)=4x^3$より、勾配法の更新式は下記のように表される。
$$
\large
\begin{align}
x_{n+1} &= x_{n} – \alpha f'(x_{n}) \\
&= x_{n} – \alpha \times 4x_n^3 \\
&= x_{n} – 4 \alpha x_n^3
\end{align}
$$
上記の式は$\alpha=0.0025$の周辺に$\alpha$を設定すれば、徐々に最小値に近づくのが確認できるが、$\alpha$の選択が難しく、値が発散することも多く収束させるのも難しい。$x_{0} – 4 \alpha x_0^3 = 0$を$\alpha$に関して解くことで$\displaystyle \alpha = \frac{1}{4x_0^2}$を導出し、これを用いることで計算を$1$度で行えるが、実際の最適化にあたってはこのように関数形がわかっていないので$\alpha$の設定は難しい。

一方でニュートン法では$f'(x)=4x^3, f^{”}(x)=12x^2$より、更新式は下記のように表される。
$$
\large
\begin{align}
x_{n+1} &= x_{n} – \frac{f'(x_n)}{f^{”}(x_n)} \\
&= x_{n} – \frac{4x_{n}^3}{12x_{n}^2} \\
&= 0.75 x_n
\end{align}
$$
上記は数列${ x_n }$が公比$0.75$の等比数列であることを表しており、勾配法より少ない繰り返し数で結果が得られることが多いことが読み取れる。

勾配法・ニュートン法の解釈

ここまでで勾配法とニュートン法に関して確認を行なったが、以下ではそれぞれの更新式について確認を行うことで手法の解釈を確認する。
・勾配法
$$
\large
\begin{align}
x_{n+1} = x_{n} – \alpha f'(x_{n})
\end{align}
$$
・ニュートン法
$$
\large
\begin{align}
x_{n+1} = x_{n} – \frac{f'(x_n)}{f^{”}(x_n)}
\end{align}
$$

$2$つの手法の更新式を比較すると、勾配法の学習率$\alpha$を$2$階微分を用いた$\displaystyle \frac{1}{f^{”}(x_n)}$で置き換えたのがニュートン法であることがわかる。

よって、$\alpha$の調整が必要な勾配法に対して、ニュートン法は調整を行う必要がなく、実用上ニュートン法の方が収束させやすいように思われる。古典的な最適化では勾配法よりもニュートン法がベースに用いられることが多い。

一方で、ニュートン法は$2$階微分を計算する必要があり、Deep Learningのような複雑な計算に対しては$1$階微分に基づく勾配法の方がよく用いられている。

一様最強力検定を用いた二項分布に関する導出の流れの確認とネイマン・ピアソンの補題の解釈

当記事では一様最強力検定(Uniformly Most Powerful test)を考える際に用いられるネイマン・ピアソンの補題について取り扱った。そのままの形式では理解が難しいので、二項分布を用いた具体例を元に直感的な解釈を行なった。「現代数理統計学」の8章の「検定論」を参考に作成を行なった。

前提の確認

検出力(power)・検出力関数

https://www.hello-statisticians.com/explain-terms-cat/stat_decision2.html

検定論では、決定$d \in D = \{0,1\}$と母数$\theta \in \Theta = \{\Theta_0,\Theta_1\}$、標本$x \in \mathscr{X}$、決定関数$\delta: \mathscr{X} \to D$に関して上記のように$0$-$1$損失関数$L(\theta, d=\delta(x))$を考えることで仮説検定を行う。

ここで、検定論に関して取り扱うにあたって、リスク関数を元に下記のように検出力関数(power function)$\beta_{\delta}(\theta)$が定義されるので抑えておく必要がある。
$$
\large
\begin{align}
\beta_{\delta}(\theta) = P(\delta(x)=1) = E[\delta(x)]
\end{align}
$$

検出力関数は「決定関数$\delta$によって帰無仮説を棄却する確率」であると考えることができる。よって、検出力関数を用いることでリスク関数$R(\theta,\delta)$は下記のように表すことができる。
$$
\large
\begin{align}
R(\theta,\delta) &= \beta_{\delta}(\theta) \qquad \theta \in \Theta_0 \\
&= 1-\beta_{\delta}(\theta) \quad \theta \in \Theta_1
\end{align}
$$

検出力関数は検定論の議論にあたってよく出てくるので抑えておくと良い。単に「決定関数$\delta$によって帰無仮説を棄却する確率」と理解しておけば十分であると思われる。

検定論と一様最強力検定

前項の内容について考える際に議論が必要なのが、「第1種の過誤と第2種の過誤の違いをどのように取り扱うべきか」である。これらに関しては様々な考え方があるが、検定論では「第1種の過誤を与えられた有意水準$\alpha$以下に抑えた上で対立仮説の検出力を最大にするのが良い」と伝統的に考える。

このような考え方に基づいて一様最強力検定(UMP; Uniformly Most Powerful test)が定義される。下記の検定問題に関して以下、一様最強力検定を考える。
$$
\large
\begin{align}
H_0 &: \quad \theta \in \Theta_0 \\
H_1 &: \quad \theta \in \Theta_1
\end{align}
$$

$\delta$を有意水準$\alpha$の任意の検定であると考えると、$\beta_{\delta}(\theta) \leq \alpha, \quad {}^{\forall} \theta \in \Theta_0$が成立する。このとき、下記が成立すれば検定$\delta^{*}$が一様最強力検定であるといえる。
$$
\large
\begin{align}
\beta_{\delta^{*}}(\theta) \geq \beta_{\delta}(\theta), \quad {}^{\forall} \theta \in \Theta_1
\end{align}
$$

一様最強力検定とネイマン・ピアソンの補題の解釈

単純仮説におけるネイマン・ピアソンの補題とその解釈

下記のように単純仮説を用いた検定を考える。
$$
\large
\begin{align}
H_0 &: \quad \theta = \theta_0 \\
H_1 &: \quad \theta = \theta_1
\end{align}
$$
上記を確認するにあたっては、帰無仮説と対立仮説を集合$\Theta_0,\Theta_1$ではなく、スカラー$\theta_0,\theta_1$を用いて表していることに注意すると良い。このように定義した単純仮説に対して、以下ネイマン・ピアソンの補題の確認を行う。

標本$x \in \mathscr{X}$に関して、$f(x,\theta_0)$を帰無仮説の「確率関数/確率密度関数」、$f(x,\theta_1)$を対立仮説の「確率関数/確率密度関数」と考える。以下、離散分布を元に考えるにあたり確率関数と表記するが、連続分布もほぼ同様の議論で考えることができる。

ここで$\delta_{c,r}(x)$を下記のように考える。
$$
\large
\begin{align}
\delta_{c,r}(x) &= 1, \quad if \quad \frac{f(x,\theta_1)}{f(x,\theta_0)} > c \\
&= r, \quad if \quad \frac{f(x,\theta_1)}{f(x,\theta_0)} = c \\
&= 0, \quad if \quad \frac{f(x,\theta_1)}{f(x,\theta_0)} < c
\end{align}
$$

このとき$0 \leq \alpha \leq 1$が成立する任意の有意水準$\alpha$に関して$\alpha = E[\delta_{c,r}(x)]$となる最強力検定$\delta_{c,r}(x)$が存在する。ここで「一様」がつかないのは対立仮説が単純対立仮説であるからである。

ここまでの解釈にあたっては、「$\delta_{c,r}(x)$が帰無仮説を棄却するかどうかを意味する」ことを改めて考えると良い。標本$x$に関して、対立仮説の確率関数$f(x,\theta_1)$が帰無仮説の確率関数$f(x,\theta_0)$の$c$倍より大きいとき、確率$1$で帰無仮説を棄却すると解釈できる。逆に標本$x$に関して、対立仮説の確率関数$f(x,\theta_1)$が帰無仮説の確率関数$f(x,\theta_0)$の$c$倍より小さいとき、確率$1$で帰無仮説を採択すると解釈することもできる。

また、$r$の解釈にあたっては、標本に関する確率変数$X$が離散であることから、有意水準を$\alpha$への調整が必要であると考えれば良い。

一様最強力検定

前項では帰無仮説と対立仮説に対し、集合ではなくスカラーを考える単純仮説を元に、ネイマン・ピアソンの補題により最強力検定に関して考えた。当項では前項のネイマン・ピアソンの補題に関する議論を単純仮説から複合仮説に基づく検定に拡張することで一様最強力検定について考える。

以下のような複合仮説に基づく検定を考える。
$$
\large
\begin{align}
H_0 &: \quad \theta \leq \theta_0 \\
H_1 &: \quad \theta > \theta_0
\end{align}
$$
$\theta$だとわかりにくい場合は、二項分布の確率$p$に関して下記のように考えることと同様に理解すれば良い。
$$
\large
\begin{align}
H_0 &: \quad p \leq p_0 \\
H_1 &: \quad p > p_0
\end{align}
$$

一般的な議論を行うにあたって、以下では$p$ではなく$\theta$を用いて、「現代数理統計学」の定理8.3の確認を行う。

・現代数理統計学の定理8.3より一部改変
$\theta$を$1$次元の母数と考え、確率関数が統計量$T(x)$に関して単調尤度比を持つと仮定し、下記の検定問題を考える。
$$
\large
\begin{align}
H_0 &: \quad \theta \leq \theta_0 \\
H_1 &: \quad \theta > \theta_0
\end{align}
$$
このとき任意の$0 \leq \alpha \leq 1$に対して$-\infty \leq c \leq \infty,0 \leq r \leq 1$が存在して、$\alpha$に関する下記の形式の一様最強力検定$\delta_{c,r}(x)$を考えることができる。
$$
\large
\begin{align}
\delta_{c,r}(x) &= 1, \quad if \quad T(x)>c \\
&= r, \quad if \quad T(x)=c \\
&= 0, \quad if \quad T(x)<c
\end{align}
$$

この定理をそのまま考えるとなかなか理解が難しいので、次項で二項分布の例に基づいて具体的に確認を行う。

二項分布の例に基づく一様最強力検定の解釈

前項で確認した「現代数理統計学」の定理8.3を二項分布に適用することを考える。

二項分布$Bin(n,p)$の事象が観測される回数を統計量$T(x)=x$とおく。このときパラメータ$p_1<p_2$となる$p_1,p_2$に関して下記のように尤度比を計算する。
$$
\large
\begin{align}
\frac{f(x,p_2)}{f(x,p_1)} &= \frac{{}_n C_x p_2^{x}(1-p_2)^{n-x}}{{}_n C_x p_1^{x}(1-p_1)^{n-x}} \\
&= \frac{p_2^{x}(1-p_2)^{n-x}}{p_1^{x}(1-p_1)^{n-x}} \\
&= \left( \frac{p_2(1-p_1)}{p_1(1-p_2)} \right)^{x} \times \left( \frac{1-p_1}{1-p_2} \right)^{n}
\end{align}
$$

上記において$p_{1}<p_{2}$なので$1-p_{1}>1-p_{2}$であり、$p_1(1-p_2)<p_2(1-p_1)$が成立する。よって、$\displaystyle \frac{p_2(1-p_1)}{p_1(1-p_2)} > 1$であり、尤度比は$T(x)=x$の単調増加関数となる。

ここまでの議論から、前項の定理より、下記のような一様最強力検定$\delta_{c,r}$を考えることができる。
$$
\large
\begin{align}
\delta_{c,r}(x) &= 1, \quad if \quad x>c \\
&= r, \quad if \quad x=c \\
&= 0, \quad if \quad x<c \quad (1)
\end{align}
$$
より詳しくは下記で表した「現代数理統計学」の章末課題8.3も参考になる。
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch8.html#83

以下では第1種の過誤の確率の$\alpha$から$c,r$を導出する。ネイマン・ピアソンの補題を実際に適用する際は$\alpha$から$c,r$を導出する形式で用いられることは抑えておく方が良い。
$$
\large
\begin{align}
H_0 &: \quad p \leq p_0 \\
H_1 &: \quad p > p_0
\end{align}
$$
上記のように帰無仮説$H_0$と対立仮説$H_1$を考える場合、$p_0$に関する確率関数を用いた一様最強力検定の期待値$E[\delta_{c,r}]$が$\alpha$に一致する。

「現代数理統計学」の二項分布の事例を用いて、$\displaystyle n=6,p_0=\frac{1}{2},\alpha=0.05$の具体的な値で確認を行う。このとき事象が起こる回数の確率変数を$X$と定義すると、$P(X=5),P(X=6)$は下記のように計算できる。
$$
\large
\begin{align}
P(X=5) &= {}_{6} C_5 \left( \frac{1}{2} \right)^{5} \left( 1 – \frac{1}{2} \right)^{1} \\
&= 6 \times \left( \frac{1}{2} \right)^{6} \\
&= 0.09375 \\
P(X=6) &= {}_{6} C_6 \left( \frac{1}{2} \right)^{6} \left( 1 – \frac{1}{2} \right)^{0} \\
&= 1 \times \left( \frac{1}{2} \right)^{6} \\
&= 0.015625
\end{align}
$$
上記より、$P(X=6)=0.015625<0.05=\alpha$かつ$P(X \geq 5)=P(X=5)+P(X=6)=0.109375>0.05=\alpha$より、$c=5$であることがわかる。

このとき$r$は下記のように計算することができる。
$$
\large
\begin{align}
r &= \frac{\alpha – P(X=6)}{P(X=5)} \\
&= \frac{0.05 – 0.015625}{0.09375} \\
&= 0.3666…
\end{align}
$$
よって、一様最強力検定は$\delta_{5,0.3667}$であると考えることができる。また、ここまでの議論より、$0.05=P(X=6)+0.3667P(X=5)$が成立することもわかる。

一様最強力検定はここまでの流れと同様に考えることができるので、下記のような手順で考えておけば良い。

1) 尤度比が統計量の単調増加関数であることを確認する。
2) ネイマン・ピアソンの補題により、統計量T(x)に対して閾値cの一様最強力検定が存在する。
3) 期待値が第1種の過誤の確率のαに一致することから、cとrを計算する。

また、$c$は統計量$T(x)$に関する閾値、$r$は離散分布における$\alpha$の値の調整だと解釈しておくとよい。

0-1損失関数のリスク関数(Risk Function)の導出と第1種・第2種の過誤の確率に関して

統計的決定理論の基本的な定義に関しては下記で取り扱った。
https://www.hello-statisticians.com/explain-terms-cat/stat_decision1.html
一方で、統計的決定理論は単体で取り扱うというよりも「推定論」や「検定論」と関連して抑える方が応用が見えてわかりやすい。
https://www.hello-statisticians.com/explain-terms-cat/roc1.html
上記では検定論の考え方に基づいてROC曲線やAUCの導出を行なったが、$0$-$1$損失関数のリスク関数の理解がやや難しいように思われた。

そこで当記事では$0$-$1$損失関数のリスク関数(Risk Function)の詳しい導出や、第1種の過誤・第2種の過誤の確率との関連について取りまとめを行なった。

リスク関数の定義

標本$x \in \mathscr{X}$、母数$\theta \in \Theta$、決定$d \in D$、決定関数$\delta: \mathscr{X} \to D$を考える。このとき、決定関数$\delta$の評価を行うにあたってはリスク関数$R(\theta,\delta)$を下記のように定義する。
$$
\large
\begin{align}
R(\theta,\delta) = E_{\theta}[L(\theta, d=\delta(x))]
\end{align}
$$

ここで損失関数は母数$\theta$と決定$d$に関して評価を行う一方で、リスク関数は母数$\theta$と決定関数$\delta$について評価を行うことに注意しておくと良い。

検定論における0-1損失関数

$0$-$1$損失関数は前項の決定空間$D$に対して$D = {0,1}$を取り扱う際に用いられる。この$0$-$1$損失関数を考える際は、母数空間$\Theta$を下記のように仮定する。
$$
\large
\begin{align}
\Theta &= \Theta_0 \cup \Theta_1 \\
\emptyset &= \Theta_0 \cap \Theta_1
\end{align}
$$

「母数空間$\Theta$は帰無仮説を表す空間$\Theta_0$と対立仮説を表す空間$\Theta_1$に排反でわけることができること」が上記の解釈である。背反は同時に起こらないことであり、積集合$\Theta_0 \cap \Theta_1$が空集合$\emptyset$であることから読み取ることができる。

ここで母数$\theta \in \Theta$と決定$d \in D={0,1}$に関して$0$-$1$損失関数を考えると、下記のように表すことができる。
$$
\large
\begin{align}
L(\theta,d=0) &= 0, \quad if \quad \theta \in \Theta_0 \\
&= 1, \quad if \quad \theta \in \Theta_1
\end{align}
$$
$$
\large
\begin{align}
L(\theta,d=1) = 1 – L(\theta,d=0)
\end{align}
$$

上記は数式だけ見ると難しいので、簡単に解釈を行う。$L(\theta,d=0)$は帰無仮説$d=0$を採択する際に、「母数$\theta$に関して帰無仮説が正しく、$\theta \in \Theta_0$が成立する場合」に$L(\theta,d=0)=0$、「母数$\theta$に関して対立仮説が正しく、$\theta \in \Theta_1$が成立する場合」に$L(\theta,d=0)=1$を返す関数であると解釈すればよい。また、$L(\theta,d=1)$は帰無仮説$d=0$を棄却し、対立仮説$d=0$を採択する場合について考えるので、$\theta \in \Theta_1$であれば$0$、$\theta \in \Theta_0$であれば$1$を返し、このことから$L(\theta,d=1) = 1 – L(\theta,d=0)$のように表すことができる。

下記で表した「現代数理統計学」の表8.1に基づいて理解するとわかりやすい。

検定論における$0$-$1$損失関数$L(\theta,d)$と第1種・第2種の過誤(現代数理統計学表8.1より作成)

0-1損失関数のリスク関数

$$
\large
\begin{align}
L(\theta,d=0) &= 0, \quad if \quad \theta \in \Theta_0 \\
&= 1, \quad if \quad \theta \in \Theta_1
\end{align}
$$
$$
\large
\begin{align}
L(\theta,d=1) = 1 – L(\theta,d=0)
\end{align}
$$

$0$-$1$損失関数は上記のように表すことができた。損失関数は決定$d = 0$ or $1$に関して評価を行う関数であるので、決定関数$\delta$に関する評価も行えるとより良い。このときに用いられるのがリスク関数である。以下、$0$-$1$損失関数のリスク関数に関して考える。
$$
\large
\begin{align}
R(\theta,\delta) &= E_{\theta}[L(\theta, d=\delta(x))]
\end{align}
$$

リスク関数$R(\theta,\delta)$は上記のように定義されるが、ここで期待値を考えるにあたって$0$-$1$損失関数では$L = L(\theta, d=\delta(x)) = 0$ or $1$であることに着目することができる。

以下、$\theta \in \Theta_0$と$\theta \in \Theta_1$に分けてそれぞれリスク関数$R(\theta,\delta)$について考える。
・$\theta \in \Theta_0$の場合
$$
\large
\begin{align}
R(\theta,\delta) &= E_{\theta}[L(\theta, d={\delta}(x))] \\
&= 0 \times P(L(\theta, d=\delta(x))=0) + 1 \times P(L(\theta, d=\delta(x))=1) \\
&= P(L(\theta, d=\delta(x))=1)
\end{align}
$$
$\theta \in \Theta_0$より、上記の$(1)$式に対し$L(\theta, d=\delta(x))=1$が成立するのは$d=\delta(x)=1$のときである。よって、$R(\theta,{\delta})$は下記に一致する。
$$
\large
\begin{align}
R(\theta,{\delta}) &= P(L(\theta, d=\delta(x)=1)=1) \\
&= P(\delta(x)=1)
\end{align}
$$
母数に関して$\theta \in \Theta_0$が成立する際に決定に関して$d=1$が成立する確率は「第1種の過誤の確率」に一致する。

・$\theta \in \Theta_1$の場合
$(1)$式の導出までは$\theta \in \Theta_0$の場合と同様である。ここで$\theta \in \Theta_1$より、$(1)$式に対し$L(\theta, d=\delta(x))=1$が成立するのは$d=\delta(x)=0$のときである。よって、$R(\theta,{\delta})$は下記に一致する。
$$
\large
\begin{align}
R(\theta,{\delta}) &= P(L(\theta, d=\delta(x)=0)=1) \\
&= P(\delta(x)=0)
\end{align}
$$
母数に関して$\theta \in \Theta_1$が成立する際に決定に関して$d=0$が成立する確率は「第2種の過誤の確率」に一致する。

統計的決定理論・検定論に基づくROC曲線・AUC(Area Under the Curve)の導出

ROC曲線(Receiver Operating Characteristic curve)やそれに基づくAUC(Area Under the Curve)は様々な場面で用いられるが、これらは統計的決定理論や検定論に基づいて導出することができる。当記事では「現代数理統計学」の5章や8.3節の内容を参考に、取りまとめを行なった。

前提の確認

点推定・検定論における標本空間と決定空間

$$
\large
\begin{align}
\delta : \quad \mathscr{X} \to D
\end{align}
$$
標本空間$\mathscr{X}$から決定空間$D$への関数を$\delta$とおくと、上記のように$\delta$を定義できる。この$\delta$を決定関数(decision function)という。

点推定では、上記の標本空間$\mathscr{X}$が$X_1,X_2,…,X_n$のように表される観測値の確率変数、決定空間$D$が母平均$\mu$のような推定するパラメータに対応する。たとえば母平均の推定値の$\hat{\mu}$を計算するにあたって、下記のように標本平均に関する確率変数を計算することが$\delta$の例に考えられる。
$$
\large
\begin{align}
\hat{\mu} &= \delta(X_1,X_2,…,X_n) \\
&= \frac{1}{n} \sum_{i=1}^{n} X_i
\end{align}
$$

ここまでで統計的決定理論を用いた点推定について確認を行なったが、検定論では上記のように推定を行う母平均の推定量$\hat{\mu}$の推定値に対して、帰無仮説と対立仮説を設定し、検定を行うことを考える。

たとえば母平均$\mu$に関して下記のような帰無仮説$H_0$と対立仮説$H_1$を設定し、推定量$\hat{\mu}$を用いて仮説検定を行うことなどが考えられる。
$$
\large
\begin{align}
H_0: \quad \mu = \mu_0 \\
H_1: \quad \mu \neq \mu_0
\end{align}
$$

上記に対しては標準正規分布の上側2.5%点を$z_{\alpha=0.025}$とおき、$\hat{\mu}$に関して$\displaystyle \mu_0-\frac{\sigma}{\sqrt{n}}z_{\alpha=0.025} \leq \hat{\mu} \leq \mu_0+\frac{\sigma}{\sqrt{n}}z_{\alpha=0.025}$が成立するかどうかで検定を行うのが一つの方法である。

標本空間・決定空間・決定関数に関しては詳しくは下記で取り扱った。
https://www.hello-statisticians.com/explain-terms-cat/stat_decision1.html#i
https://www.hello-statisticians.com/explain-terms-cat/stat_decision1.html#i-3

点推定・検定論における損失関数

損失関数(loss function)は回帰などでよく出てくるが、推定結果の「妥当さ」を表す関数であり、二乗誤差や0-1損失が用いられることが多い。たとえばパラメータ推定の場合は母数$\theta$と母数の推定値$\hat{\theta}$に関して、下記のように損失関数$L(\theta,\hat{\theta})$を二乗誤差で表せる。
$$
\large
\begin{align}
L(\theta,\hat{\theta}) = (\theta – \hat{\theta})^2
\end{align}
$$

以下では検定論について考えるので、二乗誤差ではなく0-1損失を元に確認を行う。

$$
\large
\begin{align}
\delta : \quad \mathscr{X} \to D
\end{align}
$$
前節で上記のような決定関数$\delta$を確認したが、点推定ではパラメータ$\theta$の推定値$\hat{\theta}$を決定空間に考えた一方で、検定論では「受容$0$/棄却$1$」を決定空間に考える。また、母数$\theta$は帰無仮説を表す$\Theta_0$と対立仮説を表す$\Theta_1$の2つの集合で考えられる。

よって、検定論では$\Theta_0, \Theta_1$の2つの母数空間と受容$0$/棄却$1$の2値の決定が対応すると考えることができる。これに対して、$0-1$損失の$L(\theta,d)$を考えると、$L(\theta,d)$は下記のように表すことができる。
$$
\large
\begin{align}
L(\theta,d=0) &= 0, \quad if \quad \theta \in \Theta_0 \\
&= 1, \quad if \quad \theta \in \Theta_1 \\
L(\theta,d=1) &= 1, \quad if \quad \theta \in \Theta_0 \\
&= 0, \quad if \quad \theta \in \Theta_1 \\
L(\theta,d=1) &= 1 – L(\theta,d=0)
\end{align}
$$

損失関数とリスク関数

検定における決定$d \in \{0, 1\}$が観測値を表す確率変数の$X_1,X_2,…,X_n$によって変動する以上、損失関数が確率的に変動することは考慮せねばならない。この対応にあたって損失関数の期待値を考えるのがリスク関数である。リスク関数は下記のように損失関数の期待値を考える。
$$
\large
\begin{align}
\hat{\theta} &= \delta(X_1,X_2,…,X_n) \\
L(\theta,\hat{\theta}) &= (\theta-\hat{\theta})^2 \\
R(\theta,\delta) &= E[L(\theta,\hat{\theta}=\delta(X_1,X_2,…,X_n))]
\end{align}
$$

上記は$\theta$に関する点推定を行う際二乗誤差を元にリスク関数を定義した。以下では検定論に関連して$0-1$損失関数を確認する。
$$
\large
\begin{align}
d &= \delta(X_1,X_2,…,X_n) \\
L(\theta,d=0) &= 0, \quad if \quad \theta \in \Theta_0 \\
&= 1, \quad if \quad \theta \in \Theta_1 \\
L(\theta,d=1) &= 1 – L(\theta,d=0) \\
R(\theta,\delta) &= E[L(\theta,d=\delta(X_1,X_2,…,X_n))]
\end{align}
$$

ここでリスク関数$R(\theta,\delta)$は母数$\theta$と決定関数$\delta$に関する関数であることは抑えておくと良い。

標本空間$\mathscr{X} = \{0,1\}$の際のリスク点の描画

標本空間$\mathscr{X} = \{0,1\}$に対して決定空間$D = \{0,1\}$と母数空間$\Theta = \{\theta_0,\theta_1\}, \theta_0 < \theta_1$を考える。
$$
\large
\begin{align}
\delta : \quad \mathscr{X} \to D
\end{align}
$$
このとき上記のように決定関数$\delta$を用いて標本空間から決定空間への写像を考える。2値から2値への関数であるので、$\delta$には下記の4通りが考えられる。

A) Xの値に関わらずd=0
B) Xの値に関わらずd=1
C) X=1ならばd=1、X=0ならばd=0
D) X=1ならばd=0、X=0ならばd=1

ここでAを$\delta_1$、Bを$\delta_2$、Cを$\delta^{*}$、Dを$\delta_{*}$のように考える。このとき、下記で表したような「現代数理統計学」の$(5.10)$式が成立する。
$$
\large
\begin{align}
R(\theta,\delta_0) &= 0, \quad if \quad \theta = \theta_0 \\
&= 1, \quad if \quad \theta = \theta_1 \\
R(\theta,\delta_1) &= 1 – R(\theta,\delta_0)
\end{align}
$$
$$
\large
\begin{align}
R(\theta,\delta^{*}) &= \theta_0, \qquad if \quad \theta = \theta_0 \\
&= 1-\theta_1, \quad if \quad \theta \in \theta_1 \\
R(\theta,\delta_{*}) &= 1 – R(\theta,\delta^{*})
\end{align}
$$
上記の$\delta^{*}$を理解するにあたっては、損失関数が$1$となる場合、「母数が$\theta_0$の際は$d=1$、母数が$\theta_1$の際は$d=0$であること」を元に損失関数の期待値を計算すると考えると良い。詳しくは下記で取り扱った。
https://www.hello-statisticians.com/explain-terms-cat/stat_decision2.html

やや議論が抽象的なので、以下では$\displaystyle \theta_0=\frac{1}{2}, \theta_1=\frac{2}{3}$を元に具体的にリスク点$(R(\theta_0,\delta),R(\theta_1,\delta))$を計算し、描画を行う。
・Aのリスク点
$$
\large
\begin{align}
R(\theta_0,\delta_0) &= 0 \\
R(\theta_1,\delta_0) &= 1
\end{align}
$$
・Bのリスク点
$$
\large
\begin{align}
R(\theta_0,\delta_1) &= 1 \\
R(\theta_1,\delta_1) &= 0
\end{align}
$$
・Cのリスク点
$$
\large
\begin{align}
R(\theta_0,\delta^{*}) &= \theta_0 \\
&= \frac{1}{2} \\
R(\theta_1,\delta^{*}) &= 1-\theta_1 \\
&= 1-\frac{2}{3} \\
&= \frac{1}{3}
\end{align}
$$
・Dのリスク点
$$
\large
\begin{align}
R(\theta_0,\delta_{*}) &= 1-R(\theta_0,\delta^{*}) \\
&= 1-\frac{1}{2} \\
R(\theta_1,\delta_{*}) &= 1-R(\theta_1,\delta^{*}) \\
&= 1-\frac{2}{3} \\
&= \frac{1}{3}
\end{align}
$$

ここまでの議論より、A〜Dのリスク点は下記のように描画することができる。

上図で描画を行なったリスク点を元に考える際は、基本的に左下が適切な決定方式で、右上が不適切な決定方式であることを理解しておくと良い。

確率化決定方式とリスク点

確率化決定方式(randomized decision process)を用いることで、下記の点線やその内部で囲まれた領域もリスク点に考えることができるようになる。

確率$\alpha$で$\delta_{0}$を適用し、確率$1-\alpha$で$\delta^{*}$を適用するような確率化決定方式を$\delta_{\alpha}$とするとき、上記の$A$と$C$を結ぶ線分が$\delta_{\alpha}$のリスク点$(R(\theta_0,\delta_{\alpha}),R(\theta_1,\delta_{\alpha}))$の軌跡に一致する。

また、$\delta_{\alpha}$のリスク関数は下記のように定義できる。
$$
\large
\begin{align}
R(\alpha,\delta_{\alpha}) = \alpha R(\theta,\delta_{0}) + (1-\alpha) R(\theta,\delta^{*}) \quad (1)
\end{align}
$$

上記に関しては詳しくは下記の議論より導出できる。
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch5.html#53

ROC曲線・AUCの導出

リスク関数と第1種の過誤・第2種の過誤

検定論では上図における$R_0$は第1種の過誤の確率$\alpha$、$R_1$は第2種の過誤の確率にそれぞれ対応すると考える。

また、一様最強力検定(UMP test; Uniformly Most Powerful test)は第1種の過誤の確率に関連して有意水準の$\alpha$を考え、$\alpha$を固定した際に第2種の過誤の確率を最も小さくする「仮説」を元に検定を行うことを意味する。このことより、図における線分$AC$と線分$CB$上の点がそれぞれ一様最強力検定を表すと考えれば良いことがわかる。

ROC曲線とAUC

リスク点での議論における縦軸の$R_1$を$1-R_1$で置き換えることによって反転させることで下図が得られる。

上記の$A,C$、$C,B$を結ぶ直線がROC曲線(Receiver Operating Characteristic curve)、線分$AC$、線分$CB$と$1-R_1=0, R_0=1$で囲まれる部分の面積をAUC(Area Under the Curve)に対応する。

三角関数の加法定理・倍角の公式・極限、微分の公式の簡易的な導出とその直感的理解

三角関数の「加法定理」・「倍角の公式」・「極限、微分の公式」は高校数学の主要なトピックであり、様々な専門領域の基礎になるが、公式を適用することが中心になりがちで、導出まで抑えているケースが少ないと思われる。
そこで当記事では「加法定理」・「倍角の公式」・「極限、微分の公式」に関して簡易的な導出を取りまとめることで、それぞれの直感的な理解が可能になるように取り扱った。

加法定理・倍角の公式

$\displaystyle \tan{\alpha} = \frac{\sin{\alpha}}{\cos{\alpha}}$とできることより、以下では$\sin, \cos$のみ計算し、$\tan$に関する導出は行わない。

加法定理

加法定理の導出にあたっては様々な方法があるが、三角関数が三角比に基づいて理解できることも考慮すると、図形的に示せる方が良いと思われる。よって、以下では図を用いたシンプルな導出を示す。

上図を用いることで、$\sin{(\alpha+\beta)}, \cos{(\alpha+\beta)}$の導出を行うことができ、$\sin{(\alpha+\beta)}, \cos{(\alpha+\beta)}$から$\sin{(\alpha-\beta)}, \cos{(\alpha-\beta)}$の導出を行うこともできる。

・$\sin{(\alpha+\beta)} = \sin{\alpha}\cos{\beta} + \cos{\alpha}\sin{\beta}$の導出

上図より$\sin{(\alpha+\beta)} = \sin{\alpha}\cos{\beta} + \cos{\alpha}\sin{\beta}$が導出できる。

・$\cos{(\alpha+\beta)} = \cos{\alpha}\cos{\beta} – \sin{\alpha}\sin{\beta}$の導出

上図より$\cos{(\alpha+\beta)} = \cos{\alpha}\cos{\beta} – \sin{\alpha}\sin{\beta}$が導出できる。

・$\sin{(\alpha-\beta)}, \cos{(\alpha-\beta)}$の導出
$$
\large
\begin{align}
\sin{(\alpha+\beta)} &= \sin{\alpha}\cos{\beta} + \cos{\alpha}\sin{\beta} \\
\cos{(\alpha+\beta)} &= \cos{\alpha}\cos{\beta} – \sin{\alpha}\sin{\beta}
\end{align}
$$
上記の$\beta$に$-\beta$を代入することでそれぞれ導出を行うことができる。

ここまでの議論により、下記のような三角関数の加法定理の式が得られる。
$$
\large
\begin{align}
\sin{(\alpha+\beta)} &= \sin{\alpha}\cos{\beta} + \cos{\alpha}\sin{\beta} \\
\sin{(\alpha-\beta)} &= \sin{\alpha}\cos{\beta} – \cos{\alpha}\sin{\beta} \\
\cos{(\alpha+\beta)} &= \cos{\alpha}\cos{\beta} – \sin{\alpha}\sin{\beta} \\
\cos{(\alpha-\beta)} &= \cos{\alpha}\cos{\beta} + \sin{\alpha}\sin{\beta}
\end{align}
$$

倍角の公式

2倍角の公式

$$
\large
\begin{align}
\sin{(\alpha+\beta)} &= \sin{\alpha}\cos{\beta} + \cos{\alpha}\sin{\beta} \\
\cos{(\alpha+\beta)} &= \cos{\alpha}\cos{\beta} – \sin{\alpha}\sin{\beta}
\end{align}
$$
上記の加法定理の公式に対して$\beta=\alpha$を代入することで導出ができる。

$$
\large
\begin{align}
\sin{(2 \alpha)} &= \sin{(\alpha+\alpha)} \\
&= \sin{\alpha}\cos{\alpha} + \cos{\alpha}\sin{\alpha} \\
&= 2 \sin{\alpha}\cos{\alpha} \\
\cos{(2 \alpha)} &= \cos{(\alpha+\alpha)} \\
&= \cos{\alpha}\cos{\alpha} – \sin{\alpha}\sin{\alpha} \\
&= \cos^2{\alpha} – \sin^2{\alpha}
\end{align}
$$

3倍角の公式

$3\alpha=2\alpha+\alpha$と考えて加法定理を適用すればよい。
$$
\large
\begin{align}
\sin{(3 \alpha)} &= \sin{(2 \alpha+\alpha)} \\
&= \sin{2 \alpha}\cos{\alpha} + \cos{2 \alpha}\sin{\alpha} \\
&= 2 \sin{\alpha}\cos{\alpha} \cdot \cos{\alpha} + (\cos^2{\alpha} – \sin^2{\alpha}) \cdot \sin{\alpha} \\
&= 3\sin{\alpha}\cos^2{\alpha} – \sin^3{\alpha} \\
&= 3\sin{\alpha} – 4\sin^3{\alpha}
\end{align}
$$

$$
\large
\begin{align}
\cos{(3 \alpha)} &= \cos{(2 \alpha+\alpha)} \\
&= \cos{2 \alpha}\cos{\alpha} – \sin{2 \alpha}\sin{\alpha} \\
&= (\cos^2{\alpha}-\sin^2{\alpha}) \cdot \cos{\alpha} – 2 \sin{\alpha}\cos{\alpha} \cdot \sin{\alpha} \\
&= \cos^3{\alpha} – 3\sin^2{\alpha}\cos{\alpha} \\
&= 4\cos^3{\alpha} – \cos{\alpha}
\end{align}
$$

上記の導出にあたっては$\cos^2{\alpha}+\sin^2{\alpha}=1$より、$\cos^2{\alpha}=1-\sin^2{\alpha}, \sin^2{\alpha}=1-\cos^2{\alpha}$を用いた。

極限の公式

公式の概要と導出

$$
\large
\begin{align}
\lim_{\theta \to 0} \frac{\sin{\theta}}{\theta} &= 1 \\
\lim_{\theta \to 0} \frac{1-\cos{\theta}}{\theta^2} &= \frac{1}{2} \\
\lim_{\theta \to 0} \frac{\tan{\theta}}{\theta} &= 1
\end{align}
$$

・$\displaystyle \lim_{\theta \to 0} \frac{\sin{\theta}}{\theta} = 1$の導出
$\theta > 0$で示す。$\theta > 0$では下記が成立する。
$$
\large
\begin{align}
\sin{\theta} < \theta < \tan{\theta}
\end{align}
$$

このとき$\theta > 0$より、$\sin{\theta} > 0$が成立することに基づいて不等式を$\sin{\theta}$で割ると下記が得られる。
$$
\large
\begin{align}
\frac{\cancel{\sin{\theta}}}{\cancel{\sin{\theta}}} < & \frac{\theta}{\sin{\theta}} < \frac{\tan{\theta}}{\sin{\theta}} \\
1 < & \frac{\theta}{\sin{\theta}} < \frac{1}{\cos{\theta}}
\end{align}
$$

ここで$\displaystyle \lim_{\theta \to 0} \frac{1}{\cos{\theta}} = 1$より、下記が成立する。
$$
\large
\begin{align}
\lim_{\theta \to 0} \frac{\theta}{\sin{\theta}} &= 1 \\
\lim_{\theta \to 0} \frac{\sin{\theta}}{\theta} &= 1
\end{align}
$$

・$\displaystyle \lim_{\theta \to 0} \frac{1-\cos{\theta}}{\theta^2} = \frac{1}{2}$の導出
$\displaystyle \lim_{\theta \to 0} \frac{\sin{\theta}}{\theta} = 1$などを用いることで下記のように導出を行うことができる。
$$
\large
\begin{align}
\lim_{\theta \to 0} \frac{1-\cos{\theta}}{\theta^2} &= \lim_{\theta \to 0} \frac{(1-\cos{\theta})(1+\cos{\theta})}{\theta^2(1+\cos{\theta})} \\
&= \lim_{\theta \to 0} \frac{1-\cos^{2}{\theta}}{\theta^2(1+\cos{\theta})} \\
&= \lim_{\theta \to 0} \frac{\sin^{2}{\theta}}{\theta^2(1+\cos{\theta})} \\
&= \lim_{\theta \to 0} \left( \frac{\sin{\theta}}{\theta} \right)^{2} \cdot \frac{1}{1+\cos{\theta}} \\
&= 1 \cdot \frac{1}{1+1} = \frac{1}{2}
\end{align}
$$

・$\displaystyle \lim_{\theta \to 0} \frac{\tan{\theta}}{\theta} = 1$の導出
$\displaystyle \lim_{\theta \to 0} \frac{\sin{\theta}}{\theta} = 1$などを用いることで下記のように導出を行うことができる。
$$
\large
\begin{align}
\lim_{\theta \to 0} \frac{\tan{\theta}}{\theta} &= \lim_{\theta \to 0} \frac{\sin{\theta}}{\theta} \cdot \frac{1}{\cos{\theta}} \\
&= 1 \cdot \frac{1}{1} = 1
\end{align}
$$

上記では高校数学の範囲で式が成立することを示したが、ロピタルの定理を用いるとよりシンプルに示すことができるので合わせて抑えておくと良い。

Pythonプログラムを用いた数値的・直感的理解

微分の公式

下記で導出を行なった。
https://www.hello-statisticians.com/explain-terms-cat/diff_formula1.html#i-6

事前分布・ベイズとMAP推定・予測分布|問題演習で理解する統計学【20】

最尤法は観測値のみを元に推定を行うが、トピックによっては事前知識がわかっている場合や、サンプル数が少ない場合に最尤法が極端な結果を示す場合の補正にあたって、事前分布に基づくベイズ法は役に立つ。事前分布やMAP推定、予測分布が理解できるように演習を取り扱った。
・現代数理統計学 Ch.$14$ 「ベイズ法」の章末演習の解答例
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch14.html

・標準演習$100$選
https://www.hello-statisticians.com/practice_100

基本問題

ベイズの定理と事前分布・事後分布

・問題
パラメータ推定におけるベイズの定理の導入は「ベイズ統計」や「ベイズ推定」など様々な表現があるが、数式に基づく基本的な流れを抑えておけば基本的に十分である。この問題では以下、最尤推定に対し事前分布を元にベイズの定理を考える一連の流れについて取り扱う。下記の問いにそれぞれ答えよ。

i) 事象$A,B$がある際に、$A \cap B$は条件付き確率を元に下記のように表せる。
$$
\begin{align}
P(A \cap B) = P(A|B)P(B) = P(B|A)P(A) \quad (1)
\end{align}
$$

上記の式が妥当であることを直感的に解釈せよ。

ⅱ) $(1)$式より、$P(A|B)$を$P(B), P(B|A), P(A)$を用いて表せ。

ⅲ) ⅱ)の式がベイズの定理の式に一致する。以下ではベイズの定理を最尤法に適用する流れに関して二項分布を例に確認を行う。$X \sim \mathrm{Bin}(n,p)$の確率関数$p(x)=P(x|p)$は下記のように表せる。
$$
\begin{align}
p(x) = {}_{n} C_{x} p^{x} (1-p)^{n-x} \quad (2)
\end{align}
$$

ここで$n$回のベルヌーイ試行に基づいて観測値$X=x$が得られた際に$p$の推定を行うことを考える。最尤推定は尤度を$L(p)=P(x|p)$とおき、$L(p)$が最大になる$p$を導出する手法である。
$(2)$式を元に対数を考えることで、$L(p)$が最大値を取る$p$を$x, n$を用いて表せ。

iv) $n=2$のとき、ⅲ)の式を用いて$x=0,1,2$に関して$p$の推定を行え。

v) $n=2$のようにサンプルが少ない場合、iv)の推定結果は$x$の値次第で大きく変動する。この変動の緩和にあたって下記のように事前分布$P(p)$を導入することを考える。
$$
\begin{align}
P(p) = 6p(1-p), \quad 0 \leq p \leq 1
\end{align}
$$

ここで$P(x)=c(x)$のように表すとき、ベイズの定理に基づいて事後分布$P(p|x)$を表せ。

vi) v)で得られた事後分布$P(p|x)$が最大になる$p$を$n, x$を用いて表せ。
vⅱ) $n=2$のときvi)の式を用いて$x=0,1,2$に関しての$p$の推定を行い、事前分布や事後分布を導入した意義に関して論じよ。

・解答
i)
$(1)$式は「$2$つの事象が同時に発生する確率」と「どちらか一方が発生し、その後にもう一方が発生する確率」のどちらで考えても式が同様であると直感的に解釈できる。

ⅱ)
下記のように表せる。
$$
\large
\begin{align}
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
\end{align}
$$

ⅲ)
対数尤度$\log{L(p)}=\log{P(x|p)}$は下記のように考えることができる。
$$
\large
\begin{align}
\log{L(p)} &= \log{P(x|p)} \\
&= \log{({}_{n} C_{x} p^{x} (1-p)^{n-x})} \\
&= x \log{p} + (n-x) \log{(1-p)} + \log{{}_{n} C_{x}}
\end{align}
$$

iv)
ⅲ)の結果に$n=2$と$x=0,1,2$を代入することで$\hat{p}=0, \hat{p}=0.5, \hat{p}=1$がそれぞれ得られる。

v)
ベイズの定理に基づいて事後分布$P(p|x)$は下記のように表せる。
$$
\large
\begin{align}
P(p|x) &= \frac{P(x|p)P(p)}{P(x)} \\
&= \frac{6 {}_{n} C_{x}}{c(x)} p^{x+1} (1-p)^{n-x+1}
\end{align}
$$

vi)
事後分布の対数$\log{P(p|x)}$は下記のように表せる。
$$
\large
\begin{align}
\log{P(p|x)} &= \log{ \left[ \frac{6 {}_{n} C_{x}}{c(x)} p^{x+1} (1-p)^{n-x+1} \right] } \\
&= (x+1) \log{p} + (n-x+1) \log{(1-p)} + \log{ \left[ \frac{6 {}_{n} C_{x}}{c(x)} \right] }
\end{align}
$$

上記を$p$に関して微分すると下記が得られる。
$$
\large
\begin{align}
\frac{\partial \log{P(p|x)}}{\partial p} &= \frac{x+1}{p} – \frac{n-x+1}{1-p} \\
&= \frac{(x+1)(1-p) – (n-x+1)p}{p(1-p)} \\
&= \frac{x+1-(n+2)p}{p(1-p)}
\end{align}
$$

上記は$p$に関して単調増加であるので、$\log{L(p)}$や$L(p)$は$\displaystyle p = \frac{x+1}{n+2}$のとき最大値を取る。

vⅱ)
vi)の結果に$n=2$と$x=0,1,2$を代入することで$\hat{p}=0.25, \hat{p}=0.5, \hat{p}=0.75$がそれぞれ得られる。ここでiv)では$\hat{p}=0, \hat{p}=0.5, \hat{p}=1$が得られたことを鑑みると、事前分布を導入することで$0.5$に近い推定結果が得られたことが確認できる。
このように事前分布を導入することでサンプル数が少ない場合のサンプルのばらつきに対して頑健である結果が得られることが多い。

・解説
この問題では「二項分布の共役事前分布」を題材にベイズの定理と事前分布・事後分布に関して確認を行いました。詳しい内容は「二項分布の共役事前分布と事後分布の解釈」で取り扱いました。
vⅱ)では事前分布を導入した意義に関して論じましたが、$p=0.5$に近い値の場合は妥当である一方で$p=0.01$や$p=0.99$の場合には妥当でない結果になり得ることに注意が必要です。手法選択の際には一見ベイズ手法が万能であるように見えがちですが、「ベイズ推定は最尤推定よりも必ず良い」ではなく、「妥当な事前分布が設定できる場合はサンプルが少ない際に有用である」のように理解しておくのが良いように思います。

二項分布の共役事前分布と事後分布の解釈

・問題
共役事前分布(conjugate prior distribution)を用いることで、事後分布の導出をシンプルに行うことができる。共役事前分布はフォーマルな表記だと難しい印象があると思われるので、以下では二項分布を例に共役事前分布について確認し、事後分布の解釈を行う。

ベイズ法ではパラメータの推定にあたって、下記のように事後分布の$P(\theta|x)$が事前分布の$P(\theta)$と尤度の$p(x|\theta)$の積に比例することを利用する。
$$
\large
\begin{align}
P(\theta|x) \propto P(\theta)p(x|\theta) \quad (1)
\end{align}
$$

上記の式は多くの書籍などで出てくるが、抽象的な表記より具体的な確率分布を例に考える方がわかりやすい。以下では二項分布に関して$(1)$式を表すことを考える。

ここまでの内容を元に下記の問いに答えよ。
i) 二項分布におけるパラメータは事象が起こる確率であるので、以下では$\theta=p$のように、パラメータを$\theta$ではなく$p$を用いて表す。確率$p$の試行を$n$回繰り返すとき、事象が起こる回数を$x$、この確率関数を$p(x|p,n)$のように表すとき、確率関数$p(x|p,n)$の式を表せ。
ⅱ) ベータ分布$Be(a,b)$の確率密度関数を答えよ。
ⅲ) i)で取り扱った確率関数$p(x|p,n)$は尤度と考えることができる。ここで$p(x|p,n)$を$x$ではなく$p$の関数と見るときベータ分布と同様の形を持つことをⅱ)の結果と見比べることで示せ。
iv) $p$の事前分布の$P(p)$がベータ分布$Be(a,b)$であるとき、事前分布$P(p)$の関数を記載せよ。
v) $p(x|p,n)P(p)$を計算せよ。
vi) 事後分布$P(p|x)$が$P(p|x) \propto p(x|p,n)P(p)$のように表されることを元に、事後分布$P(p|x)$がどのような分布になるか答えよ。
vⅱ) v)、vi)の結果を確認することでベータ分布$Be(a,b)$の$a,b$のこの事例での意味を考察せよ。

・解答
i)
確率関数$p(x|p,n)$は下記のように表すことができる。
$$
\large
\begin{align}
p(x|p,n) = {}_{n} C_{x} p^{x} (1-p)^{n-x}
\end{align}
$$

ⅱ)
ベータ分布$Be(a,b)$の確率密度関数を$f(x|a,b)$とおくとき、$f(x|a,b)$は下記のように表される。
$$
\large
\begin{align}
f(x|a,b) = \frac{1}{B(a,b)} x^{a-1} (1-x)^{b-1}
\end{align}
$$
ここで上記における$B(a,b)$はベータ関数を表す。

ⅲ)
i)とⅱ)の結果を見比べることで、どちらも変数を$x$と見た際に、$x^{a-1} (1-x)^{b-1}$の形状の関数であることを読み取ることができる。

iv)
事前分布$P(p)$はⅱ)の結果の$x$を$p$で置き換えることで得られるので、下記のように表すことができる。
$$
\large
\begin{align}
P(p) = \frac{1}{B(a,b)} p^{a-1} (1-p)^{b-1}
\end{align}
$$

v)
$p(x|p,n)P(p)$は下記のように計算できる。
$$
\large
\begin{align}
p(x|p,n)P(p) &= {}_{n} C_{x} p^{x} (1-p)^{n-x} \times \frac{1}{B(a,b)} p^{a-1} (1-p)^{b-1} \\
&= \frac{{}_{n} C_{x}}{B(a,b)} p^{a+x-1} (1-p)^{b+n-x-1}
\end{align}
$$

vi)
v)の結果より、下記が成立する。
$$
\large
\begin{align}
P(p|x) & \propto p(x|p,n)P(p) \\
&= {}_{n} C_{x} p^{x} (1-p)^{n-x} \times \frac{1}{B(a,b)} p^{a-1} (1-p)^{b-1} \\
& \propto p^{a+x-1} (1-p)^{b+n-x-1}
\end{align}
$$
よって事後分布$P(p|x)$はベータ分布$Be(a+x,b+n-x)$に一致する。

vⅱ)
二項分布における$x, n-x$はコイン投げにおける表と裏の回数に一致する。事前分布における$(a,b)$が事後分布において$(a+x,b+n-x)$になることは、実際の実験を行う前に事前に表が$a$回、裏が$b$回出たと考えることに一致する。

・解説
vⅱ)より、事前分布のベータ分布におけるパラメータの$a, b$に事前知識を組み込むことが可能になります。このようにすることで、試行回数が$5$回や$10$回などの少ない際に事前知識による補正ができると抑えておくと良いと思います。

ポアソン分布の共役事前分布と事後分布の解釈

・問題
ポアソン分布の共役事前分布にはガンマ分布を考えることができるので、ガンマ分布の解釈と合わせて理解すれば良い。以下、導出の流れとガンマ分布の解釈に関して確認を行う。

ポアソン分布の確率関数を$f(x|\lambda)$とおくと、$f(x|\lambda)$は下記のように表される。
$$
\begin{align}
f(x|\lambda) = \frac{\lambda^{x} e^{-\lambda}}{x!} \\
\end{align}
$$

ここで観測値$x_1, x_2, …, x_n$が観測される同時確率を$P(x_1,…,x_n|\lambda)$とおくと、$P(x_1,…,x_n|\lambda)$は下記のように表すことができる。
$$
\begin{align}
P(x_1,…,x_n|\lambda) &= \prod_{i=1}^{n} \frac{\lambda^{x_i} e^{-\lambda}}{x_i!} \\
&= \lambda^{\sum_{i=1}^{n} x_i} e^{-n \lambda} \prod_{i=1}^{n} (x_i!)^{-1} \\
&= \lambda^{n \bar{x}} e^{-n \lambda} \prod_{i=1}^{n} (x_i!)^{-1}
\end{align}
$$

上記を$\lambda$の関数と見ると、ガンマ分布の形状と一致するので、$\lambda$の事前分布$P(\lambda)$に$Ga(a,1)$を考える。このとき$P(\lambda)$は下記のように表すことができる。
$$
\begin{align}
P(\lambda) = \frac{1}{\Gamma(a)} \lambda^{a-1} e^{-\lambda}
\end{align}
$$

ここまでの内容を元に以下の問題に答えよ。
i) 事後分布$P(\lambda|x_1,x_2,…,x_n) \propto P(x_1,…,x_n|\lambda)P(\lambda)$を計算せよ。ただし、$\propto$を用いて$\lambda$に関連しない項は省略して良い。
ⅱ)
$$
\begin{align}
f(x|a,b) = \frac{b^a}{\Gamma(a)} \lambda^{a-1} e^{-b \lambda}
\end{align}
$$
$Ga(a,b)$の確率密度関数$f(x|a,b)$が上記のように表されるとき、i)の結果より、$\lambda$の事後分布$P(\lambda|x_1,x_2,…,x_n)$がどのようなパラメータのガンマ分布に従うか答えよ。
ⅲ) ガンマ分布$Ga(a,b)$のモーメント母関数を$m(t)$のようにおくと、$\lambda > t$のとき$m(t)$は下記のように表すことができる。
$$
\begin{align}
m(t) = \left( \frac{b}{b-t} \right)^{a}
\end{align}
$$
上記に対し、$\displaystyle \frac{d}{dt}m(t), \frac{d^2}{dt^2}m(t)$を導出せよ。
iv) ⅲ)の結果を元にガンマ分布$Ga(a,b)$の期待値$E[\lambda]$と分散$V[\lambda]$を計算せよ。
v) ⅱ)とiv)の結果を元に、観測値が観測されるにつれて事後分布は事前分布に比べてどのように変化するかを考察せよ。

・解答
i)
下記のように事後分布$P(\lambda|x_1,x_2,…,x_n)$に関して計算を行うことができる。
$$
\large
\begin{align}
P(\lambda|x_1,x_2,…,x_n) & \propto P(x_1,…,x_n|\lambda)P(\lambda) \\
&= \lambda^{n \bar{x}} e^{-n \lambda} \prod_{i=1}^{n} (x_i!)^{-1} \times \frac{1}{\Gamma(a)} \lambda^{a-1} e^{-\lambda} \\
& \propto \lambda^{a + n \bar{x} – 1} e^{-(n+1) \lambda}
\end{align}
$$

ⅱ)
事後分布$P(\lambda|x_1,x_2,…,x_n)$はガンマ分布$Ga(a + n \bar{x}, n+1)$のガンマ分布に従う。

ⅲ)
$\displaystyle \frac{d}{dt}m(t), \frac{d^2}{dt^2}m(t)$は下記のように計算できる。
$$
\large
\begin{align}
\frac{d}{dt}m(t) &= \frac{d}{dt} \left( \frac{b}{b-t} \right)^{a} \\
&= b^a \frac{d}{dt} (b-t)^{-a} \\
&= b^a \times -a(b-t)^{-a-1} \times (-1) = \frac{ab^{a}}{(b-t)^{a+1}} \\
\frac{d^2}{dt^2}m(t) &= \frac{d}{dt} \left( \frac{ab^{a}}{(b-t)^{a+1}} \right) \\
&= ab^{a} \frac{d}{dt} (b-t)^{-(a+1)} \\
&= ab^{a} \times -(a+1) (b-t)^{-(a+2)} \times (-1) = \frac{a(a+1)b^{a}}{(b-t)^{a+2}}
\end{align}
$$

iv)
期待値$E[\lambda]$と分散$V[\lambda]$は下記のように計算することができる。
$$
\large
\begin{align}
E[\lambda] &= \frac{d}{dt}m(t) \Bigr|_{t=0} \\
&= \frac{ab^{a}}{(b-0)^{a+1}} \\
&= \frac{a}{b} \\
V[\lambda] &= \frac{d^2}{dt^2}m(t) \Bigr|_{t=0} – \left( \frac{d}{dt}m(t) \Bigr|_{t=0} \right)^{2} \\
&= \frac{a(a+1)b^{a}}{(b-0)^{a+2}} – \left( \frac{a}{b} \right)^{2} \\
&= \frac{a(a+1)}{b^2} – \frac{a^2}{b^2} \\
&= \frac{a^2+a-a^2}{b^2} \\
&= \frac{a}{b^2}
\end{align}
$$

v)
iv)の結果を元にⅱ)で確認を行なった事前分布$Ga(a, 1)$と事後分布$Ga(a + n \bar{x}, n+1)$を確認する。事前分布の期待値・分散をそれぞれ$E[\lambda], V[\lambda]$、事後分布の期待値・分散をそれぞれ$E[\lambda|x_1,x_2,…,x_n], V[\lambda|x_1,x_2,…,x_n]$とおく。$E[\lambda], E[\lambda|x_1,x_2,…,x_n], V[\lambda], V[\lambda|x_1,x_2,…,x_n]$はそれぞれ下記のように表すことができる。
$$
\large
\begin{align}
E[\lambda] &= \frac{a}{1} = a \\
E[\lambda|x_1,x_2,…,x_n] &= \frac{a + n \bar{x}}{n+1} \\
V[\lambda] &= \frac{a}{1^2} = a \\
V[\lambda|x_1,x_2,…,x_n] &= \frac{a + n \bar{x}}{(n+1)^2}
\end{align}
$$

上記より、$n$が大きくなるにつれて$E[\lambda], E[\lambda|x_1,x_2,…,x_n]$が標本平均の$\bar{x}$に近づき、$V[\lambda], E[\lambda|x_1,x_2,…,x_n]$が$0$に近づくことがわかる。

これは$n$が大きくなるにつれて最尤推定の結果に近づくことを意味し、ベイズの定理を用いた推定が最尤法の拡張であると考えることができることを表している。

・解説
主に下記の内容に基づいて作成を行いました。
https://www.hello-statisticians.com/explain-terms-cat/conjugate_dist1.html

ⅲ)で取り扱ったガンマ分布のモーメント母関数に関しては下記で詳しい導出を行いましたので、こちらも参考になると思います。
https://www.hello-statisticians.com/explain-books-cat/toukeigaku-aohon/ch1_blue_practice.html#19

v)の結果の解釈は最尤法とベイズを比較する際によく出てくるので、事後分布を用いた推定結果の解釈に関してはなるべく行うようにすると良いと思います。

正規分布の共役事前分布の設定と事後分布

・問題
観測値が正規分布に従うと仮定した際の尤度のパラメータに対して正規分布の共役事前分布を考えることで、ベイズの定理を用いて事後分布を計算することができる。

この計算は重要なトピックである一方で平方完成に関連する計算が複雑になり、計算ミスなどが起こりやすい。この問題では以下、関連の計算について可能な限りシンプルに計算ができるように導出の流れの確認を行う。

以下の問題に答えよ。
i) 正規分布$\mathcal{N}(\mu, \sigma^2)$の確率密度関数を$f(x|\mu,\sigma^2)$のようにおくとき、$f(x|\mu,\sigma^2)$を$x, \mu, \sigma^2$の式で表せ。
ⅱ) 確率変数列${X_1,…,X_n}$に対して$X_1,…,X_n \sim \mathcal{N}(\mu, \sigma^2) \quad i.i.d.,$が成立するとき、確率変数列$\{X_1,…,X_n\}$に対応する観測値の列$\{x_1,…,x_n\}$が観測されたときの$\mu$に関する尤度$L(\mu|x_1,…,x_n)$を表せ。
ⅲ) $\displaystyle \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$のようにおくとき、Fisher-Neymanの分解定理を用いて$\bar{x}$が$\mu$の十分統計量であることを示せ。
iv) $\mu$の事前分布が正規分布$\mathcal{N}(\lambda,\tau^2)$に従うとき、確率密度関数$P(\mu)$を$\lambda,\tau^2$を用いて表せ。
v) $a>0$のとき$g(x) = ax^2 + bx + c$の平方完成を行え。また、$g(x)$が最小となる$x$の値を答えよ。
vi) $x_1,x_2,…,x_n$が観測された際の$\mu$の事後分布の確率密度関数$P(\mu|x_1,…,x_n)$をベイズの定理に基づいて計算し、事後分布が$\displaystyle \mathcal{N} \left( \frac{n \tau^2 \bar{x} + \sigma^2 \lambda}{n \tau^2 + \sigma^2} , \frac{\sigma^2 \tau^2}{n \tau^2 + \sigma^2} \right)$に一致することを確認せよ。
vⅱ) vi)の結果を事後分布の平均に着目して解釈せよ。

・解答
i)
確率密度関数$f(x|\mu,\sigma^2)$は下記のように表すことができる。
$$
\large
\begin{align}
f(x|\mu,\sigma^2) = \frac{1}{\sqrt{2 \pi} \sigma} \exp \left[ -\frac{(x-\mu)^2}{2 \sigma^2} \right]
\end{align}
$$

ⅱ)
尤度$L(\mu|x_1,…,x_n)$は同時確率に一致するので、$i.i.d.,$であることから下記のように導出することができる。
$$
\large
\begin{align}
L(\mu|x_1,…,x_n) &= f(x_1,…,x_n|\mu,\sigma^2) = \prod_{i=1}^{n} f(x_i|\mu,\sigma^2) \\
&= \prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left[ -\frac{(x_i-\mu)^2}{2 \sigma^2} \right] \\
&= \left( \frac{1}{\sqrt{2 \pi} \sigma} \right)^{n} \exp \left[ -\sum_{i=1}^{n} \frac{(x_i-\mu)^2}{2 \sigma^2} \right]
\end{align}
$$

ⅲ)
$(x_i-\mu) = (x_i-\bar{x}) + (\bar{x}-\mu)$より、 $\displaystyle \sum_{i=1}^{n} (x_i-\mu)^2$は下記のように変形できる。
$$
\large
\begin{align}
\sum_{i=1}^{n} (x_i-\mu)^2 &= \sum_{i=1}^{n} ((x_i-\bar{x}) + (\bar{x}-\mu))^2 \\
&= \sum_{i=1}^{n} ((x_i-\bar{x})^2 + 2(\bar{x}-\mu)^2 + (x_i-\bar{x})(\bar{x}-\mu)) \\
&= \sum_{i=1}^{n} (x_i-\bar{x})^2 + \sum_{i=1}^{n} (\bar{x}-\mu)^2 + 2(\bar{x}-\mu) \sum_{i=1}^{n}(x_i-\bar{x}) \\
&= \sum_{i=1}^{n} (x_i-\bar{x})^2 + \sum_{i=1}^{n} (\bar{x}-\mu)^2 \\
&= n(x_i-\bar{x})^2 + \sum_{i=1}^{n} (\bar{x}-\mu)^2
\end{align}
$$

よって同時確率密度関数$f(x_1,…,x_n|\mu,\sigma^2)$は下記のように変形できる。
$$
\large
\begin{align}
f(x_1,…,x_n|\mu,\sigma^2) &= \prod_{i=1}^{n} f(x_i|\mu,\sigma^2) \\
&= \left( \frac{1}{\sqrt{2 \pi} \sigma} \right)^{n} \exp \left[ -\sum_{i=1}^{n} \frac{(x_i-\mu)^2}{2 \sigma^2} \right] \\
&= \exp \left[ -\frac{n(\bar{x}-\mu)^2}{2 \sigma^2} \right] \times \left( \frac{1}{\sqrt{2 \pi} \sigma} \right)^{n} \exp \left[ -\sum_{i=1}^{n} \frac{(x_i-\bar{x})^2}{2 \sigma^2} \right]
\end{align}
$$

上記のように同時確率密度関数を$\mu, \bar{x}$の関数と$x_i,\bar{x}$の関数に分解することができたのでFisher-Neymanの定理より$\bar{x}$が$\mu$の十分統計量であることが示せる。

iv)
確率密度関数$P(\mu)$は下記のように表せる。
$$
\large
\begin{align}
f(x|\mu,\sigma^2) = \frac{1}{\sqrt{2 \pi} \tau} \exp \left[ -\frac{(\mu-\lambda)^2}{2 \tau^2} \right]
\end{align}
$$

v)
下記のように$g(x)$の平方完成を行うことができる。
$$
\large
\begin{align}
g(x) &= ax^2+bx+c \\
&= a \left( x^2 + \frac{b}{a}x \right) + c \\
&= a \left( x + \frac{b}{2a} \right)^2 + c – a \left( \frac{b}{2a} \right)^2 \\
&= a \left( x + \frac{b}{2a} \right)^2 + c – \frac{ab^2}{4a^2} \\
&= a \left( x + \frac{b}{2a} \right)^2 + c – \frac{b^2}{4a}
\end{align}
$$

$g(x)$は$a>0$から下に凸の関数であるので、上記より、$\displaystyle x = -\frac{b}{2a}$のとき$g(x)$は最小値を取ることがわかる。

vi)
事後分布の確率密度関数$P(\mu|x_1,…,x_n)$に関しては下記のように考えることができる。
$$
\large
\begin{align}
P(\mu|x_1,…,x_n) & \propto L(\mu|x_1,…,x_n) P(\mu) \\
&= \exp \left[ -\frac{n(\bar{x}-\mu)^2}{2 \sigma^2} \right] \times \left( \frac{1}{\sqrt{2 \pi} \sigma} \right)^{n} \exp \left[ -\sum_{i=1}^{n} \frac{(x_i-\bar{x})^2}{2 \sigma^2} \right] \times \frac{1}{\sqrt{2 \pi} \tau} \exp \left[ -\frac{(\mu-\lambda)^2}{2 \tau^2} \right] \\
& \propto \exp \left[ -\frac{n(\bar{x}-\mu)^2}{2 \sigma^2} \right] \times \exp \left[ -\frac{(\mu-\lambda)^2}{2 \tau^2} \right] \\
&= \exp \left[ -\frac{\sigma^2(\mu-\lambda)^2 + n \tau^2(\mu-\bar{x})^2}{2 \sigma^2 \tau^2} \right] \\
&= \exp \left[ -\frac{(n \tau^2 + \sigma^2)\mu^2 – 2(n \tau^2 \bar{x} + \sigma^2 \lambda)\mu + …}{2 \sigma^2 \tau^2} \right] \\
& \propto \exp \left[ -\frac{n \tau^2 + \sigma^2}{2 \sigma^2 \tau^2} \left(\mu – \frac{n \tau^2 \bar{x} + \sigma^2 \lambda}{n \tau^2 + \sigma^2} \right)^2 \right]
\end{align}
$$

vⅱ)
$\displaystyle \frac{n \tau^2 \bar{x} + \sigma^2 \lambda}{n \tau^2 + \sigma^2}$を解釈するにあたっては、標本平均$\bar{x}$と事前分布の平均の$\lambda$がそれぞれどのような配分で事後分布の平均に作用するかを確認すればよい。

ここで事後分布の平均は$\bar{x}$と$\lambda$を$n \tau^2:\sigma^2$に内分する点であることが確認でき、$n$が大きい時は$\bar{x}$に限りなく近づくことも同時にわかる。

・解説
下記の内容に基づいて作成を行いました。
https://www.hello-statisticians.com/explain-terms-cat/conjugate_dist1.html#i-6

ⅲ)のようにFisher-Neymanの定理の式の形で同時確率密度関数、尤度を表すことで$\mu$に関連する部分の表記をシンプルに行えます。このような表記を用いることで、vi)での計算で$\displaystyle \sum$を考えなくてよく、これにより式が見やすくなります。

vi)の計算にあたってはv)のように全ての項を考えるのではなく、v)の結果を活用しさらに$\propto$を用いて定数項は考えないことで計算をシンプルに行うことができます。

EAP推定量とMAP推定量

・問題
ベイズの定理を用いてパラメータの事後分布を得た場合、予測分布のように事後分布をそのまま用いる場合もあるが、事後分布を$1$つの値に要約して用いる場合も多い。この要約にあたっては事後分布の期待値を考えるEAP推定量と事後分布が最大となる点に着目するMAP推定量がよく用いられる。EAP推定量は期待事後推定量(Expected a Posterior Estimator)の略で、MAP推定量は最大事後確率推定量(Maximum a Posterior Estimator)の略であることも合わせて抑えておくと良い。

この問題では以下、EAP推定量とMAP推定量に関して具体的な事後分布に基づいて確認するにあたって、「ベータ分布」、「ガンマ分布」、「正規分布」に対してそれぞれEAP推定量とMAP推定量の導出を行う。「ベータ分布$\mathrm{Be}(\alpha,\beta)$」、「ガンマ分布$\mathrm{Ga}(\alpha,\beta)$」、「正規分布$\mathcal{N}(\mu,\sigma^2)$」の確率密度関数を$f_1(x),f_2(x),f_3(x)$とおくとそれぞれ下記のように表すことができる。
$$
\large
\begin{align}
f_1(x) &= \frac{1}{B(\alpha,\beta)} x^{\alpha-1}(1-x)^{\beta-1} = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} x^{\alpha-1}(1-x)^{\beta-1} \\
f_2(x) &= \frac{1}{\beta^{\alpha} \Gamma(\alpha)} x^{\alpha-1} \exp{\left( -\frac{x}{\beta} \right)} \\
f_3(x) &= \frac{1}{\sqrt{2 \pi \sigma^2}} \exp{\left( -\frac{(x-\mu)^2}{2 \sigma^2} \right)}
\end{align}
$$

ここまでの内容に基づいて下記の問いにそれぞれ答えよ。
i) EAP推定量とMAP推定量は記述統計における「代表値」と対応して理解することができるが、EAP推定量とMAP推定量はそれぞれどのような代表値に対応するか答えよ。
ⅱ) 「二項分布の共役事前分布と事後分布の解釈」では、二項分布$\mathrm{Bin}(n,p)$の確率パラメータ$p$の事後分布にベータ分布$\mathrm{Be}(\alpha+x,\beta+n-x)$が得られた。このとき$p$のEAP推定量$\hat{p}_{EAP}$とMAP推定量$\hat{p}_{EAP}$を$n,x,\alpha,\beta$を用いて表せ。
ⅲ) ⅱ)と同様に事後分布にベータ分布$\mathrm{Be}(\alpha+x,\beta+n-x)$が得られたとき、$p$のMAP推定量$\hat{p}_{MAP}$を$n,x,\alpha,\beta$を用いて表せ。
iv) ⅱ)、ⅲ)で得られた$\hat{p}_{EAP}$と$\hat{p}_{MAP}$を最尤推定量$\displaystyle \hat{p}_{MLE}=\frac{x}{n}$に基づいて解釈せよ。
v) $\lambda \sim \mathrm{Ga}(\alpha,\beta)$のとき、$\hat{\lambda}_{EAP}$と$\hat{\lambda}_{MAP}$をそれぞれ計算せよ。
vi) $\mu \sim \mathcal{N}(\mu_N,\sigma_N^2)$のとき、$\hat{\mu}_{EAP}$と$\hat{\mu}_{MAP}$をそれぞれ答えよ。

・解答
i)
EAP推定量は平均に対応し、MAP推定量はモードに対応すると考えることができる。

ⅱ)
$p$のEAP推定量$\hat{p}_{EAP}$は下記のように得られる。
$$
\large
\begin{align}
\hat{p}_{EAP} &= \int_{0}^{1} p \times f_1(p) dp \\
&= \frac{1}{B(a+x,\beta+n-x)} \int_{0}^{1} p \times p^{\alpha+x-1} (1-p)^{\alpha+n-x-1} dp \\
&= \frac{1}{B(a+x,\beta+n-x)} \int_{0}^{1} p^{\alpha+x+1-1} (1-p)^{\alpha+n-x-1} dp \\
&= \frac{B(a+x+1,\beta+n-x)}{B(a+x,\beta+n-x)} \\
&= \frac{\Gamma(\alpha+x+1)\Gamma(\beta+n-x)}{\Gamma(n+\alpha+\beta+1)} \times \frac{\Gamma(n+\alpha+\beta)}{\Gamma(\alpha+x)\Gamma(\beta+n-x)} \\
&= \frac{(\alpha+x)!(\beta+n-x-1)!}{(n+\alpha+\beta)!} \times \frac{(n+\alpha+\beta-1)!}{(\alpha+x-1)!(\beta+n-x-1)!} \\
&= \frac{\alpha+x}{n+\alpha+\beta}
\end{align}
$$

ⅲ)
$p$のMAP推定量$\hat{p}_{MAP}$は下記のように得られる。
$$
\large
\begin{align}
\frac{\partial \log{(P(p|x))}}{\partial p} &= \frac{\partial}{\partial p} \log{\left[ \frac{1}{B(\alpha+x-1,\beta+n-x)} p^{\alpha+x-1}(1-p)^{\beta+n-x-1} \right]} \\
&= \frac{\partial}{\partial p} \left[ (\alpha+x-1)\log{p} + (\beta+n-x-1)\log{(1-p)} – \log{B(\alpha+x-1,\beta+n-x)} \right] \\
&= \frac{\alpha+x-1}{p} – \frac{\beta+n-x-1}{1-p} \\
&= \frac{(\alpha+x-1)(1-p) – (\beta+n-x-1)p}{p(1-p)} \\
&= \frac{\alpha+x-1 – (n+\alpha+\beta-2)p}{p(1-p)} \\
\hat{p}_{MAP} &= \frac{\alpha+x-1}{n+\alpha+\beta-2}
\end{align}
$$

iv)
最尤推定量$\displaystyle \hat{p}_{MLE}=\frac{x}{n}$は$n$回の試行の中で事象が$x$回観測されたのでパラメータを$\displaystyle \hat{p}_{MLE}=\frac{x}{n}$のように推定したと考えられる。
事後分布に基づく推定は予めサンプルがある上で観測された割合を計算したと見ることもでき、EAP推定量は「事前に$\alpha+\beta$回中$\alpha$回計測された場合」、MAP推定量は「事前に$\alpha+\beta-2$回中$\alpha-1$回計測された場合」とそれぞれ解釈できる。

v)
$\hat{\lambda}_{EAP}$は下記のように計算できる。
$$
\large
\begin{align}
\hat{\lambda}_{EAP} &= \int_{0}^{\infty} \lambda \times f_2(\lambda) d \lambda \\
&= \frac{1}{\beta^{\alpha} \Gamma(\alpha)} \int_{0}^{\infty} \lambda \times \lambda^{\alpha-1} \exp{\left( -\frac{\lambda}{\beta} \right)}d \lambda \\
&= \frac{1}{\beta^{\alpha} \Gamma(\alpha)} \int_{0}^{\infty} \lambda^{(\alpha+1)-1} \exp{\left( -\frac{\lambda}{\beta} \right)}d \lambda \\
&= \frac{1}{\beta^{\alpha} \Gamma(\alpha)} \times \beta{\alpha+1} \Gamma(\alpha+1) \\
&= \alpha \beta
\end{align}
$$

$\hat{\lambda}_{MAP}$の計算にあたっては$\log{f_2(\lambda)}$を考え、$\lambda$で微分を行えばよい。$\log{f_2(\lambda)}$は下記のように表すことができる。
$$
\large
\begin{align}
\log{f_2(\lambda)} &= \log{ \left[ \frac{1}{\beta^{\alpha} \Gamma(\alpha)} \lambda^{\alpha-1} \exp{\left( -\frac{\lambda}{\beta} \right)} \right] } \\
&= (\alpha-1) \log{\lambda} – \frac{\lambda}{\beta} – \log{\left[ \beta^{\alpha} \Gamma(\alpha) \right]}
\end{align}
$$

上記を$\lambda$で偏微分を行うことで下記が得られる。
$$
\large
\begin{align}
\frac{\partial \log{f_2(\lambda)}}{\partial \lambda} &= \frac{\alpha-1}{\lambda} – \frac{1}{\beta} \\
&= \frac{\alpha \beta – \beta – \lambda}{\lambda \beta} \\
\hat{\lambda}_{MAP} &= (\alpha-1) \beta
\end{align}
$$

vi)
正規分布の確率密度関数の形状より、$\hat{\mu}_{EAP}=\mu_N, \hat{\mu}_{MAP}=\mu_N$である。

・解説
ⅱ)〜iv)では二項分布の確率パラメータ$p$の事後分布に基づいてEAP推定量、MAP推定量の計算を行いました。v)、vi)の事後分布のパラメータはそれぞれ「ポアソン分布の共役事前分布と事後分布の解釈」と「正規分布の共役事前分布の設定と事後分布」で取り扱いました。ⅱ)〜iv)では事後分布のパラメータを元に推定量の計算を行いましたが、このように計算すると式が複雑になるので、v)、vi)のように「①それぞれの確率分布に関する推定量の計算」と「②事後分布のパラメータの計算」を分けて考えるとシンプルに取り扱えて良いのではないかと思います。v)、vi)では簡略化にあたって②は省略し、①のみ取り扱いました。
また、EAP推定量は積分、MAP推定量は微分を用いることでそれぞれ計算できることは抑えておくと良いと思います。
「統計検定準$1$級のワークブック」ではEAP推定量を「ベイズ推定量」のように表現されますが、ベイズ推定が何を指すのかがわかりにくくなるので、この問題では「数理統計学 統計的推論の基礎」に基づいて「EAP推定量」と表記しました。

発展問題

共役事前分布と指数型分布族

予測分布

・問題
パラメータ$\theta$に関する事後分布は観測された標本$x_1,\cdots,x_n$を元に$P(\theta|x_1,\cdots,x_n)$を考える。ここで得られた事後分布を元に新規の標本に関して予測を行うことを考える。

予測を行うにあたっては、「EAP推定量とMAP推定量」で考えたように事後分布を元にパラメータの推定量を計算し、推定量を元に予測を行うのがシンプルである。が、新規のサンプル$x_{n+1}$に関して下記を考えることで予測を行うことも可能である。
$$
\large
\begin{align}
P(x_{n+1}|x_1,\cdots,x_n) = \int P(x_{n+1}|\theta) P(\theta|x_1,\cdots,x_n) d \theta
\end{align}
$$

上記に基づいて定められる$P(x_{n+1}|x_1,\cdots,x_n)$を予測分布(Predictive distribution)という。以下、標本がポアソン分布に基づいて観測された際の予測分布の導出に関して演習形式で確認を行う。下記の問いにそれぞれ答えよ。
i) ポアソン分布$\mathrm{Po}(\lambda)$の確率関数を$p(x)$とおくとき、$p(x)$を$x, \lambda$の式で表せ。
ⅱ) $x_1=2, x_2=3, x_3=5, x_4=2, x_5=3$が観測されたとき、i)の式を元に尤度$L(\lambda)$を表せ。
ⅲ) パラメータ$\lambda$の事前分布にガンマ分布$\displaystyle \mathrm{Ga} \left( 3,\frac{1}{2} \right)$を考える。この確率密度関数を$P(\lambda)$とおくとき$P(\lambda)$を表せ。
iv) ⅱ)の尤度$L(\lambda)=P(x_1,\cdots,x_5|\lambda)$とⅲ)の事前確率$P(\lambda)$を用いて$\lambda$の事後分布を求めよ。
v) iv)で求めた事後分布の確率密度関数$P(\lambda|x_1,\cdots,x_5)$を表せ。
vi) v)の結果などを用いて$(1)$式を元に$P(x_{n+1}|x_1,\cdots,x_5)$を計算せよ。
vⅱ) 負の二項分布$\mathrm{NB}(r,p)$の確率関数を$p(x)$とおくと、$p(x)$は下記のように表せる。
$$
\begin{align}
p(x) &= {}_r H_{x} p^{r} (1-p)^{x} \\
&= {}_{r+x-1} C_{x} p^{r} (1-p)^{x} \\
&= \frac{(r+x-1)!}{x! (r-1)!} p^{r} (1-p)^{x} \quad (2)
\end{align}
$$
$(2)$式を元にvi)の導出結果の$x_6$に対応する確率変数が従う負の二項分布のパラメータを答えよ。

・解答
i)
確率関数$p(x)$は下記のように表すことができる。
$$
\large
\begin{align}
p(x) = \frac{\lambda^{x} e^{-\lambda}}{x!}
\end{align}
$$

ⅱ)
尤度$L(\lambda)$は標本が観測される同時確率に一致するので下記のように考えることができる。
$$
\large
\begin{align}
L(\lambda) &= \prod_{i=1}^{5} p(x_i) = \prod_{i=1}^{5} \frac{\lambda^{x_i} e^{-\lambda}}{x_i!} \\
&= \lambda^{\sum_{i=1}^{5} x_i} e^{-5 \lambda} \left( \prod_{i=1}^{5} x_i! \right)^{-1} \\
&= \lambda^{15} e^{-5 \lambda} \left( \prod_{i=1}^{5} x_i! \right)^{-1}
\end{align}
$$

ⅲ)
パラメータ$\lambda$の事前分布$\displaystyle \mathrm{Ga} \left( 3,\frac{1}{2} \right)$の確率密度関数$P(\lambda)$は下記のように表すことができる。
$$
\large
\begin{align}
P(\lambda) = \frac{2^{3}}{\Gamma(3)} \lambda^{3-1} e^{-2 \lambda}
\end{align}
$$

iv)
事後分布の確率密度関数を$P(\lambda|x_1,\cdots,x_5)$とおくと、$P(\lambda|x_1,\cdots,x_5)$は下記のように考えることができる。
$$
\large
\begin{align}
P(\lambda|x_1,\cdots,x_n) & \propto P(x_1,\cdots,x_5|\lambda)P(\lambda) \\
& \propto \lambda^{15} e^{-5 \lambda} \times \lambda^{3-1} e^{-2 \lambda} \\
&= \lambda^{18-1} e^{-7 \lambda}
\end{align}
$$

上記より、$\lambda$の事後分布はガンマ分布$\displaystyle \mathrm{Ga} \left( 18,\frac{1}{7} \right)$であると考えることができる。

v)
$P(\lambda|x_1,\cdots,x_n)$はガンマ分布$\displaystyle \mathrm{Ga} \left( 18,\frac{1}{7} \right)$の確率密度関数であるので下記のように表せる。
$$
\large
\begin{align}
P(\lambda|x_1,\cdots,x_n) = \frac{7^{18}}{\Gamma(18)} \lambda^{18-1} e^{-7 \lambda}
\end{align}
$$

vi)
$(1)$式を元に$P(x_{6}|x_1,\cdots,x_5)$は下記のように計算できる。
$$
\large
\begin{align}
P(x_{6}|x_1,\cdots,x_5) &= \int_{0}^{\infty} P(x_{6}|\lambda) P(\lambda|x_1,\cdots,x_5) d \lambda \quad (1) \\
&= \int_{0}^{\infty} \frac{\lambda^{x_6} e^{-\lambda}}{x_6!} \times \frac{7^{18}}{\Gamma(18)} \lambda^{18-1} e^{-7 \lambda} d \lambda \\
&= \frac{7^{18}}{x_6! \Gamma(18)} \int_{0}^{\infty} \lambda^{18+x_6-1} e^{-8 \lambda} d \lambda \\
&= \frac{7^{18}}{x_6! \Gamma(18)} \times \frac{\Gamma(18+x_6)}{8^{18+x_6}} \\
&= \frac{(18+x_6-1)!}{x_6! (18-1)!} \cdot \left( \frac{7}{8} \right)^{18} \cdot \left( \frac{1}{8} \right)^{x_6}
\end{align}
$$

vⅱ)
$(2)$式に対し、$\displaystyle r=18, x=x_6, p=\frac{7}{8}$で置き換えることでvi)の$P(x_{6}|x_1,\cdots,x_5)$の式が得られる。よって、$x_6$に対応する確率変数は負の二項分布$\displaystyle \mathrm{NB} \left( 18,\frac{7}{8} \right)$に従うと考えられる。

・解説
問題の作成にあたっては下記の問題の設定を主に用いました。

参考