十分統計量・完備十分統計量・最小十分統計量|問題演習で理解する統計学【16】

数理統計学における「十分統計量」・「完備十分統計量」・「最小十分統計量」は、統計的推論を行うにあたっての主要な概念である。得られたサンプルを要約する統計量をサンプルの確率関数を考えることで表現できるが、やや抽象的なので、ここでは演習を通して具体的な例の確認を行う。

「十分統計量」に関しては下記でも取り扱いましたので、こちらも合わせて確認してみてください。
https://www.hello-statisticians.com/explain-terms-cat/sufficient_statistic1.html
https://www.hello-statisticians.com/explain-terms-cat/sufficient_statistic2.html
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch6.html

基本問題

十分統計量と二項分布

・問題
二項分布$Bin(n,p)$は「$n$回のベルヌーイ試行を繰り返した際に確率$p$の事象が$k$回起こる確率」のように定義される。二項分布の確率関数は確率変数を$Y$とすると、$P(Y=k|n,p)$のように条件付き確率の表記で表すことができる。$P(Y=k|n,p)$は下記のように計算できる。
$$
\begin{align}
P(Y=k|n,p) = {}_{n} C_{k} p^{k} (1-p)^{n-k}
\end{align}
$$

ここで十分統計量と二項分布を考えるにあたって、$n$回のベルヌーイ試行それぞれに対して$X_1, X_2, …, X_n$のように確率$p$で$1$、確率$1-p$で$0$となる確率変数を考える。この同時確率関数を$P(X_1=x_1,X_2=x_2,…,X_n=x_n|p)$とおく。

ここまでの内容に基づいて以下の問いに答えよ。
i) $P(X_1=x_1,X_2=x_2,…,X_n=x_n|p)$を$x_1,…,x_n$と$p$の関数で表せ。ただし、ベルヌーイ分布の確率関数$P(X_i=x_i|p)$は下記のように与えられる。
$$
\begin{align}
P(X_i=x_i|p) = p^{x_i} (1-p)^{1-x_i} \quad (1)
\end{align}
$$
ⅱ) i)の結果において、$\displaystyle T = \sum_{i=1}^{n} x_i$を置き換えて表記せよ。
ⅲ) 確率変数$Y$を確率変数$X_1, X_2, …, X_n$を用いて表せ。
iv) $Y=T$が与えられた場合の$X_1=x_1,X_2=x_2,…,X_n=x_n$の条件付き確率を$P(X_1=x_1,X_2=x_2,…,X_n=x_n|Y=T,n,p)$とすると、$P(X_1=x_1,X_2=x_2,…,X_n=x_n|Y=T,n,p)$は下記のように表すことができる。
$$
\begin{align}
P(X_1=x_1,…,X_n=x_n|Y=T,n,p) = \frac{P(X_1=x_1,…,X_n=x_n,Y=T|n,p)}{P(Y=T|n,p)}
\end{align}
$$
ここで$P(X_1=x_1,X_2=x_2,…,X_n=x_n,Y=T|n,p)$をⅱ)の式、$P(Y=T|n,p)$を(1)式でそれぞれ表すことができることを利用して、$P(X_1=x_1,X_2=x_2,…,X_n=x_n|Y=T,n,p)$を求めよ。
v) ここまでの議論を元に、$\displaystyle T = \sum_{i=1}^{n} x_i$がパラメータ$p$に関する十分統計量であることを確認せよ。

・解答
i)
同時確率関数$P(X_1=x_1,X_2=x_2,…,X_n=x_n|p)$は下記のように表すことができる。
$$
\large
\begin{align}
P(X_1=x_1,X_2=x_2,…,X_n=x_n|p) &= \prod_{i=1}^{n} p^{x_i}(1-p)^{1-x_i} \\
&= p^{\sum_{i=1}^{n}x_i}(1-p)^{n-\sum_{i=1}^{n}x_i}
\end{align}
$$

ⅱ)
i)の結果に対して、$\displaystyle T = \sum_{i=1}^{n} x_i$のように置き換えると、$P(X_1=x_1,X_2=x_2,…,X_n=x_n|p)$は下記のように表せる。
$$
\large
\begin{align}
P(X_1=x_1,X_2=x_2,…,X_n=x_n|p) &= p^{\sum_{i=1}^{n}x_i}(1-p)^{n-\sum_{i=1}^{n}x_i} \\
&= p^{T}(1-p)^{n-T}
\end{align}
$$

ⅲ)
確率変数$Y$を確率変数$X_1, X_2, …, X_n$を用いて下記のように表すことができる。
$$
\large
\begin{align}
Y = X_1 + X_2 + … X_n
\end{align}
$$

iv)
$P(X_1=x_1,X_2=x_2,…,X_n=x_n|Y=T,n,p)$は下記のように求めることができる。
$$
\large
\begin{align}
P(X_1=x_1, & X_2=x_2,…,X_n=x_n|Y=T,n,p) \\
&= \frac{P(X_1=x_1,X_2=x_2,…,X_n=x_n,Y=T|n,p)}{P(Y=T|n,p)} \\
&= \frac{p^{T}(1-p)^{n-T}}{{}_{n} C_{T} p^{T} (1-p)^{n-T}} \\
&= \frac{1}{{}_{n} C_{T}}
\end{align}
$$

v)
「統計量$T$が与えられた時に、サンプル$x_1,…,x_n$の条件付き確率が$p$に関係しないこと」が統計量$T$が十分統計量であることの必要十分条件と考えるならば、iv)の結果より「$\displaystyle T = \sum_{i=1}^{n} x_i$が十分統計量である」ことがわかる。

・解説
「統計量$T$が与えられた時に、サンプル$x_1,…,x_n$の条件付き確率が$p$に関係しないこと」は、iv)のような計算を行うことで示すことができます。表記がやや複雑ですが、基本的には条件付き確率の公式の通りなので、難しく考え過ぎない方が良いと思います。
また、同時確率を考える際に観測値の$x_1,…,x_n$にi.i.d.を仮定して、$\displaystyle P(X_1=x_1,…X_n=x_n) = \prod_{i=1}^{n} P(X_i=x_i)$のように積の形で表現することが多いですが、ベルヌーイ分布の$n$回試行に対しては$\displaystyle P(X_1=x_1,…X_n=x_n) = \prod_{i=1}^{n} P(X_i=x_i)$のような形式以外にも二項分布で表す方法があることは抑えておくと良いです。iv)では$x_1,…,x_n$に基づく同時確率と、$\displaystyle T = \sum_{i=1}^{n} x_i$に基づく確率を考えましたが、i.i.d.を元に$X_1=x_1,…X_n=x_n$を積の計算で求めた同時確率と、二項分布に基づいて$Y=T$を用いて立式する確率関数の二つの比を計算しており、同じ事象に対し違う見方をしたものの比を計算したと考えることもできると思われます。

分解定理と十分統計量・最尤法

・問題
「現代数理統計学」の定理6.2で示されるように、統計量$T$が十分統計量であることを示すにあたっては、分解定理(factorization theorem)を利用すると良い。
パラメータが$\theta$の確率分布に対して、確率変数$X_1,X_2,…,X_n$とその実現値$x_1,x_n,…,x_n \in \left\{ 0,1 \right\}$に関する同時確率を$P(X_1=x_1,…X_n=x_n|\theta)$のようにおくとき、「下記が成立することが$T$が十分統計量であることと同値である」と考えるのが分解定理である。
$$
\begin{align}
P(X_1=x_1,…X_n=x_n|\theta) = g(T,\theta)h(X_1=x_1,…X_n=x_n)
\end{align}
$$
ここで上記の左辺は条件付き分布で、右辺は2変数関数の$g(T,\theta)$と$n$変数関数の$h(X_1=x_1,…X_n=x_n)$を表した。また、統計量$T$は標本の関数であるため、$T(X_1=x_1,…X_n=x_n)$のように表すこともある。

ここまでの内容に基づいて、下記の問いに答えよ。
i) 前問i)、ⅱ)の結果は下記のように表された。
$$
\begin{align}
P(X_1=x_1,X_2=x_2,…,X_n=x_n|p) &= \prod_{i=1}^{n} p^{x_i}(1-p)^{1-x_i} \\
&= p^{\sum_{i=1}^{n}x_i}(1-p)^{n-\sum_{i=1}^{n}x_i} \\
&= p^{T}(1-p)^{n-T}
\end{align}
$$
上記に対して分解定理を適用するときの$g(T,\theta)$と$h(X_1=x_1,…X_n=x_n)$を答えよ。
ⅱ) ベルヌーイ試行を$n$回繰り返した際の同時確率からパラメータ$p$を推定するにあたって、実現値$x_1,x_n,…,x_n \in \left\{ 0,1 \right\}$が出てくる順序は不要であることに関して考察せよ。
ⅲ) ⅱ)を最尤推定の手続きに基づいて具体的に確認する。i)で確認した同時確率の式を元にパラメータ$p$の最尤推定量を導出し、観測値の$x_1,…x_n$を用いずに$T$だけで表せることを確認せよ。
iv) ⅲ)において「パラメータ$p$の推定にあたって、十分統計量$T$があれば観測値の$x_1,…x_n$は必要ない」結果を導かれたことについて、i)の分解定理の式を$\theta$で偏微分することによって考察せよ。
v) 「$T$が十分統計量で$T$を与えた際の$X_1=x_1,…X_n=x_n$の確率分布が$\theta$に依存しない $\implies$ 分解定理が成立」を示せ。

・解答
i)
$g(T,\theta)$と$h(X_1=x_1,…X_n=x_n)$は下記が対応する。
$$
\large
\begin{align}
g(T,\theta) &= p^{T}(1-p)^{n-T} \\
h(X_1=x_1,… & X_n=x_n) = 1
\end{align}
$$

ⅱ)
$$
\large
\begin{align}
P(X_1=x_1,X_2=x_2,…,X_n=x_n|p) &= \prod_{i=1}^{n} p^{x_i}(1-p)^{1-x_i} \\
&= p^{\sum_{i=1}^{n}x_i}(1-p)^{n-\sum_{i=1}^{n}x_i} \\
&= p^{T}(1-p)^{n-T}
\end{align}
$$
上記のように同時確率が与えられるので、パラメータ$p$について考えるにあたっては、$\displaystyle T = \sum_{i=1}^{n} x_i$だけがわかればよく、$x_i$の個々の値は考える必要がない。これは順序が不要であることを意味する。

ⅲ)
$$
\large
\begin{align}
P(X_1=x_1,X_2=x_2,…,X_n=x_n|p) = p^{T}(1-p)^{n-T}
\end{align}
$$
上記に対して、最尤法を用いて$p$の推定量を導出する。$p$に関する尤度を$L(p)=P(X_1=x_1,X_2=x_2,…,X_n=x_n|p)$とおくと、対数尤度の$\log{L(p)}$は下記のように表せる。
$$
\large
\begin{align}
\log{L(p)} &= \log{p^{T}(1-p)^{n-T}} \\
&= T\log{p} + (n-T)\log{(1-p)}
\end{align}
$$

ここで$\log{L(p)}$を$p$に関して偏微分を行い、$0$に一致する際の$p$が推定値に一致する。
$$
\large
\begin{align}
\frac{\partial \log{L(p)}}{\partial p} &= 0 \\
\frac{T}{p} – \frac{n-T}{1-p} &= 0 \\
\frac{T}{p} &= \frac{n-T}{1-p} \\
T(1-p) &= (n-T)p \\
np &= T \\
p &= \frac{T}{n}
\end{align}
$$

上記のように、$p$の最尤推定量が観測値の$x_1,…x_n$を用いずに$T$の式だけで表すことができる。

iv)
$$
\large
\begin{align}
P(X_1=x_1,…X_n=x_n|\theta) = g(T,\theta)h(X_1=x_1,…X_n=x_n)
\end{align}
$$
上記の両辺を$\theta$で偏微分を行うと、下記のように変形できる。
$$
\large
\begin{align}
\frac{\partial}{\partial \theta} P(X_1=x_1,… & X_n=x_n|\theta) = \frac{\partial}{\partial \theta} g(T,\theta) \\
&= h(X_1=x_1,…X_n=x_n) \frac{\partial}{\partial \theta} g(T,\theta)
\end{align}
$$

上記が$0$に一致する場合を考えるにあたっては、$h(X_1=x_1,…X_n=x_n)$が単なる係数であるので、下記を$\theta$について解けば良い。
$$
\large
\begin{align}
\frac{\partial}{\partial \theta} g(T,\theta) = 0
\end{align}
$$
上記から、この結果得られる$\theta$の推定量が観測値の$x_1,…x_n$を用いずに$T$だけで表すことができることが読み取れる。

v)
下記のように$P(T=t|\theta), P(X_1=x_1,…X_n=x_n|T=t,\theta)$を考える。
$$
\large
\begin{align}
P(T|\theta) &= g(T,\theta) \\
P(X_1=x_1,…X_n=x_n|T=t,\theta) &= h(X_1=x_1,…X_n=x_n)
\end{align}
$$
ここで上記の2つ目の式は、「十分統計量$T$が与えられた際に$X_1,…,X_n$の条件付き確率が$\theta$に依存しないこと」と、「$T$が$X_1,…,X_n$の関数で表すことができること」の二つに基づいて定義することができる。

このとき、同時確率$P(X_1=x_1,…X_n=x_n|\theta)$が$P(T|\theta)P(X_1=x_1,…X_n=x_n|T=t,\theta)$で表せることから、下記のように表記できる。
$$
\large
\begin{align}
P(X_1=x_1,…X_n=x_n|\theta) &= P(T|\theta)P(X_1=x_1,…X_n=x_n|T=t,\theta) \\
&= g(T,\theta)h(X_1=x_1,…X_n=x_n)
\end{align}
$$
上記が分解定理の数式に一致する。

・解説
i)の結果にあるように、$h(X_1=x_1,…X_n=x_n) = 1$の場合もあるので、この辺は注意しておくと良いかもしれません。v)に関しては$h(X_1=x_1,…X_n=x_n)$の定義のところが少々複雑ですが、重要事項なので抑えておくと良いです。

幾何分布と十分統計量

・問題
確率$p$で表が出るベルヌーイ試行において、$x$回を経て最初に表が出る確率を$P(X=x|p)$とおくとき、確率変数$X$の分布は幾何分布$Geo(p)$に従う。このことは下記のような数式で表される。
$$
\begin{align}
P(X=x|p) = p(1-p)^{x}
\end{align}
$$

ここで、確率変数列$X_1, X_2, …, X_n$がそれぞれ独立に幾何分布$Geo(p)$に従い、下記が成立すると仮定する。
$$
\begin{align}
P(X_i=x_i|p) = p(1-p)^{x_i}
\end{align}
$$

このとき以下の問いに答えよ。
i) $X_1=x_1, X_2=x_2, …, X_n=x_n$が観測される同時確率を$P(X_1=x_1, X_2=x_2, …, X_n=x_n|p)$とおくとき、$P(X_1=x_1, X_2=x_2, …, X_n=x_n|p)$を求めよ。
ⅱ) i)の結果に対し、$\displaystyle T = \sum_{i=1}^{n} x_i$に基づいて、$x_i$から$T$の式に変形せよ。
ⅲ) 下記で表した分解定理を用いて、$\displaystyle T = \sum_{i=1}^{n} x_i$が$p$に関する十分統計量であることを示せ。
$$
\begin{align}
P(X_1=x_1,…X_n=x_n|p) = g(T,p)h(X_1=x_1,…X_n=x_n)
\end{align}
$$
iv) 同時確率$P(X_1=x_1, X_2=x_2, …, X_n=x_n|p)$を尤度$L(p)$と見るとき、対数尤度$\log{L(p)}$を求めよ。
v) $\log{L(p)}$を最大にする$p$を求め、$x_i$を用いずに$T$だけの式で表せることを確認せよ。

・解答
i)
$X_1=x_1, X_2=x_2, …, X_n=x_n$はi.i.d.であるので、$P(X_1=x_1, X_2=x_2, …, X_n=x_n|p)$は下記のように求められる。
$$
\large
\begin{align}
P(X_1=x_1, X_2=x_2, …, X_n=x_n|p) &= \prod_{i=1}^{n} P(X_i=x_i|p) \\
&= \prod_{i=1}^{n} p(1-p)^{x_i} \\
&= p^{n} (1-p)^{\sum_{i=1}^{n} x_i}
\end{align}
$$

ⅱ)
i)の結果に対し、$\displaystyle T = \sum_{i=1}^{n} x_i$を適用することで下記のように表すことができる。
$$
\large
\begin{align}
P(X_1=x_1, X_2=x_2, …, X_n=x_n|p) &= p^{n} (1-p)^{\sum_{i=1}^{n} x_i} \\
&= p^{n} (1-p)^{T}
\end{align}
$$

ⅲ)
下記のように$g(T,p), h(X_1=x_1,…X_n=x_n)$を考えることで、分解定理を適用することができる。
$$
\large
\begin{align}
& g(T,p) = p^{n} (1-p)^{T} \\
& h(X_1=x_1,…,X_n=x_n) = 1
\end{align}
$$

iv)
対数尤度$\log{L(p)}$は下記のように計算できる。
$$
\large
\begin{align}
\log{L(p)} &= \log{(p^{n} (1-p)^{T})} \\
&= n \log{p} + T \log{(1-p)}
\end{align}
$$

v)
対数尤度$\log{L(p)}$の$p$に関する偏微分が$0$になるときの$p$が最尤推定量$\hat{p}$となる。
$$
\large
\begin{align}
\frac{\partial \log{L(p)}}{\partial p} &= 0 \\
\frac{n}{p} – \frac{T}{1-p} &= 0 \\
\frac{n}{p} &= \frac{T}{1-p} \\
n(1-p) &= Tp \\
(n+T)p &= n \\
p &= \frac{n}{n+T}
\end{align}
$$
よって最尤推定量は$\displaystyle \hat{p} = \frac{n}{n+T}$となるが、これは$x_i$を用いずに$T$だけの式で表されている。

・解説
「現代数理統計学」の6章の「十分統計量」の章末課題の6.1を元に作題を行いました。
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch6.html#61
また、v)で計算した最尤推定量は$\displaystyle \hat{p} = \frac{n}{n+T}$であり、全試行のうち表が出た回数を最尤推定量としたことが読み取れることも抑えておくと良いです。このとき、ここでは試行の最後が必ず表であることによるバイアスが考慮されていないですが、$n$が大きい際などは無視できることは抑えておくと良いです。このことについては推定論で詳しくは取り扱われるため、ここでは詳細は省略します。

ポアソン分布と十分統計量

・問題
確率変数$X$がポアソン分布$Po(\lambda)$に従う場合、確率関数$P(X=x|\lambda)$は下記のような数式で表される。
$$
\begin{align}
P(X=x|\lambda) &= \frac{\lambda^{x} \exp (-\lambda)}{x!} \quad (1) \\
&= \exp(\log{\lambda^{x}} – \lambda – \log{x!}) \\
&= \exp(x \log{\lambda} – \lambda – \log{x!}) \quad (2)
\end{align}
$$

ここで、確率変数列$X_1, X_2, …, X_n$がそれぞれ独立にポアソン分布$Po(\lambda)$に従い、下記が成立すると仮定する。
$$
\begin{align}
P(X_i=x_i|\lambda) = \frac{\lambda^{x_i} \exp (-\lambda)}{x_i!}
\end{align}
$$

このとき以下の問いに答えよ。
i) $X_1=x_1, X_2=x_2, …, X_n=x_n$が観測される同時確率を$P(X_1=x_1, X_2=x_2, …, X_n=x_n|\lambda)$とおくとき、$P(X_1=x_1, X_2=x_2, …, X_n=x_n|\lambda)$を求めよ。
ⅱ) i)の結果に対し、$\displaystyle T = \sum_{i=1}^{n} x_i$に基づいて、$\displaystyle \sum_{i=1}^{n} x_i$を$T$に置き換えよ。
ⅲ) 下記で表した分解定理を用いて、$\displaystyle T = \sum_{i=1}^{n} x_i$が$\lambda$に関する十分統計量であることを示せ。
$$
\begin{align}
P(X_1=x_1,…X_n=x_n|p) = g(T,p)h(X_1=x_1,…X_n=x_n)
\end{align}
$$
iv) 同時確率$P(X_1=x_1, X_2=x_2, …, X_n=x_n|\lambda)$を尤度$L(\lambda)$と見るとき、対数尤度$\log{L(\lambda)}$を求めよ。ただし(1)式よりも(2)式の方が計算が簡単なので、(2)式を用いて計算を行え。
v) $\log{L(\lambda)}$を最大にする$\lambda$を求め、$x_i$を用いずに$T$だけの式で表せることを確認せよ。

・解答
i)
$X_1=x_1, X_2=x_2, …, X_n=x_n$はi.i.d.であるので、$P(X_1=x_1, X_2=x_2, …, X_n=x_n|\lambda)$は下記のように求められる。
$$
\large
\begin{align}
P(X_1=x_1, X_2=x_2, …, X_n=x_n|\lambda) &= \prod_{i=1}^{n} P(X_i=x_i|\lambda) \\
&= \prod_{i=1}^{n} \frac{\lambda^{x_i} \exp (-\lambda)}{x_i!} \\
&= \lambda^{\sum_{i=1}^{n} x_i} e^{- n \lambda} \left( \prod_{i=1}^{n} x_i \right)^{-1}
\end{align}
$$

ⅱ)
i)の結果に対し、$\displaystyle T = \sum_{i=1}^{n} x_i$を適用することで下記のように表すことができる。
$$
\large
\begin{align}
P(X_1=x_1, X_2=x_2, …, X_n=x_n|\lambda) &= \lambda^{\sum_{i=1}^{n} x_i} e^{- n \lambda} \left( \prod_{i=1}^{n} x_i \right)^{-1} \\
&= \lambda^{T} e^{- n \lambda} \left( \prod_{i=1}^{n} x_i \right)^{-1}
\end{align}
$$

ⅲ)
下記のように$g(T,\lambda), h(X_1=x_1,…X_n=x_n)$を考えることで、分解定理を適用することができる。
$$
\large
\begin{align}
g(T,p) &= \lambda^{T} e^{- n \lambda} \\
h(X_1=x_1,… & X_n=x_n) = \left( \prod_{i=1}^{n} x_i \right)^{-1}
\end{align}
$$

iv)
対数尤度$\log{L(\lambda)}$は下記のように計算できる。
$$
\large
\begin{align}
\log{\lambda} &= \log{\left(\prod_{i=1}^{n} \exp(x_i \log{\lambda} – \lambda – \log{x_i!}) \right)} \\
&= \sum_{i=1}^{n} \log{ \left( \exp(x_i \log{\lambda} – \lambda – \log{x_i!}) \right) } \\
&= \sum_{i=1}^{n} (x_i \log{\lambda} – \lambda – \log{x_i!}) \\
&= T \log{\lambda} -n \lambda – \sum_{i=1}^{n} \log{x_i!}
\end{align}
$$

v)
対数尤度$\log{L(\lambda)}$の$\lambda$に関する偏微分が$0$になるときの$\lambda$が最尤推定量$\hat{\lambda}$となる。
$$
\large
\begin{align}
\frac{\partial \log{L(\lambda)}}{\partial \lambda} &= 0 \\
\frac{T}{\lambda} – n &= 0 \\
n \lambda &= T \\
\lambda &= \frac{T}{n}
\end{align}
$$
よって最尤推定量は$\displaystyle \hat{\lambda} = \frac{T}{n}$となるが、これは$x_i$を用いずに$T$だけの式で表されている。

・解説
十分統計量に関しては抽象的が議論が多い印象で、なるべく具体的な理解ができるようにするにあたって、幾何分布に関する前問と同じ構成で作成を行いました。また、v)で求めた最尤推定量の$\hat{\lambda}$が$x_i$の平均で表されることも抑えておくと良いと思います。

正規分布と十分統計量

・問題
・解答
・解説

発展問題

完備十分統計量と最小十分統計量

・問題
・解答
・解説

「十分統計量・完備十分統計量・最小十分統計量|問題演習で理解する統計学【16】」への1件の返信

  1. […] このとき、同時確率$P(X_1=x_1,…X_n|lambda)$を$lambda$に関する尤度$L(lambda)$と考えると、対数尤度の$log{L(lambda)}$は下記のように表すことができる。$$begin{align}log{L(lambda)} &= log{P(X_1=x_1,…X_n|lambda)} \&= sum_{i=1}^{n} log{ P(X_i=x_i|lambda) } \&= sum_{i=1}^{n} (x_i log{lambda} – lambda – log{x_i!})end{align}$$上記の詳しい導出は下記で取り扱った。https://www.hello-statisticians.com/practice/stat_practice16.html#i-5 […]

コメントは受け付けていません。