十分統計量(sufficient statistic)の定義・分解定理と証明の具体例

標本の関数である統計量(statistic)が「統計量を与えるだけでパラメータに関係なく標本が得られる」場合、その統計量は「十分統計量(sufficient statistic)」といわれる。
この十分統計量は、十分統計量に関する分解定理(factorization theorem)を用いることで示すことができる。当記事では「分解定理を用いた十分統計量の証明」について具体的な事例を元に確認する。
作成にあたっては「現代数理統計学(学術図書出版社)」の$6.1$節の「十分統計量の定義と分解定理」を参考とした。

概要の確認

十分統計量の直感的理解と定義

$n$個の標本$(X_1, X_2, …, X_n)$に関する統計量を$T=T(X_1, X_2, …, X_n)$とおく。これに対して標本平均のような統計量を考えた際に、ざっくり全体について把握するにあたって「個々の標本の値」ではなく「標本平均のような統計量」を知るだけで「十分」という状況もあると思われる。

逆に、「個々の標本」ではなく「標本平均のような統計量」だけで「十分かどうか」について判断するには、「標本から統計量に変換するにあたって何が失われたのか」を考えると良い。たとえばある事象が$n$回の試行に対して$k$回観測された際、標本の$(X_1=1, X_2=0, …, X_n=1)$から標本平均の$\displaystyle \frac{k}{n}$に変換するにあたって失われるのは、「ある事象が観測される順番」である。

「事象が観測される順番」が必要である場合もありうるが、少なくとも上記の二項分布において試行ごとの確率を表す$p$を推定するにあたって、「事象が観測される順番」は意味をなさない。このような統計量は「十分統計量(sufficient statistic)」と呼ばれる。

ここまでが十分統計量の直感的な理解であるが、論理的に詳しく取り扱うにあたっては理論的に「定義」を行う方が望ましい。「現代数理統計学(学術図書出版社)」の「定義$6.1$」を引用すると、下記のように「十分統計量」は定義される。

・定義$6.1$
$k$個の統計量$\mathbf{T} = (T_1, T_2, …, T_k)$がパラメータ$\theta$に関する$k$次元の十分統計量であるとは、$\mathbf{T}$を与えたときの$\mathbf{X} = (X_1, X_2, …, X_n)$の条件つき確率分布が$\theta$に依存しないことである。

分解定理

十分統計量の確認にあたっては標本$\mathbf{X} = (X_1, X_2, …, X_n)$の条件付き分布を求めなければならないが、十分統計量に関する「分解定理(factorization theorem)」を用いることで、条件付き分布を求めることなしに「統計量が十分統計量であること」を示すことができる。「分解定理」については現代数理統計学(学術図書出版社)」の「定理$6.2$」に記載があるため、そちらを引用する。

・定理$6.2$
$\mathbf{X}$を離散確率変数または連続確率変数とし$p_{\theta}$を$\mathbf{X}$の確率関数または密度関数とする。$\mathbf{T} = (T_1(\mathbf{X}), T_2(\mathbf{X}), …, T_k(\mathbf{X}))$が十分統計量であるための必要十分条件は$p_{\theta}(x)$が
$$
\large
\begin{align}
p_{\theta}(x) = g_{\theta}(\mathbf{T}(x))h(x)
\end{align}
$$
の形に分解できることである。ここで$h(x)$は$\theta$を含まない$x$のみの関数である。

ここまでで「十分統計量の定義」や「分解定理を用いた十分統計量かどうかの判断」について確認してきたが、抽象的でわかりにくいため、次節ではここで確認した内容を具体的に確認する。

分解定理と最尤法

$$
\large
\begin{align}
p_{\theta}(x) = g_{\theta}(\mathbf{T}(x))h(x)
\end{align}
$$
分解定理の数式は上記のように表されるが、上記は下記のように$\theta$を明示的に関数の変数で表すこともできる。
$$
\large
\begin{align}
p(x,\theta) = g(\mathbf{T}(x), \theta)h(x)
\end{align}
$$
上記において$\mathbf{T}(x)$が統計量で、標本$x$の関数で表されるので上記のような表記となる。この時、最尤推定を考えるにあたっては同時確率の$p(x,\theta)$を最大にする$\theta$を求める。

この際に$p(x,\theta)$を$\theta$で微分し、値が$0$になる$\theta$を求めるにあたっては下記のような計算となる。
$$
\large
\begin{align}
\frac{\partial p(x,\theta)}{\partial \theta} &= \frac{\partial g(\mathbf{T}(x),\theta)h(x)}{\partial \theta} \\
&= h(x) \frac{\partial g(\mathbf{T}(x),\theta)}{\partial \theta} \\
&= 0 \\
\frac{g(\mathbf{T}(x),\theta)}{\partial \theta} &= 0
\end{align}
$$
上記において$\displaystyle \frac{g(\mathbf{T}(x),\theta)}{\partial \theta} = 0$を$\theta$について解くと最尤推定量が得られるが、推定量は$\mathbf{T}(x)$の関数となり、$x$の各値の関数とはならない。

よって、分解定理が成立する際に最尤法を用いると、最尤推定量が統計量の関数で表すことができる。これを逆に考えると、「最尤推定量は個々の標本の値に関係なく十分統計量の関数で表現できる」と考えることもできる。

具体例

ポアソン分布

ポアソン分布$X_1, X_2, …, X_n \sim Po(\lambda), i.i.d.$を例に、分解定理について確認する。
標本に関する同時確率分布$p_{\lambda}(x) = P(X_1=x_1, X_2=x_2, …, X_n=x_n|\lambda)$は下記のように表すことができる。
$$
\large
\begin{align}
P(X_1=x_1, X_2=x_2, …, &X_n=x_n|\lambda) = \prod_{i=1}^{n} \frac{\lambda^{x_i}}{x_i!}e^{-\lambda} \\
&= \lambda^{\sum_{i=1}^{n} x_i} e^{-n \lambda} \left( \prod_{i=1}^{n} x_i! \right)^{-1}
\end{align}
$$
上記において$\displaystyle g_{\theta}(\mathbf{T}(x)) = \lambda^{\sum_{i=1}^{n} x_i} e^{-n \lambda}, h(x) = \left( \prod_{i=1}^{n} x_i! \right)^{-1}$とおけば、$\displaystyle T = \sum_{i=1}^{n} X_i$が$1$次元の十分統計量であることがわかる。

正規分布

正規分布からの標本$X_1, X_2, …, X_n \sim N(\mu, 1), i.i.d.$を例に、分解定理について確認する。このとき標本に関する同時確率分布$p_{\mu}(x) = P(X_1=x_1, X_2=x_2, …, X_n=x_n|\mu)$は下記のように表すことができる。
$$
\large
\begin{align}
P(X_1=x_1, X_2=x_2, …, &X_n=x_n|\mu) = \prod_{i=1}^{n} P(X_i=x_i|\mu) \\
&= \frac{1}{\sqrt{2 \pi}^n} \prod_{i=1}^{n} \exp \left( -\frac{(x_i-\mu)^2}{2} \right) \\
&= \frac{1}{(2 \pi)^{n/2}} \exp \left( -\frac{1}{2} \sum_{i=1}^{n} (x_i-\mu)^2 \right)
\end{align}
$$

ここで上記の$\displaystyle \sum_{i=1}^{n} (x_i-\mu)^2$に着目し、下記のように変形を行うことを考える。
$$
\large
\begin{align}
\sum_{i=1}^{n} (x_i-\mu)^2 &= \sum_{i=1}^{n} (x_i-\bar{x}+\bar{x}-\mu)^2 \\
&= \sum_{i=1}^{n} ((x_i-\bar{x})+(\bar{x}-\mu))^2 \\
&= \sum_{i=1}^{n} ( (x_i-\bar{x})^2 + (\bar{x}-\mu)^2 + 2(x_i-\bar{x})(\bar{x}-\mu)) \\
&= \sum_{i=1}^{n} (x_i-\bar{x})^2 + n(\bar{x}-\mu)^2 + 2(\bar{x}-\mu)\sum_{i=1}^{n} (x_i-\bar{x}) \\
&= n(\bar{x}-\mu)^2 + \sum_{i=1}^{n} (x_i-\bar{x})^2
\end{align}
$$
上記の計算において、$\displaystyle \sum_{i=1}^{n} (x_i-\bar{x}) = n \bar{x} – n \bar{x} = 0$が成立することを用いた。

$\displaystyle \sum_{i=1}^{n} (x_i-\mu)^2 = n(\bar{x}-\mu)^2 + \sum_{i=1}^{n} (x_i-\bar{x})^2$を用いると、$P(X_1=x_1, X_2=x_2, …, X_n=x_n|\mu)$は下記のように整理できる。
$$
\large
\begin{align}
P(X_1=x_1, X_2=x_2, …, &X_n=x_n|\mu) = \frac{1}{(2 \pi)^{n/2}} \exp \left( -\frac{1}{2} \sum_{i=1}^{n} (x_i-\mu)^2 \right) \\
&= \frac{1}{(2 \pi)^{n/2}} \exp \left( -\frac{1}{2} n(\bar{x}-\mu)^2 – \frac{1}{2} \sum_{i=1}^{n} (x_i-\bar{x})^2 \right) \\
&= \frac{1}{(2 \pi)^{n/2}} \exp \left( -\frac{1}{2} n(\bar{x}-\mu)^2 \right) exp \left( – \frac{1}{2} \sum_{i=1}^{n} (x_i-\bar{x})^2 \right)
\end{align}
$$
上記の式において$\displaystyle g_{\mu}(\mathbf{T}(x)) = \frac{1}{(2 \pi)^{n/2}} \exp \left( -\frac{1}{2} n(\bar{x}-\mu)^2 \right), h(x) = \exp \left( – \frac{1}{2} \sum_{i=1}^{n} (x_i-\bar{x})^2 \right)$とおけば、$\displaystyle T = \frac{1}{n} \sum_{i=1}^{n} X_i = \bar{X}$が$1$次元の十分統計量であることがわかる。

証明

$X$が離散確率変数である場合の証明

同時確率関数の$p_{\theta}(x)$が下記のように分解できると仮定する。
$$
\large
\begin{align}
p_{\theta}(x) = g_{\theta}(\mathbf{T}(x))h(x)
\end{align}
$$

この際に下記が成立する。
$$
\large
\begin{align}
P_{\theta}(X=x|T=t) &= \frac{P_{\theta}(X=x,T=t)}{P_{\theta}(T=t)} \\
&= \frac{g_{\theta}(t) h(x)}{g_{\theta}(t) \sum_{x:T(y)=t}h(y)} \\
&= \frac{h(x)}{\sum_{x:T(y)=t}h(y)}
\end{align}
$$

上記は、$p_{\theta}(x) = g_{\theta}(\mathbf{T}(x))h(x)$が成立する場合、$P_{\theta}(X=x|T=t)$の分布は$\theta$に依存しないことを意味する。また、この逆が成立することも以下確認する。

$T$が十分統計量である場合に$P_{\theta}(T=t)=g_{\theta}(t), P_{\theta}(X=x|T=t) = h(x)$とおけるとすると、$P_{\theta}(x)$に関して下記が成立する。
$$
\large
\begin{align}
P_{\theta}(x) &= P_{\theta}(T=t) \times P_{\theta}(X=x|T=t) \\
&= g_{\theta}(t)h(x)
\end{align}
$$

ここまでの議論により、分解定理を示すことができる。

「十分統計量(sufficient statistic)の定義・分解定理と証明の具体例」への3件のフィードバック

  1. […] 「十分統計量(sufficient statistic)」に関連して「完備十分統計量」を取り扱うにあたっては指数型分布族(exponential family)を同時に抑えておくとよい。当記事では完備十分統計量の定義と、指数型分布族に属する確率分布が「完備(complete)」であることを導出する。作成にあたっては「現代数理統計学(学術図書出版社)」の6.3節の「完備十分統計量」を参考とした。 […]

  2. […] 「十分統計量」に関しては下記でも取り扱いましたので、こちらも合わせて確認してみてください。https://www.hello-statisticians.com/explain-terms-cat/sufficient_statistic1.htmlhttps://www.hello-statisticians.com/explain-terms-cat/sufficient_statistic2.htmlhttps://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch6.html […]

コメントは受け付けていません。