ブログ

Ch.5 「統計的決定理論の枠組み」の章末問題の解答例 〜現代数理統計学(学術図書出版社)〜

当記事は「現代数理統計学(学術図書出版社)」の読解サポートにあたってChapter.5の「統計的決定理論の枠組み」の章末問題の解説について行います。

基本的には書籍の購入者向けの解説なので、まだ入手されていない方は購入の上ご確認ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。(そのため著者の意図とは異なる解説となる可能性はあります)

↓下記が公式の解答なので、正確にはこちらを参照ください。
https://www.gakujutsu.co.jp/text/isbn978-4-7806-0860-1/

章末の演習問題について

問題5.1の解答例

$$
\large
\begin{align}
R(\theta, \tilde{\delta}) \leq R(\theta, \delta), {}^{\forall} \theta \implies R(\theta, \tilde{\delta}) = R(\theta, \delta), {}^{\forall} \theta
\end{align}
$$
(1)式が「$\delta$が許容的であるための必要十分条件である」ことを示す。必要条件と十分条件に分けて考える方がわかりやすいので、以下では必要条件と十分条件に分けて確認する。

・必要条件
「$\delta$が許容的 $\implies$ (1)が成立する」を示す。(1)において、ある$\theta_0$が存在し、$R(\theta, \tilde{\delta}) < R(\theta, \delta)$が成立する場合、$R(\theta, \tilde{\delta}) \leq R(\theta, \delta), {}^{\forall} \theta$より、$\tilde{\delta}$が$\delta$に優越する。
この場合、「$\delta$が許容的」ではなくなるため、「$\delta$が許容的」であるには$R(\theta, \tilde{\delta}) = R(\theta, \delta), {}^{\forall} \theta$である必要がある。

・十分条件
「(1)が成立する $\implies$ $\delta$が許容的」を示す。(1)が成立する場合、$\delta$に優越する$\tilde{\delta}$は存在しない。よって、(1)が十分条件であることも示すことができる。

問題5.2の解答例

$\delta$が許容的であるので、$\tilde{\delta}$は$\delta$に優越しない。よって$R(\theta_0, \delta) > R(\theta_0, \tilde{\delta})$となる$\theta_0$が存在するなら、$R(\theta_1, \delta) < R(\theta_1, \tilde{\delta})$となる$\theta_1$も存在する。

・直感的な解釈
上記は、「$\delta$が許容的」であるので$\delta$の上位互換は存在しないと考えるとわかりやすい。$\tilde{\delta}$が$\delta$の上位互換とならないことから、どこかしらで$\tilde{\delta}$が$\delta$を上回る際はどこかしらで$\delta$が$\tilde{\delta}$を上回る必要がある。

問題5.3の解答例

成功確率$\alpha$のベルヌーイ試行を表す確率変数を$U$とおき、$d_{\alpha}$の損失$L(\theta,d_{\alpha})$は指示関数$\mathit{I}$を用いて下記のように表すことができる。
$$
\large
\begin{align}
L(\theta,d_{\alpha}) = \mathit{I}_{U=1} L(\theta,d_0(X)) + \mathit{I}_{U=0} L(\theta,d_{*}(X))
\end{align}
$$
上記の両辺の期待値を取ると下記のようになる。
$$
\large \begin{align}
E[L(\theta,d_{\alpha})] &= E[ \mathit{I}_{U=1} L(\theta,d_0(X)) + \mathit{I}_{U=0} L(\theta,d_{*}(X)) ] \\
R(\theta,d_{\alpha}) &= \alpha R(\theta,d_0(X)) + (1 – \alpha) R(\theta,d_{*}(X))
\end{align}
$$

問題5.4の解答例

$$
\large
\begin{align}
\alpha \left(\begin{array}{c} 0 \\ 1 \end{array} \right) + (1-\alpha)\left(\begin{array}{c} 1/2 \\ 1/3 \end{array} \right) = \left(\begin{array}{c} c \\ c \end{array} \right)
\end{align}
$$
図(5.6)より、上記の連立方程式を解いて$\alpha$と$c$の値を求めればよい。

連立方程式を解くと、$\displaystyle \alpha=\frac{1}{7}, c=\frac{3}{7}$が得られる。よって点$M$は$\displaystyle (c,c) = \left( \frac{3}{7},\frac{3}{7} \right)$である。またこのときのミニマックス方式は、$d_0$を$\displaystyle \alpha=\frac{1}{7}$、$d^{*}$を$\displaystyle 1-\alpha=1-\frac{1}{7}=\frac{6}{7}$で用いる確率化決定方式であることも同時にわかる。

問題5.5の解答例

2つの決定方式$\delta_1, \delta_2$を考える。このとき問題5.3と同様に確率$\alpha$で$\delta_1$を適用する確率化決定方式の$\delta_{\alpha}$考える。$\delta_{\alpha}$の損失関数は問題5.3と同様に考えることで、下記のように表すことができる。
$$
\large
\begin{align}
L(\theta,\delta_{\alpha}(X)) = \mathit{I}_{U=1} L(\theta,\delta_1(X)) + \mathit{I}_{U=0} L(\theta,\delta_{2}(X))
\end{align}
$$

上記の期待値を考えることで下記が導出できる。
$$
\large
\begin{align}
E[L(\theta,\delta_{\alpha}(X))] &= E[\mathit{I}_{U=1} L(\theta,\delta_1(X)) + \mathit{I}_{U=0} L(\theta,\delta_{2}(X))] \\
&= E[\mathit{I}_{U=1}] E[L(\theta,\delta_1(X))] + E[\mathit{I}_{U=0}] E[L(\theta,\delta_{2}(X))] \\
&= \alpha E[L(\theta,\delta_1(X))] + (1 – \alpha) E[L(\theta,\delta_{2}(X))] \\
&= \alpha R(\theta,\delta_1(X)) + (1 – \alpha) R(\theta,\delta_2(X)) \\
R(\theta,\delta_{\alpha}(X)) &= \alpha R(\theta,\delta_1(X)) + (1 – \alpha) R(\theta,\delta_2(X))
\end{align}
$$

ここで$R(\theta,\delta_{\alpha}(X))$をリスクセットに含めると、$(1)$式は凸集合の定義に用いられる式であることから、リスクセットが凸集合であることがわかる。

問題5.6の解答例

問題5.7の解答例

統計的決定理論(statistical decision theory)の用語と定義まとめ

統計的決定理論(statistical decision theory)」は推定・検定などの統計的推測を統一的に論じるにあたってワルドが導入した考え方である。統計的決定理論は抽象的な理論であるが、推定や検定に関する表記を行う際に役に立つので抑えておくとよい。
当記事では「統計的決定理論」に関する基本的な用語と定義をまとめた。作成にあたっては「現代数理統計学(学術図書出版社)」の第5章の「統計的決定理論の枠組み」を参考にした。

標本空間・決定空間

標本空間(sample space)」と「決定空間(decision space)」は「統計的決定」を取り扱う際の大枠の理解にあたって重要である。「空間」という用語を用いると難しそうに見えるが、「標本空間」が「入力」に、「決定空間」が「出力」にそれぞれ対応すると考えることで直感的に理解することができる。

標本$\mathbf{x} = (x_1, x_2, …, x_n)$について考える際に、標本空間$\mathscr{X}$は$n$次元のユークリッド空間となり、集合的な表記を用いて$\mathbf{x} \in \mathbb{R}^n$のように表す。$\mathbf{x} \in \mathbb{R}$は下記のようにも表すことができる。
$$
\large
\begin{align}
\mathbf{x} &= \left(\begin{array}{c} x_1 \\ … \\ x_n \end{array} \right) \\
x_1, x_2, &…, x_n \in \mathbb{R}
\end{align}
$$

次に、決定空間は決定$d$について取り扱う空間であり、ここでは「現代数理統計学(学術図書出版社)」の表記と同様に$D$を用いて定義する。ここで決定の$d$は問題ごとに異なることに注意が必要である。
たとえば「点推定」では、未知のパラメータ$\theta$の値をあてることを考える。このとき、パラメータ空間を$\Theta$と考えると、決定空間はパラメータ空間に一致するため$D = \Theta$が成立する。ここで定義上$d \in D$であるため、同時に$d \in \Theta$も成立する。
同様に「検定」を考えるにあたっては、仮説を「受容/棄却」のどちらかで考えるため、$D = \{$ 受容, 棄却 $\}$のように定義し、$d \in D$で決定空間を表すことができる。このように決定空間を定義できることは抑えておくと良い。

損失関数

損失関数(loss function)」は「統計的推測における問題」を「数学的な最適化」に帰着させるために重要な概念である。「点推定」を考える際は、損失関数は$L(\theta, d)$のようにパラメータ$\theta$、決定$d$の2つの変数の関数で表される。
また、損失関数は非負であると考え、$L(\theta, d) \geq 0$を前提にすることが多い。点推定では下記のような二乗誤差を損失関数に用いることが多い。
$$
\large
\begin{align}
L(\theta, d) = (\theta – d)^2
\end{align}
$$

二乗誤差以外にも$L(\theta, d) = |\theta – d|$のような絶対誤差を考えることも可能だが、数学的な取り扱いやすさなども考慮して二乗誤差が用いられることが多い。

決定関数・リスク関数

標本空間$\mathscr{X}$から決定空間$D$への関数を$\delta$とおくとき、$\delta$を「決定関数(decision function)」という。$\delta$を写像と見て表記をすると下記のようになり、この表記も抑えておくと良い。
$$
\large
\begin{align}
\delta : \quad \mathscr{X} \to D
\end{align}
$$

上記を決定$d$が観測値$\mathbf{x}$に基づく関数と考えるなら、下記のように表すことができる。
$$
\large
\begin{align}
d = \delta(\mathbf{x})
\end{align}
$$

ここまでは抽象的な表記を確認したが、たとえば正規分布の母平均$\mu$を標本平均$\bar{x}$で推定する場合には$\delta(\mathbf{x})$は下記のように表せる。
$$
\large
\begin{align}
\delta(\mathbf{x}) = \frac{1}{n} \sum_{i=1}^{n} x_i
\end{align}
$$

また、決定関数$\delta$に関連して、損失関数の期待値を「リスク関数(risk function)」と呼び、下記のように定義できることも抑えておくと良い。
$$
\large
\begin{align}
R(\theta,\delta) = E_{\theta}[L(\theta,d=\delta(\mathbf{x}))]
\end{align}
$$
上記において$E_{\theta}$はパラメータ$\theta$の確率分布$P_{\theta}$を表すと考えればよい。期待値には様々な表し方があるが、ここでは「現代数理統計学(学術図書出版社)」の第5章の「統計的決定理論の枠組み」の定義を用いた。

二乗誤差を用いた点推定の問題では、$R(\theta, \delta)$を下記のように定義する。
$$
\large
\begin{align}
R(\theta,\delta) = E_{\theta}[(\theta – \delta(\mathbf{x}))^2]
\end{align}
$$
上記の式を平均二乗誤差(MSE; Mean Square Error)ということも抑えておくと良い。

クラメル・ラオの不等式を用いた一様最小分散不偏推定量(UMVU estimator)の判定

https://www.hello-statisticians.com/explain-terms-cat/unbiased_estimator1.html
上記のバイアス・バリアンス分解で確認したように、不偏推定量ではバイアス項が0となる。このとき不偏推定量は分散に一致するため、不偏推定量を考える際は分散を最小にする推定量が望ましい。このことを表す概念に一様最小分散不偏推定量(UMVU; Uniformly Minimum Variance Unbiased estimator)があるが、UMVUを示すにあたっては「クラメル・ラオの不等式を用いる方法」と「完備十分統計量を用いる方法」の二つがある。
当記事では「クラメル・ラオの不等式」を用いたUMVUの判定について取り扱った。作成にあたっては「現代数理統計学(学術図書出版社)」の7.2節の「不偏推定量とフィッシャー情報量」を参考にした。

前提知識の確認

平均二乗誤差と不偏推定量

https://www.hello-statisticians.com/explain-terms-cat/unbiased_estimator1.html
詳しくは上記でまとめたので、重要事項のみ抜粋を行う。

$$
\large
\begin{align}
E \left[ (\hat{\theta} – \theta)^2 \right] = V \left[ \hat{\theta} \right] + b(\theta)^2
\end{align}
$$
パラメータの推定量$\hat{\theta}$とパラメータ$\theta$に関しては、平均二乗誤差に対して上記のようなバイアス・バリアンス分解の式が成立する。不偏推定量においては$b(\theta)^2=0$であるので、不偏推定量に限れば分散を最小にする推定量が望ましい推定量であると言える。

さて、これに関連して一様最小分散不偏推定量(UMVU; Uniformly Minimum Variance Unbiased estimator)が考えられるが、UMVUを$\hat{\theta}^{*}$であると考えると、下記のように定義される。
$$
\large
\begin{align}
V \left[ \hat{\theta}^{*} \right] \leq V \left[ \hat{\theta} \right], \quad {}^{\forall} \theta
\end{align}
$$
上記で定義したUMVUの$\hat{\theta}^{*}$は、$\hat{\theta}^{*}$の分散が任意の不偏推定量${}^{\forall} \theta$の分散以下であることを意味している。

また、不偏推定量がUMVUであることは、「クラメル・ラオの不等式を用いる方法」と「完備十分統計量を用いる方法」の二通りによって示すことができる。当記事では「クラメル・ラオの不等式」を用いた方法について以下で確認する。

フィッシャー情報量

クラメル・ラオの不等式を理解するにあたって、フィッシャー情報量(Fisher Information)は先に抑えておきたい。i.i.d.に従う$n$個の標本$\mathbf{x} = (x_1, x_2, …, x_n)$に関するフィッシャー情報量を$I_{n}(\theta)$とすると、$I_{n}(\theta)$は同時確率密度関数の$f(\mathbf{x},\theta)$を用いて下記のように定義される。
$$
\large
\begin{align}
I_{n}(\theta) &= E \left[ \left( \frac{\partial \log{f(\mathbf{x},\theta)}}{\partial \theta} \right)^2 \right] \\
&= E \left[ \left( \frac{\partial f(\mathbf{x},\theta) / \partial \theta}{f(\mathbf{x},\theta)} \right)^2 \right] \\
&= \int \left( \frac{\partial f(\mathbf{x},\theta) / \partial \theta}{f(\mathbf{x},\theta)} \right)^2 f(\mathbf{x},\theta) d \mathbf{x} \quad (1) \\
&= \int \frac{(\partial f(\mathbf{x},\theta) / \partial \theta)^2}{f(\mathbf{x},\theta)} d \mathbf{x}
\end{align}
$$

ここで「同時確率密度関数=尤度」と考えることができるため、$f(\mathbf{x},\theta)$は尤度である。よって対数尤度関数を$l(\mathbf{x},\theta)$とおくと、$l(\mathbf{x},\theta) = \log{f(\mathbf{x},\theta)}$のように表すことができる。また、$\displaystyle l'(\mathbf{x},\theta) = \frac{\partial l(\mathbf{x},\theta)}{\partial \theta}$とおくと、$l'(\mathbf{x},\theta)$は下記のように導出することができる。
$$
\large
\begin{align}
l'(\mathbf{x},\theta) &= \frac{\partial l(\mathbf{x},\theta)}{\partial \theta} \\
&= \frac{\partial \log{f(\mathbf{x},\theta)}}{\partial \theta} \\
&= \frac{\partial f(\mathbf{x},\theta) / \partial \theta}{f(\mathbf{x},\theta)} \quad (2)
\end{align}
$$

ここで(1)式と(2)式を見比べることで、下記が成立することがわかる。
$$
\large
\begin{align}
I_{n}(\theta) &= \int \left( \frac{\partial f(\mathbf{x},\theta) / \partial \theta}{f(\mathbf{x},\theta)} \right)^2 f(x,\theta) d \mathbf{x} \\
&= \int l'(\mathbf{x},\theta)^2 f(\mathbf{x},\theta) d \mathbf{x} \\
&= E[ l'(\mathbf{x},\theta)^2 ]
\end{align}
$$

微分と積分の交換と$E[l'(\mathbf{x},\theta)]=0$の導出

前項で取り扱った$f(\mathbf{x},\theta)$は確率密度関数であるので、下記が成立する。
$$
\large
\begin{align}
\int f(\mathbf{x},\theta) d \mathbf{x} = 1
\end{align}
$$

ここで上記の両辺を$\theta$で微分すると下記のようになる。
$$
\large
\begin{align}
\frac{\partial}{\partial \theta} \int f(\mathbf{x},\theta) d \mathbf{x} = 0
\end{align}
$$
この時上記において微分と積分の交換を行って良いと仮定すると、下記のように変形できる。
$$
\large
\begin{align}
\frac{\partial}{\partial \theta} \int f(\mathbf{x},\theta) d \mathbf{x} &= 0 \\
\int \frac{\partial f(\mathbf{x},\theta)}{\partial \theta} d \mathbf{x} &= 0
\end{align}
$$

前項の(2)式と上記を元に、下記のように$E[l'(\mathbf{x},\theta)]=0$を導出できる。
$$
\large
\begin{align}
E[l'(\mathbf{x},\theta)] &= E \left[ \frac{\partial l(\mathbf{x},\theta)}{\partial \theta} \right] \\
&= E \left[ \frac{\partial \log{f(\mathbf{x},\theta)}}{\partial \theta} \right] \\
&= E \left[ \frac{\partial f(\mathbf{x},\theta) / \partial \theta}{f(\mathbf{x},\theta)} \right] \\
&= \int \frac{\partial f(\mathbf{x},\theta) / \partial \theta}{f(\mathbf{x},\theta)} f(\mathbf{x},\theta) d \mathbf{x} \\
&= \int \frac{\partial f(\mathbf{x},\theta)}{\partial \theta} d \mathbf{x} \\
&= 0 \quad (3)
\end{align}
$$

クラメル・ラオの不等式とUMVU

クラメル・ラオの不等式

$\hat{\theta}$を$\theta$の不偏推定量とするとき、下記の不等式をクラメル・ラオの不等式(Cramer-Rao inequality)という。
$$
\large
\begin{align}
V[\hat{\theta}] \geq \frac{1}{I_n(\theta)}
\end{align}
$$
以下、クラメル・ラオの不等式が成立することを示す。

$\displaystyle \theta = E[\hat{\theta}(\mathbf{x})] = \int \hat{\theta}(\mathbf{x})f(\mathbf{x},\theta)d \mathbf{x}$の両辺を$\theta$で偏微分することを考える。
$$
\large
\begin{align}
\theta &= \int \hat{\theta}(\mathbf{x})f(\mathbf{x},\theta)d \mathbf{x} \\
1 &= \frac{\partial}{\partial \theta} \int \hat{\theta}(\mathbf{x})f(\mathbf{x},\theta)d \mathbf{x} \\
&= \int \hat{\theta}(\mathbf{x}) \frac{\partial f(\mathbf{x},\theta)}{\partial \theta} d \mathbf{x} \\
&= \int \hat{\theta}(\mathbf{x}) \frac{\partial \log{f(\mathbf{x},\theta)}}{\partial \theta} f(\mathbf{x},\theta) d \mathbf{x} \\
&= \int \hat{\theta}(\mathbf{x}) l'(\mathbf{x},\theta) f(\mathbf{x},\theta) d \mathbf{x} \\
&= E[ \hat{\theta}(\mathbf{x}) l'(\mathbf{x},\theta) ] \quad (4)
\end{align}
$$
上記の計算は微分と積分の順序の交換を行っても良い前提で行った。

ここで前節の(3)式の$E[l'(\mathbf{x},\theta)]=0$より(4)式の右辺は下記のように変形できる。
$$
\large
\begin{align}
E[ \hat{\theta}(\mathbf{x}) l'(\mathbf{x},\theta) ] &= E[ \hat{\theta}(\mathbf{x}) l'(\mathbf{x},\theta) ] – \theta E[l'(\mathbf{x},\theta)] \\
&= E[ \hat{\theta}(\mathbf{x}) l'(\mathbf{x},\theta) ] – E[\theta l'(\mathbf{x},\theta)] \\
&= E[ (\hat{\theta}(\mathbf{x}) – \theta) (l'(\mathbf{x},\theta)-0) ] \\
&= Cov(\hat{\theta}, l'(\mathbf{x},\theta)) \quad (5)
\end{align}
$$

(5)式に対し、相関係数の絶対値が1を超えないことを元に考えると下記が成立する。
$$
\large
\begin{align}
\frac{ Cov(\hat{\theta}, l'(\mathbf{x},\theta))^2 }{ V[\hat{\theta}] V[l'(\mathbf{x},\theta)] } &\leq 1 \\
Cov(\hat{\theta}, l'(\mathbf{x},\theta))^2 &\leq V[\hat{\theta}] V[l'(\mathbf{x},\theta)] \\
&= V[\hat{\theta}] E[l'(\mathbf{x},\theta)^2] \\
&= V[\hat{\theta}] I_{n}(\theta) \quad (6)
\end{align}
$$

(6)式において(4)式と(5)式より、$Cov(\hat{\theta}, l'(\mathbf{x},\theta))^2=1$が成立するので、下記が導出できる。
$$
\large
\begin{align}
1 \leq V[\hat{\theta}] I_{n}(\theta)
\end{align}
$$
上記の両辺を$I_{n}(\theta)$で割ることにより、下記のクラメル・ラオの不等式が導出できる。
$$
\large
\begin{align}
\frac{1}{I_{n}(\theta)} \leq V[\hat{\theta}]
\end{align}
$$

クラメル・ラオの不等式とUMVU

前項で導出したクラメル・ラオの式を元に考えることで、下記の「UMVU estimatorの十分条件」を考えることができる。

不偏推定量$\hat{\theta}^{*}$に対し、下記が成立すれば$\hat{\theta}^{*}$は一様最小分散不偏推定量(UMVU estimator)である。
$$
\large
\begin{align}
V[\hat{\theta}^{*}] = \frac{1}{I_n(\theta)}, \quad {}^{\forall} \theta
\end{align}
$$

バイアス・バリアンス分解と不偏推定量(unbiased estimator)

推測統計学における「推定」は「区間推定」と「点推定」にわけられるが、「点推定論」では「一様最小分散不偏推定量(UMVU; Uniformly Minimum Variance Unbiased estimator)」や「最尤推定量」について主に取り扱われる。
当記事では一様最小分散不偏推定量の構成要素の一つである不偏推定量に関して、バイアス・バリアンス分解の視点から確認を行う。
作成にあたっては「現代数理統計学(学術図書出版社)」の7.1節の「点推定論の枠組み」を参考にした。

不偏推定量の概要

点推定論」では「推定にあたっての計算方法」を表す「推定量(estimator)」と、「推定量の実現値」を表す「推定値(estimate)」の関係について主に取り扱う。「推定量」と「推定値」の区別は常に厳密に行う必要はないが、このように区別をすると便利であることが多い。
不偏推定量(unbiased estimator)」も同様に「推定量」と「推定値」の関係について取り扱うが、具体的には以下のような数式で表すことができる。
$$
\large
\begin{align}
E_{\theta}[ \hat{\theta}(X) ] = \theta, \quad {}^\forall \theta
\end{align}
$$
上記が成立する際に$\theta$が不偏推定量(unbiased estimator)であるという。

不偏推定量の解釈にあたっては、真のパラメータ$\theta$がどのような値を取っても$\hat{\theta}$の期待値が$\theta$に一致することを意味すると抑えておくと良い。

バイアス・バリアンス分解

不偏推定量の解釈について考えるにあたっては、不偏推定量以外の推定量も考えて評価を行うと良い。このとき、推定量$\hat{\theta}$のバイアス$b(\theta)$を下記のように定義する。
$$
\large
\begin{align}
b(\theta) = E_{\theta}[ \hat{\theta} ] – \theta
\end{align}
$$

上記で定義したバイアスについて考えるときはバイアス・バリアンス分解に基づいて考えると良い。バイアス・バリアンス分解は下記のように推定量$\hat{\theta}$とパラメータ$\theta$の平均二乗誤差の期待値$E[(\hat{\theta} – \theta)^2]$を分解する考え方である。
$$
\large
\begin{align}
E[(\hat{\theta} – \theta)^2] &= E[(\hat{\theta} – E[\hat{\theta}] + E[\hat{\theta}] – \theta)^2] \\
&= E[((\hat{\theta} – E[\hat{\theta}]) + (E[\hat{\theta}] – \theta))^2] \\
&= E[(\hat{\theta} – E[\hat{\theta}])^2] + E[(E[\hat{\theta}] – \theta)^2] + 2E[(\hat{\theta} – E[\hat{\theta}])(E[\hat{\theta}] – \theta)] \\
&= E[(\hat{\theta} – E[\hat{\theta}])^2] + (E[\hat{\theta}] – \theta)^2 + 2(E[\hat{\theta}] – \theta)E[\hat{\theta} – E[\hat{\theta}]] \\
&= E[(\hat{\theta} – E[\hat{\theta}])^2] + (E[\hat{\theta}] – \theta)^2 \\
&= V[\hat{\theta}] + b(\theta)^2
\end{align}
$$

上記の変形においては、期待値に関して下記が成立することを前提とした。
$$
\large
\begin{align}
E[\theta] &= \theta \\
E[E[\hat{\theta}]] &= E[\hat{\theta}] \\
E[\hat{\theta} – E[\hat{\theta}]] &= E[\hat{\theta}] – E[E[\hat{\theta}]] \\
&= E[\hat{\theta}] – E[\hat{\theta}] \\
&= 0
\end{align}
$$

ここで注意しておくと良いのが「現代数理統計学(学術図書出版社)」などでは$E[(\hat{\theta} – \theta)^2]$を$E_{\theta}[(\hat{\theta} – \theta)^2]$のように表す一方で、期待値を取る際の確率変数は変数$x$を考えることである。
$$
\large
\begin{align}
E_{\theta}[(\hat{\theta} – \theta)^2] = \int p_{\theta} (\hat{\theta} – \theta)^2 dx
\end{align}
$$
上記のように表せるように、$\theta$は確率分布のパラメータであり積分の変数ではないので、$E[\theta] = \theta$が成立する。

一方で、推定量$\hat{\theta}$に関しては$E[\hat{\theta}] = \hat{\theta}$のように変形することはできない。これは$\hat{\theta} = \delta(x)$のように、$\hat{\theta}$が$x$の関数であることに起因する。

このように表記がミスリードとなる場合があるので、期待値に関して考える際は積分を行う変数が何かは常に抑えておくのが良いと思われる。

バイアス・バリアンス分解と不偏推定量

バイアス・バリアンス分解の式において不偏推定量では$b(\theta) = E_{\theta}[ \hat{\theta} ] – \theta = 0$のようにバイアスが0になる。これより、不偏推定量$\hat{\theta}$を考える場合は下記の式が成立する。
$$
\large
\begin{align}
E \left[ (\hat{\theta} – \theta)^2 \right] = V \left[ \hat{\theta} \right]
\end{align}
$$

上記のように$\hat{\theta}$が不偏推定量である場合は分散が最小となる推定量が望ましい推定量となる。これを考えるにあたって一様最小分散不偏推定量(UMVU; Uniformly Minimum Variance Unbiased estimator)という考え方が導入される。

また、$\hat{\theta}$がバイアスを持つ場合も推定量を修正して$b(\theta)=0$とすることもできるが、推定する$\theta$は道でもあるためバイアスの修正は容易ではない。したがって、不偏推定量のみに絞って議論することは必ずしも望ましくなく、最尤法を代替に用いることも多い。

指数型分布族(exponential family)と完備十分統計量の理解

十分統計量(sufficient statistic)」に関連して「完備十分統計量」を取り扱うにあたっては指数型分布族(exponential family)を同時に抑えておくとよい。
当記事では完備十分統計量の定義と、指数型分布族に属する確率分布が「完備(complete)」であることを導出する。作成にあたっては「現代数理統計学(学術図書出版社)」の6.3節の「完備十分統計量」を参考とした。

前提の確認

十分統計量の定義

https://www.hello-statisticians.com/explain-terms-cat/sufficient_statistic1.html
上記で取り扱ったので詳しくは省略するが、「統計量を与えるだけでパラメータに関係なく標本が得られる」場合、その統計量は十分統計量という。

指数型分布族の定義と式の解釈

指数型分布族は下記のように確率関数・確率密度関数が表される確率分布を指す。
$$
\large
\begin{align}
f(x,\theta) = exp \left( a(x)b(\theta) + c(\theta) + d(x) \right)
\end{align}
$$

一方で、「現代数理統計学(学術図書出版社)」の第6章の式(6.14)では、下記のように指数型分布族の数式が定義される。
$$
\large
\begin{align}
f(x,\theta) = h(x) exp \left( \sum_{j=1}^{k} T_j(x) \psi_j(\theta) – c(\theta) \right) \quad (1)
\end{align}
$$
二つの式は式変形によって同値であることを示すことができる。以下では「現代数理統計学(学術図書出版社)」を主に参照するにあたって式(1)の定義を確認する。

式(1)の定義が特徴的なのが「十分統計量」の$T_j(x)$を用いて$x$の関数ではなく、統計量$T_j(x)$と見ることである。このことにより、(1)式の$exp$の中身は$T_j$を定めることにより$x$に関係のない値となる。これに対し分解定理が成立し、これは$T_j(x)$が十分統計量であることを意味する。章末問題の解答例では「2項分布・正規分布の例」や「ポアソン分布・負の二項分布・ガンマ関数の例」をそれぞれ具体的に取り扱っているので、関数の各要素と具体的な分布の関係式については解答例が参考になると思われる。

以下では、(1)式の解釈について確認する。(1)式自体が複数の確率分布に関してまとめた式になるので、抽象的な議論になるが、これは各確率分布が指数型分布族であることがわかれば同様な変形によって同様に考えることができることを意味する。

まず、式(1)は下記のように変形できる。
$$
\large
\begin{align}
f(x,\theta) &= h(x) exp \left( \sum_{j=1}^{k} T_j(x) \psi_j(\theta) – c(\theta) \right) \\
&= e^{-c(\theta)} h(x) exp \left( \sum_{j=1}^{k} T_j(x) \psi_j(\theta) \right)
\end{align}
$$
確率密度関数は$x$を確率変数と見て分布を考えるので、上記において$x$に関しての確率密度関数の形状は$\displaystyle h(x) exp \left( \sum_{j=1}^{k} T_j(x) \psi_j(\theta) \right)$によって定まる。
逆に考えると、$\displaystyle e^{-c(\theta)}$は$\displaystyle \int f(x,\theta) dx$が成立させるにあたって設定する基準化定数である。

また、確率分布のパラメータを$\theta$ではなく$\psi_j(\theta)$に置き換えて考える場合もあり、この時$\psi_j(\theta)$は自然母数(natural parameter)と呼ばれる。必ずしも「自然」な解釈ができるわけではなく、適切ではない場合があると「現代数理統計学(学術図書出版社)」では指摘されている。

自然母数を元に指数型分布族は下記のように書くこともできるとされている。
$$
\large
\begin{align}
f(x,\theta) &= h(x) exp \left( \sum_{j=1}^{k} T_j(x) \psi_j – c(\psi_j) \right)
\end{align}
$$

完備十分統計量

完備十分統計量の定義

「現代数理統計学(学術図書出版社)」では「統計量$T(x)$が完備であること」を下記のように定めている。

統計量$T(x)$の関数の$g(T)$の中でその期待値の$E[g(T)]$が恒等的に0になるものが定数0に限るとき、統計量$T(x)$は完備である。このことは数式上では下記が任意の関数$g(T)$に対して成立することに一致する。
$$
\large
\begin{align}
E_{\theta}[g(T)] = 0, {}^\forall \theta \quad \implies \quad g(T) \equiv 0
\end{align}
$$

上記の定義単体では理解が難しいので、以下二項分布、正規分布などの具体的な確率分布について確認を行ったのちに、指数型分布族をまとめて確認する。

二項分布と完備十分統計量

2項分布の$Bin(n,p)$において、ある事象が観測された回数を$X$とするとき、$X$が完備十分統計量であることを以下で示す。

まず前項の内容の前提部分は任意の関数$g(x)$について下記が成立することに対応する。
$$
\large
\begin{align}
E_{p}[g(X)] = \sum_{x=0}^{n} g(x) {}_n C_x p^{x} (1-p)^{n-x}, \quad {}^{\forall} p
\end{align}
$$

上記の式において$h(x)=g(x)$とおき、両辺を$(1-p)^n$で割り、$\displaystyle r = \frac{p}{1-p}$で置き換える。
$$
\large
\begin{align}
E_{p}[g(X)] &= \sum_{x=0}^{n} g(x) {}_n C_x p^{x} (1-p)^{n-x} \\
&= \sum_{x=0}^{n} h(x) C_x p^{x} (1-p)^{n-x} \\
\frac{E_{p}[g(X)]}{(1-p)^n} &= \frac{1}{(1-p)^n} \sum_{x=0}^{n} h(x) p^{x} (1-p)^{n-x} \\
&= \frac{1}{(1-p)^x} \sum_{x=0}^{n} h(x) p^{x} \\
&= \sum_{x=0}^{n} h(x) \left( \frac{p}{1-p} \right)^{x} \\
&= \sum_{x=0}^{n} h(x) r^{x}
\end{align}
$$

上記が0に一致するので下記が成立する。
$$
\large
\begin{align}
\sum_{x=0}^{n} h(x) r^{x} = 0, \quad {}^{\forall} r>0
\end{align}
$$
上記は$r$に関する多項式だが、多項式が$r>0$のはにで恒等的に0に等しくなるには係数の$h(x)$が全て0に等しくなければならない。これより$g(T) \equiv 0$が得られるので$X$は完備統計量となる。

正規分布と完備十分統計量

指数型分布族と完備十分統計量

完備十分統計量の判定

【Udemy】Pythonで実践する統計モデリング入門

機械学習や統計解析の理論的な背景には「統計モデル」という考え方があります。

統計モデルを通して機械学習や統計分析を見ることで、様々な手法を俯瞰して理解することができます。例えば、最尤法とベイズ法の差異については、ベイズ法は「正則化」であるという見方を得ることができます。

この統計モデルについて、「統計の森」管理者の一人である時田が、Python実装を通して理解する入門コースをUdemyで公開しました。

コースリンク

以下のリンクよりUdemyのページにアクセスできます。いまなら下記のリンクからアクセスで2,700円で購入できます(12/19まで)。

https://www.udemy.com/course/python-stats-modeling/?couponCode=9EA7FB8FBAB49B71FA9C

コース概要

「統計モデリングは機械学習やデータ分析全般における基礎」

多くの機械学習や統計解析手法の理論的背景には「統計モデル」という考え方があります。この統計モデルを通すことで、さまざまな手法を俯瞰して眺めることができます。そうなることで、様々な機械学習モデルなどを個別に暗記する必要がなくなり、一段上から手法の選定やモデルの設計ができるようになります。

また、複雑なモデルやより高度な分析手法に対して見通しが効き、手法の選定やモデルの理解に役立ちます。

「機械学習の基礎でもある「統計モデリング」の理論面の基礎を理解する」

このコースでは、統計モデルの理論面の基礎を解説します。簡単な線形モデルをベースに議論を展開していきます。

また、Pythonを使った実装例を添付しています(jupyter notebookで提供)。実装と合わせて解説をするので、理解が深まるのではないかと思います。

「機械学習/統計分析ツールのツールボックス的な利用を脱する」

様々な手法を俯瞰してみることができるため、多くの機械学習モデルを暗記する必要がなくなります。ライブラリを使ってブラックボックスのようにモデルを利用していた立場を脱却して、手法の選択や組み合わせ、また、問題に合わせたカスタマイズができるようになります。

コースの構成

本コースでは統計モデルについて、大きく二つに分けて解説をしています。

2章から3章までで、統計モデルで用いられる「モデル構造」について解説します。
本コースでは、統計モデルの基礎として確率分布、線形モデル、一般化線形モデルについて解説します。一般化線形モデルまで理解できれば、現場で遭遇する多くの問題にある程度対応できるのではないかと考えます。

次に、4章から6章までで、統計モデルのデータに合わせた最適化法について解説します。
最尤法の解説で確率モデルを利用して最適化について解説した後、より複雑なモデルの数値的な最適化法として勾配法の最も単純な形式を解説します。最後に、ベイズ的なアプローチについて解説します。6章では、ベイズ的なアプローチと最尤法との関係についても解説しています。

一様分布(uniform distribution)の不偏推定量・最尤推定量とその直感的な解釈

点推定」を考える際に出てくる「不偏推定量」と「最尤推定量」はどちらも重要トピックである一方で、導出が複雑で抽象的な議論の際は解釈が難しいケースが多い。そこで当記事では具体例を考えるにあたって、「一様分布(uniform distribution)」の「不偏推定量」と「最尤推定量」について取り扱った。
作成にあたっては「現代数理統計学(学術図書出版社)」の6.3節の「完備十分統計量に基づく不偏推定量」や7.5節の「最尤推定量」を参考とした。

問題設定と直感的な解釈

一様分布の数式

一様分布の$U[0,\theta]$の確率密度関数$f(x|\theta)$を下記のように考える。
$$
\large
\begin{align}
f(x|\theta) &= \frac{1}{\theta} \quad (0 \leq x \leq \theta) \\
f(x|\theta) &= 0 \quad (x < 0, \theta < x)
\end{align}
$$
上記において、$\theta > 0$は前提としたが、定義の話であるので単に「そのように定めた」と解釈すればよく、一般性は失われない。
また、一様分布の累積分布関数を$F(x)$とすると、$F(x)$は下記のように表すことができる。
$$
\large
\begin{align}
F(x) &= 0 \quad (x < 0) \\
F(x) &= \int_{0}^{x} \frac{1}{\theta} dX \quad (0 \leq x \leq \theta) \\
F(x) &= 0 \quad (\theta < x)
\end{align}
$$
上記において、$\displaystyle F(x) = \int_{0}^{x} \frac{1}{\theta} dX$は下記のように計算できる。
$$
\large
\begin{align}
F(x) &= \int_{0}^{x} \frac{1}{\theta} dX \\
&= \left[ \frac{X}{\theta} \right]_{0}^{x} \\
&= \frac{x}{\theta}
\end{align}
$$

標本から一様分布を推定するにあたって

母集団と標本を考えるとき、標本から母集団のパラメータを求めることを推定という。ここでは一様分布$U[0,\theta]$に沿って、標本$\mathbf{X} = (X_1, X_2, …, X_n)$が得られたと考える。
上記のように標本が得られた際に、母集団のパラメータ$\theta$をどのように考えれば良いかを考えるときに、標本が複数であることを鑑みて標本の最大値に着目することがまず考えられる。たとえば標本$\mathbf{X} = (X_1=3, X_2=2, X_3=6)$が得られたとき、$\theta$の値を考えるにあたっては$X_3=6$に着目するのが良いと思われる。が、$\hat{\theta}=6$のように$\theta$を導出して良いかについては難しいところで、標本が母集団から小さな値が偶然に観測されたと考えることもできる。

そう考えると、「単に最大値に着目すること自体は理にかなっている一方で、そのまま最大値を用いて良いかについては議論の余地がある」というのが客観的な見解であると思われる。標本が多い場合は最大値に近い値が$\theta$である傾向が比較的大きく、標本が少ない場合はその限りでないかもしれない。

さて、ここまでの問題設定に対し、「点推定」の考え方を当てはめることを考える。最尤法を用いて計算した推定量をLikelihoodより$\hat{\theta}_l$、不偏推定量の考え方を用いて計算した推定量をunbiasedより$\hat{\theta}_{ub}$とおくと、それぞれ下記のように導出される。
$$
\large
\begin{align}
\hat{\theta}_l &= max(X_1, X_2, …, X_n) \\
\hat{\theta}_{ub} &= \left( 1 + \frac{1}{n} \right) max(X_1, X_2, …, X_n)
\end{align}
$$
上記を確認すると「最尤推定量」は標本の最大値をそのまま用いており、「不偏推定量」は標本の最大値に補正をかけていることがわかる。標本の数を$n$とおいた。
「最尤推定量」と「不偏推定量」はどちらも$n \to \infty$のような標本の大きな際は同じ結果となる一方で、標本数が少ない場合は「最尤推定量」よりも「不偏推定量」の方が妥当な結果が得られるであろうことは推測できる。

ここで注意しておくと良いのが一様分布の例では「不偏推定量」の結果の方が良いように見えるが、これは「不偏推定量が最尤推定量よりも良い」という結論を導出するものではないことである。どちらの推定量も万能ではないので、それぞれ大まかな考え方を抑えつつ、活用していくのが良いと思われる。

最尤法を用いたパラメータ推定

標本$\mathbf{X} = (X_1, X_2, …, X_n)$に関する同時確率密度関数は下記のように表される。
$$
\large
\begin{align}
f(X_1, X_2, …, X_n|\theta) = \frac{1}{\theta^n} \quad (0 \leq x_1, x_2, …, x_n \leq \theta)
\end{align}
$$
上記において、$\displaystyle \frac{1}{\theta^n}$は$\theta$に関する単調減少関数であり、$\theta$の値が大きくなればなるほど$\displaystyle \frac{1}{\theta^n}$の値は小さくなる。最尤推定量は「同時確率密度関数=尤度」を最大にするパラメータの値を求める手法であるので、$\theta$の値はなるべく小さな値が良いという結論になる。一方でここで注意が必要なのが、「$\theta$は観測された標本のどの値よりも小さくなってはならない」という制約が存在することである。
よって、「$\theta$は観測された標本のどの値よりも小さくなってはならない」かつ「単調減少関数$\displaystyle \frac{1}{\theta^n}$より$\theta$の値はなるべく小さな値が良い」を勘案し、$\theta$を標本の最大値で推定を行おうというのが最尤法を用いた一様分布のパラメータ推定である。
$$
\large
\begin{align}
\hat{\theta}_l &= max(X_1, X_2, …, X_n)
\end{align}
$$
数式で表すと上記のように表すことができる。正規分布やベルヌーイ分布などの最尤推定とは異なり、一様分布の最尤推定は「パラメータで微分した関数=0」を解くわけではないことに注意が必要である。

ラオ・ブラックウェルの定理を用いた推定

以下では「現代数理統計学」の内容に基づいてラオ・ブラックウェルの定理を用いて不偏推定量の導出の確認を行なったが、議論がわかりにくい。一様分布の不偏推定量の導出に関しては下記の統計検定の解答の[3]の導出の方がシンプルで良いと思われる。
https://www.hello-statisticians.com/toukei-kentei-1/stat_math/stat_certifi_1_math_19_3.html

統計的決定理論における十分統計量

ラオ・ブラックウェルの定理は「統計的決定理論における十分統計量」を考える際に導入される。

先に「十分統計量」に関して確認を行う。「十分統計量」は「標本$\mathbf{X} = (X_1, X_2, …, X_n)$について知らなくても、十分統計量$T(\mathbf{X}) = T(X_1, X_2, …, X_n)$を知れば、未知のパラメータ$\theta$の推定には十分である統計量」と抑えておくとよい。

上記に対して「統計的決定理論」では十分統計量のみに依存する決定関数$\delta(T)$を考えることによって表す。詳細の設定は任意の「決定関数$\delta(\mathbf{X})$」に対して十分統計量の$T$のみに関係する「決定関数$\delta^{*}(T(\mathbf{X}))$」を定義し、双方の比較を行う。

このとき、「現代数理統計学」の6.2節の議論により、$\delta(\mathbf{X})$と$\delta^{*}(T(\mathbf{X}))$のリスクが同等となる$\delta^{*}(T(\mathbf{X}))$が存在することが示される。このことはリスク関数$R$を用いて下記のように表される。
$$
\large
\begin{align}
R(\theta, \delta) = R(\theta, \delta^{*}), \quad {}^{\forall} \theta \quad (1)
\end{align}
$$

(1)の式は、「十分統計量$t=T(\mathbf{X})$が与えられた際に、$t$が与えられた際の$\mathbf{X}$の条件付き分布に基づいて新たな確率変数$\tilde{\mathbf{X}}$を生成し、これに基づいて決定を行うと考える」ことに基づいて示すことができる。

また、(1)でリスク関数を考えたが、「現代数理統計学」5.1節において、リスク関数は下記のように定義される。
$$
\large
\begin{align}
R(\theta, \delta) = E[L(\theta, \delta(\mathbf{X}))] \quad (2)
\end{align}
$$

ここで(2)の$L(\theta, \delta(\mathbf{X}))$は損失関数であり、下記のような二乗誤差が損失関数の一例である。
$$
\large
\begin{align}
L(\theta, \delta(\mathbf{X})) = (\theta, \delta(\mathbf{X}))^2 \quad (3)
\end{align}
$$

ラオ・ブラックウェルの定理と不偏推定量

$$
\large
\begin{align}
\delta^{*}(T(\mathbf{X})) &= E[\delta(\mathbf{X})|T(\mathbf{X})] \quad (4) \\
&= \int \delta(\mathbf{X}) P(\mathbf{X}|T(\mathbf{X})) d \mathbf{X}
\end{align}
$$
上記のように決定関数$\delta(\mathbf{X})$の条件付き期待値$\delta^{*}(T(\mathbf{X}))$を考える。このとき前項の(3)式のように損失関数を考えると、リスク関数は下記のように平均二乗誤差となる。
$$
\large
\begin{align}
R(\theta, \delta) &= E[L(\theta, \delta(\mathbf{X}))] \\
&= E[(\theta – \delta(\mathbf{X}))^2]
\end{align}
$$

このとき、下記のラオ・ブラックウェルの定理が成立する。
$$
\large
\begin{align}
E[(\delta^{*}(T(\mathbf{X})) – \delta(\mathbf{X}))^2] \leq E[(\theta – \delta(\mathbf{X}))^2], \quad {}^{\forall} \theta \quad (5)
\end{align}
$$
また、等号は$P(\delta(\mathbf{X})=\delta^{*}(T(\mathbf{X}))=1$のとき成立する。

以下ではラオ・ブラックウェルの定理を用いて不偏推定量について考える。$\hat{\theta}(\mathbf{X})$を不偏推定量、$T(\mathbf{X})$を十分統計量とし、(4)式と同様に十分統計量$t=T(\mathbf{X})$に基づく推定量$\hat{\theta}^{*}(t)$を下記のように定義する。
$$
\large
\begin{align} \hat{\theta}^{*}(t) = E[\hat{\theta}(\mathbf{X})|T(\mathbf{X})=t]
\end{align}
$$

ここで期待値の繰り返しの公式より下記が成立する。
$$
\large
\begin{align}
\theta &= E[\hat{\theta}(\mathbf{X})] \\
&= E[E[\hat{\theta}(\mathbf{X})|t]] \\
&= E[\hat{\theta}^{*}(t)]
\end{align}
$$
上記より、$\hat{\theta}^{*}(t)$は不偏推定量であることがわかる。

一様分布の推定量の推定

以下では$X_1,X_2,…X_n \sim U[0,\theta], \quad i.i.d.,$における$X_1,X_2,…X_n$を用いた$\theta$の推定について考える。$E[X_1] = \theta/2$より、$\hat{\theta} = 2X_1$とおけば$\theta$は不偏推定量となる。

上記のように考えた$\hat{\theta}$は不偏推定量である一方で、$X_1$以外の観測値を無視しているという意味では不合理な推定量である。よって、ラオ・ブラックウェルの定理に基づいて$\hat{\theta}$の改善を行うことを考える。

ここで一様分布における十分統計量$t$は$t=T(X_1,X_2,…X_n)=\max{X_i}$で与えられるので、$t$が与えられた際の$X_1$の条件付き分布は下記のように与えられる。
$$
\large
\begin{align}
P(X_1=t|T(X_1,X_2,…X_n)=t) &= \frac{1}{n} \\
P(X_1 \leq x|T(X_1,X_2,…X_n)=t) &= \left( 1 – \frac{1}{n} \right) \frac{x}{t} \quad (0<x<t) \\
P(X_1 = x|T(X_1,X_2,…X_n)=t) &= \left( 1 – \frac{1}{n} \right) \frac{1}{t} \quad (0<x<t)
\end{align}
$$

上記は「現代数理統計学」の7.3節の式を表したが、3式目は2式目を$x$に関して微分することで導出した。1式目と3式目を用いて条件付き期待値$E[\hat{\theta}(\mathbf{X})|t]$を考えると下記のように求めることができる。
$$
\large
\begin{align}
E[\hat{\theta}(\mathbf{X})|t] &= 2E[X_1|T(X_1,X_2,…X_n)=t] \\
&= t \times P(X_1=t|T(X_1,X_2,…X_n)=t) + \int_{0}^{t} x \times P(X_1 = x|T(X_1,X_2,…X_n)=t) dx \\
&= 2 \left( t \times \frac{1}{n} + \int_{0}^{t} x \times \left( 1 – \frac{1}{n} \right) \frac{1}{t} dx \right) \\
&= 2 \left( \frac{t}{n} + \left[\left( 1 – \frac{1}{n} \right) \frac{x^2}{2t} \right]_{0}^{t} \right) \\
&= 2 \left( \frac{t}{n} + \left( 1 – \frac{1}{n} \right) \frac{t}{2} \right) \\
&= \frac{2t}{n} + t\left( 1 – \frac{1}{n} \right) \\
&= t + \frac{t}{n} \\
&= \left( 1 + \frac{1}{n} \right)t
\end{align}
$$

ここで、$\hat{\theta}^{*}(t)$は下記のように求めることができる。
$$
\large \begin{align} \hat{\theta}^{*}(t) &= E[\hat{\theta}(\mathbf{X})|t] \\
&= \left( 1 + \frac{1}{n} \right)t \\
&= \left( 1 + \frac{1}{n} \right) \max{X_i}
\end{align}
$$
ラオ・ブラックウェルの定理より、上記がリスク関数を最小にする不偏推定量となる。このとき、$\hat{\theta}^{*}(t)$を$\hat{\theta}_{ub}$とおいたのが、前節の推定量である。

Ch.6 「十分統計量」の章末問題の解答例 〜現代数理統計学(学術図書出版社)〜

当記事は「現代数理統計学(学術図書出版社)」の読解サポートにあたってChapter.6の「十分統計量」の章末問題の解説について行います。

基本的には書籍の購入者向けの解説なので、まだ入手されていない方は購入の上ご確認ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。(そのため著者の意図とは異なる解説となる可能性はあります)

↓下記が公式の解答なので、正確にはこちらを参照ください。
https://www.gakujutsu.co.jp/text/isbn978-4-7806-0860-1/

章末の演習問題について

問題6.1の解答例

$P(X_i=x)=p(1-p)^x$より、同時確率$P(X_1=x_1, X_2=x_2, …, X_n=x_n)$は下記のように計算できる。
$$
\large
\begin{align}
P(X_1=x_1, X_2=x_2, &…, X_n=x_n) = \prod_{i=1}^{n} p(1-p)^{x_i} \\
&= p^{n} (1-p)^{x_1} (1-p)^{x_2} … (1-p)^{x_n} \\
&= p^{n} (1-p)^{\sum_{i=1}^{n} x_i}
\end{align}
$$
$\mathbf{x}=(x_1,x_2,…,x_n)$を表すと考える。ここで分解定理が「同時確率密度関数が$f(t,\mathbf{x}|\theta)=g(t|\theta)h(\mathbf{x})$で表現できるか」について取り扱っていると考えると、幾何分布においては下記のようにそれぞれの関数があてはまると考えることができる。
$$
\large
\begin{align}
f(t,x|\theta) &= P(X_1=x_1, X_2=x_2, …, X_n=x_n) \\
&= p^{n} (1-p)^{\sum_{i=1}^{n} x_i} \\
g(t|\theta) &= p^{n} (1-p)^{\sum_{i=1}^{n} x_i} \\
&= p^{n} (1-p)^{t} \\
t &= \sum_{i=1}^{n} x_i \\
h(x) &= 1
\end{align}
$$
したがって、$\displaystyle T = \sum_{i=1}^{n} X_i$が十分統計量となる。

問題6.2の解答例

正規分布$N(0,\sigma^2)$の同時確率密度関数$f(X_1=x_1,X_2=x_2,…,X_n=x_n|\sigma^2)$は下記のように表すことができる。
$$
\large
\begin{align}
f(X_1=x_1,X_2=x_2,&…,X_n=x_n|\sigma^2) = \prod_{i=1}^{n} f(X_i=x_i|\sigma^2) \\
&= \prod_{i=1}^{n} \frac{1}{(2 \pi \sigma^2)^{1/2}} \exp \left( -\frac{x_i^2}{2 \sigma^2} \right) \\
&= \frac{1}{(2 \pi \sigma^2)^{n/2}} \exp \left( -\frac{x_1^2}{2 \sigma^2} \right) … \exp \left( -\frac{x_n^2}{2 \sigma^2} \right) \\
&= \frac{1}{(2 \pi \sigma^2)^{n/2}} \exp \left( -\frac{x_1^2}{2 \sigma^2} – \frac{x_2^2}{2 \sigma^2} – … – \frac{x_n^2}{2 \sigma^2} \right) \\
&= \frac{1}{(2 \pi \sigma^2)^{n/2}} \exp \left( – \sum_{i=1}^{n} \frac{x_i^2}{2 \sigma^2} \right) \\
&= \frac{1}{(2 \pi \sigma^2)^{n/2}} \exp \left( – \frac{1}{2\sigma^2} \sum_{i=1}^{n} x_i^2 \right)
\end{align}
$$

$\mathbf{x}=(x_1,x_2,…,x_n)$を表すと考え、分解定理の$f(t,\mathbf{x}|\sigma^2)=g(t|\sigma^2)h(\mathbf{x})$を考えるにあたって、下記のようにそれぞれの関数を考える。
$$
\large
\begin{align}
f(t,\mathbf{x}|\sigma^2) &= \frac{1}{(2 \pi \sigma^2)^{n/2}} \exp \left( – \frac{1}{2 \sigma^2} \sum_{i=1}^{n} x_i^2 \right) \\
g(t|\sigma^2) &= \frac{1}{(2 \pi \sigma^2)^{n/2}} \exp \left( – \frac{1}{2 \sigma^2} \sum_{i=1}^{n} x_i^2 \right) \\
&= \frac{1}{(2 \pi \sigma^2)^{n/2}} \exp \left( – \frac{t}{2 \sigma^2} \right) \\
t &= \sum_{i=1}^{n} x_i^2 \\
h(\mathbf{x}) &= 1
\end{align}
$$
上記より、$\displaystyle T = \sum_{i=1}^{n} X_i^2$が$\sigma^2$に関する十分統計量となる。

また、$\displaystyle t = \sum_{i=1}^{n} x_i^2$のように$t$を設定すると、(1)の同時確率密度関数は下記のように表すことができる。
$$
\large
\begin{align}
f(X_1=x_1,X_2=x_2,…,X_n=x_n|\sigma^2) = \frac{1}{(2 \pi \sigma^2)^{n/2}} \exp \left( – \frac{1}{2 \sigma^2} t \right)
\end{align}
$$
上記より、半径$\sqrt{t}$の超球上一定であることが確認できる。よって、条件付き確率密度関数は半径$\sqrt{t}$の超球上の一様分布であることが確認できる。

問題6.3の解答例

$n$次元ベクトル$\mathbf{p}, \bar{\mathbf{x}}$を下記のように考える。
$$
\large
\begin{align}
\mathbf{p} &= \left(\begin{array}{c} X_1 – \bar{X} \\ … \\ X_n – \bar{X} \end{array} \right) \\
\bar{\mathbf{x}} &= \left(\begin{array}{c} \bar{X} \\ … \\ \bar{X} \end{array} \right)
\end{align}
$$

このとき、$n$次元ベクトル$\mathbf{p}, \bar{\mathbf{x}}$に関して下記が成立する。
$$
\large
\begin{align}
\mathbf{p} \cdot \bar{\mathbf{x}} &= \left(\begin{array}{c} X_1 – \bar{X} \\ … \\ X_n – \bar{X} \end{array} \right) \cdot \left(\begin{array}{c} X_1 – \bar{X} \\ … \\ X_n – \bar{X} \end{array} \right) \\
&= \sum_{i=1}^{n} (X_i – \bar{X})\bar{X} \\
&= \sum_{i=1}^{n} X_i \bar{X} – \sum_{i=1}^{n} \bar{X}^2 \\
&= \bar{X} \sum_{i=1}^{n} X_i – n \bar{X}^2 \\
&= \bar{X} \cdot n \bar{X}- n \bar{X}^2 \\
&= 0
\end{align}
$$
上記より、$\mathbf{p}$と$\bar{\mathbf{x}}$が直交することがわかる。

前問と同様に考え、$\displaystyle t_2 = \sum_{i=1}^{n} (X_i – \bar{X})^2$のようにおくと、$\mathbf{p}$は半径$\displaystyle \sqrt{t_2}$の超球のうち、$\bar{\mathbf{x}}$と直交する集合上の一様分布に従うことがわかる。

問題6.4の解答例

$$
\large
\begin{align}
\mathit{I}_{[\underset{i}{\min} x_i \geq \theta_1]} (x_1, x_2, …, x_n) &= 1 \quad (\underset{i}{\min} x_i \geq \theta_1) \\
&= 0 \quad (otherwise)
\end{align}
$$
$$
\large
\begin{align}
\mathit{I}_{[\underset{i}{\max} x_i \leq \theta_2]} (x_1, x_2, …, x_n) &= 1 \quad (\underset{i}{\max} x_i \leq \theta_2) \\
&= 0 \quad (otherwise)
\end{align}
$$
上記のように指示関数(indicator function)の$\displaystyle \mathit{I}_{[\underset{i}{\min} x_i \geq \theta_1]} (x_1, x_2, …, x_n), \mathit{I}_{[\underset{i}{\max} x_i \leq \theta_2]} (x_1, x_2, …, x_n)$を考えると、一様分布の同時確率密度関数の$f(x_1, x_2, …, x_n)$は下記のように表すことができる。
$$
\large
\begin{align}
f(x_1, x_2, …, x_n) &= \frac{1}{(\theta_2-\theta_1)^n} \mathit{I}_{[\underset{i}{\min} x_i \geq \theta_1]} (x_1, x_2, …, x_n) \mathit{I}_{[\underset{i}{\max} x_i \leq \theta_2]} (x_1, x_2, …, x_n)
\end{align}
$$

上記のように同時確率密度関数が書けることにより、分解定理に基づいて$\mathbf{T}=(\underset{i}{\min} x_i, \underset{i}{\max} x_i)$が$(\theta_1, \theta_2)$に関する十分統計量となる。

条件付き分布に関しては、$x_1, x_2, …, x_n$の中から最小値となる$x_i$と最大値となる$x_j$が無作為に選ばれ、その他の$x_k$が独立に一様分布の$U[\underset{i}{\min} x_i, \underset{i}{\max} x_i]$に従うと考えればよい。

問題6.5の解答例

$$
\large
\begin{align}
f(x,\theta) = h(x) \exp \left( \sum_{j=1}^{k} T_j(x) \psi_j(\theta) – c(\theta) \right) \quad (1)
\end{align}
$$
上記の指数型分布族の式の形で二項分布と正規分布が表せることを以下確認する。

・$(6.15)$式と二項分布
$$
\large
\begin{align}
P(x|n,p) = {}_n C_x p^{x}(1-p)^{n-x}
\end{align}
$$
二項分布$Bin(n,p)$の確率関数は上記のように表すことができる。上記の$p^{x}(1-p)^{n-x}$に関して、$p^{x}(1-p)^{n-x} = exp(log(p^{x}(1-p)^{n-x}))$の計算を行う。
$$
\large
\begin{align}
P(x|n,p) &= {}_n C_x p^{x}(1-p)^{n-x} \\
&= {}_n C_x \exp(\log{(p^{x}(1-p)^{n-x})}) \\
&= {}_n C_x \exp(x\log{p} + (n-x)\log{(1-p)}) \\
&= {}_n C_x \exp(x(\log{p}-\log{(1-p)}) + n\log{(1-p)}) \\
&= {}_n C_x \exp \left( x \log{\frac{p}{1-p}} + n\log{(1-p)} \right) \quad (2)
\end{align}
$$

$(1)$式の指数型分布族の定義式において$k=1$とすると下記のようになる。
$$
\large
\begin{align}
f(x,\theta) = h(x) \exp \left( T_1(x) \psi_1(\theta) – c(\theta) \right) \quad (3)
\end{align}
$$
$(2)$式と$(3)$式を見比べることで、下記のように$(6.15)$式を導出できる。
$$
\large
\begin{align}
\theta &= p \\
h(x) &= {}_n C_x \\
T_1(x) &= x \\
\psi_1(p) &= \log{\frac{p}{1-p}} \\
c(p) &= -n\log{(1-p)}
\end{align}
$$

・$(6.16)$式と正規分布
$$
\large
\begin{align}
P(x_1,x_2,…,x_n|\mu,\sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( – \frac{(x_i-\mu)^2}{2 \sigma^2} \right)
\end{align}
$$

標本$(x_1,x_2,…,x_n)$が観測されたとき、正規分布$N(\mu,\sigma^2)$の同時確率分布は上記のように表すことができる。上記は下記のように変形できる。
$$
\large
\begin{align}
P(x_1,x_2,…,x_n|\mu,\sigma^2) &= \prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( – \frac{(x_i-\mu)^2}{2 \sigma^2} \right) \\
&= \frac{1}{(2 \pi \sigma^2)^{n/2}} \prod_{i=1}^{n} \exp \left( – \frac{(x_i-\mu)^2}{2 \sigma^2} \right) \\
&= \frac{1}{(2 \pi \sigma^2)^{n/2}} \exp \left( – \sum_{i=1}^{n} \frac{(x_i-\mu)^2}{2 \sigma^2} \right) \\
&= \frac{1}{(2 \pi \sigma^2)^{n/2}} \exp \left( – \sum_{i=1}^{n} \frac{x_i^2 – 2x_i \mu + \mu^2}{2 \sigma^2} \right) \\
&= \frac{1}{(2 \pi \sigma^2)^{n/2}} \exp \left( – \frac{1}{2 \sigma^2} \sum_{i=1}^{n} x_i^2 + \frac{\mu}{\sigma^2} \sum_{i=1}^{n} x_i – \frac{\mu^2}{2 \sigma^2} \right) \\
&= \frac{1}{(2 \pi \sigma^2)^{n/2}} \exp \left(\frac{n \mu}{\sigma^2} \bar{x} – \frac{1}{2 \sigma^2} \sum_{i=1}^{n} x_i^2 – \frac{\mu^2}{2 \sigma^2} \right) \\
&= \exp \left(\frac{n \mu}{\sigma^2} \bar{x} – \frac{1}{2 \sigma^2} \sum_{i=1}^{n} x_i^2 – \frac{\mu^2}{2 \sigma^2} – \frac{n}{2}\log{2 \pi \sigma^2} \right) \quad (4)
\end{align}
$$

$(1)$式の指数型分布族の定義式において$k=2$とすると下記のようになる。
$$
\large
\begin{align}
f(x,\theta) = h(x) \exp \left( T_1(x) \psi_1(\theta) + T_2(x) \psi_2(\theta) – c(\theta) \right) \quad (5)
\end{align}
$$
$(4)$式と$(5)$式を見比べることで、下記のように$(6.16)$式を導出できる。
$$
\large
\begin{align}
\theta &= (\mu,\sigma^2) \\
h(x) &= 1 \\
T_1(x) &= \bar{x} \\
T_2(x) &= \sum_{i=1}^{n} x_i^2 \\
\psi_1(p) &= \frac{n \mu}{\sigma^2} \\
\psi_2(p) &= – \frac{1}{2 \sigma^2} \\
c(\mu,\sigma^2) &= \frac{\mu^2}{2 \sigma^2} + \frac{n}{2}\log{2 \pi \sigma^2}
\end{align}
$$
$(6.16)$式の表記に合わせて作成したが、$\displaystyle h(x) = \frac{1}{(2 \pi \sigma^2)^{n/2}}, c(\mu,\sigma^2) = \frac{\mu^2}{2 \sigma^2}$でも良いと思われる。

問題6.6の解答例

$$
\large
\begin{align}
f(x,\theta) = h(x) \exp \left( \sum_{j=1}^{k} T_j(x) \psi_j(\theta) – c(\theta) \right) \quad (1)
\end{align}
$$
上記の指数型分布族の式の形でポアソン分布、負の$2$項分布、ガンマ分布が表せることを以下確認する。

・ポアソン分布
$$
\large
\begin{align}
P(x_1,x_2,…,x_n|\lambda) &= \prod_{i=1}^{n} \frac{\lambda^{x_i} \exp(-\lambda)}{x_i!} \\
&= \prod_{i=1}^{n} \frac{\exp(\log{\lambda^{x_i}}) \exp(-\lambda)}{x_i!} \\
&= \prod_{i=1}^{n} \frac{\exp(x_i\log{\lambda}) \exp(-\lambda)}{x_i!} \\
&= \prod_{i=1}^{n} \frac{\exp(x_i\log{\lambda} – \lambda )}{x_i!} \\
&= \frac{1}{\prod_{i=1}^{n} x_i!} \exp \left( \sum_{i=1}^{n} (x_i\log{\lambda} – \lambda) \right) \\
&= \left( \prod_{i=1}^{n} x_i! \right)^{-1} \exp \left( n\bar{x}\log{\lambda} – n\lambda \right) \quad (2)
\end{align}
$$
標本$(x_1,x_2,…,x_n)$が観測されたとき、ポアソン分布$Po(\lambda)$の同時確率分布は上記のように変形することができる。

$(1)$式の指数型分布族の定義式において$k=1$とすると下記のようになる。
$$
\large
\begin{align}
f(x,\theta) = h(x) \exp \left( T_1(x) \psi_1(\theta) – c(\theta) \right) \quad (3)
\end{align}
$$
$(2)$式と$(3)$式を見比べることで、下記のようにそれぞれの関数を表すことができる。
$$
\large
\begin{align}
\theta &= \lambda \\
h(x) &= \left( \prod_{i=1}^{n} x_i! \right)^{-1} \\
T_1(x) &= \bar{x} \\
\psi_1(\lambda) &= n \log{\lambda} \\
c(\lambda) &= – n \lambda
\end{align}
$$

問題6.7の解答例

問題6.8の解答例

$T$が強い意味での最小十分であると考え、$U=g(T)$が十分であると考える。このとき強い意味での最小十分性より$T=h(U)$ともできることより、$g^{-1}=h$が成立し$g$は1対1となる。したがってこのとき$T$は弱い意味でも最小十分となる。

次に強い意味での最小十分統計量を$T$、弱い意味での最小十分統計量を$S$とする。このとき$S$は十分であるから$T=h(S)$のように書くことができる。ここで$S$と$T$は1対1対応する必要があるので、$h$は1対1の対応となる。よってこのとき$S$は強い意味でも最小十分となる。

問題6.9の解答例

標本空間$\mathscr{X} = \{ 0,1 \}^4$は0か1の値を4回選び、ベクトルを考えることで表現できる。$2^4$通りを書き出すと下記のようになる。
$$
\large
\begin{align}
&\left(\begin{array}{c} 0 \\ 0 \\ 0 \\ 0 \end{array} \right), \left(\begin{array}{c} 0 \\ 0 \\ 0 \\ 1 \end{array} \right), \left(\begin{array}{c} 0 \\ 0 \\ 1 \\ 0 \end{array} \right), \left(\begin{array}{c} 0 \\ 0 \\ 0 \\ 1 \end{array} \right), \left(\begin{array}{c} 0 \\ 1 \\ 0 \\ 0 \end{array} \right), \left(\begin{array}{c} 0 \\ 1 \\ 0 \\ 1 \end{array} \right), \left(\begin{array}{c} 0 \\ 1 \\ 1 \\ 0 \end{array} \right), \left(\begin{array}{c} 0 \\ 1 \\ 0 \\ 1 \end{array} \right), \\
&\left(\begin{array}{c} 1 \\ 0 \\ 0 \\ 0 \end{array} \right), \left(\begin{array}{c} 1 \\ 0 \\ 0 \\ 1 \end{array} \right), \left(\begin{array}{c} 1 \\ 0 \\ 1 \\ 0 \end{array} \right), \left(\begin{array}{c} 1 \\ 0 \\ 0 \\ 1 \end{array} \right), \left(\begin{array}{c} 1 \\ 1 \\ 0 \\ 0 \end{array} \right), \left(\begin{array}{c} 1 \\ 1 \\ 0 \\ 1 \end{array} \right), \left(\begin{array}{c} 1 \\ 1 \\ 1 \\ 0 \end{array} \right), \left(\begin{array}{c} 1 \\ 1 \\ 0 \\ 1 \end{array} \right)
\end{align}
$$
上記に対し、上二つの要素の和と下二つの要素の和をそれぞれ$Y_1=X_1+X_2, Y_2=X_3+X_4$のように定義し、$(Y_1,Y_2)$に対して$(0,0), (1,0), (0,1), (2,0), (0,2), (1,1), (2,1), (1,2), (2,2)$のように分けて部分集合に分割を行ったのが(6.19)である。

$(0,0), (2,0), (0,2) (2,2)$に関しては1パターンしかないのでそれぞれ1通り、$(1,0), (0,1), (2,1), (1,2)$については2パターンあるのでそれぞれ2通り、$(1,1)$については4パターンあるのでそれぞれ4通りが対応すると考えれば全$1 \times 4 + 2 \times 4 + 4 = 16$通りとなる。

問題6.10の解答例

「$P_g$が$P_f$より粗い分割である $\iff$ ある関数$h$が存在して$f(x)=h(g(x))$のように書ける」を示す。必要十分条件を示すにあたっては、それぞれ分けて考える方がわかりやすいので、以下では必要条件と十分条件にそれぞれ分けて考える。

・必要条件
$f(x) = h(g(x))$と書けるとき、$g(x)=g(x’)$なら$f(x)=h(g(x))=h(g(x’))=f(x’)$より、$g$による特定の同値類は$f$の同値類の部分集合となる。よって、「$P_f$が$P_g$より粗い分割である」は「ある関数$h$が存在して$f(x)=h(g(x))$のように書ける」の必要条件である。

・十分条件
$P_f$が$P_g$より粗い分割となるとき、$a=g(x)=g(x’)$となる$P_g$の同値類は$b=f(x)=f(x’)$となる同値類の部分集合となる。この時、$a=g(x)$の全ての地域に関して$b=h(a)$が成立するような$h$を考えると、$f(x)=h(g(x))$のように書ける関数$h$が定まる。

問題6.11の解答例

前問より、「$P_f$が$P_g$より粗い分割である $\iff$ ある関数$h$が存在して$f(x)=h(g(x))$のように書ける」が成立する。よって、「$P_T$が$P_U$より粗い分割である $\iff$ ある関数$h$が存在して$T(x)=h(S(x))$のように書ける」が成立する。

統計量$T$が強い意味での最小十分統計量であるための必要十分条件は「任意の十分統計量$S$に対してある$h$が存在して$T=h(S)$となる」とされるが、これは$T(x)=h(S(x))$より示すことができる。

・直感的な解釈
「最小十分統計量」は「他の十分統計量」に比較して制約の少ない統計量であり、十分統計量の値による標本空間の分割が比較的少ない分け方である。問題6.9で取り扱ったように、統計量が最小十分統計量よりも多い場合は標本空間の分割が多くなり、全ての標本を保持するのと近しい空間分割となる。

問題6.12の解答例

$$
\large
\begin{align}
f(x,\theta) = h(x,x’)f(x’,\theta)
\end{align}
$$
上記の式において、$h(x,x’)$について下記が導出できる。
$$
\large
\begin{align}
f(x,\theta) &= h(x,x’)f(x,\theta) \\
1 &= h(x,x’) \\
h(x,x’) &= 1
\end{align}
$$

次に$h(x,x’)$について下記が成立する。
$$
\large
\begin{align}
f(x,\theta) &= h(x,x’)f(x’,\theta) \quad (1) \\
f(x’,\theta) &= h(x’,x)f(x,\theta) \quad (2)
\end{align}
$$
(1)と(2)の両辺を掛け合わせて下記のように$h(x,x’)$に関して解く。
$$
\large
\begin{align}
f(x,\theta)f(x’,\theta) &= h(x,x’)h(x’,x)f(x’,\theta)f(x,\theta) \\
1 &= h(x,x’)h(x’,x) \\
h(x,x’) &= \frac{1}{h(x’,x)}
\end{align}
$$

次に、$h(x,x^{”})$に関しても導出を行う。
$$
\large
\begin{align}
f(x,\theta) &= h(x,x’)f(x’,\theta) \quad (3) \\
f(x,\theta) &= h(x,x^{”})f(x^{”},\theta) \quad (4) \\
f(x’,\theta) &= h(x’,x^{”})f(x^{”},\theta) \quad (5)
\end{align}
$$
$(4)$の左辺と右辺を入れ替えると下記のようになる。
$$
\large
\begin{align}
h(x,x^{”})f(x^{”},\theta) &= f(x,\theta) \quad (4)’
\end{align}
$$
$(3), (4)’, (5)$の両辺を掛け合わせることで下記が導出できる。
$$
\large
\begin{align}
f(x,\theta)h(x,x^{”})f(x^{”},\theta)f(x’,\theta) &= h(x,x’)f(x’,\theta)f(x,\theta)h(x’,x^{”})f(x^{”},\theta) \\
h(x,x^{”}) &= h(x,x’)h(x’,x^{”})
\end{align}
$$

ここまでの導出により、離散分布の場合に考えると任意の特定の同値類の2点での確率の比が$h(x,x’)$で与えられ、$\theta$に依存しないことがわかる。

上記までを(6.20)にあてはめて考えると、「$x \sim x’$が同値」で、「$x \sim x’$を用いた分割は強い意味での最小十分な分割である」といえる。

問題6.13の解答例

一様分布$U[a,b]$の同時確率密度関数$f_{a,b}(x_1, x_2, …, x_n)$は問題6.4と同様に考えることで、下記のように表すことができる。
$$
\large
\begin{align}
f_{a,b}(x_1, x_2, …, x_n) &= \frac{1}{(b-a)^n} \mathit{I}_{[\underset{i}{\min} x_i \geq a]} (x_1, x_2, …, x_n) \mathit{I}_{[\underset{i}{\max} x_i \leq b]} (x_1, x_2, …, x_n)
\end{align}
$$

上記において分解定理の$p(x_1, …, x_n) = g(T(x_1,…,x_n))h(x)$を考えると、$h(x)=1$とおけるので、(6.20)式より、$\mathbf{T}=(\underset{i}{\min} x_i, \underset{i}{\max} x_i)$が最小十分統計量であると示せる。

問題6.14の解答例

問題6.15の解答例

$$
\large
\begin{align}
f(x,\theta) = h(x) \exp \left( \sum_{j=1}^{k} T_j(x) \psi_j(\theta) – c(\theta) \right) \quad (6.17)
\end{align}
$$
上記で表された(6.17)式に関して、(6.20)式のように$x, x’$が同値となる条件を考える。
$$
\large
\begin{align}
\frac{f(x,\psi)}{f(x’,\psi)} &= \frac{h(x) \exp \left( \sum_{j=1}^{k} T_j(x) \psi_j(\theta) – c(\theta) \right)}{h(x’) \exp \left( \sum_{j=1}^{k} T_j(x’) \psi_j(\theta) – c(\theta) \right)} \\
&= \frac{h(x)}{h(x’)} \exp \left( \sum_{j=1}^{k} (T_j(x)-T_j(x’)) \psi_j(\theta) \right)
\end{align}
$$
上記が$\psi_j(\theta)$に依存しないための必要十分条件は$T_j(x) = T_j(x’)$であるので、$(T_1(x), T_2(x), …, T_k(x)$が指数型分布族の最小十分統計量であることがわかる。

問題6.16の解答例

まとめ

Ch.2 「確率と1次元の確率変数」の章末問題の解答例 〜現代数理統計学(学術図書出版社)〜

当記事は「現代数理統計学(学術図書出版社)」の読解サポートにあたってChapter.2の「確率と1次元の確率変数」の章末問題の解説について行います。

基本的には書籍の購入者向けの解説なので、まだ入手されていない方は購入の上ご確認ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。(そのため著者の意図とは異なる解説となる可能性はあります)

↓下記が公式の解答なので、正確にはこちらを参照ください。
https://www.gakujutsu.co.jp/text/isbn978-4-7806-0860-1/

章末の演習問題について

問題2.1の解答例

平均周辺の$k$次モーメントを$\mu_k$、原点周辺の$k$次モーメントを$\mu’_k$とおく。このとき、原点周辺の1次モーメントに関して$\mu=\mu’_1$とすると、それぞれ確率変数$X$に関する期待値を考えることで下記のように定義される。
$$
\large
\begin{align}
\mu_k = E[(X-\mu)^k]
\mu’_k = E[X^k]
\end{align}
$$

ここで平均周辺の$k$次モーメント$\mu_k$は下記のように導出できる。
$$
\large
\begin{align}
\mu_k &= E[(X-\mu)^k] \\
&= E \left[ \sum_{i=0}^{k} X^i (-\mu)^{k-i} \right] \\
&= \sum_{i=0}^{k} E[X^i] (-\mu)^{k-i} \\
&= \sum_{i=0}^{k} (-1)^{k-i} \mu’_i \mu^{k-i}
\end{align}
$$

次に原点周辺の$k$次モーメントを$\mu’_k$は下記のように導出できる。
$$
\large \begin{align}
\mu’_k &= E[X^k] \\
&= E[((X-\mu)+\mu)^k] \\
&= E \left[ \sum_{i=0}^{k} (X-\mu)^i \mu^{k-i} \right] \\
&= \sum_{i=0}^{k} E[(X-\mu)^i] \mu^{k-i} \\
&= \sum_{i=0}^{k} \mu_i \mu^{k-i}
\end{align}
$$

問題2.2の解答例

問題2.3の解答例

公式の解答例の記載と同様に、「$x$が連続変数」で「$0 < h < k$が正の整数」である前提で考える。

基本的には確率密度関数の$f(x)$に対して「$\displaystyle \int_{-\infty}^{\infty} x^k f(x) dx$が収束するならば$\displaystyle \int_{-\infty}^{\infty} x^h f(x) dx$も収束する」を示せば良い。

以下、$|x| \leq 1$の範囲、$1 < x$の範囲、$x < -1$の範囲についてそれぞれ確認する。

・$|x| \leq 1$の範囲に関して
$|x| \leq 1$の範囲においては$|x|^{h}$も$|x|^k$も1以下となる。よってこの範囲での積分は有限であり収束する。

・$1 < x$の範囲に関して
$\displaystyle \frac{x^h}{x^k} = \frac{1}{x^{k-h}} < 1$なので、$\displaystyle \int_{1}^{\infty} x^k f(x) dx$が有限で収束するならば$\displaystyle \int_{1}^{\infty} x^h f(x) dx$も有限で収束する。

・$x < -1$の範囲について
$\displaystyle \frac{x^h}{x^k} = \left| \frac{1}{x^{k-h}} \right| < 1$より$1 < x$の範囲と同様に考えることができる。

ここまでの議論により、$\displaystyle \int_{-\infty}^{\infty} x^k f(x) dx$が収束するならば$\displaystyle \int_{-\infty}^{\infty} x^h f(x) dx$も収束することを示すことができる。

問題2.4の解答例

問題2.5の解答例

問題2.6の解答例

問題2.7の解答例

ポアソン分布の確率母関数を$G(s)=E[s^X]$とするとき、$G(s)$は下記のように整理できる。
$$
\large
\begin{align}
G(s) &= E[s^X] \\
&= \sum_{n=0}^{\infty} \frac{\lambda^{n} e^{-\lambda}}{n!} s^n \\
&= e^{-\lambda} \sum_{n=0}^{\infty} \frac{(s \lambda)^{n}}{n!}
\end{align}
$$
このとき、マクローリン展開の式より$\displaystyle e^{s \lambda} = \sum_{n=0}^{\infty} \frac{(s \lambda)^{n}}{n!}$が成立する。よって、$G(s)$は下記のようになる。
$$
\large
\begin{align}
G(s) &= e^{-\lambda} \sum_{n=0}^{\infty} \frac{\lambda^{n}}{n!} \\
&= e^{-\lambda} e^{s \lambda} \\
&= e^{\lambda(s-1)}
\end{align}
$$

ここまでで求めた確率母関数の1階微分$G'(s)$、2階微分$G”(s)$はそれぞれ下記のようになる。
$$
\large
\begin{align}
G'(s) &= \lambda e^{\lambda(s-1)} \\
G”(s) &= \lambda^2 e^{\lambda(s-1)}
\end{align}
$$
ここで$E[X]=G'(1), V[X]=G”(1)+G'(1)-(G'(1))^2$なので、それぞれ下記のように計算できる。
$$
\large
\begin{align}
E[X] &= G'(1) \\
&= \lambda e^{\lambda(1-1)} \\
&= \lambda \\
V[X] &= G”(1) + G'(1) – (G'(1))^2 \\
&= \lambda^2 e^{\lambda(1-1)} + \lambda – \lambda^2 \\
&= \lambda^2 + \lambda – \lambda^2 \\
&= \lambda
\end{align}
$$

また、二項分布$Bin(n,p)$の平均は$np$、分散は$np(1-p)$である。$np = \lambda$とおくと、$n \to \infty, p \to +0$のとき、下記が導出できる。
$$
\large
\begin{align}
E[X] &= np = \lambda \\
V[X] &= \lim_{n \to \infty, p \to +0} np(1-p) \\
&= \lambda
\end{align}
$$
これは二項分布とポアソン分布に関する小数の法則と整合性の取れる内容である。

問題2.8の解答例

表が出る確率が$p$のコイン投げを行い、$r$回表が出るまでの裏の回数を$k$と考える。この試行は負の二項分布$NB(r,p)$に従うが、$NB(r,p)$確率関数$P(X=k)$は下記のように考えられる。
$$
\large
\begin{align}
P(X=k) &= {}_{r+k-1} C_{k} (1-p)^{k} p^{r-1} \times p \\
&= {}_{r+k-1} C_{k} (1-p)^{k} p^{r}
\end{align}
$$

ここで$q = 1 – p$と考える。確率母関数を$G(s)$とおくと、確率母関数の定義より$G(s)$は下記のように計算できる。
$$
\large
\begin{align}
G(s) &= E[s^X] \\
&= \sum_{k=0}^{\infty} s^{k} P(X=k) \\
&= \sum_{k=0}^{\infty} s^{k} \times {}_{r+k-1} C_{k} (1-p)^{k} p^{r} \\
&= \sum_{k=0}^{\infty} s^{k} \times {}_{r+k-1} C_{k} q^{k} p^{r} \\
&= \sum_{k=0}^{\infty} {}_{r+k-1} C_{k} (sq)^{k} p^{r} \quad (1)
\end{align}
$$

(1)式の計算にあたって、下記で表す2.4節の(2.58)式を活用することを考える。
$$
\large
\begin{align}
(1-q)^{-r} = \sum_{k=0}^{\infty} {}_{r+k-1} C_{k} q^{k} \quad (2.58)
\end{align}
$$
上記は$(1-q)^r$に関してマクローリン展開を考えることで導出できる。この式の$q$を$sq$で置き換えると下記の式のようになる。
$$
\large
\begin{align}
(1-sq)^{-r} = \sum_{k=0}^{\infty} {}_{r+k-1} C_{k} (sq)^{k}
\end{align}
$$
上記の両辺に$p^{r}$をかけると、右辺の式は(1)式に一致する。
$$
\large
\begin{align}
(1-sq)^{-r}p^{r} &= \sum_{k=0}^{\infty} {}_{r+k-1} C_{k} (sq)^{k} p^{r} \\
&= G(s)
\end{align}
$$
よって、下記の確率母関数$G(s)$が導出されたと考えることができる。
$$
\large
\begin{align}
G(s) = \frac{p^{r}}{(1-sq)^{r}}
\end{align}
$$

期待値$E[X]$、分散$V[X]$を計算するにあたっては、$G(s)$を$s$で微分した$G'(s), G”(s)$を活用する。合成関数の微分の考え方を用いることで、$G'(s), G”(s)$は下記のように計算できる。
$$
\large
\begin{align}
G'(s) &= \frac{rqp^{r}}{(1-sq)^{r+1}} \\
G”(s) &= \frac{r(r+1)q^2p^{r}}{(1-sq)^{r+2}}
\end{align}
$$
また、$G'(1), G”(1)$は下記のように計算できる。
$$
\large
\begin{align}
G'(1) &= \frac{rqp^{r}}{(1-q)^{r+1}} \\
&= \frac{rqp^{r}}{p^{r+1}} \\
&= \frac{r(1-p)}{p} \\
G”(1) &= \frac{r(r+1)q^2p^{r}}{(1-q)^{r+2}} \\
&= \frac{r(r+1)(1-p)^2p^{r}}{p^{r+2}} \\
&= \frac{r(r+1)(1-p)^2}{p^{2}}
\end{align}
$$

$E[X]=G'(1), V[X]=G”(1)+G'(1)-(G'(1))^2$より、期待値$E[X]$と分散$V[X]$は下記のように導出できる。
$$
\large
\begin{align}
E[X] &= G'(1) \\
&= \frac{r(1-p)}{p} \\
V[X] &= G”(1)+G'(1)-(G'(1))^2 \\
&= \frac{r(r+1)(1-p)^2}{p^{2}} + \frac{r(1-p)}{p} – \frac{r^2(1-p)^2}{p^2} \\
&= \frac{r(1-p)}{p^2}
\end{align}
$$

問題2.9の解答例

$$
\large
\begin{align}
\phi(x) = \frac{1}{\sqrt{2 \pi}} exp \left( -\frac{x^2}{2} \right)
\end{align}
$$
上記で表される標準正規分布の確率密度関数$\phi(x)$は偶関数であり、$y$軸に関して線対称なグラフで表される。ここで$x$が奇関数であるので、$x\phi(x)$は奇関数で、原点を中心に点対称のグラフで表される。よって下記の平均に関する式が成立する。
$$
\large
\begin{align}
\int_{-\infty}^{\infty} x \phi(x) dx = 0
\end{align}
$$

分散の導出にあたっては下記で示すように$\phi'(x)=-x\phi(x)$が成立することを利用する。
$$
\large
\begin{align}
\phi'(x) &= \left( \frac{1}{\sqrt{2 \pi}} exp \left( -\frac{x^2}{2} \right) \right) \\
&= \frac{1}{\sqrt{2 \pi}} exp \left( -\frac{x^2}{2} \right) \left( -\frac{x^2}{2} \right)’ \\
&= \frac{1}{\sqrt{2 \pi}} exp \left( -\frac{x^2}{2} \right) (-x) \\
&= -x \phi(x)
\end{align}
$$
上記を利用して分散に関する式は下記より導出できる。
$$
\large
\begin{align}
\int_{-\infty}^{\infty} x^2\phi(x) dx &= \int_{-\infty}^{\infty} -x (-x\phi(x)) dx \\
&= \int_{-\infty}^{\infty} -x \phi'(x) dx \\
&= \left[ -x \phi(x) \right]_{-\infty}^{\infty} + \int_{-\infty}^{\infty} x’\phi(x) dx \\
&= 0 + \int_{-\infty}^{\infty} \phi(x) dx \\
&= 1
\end{align}
$$
上記の計算においては、$x$よりも$e^{x^2}$の方が関数の発散が速いことを用いた。

以下、$X \sim N(0,1), Y \sim N(\mu,\sigma^2)$が成り立つとき、$E[Y], V[Y]$に関して求める。$X$と$Y$に関して$Y = \mu + \sigma X$が成立するので、$E[Y], V[Y]$は下記のように計算できる。
$$
\large
\begin{align}
E[Y] &= E[\mu + \sigma X] \\
&= \mu + \sigma E[X] \\
&= \mu \\
V[Y] &= V[\mu + \sigma X] \\
&= \sigma^2 V[X] \\
&= \sigma^2
\end{align}
$$
よって正規分布$N(\mu,\sigma^2)$の平均は$\mu$、分散が$\sigma^2$であることがそれぞれわかる。

問題2.10の解答例

ベータ分布の平均と分散は下記のように導出できる。
・平均
https://www.hello-statisticians.com/explain-terms-cat/beta_distribution1.html#EX

・分散
https://www.hello-statisticians.com/explain-terms-cat/beta_distribution1.html#VX

問題2.11の解答例

https://www.hello-statisticians.com/explain-terms-cat/maclaurin-seriese.html
上記の対数関数に関するマクローリン展開の式を参考に、下記が成立すると考えられる。
$$
\large
\begin{align}
-\log{(1-\theta)} = \sum_{n=1}^{\infty} \frac{\theta^n}{n}
\end{align}
$$

ここで$p(x)$に関する題意の式は下記のように表される。
$$
\large
\begin{align}
p(x) = c(\theta) \frac{\theta^x}{x} \quad (x=1,2,…, \quad 0 < \theta < 1)
\end{align}
$$
上記の$p(x)$は確率関数であるため、$\displaystyle \sum_{x=1}^{\infty} p(x) = 1$が成立する。このとき、マクローリン展開の式と比較するにあたって、$x$を$n$に置き換えると下記のような数式となる。
$$
\large
\begin{align}
\sum_{n=1}^{\infty} p(n) &= \sum_{n=1}^{\infty} c(\theta) \frac{\theta^n}{n} \\
&= c(\theta) \sum_{n=1}^{\infty} \frac{\theta^n}{n} \\
&= 1
\end{align}
$$

ここまでで導出した式に対し、冒頭で確認した$\displaystyle \sum_{n=1}^{\infty} \frac{\theta^n}{n} = -\log{(1-\theta)}$を代入する。
$$
\large
\begin{align}
\sum_{n=1}^{\infty} p(n) &= c(\theta) \sum_{n=1}^{\infty} \frac{\theta^n}{n} \\
&= c(\theta) \times (-\log{(1-\theta)}) \\
&= 1
\end{align}
$$
上記より$c(\theta) \times (-\log{(1-\theta)}) = 1$が成立するので、$c(\theta)$は下記のように求めることができる。
$$
\large
\begin{align}
c(\theta) = -\frac{1}{\log{(1-\theta)}}
\end{align}
$$

次に、書籍では積率母関数と記載されているが、公式の解答と見比べた際に確率母関数の間違いであると思われるため、以下では確率母関数を求め、期待値と分散を求める。

確率母関数$G(s)=[s^X]$は$c(\theta)$の導出と同様にマクローリン展開を考えることで、下記のように導出できる。
$$
\large
\begin{align}
G(s) &= [s^X] \\
&= \sum_{n=1}^{\infty} s^n p(n) \\
&= c(\theta) \sum_{n=1}^{\infty} s^n \frac{\theta^n}{n} \\
&= c(\theta) \sum_{n=1}^{\infty} \frac{(\theta s)^n}{n} \\
&= c(\theta) \sum_{n=1}^{\infty} \frac{(\theta s)^n}{n} \\
&= c(\theta) (-\log{(1-\theta s)}) \\
&= -\frac{1}{\log{(1-\theta)}} \times (-\log{(1-\theta s)}) \\
&= \frac{\log{(1-\theta s)}}{\log{(1-\theta)}}
\end{align}
$$

問題2.12の解答例

https://www.hello-statisticians.com/explain-terms-cat/log_normal_dist1.html#i-2
上記で取り扱った変数変換を用いた導出により、対数正規分布の確率密度関数は下記のように表すことができる。
$$
\large
\begin{align}
f(x) &= \frac{1}{\sqrt{2 \pi \sigma^2}x} exp \left\{ -\frac{(\log{x}-\mu)^2}{2 \sigma^2} \right\} \quad (x > 0) \\
&= 0 \qquad (x \leq 0)
\end{align}
$$

以下、期待値$E[X]$、分散$V[X]$について計算を行う。

・期待値$E[X]$
$$
\large
\begin{align}
E[X] &= \int_{0}^{\infty} xf(x) dx \\
&= \int_{0}^{\infty} x \frac{1}{\sqrt{2 \pi \sigma^2}x} exp \left\{ -\frac{(\log{x}-\mu)^2}{2 \sigma^2} \right\} dx \\
&= \frac{1}{\sqrt{2 \pi \sigma^2}} \int_{0}^{\infty} exp \left\{ -\frac{(\log{x}-\mu)^2}{2 \sigma^2} \right\} dx
\end{align}
$$
上記に対して、$t = \log{x}$で変数変換を行うことを考える。$0 < x \infty$に対応する$t$は$-\infty < t \infty$で、$dx = e^t dt$より、$E[X]$は下記のように変数を変換することができる。
$$
\large
\begin{align}
E[X] &= \frac{1}{\sqrt{2 \pi \sigma^2}} \int_{-\infty}^{\infty} exp \left\{ t \right\} \times exp \left\{ -\frac{(t-\mu)^2}{2 \sigma^2} \right\} dt \\
&= \frac{1}{\sqrt{2 \pi \sigma^2}} \int_{-\infty}^{\infty} exp \left\{ -\frac{(t-\mu)^2 – 2 \sigma^2 t}{2 \sigma^2} \right\} dt
\end{align}
$$

ここで下記のように$(t-\mu)^2 – 2 \sigma^2 t$の平方完成を行うことができる。
$$
\large
\begin{align}
(t-\mu)^2 – 2 \sigma^2 t &= t^2 – 2 \mu t + \mu^2 – 2 \sigma^2 t \\
&= t^2 – 2 (\mu + \sigma^2) t + \mu^2 \\
&= (t – (\mu + \sigma^2))^2 – (\mu + \sigma^2)^2 + \mu^2 \\
&= (t – (\mu + \sigma^2))^2 – (\mu^2 + 2 \mu \sigma^2 + \sigma^4 – \mu^2) \\
&= (t – (\mu + \sigma^2))^2 – (\mu \sigma^2 + \sigma^4)
\end{align}
$$
上記より$E[X]$は下記のように変形できる。
$$
\large
\begin{align}
E[X] &= \frac{1}{\sqrt{2 \pi \sigma^2}} \int_{-\infty}^{\infty} exp \left\{ -\frac{(t-\mu)^2 – 2 \sigma^2 t}{2 \sigma^2} \right\} dt \\
&= \frac{1}{\sqrt{2 \pi \sigma^2}} \int_{-\infty}^{\infty} exp \left\{ -\frac{(t – (\mu + \sigma^2))^2}{2 \sigma^2} + \frac{\mu \sigma^2 + \sigma^4}{2 \sigma^2} \right\} dt \\
&= \frac{1}{\sqrt{2 \pi \sigma^2}} exp \left\{ \mu + \frac{\sigma^2}{2} \right\} \int_{-\infty}^{\infty} exp \left\{ -\frac{(t – (\mu + \sigma^2))^2}{2 \sigma^2} \right\} dt
\end{align}
$$
$\displaystyle \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi \sigma^2}} exp \left\{ -\frac{(t – (\mu + \sigma^2))^2}{2 \sigma^2} \right\} dt$は$N(\mu + \sigma^2, \sigma^2)$の全区間での積分のため1となる。よって、$E[X]$は下記のように導出できる。
$$
\large
\begin{align}
E[X] &= \frac{1}{\sqrt{2 \pi \sigma^2}} exp \left\{ \mu + \frac{\sigma^2}{2} \right\} \int_{-\infty}^{\infty} exp \left\{ -\frac{(t – (\mu + \sigma^2))^2}{2 \sigma^2} \right\} dt \\
&= exp \left\{ \mu + \frac{\sigma^2}{2} \right\}
\end{align}
$$

・分散$V[X]$
$V[X] = E[X^2] – E[X]^2$を利用するにあたって、$E[X^2]$を$E[X]$と同様に$t = \log{x}$を用いて変換して計算する。
$$
\large
\begin{align}
E[X^2] &= \int_{0}^{\infty} x^2 f(x) dx \\
&= \int_{0}^{\infty} x^2 \frac{1}{\sqrt{2 \pi \sigma^2}x} exp \left\{ -\frac{(\log{x}-\mu)^2}{2 \sigma^2} \right\} dx \\
&= \frac{1}{\sqrt{2 \pi \sigma^2}} \int_{0}^{\infty} x exp \left\{ -\frac{(\log{x}-\mu)^2}{2 \sigma^2} \right\} dx \\
&= \frac{1}{\sqrt{2 \pi \sigma^2}} \int_{-\infty}^{\infty} e^t exp \left\{ -\frac{(t-\mu)^2}{2 \sigma^2} \right\} e^t dt \\
&= \frac{1}{\sqrt{2 \pi \sigma^2}} \int_{-\infty}^{\infty} exp \left\{ -\frac{(t-\mu)^2 – 4 \sigma^2 t}{2 \sigma^2} \right\} dt \\
&= \frac{1}{\sqrt{2 \pi \sigma^2}} \int_{-\infty}^{\infty} exp \left\{ -\frac{(t – (\mu + 2\sigma^2))^2}{2 \sigma^2} + \frac{4 \mu \sigma^2 + 4 \sigma^4}{2 \sigma^2} \right\} dt \\
&= exp \left\{ 2 \mu + 2 \sigma^2 \right\} \times \frac{1}{\sqrt{2 \pi \sigma^2}} \int_{-\infty}^{\infty} exp \left\{ -\frac{(t – (\mu + 2\sigma^2))^2}{2 \sigma^2} \right\} dt \\
&= exp \left\{ 2 \mu + 2 \sigma^2 \right\}
\end{align}
$$

よって、$V[X] = E[X^2] – E[X]^2$は下記のように導出できる。
$$
\large
\begin{align}
V[X] &= E[X^2] – E[X]^2 \\
&= exp \left\{ 2 \mu + 2 \sigma^2 \right\} – \left( exp \left\{ \mu + \frac{\sigma^2}{2} \right\} \right)^2 \\
&= exp \left\{ 2 \mu + 2 \sigma^2 \right\} – exp \left\{ 2 \left( \mu + \frac{\sigma^2}{2} \right) \right\} \\
&= exp \left\{ 2 \mu + 2 \sigma^2 \right\} – exp \left\{ 2 \mu + \sigma^2 \right\} \\
&= exp \left\{ 2 \mu + \sigma^2 \right\} \left( e^{\sigma^2} – 1 \right)
\end{align}
$$

問題2.13の解答例

問題2.14の解答例

まとめ

十分統計量(sufficient statistic)の定義・分解定理と証明の具体例

標本の関数である統計量(statistic)が「統計量を与えるだけでパラメータに関係なく標本が得られる」場合、その統計量は「十分統計量(sufficient statistic)」といわれる。
この十分統計量は、十分統計量に関する分解定理(factorization theorem)を用いることで示すことができる。当記事では「分解定理を用いた十分統計量の証明」について具体的な事例を元に確認する。
作成にあたっては「現代数理統計学(学術図書出版社)」の$6.1$節の「十分統計量の定義と分解定理」を参考とした。

概要の確認

十分統計量の直感的理解と定義

$n$個の標本$(X_1, X_2, …, X_n)$に関する統計量を$T=T(X_1, X_2, …, X_n)$とおく。これに対して標本平均のような統計量を考えた際に、ざっくり全体について把握するにあたって「個々の標本の値」ではなく「標本平均のような統計量」を知るだけで「十分」という状況もあると思われる。

逆に、「個々の標本」ではなく「標本平均のような統計量」だけで「十分かどうか」について判断するには、「標本から統計量に変換するにあたって何が失われたのか」を考えると良い。たとえばある事象が$n$回の試行に対して$k$回観測された際、標本の$(X_1=1, X_2=0, …, X_n=1)$から標本平均の$\displaystyle \frac{k}{n}$に変換するにあたって失われるのは、「ある事象が観測される順番」である。

「事象が観測される順番」が必要である場合もありうるが、少なくとも上記の二項分布において試行ごとの確率を表す$p$を推定するにあたって、「事象が観測される順番」は意味をなさない。このような統計量は「十分統計量(sufficient statistic)」と呼ばれる。

ここまでが十分統計量の直感的な理解であるが、論理的に詳しく取り扱うにあたっては理論的に「定義」を行う方が望ましい。「現代数理統計学(学術図書出版社)」の「定義$6.1$」を引用すると、下記のように「十分統計量」は定義される。

・定義$6.1$
$k$個の統計量$\mathbf{T} = (T_1, T_2, …, T_k)$がパラメータ$\theta$に関する$k$次元の十分統計量であるとは、$\mathbf{T}$を与えたときの$\mathbf{X} = (X_1, X_2, …, X_n)$の条件つき確率分布が$\theta$に依存しないことである。

分解定理

十分統計量の確認にあたっては標本$\mathbf{X} = (X_1, X_2, …, X_n)$の条件付き分布を求めなければならないが、十分統計量に関する「分解定理(factorization theorem)」を用いることで、条件付き分布を求めることなしに「統計量が十分統計量であること」を示すことができる。「分解定理」については現代数理統計学(学術図書出版社)」の「定理$6.2$」に記載があるため、そちらを引用する。

・定理$6.2$
$\mathbf{X}$を離散確率変数または連続確率変数とし$p_{\theta}$を$\mathbf{X}$の確率関数または密度関数とする。$\mathbf{T} = (T_1(\mathbf{X}), T_2(\mathbf{X}), …, T_k(\mathbf{X}))$が十分統計量であるための必要十分条件は$p_{\theta}(x)$が
$$
\large
\begin{align}
p_{\theta}(x) = g_{\theta}(\mathbf{T}(x))h(x)
\end{align}
$$
の形に分解できることである。ここで$h(x)$は$\theta$を含まない$x$のみの関数である。

ここまでで「十分統計量の定義」や「分解定理を用いた十分統計量かどうかの判断」について確認してきたが、抽象的でわかりにくいため、次節ではここで確認した内容を具体的に確認する。

分解定理と最尤法

$$
\large
\begin{align}
p_{\theta}(x) = g_{\theta}(\mathbf{T}(x))h(x)
\end{align}
$$
分解定理の数式は上記のように表されるが、上記は下記のように$\theta$を明示的に関数の変数で表すこともできる。
$$
\large
\begin{align}
p(x,\theta) = g(\mathbf{T}(x), \theta)h(x)
\end{align}
$$
上記において$\mathbf{T}(x)$が統計量で、標本$x$の関数で表されるので上記のような表記となる。この時、最尤推定を考えるにあたっては同時確率の$p(x,\theta)$を最大にする$\theta$を求める。

この際に$p(x,\theta)$を$\theta$で微分し、値が$0$になる$\theta$を求めるにあたっては下記のような計算となる。
$$
\large
\begin{align}
\frac{\partial p(x,\theta)}{\partial \theta} &= \frac{\partial g(\mathbf{T}(x),\theta)h(x)}{\partial \theta} \\
&= h(x) \frac{\partial g(\mathbf{T}(x),\theta)}{\partial \theta} \\
&= 0 \\
\frac{g(\mathbf{T}(x),\theta)}{\partial \theta} &= 0
\end{align}
$$
上記において$\displaystyle \frac{g(\mathbf{T}(x),\theta)}{\partial \theta} = 0$を$\theta$について解くと最尤推定量が得られるが、推定量は$\mathbf{T}(x)$の関数となり、$x$の各値の関数とはならない。

よって、分解定理が成立する際に最尤法を用いると、最尤推定量が統計量の関数で表すことができる。これを逆に考えると、「最尤推定量は個々の標本の値に関係なく十分統計量の関数で表現できる」と考えることもできる。

具体例

ポアソン分布

ポアソン分布$X_1, X_2, …, X_n \sim Po(\lambda), i.i.d.$を例に、分解定理について確認する。
標本に関する同時確率分布$p_{\lambda}(x) = P(X_1=x_1, X_2=x_2, …, X_n=x_n|\lambda)$は下記のように表すことができる。
$$
\large
\begin{align}
P(X_1=x_1, X_2=x_2, …, &X_n=x_n|\lambda) = \prod_{i=1}^{n} \frac{\lambda^{x_i}}{x_i!}e^{-\lambda} \\
&= \lambda^{\sum_{i=1}^{n} x_i} e^{-n \lambda} \left( \prod_{i=1}^{n} x_i! \right)^{-1}
\end{align}
$$
上記において$\displaystyle g_{\theta}(\mathbf{T}(x)) = \lambda^{\sum_{i=1}^{n} x_i} e^{-n \lambda}, h(x) = \left( \prod_{i=1}^{n} x_i! \right)^{-1}$とおけば、$\displaystyle T = \sum_{i=1}^{n} X_i$が$1$次元の十分統計量であることがわかる。

正規分布

正規分布からの標本$X_1, X_2, …, X_n \sim N(\mu, 1), i.i.d.$を例に、分解定理について確認する。このとき標本に関する同時確率分布$p_{\mu}(x) = P(X_1=x_1, X_2=x_2, …, X_n=x_n|\mu)$は下記のように表すことができる。
$$
\large
\begin{align}
P(X_1=x_1, X_2=x_2, …, &X_n=x_n|\mu) = \prod_{i=1}^{n} P(X_i=x_i|\mu) \\
&= \frac{1}{\sqrt{2 \pi}^n} \prod_{i=1}^{n} \exp \left( -\frac{(x_i-\mu)^2}{2} \right) \\
&= \frac{1}{(2 \pi)^{n/2}} \exp \left( -\frac{1}{2} \sum_{i=1}^{n} (x_i-\mu)^2 \right)
\end{align}
$$

ここで上記の$\displaystyle \sum_{i=1}^{n} (x_i-\mu)^2$に着目し、下記のように変形を行うことを考える。
$$
\large
\begin{align}
\sum_{i=1}^{n} (x_i-\mu)^2 &= \sum_{i=1}^{n} (x_i-\bar{x}+\bar{x}-\mu)^2 \\
&= \sum_{i=1}^{n} ((x_i-\bar{x})+(\bar{x}-\mu))^2 \\
&= \sum_{i=1}^{n} ( (x_i-\bar{x})^2 + (\bar{x}-\mu)^2 + 2(x_i-\bar{x})(\bar{x}-\mu)) \\
&= \sum_{i=1}^{n} (x_i-\bar{x})^2 + n(\bar{x}-\mu)^2 + 2(\bar{x}-\mu)\sum_{i=1}^{n} (x_i-\bar{x}) \\
&= n(\bar{x}-\mu)^2 + \sum_{i=1}^{n} (x_i-\bar{x})^2
\end{align}
$$
上記の計算において、$\displaystyle \sum_{i=1}^{n} (x_i-\bar{x}) = n \bar{x} – n \bar{x} = 0$が成立することを用いた。

$\displaystyle \sum_{i=1}^{n} (x_i-\mu)^2 = n(\bar{x}-\mu)^2 + \sum_{i=1}^{n} (x_i-\bar{x})^2$を用いると、$P(X_1=x_1, X_2=x_2, …, X_n=x_n|\mu)$は下記のように整理できる。
$$
\large
\begin{align}
P(X_1=x_1, X_2=x_2, …, &X_n=x_n|\mu) = \frac{1}{(2 \pi)^{n/2}} \exp \left( -\frac{1}{2} \sum_{i=1}^{n} (x_i-\mu)^2 \right) \\
&= \frac{1}{(2 \pi)^{n/2}} \exp \left( -\frac{1}{2} n(\bar{x}-\mu)^2 – \frac{1}{2} \sum_{i=1}^{n} (x_i-\bar{x})^2 \right) \\
&= \frac{1}{(2 \pi)^{n/2}} \exp \left( -\frac{1}{2} n(\bar{x}-\mu)^2 \right) exp \left( – \frac{1}{2} \sum_{i=1}^{n} (x_i-\bar{x})^2 \right)
\end{align}
$$
上記の式において$\displaystyle g_{\mu}(\mathbf{T}(x)) = \frac{1}{(2 \pi)^{n/2}} \exp \left( -\frac{1}{2} n(\bar{x}-\mu)^2 \right), h(x) = \exp \left( – \frac{1}{2} \sum_{i=1}^{n} (x_i-\bar{x})^2 \right)$とおけば、$\displaystyle T = \frac{1}{n} \sum_{i=1}^{n} X_i = \bar{X}$が$1$次元の十分統計量であることがわかる。

証明

$X$が離散確率変数である場合の証明

同時確率関数の$p_{\theta}(x)$が下記のように分解できると仮定する。
$$
\large
\begin{align}
p_{\theta}(x) = g_{\theta}(\mathbf{T}(x))h(x)
\end{align}
$$

この際に下記が成立する。
$$
\large
\begin{align}
P_{\theta}(X=x|T=t) &= \frac{P_{\theta}(X=x,T=t)}{P_{\theta}(T=t)} \\
&= \frac{g_{\theta}(t) h(x)}{g_{\theta}(t) \sum_{x:T(y)=t}h(y)} \\
&= \frac{h(x)}{\sum_{x:T(y)=t}h(y)}
\end{align}
$$

上記は、$p_{\theta}(x) = g_{\theta}(\mathbf{T}(x))h(x)$が成立する場合、$P_{\theta}(X=x|T=t)$の分布は$\theta$に依存しないことを意味する。また、この逆が成立することも以下確認する。

$T$が十分統計量である場合に$P_{\theta}(T=t)=g_{\theta}(t), P_{\theta}(X=x|T=t) = h(x)$とおけるとすると、$P_{\theta}(x)$に関して下記が成立する。
$$
\large
\begin{align}
P_{\theta}(x) &= P_{\theta}(T=t) \times P_{\theta}(X=x|T=t) \\
&= g_{\theta}(t)h(x)
\end{align}
$$

ここまでの議論により、分解定理を示すことができる。