統計的決定理論における十分統計量に関連して出てくる「ラオ・ブラックウェルの定理」の証明などにおいて、条件付き期待値(conditional expectation)の考え方に基づく繰り返しの公式が用いられる。
条件付き期待値$E[Y|X]$と繰り返しの公式$E[Y] = E[E[Y|X]]$は、積分などを用いた定義を抑えていないと略記される場合も多く、注意が必要であると思われる。そこで当記事では条件付き期待値と繰り返しの公式の定義と直感的解釈について確認を行う。
作成にあたっては「現代数理統計学(学術図書出版社)」の3.3節の「多次元分布の期待値」や6.2節の「統計的決定理論における十分統計量」を参考とした。
Contents
数式定義の確認
条件付き期待値(conditional expectation)
$(X,Y)$を2次元の連続確率変数、同時確率密度関数を$f(x,y)$、$X$に関する周辺確率密度関数を$f_{X}(x)$とおく。
このとき、$X=x$を与えた際の$Y$の条件付き確率密度関数を$f_{Y|X}(y)$のようにおくと、$f_{Y|X}(y)$は下記のように定義される。
$$
\large
\begin{align}
f_{Y|X}(y) = \frac{f(x,y)}{f_{X}(x)}
\end{align}
$$
ここで「$X=x$を与えた際の$Y$の条件付き期待値(conditional expectation of $Y$ given $X=x$)」を$E[Y|X]$とすると、$E[Y|X]$は下記のように定義される。
$$
\large
\begin{align}
E[Y|X] &=E[Y|X=x] \\
&= \int_{-\infty}^{\infty} y f_{Y|X}(y) dy \\
&= \int_{-\infty}^{\infty} y \frac{f(x,y)}{f_{X}(x)} dy
\end{align}
$$
条件付き期待値の存在については$E[Y]$が存在するならばほとんど全ての$x$に対して$E[Y|X=x]$が存在することが知られている。
また、より一般には関数$g(x,y)$に対して$X=x$を与えた際の条件付き期待値の$E[g(X,Y)|X]$は下記のように定義される。
$$
\large
\begin{align}
E[g(X,Y)|X] &= E[g(X,Y)|X=x] \\
&= \int_{-\infty}^{\infty} g(x,y) f_{Y|X=x}(y) dy \\
&= \int_{-\infty}^{\infty} g(x,y) \frac{f(x,y)}{f_{X}(x)} dy
\end{align}
$$
条件付き分散(conditional variance)
条件付き分散(conditional variance)を$V[Y|X]$とおくと、$V[Y|X]$は条件付き期待値と同様に下記のように表すことができる。
$$
\large
\begin{align}
V[Y|X] &= E[(Y-E[Y|X])^2|X]
\end{align}
$$
期待値の繰り返しの公式(全確率の公式)
確率密度関数$f(x,y)$、$X$に関する周辺確率密度関数$f_{X}(x)$が与えられるとき、確率変数$Y$に関する期待値の$E[Y]$は下記のように変形できる。
$$
\large
\begin{align}
E[Y] &= \int \int y f(x,y) dx dy \\
&= \int \int y f(x,y) dy dx \\
&= \int \left( \int y f(x,y) dy \right) dx \\
&= \int \left( \int y \frac{f(x,y)}{f_{X}(x)} dy \right) f_{X}(x) dx \\
&= \int E[Y|X] f_{X}(x) dx \\
&= E[E[Y|X]]
\end{align}
$$
上記が期待値の繰り返しの公式(全確率の公式)である。
より一般化を行うにあたっては任意の関数$g(x,y)$について下記が成立する。
$$
\large
\begin{align}
E[g(X,Y)] &= E[E[g(X,Y)|X]]
\end{align}
$$
上記に関しては下記で導出を行なった。
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch3.html#39
直感的解釈
条件付き期待値(conditional expectation)
$$
\large
\begin{align}
E[g(X,Y)|X] &= E[g(X,Y)|X=x] \\
&= \int_{-\infty}^{\infty} g(x,y) f_{Y|X=x}(y) dy \\
&= \int_{-\infty}^{\infty} g(x,y) \frac{f(x,y)}{f_{X}(x)} dy
\end{align}
$$
前節で確認したように、確率変数$(X,Y)$に対する任意の関数$g(x,y)$の期待値は上記のように表すことができる。多くの導出では$E[g(X,Y)|X]$のようにしか表記されないため、直感的な解釈も同時に抑えておくと良いと思われる。
解釈を行うにあたっては、条件付き確率密度関数の$\displaystyle f_{Y|X=x}(y) = \frac{f(x,y)}{f_{X}(x)}$について詳しく考えることが重要である。
条件付き確率密度関数は$\displaystyle P(A|B) = \frac{P(A \cap B)}{P(B)}$で表される条件付き確率の考え方を確率密度関数に適用したものである。よって、条件付き確率分布と同様の理解を行うと良い。
条件付き確率は「Bが起こった上でAが起こる確率は、AかつBが起こる確率をBが起こる確率で割れば良い」という風に解釈できる。「試験対策を行なった上で試験に合格する確率」と同様に考えれば良い。
さて、この条件付き期待値はここで確認した条件付き確率を用いた期待値である。試験の例だと「試験対策を行なったときの点数の期待値」などを考える際に条件付き期待値と同様の数式を用いる。具体的な処理に関しては、「試験対策を行なった際の得点を列記し、それぞれの確率をかけて和を考える」際に、得点にかける確率に条件付き確率を用いることに注意しておくと良い。条件付き確率と期待値に関しては略記されることが多いが、常に積分と条件付き確率の定義式を考えながら、条件付き期待値を用いると良いと思われる。
期待値の繰り返しの公式(全確率の公式)
期待値の繰り返しの公式は「ラオ・ブラックウェルの定理」の証明などに用いられるが、条件付き期待値と同様に直感的な解釈を行うのが大変であると思われる。
$$
\large
\begin{align}
E[Y] &= \int \left( \int y \frac{f(x,y)}{f_{X}(x)} dy \right) f_{X}(x) dx \\
&= E[E[Y|X]]
\end{align}
$$
具体的には上記が「期待値の繰り返しの公式」であるが、$y$に関して積分を行なったのちに$x$に関して積分を行うことに着目すると良い。
前項の「試験の得点」を例に考えるなら、試験対策の有無を$X$、試験の得点を$Y$で考えれば良い。まずは試験対策を実施したかしなかったかにそれぞれ分けて条件付き確率を用いて期待値を計算し($Y$に関して積分)、その後に試験対策のそれぞれもまとめて期待値を計算する($X$に関して積分)。
上記を元に考えると、処理の直感的な解釈にあたっては、「カテゴリ$X$毎に期待値を計算し、その重み付け平均で全体の期待値を計算する」と同様に考えると良い。よって、期待値の繰り返しの公式はカテゴリ$X$毎の集計操作と同様なイメージで抑えておくと良いと思われる。
[…] ここで期待値の繰り返しの公式より下記が成立する。$$largebegin{align}theta &= E[hat{theta}(mathbf{X})]end{align}$$ […]
[…] ・参考「条件付き期待値」と「期待値の繰り返しの公式」https://www.hello-statisticians.com/explain-terms-cat/conditional_expectation1.html […]
[…] ・「条件付き期待値」と「期待値の繰り返しの公式」の定義の確認と直感的解釈https://www.hello-statisticians.com/explain-terms-cat/conditional_expectation1.html […]