イェンセンの不等式(Jensen’s inequality)と凸関数の期待値・凸集合まとめ

統計学を取り扱う上で凸関数(convex function)や凸集合(convex set)は様々な状況で用いられます。凸関数に関してはイェンセンの不等式(Jensen’s inequality)が成立し、統計学では期待値を用いて表されることも多いです。
当記事では統計学に関連して用いられる凸関数、イェンセンの不等式、凸集合などについて取りまとめを行いました。

凸関数

凸関数の定義

凸関数は関数$f(x)$上の$2$点$(a,f(a))$と$(b,f(b))$を元に定義される。$0 \leq t \leq 1$となる任意の$t$に対し下記が成立すれば、「関数$f(x)$が上に凸である」という。
$$
\large
\begin{align}
f(ta + (1-t)b) \geq tf(a) + (1-t)f(b)
\end{align}
$$

ここで$x=ta + (1-t)b$は$x=a$と$x=b$を$(1-t):t$に内分する点である。このことは下記の図を用いてベクトル計算を元に理解するとわかりやすい。

$$
\large
\begin{align}
t \overrightarrow{OA} + (1-t) \overrightarrow{OB} &= \overrightarrow{OA} – \overrightarrow{OA} + t \overrightarrow{OA} + (1-t) \overrightarrow{OB} \\
&= \overrightarrow{OA} + (1-t) \left( \overrightarrow{OB} – \overrightarrow{OA} \right) \\
&= \overrightarrow{OA} + (1-t) \overrightarrow{AB}
\end{align}
$$

また、「下に凸 $\iff$ $f^{”}(x) \geq 0$」、「上に凸 $\iff$ $f^{”}(x) \leq 0$」が成立する。よって凸関数であるかを調べる際には$2$階微分を計算することが多い。

$f(x)=x^2$の凸性

$f(x)=x^2$が下に凸であることを$f(ta + (1-t)b) \leq tf(a) + (1-t)f(b)$が成立することを元に示す。

$f(ta + (1-t)b) \leq tf(a) + (1-t)f(b) \iff tf(a) + (1-t)f(b)-f(ta + (1-t)b) \geq 0$のように考えられるので、以下、$tf(a) + (1-t)f(b)-f(ta + (1-t)b) \geq 0$を示す。
$$
\large
\begin{align}
tf(a) & + (1-t)f(b)-f(ta + (1-t)b) = t a^2 (1-t) b^2 – (ta + (1-t)b)^2 \\
&= t a^2 + (1-t) b^2 – (t^2a^2 + (1-t)^2b^2 + 2t(1-t)ab) \\
&= t(1-t) a^2 (1-t)(1-(1-t)) b^2 – 2t(1-t)ab \\
&= t(1-t) a^2 t(1-t) b^2 -2t(1-t)ab \\
&= t(1-t)(a^2+b^2-2ab) \\
&= t(1-t)(a-b)^2 \geq 0
\end{align}
$$

上記より$f(ta + (1-t)b) \leq tf(a) + (1-t)f(b)$が成立するので$f(x)=x^2$は下に凸の関数であることがわかる。

$f(x)=\log{x}$の凸性

$2$階微分の$f^{”}(x)$が$f^{”}(x) < 0$であることを用いて定義域$x>0$の$f(x)=\log{x}$が上に凸であることを示す。対数関数や分数関数の微分の公式より、$f'(x), f^{”}(x)$は下記のように計算できる。
$$
\large
\begin{align}
f'(x) &= (\log{x})’ \\
&= \frac{1}{x} \\
f^{”}(x) &= (f'(x))’ \\
&= \left( f'(x) \right)’ \\
&= – \frac{1}{x^2} < 0
\end{align}
$$

上記より$f^{”}(x) < 0$であるので、$f(x)=\log{x}$は上に凸の関数であることがわかる。

・参考
指数関数、対数関数の微分の公式の導出

イェンセンの不等式

イェンセンの不等式の定義

期待値とイェンセンの不等式

凸集合

凸集合の定義

統計学での活用例

一様最強力不偏検定

リスクセット

下記の問題で取り扱ったように、統計的決定理論におけるリスク点の集合のリスクセットを考える際に確率化決定方式(randomized decision procedure)を含めるとリスクセットは凸集合となる。
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch5.html#55