大数の法則(law of large numbers)や確率収束(convergence in probability)を考えるにあたって、マルコフの不等式(Markov’s inequality)とチェビシェフの不等式(Chebyshev’s inequality)について抑えておくとよい。
当記事では、マルコフの不等式・チェビシェフの不等式について取り扱ったのちに、大数の法則の導出や確率収束・一致性の定義について確認を行う。「現代数理統計学」の4.5節の「確率論のいくつかの基本的な極限定理」を参考に作成を行った。
Contents
不等式の導出
マルコフの不等式(Markov’s inequality)
非負の確率変数$X \geq 0$を定義し、この期待値$E[X]$が$E[X] < \infty$のように収束すると考える。このとき任意の$c>0$に関して、下記で表すマルコフの不等式(Markov’s inequality)が成立する。
$$
\large
\begin{align}
P(X \geq c) \leq \frac{E[X]}{c} \quad (1)
\end{align}
$$
以下、マルコフの不等式が成立することを示す。
確率変数$Y$を下記のように定義する。
$$
\large
\begin{align}
Y &= 0, \quad if \quad X < c \\
&= c, \quad if \quad X \geq c
\end{align}
$$
このとき全ての$Y$に関して$Y \leq X$であるので、$E[Y] \leq E[X]$が成立する。また、ここで$E[Y]$を下記のように期待値の定義に基づいて求める。
$$
\large
\begin{align}
E[Y] &= 0 \times P(Y=0) + c \times P(Y=c) \\
&= c P(Y=c) \\
&= c P(X \geq c) \leq E[X]
\end{align}
$$
上記より、$c P(X \geq c) \leq E[X]$が成立する。ここで最終行を$c$で割ることで下記が導出できる。
$$
\large
\begin{align}
P(X \geq c) \leq \frac{E[X]}{c}
\end{align}
$$
上記が(1)式に一致するので、マルコフの不等式が成立することを示すことができた。
・マルコフの不等式の解釈
非負の確率変数$X \geq 0$に関して$c$を閾値に設定する場合の上側確率$P(X \geq c)$は、$\displaystyle \frac{E[X]}{c}$よりも小さくなる。
これは、期待値$E[X]$が大きい場合、上側確率$P(X \geq c)$の上限も大きくなる一方で、閾値$c$が大きくなると上側確率$P(X \geq c)$の上限が小さくなることを意味する。このことは直感的にも正しいと考えることができると思われる。
チェビシェフの不等式(Chebyshev’s inequality)
有限な確率変数$X$に関して$E[X]=\mu, V[X]=\sigma^2$が成立する場合を考える。このとき任意の$c>0$に対して、下記で表すチェビシェフの不等式が成立する。
$$
\large
\begin{align}
P(|X-\mu| \geq c) \leq \frac{\sigma^2}{c^2} \quad (2)
\end{align}
$$
以下、チェビシェフの不等式が成立することを示す。
確率変数$Y$を下記のように定義する。
$$
\large
\begin{align}
Y = (X-\mu)^2
\end{align}
$$
このとき$Y$は非負の確率変数であるので、$Y$と$c^2$に関してマルコフの不等式より下記が成立する。
$$
\large
\begin{align}
P(Y \geq c^2) &\leq \frac{E[Y]}{c^2} \\
&= \frac{E[(X-\mu)^2]}{c^2} \\
&= \frac{V[X]}{c^2} \\
&= \frac{\sigma^2}{c^2}
\end{align}
$$
上記より、下記が成立する。
$$
\large
\begin{align}
P(Y \geq c^2) &\leq \frac{\sigma^2}{c^2} \\
P((X-\mu)^2 \geq c^2) &\leq \frac{\sigma^2}{c^2} \\
P(|X-\mu| \geq c) &\leq \frac{\sigma^2}{c^2}
\end{align}
$$
上記が(2)式に一致するので、チェビシェフの不等式が成立することを示すことができた。
・チェビシェフの不等式の解釈
有限な確率変数$X$に関して$c$を閾値に設定する場合の期待値$E[X]$を中心と考えた際の両端の確率$P(|X-E[X]| \geq c)$は、$\displaystyle \frac{V[X]}{c^2}$よりも小さくなる。
これは、確率変数の分散$V[X]$が大きい場合、$E[X]$を中心に考えた際の両端の確率$P(|X-E[X]| \geq c)$の上限も大きくなる一方で、閾値$c$が大きくなると両端の確率$P(|X-E[X]| \geq c)$の上限が小さくなることを意味する。このことは直感的にも正しいと考えることができると思われる。
大数の法則の導出
大数の法則はチェビシェフの不等式に基づいて導出を行うことができるので、以下詳しく確認を行う。まず、以下のように$n$個の確率変数の平均$\bar{X}_n$を考える。
$$
\large
\begin{align} \bar{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i
\end{align}
$$
ここで、各確率変数が$E[X_i]=\mu, V[X_i]=\sigma^2$かつ$i.i.d.$である場合、$\bar{X}_n$に関して下記が成立する。
$$
\large
\begin{align}
E[\bar{X}_n] &= E \left[ \frac{1}{n} \sum_{i=1}^{n} X_i \right] \\
&= \frac{1}{n} E \left[ \sum_{i=1}^{n} X_i \right] \\
&= \mu \\
V[\bar{X}_n] &= V \left[ \frac{1}{n} \sum_{i=1}^{n} X_i \right] \\
&= \frac{1}{n^2} V \left[ \sum_{i=1}^{n} X_i \right] \\
&= \frac{\sigma^2}{n}
\end{align}
$$
このとき、任意の$\epsilon > 0$に関して下記のチェビシェフの不等式が成立する。
$$
\large
\begin{align}
P(|\bar{X}_n-E[\bar{X}_n]| \geq \epsilon) \leq \frac{V[\bar{X}_n]}{\epsilon^2}
\end{align}
$$
上記に(3)式、(4)式を代入することで下記を得ることができる。
$$
\large
\begin{align}
P(|\bar{X}_n-E[\bar{X}_n]| &\geq \epsilon) \leq \frac{V[\bar{X}_n]}{\epsilon^2} \\
P(|\bar{X}_n-\mu| &\geq \epsilon) \leq \frac{\sigma^2}{n \epsilon^2} \quad (5)
\end{align}
$$
(5)式に対して$n \to \infty$の極限を考える。
$$
\large
\begin{align}
\lim_{n \to \infty} P(|\bar{X}_n-\mu| \geq \epsilon) &\leq \lim_{n \to \infty} \frac{\sigma^2}{n \epsilon^2} \\
&= 0 \quad (6)
\end{align}
$$
(6)式は大数の弱法則であり、$\mu$の周囲にどれだけ小さい区間の$(\mu-\epsilon,\mu+\epsilon)$を考えても、$n$を大きくすることによって$\bar{X}_n$が区間の外にでる確率を限りなく減らすことができることを表す。
確率収束と一致性
確率収束の定義
確率変数の列$X_n (n=1,2,…)$が確率変数$X$に確率収束する(converges in probability)ことは、下記のように定義される。
$$
\large
\begin{align}
\lim_{n \to \infty} P(|X_n-X| \geq \epsilon) = 0, \quad {}^{\forall} \epsilon > 0 \quad (7)
\end{align}
$$
(7)式の$X$は定数を考えてもよく、前項の(6)式では母平均$\mu$への標本平均$\bar{X}_n$を考えた。このことから大数の弱法則は確率収束の一例であると考えることができる。
また、確率変数列$X_n (n=1,2,…)$が$X$に確率収束することを下記のように表すこともできる。
$$
\large
\begin{align}
X_n \xrightarrow{p} X
\end{align}
$$
一致性の定義
パラメータ$\theta$に関する推定量$\hat{\theta}_n$に関して下記が成立するとき、$\hat{\theta}$は一致性(consistency)を持つ。
$$
\large
\begin{align}
\hat{\theta}_n \xrightarrow{p} \theta \quad (8)
\end{align}
$$
また、(8)式が成立する$\hat{\theta}_n$は一致推定量(consistent estimator)といわれる。
[…] ・解説https://www.hello-statisticians.com/explain-terms-cat/law_of_large_numbers1.html上記を元に作成を行いました。統計学を考えるにあたっては、大数の法則の導出や確率収束・一致性の定義にも関わるトピックであるので、なるべく抑えておくと良いと思います。 […]