中心極限定理(Celtral Limit Theory)の概要、活用、導出

中心極限定理(Celtral Limit Theory)は推測統計の基盤となる大定理ですが、一方で数式が難しそうに見えるかもしれません。そこで当記事では中心極限定理に関して概要や活用、導出を取り扱いました。特に利用にあたっての工夫に関して可能な限りわかりやすく取りまとめを行いました。

中心極限定理の概要

直感的な理解

直感的な理解にあたっては、中心極限定理(Celtral Limit Theory)は「母集団分布に関係なく、標本の和$X_1+X_2+…+X_n$や標本平均が従う分布は正規分布で近似できる」と理解すると良い。中心極限定理は特性関数などを考えることで示すことができるが、少々難しいので応用上の観点からは「多くのサンプルを観測すれば、その和やその平均は正規分布から観測されたと考えられる」のように、直感的に理解しておくでも十分であると思われる。

上図のように「二項分布の極限」の「中心極限定理」でPythonを用いていくつか図示化を行なったが、二項分布の観測値は$n$が大きいとき正規分布で近似できる。

数式を用いた中心極限定理の表現

中心極限定理は$E[X_i]=\mu, V[X_i]=\sigma^2$に基づく標本列$X_1, X_2, …, X_n$に対して下記のように定義できる。
$$
\large
\begin{align}
S_n &= \sum_{i=1}^{n} X_n \sim N(n \mu, n \sigma^2) \\
\bar{X} &= \frac{1}{n} \sum_{i=1}^{n} X_n \sim N \left( \mu, \frac{\sigma^2}{n} \right)
\end{align}
$$

ここで$\displaystyle \bar{X} \sim N \left( \mu, \frac{\sigma^2}{n} \right)$は$n \to \infty$のとき$\displaystyle \frac{\sigma^2}{n} \to 0$より、中心極限定理は大数の法則も同時に表すことに関しても抑えておくとよい。

中心極限定理は下記のような形式で標本和$S_n=X_1+X_2+…+X_n$に関して表すこともできる。
$$
\large
\begin{align}
\lim_{n \to \infty} P \left( a \leq \frac{S_n – n \mu}{\sqrt{n}\sigma} \leq b \right) &= \int_{a}^{b} \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}} dx \\
&= \Phi(b) – \Phi(a) \\
\Phi(x) &= \int_{-\infty}^{x} \frac{1}{\sqrt{2 \pi}} e^{-\frac{z^2}{2}} dz
\end{align}
$$

また、上記の左辺の分母と分子をそれぞれ$n$で割ることで、標本平均$\displaystyle \bar{X} = \frac{1}{n}(X_1+X_2+…+X_n)$に関しても下記のように表すことができる。
$$
\large
\begin{align}
\lim_{n \to \infty} P \left( a \leq \frac{(\bar{X} – \mu)}{\sigma/\sqrt{n}} \leq b \right) &= \int_{a}^{b} \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}} dx \\
&= \Phi(b) – \Phi(a) \\
\Phi(x) &= \int_{-\infty}^{x} \frac{1}{\sqrt{2 \pi}} e^{-\frac{z^2}{2}} dz
\end{align}
$$

中心極限定理の数式展開の工夫と活用例

中心極限定理を用いる際の工夫

$E[S_n], V[S_n], E[\bar{X}], V[\bar{X}]$などの表記を用いる

前節で取り扱ったように、中心極限定理を用いるにあたって、考える確率変数が標本和$S_n$なのか標本平均$\bar{X}$なのかによって式の形が異なることは注意が必要である。母集団分布の母平均が$\mu$、母分散が$\sigma^2$の際に、標本和$S_n$が$N(n \mu, n \sigma^2)$に従い、標本平均$\bar{X}$が$\displaystyle N \left( \mu, \frac{\sigma^2}{n} \right)$に従うわけだが、二項分布では$X=S_n$で考えるなど、状況に応じて確率変数の定義の仕方が異なるのでなかなか難しい。

これに対して、標本和$S_n$は$N(E[S_n], V[S_n])$に従い、標本平均$\bar{X}$が$N(E[\bar{X}], V[\bar{X}])$に従うと考える方が抑えておく式の形が一つに集約できるので間違えにくいと思われる。また、母集団のパラメータは$\mu$と$\sigma^2$で定義する場合もあれば、二項分布の際のように確率を用いたり、ポアソン分布のように平均と分散のどちらも$\lambda$で表す場合など、わからなくなりやすいので、$N(E[S_n], V[S_n])$のように取り扱う確率変数に対応する期待値と分散で考える方がわかりやすい。

特に母集団のパラメータは1つの標本に対応するパラメータであることが多い一方で、取り扱う確率変数が標本和や標本平均のように複数の標本に対応することから間違えやすいので、ここで確認したような表記の仕方の方がわかりやすいと思われる。

$\displaystyle P \left( \frac{S_n-E[S_n]}{\sqrt{V[S_n]}} \leq c \right) = P(Z \leq c) \simeq \Phi(c)$を基本形に考える

中心極限定理の適用にあたっては、式変形が複雑なこともあり、基本的な数式の形がわかりにくい場合も多いような印象を受ける。そこで、$\displaystyle P \left( \frac{S_n-E[S_n]}{\sqrt{V[S_n]}} \leq c \right) = P(Z \leq c) \simeq \Phi(c)$を基本形に考えると良いように思われる。

ここで$\Phi(z)$は標準正規分布の累積分布関数を表し、詳しくは下記のように定義できる。
$$
\large
\begin{align}
\Phi(z) = \int_{-\infty}^{z} \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}}
\end{align}
$$

ここで確率変数$Z$は$S_n$に対して平均$E[S_n]$を引き、分散の平方根の$\sqrt{V[S_n]}$で割った値であることから、$Z$は$S_n$の標準化を行なった変数であると考えることができ、$Z$の平均は$0$、分散は$1$であると考えられる。よって中心極限定理に基づき、$P(Z \leq c)$が$\Phi(c)$を用いて近似を行うことができる。また、$P(Z \geq c)$には$P(Z \geq c) \simeq 1 – \Phi(c)$が対応し、$P(a \leq Z \leq b)$には$\Phi(b)-\Phi(a)$が対応することもあわせて抑えておくと良い。

・+ α
中心極限定理は極限を考える定理だが、$P(Z \leq c) \simeq \Phi(c)$では$\to$ではなくて$\simeq$を用いた。

というのは中心極限定理はものによっては$n=20$や$n=50$の場合でも用いられることがあり、$n \to \infty$を用いて極限で考えるより$\simeq$を用いた近似で考える方が妥当であると考えられたからである。

中心極限定理の活用例

二項分布と中心極限定理

「統計学実践ワークブック」の「問7.1の解答例」で取り扱った。二項分布が離散型の確率分布であるので、連続型の確率分布の正規分布を用いて近似を行うにあたっては、連続修正(continuity correction)を用いて$P(X \geq 10)$を$P(X \geq 9.5)$に修正したことに着目しておくとよい。

ポアソン分布と中心極限定理

「統計学実践ワークブック」の「問1.10の解答例」で取り扱った。

中心極限定理の導出

「現代数理統計学」の$4.5$節が詳しい。

「中心極限定理(Celtral Limit Theory)の概要、活用、導出」への1件の返信

コメントは受け付けていません。