モーメント(moment)を直感的・具体的に理解する 〜平均、分散、歪度、尖度 etc〜

確率分布について考えるにあたって、モーメントを把握しておくと理解しやすい。当稿では、平均、分散、歪度、尖度の直感的なイメージがつかめるように、具体的な例を元にそれぞれの値を確認する。
作成にあたっては、「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の$5.3$節を主に参考にした。

基本事項のまとめ

モーメントの定義

確率分布を考える際に、特定の点を中心とするモーメントを考えることで、形状についての考察が可能となる。「中心」を考えるにあたっては、「原点」と「平均・期待値」の二パターンが主に考えられる。

原点の周りの$n$次のモーメント(moment)は下記のように表すことができる。
$$
\large
\begin{align}
\mu_{n} = E[X^{n}]
\end{align}
$$

上記は積率とも呼ばれる。次に平均・期待値の周りの$n$次モーメントは下記のように表すことができる。
$$
\large
\begin{align}
\mu_{n}’ = E[(X-\mu_{1})^n]
\end{align}
$$

ここまでの議論を元に、期待値の$E[X]$と分散の$V[X]$は下記のように表すことができる。
$$
\large
\begin{align}
E[X] &= \mu_{1} \\
V[X] &= \mu_{2}’
\end{align}
$$

ここで、$\mu_{n}$と$\mu_{n}’$の定義より、下記が成立する。
$$
\large
\begin{align}
\mu_{0} &= 1 \\
\mu_{1}’ &= 0
\end{align}
$$
$\mu_{0}=1$は$E[X^0]=E[1]=1$より導出でき、$\mu_{1}’ = 0$は$E[(X-\mu_{1})]=E[X]-E[X]=0$より導出できる。

また、標準偏差を表す$\sigma$を用いて、下記のように$n$次の標準化モーメントの$\alpha_{n}$が定義される。
$$
\large
\begin{align}
\alpha_{n} = E \left[ \left( \frac{(X-\mu_{1})}{\sigma} \right)^n \right]
\end{align}
$$

確率分布の形は$E[X^n]$や$E[(X-\mu)^n]$の量で大まかに決定されるため、期待値や分散や以下で取り扱う歪度や尖度などの値を指定するとそれに該当する確率分布の候補は制限される。また、このことを極限的に利用して全ての次数のモーメントを考えることで、モーメント母関数(moment generating function)が定義されるが、こちらも非常に有用である。

平均、分散、歪度、尖度とモーメント

平均と分散は前項と同様に下記のように定義される。
$$
\large
\begin{align}
E[X] &= E[X^{1}] \\
&= \mu_{1} \\
V[X] &= E[(X-E[X])^2] \\
&= E[(X-\mu_{1})^2] \\
&= \mu_{2}’
\end{align}
$$

以下、歪度(skewness)、尖度(kurtosis)をそれぞれ頭文字を取り、$S[X]$、$K[X]$と定義する。$S[X]$、$K[X]$は一般的な定義ではないが、$E[X]$、$V[X]$と同様に表せる方がわかりやすいため、当稿における解説用に定義した。
このとき歪度$S[X]$は下記のように表される。
$$
\large
\begin{align}
S[X] &= E \left[ \left( \frac{(X-\mu_{1})}{\sigma} \right)^3 \right] \\
&= \alpha_{3}
\end{align}
$$

また、尖度$K[X]$は下記のように表される。
$$
\large
\begin{align}
K[X] &= E \left[ \left( \frac{(X-\mu_{1})}{\sigma} \right)^4 \right] – 3 \\
&= \alpha_{4} -3 \\
&= \beta_{4}
\end{align}
$$

正規分布の$\alpha_{4}=3$を基準に考えるにあたって、尖度は$K[X]=\beta_{4}=\alpha_{4}-3$のように定義されたと理解しておくと良い。

・参考
正規分布の平均・分散・歪度・尖度の計算

指数分布の平均・分散・歪度・尖度の計算

モーメント母関数

$$
\large
\begin{align}
m_{X}(t) &= E[e^{tX}] \\
&= \sum_{x} e^{tx} f(x)
\end{align}
$$
離散型のモーメント母関数(moment generating function)は$X=x$となる確率を$f(x)$のように表す場合、上記のように定義される。

同様に連続型のモーメント母関数は確率密度関数を$f(x)$とする場合、下記のように定義される。
$$
\large
\begin{align}
m_{X}(t) &= E[e^{tX}] \\
&= \int_{\infty}^{\infty} e^{tx} f(x) dx
\end{align}
$$

モーメント母関数は変数$t$に関する微分を考えることで、「モーメントの定義」で$\mu_{n}$と定義した原点の周りのモーメントを比較的簡単な計算で求めることができる。
・平$\mu_{1}$
$$
\large
\begin{align}
m_{X}'(t) &= E[(e^{tX})’] \\
&= E[Xe^{tX}] \\
m_{X}'(0) &= E[Xe^{0}] \\
&= E[X] \\
&= \mu_{1}
\end{align}
$$

・$\mu_{2}$
$$
\large
\begin{align}
m_{X}”(t) &= E[(Xe^{tX})’] \\
&= E[X^2e^{tX}] \\
m_{X}”(0) &= E[X^2e^{0}] \\
&= E[X^2] \\
&= \mu_{2}
\end{align}
$$

・$\mu_{3}$
$$
\large
\begin{align}
m_{X}^{(3)}(t) &= E[(X^2e^{tX})’] \\
&= E[X^3e^{tX}] \\
m_{X}^{(3)}(0) &= E[X^3e^{0}] \\
&= E[X^3] \\
&= \mu_{3}
\end{align}
$$

・$\mu_{4}$
$$
\large
\begin{align}
m_{X}^{(4)}(t) &= E[(X^3e^{tX})’] \\
&= E[X^4e^{tX}] \\
m_{X}^{(4)}(0) &= E[X^4e^{0}] \\
&= E[X^4] \\
&= \mu_{4}
\end{align}
$$

ここまでの計算を元にモーメント母関数から、平均、分散、歪度、尖度などの主要なモーメントがシンプルな計算で得られることは抑えておくと良い。

モーメント母関数とマクローリン展開

モーメント母関数は関数$e^x$のマクローリン展開と対応させながら抑えておくとよい。
$$
\large
\begin{align}
e^x &= \sum_{n=0}^{\infty} \frac{x^n}{n!} \\
&= 1 + x + \frac{x^2}{2!} + \frac{x^3}{3!} + …
\end{align}
$$
$e^x$のマクローリン展開は上記のように表すことができる。

ここで、マクローリン展開の式の両辺の$x$に$x=tX$を代入させることを考える。
$$
\large
\begin{align}
e^{tX} = 1 + tX + \frac{(tX)^2}{2!} + \frac{(tX)^3}{3!} + …
\end{align}
$$

この式に対し、両辺の期待値を取ると下記のようになる。
$$
\large
\begin{align}
E[e^{tX}] &= E[1] + E[tX] + E \left[ \frac{(tX)^2}{2!} \right] + E \left[ \frac{(tX)^3}{3!} \right] + … \\
&= 1 + tE[X] + t^2 \frac{E[X^2]}{2!} + t^3 \frac{E[X^3]}{3!} + … \\
&= 1 + t \mu_{1} + t^2 \frac{\mu_{2}}{2!} + t^3 \frac{\mu_{3}}{3!} + … = m(t)
\end{align}
$$
上記の式より、モーメント母関数は各次数のモーメント$\mu_{n}$を含んだ関数であり、微分を行い$t=0$を代入することで各次数のモーメントを求めることができることがわかる。このことは$e^{tX}$のマクローリン展開が$tX=0$の周辺での関数の級数展開かつ$X$が確率変数の定義域の値を取ることに基づいて理解すると良い。$X$がいくつかの実数を取りうることから、$t=0$周辺での級数展開を行なったというように解釈することができる。「現代数理統計学」の$2.3$節の「母関数」なども合わせて参照すると良い。

以下、モーメント母関数の定義域を定める必要がある例を挙げる。
・指数分布のモーメント母関数の導出

モーメント法の概要

点推定の手法の一つであるモーメント法の概要について確認する。モーメント法は標本から計算したモーメントを用いて、母集団分布のパラメータを推定する方法である。以下、正規分布$N(\mu, \sigma^2)$のパラメータ推定について考える。

ここで$\mu, \sigma^2$は$1$次、$2$次のモーメント$\mu_{1}, \mu_{2}$を用いて下記のように表すことができる。
$$
\large
\begin{align}
\mu &= \mu_{1} \qquad (1) \\
\sigma^2 &= \mu_{2} – \mu^2 \\
&= \mu_{2} – \mu_{1}^2 \qquad (2)
\end{align}
$$
上記において、$\mu, \sigma^2$と$\mu_{1}, \mu_{2}$はどちらも標本ではなく母集団に関するパラメータを表していることに注意が必要である。

次に標本を用いて$\mu_{1}, \mu_{2}$を推定した量を$\hat{\mu}_{1}, \hat{\mu}_{2}$とおくと、$\hat{\mu}_{1}, \hat{\mu}_{2}$は下記のようにサンプル$X_i$とその平均の$\bar{X}$、サンプル数$n$を用いた式で表すことができる。
$$
\large
\begin{align}
\hat{\mu}_{1} &= \frac{1}{n} \sum_{i=1}^{n} X_i \\
\hat{\mu}_{2} &= \frac{1}{n} \sum_{i=1}^{n} (X_i-\bar{X})^2
\end{align}
$$

ここで、下記のように「母モーメント=標本モーメント」が成立すると考える。
$$
\large
\begin{align}
\mu_1 &= \hat{\mu}_{1} \\
\mu_2 &= \hat{\mu}_{2}
\end{align}
$$
これを$(1)$式と$(2)$式に代入して推定を行う手法をモーメント法(method of moments)という。

具体例に基づく理解

平均・分散について

平均と分散については正規分布などに出てくるので、具体的な理解はそれほど問題ないと思われる。平均については歪度で取り扱うように、最頻値・中央値と平均が異なるケースがあることに注意が必要である。

また、分散については「平均の周りにどのくらい多くのサンプルがあるか」について取り扱っていると理解すれば十分だと思われる。

歪度について

歪度は$3$次の標準化モーメントであるが、正規分布などの確率分布のパラメータに出てこないことが多いため、解説されているケースが少ない。よって、より直感的な理解が可能になるように、具体的なサンプルを元に歪度の計算について考える。
$$
\large
\begin{align}
& 5,5,11 \\
& 6,6,9 \\
& 6,7,8 \\
& 5,8,8 \\
& 3,9,9
\end{align}
$$

上記は全て平均$E[X]=7$の標本である。それぞれの分散を$V_i[X]$とおき、計算すると下記のようになる。
$$
\begin{align}
V_1[X] &= \frac{1}{3} ((5-7)^2 + (5-7)^2 + (11-7)^2) \\
&= \frac{1}{3} (4 + 4 + 16) \\
&= 8 \\
V_2[X] &= \frac{1}{3} ((6-7)^2 + (6-7)^2 + (9-7)^2) \\
&= \frac{1}{3} (1 + 1 + 4) \\
&= 2 \\
V_3[X] &= \frac{1}{3} ((6-7)^2 + (7-7)^2 + (8-7)^2) \\
&= \frac{1}{3} (1 + 0 + 1) \\
&= \frac{2}{3} \\
V_4[X] &= \frac{1}{3} ((5-7)^2 + (8-7)^2 + (8-7)^2) \\
&= \frac{1}{3} (4 + 1 + 1) \\
&= 2 \\
V_5[X] &= \frac{1}{3} ((3-7)^2 + (9-7)^2 + (9-7)^2) \\
&= \frac{1}{3} (16 + 4 + 4) \\
&= 16
\end{align}
$$

平均周りの$3$次のモーメントを$E_i[(X-E[X])^3]$とおき、計算すると下記のようになる。
$$
\begin{align}
E_1[(X-E[X])^3] &= \frac{1}{3} ((5-7)^3 + (5-7)^3 + (11-7)^3) \\
&= \frac{1}{3} (-8 – 8 + 64) \\
&= 16 \\
E_2[(X-E[X])^3] &= \frac{1}{3} ((6-7)^3 + (6-7)^3 + (9-7)^3) \\
&= \frac{1}{3} (-1 – 1 + 8) \\
&= 2 \\
E_3[(X-E[X])^3] &= \frac{1}{3} ((6-7)^3 + (7-7)^3 + (8-7)^3) \\
&= \frac{1}{3} (-1 + 0 + 1) \\
&= 0 \\
E_4[(X-E[X])^3] &= \frac{1}{3} ((5-7)^3 + (8-7)^3 + (8-7)^3) \\
&= \frac{1}{3} (-8 + 1 + 1) \\
&= -2 \\
E_5[(X-E[X])^3] &= \frac{1}{3} ((3-7)^3 + (9-7)^3 + (9-7)^3) \\
&= \frac{1}{3} (-64 + 8 + 8) \\
&= -16
\end{align}
$$

ここで注意すべきは$E_1[(X-E[X])^3], E_2[(X-E[X])^3]$が正の値、$E_3[(X-E[X])^3]$が0、$E_4[(X-E[X])^3], E_5[(X-E[X])^3]$が負の値となったことである。$3$次のモーメントは平均と中央値のずれのような「確率分布の非対称性」を表すと解釈でき、$3$次のモーメントが$0$より大きい場合は「中央値<平均」であり、$0$より大きい場合は「平均<中央値」となることが多いことは抑えておくとよい。

歪度は$3$次の標準化モーメントであり、それぞれ$\alpha_3(i)$とおき、計算すると下記のようになる。
$$
\begin{align}
\alpha_3(1) &= \frac{E_1[(X-E[X])^3]}{\sqrt{V_1[X]}^3} \\
&= \frac{16}{16\sqrt{2}} \\
&= \frac{1}{\sqrt{2}} \\
\alpha_3(2) &= \frac{E_2[(X-E[X])^3]}{\sqrt{V_2[X]}^3} \\
&= \frac{2}{2\sqrt{2}} \\
&= \frac{1}{\sqrt{2}} \\
\alpha_3(3) &= \frac{E_3[(X-E[X])^3]}{\sqrt{V_3[X]}^3} \\
&= \frac{0}{\sqrt{V_3[X]}^3} \\
&= 0 \\
\alpha_3(4) &= \frac{E_4[(X-E[X])^3]}{\sqrt{V_4[X]}^3} \\
&= \frac{-2}{2\sqrt{2}} \\
&= -\frac{1}{\sqrt{2}} \\
\alpha_3(5) &= \frac{E_5[(X-E[X])^3]}{\sqrt{V_5[X]}^3} \\
&= \frac{-16}{16\sqrt{2}} \\
&= -\frac{1}{\sqrt{2}}
\end{align}
$$
どれも符号は変わらない一方で、$\sqrt{V_i[X]}^3$を用いて標準化を行ったことで、$\alpha_3(1)=\alpha_3(2)$と$\alpha_3(4)=\alpha_3(5)$が成立したことは抑えておくとよい。

尖度について

尖度は$4$次の標準化モーメントであるが、歪度と同様に正規分布などの確率分布のパラメータに出てこないことが多いため、解説されているケースが少ない。よって、より直感的な理解が可能になるように、具体的なサンプルを元に尖度の計算について考える。

まとめ

モーメントは抽象的かつ数式を用いた定義が多くで難しく見えるかもしれませんが、文字を一つ一つ確認していけばそれほど難しくはありません。モーメント母関数やモーメント法などのトピックにも関連するので、基本的な数式定義を確実に抑えておくと良いと思います。

「モーメント(moment)を直感的・具体的に理解する 〜平均、分散、歪度、尖度 etc〜」への4件のフィードバック

コメントは受け付けていません。