ブログ

確率分布(probability distribution)①|基本演習で理解する統計学【5】

離散型確率分布

二項分布とポアソン分布

・問題
i) 試行回数を$n$、事象が起こる確率を$p$、事象が起こる回数の確率変数を$X$、起こる回数を$k$としたとき、二項分布$P(X=k|n,p)$を求めよ。
ⅱ) $n=1000$、$p=0.002$の時、$P(X=0|n,p)$、$P(X=1|n,p)$、$P(X=2|n,p)$を求めよ。
ⅲ)

ネイピア数の$e$は下記のように定義される。
$$
\begin{align}
\lim_{\frac{1}{x} \to 0} \left( 1 + \frac{1}{x} \right)^x = e
\end{align}
$$
このとき、上記の数式を用いて下記を導出せよ。
$$
\begin{align}
\lim_{\frac{1}{x} \to 0} \left( 1 – \frac{1}{x} \right)^x &= e^{-1} \\
\lim_{\frac{1}{x} \to 0} \left( 1 – \frac{a}{x} \right)^x &= e^{-a}
\end{align}
$$
iv) $np=\lambda$のようにおくとき、二項分布$P(X=k|n,p)$の式は下記のように変形できることを示せ。
$$
\begin{align}
P(X=k|n,p) = \frac{\lambda^k}{n!} \times \left( 1-\frac{1}{n} \right)…\left( 1-\frac{k-1}{n} \right) \times \left( 1-\frac{\lambda}{n} \right)^{n-k}
\end{align}
$$
v) iv)の式の$\displaystyle n \to \infty, -\frac{\lambda}{n} \to 0$の極限を考えることで、$\displaystyle \lim_{n \to \infty} P(X=k|n,p)$がポアソン分布の式に一致することを確かめよ。

・解答
i)
二項定理の考え方に基づいて二項分布の式を考えると下記のようになる。
$$
\large
\begin{align}
P(X=k|n,p) = {}_n C_k p^k (1-p)^{n-k}
\end{align}
$$

ⅱ)
$P(X=0|n,p)$、$P(X=1|n,p)$、$P(X=2|n,p)$は下記のように求めることができる。
$$
\large
\begin{align}
P(X=0|n,p) &= {}_{1000} C_{0} (0.002)^{0} (0.998)^{1000} \\
P(X=1|n,p) &= {}_{1000} C_{1} (0.002)^{1} (0.998)^{999} \\
P(X=2|n,p) &= {}_{1000} C_{2} (0.002)^{2} (0.998)^{998}
\end{align}
$$

ⅲ)
それぞれ下記のように導出できる。
$$
\large
\begin{align}
\lim_{\frac{1}{x} \to 0} \left( 1 – \frac{1}{x} \right)^x &= \lim_{-\frac{1}{x} \to 0} \left( \left( 1 – \frac{1}{x} \right)^{-x} \right)^{-1} \\
&= e^{-1} \\
\lim_{\frac{1}{x} \to 0} \left( 1 – \frac{a}{x} \right)^x &= \lim_{-\frac{a}{x} \to 0} \left( \left( 1 – \frac{1}{x} \right)^{-x/a} \right)^{-a} \\
&= e^{-a}
\end{align}
$$

iv)
i)で求めた$P(X=k|n,p) = {}_n C_k p^k (1-p)^{n-k}$と$\displaystyle p = \frac{\lambda}{n}$を元に、下記のように導出することができる。
$$
\large
\begin{align}
P(X=k|n,p) &= {}_n C_k p^k (1-p)^{n-k} \\
&= \frac{n!}{k!(n-k)!} \left( \frac{\lambda}{n} \right)^k \left( 1-\frac{\lambda}{n} \right)^{n-k} \\
&= \frac{n(n-1)(n-2)…(n-k+1)}{k!} \left( \frac{\lambda}{n} \right)^k \left( 1-\frac{\lambda}{n} \right)^{n-k} \\
&= \frac{\lambda^k}{k!} \frac{n(n-1)(n-2)…(n-k+1)}{n^k} \left( 1-\frac{\lambda}{n} \right)^{n-k} \\
&= \frac{\lambda^k}{n!} \times \left( 1-\frac{1}{n} \right)…\left( 1-\frac{k-1}{n} \right) \times \left( 1-\frac{\lambda}{n} \right)^{n-k}
\end{align}
$$

v)
iv)の導出結果を元に、極限を考えると下記のようにポアソン分布の式が導出できる。
$$
\begin{align}
\lim_{n \to \infty} P(X=k|n,p) &= \lim_{n \to \infty, -\frac{\lambda}{n} \to 0} \frac{\lambda^k}{n!} \times \left( 1-\frac{1}{n} \right)…\left( 1-\frac{k-1}{n} \right) \times \left( 1-\frac{\lambda}{n} \right)^{n-k} \\
&= \lim_{n \to \infty, -\frac{\lambda}{n} \to 0} \frac{\lambda^k}{n!} \times \left( 1-\frac{1}{n} \right)…\left( 1-\frac{k-1}{n} \right) \times \left( \left( 1-\frac{\lambda}{n} \right)^{-(n-k)/\lambda} \right)^{-\lambda} \\
&= \frac{\lambda^k}{n!} \times 1 \times e^{-\lambda} \\
&= \frac{\lambda^k e^{-\lambda}}{n!}
\end{align}
$$

・解説
ⅱ)のように$n$が大きい場合は二項分布の計算が難しいです。この時、$p$の値が小さく$np=\lambda$のように考えることができる場合はポアソン分布を考えると計算が行いやすくなります。

幾何分布と負の二項分布

・問題
幾何分布と負の二項分布(Negative Binominal distribution)を理解するにあたっては、負の二項分布の式について掴んだ上で特殊な条件下で幾何分布になると抑える方が抑えておく事項が少なくなる。

負の二項分布の$NB(r,p)$は表が出る確率が$p$のコイン投げを考える際に、$r$回表が出るまでに$X=k$回裏が出る確率$P(X=k|r,p)$について考える分布である。$P(X=k|r,p)$は下記のように表される。
$$
\begin{align}
P(X=k|r,p) = {}_{r+k-1} C_k (1-p)^{k} p^{r} \quad (1)
\end{align}
$$
$(1)$式は難しく見えるかもしれないので、なるべく直感的にわかりやすいように以下では可能な限り具体的に確認する。

ここまでの内容を元に以下の問いに答えよ。
i) 表が出る確率が$\displaystyle p = \frac{1}{2}$のコインを$r=3$回表が出るまでに$X=2$回裏が出る確率を$(1)$式を用いて計算せよ。
ⅱ) i)と同様に$(r,k)=(1,4),(2,3),(4,1),(5,0)$を計算せよ。
ⅲ) i)とⅱ)の結果を用いて下記が成立することを確認せよ。また、結果について考察せよ。
$$
\begin{align}
\sum_{i=0}^{4} P \left( X=i \Big| r=5-i,p=\frac{1}{2} \right) = \frac{1}{2}
\end{align}
$$
iv) 確率$p$で表が出るコイン投げを行った際、$X-1$回目まで裏で$X$回目で表が出る確率関数$P(X=k|p)$を表せ。
v) iv)の$X$は幾何分布$Geo(p)$に従うが、ここで$Geo(p)=NB(1,p)$であることを示せ。

・解答
i)
下記のように$(1)$式における$\displaystyle P \left( X=2 \Big| r=3,p=\frac{1}{2} \right)$を計算する。
$$
\large
\begin{align}
P \left( X=2 \Big| r=3,p=\frac{1}{2} \right) &= {}_{3+2-1} C_2 \left( 1-\frac{1}{2} \right)^{2} \left( \frac{1}{2} \right)^{3} \\
&= {}_{4} C_2 \left( \frac{1}{2} \right)^{5} \\
&= \frac{4 \cdot 3}{2 \cdot 1} \times \frac{1}{32} \\
&= \frac{6}{32} \\
&= \frac{3}{16}
\end{align}
$$

ⅱ)
i)と同様に、$\displaystyle P \left( X=4 \Big| r=1,p=\frac{1}{2} \right), P \left( X=3 \Big| r=2,p=\frac{1}{2} \right), P \left( X=1 \Big| r=4,p=\frac{1}{2} \right), P \left( X=0 \Big| r=5,p=\frac{1}{2} \right)$を計算する。
・$\displaystyle P \left( X=4 \Big| r=1,p=\frac{1}{2} \right)$
$$
\large
\begin{align}
P \left( X=4 \Big| r=1,p=\frac{1}{2} \right) &= {}_{1+4-1} C_4 \left( 1-\frac{1}{2} \right)^{4} \left( \frac{1}{2} \right)^{1} \\
&= \frac{1}{32}
\end{align}
$$

・$\displaystyle P \left( X=3 \Big| r=2,p=\frac{1}{2} \right)$
$$
\large
\begin{align}
P \left( X=3 \Big| r=2,p=\frac{1}{2} \right) &= {}_{2+3-1} C_3 \left( 1-\frac{1}{2} \right)^{3} \left( \frac{1}{2} \right)^{2} \\
&= \frac{4}{32} \\
&= \frac{1}{8}
\end{align}
$$

・$\displaystyle P \left( X=1 \Big| r=4,p=\frac{1}{2} \right)$
$$
\large
\begin{align}
P \left( X=1 \Big| r=4,p=\frac{1}{2} \right) &= {}_{4+1-1} C_1 \left( 1-\frac{1}{2} \right)^{1} \left( \frac{1}{2} \right)^{4} \\
&= \frac{4}{32} \\
&= \frac{1}{8}
\end{align}
$$

・$\displaystyle P \left( X=0 \Big| r=5,p=\frac{1}{2} \right)$
$$
\large
\begin{align}
P \left( X=0 \Big| r=5,p=\frac{1}{2} \right) &= {}_{5+0-1} C_0 \left( 1-\frac{1}{2} \right)^{0} \left( \frac{1}{2} \right)^{5} \\
&= \frac{1}{32}
\end{align}
$$

ⅲ)
i)、ⅱ)の結果より、下記が成立することが確認できる。
$$
\large
\begin{align}
& \sum_{i=0}^{4} P \left( X=i \Big| r=5-i,p=\frac{1}{2} \right) \\
&= P \left( X=0 \Big| r=5,p=\frac{1}{2} \right) + P \left( X=1 \Big| r=4,p=\frac{1}{2} \right) + P \left( X=2 \Big| r=3,p=\frac{1}{2} \right) \\
&+ P \left( X=3 \Big| r=2,p=\frac{1}{2} \right) + P \left( X=4 \Big| r=1,p=\frac{1}{2} \right) \\
&= \frac{1}{32} + \frac{1}{8} + \frac{3}{16} + \frac{1}{8} + \frac{1}{32} \\
&= \frac{16}{32} \\
&= \frac{1}{2}
\end{align}
$$
結果の解釈にあたっては、二項定理に関する項の和に関して$(1-(1-p))^n=1^n=1$の式が成立することを対比で考えるとよい。二項分布の全確率は$1$だが、上記の計算では和が$\displaystyle \frac{1}{2}$であり、これは最後が必ず表であることから確率の和が$\displaystyle \frac{1}{2}$であると考えると自然である。

iv)
確率関数$P(X=k|p)$は下記のように表すことができる。
$$
\large
\begin{align}
P(X=k|p) &= (1-p)^{k} \times p \\
&= (1-p)^{k} p, \quad (k=0,1,2,…)
\end{align}
$$

v)
負の二項分布$NB(r,p)$確率関数$P(X=k|r,p)$は$(1)$式より下記のように表される。
$$
\large
\begin{align}
P(X=k|r,p) = {}_{r+k-1} C_k (1-p)^{k} p^{r}
\end{align}
$$
上記に対して、$r=1$を代入すると下記が得られる。
$$
\large
\begin{align}
P(X=k|r=1,p) &= {}_{1+k-1} C_k (1-p)^{k} p^{1} \\
&= (1-p)^{k} p, \quad (k=0,1,2,…)
\end{align}
$$
これがiv)で計算した結果と一致するので、$Geo(p)=NB(1,p)$が成立する。

・解説
iv)、v)で取り扱ったように、確率関数に着目することで、$Geo(p)=NB(1,p)$のような幾何分布と負の二項分布の関連を示すことができます。
また、ⅲ)で確認したように、負の二項分布は最後の試行が確定されることで、試行回数を固定した場合の確率の和が$p$に一致することも理解しておくと良いと思います。一方で、負の二項分布の全確率を考える場合は二項分布では総試行の$n$を固定するのに対して、負の二項分布ではコインの裏などの数を固定すると考えておくと良いと思います。

連続型確率分布

指数分布

・問題
i) $f(x) = \lambda e^{-\lambda x}$とするとき、$x \geq 0$の範囲において$f'(x)$、$f^{”}(x)$を計算し、増減表を描け。
ⅱ) $\displaystyle F(x) = \int_{0}^{x} f(x) dx = 1 – e^{-\lambda x}$であることを導出せよ。
ⅲ) $\lambda=\log_{e} 2=0.6931…$、$\lambda=\log_{e} 3=1.0986…$のとき、それぞれ$F(1)$、$F(2)$、$F(3)$、$F(7)$、$F(10)$を求めよ。

・解答
$f'(x)$、$f^{”}(x)$は下記のようになる。
$$
\large
\begin{align}
f'(x) &= \lambda e^{-\lambda x} \cdot (-\lambda) \\
&= – \lambda^2 e^{-\lambda x} < 0 \\
f^{”}(x) &= – \lambda^2 e^{-\lambda x} \cdot (-\lambda) \\
&= \lambda^3 e^{-\lambda x} > 0
\end{align}
$$
上記より、$x \geq 0$の範囲において、$f'(x)<0$、$f^{”}(x)>0$になる。よって、増減表は下記のように作成できる。
$$
\large
\begin{array}{|c|*3{c|}}\hline x & 0 & \cdots & \infty \\
\hline f'(x)& -\lambda^2 & – & 0 \\
\hline f^{”}(x)& \lambda^3 & + & 0 \\
\hline f(x)& \lambda & \searrow & 0\\
\hline
\end{array}
$$

ⅱ)
$$
\large
\begin{align}
F(x) &= \int_{0}^{x} f(x|\lambda) dx \\
&= \int_{0}^{x} \lambda e^{-\lambda x} dx \\
&= \left[ \lambda \cdot \frac{1}{-\lambda} \cdot e^{-\lambda x} \right]_{0}^{x} \\
&= \left[ -e^{-\lambda x} \right]_{0}^{x} \\
&= -(e^{-\lambda x} – e^{0}) \\
&= 1 – e^{-\lambda x} \quad (x \geq 0)
\end{align}
$$

ⅲ)
$\lambda=\log_{e} 2$のとき、$F(x) = 1 – 2^{-x}$となる。よって、$F(1)$、$F(2)$、$F(3)$、$F(7)$、$F(10)$は下記のように計算できる。
$$
\large
\begin{align}
F(1) &= 1-2^{-1} = \frac{1}{2} \\
F(2) &= 1-2^{-2} = \frac{3}{4} \\
F(3) &= 1-2^{-3} = \frac{7}{8} \\
F(7) &= 1-2^{-7} = \frac{127}{128} \\
F(10) &= 1-2^{-10} = \frac{1023}{1024}
\end{align}
$$

$\lambda=\log_{e} 3$のとき、$F(x) = 1 – 3^{-x}$となる。よって、$F(1)$、$F(2)$、$F(3)$、$F(7)$、$F(10)$は下記のように計算できる。
$$
\large
\begin{align}
F(1) &= 1-3^{-1} = \frac{2}{3} \\
F(2) &= 1-3^{-2} = \frac{8}{9} \\
F(3) &= 1-3^{-3} = \frac{26}{27} \\
F(7) &= 1-3^{-7} = \frac{2186}{2187} \\
F(10) &= 1-3^{-10} = \frac{59048}{59049}
\end{align}
$$

・解説
ⅲ)の問題は指数分布の累積分布関数の具体的な値がイメージできるような問題設定としました。$e^{-\lambda x}$を元に$e=2.7$だと2桁の掛け算となり計算が複雑になるため、$\lambda=\log_{e} 2$、$\lambda=\log_{e} 3$とすることで計算がシンプルになるように問題設定を行いました。
一見抽象的に見える概念も、なるべくシンプルな値を元に考えることでイメージがつきやすいので、このような考察を時折行うと一見難しく見える内容も理解がしやすくなると思います。

正規分布

・問題
i) $\displaystyle f(x) = e^{-x^2}$とする時、$f'(x), f^{”}(x)$を計算せよ。
ⅱ) $f'(x)=0, f^{”}(x)=0$をそれぞれ$x$について解け。
ⅲ) $f(x)$の増減表を作成せよ。また、変曲点の$x$の値を求めよ。
iv) $X \sim N(0,1)$のときi)のように確率密度関数は$\displaystyle f(x) = \frac{1}{\sqrt{2 \pi}} \exp \left( -\frac{x^2}{2} \right)$のように表せる。ここで$Y = \mu + \sigma X$のようにおくとき、$X$に関して解き、標準化の視点から考察を行え。
v) iv)の$Y = \mu + \sigma X$を用いて変数変換を行った時の確率密度関数を$g(y)$のように定義するとき、$g(y)$を求めよ。
vi) iv)、v)で用いた確率変数$Y$に関するモーメント母関数を$m(t)=E[e^{tY}]$とおくとき、$m(t)$を求めよ。
ただし、下記は用いて良いこととする。
$$
\large
\begin{align}
\int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} \exp \left( -\frac{(x-\sigma t)^2}{2} \right) dx = 1
\end{align}
$$
vⅱ) $m'(t), m^{”}(t)$を計算せよ。また、$E[X]=m'(0), V[X]=m^{”}(0)-m'(0)^2$を用いて$E[X], V[X]$を求めよ。

・解答
i)
$f'(x), f^{”}(x)$は下記のように計算できる。
$$
\large
\begin{align}
f'(x) &= \left( e^{-x^2} \right)’ \\
&= e^{-x^2} \times (-x^2)’ \\
&= -2x e^{-x^2} \\
f^{”}(x) &= (f'(x))’ \\
&= \left( -2x e^{-x^2} \right)’ \\
&= -2 e^{-x^2} – 2x \times \left( -2x e^{-x^2} \right) \\
&= -2 e^{-x^2} + 4x^2 e^{-x^2} \\
&= \left( 4x^2 – 2 \right) e^{-x^2}
\end{align}
$$

ⅱ)
$e^{-x^2}>0$より、それぞれ下記のように解くことができる。
・$f'(x)=0$
$$
\large
\begin{align}
f'(x) &= 0 \\
-2x e^{-x^2} &= 0 \\
x &= 0
\end{align}
$$
・$f^{”}(x)=0$
$$
\large
\begin{align}
f^{”}(x) &= 0 \\
\left( 4x^2 – 2 \right) e^{-x^2} &= 0 \\
4x^2 – 2 &= 0 \\
x^2 &= \frac{1}{2} \\
x &= \pm \frac{1}{\sqrt{2}}
\end{align}
$$

ⅲ)
i)、ⅱ)の結果より、増減表は下記のように作成できる。
$$
\large
\begin{array}{|c|*9{c|}}\hline x & -\infty & \cdots & -\frac{1}{\sqrt{2}} & \cdots & 0 & \cdots & \frac{1}{\sqrt{2}} & \cdots & \infty \\
\hline f'(x)& 0 & + & + & + & 0 & – & – & – & 0 \\
\hline f^{”}(x)& + & + & 0 & – & – & – & 0 & + & + \\
\hline f(x)& 0 & \nearrow & \nearrow & \nearrow & 1 & \searrow & \searrow & \searrow & 0 \\
\hline
\end{array}
$$
また、変曲点の$x$の値は$\displaystyle x = \pm \frac{1}{\sqrt{2}}$である。

iv)
$Y = \mu + \sigma X$は下記のように$X$に関して解ける。
$$
\large
\begin{align}
Y &= \mu + \sigma X \\
\sigma X &= Y – \mu \\
X &= \frac{Y-\mu}{\sigma}
\end{align}
$$
上記の式より、確率変数$Y$を平均$\mu$、分散$\sigma^2$を用いて標準化を行った結果が$X$であると考えることができる。

v)
$g(y)$は下記のように導出することができる。
$$
\large
\begin{align}
g(y) &= f(x) \left| \frac{dx}{dy} \right| \\
&= f \left( \frac{y-\mu}{\sigma} \right) \left| \frac{d}{dy} \left( \frac{y-\mu}{\sigma} \right) \right| \\
&= \frac{1}{\sqrt{2 \pi}} \exp \left( -\frac{(y-\mu / \sigma)^2}{2} \right) \times \frac{1}{\sigma} \\
&= \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{(y-\mu)^2}{2 \sigma^2} \right)
\end{align}
$$

vi)
モーメント母関数$m(t)$は下記のように導出できる。
$$
\large
\begin{align}
m(t) &= E[e^{tY}] \\
&= E[e^{\mu t + t \sigma X}] \\
&= e^{\mu t} E[e^{t \sigma X}] \\
&= e^{\mu t} \int_{-\infty}^{\infty} e^{t \sigma x} \times \frac{1}{\sqrt{2 \pi}} \exp \left( \frac{-x^2}{2} \right) dx \\
&= e^{\mu t} \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} \exp \left( \frac{-x^2}{2} + t \sigma x \right) dx \\
&= e^{\mu t} \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} \exp \left( \frac{-(x^2 – 2t \sigma x)}{2} \right) dx \\
&= e^{\mu t} \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} \exp \left( \frac{-(x – t \sigma)^2}{2} + \frac{t^2 \sigma^2}{2} \right) dx \\
&= \exp \left( \mu t + \frac{t^2 \sigma^2}{2} \right) \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} \exp \left( -\frac{(x – t \sigma)^2}{2} \right) dx \\
&= \exp \left( \mu t + \frac{t^2 \sigma^2}{2} \right) \times 1 \\
&= \exp \left( \mu t + \frac{t^2 \sigma^2}{2} \right)
\end{align}
$$

vⅱ)
$m'(t), m^{”}(t)$は下記のように計算できる。
$$
\large
\begin{align}
m'(t) &= \left( \exp \left( \mu t + \frac{t^2 \sigma^2}{2} \right) \right)’ \\
&= \exp \left( \mu t + \frac{t^2 \sigma^2}{2} \right) \times \left( \mu t + \frac{t^2 \sigma^2}{2} \right)’ \\
&= (\mu + \sigma^2 t) \exp \left( \mu t + \frac{t^2 \sigma^2}{2} \right) \\
m^{”}(t) &= (m'(t))’ \\
&= \sigma^2 \exp \left( \mu t + \frac{t^2 \sigma^2}{2} \right) + (\mu + \sigma^2 t)^2 \exp \left( \mu t + \frac{t^2 \sigma^2}{2} \right) \\
&= (\sigma^2 + (\mu + \sigma^2 t)^2) \exp \left( \mu t + \frac{t^2 \sigma^2}{2} \right)
\end{align}
$$

$E[X]=m'(0), V[X]=m^{”}(0)-m'(0)^2$は下記のように計算できる。
$$
\large
\begin{align}
E[X] &= m'(0) \\
&= (\mu + \sigma^2 \cdot 0) \exp \left( \mu \cdot 0 + \frac{0^2 \cdot \sigma^2}{2} \right) \\
&= \mu \\
V[X] &= m^{”}(0) – m'(0)^2 \\
&= (\sigma^2 + (\mu + \sigma^2 \cdot 0)^2) \exp \left( \mu \cdot 0 + \frac{0^2 \cdot \sigma^2}{2} \right) – \mu^2 \\
&= (\sigma^2 + \mu^2) \times 1 – \mu^2 \\
&= \sigma^2 + \mu^2 – \mu^2 \\
&= \sigma^2
\end{align}
$$

・解説
i)〜ⅲ)では正規分布の確率密度関数を理解するにあたって、$f(x)$の導関数を計算し、増減表の作成を行いました。

一様分布

・問題
i) 連続型の一様分布$[a,b]$の期待値$E[X]$と分散$V[X]$をそれぞれ計算せよ。
ⅱ) $[0,1]$の区間の一様分布の分散を$V[X]$とし、$[0,x]$の分散が$V[X]$の2倍となる時、$x$の値を求めよ。

・解答
i)
https://www.hello-statisticians.com/explain-terms-cat/probdist2.html#i-4
上記のように計算すると、下記のようになる。
$$
\large
\begin{align}
E[X] &= \frac{a+b}{2} \\
V[X] &= \frac{(b-a)^2}{12}
\end{align}
$$

・解説
一様分布はよく出てくる分布なので、抑えておくと良いと思います。

ガンマ分布

・問題
形状母数を$\nu$、尺度母数を$\alpha$とするガンマ分布を$Ga(\nu, \alpha)$と考える。ここで確率変数$X$が、$X \sim Ga(\nu, \alpha)$のように$Ga(\nu, \alpha)$に従うとき、$f(x)$の確率密度関数は下記のように表される。
$$
\begin{align}
f(x) = \frac{1}{\alpha^{\nu} \Gamma(\nu)} x^{\nu – 1} e^{- \frac{x}{\alpha}}, \quad x \geq 0
\end{align}
$$
また、上記における$\Gamma(\nu)$は下記のように定義される。
$$
\begin{align}
\Gamma(\nu) = \int_{0}^{\infty} x^{\nu-1}e^{-x} dx
\end{align}
$$

ここまでの内容を元に、下記の問いに答えよ。
i) $\Gamma(1), \Gamma(2)$の値を求めよ。
ⅱ) $\Gamma(a+1) = a\Gamma(a)$であることを示せ。
ⅲ) ⅱ)の式を用いて$\Gamma(a+1) = a!$が成立することを示せ。また、$f(x) = x^{a-1}e^{-x}, x \geq 0$の増減表を作成し、$\Gamma(a+1) = a!$の結果が妥当と思われることを確認せよ。
iv) 下記で定義する定積分$I$の値を求めよ。
$$
\begin{align}
I = \int_{0}^{\infty} \frac{1}{\Gamma(\nu)} x^{\nu – 1} e^{-x} dx
\end{align}
$$
v) $\displaystyle f(x) = \frac{1}{\Gamma(\nu)} x^{\nu – 1} e^{-x}$に対して、$y = \alpha x$のように定義した$y$に関する確率密度関数$g(y)$を変数変換を行うことで導出せよ。
vi) v)で導出した確率密度関数に関して、モーメント母関数$m(t)$が下記のように導出できることを示せ。
$$
\begin{align}
m(t) = (1 – t \alpha)^{-\nu}
\end{align}
$$
vⅱ) v)で導出した式において$\nu=1$が成立するとき、この確率分布は何を表すか答えよ。

・解答
i)
$\Gamma(1), \Gamma(2)$は下記のように計算することができる。
・$\Gamma(1)$の計算
$$
\large
\begin{align}
\Gamma(1) &= \int_{0}^{\infty} x^{1-1}e^{-x} dx \\
&= \int_{0}^{\infty} e^{-x} dx \\
&= \left[ e^{-x} \right]_{0}^{\infty} \\
&= -(0-e^{0}) \\
&= 1
\end{align}
$$
・$\Gamma(2)$の計算
$$
\large
\begin{align}
\Gamma(2) &= \int_{0}^{\infty} x^{2-1}e^{-x} dx \\
&= \int_{0}^{\infty} xe^{-x} dx \\
&= \left[ -xe^{-x} \right]_{0}^{\infty} + \int_{0}^{\infty} e^{-x} dx \\
&= \Gamma(1) \\
&= 1
\end{align}
$$

ⅱ)
$\Gamma(a+1) = a\Gamma(a)$は下記のように示すことができる。
$$
\large
\begin{align}
\Gamma(a+1) &= \int_{0}^{\infty} x^{a+1-1}e^{-x} dx \\
&= \int_{0}^{\infty} x^a e^{-x} dx \\
&= \left[ -x^a e^{-x} \right]_{0}^{\infty} + \int_{0}^{\infty} ax^{a-1} e^{-x} dx \\
&= a \int_{0}^{\infty} x^{a-1} e^{-x} dx \\
&= a\Gamma(a)
\end{align}
$$

ⅲ)
下記のように$\Gamma(a+1) = a\Gamma(a)$を漸化式のように用いて$\Gamma(1)=1$を適用することで、$\Gamma(a+1) = a!$を導出することができる。
$$
\large
\begin{align}
\Gamma(a+1) &= a\Gamma(a) \\
&= a(a-1)\Gamma(a-1) \\
&= a(a-1)(a-2)\Gamma(a-2) \\
&= … \\
&= a!\Gamma(1) \\
&= a!
\end{align}
$$

また、$f(x) = x^{a-1}e^{-x}$を考えるとき、$f'(x)$は下記のように計算できる。
$$
\large
\begin{align}
f'(x) &= (x^{a-1}e^{-x})’ \\
&= (a-1)x^{a-2}e^{-x} – x^{a-1}e^{-x} \\
&= (a-1-x) x^{a-2} e^{-x}
\end{align}
$$

以下、$a=1$と$a>1$の場合分けを行い、$f(x)$の増減表を作成する。
・$a=1$のとき
$a-1-x=-x$より、$f(x)$の増減表は下記のようになる。
$$
\large
\begin{array}{|c|*3{c|}}\hline x & 0 & \cdots & \infty \\
\hline f'(x)& 0 & – & 0 \\
\hline f(x)& 1 & \searrow & 0 \\
\hline
\end{array}
$$
・$a>1$のとき
$f(x)$の増減表は下記のようになる。
$$
\large
\begin{array}{|c|*5{c|}}\hline x & 0 & \cdots & a-1 & \cdots & \infty \\
\hline f'(x)& 0 & + & 0 & – & 0 \\
\hline f(x)& 0 & \nearrow & (a-1)^{a-1}e^{-(a-1)} & \searrow & 0 \\
\hline
\end{array}
$$

この増減表を元に考察を行うと、$a>1$の時は$a$が大きくなるにつれて最大値の$(a-1)^{a-1}e^{-(a-1)}$の値が大きくなり、その分$0 \leq x \leq \infty$の区間での定積分の値が大きくなることがわかる。このことは$\Gamma(a+1) = a!$の結果に関しての必要条件であり、$\Gamma(a+1) = a!$がある程度妥当であることが直感的に把握できる。

iv)
$$
\large
\begin{align}
I &= \int_{0}^{\infty} \frac{1}{\Gamma(\nu)} x^{\nu – 1} e^{-x} dx \\
&= \frac{1}{\Gamma(\nu)} \int_{0}^{\infty} x^{\nu – 1} e^{-x} dx \\
&= \frac{1}{\Gamma(\nu)} \times \Gamma(\nu) \\
&= 1
\end{align}
$$
上記のように導出できる。

v)
$\displaystyle y = \alpha x, x = \frac{y}{\alpha}$を元に変数変換を行うことで、$g(y)$は下記のように導出できる。
$$
\large
\begin{align}
g(y) &= f(x) \left| \frac{dx}{dy} \right| \\
&= f \left( \frac{y}{\alpha} \right) \left| \frac{dx}{dy} \right| \\
&= \frac{1}{\Gamma(\nu)} \left( \frac{y}{\alpha} \right)^{\nu – 1} e^{-\frac{y}{\alpha}} \times \frac{1}{\alpha} \\
&= \frac{1}{\alpha^{\nu} \Gamma(\nu)} y^{\nu – 1} e^{-\frac{y}{\alpha}}
\end{align}
$$

vi)
確率変数を$Y$と考えるとき、モーメント母関数は$m(t)=E[e^{tY}]$のように表される。このことに基づいて$m(t)$は下記のように計算できる。
$$
\large
\begin{align}
m(t) &= E[e^{tY}] \\
&= \int_{0}^{\infty} e^{ty} \times \frac{1}{\alpha^{\nu} \Gamma(\nu)} y^{\nu – 1} e^{-\frac{y}{\alpha}} dy \\
&= \frac{1}{\alpha^{\nu}} \int_{0}^{\infty} \frac{1}{\Gamma(\nu)} y^{\nu – 1} e^{-y \left( -t+\frac{1}{\alpha} \right) } dy \\
&= \frac{1}{\alpha^{\nu}} \int_{0}^{\infty} \frac{1}{\Gamma(\nu)} y^{\nu – 1} e^{-y \left( \frac{1 – t \alpha}{\alpha} \right) } dy \\
&= \frac{1}{\alpha^{\nu}} \int_{0}^{\infty} \frac{1}{\Gamma(\nu)} y^{\nu – 1} e^{-\frac{y}{\alpha/(1 – t \alpha)}} dy \\
&= \frac{1}{\alpha^{\nu}} \int_{0}^{\infty} \frac{(\alpha/(1 – t \alpha))^{\nu}}{(\alpha/(1 – t \alpha))^{\nu} \Gamma(\nu)} y^{\nu – 1} e^{-\frac{y}{\alpha/(1 – t \alpha)}} dy \\
&= \frac{1}{\alpha^{\nu}} \times \frac{\alpha^{\nu}}{(1 – t \alpha)^{\nu}} \int_{0}^{\infty} \frac{1}{(\alpha/(1 – t \alpha))^{\nu} \Gamma(\nu)} y^{\nu – 1} e^{-\frac{y}{\alpha/(1 – t \alpha)}} dy \\
&= \frac{1}{\cancel{\alpha^{\nu}}} \times \frac{\cancel{\alpha^{\nu}}}{(1 – t \alpha)^{\nu}} \times 1 \\
&= (1 – t \alpha)^{- \nu}
\end{align}
$$

vⅱ)
$\displaystyle g(y) = \frac{1}{\alpha^{\nu} \Gamma(\nu)} y^{\nu – 1} e^{-\frac{y}{\alpha}}$に対して、$\nu=1$を代入すると下記が得られる。
$$
\large
\begin{align}
g(y) &= \frac{1}{\alpha^{1} \Gamma(1)} y^{1 – 1} e^{-\frac{y}{\alpha}} \\
&= \frac{1}{\alpha} e^{-\frac{y}{\alpha}}
\end{align}
$$
上記に対して、$\displaystyle \lambda = \frac{1}{\alpha}$のように置き換えることで、$g(y) = \lambda e^{-\lambda x}$が導出でき、これは指数分布の確率密度関数を表す。

・解説
iv)に関してはガンマ分布に関しての全確率の公式を用いても良いですが、ガンマ関数$\Gamma(\nu)$の定義から導出する方が$\Gamma(\nu)$が規格化定数であることも同時に理解できるので良いと思われました。また、vⅱ)のように指数分布を導出できることも抑えておくと良いと思います。

ベータ分布

・問題
$a>0, b>0$のパラメータを持つベータ分布を$Be(a,b)$と考える。ここで確率変数$X$が、$X \sim Be(a,b)$のように$Be(a,b)$に従うとき、$f(x)$の確率密度関数は下記のように表される。
$$
\begin{align}
f(x) = \frac{1}{B(a,b)} x^{a-1} (1-x)^{b-1}, \quad 0 \leq x \leq 1
\end{align}
$$
また、上記における$B(a,b)$は下記のように定義される。
$$
\begin{align}
B(a,b) = \int_{0}^{1} x^{a-1}(1-x)^{b-1} dx
\end{align}
$$

ここまでの内容を元に、下記の問いに答えよ。
i) $B(1,1), B(2,1), B(2,2)$に関してそれぞれ計算せよ。
ⅱ) $f_1(x) = x^{a-1} (1-x)^{b-1}$のように定義するとき、$f’_1(x)$を求めよ。
ⅲ) $a>2, b>2$の前提をおいた上で、$0 < x < 1$の範囲で$f’_1(x)=0$を$x$について解け。また、定義域$0 \leq x \leq 1$に対応する$f_1(x)$の増減表を求めよ。
iv) $X \sim Ga(a,1), Y \sim Ga(b,1)$かつ$X, Y$が互いに独立であるとき、$X, Y$に関する同時確率密度関数を$f(x,y)$と定義する。このとき$f(x,y)$を表せ。ただし、ガンマ分布$Ga(a,1)$の確率密度関数$f_{ga(a)}(x)$は下記のように表せることを用いて良い。
$$
\begin{align}
f_{ga(a)}(x) = \frac{1}{\Gamma(a)} x^{a-1} e^{-x}
\end{align}
$$
v) iv)で導出した$f(x,y)$に対して、$\displaystyle U = \frac{X}{X+Y}, V = X+Y$のような変換を考える。このとき、$X, Y$を$U, V$の式で表せ。また、ヤコビ行列$\mathbf{J}$とヤコビアン$|\det \mathbf{J}|$を計算せよ。
vi) v)の結果を元に、iv)で導出した$f(x,y)$に対して、$\displaystyle U = \frac{X}{X+Y}, V = X+Y$のような変換を行い、$U, V$に関する確率密度関数の$g(u,v)$を求めよ。
vⅱ) vi)の結果に対し、$\displaystyle B(a,b) = \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}$とおくことで、$U \sim Be(a,b)$であることを示せ。

・解答
i)
$B(1,1), B(2,1), B(2,2)$はそれぞれ下記のように計算できる。
・$B(1,1)$
$$
\large
\begin{align}
B(1,1) &= \int_{0}^{1} x^{1-1}(1-x)^{1-1} dx \\
&= \int_{0}^{1} x^{0}(1-x)^{0} dx \\
&= \int_{0}^{1} 1 dx \\
&= \left[ x \right]_{0}^{1} \\
&= 1
\end{align}
$$
・$B(2,1)$
$$
\large
\begin{align}
B(2,1) &= \int{0}^{1} x^{2-1}(1-x)^{1-1} dx \\
&= \int_{0}^{1} x^{1}(1-x)^{0} dx \\
&= \int_{0}^{1} x dx \\
&= \left[ \frac{1}{2} x^2 \right]_{0}^{1} \\
&= \frac{1}{2}
\end{align}
$$
・$B(2,2)$
$$
\large
\begin{align}
B(2,2) &= \int{0}^{1} x^{2-1}(1-x)^{2-1} dx \\
&= \int_{0}^{1} x^{1}(1-x)^{1} dx \\
&= \int_{0}^{1} (x-x^2) dx \\
&= \left[ \frac{1}{2} x^2 – \frac{1}{3} x^3 \right]_{0}^{1} \\
&= \frac{1}{2} – \frac{1}{3} \\
&= \frac{1}{6}
\end{align}
$$

ⅱ)
$f’_1(x)$は下記のように計算できる。
$$
\large
\begin{align}
f’_1(x) &= \left( x^{a-1} (1-x)^{b-1} \right)’ \\
&= (a-1)x^{a-2}(1-x)^{b-1} – (b-1)x^{a-1} (1-x)^{b-2} \\
&= x^{a-2}(1-x)^{b-2} \left\{ (a-1)(1-x) – (b-1)x \right\} \\
&= x^{a-2}(1-x)^{b-2} \left\{ -(a-1+b-1)x + (a-1) \right\} \\
&= x^{a-2}(1-x)^{b-2} \left\{ -(a+b-2)x + (a-1) \right\}
\end{align}
$$

ⅲ)
$0 < x < 1$では$x^{a-2}(1-x)^{b-2} > 0$であるので、$f’_1(x)=0 \iff -(a+b-2)x + (a-1)=0$となる。以下、$x$に関して解く。
$$
\large
\begin{align}
-(a+b-2)x + (a-1) &= 0 \\
(a+b-2)x &= a-1 \\
x &= \frac{a-1}{a+b-2}
\end{align}
$$
途中式で両辺を$a+b-2$で割ったが、$a>2, b>2$より$a+b-2>0$が成立するので、そのまま割ることができる。

また、定義域$0 \leq x \leq 1$に対応する$f’_1(x)$の増減表は$\displaystyle 0 < \frac{a-1}{a+b-2} < 1$より下記のように作成することができる。
$$
\large
\begin{array}{|c|*5{c|}}\hline x & 0 & \cdots & \frac{a-1}{a+b-2} & \cdots & 1 \\
\hline f'(x)& 0 & + & 0 & – & 0 \\
\hline f(x)& 0 & \nearrow & \left( \frac{a-1}{a+b-2} \right)^{a-1} \left( \frac{b-1}{a+b-2} \right)^{b-1} & \searrow & 0 \\
\hline
\end{array}
$$

iv)
$f(x,y) = f_{ga(a)}(x) f_{ga(b)}(y)$が成立することを利用することで、下記のように$f(x,y)$は導出できる。
$$
\large
\begin{align}
f(x,y) &= f_{ga(a)}(x) f_{ga(b)}(y) \\
&= \frac{1}{\Gamma(a)} x^{a-1} e^{-x} \times \frac{1}{\Gamma(b)} x^{b-1} e^{-y} \\
&= \frac{1}{\Gamma(a) \Gamma(b)} x^{a-1}y^{b-1} e^{-(x+y)}
\end{align}
$$

v)
$V=X+Y$より、$Y=V-X$が得られるので、これを$\displaystyle U = \frac{X}{X+Y}$に代入し、$X$に関して解く。
$$
\large
\begin{align}
U &= \frac{X}{X+(V-X)} \\
U &= \frac{X}{V} \\
X &= UV
\end{align}
$$
これを$V=X+Y$に代入し、$Y$に関して解く。
$$
\large
\begin{align}
V &= UV+Y \\
Y &= V-UV \\
Y &= V(1-U)
\end{align}
$$

次にヤコビ行列$\mathbf{J}$、ヤコビアン$|\det \mathbf{J}|$は下記のように導出できる。
・$\mathbf{J}$
$$
\large
\begin{align}
\mathbf{J} &= \left( \begin{array}{cc} \frac{\partial x}{\partial u} & \frac{\partial x}{\partial v} \\ \frac{\partial y}{\partial u} & \frac{\partial y}{\partial v} \end{array} \right) \\
&= \left( \begin{array}{cc} \frac{\partial}{\partial u} (uv) & \frac{\partial}{\partial v} (uv) \\ \frac{\partial}{\partial u} (v(1-u)) & \frac{\partial}{\partial v} (v(1-u)) \end{array} \right) \\
&= \left( \begin{array}{cc} v & u \\ -v & 1-u \end{array} \right)
\end{align}
$$
・$|\det \mathbf{J}|$
$$
\large
\begin{align}
|\det \mathbf{J}| &= \det \left( \begin{array}{cc} v & u \\ -v & 1-u \end{array} \right) \\
&= | v(1-u) – (-uv) | \\
&= v
\end{align}
$$

vi)
$g(u,v)$は下記のように導出することができる。
$$
\large
\begin{align}
g(u,v) &= f(x,y) |\det \mathbf{J}| \\
&= f(uv,v(1-u)) |\det \mathbf{J}| \\
&= \frac{1}{\Gamma(a) \Gamma(b)} (uv)^{a-1} (v(1-u))^{b-1} e^{-v} \times v \\
&= \frac{1}{\Gamma(a) \Gamma(b)} \times v^{a+b-1}e^{-v} \times u^{a-1}(1-u)^{b-1} \\
&= \frac{1}{\Gamma(a+b)} v^{a+b-1}e^{-v} \times \frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} u^{a-1}(1-u)^{b-1}
\end{align}
$$

vⅱ)
vi)の結果に対し、$\displaystyle B(a,b) = \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}$のように置き換えると、下記のように整理できる。
$$
\large
\begin{align}
g(u,v) &= \frac{1}{\Gamma(a+b)} v^{a+b-1}e^{-v} \times \frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} u^{a-1}(1-u)^{b-1} \\
&= \frac{1}{\Gamma(a+b)} v^{a+b-1}e^{-v} \times \frac{1}{B(a,b)} u^{a-1}(1-u)^{b-1} \\
&= \frac{1}{B(a,b)} u^{a-1}(1-u)^{b-1} \times \frac{1}{\Gamma(a+b)} v^{a+b-1}e^{-v}
\end{align}
$$
ここで$U, V$に関する関数形より、$U \sim Be(a,b), V \sim Ga(a+b,1)$であることがわかる。

・解説
ベータ分布とガンマ分布に関する関連は少々計算が複雑ですが、抑えておくと良いと思います。

回帰分析を理解する(最小二乗法、決定係数、相関係数と決定係数)

回帰(regression)は様々な場面で出てくる基本的なトピックである一方で、単なる線形回帰にとどまらず一般化線形モデル、ベイズ線形回帰、ニューラルネットワークへの拡張など、派生で様々なモデリングを考えることができる。
当記事では、回帰の基本トピックである最小二乗法、決定係数などについて取り扱う。

基本事項の整理

母回帰と標本回帰

回帰分析を行う際に標本回帰のみを考えることが多いので、「母回帰と標本回帰」について議論されることが少ない印象ではあるが、推測統計的な視点を元に母回帰と標本回帰について考えることができる。ここでは「基礎統計学Ⅰ 統計学入門(東京大学出版会)」を参考にそれぞれ下記のように表すとする。
・母回帰方程式(population regression equation)
$$
\begin{align}
Y_i &= \beta_1 + \beta_2 X_i + \epsilon_i \qquad (i = 1, 2, 3, …, n)
\end{align}
$$


・標本回帰方程式(sample regression equation)
$$
\begin{align}
Y &= \hat{\beta}_1 + \hat{\beta}_2 X
\end{align}
$$

通常の回帰分析では、上記で表した標本回帰方程式のパラメータの$\hat{\beta}_1$と$\hat{\beta}_2$を最小二乗法を用いて求めることが多い。よって次項で最小二乗法による標本回帰方程式のパラメータの導出について行う。

最小二乗法

前項の母回帰方程式の係数の$\beta_1$と$\beta_2$の推定について考える。(1)式の$Y_i$の$X_i$によって説明できない誤差項は下記のようになる。
$$
\begin{align}
\epsilon_i &= Y_i – (\beta_1 + \beta_2 X_i) \qquad (i = 1, 2, 3, …, n) \quad (3)
\end{align}
$$
ここで(3)の両辺を二乗する方が取り扱いやすいので二乗を考え、さらに総和$S$を考える。
$$
\begin{align}
S &= \sum_{i=1}^{n} \epsilon_i^2 \\
&= \sum_{i=1}^{n} (Y_i – (\beta_1 + \beta_2 X_i))^2
\end{align}
$$
上記の$S$を最小にする$\hat{\beta}_1$と$\hat{\beta}_2$を$\beta_1$と$\beta_2$の推定量とすると考える。この推定方法を最小二乗法(method of least squares)と呼び、$\hat{\beta}_1$と$\hat{\beta}_2$を$\beta_1$と$\beta_2$の最小二乗推定法(least squares estimator)と呼ぶ。

$S$を最小にする$\hat{\beta}_1$と$\hat{\beta}_2$は下記の方程式を解くことによって求めることができる。
$$
\begin{align}
\frac{\partial S}{\partial \beta_1} &= -2\sum_{i=1}^{n} (Y_i – \beta_1 – \beta_2 X_i) \quad (5) \\
\frac{\partial S}{\partial \beta_2} &= -2\sum_{i=1}^{n} (Y_i – \beta_1 – \beta_2 X_i)X_i \quad (6)
\end{align}
$$
式(5)、式(6)を整理すると下記のような$\beta_1$と$\beta_2$の連立方程式を得ることができる。
$$
\begin{align}
n \beta_1 + \left( \sum_{i=1}^{n} X_i \right) \beta_2 &= \sum_{i=1}^{n} Y_i \quad (7) \\
\left( \sum_{i=1}^{n} X_i \right) \beta_1 + \left( \sum_{i=1}^{n} X_i^2 \right) \beta_2 &= \sum_{i=1}^{n} X_i Y_i \quad (8)
\end{align}
$$
上記を正規方程式(normal equation)と呼び、この解を$\hat{\beta}_1$と$\hat{\beta}_2$とすると下記のようになる。
$$
\begin{align}
\hat{\beta}_2 &= \frac{\sum (X_i-\bar{X})(Y_i-\bar{Y})}{\sum (X_i-\bar{X})^2} \quad (9) \\
\hat{\beta}_1 &= \bar{Y} – \hat{\beta}_2 \bar{X} \qquad (10)
\end{align}
$$
上記において、$\bar{X}$、$\bar{Y}$はそれぞれ標本$X_i$、$Y_i$の標本平均を表したものとする。このようにして求めたパラメータ$\hat{\beta}_1$、$\hat{\beta}_2$に基づいて前項の標本回帰方程式を用いて予測値の計算などを行う。
$$
\begin{align}
Y &= \hat{\beta}_1 + \hat{\beta}_2 X \quad (2)
\end{align}
$$

決定係数

回帰式の当てはまりの良さをはかる指標には決定係数が用いられることが多い。決定係数について理解するにあたっては、まずは下記の式を抑えると良い。
$$
\begin{align}
\sum_{i=1}^{n} (Y_i-\bar{Y})^2 &= \sum_{i=1}^{n} ((Y_i-\hat{Y}_i)+(\hat{Y}_i-\bar{Y}))^2 \\
&= \sum_{i=1}^{n} (Y_i-\hat{Y}_i)^2 + \sum_{i=1}^{n} (\hat{Y}_i-\bar{Y})^2 + 2\sum_{i=1}^{n} (Y_i-\hat{Y}_i)(\hat{Y}_i-\bar{Y}) \\
&= \sum_{i=1}^{n} (\hat{Y}_i-\bar{Y})^2 + \sum_{i=1}^{n}(Y_i-\hat{Y}_i)^2 \quad (11)
\end{align}
$$
上記において詳しい計算は省略するが、$\displaystyle 2\sum_{i=1}^{n}(Y_i-\hat{Y}_i)(\hat{Y}_i-\bar{Y})=0$は$\displaystyle Y_i=\bar{Y}+\hat{\beta}_1(X_i-\bar{X})$などを用いることで導出することができる。

(11)式全体を左辺の$\displaystyle \sum_{i=1}^{n} (Y_i-\bar{Y})^2$で割ると下記のようになる。
$$
\begin{align}
1 = \frac{\displaystyle \sum_{i=1}^{n}(\hat{Y}_i-\bar{Y})^2 + \sum_{i=1}^{n}(Y_i-\hat{Y}_i)^2}{\displaystyle \sum_{i=1}^{n} (Y_i-\bar{Y})^2} \quad (12)
\end{align}
$$
ここで、$\frac{\displaystyle \sum_{i=1}^{n}(\hat{Y}_i-\bar{Y})^2}{\displaystyle \sum_{i=1}^{n} (Y_i-\bar{Y})^2}$を決定係数$\eta^2$で表すとする。このとき、(12)式より下記が成立する。
$$
\begin{align}
1 = \eta^2 + \frac{\displaystyle \sum_{i=1}^{n}(Y_i-\hat{Y}_i)^2}{\displaystyle \sum_{i=1}^{n} (Y_i-\bar{Y})^2} \quad (13)
\end{align}
$$
$(13)$式を$\eta^2$について解くと下記のようになる。
$$
\begin{align}
\eta^2 = 1 – \frac{\displaystyle \sum_{i=1}^{n}(Y_i-\hat{Y}_i)^2}{\displaystyle \sum_{i=1}^{n} (Y_i-\bar{Y})^2} \quad (14)
\end{align}
$$
この決定係数$\eta^2$の値は回帰方程式の当てはまりの良さを表すと考えることができる。また、相関係数を$r$とするとき、$\eta^2=r^2$が成立することも抑えておくと良い。

相関係数と決定係数

「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の$3$.$4$節の内容を主に参考にする。$y_i = ax_i + b$に対し、最小二乗法を適用し、整理すると$a$の値は下記のようになる。
$$
\begin{align}
a = \frac{\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})^2} \quad (15)
\end{align}
$$
また、相関係数は下記のように定義される。
$$
\begin{align}
r = \frac{\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle \sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}} \quad (16)
\end{align}
$$

ここで$(15)$式、$(16)$式に基づいて、$a$と$r$の関係式を考える。
$$
\begin{align}
a &= \frac{\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})^2} \\
&= \frac{\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle \sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}} \cdot \frac{\displaystyle \sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}}{\displaystyle \displaystyle\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}} \\
&= r \frac{S_y}{S_x} \quad (17)
\end{align}
$$
ここで$S_x$、$S_y$は下記を表すとする。
$$
\begin{align}
S_x &= \sqrt{\sum_{i=1}^{n} (x_i-\bar{x})^2} \\
S_y &= \sqrt{\sum_{i=1}^{n} (y_i-\bar{y})^2}
\end{align}
$$
$(15)$式を変形することを考える。
$$
\begin{align}
\frac{\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})^2} &= a \\
\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y}) &= a \sum_{i=1}^{n}(x_i-\bar{x})^2 \\
\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y}) &= \sum_{i=1}^{n} a(x_i-\bar{x})^2 \\
\sum_{i=1}^{n}(x_i-\bar{x})( y_i – \bar{y} – a(x_i-\bar{x}) ) &= 0 \\
\sum_{i=1}^{n}(x_i-\bar{x})( y_i – (a\bar{x}+b) – a(x_i-\bar{x}) ) &= 0 \\
\sum_{i=1}^{n}(x_i-\bar{x})( y_i – (ax_i+b) ) &= 0 \\
\sum_{i=1}^{n} \frac{(y_i-\bar{y})}{a}( y_i – \hat{y_i} ) &= 0 \\
\sum_{i=1}^{n} (\hat{y}_i-\bar{y})(y_i-\hat{y_i}) &= 0 \quad (18)
\end{align}
$$

$(18)$式を元に$\displaystyle \sum_{i=1}^{n} (y_i-\bar{y})^2$を$\hat{y}_i$を用いて考える。
$$
\begin{align}
\sum_{i=1}^{n} (y_i-\bar{y})^2 &= \sum_{i=1}^{n} (y_i-\hat{y}_i+\hat{y}_i-\bar{y})^2 \\
&= \sum_{i=1}^{n} ((y_i-\hat{y}_i)+(\hat{y}_i-\bar{y}))^2 \\
&= \sum_{i=1}^{n} ((y_i-\hat{y}_i)^2+(\hat{y}_i-\bar{y})^2+2(y_i-\hat{y}_i)(\hat{y}_i-\bar{y})) \\
&= \sum_{i=1}^{n} (y_i-\hat{y}_i)^2 + \sum_{i=1}^{n} (\hat{y}_i-\bar{y})^2 + 2\sum_{i=1}^{n} (y_i-\hat{y}_i)(\hat{y}_i-\bar{y})) \\
&= \sum_{i=1}^{n} (y_i-\hat{y}_i)^2 + \sum_{i=1}^{n} (\hat{y}_i-\bar{y})^2 \quad (19)
\end{align}
$$
ここで$(17)$式と$(19)$式より下記が導出できる。
$$
\begin{align}
\sum_{i=1}^{n} (\hat{y}_i-\bar{y})^2 &= \sum_{i=1}^{n} a^2(x_i-\bar{x}_i)^2 \\
&= r^2 \frac{S_y^2}{S_x^2} \cdot \sum_{i=1}^{n} (x_i-\bar{x}_i)^2 \\
&= r^2 \frac{S_y^2}{S_x^2} \cdot S_x^2 \\
&= r^2 S_y^2 \\
&= r^2 \sum_{i=1}^{n} (y_i-\bar{y})^2 \quad (20)
\end{align}
$$
$(20)$式に基づいて、$\eta^2$は下記のように$r^2$を用いて表すことができる。
$$
\begin{align}
\eta^2 &= \frac{\displaystyle \sum_{i=1}^{n}(\hat{y}_i-\bar{y})^2}{\displaystyle \sum_{i=1}^{n} (y_i-\bar{y})^2} \\
&= \frac{\displaystyle r^2 \sum_{i=1}^{n} (y_i-\bar{y})^2}{\displaystyle \sum_{i=1}^{n} (y_i-\bar{y})^2} \\
&= r^2
\end{align}
$$
上記より、相関係数$r$の二乗は決定係数$\eta^2$になることがわかる。

重回帰分析

「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の13.4節に詳しくまとめられている。

正規方程式の解の詳細な導出

最小二乗法」の項目では、正規方程式の解を連立方程式を解くことで回帰係数の$\hat{\beta}1, \hat{\beta}_2$を導出できるとしたが、少々式変形が複雑なため、こちらで詳しく取り扱う。
$$
\begin{align}
n \beta_1 + \left( \sum_{i=1}^{n} X_i \right) \beta_2 &= \sum_{i=1}^{n} Y_i \quad (7) \\
\left( \sum_{i=1}^{n} X_i \right) \beta_1 + \left( \sum_{i=1}^{n} X_i^2 \right) \beta_2 &= \sum_{i=1}^{n} X_i Y_i \quad (8)
\end{align}
$$
具体的には上記の正規方程式を解くことで下記のように回帰係数の$\hat{\beta}_1, \hat{\beta}_2$を導出することを考える。
$$
\begin{align}
\hat{\beta}_2 &= \frac{\sum (X_i-\bar{X})(Y_i-\bar{Y})}{\sum (X_i-\bar{X})^2} \quad (9) \\
\hat{\beta}_1 &= \bar{Y} – \hat{\beta}_2 \bar{X} \quad (10)
\end{align}
$$

解き方自体は連立方程式の一般的な解き方にあるように$(7), (8)$式より、$\beta_1$に関する項を消去することを考える。
$$
\begin{align}
n \left( \sum_{i=1}^{n} X_i \right) \beta_1 + \left( \sum_{i=1}^{n} X_i \right)^2 \beta_2 &= \left( \sum_{i=1}^{n} X_i \right) \left( \sum_{i=1}^{n} Y_i \right) \quad (7′) \\
n \left( \sum_{i=1}^{n} X_i \right) \beta_1 + n \left( \sum_{i=1}^{n} X_i^2 \right) \beta_2 &= n \sum_{i=1}^{n} X_i Y_i \quad (8′)
\end{align}
$$
上記のように$(7′), (8′)$式を考え、両辺に対して$(8′)-(7′)$を計算すると下記のようになる。
$$
\begin{align}
\left( n \left( \sum_{i=1}^{n} X_i^2 \right) + \left( \sum_{i=1}^{n} X_i \right)^2 \right) \beta_2 = n \sum_{i=1}^{n} X_i Y_i – \left( \sum_{i=1}^{n} X_i \right) \left( \sum_{i=1}^{n} Y_i \right)
\end{align}
$$
上記の式の両辺を$n^2$で割ると下記のようになる。
$$
\begin{align}
\left(\frac{1}{n} \left( \sum_{i=1}^{n} X_i^2 \right) – \left( \frac{1}{n}\sum_{i=1}^{n} X_i \right)^2 \right) \beta_2 &= \frac{1}{n} \sum_{i=1}^{n} X_i Y_i – \left( \frac{1}{n} \sum_{i=1}^{n} X_i \right) \left( \frac{1}{n} \sum_{i=1}^{n} Y_i \right) \\
(E[X^2]-E[X]^2)\beta_2 &= (E[XY] – E[X]E[Y]) \\
\beta_2 &= \frac{E[XY] – E[X]E[Y]}{E[X^2] – E[X]^2}
\end{align}
$$

期待値と分散・共分散の公式」より、$V[X]=E[X^2]-E[X]^2, Cov(X,Y)=E[XY]-E[X]E[Y]$が成立するので、下記が導出でき、$(9)$式に一致する。また、ここで導出を行うのが最適解であるので$\beta_2$を$\hat{\beta}_2$に置き換えた。
$$
\begin{align}
\hat{\beta}_2 &= \frac{E[XY] – E[X]E[Y]}{E[X^2] – E[X]^2} \\
&= \frac{Cov(X,Y)}{V[X]} \\
&= \frac{\frac{1}{n} \sum (X_i-\bar{X})(Y_i-\bar{Y})}{\frac{1}{n} \sum (X_i-\bar{X})^2} \\
&= \frac{\sum (X_i-\bar{X})(Y_i-\bar{Y})}{\sum (X_i-\bar{X})^2} \\
\end{align}
$$

また、$(10)$式の導出にあたっては$(7)$式を$n$で割る。
$$
\begin{align}
n \beta_1 + \left( \sum_{i=1}^{n} X_i \right) \beta_2 &= \sum_{i=1}^{n} Y_i \quad (7) \\
\beta_1 + \frac{1}{n} \left( \sum_{i=1}^{n} X_i \right) \beta_2 &= \frac{1}{n} \sum_{i=1}^{n} Y_i \\
\beta_1 + \bar{X} \beta_2 &= \bar{Y}
\end{align}
$$
上記より、下記で表される$(10)$式が導出できる。
$$
\begin{align}
\hat{\beta}_1 &= \bar{Y} – \hat{\beta}_2 \bar{X} \quad (10)
\end{align}
$$

一般化線形モデル

下記に詳しくまとめた。
https://www.amazon.co.jp/dp/B08FYMTYBW/

ベイズ線形回帰

下記に詳しくまとめた。
https://www.amazon.co.jp/dp/B08FYMTYBW/

t-SNE(Stochastic Neighbor Embedding)のアルゴリズムを把握する

t-SNEとは

t-SNE(t-distributed Stochastic Neighbor Embedding)は高次元空間に存在する点の散らばり具合を可視化するためによく使われる手法です.t-SNEでは,直接ユークリッド距離を再現するのではなく,確率密度を用いて「近接度」と呼ばれる距離を定義し,近接度に応じて3次元、又は2次元上に点を配置することで点を可視化します.

この記事では,t-SNEが具体的にどのようなアルゴリズムになっているか解説します.

アルゴリズム

t-SNEで重要となるのが「近接度」という概念です.t-SNEでは「近接度」を使って点同士の近さを表現し可視化します.
近接度の定義をまずは述べます.

定義(近接度)

今,$X=\{ x_1, \dots , x_n\} \in \mathbb{R}^N$が与えられたとします.各々の点$x_i$が「隣人」として$x_j$を選ぶ確率$p_{j|i}$を次のように定義します.
$$
p_{j|i} =
\begin{cases}
\displaystyle\frac{\exp (-||x_i – x_j||^2/2s_i^2)}{ \displaystyle\sum_{k\neq i}^n \exp (-||x_i – x_k||^2/2s_i^2)} & (i\neq j) \\
0& (i=j)
\end{cases}
$$
つまり,$x_i$を中心とする正規分布の$x_j$における確率密度として定義します.また,分散$s_i$は確率分布$P_i : j\mapsto p_{j|i}$のエントロピーがあらかじめ定めた定数$h$に等しくなるように定義します.$P_i$のエントロピー
$$
H(P_i) = – \sum_{j=1}^n p_{j|i} \log p_{j|i}
$$
は$s_i^2$について単調増加である為,$H(P_i)=h$となる$s_i$は一意に定まり,二分探索によって求めることが出来ます.

以上の記号を用いて,$i,j$間の近接度
$$
p_{ij}=\frac{p_{j|i}+p_{i|j}}{2n}
$$
と定義します.$\sum_{i,j} p_{ij}=1$である為,近接度$P : (i,j)\mapsto p_{ij}$はオブジェクト対$I\times I \ (I:={ 1,2,\dots , n})$上の確率密度とみなすことが出来ます.

定義(写像先の近接度)

高次元空間$\mathbb{R}^N$上の近接度が定義出来たところで,今度は写像先の空間(可視化するために落とし込む低次元空間)$\mathbb{R}^2$又は$\mathbb{R}^3$上の点$Y={ y_1, y_2 \dots y_n}$における近接度$Q$について定義します.
近接度$Q$は高次元空間の場合とは異なり,コーシー分布(自由度1のt-分布)の確率密度に基づいて定義します.このように定義する理由は,コーシー分布は正規分布と比較して裾が重い分布であり,これを利用して,写像元の高次元空間と写像先の低次元空間の性質の違いを吸収するのを狙うことにあります(※).$Q : (i,j)\mapsto q_{ij}$を
$$
q_{ij} =
\begin{cases}
\displaystyle\frac{(1+|| y_i – y_j ||^2)^{-1}}{\displaystyle\sum_{k,l k\neq l}^n(1+||y_k – y_l||^2)^{-1}} & (i\neq j) \\
0& (i=j)
\end{cases}
$$
と定義します.

可視化点の定め方

近接度 $P.Q$ の定義ができたところで,t-SNEのアルゴリズムは次のようになります.
$P.Q$はいずれも$I\times I$上の確率分布とみなせるので,カルバックライブラー情報量を用いて二つの分布間の乖離度を測ることが出来ます.
$$
\mathop{\rm KL}(P||Q)= \sum_{i,j=1}^n p_{ij} \log \frac{p_{ij}}{q_{ij}}
$$
このKL情報量が最小となるように$y_i \in Y$を求めるのが t-SNEのアルゴリズムです.$y_i$の最適化の手法としては一般の勾配降下法を用います.

参考文献

Visualizing Data using t-SNE
数理科学 2019年 06 月号 [雑誌] | |本 | 通販 | Amazon



※例えば,「次元の呪い」という言葉でよく知られている現象がある.各辺が1の立方体の対角線の長さを考えると,3次元では$\sqrt3 = 1.73\dots $に対し,100次元では$\sqrt100 = 10$となり距離は5倍以上になる.よって、高次元空間は低次元空間に比べ広がり具合が各段に大きいと考えられる.その為,低次元空間では裾の重い確率分布を採用し,その広がり具合を吸収しよう、というわけである.

連続型確率分布の数式まとめ(正規分布、指数分布、一様分布、ガンマ分布、カイ二乗分布 etc)

http://www.hello-statisticians.com/explain-terms-cat/prob_generating.html
上記では確率分布の様々な表記(確率密度関数、確率母関数など)について確認したが、当記事ではその表記に基づいて連続型確率分布のそれぞれの確率密度関数やモーメント母関数、期待値、分散などについて確認する。
当記事の作成にあたっては主に「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の第6章や「統計学実践ワークブック」の第$6$章の「連続型分布と標本分布」を参考にした。

連続型確率分布

正規分布

正規分布(normal distribution)の確率密度関数は下記のように表すことができる。
$$
\large
\begin{align}
f(x|\mu, \sigma^2) = \frac{1}{\sqrt{2 \pi}\sigma} \exp \left( – \frac{(x-\mu)^2}{2 \sigma^2} \right) \qquad (-\infty < x < \infty)
\end{align}
$$
また、定数$\displaystyle \frac{1}{\sqrt{2 \pi}\sigma}$は下記に基づいて与えられる。
$$
\begin{align}
\int_{-\infty}^{\infty} \exp \left( – \frac{(x-\mu)^2}{2 \sigma^2} \right) dx &= \frac{1}{\sqrt{2 \pi}\sigma} \\
\int_{-\infty}^{\infty} f(x|\mu, \sigma^2) dx &= 1
\end{align}
$$
ここで定数$\displaystyle \frac{1}{\sqrt{2 \pi}\sigma}$は規格化定数である。

次に正規分布の期待値$E[X]$と分散$V[X]$について考える。
・期待値
$$
\large
\begin{align}
E[X] &= \int_{-\infty}^{\infty} x \frac{1}{\sqrt{2 \pi}\sigma} \exp \left( – \frac{(x-\mu)^2}{2 \sigma^2} \right) dx \\
&= \mu \\
V[X] &= \int_{-\infty}^{\infty} (x-E[X])^2 \frac{1}{\sqrt{2 \pi}\sigma} \exp \left( – \frac{(x-\mu)^2}{2 \sigma^2} \right) dx \\
&= \sigma^2
\end{align}
$$
上記では結果のみ示したが、モーメント母関数を用いた正規分布の期待値$E[X]$と分散$V[X]$の導出の詳細は下記で取り扱った。
https://www.hello-statisticians.com/explain-terms-cat/norm_gen_func1.html

指数分布

指数分布の確率密度関数は$0<x$の範囲で下記のように表すことができる。
$$
\large
\begin{align}
f(x|\lambda) = \lambda e^{-\lambda x}
\end{align}
$$
上記の積分を考えると、下記のように確率密度関数の定義にある$\displaystyle \int_{0}^{\infty} f(x) dx = 1$を導出できる。
$$
\large
\begin{align}
\int_{0}^{\infty} f(x) dx &= \int_{0}^{\infty} \lambda e^{-\lambda x} dx \\
&= \lambda \int_{0}^{\infty} e^{-\lambda x} dx \\
&= \lambda \left[ \frac{e^{-\lambda x}}{-\lambda} \right]_{0}^{\infty} \\
&= \left[ -e^{-\lambda x} \right]_{0}^{\infty} \\
&= -(0-1) \\
&= 1
\end{align}
$$

次に指数分布の期待値$E[X]$と分散$V[X]$について考える。
・期待値
$$
\large
\begin{align}
E[X] &= \int_{0}^{\infty} x\lambda e^{-\lambda x} dx \\
&= \lambda \int_{0}^{\infty} xe^{-\lambda x} dx \\
&= \lambda \left[ \frac{1}{-\lambda} x e^{-\lambda x} \right]_{0}^{\infty} + \int_{0}^{\infty} e^{-\lambda x} dx \\
&= 0 + \left[ \frac{1}{-\lambda} e^{-\lambda x} \right]_{0}^{\infty} \\
&= \frac{1}{-\lambda}(0-1) \\
&= \frac{1}{\lambda}
\end{align}
$$

・分散
$$
\large
\begin{align}
V[X] &= \int_{0}^{\infty} (x-E[X])^2 \lambda e^{-\lambda x} dx \\
&= \lambda \left[ (x-E[X])^2 \frac{1}{-\lambda} e^{-\lambda x} \right]_{0}^{\infty} + 2\int_{0}^{\infty} (x-E[X]) e^{-\lambda x} dx \\
&= \lambda \left[ (x-E[X])^2 \frac{1}{-\lambda} e^{-\lambda x} \right]_{0}^{\infty} + 2\left[ \frac{1}{-\lambda} (x-E[X]) e^{-\lambda x} \right]_{0}^{\infty} + \frac{2}{\lambda} \int_{0}^{\infty} e^{-\lambda x} dx \\
&= \left[ -(x-E[X])^2 e^{-\lambda x} \right]_{0}^{\infty} + \frac{2}{-\lambda} \left[ (x-E[X]) e^{-\lambda x} \right]_{0}^{\infty} + \frac{2}{\lambda} \left[ \frac{1}{-\lambda} e^{-\lambda x} \right]_{0}^{\infty} \\
&= \frac{1}{\lambda^2} – \frac{2}{\lambda^2} + \frac{2}{\lambda^2} \\
&= \frac{1}{\lambda^2}
\end{align}
$$

・モーメント母関数
指数分布のパラメータ$\lambda$は$\lambda>0$で定められる。このとき$t < \lambda$の範囲で下記が成立する。
$$
\large
\begin{align}
m(t) &= E[e^{tX}] = \int_{0}^{\infty} e^{tx} \times \lambda e^{-\lambda x} dx \\
&= \lambda \int_{0}^{\infty} e^{-(\lambda-t) x} dx \\
&= \lambda \left[ -\frac{1}{\lambda-t} e^{-(\lambda-t) x} \right]_{0}^{\infty} \\
&= -\frac{\lambda}{\lambda-t} (0 – 1) \\
&= \frac{\lambda}{\lambda-t}
\end{align}
$$

上記で定めたモーメント母関数の変数$t$の定義域は$t < \lambda$であるが、$\lambda>0$より$t=0$の周辺を含む。モーメント母関数に関しては基本的に$t=0$の周辺のみを考えるので、上記をモーメント母関数に用いて問題ないことが確認できる。

また、指数分布を拡張した分布であるワイブル分布に関しては下記で詳しく取り扱った。
https://www.hello-statisticians.com/explain-terms-cat/weibul_distribution1.html

一様分布

一様分布は離散型、連続型の二通りのパターンがあるが離散型については取り扱われていることが多いので、ここでは連続型の一様分布について考える。

連続型の一様分布は下記のような確率密度関数で表すことができる。
$$
\large
\begin{align}
f(x|a,b) = \frac{1}{b-a}
\end{align}
$$
上記の積分を考えると、下記のように確率密度関数の定義にある$\displaystyle \int_{-\infty}^{\infty} f(x) dx = 1$を導出できる。
$$
\large
\begin{align}
\int_{-\infty}^{\infty} f(x) dx &= \int_{a}^{b} \frac{1}{b-a} dx \\
&= \left[ \frac{x}{b-a} \right]_{a}^{b} \\
&= \left( \frac{b}{b-a} \right) – \left( \frac{a}{b-a} \right) \\
&= \frac{b-a}{b-a} \\
&= 1
\end{align}
$$

次に連続型の一様分布の期待値$E[X]$と分散$V[X]$について考える。
・期待値
$$
\large
\begin{align}
E[X] &= \int_{-\infty}^{\infty} xf(x) dx \\
&= \int_{a}^{b} \frac{x}{b-a} dx \\
&= \left[ \frac{x^2}{2(b-a)} \right]_{a}^{b} \\
&= \left( \frac{b^2}{2(b-a)} \right) – \left( \frac{a^2}{2(b-a)} \right) \\
&= \frac{b^2-a^2}{2(b-a)} \\
&= \frac{(b+a)(b-a)}{2(b-a)} \\
&= \frac{a+b}{2}
\end{align}
$$

・分散
$V[X] = E[X^2]-(E[X])^2$が成立することを利用する方がシンプルなため、$E[X^2]$を先に計算する。
$$
\large
\begin{align}
E[X^2] &= \int_{-\infty}^{\infty} x^2f(x) dx \\
&= \int_{a}^{b} \frac{x^2}{b-a} dx \\
&= \left[ \frac{x^3}{3(b-a)} \right]_{a}^{b} \\
&= \left( \frac{b^3}{3(b-a)} \right) – \left( \frac{a^3}{3(b-a)} \right) \\
&= \frac{b^3-a^3}{3(b-a)} \\
&= \frac{(b-a)(b^2+ab+a^2)}{3(b-a)} \\
&= \frac{b^2+ab+a^2}{3}
\end{align}
$$

よって、$V[X]$は下記のように計算できる。
$$
\large
\begin{align}
V[X] &= E[X^2]-(E[X])^2 \\
&= \frac{b^2+ab+a^2}{3} – \left( \frac{a+b}{2} \right)^2 \\
&= \frac{b^2+ab+a^2}{3} – \frac{a^2+2ab+b^2}{4} \\
&= \frac{4b^2+4ab+4a^2}{12} – \frac{3a^2+6ab+3b^2}{12} \\
&= \frac{b^2-2ab+a^2}{12} \\
&= \frac{(b-a)^2}{12}
\end{align}
$$

また、一様分布を拡張した分布であると考えることのできるベータ分布に関しては下記で詳しく取り扱った。
https://www.hello-statisticians.com/explain-terms-cat/beta_distribution1.html

ガンマ分布・$\chi^2$分布

ガンマ分布(Gamma distribution)は指数分布を一般化したもので、次の確率密度関数で表すことができる。
$$
\large
\begin{align}
f(x) = \frac{\lambda^{\alpha}}{\Gamma(\alpha)} x^{\alpha-1}e^{-\lambda x} \qquad (x \geq 0)
\end{align}
$$
ここで$\alpha>0$である。また、ガンマ分布の重要な部分は$x^{\alpha-1}e^{-\lambda x}$であり、$\alpha=1$なら

ここで$\alpha>0$である。また、$\alpha$と$\lambda$で指定されるガンマ分布を$Ga(\alpha, \lambda)$で表す。ガンマ分布の重要な部分は$x^{\alpha-1}e^{-\lambda x}$であり、$\alpha=1$なら指数分布に一致する。

また、ガンマ分布$Ga(n/2, 1/2)$は自由度$n$の$\chi^2$分布と言われる。

・参考
ガンマ分布
https://www.hello-statisticians.com/explain-terms-cat/gamma_distribution1.html

コーシー分布

コーシー分布は下記の確率密度関数で表すことができる。
$$
\large
\begin{align}
f(x) = \frac{\alpha}{\pi} (\alpha^2 + (x-\lambda)^2) \qquad (\alpha > 0)
\end{align}
$$
コーシー分布は正規分布に近しい分布となるが、詳しく調べると全く違う分布である。

・参考
$t$分布とコーシー分布の対応
https://www.hello-statisticians.com/explain-terms-cat/t_dist1.html

標本分布

統計量の分布を標本分布といい、$\chi^2$分布、$t$分布、$F$分布などが主に用いられる。詳しくは下記で取りまとめを行なった。

$2$変量正規分布

$p$次元ベクトル$\mathbf{x}$に関する多次元正規分布$\mathcal{N}(\boldsymbol{\mu},\boldsymbol{\Sigma})$の確率密度関数を$f(\mathbf{x})$とおくと$f(\mathbf{x})$は下記のように表せる。
$$
\large
\begin{align}
f(\mathbf{x}) = \frac{1}{(2 \pi)^{\frac{p}{2}} |\boldsymbol{\Sigma}|^{\frac{1}{2}}} \exp{\left[ -\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}) \right]}
\end{align}
$$

以下、上記を元に$2$変量正規分布の確率密度関数を具体的に表す。下記のように$\mathbf{x}, \boldsymbol{\mu}, \boldsymbol{\Sigma}$を表す。
$$
\large
\begin{align}
\mathbf{x} &= \left( \begin{array}{c} x_1 \\ x_2 \end{array} \right) \\
\boldsymbol{\mu} &= \left( \begin{array}{c} \mu_1 \\ \mu_2 \end{array} \right) \\
\boldsymbol{\Sigma} &= \left( \begin{array}{cc} \sigma_1^2 & \rho \sigma_1 \sigma_2 \\ \rho \sigma_1 \sigma_2 & \sigma_2^2 \end{array} \right)
\end{align}
$$

このとき$|\boldsymbol{\Sigma}|$や$\boldsymbol{\Sigma}^{-1}$は下記のように表せる。
$$
\large
\begin{align}
|\boldsymbol{\Sigma}| &= \left| \begin{array}{cc} \sigma_1^2 & \rho \sigma_1 \sigma_2 \\ \rho \sigma_1 \sigma_2 & \sigma_2^2 \end{array} \right| \\
&= \sigma_1^2 \sigma_2^2 – \rho^2 \sigma_1^2 \sigma_2^2 \\
&= \sigma_1^2 \sigma_2^2 (1 – \rho^2) \\
\boldsymbol{\Sigma}^{-1} &= \frac{1}{|\boldsymbol{\Sigma}|} \left( \begin{array}{cc} \sigma_2^2 & -\rho \sigma_1 \sigma_2 \\ -\rho \sigma_1 \sigma_2 & \sigma_1^2 \end{array} \right) \\
&= \frac{1}{\sigma_1^2 \sigma_2^2 (1 – \rho^2)} \left( \begin{array}{cc} \sigma_2^2 & -\rho \sigma_1 \sigma_2 \\ -\rho \sigma_1 \sigma_2 & \sigma_1^2 \end{array} \right)
\end{align}
$$

上記に基づいて$(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})$は下記のように表せる。
$$
\large
\begin{align}
& (\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}) = \frac{1}{\sigma_1^2 \sigma_2^2 (1 – \rho^2)} \left( \begin{array}{cc} x_1-\mu_1 & x_2-\mu_2 \end{array} \right) \left( \begin{array}{cc} \sigma_2^2 & -\rho \sigma_1 \sigma_2 \\ -\rho \sigma_1 \sigma_2 & \sigma_1^2 \end{array} \right) \left( \begin{array}{c} x_1-\mu_1 \\ x_2-\mu_2 \end{array} \right) \\
&= \frac{1}{\sigma_1^2 \sigma_2^2 (1 – \rho^2)} \left( \begin{array}{cc} (x_1-\mu_1) \sigma_2^2 – (x_2-\mu_2) \rho \sigma_1 \sigma_2 & -(x_1-\mu_1) \rho \sigma_1 \sigma_2 + (x_2-\mu_2) \sigma_1^2 \end{array} \right) \left( \begin{array}{c} x_1-\mu_1 \\ x_2-\mu_2 \end{array} \right) \\
&= \frac{1}{\sigma_1^2 \sigma_2^2 (1 – \rho^2)} \left[ (x_1-\mu_1)^2 \sigma_2^2 – 2(x_1-\mu_1)(x_2-\mu_2) \rho \sigma_1 \sigma_2 + (x_2-\mu_2)^2 \sigma_1^2 \right] \\
&= \frac{1}{(1 – \rho^2)} \frac{(x_1-\mu_1)^2 \sigma_2^2 – 2(x_1-\mu_1)(x_2-\mu_2) \rho \sigma_1 \sigma_2 + (x_2-\mu_2)^2 \sigma_1^2}{\sigma_1^2 \sigma_2^2} \\
&= \frac{1}{(1 – \rho^2)} \left[ \left( \frac{x_1-\mu_1}{\sigma_1} \right)^2 – 2 \rho \left( \frac{x_1-\mu_1}{\sigma_1} \right) \left( \frac{x_2-\mu_2}{\sigma_2} \right) + \left( \frac{x_2-\mu_2}{\sigma_2} \right)^2 \right]
\end{align}
$$

よって$2$次元正規分布の確率密度関数を$f(x_1,x_2)$とおくと、$f(x_1,x_2)$は下記のように表せる。
$$
\large
\begin{align}
f(x_1,x_2) &= \frac{1}{(2 \pi)^{\frac{2}{2}} |\boldsymbol{\Sigma}|^{\frac{1}{2}}} \exp{\left[ -\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}) \right]} \\
&= \frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1 – \rho^2}} \exp{\left( -\frac{1}{2(1 – \rho^2)} \left[ \left( \frac{x_1-\mu_1}{\sigma_1} \right)^2 – 2 \rho \left( \frac{x_1-\mu_1}{\sigma_1} \right) \left( \frac{x_2-\mu_2}{\sigma_2} \right) + \left( \frac{x_2-\mu_2}{\sigma_2} \right)^2 \right] \right)} \quad (1)
\end{align}
$$

以下、$x_2$が得られた際の$x_1$の条件付き確率分布の期待値$E[X_1|X_2=x_2]$と分散$V[X_1|X_2=x_2]$の導出を行う。$(1)$式の$\exp$の項に対して下記のような$x_1$に関する平方完成を行う。
$$
\large
\begin{align}
& \exp{\left( -\frac{1}{2(1 – \rho^2)} \left[ \left( \frac{x_1-\mu_1}{\sigma_1} \right)^2 – 2 \rho \left( \frac{x_1-\mu_1}{\sigma_1} \right) \left( \frac{x_2-\mu_2}{\sigma_2} \right) + \left( \frac{x_2-\mu_2}{\sigma_2} \right)^2 \right] \right)} \\
&= \exp{\left( -\frac{1}{2(1 – \rho^2)} \left[ \frac{1}{\sigma_1^2}(x_1-\mu_1)^2 – 2 \frac{\rho}{\sigma_1 \sigma_2} (x_1-\mu_1) (x_2-\mu_2) + \left( \frac{x_2-\mu_2}{\sigma_2} \right)^2 \right] \right)} \\
&= \exp{\left[ -\frac{1}{2(1 – \rho^2)} \left( \frac{1}{\sigma_1^2}\left[ (x_1-\mu_1)^2 – 2 \rho \frac{\sigma_1}{\sigma_2} (x_1-\mu_1)(x_2-\mu_2) \right] + \left( \frac{x_2-\mu_2}{\sigma_2} \right)^2 \right) \right]} \\
&= \exp{\left[ -\frac{1}{2 \sigma_1^2 (1 – \rho^2)} \left( \left[ (x_1-\mu_1) – \rho \frac{\sigma_1}{\sigma_2} (x_2-\mu_2) \right]^2 + \mathrm{Const} \right) \right]} \\
&= \exp{\left[ -\frac{1}{2(1 – \rho^2)} \left( \left[ (x_1-(\mu_1 + \rho \frac{\sigma_1}{\sigma_2} (x_2-\mu_2) ) \right]^2 + \mathrm{Const} \right) \right]}
\end{align}
$$

よって$x_2$が得られた際の$x_1$の条件付き確率分布の期待値$E[X_1|X_2=x_2]$と分散$V[X_1|X_2=x_2]$は下記のように表せる。
$$
\large
\begin{align}
E[X_1|X_2=x_2] &= \mu_1 + \rho \frac{\sigma_1}{\sigma_2}(x_2-\mu_2) \\
V[X_1|X_2=x_2] &= \sigma_1^2 (1-\rho^2)
\end{align}
$$

多変量正規分布に関しては下記などで詳しく取り扱った。

対数正規分布

下記で詳しく取り扱った。

まとめ

当記事では連続型の確率分布について具体的に確認しました。特に正規分布、指数分布はよく出てくるため抑えておくと良いと思います。

推測統計を理解するにあたって知っておきたい点推定(point estimation)まとめ

点推定(point estimation)は観測値から推定値を求めることであるが、パターンが決まっている区間推定に比べて考えることが多く、詳しく理解しようとするとなかなか難しい。そこで当記事では点推定の基本的なトピックについてまとめることとした。
作成にあたっては、「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の11.1節〜11.4節を主に参考にした。

前提の整理

推定について

統計学の確率論との大きな違いの一つに、母集団の確率分布を決める定数である母数(parameter)を推定するかしないかが挙げられる。たとえば何らかの現象が正規分布$N(\mu,\sigma^2)$に従うことがわかっていても、$\mu$や$\sigma^2$のある程度の値がわからなければ意味がない。

推測統計学では実際の問題では未知である母集団の母数を標本$X_1, X_2, …, X_n$から求めることを行うが、このことを「母数の推定」と呼ぶ。また、標本平均$\bar{X}$や不偏標本分散$s^2$のように、母数を推定するにあたって標本から求めた統計量を一般に推定量(estimator)という。

実際の推定にあたっては母数を考えるにあたって母平均$\mu$や母分散$\sigma^2$のようにそれぞれに文字を与えるが、より一般的に議論する場合はこれらを総称して$\theta$とおくことは抑えておく必要がある。
また、母平均や母分散のような母数と標本から求める推定量は意味的に異なるため、それぞれ$\theta$と$\hat{\theta}$のように区別する。たとえば$\theta$が母平均のとき、$\theta$を推定するにあたって標本平均を下記のように表す。
$$
\begin{align}
\hat{\theta} = \frac{X_1+X_2+…+X_n}{n}
\end{align}
$$
一般的に$\hat{\theta}$は標本$X_1, X_2, …, X_n$の関数であるが、このことを特に強調するにあたって$\hat{\theta}(X_1, X_2, …, X_n)$のように表記することもある。また、複数の母数を同時に考える場合は母数$\theta_1, \theta_2, …, \theta_k$に関して、推定量$\hat{\theta}_1, \hat{\theta}_2, …, \hat{\theta}_k$のように表記することができる。

点推定と区間推定

点推定(point estimation)と区間推定(interval estimation)についてそれぞれ簡単にまとめると下記のようになる。

・点推定:母集団の未知の母数$\theta$をある一つの値$\hat{\theta}$で推定する方法
・区間推定:母数$\theta$の入る確率がある値(95%以上など)以上と保証される区間を求める方法

当記事のテーマは点推定であるので、以下点推定についてのみ確認する。点推定にあたっては、標本平均$\bar{X}$で母平均$\mu$の推定をするように、$\hat{\theta}$は$X_1, X_2, …, X_n$の関数となる。
この関数が推定量であるが、推定量$\hat{\theta}$が母数の$\theta$に一致せず、実際の推定にはなにがしかの誤差を伴うことを理解しておかねばならない。このような誤差を議論するにあたって、不偏推定量や一致推定量などの基準が出てくる。

点推定の考え方とその手順

推定量と推定値

少々紛らわしいが、推定量(estimator)はあくまで計算式の定義に用いられ、実際の標本の値に基づいて数字を計算した値は推定値(estimate)と呼ばれる。
$$
\begin{align}
\bar{X} = \frac{X_1+X_2+…+X_n}{n}
\end{align}
$$
たとえば上記のように確率変数$X_1$〜$X_n$に基づいて推定量を考えた際に、$X_1=x_1$〜$X_n=x_n$が標本で与えられて計算した値が推定値である。実際に観測されたサンプルから計算するのは推定値であり、推定量の取り得る値の一つが実現したと考えると良い。

ここで、どのような推定量を考えるかが重要であり、推定量の候補は多数存在する。この時に、計算される推定値をいかに真の母数の値に近いものにするかを考える基準が必要になるので、「点推定の基準」で後述する。

点推定の手順

モーメント法

モーメント法(method of moments)は母集団の1次モーメント$\mu_1$と2次モーメント$\mu_2$などを考えることによって、母数の推定を行う手法である。ここで標本からの推定量の$\hat{\mu}_1$と$\hat{\mu}_2$を下記のように考えることとする。
$$
\begin{align}
\hat{\mu}_1 &= \frac{1}{n} \sum_{i=1}^{n} X_i \\
\hat{\mu}_2 &= \frac{1}{n} \sum_{i=1}^{n} X_i^2
\end{align}
$$
ここで下記のように母モーメント$\mu_1$、$\mu_2$と標本モーメント$\hat{\mu}1$、$\hat{\mu}_2$がそれぞれ等しいと考える。
$$
\begin{align}
\mu_1 &= \hat{\mu}_1 \\
\mu_2 &= \hat{\mu}_2 \qquad (1)
\end{align}
$$
また、母モーメント$\mu_1$、$\mu_2$については下記が成立する。
$$
\begin{align}
\mu_1 &= \mu \\
\mu_2 &= \sigma^2+\mu^2 \qquad (2)
\end{align}
$$
$\mu_2 = \sigma^2 + \mu^2$は$\sigma^2 = E[X^2]-E[X]^2 = \mu_2-\mu^2$に基づいて導出が行える。ここまでの話に基づいて、$\mu$と$\sigma^2$の推定量$\hat{\mu}$と$\hat{\sigma^2}$は$(1)$式と$(2)$式より下記のように求めることができる。
$$
\begin{align}
\hat{\mu} &= \hat{\mu}_1 \\
&= \frac{1}{n} \sum{i=1}^{n} X_i \\
\hat{\sigma^2} &= \hat{\mu}_2 – \hat{\mu}^2 \\
&= \frac{1}{n} \sum_{i=1}^{n} X_i^2 – \left( \frac{1}{n} \sum_{i=1}^{n} X_i \right)^2 \\
&= \frac{1}{n} \sum_{i=1}^{n} (X_i-\bar{X})^2
\end{align}
$$

最尤法

最尤法は「現実の標本は確率最大のものが実現した」という仮定を用いた、最尤原理(principle of maximum likelihood)という考え方に基づく。
詳しくは下記でまとめたのでここでは省略する。
https://www.amazon.co.jp/dp/B08FYMTYBW/

点推定の基準

推定量(estimator)は一つと限らず、複数考えることができる。たとえば正規分布$N(\theta,\sigma^2)$について考えた際に、平均値の母数$\theta$を求めたいとする。このとき$\theta$を求めるにあたっては記述統計の代表値的な考え方に基づいて、いくつか推定方法がある。

・標本平均
・メディアン

代表値を求めるにあたっては標本平均とメディアンを求めるのが一般的である。これらはどれも母数$\theta$を考えるにあたっての推定量の候補となり得る。

このように一つの母数に関して推定量をいくつか考えることができるので、「どのような推定量を選ぶのが良いのか」に関する基準が必要となる。以下、4つの基準の「不偏性」、「一致性」、「漸近正規性」、「有効性」についてそれぞれ紹介する。

不偏性

「推定量$\hat{\theta}$が母数$\theta$の周辺に散布していなければならない」と考える際の基準の一つが不偏性である。不偏性は「推定量の期待値が母数の値となるか」について考える指標で、数式で表すと下記のようになる。
$$
\begin{align}
E[ \hat{\theta} ] = \theta
\end{align}
$$
上記が成り立つ推定量を不偏推定量(unbiased estimator)と呼ぶ。以下、標本平均、標本分散に関して不偏性を考える。
$$
\begin{align}
\bar{X} = \frac{1}{n}(X_1+X_2+…+X_n)
\end{align}
$$
上記のように定義した標本平均は$E[\bar{X}] = \mu$が成立するので母平均の不偏推定量である。

次に標本分散について考える。
$$
\begin{align}
s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i-\bar{X})^2
\end{align}
$$
上記のように定義した不偏標本分散に対して$E[ s^2 ] = \sigma^2$が成立するので、$s^2$が母分散の不偏推定量となる。

ここまで不偏推定量について確認したが、一般的に不偏でない推定量を用いることは偏りのある推定量を求めることになるので、望ましくないと考えておくと良い。

一致性

一致性は標本の大きさの$n$が大きくなるにしたがって、$n$によって変化する推定量$\hat{\theta}_n$が真の母数の値$\theta$に近づく性質である。これを数式で表すと以下のようになる。
$$
\begin{align}
\lim_{n \to \infty} P(|\hat{\theta}_n-\theta| > \epsilon) = 0 \qquad ({}^\forall \epsilon \in \mathbb{R})
\end{align}
$$
上記が成立する際に推定量$\hat{\theta}_n$を一致推定量(consistent estimator)と呼ぶ。確率収束の表記で表すこともあるがやや難しいのでここでは省略するものとする。
また、一致推定量を考えるにあたっては、標本平均$\bar{X}$が$n$が大きくなった際に「大数の法則」により母平均$\mu$の一致推定量となることを元に理解しておくとイメージがつかみやすい。

推定量を考えるにあたっては不偏性と一致性が最低限成立しなくてはならないことを抑えておくと良い。

漸近正規性

漸近正規性(asymptotic normality)は、「$n \to \infty$の際の漸近分布が中心極限定理を用いて正規分布となること」を意味する。中心極限定理を用いることで、標本平均$\bar{X}$の漸近分布が母集団分布に関係なく$N(\mu, \sigma^2/n)$になるが、このようなイメージで把握しておくと良い。

有効性

一つの母数に対して二つの推定量$\hat{\theta}$と$\tilde{\theta}$を考えた際に、どちらも「不偏推定量」かつ「一致推定量」であるとする。この際に不偏推定量は$E[\hat{\theta}] = \mu$、$E[\tilde{\theta}] = \mu$であるので、二つの推定量のうち分散が小さい方がより望ましい推定量であると考えることができる。
ここでいかなる不偏推定量よりも分散が小さい推定量が存在すれば、非常に望ましい推定量であるといえ、これを有効推定量(efficient estimator)や最小分散不偏推定量(minimum variance unbiased estimator)と呼ぶ。

具体的には、母集団分布が$N(\mu, \sigma^2)$の正規分布である場合は標本平均$\bar{X}$が$\mu$の有効推定量であるということが知られている。

点推定の例

正規分布に関する推定

詳しくは下記でまとめたのでここでは省略する。
https://www.amazon.co.jp/dp/B08FYMTYBW/

二項分布に関する推定

詳しくは下記でまとめたのでここでは省略する。
https://www.amazon.co.jp/dp/B08FYMTYBW/

ポアソン分布に関する推定

詳しくは下記でまとめたのでここでは省略する。
https://www.amazon.co.jp/dp/B08FYMTYBW/

一様分布に関する推定

ノンパラメトリックの場合

まとめ

当記事では点推定(point estimation)についてまとめました。「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の11.1節〜11.4節の記載が秀逸でしたので、詳しく確認したい方はこちらなどを参照すると良いと思います。

【具体例で解説】仮説検定の計算(二項検定、二つの母平均の差の区間推定)

この記事では具体例を用いて,仮説検定の基本的な考え方について解説します.

二項分布を使った検定(二項検定)

例:セールスマントークで使うフレーズの効果

セールストークにおいてフレーズAを使うことが商談成立に寄与しているかを考えます.
全ての商談は独立同一分布(つまり、同じセールストークを使った時の商談成功率はすべての商談で変わらない)とします.

問題設定

フレーズAを使わなかった時の商談成功率は$50$%であるとします.
フレーズAを使った時の商談$100$回試してみたところ,55回成功したとします.
この時,フレーズAは商談成立に効果のあるフレーズといえるでしょうか?
単純に比べると,フレーズAを使わなかっときは$50$%の成功率,フレーズAを使った時は$55$%なので,フレーズAを使うのが良いように見えます.ただ,これは試行回数が少ないだけで,たまたまフレーズAを使った場合がよかっただけかもしれません.

たまたま良かっただけなのか,本当に効果があるのか,二項検定で調べてみましょう.

計算

商談成功率はフレーズAを使った場合でも変わらず$50$%であるとします.このとき,$100$回のうち$55$回成功する確率は,

$$
{\rm 55回商談成功する確率} = {}_{100} C_{55} \cdot 0.5 ^{55} \cdot (1 – 0.5) ^{45} = 0.07958924
$$

となり,約$8$%です.同様に $56$回,$57$回…と計算して$100$回のうち$55$回以上商談が成功する確率を計算しましょう.すると次のようになります.
$$
{\rm 55回以上商談成功する確率} = \sum _{k=55}^{100} {}_{100} C_{k} \cdot 0.5 ^{k} \cdot (1 – 0.5) ^{100-k} = 0.184100808663348
$$
となり,約$18$%と出ました.確かに確率は低いですが,運が良ければあり得なくもない数字です.フレーズAを入れた場合の商談成功率が$50$%で変わっていなかったとしても,$55$回以上成功する事象はあり得ると考えた方がよさそうです,なので,この$100$回の試行ではフレーズAが商談成功に寄与するとは言えない(まだわからない) という結論になります.

$300$回試行した場合の計算

追加でさらに検証して,$300$回のうち$165$回商談が成功したという結果が得られたとしましょう.フレーズAは効果があるといえるでしょうか.上の計算と同様に,商談成功率$50$%で,$165$回以上成功する確率を計算してみます.すると,
$$
{\rm 165回以上商談成功する確率} = \sum _{k=165}^{300} {}_{300} C_{k} \cdot 0.5 ^{k} \cdot (1 – 0.5) ^{300-k} = 0.04695185
$$

となり,約$4.7$%とでました.もしフレーズAを入れた商談成功率が$50$%で変わっていなかった場合,$165$回以上成功する確率はかなり低いと言ってよさそうです.つまり,
商談成功率が変わっていなければあり得にくいことが起こっている
→商談成功率が変わっている(上がっている)と考えるのが自然
→フレーズAは商談成功に寄与している
といえることになります.

よって,今回の例では$300$回の試行でフレーズAが商談成功に寄与していると結論付けできました.

二つの母平均の差の区間推定

例:ある教材を使った時の生徒の成績

教材A,Bそれぞれを使った授業を受ける生徒の成績を$2$つの母集団として,どちらを使った方が良いのか,あるいはどちらを使っても変わらないのか推定することを考えましょう.

問題設定

教材Aを使った生徒$m$人で,それぞれの点数が$x_1, \cdots , x_m$,教材Bを使った生徒が$n$人で,それぞれの点数が$y_1, \cdots , y_n$とします.それぞれの平均を
$$
\begin{eqnarray}
\bar{x} &=& \frac{ \displaystyle \sum_{i=1}^m x_i}{n} \\
\bar{y} &=& \frac{ \displaystyle \sum_{i=1}^n y_i}{n}
\end{eqnarray}
$$
とします.このとき,$\bar{x}-\bar{y}$の差が$10$点だったとします.この$10$点は意味のある差で「教材Aを使った方がよい」のでしょうか.それともたまたまで教材Aと教材Bどちらを使っても良いのでしょうか.
ここで,教材Aを使ったときのテストの点数は平均$\mu _1$,分散$\sigma^2$,教材Bを使ったときのテストの点数は平均 $\mu _2$,分散$\sigma^2$ に従うものとします.

計算

正規分布に関する二つの事実を使います.
中心極限定理から,十分$n,m$が大きいとすると,$\bar{x}$はそれぞれ平均$\mu _1$,分散$\cfrac{\sigma^2}{m}$の正規分布$\bar{y}$はそれぞれ平均$\mu _2$,分散$\cfrac{\sigma^2}{n}$の正規分布に(法則)収束します.
また,正規分布の和は正規分布になることが知られています.これを利用すると,$\delta = \bar{x}-\bar{y}$の平均は$\mu _1 – \mu _2$,分散は$\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}$ですから,$\delta$は平均は$\mu _1 – \mu _2$,分散は$\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}$の正規分布に従います.
このことを利用して検定してみましょう.

実際は教材Aと教材Bどちらを使っても変わらないときを考えましょう.もし変わらないのであれば,平均はどちらも同じということです.つまり
$$
\mu _1 = \mu _2
$$
です.このとき,$\delta$は平均$0$,分散$\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}$の正規分布に従います.今,$\delta=10$であったので,この値が正規分布$\mathcal{N}\left(0,\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}\right)$において起こりやすい値なのか,起こりにくい値なのかを調べれば良さそうです.

ここで,何をもって「起こりやすい」,「起こりにくい」とみなすのか整理しておきましょう.今考えている分布は正規分布なので,一番起こりうる値は平均$0$からどれくらい離れているかで考えると良さそうです.$0$を中心とした区間$[-a, a]$で
$$
\int_{-a}^a \phi (x) dx = 0.95
$$
ここで,$\phi (x)$は$\mathcal{N}\left(0,\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}\right)$の確率密度関数としました.
上式を満たす$a$をとり,区間$[-a, a]$に入るかどうかで判定するのが良さそうです.つまり,区間$[-a, a]$に入っていればそれは$95$%の確率で起こりうる事象の範疇であるから「起こりやすい」,$[-a, a]$に入っていなければそれは$5$%の確率で起こりうる事象の範疇であるから「起こりにくい」とするわけです.
正規分布の標準偏差が$\sigma$の場合は,この$a$は約$1.96\sigma$であることが知られています.今,標準偏差は$\sqrt{\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}}$なので,
$$
\begin{eqnarray}
\deltaが\left[ -1.96\sqrt{\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}},1.96\sqrt{\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}} \ \right]内に入っているなら起こりやすい \\
\deltaが\left[ -1.96\sqrt{\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}},1.96\sqrt{\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}} \ \right]内に入っていないなら起こりにくい
\end{eqnarray}
$$
と判断すると良いことになります.これで何をもって「起こりやすい」,「起こりにくい」とみなすのかはっきりと示すことができました.

さて,準備が整ったところで具体的な計算に移っていきましょう.$\sigma = 20$,$m=n=100$のときを考えましょう.すると上で求めた区間は
$$
\left[ -1.96\sqrt{\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}},1.96\sqrt{\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}} \ \right] = [-5.534… , 5.534…]
$$
となります.プラスマイナス約$5.5$点の範囲であれば誤差といえるようです.今,平均の点の差は$10$点であったので,起こりにくいということになります.つまり,
教材Aと教材Bを使った時の平均が同じであるとすると起こりにくいことが起こっている
→教材Aと教材Bを使った時の平均が同じでないとするのが妥当
→平均の高かった教材Aをつかう方が生徒の成績が上がる

といえることになります.

よって今回の例では教材Aを使うべき,と結論付け出来ました.

まとめ

以上が仮説検定の素朴な適用方法になります.仮説検定の手法は色々ありますが,考え方は同じで,次の$3$ステップで計算を行います.

  1. ある仮定をして(この仮定を帰無仮説といいます),
  2. その仮定の下で今起こっている事象がレアな事象なのかどうかを判定し(今回は信頼水準$95$%で判定)
  3. レアな事象と判定できれば最初の仮定を否定できる(このことを信頼水準$95$%で帰無仮説を棄却できた、といいます)

尚,この記事では帰無仮説,有意水準,棄却といった言葉は使わずに書きました.これらの用語が上の例でいうとどこに該当するか考えると更に理解が深まると思います.

幾何分布を用いた試行回数の期待値計算|統計学の応用例を考える【1】

教科書的なトピックを確認するだけではなかなかイメージをつかむのが大変なので、統計学の応用についてのコラムを取りまとめることとしました。第一回は幾何分布を用いた試行回数の期待値計算について取り扱います。
幾何分布を用いた試行回数の期待値計算は、「カードを全種類集める際に必要な試行回数」を考える際にも用いることができるので、応用事例はかなり多くなかなか面白いのではないかと思います。

事前知識の確認

幾何分布について復習

https://www.hello-statisticians.com/explain-terms-cat/probdist1.html
幾何分布について詳しくは上記で取り扱いました。確率変数を$X$、確率関数を$P(X=k|p)$、期待値を$E[X]$とすると、確率関数と期待値はそれぞれ下記のように表すことができます。
$$
\begin{align}
P(X=k|p) &= p(1-p)^{k-1} \\
E[X] &= \frac{1}{p}
\end{align}
$$
今回の内容は事象が起こる確率$p$のベルヌーイ試行を繰り返した際に、最初に事象が観測される際の試行回数の期待値を求めることに関連するので、上記の$\displaystyle E[X] = \frac{1}{p}$が要所要所の導出で用いられます。

基本的な考え方

当記事では具体的な問題に対して幾何分布を用いて試行回数の期待値を計算を行いますが、基本的な計算のパターンは同じなので、先に簡単に取りまとめを行います。$5$種類のカードがそれぞれ同じ確率$\displaystyle \frac{1}{5}$で得られる際に、コンプリートするにはどのくらいの試行回数が必要かを考えます。

このようなことを考えるにあたっては、$0$種類から$1$種類、$1$種類から$2$種類、…、$4$種類から$5$種類、のように手持ちの種類の移行に伴ってそれぞれ個々に期待値を考えるとします。この時、$0$種類から$1$種類に移行する際はどのカードを引いても良いので確率$p=1$で移行します。よって、この期待値は$\displaystyle E[X] = \frac{1}{p} = \frac{1}{1} = 1$となります。次に$1$種類から$2$種類へと移行する際は手持ちの$1$種類以外の4種類のカードを引ければ良いので、確率$\displaystyle p = \frac{4}{5}$で移行します。この期待値は$\displaystyle E[X] = \frac{1}{p} = \frac{1}{4/5} = \frac{5}{4}$です。
同様に$2$種類から$3$種類の場合は$\displaystyle E[X] = \frac{5}{3}$、$3$種類から$4$種類の場合は$\displaystyle E[X] = \frac{5}{2}$、$4$種類から$5$種類の場合は$\displaystyle E[X] = \frac{5}{1} = 5$のように計算することができます。

応用事例では、このような考え方に基づいて具体的な事例を確認します。

応用事例

カードのコンプリート①

カードのコンプリートの事例は前述でも取り扱いましたが、より具体的な問題設定に基づいて考えようと思います。
以下、レアカード10種、ノーマルカード50種のカードパックがあり、1枚のレアカードと9枚のノーマルカードが入った1パック10枚を300円で購入できる際に、カードコンプリートのために必要な所持金の期待値を考えます。レアカード10種とノーマルカード50種はそれぞれ同じ確率で得られると考えます。

このことを考えるにあたっては、レアカードとノーマルカードの試行回数の期待値をそれぞれ算出し、ノーマルカードは1パックあたりの9で割り、パック数の期待値を計算し、300円をかけて予算を計算することができます。まずはレアカード10種について考えます。
$$
\begin{align}
\sum_{i=1}^{10} \frac{1}{(11-i)/10} &= \sum_{i=1}^{10} \frac{10}{11-i} \\
&= \frac{10}{10} + \frac{10}{9} + \frac{10}{8} + … + \frac{10}{2} + \frac{10}{1} \\
&= 29.289…
\end{align}
$$
次にノーマルカード50種について考えます。
$$
\begin{align}
\sum_{i=1}^{50} \frac{1}{(51-i)/50} &= \sum_{i=1}^{10} \frac{50}{51-i} \\
&= \frac{50}{50} + \frac{50}{49} + \frac{50}{48} + … + \frac{50}{1} \\
&= 224.96…
\end{align}
$$
上記を9で割ると、$24.995…$のようになるので、レアカード10種の方がお金がかかることになります。

よって必要な予算の期待値は$29.289… \times 300 = 8786.90…$円となります。

カードのコンプリート②

ここではレアカード5種、ノーマルカード25種の1パック10枚300円のカードパックが2つある際に、2つのカードパックのカードをコンプリートするために必要な所持金の期待値を考えるとします。これは①の類題で、2種のカードパックを交互に購入すると考えるなら①とほぼ同様な期待値になる一方で、②ではコンプリートできた時点でカードパックを購入するのをやめることができます。このことによって、直感的にはカードのコンプリートのためのコストが下がるであろうことが推測できます。
まずはレアカード5種について考えます。
$$
\begin{align}
2 \times \sum_{i=1}^{5} \frac{1}{(6-i)/10} &= 2\sum_{i=1}^{5} \frac{5}{6-i} \\
&= 2\left( \frac{5}{5} + \frac{5}{4} + \frac{5}{3} + \frac{5}{2} + \frac{5}{1} \right) \\
&= 22.833…
\end{align}
$$
次にノーマルカード25種について考えます。
$$
\begin{align}
2 \times \sum_{i=1}^{25} \frac{1}{(26-i)/25} &= \sum_{i=1}^{25} \frac{25}{26-i} \\
&= 2\left( \frac{25}{25} + \frac{25}{24} + \frac{25}{23} + … + \frac{25}{1} \right) \\
&= 190.79…
\end{align}
$$
上記を9で割ると$21.199…$のようになるため、レアカード5種のみを考えれば良いことになります。

よって必要な予算の期待値は$22.833… \times 300 = 6850.0…$円となり、①の際よりもカードのコンプリートにあたっての予算が少なくなります。

個別購入かカードパックの購入か

①と同様なカードパックの購入を検討する時に、手に入れたいレアカードは1種のみである状況を考えます。一方で、そのカードの新品が$2500$円で購入することができるとした際に、「個別で購入するのが良いかカードパックの購入が良いか」について考察を行います。

手に入れたいレアカードを手に入れられる確率は$\displaystyle p=\frac{1}{10}$なので、手に入れるにあたっての試行回数の期待値は下記のように計算できます。
$$
\begin{align}
E[X] &= \frac{1}{p} \\
&= \frac{1}{1/10} \\
&= 10
\end{align}
$$
よって、手に入れたいカードをカードパックの購入で手に入れるにあたっての予算は$3000$円程度となると考えておけば良く、これは個別購入の$2500$円を上回ります。

一方で、手に入れたいレアカードが2種ある際は、試行回数の期待値は下記のようになります。
$$
\begin{align}
\frac{1}{1/10} + \frac{1}{2/10} &= 10+5 \\
&= 15
\end{align}
$$
この時予算の期待値は$4500$円となりますが、個別で2枚のカードを購入するにあたっては$5000$円必要なので、手に入れたいレアカードの枚数によって個別購入が良いかカードパックの購入が良いかが異なることに注意が必要です。

まとめ

k標本問題の解法(母平均の差の検定、1元配置分散分析、2元配置分散分析)

異なる母集団からの標本を仮定した際にそれぞれを比較するというのは統計学を利用するニーズとしては大きい。入門書では$2$標本の母平均の差や母比率の比に関して区間推定や検定が行われるが、これをk個の母集団に拡張して考えたい場合もある。
このときに出てくるのが集団を区別するのに用いる因子(factor)という概念であり、因子の値(水準)に基づいて標本を分け比較を行う。本稿ではこのような複数の標本が存在する際の取り扱いの手法について取りまとめる。内容作成にあたっては「自然科学の統計学」の$3$章の「実験データの分析」を主に参考にした。

前提の確認

$2$標本問題

「$2$標本問題(two-sample problem)」は何らかの処理を施した「処理群(treatment group)」とそうでない「対照群(control group)」や、異なる地点での気温のように、$2$つの対象の比較(comparison)を行う問題である。
https://www.hello-statisticians.com/explain-terms-cat/flow_chart_stat1.html
基本的には上記などでまとめた$2$標本の「母平均の差」や「母分散の比」などの考察によって2つの推測を行うと考えておけば良い。

「母平均の差」、「母分散の比」の推定・検定

「基礎統計学Ⅰ 統計学入門」の$11.5.2$節、$12.2.3$節、$12.2.4$節、「自然科学の統計学」の3.1節が参考になる。
https://www.hello-statisticians.com/explain-terms-cat/flow_chart_stat1.html
上記でまとめた内容を理解しておけば十分だと思われるため当稿では省略する。

利用する確率分布

$\chi^2$分布

「基礎統計学Ⅰ 統計学入門」の$10.3$節などを参考に以下取りまとめる。標準正規分布$N(0,1)$に独立に従う確率変数$Z_1, Z_2, …, Z_k$を考える。
$$
\large
\begin{align}
\chi^2 = Z_1^2 + Z_2^2 + … + Z_k^2
\end{align}
$$
このとき上記のように確率変数$\chi^2$を定義した際に、$\chi^2$が従う確率分布を自由度$k$の$\chi^2$分布とし、$\chi^2(k)$のように表す。

$\chi^2$分布では推測統計において抽出した標本の分散を扱う時に必ず出てくる確率分布である。以下、正規母集団からの標本$X_1, X_2, …, X_n$の不偏標本分散$s^2$と$\chi^2$分布の関係について具体的に確認する。まず、不偏標本分散$s^2$は下記のように計算される。
$$
\large
\begin{align}
s^2 = \frac{1}{n-1} \left( (X_1-\bar{X})^2 + (X_2-\bar{X})^2 + … + (X_n-\bar{X})^2 \right) \quad (1)
\end{align}
$$
上記において、$\bar{X}$は標本の平均であるとする。この時$(1)$の両辺に$\displaystyle \frac{n-1}{\sigma^2}$をかけると下記のようになる。
$$
\large
\begin{align}
\frac{(n-1)s^2}{\sigma^2} &= \frac{1}{\sigma^2} \left( (X_1-\bar{X})^2 + (X_2-\bar{X})^2 + … + (X_n-\bar{X})^2 \right) \\
&= \left( \frac{X_1-\bar{X}}{\sigma} \right)^2 + \left( \frac{X_2-\bar{X}}{\sigma} \right)^2 + … + \left( \frac{X_n-\bar{X}}{\sigma} \right)^2
\end{align}
$$
上記において$\bar{X}$を$\mu$に置き換えると考えれば標準正規分布の二乗和となり、厳密な証明ではないが$\displaystyle \chi^2 = \frac{(n-1)s^2}{\sigma^2}$が自由度$n-1$の$\chi^2$分布$\chi^2(n-1)$に従うことと対応づけて抑えておくと良い。

上記のように$\displaystyle \chi^2 = \frac{(n-1)s^2}{\sigma^2}$を考え、自由度$n-1$の$\chi^2$分布$\chi^2(n-1)$と見比べることで母分散に関する区間推定や検定を行うことが可能である。

$F$分布の概要

$F$分布は標本分散の比やフィッシャーの分散分析を行う際に用いられる分布である。ここでは$F$分布の概要について確認する。

(a) 確率変数$U$が自由度$k_1$の$\chi^2$分布$\chi^2(k_1)$に従う。
(b) 確率変数$V$が自由度$k_2$の$\chi^2$分布$\chi^2(k_2)$に従う。
(c) $U$と$V$が独立である。

確率変数$U$と$V$が上記の条件を満たすとした際に、$U$と$V$をそれぞれの自由度$k_1$と$k_2$で割って調整した後にとったフィッシャーの分散比を下記のように定義する。
$$
\large
\begin{align}
F = \frac{U/k_1}{V/k_2}
\end{align}
$$
上記で定義した$F$は自由度$(k_1, k_2)$の$F$分布$F(k_1,k_2)$に従う。また、このとき$F$分布において上側確率が$100\alpha$%となるパーセント点に対応する$F$の値を$F_{\alpha}(k_1,k_2)$とすると、$F_{\alpha=0.05}(k_1,k_2)$、$F_{\alpha=0.01}(k_1,k_2)$、$F_{\alpha=0.025}(k_1,k_2)$、$F_{\alpha=0.005}(k_1,k_2)$などが$F$分布の表から読み取ることができる。$k_1$と$k_2$に関しては分子の確率変数を割るのが$k_1$、分母の確率変数を割るのが$k_2$と抑えておくと良い。

さらにここで注意しておくと良いのが、$F$分布の表を考える際に$\alpha=0.05$や$\alpha=0.025$の表がある一方で、$\alpha=0.95$や$\alpha=0.975$の表がないことである。これは$F$値が確率変数の比を用いて計算することから、下記の対応が成立することを用いて計算すればよい。
$$
\large
\begin{align}
F_{\alpha=0.95}(k_1,k_2) &= 1/F_{\alpha=0.05}(k_2,k_1) \\
F_{\alpha=0.975}(k_1,k_2) &= 1/F_{\alpha=0.025}(k_2,k_1)
\end{align}
$$

$F$分布を用いた母分散比の区間推定と等分散の検定

$F$分布は分散比の区間推定や等分散の検定を行うなどに用いることができる。具体的に考える方がわかりやすいので、ここではそれぞれ標本数が$m$と$n$である二つの標本の標本分散$s_1^2$、$s_2^2$の比について等分散の検定を行うことを考える。ここで下記が成立する。

i) $\displaystyle \frac{(m-1)s_1^2}{\sigma_1^2}$は自由度$m-1$の$\chi^2$分布$\chi^2(m-1)$に従う。
ⅱ) $\displaystyle \frac{(n-1)s_2^2}{\sigma_2^2}$は自由度$m-1$の$\chi^2$分布$\chi^2(n-1)$に従う。
ⅲ) $s_1^2$と$s_2^2$は独立である。

上記に基づいて$F$値を計算すると下記のようになる。
$$
\large
\begin{align}
F &= \frac{\frac{(m-1)s_1^2}{\sigma_1^2}/(m-1)}{\frac{(n-1)s_2^2}{\sigma_2^2}/(n-1)} \\
&= \frac{s_1^2/\sigma_1^2}{s_2^2/\sigma_2^2} \\
&= \frac{\sigma_2^2}{\sigma_1^2} \cdot \frac{s_1^2}{s_2^2}
\end{align}
$$
上記が自由度$(m-1,n-1)$の$F$分布$F(m-1,n-1)$に従う。このとき母分散の比の区間推定にあたって、95%の両側区間は下記のように計算できる。
$$
\large
\begin{align}
F_{\alpha=0.975}(k_1,k_2) \leq &F \leq F_{\alpha=0.025}(k_1,k_2) \\
\frac{1}{F_{\alpha=0.025}(k_2,k_1)} \leq &F \leq F_{\alpha=0.025}(k_1,k_2) \\
\frac{1}{F_{\alpha=0.025}(k_2,k_1)} \leq &\frac{\sigma_2^2}{\sigma_1^2} \cdot \frac{s_1^2}{s_2^2} \leq F_{\alpha=0.025}(k_1,k_2) \\
\frac{1}{F_{\alpha=0.025}(k_2,k_1)} \frac{s_2^2}{s_1^2} \leq &\frac{\sigma_2^2}{\sigma_1^2} \leq F_{\alpha=0.025}(k_1,k_2)\frac{s_2^2}{s_1^2}
\end{align}
$$

次に、母分散の値が「$\sigma_1^2=\sigma_2^2$のように等しい」を帰無仮説と考える、等母分散の検定について確認する。
$$
\large
\begin{align}
F &= \frac{\sigma_2^2}{\sigma_1^2} \cdot \frac{s_1^2}{s_2^2} \\
&= \frac{s_1^2}{s_2^2}
\end{align}
$$
等母分散を仮定すると$F$値は上記のように求めることができる。この際に95%で両側検定すると考えるとすると、下記が成立するかを調べれば良いことがわかる。
$$
\large
\begin{align}
\frac{1}{F_{\alpha=0.025}(k_2,k_1)} \leq \frac{s_1^2}{s_2^2} \leq F_{\alpha=0.025}(k_1,k_2)
\end{align}
$$
上記が成立すれば帰無仮説を棄却できないため、等母分散であると考えることができる。一方、上記が成立しなければ帰無仮説を棄却し、等母分散を仮定できないことになる。

和の二乗の展開

統計学では$(a+b)^2=a^2+b^2+2ab$のように和の二乗を展開する計算がよく出てくる。この際に、問題の前提から$ab$に何らかの計算が行える場合が多く、これに基づいて分解を考えることが多い。分散に関する$V[X]=E[(X-E[X])^2]=E[X^2]-E[X]^2$がわかりやすい具体例である。
$$
\large
\begin{align}
V[X] &= E[(X-E[X])^2] \\
&= E[X^2-2XE[X]+E[X^2]] \\
&= E[X^2]-2E[XE[X]]+E[X^2] \\
&= E[X^2]-2E[X^2]+E[X^2] \\
&= E[X^2]-E[X^2]
\end{align}
$$

$k$標本問題

$3$つ以上の標本の比較は「$k$標本問題($k$-sample problem)」と考えられる。$n$個の集団の母集団平均$\mu_1, \mu_2, …, \mu_n$の比較にあたっては分散分析(ANOVA; analysis of variance)が基本的な役割を果たす。
このとき集団の区別にあたって用いる指標を因子(factor)と呼ぶ。カテゴリ変数を知っているならカテゴリ変数と同様であると考えるとわかりやすい。また、因子の値を水準(level)と呼ぶ。これはカテゴリ変数の値と対応させておくとよい。
説明だけだとわかりにくいので、具体的に考える。例えば「ストレートの平均球速」と「防御率」の関係を考えるにあたって、「ストレートの平均球速」を因子とすると、「$140$km/h」、「$145$km/h」、「$150$km/h」が水準となる。このとき、各集団における「防御率の母平均」の比較を行うにあたって分散分析を用いることができる。

分散分析について把握するにあたっては、因子が$1$つある「$1$元配置分散分析」と因子が2つの「2元配置分散分析」の二つについて抑えておくとよい。以下、それぞれについて確認する。

$1$元配置分散分析

問題設定

$1$元配置分散分析の問題設定について確認する。いくつかの数式を用いて必要事項の定義を行う。まず、因子に対応する水準を$A_1$〜$A_m$とし、各水準におけるサンプルの数を$n_1$〜$n_m$、サンプルの標本平均をそれぞれ$\hat{\mu}_1$〜$\hat{\mu}_m$、母平均を$\mu_1$〜$\mu_m$とおく。 また、サンプル全体の数を$n$、サンプル全体の標本平均を$\hat{\mu}$、母平均の一般平均を$\mu$とおく。この際に$A_i$水準の$j$番目のサンプル$y{ij}$は$N(0,\sigma^2)$に従う実験誤差$\epsilon_{ij}$を用いて下記のように表すことができる。
$$
\large
\begin{align}
y_{ij} = \mu_i + \epsilon_{ij} \qquad (1)
\end{align}
$$
また、各水準の平均$\mu_i$から一般平均$\mu$を引いたものがそれぞれの水準の実質的な値となり、これを水準$A_i$の効果$\alpha_i$と呼び、下記のような数式で表すことができる。
$$
\large
\begin{align}
\alpha_i = \mu_i – \mu
\end{align}
$$
これにより$(1)$式は下記のように表すことができる。
$$
\large
\begin{align}
y_{ij} = \mu + \alpha_i + \epsilon_{ij}
\end{align}
$$
上記は「(共通の効果)+(第$i$水準の効果)+(それ以外の誤差)」という形式であると理解すればよい。

$1$元配置分散分析の実行

$1$元配置分散分析では、前項のような問題設定が与えられた際に、下記の仮説について検定を行う。
$$
\large
\begin{align}
&H_0: \quad \mu_1 = \mu_2 = … = \mu_m \\
&H_1: \quad H_0が成立しない
\end{align}
$$

前項の$(1)$にあてはめたときの誤差平方和$S_e$を下記のように考える。$$
\large
\begin{align}
S_e = \sum_{i=1}^{m} \sum_{j=1}^{n_i} (y_{ij}-\hat{\mu}_i)^2
\end{align}
$$
上記より、$S_e/\sigma^2$は自由度$\nu_e = n – m$の$\chi^2$分布にしたがう。

また、下記のように級間平方和$S_A$を定義する。
$$
\large
\begin{align}
S_A = \sum_{i=1}^{m} n_i (\hat{\mu}_i-\hat{\mu})^2
\end{align}
$$
ここで$S_e$と$S_A$は独立で、帰無仮説$H_0$が成立するなら$S_A/\sigma^2$は自由度$\nu_A = m-1$の$\chi^2$分布にしたがう。
$$
\large
\begin{align}
F = \frac{S_A/\nu_A}{S_e/\nu_e} \qquad (2)
\end{align}
$$
上記のように$F$値を定義すると、$F$は$F(\nu_A,\nu_e)$に従う。これを用いて帰無仮説$H_0$について検定を行うのが1元配置分散分析検定(1 way layout Analysis of Variance Test)である。
また、このとき$(2)$式がフィッシャーの線形判別の際に評価指標に用いた「群間分散/群内分散」の比と同様な式であることも抑えておくと良い。
https://www.hello-statisticians.com/explain-terms-cat/linear_discriminant1.html#i-6

$2$元配置分散分析

問題設定

$2$元配置分散分析の問題設定について確認する。いくつかの数式を用いて必要事項の定義を行う。まず、因子に対応する水準を$A_1$〜$A_a$、$B_1$〜$B_b$とし、各水準におけるサンプルの数を$r$、サンプルの標本平均をそれぞれ$\hat{\mu}_{11}$〜$\hat{\mu}_{ab}$、母平均を$\mu_{11}$〜$\mu_{ab}$とおく。 また、サンプル全体の数を$n=abr$、サンプル全体の平均を$\hat{\mu}$、母平均を$\mu$とおく。この際に$A_i$水準かつ$B_j$水準の$k$番目のサンプル$y_{ijk}$は$N(0,\sigma^2)$に従う実験誤差$\epsilon_{ijk}$を用いて下記のように表すことができる。
$$
\large
\begin{align}
y_{ijk} = \mu_{ij} + \epsilon_{ijk} \qquad (3)
\end{align}
$$

ここでAに関しての各水準の平均$\mu_i$やBに関しての各水準の平均$\mu_j$から一般平均$\mu$を引いたものがそれぞれの水準の実質的な値となり、これを水準$A_i$の効果$\alpha_i$、水準$B_i$の効果$\beta_j$と呼び、下記のような数式で表すことができる。
$$
\large
\begin{align}
\alpha_i &= \mu_i – \mu \\
\beta_j &= \mu_j – \mu \qquad (4)
\end{align}
$$

また、下記のように因子AとBの主効果(main effect)の$(\alpha\beta)_{ij}$を定義する。
$$
\large
\begin{align}
(\alpha\beta)_{ij} &= \mu_{ij} – (\mu + \alpha_i + \beta_j) \\
&= \mu_{ij} – (\mu + \mu_i – \mu + \mu_j – \mu) \\
&= \mu_{ij} – \mu_i – \mu_j + \mu \qquad (5)
\end{align}
$$

$(4)$式、$(5)$式により$(3)$式は下記のように表すことができる。
$$
\large
\begin{align}
y_{ij} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \epsilon_{ijk}
\end{align}
$$
上記は「(一般平均)+(因子$A$の効果)+(因子$B$の効果)+(因子$AB$の交互作用)+(それ以外の誤差)」という形式であると理解すればよい。

$2$元配置分散分析の実行

誤差平方和$S_e$を下記のように考える。
$$
\large
\begin{align}
S_e = \sum_{i=1}^{m} \sum_{j=1}^{n_i} (y_{ij}-\hat{\mu}_i)^2
\end{align}
$$
上記の自由度は$\nu_e=ab(r-1)$である。

また、下記のように$S_A$、$S_B$、$S_{AB}$を定義する。
$$
\large
\begin{align}
S_A &= br\sum_{i=1}^{a} (\hat{\mu}_i-\hat{\mu})^2 \\
S_B &= ar\sum_{j=1}^{b} (\hat{\mu}_j-\hat{\mu})^2 \\
S_{A \times B} &= r \sum_{i=1}^{a} \sum_{j=1}^{b} (\hat{\mu}_{ij}- \hat{\mu}_i – \hat{\mu}_j + \hat{\mu})^2
\end{align}
$$
上記の自由度はそれぞれ$\nu_A=a-1$、$\nu_B=b-1$、$\nu_{A \times B} = (a-1)(b-1)$である。

ここまでの定義に基づいて、$S_A$、$S_B$、$S_{AB}$についてそれぞれ$S_e$を用いて$F$値を計算し、$1$元配置と同様に因子$A$の効果、因子$B$の効果、因子$AB$の交互作用についてそれぞれ$F$検定を行う。

まとめ

$k$標本問題の解法について取り扱いました。分散分析(ANOVA; Analysis of Variance)について理解するのは少々難しい印象でしたが、導出方法だけは抑えておくと良さそうでした。

https://www.amazon.co.jp/dp/4130420674

多次元正規分布と二次形式(Mahalanobis distance)の直感的な理解

多次元正規分布(Multidimensional normal distribution)の式を理解するにあたっては二次形式の理解が重要となる。当記事では「パターン認識と機械学習」の$2.3$節の記載を参考に、多次元正規分布を二次形式の視点から確認するものとする。

前提の理解

直交行列の概要

$\mathbf{U}$を$n$行$n$列の行列、$\mathbf{I}$を$n$行$n$列の単位行列とする。この際に、以下が成立する$\mathbf{U}$は直交行列と呼ばれる。
$$
\large
\begin{align}
\mathbf{U}\mathbf{U}^{\mathrm{T}} = \mathbf{U}^{\mathrm{T}}\mathbf{U} = \mathbf{I}
\end{align}
$$

上記は逆行列の定義式$\mathbf{U}\mathbf{U}^{-1} = \mathbf{U}^{-1}\mathbf{U} = \mathbf{I}$と同様の形式だが、逆行列の定義式は一般的な行列について成り立つ一方で、直交行列の式は必ずしも一般的な式では成立しない。また、二つの定義式を見比べることで、直交行列に関して下記が成立することもわかる。
$$
\large
\begin{align}
\mathbf{U}^{-1} = \mathbf{U}^{\mathrm{T}}
\end{align}
$$
直交行列は少々特殊な行列だが、固有ベクトルを元にした議論を行う際に利用するなど、重要なトピックである。

直交行列の理解

直交行列のような計算を行うことができる原理を理解するにあたっては、直交する長さが$1$の単位ベクトルを並べた行列を考えることで直交行列を作成することができることについて知っておくとよい。具体的に考える方がわかりやすいので、簡単な例を元に確認する。
$$
\large
\begin{align}
\mathbf{u}_1 &= \frac{1}{\sqrt{5}}\left(\begin{array}{c} 2 \\ 1 \end{array} \right) \\
\mathbf{u}_2 &= \frac{1}{\sqrt{5}}\left(\begin{array}{c} -1 \\ 2 \end{array} \right)
\end{align}
$$

上記のような$\mathbf{u}_1$、$\mathbf{u}_2$を考えた際に、$\mathbf{u}_1 \cdot \mathbf{u}_2 = 0$かつ$|\mathbf{u}_1| \neq 0$かつ$|\mathbf{u}_2| \neq 0$が成立するので、$\mathbf{u}_1$と$\mathbf{u}_2$は直交することがわかる。ここで$1$行目を$\mathbf{u}_1^{\mathrm{T}}$、$2$行目を$\mathbf{u}_2^{\mathrm{T}}$とする行列$\mathbf{U}$を考えると、$\mathbf{U}$は下記のように表すことができる。
$$
\large
\begin{align}
\mathbf{U} &= \left(\begin{array}{cc} \displaystyle \frac{2}{\sqrt{5}} & \displaystyle \frac{1}{\sqrt{5}} \\ \displaystyle -\frac{1}{\sqrt{5}} & \displaystyle \frac{2}{\sqrt{5}} \end{array} \right)
\end{align}
$$

このとき、$\det(\mathbf{U})$を求めると下記のようになる。
$$
\large
\begin{align}
\det(\mathbf{U}) &= \frac{2}{\sqrt{5}} \times \frac{2}{\sqrt{5}} – \left( -\frac{1}{\sqrt{5}} \right) \times \frac{1}{\sqrt{5}} \\
&= \frac{4}{5} + \frac{1}{5} \\
&= 1
\end{align}
$$

よって、$\mathbf{U}^{-1}$は下記のように計算できる。
$$
\large
\begin{align}
\mathbf{U}^{-1} &= \frac{1}{\det(\mathbf{U})} \left(\begin{array}{cc} \displaystyle \frac{2}{\sqrt{5}} & \displaystyle -\frac{1}{\sqrt{5}} \\ \displaystyle \frac{1}{\sqrt{5}} & \displaystyle \frac{2}{\sqrt{5}} \end{array} \right) \\
&= \left(\begin{array}{cc} \displaystyle \frac{2}{\sqrt{5}} & \displaystyle -\frac{1}{\sqrt{5}} \\ \displaystyle \frac{1}{\sqrt{5}} & \displaystyle \frac{2}{\sqrt{5}} \end{array} \right)
\end{align}
$$

逆行列の公式を用いた計算に過ぎないためここでは詳細は省略するが、$\mathbf{U}\mathbf{U}^{\mathrm{T}}=\mathbf{I}$となることは行列の積を計算することで確認できる。

ここでは直交行列が主題なので、以下では逆行列と行列の転置が一致することについて詳しく確認を行う。
$$
\large
\begin{align}
\mathbf{U} &= \left(\begin{array}{cc} \displaystyle \frac{2}{\sqrt{5}} & \displaystyle \frac{1}{\sqrt{5}} \\ \displaystyle -\frac{1}{\sqrt{5}} & \displaystyle \frac{2}{\sqrt{5}} \end{array} \right) \\
\mathbf{U}^{-1} &= \left(\begin{array}{cc} \displaystyle \frac{2}{\sqrt{5}} & \displaystyle -\frac{1}{\sqrt{5}} \\ \displaystyle \frac{1}{\sqrt{5}} & \displaystyle \frac{2}{\sqrt{5}} \end{array} \right) \\
\mathbf{U}^{\mathrm{T}} &= \left(\begin{array}{cc} \displaystyle \frac{2}{\sqrt{5}} & \displaystyle -\frac{1}{\sqrt{5}} \\ \displaystyle \frac{1}{\sqrt{5}} & \displaystyle \frac{2}{\sqrt{5}} \end{array} \right)
\end{align}
$$

上記では逆行列と行列の転置の成分が一致することについて注目しておくとよい。これは直交行列で一般的に成立する。また、ここで$\det(\mathbf{U})=1$であることも直交行列では一般に成立することも抑えておくとよい。

ここで確認を行った、「直交行列は直交するベクトルを並べた行列で、逆行列と転置が一致する」ということは多くの議論の前提となるため重要である。

対称行列の固有値・固有ベクトルと直交行列

直交行列を考えるにあたって、同時に出てくることが多いのが対称行列の固有値・固有ベクトルである。対称行列の相異なる固有値に対応する固有ベクトルは直交するため、大きさが$1$になるように調整を行うだけで前述の手順に基づいて直交行列を作成することができる。導出は下記で取り扱った。

$D$次元空間における分散共分散行列の$D$個の固有ベクトルを考えると、$i$番目の大きさ$1$の固有ベクトル$\mathbf{u}_i$は下記のように表せる。
$$
\large
\begin{align}
\mathbf{u}_i = \left(\begin{array}{c} u_{i1} \\ \vdots \\ u_{iD} \end{array} \right)
\end{align}
$$
$$
\large
\mathbf{u}_i^{\mathrm{T}} \mathbf{u}_j =
\begin{cases}
1 \quad (i = j) \\
0 \quad (i \neq j)
\end{cases}
\qquad (1)
$$

前項と同様に$\mathbf{u}_i^{\mathrm{T}}$を$i$行目とする行列$\mathbf{U}$を考えると、$\mathbf{U}$の要素は下記のようになる。
$$
\large
\begin{align}
\mathbf{U} &= \left(\begin{array}{c} \mathbf{u}_1^{\mathrm{T}} \\ \vdots \\ \mathbf{u}_D^{\mathrm{T}} \end{array} \right) \\
&= \left(\begin{array}{ccc} u_{11} & \cdots & u_{1D} \\ \vdots & \ddots & \vdots \\ u_{D1} & \cdots & u_{DD} \end{array} \right)
\end{align}
$$
ベクトルと行列の成分の対応がわからなくなりやすいため、上記において、$\mathbf{u}_i^{\mathrm{T}} = \left(\begin{array}{r} u_{i1} & \cdots & u_{iD} \end{array} \right)$であることは注意して確認しておくとよい。

ここで$\mathbf{U}$が直交行列となるため、下記が成立する。
$$
\begin{align}
\mathbf{U}\mathbf{U}^{\mathrm{T}} &= \mathbf{U}^{\mathrm{T}}\mathbf{U} = \mathbf{I} \\
\left(\begin{array}{ccc} u_{11} & \cdots & u_{1D} \\ \vdots & \ddots & \vdots \\ u_{D1} & \cdots & u_{DD} \end{array} \right)\left(\begin{array}{ccc} u_{11} & \cdots & u_{D1} \\ \vdots & \ddots & \vdots \\ u_{1D} & \cdots & u_{DD} \end{array} \right) &= \left(\begin{array}{ccc} u_{11} & \cdots & u_{D1} \\ \vdots & \ddots & \vdots \\ u_{1D} & .. & u_{DD} \end{array} \right)\left(\begin{array}{ccc} u_{11} & \cdots & u_{1D} \\ \vdots & \ddots & \vdots \\ u_{D1} & \cdots & u_{DD} \end{array} \right) = \left(\begin{array}{ccc} 1 & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & 1 \end{array} \right)
\end{align}
$$

上記を確認する際に、$\mathbf{U}\mathbf{U}^{\mathrm{T}}=\mathbf{I}$は$(1)$式からそのまま導出できる一方で、$\mathbf{U}^{\mathrm{T}}\mathbf{U}=\mathbf{I}$は逆行列の性質より導出していることは注意しておくとよい。

基底の変換と行列

線形代数学において基底(basis)は、線形独立のベクトルからなる集合である。
https://ja.wikipedia.org/wiki/基底_(線型代数学)
抽象的に確認すると難しいので、簡単な例を元に確認する。
$$
\large
\begin{align}
\mathbf{e}_1 &= \left(\begin{array}{c} 1 \\ 0 \end{array} \right) \\
\mathbf{e}_2 &= \left(\begin{array}{c} 0 \\ 1 \end{array} \right)
\end{align}
$$

たとえば上記のように定義した$\mathbf{e}_1$、$\mathbf{e}_2$は線形独立であるが、以下詳しく確認する。
$$
\large
\begin{align}
a\mathbf{e}_1+b\mathbf{e}_2 = \left(\begin{array}{c} 0 \\ 0 \end{array} \right) = \vec{0}
\end{align}
$$

$\mathbf{e}_1$、$\mathbf{e}_2$の線形独立は、$a\mathbf{e}_1+b\mathbf{e}_2=\vec{0}$のとき、$a=b=0$となることが確認できれば良いが、ベクトルの成分を比較することで$a=b=0$が導出できる。よって、$\mathbf{e}_1$、$\mathbf{e}_2$は線形独立であり、基底とすることができる。

ここで、下記のような$\mathbf{a}_1$、$\mathbf{a}_2$を考える。
$$
\large
\begin{align}
\mathbf{a}_1 &= \left(\begin{array}{c} 2 \\ 1 \end{array} \right) \\
\mathbf{a}_2 &= \left(\begin{array}{c} 1 \\ 2 \end{array} \right)
\end{align}
$$

$s\mathbf{a}_1+t\mathbf{a}_2=\vec{0}$を考えるとき、$2s+t=0$、$s+2t=0$の連立方程式を解くと$s=t=0$となるので$\mathbf{a}_1$、$\mathbf{a}_2$も線形独立であり、これも基底であると考えることができる。

線形独立と基底について確認できたので、次に「行列を用いた基底の変換」について取り扱う。
$$
\large
\begin{align}
\left(\begin{array}{c} x \\ y \end{array} \right) &= x\mathbf{e}_1 + y\mathbf{e}_2 \\
&= X\mathbf{a}_1 + Y\mathbf{a}_2
\end{align}
$$

ここで、上記のように考えた際に、$\displaystyle \left(\begin{array}{c} x \\ y \end{array} \right)$の基底を変換することを考えるとする。
このとき$\mathbf{a}_1$、$\mathbf{a}_2$は$\mathbf{e}_1$、$\mathbf{e}_2$を用いて表すことができることから二つの基底の組に対して以下のように関係式を作成する。
$$
\large
\begin{align}
\mathbf{a}_1 &= \left(\begin{array}{c} 2 \\ 1 \end{array} \right) \\
&= 2\mathbf{e}_1 + \mathbf{e}_2 \\
\mathbf{a}_2 &= \left(\begin{array}{c} 1 \\ 2 \end{array} \right) \\
&= \mathbf{e}_1 + 2\mathbf{e}_2
\end{align}
$$

これを$X\mathbf{a}_1 + Y\mathbf{a}_2$に代入すると下記のようになる。
$$
\large
\begin{align}
\left(\begin{array}{c} x \\ y \end{array} \right) &= X\mathbf{a}_1 + Y\mathbf{a}_2 \\
&= X(2\mathbf{e}_1 + \mathbf{e}_2) + Y(\mathbf{e}_1 + 2\mathbf{e}_2) \\
&= (2X + Y)\mathbf{e}_1 + (X + 2Y)\mathbf{e}_2 \\
&= \left(\begin{array}{c} 2X + Y \\ X + 2Y \end{array} \right) \\
&= \left(\begin{array}{cc} 2 & 1 \\ 1 & 2 \end{array} \right) \left(\begin{array}{c} X \\ Y \end{array} \right)
\end{align}
$$

上記より、それぞれの基底に対応する$\displaystyle \left(\begin{array}{c} x \\ y \end{array} \right)$と$\displaystyle \left(\begin{array}{c} X \\ Y \end{array} \right)$の値は下記のように行列を用いた変換で表すことができる。
$$
\large
\begin{align}
\left(\begin{array}{c} x \\ y \end{array} \right) &= \left(\begin{array}{cc} 2 & 1 \\ 1 & 2 \end{array} \right) \left(\begin{array}{c} X \\ Y \end{array} \right) \\
\left(\begin{array}{c} X \\ Y \end{array} \right) &= \left(\begin{array}{cc} 2 & 1 \\ 1 & 2 \end{array} \right)^{-1} \left(\begin{array}{c} x \\ y \end{array} \right)
\end{align}
$$

固有ベクトルと基底の変換

前項における$\mathbf{e}_1$、$\mathbf{e}_2$は$x$軸、$y$軸をそのまま使うことと同様なので、基本的には$\mathbf{e}_1$、$\mathbf{e}_2$を基底に用いることが多い。この変換にあたって、前項の$\mathbf{a}_1$、$\mathbf{a}_2$のような変換を用いると、逆行列を計算する必要が生じ、$2$行$2$列の行列の逆行列のようにシンプルな公式のない$3$行$3$列以上の行列であまり望ましくはない。この解決にあたっては、直交行列を用いて基底の変換を行うことを考えれば逆行列と行列の転置が一致するため、導出をシンプルに行うことができる。

大きさが$1$かつそれぞれが直交する正規直交基底を用いて作成した行列を用いて基底の変換を行うことで、逆変換の際に逆行列ではなく行列の転置を用いて計算できるので導出が行いやすい。大きさを$1$にした固有ベクトルは基本的には正規直交基底となるため、処理がシンプルになる。
$$
\large
\begin{align}
\mathbf{U} &= \left(\begin{array}{c} \mathbf{u}_1^{\mathrm{T}} \\ \vdots \\ \mathbf{u}_D^{\mathrm{T}} \end{array} \right) \\
&= \left(\begin{array}{ccc} u_{11} & \cdots & u_{1D} \\ \vdots & \ddots & \vdots \\ u_{D1} & \cdots & u_{DD} \end{array} \right)
\end{align}
$$

上記のように定義した$\mathbf{U}$を用いて、$D$次元ベクトル$\mathbf{x}$を$\mathbf{y}$に変換すると考えると、変換は下記のように記載できる。
$$
\large
\begin{align}
\mathbf{x} &= \mathbf{U}^{\mathrm{T}}\mathbf{y} \\
\mathbf{y} &= (\mathbf{U}^{\mathrm{T}})^{-1}\mathbf{x} \\
&= (\mathbf{U}^{\mathrm{T}})^{\mathrm{T}}\mathbf{x} \\
&= \mathbf{U}\mathbf{x}
\end{align}
$$

多次元正規分布の直感的理解

多次元正規分布の数式

多次元正規分布の数式は下記のように表すことができる。
$$
\large
\begin{align}
N(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma}) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \right) \quad (2)
\end{align}
$$

上記の式における$\mathbf{\mu}$は平均ベクトル、$\mathbf{\Sigma}$は分散共分散行列をそれぞれ表す。

分散共分散行列の逆行列の導出

以下、多次元正規分布の式に現れる$\mathbf{\Sigma}^{-1}$の導出について考える。
$D$行$D$列の分散共分散行列の$i$番目の固有値を$\lambda_i$、それに対応する大きさ1の固有ベクトルを$\mathbf{u}_i \quad (i=1,2, \cdots ,D)$と表すとする。このとき、固有値・固有ベクトルの定義より下記が成立する。
$$
\large
\begin{align}
\mathbf{\Sigma} \mathbf{u}_i = \lambda_i \mathbf{u}_i
\end{align}
$$

上記に左から$\mathbf{\Sigma}^{-1}$をかけると下記のようになる。
$$
\large
\begin{align}
\mathbf{\Sigma}^{-1}\mathbf{\Sigma} \mathbf{u}_i &= \mathbf{\Sigma}^{-1} \lambda_i \mathbf{u}_i \\
\mathbf{u}_i &= \lambda_i \mathbf{\Sigma}^{-1} \mathbf{u}_i
\end{align}
$$

上記の右辺の計算にあたって、$\lambda_i$と$\mathbf{\Sigma}^{-1}$の順番を入れ替えたが、これは$\lambda_i$がスカラー値であるからである。次に上記の両辺に右から$\mathbf{u}_i^{\mathrm{T}}$をかけ、スカラー$\lambda_i$でわると下記のようになる。
$$
\large
\begin{align}
\frac{1}{\lambda_i} \mathbf{u}_i \mathbf{u}_i^{\mathrm{T}} = \mathbf{\Sigma}^{-1} \mathbf{u}_i \mathbf{u}_i^{\mathrm{T}} \quad (3)
\end{align}
$$

ここで$\mathbf{u}_i \mathbf{u}_i^{\mathrm{T}}$について考えると下記のように計算できる。
$$
\large
\begin{align}
\mathbf{u}_i \mathbf{u}_i^{\mathrm{T}} &= \left(\begin{array}{c} u_{i1} \\ \vdots \\ u_{iD} \end{array} \right) \left(\begin{array}{r} u_{i1} & \cdots & u_{iD} \end{array} \right) \\
&= \left(\begin{array}{ccc} u_{i1}^2 & \cdots & u_{i1}u_{iD} \\ \vdots & \ddots & \vdots \\ u_{iD}u_{i1} & \cdots & u_{iD}^2 \end{array} \right) \quad (4)
\end{align}
$$

また、$\mathbf{U}^{\mathrm{T}}\mathbf{U}$は下記のように計算できる。
$$
\large
\begin{align}
\mathbf{U}^{\mathrm{T}}\mathbf{U} &= \left(\begin{array}{ccc} u_{11} & \cdots & u_{D1} \\ \vdots & \ddots & \vdots \\ u_{1D} & \cdots & u_{DD} \end{array} \right)\left(\begin{array}{ccc} u_{11} & \cdots & u_{1D} \\ \vdots & \ddots & \vdots \\ u_{D1} & \cdots & u_{DD} \end{array} \right) \\
&= \left(\begin{array}{ccc} \displaystyle \sum_{i=1}^{D} u_{i1}^2 & \cdots & \displaystyle \sum_{i=1}^{D} u_{i1}u_{iD} \\ \vdots & \ddots & \vdots \\ \displaystyle \sum_{i=1}^{D} u_{iD}u_{i1} & \cdots & \displaystyle \sum_{i=1}^{D} u_{iD}^2 \end{array} \right) = \left(\begin{array}{ccc} 1 & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & 1 \end{array} \right) \quad (5)
\end{align}
$$

$(4)$式、$(5)$式の対角成分などを見比べることで、下記が成立することがわかる。
$$
\large
\begin{align}
\sum_{i=1}^{D} \mathbf{u}_i \mathbf{u}_i^{\mathrm{T}} &= \left(\begin{array}{ccc} \displaystyle \sum_{i=1}^{D} u_{i1}^2 & \cdots & \displaystyle \sum_{i=1}^{D} u_{i1}u_{iD} \\ \vdots & \ddots & \vdots \\ \displaystyle \sum_{i=1}^{D} u_{iD}u_{i1} & \cdots & \displaystyle \sum_{i=1}^{D} u_{iD}^2 \end{array} \right) \\
&= \mathbf{U}^{\mathrm{T}}\mathbf{U} \\
&= \left(\begin{array}{ccc} 1 & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & 1 \end{array} \right) \quad (6)
\end{align}
$$

$(6)$式を元に$(3)$式に適用することで、下記のように導出することができる。
$$
\large
\begin{align}
\sum_{i=1}^{D} \frac{1}{\lambda_i} \mathbf{u}_i \mathbf{u}_i^{\mathrm{T}} &= \sum_{i=1}^{D} \mathbf{\Sigma}^{-1} \mathbf{u}_i \mathbf{u}_i^{\mathrm{T}} \\
&= \mathbf{\Sigma}^{-1} \sum_{i=1}^{D} \mathbf{u}_i \mathbf{u}_i^{\mathrm{T}} \\
&= \mathbf{\Sigma}^{-1} \mathbf{U}^{\mathrm{T}}\mathbf{U} \\
&= \mathbf{\Sigma}^{-1} \mathbf{I} \\
&= \mathbf{\Sigma}^{-1}
\end{align}
$$

上記より、$\mathbf{\Sigma}^{-1}$は下記のように表すことができる。
$$
\large
\begin{align}
\mathbf{\Sigma}^{-1} = \sum_{i=1}^{D} \frac{1}{\lambda_i} \mathbf{u}_i \mathbf{u}_i^{\mathrm{T}} \quad (7)
\end{align}
$$

固有ベクトルを用いた基底の変換

$(2)$では下記のように多変数正規分布の確率密度関数について表した。
$$
\large
\begin{align}
N(x|\mathbf{\mu}, \mathbf{\Sigma}) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \right)
\end{align}
$$

ここで上記の指数関数の中に着目し、下記のように$\Delta^2$を考える。
$$
\large
\begin{align}
\Delta^2 = (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu})
\end{align}
$$

上記に$(7)$式を代入すると下記のようになる。
$$
\large
\begin{align}
\Delta^2 &= (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \\
&= (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \sum_{i=1}^{D} \frac{1}{\lambda_i} \mathbf{u}_i \mathbf{u}_i^{\mathrm{T}} (\mathbf{x}-\mathbf{\mu}) \\
&= \sum_{i=1}^{D} \frac{(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\mathbf{u}_i \mathbf{u}_i^{\mathrm{T}} (\mathbf{x}-\mathbf{\mu})}{\lambda_i} \quad (8)
\end{align}
$$

上記の式で$(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\mathbf{u}_i$と$\mathbf{u}_i^{\mathrm{T}} (\mathbf{x}-\mathbf{\mu})$はどちらもベクトル$\mathbf{x}-\mathbf{\mu}$からベクトル$\mathbf{u}_i$への正射影を意味するので、これを$y_i$とおく。これは下記のような式で表すことができる。
$$
\large
\begin{align}
y_i = (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\mathbf{u}_i = \mathbf{u}_i^{\mathrm{T}} (\mathbf{x}-\mathbf{\mu}) \quad (9)
\end{align}
$$

$(8)$式と$(9)$式より、$\Delta^2$は下記のように表せる。
$$
\large
\begin{align}
\Delta^2 &= \sum_{i=1}^{D} \frac{(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}}\mathbf{u}_i \mathbf{u}_i^{\mathrm{T}} (\mathbf{x}-\mathbf{\mu})}{\lambda_i} \\
&= \sum_{i=1}^{D} \frac{y_i^2}{\lambda_i} \quad (10)
\end{align}
$$

$(10)$式は固有ベクトルへの正射影に対応する値を$\sqrt{\lambda_i}$でわった値を元に平均ベクトル$\mu$からの距離を考えていると解釈できる。この二次形式$\Delta^2$はマハラノビス距離(Mahalanobis distance)と呼ばれており、固有値が大きい方向の差の評価を少なくする一方で固有値が小さい方向の差の評価を大きくする処理を行なっていると考えればわかりやすい。

また、ここで下記のように$\mathbf{y}$、$\mathbf{U}$を定義する。
$$
\large
\begin{align}
\mathbf{y} = \left(\begin{array}{c} y_{1} \\ \vdots \\ u_{D} \end{array} \right)
\end{align}
$$
$$
\large
\begin{align}
\mathbf{U} = \left(\begin{array}{c} \mathbf{u}_1^{\mathrm{T}} \\ \vdots \\ \mathbf{u}_D^{\mathrm{T}} \end{array} \right)
\end{align}
$$

上記と$(9)$式より、$\mathbf{y}$は下記のように表すことができる。
$$
\large
\begin{align}
\mathbf{y} = \mathbf{U} (\mathbf{x}-\mathbf{\mu})
\end{align}
$$

これは分散共分散行列の固有ベクトルに基づく直交行列を用いて、$\mathbf{x}-\mathbf{\mu}$の基底を変換することを意味している。

二次形式(Mahalanobis distance)の図形的理解

“$y_i$のイメージ(パターン認識と機械学習 Figure$2.7$より)”

図形的理解は上記を元に行うと良い。分散共分散行列の固有ベクトル方向に基底を変換し、かつ、固有値が大きい方向の差の評価を小さくするような計算を行う。
$$
\large
\begin{align}
\Delta^2 = \sum_{i=1}^{D} \frac{y_i^2}{\lambda_i} \quad (10)と同じ
\end{align}
$$

図と上記で表した$(10)$式を見比べて理解することで、多変量正規分布における確率密度関数の取り扱いについて確認すると良いと思われる。

PCAとの関連

PCAは分散共分散行列の最大の固有値に対応する固有ベクトルが、最もサンプルの分散が大きい方向となりこれを主成分と考えて次元の削減の処理を行うなどの手法である。PCAについて詳しくは下記に取りまとめた。
https://www.hello-statisticians.com/explain-terms-cat/pca1.html

まとめ

多次元正規分布の確率密度関数の理解にあたっては、指数関数の中について理解ができれば$1$次元の正規分布と同様に理解することができる。山の等高線のように確率密度関数を考えることで、概ね理解できると思われる。

離散型確率分布の数式まとめ(ベルヌーイ分布、二項分布、ポアソン分布、幾何分布 etc)

http://www.hello-statisticians.com/explain-terms-cat/prob_generating.html
上記では確率分布の様々な表記(確率密度関数、確率母関数など)について確認したが、当記事ではその表記に基づいて離散型確率分布のそれぞれの確率密度関数やモーメント母関数、期待値、分散などについて確認する。

離散型確率分布

ベルヌーイ分布

ベルヌーイ分布はベルヌーイ試行を元に定義する分布である。確率$p$で成功する試行を考えた際に、確率変数$X$を成功のとき$1$、失敗のとき$0$とするベルヌーイ試行に対し、確率変数Xの従う分布を成功確率$p$のベルヌーイ分布とし、$\mathrm{Bin}(1,p)$のように表す。ここで、$\mathrm{Bin}(1,p)$は二項分布の$\mathrm{Bin}(n,p)$において$n=1$とした場合であるとも考えることができる。

ベルヌーイ分布の確率関数は下記のように考えることができる。
$$
\large
\begin{align}
P(X=x) = p^x(1-p)^{1-x}
\end{align}
$$

次にベルヌーイ分布の期待値$E[X]$と分散$V[X]$について考える。
・期待値
$$
\large
\begin{align}
E[X] = 1 \times p + 0 \times (1-p) = p
\end{align}
$$

・分散
$$
\large
\begin{align}
V[X] &= E\left[X^2\right]-\left(E[X]\right)^2 \\
&= \left(1^2 \times p + 0^2 \times (1-p)\right) – p^2 \\
&= p-p^2 \\
&= p(1-p)
\end{align}
$$

また、確率母関数、モーメント母関数は下記のようになる。
・確率母関数
$$
\large
\begin{align}
G(t) &= E\left[t^X\right] = t^1 \times p + t^0 \times (1-p) \\
&= tp+(1-p) \\
&= tp + 1 – p
\end{align}
$$

・モーメント母関数
$$
\large
\begin{align}
m(t) &= E\left[e^{tX}\right] = e^{t \times 1} \times p + e^{t \times 0} \times (1-p) \\
&= e^t p + (1-p) \\
&= e^t p + 1 – p
\end{align}
$$

二項分布

二項分布はベルヌーイ分布と同様にベルヌーイ試行を元に定義する分布である。確率$p$で成功する試行を$n$回繰り返すと考えた際に、確率変数$X$を成功の回数すると、確率変数$X$の従う分布は試行回数$n$、成功確率$p$の二項分布となり、$\mathrm{Bin}(n,p)$のように表す。

二項分布の確率関数は下記のように考えることができる。
$$
\large
\begin{align}
P(X=k|n,p) = {}_n C_k p^{k}(1-p)^{n-k}
\end{align}
$$

次に二項分布の期待値$E[X]$と分散$V[X]$について考える。期待値や分散は独立なベルヌーイ分布の複数回試行であることを考慮することで求めやすい。$i$番目のベルヌーイ試行の確率変数を$X_i$とおくと、$X=X_1+X_2+…+X_n$とできるので期待値と分散は下記のように導出できる。
・期待値
$$
\large
\begin{align}
E[X] &= E[X_1+X_2+…X_n] \\
&= E[X_1]+E[X_2]+…+E[X_n] \\
&= np
\end{align}
$$

・分散
$$
\large
\begin{align}
V[X] &= V[X_1+X_2+…X_n] \\
&= V[X_1]+V[X_2]+…+V[X_n] \\
&= np(1-p)
\end{align}
$$

また、確率母関数、モーメント母関数は下記のようになる。
・確率母関数
$$
\large
\begin{align}
G(t) &= E\left[t^X\right] \\
&= \sum_{k=0}^{n} t^k \cdot {}_n C_k p^k (1-p)^{n-k} \\
&= \sum_{k=0}^{n} {}_n C_k (pt)^k (1-p)^{n-k} \\
&= (pt + 1 – p)^n
\end{align}
$$
計算にあたっては二項定理を利用した。

・モーメント母関数
$$
\large
\begin{align}
m(t) &= E\left[e^{tX}\right] \\
&= \sum_{k=0}^{n} e^{tk} \cdot {}_n C_k p^k (1-p)^{n-k} \\
&= \sum_{k=0}^{n} {}_n C_k (p e^t)^k (1-p)^{n-k} \\
&= (p e^t + 1 – p)^n
\end{align}
$$
確率母関数の計算と同様に導出にあたっては二項定理を利用した。また、モーメント母関数を活用することで二項分布の再生性を示すことができることも合わせて抑えておくとよい。
https://www.hello-statisticians.com/explain-terms-cat/probdist3.html

ポアソン分布

二項分布において$n$が大きい一方で$p$が小さい場合、双方の傾向がつりあって、それほど大きくないほどほどの$x$が現実には観察される。が、この確率を二項分布で表すと計算が煩雑になる。
たとえば$n=1000$、$p=0.002$の際に$x=3$となる確率は下記のようになる。
$$
\large
\begin{align}
{}_{1000} C_{3} (0.002)^{3}(0.998)^{997}
\end{align}
$$
上記のような計算を直接行うのはあまり望ましくない一方で、上記の期待値は$E[X]=np=2$であるから基本的には$x=0, 1, 2 ,3$くらいまでの確率は小さくないと考えることができる。

このような場合に$\lambda=np$を導入し、二項分布の極限を考えることで導出する分布がポアソン分布である。
$$
\large
\begin{align}
\lim_{n \to \infty} {}_n C_x p^x (1-x)^{n-x} = \frac{e^{-\lambda} \lambda^x}{x!}
\end{align}
$$

上記のように「ポアソンの小数の法則」に基づいて極限を考えることで、二項分布の式からポアソン分布の式を導出することができる。導出の詳細は下記の演習で取り扱った。

よってポアソン分布の確率関数は$\lambda=np$で定義される$\lambda$を用いて下記のように考えることができる。
$$
\large
\begin{align}
P(x|\lambda) = \frac{e^{-\lambda} \lambda^x}{x!}
\end{align}
$$

また、$\lambda=np=2$の時、$P(x=0|\lambda=2)$〜$P(x=3|\lambda=2)$はそれぞれ下記のような値となる。
$$
\large
\begin{align}
P(x=0|\lambda=2) &= \frac{e^{-2} \cdot 2^0}{0!} \\
&= e^{-2} \\
&= 0.1353095 \\
P(x=1|\lambda=2) &= \frac{e^{-2} \cdot 2^1}{1!} \\
&= 2 \cdot e^{-2} \\
&= 0.2706709 \\
P(x=2|\lambda=2) &= \frac{e^{-2} \cdot 2^2}{2!} \\
&= 2 \cdot e^{-2} \\
&= 0.2706709 \\
P(x=3|\lambda=2) &= \frac{e^{-2} \cdot 2^3}{3!} \\
&= \frac{4 \cdot e^{-2}}{3} \\
&= 0.180447
\end{align}
$$
このとき、上記の$4$つの$x$の値に関する和は$0.857…$となり、$\lambda=np=2$の場合は$x=0〜3$にほとんどの確率が集中することが見て取れる。

期待値$E[X]$や分散$V[X]$は二項分布の値に対して$\lambda = np$とした上で、$n \to \infty$、$p \to 0$の極限を考えることで導出できる。
・期待値
$$
\large
\begin{align}
E[X] &= np \\
&= \lambda
\end{align}
$$

・分散
$$
\large
\begin{align}
V[X] &= np(1-p) \\
&= \lambda(1-p) \\
& \to \lambda \quad (1-p \to 1)
\end{align}
$$

また、確率母関数、モーメント母関数は下記のようになる。
・確率母関数
$$
\large
\begin{align}
G(t) &= E\left[t^X\right] \\
&= \sum_{k=0}^{\infty} t^k \times \frac{\lambda^k e^{-\lambda}}{k!} \\
&= \sum_{k=0}^{\infty} \frac{(t \lambda)^k e^{-\lambda}}{k!} \\
&= e^{-\lambda} \sum_{k=0}^{\infty} \frac{(t \lambda)^k}{k!}
\end{align}
$$

ここで、$\displaystyle e^x$の$x=0$周辺でのマクローリン展開を考えると下記のようになる。
$$
\large
\begin{align}
e^x = \sum_{k=0}^{\infty} \frac{x^k}{k!}
\end{align}
$$
上記より、$\displaystyle \sum_{k=0}^{\infty} \frac{(t \lambda)^k}{k!}$は$\displaystyle e^{t \lambda}$のようになる。よって、確率母関数$G(t)$は下記のように計算できる。
$$
\large
\begin{align}
G(t) &= e^{-\lambda} \sum_{k=0}^{\infty} \frac{(t \lambda)^k}{k!} \\
&= e^{-\lambda} \cdot e^{t \lambda} \\
&= e^{\lambda(t-1)}
\end{align}
$$

・モーメント母関数
$$
\large
\begin{align}
m(t) &= E\left[e^{tX}\right] \\
&= \sum_{k=0}^{\infty} e^{tk} \times \frac{\lambda^k e^{-\lambda}}{k!} \\
&= \sum_{k=0}^{\infty} \frac{(e^t \lambda)^k e^{-\lambda}}{k!} \\
&= e^{-\lambda} \sum_{k=0}^{\infty} \frac{(e^t \lambda)^k}{k!} \\
&= e^{-\lambda} \cdot e^{e^t \lambda} \\
&= e^{\lambda(e^t-1)}
\end{align}
$$
途中計算では確率母関数と同様に$e^x$のマクローリン展開を用いて変形を行った。また、モーメント母関数を活用することでポアソン分布の再生性を示すことができることも合わせて抑えておくとよい。
https://www.hello-statisticians.com/explain-terms-cat/probdist3.html

幾何分布

幾何分布はベルヌーイ試行を複数回行ったときに、最初に成功するまでの試行回数を$X$とした際の確率分布である。$X$の定義は「最初に成功するまでの失敗の回数」とするか「最初に成功するまでの試行の回数」とするかで$1$回異なるので注意しておきたい。準$1$級のワークブックでは失敗の数をカウントしているが、試行の数をカウントする方が一般的な印象を受けるのでここでは「成功するまでの試行」を考えるものとする。

まず、幾何関数の確率関数$P(X=x)$は下記のように考えることができる。
$$
\large
\begin{align}
P(X=x) = p(1-p)^{x-1}
\end{align}
$$
上記の解釈にあたっては、$x-1$回失敗したのちに成功する同時確率をそれぞれが独立な試行(ベルヌーイ試行)であることからそれぞれの起こる確率の積で表したと考えることができる。

次に幾何分布の期待値$E[X]$と分散$V[X]$について考える。
・期待値
$$
\large
\begin{align}
E[X] &= \sum_{x=1}^{\infty} xP(X=x) \\
&= \sum_{x=1}^{\infty} xp(1-p)^{x-1} \\
&= p \sum_{x=1}^{\infty} x(1-p)^{x-1} \\
&= p \left( 1 + 2(1-p)^{2-1} + 3(1-p)^{3-1} \cdots \right) \\
&= p \frac{1}{(1-(1-p))^2} \\
&= p \frac{1}{p^2} \\
&= \frac{1}{p}
\end{align}
$$
http://www.hello-statisticians.com/explain-terms-cat/maclaurin-seriese.html
の$(5)$式を用いて途中計算を行った。

・分散
期待値の計算で用いたマクローリン展開の両辺をさらに微分することで下記を得ることができる。
$$
\large
\begin{align}
\frac{1}{(1-x)^2} &= \sum_{n=1}^{\infty} nx^{n-1} = 1 + 2x^{2-1} + 3x^{3-1} \cdots \qquad 平均の計算で用いた \\
\left( \frac{1}{(1-x)^2} \right)’ &= \left( \sum_{n=1}^{\infty} nx^{n-1} \right)’ \\
\frac{2}{(1-x)^3} &= \sum_{n=2}^{\infty} n(n-1)x^{n-2} = 2x^{2-2} + 3 \cdot 2x^{3-2} + 4 \cdot 3x^{4-2} + 5 \cdot 4x^{5-2} + \cdots \qquad (A)
\end{align}
$$

途中計算で上記を用いる。
$$
\large
\begin{align}
V[X] &= E[X^2]-(E[X])^2 \\
&= E[X(X-1)]+E[X]-(E[X])^2
\end{align}
$$

分散$V[X]$に関して上記の数式が成立するが、$E[X]$については期待値で求めたので、$E[X(X-1)]$を求めることについて考える。
$$
\large
\begin{align}
E[X(X-1)] &= \sum_{x=2}^{\infty} x(x-1)P(X=x) \\
&= \sum_{x=2}^{\infty} x(x-1)p(1-p)^{x-1} \\
&= p(1-p) \sum_{x=2}^{\infty} x(x-1)(1-p)^{x-2} \\
&= p(1-p) \left( 2 + 3 \cdot 2(1-p)^{3-2} + 4 \cdot 3(1-p)^{4-2} + 5 \cdot 4(1-p)^{5-2} + \cdots \right) \\
&= p(1-p) \frac{2}{(1-(1-p))^3} \\
&= \frac{2p(1-p)}{p^3} \\
&= \frac{2(1-p)}{p^2}
\end{align}
$$
上記の途中計算で$(A)$で表したマクローリン展開の式を用いた。これにより、分散$V[X]$は下記のようになる。

$$
\large
\begin{align}
V[X] &= E[X^2]-(E[X])^2 \\
&= E[X(X-1)]+E[X]-(E[X])^2 \\
&= \frac{2(1-p)}{p^2} + \frac{1}{p} – \left( \frac{1}{p} \right)^2 \\
&= \frac{2(1-p)}{p^2} + \frac{p}{p^2} – \frac{1}{p} \\
&= \frac{2-2p+p-1}{p^2} \\
&= \frac{1-p}{p^2}
\end{align}
$$

・考察
幾何分布の平均・分散の計算ではマクローリン展開を逆に用いるが、確率変数の$X$とマクローリン展開の次数$n$の対応や$\displaystyle \sum$の始点の$n=1$や$x=2$の対応などがわかりにくい。よって、$\displaystyle \sum$の形式を$2 + 3 \cdot 2(1-p)^{3-2} + 4 \cdot 3(1-p)^{4-2} + 5 \cdot 4(1-p)^{5-2} + \cdots$のように和の形式に直した上でマクローリン展開を逆に用いてミスを減らすというのが実用的であるように思われる。

超幾何分布

$N$個のうち、$M$個が$A$で$N-M$個が$B$の袋から$n$個取り出すとき、取り出したAの個数を確率変数$X$で考えるとする。このとき、一度引いたものを袋に戻さないで次のものを引くことを非復元抽出と呼ぶが、非復元抽出で$n$個引くとき、$X$は超幾何分布に従う。

超幾何関数の確率関数$P(X=x)$は下記のように考えることができる。
$$
\large
\begin{align}
P(X=x|N,M,n) = \frac{{}_N C_x \cdot {}_{N-M} C_{n-x}}{{}_N C_n}
\end{align}
$$

下記で詳しく取り扱った。

負の二項分布

負の二項分布$NB(r,p)$は確率$p$の事象$1$が$r$回起こるまでに$(1-p)$の事象$2$が$Y$回起こると考える場合の$Y$の分布である。$Y=y$回起こる確率を表す確率関数を$p(y)$とおくと、$p(y)$は下記のように表すことができる。

$$
\large
\begin{align}
p(y) &= {}_r H_{y} p^{r} (1-p)^{y}, \quad y=0,1,2, \cdots \\
{}_{r} H_{y} &= {}_{y+r-1} C_{y} = \frac{(y+r-1)(y+r-2) \cdots (r+1)r}{y!}
\end{align}
$$

上記の式の${}_{r} H_{y}$は「重複組み合わせ」であり、「$r$種類のものを重複して$y$個選ぶ際の選び方」のように一般的には定義される。ここで${}_{r} H_{y}={}_{y+r-1} C_{y}$であることは下記の図を元に理解すると良い。

重複組合せの図的解釈:$y+r-1$個の○と|の並べ替え問題に重複組合せは帰着できる

負の二項分布を考える場合は、「事象$1$の$1$回目が起こる直前に事象$2$が起こる、事象$1$の$2$回目が起こる直前に事象$2$が起こる、・・・、事象$1$の$r-1$回目が起こる直前に事象$2$が起こる」を$r$種類の重複組合せに対応すると解釈することで重複組合せを適用できる。

「負の二項分布」という名称は重複組合せ${}_{r} H_{y}$が『負の二項係数』を元に表せることに基づく。整数$a$と$0$以上の整数$b$に対し、二項係数の一般化を下記のように定める。
$$
\large
\begin{align}
\left(\begin{array}{c} a \\ b \end{array} \right) \equiv \frac{a(a-1) \cdots (a-b+1)}{b!}
\end{align}
$$

上記は${}_{a} C_{b}$と式自体は同様だが、$a$が$0$以下である場合も考えることに着目しておくと良い。${}_{a} C_{b}$の式を$a$が負の数も取り扱えるように拡張したと解釈すると良い。

ここで${}_{r} H_{y}$は$\displaystyle \left(\begin{array}{c} a \\ b \end{array} \right)$の表記を元に下記のように表すことができる。
$$
\large
\begin{align}
{}_r H_{y} &= {}_{y+r-1} C_{y} \\
&= \frac{(y+r-1)(y+r-2) \cdots (r+1)r}{y!} \\
&= \frac{r(r+1) \cdots (r+y-2)(r+y-1)}{y!} \\
&= (-1)^{y} \frac{(-r)(-r-1) \cdots (-r-y+2)(-r-y+1)}{y!} \\
&= (-1)^{y} \left(\begin{array}{c} -r \\ y \end{array} \right)
\end{align}
$$

上記のように重複組合せの${}_{r} H_{y}$に関して$\displaystyle {}_{r} H_{y} = (-1)^{y} \left(\begin{array}{c} -r \\ y \end{array} \right)$が成立することから「負の二項分布」という名称を抑えておくと良い。

また、$r=1$の負の二項分布$\mathrm{NB}(1,p)$は幾何分布$\mathrm{Geo}(p)$と対応することに基づいて負の二項分布の期待値と分散を導出することができる。$X_1, X_2, \cdots X_r \sim \mathrm{Geo}(p), \, \mathrm{i.i.d.,}$のとき、$E[X_i], V[X_i]$に関して下記が成立する。
$$
\large
\begin{align}
E[X_i] &= \frac{1}{p} \\
V[X_i] &= \frac{1-p}{p^2}
\end{align}
$$

よって確率変数$\displaystyle Y = \sum_{i=1}^{r} (X_i-1)$に関して下記が成立する。
$$
\large
\begin{align}
E[Y] &= E \left[ \sum_{i=1}^{r} (X_i-1) \right] = E \left[ -r + \sum_{i=1}^{r} X_i \right] \\
&= – r + \sum_{i=1}^{r} E[X_i] \\
&= -r+\frac{r}{p} = \frac{r(1-p)}{p} \\
V[Y] &= V \left[ \sum_{i=1}^{r} (X_i-1) \right] = V \left[ -r + \sum_{i=1}^{r} X_i \right] \\
&= 0 + \sum_{i=1}^{r} V[X_i] \\
&= \frac{r(1-p)}{p^2}
\end{align}
$$

上記が負の二項分布の期待値と分散に一致する。途中計算で用いた$E[X], V[X]$に関する公式の導出は下記で取り扱った。

多項分布

まとめ

当記事では離散型の確率分布について具体的に確認しました。二項分布、幾何分布はベルヌーイ分布の複数試行によって導出されることや、ポアソン分布は二項定理の事象が起こる確率が小さいかつ試行回数が多い際の二項分布の近似であることなどは抑えておくと良いと思います。

・基礎統計学Ⅰ 統計学入門(東京大学出版会)

・日本統計学会公式認定 統計検定準$1$級対応 統計学実践ワークブック

https://www.gakujutsu.co.jp/product/978-4-7806-0852-6/