ブログ

モーメント・モーメント母関数・モーメント法について|問題演習で理解する統計学【11】

下記などで取り扱った、モーメント・モーメント母関数・モーメント法に関する問題演習を通した理解ができるように問題・解答・解説をそれぞれ作成しました。

・標準演習$100$選
https://www.hello-statisticians.com/practice_100

基本問題

モーメントの定義

・問題
統計学におけるモーメントは確率分布の形状を知る手がかりになるだけでなく、モーメント母関数やモーメント法について把握する上でも定義を抑えておくことは必須となる。一方で、モーメントの数式定義に関しては様々な量が定義されるため少々紛らわしい。
そのため以下では、モーメントの数式定義について一つ一つ確認を行うこととする。下記の問題にそれぞれ答えよ。

i) 確率変数$X$に関して、原点の周りの$n$次のモーメントを$\mu_{n}$と定義することとする。このとき$1$次のモーメント$\mu_{1}$が平均に一致するが、確率変数$X$を用いて$\mu_{1}$を表せ。
ⅱ) 原点の周りの$n$次のモーメントの$\mu_{n}$を確率変数$X$を用いて表せ。
ⅲ) $1$次のモーメントには平均のような原点を中心とするモーメントが用いられることが多いが、$2$次以降のモーメントは分散のように平均を中心とするモーメントが用いられることが多い。平均を中心とするモーメントを$\mu’_{n}$とする際、分散を表す$\mu’_{2}$を確率変数$X$と平均$\mu_{1}$を用いて表せ。
iv) 歪度、尖度のような$3$次以降のモーメントを考えるにあたって、$\mu’_{2}$を用いて標準化を行う場合が多い。$n$次の標準化モーメントを$\alpha_n$とおくとき、$\alpha_n$を確率変数$X$、平均$\mu_{1}$、分散$\mu’_{2}$を用いて表せ。
v) 歪度$\alpha_3$、尖度$\alpha_4$を確率変数$X$、平均$\mu_{1}$、分散$\mu’_{2}$を用いて表せ。

・解答
i)
平均を表す原点の周りの$1$次モーメント$\mu_{1}$は確率変数$X$を用いて下記のように表すことができる。
$$
\large
\begin{align}
\mu_{1} = E[X]
\end{align}
$$

ⅱ)
原点の周りの$n$次のモーメントの$\mu_{n}$は下記のように表すことができる。
$$
\large
\begin{align}
\mu_{n} = E[X^n]
\end{align}
$$

ⅲ)
分散を表す平均の周りの$2$次モーメント$\mu’_{2}$は確率変数$X$と平均$\mu_{1}$を用いて下記のように表すことができる。
$$
\large
\begin{align}
\mu’_{2} = E[(X-\mu_{1})^2]
\end{align}
$$

iv)
$n$次の標準化モーメント$\alpha_n$は確率変数$X$、平均$\mu_{1}$、分散$\mu’_{2}$を用いて下記のように表せる。
$$
\large
\begin{align}
\alpha_{n} = E \left[ \frac{(X-\mu_{1})^n}{\sqrt{\mu’_{2}}^n} \right]
\end{align}
$$

v)
iv)の式より、歪度$\alpha_3$、尖度$\alpha_4$は下記のように表せる。
$$
\large
\begin{align}
\alpha_{3} = E \left[ \frac{(X-\mu_{1})^3}{\sqrt{\mu’_{2}}^3} \right] \\
\alpha_{4} = E \left[ \frac{(X-\mu_{1})^4}{\sqrt{\mu’_{2}}^4} \right]
\end{align}
$$

・解説
どれもモーメントに関する数式定義の確認を取り扱いましたが、明示的に取り扱うことができると様々なトピックにおいて役に立つので抑えておくと良いと思います。

モーメント法

・問題
母集団分布が正規分布$N(\mu, \sigma^2)$に従う$n$個の標本$X_i$が得られたとする。このとき母集団の原点の周りの$1$次モーメント、$2$次モーメントを$\mu_1, \mu_2$と定義する。また、標本の平均は$\bar{X}$と表す。
このとき下記の問いに答えよ。
i) $\mu, \sigma^2$を$\mu_1, \mu_2$を用いて表せ。
ⅱ) $n$個の標本に基づく原点の周りの$1$次モーメント、$2$次モーメントをそれぞれ$\hat{\mu_1}, \hat{\mu_2}$とするとき、$\hat{\mu_1}, \hat{\mu_2}$を$X_i$と$\bar{X}$、$n$を用いて表せ。
ⅲ) $\mu_1=\hat{\mu_1}$、$\mu_2=\hat{\mu_2}$のように母集団のモーメントと標本のモーメントが等しいと考えるとき、$\mu, \sigma^2$を$X_i$と$\bar{X}$、$n$を用いて表せ。

・解答
i)
$\mu$は原点の周りの$1$次のモーメント、$\sigma^2$は平均の周りの$2$次のモーメントのため、それぞれ下記のように表すことができる。
$$
\large
\begin{align}
\mu &= \mu_1 \\
\sigma^2 &= \mu_2 – \mu_1^2
\end{align}
$$
上記は確率変数$X$に関して$V[X]=E[X^2]-E[X]^2$が成立することと対応付けて抑えておくとよい。

ⅱ)
$n$個の標本に基づく原点の周りの$1$次モーメント、$2$次モーメントはそれぞれ下記のように表すことができる。
$$
\large
\begin{align}
\hat{\mu_1} &= \sum_{i=1}^{n} X_i \\
\hat{\mu_2} &= \sum_{i=1}^{n} X_i^2
\end{align}
$$

ⅲ)
$\mu_1=\hat{\mu_1}$、$\mu_2=\hat{\mu_2}$とⅱの結果より、下記が成立する。
$$
\large
\begin{align}
\mu_1 &= \hat{\mu_1} \\
&= \frac{1}{n} \sum_{i=1}^{n} X_i \\
\mu_2 &= \hat{\mu_2} \\
&= \frac{1}{n} \sum_{i=1}^{n} X_i^2
\end{align}
$$
上記をi)の結果に代入すると下記のようになる。
$$
\large
\begin{align}
\mu &= \mu_1 \\
&= \frac{1}{n} \sum_{i=1}^{n} X_i \\
\sigma^2 &= \mu_2 – \mu_1^2 \\
&= \frac{1}{n} \sum_{i=1}^{n} X_i^2 – \left( \frac{1}{n} \sum_{i=1}^{n} X_i \right)^2
\end{align}
$$

・解説
モーメント法については難しく見える解説が多い印象ですが、ⅲ)で記載したような「母モーメント=標本モーメント」がどこで仮定されるかについて着目すると理解しやすいと思います。
母集団のパラメータか標本から推定した値かは可能な限り区別して把握すると良いです。

発展問題

モーメント母関数の導出

・問題
関数$f(x)$に関するマクローリン展開は$n$次の微分を$f^{(n)}(x)$と表記するとき、下記のように表される。
$$
\begin{align}
f(x) &= \sum_{n=0}^{\infty} \frac{f^{(n)}(0)}{n!} x^n
\end{align}
$$
このとき下記の問題に答えよ。

i) $f(x) = e^{x}$のとき、$f'(x), f'(0)$を求めよ。
ⅱ) $f(x) = e^{x}$のとき、$f^{(n)}(x), f^{(n)}(x)$を求めよ。
ⅲ) $f(x) = e^{x}$をマクローリン展開せよ。
iv) ⅲ)式に$x=tX$を代入し、両辺の期待値を取ることで、モーメント母関数$m_{X}(t)$を導出せよ。
v) モーメント母関数を用いて、原点の周りの$n$次のモーメント$\mu_{n} = E[X^{n}]$を求める方法について説明せよ。

・解答
i)
指数関数の微分の公式より、$f'(x) = e^{x}$となる。またこのとき、$f'(0) = e^{0} = 1$である。

ⅱ)
$(e^{x})’=e^{x}$のため、$f^{(n)}(x)=e^{x}$となる。このとき、$f^{(n)}(0)=e^{0}=1$である。

ⅲ)
ⅱ)の結果より$f^{(n)}(0)=1$であるので、$f(x) = e^{x}$のマクローリン展開は下記のように表せる。
$$
\large
\begin{align}
e^{x} &= \sum_{n=0}^{\infty} \frac{f^{(n)}(0)}{n!} x^n \\
&= \sum_{n=0}^{\infty} \frac{x^n}{n!} \\
&= 1 + x + \frac{x^2}{2!} + \frac{x^3}{3!} + …
\end{align}
$$

iv)
https://www.hello-statisticians.com/explain-terms-cat/moment1.html#i-5
上記を参考にすることで、下記のように導出することができる。
$$
\large
\begin{align}
e^x &= \sum_{n=0}^{\infty} \frac{x^n}{n!} \\
&= 1 + x + \frac{x^2}{2!} + \frac{x^3}{3!} + … \\
e^{tX} &= 1 + tX + \frac{(tX)^2}{2!} + \frac{(tX)^3}{3!} + … \\
m_{X}(t) &= E[e^{tX}] \\
&= E[1] + E[tX] + E \left[ \frac{(tX)^2}{2!} \right] + E \left[ \frac{(tX)^3}{3!} \right] + … \\
&= 1 + tE[X] + t^2 \frac{E[X^2]}{2!} + t^3 \frac{E[X^3]}{3!} + …
\end{align}
$$

v)
iv)の導出結果より、モーメント母関数は下記のように表せる。
$$
\large
\begin{align}
m_{X}(t) = 1 + tE[X] + t^2 \frac{E[X^2]}{2!} + t^3 \frac{E[X^3]}{3!} + …
\end{align}
$$
上記に対してモーメント母関数の$n$階微分を$m^{(n)}_{X}(t)$とすると、$m^{(n)}_{X}(0)=E[X^n]$となる。よって、モーメント母関数の$n$階微分を計算することで、原点の周りの$n$次のモーメント$\mu_{n} = E[X^{n}]$を求めることが可能となる。

・解説
モーメント母関数は$e^x$のマクローリン展開を用いて導出できることは知っておくと良いです。確率分布のモーメント母関数は関数の級数展開と同様なものと把握しておくと、理解しやすいのではないかと思います。

ベルヌーイ分布・二項分布のモーメント母関数

・問題
確率分布の確率変数$X$に対応するモーメント母関数は下記のように定義される。
$$
\begin{align}
m_{X}(t) = E[e^{tX}] \quad (1)
\end{align}
$$
以下では上記の具体的な例を確認するにあたって、ベルヌーイ分布・二項分布のモーメント母関数について確認する。また、二項分布$Bin(n,p)$の確率分布$P(x=k|n,p)$は下記のように表される。
$$
\begin{align}
P(x=k|n,p) = {}_n C_k p^{k} (1-p)^{n-k} \quad (2)
\end{align}
$$

下記の問題に答えよ。
i) ある事象が起こる確率を$p$、起こらない確率を$1-p$とするとき、これはベルヌーイ分布$Bin(1,p)$に従う。ベルヌーイ分布のモーメント母関数を求めよ。
ⅱ) 確率$p$のベルヌーイ分布に基づく試行はベルヌーイ試行とされる。ここで$i$回目のベルヌーイ試行に関する確率変数を$X_i$と表すと考えるとき、二項分布の確率変数は$\displaystyle Y = \sum_{i=1}^{n}X_i$のように表せることを説明せよ。
ⅲ) $(1)$式とi)、ⅱ)を活用することで、二項分布のモーメント母関数$m_{Y}(t)$を導出せよ。
iv) $m_{Y}(t)$を$t$について微分を行い、$m_{Y}'(t), m_{Y}^{”}(t)$を計算せよ。
v) iv)の結果を活用して、$E[X]=m_{Y}'(0), V[X]=m_{Y}^{”}(0)-m_{Y}'(0)^2$を計算せよ。

・解答
i)
確率変数$X \sim Bin(1,p)$を考えるとき、確率変数$X$は確率$p$で$X=1$、確率$1-p$で$X=0$を値に持つ。これに対し、$(1)$式を適用することでモーメント母関数$m_{X}(t)$を計算することができる。
$$
\large
\begin{align}
m_{X}(t) &= E[e^{tX}] \\
&= e^{t \times 1} P(X=1) + e^{t \times 0} P(X=0) \\
&= p e^{t} + 1 – p
\end{align}
$$

ⅱ)
二項分布$Bin(n,p)$の確率変数$X$は確率$p$のベルヌーイ試行を$n$回行なった際の確率$p$の事象が起こった回数と考えることができる。よって、$i$回目のベルヌーイ試行に対応するベルヌーイ分布の確率変数を$X_i$のようにおくことで、$\displaystyle Y = \sum_{i=1}^{n} X_i$のように表すことができる。

ⅲ)
二項分布のモーメント母関数$m_{Y}(t)$は、$\displaystyle Y = \sum_{i=1}^{n} X_i$を用いることで下記のように導出できる。
$$
\large
\begin{align}
m_{Y}(t) &= E[e^{tY}] \\
&= E[e^{t(X_1+X_2+…+X_n)}] \\
&= E[e^{tX_1}] \times E[e^{tX_2}] \times … \times E[e^{tX_n}] \\
&= (p e^{t} + 1 – p) \times (p e^{t} + 1 – p) \times … \times (p e^{t} + 1 – p) \\
&= (p e^{t} + 1 – p)^n
\end{align}
$$

iv)
$m_{Y}'(t), m_{Y}^{”}(t)$は下記のように計算できる。
$$
\large
\begin{align}
m_{Y}'(t) &= \frac{d}{dt} \left( (p e^{t} + 1 – p)^n \right) \\
&= n(p e^{t} + 1 – p)^{n-1} \times p e^{t} \\
&= np e^{t} (p e^{t} + 1 – p)^{n-1}
\end{align}
$$

$$
\large
\begin{align}
m_{Y}^{”}(t) &= \frac{d}{dt} \left( np e^{t} (p e^{t} + 1 – p)^{n-1} \right) \\
&= n(n-1)p^2 e^{2t} (p e^{t} + 1 – p)^{n-2} + np e^{t} (p e^{t} + 1 – p)^{n-1} \\
\end{align}
$$

v)
$m_{Y}'(0), m_{Y}^{”}(0)$は下記のように計算できる。
$$
\large
\begin{align}
m_{Y}'(0) &= np e^{0} (p e^{0} + 1 – p)^{n-1} \\
&= np (p + 1 – p)^{n-1} \\
&= np
\end{align}
$$
$$
\large
\begin{align}
m_{Y}^{”}(0) &= n(n-1)p^2 e^{2 \times 0} (p e^{0} + 1 – p)^{n-2} + np e^{0} (p e^{0} + 1 – p)^{n-1} \\
&= n(n-1)p^2 + np
\end{align}
$$

よって、$E[X]=m_{Y}'(0), V[X]=m_{Y}^{”}(0)-m_{Y}'(0)^2$は下記のように計算することができる。
$$
\large
\begin{align}
E[X &= m_{Y}'(0) \\
&= np \\
V[X] &= m_{Y}^{”}(0)-m_{Y}'(0)^2 \\
&= n(n-1)p^2 + np – (np)^2 \\
&= n^2p^2 – np^2 + np – n^2p^2 \\
&= np – np^2 \\
&= np(1-p)
\end{align}
$$

・解説
ⅲ)で取り扱ったように、二項分布のモーメント母関数はベルヌーイ分布のモーメント母関数の積の形式で表せることは抑えておくと良いと思います。

ポアソン分布のモーメント母関数と再生性の導出

・問題
ポアソン分布は再生性という性質を持つ。再生性は確率変数$X_1, X_2$に関して$X_1 \sim Po(\lambda_1), X_2 \sim Po(\lambda_2)$が成立する際に、$X_1+X_2 \sim Po(\lambda_1+\lambda_2)$も同時に成立する性質のことを表す。

以下ではポアソン分布の再生性を示すにあたって、モーメント母関数を用いた導出を確認する。モーメント母関数は確率分布と$1$対$1$で対応することより、モーメント母関数が一致するということは確率分布も一致することを意味する。

ここまでの内容に基づいて下記の問いに答えよ。
i) ポアソン分布の確率関数を$p(x|\lambda)$のように表すとき、$p(x|\lambda)$を$x, \lambda$の式で表せ。
ⅱ) 確率変数$X \sim Po(\lambda)$に関するモーメント母関数を$m_{X}(t)$とするとき、$m_{X}(t) = E[e^{tX}]$であることを利用して$m_{X}(t)$を導出せよ。ただし、下記のマクローリン展開の式を用いて良い。
$$
\begin{align}
e^{\lambda e^t} = \sum_{x=0}^{\infty} \frac{(\lambda e^{t})^{x}}{x!}
\end{align}
$$
ⅲ) ⅱ)と同様に考えることで$m_{X_1}(t), m_{X_2}(t)$を答えよ。
iv) $m_{X_1+X_2}(t)$を計算せよ。
v) $X_1+X_2 \sim Po(\lambda_1+\lambda_2)$が成立することを示せ。

・解答
i)
ポアソン分布の確率関数$p(x|\lambda)$は下記のように表すことができる。
$$
\large
\begin{align}
p(x|\lambda) = \frac{\lambda^{x} e^{-\lambda}}{x!}
\end{align}
$$

ⅱ)
$m_{X}(t)$は下記のように導出できる。
$$
\large
\begin{align}
m_{X}(t) &= E[e^{tX}] \\
&= \sum_{x=0}^{\infty} e^{tx} \times \frac{\lambda^{x} e^{-\lambda}}{x!} \\
&= e^{-\lambda} \sum_{x=0}^{\infty} \frac{(\lambda e^{t})^{x}}{x!} \\
&= e^{-\lambda} \sum_{x=0}^{\infty} \frac{(\lambda e^{t})^{x}}{x!} \\
&= e^{-\lambda} e^{\lambda e^t} \\
&= e^{\lambda(e^t-1)}
\end{align}
$$

ⅲ) ⅱ)と同様に考えることで、$m_{X_1}(t), m_{X_2}(t)$は下記のように表せる。
$$
\large
\begin{align}
m_{X_1}(t) &= e^{\lambda_1(e^t-1)} \\
m_{X_2}(t) &= e^{\lambda_2(e^t-1)}
\end{align}
$$

iv)
$m_{X_1+X_2}(t)$は下記のように計算できる。
$$
\large
\begin{align}
m_{X_1+X_2}(t) &= E[e^{t(X_1+X_2)}] \\
&= E[e^{tX_1}] \times E[e^{tX_2}] \\
&= e^{\lambda_1(e^t-1)} \times e^{\lambda_2(e^t-1)} \\
&= e^{(\lambda_1+\lambda_2)(e^t-1)}
\end{align}
$$

v)
ⅱ)より$Po(\lambda_1+\lambda_2)$のモーメント母関数は$e^{(\lambda_1+\lambda_2)(e^t-1)}$であることがわかるが、これはiv)の結果に一致する。ここで確率分布とモーメント母関数の$1$対$1$対応により、$X_1+X_2 \sim Po(\lambda_1+\lambda_2)$が成立する。

・解説
ここで取り扱った再生性を持つ確率分布はポアソン分布の他にも、二項分布、正規分布、ガンマ分布などが挙げられます。詳しくは下記などで取り扱ったので、下記も合わせて参照してみてください。
https://www.hello-statisticians.com/explain-terms-cat/probdist3.html
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch3.html#38

参考書籍

・基礎統計学Ⅰ 統計学入門(東京大学出版会)

モーメント(moment)を直感的・具体的に理解する 〜平均、分散、歪度、尖度 etc〜

確率分布について考えるにあたって、モーメントを把握しておくと理解しやすい。当稿では、平均、分散、歪度、尖度の直感的なイメージがつかめるように、具体的な例を元にそれぞれの値を確認する。
作成にあたっては、「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の$5.3$節を主に参考にした。

基本事項のまとめ

モーメントの定義

確率分布を考える際に、特定の点を中心とするモーメントを考えることで、形状についての考察が可能となる。「中心」を考えるにあたっては、「原点」と「平均・期待値」の二パターンが主に考えられる。

原点の周りの$n$次のモーメント(moment)は下記のように表すことができる。
$$
\large
\begin{align}
\mu_{n} = E[X^{n}]
\end{align}
$$

上記は積率とも呼ばれる。次に平均・期待値の周りの$n$次モーメントは下記のように表すことができる。
$$
\large
\begin{align}
\mu_{n}’ = E[(X-\mu_{1})^n]
\end{align}
$$

ここまでの議論を元に、期待値の$E[X]$と分散の$V[X]$は下記のように表すことができる。
$$
\large
\begin{align}
E[X] &= \mu_{1} \\
V[X] &= \mu_{2}’
\end{align}
$$

ここで、$\mu_{n}$と$\mu_{n}’$の定義より、下記が成立する。
$$
\large
\begin{align}
\mu_{0} &= 1 \\
\mu_{1}’ &= 0
\end{align}
$$
$\mu_{0}=1$は$E[X^0]=E[1]=1$より導出でき、$\mu_{1}’ = 0$は$E[(X-\mu_{1})]=E[X]-E[X]=0$より導出できる。

また、標準偏差を表す$\sigma$を用いて、下記のように$n$次の標準化モーメントの$\alpha_{n}$が定義される。
$$
\large
\begin{align}
\alpha_{n} = E \left[ \left( \frac{(X-\mu_{1})}{\sigma} \right)^n \right]
\end{align}
$$

確率分布の形は$E[X^n]$や$E[(X-\mu)^n]$の量で大まかに決定されるため、期待値や分散や以下で取り扱う歪度や尖度などの値を指定するとそれに該当する確率分布の候補は制限される。また、このことを極限的に利用して全ての次数のモーメントを考えることで、モーメント母関数(moment generating function)が定義されるが、こちらも非常に有用である。

平均、分散、歪度、尖度とモーメント

平均と分散は前項と同様に下記のように定義される。
$$
\large
\begin{align}
E[X] &= E[X^{1}] \\
&= \mu_{1} \\
V[X] &= E[(X-E[X])^2] \\
&= E[(X-\mu_{1})^2] \\
&= \mu_{2}’
\end{align}
$$

以下、歪度(skewness)、尖度(kurtosis)をそれぞれ頭文字を取り、$S[X]$、$K[X]$と定義する。$S[X]$、$K[X]$は一般的な定義ではないが、$E[X]$、$V[X]$と同様に表せる方がわかりやすいため、当稿における解説用に定義した。
このとき歪度$S[X]$は下記のように表される。
$$
\large
\begin{align}
S[X] &= E \left[ \left( \frac{(X-\mu_{1})}{\sigma} \right)^3 \right] \\
&= \alpha_{3}
\end{align}
$$

また、尖度$K[X]$は下記のように表される。
$$
\large
\begin{align}
K[X] &= E \left[ \left( \frac{(X-\mu_{1})}{\sigma} \right)^4 \right] – 3 \\
&= \alpha_{4} -3 \\
&= \beta_{4}
\end{align}
$$

正規分布の$\alpha_{4}=3$を基準に考えるにあたって、尖度は$K[X]=\beta_{4}=\alpha_{4}-3$のように定義されたと理解しておくと良い。

・参考
正規分布の平均・分散・歪度・尖度の計算

指数分布の平均・分散・歪度・尖度の計算

モーメント母関数

$$
\large
\begin{align}
m_{X}(t) &= E[e^{tX}] \\
&= \sum_{x} e^{tx} f(x)
\end{align}
$$
離散型のモーメント母関数(moment generating function)は$X=x$となる確率を$f(x)$のように表す場合、上記のように定義される。

同様に連続型のモーメント母関数は確率密度関数を$f(x)$とする場合、下記のように定義される。
$$
\large
\begin{align}
m_{X}(t) &= E[e^{tX}] \\
&= \int_{\infty}^{\infty} e^{tx} f(x) dx
\end{align}
$$

モーメント母関数は変数$t$に関する微分を考えることで、「モーメントの定義」で$\mu_{n}$と定義した原点の周りのモーメントを比較的簡単な計算で求めることができる。
・平$\mu_{1}$
$$
\large
\begin{align}
m_{X}'(t) &= E[(e^{tX})’] \\
&= E[Xe^{tX}] \\
m_{X}'(0) &= E[Xe^{0}] \\
&= E[X] \\
&= \mu_{1}
\end{align}
$$

・$\mu_{2}$
$$
\large
\begin{align}
m_{X}”(t) &= E[(Xe^{tX})’] \\
&= E[X^2e^{tX}] \\
m_{X}”(0) &= E[X^2e^{0}] \\
&= E[X^2] \\
&= \mu_{2}
\end{align}
$$

・$\mu_{3}$
$$
\large
\begin{align}
m_{X}^{(3)}(t) &= E[(X^2e^{tX})’] \\
&= E[X^3e^{tX}] \\
m_{X}^{(3)}(0) &= E[X^3e^{0}] \\
&= E[X^3] \\
&= \mu_{3}
\end{align}
$$

・$\mu_{4}$
$$
\large
\begin{align}
m_{X}^{(4)}(t) &= E[(X^3e^{tX})’] \\
&= E[X^4e^{tX}] \\
m_{X}^{(4)}(0) &= E[X^4e^{0}] \\
&= E[X^4] \\
&= \mu_{4}
\end{align}
$$

ここまでの計算を元にモーメント母関数から、平均、分散、歪度、尖度などの主要なモーメントがシンプルな計算で得られることは抑えておくと良い。

モーメント母関数とマクローリン展開

モーメント母関数は関数$e^x$のマクローリン展開と対応させながら抑えておくとよい。
$$
\large
\begin{align}
e^x &= \sum_{n=0}^{\infty} \frac{x^n}{n!} \\
&= 1 + x + \frac{x^2}{2!} + \frac{x^3}{3!} + …
\end{align}
$$
$e^x$のマクローリン展開は上記のように表すことができる。

ここで、マクローリン展開の式の両辺の$x$に$x=tX$を代入させることを考える。
$$
\large
\begin{align}
e^{tX} = 1 + tX + \frac{(tX)^2}{2!} + \frac{(tX)^3}{3!} + …
\end{align}
$$

この式に対し、両辺の期待値を取ると下記のようになる。
$$
\large
\begin{align}
E[e^{tX}] &= E[1] + E[tX] + E \left[ \frac{(tX)^2}{2!} \right] + E \left[ \frac{(tX)^3}{3!} \right] + … \\
&= 1 + tE[X] + t^2 \frac{E[X^2]}{2!} + t^3 \frac{E[X^3]}{3!} + … \\
&= 1 + t \mu_{1} + t^2 \frac{\mu_{2}}{2!} + t^3 \frac{\mu_{3}}{3!} + … = m(t)
\end{align}
$$
上記の式より、モーメント母関数は各次数のモーメント$\mu_{n}$を含んだ関数であり、微分を行い$t=0$を代入することで各次数のモーメントを求めることができることがわかる。このことは$e^{tX}$のマクローリン展開が$tX=0$の周辺での関数の級数展開かつ$X$が確率変数の定義域の値を取ることに基づいて理解すると良い。$X$がいくつかの実数を取りうることから、$t=0$周辺での級数展開を行なったというように解釈することができる。「現代数理統計学」の$2.3$節の「母関数」なども合わせて参照すると良い。

以下、モーメント母関数の定義域を定める必要がある例を挙げる。
・指数分布のモーメント母関数の導出

モーメント法の概要

点推定の手法の一つであるモーメント法の概要について確認する。モーメント法は標本から計算したモーメントを用いて、母集団分布のパラメータを推定する方法である。以下、正規分布$N(\mu, \sigma^2)$のパラメータ推定について考える。

ここで$\mu, \sigma^2$は$1$次、$2$次のモーメント$\mu_{1}, \mu_{2}$を用いて下記のように表すことができる。
$$
\large
\begin{align}
\mu &= \mu_{1} \qquad (1) \\
\sigma^2 &= \mu_{2} – \mu^2 \\
&= \mu_{2} – \mu_{1}^2 \qquad (2)
\end{align}
$$
上記において、$\mu, \sigma^2$と$\mu_{1}, \mu_{2}$はどちらも標本ではなく母集団に関するパラメータを表していることに注意が必要である。

次に標本を用いて$\mu_{1}, \mu_{2}$を推定した量を$\hat{\mu}_{1}, \hat{\mu}_{2}$とおくと、$\hat{\mu}_{1}, \hat{\mu}_{2}$は下記のようにサンプル$X_i$とその平均の$\bar{X}$、サンプル数$n$を用いた式で表すことができる。
$$
\large
\begin{align}
\hat{\mu}_{1} &= \frac{1}{n} \sum_{i=1}^{n} X_i \\
\hat{\mu}_{2} &= \frac{1}{n} \sum_{i=1}^{n} (X_i-\bar{X})^2
\end{align}
$$

ここで、下記のように「母モーメント=標本モーメント」が成立すると考える。
$$
\large
\begin{align}
\mu_1 &= \hat{\mu}_{1} \\
\mu_2 &= \hat{\mu}_{2}
\end{align}
$$
これを$(1)$式と$(2)$式に代入して推定を行う手法をモーメント法(method of moments)という。

具体例に基づく理解

平均・分散について

平均と分散については正規分布などに出てくるので、具体的な理解はそれほど問題ないと思われる。平均については歪度で取り扱うように、最頻値・中央値と平均が異なるケースがあることに注意が必要である。

また、分散については「平均の周りにどのくらい多くのサンプルがあるか」について取り扱っていると理解すれば十分だと思われる。

歪度について

歪度は$3$次の標準化モーメントであるが、正規分布などの確率分布のパラメータに出てこないことが多いため、解説されているケースが少ない。よって、より直感的な理解が可能になるように、具体的なサンプルを元に歪度の計算について考える。
$$
\large
\begin{align}
& 5,5,11 \\
& 6,6,9 \\
& 6,7,8 \\
& 5,8,8 \\
& 3,9,9
\end{align}
$$

上記は全て平均$E[X]=7$の標本である。それぞれの分散を$V_i[X]$とおき、計算すると下記のようになる。
$$
\begin{align}
V_1[X] &= \frac{1}{3} ((5-7)^2 + (5-7)^2 + (11-7)^2) \\
&= \frac{1}{3} (4 + 4 + 16) \\
&= 8 \\
V_2[X] &= \frac{1}{3} ((6-7)^2 + (6-7)^2 + (9-7)^2) \\
&= \frac{1}{3} (1 + 1 + 4) \\
&= 2 \\
V_3[X] &= \frac{1}{3} ((6-7)^2 + (7-7)^2 + (8-7)^2) \\
&= \frac{1}{3} (1 + 0 + 1) \\
&= \frac{2}{3} \\
V_4[X] &= \frac{1}{3} ((5-7)^2 + (8-7)^2 + (8-7)^2) \\
&= \frac{1}{3} (4 + 1 + 1) \\
&= 2 \\
V_5[X] &= \frac{1}{3} ((3-7)^2 + (9-7)^2 + (9-7)^2) \\
&= \frac{1}{3} (16 + 4 + 4) \\
&= 16
\end{align}
$$

平均周りの$3$次のモーメントを$E_i[(X-E[X])^3]$とおき、計算すると下記のようになる。
$$
\begin{align}
E_1[(X-E[X])^3] &= \frac{1}{3} ((5-7)^3 + (5-7)^3 + (11-7)^3) \\
&= \frac{1}{3} (-8 – 8 + 64) \\
&= 16 \\
E_2[(X-E[X])^3] &= \frac{1}{3} ((6-7)^3 + (6-7)^3 + (9-7)^3) \\
&= \frac{1}{3} (-1 – 1 + 8) \\
&= 2 \\
E_3[(X-E[X])^3] &= \frac{1}{3} ((6-7)^3 + (7-7)^3 + (8-7)^3) \\
&= \frac{1}{3} (-1 + 0 + 1) \\
&= 0 \\
E_4[(X-E[X])^3] &= \frac{1}{3} ((5-7)^3 + (8-7)^3 + (8-7)^3) \\
&= \frac{1}{3} (-8 + 1 + 1) \\
&= -2 \\
E_5[(X-E[X])^3] &= \frac{1}{3} ((3-7)^3 + (9-7)^3 + (9-7)^3) \\
&= \frac{1}{3} (-64 + 8 + 8) \\
&= -16
\end{align}
$$

ここで注意すべきは$E_1[(X-E[X])^3], E_2[(X-E[X])^3]$が正の値、$E_3[(X-E[X])^3]$が0、$E_4[(X-E[X])^3], E_5[(X-E[X])^3]$が負の値となったことである。$3$次のモーメントは平均と中央値のずれのような「確率分布の非対称性」を表すと解釈でき、$3$次のモーメントが$0$より大きい場合は「中央値<平均」であり、$0$より大きい場合は「平均<中央値」となることが多いことは抑えておくとよい。

歪度は$3$次の標準化モーメントであり、それぞれ$\alpha_3(i)$とおき、計算すると下記のようになる。
$$
\begin{align}
\alpha_3(1) &= \frac{E_1[(X-E[X])^3]}{\sqrt{V_1[X]}^3} \\
&= \frac{16}{16\sqrt{2}} \\
&= \frac{1}{\sqrt{2}} \\
\alpha_3(2) &= \frac{E_2[(X-E[X])^3]}{\sqrt{V_2[X]}^3} \\
&= \frac{2}{2\sqrt{2}} \\
&= \frac{1}{\sqrt{2}} \\
\alpha_3(3) &= \frac{E_3[(X-E[X])^3]}{\sqrt{V_3[X]}^3} \\
&= \frac{0}{\sqrt{V_3[X]}^3} \\
&= 0 \\
\alpha_3(4) &= \frac{E_4[(X-E[X])^3]}{\sqrt{V_4[X]}^3} \\
&= \frac{-2}{2\sqrt{2}} \\
&= -\frac{1}{\sqrt{2}} \\
\alpha_3(5) &= \frac{E_5[(X-E[X])^3]}{\sqrt{V_5[X]}^3} \\
&= \frac{-16}{16\sqrt{2}} \\
&= -\frac{1}{\sqrt{2}}
\end{align}
$$
どれも符号は変わらない一方で、$\sqrt{V_i[X]}^3$を用いて標準化を行ったことで、$\alpha_3(1)=\alpha_3(2)$と$\alpha_3(4)=\alpha_3(5)$が成立したことは抑えておくとよい。

尖度について

尖度は$4$次の標準化モーメントであるが、歪度と同様に正規分布などの確率分布のパラメータに出てこないことが多いため、解説されているケースが少ない。よって、より直感的な理解が可能になるように、具体的なサンプルを元に尖度の計算について考える。

まとめ

モーメントは抽象的かつ数式を用いた定義が多くで難しく見えるかもしれませんが、文字を一つ一つ確認していけばそれほど難しくはありません。モーメント母関数やモーメント法などのトピックにも関連するので、基本的な数式定義を確実に抑えておくと良いと思います。

【統計学習中の方必見】ミスを減らし、学習効率を上げるための数学の答案の書き方のコツ

統計学に興味があるけれど、数学を苦手に感じる方は多いようです。ある程度は演習を繰り返して慣れるしかない話ではありますが、答案の書き方を知っているだけで本質的な内容の理解が行いやすくなるというのはあります。
数学が苦手な方々は論述式よりも選択式の方が解きやすそうと考えるかもしれませんが、実は論述問題の方が簡単かつ学習効率が高いです。この際に重要なのが答案の書き方のコツを知っているかどうかで大きく変わると思われるので、当記事では答案の書き方のコツについて以下取りまとめを行います。

なぜ答案の書き方が重要か

そもそも演習ベースの方が学習効率が高い

答案の書き方について考えるより先に、演習の学習効率について考えます。中学高校での数学の学習といえば問題演習がセットにされることが多いですが、演習はなぜ効果的なのでしょうか。
その理由には「①導出や計算の目的が明確になる」、「②帰納的に対象のトピックを考えることができる」などが挙げられると思います。①については教科書などの記載では一つ一つのトピックの導出が丁寧に書かれている一方で、説明が数ページに渡ると目的を見失いやすくなるため、演習も組み合わせることでこういったことを回避することが可能になります。②は教科書には具体例が少ない場合があり、書籍によっては数式と説明のみ記載されることもあります。一方で演習は具体的な問題を取り扱うことが多いため、具体例から演繹的にそのトピックを理解することが可能になります。

このように演習を中心に学習することで学習効率を上げることが可能になります。「あつまれ統計の森」が取り扱うのは統計学のトピックが中心ですが、統計のトピックの多くは数学で表されるため、統計学を学ぶ際にもここまでの内容は当てはまると思います。

演習については、「基礎統計学Ⅰ(東京大学出版)の章末問題の解答」、「重要演習100」、「統計検定の問題の解答例と解説」についてそれぞれ取りまとめを行いましたので、そちらも合わせて確認してみてください。

論述式は構成が決まっている

論述式の答案の作成は一見難しそうに見えるので人によっては苦手意識を持ちがちです。ですがむしろ答案の作成の構成は基本的に決まっており、それほど自由度が多いわけではありません。逆に考えるなら、基本的な答案の書き方のパターンが決まっているため、基本を覚えて慣れれば十分です。
数学の問題は具体的には「計算・導出関連の問題」と「証明問題」に大別されますが、「計算・導出の問題」は与えられた公式などに問題の設定した数字や式を当てはめて導出を行います。一方で証明問題は、前提と結論が同時に与えられて前提から結論を導出する問題です。

上記は「二項分布の問題」から抜粋しましたが、i)は「知識の確認」でⅱ)が「計算・導出問題」、ⅲ)が「証明問題」です。「知識の確認」については単独で出題されることもありますが、導出するメイントピックの誘導的に用いられることもあります。前半で知識の確認、後半で「計算・導出・証明」のように出題されることが多いと思いますが、このことにより統一の試験でも理解度に応じて得点を分布させることが可能になるため、こういった出題形式が多く用いられているのではないかと思われます。

あつまれ統計の森」の「重要演習100」では「〜を証明せよ」よりも「〜を示せ」や「〜を確認せよ」と記載することが多いですが、これは「証明」だと少々論理展開の厳密さが求められるニュアンスが含まれる場合があるからです。「重要演習100」の「〜を示せ」や「〜を確認せよ」はどちらかというと教科書の導出の重要な部分を抜き出して部分的に導出を確認するというのが趣旨であることが多いため、それほど厳密さを考えずに取り組めるような表現を主に用いることとしています。

なぜ答案の書き方が重要か

さて、ここまでの内容を元に、「なぜ答案の書き方が重要か」について確認します。それは「答案の書き方=問題を解くにあたってのルーティーン」であるからです。試験では選択式と論述式がありますが、論述式の要領で常に問題を解くことを心がけることで、段々と同じパターンで問題が解けるようになるため非常にお勧めです。特に検定試験などを受ける際に、試験の本番で急に普段通りの力が出せない時があります。こういった時などに答案作成のルーティーンを抑えておくことで、普段と同様に試験問題に取り組むことができるようになります。

また、答案作成のルーティーンに慣れておくことで単に試験対策でうまくいくだけでなく、導出にあたっての流れに自然と慣れることができるため、より高度な書籍や文献を確認する際にルーティーン部分はそれほど考えなくてよいことで、学習効率を上げることが可能になります。

具体的には内積を行列表記で表す$\mathbf{x}^{T}\mathbf{x}$などは慣れているかいないかで、多次元正規分布や主成分分析、フィッシャーの線形判別が理解できるかどうかを大きく左右します。難しく見える数学的な論理展開も、ルーティーン化しておくことで考えなくてよくなるため、それを補助する「答案の書き方」を掴んでおくことは非常に重要です。ここまでは「答案の書き方がなぜ重要か」について取り扱いましたが、次節では具体的に「答案の書き方のコツ」について取り扱います。

答案の書き方のコツ

表現や表記について

まず、表現や表記について簡単に確認します。書籍によって表記が異なることも多いですが、負担の少ない表記を身につけておくことが望ましいです。以下では筆者がなるべく気をつけている点についてまとめます。

だである調を用いる

数学の答案は基本的に「だである調」を用いることが多いです。「重要演習100」は解説は「ですます調」を使っている一方で、問題や解答には「だである調」を用いるようにしています。これは元々慣用的に「演習の答案ではだである調を用いる」というのが理由にあるのですが、「だである調」に慣れることで「メイントピック以外に考える量を減らす」という狙いも同時にあります。日本語の文の作成はなかなか複雑になることもあるので、複雑な思考を行う際は「だである調」を用いる方が「考える分量」を減らせるので、望ましいと思います。

接続詞を決めておく

前項の議論と同様になるべく日本語の文の作成はスムーズに行えると望ましいため、用いる接続詞も予めある程度は決めておくと良いと思います。筆者がよく用いるのは「よって・従って」、「しかし・一方で」、「また」、「ここで・このとき」、「上記より・以上より」などです。

「よって・従って」は順接、「しかし・一方で」は逆接、「また」は並列、「ここで・このとき」は無難に話を繋げたい場合、「上記より・以上より」は結論をまとめたい場合にそれぞれ用いることが多いです。特に、「よって・従って」は数学の答案で用いることが多いと思います。

また、これらに関連して数学記号も抑えておくと良いです。もちろんここで示した内容はあくまで一例なので、様々な問題集の解答などを確認することで負担の少ない表現を用いるようにしていくというのが良いと思います。

数式の記載はなるべく読みやすく

ベクトルの要素は縦表記

$$
\large
\begin{align}
\mathbf{x} = \left(\begin{array}{ccc} x_{1} & … & x_{D} \end{array} \right)
\end{align}
$$
上記のようにベクトルの要素を横表記にすると、非常に読みにくいので負担がかかるかつミスが増えます。それよりも下記のように要素を縦表記すると大変見やすいです。
$$
\large
\begin{align}
\mathbf{x} = \left(\begin{array}{c} x_{1} \\ … \\ x_{D} \end{array} \right)
\end{align}
$$

複雑な式展開は縦に並べる

$$
\large
\begin{align}
V_W &= \sum_{n \in C_1} (y_n-m_1)^2 + \sum_{n \in C_2} (y_n-m_2)^2 \\
&= \sum_{n \in C_1} (\mathbf{w}^{T}\mathbf{x}_n-\mathbf{w}^{T}\mathbf{m}_1)^2 + \sum_{n \in C_2} (\mathbf{w}^{T}\mathbf{x}_n-\mathbf{w}^{T}\mathbf{m}_2)^2 \\
&= \sum_{n \in C_1} (\mathbf{w}^{T}(\mathbf{x}_n-\mathbf{m}_1))^2 + \sum_{n \in C_2} (\mathbf{w}^{T}(\mathbf{x}_n-\mathbf{m}_2))^2 \\
&= \sum_{n \in C_1} \mathbf{w}^{T}(\mathbf{x}_n-\mathbf{m}_1)(\mathbf{x}_n-\mathbf{m}_1)^{T}\mathbf{w} + \sum_{n \in C_2} (\mathbf{x}_n-\mathbf{m}_2)(\mathbf{x}_n-\mathbf{m}_2)^{T}\mathbf{w} \\
&= \mathbf{w}^{T} \left( \sum{n \in C_1}(\mathbf{x}_n-\mathbf{m}_1)(\mathbf{x}_n-\mathbf{m}_1)^{T}+\sum_{n \in C_2} \mathbf{w}^{T}(\mathbf{x}_n-\mathbf{m}_2)(\mathbf{x}_n-\mathbf{m}_2)^{T} \right)\mathbf{w} \\
&= \mathbf{w}^{T}\mathbf{S}_W\mathbf{w} \\
V_B &= (m_2-m_1)^2 \\
&= (\mathbf{w}^{T} (\mathbf{m}_2-\mathbf{m}_1))^2 \\
&= \mathbf{w}^{T}(\mathbf{m}_2-\mathbf{m}_1)(\mathbf{m}_2-\mathbf{m}_1)^{T}\mathbf{w} \\
&= \mathbf{w}^{T}\mathbf{S}_B\mathbf{w}
\end{align}
$$
例えば上記の式展開はフィッシャーの線形判別に出てくる郡間分散の式展開ですが、このように複雑な式を取り扱う際は縦に並べないとミスが増えます。答案作成を考える際に中央に縦の二分線を引いて作成すると良いなどを時折見かけますが、これは式を縦に並べる方が読みやすいことに基づきます。

簡易図を用いる

まとめ

当記事では「ミスを減らし、学習効率を上げるための数学の答案の書き方のコツ」についてまとめました。答案の書き方のパターンを抑えておくだけで、試験対策になるだけでなく普段の学習効率を上げることができるので非常におすすめです。

フィッシャーの線形判別の導出とその理解|問題演習で理解する統計学【10】

下記などで取り扱った、フィッシャーの線形判別に関する問題演習を通した理解ができるように問題・解答・解説をそれぞれ作成しました。

・標準演習$100$選
https://www.hello-statisticians.com/practice_100

基本問題

2クラス分類問題のシンプルな解法

・問題
クラス$C_1$に属するサンプルが$N_1$個、クラス$C_2$に属するサンプルが$N_2$個と考え、これらの2クラス分類問題を考える。また、サンプルは$D$次元ベクトルの$\mathbf{x}_n$と表すこととする。 このとき、下記のように各クラスに含まれるサンプルの平均ベクトルの$\mathbf{m}_1$と$\mathbf{m}_2$を計算する。
$$
\begin{align}
\mathbf{m}_1 &= \frac{1}{N_1} \sum_{n \in C_1} \mathbf{x}_n \\
\mathbf{m}_2 &= \frac{1}{N_2} \sum_{n \in C_2} \mathbf{x}_n
\end{align}
$$

ここで下記のように$D$次元ベクトルの$\mathbf{w}$を考える。
$$
\begin{align}
\mathbf{w} &= \left(\begin{array}{c} w_1 \\ … \\ w_D \end{array} \right) \\
\mathbf{w}^{\mathrm{T}}\mathbf{w} &= \sum_{i=1}^{D} w_i^2 = 1
\end{align}
$$
このとき下記の問題に答えよ。

i) クラス$C_1, C_2$にそれぞれ属するサンプルの平均ベクトルの$\mathbf{m}_1$と$\mathbf{m}_2$の$\mathbf{w}$への正射影の長さをそれぞれ$m_1, m_2$とするとき、$m_1$と$m_2$を$\mathbf{m}_1, \mathbf{m}_2$と$\mathbf{w}$を用いて表せ。
ⅱ) $m_2-m_1$をi)と同様に$\mathbf{m}_1, \mathbf{m}_2$と$\mathbf{w}$を用いて表せ。
ⅲ) ラグランジュの未定乗数法とベクトルを用いた偏微分を用いて、$m_2-m_1$を$\mathbf{w}^{\mathrm{T}}\mathbf{w} = 1$の制約下で最適化する$\mathbf{w}$を求めよ。

・解答
i)
$m_1, m_2$はそれぞれ下記のように求めることができる。
$$
\begin{align}
m_1 &= \mathbf{w}^{\mathrm{T}}\mathbf{m}_1 \\
m_2 &= \mathbf{w}^{\mathrm{T}}\mathbf{m}_2
\end{align}
$$

ⅱ)
i)より$m_2-m_1$は下記のように表すことができる。
$$
\begin{align}
m_2-m_1 &= \mathbf{w}^{\mathrm{T}}\mathbf{m}_2 – \mathbf{w}^{\mathrm{T}}\mathbf{m}_1 \\
&= \mathbf{w}^{\mathrm{T}} (\mathbf{m}_2 – \mathbf{m}_1)
\end{align}
$$

ⅲ)
下記のように解くことができるため、以下では記載を抜粋した。
https://www.hello-statisticians.com/explain-terms-cat/linear_discriminant1.html#i-5
$\displaystyle \mathbf{w}^{\mathrm{T}}\mathbf{w} = \sum_{i=1}^{D} w_i^2=1$の制約の元で、(1)が最大となる$\mathbf{w}$を求めるにあたっては、ラグランジュの未定乗数法に基づいて、下記の最大値問題を解けば良い。
$$
\begin{align}
L(\mathbf{w}, \lambda) &= m_2-m_1 + \lambda(1-\mathbf{w}^{\mathrm{T}}\mathbf{w}) \\
&= \mathbf{w}^{\mathrm{T}} (\mathbf{m}_2-\mathbf{m}_1) + \lambda(1-\mathbf{w}^{\mathrm{T}}\mathbf{w})
\end{align}
$$
上記を$\mathbf{w}$と$\lambda$に関して微分すると下記のようになる。
$$
\begin{align}
\frac{\partial L(\mathbf{w}, \lambda)}{\partial \mathbf{w}} &= \mathbf{m}_2-\mathbf{m}_1 – 2\lambda \mathbf{w} \\
\frac{\partial L(\mathbf{w}, \lambda)}{\partial \lambda} &= 1-\mathbf{w}^{\mathrm{T}}\mathbf{w}
\end{align}
$$
上記がそれぞれ$0$に等しいので、ここから下記のような条件が得られる。
$$
\begin{align} \frac{\partial L(\mathbf{w}, \lambda)}{\partial \mathbf{w}} &= 0 \\
\mathbf{m}_2-\mathbf{m}_1 – 2\lambda \mathbf{w} &= 0 \\
\mathbf{m}_2-\mathbf{m}_1 &= 2\lambda \mathbf{w}
\end{align}
$$
$$
\begin{align}
\frac{\partial L(\mathbf{w}, \lambda)}{\partial \lambda} &= 0 \\
1-\mathbf{w}^{\mathrm{T}}\mathbf{w} &= 0 \\
\mathbf{w}^{\mathrm{T}}\mathbf{w} &= 1
\end{align}
$$
上記より、$\mathbf{m}_2-\mathbf{m}_1$と$\mathbf{w}$が平行であれば、$\displaystyle \mathbf{w}^{\mathrm{T}}\mathbf{w} = \sum_{i=1}^{D} w_i^2=1$の制約の元で、(1)が最大となる。

よって、$\mathbf{w} \propto \mathbf{m}_2-\mathbf{m}_1$と$\mathbf{w}^{\mathrm{T}}\mathbf{w}=1$を満たす$\mathbf{w}$がここで求める$\mathbf{w}$となる。

・解説
i)で取り扱った内積の式が正射影を表していることがわかるまでは難しい印象を受けるかもしれませんが、重要事項なので直感的にイメージがつくまで取り組んで慣れると良いと思います。ⅲ)で出てくるラグランジュの未定乗数を用いた最適化もとにかくよく出てくるので必ず抑えておきましょう。
また、基本的な最適化の問題は1変数で表現されることが多いですが、ⅲ)はベクトルについての最適化であり、偏微分方程式を元にベクトル$\mathbf{w}$の解を求めていることは注意しておくと良いと思います。

郡内分散と群間分散の定義とその理解

・問題
フィッシャーの線形判別では郡内分散$V_W$と群間分散$V_B$を定義してその比の$\displaystyle J(\mathbf{w}) = \frac{V_B}{V_W}$を最大化する$\mathbf{w}$の導出を行う。
ここで、クラス$C_1, C_2$にそれぞれ属するサンプルの平均ベクトルの$\mathbf{m}_1$と$\mathbf{m}_2$の$\mathbf{w}$への正射影の値をそれぞれ$m_1, m_2$とするとき、郡内分散$V_W$と群間分散$V_B$は下記のように定義する。
$$
\begin{align}
V_W &= \sum_{n \in C_1} (y_n-m_1)^2 + \sum_{n \in C_2} (y_n-m_2)^2 \\
V_B &= (m_2-m_1)^2
\end{align}
$$
上記において、$D$次元ベクトルの$\mathbf{x}_n$のベクトル$\mathbf{w}$への正射影の値を$y_n$、$D$次元ベクトルの$\mathbf{m}_1, \mathbf{m}_1$のベクトル$\mathbf{w}$への正射影の値をそれぞれ$m_1, m_2$とする。

これらを元に以下の問いに答えよ。
i) クラス$C_1$内の標本分散を$\displaystyle \sum_{n \in C_1} (y_n-m_1)^2 $を用いて表せ。ただしクラス$C_1$のサンプル数を$N_1$、$C_2$のサンプル数を$N_2$とおくと考えるものとする。
ⅱ) 平均ベクトル$\mathbf{m}_1$と$\mathbf{m}_2$の平均を求めよ。
ⅲ) ⅱ)の結果を用いて、「サンプルの平均からの差の二乗和をサンプルで割る」ことで分散の計算を行え。
iv) $V_W$と$V_B$をi)〜ⅲ)の結果と比較した際に、類似の式の形が得られる一方で、完全には一致しない。このことが許容されるのはなぜか。
v) $\displaystyle J(\mathbf{w}) = \frac{V_B}{V_W}$が最大になる$\mathbf{w}$はどのような特徴を持つと推測できるか考察せよ。

・解答
i)
クラス$C_1$内の標本分散は下記のようになる。
$$
\large
\begin{align}
\frac{1}{N_1} \sum_{n \in C_1} (y_n-m_1)^2
\end{align}
$$

ⅱ)
$\mathbf{m}_1$と$\mathbf{m}_2$の平均ベクトルは下記のように表すことができる。
$$
\large
\begin{align}
\frac{\mathbf{m}_1+\mathbf{m}_2}{2}
\end{align}
$$

ⅲ)
「サンプルの平均からの差の二乗和をサンプルで割る」と考えると、分散は下記のように考えることができる。正射影の$m_1, m_2$を元にここでは考える。
$$
\large
\begin{align}
& \sum_{i=1}^{2} \left( m_i – \frac{m_1+m_2}{2} \right)^2 \\
&= \frac{1}{2} \left( \left( m_1 – \frac{m_1+m_2}{2} \right)^2 + \left( m_1 – \frac{m_1+m_2}{2} \right)^2 \right) \\
&= \frac{1}{2} \left( \left( \frac{m_1-m_2}{2} \right)^2 + \left( \frac{m_2-m_1}{2} \right)^2 \right) \\
&= \frac{1}{2} \left( \frac{(m_2-m_1)^2}{4} + \frac{(m_2-m_1)^2}{4} \right) \\
&= \frac{(m_2-m_1)^2}{8}
\end{align}
$$

iv)
この問題は$\mathbf{w}$の向きに関する最適化であり、ベクトルの定数倍は$\mathbf{w}$の向きを変えないので考えなくて良い。

v)
クラス間分散の$V_B$をクラス内分散の$V_W$で割った指標の$J(\mathbf{w})$を考えることで、クラス内分散が大きくなり過ぎないような向きを導出することができる。

・解説
フィッシャーの線形判別は郡内分散$V_W$と群間分散$V_B$の比の$\displaystyle J(\mathbf{w}) = \frac{V_B}{V_W}$を用いて判別を行う手法です。
導出を確認するにあたって、郡内分散$V_W$と群間分散$V_B$が唐突に出てくるため、この問題ではそれぞれの分散や分散の比の把握がしやすいような流れにしました。群間分散$V_B$の式はⅲ)で導出した式の定数倍であり、方向を考える場合はスカラー倍は無視できることは抑えておくと良いと思います。

発展問題

郡内分散・群間分散と分散共分散行列

・問題
フィッシャーの線形判別では郡内分散$V_W$と群間分散$V_B$を定義してその比の$\displaystyle J(\mathbf{w}) = \frac{V_B}{V_W}$を最大化する$\mathbf{w}$の導出を行う。
ここで、クラス$C_1, C_2$にそれぞれ属するサンプルの平均ベクトルの$\mathbf{m}_1$と$\mathbf{m}_2$の$\mathbf{w}$への正射影の値をそれぞれ$m_1, m_2$とするとき、郡内分散$V_W$と群間分散$V_B$は下記のように定義する。
$$
\begin{align}
V_W &= \sum_{n \in C_1} (y_n-m_1)^2 + \sum_{n \in C_2} (y_n-m_2)^2 \\
V_B &= (m_2-m_1)^2
\end{align}
$$
上記において、$D$次元ベクトルの$\mathbf{x}_n$のベクトル$\mathbf{w}$への正射影の値を$y_n$、$D$次元ベクトルの$\mathbf{m}_1, \mathbf{m}_1$のベクトル$\mathbf{w}$への正射影の値をそれぞれ$m_1, m_2$とする。

これらを元に以下の問いに答えよ。
i) $y_n, m_1$をそれぞれ$\mathbf{x}_n, \mathbf{m}_1, \mathbf{w}$を用いて表せ。
ⅱ) $\displaystyle V_W = \sum_{n \in C_1} (y_n-m_1)^2 + \sum_{n \in C_2} (y_n-m_2)^2$の$y_n, m_1, m_2$を$\mathbf{x}_n, \mathbf{m}_1, \mathbf{m}_2, \mathbf{w}$を用いて書き換えよ。
ⅲ) ⅱ)の式を元に下記を導出せよ。
$$
\begin{align}
V_W = \mathbf{w}^{\mathrm{T}} \left( \sum_{n \in C_1}(\mathbf{x}_n-\mathbf{m}_1)(\mathbf{x}_n-\mathbf{m}_1)^{\mathrm{T}} + \sum_{n \in C_2} (\mathbf{x}_n-\mathbf{m}_2)(\mathbf{x}_n-\mathbf{m}_2)^{\mathrm{T}} \right) \mathbf{w}
\end{align}
$$
iv) 下記を導出せよ。
$$
\begin{align}
V_B = \mathbf{w}^{\mathrm{T}}(\mathbf{m}_2-\mathbf{m}_1)(\mathbf{m}_2-\mathbf{m}_1)^{\mathrm{T}}\mathbf{w}
\end{align}
$$
v) $\displaystyle \sum_{n \in C_1}(\mathbf{x}_n-\mathbf{m}_1)(\mathbf{x}_n-\mathbf{m}_1)^{\mathrm{T}}+\sum_{n \in C_2} (\mathbf{x}_n-\mathbf{m}_2)(\mathbf{x}_n-\mathbf{m}_2)^{\mathrm{T}}$と$(\mathbf{m}_2-\mathbf{m}_1)(\mathbf{m}_2-\mathbf{m}_1)^{\mathrm{T}}$はそれぞれ分散共分散行列であることを説明せよ。

・解答
i)
$y_n, m_1$はそれぞれ下記のようになる。
$$
\large
\begin{align}
y_n &= \mathbf{w}^{\mathrm{T}} \mathbf{x}_n \\
m_1 &= \mathbf{w}^{\mathrm{T}} \mathbf{m}_1
\end{align}
$$

ⅱ)
文字を入れ替えると$V_W$は下記のように表せる。
$$
\large
\begin{align}
V_W &= \sum_{n \in C_1} (y_n-m_1)^2 + \sum_{n \in C_2} (y_n-m_2)^2 \\
&= \sum_{n \in C_1} (\mathbf{w}^{\mathrm{T}}\mathbf{x}_n-\mathbf{w}^{\mathrm{T}}\mathbf{m}_1)^2 + \sum_{n \in C_2} (\mathbf{w}^{\mathrm{T}}\mathbf{x}_n-\mathbf{w}^{\mathrm{T}}\mathbf{m}_2)^2 \\
&= \sum_{n \in C_1} (\mathbf{w}^{\mathrm{T}}(\mathbf{x}_n-\mathbf{m}_1))^2 + \sum_{n \in C_2} (\mathbf{w}^{\mathrm{T}}(\mathbf{x}_n-\mathbf{m}_2))^2
\end{align}
$$

ⅲ)
ⅱ)の結果を元に下記のように導出できる。
$$
\large
\begin{align}
V_W &= \sum_{n \in C_1} (\mathbf{w}^{\mathrm{T}}(\mathbf{x}_n-\mathbf{m}_1))^2 + \sum_{n \in C_2} (\mathbf{w}^{\mathrm{T}}(\mathbf{x}_n-\mathbf{m}_2))^2 \\
&= \sum_{n \in C_1} \mathbf{w}^{\mathrm{T}}(\mathbf{x}_n-\mathbf{m}_1)(\mathbf{x}_n-\mathbf{m}_1)^{\mathrm{T}}\mathbf{w} + \sum{n \in C_2} (\mathbf{x}_n-\mathbf{m}_2)(\mathbf{x}_n-\mathbf{m}_2)^{\mathrm{T}}\mathbf{w} \\
&= \mathbf{w}^{\mathrm{T}} \left( \sum_{n \in C_1}(\mathbf{x}_n-\mathbf{m}_1)(\mathbf{x}_n-\mathbf{m}_1)^{\mathrm{T}}+\sum_{n \in C_2} (\mathbf{x}_n-\mathbf{m}_2)(\mathbf{x}_n-\mathbf{m}_2)^{\mathrm{T}} \right) \mathbf{w}
\end{align}
$$

iv)
i)〜ⅲ)の導出と同様に下記のように導出できる。
$$
\large
\begin{align}
V_B &= (m_2-m_1)^2 \\
&= (\mathbf{w}^{\mathrm{T}} (\mathbf{m}_2-\mathbf{m}_1))^2 \\
&= \mathbf{w}^{\mathrm{T}}(\mathbf{m}_2-\mathbf{m}_1)(\mathbf{m}_2-\mathbf{m}_1)^{\mathrm{T}}\mathbf{w}
\end{align}
$$

v)
分散は「サンプルのベクトルから平均ベクトルを引いた値の二乗和」、共分散は「サンプルのベクトルから平均ベクトルを引いた値の二方向に関しての積の和」であるので、$\displaystyle \sum_{n \in C_1}(\mathbf{x}_n-\mathbf{m}_1)(\mathbf{x}_n-\mathbf{m}_1)^{\mathrm{T}}+\sum_{n \in C_2} (\mathbf{x}_n-\mathbf{m}_2)(\mathbf{x}_n-\mathbf{m}_2)^{\mathrm{T}}$と$(\mathbf{m}_2-\mathbf{m}_1)(\mathbf{m}_2-\mathbf{m}_1)^{\mathrm{T}}$はそれぞれ分散共分散行列である。

・解説
v)で示したように$\displaystyle \sum_{n \in C_1}(\mathbf{x}_n-\mathbf{m}_1)(\mathbf{x}_n-\mathbf{m}_1)^{\mathrm{T}}+\sum_{n \in C_2} (\mathbf{x}_n-\mathbf{m}_2)(\mathbf{x}_n-\mathbf{m}_2)^{\mathrm{T}}$と$(\mathbf{m}_2-\mathbf{m}_1)(\mathbf{m}_2-\mathbf{m}_1)^{\mathrm{T}}$は分散共分散行列です。それぞれを$\mathbf{S}_W, \mathbf{S}_B$とすると、$\mathbf{V}_W, \mathbf{V}_B$は下記のように表すことができることは抑えておくと良いです。
$$
\large
\begin{align}
V_W &= \mathbf{w}^{\mathrm{T}}\mathbf{S}_W\mathbf{w} \\
V_B &= \mathbf{w}^{\mathrm{T}}\mathbf{S}_B\mathbf{w}
\end{align}
$$

フィッシャーの線形判別の導出

・問題
フィッシャーの線形判別では郡内分散$V_W$と群間分散$V_B$を定義してその比の$\displaystyle J(\mathbf{w}) = \frac{V_B}{V_W}$を最大化する$\mathbf{w}$の導出を行う。
最適化にあたっては$J(\mathbf{w})$をベクトル$\mathbf{w}$で微分するが、このときに「ベクトルを用いた微分」と「商の導関数」の理解が必須になる。
「ベクトルを用いた微分」は「PCAの問題」で取り扱ったので、この問題では「商の導関数」の確認から$\mathbf{w}$に関する最適化問題について取り扱う。

関数$f(x), g(x)$を考えた際に$\displaystyle \frac{f(x)}{g(x)}$に関する「商の導関数」の公式は下記のようになる。
$$
\begin{align}
\left( \frac{f(x)}{g(x)} \right)’ = \frac{f'(x)g(x)-g'(x)f(x)}{g(x)^2}
\end{align}
$$
ここまでの内容を元に、下記の問題に答えよ。

i) $\displaystyle h(x) = \frac{1}{g(x)}$を考えた際に、合成関数の微分の考え方に基づいて$h(x)’$を計算せよ。
ⅱ) i)の結果と$f(x), g(x)$に関する積の導関数の公式の$(f(x)g(x))’ = f'(x)g(x) + f(x)g'(x)$を用いて下記の商の導関数の公式を導出せよ。
$$
\begin{align}
\left( \frac{f(x)}{g(x)} \right)’ = \frac{f'(x)g(x)-g'(x)f(x)}{g(x)^2}
\end{align}
$$
ⅲ) 下記のように$\nabla, J(\mathbf{w})$を考えるとき、$\nabla J(\mathbf{w})$を計算せよ。
$$
\begin{align}
\nabla = \frac{\partial}{\partial \mathbf{w}} &= \left(\begin{array}{c} \frac{\partial}{\partial w_1} \\ … \\ \frac{\partial}{\partial w_p} \end{array} \right) \\
J(\mathbf{w}) &= \frac{V_B}{V_W} \\
&= \frac{\mathbf{w}^{\mathrm{T}}\mathbf{S}_B\mathbf{w}}{\mathbf{w}^{\mathrm{T}}\mathbf{S}_W\mathbf{w}}
\end{align}
$$
iv) ⅲ)の結果を利用して$\nabla J(\mathbf{w}) = 0$が成立するための$\mathbf{w}$の条件を求めよ。
v) iv)の結果を解釈せよ。

・解答
i)
合成関数の微分の公式より、下記のように計算できる。
$$
\large
\begin{align}
h(x)’ &= \left( \frac{1}{g(x)} \right)’ \\
&= -\frac{1}{g(x)^2} \cdot g'(x) \\
&= -\frac{g'(x)}{g(x)^2}
\end{align}
$$

ⅱ)
積の導関数の公式とi)の結果より、下記のように導出できる。
$$
\large
\begin{align}
\left( \frac{f(x)}{g(x)} \right)’ &= (f(x)h(x))’ \\
&= f'(x)h(x) + h'(x)f(x) \\
&= \frac{f'(x)}{g(x)} – \frac{g'(x)}{g(x)^2} \\
&= \frac{f'(x)g(x)}{g(x)^2} – \frac{g'(x)f(x)}{g(x)^2} \\
&= \frac{f'(x)g(x) – g'(x)f(x)}{g(x)^2}
\end{align}
$$

ⅲ)
下記のように$\nabla J(\mathbf{w})$は計算することができる。
$$
\large
\begin{align}
\nabla J(\mathbf{w}) &= \nabla \frac{\mathbf{w}^{\mathrm{T}}\mathbf{S}_B\mathbf{w}}{\mathbf{w}^{\mathrm{T}}\mathbf{S}_W\mathbf{w}} \\
&= \frac{\nabla(\mathbf{w}^{\mathrm{T}}\mathbf{S}_B\mathbf{w})(\mathbf{w}^{\mathrm{T}}\mathbf{S}_W\mathbf{w}) – \nabla(\mathbf{w}^{\mathrm{T}}\mathbf{S}_W\mathbf{w})(\mathbf{w}^{\mathrm{T}}\mathbf{S}_B\mathbf{w})}{(\mathbf{w}^{\mathrm{T}}\mathbf{S}_W\mathbf{w})^2} \\
&= \frac{2\mathbf{S}_B\mathbf{w}(\mathbf{w}^{\mathrm{T}}\mathbf{S}_W\mathbf{w}) – 2\mathbf{S}_W\mathbf{w}(\mathbf{w}^{\mathrm{T}}\mathbf{S}_B\mathbf{w})}{(\mathbf{w}^{\mathrm{T}}\mathbf{S}_W\mathbf{w})^2}
\end{align}
$$

iv)
ⅲ)の結果の$(\mathbf{w}^{\mathrm{T}}\mathbf{S}_W\mathbf{w}), (\mathbf{w}^{\mathrm{T}}\mathbf{S}_B\mathbf{w}$)はそれぞれスカラーであることに注意しながら偏微分方程式$\nabla J(\mathbf{w}) = 0$を解くと、下記のようになる。
$$
\large
\begin{align}
\nabla J(\mathbf{w}) &= 0 \\
\frac{2\mathbf{S}_B\mathbf{w}(\mathbf{w}^{\mathrm{T}}\mathbf{S}_W\mathbf{w}) – 2\mathbf{S}_W\mathbf{w}(\mathbf{w}^{\mathrm{T}}\mathbf{S}_B\mathbf{w})}{(\mathbf{w}^{\mathrm{T}}\mathbf{S}_W\mathbf{w})^2} &= 0 \\
2\mathbf{S}_B\mathbf{w}(\mathbf{w}^{\mathrm{T}}\mathbf{S}_W\mathbf{w}) &= 2\mathbf{S}_W\mathbf{w}(\mathbf{w}^{\mathrm{T}}\mathbf{S}_B\mathbf{w}) \\
\mathbf{S}_B\mathbf{w}(\mathbf{w}^{\mathrm{T}}\mathbf{S}_W\mathbf{w}) &= \mathbf{S}_W\mathbf{w}(\mathbf{w}^{\mathrm{T}}\mathbf{S}_B\mathbf{w}) \\
(\mathbf{w}^{\mathrm{T}}\mathbf{S}_W\mathbf{w})\mathbf{S}_B\mathbf{w} &= (\mathbf{w}^{\mathrm{T}}\mathbf{S}_B\mathbf{w})\mathbf{S}_W\mathbf{w} \\
\mathbf{S}_W\mathbf{w} & \propto \mathbf{S}_B\mathbf{w} \\
\mathbf{S}_W\mathbf{w} & \propto (\mathbf{m}_2-\mathbf{m}_1)(\mathbf{m}_2-\mathbf{m}_1)^{\mathrm{T}}\mathbf{w} \\
\mathbf{S}_W\mathbf{w} & \propto (\mathbf{m}_2-\mathbf{m}_1) \\
\mathbf{w} & \propto \mathbf{S}_W^{-1}(\mathbf{m}_2-\mathbf{m}_1)
\end{align}
$$

v)
iv)の結果は、$J(\mathbf{w})$を最大にする$\mathbf{w}$は二つのクラスの平均ベクトルの差に、郡内分散の共分散行列の逆行列の$\mathbf{S}_W^{-1}$を左からかけた方向になるということを意味している。

・解説
ここで取り扱った計算については複雑である一方で、教科書では途中の計算が省略されることが多い内容であるので、なるべく導出の流れがわかりやすいような問題となるように設定を行いました。

フィッシャーの線形判別の具体例

・問題
前述の問題」を前提とし、平均ベクトルの差の$(\mathbf{m}_2-\mathbf{m}_1)$が下記のように得られた場合を元に考える。

$$
\begin{align}
\mathbf{m}_2-\mathbf{m}_1 = \left(\begin{array}{c} -1 \\ 1 \end{array} \right)
\end{align}
$$

このとき、「前述の問題」の結果を用いて、郡内分散の共分散行列$\mathbf{S}_W$が下記のようにそれぞれ与えられる場合の$J(\mathbf{w})$を最大にする$\mathbf{w}$について求めよ。

i)
$$
\begin{align}
\mathbf{S}_W = \left(\begin{array}{cc} 1 & 0 \\ 0 & 1 \end{array} \right)
\end{align}
$$
ⅱ)
$$
\begin{align}
\mathbf{S}_W = \left(\begin{array}{cc} 1 & 0.7 \\ 0.7 & 1 \end{array} \right)
\end{align}
$$
ⅲ)
$$
\begin{align}
\mathbf{S}_W = \left(\begin{array}{cc} 1 & 1 \\ 1 & 1 \end{array} \right)
\end{align}
$$
iv)
$$
\begin{align}
\mathbf{S}_W = \left(\begin{array}{cc} 1 & 0 \\ 0 & 2 \end{array} \right)
\end{align}
$$
v)
$$
\begin{align}
\mathbf{S}_W = \left(\begin{array}{cc} 1 & 0.5 \\ 0.5 & 2 \end{array} \right)
\end{align}
$$

・解答
それぞれ$\mathbf{S}_W$の逆行列の$\mathbf{S}_W^{-1}$を計算し、$\displaystyle \mathbf{m}_2-\mathbf{m}_1 = \left(\begin{array}{c} -1 \\ 1 \end{array} \right)$に左から作用させれば良い。

i)
$$
\large
\begin{align}
\mathbf{w} & \propto \mathbf{S}_W^{-1}(\mathbf{m}_2-\mathbf{m}_1) \\
&= \left(\begin{array}{cc} 1 & 0 \\ 0 & 1 \end{array} \right) \left(\begin{array}{c} -1 \\ 1 \end{array} \right) \\
&= \left(\begin{array}{c} -1 \\ 1 \end{array} \right)
\end{align}
$$

ⅱ)
$$
\large
\begin{align}
\mathbf{w} & \propto \mathbf{S}_W^{-1}(\mathbf{m}_2-\mathbf{m}_1) \\
& \propto \left(\begin{array}{cc} 1 & -0.7 \\ -0.7 & 1 \end{array} \right) \left(\begin{array}{c} -1 \\ 1 \end{array} \right) \\
&= \left(\begin{array}{c} -1.7 \\ 1.7 \end{array} \right)
\end{align}
$$

ⅲ)
$$
\large
\begin{align}
\mathbf{w} & \propto \mathbf{S}_W^{-1}(\mathbf{m}_2-\mathbf{m}_1) \\
& \propto \left(\begin{array}{cc} 1 & -1 \\ -1 & 1 \end{array} \right) \left(\begin{array}{c} -1 \\ 1 \end{array} \right) \\
&= \left(\begin{array}{c} -2 \\ 2 \end{array} \right)
\end{align}
$$

iv)
$$
\large
\begin{align}
\mathbf{w} & \propto \mathbf{S}_W^{-1}(\mathbf{m}_2-\mathbf{m}_1) \\
& \propto \left(\begin{array}{cc} 2 & 0 \\ 0 & 1 \end{array} \right) \left(\begin{array}{c} -1 \\ 1 \end{array} \right) \\
&= \left(\begin{array}{c} -2 \\ 1 \end{array} \right)
\end{align}
$$

v)
$$
\large
\begin{align}
\mathbf{w} & \propto \mathbf{S}_W^{-1}(\mathbf{m}_2-\mathbf{m}_1) \\
& \propto \left(\begin{array}{cc} 2 & -0.5 \\ -0.5 & 1 \end{array} \right) \left(\begin{array}{c} -1 \\ 1 \end{array} \right) \\
&= \left(\begin{array}{c} -2.5 \\ 1.5 \end{array} \right)
\end{align}
$$

・解説
$\displaystyle \mathbf{m}_2-\mathbf{m}_1 = \left(\begin{array}{c} -1 \\ 1 \end{array} \right)$のように定義したことで、i)〜ⅲ)までの結果はどれも同じ向きの結果が得られたことは着目しておくと良いと思います。

参考書籍

・「パターン認識と機械学習(PRML)」

統計検定2級問題解説 ~2018年11月実施~ (問11~問18)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問11 解答

(モーメント,歪度,尖度)

[1]

$\boxed{ \ \mathsf{17}\ }$

正規分布は,歪度$=0$,尖度$=0$である。

[2]

$\boxed{ \ \mathsf{18}\ }$

$X$ の確率密度関数を $f(x)=c$ とすると$$\begin{align}\int_{-1}^1f(x)dx=&\int_{-1}^1cdx=\left[cx\right]_{-1}^1=2c=1\ \ \Rightarrow\ \ c=1/2\\\mu=E[X]=&\int_{-1}^1xf(x)dx=\int_{-1}^1\frac x2dx=\left[\frac{x^2}4\right]_{-1}^1=0\\\mu_k=E[(X-\mu)^k]=&\int_{-1}^1(x-\mu)^kf(x)dx=\int_{-1}^1\frac {x^k}2dx\\=&\left[\frac{x^{k+1}}{2(k+1)}\right]_{-1}^1=\frac{1+(-1)^k}{2(k+1)}\\\sigma^2=\mu_2=&\frac{1+(-1)^2}{2\times(2+1)}=\frac13\\\frac{\mu_3}{\sigma^3}=&\frac{1+(-1)^3}{2\times(3+1)}\frac1{\sigma^3}=0\\\frac{\mu_4}{\sigma^4}-3=&\frac{1+(-1)^4}{2\times(4+1)}\times3^2-3=-1.2\\\end{align}$$

[3]

$\boxed{ \ \mathsf{19}\ }$

Ⅰ.歪度は,右に裾が長い分布では正の値になり,左に裾が長い分布では負の値になる。誤り。
Ⅱ.尖度は,中心部が平坦で裾が短い分布は負の値になり,尖っていて裾の長い分布は正の値になる。誤り。
Ⅲ.$t$ 分布は自由度が大きいほど正規分布に近づくので,尖度は $0$ に近づく。誤り。


問12 解答

(母比率の区間推定)

$\boxed{ \ \mathsf{20}\ }$

成功確率$p$の試行を$n$回行うときに成功する回数$X$は二項分布$B(n,p)$に従う$$\therefore\ \ E(X)=np,\ V(X)=np(1-p)$$このとき,$n$がある程度大きいときは,中心極限定理によって,$B(n,p)$は正規分布$N(np,np(1-p))$に近似できる。よって,$X$を標準化すると標準正規分布$N(0,1)$に従う。$$Z=\frac{X-np}{\sqrt{np(1-p)}}=\frac{X/n-p}{\sqrt{\frac{p(1-p)}n}}\sim N(0,1)$$ここで,標本平均 $\hat p=x/n$は$p$の一致推定量なので,$n$が十分大きいとき$p$は$\hat p$に置き換えられる。
したがって,母比率の$100(1-\alpha)\%$信頼区間は,標準正規分布の上側 $100\alpha/2\%$ 点を $z_{\alpha/2}$とすると,$$P\left(\hat p-z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}\le p\le\hat p+z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}\right)=1-\alpha$$
ほぼ毎日利用した人の割合の母比率の$95\%$信頼区間は,$n=1338$,$\hat p=0.020$,$\alpha=0.05$として$$\hat p\pm z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}=0.020\pm1.96\times\sqrt{\frac{0.020\times(1-0.020)}{1338}}=0.020\pm0.0075$$


問13 解答

(母平均の検定)

$\boxed{ \ \mathsf{21}\ }$

母分散の値が未知のとき,母分散 $\sigma^2$ の代わりに不偏分散 $s^2$ を用いた統計量$$t=\frac{\bar x-\mu}{\sqrt{s^2/n}}$$は自由度 $n-1$ の $t$ 分布 $t(n-1)$ に従う。
帰無仮説 $\mu=90$,対立仮説 $\mu\ne90$ のもとで,両側検定の棄却域は有意水準 $5\%$ として,$$|t|=\left|\frac{\bar x-90}{\sqrt{s^2/n}}\right|>t_{0.05/2}(n-1)$$
ここで,$\bar x=85.6$,$n=20$,$s^2=121.9$ とすると,$$t=\frac{85.6-90}{\sqrt{121.9/20}}=-1.7822\ \ \Rightarrow\ \ |t|<t_{0.025}(19)=2.093$$よって帰無仮説は棄却しない。


問14 解答

(母分散の比の検定,第1種の過誤)

[1]

$\boxed{ \ \mathsf{22}\ }$

2つの母集団からの標本$\{x_1,\dots,x_m\}\sim N(\mu_x,\sigma^2_x),\ \{y_1,\dots,y_n\}\sim N(\mu_y,\sigma^2_y)$に従うとき,母分散が等しいという帰無仮説$\ H_0:\sigma^2_x=\sigma^2_y\ \Leftrightarrow\ \sigma^2_y/\sigma^2_x=1.0\ $,対立仮説$\ H_1:\sigma^2_x\ne\sigma^2_y\ $で,両側検定を行う。
帰無仮説の下で,以下の検定統計量($F$検定量)は自由度$(m-1,n-1)$の$F$分布に従う。$$F=\frac{\hat\sigma_x^2}{\sigma_x^2}\cdot\frac{\sigma_y^2}{\hat\sigma_y^2}=\frac{\hat\sigma_x^2}{\hat\sigma_y^2}\sim F(m−1,n−1)$$有意水準$100\%$の両側検定の場合,この検定統計量を$F$分布の上側$\alpha/2$点と下側$\alpha/2$点(=上側$(1-\alpha/2)$点)と比較して,$$F_{1-\alpha/2}(m−1,n−1)\le\frac{\hat\sigma_x^2}{\hat\sigma_y^2}\le F_{\alpha/2}(m−1,n−1)$$を満たせば,帰無仮説を受け入れ,そうでないときは帰無仮説を棄却する。
問題の場合,$F$統計量は$$F=\frac{21.9}{20.4}\fallingdotseq1.1$$となり,これを,自由度 $(30-1,31-1)=(29,30)$ の $F$ 分布の上側 $2.5\%$ 点と下側 $2.5\%$ 点と比較する。

[2]

$\boxed{ \ \mathsf{23}\ }$

真実
帰無仮説が正しい対立仮説が正しい
検定の結果帰無仮説を棄却しない
(対立仮説が正しいとは言えない)
正しい第二種の過誤(β)
帰無仮説を棄却する
(対立仮説が正しい)
第一種の過誤(α)
有意水準
正しい
検出力(1-β)

AとB,AとC,BとCの3つの検定のうち少なくとも1つで仮説が棄却されれば帰無仮説 $H_0$ 棄却されるので,$H_0$ は棄却されないためには3つの検定すべてが棄却されないことが必要である。よって,第一種の過誤の確率は$$1-(1-0.05)^3\fallingdotseq0.143$$


問15 解答

(二項分布,母比率の検定,母比率の差の検定)

[1]

$\boxed{ \ \mathsf{24}\ }$ ③

$5\%$ の確率で不良品が発生する試行を $200$ 回行ったときに,不良品が発生する個数 $X$ は二項分布 $B(200,0.05)$ に従う。よって,$$E[X]=np=200\times0.05=10,\ \ \ \ \ V[X]=np(1-p)=200\times0.05\times(1-0.05)=9.5$$となる。

[2]

$\boxed{ \ \mathsf{25}\ }$

不良品の個数 $X$ は二項分布に従うので,$E(X)=np,\ V(X)=np(1-p)$($n$ は試行回数,$p$ は不良品率)。<br/>このとき,$n$がある程度大きいときは,中心極限定理によって,$B(n,p)$は正規分布$N(np,np(1-p))$に近似できる。よって,$X$を標準化すると標準正規分布$N(0,1)$に従う。$$Z=\frac{X-np}{\sqrt{np(1-p)}}=\frac{X/n-p}{\sqrt{p(1-p)/n}}\sim N(0,1)$$ここで,標本の不良品率は $\hat r=X/n=16/200$,母集団の不良品率(母比率)を $p=r$ としたとき,帰無仮説 $r=0.05$,対立仮説 $r>0.05$の下での統計検定量 $z$ は$$z=\frac{\hat r-r}{\sqrt{r(1-r)/n}}=\frac{16/200-0.05}{\sqrt{0.05\times(1-0.05)/200}}\fallingdotseq1.947$$となる。片側検定のもとで,$P_-$ 値は $P(Z>z)$ で与えられる。$Z$ は標準正規分布に従うので,$$P(Z>z)=P(Z>1.947)\fallingdotseq0.026$$となる。

※)離散型確率分布の正規近似でより正確な値を求めるためには,確率変数が$X=x$となる場合$x\pm0.5$の範囲の確率で近似することが適当である。上の場合,標本の不良品率は $\hat p=16.5/200$として求める方がより正確となる。(連続修正)$$z=\frac{16.5/200-0.05}{\sqrt{0.05\times(1-0.05)/200}}\fallingdotseq2.109\ \ \Rightarrow\ \ P(Z>z)=P(Z>2.109)\fallingdotseq0.017$$

[3]

$\boxed{ \ \mathsf{26}\ }$

2つの母集団からの標本に基づいて,2つの母集団の母比率$p_1,p_2$に差があるかの検定を行う。
帰無仮説を$H_0:p_1=p_2$とする。$n_1,n_2$が十分大きいとき,標本比率$\hat p_1=x_1/n_1, \hat p_2=x_2/n_2$は近似的に正規分布$\hat p_1\sim N(p_1,p_1(1-p_1)/n_1), \hat p_2\sim N(p_2,p_2(1-p_2)/n_2)$に従うので,2つの標本比率の差も正規分布に従う。$$\hat p_1-\hat p_2\sim N\left(p_1-p_2, \frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}\right)$$$z$を以下のとおりにすると,標準正規分布に従う。ここで,標本比率$\hat p_1,\hat p_2$は母比率の一致推定量なので,分散に含まれている$p_1,p_2$は$n_1,n_2$が十分大きいとき$\hat p_1,\hat p_2$に置き換えることができる。$$z=\frac{(\hat p_1-\hat p_2)-(p_1-p_2)}{\sqrt{\frac{\hat p_1(1-\hat p_1)}{n_1}+\frac{\hat p_2(1-\hat p_2)}{n_2}}}$$$\hat p_1=16/200=0.080,\hat p_2=17/200=0.085,n_1=n_2=200$ として,帰無仮説 $d=p_1-p_2=0$,対立仮説 $d\ne0$ の下で検定統計量 $z$ を求めると$$z=\frac{(0.080-0.085)-0}{\sqrt{\frac{0.080\times(1-0.080)}{200}+\frac{0.085\times(1-0.085)}{200}}}=\frac{-0.005}{0.0275}=-0.18$$となる。両側検定のもとで,$P_-$ 値は $P(|Z|>|z|)$ で与えられる。$Z$ は標準正規分布に従うので,$$P(|Z|>|z|)=P(|Z|>|-0.18|)\fallingdotseq2\times0.429=0.858$$となる。


問16 解答

(適合度の検定)

適合度の検定は,ある属性$A$の$k$個のカテゴリの値が理論値に適合しているかどうかの検定。
属性$A$のカテゴリ$A_i$の観測度数を$O_{i}$とし,属性$A$のカテゴリ$A_i$の理論的な出現確率を$p_i$とする。
理論値に適合するという帰無仮説を$H_0:P(A_i)=p_i\ (i=1,2,\cdot,k, \sum p_i=1)$とすると,カテゴリ$A_i$の理論的な期待度数は$E_i=np_i$と計算される。
帰無仮説$H_0$の下で,検定統計量$\chi^2$は度数が大きいときに近似的に$\chi^2$分布に従う。カテゴリ数の合計が固定されていることから自由度は$k$(カテゴリ数)$-1$となる。$$\chi^2=\sum_{i=1}^k\frac{(O_{i}-E_{i})^2}{E_i}\sim\chi^2(k-1)$$有意水準$100\alpha\%$で帰無仮説が棄却されるには,$\chi^2$分布の上側$\alpha$点より上で求めた$\chi^2$統計量が大きくなればよい。

[1]

$\boxed{ \ \mathsf{27}\ }$

帰無仮説が「発生率は曜日に依存しない」であるので,各曜日同じ確率で交通事故が発生するものとして,各曜日の期待度数は $102/6=17$。

[2]

$\boxed{ \ \mathsf{28}\ }$

自由度はカテゴリ数$-1$ なので $6-1=5$。よって,自由度 $5$ の $\chi^2$ 分布の上側 $5\%$ 点は $11.07$。よって,帰無仮説は棄却しない。


問17 解答

(重回帰モデル,統計ソフトウェアの活用)

※重回帰モデルの統計ソフトウェアによる出力結果の主な項目
$\mathtt{Estimate}$:回帰係数($\alpha,\beta_1,\beta_2,\beta_3$)の推定値
$\mathtt{Std.Error}$:回帰係数の推定値の標準誤差
$\mathtt{t\ value}$:$t$値,$\mathtt{Pr(\gt|t|)}$:$P_-$値・・・回帰係数の検定で使う
$\mathtt{Rasidual\ standard\ error}$:誤差項の標準偏差の推定値
$\mathtt{degrees\ of\ freedom}$:自由度
$\mathtt{Multiple\ R-squared}$:決定係数($R^2$)
$\mathtt{Adjusted\ R-squared}$:自由度調整済み決定係数($R^{*2}$)
$\mathtt{F-statistic}$:$F$検定統計量,$\mathtt{p-value}$:$P_-$値・・・回帰の有意性の検定で使う

[1]

$\boxed{ \ \mathsf{29}\ }$

問題の回帰モデルの自由度は,標本の大きさから推定する回帰係数の数(定数項を含む)を引いた値である。自由度は $52$,回帰係数の数は $3$ なので,標本の大きさは $55$。

[2]

$\boxed{ \ \mathsf{30}\ }$

Ⅰ.出力結果から $\alpha$ の標準誤差は,$\mathtt{Intercept}$ の $\mathtt{Std.Error}$ = $1.137\times10^{+02}=113.7$ である。誤り。
Ⅱ.各回帰係数の $P_-$値は,すべて $5\%=0.05$ 未満なので,すべての回帰係数は有意である。⇒推定値の推定区間内に $0$ が含まれない。⇒ $0$ と異なる。正しい。
Ⅲ.自由度調整済み決定係数($\mathtt{Adjusted\ R-squared}$)の値は $0.8141$ である。誤り。

[3]

$\boxed{ \ \mathsf{31}\ }$

Ⅰ.人口密度($\mathtt{population}$)の回帰係数の推定値($\mathtt{Estimate}$)は負なので,人口密度が高い国は,自動車普及率が低い傾向にある(負の相関)。正しい。
Ⅱ.$\mathrm{log}(1$人当たりGDP$)$($\mathtt{log(gdp)}$)の回帰係数の推定値($\mathtt{Estimate}$)は正なので,$1$人当たりGDPが高い国は,自動車普及率が高い傾向にある(正の相関で$\mathrm{log}$は単調増加関数)。正しい。
Ⅲ.重回帰モデルによる予測式により自動車普及率を予測すると,
自動車普及率$=-1.283\times10^3-6.617\times10^{-2}\times$人口密度$+1.757\times10^2\times\mathrm{log}(1$人当たりGDP$)=-1283-0.06617\times400+175.7\times10\fallingdotseq447.53$ 正しい。


問18 解答

(単回帰モデル,重回帰モデル)

[1]

$\boxed{ \ \mathsf{32}\ }$

Ⅰ.残差平方和を $S_e$ とすると,残差の標準誤差は $\hat\sigma_u=\sqrt{S_e/(n-k-1)}$ となるので,残差平方和は $S_e=\hat\sigma_u^2\times(n-k-1)=0.608^2\times(5-1-1)=1.109$。正しい。
Ⅱ.回帰係数も標準誤差も1万倍になるので $t$値は変わらない。誤り。
Ⅲ.単回帰のモデル式から切片も1万倍になる。正しい。

[2]

$\boxed{ \ \mathsf{33}\ }$

Ⅰ.回帰係数の値が $0$ に近いからといって不要ということはなく,$t$ 値や $P_-$ 値で有意性を判断する。誤り。
Ⅱ.変数間の相関係数は高く,標本サイズも小さいので,多重共線性の可能性が考えられる。誤り。
Ⅲ.$P_-$ 値の大きさが $5\%=0.05$ より大きいので,帰無仮説は棄却できない。誤り。

[3]

$\boxed{ \ \mathsf{34}\ }$

Ⅰ.一般に、$y=a+bx+u$の$x$の係数$b$と$y=a’+b’x+c’z+v$の$x$の係数$b’$では異なる値となるので、データの入力ミスではない。誤り。
Ⅱ. $y=a+bx+u$の酒類への支出金額$x$の係数$b$は有意水準$10\%$で有意である$(P_-$値$=0.070<0.1)$。一方、 $y=a’+b’x+c’z+v$では、酒類への支出金額$x$の係数は有意水準$10\%$で有意ではなく$(P_-$値$=0.559>0.1)$、実収入$z$の係数が有意である$(P_-$値$=0.064<0.1)$ことから、実収入が教養娯楽サービスへの支出金額と酒類への支出金額の両方に影響を及ぼしている可能性があり、両支出金額間に見かけ上の相関をもたらしているものと考えられる。正しい。
Ⅲ.係数が有意でないということは、$b’=0$という帰無仮説が棄却できないということなので、問題文のような解釈は言えない。誤り。


統計検定2級問題解説 ~2018年11月実施~ (問1~問10)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問1 解答

(比率,箱ひげ図)

[1]

$\boxed{ \ \mathsf{1}\ }$ ⑤

相対度数=各階級の度数の割合 $(r_i=f_i/N)$なので,全階級の相対度数の合計は $1=100\%$

(ア) $100.0-85.1-2.1=12.8$
(イ) $100.0-76.6-17.0-2.1=4.3$

[2]

$\boxed{ \ \mathsf{2}\ }$ ①

各箱ひげ図の最大値の値(外れ値になっている)をみると,Aが70ぐらい,Bが100ぐらい,Cが140ぐらいとなっているので,相対度数分布表から各年の最も高い階級を見ると,Aが1952年,Bが1985年,Cが2017年となる。

[3]

$\boxed{ \ \mathsf{3}\ }$ ③

Ⅰ.箱ひげ図から箱の高さを比較すると四分位範囲は大きい(縦軸のスケールに注意)。誤り。
Ⅱ.A(1952年)の最大値が70強に対し,B(1985年)の最大値が100強程度なので,半分以下ではない。誤り。
Ⅲ.箱ひげ図から中央値の値を比較すれば明らか。正しい。


問2 解答

(相関係数)

$\boxed{ \ \mathsf{4}\ }$ ①

Ⅰ.20~54歳までの値を見ると強い相関が見受けられるので,相関係数が低いというだけで関係性が強くないと判断できない。正しい。
Ⅱ.20~54歳までの値を見ると相関が強くなるので,相関係数の値は大きくなる。誤り。
Ⅲ.相関係数からはこのような関係はわからない(回帰係数でわかる)。誤り。


問3 解答

(価格指数,変化率)

[1]

$\boxed{ \ \mathsf{5}\ }$ ①

前月比の変化率 $=($当月値$)/($前月値$)-1$
$\therefore\ \ 117.7/($ア$)-1=4.98\%\ \ \Rightarrow\ \ ($ア$)=106.40$

[2]

$\boxed{ \ \mathsf{6}\ }$ ④

3項移動平均は,当期値に1期前値と1期後値との3つの平均をとったもの。

※4項移動平均のように偶数項の移動平均は両端の値は $1/2$ をかけて平均をとる。
4項移動平均 $\displaystyle\frac{109.5/2+110.3+107.9+109.5+108.8/2}4$


問4 解答

(価格指数)

$\boxed{ \ \mathsf{7}\ }$ ②

ラスパイレス物価指数…基準年の購入量や取引量等を重みとして算出した価格指数。
品目$i$の基準年価格$=p_{oi}$,基準年数量$=q_{oi}$,比較年価格$=p_{ti}$として$$P_L=\frac{\sum_ip_{ti}q_{0i}}{\sum_ip_{0i}q_{0i}}$$
※他の物価指数
パーシェ物価指数…比較年の購入量や取引量等を重みとして算出した価格指数。
品目$i$の基準年価格$=p_{oi}$,比較年数量$=q_{ti}$,比較年価格$=p_{ti}$として$$P_P=\frac{\sum_ip_{ti}q_{ti}}{\sum_ip_{0i}q_{ti}}$$
フィッシャー物価指数…ラスパイレス指数とパーシェ指数の幾何平均で求められる価格指数。$$P_F=\sqrt{P_L\times P_P}$$


問5 解答

(標本抽出法(無作為抽出))

$\boxed{ \ \mathsf{8}\ }$ ③

単純無作為抽出法・・・母集団の中から無作為に標本を抽出する方法。
層化無作為抽出法・・・母集団をあらかじめいくつかの層(グループ)に分けておき、各層の中から必要な数の調査対象を無作為に抽出する方法。
(通常,層の大きさに比例させて調査対象を抽出する大きさを決める。(比例配分法))

Ⅰ.単純無作為抽出法では,全部で$N$個の個体からなる母集団から$n$個の標本を得るとき,各個体が選択される確率は等しく$n/N$,どの個体の組も選択される確率が等しく${}_NC_n$。正しい。
Ⅱ.層化無作為抽出法において,分割した層内の分散はできるだけ小さくなるようにするが,これによって母集団平均の推定値の分散が小さくなることはない。誤り。
Ⅲ.母集団がいくつかの層に分けられた場合,単純無作為抽出法では,母集団内からランダムに標本を抽出するので,場合によってはある特定の層を全く含まない可能性がありうる。正しい。


問6 解答

(標本抽出法)

$\boxed{ \ \mathsf{9}\ }$ ②

集落(クラスター)抽出法・・・母集団を小集団であるクラスター(集落)に分け,その中からいくつかのクラスターを無作為に抽出し,それぞれのクラスターにおいて全数調査を行う。
二段抽出法・・・母集団をいくつかのグループ(第1段抽出)に分け,その中からいくつかグループを無作為に抽出し,さらにそこから標本を無作為に抽出(第2段抽出)する。
系統抽出法・・・通し番号をつけた名簿を作成し,1番目の調査対象を無作為に選び、2番目以降の調査対象を一定の間隔で抽出する方法。


問7 解答

(条件付き確率,ベイズの定理)

[1]

$\boxed{ \ \mathsf{10}\ }$ ②

カモノハシがプリントされているクッキーは,
 全体の $70\%$ を占めるA工場分には $2\%$,
 全体の $30\%$ を占めるB工場分には $8\%$,
含まれているので,全体に占めるカモノハシのクッキーの割合は$$70\%\times2\%+30\%\times8\%=0.7\times0.02+0.3\times0.08=0.038$$

[2]

$\boxed{ \ \mathsf{11}\ }$ ②

工場Aで生産されたという事象を $A$,カモノハシがプリントされているという事象を$B$とすると,
$$P(A)=0.7,\ P(B|A)=0.02,\ P(B)=0.038$$
となるので,無作為に抽出したクッキーにカモノハシがプリントされていたとき,それが工場Aで製造されているという確率(事象 $B$ が起こったという条件下で事象 $A$ が起こる確率)は,
$$P(A|B)=\frac{P(B|A)P(A)}{P(B)}=\frac{0.02\times0.7}{0.038}=0.3684$$
※このとき,$P(A)$ を事前確率,$P(A|B)$ を事後確率,$P(B|A)$ を尤度という。


問8 解答

(確率変数の和と差)

[1]

$\boxed{ \ \mathsf{12}\ }$ ④

$$P(Y\ge0)=P(0.3+2x+U\ge0)=P(U\ge-0.3-2x)=0.95\\$$
$U\sim N(0,1)$なので,
$P(U\ge a)=P(-U\le -a)=1-P(-U\ge -a)$ ($U$ は $x=0$ に対して対称)
$$P(-U\ge0.3+2x)=1-0.95=0.05\\$$標準正規分布表から$$0.3+2x=1.645\ \ \Rightarrow\ \ x=(1.645-0.3)/2=0.6725$$

[2]

$\boxed{ \ \mathsf{13}\ }$ ①

$Y$ は $U$ と単調増加の関係になる。よって,$U$ の上側 $5\%$ 点を $u=1.645$ とすると,$Y$ の上側 $5\%$ 点 $y$ は $$y=0.3+2x+u=0.3+2x+1.645=2x+1.945$$グラフは傾き $2$ の直線となる。


問9 解答

(二項分布)

[1]

$\boxed{ \ \mathsf{14}\ }$ ②

$X$ は成功確率 $p=2/6=1/3$ の試行を $n=7$ 回行って成功する回数の分布なので,二項分布 $B(n,p)=B(7,1/3)$ に従う。$$\begin{align}P(X=x)=&{}_7\mathrm{C}_x(1/3)^x(1-1/3)^{7-x}\\P(X=x+1)=&{}_7\mathrm{C}_{x+1}(1/3)^{x+1}(1-1/3)^{6-x}\\\therefore\ \frac{P(X=x+1)}{P(X=x)}=&\frac{{}_7\mathrm{C}_{x+1}(1/3)^{x+1}(1-1/3)^{6-x}}{{}_7\mathrm{C}_x(1/3)^x(1-1/3)^{7-x}}\\=&\frac{(7-x)(1/3)}{(x+1)(1-1/3)}=\frac{-x+7}{2x+2}\end{align}$$

[2]

$\boxed{ \ \mathsf{15}\ }$ ②

[1]の結果から$$P(X=x+1)>P(X=x)\ \ \Leftrightarrow\ \ \frac{P(X=x+1)}{P(X=x)}>1\ \ \Leftrightarrow\ \ \frac{-x+7}{2x+2}>1\ \ \Leftrightarrow\ \ x<5/3$$同様に$$P(X=x+1)<P(X=x)\ \ \Leftrightarrow\ \ x>5/3$$よって,$P(X=0)<P(X=1)<P(X=2)>P(X=3)>P(X=4)\cdots$


問10 解答

(標本平均の期待値,分散)

$\boxed{ \ \mathsf{16}\ }$ ③

$X_1,\dots,X_n$は互いに独立で,期待値が $\mu$,分散が $\sigma^2$ なので,$$E[X_i]=\mu,V[X_i]=\sigma^2,\mathrm{Cov}[X_i,X_j]=0\ \ (i\ne j)$$よって,$$\begin{align}E[\bar X]=&E\left[\frac1n\sum_{i=1}^nX_i\right]=\frac1n\sum_{i=1}^nE\left[X_i\right]=\frac1n\times n\mu=\mu\\V[\bar X]=&V\left[\frac1n\sum_{i=1}^nX_i\right]\\=&\frac1{n^2}V\left[\sum_{i=1}^nX_i\right]\\=&\frac1{n^2}\left(\sum_{i=1}^nV\left[X_i\right]+\sum_{i\ne j}\mathrm{Cov}\left[X_i,X_j\right]\right)\\=&\frac1{n^2}\times n\sigma^2=\frac{\sigma^2}{n}\end{align}$$


統計検定2級問題解説 ~2019年6月実施~ (問10~問18)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問10 解答

(幾何分布)

[1]

$\boxed{ \ \mathsf{18}\ }$

不在→不在→在宅の確率を求める$$(1-0.2)\times(1-0.2)\times0.2=0.128$$

[2]

$\boxed{ \ \mathsf{19}\ }$

在宅を成功,不在を失敗と考えると,在宅しているまでの訪問回数 $X$ は成功確率 $p=0.2$ の幾何分布に従う。期待値,分散は,$$E[X]=\frac1p=\frac1{0.2}=5,\ \ V[X]=\frac{1-p}{p^2}=\frac{1-0.2}{0.2^2}=20$$

※成功か失敗しかない試行をベルヌーイ試行という。成功確率は $p$。
このベルヌーイ試行を独立に何回も行うとき,初めて成功するまでに“試行”した回数を $X$ とすると,$X$ の確率関数は$$P(X=x)=p(1-p)^{x-1}$$となり,この確率分布をパラメータ $p$ の幾何分布という。(本によっては,初めて成功するまでに“失敗”した回数を $X$ とする定義の仕方もある。)
ここで,等比級数の和$$\displaystyle \sum_{x=0}^\infty a^x=\frac1{1-a}\ \ \ (|a|<1)$$の両辺を $a$ で微分すると$$\displaystyle \sum_{x=0}^\infty xa^{x-1}=\frac1{(1-a)^2}$$さらに,この式の両辺を $a$ で微分すると,$$\displaystyle \sum_{x=0}^\infty x(x-1)a^{x-2}=\frac2{(1-a)^3}$$となる。これを利用して,幾何分布の期待値と分散を求める。$$\begin{align}E[X]=&\sum_{x=0}^\infty xp(1-p)^{x-1}=p\sum_{x=0}^\infty x(1-p)^{x-1}\\=&\frac{p}{\{1-(1-p)\}^2}=\frac1p\\V[X]=&E[X(X-1)]+E[X]-E[X]^2\\=&\sum_{x=0}^\infty x(x-1)p(1-p)^{x-1}+\frac1p-\frac1{p^2}\\=&p(1-p)\sum_{x=0}^\infty x(x-1)(1-p)^{x-2}+\frac1p-\frac1{p^2}\\=&\frac{2p(1-p)}{\{1-(1-p)\}^3}+\frac1p-\frac1{p^2}\\=&\frac{2-2p}{p^2}+\frac{p}{p^2}-\frac1{p^2}=\frac{1-p}{p^2}\\\end{align}$$


問11 解答

(標準正規分布)

$\boxed{ \ \mathsf{20}\ }$

$\displaystyle Z=\frac{X-2}{\sqrt{9}}=\frac{X-2}{3}$ は標準正規分布 $N(0,1)$に従う。よって,$$\begin{align}P(-1<X\le4)=&P\left(\frac{-1-2}{3}<Z\le\frac{4-2}{3}\right)\\=&P\left(-1<Z\le\frac23\right)\\=&P\left(-1<Z\le0\right)+P\left(0<Z\le0.67\right)\\=&1-P(Z>1)-P(Z>0.67)\\=&1-0.1587-0.2514\\=&0.5899\\\end{align}$$確率関数の性質:$P(a<X<b)=P(X>a)-P(X>b)$,
正規分布は $x$ 軸に対称:$P(X<-a)=P(X>a)$


問12 解答

(不偏分散,$t$ 分布)

$\boxed{ \ \mathsf{21}\ }$

標本平均の標準化 $\displaystyle\frac{\bar X-\mu}{\sqrt{\sigma^2/n}}$ は標準正規分布 $N(0,1)$ に従う。
標本平均の標準化の母平均 $\sigma^2$ を不偏分散 $S^2$ に置き換えた $\displaystyle\frac{\bar X-\mu}{\sqrt{S^2/n}}$ は自由度 $n-1$ の $t$ 分布 $t(n-1)$ に従う。$$P(\bar X\ge\mu+0.62S)=P\left(\frac{\bar X-\mu}{S}\ge0.62\right)=P\left(\frac{\bar X-\mu}{S/\sqrt{9}}\ge0.62\times\sqrt{9}=1.86\right)\\$$$\displaystyle\frac{\bar X-\mu}{S/\sqrt{9}}$ は自由度 $8$ の $t$ 分布に従うので,$$P\left(\frac{\bar X-\mu}{S/\sqrt{9}}\ge1.86\right)=0.05$$


問13 解答

(幾何分布)

[1]

$\boxed{ \ \mathsf{22}\ }$

$\begin{align}p_3=P(\bar X=3)=&P(X_1=2,X_2=4)+P(X_1=4,X_2=2)\\=&\frac1{16}\times2=\frac18\\p_6=P(\bar X=6)=&P(X_1=4,X_2=8)+P(X_1=8,X_2=4)+P(X_1=6,X_2=6)\\=&\frac1{16}\times3=\frac3{16}\end{align}$$

[2]

$\boxed{ \ \mathsf{23}\ }$

$\bar X$の分布は $\{2,3,3,4,4,4,5,5,5,5,6,6,6,7,7,8\}$
よって,中央値 $5$,最頻値 $5$

[3]

$\boxed{ \ \mathsf{24}\ }$

$\bar X$ の期待値は$$E[\bar X]=E\left[\frac{X_1+X_2}{2}\right]=\frac{E[X_1]+E[X_2]}{2}=\frac{5+5}{2}=5$$により求められる。したがって,①,②,③,④は誤りで,⑤が正しい。


問14 解答

(母比率の区間推定)

$\boxed{ \ \mathsf{25}\ }$

成功確率$p$の試行を$n$回行うときに成功する回数$X$は二項分布$B(n,p)$に従う。
  $\therefore\ \ E(X)=np,\ V(X)=np(1-p)$
このとき,$n$がある程度大きいときは,中心極限定理によって,$B(n,p)$は正規分布$N(np,np(1-p))$に近似できる。よって,$X$を標準化すると標準正規分布$N(0,1)$に従う。$$Z=\frac{X-np}{\sqrt{np(1-p)}}=\frac{X/n-p}{\sqrt{\frac{p(1-p)}n}}\sim N(0,1)$$ここで,標本平均 $\hat p=x/n$は$p$の一致推定量なので,$n$が十分大きいとき$p$は$\hat p$に置き換えられる。
したがって,母比率の$100(1-\alpha)\%$信頼区間は,標準正規分布の上側 $100\alpha/2\%$ 点を $z_{\alpha/2}$とすると,$$P\left(\hat p-z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}\le p\le\hat p+z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}\right)=1-\alpha$$
$200$ 匹捕獲して $20$ 匹に印がついているので,比率の推定値は $\hat p=20/200=0.1$
これから,目印の付いている魚の母比率の$95\%$信頼区間は,$n=200$,$\hat p=0.1$,$\alpha=0.05$として$$\hat p\pm z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}=0.100\pm1.96\times\sqrt{\frac{0.100\times(1-0.100)}{200}}=0.100\pm0.042$$


問15 解答

(母平均の区間推定,母平均の検定(母分散の値が未知の場合))

[1]

$\boxed{ \ \mathsf{26}\ }$

母分散の値が未知のとき,母分散 $\sigma^2$ の代わりに不偏分散 $s^2$ を用いた統計量$$t=\frac{\bar x-\mu}{\sqrt{s^2/n}}$$は自由度 $n-1$ の $t$ 分布 $t(n-1)$ に従う。区間推定のためには,上側確率が $\alpha/2$ となる値 $t_{\alpha/2}(n-1)$ を求めると,$$P(|t|\le t_{\alpha/2}(n-1))=1-\alpha$$となるので,母平均の $100(1-\alpha)\%$ 信頼区間は$$\left|\frac{\bar x-\mu}{\sqrt{s^2/n}}\right|\le t_{\alpha/2}(n-1)\\\therefore\ \bar x-t_{\alpha/2}(n-1)\sqrt{s^2/n}\le\mu\le\bar x+t_{\alpha/2}(n-1)\sqrt{s^2/n}$$
これから,母比率の$95\%$信頼区間は,$\bar x=3.23$,$n=24$,$s^2=8.72^2$,$\alpha=0.05$ として $t_{0.025}(23)=2.069$ なので,$$3.23-2.069\sqrt{8.72^2/24}\le\mu\le3.23+2.069\sqrt{8.72^2/24}\\3.23-3.682\le\mu\le3.23+3.682$$

[2]

$\boxed{ \ \mathsf{27}\ }$

帰無仮説 $\mu=0$,対立仮説 $\mu>0$ の場合の棄却域は,有意水準 $100\alpha\%$ として,$$t=\frac{\bar x-0}{\sqrt{s^2/n}}>t_\alpha(n-1)$$
ここで,$\bar x=3.23$,$n=24$,$s^2=8.72^2$ とすると,$$t=\frac{3.23-0}{\sqrt{8.72^2/24}}=1.814$$$t_{0.05}(23)=1.714$,$t_{0.025}(23)=2.060$なので,有意水準 $5\%$ で棄却できるが,有意水準 $2.5\%$ では棄却できない。


問16 解答

(第一種の過誤,第二種の過誤,検出力)

真実
帰無仮説が正しい対立仮説が正しい
検定の結果帰無仮説を棄却しない
(対立仮説が正しいとは言えない)
正しい第二種の過誤(β)
帰無仮説を棄却する
(対立仮説が正しい)
第一種の過誤(α)
有意水準
正しい
検出力(1-β)

[1]

$\boxed{ \ \mathsf{28}\ }$

帰無仮説 $H_0:\theta=0$ のもとで,$X\sim N(0,1)$。よって,棄却域を $x\ge0.8$ と定めたときの第1種過誤の確率 $\alpha$ は$$\alpha=P(x\ge0.8|H_0)=0.2119$$ 対立仮説 $H_1:\theta=1$ のもとで,$X\sim N(1,1)\Rightarrow X-1\sim N(0,1)$。よって,棄却域を $x\ge0.8$ と定めたときの第2種過誤の確率 $\beta$ は$$\begin{align}\beta=&P(x<0.8|H_1)=P(x-1<0.8-1|H_1)\\=&P(x-1>0.2|H_1)=0.4207\end{align}$$

[2]

$\boxed{ \ \mathsf{29}\ }$

棄却域を $x\ge x_0$ としたとき
   第1種過誤の確率 $\alpha(x_0)=P(x\ge x_0)$
   第2種過誤の確率 $\beta(x_0)=P(x/le x_0-1)=P(x\ge 1-x_0)$
$x_0=0.0, 0.5, 1.0$の時の$1-\alpha(x_0), \beta(x_0)$の値を標準正規分布表を使い求める。
$x_0=0.0$のとき、$1-\alpha(x_0)=1-P(x\ge 0.0)=1-0.5000=0.5000, \beta(x_0)=P(x\ge 1-0.0)=0.1587$
$x_0=0.5$のとき、$1-\alpha(x_0)=1-P(x\ge 0.5)=1-0.3085=0.6915, \beta(x_0)=P(x\ge 1-0.5)=0.3085$
$x_0=1.0$のとき、$1-\alpha(x_0)=1-P(x\ge 1.0)=1-0.1587=0.8413, \beta(x_0)=P(x\ge 1-1.0)=0.5000$
ここで、$x_0=0.0$のグラフ上の点の座標と$x_0=0.1$のグラフ上の点の座標とを結ぶ直線$A$の傾きを求めると、
$$a=\frac{0.8413-0.5000}{0.5000-0.1587}=1.000$$
この直線$A$上の$\beta(0.5)=0.3085$の時の点の$y$座標の値を求めると
$$a(0.3085-0.1587)-0.5000=0.6498$$
この値が$1-\alpha(0.5)=0.6915$より小さいということは、問題の点$P$の軌跡は直線$A$よりも上に凸の形になっているといえる。直線$A$の傾きが正なので、点$P$の軌跡は左下から右上に向かう上に凸の曲線となる。

[3]

$\boxed{ \ \mathsf{30}\ }$

$\alpha(x_0)+\beta(x_0)$が最小になるということは、 $1-\alpha(x_0)-\beta(x_0)$が最大となることと等しい。
$x_0=0.0, 0.5, 1.0$の時の$1-\alpha(x_0)-\beta(x_0)$の値は
$x_0=0.0$のとき、$1-\alpha(x_0)=1-P(x\ge 0.0)-\beta(x_0)=0.5000-0.1587=0.3413$
$x_0=0.5$のとき、$1-\alpha(x_0)=1-P(x\ge 0.5)-\beta(x_0)=0.6915-0.3085=0.3830$
$x_0=1.0$のとき、$1-\alpha(x_0)=1-P(x\ge 1.0)-\beta(x_0)=0.8413-0.5000=0.3413$
となっており、グラフが上に凸となっていることから、$1-\alpha(x_0)-\beta(x_0)$が最大となるのは$0\lt x_0\lt 1$にあることがわかる。選択肢の中でこれを満たすのは②のみである。


問17 解答

(重回帰モデル,単回帰モデル,ダミー変数を用いた回帰)

[1]

$\boxed{ \ \mathsf{31}\ }$

Ⅰ.問題のモデルの場合,高校卒は $C=U=G=0$ とした場合にあてはまるので,高校卒ダミー変数をモデルに組み込む必要がない。仮に組み込んだとすると,ダミー変数間に関係性ができるので,正しく推計を行うことができない。誤り。
Ⅱ.ダミー変数を使った回帰モデルの場合,回帰係数はダミー変数が $1$ の時の説明変数に与える増分になるので,回帰係数の差は説明変数に与える増分の差になる。正しい。
Ⅲ.データ数(観測数)を $n$,説明変数の数を $p$ とすると,回帰係数の $t_-$ 値は自由度 $n-p-1$ の $t$ 分布に従い,$P_-$ 値はこれにより計算される。問題のケースでは,自由度は $16-3-1=12$ となる。誤り。

[2]

$\boxed{ \ \mathsf{32}\ }$

Ⅰ.教育年数の回帰係数の値は,教育年数が $1$ 増えるごとに初任給に対する増分である。正しい。
Ⅱ.被説明変数 $y$ の変動を示す総平方和 $S_y = \sum_i(y_i-\bar y)^2$ は,回帰平方和 $S_R = \sum_i(\hat y_i-\bar y)^2$ と残差平方和 $S_e = \sum_i(y_i-\hat y_i)^2$ の和に分解できる。この回帰平方和 $S_R$ が総平方和 $S_y$ に占める割合が決定係数 $R^2=S_R/S_y$である。
一方,説明変数が増えると残差平方和は小さくなる(証明略)ので,決定係数
$$R^2=\frac{S_R}{S_y}=\frac{S_y-S_e}{S_y}=1-\frac{S_e}{S_y}$$
は大きくなる性質がある。そこで,説明変数の数が異なるモデルの比較に利用される指標として,自由度調整済み決定係数 $R^{*2}$ が次式により定義される。
$$R^{*2}=1-\frac{S_e/(n-p-1)}{S_y/(n-1)}$$
この定義式から,単回帰モデルの決定係数と自由度調整済み決定係数は等しくないことがわかる。誤り。
Ⅲ.統計量 $t=\hat\alpha/se(\hat\alpha)$ としたとき,
両側検定 $H_0:\alpha=0,\ \ H_1:\alpha\ne0$ の棄却域は $|t|\ge t_{a/2}(n-p-1)$($a$は有意水準)
一方,片側検定 $H_0:\alpha=0,\ \ H_1:\alpha>0$ の棄却域は $t\ge t_a(n-p-1)$
よって,両側検定と片側検定では $P_-$ 値は異なる。誤り。

[3]

$\boxed{ \ \mathsf{33}\ }$

Ⅰ.説明変数の数が異なるモデルの比較にあたっては,決定係数を用いず,自由度調整済み決定係数を用いる。誤り。
Ⅱ.学歴ダミー変数を用いた重回帰モデルでは,学歴間の初任給の変化は回帰係数の変化で表される。一方,教育年数を使った単回帰モデルでは,初任給は教育年数に比例して変化するので,学歴間の変化は同じである。正しい。
Ⅲ.学歴ダミー変数を使っているため,中学卒という新たな説明変数を投入して予測することは不可能である。教育年数を使った単回帰モデルにおいては中学卒に相当する教育年数 $x=9$ を設定することができるので形式的には予測は可能である。正しい。


問18 解答

(単回帰モデル,統計ソフトウェアの活用)

※重回帰モデルの統計ソフトウェアによる出力結果の主な項目
$\mathtt{Estimate}$:回帰係数($\alpha_0,\beta_1,\beta_2$)の推定値
$\mathtt{Std.Error}$:回帰係数の推定値の標準誤差
$\mathtt{t\ value}$:$t$値,$\mathtt{Pr(\gt|t|)}$:$P_-$値・・・回帰係数の検定で使う
$\mathtt{Rasidual\ standard\ error}$:誤差項の標準偏差の推定値
$\mathtt{degrees\ of\ freedom}$:自由度
$\mathtt{Multiple\ R-squared}$:決定係数($R^2$)
$\mathtt{Adjusted\ R-squared}$:自由度調整済み決定係数($R^{*2}$)
$\mathtt{F-statistic}$:$F$検定統計量,$\mathtt{p-value}$:$P_-$値・・・回帰の有意性の検定で使う

[1]

$\boxed{ \ \mathsf{34}\ }$

$P_-$ 値が有意水準 $5\%$ を下回ると回帰係数は有意といえる。

[2]

$\boxed{ \ \mathsf{35}\ }$

① $\mathtt{Multiple\ R-squared}$ は決定係数,$\mathtt{Adjusted\ R-squared}$ は自由度調整済み決定係数を表しているので,値の大小が正規性の仮定に関係がない。誤り。
② $\mathtt{t\ value}$ と検定統計量として $t$ 検定を行うことによって変数が有意であるか(確率的に$0$になりえないか)を判断する。$\mathtt{t\ value}$ の正負で変数の説明力を判断することはない。誤り。
③ 1人当たり乗用車数の回帰係数が負であることから,1人当たり乗用車数が多いほど1人当たり小売店舗事業所数は少なくなる。正しい。
④ $\mathtt{F-statistic}$ の値は回帰係数がすべて $0$ であるという帰無仮説の検定に用いられるが,その回帰係数には定数項は含まれない。誤り。
⑤ 重回帰分析で変数の数を増減させてモデルを比較する際は。決定係数$(\mathtt{Multiple\ R-squared})$ではなく,自由度調整済み決定係数$(\mathtt{Adjusted\ R-squared})$が大きいモデルを選択する。誤り。


統計検定2級問題解説 ~2019年6月実施~ (問1~問9)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問1 解答

(相対度数,度数分布)

[1]

$\boxed{ \ \mathsf{1}\ }$ ③

2008年における貯蓄額が $2000$ 万円以上世帯の相対度数が $19.6\%$ なので
$5.3+3.8+4.7+$ (イ) $=19.6\ \Rightarrow\ $ (イ) $=19.6-5.3-3.8-4.7=5.8$

[2]

$\boxed{ \ \mathsf{2}\ }$ ①

Ⅰ.歪度は,右に裾が長い分布では正の値になり,左に裾が長い分布では負の値になる。誤り。

2015年の各階級における累積相対度数を求めると,
  (G)の累積度数 $13.2+7.2+7.0+6.1+5.6+5.5+4.5=49.1$
  (H)の累積度数 $49.1+4.2=53.3$
よって,中央値が含まれる階級は(H)。

[3]

$\boxed{ \ \mathsf{3}\ }$ ⑤

2015年の平均値のある階級とその一つ下の階級における累積相対度数を求めると,
  (K)の累積度数 $53.3+3.3+3.2+6.0=65.8\ $([2]の結果を利用)
  (L)の累積度数 $65.8+4.6=70.2$
よって,貯蓄額が平均未満の世帯の割合は $65.8\%\sim70.2\%$。1の位で四捨五入すると $70\%$。


問2 解答

(散布図,相関係数,共分散,変動係数)

[1]

$\boxed{ \ \mathsf{4}\ }$ ④

国語と数学の相関係数は $0.72$ で,正の相関がやや強い関係である。散布図で点の分布が左下から右上に分布している④と⑤のグラフのうち,⑤はかなり強い相関である。

[2]

$\boxed{ \ \mathsf{5}\ }$ ②

標準偏差 $s_x,s_y$ 共分散 $s_{xy}$ のとき,相関係数は $\displaystyle\frac{s_{xy}}{s_xs_y}$ となるので,$$\frac{s_{xy}}{12.5\times16.4}=0.72\ \Rightarrow\ s_{xy}=0.72\times12.5\times16.4=147.6$$

[3]

$\boxed{ \ \mathsf{6}\ }$ ②

値を2倍にすると,平均は2倍,分散は4倍,標準偏差は2倍。
したがって,変動係数は標準偏差/平均なので,変わらない。
共分散は,2つのデータの平均からの偏差の積の和なので,片方のデータの平均からの偏差が2倍となれば,2倍となる。

※上記のことを式で書くと,
数学の得点を $x_i$,国語の得点を $y_i$ とする。数学の得点を2倍 $x’_i=2x_i$ としたとき,
 平均 $\displaystyle\bar x’=\frac1n\sum{2x_i}=2\times\frac1n\sum{x_i}=2\bar x$
 分散 $\displaystyle s^2_{x’}=\frac1n\sum(2x_i-\bar x’)^2=\frac1n\sum(2x_i-2\bar x)^2=4\times\frac1n\sum(x_i-\bar x)^2=4s^2_x$
 標準偏差 $s_{x’}=2s_x$
 変動係数 $\displaystyle\frac{s_{x’}}{\bar x’}=\frac{2s_x}{2\bar x}=\frac{s_x}{\bar x}$
 共分散 $\displaystyle s_{x’y}=\frac1n\sum(2x_i-\bar x’)(y_i-\bar y’)=\frac1n\sum(2x_i-2\bar x)(y_i-\bar y’)=2\times\frac1n\sum(x_i-\bar x)(y_i-\bar y’)=2s_{xy}$


問3 解答

(標準化得点)

[1]

$\boxed{ \ \mathsf{7}\ }$ ④

Ⅰ.標準化得点の平均は $0$,標準偏差は $1$。正しい。
Ⅱ.データの最大値となるマイアミの標準化得点は $\displaystyle z_{14}=\frac{22-2.4}{7.0}=2.8$ となり,これが標準化得点の最大値である。誤り。
Ⅲ.摂氏の平均,標準偏差を $\bar C$,$s_C$,華氏の平均,標準偏差を $\bar F$,$s_F$とすると,$\displaystyle\bar F=1.8\bar C+32,\ \ s_F=1.8s_C$ となるので,$\displaystyle w_i=\frac{F_i-\bar F}{s_F}=\frac{1.8C_i+32-(1.8\bar C+32)}{1.8s_C}=\frac{C_i-\bar C}{s_C}=z_i$。正しい。

[2]

$\boxed{ \ \mathsf{8}\ }$ ④

$\displaystyle\bar F=1.8\bar C+32=1.8\times2.4+32=36.32,\ \ s_F=1.8s_C=1.8\times7.0=12.6$


問4 解答

(相関係数,偏相関係数)

[1]

$\boxed{ \ \mathsf{9}\ }$ ①

Ⅰ.相関係数が $+1.0$ に近い値になると,散布図上でデータをプロットすると,傾きが正の直線付近にプロットされるようになる。正しい。
Ⅱ.偏相関係数は2つの変数間の相関関係に,別の第3の変数による影響があると思われるときに,その変数の影響を除いた相関関係を見るための係数である。その関係は必ずしも非線形関係であるとは限らない。誤り。
Ⅲ.偏相関係数の符号は,2変数の相関係数と第3の変数と各変数の相関係数の大小関係で決まる。相関係数や偏相関係数の符号から,相関関係の有無を論ずることはない。誤り。

[2]

$\boxed{ \ \mathsf{10}\ }$ ③

Ⅰ~Ⅲは,同じ相関係数と偏相関係数の結果に対して,異なる結論を導き出している文章であるので,どれか1つが正解である。
相関係数が高い2つの変数間に対して,別の第3の変数の影響を除去した偏相関係数が,元の相関係数より相関関係が悪くなった場合,2つの変数は第3の変数を介して,見かけ上高い相関が得られたといえる(元のそれぞれの変数は第3の変数との相関が良いからである)。この見かけ上の相関関係を擬相関という。


問5 解答

(フィッシャーの三原則)

$\boxed{ \ \mathsf{11}\ }$ ①

フィッシャーの3原則:無作為化,繰り返し,局所管理

Ⅰ.無作為化:対象の抽出,処理の順番など,均一にできない条件については無作為に割り付ける。これにより,制御できない条件は偶然による誤差に置き換えることができる。正しい。
Ⅱ.繰り返し:ばらつきや個体差の影響を見積もるために実験を繰り返しを行う。同じ被験者で繰り返しても,その被験者についての結果しか得られないので,繰り返しにはならない。誤り。
Ⅲ.局所管理:処理効果以外のばらつきを小さくするため,条件が均一になるようブロック化する。条件設定の管理を行えばよく,管理といっても実際に監督・監視する必要はない。誤り。


問6 解答

(標本抽出法)

$\boxed{ \ \mathsf{12}\ }$ ⑤

① 多段抽出法は,母集団をいくつかのグループ(第1段抽出単位)に分け,そこから無作為抽出でいくつかグループを選び,さらにその中から無作為抽出でいくつかのグループ(第2段抽出単位)を選び・・を何段か繰り返してそこから標本を<u>無作為に</u>抽出する。段数が多くなるほど推定精度は悪くなる。誤り。
② 系統抽出法は,通し番号をつけた名簿を作成し,1番目の調査対象を無作為に選び、2番目以降の調査対象を一定の間隔で抽出する方法(問題文の抽出方法は層化抽出法)。誤り。
③ 無作為抽出法では,回答率が低いと母集団からまんべんなく抽出できず,偏った標本を得ることになる可能性があるため,精度は高くないことが考えられる。誤り。
④ 系統抽出は,単純無作為抽出法に類似した簡便な抽出法であって,精度が高くなるわけではない。誤り。
⑤ 集落(クラスター)抽出法は,母集団を小集団であるクラスター(集落)に分け,その中からいくつかのクラスターを無作為に抽出し,それぞれのクラスターにおいて<u>全数調査</u>を行う。正しい。


問7 解答

(事象と確率,排反,独立)

$\boxed{ \ \mathsf{13}\ }$ ②

事象 $A$ と $B$ は独立 $\Leftrightarrow\ P(A\cap B)=P(A)P(B)$
事象 $A$ と $B$ は排反 $\Leftrightarrow\ P(A\cap B)=0$
そこで,$P(A\cap B)$ を求める。
$P(A\cap B)=P(A)+P(B)-P(A\cup B)=0.4+0.35-0.61=0.14\ \Rightarrow\ $排反でない。
$P(A)P(B)=0.4\times0.35=0.14=P(A\cap B)\ \Rightarrow\ $独立である。


問8 解答

(条件付き確率,確率変数の期待値)

[1]

$\boxed{ \ \mathsf{14}\ }$ ⑤

サイコロを $1$ 回投げて $3$以上の目が出る確率=袋 $B$ を選ぶ確率$$p_1=\frac46=\frac23$$
袋 $B$ から $2$回玉を取り出して赤玉を $1$ 回だけ引く確率=赤→白または白→赤と取り出す確率$$p_2=\frac15\times\frac45+\frac45\times\frac15=\frac{8}{25}$$
よって求める確率は$$p_1\times p_2=\frac23\times\frac{8}{25}=\frac{16}{75}$$

[2]

$\boxed{ \ \mathsf{15}\ }$ ⑤

確率変数 $X$ の取りうる値は $\{0,1,2\}$
$$\begin{align}P(X=0)=&\frac13\times\frac35\times\frac35+\frac23\times\frac45\times\frac45=\frac{41}{75}\\P(X=1)=&\frac13\times\left(\frac25\times\frac35+\frac35\times\frac25\right)+\frac23\times\left(\frac15\times\frac45+\frac45\times\frac15\right)=\frac{28}{75}\\P(X=2)=&\frac13\times\frac25\times\frac25+\frac23\times\frac15\times\frac15=\frac{6}{75}\\\therefore\ E(X)=&\sum_{x=0}^2xP(X=x)=0\times\frac{41}{75}+1\times\frac{28}{75}+2\times\frac{6}{75}=\frac{40}{75}=\frac{8}{15}\end{align}$$


問9 解答

(確率変数の共分散,相関係数)

[1]

$\boxed{ \ \mathsf{16}\ }$ ③

$$\begin{align}\mathrm{Cov}[X,Y]=&E[XY]-E[X]E[Y]=4-1\times2=2\\V[Z]=&V[X+Y]=V[X]+V[Y]+2\mathrm{Cov}[X,Y]=24\\&\Rightarrow\ V[X]+V[Y]=24-2\times2=20&\cdots(a)\\V[W]=&V[2X-Y]=4V[X]+V[Y]-2\times2\mathrm{Cov}[X,Y]=24\\&\Rightarrow\ 4V[X]+V[Y]=24+2\times2\times2=32&\cdots(b)\\(b)-(a)\ \ 3V[X]=&12\Rightarrow V[X]=4\\E[X^2]=&V[X]+E[X]^2=4+1^2=5\\(a)\ \ V[X]+V[Y]=&20\ \Rightarrow\ V[Y]=20-V[X]=20-4=16\\E[Y^2]=&V[Y]+E[Y]^2=16+2^2=20\end{align}$$

[2]

$\boxed{ \ \mathsf{17}\ }$ ④

$$\rho=\frac{\mathrm{Cov}[X,Y]}{\sqrt{V[X]}\sqrt{V[Y]}}=\frac{2}{\sqrt{4}\sqrt{16}}=\frac{2}{2\times4}=0.25$$


主成分分析(PCA)の導出とその理解|問題演習で理解する統計学【9】

下記などで取り扱った、主成分分析(PCA; Principal Component Analysis)に関する問題演習を通した理解ができるように問題・解答・解説をそれぞれ作成しました。

・標準演習$100$選
https://www.hello-statisticians.com/practice_100

基本問題

二次形式の和を行列の積で表記する

・問題
二次形式(quadratic form)は変数に関する次数が2の多項式である。
$$
\begin{align}
\sum_{i=1}^{n} (w_1 x_{i1} + w_2 x_{i2})^2
\end{align}
$$
具体的には上記も二次形式だが、二乗和の取り扱いは統計に関する多くの導出で出てくるので、シンプルに取り扱えると導出や考察にあたってのアドバンテージが取れる。
以下、下記の問題に答えよ。
i) $\displaystyle \sum_{i=1}^{n} (w_1 x_{i1} + w_2 x_{i2})^2$を$\displaystyle \sum$を用いないで表せ。
ⅱ) $\displaystyle \sum_{i=1}^{n} x_i^2$を下記のように定義される$\mathbf{x}$を用いて表せ。
$$
\begin{align}
\mathbf{x} = \left(\begin{array}{c} x_1 \\ \vdots \\ x_n \end{array} \right)
\end{align}
$$
ⅲ) $\displaystyle \sum_{i=1}^{n} (w_1 x_{i1} + w_2 x_{i2})^2$が下記のように変形できることを確認せよ。
$$
\begin{align}
\sum_{i=1}^{n} (w_1 x_{i2} + w_2 x_{i2})^2 = \left(\begin{array}{cc} w_1 & w_2 \end{array} \right) \left(\begin{array}{ccc} x_{11} & \cdots & x_{n1} \\ x_{12} & \cdots & x_{n2} \end{array} \right) \left(\begin{array}{cc} x_{11} & x_{12} \\ \vdots & \vdots \\ x_{n1} & x_{n2} \end{array} \right) \left(\begin{array}{c} w_1 \\ w_2 \end{array} \right)
\end{align}
$$
iv) ⅲ)を参考に$\displaystyle \sum_{i=1}^{n} (w_1 x_{i1} + w_2 x_{i2})^2$が下記のように変形できることを確認せよ。
$$
\begin{align}
\sum_{i=1}^{n} (w_1 x_{i2} + w_2 x_{i2})^2 = \left(\begin{array}{cc} w_1 & w_2 \end{array} \right) \left(\begin{array}{cc} \displaystyle \sum_{i=1}^{n} x_{i1}^2 & \displaystyle \sum_{i=1}^{n} x_{i1}x_{i2} \\ \displaystyle \sum_{i=1}^{n} x_{i2}x_{i1} & \displaystyle \sum_{i=1}^{n} x_{i2}^2 \end{array} \right) \left(\begin{array}{c} w_1 \\ w_2 \end{array} \right)
\end{align}
$$
v) iv)の結果において、$\displaystyle \left(\begin{array}{cc} \displaystyle \sum_{i=1}^{n} x_{i1}^2 & \displaystyle \sum_{i=1}^{n} x_{i1}x_{i2} \\ \displaystyle \sum_{i=1}^{n} x_{i2}x_{i1} & \displaystyle \sum_{i=1}^{n} x_{i2}^2 \end{array} \right)$が対称行列であることを確認せよ。

・解答
i)
$\displaystyle \sum_{i=1}^{n}$の定義に基づき、下記のように表すことができる。
$$
\large
\begin{align}
\sum_{i=1}^{n} (w_1 x_{i1} + w_2 x_{i2})^2 = (w_1 x_{11} + w_2 x_{12})^2 + \cdots + (w_1 x_{n1} + w_2 x_{n2})^2
\end{align}
$$

ⅱ)
下記のように表すことができる。
$$
\large
\begin{align}
\sum_{i=1}^{n} x_i^2 &= x_1^2 + x_2^2 + \cdots + x_n^2 \\
&= \left(\begin{array}{ccc} x_1 & \cdots & x_n \end{array} \right) \left(\begin{array}{c} x_1 \\ \vdots \\ x_n \end{array} \right) \\
&= \mathbf{x}^{T} \mathbf{x}
\end{align}
$$

ⅲ)
下記のように変形できる。
$$
\large
\begin{align}
\sum_{i=1}^{n} (w_1 x_{i2} + w_2 x_{i2})^2 &= (w_1 x_{11} + w_2 x_{12})^2 + \cdots + (w_1 x_{n1} + w_2 x_{n2})^2 \\
&= \left(\begin{array}{ccc} w_1x_{11} + w_1x_{12} & \cdots & w_1x_{n1} + w_1x_{n2} \end{array} \right) \left(\begin{array}{c} w_1x_{11} + w_1x_{12} \\ \vdots \\ w_1x_{n1} + w_1x_{n2} \end{array} \right) \\
&= \left(\begin{array}{cc} w_1 & w_2 \end{array} \right) \left(\begin{array}{ccc} x_{11} & \cdots & x_{n1} \\ x_{12} & \cdots & x_{n2} \end{array} \right) \left(\begin{array}{cc} x_{11} & x_{12} \\ \vdots & \vdots \\ x_{n1} & x_{n2} \end{array} \right) \left(\begin{array}{c} w_1 \\ w_2 \end{array} \right)
\end{align}
$$

iv)
ⅲ)の導出結果において、$\displaystyle \left(\begin{array}{ccc} x_{11} & \cdots & x_{n1} \\ x_{12} & \cdots & x_{n2} \end{array} \right) \left(\begin{array}{cc} x_{11} & x_{12} \\ \vdots & \vdots \\ x_{n1} & x_{n2} \end{array} \right)$を計算することで、下記のように導出することができる。
$$
\large
\begin{align}
\sum_{i=1}^{n} (w_1 x_{i2} + w_2 x_{i2})^2 &= \left(\begin{array}{cc} w_1 & w_2 \end{array} \right) \left(\begin{array}{ccc} x_{11} & \cdots & x_{n1} \\ x_{12} & \cdots & x_{n2} \end{array} \right) \left(\begin{array}{cc} x_{11} & x_{12} \\ \vdots & \vdots \\ x_{n1} & x_{n2} \end{array} \right) \left(\begin{array}{c} w_1 \\ w_2 \end{array} \right) \\
&= \left(\begin{array}{cc} w_1 & w_2 \end{array} \right) \left(\begin{array}{cc} \displaystyle \sum_{i=1}^{n} x_{i1}^2 & \displaystyle \sum_{i=1}^{n} x_{i1}x_{i2} \\ \displaystyle \sum_{i=1}^{n} x_{i2}x_{i1} & \displaystyle \sum_{i=1}^{n} x_{i2}^2 \end{array} \right) \left(\begin{array}{c} w_1 \\ w_2 \end{array} \right)
\end{align}
$$

v)
$\displaystyle \sum_{i=1}^{n} x_{i1}x_{i2} = \sum_{i=1}^{n} x_{i2}x_{i1}$より、対称行列であることが確認できる。

・解説
ここで確認した二乗和をベクトルや行列の積で表す計算は統計学を理解する上で様々なトピックで出てくる話題であるので、何度も確認して慣れておくと良いと思います。

スカラーをベクトルで微分する

・問題
$$
\begin{align}
\nabla = \frac{\partial}{\partial \mathbf{w}} = \left(\begin{array}{c} \displaystyle \frac{\partial}{\partial w_1} \\ \vdots \\ \displaystyle \frac{\partial}{\partial w_p} \end{array} \right)
\end{align}
$$
上記のように微分を表す演算子の$\nabla$を定義する。このとき以下の問題に答えよ。
i) $\nabla (w_1+w_2+w_3+\cdots+w_p)$を求めよ。
ⅱ) 下記のように$\mathbf{w}, \mathbf{x}$が定義されるとき、$\nabla \mathbf{w}^{\mathrm{T}}\mathbf{x}, \nabla \mathbf{x}^{\mathrm{T}}\mathbf{w}$をそれぞれ求めよ。
$$
\begin{align}
\mathbf{w} &= \left(\begin{array}{c} x_1 \\ \vdots \\ x_p \end{array} \right) \\
\mathbf{x} &= \left(\begin{array}{c} x_1 \\ \vdots \\ x_p \end{array} \right)
\end{align}
$$
ⅲ) ⅱ)のように$\mathbf{w}$が表されるとき、$\nabla \mathbf{w}^{\mathrm{T}}\mathbf{w}$を求めよ。
iv) 下記のように$\mathbf{A}$が表されるとき、$\mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w}$を求めよ。
$$
\begin{align}
\mathbf{A} = \left(\begin{array}{ccc} a_{11} & \cdots & a_{1p} \\ \vdots & \ddots & \vdots \\ a_{p1} & \cdots & a_{pp} \end{array} \right)
\end{align}
$$
v) $\nabla \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w} = (\mathbf{A}+\mathbf{A}^{\mathrm{T}})\mathbf{w}$を導出せよ。

・解答
i)
下記のように導出できる。
$$
\begin{align}
\nabla (w_1+w_2+w_3+\cdots+w_p) &= \frac{\partial}{\partial \mathbf{w}}(w_1+w_2+w_3+\cdots+w_p) \\
&= \left(\begin{array}{c} \displaystyle \frac{\partial}{\partial w_1} \\ \vdots \\ \displaystyle \frac{\partial}{\partial w_p} \end{array} \right)(w_1+w_2+w_3+\cdots+w_p) \\
&= \left(\begin{array}{c} 1 \\ \vdots \\ 1 \end{array} \right)
\end{align}
$$

ⅱ)
下記のようにそれぞれ導出できる。
$$
\begin{align}
\nabla \mathbf{x}^{\mathrm{T}}\mathbf{w} &= \nabla \left(\begin{array}{r} x_1 & \cdots & x_p \end{array} \right) \left(\begin{array}{c} w_1 \\ \vdots \\ w_p \end{array} \right) \\
&= \nabla (x_1w_1+x_2w_2+\cdots+x_pw_p) \\
&= \left(\begin{array}{c} x_1 \\ \vdots \\ x_p \end{array} \right) \\
&= \mathbf{x} \\
\nabla \mathbf{w}^{\mathrm{T}}\mathbf{x} &= \left(\begin{array}{r} w_1 & \cdots & w_p \end{array} \right) \left(\begin{array}{c} x_1 \\ \vdots \\ x_p \end{array} \right) \\
&= \nabla (w_1x_1+w_2x_2+\cdots+w_px_p) \\
&= \left(\begin{array}{c} x_1 \\ \vdots \\ x_p \end{array} \right) \\
&= \mathbf{x}
\end{align}
$$

ⅲ)
下記のように微分を行うことができる。
$$
\begin{align}
\nabla \mathbf{w}^{\mathrm{T}}\mathbf{w} &= \nabla \left(\begin{array}{r} w_1 & \cdots & w_p \end{array} \right) \left(\begin{array}{c} w_1 \\ \vdots \\ w_p \end{array} \right) \\
&= \nabla (w_1^2+w_2^2+\cdots+w_p^2) \\
&= 2\left(\begin{array}{c} w_1 \\ \vdots \\ w_p \end{array} \right) \\
&= 2\mathbf{w}
\end{align}
$$

iv)
下記のように計算できる。
$$
\begin{align}
\mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w} &= \left(\begin{array}{ccc} w_1 & \cdots & w_p \end{array} \right) \left(\begin{array}{ccc} a_{11} & \cdots & a_{1p} \\ \vdots & \ddots & \vdots \\ a_{p1} & \cdots & a_{pp} \end{array} \right) \left(\begin{array}{c} w_1 \\ \vdots \\ w_p \end{array} \right) \\
&= \left(\begin{array}{ccc} w_1 & \cdots & w_p \end{array} \right) \left(\begin{array}{c} w_1a_{11}+..+w_pa_{1p} \\ \vdots \\ w_1a_{p1}+ \cdots +w_pa_{pp} \end{array} \right) \\
&= \left( w_1(w_1a_{11}+ \cdots +w_pa_{1p})+\cdots+w_p(w_1a_{p1}+ \cdots +w_pa_{pp}) \right)
\end{align}
$$

v)
下記のように微分を行うことができる。
$$
\begin{align}
\nabla \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w} &= \nabla \left( w_1(w_1a_{11}+\cdots+w_pa_{1p})+\cdots+w_p(w_1a_{p1}+\cdots+w_pa_{pp}) \right) \\
&= \left(\begin{array}{c} 2a_{11}w_1+\cdots+(a_{1p}+a_{p1})w_p \\ \vdots \\ (a_{p1}+a_{1p})w_1+\cdots+2a_{pp}w_p \end{array} \right) \\
&= \left(\begin{array}{ccc} 2a_{11} & \cdots & (a_{1p}+a_{p1}) \\ \vdots & \ddots & \vdots \\ (a_{p1}+a_{1p}) & \cdots & 2a_{pp} \end{array} \right) \left(\begin{array}{c} w_1 \\ \vdots \\ w_p \end{array} \right) \\
&= (\mathbf{A}+\mathbf{A}^{\mathrm{T}})\mathbf{w}
\end{align}
$$

・解説
i)〜v)のどれもスカラーをベクトルで偏微分すると考えた際の重要な式なので抑えておくと良いです。ⅲ)は正則化の際などにも出てくるし、主成分ベクトルの導出にあたってはv)が現れます。

ラグランジュの未定乗数法

・問題
$$
\begin{align}
\mathrm{maximize} &: \quad f(x_1, x_2) = x_1+x_2 \\
\mathrm{constraint} &: \quad x_1^2+x_2^2 = 1
\end{align}
$$
上記のような制約付き最適化問題があるとする。これはconstraint(制約)が成立する時に$f$を最大にする$x_1, x_2$を求めることを表している。この時、以下の問題に答えよ。
i) $x_1^2+x_2^2 = 1$が円の方程式であることを利用して問題を解け。
ⅱ) ラグランジュの未定乗数法を用いて問題を解け。

・解答
i)

上図のように考えることで、$x_2=-x_1+k$で考えた直線が$x_1^2+x_2^2 = 1$を通る際の、$k$が最大値となる$x_1$と$x_2$を求めることで制約付き最適化問題を解くことができる。この問題においては$\displaystyle (x_1,x_2) = \left(\frac{\sqrt{2}}{2}, \frac{\sqrt{2}}{2} \right)$がここでの解となる。

ⅱ)
$$
\begin{align}
\mathrm{maximize}: \quad f(x_1, x_2, \lambda) = x_1+x_2+\lambda(1-(x_1^2+x_2^2))
\end{align}
$$
ラグランジュの未定乗数法では上記のように関数をおき、$f(x_1, x_2, \lambda)$を最大にする$x_1,x_2,\lambda$を求める手法である。ここで、それぞれを変数とみなし偏微分を計算すると下記のようになる。
$$
\begin{align}
\frac{\partial f(x_1, x_2, \lambda)}{\partial x_1} &= 1 – 2 \lambda x_1 \\
\frac{\partial f(x_1, x_2, \lambda)}{\partial x_2} &= 1 – 2 \lambda x_2 \\
\frac{\partial f(x_1, x_2, \lambda)}{\partial \lambda} &= 1 – (x_1^2 + x_2^2)
\end{align}
$$
ここで、上記が全て$0$となるような$x_1,x_2,\lambda$を求める。$\displaystyle x_1 = \frac{1}{2 \lambda}$、$\displaystyle x_2 = \frac{1}{2 \lambda}$を$1 – (x_1^2 + x_2^2)=0$に代入し、$\displaystyle \lambda = \frac{1}{\sqrt{2}}$が求められる。
またこれを$\displaystyle x_1 = \frac{1}{2 \lambda}$、$\displaystyle x_2 = \frac{1}{2 \lambda}$に代入することで、$\displaystyle x_1 = \frac{\sqrt{2}}{2 \lambda}$、$\displaystyle x_2 = \frac{\sqrt{2}}{2 \lambda}$を得ることができ、これはi)の結果と一致する。

・解説
ラグランジュの未定乗数法は制約付き最適化問題をシンプルに取り扱うことができるので、様々な導出で用いられます。そのため一連の手順については必ず抑えておきたい内容です。

発展問題

ベクトルの正射影と分散の表記

・問題

上図のようにサンプル群を考える。ここで、$i$番目のサンプルを2次元ベクトル$\displaystyle \mathbf{x}_i = \left(\begin{array}{c} a_i \\ b_i \end{array} \right)$、サンプルの平均ベクトルを$\displaystyle \mathbf{\bar{x}} = \left(\begin{array}{c} \bar{a} \\ \bar{b} \end{array} \right)$、単位ベクトルを$\displaystyle \mathbf{u} = \left(\begin{array}{c} u_1 \\ u_2 \end{array} \right)$で定義する。
この時下記の問題に答えよ。

i) 下記の式は何を表すか答えよ。
$$
\begin{align}
(\mathbf{x}_i^{\mathrm{T}}-\mathbf{\bar{x}}^{\mathrm{T}}) \mathbf{u} = (a_i-\bar{a})u_1 + (b_i-\bar{b})u_2
\end{align}
$$
ⅱ) 下記の式が成立することを確かめよ。
$$
\begin{align} \sum_{i=1}^{n}((\mathbf{x}_i^{\mathrm{T}}-\mathbf{\bar{x}}^{\mathrm{T}}) \mathbf{u})^2 = \left(\begin{array}{cc} u_1 & u_2 \end{array} \right) \left(\begin{array}{rr} \displaystyle \frac{1}{n}\sum_{i=1}^{n}(a_i-\bar{a})(a_i-\bar{a}) & \displaystyle \frac{1}{n}\sum_{i=1}^{n}(a_i-\bar{a})(b_i-\bar{b}) \\ \displaystyle \frac{1}{n}\sum_{i=1}^{n}(b_i-\bar{b})(a_i-\bar{a}) & \displaystyle \frac{1}{n}\sum_{i=1}^{n}(b_i-\bar{b})(b_i-\bar{b}) \end{array} \right) \left(\begin{array}{c} u_1 \\ u_2 \end{array} \right)
\end{align}
$$
ⅲ) ⅱ)の式は何を表すか答えよ。

・解答
i)
与えられた式は内積を計算しており、ベクトル$\mathbf{x}_i^{\mathrm{T}}-\mathbf{\bar{x}}^{\mathrm{T}}$から$\mathbf{u}$への正射影を表している。また、$\mathbf{x}_i^{\mathrm{T}}-\mathbf{\bar{x}}^{\mathrm{T}}$は$i$番目のサンプルの平均との差を表している。

ⅱ)
下記のように導出を行うことができる。
$$
\begin{align}
\sum_{i=1}^{n}((\mathbf{x}_i^{\mathrm{T}}-\mathbf{\bar{x}}^{\mathrm{T}}) \mathbf{u})^2 &= \frac{1}{n}\sum_{i=1}^{n}((a_i-\bar{a})u_1 + (b_i-\bar{b})u_2)^2 \\
&= \frac{1}{n} \left(\begin{array}{ccc} (a_1-\bar{a})u_1 + (b_1-\bar{b})u_2 & … & (a_n-\bar{a})u_1 + (b_n-\bar{b})u_2 \end{array} \right) \left(\begin{array}{c} (a_1-\bar{a})u_1 + (b_1-\bar{b})u_2 \\ \vdots \\ (a_n-\bar{a})u_1 + (b_n-\bar{b})u_2 \end{array} \right) \\
&= \frac{1}{n} \left(\begin{array}{cc} u_1 & u_2 \end{array} \right) \left(\begin{array}{ccc} a_1-\bar{a} & … & a_n-\bar{a} \\ b_1-\bar{b} & … & b_n-\bar{b} \end{array} \right) \left(\begin{array}{cc} a_1-\bar{a} & b_1-\bar{b} \\ \vdots & \vdots \\ a_n-\bar{a} & b_n-\bar{b} \end{array} \right) \left(\begin{array}{c} u_1 \\ u_2 \end{array} \right) \\
&= \frac{1}{n} \left(\begin{array}{cc} u_1 & u_2 \end{array} \right) \left(\begin{array}{cc} \displaystyle \sum_{i=1}^{n}(a_i-\bar{a})(a_i-\bar{a}) & \displaystyle \sum_{i=1}^{n}(a_i-\bar{a})(b_i-\bar{b}) \\ \displaystyle \sum_{i=1}^{n}(b_i-\bar{b})(a_i-\bar{a}) & \displaystyle \sum_{i=1}^{n}(b_i-\bar{b})(b_i-\bar{b}) \end{array} \right) \left(\begin{array}{c} u_1 \\ u_2 \end{array} \right) \\
&= \left(\begin{array}{r} u_1 & u_2 \end{array} \right) \left(\begin{array}{rr} \displaystyle \frac{1}{n}\sum_{i=1}^{n}(a_i-\bar{a})(a_i-\bar{a}) & \displaystyle \frac{1}{n}\sum_{i=1}^{n}(a_i-\bar{a})(b_i-\bar{b}) \\ \displaystyle \frac{1}{n}\sum_{i=1}^{n}(b_i-\bar{b})(a_i-\bar{a}) & \displaystyle \frac{1}{n}\sum_{i=1}^{n}(b_i-\bar{b})(b_i-\bar{b}) \end{array} \right) \left(\begin{array}{c} u_1 \\ u_2 \end{array} \right)
\end{align}
$$

ⅲ)
ⅱ)の導出結果における$\displaystyle \left(\begin{array}{rr} \displaystyle \frac{1}{n}\sum_{i=1}^{n}(a_i-\bar{a})(a_i-\bar{a}) & \displaystyle \frac{1}{n}\sum_{i=1}^{n}(a_i-\bar{a})(b_i-\bar{b}) \\ \displaystyle \frac{1}{n}\sum_{i=1}^{n}(b_i-\bar{b})(a_i-\bar{a}) & \displaystyle \frac{1}{n}\sum_{i=1}^{n}(b_i-\bar{b})(b_i-\bar{b}) \end{array} \right) $はサンプル$\mathbf{x}_i$の分散共分散行列を表している。
よって、ⅱ)の式はベクトル$\mathbf{x}_i^{\mathrm{T}}-\mathbf{\bar{x}}^{\mathrm{T}}$から$\mathbf{u}$に正射影を行なった際の分散を$\mathbf{x}_i$の分散共分散行列を用いて表すことのできるということを意味している。

・解説
ⅱ)の変形は省略して記載されることが多いですが、この点を流すと導出の流れがわからなくなると思われるので、丁寧に確認しておくと良いと思います。ベクトルや行列に関する演算は省略されることが多いですが、なるべく要素を書き出すことで少しずつ理解する方が良いと思います。

主成分ベクトルと寄与率の導出

$2$次元のサンプル$\mathbf{x}_i$の分散共分散行列を$\Sigma$とする際に、$\mathbf{x}_i-\mathbf{\bar{x}}$の$2$次元ベクトル$\mathbf{u}$への正射影の分散は下記のように表すことができる。
$$
\begin{align} \sum_{i=1}^{n}((\mathbf{x}_i^{\mathrm{T}}-\mathbf{\bar{x}}^{\mathrm{T}}) \mathbf{u})^2 = \mathbf{u}^{\mathrm{T}} \Sigma \mathbf{u}
\end{align}
$$
ここで、$\mathbf{u}^{\mathrm{T}}\mathbf{u}=1$の制約下で下記の制約付き最適化問題を考える。
$$
\begin{align}
\mathrm{maximize} &: \quad f(\mathbf{u}) = \mathbf{u}^{\mathrm{T}} \mathbf{\Sigma} \mathbf{u} \\
\mathrm{constraint} &: \quad \mathbf{u}^{\mathrm{T}}\mathbf{u} = 1
\end{align}
$$
また、下記のようにベクトルを用いた偏微分の演算子$\nabla$を定義する。
$$
\begin{align}
\nabla = \frac{\partial}{\partial \mathbf{u}} = \left(\begin{array}{c} \displaystyle \frac{\partial}{\partial u_1} \\ \displaystyle \frac{\partial}{\partial u_2} \end{array} \right)
\end{align}
$$
このとき下記の問題に答えよ。

i) $\nabla \mathbf{u}^{\mathrm{T}} \mathbf{u}$を計算せよ。
ⅱ) $\Sigma$が対称行列であることに注意しつつ、$\nabla \mathbf{u}^{\mathrm{T}} \Sigma \mathbf{u}$を計算せよ。ただし、下記の結果を公式のように用いて良いものとする。
https://www.hello-statisticians.com/practice/stat_practice9.html#i-3
ⅲ) $g(\mathbf{u}) = \mathbf{u}^{\mathrm{T}} \Sigma \mathbf{u} + \lambda(1-\mathbf{u}^{\mathrm{T}}\mathbf{u})$とおくとき、$\nabla g(\mathbf{u}) = \mathbf{0}$の際に$\mathbf{\Sigma}\mathbf{u} = \lambda\mathbf{u}$が成立することを示せ。
iv) ⅲ)の$\mathbf{u}$はどのようなベクトルとなるか。
v) $\mathbf{\Sigma}\mathbf{u} = \lambda\mathbf{u}$に左から$\mathbf{u}^{\mathrm{T}}$をかけると$\lambda = \mathbf{u}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{u}$が導出できる。この式を用いて第$1$主成分や寄与率を説明せよ。

・解答
i)
下記のように計算できる。
$$
\begin{align}
\nabla \mathbf{u}^{\mathrm{T}} \mathbf{u} = 2\mathbf{u}
\end{align}
$$

ⅱ)
$\Sigma$が対称行列であるので下記のように計算できる。
$$
\begin{align}
\nabla \mathbf{u}^{\mathrm{T}} \mathbf{\Sigma} \mathbf{u} = 2\mathbf{\Sigma}\mathbf{u}
\end{align}
$$

ⅲ)
i)、ⅱ)を元に、下記のように導出ができる。
$$
\begin{align}
\nabla g(\mathbf{u}) &= \mathbf{0} \\
2\mathbf{\Sigma}\mathbf{u} – 2\lambda\mathbf{u} &= 0 \\
\mathbf{\Sigma}\mathbf{u} &= \lambda\mathbf{u}
\end{align}
$$

iv)
$\mathbf{\Sigma}\mathbf{u} = \lambda\mathbf{u}$より、$\mathbf{u}$は$\mathbf{\Sigma}$の固有ベクトルとなる。

v)
$\lambda = \mathbf{u}^{\mathrm{T}}\mathbf{\Sigma}\mathbf{u}$の左辺は固有値、右辺は固有ベクトル$\mathbf{u}$に$\mathbf{x}_i-\mathbf{\bar{x}}$を射影した際の分散を意味する。
よって、固有値が正射影の分散に対応しており、最大固有値に対応する固有ベクトルが第$1$主成分となる。また、第$1$主成分の固有値を固有値の全体の和で割ることで寄与率を導出できる。たとえば第$1$主成分の寄与率が$95$%の場合、ほぼ第$1$主成分を考えるだけでサンプルの要約が可能となると考えることができる。

・解説
https://www.hello-statisticians.com/practice/stat_practice9.html#i-3
https://www.hello-statisticians.com/practice/stat_practice9.html#i-4
https://www.hello-statisticians.com/practice/stat_practice9.html#i-6
上記で確認したようなベクトルを用いた変形を理解することで、主成分分析の導出はシンプルに解くことができます。とはいえ個々の変形はそれぞれなかなか難しいので、何度か繰り返して慣れると良いと思います。

参考書籍

・「パターン認識と機械学習」

多次元正規分布における条件付き確率分布の数式の導出を理解する

多次元正規分布の直感的な理解については下記で取り扱いましたが、当記事ではその多次元分布において条件付き確率分布を考えます。
https://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist1.html

「パターン認識と機械学習(PRML)」の上巻の$2.3.2$節の導出が比較的わかりやすいので、主にこちらを参考に確認を行いました。

また、$(\mathrm{o.xx})$の形式の式番号は「パターン認識と機械学習」の式番号に対応させました。

前提の確認

分割された行列の逆行列

下記のように分割された行列を考える。
$$
\begin{align}
\left(\begin{array}{cc} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{array} \right)
\end{align}
$$
上記において、それぞれ$\mathbf{A}$は$d$行$d$列、$\mathbf{B}$は$d$行$n-d$列、$\mathbf{C}$は$n-d$行$d$列、$\mathbf{D}$は$n-d$行$n-d$列の行列と考えるとする。この逆行列は$\mathbf{M} = (\mathbf{A}-\mathbf{B}\mathbf{D}^{-1}\mathbf{C})^{-1}$のように$\mathbf{M}$を定義したときに下記のように表すことができる。
$$
\begin{align}
\left(\begin{array}{cc} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{array} \right)^{-1} = \left(\begin{array}{cc} \mathbf{M} & -\mathbf{MBD}^{-1} \\ -\mathbf{D}^{-1}\mathbf{CM} & \mathbf{D}^{-1}+\mathbf{D}^{-1}\mathbf{CMBD}^{-1} \end{array} \right) \quad (2.76)
\end{align}
$$
以下、上記の式が正しいことを確認する。

$\displaystyle \left(\begin{array}{cc} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{array} \right)^{-1}\left(\begin{array}{cc} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{array} \right)$が単位行列になることを示せば良い。
$$
\begin{align}
& \left(\begin{array}{cc} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{array} \right)^{-1} \left(\begin{array}{cc} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{array} \right) = \left(\begin{array}{cc} \mathbf{M} & -\mathbf{MBD}^{-1} \\ -\mathbf{D}^{-1}\mathbf{CM} & \mathbf{D}^{-1}+\mathbf{D}^{-1}\mathbf{CMBD}^{-1} \end{array} \right) \left(\begin{array}{cc} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{array} \right) \\
&= \left(\begin{array}{cc} \mathbf{M}\mathbf{A}-\mathbf{MBD}^{-1}\mathbf{C} & \mathbf{MB}-\mathbf{MBD}^{-1}\mathbf{D} \\ -\mathbf{D}^{-1}\mathbf{CMA}+\mathbf{D}^{-1}\mathbf{C}+\mathbf{D}^{-1}\mathbf{CMBD}^{-1}\mathbf{C} & -\mathbf{D}^{-1}\mathbf{CMB}+\mathbf{D}^{-1}\mathbf{D}+\mathbf{D}^{-1}\mathbf{CMBD}^{-1}\mathbf{D} \end{array} \right) \\
&= \left(\begin{array}{cc} \mathbf{M}(\mathbf{A}-\mathbf{BD}^{-1}\mathbf{C}) & \mathbf{MB}-\mathbf{MB} \\ -\mathbf{D}^{-1}\mathbf{CM}(\mathbf{A}-\mathbf{BD}^{-1}\mathbf{C})+\mathbf{D}^{-1}\mathbf{C} & -\mathbf{D}^{-1}\mathbf{CMB}+\mathbf{D}^{-1}\mathbf{D}+\mathbf{D}^{-1}\mathbf{CMB} \end{array} \right) \\
&= \left(\begin{array}{cc} \mathbf{M}\mathbf{M}^{-1} & \mathbf{O} \\ -\mathbf{D}^{-1}\mathbf{C}+\mathbf{D}^{-1}\mathbf{C} & +\mathbf{D}^{-1}\mathbf{D} \end{array} \right) \\
&= \left(\begin{array}{cc} \mathbf{M}\mathbf{M}^{-1} & \mathbf{O} \\ \mathbf{O} & +\mathbf{D}^{-1}\mathbf{D} \end{array} \right)
\end{align}
$$

上記より、$\displaystyle \left(\begin{array}{cc} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{array} \right)^{-1} \left(\begin{array}{cc} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{array} \right)$が単位行列であることを確認できるため、下記が成立する。
$$
\begin{align}
\left(\begin{array}{cc} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{array} \right)^{-1} = \left(\begin{array}{cc} \mathbf{M} & -\mathbf{MBD}^{-1} \\ -\mathbf{D}^{-1}\mathbf{CM} & \mathbf{D}^{-1}+\mathbf{D}^{-1}\mathbf{CMBD}^{-1} \end{array} \right)
\end{align}
$$

分散共分散行列の分割

$\mathbf{x}, \mathbf{\mu}$を$n$次元ベクトル、$\mathbf{\Sigma}$を$n$行$n$列の対称行列であると考え、このときのベクトル・行列の分割を行うことを考える。まずは$\mathbf{x}, \mathbf{\mu}, \mathbf{\Sigma}$についてそれぞれ確認する。
$$
\begin{align}
\mathbf{x} &= \left(\begin{array}{c} x_1 \\ x_2 \\ … \\ x_n \end{array} \right) \\
\mathbf{\mu} &= \left(\begin{array}{c} \mu_1 \\ \mu_2 \\ … \\ \mu_n \end{array} \right) \\
\mathbf{\Sigma} &= \left(\begin{array}{c} \Sigma_{1,1} & … & \Sigma_{1,n} \\ … & … & … \\ \Sigma_{n,1} & … & \Sigma_{n,n} \end{array} \right)
\end{align}
$$

次にそれぞれの分割について考える。$n$次元を$d$次元と$n-d$次元に分割することを考え、$d$次元に添字$a$、$n-d$次元に添字$b$を対応させ、以下では分割を行う。

$\mathbf{x}$は下記のように分割する。
$$
\begin{align}
\mathbf{x} &= \left(\begin{array}{c} x_1 \\ x_2 \\ … \\ x_d \\ x_{d+1} \\ … \\ x_n \end{array} \right) , \quad \mathbf{x}_a = \left(\begin{array}{c} x_1 \\ x_2 \\ … \\ x_d \end{array} \right) , \quad \mathbf{x}_b = \left(\begin{array}{c} x_{d+1} \\ … \\ x_n \end{array} \right)
\end{align}
$$

同様に$\mathbf{\mu}$は下記のように分割する。
$$
\begin{align}
\mathbf{\mu} &= \left(\begin{array}{c} \mu_1 \\ \mu_2 \\ … \\ \mu_d \\ \mu_{d+1} \\ … \\ \mu_n \end{array} \right) , \quad \mathbf{\mu}_a = \left(\begin{array}{c} \mu_1 \\ \mu_2 \\ … \\ \mu_d \end{array} \right) , \quad \mathbf{\mu}_b = \left(\begin{array}{c} \mu_{d+1} \\ … \\ \mu_n \end{array} \right)
\end{align}
$$

$\mathbf{\Sigma}$は下記のように分割する。
$$
\begin{align}
\mathbf{\Sigma} &= \left(\begin{array}{cccccc} \Sigma_{1,1} & … & \Sigma_{1,d} & \Sigma_{1,d+1} & … & \Sigma_{1,n} \\ … & … & … & … & … & … \\ \Sigma_{d,1} & … & \Sigma_{d,d} & \Sigma_{d,d+1} & … & \Sigma_{d,n} \\ \Sigma_{d+1,1} & … & \Sigma_{d+1,d} & \Sigma_{d+1,d+1} & … & \Sigma_{d+1,n} \\ … & … & … & … & … & … \\ \Sigma_{d,1} & … & \Sigma_{d,d} & \Sigma_{d,d+1} & … & \Sigma_{d,n} \end{array} \right) \\
\mathbf{\Sigma}_{aa} &= \left(\begin{array}{ccc} \Sigma_{1,1} & … & \Sigma_{1,d} \\ … & … & … \\ \Sigma_{d,1} & … & \Sigma_{d,d} \end{array} \right) , \quad \mathbf{\Sigma}_{ab} = \left(\begin{array}{ccc} \Sigma_{1,d+1} & … & \Sigma_{1,n} \\ … & … & … \\ \Sigma_{d,d+1} & … & \Sigma_{d,n} \end{array} \right) \\
\mathbf{\Sigma}_{ba} &= \left(\begin{array}{ccc} \Sigma_{d+1,1} & … & \Sigma_{d+1,d} \\ … & … & … \\ \Sigma_{n,1} & … & \Sigma_{n,d} \end{array} \right) , \quad \mathbf{\Sigma}_{bb} = \left(\begin{array}{ccc} \Sigma_{d+1,d+1} & … & \Sigma_{d+1,n} \\ … & … & … \\ \Sigma_{n,d+1} & … & \Sigma_{n,n} \end{array} \right)
\end{align}
$$
ここで$\mathbf{\Sigma}$が対称行列であることから、$\mathbf{\Sigma}_{aa}, \mathbf{\Sigma}_{bb}$も対称行列であり、かつ、$\mathbf{\Sigma}_{ab}^{\mathrm{T}}=\mathbf{\Sigma}_{ba}$が成立する。

精度行列(precision matrix)

多次元正規分布の計算では分散共分散行列の逆行列を文字でおく方がシンプルになるので、$\mathbf{\Lambda} \equiv \mathbf{\Sigma}^{-1}$となるように精度行列(precision matrix)の$\mathbf{\Lambda}$の定義を行う。

ここで$\mathbf{\Lambda}$の分割は$\mathbf{\Sigma}$と同様に下記のように表すことができる。
$$
\begin{align}
\mathbf{\Lambda} = \left(\begin{array}{cc} \mathbf{\Lambda}_{aa} & \mathbf{\Lambda}_{ab} \\ \mathbf{\Lambda}_{ba} & \mathbf{\Lambda}_{bb} \end{array} \right) = \left(\begin{array}{cc} \mathbf{\Sigma}_{aa} & \mathbf{\Sigma}_{ab} \\ \mathbf{\Sigma}_{ba} & \mathbf{\Sigma}_{bb} \end{array} \right)^{-1} \quad (2.78)
\end{align}
$$

このように$\mathbf{\Lambda}$を定義したとき、「分割された行列の逆行列」で取り扱った下記の式を元に$\mathbf{\Lambda}$について考える。
$$
\begin{align}
\left(\begin{array}{cc} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{array} \right)^{-1} &= \left(\begin{array}{cc} \mathbf{M} & -\mathbf{MBD}^{-1} \\ -\mathbf{D}^{-1}\mathbf{CM} & \mathbf{D}^{-1}+\mathbf{D}^{-1}\mathbf{CMBD}^{-1} \end{array} \right) \quad (2.76) \\
\mathbf{M} &= (\mathbf{A}-\mathbf{B}\mathbf{D}^{-1}\mathbf{C})^{-1} \quad (2.77)
\end{align}
$$

上記を元に$\mathbf{\Lambda}_{aa}$と$\mathbf{\Lambda}_{ab}$について求めると下記のようになる。
$$
\begin{align}
\mathbf{\Lambda}_{aa} &= (\mathbf{\Sigma}_{aa}-\mathbf{\Sigma}_{ab}\mathbf{\Sigma}_{bb}^{-1}\mathbf{\Sigma}_{ba})^{-1} \quad (2.79) \\
\mathbf{\Lambda}_{ab} &= -(\mathbf{\Sigma}_{aa}-\mathbf{\Sigma}_{ab}\mathbf{\Sigma}_{bb}^{-1}\mathbf{\sigma}_{ba})^{-1}\mathbf{\Sigma}_{ab}\mathbf{\Sigma}_{bb}^{-1} \quad (2.80)
\end{align}
$$

多次元正規分布の条件付き確率分布の導出

二次形式と展開・平方完成

https://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist1.html
上記でも取り扱った$\displaystyle \Delta^2 = (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu})$の展開や平方完成について考える。

$\displaystyle \Delta^2 = (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu})$を展開すると下記のようになる。
$$
\large
\begin{align}
\Delta^2 &= (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \\
&= \mathbf{x}^{\mathrm{T}} \Sigma^{-1} \mathbf{x} – 2 \mathbf{x}^{\mathrm{T}} \Sigma^{-1} \mathbf{\mu} + \mathrm{Const.} \quad (1)
\end{align}
$$

上記の変形にあたっては、下記の二点に基づいた変形を行なったことは注意しておきたい。
・確率変数に対応する$\mathbf{x}$以外の項を$\mathrm{Const.}$でまとめた
・$\Sigma^{-1}$が対称であるので、$\mathbf{\mu}^{\mathrm{T}} \Sigma^{-1} \mathbf{x}=\mathbf{x}^{\mathrm{T}} \Sigma^{-1} \mathbf{\mu}$が成立することを利用した

多次元正規分布について考えるにあたっては、$\exp$の中の$\mathbf{x}$の平方完成について着目し論理展開を行うため、ここで取り扱ったような二次形式の展開やその逆演算である平方完成については抑えておくとよい。

同時確率分布$P(\mathbf{x}_a,\mathbf{x}_b)$と条件付き確率分布$P(\mathbf{x}_a|\mathbf{x}_b)$

多次元正規分布を考えた際の、同時確率分布$P(\mathbf{x}_a,\mathbf{x}_b)$と条件付き確率分布$P(\mathbf{x}_a|\mathbf{x}_b)$について確認する。前項で取り扱った$\displaystyle \Delta^2 = (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu})$を考えるにあたって、$\mathbf{x}, \mathbf{\mu}, \mathbf{\Sigma}$を分割表記して展開を行う。
$$
\large
\begin{align}
\Delta^2 &= (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \\
&= (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Lambda} (\mathbf{x}-\mathbf{\mu}) \\
&= \left(\begin{array}{cc} (\mathbf{x}_a-\mathbf{\mu}_a)^{\mathrm{T}} & (\mathbf{x}_b-\mathbf{\mu}_b)^{\mathrm{T}} \end{array} \right) \left(\begin{array}{cc} \mathbf{\Lambda}_{aa} & \mathbf{\Lambda}_{ab} \\ \mathbf{\Lambda}_{ba} & \mathbf{\Lambda}_{bb} \end{array} \right) \left(\begin{array}{c} \mathbf{x}_a-\mathbf{\mu}_a \\ \mathbf{x}_b-\mathbf{\mu}_b \end{array} \right) \\
&= \left(\begin{array}{cc} (\mathbf{x}_a-\mathbf{\mu}_a)^{\mathrm{T}} & (\mathbf{x}_b-\mathbf{\mu}_b)^{\mathrm{T}} \end{array} \right) \left(\begin{array}{c} \mathbf{\Lambda}_{aa}(\mathbf{x}_a-\mathbf{\mu}_a)+\mathbf{\Lambda}_{ab}(\mathbf{x}_b-\mathbf{\mu}_b) \\ \mathbf{\Lambda}_{ba}(\mathbf{x}_a-\mathbf{\mu}_a)+\mathbf{\Lambda}_{bb}(\mathbf{x}_b-\mathbf{\mu}_b) \end{array} \right) \\
&= (\mathbf{x}_a-\mathbf{\mu}_a)^{\mathrm{T}}\mathbf{\Lambda}_{aa}(\mathbf{x}_a-\mathbf{\mu}_a) + (\mathbf{x}_a-\mathbf{\mu}_a)^{\mathrm{T}}\mathbf{\Lambda}_{ab}(\mathbf{x}_b-\mathbf{\mu}_b) \\
& \qquad + (\mathbf{x}_b-\mathbf{\mu}_b)^{\mathrm{T}}\mathbf{\Lambda}_{ba}(\mathbf{x}_a-\mathbf{\mu}_a) + (\mathbf{x}_b-\mathbf{\mu}_b)^{\mathrm{T}}\mathbf{\Lambda}_{bb}(\mathbf{x}_b-\mathbf{\mu}_b) \quad (2)
\end{align}
$$
上記は$\mathbf{x}_a$の二次形式であるので、条件付き確率分布$P(\mathbf{x}_a|\mathbf{x}_b)$は正規分布となる。

条件付き確率分布$P(\mathbf{x}_a|\mathbf{x}_b)$の平均$\mathbf{\mu}_{a|b}$と共分散行列$\mathbf{\Sigma}_{a|b}$

以下、$(1)$式、$(2)$式などを元に、条件付き確率分布$P(\mathbf{x}_a|\mathbf{x}_b)$の平均ベクトル$\mathbf{\mu}_{a|b}$と分散共分散行列$\mathbf{\Sigma}_{a|b}$について導出を行う。

$\mathbf{x}_a$の二次の項に着目すると、$(2)$式より下記が得られる。
$$
\large
\begin{align}
\mathbf{x}_a^{\mathrm{T}}\mathbf{\Lambda}_{aa}\mathbf{x}_a
\end{align}
$$
上記を$(1)$式と見比べることで、$\mathbf{\Sigma}_{a|b}=\mathbf{\Lambda}_{aa}^{-1}$を導出することができる。

次に$\mathbf{x}_a$の一次の項に着目すると、$(2)$式より下記が得られる。
$$
\large
\begin{align}
-2\mathbf{x}_a^{\mathrm{T}}(\mathbf{\Lambda}_{aa}\mathbf{\mu}_{a} – \mathbf{\Lambda}_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b}))
\end{align}
$$

上記を$(1)$式と見比べることで、下記を導出することができる。
$$
\large
\begin{align}
\mathbf{\mu}_{a|b} &= \mathbf{\Sigma}_{a|b}(\mathbf{\Lambda}_{aa}\mathbf{\mu}_{a} – \mathbf{\Lambda}_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b})) \\
&= \mathbf{\Lambda}_{aa}^{-1}(\mathbf{\Lambda}_{aa}\mathbf{\mu}_{a} – \mathbf{\Lambda}_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b})) \\
&= (\mathbf{\mu}_{a} – \mathbf{\Lambda}_{aa}^{-1}\mathbf{\Lambda}_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b}))\end{align}
$$

「精度行列」で求めた$\mathbf{\Lambda}_{aa}, \mathbf{\Lambda}_{ab}$を用いると、$\mathbf{\mu}_{a|b}, \mathbf{\Sigma}_{a|b}$は下記のように導出することができる。
$$
\large
\begin{align}
\mathbf{\mu}_{a|b} &= (\mathbf{\mu}_{a} + \mathbf{\Sigma}_{ab}\mathbf{\Sigma}_{bb}^{-1}(\mathbf{x}_{b}-\mathbf{\mu}_{b})) \quad (2.81) \\
\mathbf{\Sigma}_{a|b} &= \mathbf{\Sigma}_{aa}-\mathbf{\Sigma}_{ab}\mathbf{\Sigma}_{bb}^{-1}\mathbf{\Sigma}_{ba} \quad (2.82)
\end{align}
$$

また、$a$と$b$の位置を入れ替えた$\mathbf{x}’, \mu’, \mathbf{\Sigma}’$はそれぞれ下記のように表せる。
$$
\large
\begin{align}
\mathbf{x}’ &= \left( \begin{array}{c} \mathbf{x}_b \\ \mathbf{x}_a \end{array} \right) \\
\mu’ &= \left( \begin{array}{c} \mu_b \\ \mu_a \end{array} \right) \\
\mathbf{\Sigma}’ &= \left( \begin{array}{c} \mathbf{\Sigma}_{bb} & \mathbf{\Sigma}_{ba} \\ \mathbf{\Sigma}_{ab} & \mathbf{\Sigma}_{aa} \end{array} \right)
\end{align}
$$

この$\mathbf{x}’, \mu’, \mathbf{\Sigma}’$に関して$\mathbf{\mu}’_{b|a}, \mathbf{\Sigma}’_{b|a}$、は$(2.81),(2.82)$式より下記のように計算できる。
$$
\large
\begin{align}
\mathbf{\mu}’_{b|a} &= (\mathbf{\mu}_{a} + \mathbf{\Sigma}_{ba}\mathbf{\Sigma}_{aa}^{-1}(\mathbf{x}_{a}-\mathbf{\mu}_{a})) \\
\mathbf{\Sigma}’_{b|a} &= \mathbf{\Sigma}_{bb}-\mathbf{\Sigma}_{ba}\mathbf{\Sigma}_{aa}^{-1}\mathbf{\Sigma}_{ab}
\end{align}
$$

ここで$\mathbf{\mu}’_{b|a}=\mathbf{\mu}_{b|a}, \mathbf{\Sigma}’_{b|a}=\mathbf{\Sigma}_{b|a}$が成立するので下記が成立する。
$$
\large
\begin{align}
\mathbf{\mu}_{b|a} &= (\mathbf{\mu}_{a} + \mathbf{\Sigma}_{ba}\mathbf{\Sigma}_{aa}^{-1}(\mathbf{x}_{a}-\mathbf{\mu}_{a})) \quad (2.81)’ \\
\mathbf{\Sigma}_{b|a} &= \mathbf{\Sigma}_{bb}-\mathbf{\Sigma}_{ba}\mathbf{\Sigma}_{aa}^{-1}\mathbf{\Sigma}_{ab} \quad (2.82)’
\end{align}
$$

まとめ

分割された行列の逆行列の計算がなかなか複雑なので、本論とは別途で抑えておくのが良さそうでした。