ブログ

トレース(trace)を用いた行列のフロベニウスノルム・分類問題における二乗和誤差の計算

分類問題を考える際などに$1$of$K$表記を$N$個のサンプル毎に列挙することで$N \times K$行列を考えることがありますが、この際にトレースを用いて二乗和誤差が計算されることがあります。当記事ではトレースを用いて$2$つの行列の二乗誤差を表すことができることを確認します。
「パターン認識と機械学習」の$4.1.3$節の$(4.15)$式の直感的な理解を目標の$1$つに作成を行いました。

また、$(\mathrm{o.xx})$の形式の式番号は「パターン認識と機械学習」の式番号に対応させました。

基本事項のまとめ

トレース(trace)の定義

トレース(trace)は正方行列(Square matrix)の対角成分の和で定義され、$n \times n$正方行列$A=(a)_{ij}$のトレース$\mathrm{tr}(A)$を下記のように表記する。
$$
\large
\begin{align}
\mathrm{tr}(A) &= a_{11} + a_{22} + \cdots + a_{nn} \\
&= \sum_{i=1}^{n} a_{ii}
\end{align}
$$

フロベニウスノルムの定義

行列のノルムを考える際のシンプルな考え方がフロベニウスノルム(Frobenius norm)である。$m$行$n$列の行列$\mathbf{A} = (a_{ij})$に関するフロベニウスノルム$|\mathbf{A}|_{F}$は下記のように定義できる。
$$
\large
\begin{align}
||A||_{F} = \sqrt{ \sum_{i=1}^{m} \sum_{j=1}^{n} a_{ij}^2 }
\end{align}
$$

フロベニウスノルムは行列の各要素の二乗の和を計算し、計算した二乗和に対して平方根を考えた値に一致する。以下では二乗和を中心に考えるにあたって、$\displaystyle ||A||_{F}^{2} = \sum_{i=1}^{m} \sum_{j=1}^{n} a_{ij}^2$を主に用いる。

トレースを用いたフロベニウスノルムの表記

当項では行列$A$のフロベニウスノルムの二乗の$||A||_{F}^{2}$が$||A||_{F}^{2}=\mathrm{Tr}(A^{\mathrm{T}}A)$のように表せることの確認を以下で行う。まず$A^{\mathrm{T}}A$は下記のように表すことができる。
$$
\large
\begin{align}
A^{\mathrm{T}}A &= \left(\begin{array}{ccc} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \cdots & a_{mn} \end{array} \right)^{\mathrm{T}} \left(\begin{array}{ccc} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \cdots & a_{mn} \end{array} \right) \\
&= \left(\begin{array}{ccc} a_{11} & \cdots & a_{m1} \\ \vdots & \ddots & \vdots \\ a_{1n} & \cdots & a_{nm} \end{array} \right) \left(\begin{array}{ccc} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \cdots & a_{mn} \end{array} \right)
\end{align}
$$

上記の$(j,j)$成分を$(A^{\mathrm{T}}A)_{jj}$とおくとき、$(A^{\mathrm{T}}A)_{jj}$は下記のように表すことができる。
$$
\large
\begin{align}
(A^{\mathrm{T}}A)_{jj} &= \left(\begin{array}{ccc} a_{1j} & \cdots & a_{mj} \end{array} \right) \left(\begin{array}{c} a_{1j} \\ \vdots \\ a_{mj} \end{array} \right) \\
&= \sum_{i=1}^{m} a_{ij}^{2}
\end{align}
$$

ここで$A^{\mathrm{T}}A$が$n \times n$行列であることから$\mathrm{Tr}(A^{\mathrm{T}}A)$は下記のように表せる。
$$
\large
\begin{align}
\mathrm{Tr}(A^{\mathrm{T}}A) &= \sum_{j=1}^{n} \sum_{i=1}^{m} a_{ij}^{2} \\
&= \sum_{i=1}^{m} \sum_{j=1}^{n} a_{ij}^{2} = ||A||_{F}^{2}
\end{align}
$$

上記より$||A||_{F}^{2}=\mathrm{Tr}(A^{\mathrm{T}}A)$を示すことができる。

分類問題における二乗和誤差の表記

以下、$K$クラス分類問題における二乗和誤差の表記について確認を行う。まず、$n$番目のサンプルに関する$D+1$次元ベクトル$\mathbf{x}_{n}$とクラス$k$に対応する重みベクトル$\mathbf{w}_{k}$を下記のように定義する。
$$
\large
\begin{align}
\mathbf{x}_{n} &= \left(\begin{array}{c} 1 \\ x_{n1} \\ \vdots \\ x_{nD} \end{array} \right) \\
\mathbf{w}_{k} &= \left(\begin{array}{c} w_{k0} \\ w_{k1} \\ \vdots \\ w_{kD} \end{array} \right)
\end{align}
$$

上記を元に予測値$y_{k}(\mathbf{x}_{n})$は下記のように計算できる。
$$
\large
\begin{align}
y_{k}(\mathbf{x}_{n}) = \mathbf{w}_{k}^{\mathrm{T}} \mathbf{x}_{n}
\end{align}
$$

ここで上記を$k=1,…,K$に拡張して表すにあたって、下記のように$y(\mathbf{x}_{n}), \mathbf{w}$を定める。
$$
\large
\begin{align}
y(\mathbf{x}_{n}) &= \mathbf{W}^{\mathrm{T}} \mathbf{x}_{n} \quad (4.14) \\
\mathbf{W}^{\mathrm{T}} &= \left(\begin{array}{cccc} w_{10} & w_{11} & \cdots & w_{1D} \\ \vdots & \vdots & \ddots & \vdots \\ w_{K0} & w_{K1} & \cdots & w_{KD} \end{array} \right) \\
\mathbf{W} &= \left(\begin{array}{ccc} w_{10} & \cdots & w_{K0} \\ w_{11} & \cdots & w_{K1} \\ \vdots & \ddots & \vdots \\ w_{1D} & \cdots & w_{KD} \end{array} \right)
\end{align}
$$

さらに上記を$n=1,…,N$に拡張して表すにあたって下記のように$\mathbf{Y},\mathbf{X}$を定める。
$$
\large
\begin{align}
\mathbf{Y} &= \mathbf{X}\mathbf{W} \\
\mathbf{X} &= \left(\begin{array}{cccc} 1 & x_{11} & \cdots & x_{1D} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{N1} & \cdots & w_{ND} \end{array} \right)
\end{align}
$$

ここで$\mathbf{Y} = \mathbf{X}\mathbf{W}$は$N$行$K$列の行列である。また、$\mathbf{Y}$に対応する観測値の$1$of$K$表現を$\mathbf{T}$とおくと、二乗和誤差は$||\mathbf{Y}-\mathbf{T}||_{F}^{2}$で表される。

二乗和誤差$||\mathbf{Y}-\mathbf{T}||_{F}^{2}$は、前節で確認したトレースを用いた式を用いることで下記のように表すことができる。
$$
\large
\begin{align}
||\mathbf{Y}-\mathbf{T}||_{F}^{2} &= ||\mathbf{X}\mathbf{W} – \mathbf{T}||_{F}^{2} \\
&= \mathrm{Tr} \left\{ (\mathbf{X}\mathbf{W} – \mathbf{T})^{\mathrm{T}}(\mathbf{X}\mathbf{W} – \mathbf{T}) \right\} \\
& \propto \frac{1}{2} \mathrm{Tr} \left\{ (\mathbf{X}\mathbf{W} – \mathbf{T})^{\mathrm{T}}(\mathbf{X}\mathbf{W} – \mathbf{T}) \right\} \quad (4.15)
\end{align}
$$

参考

・行列のトレース(trace)
https://www.hello-statisticians.com/explain-terms-cat/trace_mat1.html

・行列分解とフロベニウスノルム
https://www.hello-statisticians.com/explain-terms-cat/matrix_factorization1.html

Ch.8 「グラフィカルモデル」の章末問題の解答例 パターン認識と機械学習 8.1〜8.15

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.$8$の「グラフィカルモデル」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・参考
パターン認識と機械学習 解答まとめ
https://www.hello-statisticians.com/answer_textbook#prml

解答まとめ

問題$8.2$

背理法で考える。「番号が大きなノードに対してのみエッジを持つ有向グラフ」で閉路を持つにはどれかのノードが番号がマイナスになるノードに対してエッジを持たなくてはならないが、このことは「番号が大きなノードに対してのみエッジを持つ」という前提に反する。よって閉路を持たない。

問題$8.3$

$a=1,b=1$の場合に限って示す。Table$8.2$より、$p(a,b), p(a), p(b)$はそれぞれ下記のように計算できる。
$$
\large
\begin{align}
p(a,b) &= 0.048+0.096 = 0.144 \\
p(a) &= 0.192+0.064+0.048+0.096 = 0.4 \\
p(b) &= 0.048+0.216+0.048+0.096 = 0.408
\end{align}
$$

ここで$p(a)p(b) = 0.1632 \neq 0.144 = p(a,b)$より$p(a,b) \neq p(a)p(b)$である。次に$c$で条件付けた場合を考えるにあたって、$p(a,b|c), p(a|c), p(b|c)$の値を考える。

・$c=0$の場合
$p(c=0)=0.192+0.048+0.192+0.048=0.48$を用いて下記のように計算できる。
$$
\large
\begin{align}
p(a,b|c=0) &= 0.048/0.48 = 0.1 \\
p(a|c=0) &= (0.192+0.048)/0.48 = 0.5 \\
p(b|c=0) &= (0.048+0.048)/0.48 = 0.2
\end{align}
$$

よって$p(a,b|c=0) = 0.1 = 0.5 \times 0.2 = 0.1 = p(a,b|c=0)$が成立する。

・$c=1$の場合
$p(c=1)=0.144+0.216+0.064+0.096=0.52$を用いて下記のように計算できる。
$$
\large
\begin{align}
p(a,b|c=1) &= 0.096/0.52 = \frac{9.6}{52} \\
p(a|c=1) &= (0.064+0.096)/0.52 = \frac{16}{52} \\
p(b|c=1) &= (0.216+0.096)/0.52 = \frac{31.2}{52}
\end{align}
$$

上記に基づいて$\displaystyle p(a,b|c=0) = \frac{9.6}{52} = \frac{16 \times 0.6}{52} = \frac{16}{52} \times \frac{31.2}{52} = p(a|c=1)p(b|c=1)$が成立する。

問題$8.12$

$M$個のノードの取り得るエッジの数は$\displaystyle {}_{M} C_{2} = \frac{M(M-1)}{2}$であるので、$M$個のノードに関する取り得るエッジの組み合わせは$\displaystyle 2^{\frac{M(M-1)}{2}}$通りある。下図に$M=3$で取り得るエッジの組み合わせを示した。

Ch.6 「カーネル法」の章末問題の解答例 パターン認識と機械学習 6.1〜6.15

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.$6$の「カーネル法」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・参考
パターン認識と機械学習 解答まとめ
https://www.hello-statisticians.com/answer_textbook#prml

解答まとめ

問題$6.1$

問題$6.2$

問題$6.3$

問題$6.4$

$$
\large
\begin{align}
A = \left( \begin{array}{cc} a & b \\ c & d \end{array} \right)
\end{align}
$$

上記のように定めた行列$A$が「固有値が正」かつ「少なくとも$1$つの要素が負」である条件を調べ、条件に基づいて例示を行う。固有値を$\lambda$とおくと、下記が成立する。
$$
\large
\begin{align}
\det(A – \lambda I) &= 0 \\
\left| \begin{array}{cc} a – \lambda & b \\ c & d – \lambda \end{array} \right| &= 0 \\
(a – \lambda)(d – \lambda) – bc &= 0 \\
\lambda^2 – (a+b) \lambda + ad – bc &= 0 \quad (1)
\end{align}
$$

ここで$(1)$式を$\lambda$に関して解くと二次方程式の解の公式より下記が得られる。
$$
\large
\begin{align}
\lambda = \frac{(a+d) \pm \sqrt{(a+d)^2 – 4(ad-bc)}}{2}
\end{align}
$$

ここで下記の二つの条件が成立すれば全ての固有値が正の値になる。
$$
\large
\begin{align}
a+d > \sqrt{(a+d)^2 – 4(ad-bc)} \quad (2) \\
(a+d)^2 – 4(ad-bc) > 0 \quad (3)
\end{align}
$$

$(2)$式は全ての固有値が正であることに対応し、$(3)$式は方程式が実数解を持つことに対応する。以下、$(2)$式の変形を行い、解釈可能な形に変形する。

・$(2)$式に関する変形
$$
\large
\begin{align}
a+d &> \sqrt{(a+d)^2 – 4(ad-bc)} \quad (2) \\
(a+d)^2 &> (a+d)^2 – 4(ad-bc) \\
ad &> bc \quad (2)’
\end{align}
$$

よって、$(2)’$式に基づいて行列を例示し、$(3)$式が成立するかを確認すれば良い。下記に一例を挙げる。
$$
\large
\begin{align}
A = \left( \begin{array}{cc} 2 & -1 \\ -1 & 2 \end{array} \right)
\end{align}
$$

・考察
$(2)’$式が成立する一方で$(3)$式が成立しない場合を以下に例示する。
$$
\large
\begin{align}
A’ = \left( \begin{array}{cc} 2 & -1 \\ 1 & 2 \end{array} \right)
\end{align}
$$

上記の行列$A’$に関する方程式$\det(A – \lambda I) = 0$は実数解を持たない。このように単に$ad > bc$に基づいて値を設定すると実数解を持たない場合があるので注意が必要である。

問題$6.5$

・$(6.13)$式の証明
$k_{1}(\mathbf{x},\mathbf{x}’)$が有効なカーネルであるので、$k_{1}(\mathbf{x},\mathbf{x}’)$は下記のように表せる。
$$
\large
\begin{align}
k_{1}(\mathbf{x},\mathbf{x}’) = \boldsymbol{\phi}(\mathbf{x})^\mathrm{T}\boldsymbol{\phi}(\mathbf{x}’)
\end{align}
$$

このとき$ck_{1}(\mathbf{x},\mathbf{x}’)$は下記のように変形できる。
$$
\large
\begin{align}
ck_{1}(\mathbf{x},\mathbf{x}’) &= c \boldsymbol{\phi}(\mathbf{x})^\mathrm{T}\boldsymbol{\phi}(\mathbf{x}’) \\
&= (\sqrt{c}\boldsymbol{\phi}(\mathbf{x}))^\mathrm{T} (\sqrt{c}\boldsymbol{\phi}(\mathbf{x}’)) \\
&= \mathbf{u}(\mathbf{x})^\mathrm{T}\mathbf{u}(\mathbf{x}’)
\end{align}
$$

途中式で$\mathbf{u}(\mathbf{x})=\sqrt{c}\boldsymbol{\phi}(\mathbf{x}’)$のようにおいた。上記より$k_{1}(\mathbf{x},\mathbf{x}’)$が有効なカーネルであるとき、$k(\mathbf{x},\mathbf{x}’)=ck_{1}(\mathbf{x},\mathbf{x}’)$も有効なカーネルであることが示される。

・$(6.14)$式の証明
$k_{1}(\mathbf{x},\mathbf{x}’)$が有効なカーネルであるので、$k_{1}(\mathbf{x},\mathbf{x}’)$は下記のように表せる。
$$
\large
\begin{align}
k_{1}(\mathbf{x},\mathbf{x}’) = \boldsymbol{\phi}(\mathbf{x})^\mathrm{T}\boldsymbol{\phi}(\mathbf{x}’)
\end{align}
$$

このとき$f(\mathbf{x})k_{1}(\mathbf{x},\mathbf{x}’)f(\mathbf{x}’)$は下記のように変形できる。
$$
\large
\begin{align}
f(\mathbf{x})k_{1}(\mathbf{x},\mathbf{x}’)f(\mathbf{x}’) &= f(\mathbf{x}) \boldsymbol{\phi}(\mathbf{x})^\mathrm{T}\boldsymbol{\phi}(\mathbf{x}’) f(\mathbf{x}’) \\
&= (f(\mathbf{x})\boldsymbol{\phi}(\mathbf{x}))^\mathrm{T} (f(\mathbf{x}’)\boldsymbol{\phi}(\mathbf{x}’)) \\
&= \mathbf{v}(\mathbf{x})^\mathrm{T}\mathbf{v}(\mathbf{x}’)
\end{align}
$$

途中式で$\mathbf{v}(\mathbf{x})=f(\mathbf{x})\boldsymbol{\phi}(\mathbf{x}’)$のようにおいた。上記より$k_{1}(\mathbf{x},\mathbf{x}’)$が有効なカーネルであるとき、$k(\mathbf{x},\mathbf{x}’)=ck_{1}(\mathbf{x},\mathbf{x}’)$も有効なカーネルであることが示される。

問題$6.6$

・$(6.15)$式の証明
$k_{1}(\mathbf{x},\mathbf{x}’)$が有効なカーネルであるとき、$k_{1}(\mathbf{x},\mathbf{x}’)^{n}$が有効なカーネルであることが示せれば$(6.13)$式と$(6.17)$式より多項式関数$q(k_{1}(\mathbf{x},\mathbf{x}’))$が有効なカーネルであることが示せる。

ここで$k_{1}(\mathbf{x},\mathbf{x}’)^{n}$が有効なカーネルであることは$(6.18)$式より帰納法的に示すことができる。よって、$k_{1}(\mathbf{x},\mathbf{x}’)$が有効なカーネルであるとき多項式関数$q(k_{1}(\mathbf{x},\mathbf{x}’)^{n})$も有効なカーネルである。

・$(6.16)$式の証明
マクローリン展開より$\exp(k_{1}(\mathbf{x},\mathbf{x}’))$は下記のように変形できる。
$$
\large
\begin{align}
\exp(k_{1}(\mathbf{x},\mathbf{x}’)) = \sum_{n=0}^{\infty} \frac{1}{n!} k_{1}(\mathbf{x},\mathbf{x}’)^{n}
\end{align}
$$

上記より、$\exp(k_{1}(\mathbf{x},\mathbf{x}’))=q(k_{1}(\mathbf{x},\mathbf{x}’))$と表すことができ、$(6.15)$式より$k_{1}(\mathbf{x},\mathbf{x}’)$が有効なカーネルであるとき、$\exp(k_{1}(\mathbf{x},\mathbf{x}’))$も有効なカーネルであると考えられる。

問題$6.7$

・$(6.17)$式の証明
$k_{1}(\mathbf{x},\mathbf{x}’)$と$k_{2}(\mathbf{x},\mathbf{x}’)$が有効なカーネルであるので、ベクトル集合${\mathbf{x}_1,\mathbf{x}_2,…,\mathbf{x}_n}$に対してこれらに対応するグラム行列を$\mathbf{K}_1, \mathbf{K}_2$とおくと、$\mathbf{K}_1, \mathbf{K}_2$は半正定値行列である。

$\mathbf{K}_1, \mathbf{K}_2$がそれぞれ半正定値行列であることは任意のベクトル$\mathbf{a}$に関して下記が成立することに対応する。
$$
\large
\begin{align}
\mathbf{a}^\mathrm{T}\mathbf{K}_{1}\mathbf{a} \geq 0, \quad \mathbf{a}^\mathrm{T}\mathbf{K}_{2}\mathbf{a} \geq 0
\end{align}
$$

上記より$\mathbf{a}^\mathrm{T}(\mathbf{K}_{1}+\mathbf{K}_{2})\mathbf{a}$に関して下記が成立する。
$$
\large
\begin{align}
\mathbf{a}^\mathrm{T}(\mathbf{K}_{1}+\mathbf{K}_{2})\mathbf{a} = \mathbf{a}^\mathrm{T}\mathbf{K}_{1}\mathbf{a} + \mathbf{a}^\mathrm{T}\mathbf{K}_{2}\mathbf{a} \geq 0
\end{align}
$$

上記より$k_{1}(\mathbf{x},\mathbf{x}’)$と$k_{2}(\mathbf{x},\mathbf{x}’)$が有効なカーネルであるとき$k_{1}(\mathbf{x},\mathbf{x}’)+k_{2}(\mathbf{x},\mathbf{x}’)$も有効なカーネルであることを示すことができる。

・$(6.18)$式の証明
$k_{1}(\mathbf{x},\mathbf{x}’)$と$k_{2}(\mathbf{x},\mathbf{x}’)$が有効なカーネルであるので、ベクトル$\mathbf{x},\mathbf{x}’$を用いて下記のようにそれぞれ表すことができる。
$$
\large
\begin{align}
k_{1}(\mathbf{x},\mathbf{x}’) &= \boldsymbol{\phi}(\mathbf{x})^\mathrm{T}\boldsymbol{\phi}(\mathbf{x}’) \\
k_{2}(\mathbf{x},\mathbf{x}’) &= \boldsymbol{\psi}(\mathbf{x})^\mathrm{T}\boldsymbol{\psi}(\mathbf{x}’)
\end{align}
$$

このとき$k_{1}(\mathbf{x},\mathbf{x}’)k_{2}(\mathbf{x},\mathbf{x}’)$は下記のように計算を行える。
$$
\large
\begin{align}
k_{1}(\mathbf{x},\mathbf{x}’)k_{2}(\mathbf{x},\mathbf{x}’) &= \boldsymbol{\phi}(\mathbf{x})^\mathrm{T}\boldsymbol{\phi}(\mathbf{x}’)\boldsymbol{\psi}(\mathbf{x})^\mathrm{T}\boldsymbol{\psi}(\mathbf{x}’) \\
&= \sum_{m=1}^{M} \phi_{m}(\mathbf{x})\phi_{m}(\mathbf{x}’) \sum_{n=1}^{N} \psi_{n}(\mathbf{x})\phi_{n}(\mathbf{x}’) \\
&= \sum_{m=1}^{M} \sum_{n=1}^{N} \phi_{m}(\mathbf{x}) \phi_{m}(\mathbf{x}’) \psi_{n}(\mathbf{x}) \psi_{n}(\mathbf{x}’) \\
&= \sum_{k=1}^{MN} \phi_{((k-1) \oslash N)+1}(\mathbf{x}) \psi_{((k-1) \odot N)+1}(\mathbf{x}) \phi_{((k-1) \oslash N)+1}(\mathbf{x}’) \psi_{((k-1) \odot N)+1}(\mathbf{x}’) \\
&= \sum_{k=1}^{K} \varphi_{k}(\mathbf{x}) \varphi_{k}(\mathbf{x}’) \\
&= \boldsymbol{\varphi}_{k}(\mathbf{x})^{\mathrm{T}} \boldsymbol{\varphi}_{k}(\mathbf{x}’) \\
K &= MN, \quad \varphi_{k}(\mathbf{x}) = \phi_{((k-1) \oslash N)+1}(\mathbf{x}) \psi_{((k-1) \odot N)+1}(\mathbf{x})
\end{align}
$$

ここで$A \oslash N$は$A$を$N$で割った商、$A \odot N$は$A$を$N$で割った余りにそれぞれ対応する。

上記より$k_{1}(\mathbf{x},\mathbf{x}’)$と$k_{2}(\mathbf{x},\mathbf{x}’)$が有効なカーネルであるとき、$k(\mathbf{x},\mathbf{x}’)=k_{1}(\mathbf{x},\mathbf{x}’)k_{2}(\mathbf{x},\mathbf{x}’)$も有効なカーネルであることが示される。

問題$6.8$

・$(6.19)$式の証明
$k_{3}(\mathbf{x},\mathbf{x}’)$が有効なカーネルであることより、$k_{3}(\boldsymbol{\phi}(\mathbf{x}),\boldsymbol{\phi}(\mathbf{x}’))$は下記のように変形できる。
$$
\large
\begin{align}
k_{3}(\boldsymbol{\phi}(\mathbf{x}),\boldsymbol{\phi}(\mathbf{x}’)) &= \boldsymbol{\psi}(\boldsymbol{\phi}(\mathbf{x}))^\mathrm{T} \boldsymbol{\psi}(\boldsymbol{\phi}(\mathbf{x}’)) \\
&= \mathbf{u}(\mathbf{x})^\mathrm{T} \mathbf{u}(\mathbf{x}’) \\
\mathbf{u}(\mathbf{x}) &= \boldsymbol{\psi}(\boldsymbol{\phi}(\mathbf{x}))
\end{align}
$$

上記より、$k_{3}(\mathbf{x},\mathbf{x}’)$が有効なカーネルであれば、$k(\mathbf{x},\mathbf{x}’) = k_{3}(\boldsymbol{\phi}(\mathbf{x}),\boldsymbol{\phi}(\mathbf{x}’))$も有効なカーネルであることが示される。

・$(6.20)$式の証明
$\mathbf{A}$に対して「エッカート・ヤング分解」を行い、$\mathbf{A}=\mathbf{Z}\mathbf{Z}^{\mathrm{T}}$が得られたと考える。このとき、$\mathbf{x}^{\mathrm{T}}\mathbf{A}\mathbf{x}’$は下記のように変形できる。
$$
\large
\begin{align}
\mathbf{x}^{\mathrm{T}}\mathbf{A}\mathbf{x}’ &= \mathbf{x}^{\mathrm{T}}\mathbf{Z}\mathbf{Z}^{\mathrm{T}}\mathbf{x}’ \\
&= (\mathbf{Z}^{\mathrm{T}} \mathbf{x})^{\mathrm{T}} (\mathbf{Z}^{\mathrm{T}}\mathbf{x}’) \\
&= \boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}’)
\end{align}
$$

上記より$k(\mathbf{x},\mathbf{x}’) = \mathbf{x}^{\mathrm{T}}\mathbf{A}\mathbf{x}’$が有効なカーネルであることが示される。

問題$6.9$

問題$6.10$

問題$6.11$

$$
\large
\begin{align}
k(\mathbf{x},\mathbf{x}’) &= \exp \left( -\frac{||\mathbf{x}-\mathbf{x}’||^2}{2 \sigma^2} \right) \quad (6.23) \\
&= \exp \left( -\frac{\mathbf{x}^{\mathrm{T}}\mathbf{x}+(\mathbf{x}’)^{\mathrm{T}}\mathbf{x}’-2\mathbf{x}^{\mathrm{T}}\mathbf{x}’}{2 \sigma^2} \right) \\
&= \exp \left( -\frac{\mathbf{x}^{\mathrm{T}}\mathbf{x}}{2 \sigma^2} \right) \exp \left( \frac{\mathbf{x}^{\mathrm{T}}\mathbf{x}’}{\sigma^2} \right) \exp \left( -\frac{(\mathbf{x}’)^{\mathrm{T}}\mathbf{x}’}{2 \sigma^2} \right) \quad (6.25)
\end{align}
$$

ここで$\displaystyle \frac{\mathbf{x}^{\mathrm{T}}\mathbf{x}’}{\sigma^2}$に関して下記が成立する。
$$
\large
\begin{align}
\frac{\mathbf{x}^{\mathrm{T}}\mathbf{x}’}{\sigma^2} &= \left( \frac{1}{\sigma}\mathbf{x}^{\mathrm{T}} \right) \left( \frac{1}{\sigma} \mathbf{x}’ \right) \\
&= v(\mathbf{x})^{\mathrm{T}} v(\mathbf{x}’) \\
v(\mathbf{x}) &= \frac{1}{\sigma}\mathbf{x}
\end{align}
$$

上記より$\displaystyle \frac{\mathbf{x}^{\mathrm{T}}\mathbf{x}’}{\sigma^2}$はカーネル関数$\displaystyle k_1(\mathbf{x},\mathbf{x}’)=\frac{\mathbf{x}^{\mathrm{T}}\mathbf{x}’}{\sigma^2}$のように表せる。このとき、$\displaystyle \exp \left( \frac{\mathbf{x}^{\mathrm{T}}\mathbf{x}’}{\sigma^2} \right) = \exp ( k_1(\mathbf{x},\mathbf{x}’) )$に関して、下記のようにマクローリン展開を行うことができる。
$$
\large
\begin{align}
\exp ( k_1(\mathbf{x},\mathbf{x}’) ) = \sum_{n=0}^{\infty} \frac{1}{n!} k_1(\mathbf{x},\mathbf{x}’)^{n}
\end{align}
$$

上記では無限次元の特徴ベクトルを考えているが、$(6.15), (6.16)$式より$\exp(k_1(\mathbf{x},\mathbf{x}’))$はカーネル関数であることが示されるので$k_2(\mathbf{x},\mathbf{x}’)=\exp(k_1(\mathbf{x},\mathbf{x}’))$とおくと、$k_2(\mathbf{x},\mathbf{x}’)$は無限次元の特徴量の内積の形式で表すことができる。また、ここで$\displaystyle f(\mathbf{x}) = \exp \left( -\frac{\mathbf{x}^{\mathrm{T}}\mathbf{x}}{2 \sigma^2} \right)$とおくと、$(6.25)$式は下記のように変形できる。
$$
\large
\begin{align}
k(\mathbf{x},\mathbf{x}’) &= \exp \left( -\frac{\mathbf{x}^{\mathrm{T}}\mathbf{x}}{2 \sigma^2} \right) \exp \left( \frac{\mathbf{x}^{\mathrm{T}}\mathbf{x}’}{\sigma^2} \right) \exp \left( -\frac{(\mathbf{x}’)^{\mathrm{T}}\mathbf{x}’}{2 \sigma^2} \right) \quad (6.25) \\
&= f(\mathbf{x}) k_2(\mathbf{x},\mathbf{x}’) f(\mathbf{x}’)
\end{align}
$$

上記に対し、$(6.14)$式を適用することで$(6.25)$式が有効なカーネル関数であることが示せる。よって、$(6.23)$式で表されるガウシアンカーネルは無限次元の特徴量を持つ有効なカーネル関数であると考えられる。

問題$6.12$

問題$6.13$

問題$6.14$

問題$6.15$

グラム行列を$K$とおくと、$2$次元正方行列の$K$は下記のように定められる。
$$
\large
\begin{align}
K = \left( \begin{array}{cc} k(x_1,x_1) & k(x_1,x_2) \\ k(x_2,x_1) & k(x_2,x_2) \end{array} \right)
\end{align}
$$

上記に対して$\det K \geq 0$かつ$k(x_1,x_2)=k(x_2,x_1)$より下記が成立する。
$$
\large
\begin{align}
\det K &= k(x_1,x_1)k(x_2,x_2) – k(x_1,x_2)k(x_2,x_1) \geq 0 \\
k(x_1,x_2)k(x_2,x_1) & \leq k(x_1,x_1)k(x_2,x_2) \\
k(x_1,x_2)^2 & \leq k(x_1,x_1)k(x_2,x_2)
\end{align}
$$

行列式の計算における単位三角行列(Unit triangular matrix)の取り扱い

単位三角行列(Unit triangular matrix)の$T$に関して$|AT|=|TA|=|A|$が成立することは$|AB|=|A||B|$の導出などで用いられます。当記事では単位三角行列の$T$に関して$|AT|=|TA|=|A|$が成立することの導出に関して取り扱いました。

「統計のための行列代数(Matrix Algebra From a Statistician’s Perspective)」のCh.$13$を参考に作成を行いました。

・参考
n次正方行列の行列式(determinants)の定義・公式とその解釈
https://www.hello-statisticians.com/explain-books-cat/matrix_determinants1.html

$\mathrm{Theorem}$や$\mathrm{Corollary}$の番号は「統計のための行列代数」に対応します。

前提の確認

ここでの目標である、「部分行列表記と単位三角行列を用いた行列式の公式|AB|=|A||B|の導出」で取り扱った「単位三角行列の積の行列式」の$\mathrm{Corollary}.13.2.11$の導出に必要な前提の確認を行う。

行・列の入れ替えと行列式

$n \times n$正方行列$A$の$i$行と$j$行を入れ替えた行列を$B$とおくとき、$|B|=-|A|$が成立することを下記に示す。
$$
\large
\begin{align}
& |B| \\
& = \sum (-1)^{\phi_{n}(\sigma(1),…,\sigma(i)…,\sigma(j)…,\sigma(n))} b_{1,\sigma(1)} b_{2,\sigma(2)}…b_{i,\sigma(i)}…b_{j,\sigma(j)}…b_{n,\sigma(n)} \\
&= \sum (-1)^{\phi_{n}(\sigma(1),…,\sigma(i)…,\sigma(j)…,\sigma(n))} a_{1,\sigma(1)} a_{2,\sigma(2)}…a_{i,\sigma(j)}…a_{j,\sigma(i)}…a_{n,\sigma(n)} \\
&= -\sum (-1)^{\phi_{n}(\sigma(1),…,\sigma(j)…,\sigma(i)…,\sigma(n))} a_{1,\sigma(1)} a_{2,\sigma(2)}…a_{i,\sigma(j)}…a_{j,\sigma(i)}…a_{n,\sigma(n)} \\
&= -|A| \qquad (\mathrm{Theorem}.13.2.6)
\end{align}
$$

ここまでは$i$行と$j$行を入れ替えたと考えたが、$i$列と$j$列を入れ替えたと考えても同様の結果が得られる。

$2$つの行または列が一致する際の行列式

$n \times n$正方行列$A$の$i$行と$j$行が一致する際に、$A$の$i$行と$j$列を入れ替えた行列を$B$とおく。定義より$A=B$である一方で、このとき前項の$\mathrm{Theorem}.13.2.6$を用いると$|B|=-|A|$が成立し、$|A|=-|A|$より下記が成立する。
$$
\large
\begin{align}
|A| &= -|A| \\
2|A| &= 0 \\
|A| &= 0 \qquad (\mathrm{Lemma}.13.2.8)
\end{align}
$$

$i$列と$j$列を入れ替えた場合も同様に考えることができる。

「$i$行が$j$行の定数倍」または「$i$列が$j$列の定数倍」のときの行列式

行列$A$の$i$行と$j$行が一致する場合に、$A$の$j$行だけを$k$倍した行列を$B$とおく。このとき$\mathrm{Lemma}.13.2.2$より$|B|=k|A|$が成立する。ここで$\mathrm{Lemma}.13.2.8$より$|A| = 0$であるので下記が成立する。
$$
\large
\begin{align}
|B| &= k|A| \\
&= k \times 0 \qquad (\mathrm{Lemma}.13.2.8) \\
|B| &= 0 \qquad (\mathrm{Lemma}.13.2.9)
\end{align}
$$

上記は行に関して考えたが、列に関しても同様に考えることで成立することが示せる。

「$i$行の定数倍を$j$行に加えた」または「$i$列の定数倍を$j$列に加えた」際の行列式

行列$A$の$i$行の$k$倍を$j$行に加えた行列を$B$とおくと、$|B|$は下記のように考えることができる。
$$
\large
\begin{align}
|B| &= \sum (-1)^{\phi_{n}(\sigma(1),…,\sigma(j),…,\sigma(n))} b_{1,\sigma(1)}…b_{j,\sigma(j)}…b_{n,\sigma(n)} \\
&= \sum (-1)^{\phi_{n}(\sigma(1),…,\sigma(j),…,\sigma(n))} a_{1,\sigma(1)}…(a_{j,\sigma(j)}+ka_{i,\sigma(i)})…a_{n,\sigma(n)} \\
&= \sum (-1)^{\phi_{n}(\sigma(1),…,\sigma(j),…,\sigma(n))} a_{1,\sigma(1)}…a_{j,\sigma(j)}…a_{n,\sigma(n)} \\
& \quad + k \sum (-1)^{\phi_{n}(\sigma(1),…,\sigma(j),…,\sigma(n))} a_{1,\sigma(1)}…a_{i,\sigma(i)}…a_{i,\sigma(i)}…a_{n,\sigma(n)} \\
&= |A| \qquad (\mathrm{Lemma}.13.2.10)’
\end{align}
$$

上記は行に関して考えたが、列に関しても同様に考えることで成立することが示せる。ここでは$i$行の加算のみを考えたが、$i,j$行以外の他の全ての行を$j$行に加えても結果は同じである。よって$\mathrm{Theorem}.13.2.10$が成立する。

単位三角行列の分解

単位三角行列は対角成分が$1$の三角行列である。三角行列には上側三角行列と下側三角行列があるが、ここでは下記のような$n \times n$単位下側三角行列を考える。
$$
\large
\begin{align}
T = \left(\begin{array}{cccc} 1 & 0 & \cdots & 0 \\ t_{21} & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ t_{n1} & t_{n2} & \cdots & 1 \end{array} \right)
\end{align}
$$

ここで$T$の$i$列以外を単位行列$I$の要素で置き換えた行列を$T_{i}$とおくと、$\displaystyle T = \prod_{i=1}^{n-1} T_{i}$が成立する。以下、$n=3$と$n=4$でそれぞれ成立することを確認する。

・$n=3$
$$
\large
\begin{align}
T_{1} T_{2} &= \left(\begin{array}{ccc} 1 & 0 & 0 \\ t_{21} & 1 & 0 \\ t_{31} & 0 & 1 \end{array} \right) \left(\begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & t_{32} & 1 \end{array} \right) \\
&= \left(\begin{array}{ccc} 1 & 0 & 0 \\ t_{21} & 1 & 0 \\ t_{31} & t_{32} & 1 \end{array} \right) = T
\end{align}
$$

・$n=4$
$$
\large
\begin{align}
T_{1} T_{2} T_{3} &= \left(\begin{array}{cccc} 1 & 0 & 0 & 0 \\ t_{21} & 1 & 0 & 0 \\ t_{31} & 0 & 1 & 0 \\ t_{41} & 0 & 0 & 1 \end{array} \right) \left(\begin{array}{cccc} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & t_{32} & 1 & 0 \\ 0 & t_{42} & 0 & 1 \end{array} \right) T_3 \\
&= \left(\begin{array}{cccc} 1 & 0 & 0 & 0 \\ t_{21} & 1 & 0 & 0 \\ t_{31} & t_{32} & 1 & 0 \\ t_{41} & t_{42} & 0 & 1 \end{array} \right) \left(\begin{array}{cccc} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & t_{43} & 1 \end{array} \right) \\
&= \left(\begin{array}{cccc} 1 & 0 & 0 & 0 \\ t_{21} & 1 & 0 & 0 \\ t_{31} & t_{32} & 1 & 0 \\ t_{41} & t_{42} & t_{43} & 1 \end{array} \right) = T
\end{align}
$$

ここでは具体例のみの確認を行なったが、ここで確認を行なった計算を元に帰納的に考えることで$\displaystyle T = \prod_{i=1}^{n-1} T_{i}$を示すことも可能である。

$|XT| = |TX| = |X|$の導出

任意の$n \times n$正方行列$X$に対して、前節で定義した$T_{i}$を用いて$XT_{i}$を計算することを考える。ここで$XT_{i}$の$i$列以外は$X$と同じで、$i$列は$i+1$から$n$列の定数倍を加えたと考えられる。

よって$\mathrm{Theorem}.13.2.10$より$|XT_{i}|=|X|$が成立する。ここで$\displaystyle T = \prod_{i=1}^{n-1} T_{i}$より$|XT|=|X|$も成立する。

$|T_{i}X|=|X|$に関しても同様に示すことで$|X|=|XT|$も同時に示せる。また、ここでは下側三角行列に関して示したが上側三角行列に関しても同様な議論を行える。以上より、単位三角行列$T$に関して下記が成立する。
$$
\large
\begin{align}
|XT| = |TX| = |X| \qquad (\mathrm{Corollary}.13.2.11)
\end{align}
$$

「統計の森」に広告を掲載しませんか?(広告パートナー募集しています)

「統計の森」では、当Webサイトの運営を継続していくにあたって、広告を掲載するパートナーの募集を開始しました。

当Webサイトは、昨今必須スキルともされることの多い「統計学」に関しての「本質的な理解」ができるように様々なトピックについての記事をまとめています。新参のサイトではありますが、すでに記事数は300を超えており、日々着々とページ数は増加しています。また、それに伴って、ページビュー数(PV数)も日々増加しています。

当Webサイトは、統計学に関する専門サイトであり、そのような知識を学ぶ意欲のあるユーザーが日々訪問してくれています。それらのユーザーの目に触れるような場所に広告を掲載するパートナーを募集しています。

ぜひ検討お願いします。

バナー広告募集概要

詳細は相談していただけたらと思います(まだ固まっていない点もあります)。

掲載場所サイドバーtop、サイドバー下部
ページ下部
その他相談してください
表示対象ページtopページを含む全てのページ
広告枠数サイドバー:2枠(top、下部)
ページ下部:1枠
掲載開始日、期間随時可能
掲載期間は1ヶ月間から相談させてください
料金各枠月単位での固定額(問い合わせください)
掲載可能広告バナー画像(jpeg, png形式)
当方で不適切と判断したものは掲載いたしません

アクセス解析レポートなどの提供は予定していません。広告掲載期間のWebサイト全体の指標(PV数等)は開示しますが、広告のクリック数などのレポートは予定していません。

「統計の森」のPV数等の状況

月間PV数(2022/07現在)55,488 pv
記事数(2022/07現在)329 pages

申し込み、問い合わせ先

TwitterのDMでお問合せを受け付けております。以下のアカウントにDMお願いいたします。

@t4175176860

深層学習 改訂第$2$版 第$10$章「いろいろな学習方法」 $220$p 数式の導出

当記事は「深層学習 改訂第2版 (講談社)」の読解サポートを行います。基本的に購入者向けの解説ですので、購入されていない方は下記より入手をご検討ください。また、解説は筆者の見解であり、公式のものではないことにご注意ください。

執筆: @ShunDeveloper

10.3式の式変形について

式変形の途中式が省略されており、難解であるので、途中式を省略せず記述した。

特に、4行目から5行目の$\displaystyle e^ {- \mathbf{y}^{\mathrm{T}}\mathbf{y}^+} = \frac{1}{e^ {\mathbf{y}^{\mathrm{T}}\mathbf{y}^+}}$に注意されたい。

$$
\large
\begin{eqnarray}
E(\mathbf{w}; &=& \mathbf{x}, \mathbf{x}^+, \{\mathbf{x}_i^-\}_{i=1,\cdots ,K}) \\
&=&
\log \biggl(
1+\sum_{i=1}^K \exp(\mathbf{y}^{\mathrm{T}}\mathbf{y}_i^- – \mathbf{y}^{\mathrm{T}}\mathbf{y}^+)
\biggr)
\\
&=&
– \log \biggl(
1+\sum_{i=1}^K \exp(\mathbf{y}^{\mathrm{T}}\mathbf{y}_i^- – \mathbf{y}^{\mathrm{T}}\mathbf{y}^+)
\biggr)^{-1}
\\
&=&
– \log \frac{1}{
1+\sum_{i=1}^K \exp(\mathbf{y}^{\mathrm{T}}\mathbf{y}_i^- – \mathbf{y}^{\mathrm{T}}\mathbf{y}^+)
}\\
&=&
– \log \frac{1}{
1+\sum_{i=1}^K \exp(\mathbf{y}^{\mathrm{T}}\mathbf{y}_i^-)\exp(- \mathbf{y}^{\mathrm{T}}\mathbf{y}^+)
}\\
&=&
– \log \frac{1}{
1+\sum_{i=1}^K \frac{\exp(\mathbf{y}^{\mathrm{T}}\mathbf{y}_i^-)}{\exp(\mathbf{y}^{\mathrm{T}}\mathbf{y}^+)}
}\\
&=&
– \log \frac{1}{
1+\sum_{i=1}^K \frac{\exp(\mathbf{y}^{\mathrm{T}}\mathbf{y}_i^-)}{\exp(\mathbf{y}^{\mathrm{T}}\mathbf{y}^+)}
}
\frac{\exp(\mathbf{y}^{\mathrm{T}}\mathbf{y}^+)}{\exp(\mathbf{y}^{\mathrm{T}}\mathbf{y}^+)}
\\
&=&
– \log \frac{\exp(\mathbf{y}^{\mathrm{T}}\mathbf{y}^+)}{
\exp(\mathbf{y}^T\mathbf{y}^+)+\sum_{i=1}^K \exp(\mathbf{y}^{\mathrm{T}}\mathbf{y}_i^-)
}\cdots (10.3)
\end{eqnarray}
$$

部分行列表記と単位三角行列を用いた行列式の公式$|AB|=|A||B|$の導出

行列式(determinants)に関する$|AB|=|A||B|$の公式は$|A|$を固有値で表す場合などの導出に用いるなど、様々な導出で必須の公式です。当記事では部分行列表記と単位三角行列を用いた$|AB|=|A||B|$の導出について取り扱いました。

「統計のための行列代数(Matrix Algebra From a Statistician’s Perspective)」のCh.$13$や「パターン認識と機械学習」のAppendix.Cを参考に作成を行いました。

・参考
$n$次正方行列の行列式の定義・公式とその解釈
https://www.hello-statisticians.com/explain-books-cat/matrix_determinants1.html

$\mathrm{Theorem}$や$\mathrm{Corollary}$の番号は「統計のための行列代数」に対応します。

前提の確認

行列式の定義

$$
\large
\begin{align}
\det{A} = |A| = \sum_{\sigma \in \mathrm{Aut}(n)} \left[ \mathrm{sgn} (\sigma) \prod_{i=1}^{n} a_{i,\sigma(i)} \right]
\end{align}
$$

$n$次正方行列の行列式の定義・公式とその解釈」では行列式を上記のように定義した。上記では$\displaystyle \prod_{i=1}^{n} a_{i,\sigma(i)}$が行と列から一つずつ要素を選んだ際の積に対応し、$\mathrm{sgn} (\sigma)$が積の符号に対応する。ここで$\sigma(i)$は$1$から$n$を並べ替えたのちの$i$番目のインデックスと考えることができるが、たとえば$1,2,3$を$2,1,3$のように並べ替えた際に$\sigma(1)=2,\sigma(2)=1,\sigma(3)=3$がそれぞれ対応する。

このとき下記$\mathrm{sgn} (\sigma)$をのように表すことを考える。
$$
\large
\begin{align}
\mathrm{sgn} (\sigma) &= (-1)^{\phi_{n}(\sigma(1),\sigma(2),…,\sigma(n))} \\
\phi_{n}(\sigma(1),\sigma(2),…,\sigma(n)) &= \sum_{i=1}^{n-1} p_i
\end{align}
$$

上記の$p_i$は$\sigma(i) > \sigma(i+k),k=1,2,…$となる$\sigma(i+k)$がいくつあるかを表すと定義する。定義だけでは抽象的でわかりにくいので、以下具体的な例に基づいて確認を行う。

・$\phi_{3}(\sigma(1),\sigma(2),\sigma(3))=\phi_{3}(1,3,2)$
$$
\large
\begin{align}
\phi_{3}(1,3,2) &= 0 + 1 = 1 \\
\mathrm{sgn} (\sigma) &= (-1)^{\phi_{3}(1,3,2)} \\
&= (-1)^{1} = -1
\end{align}
$$

上記は$a_{11}a_{23}a_{32}$の符号が$-1$であることに対応する。

・$\phi_{5}(\sigma(1),\sigma(2),\sigma(3),\sigma(4),\sigma(5))=\phi_{5}(3,4,1,5,2)$
$$
\large
\begin{align}
\phi_{5}(3,4,1,5,2) &= 2 + 2 + 0 + 1 = 5 \\
\mathrm{sgn} (\sigma) &= (-1)^{\phi_{5}(3,4,1,5,2)} \\
&= (-1)^{5} = -1
\end{align}
$$

上記は$a_{13}a_{24}a_{31}a_{45}a_{52}$の符号が$-1$であることに対応する。

このように$\phi_{n}(\sigma(1),\sigma(2),…,\sigma(n))$を定義することで具体的な計算が行いやすくなるので、以下ではこのような$\phi$の表記を用いる。また、「統計のための行列代数」ではよく出てくる表記なので、参照する際は先に抑えておくと良い。

三角行列の行列式

三角行列は対角成分より「右上の成分が全て$0$」か「左下の成分が全て$0$」の行列である。一旦対角成分より左下の成分が全て$0$の三角行列を元に考える。具体的には下記のような$n \times n$正方行列$A$を考える。
$$
\large
\begin{align}
A = \left(\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1n} \\ 0 & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & a_{nn} \end{array} \right)
\end{align}
$$

上記の行列$A$に関する行列式を考えると、$0$が出てこない要素の選び方が対角成分しかないので$\displaystyle \det{A}=|A|=\prod_{i=1}^{n}a_{ii}$が成立する。行列式は「行と列から$1$つずつ成分を選ぶことから三角行列は対角成分の積のみが残る」と考えると直感的に解釈を行える。

行列式の積と部分行列の行列式の対応

前項の三角行列の行列式の結果を元に考えることで、$m \times m$正方行列$V$と$n \times n$正方行列$W$の行列式の積の$|V||W|$は下記のような部分行列の行列の行列式で表すことができる。
$$
\large
\begin{align}
|V||W| = \left|\begin{array}{cc} V & O \\ X & W \end{array} \right| = \left|\begin{array}{cc} V & X \\ O & W \end{array} \right| \qquad (\mathrm{Theorem}.13.3.1)
\end{align}
$$

上記の理解にあたっては、$\sigma(1),…,\sigma(m),\sigma(m+1),…,\sigma(m+n)$を考えるにあたって、$O$があることにより$\sigma(1),…,\sigma(m) < \sigma(m+1),…,\sigma(m+n)$が成立することから考えると良い。

また、$\sigma(1),…,\sigma(m) < \sigma(m+1),…,\sigma(m+n)$が成立することより、下記も成り立つ。
$$
\large
\begin{align}
\phi(\sigma(1) &,…,\sigma(m),…,\sigma(m+n)) \\
&= \phi(\sigma(1),…,\sigma(m)) + \phi(\sigma(m+1),…,\sigma(m+n)) \\
&= \phi(\sigma(1),…,\sigma(m)) + \phi(\sigma(1),…,\sigma(n))
\end{align}
$$

これにより$|V||W|$の符号に補正をかける必要がないことが確認できる。同様に$m \times m$正方行列$V$と$n \times n$正方行列$W$に関して下記のような部分行列の行列式を考える。
$$
\large
\begin{align}
\left|\begin{array}{cc} O & V \\ W & X \end{array} \right| = \left|\begin{array}{cc} X & W \\ V & O \end{array} \right|
\end{align}
$$

このとき下記が成立する。
$$
\large
\begin{align}
\left|\begin{array}{cc} O & V \\ W & X \end{array} \right| = \left|\begin{array}{cc} X & W \\ V & O \end{array} \right| = (-1)^{mn}|V||W| \qquad (\mathrm{Corollary}.13.3.2)
\end{align}
$$

上記も$O$があることより$X$の要素が行列式の要素に出てこないことから$\mathrm{Theorem}.13.3.1$と同様に$|V||W|$で式が表されるが、$(-1)^{m+n}$で補正が行われる点は異なる。このことは$\mathrm{Theorem}.13.3.1$では$\sigma(1),…,\sigma(m) < \sigma(m+1),…,\sigma(m+n)$が成立していたのに対して、$\mathrm{Corollary}.13.3.2$は$\sigma(1),…,\sigma(m) > \sigma(m+1),…,\sigma(m+n)$が成立することに起因する。$V$の$1$行あたりに$W$の行数である$n$個分の入れ替わりがあるので、その$m$回分の$mn$回の入れ替わりが部分行列の単位で発生すると考えられる。

また、ここで$m=n$が成立し、$V=-I_{n}$のように$T$が単位行列に$-1$をかけた行列であると仮定する。このとき$\mathrm{Corollary}.13.3.2$より下記が成立する。
$$
\large
\begin{align}
\left|\begin{array}{cc} O & -I_{n} \\ W & X \end{array} \right| &= \left|\begin{array}{cc} X & W \\ -I_{n} & O \end{array} \right| \\
&= (-1)^{n^2}|-I_{n}||W| = (-1)^{n^2}(-1)^{n}|I_{n}||W| \\
&= (-1)^{n(n+1)}|W| = |W| \qquad (\mathrm{Corollary}.13.3.3)
\end{align}
$$

|AB|=|A||B|の導出

単位三角行列の積の行列式

単位三角行列は対角成分が$1$の三角行列である。単位三角行列$T$は下記のように表すことができる。
$$
\large
\begin{align}
T = \left(\begin{array}{cccc} 1 & t_{12} & \cdots & t_{1n} \\ 0 & 1 & \cdots & t_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1 \end{array} \right)
\end{align}
$$

上記のように定義した単位三角行列$T$に対して下記が成立する。
$$
\large
\begin{align}
|XT| = |TX| = |X| \qquad (\mathrm{Corollary}.13.2.11)
\end{align}
$$

$\mathrm{Corollary}.13.2.11$の詳しい導出は下記で取り扱った。
https://www.hello-statisticians.com/explain-terms-cat/matrix_determinants3.html

$|AB|=|A||B|$の導出

ここまでに確認した式より、下記のように$|AB|=|A||B|$を示せる。

$$
\large
\begin{align}
|A|B| &= \left|\begin{array}{cc} A & 0 \\ -I & B \end{array} \right| \qquad (\mathrm{Theorem}.13.3.1) \\
&= \left| \left( \begin{array}{cc} A & O \\ -I & B \end{array} \right) \left( \begin{array}{cc} I & B \\ O & I \end{array} \right) \right| \qquad (\mathrm{Theorem}.13.2.11) \\
&= \left|\begin{array}{cc} A & AB \\ -I & O \end{array} \right| = |AB| \qquad (\mathrm{Corollary}.13.3.3)
\end{align}
$$

統計学を学ぶにあたって最低限抑えておきたい数学 〜指数関数・対数関数とその応用〜

当記事では「統計学を学ぶにあたって最低限抑えておきたい数学」の中から「指数関数・対数関数とその応用」に関して取り扱います。指数関数は正規分布や指数分布などの確率分布で用いられることが多く、対数関数は最尤法で対数尤度を考える際によく用いられます。
取りまとめにあたっては数学の解説に関してはなるべくシンプルに取り扱いますが、統計学への応用に関連した複雑な内容に関しては目次に「*」をつけました。「*」がついているものはやや難しいので、読み飛ばしても問題ありません。

・基本数学まとめ
https://www.hello-statisticians.com/math_basic

指数関数

指数関数の概要

$f(x) = a^{x},a>0$で表される関数を指数関数といいます。指数関数を理解するにあたっては$1$次関数や$2$次関数と同様にグラフの描画を行うとわかりやすいです。以下、Pythonを用いてグラフの描画を行います。

import numpy as np
import matplotlib.pyplot as plt

x = np.arange(-2,2.01,0.01)
x_ = np.arange(-2,3,1)
a = np.array([2,0.5,1.5,1.])

for i in range(a.shape[0]):
    y, y_ = a[i]**x, a[i]**x_
    plt.subplot(2,2,i+1)
    plt.ylim([-1,5])
    plt.title("f(x) = {}^x".format(a[i]))
    plt.plot(x,y)
    plt.scatter(x_,y_)

plt.show()

・実行結果

上図より、$a>1$のとき単調増加、$0<a<1$のとき単調減少、$a=1$のとき$f(x)=1$の定数関数であることがそれぞれ確認できます。

指数関数に関する基本公式

$a>0$の指数関数$a^x, a^y$に関して下記が成立する。
$$
\large
\begin{align}
a^{x} \times a^{y} &= a^{x+y} \\
(a^{x})^{n} &= a^{nx}
\end{align}
$$

底の変換公式

$$
\large
\begin{align}
\log_{a}{b} &= \frac{\log_{c}{b}}{\log_{c}{a}} \\
\log_{a}{x} &= \frac{1}{\log_{x}{a}}
\end{align}
$$

指数関数とネイピア数$e$*

$$
\large
\begin{align}
\lim_{n \to \infty} \left( 1 + \frac{1}{n} \right)^{n} = e = 2.71…
\end{align}
$$

上記のように定義されるネイピア数$e$を用いることで指数関数や対数関数の微分などを行う際に有用です。極限や指数関数や対数関数の微分は数Ⅲのトピックでありやや難しいのでここでは省略しますが、下記で詳しくまとめましたので余裕のある際に確認してみると良いかもしれません。

・参考
ネイピア数$e$の定義と指数関数・対数関数の微分の導出
https://www.hello-statisticians.com/explain-terms-cat/def_napier1.html

対数関数

対数関数の概要

対数関数は$0<a<1$or$1<a$のとき$f(x)=\log_{a}(x),x>0$のように表します。対数関数は指数関数の逆関数であり、$y=\log_{a}(x)$は$a^{y}=x$が対応します。要するに「$a$を$\log_{a}(x)$乗すれば$x$になる」と考えれば良いです。

これまで取り扱った関数と同様にグラフで確認するとわかりやすいので、以下、Pythonを用いてグラフの描画を行います。

import numpy as np
import matplotlib.pyplot as plt

x = np.arange(0.5,10.1,0.1)
x_ = np.arange(1,11,1)
a = [2,"e",10]

y = [np.log2(x), np.log(x), np.log10(x)]
y_ = [np.log2(x_), np.log(x_), np.log10(x_)]

for i in range(3):
    plt.subplot(2,2,i+1)
    plt.title("log_{}(x)".format(a[i]))
    plt.plot(x,y[i])
    plt.scatter(x_,y_[i])

plt.show()

・実行結果

上記より$\log_{2}(2)=1, \log_{2}(4)=2, \log_{2}(8)=3, \log_{10}(1)=0, \log_{10}(10)=1$がそれぞれ確認できます。

対数に関する公式

対数$\log_{a}(x)$に関して、下記の公式が成立することは抑えておくと良いです。
$$
\large
\begin{align}
\log_{a}(AB) &= \log_{a}{A} + \log_{a}{B} \\
\log_{a}(A^{n}) &= n \log_{a}{A}
\end{align}
$$

指数関数と対数関数の応用

指数関数と確率分布

「確率分布」を大まかに理解するにあたっては「ヒストグラムの確率化を行なったもの」と考えると良いです。この確率分布を考える上で指数関数はよく用いられます。以下、代表例の指数分布と正規分布をご紹介します。

指数分布

正規分布*

最尤法と対数尤度

Ch.$3$ 「線形回帰モデル」の章末問題の解答例 パターン認識と機械学習 3.16〜3.24

当記事は「パターン認識と機械学習」の読解サポートにあたってChapter.$3$の「線形回帰モデル」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・参考
パターン認識と機械学習 解答まとめ
https://www.hello-statisticians.com/answer_textbook_prml

解答まとめ

問題$3.17$

$$
\large
\begin{align}
p(\mathbf{t}|\alpha,\beta) = \int p(\mathbf{t}|\mathbf{w},\beta) p(\mathbf{w}|\alpha) d \mathbf{w} \quad (3.77)
\end{align}
$$

上記で表した$(3.77)$式の$p(\mathbf{t}|\mathbf{w},\beta)$と$p(\mathbf{w},\alpha)$式はそれぞれ下記のように表せる。

・$p(\mathbf{t}|\mathbf{w},\beta)$
$$
\large
\begin{align}
p(\mathbf{t}|\mathbf{w},\beta) &= \prod_{n=1}^{N} \mathcal{N}(t_{n}|\mathbf{w}^{\mathrm{T}}\phi(\mathbf{x}_{n}),\beta^{-1}) \quad (3.10) \\
&= \prod_{n=1}^{N} \left( \frac{\beta^{1/2}}{(2 \pi)^{1/2}} \exp \left[ -\frac{\beta}{2}(t_{n}-\mathbf{w}^{\mathrm{T}}\phi(\mathbf{x}_{n}))^2 \right] \right) \\
&= \frac{\beta^{N/2}}{(2 \pi)^{N/2}} \exp \left[ -\frac{\beta}{2} \sum_{n=1}^{N} (t_{n}-\mathbf{w}^{\mathrm{T}}\phi(\mathbf{x}_{n}))^2 \right] \quad (1)
\end{align}
$$

・$p(\mathbf{w}|\alpha)$
$$
\large
\begin{align}
p(\mathbf{w}|\alpha) &= \mathcal{N}(\mathbf{w}|\mathbf{0},\alpha^{-1}\mathbf{I}) \quad (3.52) \\
&= \frac{1}{(2 \pi)^{M/2}} \frac{1}{|\alpha^{-1}\mathbf{I}|^{1/2}} \exp \left[ -\frac{1}{2}\mathbf{w}^{\mathrm{T}}(\alpha^{-1} \mathbf{I})^{-1}\mathbf{w} \right] \\
&= \frac{\alpha^{M/2}}{(2 \pi)^{M/2}} \exp \left[ -\frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w} \right] \quad (2)
\end{align}
$$

$(1)$式、$(2)$式より$(3.77)$式は下記のように変形できる。
$$
\large
\begin{align}
& p(\mathbf{t}|\alpha,\beta) = \int p(\mathbf{t}|\mathbf{w},\beta) p(\mathbf{w}|\alpha) d \mathbf{w} \quad (3.77) \\
&= \int \frac{\beta^{N/2}}{(2 \pi)^{N/2}} \exp \left[ -\frac{\beta}{2} \sum_{n=1}^{N} (t_{n}-\mathbf{w}^{\mathrm{T}}\phi(\mathbf{x}_{n}))^2 \right] \times \frac{\alpha^{M/2}}{(2 \pi)^{M/2}} \exp \left[ -\frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w} \right] d \mathbf{w} \\
&= \left( \frac{\beta}{2 \pi} \right)^{\frac{N}{2}} \left( \frac{\alpha}{2 \pi} \right)^{\frac{M}{2}} \int \exp \left[ – \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w} – \frac{\beta}{2} \sum_{n=1}^{N} (t_{n}-\mathbf{w}^{\mathrm{T}}\phi(\mathbf{x}_{n}))^2 \right] d \mathbf{w} \\
&= \left( \frac{\beta}{2 \pi} \right)^{\frac{N}{2}} \left( \frac{\alpha}{2 \pi} \right)^{\frac{M}{2}} \int \exp \left[ – \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w} – \frac{\beta}{2} (\mathbf{t}-\Phi\mathbf{w})^{\mathrm{T}}(\mathbf{t}-\Phi\mathbf{w}) \right] d \mathbf{w} \\
&= \left( \frac{\beta}{2 \pi} \right)^{\frac{N}{2}} \left( \frac{\alpha}{2 \pi} \right)^{\frac{M}{2}} \int \exp \left[ – E(\mathbf{w}) \right] d \mathbf{w} \quad (3.78) \\
\end{align}
$$

$$
\large
\begin{align}
E(\mathbf{w}) &= \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w} + \frac{\beta}{2}(\mathbf{t}-\Phi\mathbf{w})^{\mathrm{T}}(\mathbf{t}-\Phi\mathbf{w}) \\
&= \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w} + \frac{\beta}{2}||\mathbf{t}-\Phi\mathbf{w}||^2 \quad (3.79)
\end{align}
$$

上記より、$(3.77)$式に対して$(3.79)$式を適用することで$(3.78)$式が導出できることが確認できる。よって、$E(\mathbf{w})$が$(3.79)$式のように表せることが示される。

問題$3.18$

$(3.79)$式は下記のように変形を行える。
$$
\large
\begin{align}
E(\mathbf{w}) &= \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w} + \frac{\beta}{2}||\mathbf{t}-\Phi\mathbf{w}||^2 \quad (3.79) \\
&= \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w} + \frac{\beta}{2}(\mathbf{t}-\Phi\mathbf{w})^{\mathrm{T}}(\mathbf{t}-\Phi\mathbf{w}) \\
&= \frac{\alpha}{2}\mathbf{w}^{\mathrm{T}}\mathbf{w} + \frac{\beta}{2}(\mathbf{w}^{\mathrm{T}}\Phi^{\mathrm{T}}\Phi\mathbf{w} – 2\mathbf{w}^{\mathrm{T}}\Phi^{\mathrm{T}}\mathbf{t} + \mathbf{t}^{\mathrm{T}}\mathbf{t}) \\
&= \frac{1}{2} \left[ \mathbf{w}^{\mathrm{T}}(\alpha\mathbf{I}+\beta\Phi^{\mathrm{T}}\Phi)\mathbf{w} – 2 \beta \mathbf{w}^{\mathrm{T}}\Phi^{\mathrm{T}}\mathbf{t} + \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} \right] \\
&= \frac{1}{2} \left[ \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w} – 2 \beta \mathbf{w}^{\mathrm{T}} \Phi^{\mathrm{T}}\mathbf{t} + \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} \right] \quad (1) \\
\mathbf{A} &= \alpha\mathbf{I} + \beta\Phi^{\mathrm{T}}\Phi \quad (3.81)
\end{align}
$$

ここで$(1)$式は下記のように平方完成できる。
$$
\large
\begin{align}
E(\mathbf{w}) &= \frac{1}{2} \left[ \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w} – 2 \beta \mathbf{w}^{\mathrm{T}}\Phi^{\mathrm{T}}\mathbf{t} + \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} \right] \quad (1) \\
&= \frac{1}{2} \left[ \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w} – 2 \mathbf{w}^{\mathrm{T}}\mathbf{A}(\beta \mathbf{A}^{-1}\Phi^{\mathrm{T}}\mathbf{t}) + \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} \right] \\
&= \frac{1}{2} \left[ \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{w} – 2 \mathbf{w}^{\mathrm{T}}\mathbf{A}\mathbf{m}_{N} + \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} \right] \\
&= \frac{1}{2} \left[ (\mathbf{w}^{\mathrm{T}}-\mathbf{m}_{N})^{\mathrm{T}}\mathbf{A}(\mathbf{w}^{\mathrm{T}}-\mathbf{m}_{N}) – \mathbf{m}_{N}^{\mathrm{T}}\mathbf{A}\mathbf{m}_{N} + \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} \right] \\
&= \frac{1}{2} \left[ (\mathbf{w}^{\mathrm{T}}-\mathbf{m}_{N})^{\mathrm{T}}\mathbf{A}(\mathbf{w}^{\mathrm{T}}-\mathbf{m}_{N}) + \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} – \mathbf{m}_{N}^{\mathrm{T}}\mathbf{A}\mathbf{m}_{N} \right] \quad (2) \\
\mathbf{m}_{N} &= \beta \mathbf{A}^{-1} \Phi^{\mathrm{T}} \mathbf{t}
\end{align}
$$

ここで$(2)$式の$\displaystyle \frac{1}{2} \left( \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} – \mathbf{m}_{N}^{\mathrm{T}}\mathbf{A}\mathbf{m}_{N} \right)$は下記のように変形できる。
$$
\large
\begin{align}
\frac{1}{2} & \left( \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} – \mathbf{m}_{N}^{\mathrm{T}} \mathbf{A}\mathbf{m}_{N} \right) = \frac{1}{2} \left( \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} – 2 \mathbf{m}_{N}^{\mathrm{T}}\mathbf{A}\mathbf{m}_{N} + \mathbf{m}_{N}^{\mathrm{T}}\mathbf{A}\mathbf{m}_{N} \right) \\
&= \frac{1}{2} \left[ \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} – 2 \mathbf{m}_{N}^{\mathrm{T}}\mathbf{A}\beta \mathbf{A}^{-1} \Phi^{\mathrm{T}} \mathbf{t} + \mathbf{m}_{N}^{\mathrm{T}}(\alpha\mathbf{I} + \beta\Phi^{\mathrm{T}}\Phi)\mathbf{m}_{N} \right] \\
&= \frac{1}{2} \left[ \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} – 2 \beta\mathbf{m}_{N}^{\mathrm{T}}\Phi^{\mathrm{T}} \mathbf{t} + \alpha\mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} + \beta\mathbf{m}_{N}^{\mathrm{T}}\Phi^{\mathrm{T}}\Phi\mathbf{m}_{N} \right] \\
&= \frac{1}{2} \left[ \beta\mathbf{t}^{\mathrm{T}}\mathbf{t} – 2 \beta\mathbf{t}^{\mathrm{T}}\Phi\mathbf{m}_{N} + \beta\mathbf{m}_{N}^{\mathrm{T}}\Phi^{\mathrm{T}}\Phi\mathbf{m}_{N} \right] + \frac{\alpha}{2}\mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} \\
&= \frac{\beta}{2} \left[ \mathbf{t}^{\mathrm{T}}\mathbf{t} – 2 \mathbf{t}^{\mathrm{T}}\Phi\mathbf{m}_{N} + \mathbf{m}_{N}^{\mathrm{T}}\Phi^{\mathrm{T}}\Phi\mathbf{m}_{N} \right] + \frac{\alpha}{2}\mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} \\
&= \frac{\beta}{2} (\mathbf{t}-\Phi\mathbf{m}_{N})^{\mathrm{T}}(\mathbf{t}-\Phi\mathbf{m}_{N}) + \frac{\alpha}{2}\mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} \\
&= \frac{\beta}{2} ||\mathbf{t}-\Phi\mathbf{m}_{N}||^{2} + \frac{\alpha}{2}\mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} \quad (3)
\end{align}
$$

$(3)$式が$(3.82)$式に対応するので、$(2)$式が$(3.80)$式に対応する。このように$(3.79)$式から$(3.80)$を導出することができる。

・考察
$(3)$の導出が複雑だが、目標の式から逆算することで考えやすくなると思われる。

問題$3.19$

$$
\large
\begin{align}
p(\mathbf{t}|\alpha,\beta) = \left( \frac{\beta}{2 \pi} \right)^{\frac{N}{2}} & \left( \frac{\alpha}{2 \pi} \right)^{\frac{M}{2}} \int \exp \left[ – E(\mathbf{w}) \right] d \mathbf{w} \quad (3.78) \\
\int \exp \left[ – E(\mathbf{w}) \right] d \mathbf{w} &= \exp \left[ – E(\mathbf{w}_{N}) \right] (2 \pi)^{\frac{M}{2}} |\mathbf{A}|^{-\frac{1}{2}} \quad (3.85)
\end{align}
$$

$(3.78)$式に$(3.85)$式を代入すると下記が得られる。
$$
\large
\begin{align}
p(\mathbf{t}|\alpha,\beta) &= \left( \frac{\beta}{2 \pi} \right)^{\frac{N}{2}} \left( \frac{\alpha}{2 \pi} \right)^{\frac{M}{2}} \int \exp \left[ – E(\mathbf{w}) \right] d \mathbf{w} \quad (3.78) \\
&= \left( \frac{\beta}{2 \pi} \right)^{\frac{N}{2}} \left( \frac{\alpha}{2 \pi} \right)^{\frac{M}{2}} \exp \left[ – E(\mathbf{w}_{N}) \right] (2 \pi)^{\frac{M}{2}} |\mathbf{A}|^{-\frac{1}{2}} \\
&= \left( \frac{\beta}{2 \pi} \right)^{\frac{N}{2}} \alpha^{\frac{M}{2}} \exp \left[ – E(\mathbf{w}_{N}) \right] |\mathbf{A}|^{-\frac{1}{2}}
\end{align}
$$

上記の対数を取ることで$\ln{p(\mathbf{t}|\alpha,\beta)}$は下記のように計算できる。
$$
\large
\begin{align}
\ln{p(\mathbf{t}|\alpha,\beta)} &= \ln{ \left[ \left( \frac{\beta}{2 \pi} \right)^{\frac{N}{2}} \alpha^{\frac{M}{2}} \exp \left[ – E(\mathbf{w}_{N}) \right] |\mathbf{A}|^{-\frac{1}{2}} \right] } \\
&= \frac{M}{2}\ln{\alpha} + \frac{N}{2}\ln{\beta} – E(\mathbf{w}_{N}) – \frac{1}{2}\ln{|\mathbf{A}|} – \frac{1}{2}\ln{(2 \pi)} \quad (3.86)
\end{align}
$$

よって$(3.86)$式が成立する。

問題$3.20$

$$
\large
\begin{align}
\mathbf{A} &= \alpha\mathbf{I} + \beta\Phi^{\mathrm{T}}\Phi \quad (3.81) \\
(\beta \Phi^{\mathrm{T}} \Phi) \mathbf{u}_{i} &= \lambda_{i} \mathbf{u}_{i} \quad (3.87)
\end{align}
$$

$(3.87)$式のように行列$\beta \Phi^{\mathrm{T}} \Phi$の固有値を$\lambda_{i}$と定めると、$(3.81)$式より$\mathbf{A}$の固有値は$\alpha+\lambda_{i}$であると考えることができる。

ここで$(C.47)$式より$\displaystyle |\mathbf{A}| = \prod_{i} (\alpha+\lambda_{i})$で表すことができるので、$\displaystyle \frac{\partial}{\partial \alpha}\ln{|\mathbf{A}|}$は下記のように計算できる。
$$
\large
\begin{align}
\frac{\partial}{\partial \alpha}\ln{|\mathbf{A}|} &= \frac{\partial}{\partial \alpha}\ln{\prod_{i} (\alpha+\lambda_{i})} \\
&= \frac{\partial}{\partial \alpha} \sum_{i} \ln{ (\alpha+\lambda_{i}) } \\
&= \sum_{i} \frac{1}{\alpha+\lambda_{i}} \quad (3.88)
\end{align}
$$

$$
\large
\begin{align}
\ln{p(\mathbf{t}|\alpha,\beta)} = \frac{M}{2}\ln{\alpha} + \frac{N}{2}\ln{\beta} – E(\mathbf{w}_{N}) – \frac{1}{2}\ln{|\mathbf{A}|} – \frac{1}{2}\ln{(2 \pi)} \quad (3.86)
\end{align}
$$

ここで$(3.88)$式を元に上記の$(3.86)$式に対し、$\displaystyle \frac{\partial}{\partial \alpha}\ln{p(\mathbf{t}|\alpha,\beta)} = 0$を考えると下記が成立する。
$$
\large
\begin{align}
\frac{\partial}{\partial \alpha}\ln{p(\mathbf{t}|\alpha,\beta)} &= 0 \\
\frac{\partial}{\partial \alpha} \left[ \frac{M}{2}\ln{\alpha} – \frac{\alpha}{2}\mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} – \frac{1}{2}\ln{|\mathbf{A}|} + \mathrm{Const.} \right] &= 0 \quad (3.82)’ \\
\frac{M}{2 \alpha} – \frac{1}{2}\mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} – \frac{1}{2}\sum_{i} \frac{1}{\alpha+\lambda_{i}} &= 0 \quad (3.89)
\end{align}
$$

$(3.89)$の両辺に$2 \alpha$をかけ、下記のように変形を行う。
$$
\large
\begin{align}
M – \alpha \mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} – \sum_{i} \frac{\alpha}{\alpha+\lambda_{i}} &= 0 \quad (3.89)’ \\
\alpha \mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} &= M – \sum_{i} \frac{\alpha}{\alpha+\lambda_{i}} \\
&= \sum_{i} \left( 1 – \frac{\alpha}{\alpha+\lambda_{i}} \right) \\
&= \sum_{i} \left( \frac{(\alpha+\lambda_{i})-\alpha}{\alpha+\lambda_{i}} \right) \\
&= \sum_{i} \left( \frac{\lambda_{i}}{\alpha+\lambda_{i}} \right) = \gamma \quad (3.90), (3.91)
\end{align}
$$

上記より$\alpha \mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} = \gamma$のように考えられるので、下記のように$\alpha$に関して解ける。
$$
\large
\begin{align}
\alpha \mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N} &= \gamma \\
\alpha &= \frac{\gamma}{\mathbf{m}_{N}^{\mathrm{T}}\mathbf{m}_{N}} \quad (3.92)
\end{align}
$$

問題$3.22$

$$
\large
\begin{align}
\mathbf{A} &= \alpha\mathbf{I} + \beta\Phi^{\mathrm{T}}\Phi \quad (3.81) \\
(\beta \Phi^{\mathrm{T}} \Phi) \mathbf{u}_{i} &= \lambda_{i} \mathbf{u}_{i} \quad (3.87)
\end{align}
$$

上記のように固有値$\lambda_{i}$を定義したことにより、$\lambda_{i} \propto \beta$が成立する。よって、下記が成立する。
$$
\large
\begin{align}
\frac{\partial \lambda_{i}}{\partial \beta} = \frac{\lambda_{i}}{\beta}
\end{align}
$$

このとき、合成関数の微分の考え方を用いて下記のように$\displaystyle \frac{\partial}{\partial \beta}\ln{|\mathbf{A}|}$を計算できる。
$$
\large
\begin{align}
\frac{\partial}{\partial \beta}\ln{|\mathbf{A}|} &= \frac{\partial}{\partial \beta} \sum_{i} \ln{ (\alpha+\lambda_{i}) } \\
&= \frac{\partial}{\partial \lambda_{i}} \sum_{i} \ln{(\alpha+\lambda_{i})} \times \frac{\partial \lambda_{i}}{\partial \beta} \\
&= \frac{\lambda_{i}}{\beta} \sum_{i} \frac{1}{\alpha+\lambda_{i}} \\
&= \frac{1}{\beta} \sum_{i} \frac{\lambda_{i}}{\alpha+\lambda_{i}} \\
&= \frac{\gamma}{\beta} \quad (3.93)
\end{align}
$$

以下、問題$3.20$と同様に$(3.86)$式の偏微分を考える。ここでは$\beta$に関する偏微分に対し$\displaystyle \frac{\partial}{\partial \beta}\ln{p(\mathbf{t}|\alpha,\beta)} = 0$が成立する際の$\beta$を導出する。
$$
\large
\begin{align}
\frac{\partial}{\partial \beta}\ln{p(\mathbf{t}|\alpha,\beta)} &= 0 \\
\frac{\partial}{\partial \beta} \left[ \frac{N}{2}\ln{\beta} – \frac{\beta}{2} ||\mathbf{t}-\Phi\mathbf{m}_{N}||^{2} – \frac{1}{2}\ln{|\mathbf{A}|} + \mathrm{Const.} \right] &= 0 \quad (3.82)’ \\
\frac{N}{2 \beta} – \frac{1}{2} ||\mathbf{t}-\Phi\mathbf{m}_{N}||^{2} – \frac{\gamma}{2 \beta} &= 0 \quad (3.94)
\end{align}
$$

偏微分$\displaystyle \frac{\partial}{\partial \beta}\ln{|\mathbf{A}|}$に関しては$(3.93)$式を用いた。ここで$(3.94)$の両辺に$2$をかけ、$\displaystyle \frac{1}{\beta}$に関して解くと下記のように$(3.95)$式が得られる。
$$
\large
\begin{align}
\frac{N}{\beta} – ||\mathbf{t}-\Phi\mathbf{m}_{N}||^{2} – \frac{\gamma}{\beta} &= 0 \quad (3.94)’ \\
\frac{N-\gamma}{\beta} &= ||\mathbf{t}-\Phi\mathbf{m}_{N}||^{2} \\
\frac{1}{\beta} &= \frac{1}{N-\gamma} \sum_{n=1}^{N} \left[ t_{n} – \mathbf{m}_{N}^{\mathrm{T}}\phi(\mathbf{x}_{n}) \right]^{2} \quad (3.95)
\end{align}
$$

ベイズ線形回帰(Bayes linear regression)における事後確率と予測分布の導出

ベイズ線形回帰(Bayesian Linear Regression)におけるパラメータの事後確率と予測分布(Predictive distribution)の導出は正規分布の条件付き分布や周辺分布の計算を用いることで導出することができます。当記事では事後確率と予測分布の導出に関して取り扱いました。

「パターン認識と機械学習」の上巻の$3.3$節の「Bayesian Linear Regression」を参考に作成を行いました。

また、$(\mathrm{o.xx})$の形式の式番号は「パターン認識と機械学習」の式番号に対応させました。

・参考
多次元正規分布における周辺分布の導出
多次元正規分布におけるベイズの定理

前提の確認

問題設定

下記のようにパラメータの事後分布$p(\mathbf{\mathbf{w}})$とパラメータに基づく目的変数$t$の条件付き確率分布$p(y|\mathbf{w})$を考える。
$$
\large
\begin{align}
p(\mathbf{\mathbf{w}}) &= \mathcal{N}(\mathbf{m}_{N},\mathbf{S}_{N}) \quad (3.49) \\
p(t|\mathbf{w}) &= \mathcal{N}(\phi^{\mathrm{T}}\mathbf{w},\beta^{-1}) \quad (3.8)
\end{align}
$$

ここで上記に対し、周辺分布$p(t)$を求めることを考える。この周辺分布$p(t)$は$t$に関する予測分布に対応する。

多次元正規分布におけるベイズの定理を用いた導出

$$
\large
\begin{align}
p(\mathbf{x}) &= \mathcal{N}(\mathbf{x}|\mathbf{\mu},\mathbf{\Lambda}^{-1}) \quad (2.99) \\
p(\mathbf{y}|\mathbf{x}) &= \mathcal{N}(\mathbf{y}|\mathbf{A}\mathbf{x}+\mathbf{b},\mathbf{L}^{-1}) \quad (2.100)
\end{align}
$$

上記が定められるとき、周辺分布$p(\mathbf{y})$には下記が成立する。
$$
\large
\begin{align}
p(\mathbf{y}) = \mathcal{N}(\mathbf{x}|\mathbf{A}\mathbf{\mu} + \mathbf{b},\mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{\mathrm{T}}) \quad (2.115)
\end{align}
$$

$(2.115)$式の導出は「多次元正規分布におけるベイズの定理を用いた条件付き確率・周辺確率の導出」で取り扱った。$(3.8)、(3.49)$式に$(2.115)$式を活用することで周辺分布$p(t)$は下記のように得られる。
$$
\large
\begin{align}
p(t) &= \int \mathcal{N}(t|y(\phi(\mathbf{x}),\mathbf{w}),\beta^{-1}) \mathcal{N}(\mathbf{w}|\mathbf{m}_{N},\mathbf{S}_{N}) d \mathbf{w} \\
&= \mathcal{N}(t|y(\phi(\mathbf{x}),\mathbf{m}_{N}),\beta^{-1}+\phi(\mathbf{x})^{\mathrm{T}}\mathbf{S}_{N}\phi(\mathbf{x})) \quad (3.57),(3.58),(3.59)
\end{align}
$$

上記の導出の詳細は「パターン認識と機械学習 演習$3.10$」で取り扱った。ここまでの導出が演繹的な導出であり具体的に考えるにあたってはわかりにくいので、次節の「ベイズ線形回帰の導出」では$(2.115)$式を用いないで導出を行うことを考える。

パラメータの事後確率

$(3.49)$のパラメータの事後確率の式の$\mathbf{m}_{N},\mathbf{S}_{N}$は下記の$(3.50),(3.51)$式で表される。
$$
\large
\begin{align}
\mathbf{m}_{N} &= \mathbf{S}_{N} \left( \beta \Phi^{\mathrm{T}} \mathbf{t} + \mathbf{S}_{0}^{-1} \mathbf{m}_{0} \right) \quad (3.50) \\
\mathbf{S}_{N}^{-1} &= \beta \Phi^{\mathrm{T}} \Phi + \mathbf{S}_{0}^{-1} \quad (3.51)
\end{align}
$$

詳しい導出は「パターン認識と機械学習 演習$3.7$」で取り扱われているのでここでは省略する。

ベイズ線形回帰の導出

基本的には「多次元正規分布におけるベイズの定理を用いた条件付き確率・周辺確率の導出」の流れをそのまま用いるが、$t$がスカラーであるなど、多少シンプルな数式で表すことができる。

同時分布の期待値・共分散行列の導出

周辺分布$p(t)$は下記のように考えることができる。
$$
\large
\begin{align}
p(t) = \int p(t|\mathbf{w})p(\mathbf{\mathbf{w}}) d \mathbf{w}
\end{align}
$$

上記の$\mathbf{w})$と$t$に関する同時分布を考えるにあたって、下記のように$\mathbf{z}$を定義する。
$$
\large
\begin{align}
\mathbf{z} = \left(\begin{array}{c} \mathbf{w} \\ t \end{array} \right) \quad (2.101)
\end{align}
$$

このとき$p(\mathbf{z})$の対数を取った$\ln{p(\mathbf{z})}$に関して下記が成立する。
$$
\large
\begin{align}
& \ln{p(\mathbf{z})} = \ln{p(\mathbf{w},t)} = \ln{p(t|\mathbf{w})} \ln{p(\mathbf{w})} \\
&= – \frac{\beta}{2} (t-\phi^{\mathrm{T}}\mathbf{w})^{\mathrm{T}} (t-\phi^{\mathrm{T}}\mathbf{w}) – \frac{1}{2} (\mathbf{w}-\mathbf{m}_{N})^{\mathrm{T}} \mathbf{S}_{N}^{-1} (\mathbf{w}-\mathbf{m}_{N}) + \mathrm{Const.} \quad (1)
\end{align}
$$

なお、式表記にあたっては$\mathbf{x}$と$\mathbf{y}$に関係ない項は$\mathrm{Const.}$でまとめた。このとき、$(1)$式から$\mathbf{w}, t$に関する$2$次の項だけを書き出すと以下のように表される。
$$
\large
\begin{align}
& -\frac{1}{2} \left[ \mathbf{w}^{\mathrm{T}} \left( \beta \phi \phi^{\mathrm{T}} + \mathbf{S}_{N}^{-1} \right) \mathbf{w} – \beta \mathbf{w}^{\mathrm{T}} \phi t – \beta t \phi^{\mathrm{T}} \mathbf{w} – \beta t^2 \right] \\
&= – \frac{1}{2} \left(\begin{array}{cc} \mathbf{w}^{\mathrm{T}} & t \end{array} \right) \left(\begin{array}{cc} \beta \phi \phi^{\mathrm{T}} + \mathbf{S}_{N}^{-1} & -\beta \phi \\ -\beta \phi^{\mathrm{T}} & \beta \end{array} \right) \left(\begin{array}{c} \mathbf{w} \\ t \end{array} \right) \\
&= – \frac{1}{2} \left(\begin{array}{c} \mathbf{w} \\ t \end{array} \right)^{\mathrm{T}} \left(\begin{array}{cc} \mathbf{S}_{N}^{-1} + \beta \phi \phi^{\mathrm{T}} & -\beta \phi \\ -\beta \phi^{\mathrm{T}} & \beta \end{array} \right) \left(\begin{array}{c} \mathbf{w} \\ t \end{array} \right) = -\frac{1}{2} \mathbf{z}^{\mathrm{T}} \mathbf{R} \mathbf{z}
\end{align}
$$

ここで$\mathbf{R}$は$p(\mathbf{z})$の精度行列であることから$\mathbf{z}$の共分散行列$\mathrm{cov}[\mathbf{z}]$に関して$\mathrm{cov}[\mathbf{z}]=\mathbf{R}^{-1}$が成立する。$\mathrm{cov}[\mathbf{z}]$は下記のように表される。
$$
\large
\begin{align}
\mathbf{M} &= (\mathbf{S}_{N}^{-1}+\beta\phi\phi^{\mathrm{T}} – (-\beta\phi)\beta^{-1}(-\beta\phi^{\mathrm{T}}))^{-1} \\
&= (\mathbf{S}_{N}^{-1} + \beta\phi\phi^{\mathrm{T}} – \beta\phi\phi^{\mathrm{T}})^{-1} = \mathbf{S}_{N} \\
\mathrm{cov}[\mathbf{z}] &= \mathbf{R}^{-1} = \left(\begin{array}{cc} \mathbf{S}_{N}^{-1} + \beta \phi \phi^{\mathrm{T}} & -\beta \phi \\ -\beta \phi^{\mathrm{T}} & \beta \end{array} \right)^{-1} \\
&= \left(\begin{array}{cc} \mathbf{M} & – \mathbf{M}(-\beta\phi)\beta^{-1} \\ -\beta^{-1}(-\beta\phi^{\mathrm{T}})\mathbf{M} & \beta^{-1}+\beta^{-1}(-\beta\phi^{\mathrm{T}})M(-\beta\phi)\beta^{-1} \end{array} \right) \\
&= \left(\begin{array}{cc} \mathbf{S}_{N} & \mathbf{S}_{N}\phi \\ \phi^{\mathrm{T}}\mathbf{S}_{N} & \beta^{-1}+\phi^{\mathrm{T}}\mathbf{S}_{N}\phi \end{array} \right) \quad (2)
\end{align}
$$

次に$(1)$式から$\mathbf{w}, t$に関する$1$次の項だけを書き出すと以下のように表すことができる。
$$
\large
\begin{align}
\mathbf{w}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N} &= \left(\begin{array}{cc} \mathbf{w}^{\mathrm{T}} & t \end{array} \right) \left(\begin{array}{c} \mathbf{S}_{N}^{-1}\mathbf{m}_{N} \\ 0 \end{array} \right) \\
&= \left(\begin{array}{c} \mathbf{w} \\ t \end{array} \right)^{\mathrm{T}} \left(\begin{array}{c} \mathbf{S}_{N}^{-1}\mathbf{m}_{N} \\ 0 \end{array} \right)
\end{align}
$$

ここで$\displaystyle \mathbf{R}\mathbb{E}[\mathbf{z}]=\left(\begin{array}{c} \mathbf{S}_{N}^{-1}\mathbf{m}_{N} \\ 0 \end{array} \right)$より$\mathbb{E}[\mathbf{z}]$に関して下記が成立する。
$$
\large
\begin{align}
\mathbf{R}\mathbb{E}[\mathbf{z}] &= \left(\begin{array}{c} \mathbf{S}_{N}^{-1}\mathbf{m}_{N} \\ 0 \end{array} \right) \\
\mathbb{E}[\mathbf{z}] &= \mathbf{R}^{-1} \left(\begin{array}{c} \mathbf{S}_{N}^{-1}\mathbf{m}_{N} \\ 0 \end{array} \right) \\
&= \left(\begin{array}{cc} \mathbf{S}_{N} & \mathbf{S}_{N}\phi \\ \phi^{\mathrm{T}}\mathbf{S}_{N} & \beta^{-1}+\phi^{\mathrm{T}}\mathbf{S}_{N}\phi \end{array} \right) \left(\begin{array}{c} \mathbf{S}_{N}^{-1}\mathbf{m}_{N} \\ 0 \end{array} \right) = \left(\begin{array}{c} \mathbf{m}_{N} \\ \phi^{\mathrm{T}}\mathbf{m}_{N} \end{array} \right) \quad (3)
\end{align}
$$

予測分布の導出

多次元正規分布における周辺分布の数式の導出」の導出結果を用いれば良い。

・$t$の期待値$\mathbb{E}[t]$
$(3)$式より$\mathbb{E}[t]=\phi^{\mathrm{T}}\mathbf{m}_{N}$が成立する。この結果は$(3.58)$式に一致する。

・$t$の分散$V[t]$
$(2)$式より$\displaystyle V[t]=\beta^{-1}+\phi^{\mathrm{T}}\mathbf{S}_{N}\phi$が成立する。この結果は$(3.58),(3.59)$式に一致する。