Contents
- 1 概要と表記
- 2 Basics
- 2.1 $\,\,(1) \qquad (AB)^{-1} = B^{-1}A^{-1}$
- 2.2 $\,\,(5) \qquad (AB)^\mathrm{T} = B^\mathrm{T}A^\mathrm{T}$
- 2.3 $\,\,(3) \qquad(A^\mathrm{T})^{-1} = (A^{-1})^\mathrm{T} $
- 2.4 $\,(14) \qquad \mathrm{Tr}(AB) = \mathrm{Tr}(BA)$
- 2.5 $\,(13) \qquad \mathrm{Tr}(A) = \sum_{i} \lambda_{i} $
- 2.6 $\,(22) \qquad \det(A^{-1}) = 1/\det(A) $
- 2.7 $\,(18) \qquad \det(A) = \prod_{i}\lambda_{i}$
- 3 Derivatives
- 4 追記する予定です
概要と表記
The Matrix Cookbook (https://www.math.uwaterloo.ca/~hwolkowi/matrixcookbook.pdf) に掲載されている式の一部をピックアップして証明の取りまとめを行いました。導出にあたって置いた仮定がある点はご了承ください(例えば、行列 $A$ は対角化可能とする、など)。なお、小見出し中の () 内の数字は The Matrix Cookbook の式番号です。特に断らない限り、実数を成分にもつ行列を扱います。
用いる表記の内、曖昧さ回避が必要なものをまとめておきます。
- 行列 $A$ に対し、$A=(a_{ij})$ で成分の表記の略
- $(A)_{ij}$ : 行列 $A$ の $(i, j)$ 成分
- $I$ : 単位行列
- $\mathrm{diag}(a_1, a_2,…, a_n)$ : $a_1, a_2,…, a_n$を対角成分にもつ対角行列
$$$$
Basics
$\,\,(1) \qquad (AB)^{-1} = B^{-1}A^{-1}$
行列$A, B$ には逆行列が存在すると仮定する。逆行列の定義通り計算する。
$(AB)B^{-1}A^{-1} = A(BB^{-1})A^{-1}=AA^{-1}=I\,(単位行列)$ であり、
$B^{-1}A^{-1}(AB)=BB^{-1}=I$ だから、$B^{-1}A^{-1}$ は $AB$ の逆行列、つまり$(1)$ が成立する。
$$$$
$\,\,(5) \qquad (AB)^\mathrm{T} = B^\mathrm{T}A^\mathrm{T}$
$A^{\mathrm{T}}$ は転置行列を表す。簡単のため、$A,B$ はずれも $n$次正方行列とする。
左辺について、$\displaystyle AB = \left(\sum_{k=1}^{n}a_{ik}b_{kj}\right)$だから、$ \displaystyle (AB)^\mathrm{T} = \left(\sum_{k=1}^{n}a_{jk}b_{ki}\right)$
右辺について、$B^{\mathrm{T}}A^{\mathrm{T}} の (i,j) 成分は (B^{\mathrm{T}}の第 i 行)と(A^{\mathrm{T}}の第 j 列)の内積$、つまり、
$\displaystyle (Bの第 i 列)^\mathrm{T}(Aの第 j 行) = \sum_{k=1}^{n}b_{ki}a_{jk}$ . よって、左辺と右辺が等しいことがいえる。
$$$$
$\,\,(3) \qquad(A^\mathrm{T})^{-1} = (A^{-1})^\mathrm{T} $
逆行列の定義から、$AA^{-1}=A^{-1}A=I$. ($5$) の結果を用いて、各辺を転置することで、$(A^\mathrm{T})^{-1}A^\mathrm{T}=A^\mathrm{T}(A^\mathrm{T})^{-1}=I$ を得る。
$$$$
$\,(14) \qquad \mathrm{Tr}(AB) = \mathrm{Tr}(BA)$
$A\in \mathbb{R}^{m \times n}, B\in \mathbb{R}^{n \times m}$とする。 $AB, BA$ の対角成分を考える。$\displaystyle (AB)_{ii} = \left(\sum_{k=1}^{n}a_{ik}b_{ki}\right) \cdots (I)$
$\displaystyle (BA)_{ii} = \left(\sum_{k=1}^{m}b_{ik}a_{ki}\right) \cdots (II)$
$(I)の\,i=1,2,…,n \, のときの総和と、 (II)の\,i=1,2,…,m \,のときの総和$は等しいため、($14$)が成立。
$$$$
$\,(13) \qquad \mathrm{Tr}(A) = \sum_{i} \lambda_{i} $
$\lambda_{i}$ は $A$ の固有値である。また、$A$は対角化可能とする。したがって、
$U^{-1}AU = \mathrm{diag}(\lambda_{1}, \lambda_{2}, …, \lambda_{n})$ を満たす行列 $U$ が存在する。両辺の Trace を考えると、$\displaystyle \mathrm{Tr}(\mathrm{diag}(\lambda_{1}, \lambda_{2}, …, \lambda_{n})) = \sum_{i} \lambda_{i}= \mathrm{Tr}(U^{-1}AU) = \mathrm{Tr}(AUU^{-1}) = \mathrm{Tr}(A)$を得る。なお、($14$)を用いている。
$$$$
$\,(22) \qquad \det(A^{-1}) = 1/\det(A) $
逆行列の定義から、$AA^{-1} = I$. 両辺の行列式を考えると、$\det(AA^{-1})=\det(A)\det(A^{-1})=1$ を得る(行列積の行列式は行列式の積となる)。$\det(A)\det(A^{-1})=1$ の両辺に $1/\det(A)$ をかければよい。
$$$$
$\,(18) \qquad \det(A) = \prod_{i}\lambda_{i}$
$A$は対角化可能とすると、$U^{-1}AU = \mathrm{diag}(\lambda_{1}, \lambda_{2}, …, \lambda_{n})$ を満たす行列 $U$ が存在する。両辺の行列式を考えると、($22$)より、$\det(U^{-1}AU)=\det(U^{-1})\det(A)\det(U)=\det(A)$
$=\det(\mathrm{diag}(\lambda_{1}, \lambda_{2}, …, \lambda_{n}))= \prod_{i}\lambda_{i}$ を得る。
$$$$
Derivatives
$t$ というスカラー変数で微分することとします。なお、行列 $A$ に対し、$\displaystyle \frac{\partial A}{\partial t} = \left(\frac{\partial a_{ij}}{\partial t}\right)$ と定義されます。
$\,(35) \qquad \partial (X+Y)/\partial t=\partial X/\partial t+\partial Y/\partial t$
$\displaystyle \left(\frac{\partial (X+Y)}{\partial t}\right)_{ij} = \frac{\partial (X+Y)_{ij}}{\partial t}=\frac{\partial (x_{ij}+y_{ij})}{\partial t} = \frac{\partial x_{ij}}{\partial t}+\frac{\partial y_{ij}}{\partial t} =\left(\frac{ \partial X}{\partial t}+\frac{ \partial Y}{\partial t}\right)_{ij}$ より。
$$$$
$\,(37) \qquad \partial (XY)/\partial t=(\partial X/\partial t)Y+X(\partial Y/\partial t)$
$X\in \mathbb{R}^{l \times m}, Y\in \mathbb{R}^{m \times n}$とする。$\displaystyle (XY)_{ij} = \sum_{k=1}^{m}x_{ik}y_{ki} \, (i=1,2,…,l, j=1,2,…,n)$より、$\displaystyle \left(\frac{\partial XY}{\partial t}\right)_{ij}=\frac{\partial}{\partial t}\sum_{k=1}^{m}x_{ik}y_{ki}$
$\displaystyle = \sum_{k=1}^{m}\frac{\partial x_{ik}y_{ki}}{\partial t}=\sum_{k=1}^{m}\frac{\partial x_{ik}}{\partial t}y_{kj}+x_{ik}\frac{\partial y_{ki}}{\partial t}$
$\displaystyle = \left(\frac{\partial X}{\partial t}Y+X\frac{\partial Y}{\partial t}\right)_{ij}$ を得る。
$$$$
$\, (40) \qquad \partial X^{-1}/\partial t = -X^{-1}(\partial X/\partial t)X^{-1}$
$XX^{-1}=I$ が成立する。この両辺を $t$ で微分することを考える。右辺は定数が並ぶ行列だから、微分の結果は零行列 $O$ となる。左辺は、(37) で $Y=X^{-1}$ とすることにより、$\displaystyle \frac{\partial XX^{-1}}{\partial t}= \frac{\partial X}{\partial t}X^{-1}+X\frac{\partial X^{-1}}{\partial t}$
したがって、 $\displaystyle \frac{\partial X}{\partial t}X^{-1}+X\frac{\partial X^{-1}}{\partial t}=Oを得る。これを\frac{\partial X^{-1}}{\partial t}$について解く。$\displaystyle X\frac{\partial X^{-1}}{\partial t}=-\frac{\partial X}{\partial t}X^{-1} \therefore \frac{\partial X^{-1}}{\partial t}=-X^{-1}\frac{\partial X}{\partial t}X^{-1}$
$$$$