射影行列(Projection Matrix)の性質とその導出

$p$次元ベクトル$\mathbf{x} \in \mathbb{R}^{p}$を部分空間$M$に対応させる行列を射影行列(Projection Matrix)といいます。当記事では射影行列について成立する性質とその導出について取りまとめを行いました。
「統計学のための数学入門$30$講」の$21$章の「射影と射影行列」を参考に作成を行いました。

・数学まとめ
https://www.hello-statisticians.com/explain-terms

射影行列の性質

$p$次元ベクトル空間$\mathbb{R}^{p}$の部分空間を$M$、直交補空間を$M^{\perp}$とおくと、任意の$p$次元ベクトル$\mathbf{x} \in \mathbb{R}^{p}$は下記のように一意に表すことができる。
$$
\large
\begin{align}
\mathbf{x} &= \mathbf{x}_{1} + \mathbf{x}_{2} \\
\mathbf{x}_{1} & \in M, \, \mathbf{x}_{2} \in M^{\perp}
\end{align}
$$

このとき、$\mathbf{x}_{1}$は$\mathbf{x}$の$M$への射影、$\mathbf{x}_{2}$は$\mathbf{x}$の$M^{\perp}$への射影であるという。ここで$\mathbf{x}$を$\mathbf{x}_{1}$に対応させる行列を射影行列$P_{M}$とおくと、下記のような式が成立する。
$$
\large
\begin{align}
\mathbf{x}_{1} = P_{M} \mathbf{x} \in M
\end{align}
$$

同様に$\mathbf{x}$を$\mathbf{x}_{2}$に対応させる射影行列を$P_{M^{\perp}}$とおくと、下記のような式が成立する。
$$
\large
\begin{align}
\mathbf{x}_{2} = P_{M^{\perp}} \mathbf{x} \in M^{\perp}
\end{align}
$$

ここで部分空間$M$について$\mathrm{dim}{M}=k$を仮定するとき、直交補空間$M^{\perp}$について$\mathrm{dim}{M^{\perp}}=p \, – \, k$が成立する。このとき、$p \times k$行列$A$を$M$の基底${ \mathbf{a}_{1}, \cdots , \mathbf{a}_{k} }$、$p \times (p \, – \, k)$行列$B$を$M^{\perp}$の基底${ \mathbf{b}_{1}, \cdots , \mathbf{b}_{p \, – \, k} }$を用いてそれぞれ下記のように定義する。
$$
\large
\begin{align}
A &= \left( \begin{array}{ccc} \mathbf{a}_{1} & \cdots & \mathbf{a}_{k} \end{array} \right) \\
B &= \left( \begin{array}{ccc} \mathbf{b}_{1} & \cdots & \mathbf{b}_{p \, – \, k} \end{array} \right)
\end{align}
$$

上記で確認した定義に基づいて、射影行列$P_{M}, \, P_{M^{\perp}}$について下記の$(1)$〜$(5)$が成立する。
$[1] \,$ 射影行列$P_{M}, \, P_{M^{\perp}}$は下記のように表すことができる。
$$
\large
\begin{align}
P_{M} &= A (A^{\mathrm{T}} A)^{-1} A^{\mathrm{T}} \\
P_{M^{\perp}} &= B (B^{\mathrm{T}} B)^{-1} B^{\mathrm{T}} = I_{p} \, – \, P_{M}
\end{align}
$$

$[2] \,$ $P_{M}, \, P_{M^{\perp}}$は対称行列である。
$[3] \,$ $P_{M}, \, P_{M^{\perp}}$はべき等行列である。
$[4] \,$ $\mathrm{tr}(P_{M}) = k, \, \mathrm{tr}(P_{M^{\perp}}) = p \, – \, k$
$[5] \,$ $\mathrm{rank}(P_{M}) = k, \, \mathrm{rank}(P_{M^{\perp}}) = p \, – \, k$

射影行列の性質の導出

$[1] \, P_{M} = A (A^{\mathrm{T}} A)^{-1} A^{\mathrm{T}}, \quad P_{M^{\perp}} = B (B^{\mathrm{T}} B)^{-1} B^{\mathrm{T}} = I_{p} \, – \, P_{M}$

$\displaystyle A = \left( \begin{array}{cc} \mathbf{a}_{1} & \mathbf{a}_{2} \end{array} \right)$の場合

$2$つの$1$次独立な$p$次元ベクトル$\mathbf{a}_{1}, \, \mathbf{a}_{2}$が張る空間$M$を下記のように定義する。
$$
\large
\begin{align}
M = \{ \mathbf{y} : \mathbf{y} = c_{1} \mathbf{a}_{1} + c_{2} \mathbf{a}_{2} \}
\end{align}
$$

このとき$p$次元ベクトル$\mathbf{x}$の$M$への射影を$\mathbf{y} = c_{1} \mathbf{a}_{1} + c_{2} \mathbf{a}_{2}$とおくと、$\mathbf{a}_{1}, \mathbf{a}_{2} \perp \mathbf{x} \, – \, \mathbf{y}$より下記が成立する。
$$
\large
\begin{align}
(\mathbf{a}_{1}, \mathbf{x} \, – \, (c_{1}\mathbf{a}_{1}+c_{2}\mathbf{a}_{2})) &= \mathbf{a}_{1}^{\mathrm{T}} \mathbf{x} \, – \, (c_{1} \mathbf{a}_{1}^{\mathrm{T}} \mathbf{a}_{1} + c_{2} \mathbf{a}_{1}^{\mathrm{T}} \mathbf{a}_{2})) = 0 \\
(\mathbf{a}_{2}, \mathbf{x} \, – \, (c_{1}\mathbf{a}_{1}+c_{2}\mathbf{a}_{2})) &= \mathbf{a}_{2}^{\mathrm{T}} \mathbf{x} \, – \, (c_{1} \mathbf{a}_{2}^{\mathrm{T}} \mathbf{a}_{1} + c_{2}\mathbf{a}_{2}^{\mathrm{T}}\mathbf{a}_{2})) = 0
\end{align}
$$

上記は下記のように行列表記することができる。
$$
\large
\begin{align}
\left( \begin{array}{cc} \mathbf{a}_{1}^{\mathrm{T}} \mathbf{a}_{1} & \mathbf{a}_{1}^{\mathrm{T}} \mathbf{a}_{2} \\ \mathbf{a}_{2}^{\mathrm{T}} \mathbf{a}_{1} & \mathbf{a}_{2}^{\mathrm{T}} \mathbf{a}_{2} \end{array} \right) \left( \begin{array}{c} c_{1} \\ c_{2} \end{array} \right) = \left( \begin{array}{c} \mathbf{a}_{1}^{\mathrm{T}} \mathbf{x} \\ \mathbf{a}_{2}^{\mathrm{T}} \mathbf{x} \end{array} \right)
\end{align}
$$

上記より$p$次元ベクトル$\mathbf{x}$の$M$への射影を$\mathbf{y} = c_{1} \mathbf{a}_{1} + c_{2} \mathbf{a}_{2}$とおくとき、$c_{1}, c_{2}$はそれぞれ下記のような計算で得られる。
$$
\large
\begin{align}
\left( \begin{array}{c} c_{1} \\ c_{2} \end{array} \right) = \left( \begin{array}{cc} \mathbf{a}_{1}^{\mathrm{T}} \mathbf{a}_{1} & \mathbf{a}_{1}^{\mathrm{T}} \mathbf{a}_{2} \\ \mathbf{a}_{2}^{\mathrm{T}} \mathbf{a}_{1} & \mathbf{a}_{2}^{\mathrm{T}} \mathbf{a}_{2} \end{array} \right)^{-1} \left( \begin{array}{c} \mathbf{a}_{1}^{\mathrm{T}} \mathbf{x} \\ \mathbf{a}_{2}^{\mathrm{T}} \mathbf{x} \end{array} \right) \quad (1)
\end{align}
$$

ここで射影行列を$P_{M}$、$A, A^{\mathrm{T}}, \mathbf{c}$をそれぞれ下記のように定義する。
$$
\large
\begin{align}
A &= \left( \begin{array}{cc} \mathbf{a}_{1} & \mathbf{a}_{2} \end{array} \right) \\
A^{\mathrm{T}} &= \left( \begin{array}{c} \mathbf{a}_{1}^{\mathrm{T}} \\ \mathbf{a}_{2}^{\mathrm{T}} \end{array} \right) \\
\mathbf{c} &= \left( \begin{array}{c} c_{1} \\ c_{2} \end{array} \right)
\end{align}
$$

このとき$(1)$式は下記のように表すことができる。
$$
\large
\begin{align}
\left( \begin{array}{c} c_{1} \\ c_{2} \end{array} \right) &= \left( \begin{array}{cc} \mathbf{a}_{1}^{\mathrm{T}} \mathbf{a}_{1} & \mathbf{a}_{1}^{\mathrm{T}} \mathbf{a}_{2} \\ \mathbf{a}_{2}^{\mathrm{T}} \mathbf{a}_{1} & \mathbf{a}_{2}^{\mathrm{T}} \mathbf{a}_{2} \end{array} \right)^{-1} \left( \begin{array}{c} \mathbf{a}_{1}^{\mathrm{T}} \mathbf{x} \\ \mathbf{a}_{2}^{\mathrm{T}} \mathbf{x} \end{array} \right) \quad (1) \\
&= \left[ \left( \begin{array}{c} \mathbf{a}_{1}^{\mathrm{T}} \\ \mathbf{a}_{2}^{\mathrm{T}} \end{array} \right) \left( \begin{array}{cc} \mathbf{a}_{1} & \mathbf{a}_{2} \end{array} \right) \right]^{-1} \left( \begin{array}{c} \mathbf{a}_{1}^{\mathrm{T}} \\ \mathbf{a}_{2}^{\mathrm{T}} \end{array} \right) \mathbf{x} \\
\mathbf{c} &= (A^{\mathrm{T}} A)^{-1} A^{\mathrm{T}} \mathbf{x}
\end{align}
$$

ここで射影行列$P_{M}$を$P_{M}\mathbf{x} = c_{1} \mathbf{a}_{1} + c_{2} \mathbf{a}_{2}$が成立するように定義すると、下記が成立する。
$$
\large
\begin{align}
P_{M}\mathbf{x} &= c_{1} \mathbf{a}_{1} + c_{2} \mathbf{a}_{2} \\
&= \left( \begin{array}{cc} \mathbf{a}_{1} & \mathbf{a}_{2} \end{array} \right) \left( \begin{array}{c} c_{1} \\ c_{2} \end{array} \right) \\
&= A \mathbf{c} \\
&= A (A^{\mathrm{T}} A)^{-1} A^{\mathrm{T}} \mathbf{x} \\
P_{M} &= A (A^{\mathrm{T}} A)^{-1} A^{\mathrm{T}}
\end{align}
$$

よって射影行列は$P_{M} = A (A^{\mathrm{T}} A)^{-1} A^{\mathrm{T}}$のように得られる。また、$\mathbf{x} = \mathbf{x}_{1} + \mathbf{x}_{2}, \, \mathbf{x}_{1} \in M, \, \mathbf{x}_{2} \in M^{\perp}$より$\mathbf{x}_{2} = \mathbf{x} \, – \, \mathbf{x}_{1}$であるので、下記が成立する。
$$
\large
\begin{align}
P_{M^{\perp}}\mathbf{x} &= \mathbf{x}_{2} \\
&= \mathbf{x} \, – \, \mathbf{x}_{1} \\
&= (I_{p} \, – \, P_{M}) \mathbf{x}
\end{align}
$$

$[2] \,$ $P_{M}, \, P_{M^{\perp}}$が対称行列

$$
\large
\begin{align}
(P_{M})^{\mathrm{T}} &= ( A (A^{\mathrm{T}} A)^{-1} A^{\mathrm{T}} )^{\mathrm{T}} \\
&= A ((A^{\mathrm{T}} A)^{-1})^{\mathrm{T}} A^{\mathrm{T}} \\
&= A ((A^{\mathrm{T}} A)^{\mathrm{T}})^{-1} A^{\mathrm{T}} \\
&= A (A^{\mathrm{T}} A)^{-1} A^{\mathrm{T}} \\
&= P_{M}
\end{align}
$$

上記より、$P_{M}$は対角行列である。
$$
\large
\begin{align}
(P_{M^{\perp}})^{\mathrm{T}} &= ( I_{p} \, – \, P_{M} )^{\mathrm{T}} \\
&= I_{p} \, – \, P_{M}^{\mathrm{T}} \\
&= I_{p} \, – \, P_{M} = P_{M^{\perp}}
\end{align}
$$

上記より、$P_{M^{\perp}}$は対角行列である。

$[3] \,$ $P_{M}, \, P_{M^{\perp}}$がべき等行列

$$
\large
\begin{align}
(P_{M})^{2} &= ( A (A^{\mathrm{T}} A)^{-1} A^{\mathrm{T}} )^{2} \\
&= ( A (A^{\mathrm{T}} A)^{-1} A^{\mathrm{T}} ) ( A (A^{\mathrm{T}} A)^{-1} A^{\mathrm{T}} ) \\
&= A (A^{\mathrm{T}} A)^{-1} (A^{\mathrm{T}} A) (A^{\mathrm{T}} A)^{-1} A^{\mathrm{T}} ) \\
&= A (A^{\mathrm{T}} A)^{-1} A^{\mathrm{T}} \\
&= P_{M}
\end{align}
$$

上記より$P_{M}$はべき等行列である。

$$
\large
\begin{align}
(P_{M^{\perp}})^{2} &= ( I_{p} \, – \, P_{M} )^{2} \\
&= ( I_{p} \, – \, P_{M} ) ( I_{p} \, – \, P_{M} ) \\
&= I_{p}^{2} \, – \, 2 P_{M} + P_{M}^{2} \\
&= I_{p} \, – \, 2 P_{M} + P_{M} \\
&= I_{p} \, – \, P_{M} \\
&= P_{M^{\perp}}
\end{align}
$$

上記より$P_{M^{\perp}}$はべき等行列である。

$[4] \,$ $\mathrm{tr}(P_{M}) = k, \, \mathrm{tr}(P_{M^{\perp}}) = p \, – \, k$

$[5] \,$ $\mathrm{rank}(P_{M}) = k, \, \mathrm{rank}(P_{M^{\perp}}) = p \, – \, k$