【統計の森ちゃんねる】主成分分析が分散共分散行列の固有値から得られることを確認シリーズのまとめ

統計の森では、YouTubeチャンネル「統計の森ちゃんねる」を運営しています。

統計の森ちゃんねるでは、「主成分分析; Principal Component Analysis」が分散共分散行列の固有値と固有ベクトルから導出できることを解説する動画シリーズを公開しています。

主成分の導出のためには、二次形式が出てきたり、関数のベクトルでの微分など難しいポイントがいくつか出てくるため、関連の導出をなるべく理解できる様に個別に動画にまとめています。

#01 主成分分析とはどんなものか?実装を通して雰囲気をつかむ

主成分分析の役割や意義、利用例を解説している。解説にあたって、word2vecを利用した単語の埋め込みベクトルの可視化例を実装。

  • 主成分分析とは?
    • 多次元のベクトルから主要なベクトルを導くこと
  • 第1主成分
    • 標本分散を最大にする方向(ベクトル)

以下参照

#02 ラグランジュの未定乗数法を解説する

主成分分析を導出するために必要になる「ラグランジュの未定乗数法」を解説。ラグランジュの未定乗数法は制約付きの最適化問題を解く際に用いられる手法で、主成分分析の導出に限らず広く利用されている。

  • ラグランジュの未定乗数法
    • 制約条件ありの最適化問題を解く際に用いられる手法

【補足/訂正事項】

  • 約11:25からのまとめで、ラグランジュの未定乗数法における目的関数$L(x, y)$において、制約項に付ける$\lambda$が抜けている
    • ×$L\left(\mathbf{x}, \lambda\right) \equiv f\left(\mathbf{x}\right) – g\left(\mathbf{x}\right)$ -> ◯$L\left(\mathbf{x}, \lambda\right) \equiv f\left(\mathbf{x}\right) – \lambda g\left(\mathbf{x}\right)$

下記参照

#03 二次形式をベクトルと行列で表現する

主成分分析を導出するにあたって必要となる、「二次形式のベクトルと行列での表現」について解説。

  • 二次形式(quadratic form)
    • 変数に関する次数が2の多項式
    • 統計に関する計算では二乗和が出てくることが多い
    • これをベクトルと行列で表現する例が頻出する

下記参照

#04 関数をベクトルで微分する際の計算を解説(前半)

主成分分析を導出するにあたって必要となる、「関数のベクトルでの微分」について解説。

  • 最適化問題を解くために「微分」が必要
    • 主成分分析に限らず、統計や機械学習の問題の多くは、最適化問題に帰着させることが多く、その際にパラメータで関数を微分することが必要になる
    • 多変数の問題に対して、多変数の偏微分を行うこともできるが、ベクトル表記のまま微分が行えると式がスッキリする
    • 一般的なスカラ関数の微分と同様の形になることがわかった

【補足/訂正事項】

  • 09:24, まとめの記載が間違っている
    • × $\nabla \mathbf{x}^T\mathbf{w} = \mathbf{x}$ -> ◯ $\nabla \mathbf{x}^T\mathbf{w} = \mathbf{w}$

下記参照

#05 関数をベクトルで微分する際の計算を解説(後半)

主成分分析を導出するにあたって必要となる、「関数のベクトルでの微分」について解説(その4の続き)。

【補足/訂正事項】

  • 01:30, 式が一箇所間違っている(上記その4での訂正と同じ)
    • × $\nabla \mathbf{x}^T\mathbf{w} = \mathbf{x}$ -> ◯ $\nabla \mathbf{x}^T\mathbf{w} = \mathbf{w}$
  • 13:12, 上記と同じ式が間違っている

下記参照

#06 主成分が分散共分散行列の固有値と固有ベクトルで得られることを確認する

ここまでに解説してきた前提知識を利用して、主成分が標本分散共分散行列の固有値・固有ベクトルから導出できることを確認する

  • 主成分
    • 二次元以上のサンプルが与えられた際に、分散を最大にする方向
    • データの分散共分散行列の固有値・固有ベクトルを用いて導出できる

下記参照