統計検定準1級問題解説 ~2019年6月実施 問6 主成分分析~

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


解答

[1] 解答

$\boxed{ \ \mathsf{9}\ }$ : ③

表の各主成分の寄与率から累積寄与率を求めると、第4主成分までの累積寄与率が$0.292+0.193+0.172+0.127=0.784$、第5主成分までの累積寄与率が$0.784+0.117=0.901$となり、第5主成分で累積寄与率$80\%$を超える。

[2] 解答

$\boxed{ \ \mathsf{10}\ }$ : ①

第1主成分と第2主成分の固有ベクトルの値を散布図にプロットしたものは、明らかに①である。

[3] 解答

$\boxed{ \ \mathsf{11}\ }$ : ②

線形回帰モデルにおいては、AICの値が最も小さくなるようなモデルが最適なモデルとなるので、モデル4が最適なモデルといえる。

[4] 解答

$\boxed{ \ \mathsf{12}\ }$ : ②

① 前処理としてのデータの標準化は、例えばデータ間の単位が揃ってないような場合は行ったほうが良いが、必ずしも不可欠ではない。誤り。
②相関行列に対する主成分分析の場合、各主成分の主成分負荷量は、主成分ともとの変量との相関係数を表す。正しい。
③AICでモデルを比較する場合、比較するモデルの間に包含関係がある必要はない。誤り。
④AICによるモデル選択は標本の大きさ$n$が大きくなっても真のモデルを選ばないことがあるので、モデル同定の一致性を持っていない。誤り。
⑤交差検証法(クロスバリデーション)では、元のデータをいくつかに分割して、そのうち1つのデータをテスト用に残しておき、残りのデータで学習したモデルにテスト用のデータをあてはめ検証するという手順を、テストデータを入れ替えながら行っていくので、一般に計算量は大きくなる。誤り。


解説

主成分分析

主成分分析は、多変量データを少数で全体のばらつきを最もよく表す主成分と呼ばれる合成変数で記述する多変量解析の手法で、データの次元削減を目的とした手法である。

ここに、$d$個の変数をもつ$n$個の多変量データがある。
$$
{X} = \left(
\begin{array}{ccc}
x_{1,1} & x_{1,2} & \ldots & x_{1,d} \\
x_{2,1} & x_{2,2} & \ldots & x_{2,d} \\
\vdots & \vdots & \ddots & \vdots \\
x_{n,1} & x_{n,2} & \ldots & x_{n,d} \\
\end{array}
\right)\
$$
変数$j$における$n$個のデータの平均は
$$\bar x_{j}=\frac 1n\sum_{i=1}^n x_{i,j}$$
となる。変数$j$の分散$s_j^2$、変数$j$と変数$k$の共分散$s_{jk}\ (j\ne k)$は
$$
\begin{align}
s_j^2&=\frac1{n-1}\sum^n_{i=1}{(x_{ij}-\bar x_{j})^2}\\
s_{jk}&=\frac1{n-1}\sum^n_{i=1}{x_{ij}-\bar x_{j})(x_{ik}-\bar x_{k})}
\end{align}
$$
となり、この分散、共分散を並べた次の行列$S$を標本分散共分散行列という。
$$
{S} = \left(
\begin{array}{ccc}
s_1^2 & s_{12} & \ldots & s_{1d} \\
s_{21} & s_2^2 & \ldots & s_{2d} \\
\vdots & \vdots & \ddots & \vdots \\
s_{d1} & s_{d2} & \ldots & s_d^2 \\
\end{array}
\right)\
$$
標本分散共分散行列$S$の固有値$\lambda$と固有ベクトル$\boldsymbol{w}$は固有方程式
$$
S\boldsymbol{w}=\lambda\boldsymbol{w}
$$
を解くことで求められる。この方程式の解である固有値、固有ベクトルの組は$d$個ある。固有値を$$\lambda_1\ge\lambda_2\ge\cdots\ge\lambda_d\ge0$$と降順に並べたとき、$j$番目の固有値$\lambda_j$に対応する固有ベクトル$\boldsymbol{w}_j=(w_{1,j},w_{2,j},\cdots,w_{d,j})$ともとの変数$\boldsymbol{x}=(x_1,x_2,\cdots,x_d)^{\mathrm T}$との内積を第$j$主成分という。また、$c_j=\lambda_j/(\lambda_1+\cdots+\lambda_d)$を寄与率、$A_j=\sum_{k=1}^{j}c_k$を累積寄与率、データ$\boldsymbol{x}_i=(x_{i,1},x_{i,2},\cdots,x_{i,d})^{\mathrm T}$を主成分に代入した、
$$y_{i,j}=w_{1,j}x_{i,1}+w_{2,j}x_{i,2}+\cdots+w_{d,j}x_{i,d}$$を主成分得点という。
主成分ともとの変数の相関係数$$r_{i,j}=\frac{\sqrt{\lambda_j}w_{i,j}}{\sqrt{s_i^2}}$$
を主成分負荷量(因子負荷量)といい、主成分にもとの変数がどの程度影響があるのかを知る指標として使われる。主成分負荷量が大きいほど変数は主成分に大きく寄与しているといえる。