統計検定準1級問題解説 ~2019年6月実施 問8 L1正則化~

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


解答

[1] 解答

$\boxed{ \ \mathsf{16}\ }$ : ④

Fused Lassoは正則化項(罰則項)にL1ノルムを用いておりスパース性(係数の多くを0と推定する性質)をもつ。Fused Lassoでは$\beta_{i+1}-\beta_i$が$0$になりやすくなるため、隣接した$\beta_i$が同じ値になりやすくなる。このためFused Lassoを時系列データに適用して平滑化をした場合、平滑化されたデータのグラフは階段状になることから、④のグラフが正解となる。

[2] 解答

$\boxed{ \ \mathsf{17}\ }$ : ④

グラフをみると、同じ傾きの区間が多くなることから、データの差分($\beta_{i+1}-\beta_i$)の差分にL1正則化を適用しているものと考えられる。したがって、
$$(\beta_{i+2}-\beta_{i+1})-(\beta_{i+1}-\beta_i)=\beta_{i+2}-2\beta_{i+1}-\beta_i$$となることから、④が正解である。


解説

正則化

重回帰分析における回帰係数の推定といった線形モデルの推定においては、係数の分散を大きくするような極端な値が含まれていると、モデルが極端な値の影響を受け複雑になることがなる。そこで、極端な値にペナルティを科すための追加情報を導入するための手法の一つが正則化である。代表的な正則化にはL2ノルムを用いたL2正則化とL1ノルムを用いたL1正則化がある。一般に正則化のモデルは
$$
\newcommand{\argmin}{\mathop{\rm arg~min}\limits}
\begin{align}
L_2:\quad&\argmin_{\mathbf\beta\in\mathbb{R}^p}\left\{f(y_i,x_i,\mathbf\beta)+\lambda\sum_{j=1}^p\sqrt{|\beta_j|^2}\right\}\\
L_1:\quad&\argmin_{\mathbf\beta\in\mathbb{R}^p}\left\{f(y_i,x_i,\mathbf\beta)+\lambda\sum_{j=1}^p|\beta_j|\right\}
\end{align}
$$
となる。ここで、
・$\mathbf\beta=(,\beta_1,\beta_2,\cdots,\beta_p)^\mathrm{ T }$:推定した係数ベクトル
・$f(y_i,x_i,\mathbf\beta)$:誤差関数(損失関数)
・$\lambda(\le0)$:正則化パラメータ(この値が大きいほど、より強いペナルティを与える)
・$\lambda\sum_{j=1}^p\sqrt{|\beta_j|^2}$:L2正則化項
・$\lambda\sum_{j=1}^p|\beta_j|$:L1正則化項