最小二乗法に基づく線形回帰は多くのケースで用いられるため、全てのケースで用いることが適切だと考えがちだが、最尤法の仮定を前提にするなどのように、ある程度大元の前提が成立しているかは確認する必要がある。
当記事では線形回帰が適切かどうかを確認し、適切でない場合はどのような手法を用いるべきかを判断できるように回帰診断(regression diagnostics)法について取り扱う。内容の作成にあたっては「統計学実践ワークブック」などを元に作成を行なった。
Contents
回帰診断の手法
残差プロット
$n$個の標本が観測された際に、$i$番目の実測値を$y_i$、予測値を$\hat{y}_i$とする。このとき、残差$e_i$を$e_i=y_i-\hat{y}_i$のように考えるとする。
このとき予測値$\hat{y}_i$を横軸、残差$e_i$を縦軸に取って各標本に関してプロットを行なったものを残差プロット(residual plot)という。
図の横軸の値を$plot(x)_i$、縦軸の値を$plot(y)_i$とすると、それぞれ下記のように表すことができる。
$$
\large
\begin{align}
plot(x)_i &= \hat{y}_i \\
plot(y)_i &= e_i
\end{align}
$$
このときに、縦軸の残差の値が予測値$\hat{y}_i$の値によらず$0$を中心に概ね正規分布に従っていれば最小二乗法を用いたことが適切であることが確認できる。逆に下記のようなケースは注意が必要である。
・外れ値(outlier)が存在する
-> 特定のサンプルだけ残差が大きい
・等分散性が成立しない
-> 予測値が大きくなるにつれて残差が大きくなったり小さくなったりする
・独立性が成立しない
上記のように予測値と残差のプロットを確認するだけで様々なことがわかることは抑えておくと良い。
正規Q-Qプロット
正規Q-Qプロット(normal quantile-quantile plot)は、残差を標準化し小さい順に並べた分位点と、標準正規分布の累積分布関数の分位点をプロットしたものである。
誤差項に正規性が成立している場合、このプロットは傾き1の直線上に並ぶ。
標準化残差の絶対値の平方根プロット
残差プロットと基本的には同様だが、標準化した残差に対して絶対値を取ることで「等分散性」が成立するかにより着目できるように試みられることは抑えておくと良い。数式で表すと下記のように表すことができる。
$$
\large
\begin{align}
plot(x)_i &= \hat{y}_i \\
plot(y)_i &= \frac{|e_i|}{\sqrt{V[e]}} \\
&= \frac{|y_i-\hat{y}_i|}{\sqrt{\sum_{i=1}^{n} (e_i-E[e])^2}}
\end{align}
$$
特に、横軸の予測値に対して縦軸の「標準化した残差の絶対値」が増加 or 減少しないかは重点的に確認すると良い。
leverageとCook’s distance
自己相関とDW比
まとめ
統計的モデリングを行うにあたっては、モデリングの前提が成立しているかについては常に確認する必要があります。当記事ではその確認にあたっての方針について「統計学実践ワークブック」の17章を参考に取り扱いました。