回帰分析を理解する(最小二乗法、決定係数、相関係数と決定係数)

回帰(regression)は様々な場面で出てくる基本的なトピックである一方で、単なる線形回帰にとどまらず一般化線形モデル、ベイズ線形回帰、ニューラルネットワークへの拡張など、派生で様々なモデリングを考えることができる。
当記事では、回帰の基本トピックである最小二乗法、決定係数などについて取り扱う。

基本事項の整理

母回帰と標本回帰

回帰分析を行う際に標本回帰のみを考えることが多いので、「母回帰と標本回帰」について議論されることが少ない印象ではあるが、推測統計的な視点を元に母回帰と標本回帰について考えることができる。ここでは「基礎統計学Ⅰ 統計学入門(東京大学出版会)」を参考にそれぞれ下記のように表すとする。
・母回帰方程式(population regression equation)
$$
\begin{align}
Y_i &= \beta_1 + \beta_2 X_i + \epsilon_i \qquad (i = 1, 2, 3, …, n)
\end{align}
$$


・標本回帰方程式(sample regression equation)
$$
\begin{align}
Y &= \hat{\beta}_1 + \hat{\beta}_2 X
\end{align}
$$

通常の回帰分析では、上記で表した標本回帰方程式のパラメータの$\hat{\beta}_1$と$\hat{\beta}_2$を最小二乗法を用いて求めることが多い。よって次項で最小二乗法による標本回帰方程式のパラメータの導出について行う。

最小二乗法

前項の母回帰方程式の係数の$\beta_1$と$\beta_2$の推定について考える。(1)式の$Y_i$の$X_i$によって説明できない誤差項は下記のようになる。
$$
\begin{align}
\epsilon_i &= Y_i – (\beta_1 + \beta_2 X_i) \qquad (i = 1, 2, 3, …, n) \quad (3)
\end{align}
$$
ここで(3)の両辺を二乗する方が取り扱いやすいので二乗を考え、さらに総和$S$を考える。
$$
\begin{align}
S &= \sum_{i=1}^{n} \epsilon_i^2 \\
&= \sum_{i=1}^{n} (Y_i – (\beta_1 + \beta_2 X_i))^2
\end{align}
$$
上記の$S$を最小にする$\hat{\beta}_1$と$\hat{\beta}_2$を$\beta_1$と$\beta_2$の推定量とすると考える。この推定方法を最小二乗法(method of least squares)と呼び、$\hat{\beta}_1$と$\hat{\beta}_2$を$\beta_1$と$\beta_2$の最小二乗推定法(least squares estimator)と呼ぶ。

$S$を最小にする$\hat{\beta}_1$と$\hat{\beta}_2$は下記の方程式を解くことによって求めることができる。
$$
\begin{align}
\frac{\partial S}{\partial \beta_1} &= -2\sum_{i=1}^{n} (Y_i – \beta_1 – \beta_2 X_i) \quad (5) \\
\frac{\partial S}{\partial \beta_2} &= -2\sum_{i=1}^{n} (Y_i – \beta_1 – \beta_2 X_i)X_i \quad (6)
\end{align}
$$
式(5)、式(6)を整理すると下記のような$\beta_1$と$\beta_2$の連立方程式を得ることができる。
$$
\begin{align}
n \beta_1 + \left( \sum_{i=1}^{n} X_i \right) \beta_2 &= \sum_{i=1}^{n} Y_i \quad (7) \\
\left( \sum_{i=1}^{n} X_i \right) \beta_1 + \left( \sum_{i=1}^{n} X_i^2 \right) \beta_2 &= \sum_{i=1}^{n} X_i Y_i \quad (8)
\end{align}
$$
上記を正規方程式(normal equation)と呼び、この解を$\hat{\beta}_1$と$\hat{\beta}_2$とすると下記のようになる。
$$
\begin{align}
\hat{\beta}_2 &= \frac{\sum (X_i-\bar{X})(Y_i-\bar{Y})}{\sum (X_i-\bar{X})^2} \quad (9) \\
\hat{\beta}_1 &= \bar{Y} – \hat{\beta}_2 \bar{X} \qquad (10)
\end{align}
$$
上記において、$\bar{X}$、$\bar{Y}$はそれぞれ標本$X_i$、$Y_i$の標本平均を表したものとする。このようにして求めたパラメータ$\hat{\beta}_1$、$\hat{\beta}_2$に基づいて前項の標本回帰方程式を用いて予測値の計算などを行う。
$$
\begin{align}
Y &= \hat{\beta}_1 + \hat{\beta}_2 X \quad (2)
\end{align}
$$

決定係数

回帰式の当てはまりの良さをはかる指標には決定係数が用いられることが多い。決定係数について理解するにあたっては、まずは下記の式を抑えると良い。
$$
\begin{align}
\sum_{i=1}^{n} (Y_i-\bar{Y})^2 &= \sum_{i=1}^{n} ((Y_i-\hat{Y}_i)+(\hat{Y}_i-\bar{Y}))^2 \\
&= \sum_{i=1}^{n} (Y_i-\hat{Y}_i)^2 + \sum_{i=1}^{n} (\hat{Y}_i-\bar{Y})^2 + 2\sum_{i=1}^{n} (Y_i-\hat{Y}_i)(\hat{Y}_i-\bar{Y}) \\
&= \sum_{i=1}^{n} (\hat{Y}_i-\bar{Y})^2 + \sum_{i=1}^{n}(Y_i-\hat{Y}_i)^2 \quad (11)
\end{align}
$$
上記において詳しい計算は省略するが、$\displaystyle 2\sum_{i=1}^{n}(Y_i-\hat{Y}_i)(\hat{Y}_i-\bar{Y})=0$は$\displaystyle Y_i=\bar{Y}+\hat{\beta}_1(X_i-\bar{X})$などを用いることで導出することができる。

(11)式全体を左辺の$\displaystyle \sum_{i=1}^{n} (Y_i-\bar{Y})^2$で割ると下記のようになる。
$$
\begin{align}
1 = \frac{\displaystyle \sum_{i=1}^{n}(\hat{Y}_i-\bar{Y})^2 + \sum_{i=1}^{n}(Y_i-\hat{Y}_i)^2}{\displaystyle \sum_{i=1}^{n} (Y_i-\bar{Y})^2} \quad (12)
\end{align}
$$
ここで、$\frac{\displaystyle \sum_{i=1}^{n}(\hat{Y}_i-\bar{Y})^2}{\displaystyle \sum_{i=1}^{n} (Y_i-\bar{Y})^2}$を決定係数$\eta^2$で表すとする。このとき、(12)式より下記が成立する。
$$
\begin{align}
1 = \eta^2 + \frac{\displaystyle \sum_{i=1}^{n}(Y_i-\hat{Y}_i)^2}{\displaystyle \sum_{i=1}^{n} (Y_i-\bar{Y})^2} \quad (13)
\end{align}
$$
$(13)$式を$\eta^2$について解くと下記のようになる。
$$
\begin{align}
\eta^2 = 1 – \frac{\displaystyle \sum_{i=1}^{n}(Y_i-\hat{Y}_i)^2}{\displaystyle \sum_{i=1}^{n} (Y_i-\bar{Y})^2} \quad (14)
\end{align}
$$
この決定係数$\eta^2$の値は回帰方程式の当てはまりの良さを表すと考えることができる。また、相関係数を$r$とするとき、$\eta^2=r^2$が成立することも抑えておくと良い。

相関係数と決定係数

「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の$3$.$4$節の内容を主に参考にする。$y_i = ax_i + b$に対し、最小二乗法を適用し、整理すると$a$の値は下記のようになる。
$$
\begin{align}
a = \frac{\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})^2} \quad (15)
\end{align}
$$
また、相関係数は下記のように定義される。
$$
\begin{align}
r = \frac{\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle \sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}} \quad (16)
\end{align}
$$

ここで$(15)$式、$(16)$式に基づいて、$a$と$r$の関係式を考える。
$$
\begin{align}
a &= \frac{\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})^2} \\
&= \frac{\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle \sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}} \cdot \frac{\displaystyle \sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}}{\displaystyle \displaystyle\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}} \\
&= r \frac{S_y}{S_x} \quad (17)
\end{align}
$$
ここで$S_x$、$S_y$は下記を表すとする。
$$
\begin{align}
S_x &= \sqrt{\sum_{i=1}^{n} (x_i-\bar{x})^2} \\
S_y &= \sqrt{\sum_{i=1}^{n} (y_i-\bar{y})^2}
\end{align}
$$
$(15)$式を変形することを考える。
$$
\begin{align}
\frac{\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})^2} &= a \\
\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y}) &= a \sum_{i=1}^{n}(x_i-\bar{x})^2 \\
\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y}) &= \sum_{i=1}^{n} a(x_i-\bar{x})^2 \\
\sum_{i=1}^{n}(x_i-\bar{x})( y_i – \bar{y} – a(x_i-\bar{x}) ) &= 0 \\
\sum_{i=1}^{n}(x_i-\bar{x})( y_i – (a\bar{x}+b) – a(x_i-\bar{x}) ) &= 0 \\
\sum_{i=1}^{n}(x_i-\bar{x})( y_i – (ax_i+b) ) &= 0 \\
\sum_{i=1}^{n} \frac{(y_i-\bar{y})}{a}( y_i – \hat{y_i} ) &= 0 \\
\sum_{i=1}^{n} (\hat{y}_i-\bar{y})(y_i-\hat{y_i}) &= 0 \quad (18)
\end{align}
$$

$(18)$式を元に$\displaystyle \sum_{i=1}^{n} (y_i-\bar{y})^2$を$\hat{y}_i$を用いて考える。
$$
\begin{align}
\sum_{i=1}^{n} (y_i-\bar{y})^2 &= \sum_{i=1}^{n} (y_i-\hat{y}_i+\hat{y}_i-\bar{y})^2 \\
&= \sum_{i=1}^{n} ((y_i-\hat{y}_i)+(\hat{y}_i-\bar{y}))^2 \\
&= \sum_{i=1}^{n} ((y_i-\hat{y}_i)^2+(\hat{y}_i-\bar{y})^2+2(y_i-\hat{y}_i)(\hat{y}_i-\bar{y})) \\
&= \sum_{i=1}^{n} (y_i-\hat{y}_i)^2 + \sum_{i=1}^{n} (\hat{y}_i-\bar{y})^2 + 2\sum_{i=1}^{n} (y_i-\hat{y}_i)(\hat{y}_i-\bar{y})) \\
&= \sum_{i=1}^{n} (y_i-\hat{y}_i)^2 + \sum_{i=1}^{n} (\hat{y}_i-\bar{y})^2 \quad (19)
\end{align}
$$
ここで$(17)$式と$(19)$式より下記が導出できる。
$$
\begin{align}
\sum_{i=1}^{n} (\hat{y}_i-\bar{y})^2 &= \sum_{i=1}^{n} a^2(x_i-\bar{x}_i)^2 \\
&= r^2 \frac{S_y^2}{S_x^2} \cdot \sum_{i=1}^{n} (x_i-\bar{x}_i)^2 \\
&= r^2 \frac{S_y^2}{S_x^2} \cdot S_x^2 \\
&= r^2 S_y^2 \\
&= r^2 \sum_{i=1}^{n} (y_i-\bar{y})^2 \quad (20)
\end{align}
$$
$(20)$式に基づいて、$\eta^2$は下記のように$r^2$を用いて表すことができる。
$$
\begin{align}
\eta^2 &= \frac{\displaystyle \sum_{i=1}^{n}(\hat{y}_i-\bar{y})^2}{\displaystyle \sum_{i=1}^{n} (y_i-\bar{y})^2} \\
&= \frac{\displaystyle r^2 \sum_{i=1}^{n} (y_i-\bar{y})^2}{\displaystyle \sum_{i=1}^{n} (y_i-\bar{y})^2} \\
&= r^2
\end{align}
$$
上記より、相関係数$r$の二乗は決定係数$\eta^2$になることがわかる。

重回帰分析

「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の13.4節に詳しくまとめられている。

正規方程式の解の詳細な導出

最小二乗法」の項目では、正規方程式の解を連立方程式を解くことで回帰係数の$\hat{\beta}1, \hat{\beta}_2$を導出できるとしたが、少々式変形が複雑なため、こちらで詳しく取り扱う。
$$
\begin{align}
n \beta_1 + \left( \sum_{i=1}^{n} X_i \right) \beta_2 &= \sum_{i=1}^{n} Y_i \quad (7) \\
\left( \sum_{i=1}^{n} X_i \right) \beta_1 + \left( \sum_{i=1}^{n} X_i^2 \right) \beta_2 &= \sum_{i=1}^{n} X_i Y_i \quad (8)
\end{align}
$$
具体的には上記の正規方程式を解くことで下記のように回帰係数の$\hat{\beta}_1, \hat{\beta}_2$を導出することを考える。
$$
\begin{align}
\hat{\beta}_2 &= \frac{\sum (X_i-\bar{X})(Y_i-\bar{Y})}{\sum (X_i-\bar{X})^2} \quad (9) \\
\hat{\beta}_1 &= \bar{Y} – \hat{\beta}_2 \bar{X} \quad (10)
\end{align}
$$

解き方自体は連立方程式の一般的な解き方にあるように$(7), (8)$式より、$\beta_1$に関する項を消去することを考える。
$$
\begin{align}
n \left( \sum_{i=1}^{n} X_i \right) \beta_1 + \left( \sum_{i=1}^{n} X_i \right)^2 \beta_2 &= \left( \sum_{i=1}^{n} X_i \right) \left( \sum_{i=1}^{n} Y_i \right) \quad (7′) \\
n \left( \sum_{i=1}^{n} X_i \right) \beta_1 + n \left( \sum_{i=1}^{n} X_i^2 \right) \beta_2 &= n \sum_{i=1}^{n} X_i Y_i \quad (8′)
\end{align}
$$
上記のように$(7′), (8′)$式を考え、両辺に対して$(8′)-(7′)$を計算すると下記のようになる。
$$
\begin{align}
\left( n \left( \sum_{i=1}^{n} X_i^2 \right) + \left( \sum_{i=1}^{n} X_i \right)^2 \right) \beta_2 = n \sum_{i=1}^{n} X_i Y_i – \left( \sum_{i=1}^{n} X_i \right) \left( \sum_{i=1}^{n} Y_i \right)
\end{align}
$$
上記の式の両辺を$n^2$で割ると下記のようになる。
$$
\begin{align}
\left(\frac{1}{n} \left( \sum_{i=1}^{n} X_i^2 \right) – \left( \frac{1}{n}\sum_{i=1}^{n} X_i \right)^2 \right) \beta_2 &= \frac{1}{n} \sum_{i=1}^{n} X_i Y_i – \left( \frac{1}{n} \sum_{i=1}^{n} X_i \right) \left( \frac{1}{n} \sum_{i=1}^{n} Y_i \right) \\
(E[X^2]-E[X]^2)\beta_2 &= (E[XY] – E[X]E[Y]) \\
\beta_2 &= \frac{E[XY] – E[X]E[Y]}{E[X^2] – E[X]^2}
\end{align}
$$

期待値と分散・共分散の公式」より、$V[X]=E[X^2]-E[X]^2, Cov(X,Y)=E[XY]-E[X]E[Y]$が成立するので、下記が導出でき、$(9)$式に一致する。また、ここで導出を行うのが最適解であるので$\beta_2$を$\hat{\beta}_2$に置き換えた。
$$
\begin{align}
\hat{\beta}_2 &= \frac{E[XY] – E[X]E[Y]}{E[X^2] – E[X]^2} \\
&= \frac{Cov(X,Y)}{V[X]} \\
&= \frac{\frac{1}{n} \sum (X_i-\bar{X})(Y_i-\bar{Y})}{\frac{1}{n} \sum (X_i-\bar{X})^2} \\
&= \frac{\sum (X_i-\bar{X})(Y_i-\bar{Y})}{\sum (X_i-\bar{X})^2} \\
\end{align}
$$

また、$(10)$式の導出にあたっては$(7)$式を$n$で割る。
$$
\begin{align}
n \beta_1 + \left( \sum_{i=1}^{n} X_i \right) \beta_2 &= \sum_{i=1}^{n} Y_i \quad (7) \\
\beta_1 + \frac{1}{n} \left( \sum_{i=1}^{n} X_i \right) \beta_2 &= \frac{1}{n} \sum_{i=1}^{n} Y_i \\
\beta_1 + \bar{X} \beta_2 &= \bar{Y}
\end{align}
$$
上記より、下記で表される$(10)$式が導出できる。
$$
\begin{align}
\hat{\beta}_1 &= \bar{Y} – \hat{\beta}_2 \bar{X} \quad (10)
\end{align}
$$

一般化線形モデル

下記に詳しくまとめた。
https://www.amazon.co.jp/dp/B08FYMTYBW/

ベイズ線形回帰

下記に詳しくまとめた。
https://www.amazon.co.jp/dp/B08FYMTYBW/

「回帰分析を理解する(最小二乗法、決定係数、相関係数と決定係数)」への4件のフィードバック

  1. […] 最小二乗法に基づく線形回帰は多くのケースで用いられるため、全てのケースで用いることが適切だと考えがちだが、最尤法の仮定を前提にするなどのように、ある程度大元の前提が成立しているかは確認する必要がある。当記事では線形回帰が適切かどうかを確認し、適切でない場合はどのような手法を用いるべきかを判断できるように回帰診断(regression diagnostics)法について取り扱う。内容の作成にあたっては「統計学実践ワークブック」などを元に作成を行なった。 […]

  2. […] スピアマンの順位相関係数(Spearman correlation coefficient)の$r_s$は2次元の標本の$(x_i, y_i)$がともに連続変数である場合のピアソンの積率相関係数と同じ計算を行う。順位であることを考慮すると次のように表現できる。$$largebegin{align}r_s = 1 – frac{6 sum_{i=1}^{n}(x_i-y_i)^2}{n(n^2-1)}end{align}$$ […]

コメントは受け付けていません。