統計検定の準1級ワークブックなどに出てくるスピアマンの順位相関係数(Spearman correlation coefficient)は通常の相関係数の式から導出できるとされる一方で詳しい導出がないので、当記事ではスピアマンの順位相関係数の式の導出に関して取り扱いました。
Contents
スピアマンの順位相関係数の概要
ピアソンの積率相関係数
ピアソンの積率相関係数は一般的に用いられる相関係数であり、標本$(x_1,y_1), …, (x_n,y_n)$に対して相関係数$r$は下記のように定義される。
$$
\large
\begin{align}
r = \frac{\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle \sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2\sum_{i=1}^{n}(x_i-\bar{x})^2}}
\end{align}
$$
また、標本$(x_i,y_i)$に対応する確率変数を$X, Y$のようにおくとき、$r$は下記のように定義することもできる。
$$
\large
\begin{align}
r = \frac{\mathrm{Cov}[X,Y]}{\sqrt{V[X]V[Y]}}
\end{align}
$$
ここで$V[X], V[Y], \mathrm{Cov}[X,Y]$はそれぞれ$X$の分散、$Y$の分散、$X,Y$の共分散を表す。$V[X], V[Y], \mathrm{Cov}[X,Y]$に関連する公式は下記で取りまとめた。
・期待値、分散の公式
https://www.hello-statisticians.com/explain-terms-cat/expectation-variance-covariance.html
スピアマンの順位相関係数の式
前項のように$(x_i,y_i)$を考えるとき、スピアマンの順位相関係数(Spearman correlation coefficient)を$r_s$のようにおくと、$r_s$は下記のような式で表される。
$$
\large
\begin{align}
r = 1 – \frac{\displaystyle 6 \sum_{i=1}^{n} (x_i-y_i)^2}{n(n^2-1)}
\end{align}
$$
スピアマンの順位相関係数の導出
$V[X], \mathrm{Cov}[X,Y]$に関する公式
$V[X], \mathrm{Cov}[X,Y]$に関して下記の式を公式のように用いることができる。
$$
\large
\begin{align}
V[X] &= E[X^2] – E[X]^2 \\
\mathrm{Cov}[X,Y] &= E[XY] – E[X]E[Y]
\end{align}
$$
詳しい導出は下記で取り扱った。
https://www.hello-statisticians.com/explain-terms-cat/expectation-variance-covariance.html
数列の和の公式
$\displaystyle \sum_{k=1}^{n} k, \sum_{k=1}^{n} k^2$に関して下記のような式が成立する。
$$
\large
\begin{align}
\sum_{k=1}^{n} k &= \frac{n(n+1)}{2} \\
\sum_{k=1}^{n} k^2 &= \frac{1}{6}n(n+1)(2n+1)
\end{align}
$$
詳しい導出に関しては下記で取り扱った。
・数列の和の公式とその導出
https://www.hello-statisticians.com/explain-terms-cat/sum_formula1.html
スピアマンの順位相関係数の導出
以下、ピアソンの相関係数の式に対し順位を取り扱うことによる制約を考慮することでスピアマンの順位相関係数の式を導出する。
$$
\large
\begin{align}
r &= \frac{\mathrm{Cov}[X,Y]}{\sqrt{V[X]V[Y]}} \\
&= \frac{E[XY]-E[X]E[Y]}{\sqrt{V[X]V[Y]}} \quad (1)
\end{align}
$$
上記がピアソンの積率相関係数の式だが、$x_i,y_i$がどちらも順序を表すことから期待値に関して$E[X]=E[Y]$や分散に関して$V[X]=V[Y]$が成立する。これより$(1)$式は下記のように表すことができる。
$$
\large
\begin{align}
r &= \frac{E[XY]-E[X]E[Y]}{\sqrt{V[X]V[Y]}} \quad (1) \\
&= \frac{E[XY]-E[X]^2}{\sqrt{V[X]^2}} \\
&= \frac{E[XY]-E[X]^2}{V[X]} \quad (2)
\end{align}
$$
ここで$E[X], V[X]$は$x_1,x_2,…,x_n$では$1$から$n$が$1$回ずつ出現することから下記のように計算することができる。
$$
\large
\begin{align}
E[X] &= \frac{1}{n} \sum_{i=1}^{n} i \\
&= \frac{n(n+1)}{2n} = \frac{n+1}{2} \quad (3) \\
V[X] &= E[X^2] – E[X]^2 \\
&= \frac{1}{n} \sum_{i=1}^{n} i^2 – \left( \frac{n+1}{2} \right)^2 \\
&= \frac{n(n+1)(2n+1)}{6n} – \frac{(n+1)^2}{4} \\
&= \frac{n+1}{12}(4n+2) – \frac{n+1}{12}(3n+3) \\
&= \frac{(n+1)(n-1)}{12} = \frac{n^2-1}{12} \quad (4)
\end{align}
$$
また、$E[XY]$に関して下記のような変形を行うことができる。
$$
\large
\begin{align}
E[XY] &= E[XY] – E[X^2] + E[X^2] \\
&= \frac{1}{2}(2E[XY] – 2E[X^2]) + E[X^2] \\
&= E[X^2] – \frac{1}{2}(E[X^2] – 2E[XY] + E[Y^2]) \\
&= E[X^2] – \frac{1}{2}E[(X-Y)^2] \\
&= E[X^2] – \frac{1}{2n} \sum_{i=1}^{n}(x_i-y_i)^2 \quad (5)
\end{align}
$$
ここで$(3)$〜$(5)$式を$(2)$式を代入することで下記のように変形を行うことができる。
$$
\large
\begin{align}
r &= \frac{E[XY]-E[X]^2}{V[X]} \\
&= \frac{\displaystyle E[X^2] – \frac{1}{2n} \sum_{i=1}^{n}(x_i-y_i)^2 – E[X]^2}{V[X]} \\
&= \frac{E[X^2]-E[X]^2}{V[X]} – \frac{\displaystyle \frac{1}{2n} \sum_{i=1}^{n}(x_i-y_i)^2}{V[X]} \\
&= \frac{V[X]}{V[X]} – \frac{1}{2n} \sum_{i=1}^{n}(x_i-y_i)^2 \times \frac{12}{n^2-1} \\
&= 1 – \frac{\displaystyle 6 \sum_{i=1}^{n}(x_i-y_i)^2}{n(n^2-1)}
\end{align}
$$
[…] ・スピアマンの順位相関係数の導出https://www.hello-statisticians.com/explain-terms-cat/spearman_coef1.html […]