スピアマンの順位相関係数(Spearman correlation coefficient)の導出

統計検定の準1級ワークブックなどに出てくるスピアマンの順位相関係数(Spearman correlation coefficient)は通常の相関係数の式から導出できるとされる一方で詳しい導出がないので、当記事ではスピアマンの順位相関係数の式の導出に関して取り扱いました。

スピアマンの順位相関係数の概要

ピアソンの積率相関係数

ピアソンの積率相関係数は一般的に用いられる相関係数であり、標本$(x_1,y_1), …, (x_n,y_n)$に対して相関係数$r$は下記のように定義される。
$$
\large
\begin{align}
r = \frac{\displaystyle \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle \sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2\sum_{i=1}^{n}(x_i-\bar{x})^2}}
\end{align}
$$

また、標本$(x_i,y_i)$に対応する確率変数を$X, Y$のようにおくとき、$r$は下記のように定義することもできる。
$$
\large
\begin{align}
r = \frac{\mathrm{Cov}[X,Y]}{\sqrt{V[X]V[Y]}}
\end{align}
$$

ここで$V[X], V[Y], \mathrm{Cov}[X,Y]$はそれぞれ$X$の分散、$Y$の分散、$X,Y$の共分散を表す。$V[X], V[Y], \mathrm{Cov}[X,Y]$に関連する公式は下記で取りまとめた。

・期待値、分散の公式
https://www.hello-statisticians.com/explain-terms-cat/expectation-variance-covariance.html

スピアマンの順位相関係数の式

前項のように$(x_i,y_i)$を考えるとき、スピアマンの順位相関係数(Spearman correlation coefficient)を$r_s$のようにおくと、$r_s$は下記のような式で表される。
$$
\large
\begin{align}
r = 1 – \frac{\displaystyle 6 \sum_{i=1}^{n} (x_i-y_i)^2}{n(n^2-1)}
\end{align}
$$

スピアマンの順位相関係数の導出

$V[X], \mathrm{Cov}[X,Y]$に関する公式

$V[X], \mathrm{Cov}[X,Y]$に関して下記の式を公式のように用いることができる。
$$
\large
\begin{align}
V[X] &= E[X^2] – E[X]^2 \\
\mathrm{Cov}[X,Y] &= E[XY] – E[X]E[Y]
\end{align}
$$

詳しい導出は下記で取り扱った。
https://www.hello-statisticians.com/explain-terms-cat/expectation-variance-covariance.html

数列の和の公式

$\displaystyle \sum_{k=1}^{n} k, \sum_{k=1}^{n} k^2$に関して下記のような式が成立する。
$$
\large
\begin{align}
\sum_{k=1}^{n} k &= \frac{n(n+1)}{2} \\
\sum_{k=1}^{n} k^2 &= \frac{1}{6}n(n+1)(2n+1)
\end{align}
$$

詳しい導出に関しては下記で取り扱った。
・数列の和の公式とその導出
https://www.hello-statisticians.com/explain-terms-cat/sum_formula1.html

スピアマンの順位相関係数の導出

以下、ピアソンの相関係数の式に対し順位を取り扱うことによる制約を考慮することでスピアマンの順位相関係数の式を導出する。
$$
\large
\begin{align}
r &= \frac{\mathrm{Cov}[X,Y]}{\sqrt{V[X]V[Y]}} \\
&= \frac{E[XY]-E[X]E[Y]}{\sqrt{V[X]V[Y]}} \quad (1)
\end{align}
$$

上記がピアソンの積率相関係数の式だが、$x_i,y_i$がどちらも順序を表すことから期待値に関して$E[X]=E[Y]$や分散に関して$V[X]=V[Y]$が成立する。これより$(1)$式は下記のように表すことができる。
$$
\large
\begin{align}
r &= \frac{E[XY]-E[X]E[Y]}{\sqrt{V[X]V[Y]}} \quad (1) \\
&= \frac{E[XY]-E[X]^2}{\sqrt{V[X]^2}} \\
&= \frac{E[XY]-E[X]^2}{V[X]} \quad (2)
\end{align}
$$

ここで$E[X], V[X]$は$x_1,x_2,…,x_n$では$1$から$n$が$1$回ずつ出現することから下記のように計算することができる。
$$
\large
\begin{align}
E[X] &= \frac{1}{n} \sum_{i=1}^{n} i \\
&= \frac{n(n+1)}{2n} = \frac{n+1}{2} \quad (3) \\
V[X] &= E[X^2] – E[X]^2 \\
&= \frac{1}{n} \sum_{i=1}^{n} i^2 – \left( \frac{n+1}{2} \right)^2 \\
&= \frac{n(n+1)(2n+1)}{6n} – \frac{(n+1)^2}{4} \\
&= \frac{n+1}{12}(4n+2) – \frac{n+1}{12}(3n+3) \\
&= \frac{(n+1)(n-1)}{12} = \frac{n^2-1}{12} \quad (4)
\end{align}
$$

また、$E[XY]$に関して下記のような変形を行うことができる。
$$
\large
\begin{align}
E[XY] &= E[XY] – E[X^2] + E[X^2] \\
&= \frac{1}{2}(2E[XY] – 2E[X^2]) + E[X^2] \\
&= E[X^2] – \frac{1}{2}(E[X^2] – 2E[XY] + E[Y^2]) \\
&= E[X^2] – \frac{1}{2}E[(X-Y)^2] \\
&= E[X^2] – \frac{1}{2n} \sum_{i=1}^{n}(x_i-y_i)^2 \quad (5)
\end{align}
$$

ここで$(3)$〜$(5)$式を$(2)$式を代入することで下記のように変形を行うことができる。
$$
\large
\begin{align}
r &= \frac{E[XY]-E[X]^2}{V[X]} \\
&= \frac{\displaystyle E[X^2] – \frac{1}{2n} \sum_{i=1}^{n}(x_i-y_i)^2 – E[X]^2}{V[X]} \\
&= \frac{E[X^2]-E[X]^2}{V[X]} – \frac{\displaystyle \frac{1}{2n} \sum_{i=1}^{n}(x_i-y_i)^2}{V[X]} \\
&= \frac{V[X]}{V[X]} – \frac{1}{2n} \sum_{i=1}^{n}(x_i-y_i)^2 \times \frac{12}{n^2-1} \\
&= 1 – \frac{\displaystyle 6 \sum_{i=1}^{n}(x_i-y_i)^2}{n(n^2-1)}
\end{align}
$$

参考

・統計学実践ワークブック 例$13$.$5$

「スピアマンの順位相関係数(Spearman correlation coefficient)の導出」への1件の返信

コメントは受け付けていません。