12章「相関分析」の練習問題解答例〜例題で学ぶ初歩からの統計学[第2版]〜

当記事は「白砂, 例題で学ぶ初歩からの統計学 第$2$版 (日本評論社)」の読解サポートにあたって$12$章「相関分析」の練習問題を解説します。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。(そのため著者の意図とは異なる解説となる可能性はあります)

・統計学に関する書籍の解答集
https://www.hello-statisticians.com/answer_textbook

執筆:@kakusan96

演習問題 解答例

12-1. 相関分析

以下の通り

相関係数$r$は$2$変数$x, y$の間にどの程度の直線的な関連があるかを表す指標である。$x, y$のデータが標本の場合、相関係数(厳密には標本相関係数)は以下の式で表される。
$-1 \leq r \leq 1$の範囲で値をとり、$-1$または$1$に近いほど強い相関があるといえる。

$$
\begin{align*}
r_{xy}
&= \frac{s_{xy}}{s_x s_y}\\
&= \frac{\sum_{i = 1}^n (x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\sum_{i = 1}^n (x_i – \bar{x})^2}\sqrt{\sum_{i = 1}^n (y_i – \bar{y})^2}}\\
&= \frac{n \cdot \sum_{i=1}^n (xy) – (\sum_{i=1}^n x)\cdot (\sum_{i=1}^n y)}{\sqrt{(n \cdot \sum_{i=1}^n x^2 – (\sum_{i=1}^n x)^2) \cdot (n\cdot \sum_{i=1}^n y^2 – (\sum_{i=1}^n y)^2)}}\\
\end{align*}
$$

  • $r_{xy}$: $x$と$y$の相関係数
  • $\bar{x}$: $x$の平均
  • $\bar{y}$: $y$の平均
  • $s_{xy}$: $x$と$y$の共分散
  • $s_x$: $x$の標準偏差
  • $s_y$: $y$の標準偏差

$\bar{x} = 5, \bar{y} = 4$であり、

$$
\begin{align*}
\sum_{i = 1}^n (x_i – \bar{x})(y_i – \bar{y}) &= -50\\
\sum_{i = 1}^n (x_i – \bar{x})^2 &=60\\
\sum_{i = 1}^n (y_i – \bar{y})^2 &=44
\end{align*}
$$

である。

よって、$\displaystyle r_{xy}=\frac{-50}{\sqrt{60}\cdot\sqrt{44}}=-0.973$

問のデータ表から以下の通り計算できる。

$$
\begin{align*}
&\sum_{i=1}^n (xy)=110\\
&\sum_{i=1}^n x = 40\\
&\sum_{i=1}^n y = 32\\
&\sum_{i=1}^n x^2 = 260\\
&\sum_{i=1}^n y^2 = 172\\
& \left(\sum_{i=1}^n x \right)^2 = 1600\\
& \left(\sum_{i=1}^n y \right)^2 = 1024
\end{align*}
$$

よって、

$$
\begin{align*}
r_{xy} &=\frac{(8 \cdot 110-40\cdot32)}{\sqrt{(8\cdot 260-1600) \cdot (8 \cdot 172-1024)}}\\
&=\frac{-400}{\sqrt{(480) \cdot (352)}}\\
&=\frac{-400}{\sqrt{168960}}\\
&=-0.973
\end{align*}
$$

上記で求めた標本相関係数から、母集団の相関係数$\rho$が$0$であるかを検定する方法を無相関検定という。計算した標本相関係数$r$の絶対値が$204$ページの表$12$-$4$に示された数値(臨界値)より大きければ、母集団における$2$つの変数間に有意な相関があり($\rho\neq0$)、逆に臨界値より小さければ有意な相関があるとは言えない。

  • 帰無仮説:母集団における$2$つの変数間の相関係数は$0$である。($\rho=0$)
  • 対立仮説:母集団における$2$つの変数間に相関がある。($\rho\neq0$)

標本サイズ$n=8$より、自由度は$n-2=6$であり、自由度$6$、有意水準$5%$で両側検定を行う。自由度$6$の両側検定における有意水準$5%$点の臨界点は、表より$0.707$であり、これは上記で求めた相関係数$r_{xy}$の絶対値の方が大きいため、帰無仮説は棄却される。よって母集団の$2$つの変数間には相関があると言える。

12-2. 相関分析

下図の通り。

問のデータ表から、

$\bar{x} = 5$、$\bar{y} = 4$であり、

$$
\begin{align*}
&\sum_{i = 1}^n (x_i – \bar{x})(y_i – \bar{y})=2.23\\
&\sum_{i = 1}^n (x_i – \bar{x})^2=6.68\\
&\sum_{i = 1}^n (y_i – \bar{y})^2=0.84
\end{align*}
$$

よって、

$$r_{xy}=\frac{2.23}{\sqrt{6.68}\cdot\sqrt{0.84}}=0.9414$$

問のデータ表から、

$$
\begin{align*}
&\sum_{i=1}^n (xy)=302.23\\
&\sum_{i=1}^n x = 60\\
&\sum_{i=1}^n y = 50\\
&\sum_{i=1}^n x^2 = 366.68\\
&\sum_{i=1}^n y^2 = 250.84\\
&\left(\sum_{i=1}^n x\right)^2 = 3600\\
&\left(\sum_{i=1}^n y \right)^2 = 2500
\end{align*}
$$

よって、

$$
\begin{align*}
r_{xy} &= \frac{(10 \cdot 302.23-60\cdot50)}{\sqrt{(10\cdot 366.68-3600) \cdot (10 \cdot 250.84-2500)}}\\
&= \frac{22.3}{\sqrt{(66.8) \cdot (8.4)}}\\
&= \frac{22.3}{\sqrt{561.12}}\\
&= 0.9414
\end{align*}
$$

帰無仮説、対立仮説は以下の通り。

  • 帰無仮説:母集団における2つの変数間の相関係数は$0$である。($\rho=0$)
  • 対立仮説:母集団における2つの変数間に相関がある($\rho\neq0$)

標本サイズ$n=10$より、自由度は$n-2=8$であり、自由度$8$、有意水準$5%$で両側検定を行う。自由度$6$の両側検定における有意水準$5%$点の臨界点は、表より$0.632$であり、これは上記で求めた相関係数$r_{xy}$の絶対値の方が大きいため、帰無仮説は棄却される。よって母集団の$2$つの変数間には相関があると言える。

12-3. 相関分析

下図の通り。

問のデータ表から、$\bar{x} = 12$、$\bar{y} = 140$であり、

$$
\begin{align*}
\sum_{i = 1}^n (x_i – \bar{x})(y_i – \bar{y})=815\\
\sum_{i = 1}^n (x_i – \bar{x})^2=296\\
\sum_{i = 1}^n (y_i – \bar{y})^2=2814
\end{align*}
$$

よって、

$$r_{xy}=\frac{815}{\sqrt{296}\cdot\sqrt{2814}}=0.8930$$

となる。

問のデータ表から、

$$
\begin{align*}
&\sum_{i=1}^n (xy)=26015\\
&\sum_{i=1}^n x = 180\\
&\sum_{i=1}^n y = 2100\\
&\sum_{i=1}^n x^2 = 2456\\
&\sum_{i=1}^n y^2 = 296814\\
&\left(\sum_{i=1}^n x \right)^2 = 32400\\
&\left(\sum_{i=1}^n y \right)^2 = 4410000
\end{align*}
$$

よって、

$$
\begin{align*}
r_{xy} &= \frac{(15 \cdot 26015-180\cdot2100)}{\sqrt{(15\cdot 2456-32400) \cdot (15 \cdot 296814-4410000)}}\\
&= \frac{12225}{\sqrt{(4400) \cdot (42210)}}\\
&= \frac{12225}{\sqrt{187412400}}\\
&= 0.8930
\end{align*}
$$

となる。

帰無仮説、対立仮説は以下の通り。

  • 帰無仮説:母集団における$2$つの変数間の相関係数は$0$である。($\rho=0$)
  • 対立仮説:母集団における$2$つの変数間に相関がある。($\rho\neq0$)

標本サイズ$n=15$より、自由度は$n-2=13$であり、自由度$13$、有意水準$5%$および有意水準$1%$で両側検定を行う。

自由度$13$の両側検定における有意水準$5%$点の臨界点は、表より$0.514$であり、これは上記で求めた相関係数$r_{xy}$の絶対値の方が大きいため、帰無仮説は棄却される。よって母集団の2つの変数間には相関があると言える。

また、自由度$13$の両側検定における有意水準$1%$点の臨界点は、表より$0.641$であり、これは上記で求めた相関係数$r_{xy}$の絶対値の方が大きいため、帰無仮説は棄却される。よって母集団の2つの変数間には相関があると言える。

12-4. 相関分析: 相関行列の作成

定義通り計算すると以下の通りとなる。

(1)平均

  • 英語: $70$
  • 国語: $75$
  • 数学: $54$
  • 社会: $66$
  • 理科: $60$

(2)分散

  • 英語: $100$
  • 国語: $64$
  • 数学: $289$
  • 社会: $144$
  • 理科: $225$

(3)標準偏差

  • 英語: $10$
  • 国語: $8$
  • 数学: $17$
  • 社会: $12$
  • 理科: $15$

② ③ 定義通り算出することで下記の表が得られる

12-5. スピアマンの順位和相関係数

スピアマンの順位和相関係数$r_s$は$2$組のデータ$X, Y$が数量ではなく、順位で与えられているときに$X$と$Y$の間の相関関係の強さを調べるための指標である。スピアマンの順位和相関係数のとりうる値の範囲及び解釈は通常の相関係数と同様である。通常の相関係数より、外れ値の影響を受けにくいというメリットがある。

$$
r_s = 1-\frac{6 \sum_{i = 1}^n{(X-Y)^2}}{n(n^2-1)}
$$

下記のように順位をもとに$X-Y$及び$(X-Y)^2$を計算する。同順位のデータがある場合はデータを加工する。この場合は$X$が$6$位の値が$2$つあるため、6.5に変更する。

上記の計算結果をもとにスピアマンの順位和相関係数$r_s$を計算する。

$$
\begin{align*}
r_s &= 1-\frac{6 \sum_{i = 1}^n{(X-Y)^2}}{n(n^2-1)}\\
&=1-\frac{6 \cdot 60.5}{15(15^2-1)}\\
&=1-\frac{363}{3360}\\
&=0.892\\
\end{align*}
$$

相関係数と同様に書籍$p. 208$の表$12$-$6$を用いればスピアマンの順位和相関係数も検定を行うことができる。

  • 帰無仮説:母集団における2つの変数間に有意な相関があるとは言えない($\rho=0$)
  • 対立仮説:母集団における2つの変数間に有意な相関があると言える($\rho\neq0$)

標本サイズ$n=15$より、標本サイズ$15$、有意水準$10%$、有意水準$5%$および有意水準$1%$で両側検定を行う。標本サイズ$15$の両側検定における有意水準$10%$点の臨界点は、表より$0.446$であり、これは上記で求めた相関係数$r_{xy}$の絶対値の方が大きいため、帰無仮説は棄却される。よって母集団の2つの変数間には相関があると言える。

標本サイズ$15$の両側検定における有意水準$5%$点の臨界点は、表より$0.521$であり、これは上記で求めた相関係数$r_{xy}$の絶対値の方が大きいため、帰無仮説は棄却される。よって母集団の2つの変数間には相関があると言える。

標本サイズ$15$の両側検定における有意水準$1%$点の臨界点は、表より$0.657$であり、これは上記で求めた相関係数$r_{xy}$の絶対値の方が大きいため、帰無仮説は棄却される。よって母集団の2つの変数間には相関があると言える。