当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$1.6.1$節「散布図」の内容を元に$2$変数の相関を確認するにあたって用いられることの多い散布図に関して取り扱いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。
・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic
散布図と相関の概要
概要
基本的に賃貸マンションの家賃は部屋の大きさが大きくなるにつれて高くなる傾向にあります。このように「家賃」と「部屋の大きさ」のような$2$つの変数の関係を相関(correlation)といいます。
$2$変数の相関は主に「正の相関」、「負の相関」、「無相関」の$3$種類ありますが、「片方が増えればもう片方も増える」場合は「正の相関」、「片方が増えればもう片方は減る」場合は「負の相関」、「$2$変数が連動しない」場合は「無相関」のようにそれぞれ表します。
相関を調べる際には主に「散布図の作成」と「相関係数の計算」の$2$つの手段があり、大概の場合はどちらも用いて相関があるかどうかを調べます。相関係数は「$1.6.2$ 相関係数」で取り扱うので、当記事では「散布図」に関して以下取り扱いました。
必要な数学
当記事では図を元に定性的な確認・考察を行うので、数学知識は基本的には必要ありません。
散布図と相関
散布図と正の相関
正の相関を持つ散布図は下記を実行することで作成できます。
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
np.random.seed(0)
x = stats.uniform.rvs(0., 10., size=100)
y = x + stats.norm.rvs(0, 1, size=100)
plt.scatter(x,y,color="limegreen")
plt.show()
・実行結果

散布図と負の相関
負の相関を持つ散布図は下記を実行することで作成できます。
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
np.random.seed(0)
x = stats.uniform.rvs(0., 10., size=100)
y = -x + stats.norm.rvs(0, 1, size=100)
plt.scatter(x,y,color="limegreen")
plt.show()
・実行結果

[…] 「$1.6.1$ 散布図と相関」では$2$変数の相関を散布図を元に確認しましたが、散布図のように定性的ではなく定量的に相関を計算するのが当記事で取り扱う相関係数です。相関係数は$2$変数それぞれの分散と共分散を用いて定義する指標ですが、詳しくは以下で取り扱います。 […]