ブログ

1.7.1 時系列データ 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$1.7.1$節「時系列データ」の内容を元に日毎の気温や毎月の消費者物価指数などの時系列データの概要に関して取り扱いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

「時系列データ」の概要

概要

「日毎の最高気温・最低気温」や「毎月の消費者物価指数・完全失業率」のように、時間の順に得られるデータを「時系列データ(time series data)」といいます。たとえば下記のように日毎の平均気温が得られる場合を仮定します。

$日$ $1$$2$$3$$4$$5$$6$$7$$8$$9$$10$
$平均気温$ $6.6$$7.0$$5.9$$6.3$$7.3$$6.5$$4.0$$5.9$$6.1$$3.4$
「統計検定$2$級対応 統計学基礎」 問$1.1$を元に作成

当記事では以下、時系列データの具体的な例やPythonを用いた可視化について取り扱います。

必要な数学

当記事では用語の確認などが主目的であるので、数学知識は基本的には必要ありません。

時系列データ

Pythonを用いた可視化

前節の例は下記のようなPythonを実行することで可視化できます。

import numpy as np
import matplotlib.pyplot as plt

x = np.arange(1, 11, 1)
y = np.array([6.6, 7., 5.9, 6.3, 7.3, 6.5, 4., 5.9, 6.1, 3.4])

plt.plot(x,y)
plt.show()

・実行結果

時系列データの具体例

以下、「統計検定$2$級対応 統計学基礎」の表$1.19$の値を確認します。

import numpy as np

x = np.loadtxt("Salary.csv", skiprows=1, delimiter=",")

print(x.shape)
print(x[:5])

・実行結果

> print(x.shape)
(135, 3)
> print(x[:5])
[[ 200001.  305282.  403179.]
 [ 200002.  285265.  353285.]
 [ 200003.  304792.  376831.]
 [ 200004.  291911.  362336.]
 [ 200005.  286992.  360746.]]

上記で読み込んだSalary.csv「統計検定$2$級対応 統計学基礎」の公式ページより入手することが可能です。

3.5.2 対応のある2標本の区間推定 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$3.5.2$節「対応のある$2$標本の場合」の内容を元に対応のある$2$標本の区間推定について取りまとめを行いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

「対応のある2標本の区間推定」の概要

概要

$2$標本に対応がある場合、標本平均の差$\overline{X}-\overline{Y}$の分散$V[\overline{X}-\overline{Y}]$について下記が成立します。
$$
\large
\begin{align}
V[\overline{X}-\overline{Y}] = V[\overline{X}] + V[\overline{Y}] – 2 \mathrm{Cov}[\overline{X}, \overline{Y}]
\end{align}
$$

上記の式は$2$標本に対応がない場合も成立しますが、「$2$標本に対応がない$\implies$ $\mathrm{Cov}[\overline{X}, \overline{Y}]=0$」より、「$3.5.1 \,$ $2$つの母平均の差の区間推定」の式に一致します。

このように「対応のある$2$標本の区間推定」は単に母平均の差の区間推定の考え方を用いることはできないので、当記事では$2$標本に対応がある際の区間推定における取り扱いについて確認します。

必要な数学

「区間推定」の結果の導出にあたっては不等号に関する計算がよく出てくるので、抑えておく必要があります。
$$
\large
\begin{align}
-1.96 \frac{\sigma}{\sqrt{n}} \leq \bar{x}-\mu \leq 1.96 \frac{\sigma}{\sqrt{n}}
\end{align}
$$

上記のような数式を$\mu$に関して解く必要があるので、特に$-x<-y$が$x>y$に対応することは必須です。

対応のある2標本の区間推定

対応のある$2$標本$x_1, \cdots , x_n$と$y_1, \cdots , y_n$の母平均の差の取り扱いにあたってはそれぞれの標本の差を$d_i=x_i-y_i$のように定め、$d_i$の標本平均$\bar{d}$と不偏標本分散$s_d^2$の値を計算し、$t$検定を行えば良いです。

ここで$2$標本の差の母平均を$d$とおくとき、$\displaystyle \frac{\bar{d}-d}{s_d/\sqrt{n}} \sim t(n-1)$が成立します。よって母平均$d$の$95$%区間は下記のように表すことができます。
$$
\large
\begin{align}
t_{\alpha=0.975}(n-1) \leq & \frac{\bar{d}-d}{s_d/\sqrt{n}} \leq t_{\alpha=0.025}(n-1) \\
\bar{d} – t_{\alpha=0.025}(n-1) \frac{s_d}{\sqrt{n}} \leq & d \leq \bar{d} + t_{\alpha=0.025}(n-1) \frac{s_d}{\sqrt{n}}
\end{align}
$$

3.5.1 2つの母平均の差の区間推定 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$3.5.1$節「$2$つの母平均の差の区間推定」の内容を元に母平均の差の区間推定について取りまとめを行いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

「2つの母平均の差の区間推定」の概要

概要

教材 人数平均標準偏差
標準版教材(A) $32$$62.2$$11.0$
改定版教材(B) $35$$71.4$$10.8$
「統計検定$2$級対応 統計学基礎」 第$3$章 例$10$

上記のように教材$A$、教材$B$の統計量の実現値が得られた場合、母平均に差があるかを調べる場合を考えます。このときの一連の手順が「$2$つの母平均の差の区間推定」であり、次節で「母分散既知の場合」、「母分散未知かつ等しい場合」の$2$つに場合分けし、それぞれについて区間推定の手順を確認します。

必要な数学

「区間推定」の結果の導出にあたっては不等号に関する計算がよく出てくるので、抑えておく必要があります。
$$
\large
\begin{align}
-1.96 \frac{\sigma}{\sqrt{n}} \leq \bar{x}-\mu \leq 1.96 \frac{\sigma}{\sqrt{n}}
\end{align}
$$

上記のような数式を$\mu$に関して解く必要があるので、特に$-x<-y$が$x>y$に対応することは必須です。

2つの母平均の差の区間推定

母分散が既知のとき

教材$A$の標本の実現値$x_1, \cdots , x_m$が$\mathcal{N}(\mu_1,\sigma_1^2)$に基づいて生成され、教材$B$の標本の実現値$y_1, \cdots , y_n$が$\mathcal{N}(\mu_2,\sigma_2^2)$に基づいて生成されると仮定します。

このとき、標本平均$\overline{X}, \overline{Y}$を下記のように定めます。
$$
\large
\begin{align}
\overline{X} &= \frac{1}{m} \sum_{i=1}^{m} X_i \\
\overline{Y} &= \frac{1}{n} \sum_{j=1}^{n} Y_j \\
\overline{X} & \sim \mathcal{N} \left( \mu_1,\frac{\sigma_1^2}{m} \right), \quad \overline{Y} \sim \mathcal{N} \left( \mu_2,\frac{\sigma_2^2}{n} \right)
\end{align}
$$

ここで標本平均の差の$\overline{X}-\overline{Y}$を考えるとき、正規分布のモーメント母関数などを用いることで下記を示すことができます。
$$
\large
\begin{align}
\overline{X}-\overline{Y} \sim \mathcal{N} \left( \mu_1-\mu_2, \frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n} \right)
\end{align}
$$

ここで$\overline{X}-\overline{Y}$の実現値を$\bar{x}-\bar{y}$とおくと、母平均の差$\mu_1-\mu_2$の$95$%区間に関して下記が成立します。
$$
\large
\begin{align}
z_{\alpha=0.975} \leq \frac{(\bar{x}-\bar{y})-(\mu_1-\mu_2)}{\displaystyle \sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}} \leq z_{\alpha=0.025} \quad (1)
\end{align}
$$

上記の$(1)$式は下記のように変形できます。
$$
\large
\begin{align}
z_{\alpha=0.975} \leq & \frac{(\bar{x}-\bar{y})-(\mu_1-\mu_2)}{\displaystyle \sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}} \leq z_{\alpha=0.025} \quad (1) \\
\bar{x}-\bar{y} – 1.96 \sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}} \leq & \mu_1-\mu_2 \leq \bar{x}-\bar{y} + 1.96 \sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}
\end{align}
$$

上記が母平均の差$\mu_1-\mu_2$の$95$%区間を表します。

発展事項

$\displaystyle \overline{X}-\overline{Y} \sim \mathcal{N} \left( \mu_1-\mu_2, \frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n} \right)$が成立することは正規分布のモーメント母関数を用いることで示すことができます。詳しくは下記で取り扱いました。

上記の導出にはモーメント母関数の理解が必須なので、統計検定$2$級範囲では下記のように$E[\overline{X}-\overline{Y}], V[\overline{X}-\overline{Y}]$の計算で抑えておくでも十分です。
$$
\large
\begin{align}
E[\overline{X}-\overline{Y}] &= E[\overline{X}] – E[\overline{Y}] \\
V[\overline{X}-\overline{Y}] &= V[\overline{X}] + V[-\overline{Y}] \\
&= V[\overline{X}] + (-1)^2V[\overline{Y}] = V[\overline{X}] + V[\overline{Y}]
\end{align}
$$

母分散未知かつ等しい場合

Ch.1 「基礎事項ア・ラ・カルト」の演習問題の解答例 〜統計学のための数学入門30講〜

当記事は「統計学のための数学入門$30$講(朝倉書店)」の読解サポートにあたってChapter.$1$の「基礎事項ア・ラ・カルト」の章末問題の解答の作成を行いました。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は購入の上ご確認ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・書籍解答まとめ
https://www.hello-statisticians.com/answer_textbook_math#math_stat

本章のまとめ

共役複素数の性質

$\alpha=a+bi, \beta=c+di$に関して下記が成立する。
・$[1] \,$ $\alpha$が実数 $\, \iff \,$ $\alpha=\bar{\alpha}$
・$[2] \,$ $\overline{\alpha \pm \beta} = \bar{\alpha} \pm \bar{\beta}$
・$[3] \,$ $\overline{\alpha \beta} = \bar{\alpha} \bar{\beta}$
・$[4] \,$ $\overline{\frac{\alpha}{\beta}} = \frac{\bar{\alpha}}{\bar{\beta}}$
・$[5] \,$ $\alpha \bar{\alpha} = a^2+b^2 = |\alpha|^2$

演習問題解答

問題$1.1$

下記のようにそれぞれ示すことができる。

・$[1]$
$\alpha$が実数のとき、$\alpha=a+bi=a$より$b=0$であり、$\bar{\alpha}=a-bi=a$である。よって$\alpha$が実数 $\, \iff \,$ $\alpha=\bar{\alpha}$が成立する。

・$[2]$
下記が成立する。
$$
\large
\begin{align}
\overline{\alpha \pm \beta} &= \overline{(a+bi) \pm (c+di)} \\
&= \overline{(a \pm c) + (b \pm d)i} \\
&= (a \pm c) – (b \pm d)i \\
\bar{\alpha} \pm \bar{\beta} &= (a-bi) \pm (c-di) \\
&= (a \pm c) – (b \pm d)i
\end{align}
$$

上記より$\overline{\alpha \pm \beta} = \bar{\alpha} \pm \bar{\beta}$が示される。

・$[3]$
下記が成立する。
$$
\large
\begin{align}
\overline{\alpha \beta} &= \overline{(a+bi)(c+di)} \\
&= \overline{ac+bdi^2+(ad+bc)i} \\
&= \overline{ac-bd+(ad+bc)i} = ac-bd-(ad+bc)i \\
\bar{\alpha} \bar{\beta} &= (a-bi)(c-di) \\
&= ac+bdi^2-(ad+bc)i = ac-bd-(ad+bc)i
\end{align}
$$

上記より$\overline{\alpha \beta} = \bar{\alpha} \bar{\beta}$が示される。

・$[4]$
下記が成立する。
$$
\large
\begin{align}
\overline{\left(\frac{\alpha}{\beta}\right)} &= \overline{\left(\frac{a+bi}{c+di}\right)} \\
&= \overline{\left(\frac{(a+bi)(c-di)}{(c+di)(c-di)}\right)} \\
&= \overline{\left(\frac{ac+bdi^2-(ad-bc)i}{c^2-d^2i^2}\right)} \\
&= \overline{\left(\frac{ac-bd-(ad-bc)i}{c^2+d^2}\right)} \\
&= \frac{ac-bd+(ad-bc)i}{c^2+d^2} \\
\frac{\bar{\alpha}}{\bar{\beta}} &= \frac{a-bi}{c-di} \\
&= \frac{(a-bi)(c+di)}{(c-di)(c+di)} \\
&= \frac{ac+bd+(ac-bd)i}{(c^2+d^2}
\end{align}
$$

上記より$\displaystyle \overline{\left(\frac{\alpha}{\beta}\right)} = \frac{\bar{\alpha}}{\bar{\beta}}$が示される。

・$[5]$
下記のような計算が行える。
$$
\large
\begin{align}
\alpha \bar{\alpha} &= (a+bi)(a-bi) \\
&= a^2 – b^2i^2 \\
&= a^2 + b^2
\end{align}
$$

問題$1.2$

2.9.3 2変量正規分布 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.9.3$節「$2$変量正規分布」の内容を元に$2$変量正規分布の数式とその解釈関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

$2$変量正規分布の概要

概要

当記事では$2$つの確率変数$X \sim \mathcal{N}(\mu_x, \sigma_x^2), \, Y \sim \mathcal{N}(\mu_y, \sigma_y^2)$の相関係数を$\rho$とする場合の確率分布について取り扱います。

基本的に$2$級範囲では概要を抑えておくだけで良いと思われますが、必要な場合に詳しい式変形が確認できるように別途行った導出を参照しました。

必要な数学

式を確認するにあたって、展開・因数分解(factorization)の基本公式は抑えておくと良いと思います。

また、等高線を理解するにあたっては、固有値・固有ベクトルの理解が必須です。$2$級範囲では基本的に出題されませんので、理解は必須ではありません。

$2$変量正規分布

$2$変量正規分布の数式

$2$つの連続型確率変数$X \sim \mathcal{N}(\mu_x, \sigma_x^2), \, Y \sim \mathcal{N}(\mu_y, \sigma_y^2)$の相関係数を$\rho$、同時確率密度関数を$f(x,y)$とおくとき、$f(x,y)$は下記のように表すことができます。
$$
\large
\begin{align}
f(x,y) &= \frac{1}{2 \pi \sigma_x \sigma_y \sqrt{1-\rho^2}} \exp{ \left[ -\frac{q(x,y)}{2} \right] } \\
q(x,y) &= \frac{1}{1-\rho^2} \left[ \left( \frac{x-\mu_x}{\sigma_x} \right)^2 – 2 \rho \left( \frac{x-\mu_x}{\sigma_x} \right)\left( \frac{y-\mu_y}{\sigma_y} \right) + \left( \frac{y-\mu_y}{\sigma_y} \right)^2 \right]
\end{align}
$$

上記の式で表される$2$次元の確率分布を$2$変量正規分布($2$-variate normal distribution)といいます。ここで変量(variate)は確率変数を意味し、多変量解析は複数の確率変数を含む統計解析を表すことも合わせて抑えておくと良いです。

具体的なパラメータと$2$変量正規分布

$\mu_1=1, \mu_2=1, \sigma_x=1, \sigma_y=1, \rho=0.7$のとき、前項で確認を行なった確率密度関数$f(x,y)$は下記のように表すことができます。
$$
\large
\begin{align}
q(x,y) &= \frac{1}{1-\rho^2} \left[ \left( \frac{x-\mu_x}{\sigma_x} \right)^2 – 2 \rho \left( \frac{x-\mu_x}{\sigma_x} \right)\left( \frac{y-\mu_y}{\sigma_y} \right) + \left( \frac{y-\mu_y}{\sigma_y} \right)^2 \right] \\
&= \frac{1}{1-0.7^2} \left[ \left( \frac{x-1}{1} \right)^2 – 2 \cdot 0.7 \left( \frac{x-1}{1} \right)\left( \frac{y-1}{1} \right) + \left( \frac{y-1}{1} \right)^2 \right] \\
&= \frac{1}{0.51} \left[ (x-1)^2 – 1.4 (x-1)(y-1) + (y-1)^2 \right] \\
f(x,y) &= \frac{1}{2 \pi \sigma_x \sigma_y \sqrt{1-\rho^2}} \exp{ \left[ -\frac{q(x,y)}{2} \right] } \\
&= \frac{1}{2 \pi \cdot 1 \cdot 1 \sqrt{1-0.7^2}} \exp{ \left[ -\frac{(x-1)^2 – 1.4 (x-1)(y-1) + (y-1)^2}{2 \cdot 0.51} \right] } \\
&= \frac{1}{2 \sqrt{0.51} \pi} \exp{ \left[ -\frac{(x-1)^2 – 1.4 (x-1)(y-1) + (y-1)^2}{1.02} \right] }
\end{align}
$$

上記の$f(x,y)$等高線の$1$つは下記のように表すことができます。

導出は$2$級範囲では必要ないので省略しましたが、詳しくは下記で取り扱いました。

$2$変量正規分布の条件付き分布・周辺分布

下記で詳しく取り扱いました。

2.9.2 確率変数の和の期待値・分散の取り扱い 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.9.2$節「共分散と相関係数」の内容を元に確率変数の和の期待値・分散の取り扱いに関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

当記事の概要

概要

当記事では以下、確率変数$X, Y$の和$X+Y$に関する期待値$E[X+Y]$や分散$V[X+Y]$の取り扱いについてまとめました。下記などの内容を元に取りまとめました。

必要な数学

導出の理解にあたっては、展開・因数分解(factorization)の基本公式が必須です。

確率変数の和の期待値・分散の取り扱い

$E[X+Y] = E[X]+E[Y]$

確率変数の和$X+Y$の期待値$E[X+Y]$は下記のように表すことができます。
$$
\large
\begin{align}
E[X+Y] = E[X] + E[Y]
\end{align}
$$

上記の導出に関しては下記で詳しく取り扱いました。

$V[X+Y]$の取り扱い

確率変数の和$X+Y$の分散$V[X+Y]$は下記のように表すことができます。
$$
\large
\begin{align}
V[X+Y] = V[X] + V[Y] + \mathrm{Cov}[X,Y] \quad (1)
\end{align}
$$

上記の$\mathrm{Cov}[X,Y]$は$X$と$Y$の共分散を表します。式の導出に関しては下記で詳しく取り扱いました。

ここで相関係数を$r[X,Y]$とおくと、相関係数の定義より下記のように表されます。
$$
\large
\begin{align}
r[X,Y] = \frac{\mathrm{Cov}[X,Y]}{\sqrt{V[X]V[Y]}}
\end{align}
$$

上記より$(1)$式は下記のように表すこともできます。
$$
\large
\begin{align}
V[X+Y] &= V[X] + V[Y] + \mathrm{Cov}[X,Y] \quad (1) \\
&= V[X] + V[Y] + r[X,Y] \sqrt{V[X]V[Y]}
\end{align}
$$

$V[X_1 + \cdots + X_n]$の取り扱い

下記で詳しく取り扱いました。

1.6.2 相関係数 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$1.6.2$節「相関係数」の内容を元に$2$変数の相関を確認するにあたって用いられることの多い相関係数に関して取り扱いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

相関係数の概要

概要

$1.6.1$ 散布図と相関」では$2$変数の相関を散布図を元に確認しましたが、散布図のように定性的ではなく定量的に相関を計算するのが当記事で取り扱う相関係数です。相関係数は$2$変数それぞれの分散と共分散を用いて定義する指標ですが、詳しくは以下で取り扱います。

必要な数学

相関係数の式の定義にあたっては$\displaystyle \sum$が用いられるので抑えておくと良いです。

また、相関係数はベクトルの内積を元に表すと理解しやすいので、ベクトルと内積を抑えておくと良いと思います。

相関係数

共分散の定義式

$x_1, \cdots , x_n$と$y_1, \cdots , y_n$の平均$\bar{x}, \bar{y}$と標準偏差$s_x, s_y$をそれぞれ下記のように定義します。
$$
\large
\begin{align}
\bar{x} &= \frac{1}{n} \sum_{i=1}^{n} x_i \\
s_x &= \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2 }
\end{align}
$$

$$
\large
\begin{align}
\bar{y} &= \frac{1}{n} \sum_{i=1}^{n} y_i \\
s_y &= \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (y_i-\bar{y})^2 }
\end{align}
$$

このとき$x, y$の共分散$s_{xy}$は下記のように定義されます。
$$
\large
\begin{align}
s_{xy} = \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})(y_i-\bar{y})
\end{align}
$$

共分散の解釈

共分散の解釈にあたっては下記のように$(\bar{x},\bar{y})$に着目して考えると良いです。

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

np.random.seed(0)

x = stats.uniform.rvs(0., 10., size=100)
y = x + stats.norm.rvs(0, 1, size=100)

mean_x, mean_y = np.mean(x), np.mean(y)

plt.scatter(x,y,color="limegreen")
plt.plot(np.linspace(0., 10., 100), mean_y*np.ones(100), "g--")
plt.plot(mean_x*np.ones(100), np.linspace(np.min(y)-1., np.max(y)+1., 100), "g--")

plt.show()

・実行結果

上記は正の相関がある観測値の散布図に直線$x=\bar{x}, y=\bar{y}$を書き入れたものです。上記より、正の相関がある場合は$(\bar{x},\bar{y})$の右上と左下にサンプルが多いことが確認できます。ここで共分散の式における$(x_i-\bar{x})(y_i-\bar{y})$は$(\bar{x},\bar{y})$の右上と左下に$(x_i,y_i)$があれば正、左上と右下に$(x_i,y_i)$があれば負の値を取ります。よって、共分散は$(x_i,y_i)$が$(\bar{x},\bar{y})$を基準にどの位置にあることが多いかを表す指標であると解釈できます。

相関係数の定義

共分散$s_{xy}$は$s_{xy}>0$であれば正の相関、$s_{xy}<0$であれば負の相関を表します。このとき相関の強さを判断するにあたっては、共分散は$x, y$のそれぞれの分散の値が大きくなるにつれて大きくなるのでスケールを調整する必要があります。

スケールの調整にあたって、相関係数$r_{xy}$を下記のように定義します。
$$
\large
\begin{align}
r_{xy} = \frac{s_{xy}}{s_x s_y}
\end{align}
$$

相関係数の解釈

相関係数を用いる際には下記の$3$点に注意すると良いです。

① 相関関係と因果関係は異なるので、因果関係を示す場合はそれぞれの変数の持つ意味を含めて考察する必要がある。
② 因果関係がなくても相関係数が大きい場合があり、このような場合を擬相関(spurious correlation)という。
③ 相関係数は$2$変数が線形式で表せる前提を置いているので非線形の関数で近似できる場合などは散布図などから判断する必要がある。

ベクトルの内積を用いた相関係数の表現

ベクトル$\mathbf{x}-\bar{\mathbf{x}}, \mathbf{y}-\bar{\mathbf{y}}$をそれぞれ下記のように定めます。
$$
\large
\begin{align}
\mathbf{x}-\bar{\mathbf{x}} &= \left( \begin{array}{c} x_1-\bar{x} \\ \vdots \\ x_n-\bar{x} \end{array} \right) \\
\mathbf{y}-\bar{\mathbf{y}} &= \left( \begin{array}{c} y_1-\bar{y} \\ \vdots \\ y_n-\bar{y} \end{array} \right)
\end{align}
$$

このとき相関係数は下記のように表すことができます。
$$
\large
\begin{align}
r_{xy} &= \frac{s_{xy}}{s_x s_y} \\
&= \frac{\displaystyle \sum_{i=1}^{n} (x_i-\bar{x})(y_i-\bar{y})}{\displaystyle \sqrt{\sum_{i=1}^{n} (x_i-\bar{x})^2 \cdot \sum_{i=1}^{n} (y_i-\bar{y})^2}} \\
&= \frac{(\mathbf{x}-\bar{\mathbf{x}}) \cdot (\mathbf{y}-\bar{\mathbf{y}})}{|\mathbf{x}-\bar{\mathbf{x}}||\mathbf{y}-\bar{\mathbf{y}}|}
\end{align}
$$

さらにここで下記が成立します。
$$
\large
\begin{align}
r_{xy} &= \frac{(\mathbf{x}-\bar{\mathbf{x}}) \cdot (\mathbf{y}-\bar{\mathbf{y}})}{|\mathbf{x}-\bar{\mathbf{x}}||\mathbf{y}-\bar{\mathbf{y}}|} \\
(\mathbf{x}-\bar{\mathbf{x}}) \cdot (\mathbf{y}-\bar{\mathbf{y}}) &= |\mathbf{x}-\bar{\mathbf{x}}||\mathbf{y}-\bar{\mathbf{y}}| r_{xy} \\
&= |\mathbf{x}-\bar{\mathbf{x}}||\mathbf{y}-\bar{\mathbf{y}}| \cos{\theta}
\end{align}
$$

上記では内積の定義に基づき$r_{xy}=\cos{\theta}$のように表しましたが、$\theta$はベクトル$\mathbf{x}-\bar{\mathbf{x}}, \mathbf{y}-\bar{\mathbf{y}}$のなす角であると解釈することができます。

1.6.1 散布図と相関 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$1.6.1$節「散布図」の内容を元に$2$変数の相関を確認するにあたって用いられることの多い散布図に関して取り扱いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

散布図と相関の概要

概要

基本的に賃貸マンションの家賃は部屋の大きさが大きくなるにつれて高くなる傾向にあります。このように「家賃」と「部屋の大きさ」のような$2$つの変数の関係を相関(correlation)といいます。

$2$変数の相関は主に「正の相関」、「負の相関」、「無相関」の$3$種類ありますが、「片方が増えればもう片方も増える」場合は「正の相関」、「片方が増えればもう片方は減る」場合は「負の相関」、「$2$変数が連動しない」場合は「無相関」のようにそれぞれ表します。

相関を調べる際には主に「散布図の作成」と「相関係数の計算」の$2$つの手段があり、大概の場合はどちらも用いて相関があるかどうかを調べます。相関係数は「$1.6.2$ 相関係数」で取り扱うので、当記事では「散布図」に関して以下取り扱いました。

必要な数学

当記事では図を元に定性的な確認・考察を行うので、数学知識は基本的には必要ありません。

散布図と相関

散布図と正の相関

正の相関を持つ散布図は下記を実行することで作成できます。

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

np.random.seed(0)

x = stats.uniform.rvs(0., 10., size=100)
y = x + stats.norm.rvs(0, 1, size=100)

plt.scatter(x,y,color="limegreen")
plt.show()

・実行結果

散布図と負の相関

負の相関を持つ散布図は下記を実行することで作成できます。

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

np.random.seed(0)

x = stats.uniform.rvs(0., 10., size=100)
y = -x + stats.norm.rvs(0, 1, size=100)

plt.scatter(x,y,color="limegreen")
plt.show()

・実行結果

散布図と無相関

Ch.2 「和と積」の演習問題の解答例 〜統計学のための数学入門30講(朝倉書店)〜

当記事は「統計学のための数学入門$30$講(朝倉書店)」の読解サポートにあたってChapter.$2$の「和と積」の章末問題の解答の作成を行いました。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は購入の上ご確認ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・書籍解答まとめ
https://www.hello-statisticians.com/answer_textbook_math#math_stat

本章のまとめ

演習問題解答

問題$2.1$

問題$2.2$

$$
\large
\begin{align}
f(x) = \frac{x}{1-x}
\end{align}
$$

・$[1]$
$|x|<1$のとき下記が成立する。
$$
\large
\begin{align}
1+x+x^2+\cdots = \sum_{k=0}^{\infty} x^{k} = \frac{1}{1-x}
\end{align}
$$

よって$f(x)$は下記のような$x$のべき乗で表せる。
$$
\large
\begin{align}
f(x) &= \frac{x}{1-x} \\
&= x \times \frac{1}{1-x} \\
&= x \sum_{k=0}^{\infty} x^{k}
\end{align}
$$

・$[2]$
$|1/x|<1$のとき下記が成立する。
$$
\large
\begin{align}
1 + \frac{1}{x} + \frac{1}{x^2} + \cdots &= \frac{1}{1-1/x} \\
&= \frac{1}{\displaystyle \frac{x-1}{x}} \\
&= \frac{x}{x-1} = -f(x)
\end{align}
$$

よって$f(x)$は下記のような$1/x$のべき乗で表せる。
$$
\large
\begin{align}
f(x) &= -\frac{x}{x-1} \\
&= -\sum_{k=0}^{\infty} \left( \frac{1}{x} \right)^{k}
\end{align}
$$

1.4.3 外れ値(outlier) 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$1.4.3$節「外れ値」の内容を元に例外的な値である観測値の外れ値の概要や簡単な取り扱い方に関して取り扱いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

外れ値の概要

概要

実験・調査・観測値の入力などの際のミスや分布のばらつきが大きいときなどに起因して、平均や中央値を基準に極めて大きい観測値や極めて小さい観測値が観測される場合があります。このような値を「外れ値(outlier)」といいます。

入力ミスなどによる「外れ値」は修正が必要である一方で、正しい観測値である場合も母集団の傾向を掴むにあたって除外して考える場合もあります。逆に「異常検知」のように「外れ値」にフォーカスして原因の究明を行うなどもあります。

「外れ値」かどうかを判定するにあたっては「標準化得点」や「箱ひげ図」などを用いることが多いです。当記事では以下、外れ値の判定や取り扱いに関して取りまとめを行いました。

必要な数学

中央値、四分位数などを主に取り扱うので、$2$級範囲では数学知識は特に必要ありません。

外れ値の判定

標準化得点と外れ値

詳しくは「$1.3.2$ 標準化得点」で取り扱いましたが、観測値$x_1, \cdots , x_n$の平均$\bar{x}$、標準偏差$S$を元に標準化得点$z_i$は下記のように定義されます。
$$
\large
\begin{align}
z_i = \frac{x_i-\bar{x}}{S}
\end{align}
$$

また、標準化得点$z_i$を元に偏差値は下記のように定義されます。
$$
\large
\begin{align}
10 z_i + 50
\end{align}
$$

$z_i=1, 2$はそれぞれ偏差値$60$と$70$に対応するので、$|z_i| \geq 2$などを基準に外れ値を定めることができます。$x_i$が正規分布に基づいて得られるとき、$z_i>1$の確率は約$15.87$%、$z_i>2$の確率は約$2.28$%、$z_i>3$の確率は約$0.13$%がそれぞれ対応します。

異常検知の際などは$z_i>3$が用いられることが多いようなので、$1,000$回に$1$回起こるような事象は外れ値であると解釈することもできます。このように外れ値の判定基準は問題によりけりですが、標準化得点を用いることで外れ値の判定が行えるということは抑えておくと良いと思います。

箱ひげ図と外れ値

下記を実行することで「$1.4.2$ 箱ひげ図」で作成した図と同様な図を作成することができます。

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

np.random.seed(0)

x1 = stats.norm.rvs(loc=0,scale=1,size=100)
x2 = stats.norm.rvs(loc=0,scale=1.5,size=100)
x3 = stats.norm.rvs(loc=1,scale=1,size=100)

plt.boxplot([x1, x2, x3])
plt.show()

・実行結果

上記では外れ値は+で表されるので、一番右の箱ひげ図で外れ値が図示されることが確認できます。一方で、ここで生成を行なった観測値は正規分布に基づいて生成を行なった乱数であるので、それほど極端な外れ値は観測できないことも合わせて抑えておくと良いです。