記述統計の基本事項の確認とその応用|基本演習で理解する統計学【1】

下記などで取り扱った、記述統計の基本事項に関する問題演習を通した理解ができるように問題・解答・解説をそれぞれ作成しました。
https://www.hello-statisticians.com/explain-terms-cat/desc_stat1.html

基本問題

$1$変数の標本の取り扱い

・問題
テストの点数やオフィスの面積など、観測対象に対し$1$つの変数を割り当てることは多い。このときに$1$変数のサンプルの取り扱いを知っておくことで観測値の特徴を考察することができる。
以下、基本的な指標などについて取り扱う。下記の問題に答えよ。
i) $n$個の観測値を$x_i \quad (1 \leq i \leq n)$のように表すとき、標本の平均$\bar{x}$を$x_i$と$n$を用いて表せ。
ⅱ) 標本の分散を$S^2$とするとき、$S^2$を$x_i, \bar{x}, n$を用いて表せ。
ⅲ) $n$が奇数のとき、標本の中央値を$n$を用いて表せ。
iv) $n$が偶数のとき、標本の中央値を$n$を用いて表せ。
v) 平均と中央値が一致するときと一致しないときはそれぞれどのような状況が想定されるかを説明せよ。

・解答
i)
標本の平均$\bar{x}$は下記のように表すことができる。
$$
\large
\begin{align}
\bar{x} &= \frac{1}{n} (x_1+x_2+…+x_n) \\
&= \frac{1}{n} \sum_{i=1}^{n} x_i
\end{align}
$$

ⅱ)
標本の分散を$S^2$は下記のように表すことができる。
$$
\large
\begin{align}
S^2 &= \frac{1}{n} ((x_1-\bar{x})^2+(x_2-\bar{x})^2+…+(x_n-\bar{x})^2) \\
&= \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2
\end{align}
$$

ⅲ)
$n$が奇数のとき、標本の中央値$n$は下記のようになる。
$$
\large
\begin{align}
x_{\frac{n+1}{2}}
\end{align}
$$

iv)
$n$が偶数のとき、標本の中央値$n$は下記のようになる。
$$
\large
\begin{align}
\frac{x_{n/2} + x_{(n/2)+1}}{2}
\end{align}
$$

v)
平均と中央値が一致する場合は標本が平均を中心に対称である場合が多く、一致しない場合は非対称であることが多い。

・解説
ⅲ)〜v)で取り扱った中央値は概念はシンプルな一方で、数式で表すと少々難しく見えるかもしれません。とはいえ基本事項なので、繰り返し確認することで抑えておくと良いと思います。

$2$変数の取り扱い

・問題
「数学と理科の点数」や「数学と国語の点数」など、$2$つの変数がどのように関連するかについて考察したいときも多い。以下では$2$変数の取り扱いについて確認する。
下記の問いに答えよ。
i) $n$対の観測値を$(x_i, y_i) \quad (1 \leq i \leq n)$のように表すとき、標本の平均$\bar{x}, \bar{y}$を$x_i, y_i$と$n$を用いて表せ。
ⅱ) $x_i$の分散を$S_x^2$、$y_i$の分散を$S_y^2$とするとき、$S_x^2, S_y^2$を$x_i, \bar{x}, y_i, \bar{y}, n$を用いて表せ。
ⅲ) $x_i, y_i$の共分散$C_{xy}$を$x_i, \bar{x}, y_i, \bar{y}, n$を用いて表せ。
iv) $x_i, y_i$の相関係数$r_{xy}$を$x_i, \bar{x}, y_i, \bar{y}, n$を用いて表せ。
v) 共分散、相関係数の値はどのように解釈すると良いか説明せよ。

・解答
i)
$x_i, y_i$の平均$\bar{x}, \bar{y}$は下記のように表すことができる。
$$
\large
\begin{align}
\bar{x} &= \frac{1}{n} (x_1+x_2+…+x_n) \\
&= \frac{1}{n} \sum_{i=1}^{n} x_i \\
\bar{y} &= \frac{1}{n} (y_1+y_2+…+y_n) \\
&= \frac{1}{n} \sum_{i=1}^{n} y_i
\end{align}
$$

ⅱ)
$S_x^2, S_y^2$は下記のように表すことができる。
$$
\large
\begin{align}
S_x^2 &= \frac{1}{n} ((x_1-\bar{x})^2+(x_2-\bar{x})^2+…+(x_n-\bar{x})^2) \\
&= \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2 \\
S_y^2 &= \frac{1}{n} ((y_1-\bar{y})^2+(y_2-\bar{y})^2+…+(y_n-\bar{y})^2) \\
&= \frac{1}{n} \sum_{i=1}^{n} (y_i-\bar{y})^2
\end{align}
$$

ⅲ)
共分散$C_{xy}$は下記のように表すことができる。
$$
\large
\begin{align}
C_{xy} &= \frac{1}{n} ((x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+…+(x_n-\bar{x})(y_n-\bar{y})) \\
&= \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})(y_i-\bar{y})
\end{align}
$$

iv)
相関係数$r_{xy}$は下記のように表すことができる。
$$
\large
\begin{align}
r_{xy} &= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})/n}{\sqrt{\sum(x_i-\bar{x})^2/n}\sqrt{\sum(y_i-\bar{y})^2/n}} \\
&= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum(x_i-\bar{x})^2}\sqrt{\sum(y_i-\bar{y})^2}}
\end{align}
$$

v)
$x$を横軸、$y$を縦軸に考え$\bar{x}, \bar{y}$を中心と見たときに、右上と左下に観測値があれば共分散は正の値となり、右下と左上に観測値があれば負の値となる。この共分散を分散を用いて正規化を行なったのが相関係数で、変数の関連についての指標に用いられる。

・解説
$2$変数の取り扱いにおいて重要なのが共分散と相関係数の理解です。数式だけを見ると難しいかもしれないので、図なども合わせて理解すると良いと思います。

相関係数と内積

・問題
$$
\begin{align}
r_{xy} &= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})/n}{\sqrt{\sum(x_i-\bar{x})^2/n}\sqrt{\sum(y_i-\bar{y})^2/n}} \\
&= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum(x_i-\bar{x})^2}\sqrt{\sum(y_i-\bar{y})^2}}
\end{align}
$$
変数$x$と$y$の相関係数は上記のように定義される。相関係数は変数間の関係を表した指標であるが、分子が共分散、分母が分散の式で定義されていることは式からわかる。また、この相関係数の式はベクトルのなす角と内積の公式から導出できることも抑えておくと良い。

ここまでの話に関して、以下では相関係数の式を「ベクトルのなす角と内積の公式」から導出する。以下の問題に答えよ。
i) ベクトル$\vec{a}, \vec{b}$を$\displaystyle \vec{a}=\left(\begin{array}{c} a_1 \\ a_2 \end{array}\right), \vec{b}=\left(\begin{array}{c} b_1 \\ b_2 \end{array}\right)$のように表すとき、$\vec{a} \cdot \vec{b}$を$a_1, a_2, b_1, b_2$の式で表せ。
ⅱ) ベクトル$\vec{a}, \vec{b}$の内積を$\vec{a} \cdot \vec{b}$、なす角を$\theta$、それぞれのベクトルの長さを$|\vec{a}|, |\vec{b}|$と表すとき、$\vec{a} \cdot \vec{b} = |\vec{a}||\vec{b}| \cos{\theta}$が成立する。このときi)の結果と$\vec{a} \cdot \vec{b} = |\vec{a}||\vec{b}| \cos{\theta}$を用いて$\cos{\theta}$を$a_1, a_2, b_1, b_2$の式で表せ。
ⅲ) ⅱ)の途中式において$\displaystyle \vec{a}=\left(\begin{array}{c} (x_1-\bar{x}) \\ … \\ (x_n-\bar{x}) \end{array}\right), \vec{b}=\left(\begin{array}{c} (y_1-\bar{y}) \\ … \\ (y_n-\bar{y}) \end{array}\right)$を代入した際に、$\cos{\theta} = r_{xy}$が導出できることを確認せよ。

・解答
i)
ベクトルの成分とベクトルの内積については下記が成立する。
$$
\large
\begin{align}
\vec{a} \cdot \vec{b} &= \left(\begin{array}{c} a_1 \\ a_2 \end{array}\right) \cdot \left(\begin{array}{c} b_1 \\ b_2 \end{array}\right) \\
&= a_1b_1 + a_2b_2
\end{align}
$$

ⅱ)
$|\vec{a}|, |\vec{b}|$はそれぞれ下記のように表せる。
$$
\large
\begin{align}
|\vec{a}| &= \sqrt{a_1^2 + a_2^2} \\
|\vec{b}| &= \sqrt{b_1^2 + b_2^2}
\end{align}
$$
$\vec{a} \cdot \vec{b} = |\vec{a}||\vec{b}| \cos{\theta}$より、$\displaystyle \cos{\theta} = \frac{\vec{a} \cdot \vec{b}}{|\vec{a}||\vec{b}|}$が成立するので、i)の結果を元に下記のように表すことができる。
$$
\large
\begin{align}
\cos{\theta} &= \frac{\vec{a} \cdot \vec{b}}{|\vec{a}||\vec{b}|} \\
&= \frac{a_1b_1 + a_2b_2}{\sqrt{a_1^2 + a_2^2}\sqrt{b_1^2 + b_2^2}}
\end{align}
$$

ⅲ)
$\displaystyle \cos{\theta} = \frac{\vec{a} \cdot \vec{b}}{|\vec{a}||\vec{b}|}$にⅱ)に$\displaystyle \vec{a}=\left(\begin{array}{c} (x_1-\bar{x}) \\ … \\ (x_n-\bar{x}) \end{array}\right), \vec{b}=\left(\begin{array}{c} (y_1-\bar{y}) \\ … \\ (y_n-\bar{y}) \end{array}\right)$を代入すると下記のようになる。
$$
\large
\begin{align}
\cos{\theta} &= \frac{\vec{a} \cdot \vec{b}}{|\vec{a}||\vec{b}|} \\
&= \frac{(x_n-\bar{x})(y_n-\bar{y})+…+(x_n-\bar{x})(y_n-\bar{y})}{\sqrt{(x_1-\bar{x})^2+…+(x_n-\bar{x})^2}\sqrt{(y_1-\bar{y})^2+…+(y_n-\bar{y})^2}} \\
&= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum(x_i-\bar{x})^2}\sqrt{\sum(y_i-\bar{y})^2}} = r_{xy}
\end{align}
$$
上記より、$\cos{\theta} = r_{xy}$が成立する。

・解説
この問題で用いたようなベクトルのなす角や内積を用いた変形は時折出てくるので、抑えておくと良いと思います。

発展問題