1.3.1 平均・分散・標準偏差 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$1.3.1$節「平均・分散・標準偏差」の内容を元に得られた観測値の概要を掴む際に用いられる平均・分散・標準偏差に関して取り扱いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

平均・分散・標準偏差の概要

概要

$n$個の観測値を$x_1, x_2, x_3 \cdots , x_{n-1}, x_{n}$のように定義します。これらの観測値を把握するにあたっては度数分布表や度数分布表に基づくヒストグラムを描くなどがありますが、数値を元に要約できると役に立つ場合が多いです。

観測値を数値で要約を行う場合、「観測値の中心を表す指標」と「観測値の散らばりを表す指標」の$2$つが得られれば、観測結果の大まかな理解が可能になります。

当記事では以下、「中心を表す指標」の「平均」と、「散らばりを表す指標」の「分散」と「標準偏差」に関してそれぞれ取りまとめました。

必要な数学

平均や分散の式の定義にあたって、和を表す記号の$\displaystyle \sum$が用いられることが多いので、抑えておく必要があります。

平均・分散・標準偏差

平均

観測値$x_1, x_2, x_3 \cdots , x_{n-1}, x_{n}$の平均$\bar{x}$は下記のように定義されます。
$$
\large
\begin{align}
\bar{x} = \frac{1}{n} (x_1 + x_2 + \cdots + x_n)
\end{align}
$$

「観測値が左右対称に分布する」場合、「平均」が概ね中心になるので、このような場合は「中心を表す指標」に「平均」が用いられることが多いです。

分散

観測値$x_1, x_2, x_3 \cdots , x_{n-1}, x_{n}$の分散$S^2$は下記のように定義されます。
$$
\large
\begin{align}
S^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2
\end{align}
$$

分散は平均からの偏差$x_i-\bar{x}$の$2$乗の和で表されるので、観測値が平均からどのくらい散らばるかを表す指標に用いられます。

標準偏差

標準偏差は分散の$\sqrt{}$を計算することで定義されます。
$$
\large
\begin{align}
S = \sqrt{S^2} = \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2 }
\end{align}
$$

具体例

$3$$4$$5$$6$$7$
$1$$3$$5$$7$$9$
$0$$4$$5$$6$$10$
$0$$1$$5$$9$$10$

以下、上記の観測値を元に①〜④の平均、分散、標準偏差の計算を行います。それぞれ平均を$\bar{x}_1$〜$\bar{x}_4$、標準偏差を$S_1$〜$S_4$のように定義すると、それぞれ下記のように計算できます。

import numpy as np

x = np.array([[3., 4., 5., 6., 7.], [1., 3., 5., 7., 9.], [0., 4., 5., 6., 10.], [0., 1., 5., 9., 10.]])
mean_x = np.mean(x,axis=1)
mean_x_mat = np.repeat(mean_x,5).reshape([4,5])

s2 = np.mean((x-mean_x_mat)**2, axis=1)
s = np.sqrt(s2)

print(mean_x)
print(s2)
print(s)

・実行結果

[ 5.  5.  5.  5.]
[  2.    8.   10.4  16.4]
[ 1.41421356  2.82842712  3.2249031   4.04969135]