当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.5$節「期待値と分散」の内容を元に期待値と分散の概要と式表記に関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。
・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic
Contents
期待値・分散の概要
概要
「確率変数の各値の確率」に対応する「確率分布」が得られたとき、「確率分布に基づいて大体このような値が得られるだろう」や「大体このような範囲の値が得られるだろう」と推測できると様々な場面で役に立ちます。
「大まかな値」に対応するのが「期待値」で、「期待値の周囲の大まかな範囲」に対応するのが「分散」です。当記事では以下、確率分布に対応する「期待値」と「分散」を「確率関数」や「確率密度関数」を用いて定義し、「確率分布」と「期待値・分散」の対応について確認します。
必要な数学
「連続型確率分布」の期待値や分散は「積分」を元に定義されるので、「積分」の概念の理解が必要です。当記事では期待値・分散の定義を中心に取り扱っているので、数Ⅱレベルの積分を抑えておけば十分です。
期待値・分散
期待値
直感的理解
期待値は「確率変数がどのような値を取ると期待されるか」に基づいて定められる値です。たとえば宝くじを$1$万円購入した際の還元される額を確率変数$X$で表すとき、おおよその還元率を$3$割と仮定するなら$X$の期待値は$3000$円となります。
離散型確率分布
離散型確率変数$X$が$X=x_i$を取るときの確率を確率関数$f(x_i)$で表すと、確率変数$X$の期待値$E[X]$は下記のように定義されます。
$$
\large
\begin{align}
E[X] = \sum_{i} x_i f(x_i) = \mu
\end{align}
$$
上記では$E[X]=\mu$のように表しましたが、$\mu$は平均を表すmeanの頭文字のmに対応するギリシア文字であることも合わせて抑えておくと良いです。
連続型確率分布
連続型確率変数$X$に対応する確率密度関数を$f(x)$とおくと、確率変数$X$の期待値$E[X]$は下記のように定義されます。
$$
\large
\begin{align}
E[X] = \int_{-\infty}^{\infty} xf(x) dx = \mu
\end{align}
$$
分散
直感的理解
分散は「確率変数の散らばり度合い」に関して定められる値です。たとえば$2$つのテストの平均が双方$60$点だった場合でも、「予め問題が通知される場合」は散らばりが小さく、「抜き打ちテストの場合」は散らばりが大きいと考えられます。
このように単に平均だけを計算して標本を要約することを考えるのではなく、散らばり度合いも合わせて確認することでより質の高い考察を行えるようになります。
離散型確率分布
離散型確率変数$X$が$X=x_i$を取るときの確率を確率関数$f(x_i)$で表すと、確率変数$X$の分散$V[X]$は下記のように定義されます。
$$
\large
\begin{align}
V[X] = \sum_{i} (x_i-\mu)^2 f(x_i) = \sigma^2
\end{align}
$$
分散は「確率変数$X$の母平均$\mu$からの差分の二乗の期待値」と解釈できるので$V[X]=E[(X-\mu)^2]=E[(X-E[X])^2]$のように表せることも合わせて抑えておくと良いです。
連続型確率分布
連続型確率変数$X$に対応する確率密度関数を$f(x)$とおくと、確率変数$X$の分散$V[X]$は下記のように定義されます。
$$
\large
\begin{align}
V[X] = \int_{-\infty}^{\infty} (x-\mu)^2 f(x) dx = \sigma^2
\end{align}
$$
期待値・分散に関して成立する公式
下記で詳しく取り扱いを行いました。