2.4 確率変数と確率分布 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.4$節「確率変数と確率分布」の内容を元に確率変数・確率分布・確率関数・確率密度関数・累積分布関数の定義や解釈に関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

確率変数・確率分布の概要

概要

「サイコロを投げる」などの何らかの事象を取り扱うとき、「同様に確からしい」場合は出目の確率が一定であるなど、予め確率の値が考えられる場合が多いです。このような事象を取り扱う際にはサイコロの出目を確率変数$X$で表し、それぞれの出目の確率を確率分布で表すことができます。

「確率変数」や「確率分布」は抽象的な概念であるので、以下の内容が難しい場合は当記事は読み飛ばして先に$2.7$節や$2.8$節で具体的な確率分布を確認すると良いと思います。

必要な数学

確率変数・確率分布・確率関数・確率密度関数・累積分布関数

確率変数

前節でも簡単に確認しましたが、「正六面体サイコロの出目」のように「事象」が「変数の値」で表される場合、サイコロの出目を確率変数$X$で定めることで様々な式表記を行うことが可能になります。六面ダイスでは$X$は$1,2,3,4,5,6$を取りうるので、それぞれの出目の確率を下記のように表せます。
$$
\large
\begin{align}
P(X=1) = P(X=2) = \cdots = P(X=6) = \frac{1}{6}
\end{align}
$$

このように確率変数を定めることで「事象」の確率表記が行いやすくなります。ここで上記の数式のように確率変数の各値の取りうる確率をまとめたものが次項で取り扱う確率分布です。

確率分布

前項で確認した確率変数$X$の取りうる値とそれぞれの確率の対応関係を確率分布(Probability distribution)といいます。前項では「正六面体のサイコロの出目」を考えたので確率は一定ですが、$X$の取りうる値によって確率が異なる場合が一般的です。

$X$の実現値を$x$とおくとき、$x$の値によって確率が変化することから、確率分布を$x$の関数で表すことができると取り扱いやすいです。このことに基づいて定義されるのが「確率関数」や「確率密度関数」です。確率関数・確率密度関数に関して、次項・次々項で詳しく取り扱います。

確率関数

確率変数の$X$が$X=1, 2, \cdots , n$のように離散値をとる場合、$x$に対応する確率は確率関数$p(x)$を用いて定義されることが多いです。ここで確率関数は確率分布に対応することから$p(x)$に関して下記が成立する必要があります。
$$
\large
\begin{align}
0 \leq & \, p(x) \leq 1 \\
\sum_{x=1}^{n} & \, p(x) = 1 \\
P(X= & x) = p(x)
\end{align}
$$

確率密度関数

確率変数の$X$が連続値をとる場合、$x$に対応する確率は確率密度関数$f(x)$を用いて定義されることが多いです。確率密度関数$f(x)$は微小区間$x \leq X \leq x + \Delta x$で下記が成立するように定義されます。
$$
\large
\begin{align}
P(x \leq X \leq x + \Delta x) \simeq f(x) \Delta x
\end{align}
$$

上記のように$f(x)$を考えると、$a \leq X \leq b$である確率$P(a \leq X \leq b)$を下記のように表すことができます。
$$
\large
\begin{align}
P(a \leq X \leq b) = \int_{a}^{b} f(x) dx
\end{align}
$$

また、確率密度関数は確率分布に対応することから$f(x)$に関して下記が成立する必要があります。
$$
\large
\begin{align}
0 \leq & f(x) \leq 1 \\
\int_{-\infty}^{\infty} f(x) dx &= 1
\end{align}
$$

累積分布関数

累積分布関数(cumulative distribution function)は$F(x)=P(X \leq x)$で定義される関数であり、「$x$以下の累積確率」と大まかに理解すると良いです。$F(x)=P(X \leq x)$は$X$が離散値をとる場合も連続値をとる場合も成立します。

また、$X$が連続変数の場合、累積分布関数$F(x) = P(X \leq x)$は下記のように表すこともできます。
$$
\large
\begin{align}
F(x) = P(X \leq x) = \int_{-\infty}^{x} f(u) du
\end{align}
$$