ブログ

2.4 確率変数と確率分布 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.4$節「確率変数と確率分布」の内容を元に確率変数・確率分布・確率関数・確率密度関数・累積分布関数の定義や解釈に関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

確率変数・確率分布の概要

概要

「サイコロを投げる」などの何らかの事象を取り扱うとき、「同様に確からしい」場合は出目の確率が一定であるなど、予め確率の値が考えられる場合が多いです。このような事象を取り扱う際にはサイコロの出目を確率変数$X$で表し、それぞれの出目の確率を確率分布で表すことができます。

「確率変数」や「確率分布」は抽象的な概念であるので、以下の内容が難しい場合は当記事は読み飛ばして先に$2.7$節や$2.8$節で具体的な確率分布を確認すると良いと思います。

必要な数学

確率変数・確率分布・確率関数・確率密度関数・累積分布関数

確率変数

前節でも簡単に確認しましたが、「正六面体サイコロの出目」のように「事象」が「変数の値」で表される場合、サイコロの出目を確率変数$X$で定めることで様々な式表記を行うことが可能になります。六面ダイスでは$X$は$1,2,3,4,5,6$を取りうるので、それぞれの出目の確率を下記のように表せます。
$$
\large
\begin{align}
P(X=1) = P(X=2) = \cdots = P(X=6) = \frac{1}{6}
\end{align}
$$

このように確率変数を定めることで「事象」の確率表記が行いやすくなります。ここで上記の数式のように確率変数の各値の取りうる確率をまとめたものが次項で取り扱う確率分布です。

確率分布

前項で確認した確率変数$X$の取りうる値とそれぞれの確率の対応関係を確率分布(Probability distribution)といいます。前項では「正六面体のサイコロの出目」を考えたので確率は一定ですが、$X$の取りうる値によって確率が異なる場合が一般的です。

$X$の実現値を$x$とおくとき、$x$の値によって確率が変化することから、確率分布を$x$の関数で表すことができると取り扱いやすいです。このことに基づいて定義されるのが「確率関数」や「確率密度関数」です。確率関数・確率密度関数に関して、次項・次々項で詳しく取り扱います。

確率関数

確率変数の$X$が$X=1, 2, \cdots , n$のように離散値をとる場合、$x$に対応する確率は確率関数$p(x)$を用いて定義されることが多いです。ここで確率関数は確率分布に対応することから$p(x)$に関して下記が成立する必要があります。
$$
\large
\begin{align}
0 \leq & \, p(x) \leq 1 \\
\sum_{x=1}^{n} & \, p(x) = 1 \\
P(X= & x) = p(x)
\end{align}
$$

確率密度関数

確率変数の$X$が連続値をとる場合、$x$に対応する確率は確率密度関数$f(x)$を用いて定義されることが多いです。確率密度関数$f(x)$は微小区間$x \leq X \leq x + \Delta x$で下記が成立するように定義されます。
$$
\large
\begin{align}
P(x \leq X \leq x + \Delta x) \simeq f(x) \Delta x
\end{align}
$$

上記のように$f(x)$を考えると、$a \leq X \leq b$である確率$P(a \leq X \leq b)$を下記のように表すことができます。
$$
\large
\begin{align}
P(a \leq X \leq b) = \int_{a}^{b} f(x) dx
\end{align}
$$

また、確率密度関数は確率分布に対応することから$f(x)$に関して下記が成立する必要があります。
$$
\large
\begin{align}
0 \leq & f(x) \leq 1 \\
\int_{-\infty}^{\infty} f(x) dx &= 1
\end{align}
$$

累積分布関数

累積分布関数(cumulative distribution function)は$F(x)=P(X \leq x)$で定義される関数であり、「$x$以下の累積確率」と大まかに理解すると良いです。$F(x)=P(X \leq x)$は$X$が離散値をとる場合も連続値をとる場合も成立します。

また、$X$が連続変数の場合、累積分布関数$F(x) = P(X \leq x)$は下記のように表すこともできます。
$$
\large
\begin{align}
F(x) = P(X \leq x) = \int_{-\infty}^{x} f(u) du
\end{align}
$$

2.3 ベイズの定理 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.3$節「ベイズの定理」の内容を元にベイズの定理の数式と解釈や具体的な数値計算に関して取り扱いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

ベイズの定理の概要

概要

ベイズの定理は統計学における「観測値」に基づく計算に「事前確率」という概念を導入することで、「観測値」に「事前知識」を反映させるにあたって用いられます。数式自体は「積事象の確率」と「条件付き確率」の変形で難しくはありませんが、使用時にカスタマイズされがちであるので注意が必要です。

必要な数学

ベイズの定理

ベイズの定理の数式

事象$A$の原因に互いに排反な$n$個の事象$H_1, H_2, \cdots , H_n$を考えます。このとき条件付き確率$P(H_i|A)$は下記のように表すことができます。
$$
\large
\begin{align}
P(H_i|A) = \frac{P(H_i \cap A)}{P(A)} \quad (1)
\end{align}
$$

上記は「条件付き確率の定義」と見ることもできるし、「乗法定理$P(H_i \cap A)=P(A)P(H_i|A)$の変形」と見ることもできます。ここで$P(H_i \cap A)$に対し、乗法定理$P(H_i \cap A)=P(H_i)P(A|H_i)$を考えると$(1)$式は下記のように変形できます。
$$
\large
\begin{align}
P(H_i|A) &= \frac{P(H_i \cap A)}{P(A)} \quad (1) \\
&= \frac{P(H_i)P(A|H_i)}{P(A)} \quad (2)
\end{align}
$$

上記の$(2)$式がベイズの定理の数式に対応します。また$(2)$式の$P(A)$が$\displaystyle P(A)=\sum_{j=1}^{n} P(A \cap H_j)$であることを元に$P(H_i|A)$は下記のように表すこともできます。
$$
\large
\begin{align}
P(H_i|A) &= \frac{P(H_i)P(A|H_i)}{P(A)} \quad (2) \\
&= \frac{\displaystyle P(H_i)P(A|H_i)}{\displaystyle \sum_{j=1}^{n} P(A \cap H_j)} \quad (3)
\end{align}
$$

上記では分子で$i$、分母で$j$を用いましたが、$P(H_1|A)$のように分子のインデックスが具体的な数字で表される際は分母に$i$を用いる場合があります。$\displaystyle \sum$のインデックスを分子と分けると良いと考えておくと良いと思います。

ベイズの定理の使用例

$i$$H_i$$P(H_i)$$P(A|H_i)$
$1$ 機体$0.307$$0.008$
$2$ ロータ$0.156$$0.048$
$3$ 電気$0.129$$0.040$
$4$ 計器$0.130$$0.052$
$5$ 動力$0.080$$0.100$
$6$ 通信・運行・自動安定$0.030$$0.151$
$7$ その他$0.171$$0.014$
「統計検定$2$級対応 統計学基礎」 表$2.1$

上記の表を元に以下、$P(H_3|A)$の値の計算を行います。
$$
\large
\begin{align}
P(H_3|A) &= \frac{\displaystyle P(H_3)P(A|H_3)}{\displaystyle \sum_{j=1}^{n} P(A \cap H_j)} \\
&= 0.140
\end{align}
$$

具体的な計算は下記を実行することで行ないました。

import numpy as np

P_H = np.array([0.307, 0.156, 0.129, 0.130, 0.080, 0.030, 0.171])
P_A_H = np.array([0.008, 0.048, 0.040, 0.052, 0.100, 0.151, 0.014])

print("Prob: {:.3f}".format(P_H[2]*P_A_H[2]/np.sum(P_H*P_A_H)))

発展事項:ベイズの定理の最尤法への導入と事前確率・事後確率

最尤法を用いたパラメータ推定は$\theta$を元に標本$x$が得られる確率$P(x|\theta)$が最大となる$\theta$を推定値と定めます。この際にベイズ推定ではパラメータ$\theta$の事前確率$P(\theta)$をベイズの定理を用いて導入することで、下記のような事後分布$P(\theta|x)$を得ることができます。
$$
\large
\begin{align}
P(\theta|x) &= \frac{P(\theta)P(x|\theta)}{P(x)} \\
& \propto P(\theta)P(x|\theta)
\end{align}
$$

事後分布の$P(\theta|x)$は分布そのものが$\theta$の推定結果である一方で、推定値が必要な場合はEAP推定量やMAP推定量を考える場合が多いです。また、パラメータの分布を元に新たなサンプルに関して予測分布を作成する場合もあります。

ベイズの定理を用いたパラメータ推定である「ベイズ推定」に関しては下記などで詳しく取り扱いましたので、当記事では詳細は省略します。

【統計の森 独自評価】統計学の参考書のレビュー 〜統計検定 準1級対応 統計学実践ワークブック〜

当記事では「統計検定 準$1$級対応 統計学実践ワークブック」のレビューに関して取りまとめを行いました。

・レビュー一覧
https://www.hello-statisticians.com/textbook_review1

・統計の森作成 準$1$級まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

レビューまとめ

Bestレビュー

「統計の森」運営レビュー

全体評価: $5.0$
統計検定準$1$級対応の公式の参考書であるが、解説に加えて演習の解答例が多く学習にあたって用いやすい。オムニバス形式であるので、どの章からでも読み進めることができるが、一方で「他の章に解説があるように」の場合は著者が変わることが多くいまひとつである。
統計検定準$1$級の対策にあたってはオーバースペックであるが、知らない分野の補強に使えるので、むしろ準$1$級合格後に読み込むと良いと思われる。演習は統計検定の出題からの使い回しが多いが、試験対策の効率が上がると考えればプラスである。
読み進めにあたっては「高校数学+大学教養レベルの微積分・線形代数」の基本的な理解が必須であるので、数学については別途学ぶ必要がある。

読み進める際の参考事項まとめ

【技術書】統計の森が注目している新刊情報まとめ【2022/10~2022/12】

統計の森が注目している新刊をまとめて紹介します。紹介する書籍は統計学、数学、機械学習関連の書籍が中心です。

ここでは、2022年10月から12月に発売される書籍を紹介します。気になった書籍があれば、ぜひこちらのリンクから確認してみてください。

2022年12月発売

はじめてのパターン認識 ディープラーニング編

著者平井 有三
発売日2022/12/16
発行森北出版
出版社からの紹介ディープラーニングの理論的基礎がよくわかる!機械学習の基礎的な理論について,幅広く解説した前著『はじパタ』.それとほぼ同時期に登場したディープラーニングは,いまや当然の技術として,様々な分野で活用されるようになりました.
[続きは引用元を参照]
(Amazonのサイトから引用)
統計の森コメント「はじパタ」のディープラーニング編。
前著「はじめてのパターン認識」は確率モデルを軸にかっちりとでもわかりやすく書かれている印象でした。

2022年11月発売

2022年10月発売

その他参考

階乗・順列(Permutation)・組合せ(Combination)の定義と直感的理解

当記事では「統計学を学ぶにあたって最低限抑えておきたい数学」の中から「階乗・順列(Permutation)・組合せ(Combination)」に関して取り扱います。順列と組合せが混同されやすいので、可能な限り直感的な理解ができるように取りまとめを行いました。
取りまとめにあたっては数学の解説に関してはなるべくシンプルに取り扱いますが、統計学への応用に関連した複雑な内容に関しては目次に「*」をつけました。「*」がついているものはやや難しいので、読み飛ばしても問題ありません。

・基本数学まとめ
https://www.hello-statisticians.com/math_basic

階乗

概要

$$
\large
\begin{align}
n! = 1 \times 2 \times 3 \times \cdots \times (n-1) \times n
\end{align}
$$

自然数$n$の階乗$n!$は上記のように定められます。階乗に基づいて$n$人の並べ方を計算することができます。

直感的理解

階乗の直感的理解にあたっては、「$n$人の並べ替え」を元に考えると良いです。「並べ替え」を考える場合は、$n$個の場所を先に考えて、「それぞれの場所に人を割り振る」イメージを持つとわかりやすいです。

たとえば$n$人にそれぞれ$1$〜$n$の番号を割り振るとき、上図では$1$番目の場所には$n$通りの中から$5$を選び割り振りが行われます。このことにより、$2$番目の場所には$5$以外の$n-1$通りから$12$が選ばれ、同様に$n$番目の場所まで割り振りを行います。

$n-1$番目の場所には$2,7$から$2$、$n$番目の場所には残った$7$が対応します。このように考えるとき、全体の並べ方は$n!$通りに対応すると考えることができます。

順列

概要

$$
\large
\begin{align}
{}_{n} P_m = (n-m+1) \times (n-m+2) \times (n-m+3) \times \cdots \times (n-1) \times n
\end{align}
$$

自然数$m, n, \, n \geq m$に関して順列${}_{n} P_{m}$は上記のように定められます。上記の式に基づいて$n$人の中から$m$人を選んで並べる際の並べ方などの計算を行うことができます。

直感的理解

順列の直感的理解は階乗の図と同様に行うことができます。

階乗の図では$n$個の場所を用意し、$n$人と対応させましたが、順列では「$m$個の場所に対応させる」と考えれば良いです。

組合せ

概要

$$
\large
\begin{align}
{}_{n} C_m = \frac{(n-m+1) \times (n-m+2) \times (n-m+3) \times \cdots \times (n-1) \times n}{m!}
\end{align}
$$

自然数$m, n, \, n \geq m$に関して組合せ${}_{n} C_{m}$は上記のように定められます。上記の式に基づいて$n$人の中から$m$人を選ぶ際の組合せを計算することができます。

直感的理解

組合せの直感的理解にあたっては「順列」の図で並べ替えを行わない場合を考えれば良いです。重複が$m!$通りあるので、順列の式を$m!$で割った式が組合せの式に一致します。

【統計の森 独自評価】統計学・数学・機械学習にまつわる書籍レビューの募集

概要

大手通販サイト(Amazonなど)のレビューを見ると、前提知識が合っていないだけなどの書籍の内容に関するレビューとは言えないような意見が目につくことがあります。

そこで、統計の森では、統計学に関する参考書籍のレビューを集めようと思います。

書籍のレビューはただ集めるだけではなく、本質的とは言えないと思われるレビューは事前に我々運営サイドにてスクリーニングを行う予定です。

謝礼(後述)もありますので、レビューの投稿お待ちしています!

募集の詳細

募集内容

統計学、機械学習などに関する書籍のレビューを募集しています。

募集するレビューは以下のページにあるように掲載させていただく予定です。

応募方法

以下の応募フォームから応募ください。

https://forms.gle/Q46abbRkCapgtp7p9

謝礼

掲載時点で$1$件あたり$1,000$円相当のギフト券(Amazonギフト券)を進呈する予定です。

ある程度集まった段階で、運営でベストレビューを決めさせていただきたいと思っており、ベストレビューに選定されたものについては、$3,000$円相当のギフト券を進呈させていただきます(予定)。

なお、一旦$50$件程度のレビューが集まった段階で募集を締め切らせていただきます。

掲載不可となる内容の例

以下のような内容のものは掲載不可となる可能性が高いです。

  • 表紙が汚れていた、ページが一部折れていた、文字が小さいなど内容と関係のない内容
  • 書籍の内容ではなく、著者や出版社に対しての意見
  • 不当に批判ばかりの内容

なお、投稿していただいたレビューが掲載不可となっても、応募者自身の評価とは全く関係ありませんので、何度でもご応募いたいて構いません。

掲載されない場合には特に連絡はしない予定です。

おわりに

事前にスクリーニングしますが、多様な意見を集めたいと思っています。掲載不可の例のような極端な内容でなければどんどん掲載していきたいと思っていますので、是非お気軽に応募いただけると嬉しいです!

「集合」の基本的理解・公式と集合の考え方を用いた変数・ベクトル・行列の定義

集合は抽象的なトピックであり単体で学ぶと難しそうな印象を受けるかもしれませんが、統計学では「同時確率分布」を考える際や「変数・ベクトル・行列の定義」を行う際などに頻出なので抑えておくと良いです。当記事では統計学を学ぶにあたって抑えておくとよいトピックを中心に集合に関して取りまとめました。

・基礎数学まとめ
https://www.hello-statisticians.com/math_basic

なお、当記事の取りまとめにあたっては「直感的理解」を重視しましたので、所々「厳密ではない」表現を用いている場合があります。正確には「集合」や「集合論」の教科書などを適宜参照ください。

基本トピック

要素と集合

「集合」は「複数の要素をまとめて取り扱ったもの」と大まかに理解すると良いです。たとえば「$1$以上$10$以下の偶数に対応する$2,4,6,8,10$」のように複数の要素をまとめて取り扱います。要素がない空集合や$1$つの場合などもありますが、「複数の要素をまとめて取り扱える」というのが「集合」を学ぶ利点の$1$つではあるので、大まかに考えるにあたっては「複数の要素をまとめて取り扱ったもの」のように考えると良いのではないかと思います。

ここで$1$以上$10$以下の偶数の集合を$A$とおくと、$A$は下記のように表すことができます。
$$
\large
\begin{align}
A = \{2,4,6,8,10\}
\end{align}
$$

ここで$A$を集合、$2,4,6,8,10$を要素と呼ぶことは必ず抑えておく必要があります。また、$2$のような要素が集合$A$に含まれることを記号$\in$を用いて$2 \in A$のように表記します。

和集合・積集合

必要条件・十分条件

集合の応用

積集合と同時確率分布

変数・ベクトル・行列の定義

変数・ベクトル・行列の定義にあたって集合の考え方を用いた表記は様々な文献で用いられるので必ず抑えておくとよい。表記にあたっては、$\mathbb{N},\mathbb{Z},\mathbb{R}$をそれぞれ自然数、整数、実数の集合と定め、実数$x$を$x \in \mathbb{R}$のように表す。

変数の場合は単に「実数$x$」などと表記するだけでもシンプルに表記できるが、ベクトル・行列の場合は次元を考える必要があり、単に「実数ベクトル$\mathbf{x}$」ではなく「$n$次元実数ベクトル$\mathbf{x}$」のように表記しなければならない。このときに、下記のような表記が用いられる。
$$
\large
\begin{align}
\mathbf{x} \in \mathbb{R}^{n}
\end{align}
$$

上記は「$n$次元の実数ベクトル$\mathbf{x}$」を定めることに一致する。同様に$m \times n$の実数行列$A$は下記のように定義できる。
$$
\large
\begin{align}
A \in \mathbb{R}^{m \times n}
\end{align}
$$

2.8.3 指数分布 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.8.3$節「指数分布」の内容を元に指数分布の確率密度関数や期待値・分散の計算に関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

指数分布の概要

概要

指数分布は単位時間あたりの起こりやすさが一定のランダムな現象がある時、現象が起こるまでの待ち時間を取り扱う確率分布です。

発展事項①

単位時間あたりの起こりやすさが$\lambda$で一定のランダムな現象がある時、現象が起こるまでの待ち時間を確率変数$T$で表すと$T$は指数分布$\mathrm{Ex}(\lambda)$に従います。ここで指数分布の累積分布関数を$F(t)$とおくと$F(t)$は下記のように表されます。
$$
\large
\begin{align}
F(t) &= 1 – P(t < T) \\
&= 1-e^{-\lambda t} \quad (1)
\end{align}
$$

上記における$P(t < T)=e^{-\lambda t}$はポアソン分布$\mathrm{Po}(\lambda t)$の確率関数$\displaystyle f(x) = \frac{(\lambda t)^{x} e^{-\lambda t}}{x!}$に$x=0$を代入した場合に対応します。
$$
\large
\begin{align}
f(0) &= \frac{(\lambda t)^{0} e^{-\lambda t}}{0!} \\
&= e^{-\lambda t}
\end{align}
$$

また、$(1)$式の微分を計算することで指数分布の確率密度関数$f(x)$の導出を行うことができます。
$$
\large
\begin{align}
f(x) &= \frac{d}{dx} F(x) = \frac{d}{dx}(1-e^{-\lambda x}) \\
&= -e^{-\lambda x} \times (-\lambda x)’ \\
&= \lambda e^{-\lambda x}
\end{align}
$$

発展事項②

正規乱数の生成に用いるボックス・ミュラー法の式の導出にあたって、指数分布の累積分布関数に逆関数法が用いられるなど、指数分布は応用例が多いです。

発展事項③

ハザード関数などを考える際に、指数分布を拡張してワイブル分布などを考えます。

必要な数学

「連続型確率分布」の期待値や分散は「積分」を元に定義されるので、「積分」の概念の理解が必要です。指数関数の微積分は数Ⅲのトピックなので、詳しい式展開を理解するにあたってはある程度数Ⅲレベルの微積分を抑えておく必要があります。

統計検定$2$級で数Ⅲレベルの微積分が取り扱われることは少ないと思われるので、$+ \alpha$で学ぶと良い内容と考えておけば十分だと思います。

指数分布の確率密度関数・期待値・分散

指数分布の確率密度関数

指数分布$\mathrm{Ex}(\lambda)$の確率密度関数を$f(x)$とおくと、$f(x)$は下記のように表されます。
$$
\large
\begin{align}
f(x) = \lambda e^{-\lambda x}, \quad x \leq 0
\end{align}
$$

指数分布の期待値・分散

指数分布の期待値$E[X]$と分散$V[X]$はそれぞれ下記のように表されます。
$$
\large
\begin{align}
E[X] &= \frac{1}{\lambda} \\
V[X] &= \frac{1}{\lambda^2}
\end{align}
$$

上記の導出は下記で詳しく取り扱いました。

2.8.1 一様分布 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.8.1$節「一様分布」の内容を元に一様分布の確率密度関数や期待値・分散の計算に関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

一様分布の概要

概要

一様分布は区間内のどの値も同じ起こりやすさを持つ分布で、確率に偏りのないサイコロの出目などが一例に挙げられます。確率の演習問題ではよく「同様に確からしい」という表現が用いられますが、この表現はサイコロの出目が「一様分布」に従うことを表します。

サイコロの出目は「離散型確率分布」の例である一方で、「統計検定$2$級対応 統計学基礎」の$2.8.1$節「一様分布」では「連続型確率分布」の括りで「一様分布」が紹介されます。よって以下では「連続型確率分布」の「一様分布」に関して確認を行います。

発展事項

一様分布に基づく乱数生成はモンテカルロ積分やMCMCなどの乱数に基づく推定を行う際に用いられます。乱数生成のアルゴリズムに関しては下記で詳しく取りまとめました。

必要な数学

「連続型確率分布」の期待値や分散は「積分」を元に定義されるので、「積分」の概念の理解が必要です。一様分布は多項式関数の一種であると考えられるので、数Ⅱレベルの積分を抑えておけば十分です。

一様分布の確率密度関数・期待値・分散

一様分布の確率密度関数

一様分布$\mathrm{Uniform}(a,b)$の確率密度関数を$f(x)$とおくと、$f(x)$は下記のように表されます。
$$
\large
\begin{align}
f(x) &= \frac{1}{b-a}, \quad (a \leq x \leq b) \\
&= 0, \quad \mathrm{Otherwise}
\end{align}
$$

上記の関数は$x$が区間$[a,b]$に含まれる場合は$\displaystyle \frac{1}{b-a}$、含まれない場合は$0$を返す関数です。

一様分布の期待値・分散

一様分布の期待値$E[X]$と分散$V[X]$はそれぞれ定義に基づいて下記のように導出することができます。

・期待値$E[X]$
$$
\large
\begin{align}
E[X] &= \int_{a}^{b} x \cdot \frac{1}{b-a} dx \\
&= \left[ \frac{x^2}{2(b-a)} \right]_{a}^{b} \\
&= \frac{b^2-a^2}{2(b-a)} \\
&= \frac{(a+b)\cancel{(b-a)}}{2 \cancel{(b-a)}} \\
&= \frac{a+b}{2}
\end{align}
$$

・期待値$V[X]$
$$
\large
\begin{align}
E[X^2] &= \int_{a}^{b} x^2 \cdot \frac{1}{b-a} dx \\
&= \left[ \frac{x^3}{3(b-a)} \right]_{a}^{b} \\
&= \frac{a^2+ab+b^2}{3} \\
V[X] &= E[X^2] – E[X]^2 \\
&= \frac{a^2+ab+b^2}{3} – \frac{(a+b)^2}{2^2} \\
&= \frac{4a^2+4ab+4b^2}{12} – \frac{3a^2+6ab+3b^2}{12} \\
&= \frac{a^2-2ab+b^2}{12} \\
&= \frac{(a-b)^2}{12}
\end{align}
$$

和を表す$\sum$と積を表す$\prod$の定義と具体的な使い方

和を表す$\displaystyle \sum$と積を表す$\displaystyle \prod$は、$x_1, \cdots x_n$のように$n$個の標本を取り扱うにあたってはよく用いられます。一方で数式の記号が出てくるだけで難しく見えるようなので、当記事ではそれぞれの定義と具体的な使い方に関して取りまとめました。

・数学まとめ
https://www.hello-statisticians.com/math_basic

$\sum$の定義と使用例

$\sum$の定義

$$
\large
\begin{align}
\sum_{i=1}^{n} x_i = x_1 + x_2 + x_3 + \cdots + x_{n-1} + x_{n}
\end{align}
$$

和を表す$\displaystyle \sum$は上記のように定められる。「$\displaystyle \sum$の公式」で取り扱ったように、公式は複雑な式も取り扱うが、$\displaystyle \sum$自体は単に和をまとめた記号であるのでシンプルに考えると良い。

$\displaystyle \sum$の下に記した$i=1$と上に記した$n$は$i=1$から$i=n$までの和を表すが、省略される場合もあることに注意が必要である。また、集合$J=\{1,2,3,4,5\}$の要素$j$が$j \in J$のように表されることを元に、下記のように表記することもできる。
$$
\large
\begin{align}
\sum_{j \in J} x_j &= x_1 + x_2 + x_3 + x_4 + x_5 \\
J &= \{ 1,2,3,4,5 \}
\end{align}
$$

$\sum$の使用例

統計学における$\displaystyle \sum$の主な使用例には平均や分散の定義が挙げられる。標本$x_1, \cdots , x_n$が観測された時の標本平均$\bar{x}$と標本分散$S_x^2$は下記のように表される。
$$
\large
\begin{align}
\bar{x} &= \frac{1}{n} \sum_{i=1}^{n} x_i \\
S_x^2 &= \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2
\end{align}
$$

上記のように$n$個の観測値に対し、何らかの式に基づいて指標を計算する際に$\displaystyle \sum$を用いることで式をシンプルに表すことができる。

$\prod$の定義と使用例

$\prod$の定義

$$
\large
\begin{align}
\prod_{i=1}^{n} x_i = x_1 \times x_2 \times x_3 \times \cdots \times x_{n-1} \times x_{n}
\end{align}
$$

和を表す$\displaystyle \prod$は上記のように定められる。$\displaystyle \prod$は$\displaystyle \sum$と同様に単に積をまとめた記号であるのでシンプルに考えると良い。

$\prod$の使用例

統計学における$\displaystyle \prod$の主な使用例には最尤法が挙げられる。$f(x_1,x_2)=f(x_1)f(x_2)$が成立する場合に、同時確率密度関数$f(x_1,\cdots,x_n)$は下記のように表される。
$$
\large
\begin{align}
f(x_1,\cdots,x_n) = \prod_{i=1}^{n} f(x_i)
\end{align}
$$

また、上記の最大値問題を考えるにあたって$\displaystyle \prod$の対数関数を考える場合が多い。$\displaystyle \prod_{i=1}^{n}$の対数は下記のように変形を行うことができる。
$$
\large
\begin{align}
\log{\left[ \prod_{i=1}^{n} f(x_i) \right]} &= \log{[ f(x_1) \times f(x_2) \times f(x_3) \times \cdots \times f(x_{n-1}) \times f(x_{n})]} \\
&= \log{f(x_1)} + \log{f(x_2)} + \log{f(x_3)} + \cdots + \log{f(x_{n-1})} + \log{f(x_n)} \\
&= \sum_{i=1}^{n} \log{f(x_i)}
\end{align}
$$

最尤法に関する詳しい導出は下記などで演習形式で取り扱った。