Contents
基本問題
確率の加法定理
・問題
i) $P(A \cup B)$を$P(A), P(B), P(A \cap B)$を用いて表せ。
ⅱ) $P(A \cup B)$を$P(A)+P(B)$で表せるのはどのような場合か。
ⅲ) $P(A)=0.4, P(B)=0.3, P(A \cap B)=0.2$の時の、$P(A \cup B)$の値を求めよ。
・解答
i)
$P(A \cup B)$は下記のように計算することができる。
$$
\large
\begin{align}
P(A \cup B) = P(A) + P(B) – P(A \cap B)
\end{align}
$$
ⅱ)
AとBがそれぞれが同時に起こらない排反事象である時に$P(A \cup B)=P(A)+P(B)$が成立する。
ⅲ)
i)の式に基づいて下記のように計算できる。
$$
\large
\begin{align}
P(A \cup B) &= P(A) + P(B) – P(A \cap B) \\
&= 0.4 + 0.3 – 0.2 \\
&= 0.5
\end{align}
$$
・解説
基本事項ではありますが、表記に慣れていないうちは難しく見えると思いますので、難しく見える場合はなるべく演習を多めに取り組むと良いと思います。
条件付き確率と独立
・問題
事象Bが起こった上で事象Aが起こる確率を条件付き確率と呼び、$P(A|B)$のように表す。以下、条件付き確率に関する下記の問題に答えよ。
i) 条件付き確率$P(A|B)$を$P(B), P(A \cap B)$を用いて表せ。
ⅱ) i)で求めた$P(A|B)$の式はAとBが独立である時と独立でない時にどのように変化するかを述べよ。
ⅲ) $P(B)=0.5, P(A \cap B)=0.25$の時の条件付き確率$P(A|B)$の値を求めよ。
・解答
i)
条件付き確率$P(A|B)$は下記のように表すことができる。
$$
\large
\begin{align}
P(A|B) = \frac{P(A \cap B)}{P(B)}
\end{align}
$$
ⅱ)
事象Aと事象Bが独立である場合、$P(A \cap B) = P(A)P(B)$となるので、これを下記のようにi)の式に代入する。
$$
\large
\begin{align}
P(A|B) &= \frac{P(A \cap B)}{P(B)} \\
&= \frac{P(A)P(B)}{P(B)} \\
&= P(A)
\end{align}
$$
よって条件付き確率$P(A|B)$はAとBが独立な場合は、$P(A)$に一致する。
ⅲ)
i)の式に基づいて下記のように計算できる。
$$
\large
\begin{align}
P(A|B) &= \frac{P(A \cap B)}{P(B)} \\
&= \frac{0.25}{0.5} \\
&= 0.5
\end{align}
$$
・解説
基本事項ではありますが、表記に慣れていないうちは難しく見えると思いますので、難しく見える場合はなるべく演習を多めに取り組むと良いと思います。
発展問題
チェビシェフの不等式の導出とその理解
・問題
$$
\large
\begin{align}
P(|X-\mu| \geq c) \leq \frac{\sigma^2}{c^2} \quad (1)
\end{align}
$$
$(1)$式で表したチェビシェフの不等式は大数の法則などに用いられるが、唐突に式だけ出てきてもわからないので以下ではチェビシェフの不等式の導出とその理解に関して取り扱う。
$$
\large
\begin{align}
P(X \geq c) \leq \frac{E[X]}{c} \quad (2)
\end{align}
$$
$(1)$式のチェビシェフの不等式を導出するにあたっては$(2)$式で表したマルコフの不等式の導出を行なったのちに、マルコフの不等式を用いてチェビシェフの不等式を導出するとわかりやすい。
ここまでの内容を元に以下の問いに答えよ。
i) 確率変数$Y$を下記のように定義する。
$$
\large
\begin{align}
Y &= 0, \quad if \quad X < c \\
&= c, \quad if \quad X \geq c
\end{align}
$$
このとき全ての$Y$に関して$Y \leq X$であるかつ、$E[Y] \leq E[X]$が成立することを確認せよ。
ⅱ) $Y$が$0$か$c$の値のみを取ることを元に、$E[Y]=cP(Y=c)$が成立することを確認せよ。
ⅲ) i)とⅱ)よりマルコフの不等式を表す$(2)$式が成立することを確認せよ。
iv) マルコフの不等式を直感的に解釈せよ。
v) 有限な確率変数$X$に関して$E[X]=\mu, V[X]=\sigma^2$が成立するとき、非負の確率変数$Y=(X-\mu)^2$と閾値$c^2$に関してマルコフの不等式が成立することを利用することで$(1)$式を導出せよ。
vi) チェビシェフの不等式を直感的に解釈せよ。
・解答
i)
$X \geq 0$における$Y=X$の直線を考えた際に、$X=0,c$は直線上の点で$Y=X$となり、その他の点では$Y$が$X$を下回ることが確認できる。これにより任意の点で$Y \leq X$で、同時に期待値に関して$E[Y] \leq E[X]$も成立する。
ⅱ)
$E[Y]=cP(Y=c)$は下記のように示すことができる。
$$
\large
\begin{align}
E[Y] &= 0 \times P(Y=0) + c \times P(Y=c) \\
&= c P(Y=c) \\
&= c P(X \geq c)
\end{align}
$$
ⅲ)
$E[Y]=cP(Y=c), E[Y] \leq E[X]$より下記が成立する。
$$
\large
\begin{align}
cP(Y=c) &= E[Y] \leq E[X] \\
cP(Y=c) & \leq E[X]
\end{align}
$$
$P(Y=c)=P(X \geq c)$より下記が成立する。
$$
\large
\begin{align}
cP(Y=c) & \leq E[X] \\
cP(X \geq c) & \leq E[X] \\
P(X \geq c) & \leq \frac{E[X]}{c}
\end{align}
$$
iv)
$\displaystyle P(X \geq c) \leq \frac{E[X]}{c}$で表されるマルコフの不等式は、期待値$E[X]$が大きい場合、上側確率$P(X \geq c)$の上限も大きくなる一方で、閾値$c$が大きくなると上側確率$P(X \geq c)$の上限が小さくなると解釈することができる。
v)
$c^2P(Y \geq c^2) \leq E[Y]$を変形することでチェビシェフの不等式の導出を行う。
$$
\large
\begin{align}
c^2P(Y \geq c^2) & \leq E[Y] \\
P(Y \geq c^2) & \leq \frac{E[Y]}{c^2} \\
P((X-\mu)^2 \geq c^2) & \leq \frac{E[(X-\mu)^2]}{c^2} \\
P(|X-\mu| \geq c) & \leq \frac{V[X]}{c^2} \\
P(|X-\mu| \geq c) & \leq \frac{\sigma^2}{c^2}
\end{align}
$$
vi)
有限な確率変数$X$に関して$c$を閾値に設定する場合の期待値$E[X]$を中心と考えた際の両端の確率$P(|X-E[X]| \geq c)$は、$\displaystyle \frac{V[X]}{c^2}$よりも小さくなる。
これは、確率変数の分散$V[X]$が大きい場合、$E[X]$を中心に考えた際の両端の確率$P(|X-E[X]| \geq c)$の上限も大きくなる一方で、閾値$c$が大きくなると両端の確率$P(|X-E[X]| \geq c)$の上限が小さくなると解釈できる。
・解説
https://www.hello-statisticians.com/explain-terms-cat/law_of_large_numbers1.html
上記を元に作成を行いました。統計学を考えるにあたっては、大数の法則の導出や確率収束・一致性の定義にも関わるトピックであるので、なるべく抑えておくと良いと思います。
確率変数、統計量と推定量・推定値
・問題
確率変数$X$は統計学の参考書で当たり前のように出てくるが、確率関数$p(x)$や確率密度関数$f(x)$の際には$x$が用いられる一方で、確率変数は$X$が用いられるなど使い分けが大変わかりにくく、「現代数理統計学」の$2.1$節に同様の指摘がある。そこで以下では演習形式で使い分けがわかるように確認を行う。
確率変数$X$を考える上で注意が必要なのは、確率変数$X$は単に変数の表記であり、具体的な値を示す場合は$1$のような数を用いて$X=1$のように示すことである。例えばサイコロの目が$1$である確率は$P(X=1)$のように表すことができる。
ここまではまだ理解できるが、確率変数の実現値を変数のように取り扱いたい場合は$X$が実現値に用いられないことでさらにわかりにくくなる。たとえばサイコロの場合は$X=x, \, x \in \{1,2,3,4,5,6\}$のように表すことができるが、これだけでも難しく見えると思われる。
以下では具体的な事例を元に確率変数$X$の使用事例の確認を行う。また、集合論の基本的な表記も合わせて抑えておく方が望ましいので、同時に取り扱う。
これまでの内容を元に、以下の問いに答えよ。
i) $x$を$1$以上$10$以下の偶数とするとき、$x \in \{1,2,3,4,5,6\}$のような表記を用いて$x$を表せ。ただし、要素をそのまま書き下すだけで十分である。
ⅱ) $X$をコイン投げに関する確率変数と考え、表に$1$、裏に$0$が対応するとき、サイコロに関する$X=x, \, x \in \{1,2,3,4,5,6\}$と同様な記法を用いて、コイン投げに関する$X$について表記せよ。
ⅲ) サイコロに関するそれぞれの目が出る確率は下記のように表記できる。
$$
\begin{align}
P(X=x) = \frac{1}{6}, \quad x \in \{1,2,3,4,5,6\}
\end{align}
$$
上記と同様にⅱ)のコイン投げの場合を表せ。
iv) 確率関数$p(x)$と確率密度関数$f(x)$は下記のように定義できる。
$$
\begin{align}
p(x) &= P(X=x) \\
f(x) &= \lim_{\epsilon \to 0} \frac{P(x \leq X \leq x + \epsilon)}{\epsilon}
\end{align}
$$
上記を参考に、確率関数$p(x)$と確率密度関数$f(x)$の違いは何かを答えよ。
v) 累積分布関数を$F(x)$とおく際に、iv)を元に下記が導出できることを確認せよ。
$$
\begin{align}
f(x) = F'(x)
\end{align}
$$
vi) 確率変数列$X_1,X_2,…,X_n$に対して、下記のように統計量$T$を定義すると考える。
$$
\begin{align}
T = T(X_1,X_2,…,X_n)
\end{align}
$$
このとき$\bar{X}, S^2$を下記のように定義する。
$$
\begin{align}
\bar{X} &= \frac{1}{n} \sum_{i=1}^{n} X_i \\
S^2 &= \frac{1}{n} \sum_{i=1}^{n} (X_i-\bar{X})^2
\end{align}
$$
$T=\bar{X}$であるとき、観測値$X_1=x_1, X_2=x_2, …, X_n=x_n$に関する$T$の実現値$t$を求めよ。
vⅱ) vi)に関連して推定量(estimator)と推定値(estimate)の慣用的な区別について答えよ。
・解答
i)
$x$は下記のように表すことができる。
$$
\large
\begin{align}
x \in \{2,4,6,8,10\}
\end{align}
$$
ⅱ)
コイン投げに関する$X$は下記のように表すことができる。
$$
\large
\begin{align}
X=x, \quad x \in \{0,1\}
\end{align}
$$
ⅲ)
確率$P(X=x)$は下記のように表すことができる。
$$
\large
\begin{align}
P(X=x) = \frac{1}{2}, \quad x \in \{0,1\}
\end{align}
$$
iv)
確率関数$p(x)$は確率変数$X$が離散である場合、確率密度関数$f(x)$は確率変数$X$が連続である際にそれぞれ用いられる。
v)
累積分布関数の定義式や微分の定義式に基づいて、下記のように導出を行うことができる。
$$
\large
\begin{align}
f(x) &= \lim_{\epsilon \to 0} \frac{P(x \leq X \leq x + \epsilon)}{\epsilon} \\
&= \lim_{\epsilon \to 0} \frac{F(x + \epsilon)-F(x)}{\epsilon} \\
&= F'(x)
\end{align}
$$
vi)
$T$の実現値$t$は下記のように導出することができる。
$$
\begin{align}
t &= T(X_1=x_1,X_2=x_2,…,X_n=x_n) \\
&= \frac{1}{n} \sum_{i=1}^{n} x_i \\
&= \bar{x}
\end{align}
$$
vⅱ)
推定量$T=T(X_1,X_2,…,X_n)$と推定値$t=T(X_1=x_1,X_2=x_2,…,X_n=x_n)$は確率変数$X_i$とその実現値$x_i$の対応と同様に考えることができる。よって、推定量は確率変数である一方で、推定値は観測値に基づく具体的な値を示すことも合わせて抑えておくと良い。
・解説
vⅱ)で取り扱ったように、確率変数$X$とその実現値$x$に関連して、推定量$T=T(X_1,X_2,…,X_n)$と推定値$t=T(X_1=x_1,X_2=x_2,…,X_n=x_n)$に関して抑えておくことで、用法に関して理解がしやすいのではないかと思います。
ベイズの定理
・問題
i) 事象Aと事象Bに関して、$P(A \cap B)=P(A|B)P(B)$であることを解釈せよ。
ⅱ) $P(A|B)P(B)=P(B|A)P(A)$が成立することを導出し、下記のベイズの定理の式を導出せよ。
$$
\begin{align}
P(A|B) = \frac{P(B|A)P(A)}{P(B)} \quad (1)
\end{align}
$$
ⅲ) $P(A)=0.5, P(B)=0.3, P(A \cap B)=0.1$のとき、$P(A|B), P(B|A)$を求め、$(1)$式が成立することを確認せよ。
・解答
i)
「$A$と$B$の両方が起こる確率」は$「B$が起こる確率」と「$B$が起こった上で$A$が起こる確率」を掛け合わせることで計算できると解釈できる。
ⅱ)
i)に基づいて考えることで、$P(A \cap B)=P(A|B)P(B)$かつ$P(A \cap B)=P(B|A)P(A)$が成立する。よって、$P(A|B)P(B)=P(B|A)P(A)$が成立する。また、両辺を$P(B)$で割ることにより、ベイズの定理を表す$(1)$式の導出を行うことができる。
ⅲ)
$P(A|B), P(B|A)$は下記のように計算することができる。
$$
\large
\begin{align}
P(A|B) &= \frac{P(A \cap B)}{P(B)} \\
&= \frac{0.1}{0.3} \\
&= \frac{1}{3} \\
P(B|A) &= \frac{P(A \cap B)}{P(A)} \\
&= \frac{0.1}{0.5} \\
&= \frac{1}{5}
\end{align}
$$
ここで$\displaystyle \frac{P(B|A)P(A)}{P(B)}$は下記のように計算できる。
$$
\large
\begin{align}
\frac{P(B|A)P(A)}{P(B)} &= \frac{\frac{1}{5} \times 0.5}{0.3} \\
&= \frac{0.1}{0.3} \\
&= \frac{1}{3} = P(A|B)
\end{align}
$$
上記より、$(1)$式で表されたベイズの定理が成立していることが確認できる。
・解説
ベイズの定理はベイズ推定などにも出てくるなど統計学の主要なトピックなので、抑えておくと良いと思います。
スターリングの公式の理解
・問題
$n$が大きい際に$n!$の近似を行う手法の一つに下記で表したスターリングの公式がある。
$$
\large
\begin{align}
\log_{e} n! \simeq \left( n + \frac{1}{2} \right) \log_{e} n – n + \frac{1}{2} \log_{e} 2 \pi
\end{align}
$$
上記を元に以下の問いに答えよ。
i) $3!$、$5!$、$7!$をそれぞれ計算せよ。
ⅱ) $10!$を計算せよ。
ⅲ) スターリングの公式を用いて$\log_{e} 10!$の近似値を計算せよ。
iv)とⅲ)の結果について解釈を述べよ。
v) スターリングの公式を用いて$\log_{e} 20!$の近似値を計算せよ。
・解答
i)
それぞれ下記のように計算できる。
$$
\large
\begin{align}
3! &= 3 \cdot 2 \cdot 1 \\
&= 6 \\
5! &= 5 \cdot 4 \cdot 3 \cdot 2 \cdot 1 \\
&= 120 \\
7! &= 7 \cdot 6 \cdot 5 \cdot 4 \cdot 3 \cdot 2 \cdot 1 \\
&= 5040
\end{align}
$$
ⅱ)
計算結果は下記のようになる。
$$
\large
\begin{align}
10! &= 10 \cdot 9 \cdot 8 \cdot 7 \cdot 6 \cdot 5 \cdot 4 \cdot 3 \cdot 2 \cdot 1 \\
&= 3628800
\end{align}
$$
確率変数の理解
参考
・基礎統計学Ⅰ 統計学入門(東京大学出版会)