「統計学実践ワークブック」 演習問題中心 第2章 確率分布と母関数

統計検定準1級対応の公式テキストである「統計学実践ワークブック」を1章から順に演習問題を中心に解説していきます。
今回は第2章「確率分布と母関数」です。

重要ポイント

本章では、第1章でも扱った確率関数(probability function)について深めていきます。確率関数はデータの素性、対象のモデルを仮定するために必要な概念で統計的な分析や推論を行う上で非常に重要です。確率関数の具体例として5,6章で代表的な確率分布が紹介されます。また、それらを利用した推論などは8章以降となります。

累積分布関数(cumulative distribution)

確率密度関数は、「密度」なので範囲を指定することで「確率」となります。累積分布関数$F(x)$は$-\inf$から$x$までの確率を表します。

$$
F(t) = \int^{t}_{-\infty} f(x) dx
$$

離散確率変数の場合も同様です。

同時確率密度関数(joint probability density function)

二つの確率変数$x, y$の確率密度関数を同時確率密度関数$p(x, y)$と呼びます。

条件付き確率密度関数(conditional probability density function)

同時確率において、ある変数の値が特定の値となると設定するときの確率密度関数を条件付き確率密度関数$p(x|y)$と呼びます。$p(x|y)$の時は確率変数yの値が特定の値と決められている時のxについての確率密度関数という意味です。

条件付き確率密度関数と同時確率密度関数は以下の性質を持っています。

$$
p(x | y) = \frac{p(x, y)}{p(y)} = \frac{p(x, y)}{\int p(x, y) dx}
$$

母関数(generating function)

母関数は、統計の分野では、確率密度関数の期待値や分散など確率関数の性質を知るために用いられることが多いです。離散確率変数の場合には「確率母関数」、連続確率変数の場合には「モーメント母関数」が用いられることが多いです。

なお、母関数については、こちらも参照してください。

演習問題解説

演習問題の全文は掲載しません。テキストは各自で用意するか、以下の抜粋から想像してください。

問2.1

xy平面の単位正方形($0 \le x \le 1, 0 \le y \le 1$)上の以下の確率密度関数$f(x, y)$について。

$$
f(x, y) = c(x+y)
$$

(1) 規格化定数cは?

確率密度関数は、積分して1になる必要があります。積分するということは、面積になるので、x, yの範囲から1であることがすぐにわかります。

また、定義に従って積分しても結局1.0となることがわかります。

$$
\begin{eqnarray}
\int_0^1 \int^1_0 (x+y) dxdy &=& \int^1_0 x dx + \int^1_0 y dy \\
&=& \left[ \frac{1}{2}x^2 \right]^0_1 + \left[ \frac{1}{2}y^2 \right]^0_1 \\
&=& \frac{1}{2} + \frac{1}{2} = 1.0
\end{eqnarray}
$$

(2) Xの周辺確率密度関数は?

周辺密度とは、同時確率において、対象の確率変数(ここではX)以外の確率変数について積分した確率密度関数です。

$$
\begin{eqnarray}
f(x) &=& \int f(x, y) dy\\
&=& \int^1_0 (x+y) dy &=& \int^1_0 x dy + \int^1_0 y dy \\
&=& x \left[ y \right]^1_0 + \left[ \frac{1}{2}y^2 \right]^1_0 \\
&=& x+\frac{1}{2}
\end{eqnarray}
$$

(3) Xを与えた時のYの条件付き確率密度関数は?

条件付き確率密度関数は同時確率密度関数と関係がありますので、その性質を使って導出します。

$$
\begin{eqnarray}
f(y | x) &=& \frac{f(x, y)}{f(x)} \\
&=& \frac{x+y}{x+\frac{1}{2}}
\end{eqnarray}
$$

問2.2

幾何分布に従う確率変数Xについて。幾何分布は以下で定義されている分布です。なお、Xは非負の整数です。

$$
X \sim p(X=x) = \theta (1-\theta )^x
$$

確率母関数$G(s)$を求めよ

確率母関数$G(s)$は$E[s^X]$なので、定義通りに計算します。

$$
\begin{eqnarray}
G(s) &=& E[s^X] = \sum_x s^x p(x) \\
&=& \sum_x s^x \theta (1-\theta)^x \\
&=& \theta \sum_x (sq)^x
\end{eqnarray}
$$

ここで、$q = 1-\theta$としました。xは非負の整数なので、総和の範囲は0から∞までです。
上記最後の式から、確率母関数$G(s)$は等比数列の無限和となります。公式を覚えていればそのまま当てはめることで以下のように解を導出できます。

$$
G(s) = \theta \sum_x (sq)^x = \frac{\theta}{1-s(1-\theta)}
$$

なお、等比数列の収束条件として、$s \lt \frac{1}{1-\theta}$との制限があります。

ここで、等比数列の無限和は以下のようにして導出ができます。

導出する等比数列を$\sum^{\infty}_{x=0} r^x$とします。この数列について、0から(n-1)までの和を$S_n$とします。

$$
\sum^{n-1}_{x=0} r^x = 1 + r + r^2 + \cdots + r^{n-1} = S_n
$$

続いて、$S_n$にrを掛けると次のようになります。

$$
rS_n = r + r^2 + \cdots + r^{n-1} + r^n = S_n
$$

これらの差から$S_n$を以下のように表現することができます。

$$
\begin{eqnarray}
S_n – rS_n = 1 – r^n \\
S_n = \frac{1-r^n}{1-r}
\end{eqnarray}
$$

これから、nを無限大まで増やして行った時に、$r \lt 1$と仮定すると以下の式になることがわかります。

$$
\lim_{n \rightarrow \infty} S_n = \frac{1}{1-r}
$$

なお、無限和が収束するためには、$r \lt 1$であることが条件となります。

確率母関数を利用して期待値と分散を求めよ

確率母関数の1階微分と2階微分から期待値と分散は以下のように導出できます。なお、$G^{(k)}(s)$とは、確率母関数$G(s)$のk階微分を表ます。

$$
\begin{eqnarray}
G^{(1)}(s) &=& E[Xs^{X-1}] \\
G^{(1)}(1) &=& E[X] \\
G^{(2)}(s) &=& E[X(X-1) s^{X-2}] \\
G^{(2)}(1) &=& E[X(X-1)]
\end{eqnarray}
$$

ここから、

$$
\begin{eqnarray}
E[X] &=& G^{(1)}(1) \\
V[X] &=& E[X^2] – (E[X])^2 \\
&=& G^{(2)}(1) + G^{(1)}(1) – (G^{(1)}(1))^2
\end{eqnarray}
$$

なので、素直に当てはめることで導出できます。

$$
\begin{eqnarray}
G^{(1)}(s) &=& \frac{\theta (1 – \theta)}{( 1-s(1-\theta) )^2} \\
G^{(1)}(1) &=& \frac{\theta (1 – \theta)}{( 1-(1-\theta) )^2} \\
&=& \frac{1-\theta}{\theta} \\
G^{(2)}(s) &=& \frac{2 \theta (1-\theta)^2}{(1 – s(1-\theta))^3} \\
G^{(2)}(1) &=& \frac{2 \theta (1-\theta)^2}{(1 – (1-\theta))^3} \\
&=& \frac{2(1-\theta)^2}{\theta^2}
\end{eqnarray}
$$

これから、

$$
\begin{eqnarray}
E[X] &=& G^{(1)}(1) = \frac{1-\theta}{\theta}\\
V[X] &=& G^{(2)}(1) + G^{(1)}(1) – (G^{(1)}(1))^2 \\
&=& \frac{2(1-\theta)^2}{\theta^2} + \frac{1-\theta}{\theta} – \left( \frac{1-\theta}{\theta} \right) ^2 \\
&=& \frac{1-\theta}{\theta^2}
\end{eqnarray}
$$

なお、sの範囲には条件がありましたが、$\theta$は確率で0~1の範囲の整数なので、sの条件を満たします。

問2.3

指数分布に従う確率変数Xについて。指数分布は以下で定義されている分布です。なお、Xは0以上の実数です($X \ge 0$)。

$$
p(X) = \lambda \exp\{ -\lambda x \}
$$

なお、$\lambda$は指数分布のパラメータで、正の実数です。

Xのモーメント母関数$m(\theta)$を求めよ

モーメント母関数$m(\theta)$は以下の式で定義されています。

$$
m(\theta) = E[\exp\{\theta x\}] = \int^{\infty}_{-\infty} \exp\{\theta x\} p(x) dx
$$

この式に従って導出するだけです。Xは指数分布に従う正の連続変数なので、積分範囲は0から∞です。

$$
\begin{eqnarray}
m(\theta) &=& E[e^{\theta X}] = \int^{\infty}_{0} e^{\theta x} \lambda e^{-\lambda x } dx \\
&=& \lambda \int^{\infty}_{0} e^{(\theta -\lambda)x} dx \\
&=& \lambda \left[ \frac{1}{\theta – \lambda} e^{(\theta – \lambda)x} \right]^{\infty}_0 \\
&=& \lambda \left[ 0 – \frac{1}{\theta – \lambda} e^{0} \right]^{\infty}_0 \\
&=& \frac{\lambda}{ \lambda – \theta}
\end{eqnarray}
$$

ここで、3行目から4行目の導出は$\theta \lt \lambda$との条件を仮定しています。

モーメント母関数$m(\theta)$を利用して期待値と分散を求めよ

期待値と分散を導出するために、1階微分と2階微分を考えます。ここで、モーメント母関数のk階微分に対して、$\theta=0$とすると、k次のモーメント$E[X^k]$になることを利用します。($m^{(k)}(0) = E[X^k]$)

$$
\begin{eqnarray}
E[X] &=& m^{(1)}(0) \\
V[X] &=& m^{(2)}(0) – (m^{(1)}(0))^2
\end{eqnarray}
$$

指数分布のモーメント母関数の$\theta$についての1階微分と2階微分は以下のようになります。

$$
\begin{eqnarray}
m^{(1)}(\theta) &=& \frac{\lambda}{(\lambda – \theta)^2} \\
m^{(2)}(\theta) &=& \frac{2\lambda}{(\lambda – \theta)^3}
\end{eqnarray}
$$

以上から、期待値と分散は次のように導出されます。

$$
\begin{eqnarray}
E[X] &=& m^{(1)}(0) = \frac{1}{\lambda} \\
V[X] &=& m^{(2)}(0) – (m^{(1)}(0))^2 = \frac{2 \lambda}{\lambda^3} – \frac{1}{\lambda^2} \\
&=& \frac{1}{\lambda^2}
\end{eqnarray}
$$

参考文献

ワークブック以外の参考資料として以下のものがおすすめです。

  • 松原ら, 統計学入門, 1991, 東京大学出版会