ブログ

統計検定3級問題解説 ~2021年6月実施~ (問1~問10)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問1 解答

(量的変数)

$\boxed{ \ \mathsf{1}\ }$ ③

量的変数は数量で示される変数です。Ⅰ~Ⅳの中では金額を示しているⅢ、ポイントを示しているⅣは量的変数です。
量的変数は、一般的に合計や平均といった集計対象となる変数です。質的変数は、量的変数を分類したりや集計条件として使うための変数です。集計する変数なのかそうでないかで考えるのが、量的か質的を判断する基準になります。
※Ⅰの日付は数字で表されていますが質的変数として扱うのが一般的です。一方で、日数などの期間を表す値は量的変数として取り扱うことが多いです。


問2 解答

(1変数グラフ)

$\boxed{ \ \mathsf{1}\ }$ ②

Ⅰは、比率や割合がわかるグラフが望ましいので、円グラフや帯グラフが使われます。
Ⅱは、推移がわかるグラフが望ましいので、折れ線グラフや棒グラフが使われます。
Ⅲは、ばらつきの比較ができるブラフが望ましいので、箱ひげ図やヒストグラムが使われます。
※ローソク足は一定期間内の始値・高値・安値・終値を表示するグラフで、主に株価の推移などで使われます。散布図は2つの変数の(相関)関係を表示するためのグラフです。


問3 解答

(幹葉図、最頻値、中央値)

問題の幹葉図をデータ列に展開すると次のようになります。

46 46 47 48 49 49 53 53 54 54 55 59 59 59 60 62 63 63 66 68

[1]

$\boxed{ \ \mathsf{3}\ }$ ⑤

最頻値は、最も多く観測されているデータとなります。問題のデータを見ると、$59$が$3$回観測されているので、最頻値は$59$となります。

[2]

$\boxed{ \ \mathsf{4}\ }$ ①

中央値は、データを小さい順に並べたときにちょうど中央に来るデータの値です。問題の場合は、データの件数が$20$件なので、小さいほうから$10$番目の値$54$と、$11$番目の値$55$の平均$=(54+55)\div2=54.5$が中央値となります。


問4 解答

(最頻値、中央値、平均値、四分位範囲)

問題の発生件数を小さい順に並べると次のようになります。

0 1 1 1 1 2 2 3 3 5 5 6

$\boxed{ \ \mathsf{5}\ }$ ④

Ⅰ.発生件数の範囲(最大値$-$最小値)は$6-0=6$で、四分位範囲(第$3$四分位数$-$第$1$四分位数)はそれより小さくなります。
※第$1$四分位数$=(1+1)\div2=1$、第$3$四分位数$=(3+5)\div2=4$なので、四分位範囲は$4-1=3$
Ⅱ.小さいほうから$6$番目の値が$2$、$7$番目の値が$2$なので、中央値は$2$となります。また、平均値は$$(0+1+1+1+1+2+2+3+3+5+5+6)\div12=30\div12=2.5$$となります。
Ⅲ.最頻値は、最も多く観測されているデータとなりますので、$4$回観測されている$1$が最頻値となります。


問5 解答

(頻度表、最頻値、中央値、平均値)

[1]

$\boxed{ \ \mathsf{6}\ }$ ③

Ⅰ.中央値は、データを小さい順に並べたときにちょうど中央に来るデータの値です。力士数の半数は$38/div2=19$人で、勝ち数が$6$以下の人数が$5+5+1+1=12$人、$7$以下の人数が$12+9=21$人なので、中央値は$7$になります。
Ⅱ.$0$勝の力士および$1$勝の力士は$0$人で、$2$勝の力士が$1$人いるので、勝ち数の最小値は$2$となります。
Ⅲ.頻度(人数)が最も大きい勝ち数は、人数が$9$人になっている勝ち数$7$になります。

[2]

$\boxed{ \ \mathsf{7}\ }$ ⑤

問題の頻度表からの勝ち数の平均値の求め方は、勝ち数$\times$人数の合計を総人数で割って計算します。$$\begin{eqnarray}(14&\times&1+13\times1+11\times4+10\times3+9\times3+8\times5\\&+&7\times9+6\times5+5\times5+4\times1+2\times1)\div38=292\div38\fallingdotseq7.7\end{eqnarray}$$


問6 解答

(箱ひげ図、ヒストグラム)

[1]

$\boxed{ \ \mathsf{8}\ }$ ⑤

Ⅰ.四分位範囲は箱ひげ図の箱の部分の大きさ(高さ)で表されます。$2012$年度、$2017$年度ともに箱ひげ図の箱の高さは、グラフの一目盛の高さ$=30$(千円)よりも大きくなっているので、四分位範囲はともに$30$(千円)以上になります。
Ⅱ.中央値は箱内の線で表されます。$2012$年度と$2017$年度を比較すると、$2017$年度の中央値のほうが大きくなっているので、$2012$年度の中央値の$1$倍より大きくなります。
Ⅲ.第$3$四分位数は箱の上辺で表されます。$2017$年度の中央値は、$2012$年度の箱の上辺より上にあるので、$2012$年度の第$3$四分位数より大きくなります。

[2]

$\boxed{ \ \mathsf{9}\ }$ ③

箱ひげ図から、$2012$年度の最小値は$260\sim270$(千円)、最大値は$380\sim390$(千円)と読み取れます。また同じく、$2017$年度の最小値は$310\sim320$(千円)、最大値は$440\sim450$(千円)と読み取れます。このことから、該当するヒストグラムは$2012$年度が$a$、$2017$年度が$c$となります。


問7 解答

(時系列データ、指数、変化率)

[1]

$\boxed{ \ \mathsf{10}\ }$ ④

折れ線グラフから$2016$年における指数は$2008$年より大きく、$2015$年の指数は$100$となっています。また、$2012$年以降のグラフを見ると、$2015$年から$2016$年にかけては指数が減少(下降)していることがわかります。

[2]

$\boxed{ \ \mathsf{11}\ }$ ④

折れ線グラフから値を読み取ると、$2016$年の値は$99.9$、$2014$年の値は$99.2$と読み取れます。これを問題の式に代入すると、$$\frac{99.9-99.2}{99.2}\times100\fallingdotseq0.7$$となります。

[3]

$\boxed{ \ \mathsf{12}\ }$ ①

[1]で検討した通り、$2015$年から$2016$年にかけては指数が減少していますので、前年比の計算式から、前年比はマイナスの値になります。したがって該当するグラフは①か②となります。また、$2014$年の前年比を求めると、$$\frac{99.2-96.6}{96.6}\times100\fallingdotseq2.7$$となりますので、該当するグラフは①になります。


問8 解答

(相関関係、相関係数)

[1]

$\boxed{ \ \mathsf{13}\ }$ ③

散布図から、年平均気温が上がれば年間雪日数が減少する傾向にあります。これは年平均気温は年間雪日数と負の相関関係にあるといえます。
なお、相関図だけからは、年平均気温が上昇傾向にあることも、相関関係に地球温暖化の影響があることもわかりません。さらに、この相関図では降雪量に関する情報は読み取れません。

[2]

$\boxed{ \ \mathsf{14}\ }$ ①

相関図における沖縄県の値から、沖縄県の値を除外した場合、年平均気温と年間雪日数の相関関係は強くなる(より直線的な関係になる)といえます。相関関係は負の相関であり、相関係数は負の値をとるので、相関が強くなった場合は相関係数は小さくなります。

[3]

$\boxed{ \ \mathsf{15}\ }$ ③

2つのヒストグラムはそれぞれ年平均気温と年間雪日数のどちらか一方の情報しかもっていません。したがって、これらのヒストグラムを見比べても、$2$つの変数間の因果関係や共分散の符号、相関係数の絶対値の大きさや符号はわかりません。また、年平均気温のヒストグラムからは年間雪日数を予測することはできませんし、年間雪日数のヒストグラムからは年平均気温を予測することはできません。


問9 解答

(帯グラフ)

$\boxed{ \ \mathsf{16}\ }$ ①

Ⅰ.帯グラフより、新聞閲読者の政治・選挙への関心ありの割合は$69.1\%$で、新聞非閲読者の政治・選挙への関心ありの割合$38.5\%$よりも大きくなっています。
Ⅱ.新聞非閲読者の政治・選挙への関心なしの人数は、新聞非閲読者数$794$人の$58.6\%$である$794\times58.6\div100\fallingdotseq465$人となります。
Ⅲ.新聞閲読者の政治・選挙への関心なしの人数は、新聞閲読者数$2,989$人の$29.2\%$である$2989\times29.2\div100\fallingdotseq873$人となり、新聞非閲読者の政治・選挙への関心なしの人数より大きくなってます。
※帯グラフはこのような比率(構成比)の表現に用いるのがよくある使い方です。数量(人数)を表現するには、棒グラフが望ましいです。


問10 解答

(外れ値)

$\boxed{ \ \mathsf{17}\ }$ ②

Ⅰ.外れ値は、他のデータに比べて、極端に大きい値や小さい値を指すので、必ずしも常に平均値より大きいとは限りません。
Ⅱ.箱ひげ図からは、ひげの長さが極端に長いことで外れ値の存在を検出することができます。
Ⅲ.外れ値が存在した場合は、その理由を探ることは重要です。それにより、外れ値の特殊性やデータ異常を把握することができ、外れ値が分析に与える影響や分析から除外できるかを判断することができるからです。

検定論と一様最強力検定・不偏検定・尤度比検定|統計学演習 発展【5】

「基礎統計学Ⅰ(赤本)」の$12$章などで取り扱う「仮説検定」など、基礎的な統計学では「検定の手順」を中心に解説が行われることが多い。一方で、その「手順」がどういった考え方に基づいて行われているかを取り扱うのが「数理統計学」における「検定論」であり、当記事ではその演習について取り扱う。

・現代数理統計学 Ch.$8$ 「検定論」の章末演習の解答例
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch8.html

・発展演習$100$選
https://www.hello-statisticians.com/practice_100_advanced

基本問題

検定論の基本トピック①

・問題
以下では「現代数理統計学」の$8.1$節を元に、「検定論」の基本トピックについて取り扱う。下記の問いにそれぞれ答えよ。
i) 母数$\theta$の空間を$\Theta$とおき、これを互いに排反な$2$つの部分集合$\Theta_0$と$\Theta_1$に分けられると考える。この際に$\Theta_0 \cup \Theta_1$と$\Theta_0 \cap \Theta_1$をそれぞれ求めよ。
ⅱ) i)で設定を行った$\Theta_0$と$\Theta_1$に対して、帰無仮説$H_0: \theta \in \Theta_0$と、対立仮説$H_1: \theta \in \Theta_1$を考える。
ここで製品の不良率を$\theta = p$と考える際に、帰無仮説と対立仮説を考える。$\Theta_0 = [0, 0.02]$、$\Theta_1 = (0.02, 1]$のように母数空間を設定するとき、$p = 0.01, 0.05, 0.1$はそれぞれ帰無仮説と対立仮説のどちらが成立するか。
ⅲ) 両側検定が帰無仮説$H_0: \theta = \theta_0$と、対立仮説$H_1: \theta \neq \theta_0$のように設定されるとき、片側検定はどのように設定されるか。ただし、薬の効果があるかどうかの検証のように、帰無仮説が当てはまる場合に$\theta_0$より小さいことを暗黙裡に仮定できるものとする。
iv) 帰無仮説を受容する場合を$d=0$、帰無仮説を棄却する場合を$d=1$で表す場合、決定空間$D$はどのようになるかを表せ。
v) 下記のような損失関数は$0$-$1$損失関数とされるが、その意味合いについて説明せよ。
$$
\begin{align}
L(\theta,0) &= 0, \quad if \quad \theta \in \Theta_0 \\
&= 1, \quad if \quad \theta \in \Theta_1 \\
L(\theta,1) &= 1 – L(\theta,1)
\end{align}
$$
vi) 偽陽性(false positive)と偽陰性(false negative)はそれぞれ第$1$種の過誤と第$2$種の過誤のどちらに対応するか答えよ。また、偽陽性と偽陰性の名称について解釈せよ。
vⅱ) 新薬の効果を検証するにあたっては、「効果がない」という帰無仮説を棄却するかどうかを考える。この際の偽陰性と偽陽性は何に対応するかを答えよ。

・解答
i)
$\Theta_0 \cup \Theta_1$と$\Theta_0 \cap \Theta_1$は定義より、それぞれ下記を表す。
$$
\large
\begin{align}
\Theta_0 \cup \Theta_1 &= \Theta \\
\Theta_0 \cap \Theta_1 &= \emptyset
\end{align}
$$

ⅱ)
$$
\large
\begin{align}
0.01 &\in [0, 0.02] = \Theta_0 \\
0.05 &\in (0.02, 1] = \Theta_1 \\
0.1 &\in (0.02, 1] = \Theta_1
\end{align}
$$
上記より、$p=0.01$は帰無仮説$H_0$、$p=0.05$は対立仮説$H_1$、$p=0.1$は対立仮説$H_1$にそれぞれ含まれる。

ⅲ)
片側検定は下記のように設定できる。
$$
\large
\begin{align}
H_0: \theta \leq \theta_0 \\
H_1: \theta > \theta_0
\end{align}
$$

iv)
決定空間は$D = \{ 0, 1 \}$のように表される。

v)
$0$-$1$損失関数$L(\theta,0)$は、$\theta$が$\Theta_0$に含まれる場合の損失は$0$、含まれない場合の損失は$1$と考える。反対に$1-L(\theta,0)$で表される$L(\theta,1)$は$\theta$が$\Theta_0$に含まれる場合の損失は$1$、含まれない場合の損失は$0$と考える。

vi)
偽陽性は第$1$種の過誤、偽陰性は第$2$種の過誤にそれぞれ対応する。偽陽性は帰無仮説を間違って棄却すること、偽陰性は間違った帰無仮説を棄却しないことをそれぞれ意味するので、「間違えて陽性と決定する」、「間違えて陰性と決定する」のようにそれぞれ解釈すると良いと思われる。

vⅱ)
「新薬には効果がない」を帰無仮説にするため、「偽陽性」は「効果がないのに効果があると主張する」、「偽陰性」は「効果があるのにないと主張する」にそれぞれ対応する。

・解説
「検定論」関連の表記に慣れるというのを主目的に、作成を行いました。ここで確認を行った内容は検定論を考える上での前提となるので、抑えておくと良いと思います。
vi)で取り扱った「偽陽性」と「偽陰性」に関しては、実際の標本空間から決定空間への決定関数$\delta: \mathscr{X} \to D$を考えて、$D$が正しくない場合に「偽(False)」とされ、$D$が帰無仮説の棄却の場合は「陽性(positive)」、帰無仮説の採択の場合は「陰性(negative)」と考えるということを元に理解するとわかりやすいと思います。また、vⅱ)で取り扱ったように、帰無仮説の設定にあたっては「背理法」、「異常の検知」、「統計的モデルの診断」の主に$3$つのパターンがあることも抑えておくと良いです。$3$つのパターンに関しては「現代数理統計学」$8.1$節が詳しいです。

検定論の基本トピック②

・問題
i) 前問で取り扱った第$1$種の過誤と第$2$種の過誤はトレードオフの関係にあるが、これに対して伝統的な検定論では第$1$種の過誤が生じる確率を$\alpha$以下に抑えた上で、第$2$種の過誤の確率をできるだけ小さくしようと考える。このときの$\alpha$の名称を英語表記もセットで答えよ。
ⅱ) i)の$\alpha$を$5$%に設定するときと$1$%に設定するときでは、第$1$種の過誤と第$2$種の過誤が起きる確率はそれぞれどのようになるか答えよ。
ⅲ) 標本空間から決定空間への検定関数$\delta: \mathscr{X} \to D$を考える。標本$X=x$に対して、検定関数$\delta$は決定空間$D=\{0,1\}$を対応させる。
$$
\begin{align}
L(\theta,0) &= 0, \quad if \quad \theta \in \Theta_0 \\
&= 1, \quad if \quad \theta \in \Theta_1 \\
L(\theta,1) &= 1 – L(\theta,1)
\end{align}
$$
ここで、決定関数$\delta$に関してリスク関数$R(\theta,\delta) = E[L(\theta,\delta(X))]$を考えるとき、$R(\theta,\delta)$を求めよ。
iv) 下記のように定義する検出力関数(power function)$\beta(\theta)$を用いてリスク関数$R(\theta,\delta)$を表せ。
$$
\begin{align}
\beta(\theta) = E[\delta(X)]
\end{align}
$$
v) 標本空間$\mathscr{X}$を検定関数$\delta(x)$の値によって分割することを考える。
$$
\begin{align}
A &= \{ x|\delta(x)=0 \} \\
R &= \{ x|\delta(x)=1 \} = A^{c}
\end{align}
$$
上記のように考えるとき、$A, R$はそれぞれ受用域(acceptance region)と棄却域(rejection region)のどちらを表すかを答えよ。
vi) v)における$\delta(x)=0, \delta(x)=1$がそれぞれ$T(x) \leq c, T(x) > c$に対応するとき、$T(x)$と$c$に基づいて$A, R$を定義せよ。また、このときの$T(x)$と$c$の名称を答えよ。
vⅱ) vi)で設定した$T(X)$が「有意(significant)である」ことは何を表すか。

・解答
i)
有意水準(level of significance)

ⅱ)
有意水準$\alpha$を$5$%に設定するときは$1$%に設定するときに比べて帰無仮説を棄却しやすく、それに基づいて第$1$種の過誤が生じやすい一方で第$2$種の過誤が生じにくい。反対に$1$%に設定するときは第$2$種の過誤が生じやすい一方で第$1$種の過誤が生じにくい。

ⅲ)
$R(\theta,\delta)$は下記のように計算できる。
$$
\large
\begin{align}
R(\theta,\delta) &= E[L(\theta,\delta(X))] \\
&= 0 \times P(L(\theta,\delta(X))=0) + 1 \times P(L(\theta,\delta(X))=1) \\
&= P(L(\theta,\delta(X))=1)
\end{align}
$$
ここで、$\theta \in \Theta_0$のとき$L(\theta,1)=1$、$\theta \in \Theta_1$のとき$L(\theta,0)=1$であるので、$\theta \in \Theta_0$のときのリスク関数は第$1$種の過誤の確率に一致し、$\theta \in \Theta_1$のときのリスク関数は第$2$種の過誤の確率に一致する。

iv)
$\beta(\theta) = E[\delta(X)] = P(\delta(X)=1)$とⅲ)の結果より、リスク関数は下記のように表すことができる。
$$
\large
\begin{align}
R(\theta,\delta) &= \beta(\theta), \qquad if \quad \theta \in \Theta_0 \\
&= 1 – \beta(\theta), \quad if \quad \theta \in \Theta_1
\end{align}
$$

v)
$A$が帰無仮説を受用し、$R$が帰無仮説を棄却するので、$A$が受用域、$R$が棄却域をそれぞれ表す。

vi)
$A, R$は下記のように定義できる。
$$
\large
\begin{align}
A &= \{ x|T(x) \leq c \} \\
R &= \{ x|T(x) > c \}
\end{align}
$$
また、このとき$T(x)$を検定統計量、$c$を棄却点と呼ばれる。

vⅱ)
「$T(X)$が有意(significant)である」は帰無仮説が確率的には間違いであり、背理法と同様に対立仮説が正しいと考えるということを意味する。

・解説
ⅲ)とiv)で取り扱った検出力関数の定義が複雑ですが、検定では決定空間が受用を表す$d=0$と棄却を表す$d=1$の$2$値のみで表されることを元に考えることで理解できるのではないかと思います。

発展問題

多次元正規分布の平方完成と条件付き確率分布・周辺分布・予測分布|問題演習で理解する統計学【18】

多次元正規分布の指数関数の内部の平方完成に着目することで、条件付き分布・周辺分布・予測分布などの様々な分布の導出が可能になる。一方で、周辺分布の計算などのように計算が複雑になる場合も多いので、当記事では多次元正規分布の平方完成に関連する分布について演習の作成を行った。
・多次元正規分布の確率密度関数の直感的な理解
https://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist1.html

・$2$次元正規分布における条件付き確率分布・周辺分布の数式の導出
https://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist3.html

・標準演習$100$選
https://www.hello-statisticians.com/practice_100

基本問題

$2$次元正規分布の条件付き確率

・問題
$$
\begin{align}
\mathbf{x} &= \left(\begin{array}{c} x_{1} \\ x_{2} \end{array} \right) \quad (1) \\
\mathbf{\mu} &= \left(\begin{array}{c} \mu_{1} \\ \mu_{2} \end{array} \right) \quad (2) \\
\mathbf{\Sigma} &= \left(\begin{array}{cc} \sigma_{11} & \sigma_{12} \\ \sigma_{21} & \sigma_{22} \end{array} \right) \quad (3)
\end{align}
$$
上記で定義した$\mathbf{x}, \mathbf{\mu}, \mathbf{\Sigma}$を元に、$2$次元正規分布$N(\mathbf{\mu}, \mathbf{\Sigma})$を仮定する。このとき、$2$変数$x_1, x_2$に関する$2$次元正規分布の条件付き確率分布を$1$次元の正規分布$N(\mu_{x_1|x_2}, \Sigma_{x_1|x_2})$で表すと考える。

ここで、$\mu_{x_1|x_2}, \Sigma_{x_1|x_2}$は下記のようになる。
$$
\begin{align}
\mu_{x_1|x_2} &= \mu_{1}+\frac{\sigma_{12}}{\sigma_{22}}(x_{2}-\mu_{2}) \quad (4) \\
\Sigma_{x_1|x_2} &= \sigma_{11} – \frac{\sigma_{12}^2}{\sigma_{22}} \quad (5)
\end{align}
$$

$\mu_{x_1|x_2}, \Sigma_{x_1|x_2}$の詳しい導出については下記で取り扱った。
https://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist3.html#i-2

ここまでの内容に基づいて、下記の問いに答えよ。
i) 下記のように分散共分散行列の$\mathbf{\Sigma}$が得られるとき、$\mu_{x_1|x_2}, \Sigma_{x_1|x_2}$に代入し、結果を計算せよ。
$$
\begin{align}
\mathbf{\Sigma} = \left(\begin{array}{cc} 1 & 0 \\ 0 & 1 \end{array} \right)
\end{align}
$$
ⅱ) 下記のように分散共分散行列の$\mathbf{\Sigma}$が得られるとき、i)と同様に代入を行い、$\Sigma_{x_1|x_2}$の値をi)と比較せよ。
$$
\begin{align}
\mathbf{\Sigma} = \left(\begin{array}{cc} 1 & 0.7 \\ 0.7 & 1 \end{array} \right)
\end{align}
$$
ⅲ) 下記のv)の結果を元に、ⅱ)の分散共分散行列を持つ$2$次元正規分布の確率密度関数に関して、確率密度に関する等高線を$1$つ用いて図示せよ。
https://www.hello-statisticians.com/practice/stat_practice3.html#i-6
iv) ⅲ)で行った描画を元にⅱ)で導出を行った$\mu_{x_1|x_2}$に関する考察を行え。
v) ⅲ)で行った描画を元に$(5)$式で表した$\Sigma_{x_1|x_2}$に関する考察を行え。

・解答
i) $\sigma_{11}=1, \sigma_{12}=0, \sigma_{21}=0, \sigma_{22}=1$を$(2)$式、$(3)$式に代入することで、下記のように$\mu_{x_1|x_2}, \Sigma_{x_1|x_2}$が得られる。
$$
\large
\begin{align}
\mu_{x_1|x_2} &= \mu_{1}+\frac{\sigma_{12}}{\sigma_{22}}(x_{2}-\mu_{2}) \\
&= \mu_{1} + \frac{0}{1}(x_{2}-\mu_{2}) \\
&= \mu_{1} \\
\Sigma_{x_1|x_2} &= \sigma_{11} – \frac{\sigma_{12}^2}{\sigma_{22}} \\
&= 1 – \frac{0^2}{1} \\
&= 1
\end{align}
$$
上記より、$x_1,x_2$の共分散が$0$の場合は条件付き分布$P(x_1|x_2)$は$N(\mu_{1}, \sigma_{11})$に従うことが確認できる。

ⅱ) $\sigma_{11}=1, \sigma_{12}=0.7, \sigma_{21}=0.7, \sigma_{22}=1$を$(2)$式、$(3)$式に代入することで、下記のように$\mu_{x_1|x_2}, \Sigma_{x_1|x_2}$が得られる。
$$
\large
\begin{align}
\mu_{x_1|x_2} &= \mu_{1}+\frac{\sigma_{12}}{\sigma_{22}}(x_{2}-\mu_{2}) \\
&= \mu_{1} + \frac{0.7}{1}(x_{2}-\mu_{2}) \\
&= \mu_{1} + 0.7(x_{2}-\mu_{2}) \\
\Sigma_{x_1|x_2} &= 1 – \frac{0.7^2}{1} \\
&= 1 – 0.49 \\
&= 0.51
\end{align}
$$
上記をi)の結果と比較するとき、分散が小さくなったことが確認できる。また、共分散の値が大きくなるにつれて、$\Sigma_{x_1|x_2}$が小さくなることも同時に確認できる。

ⅲ)
下記のように図示を行うことができる。

参照先のv)が$\mu_{1}=1, \mu_{2}=1$が前提だったので上記のように図示したが、$\mu_{1}, \mu_{2}$の値が変わっても単に平行移動を行うことで求めることができる。

iv)
$$
\large
\begin{align}
\mu_{x_1|x_2} = \mu_{1}+0.7(x_{2}-\mu_{2})
\end{align}
$$
ⅱ)で導出を行った上記を$x_{2}$に関して考えると、点$(\mu_{1},\mu_{2})$を通る傾き0.7の直線であることがわかる。同時に$x_{2} > \mu_{2}$の際に$\mu_{x_1|x_2}$が$\mu_{1}$より大きくなり、$x_{2} < \mu_{2}$の際に$\mu_{x_1|x_2}$が$\mu_{1}$よりも小さくなることも考えることができる。これをⅲ)で行った描画と見比べると、確率密度関数の等高線が右上と左下に向けて広がっていくことに対応することがわかる。

v)
$$
\large
\begin{align}
\Sigma_{x_1|x_2} &= \sigma_{11} – \frac{\sigma_{12}^2}{\sigma_{22}}
\end{align}
$$
$(5)$式は上記のように表されるが、共分散の絶対値が大きくなるにつれて条件付き分布の分散が小さくなることが確認できる。
このことをⅲ)の描画を元に考えると、共分散が大きくなるにつれて確率密度関数に基づく等高線が丸から楕円、直線に移行することに対応する。このように等高線が変化することで、共分散の絶対値が大きくなるにつれて条件付き分布の分散が小さくなることに対応すると考えることができる。

・解説
ここではそれぞれの変数の分散が$1$、共分散が$0.7$の$2$次元正規分布に関する取り扱いについて考えました。ⅱ)で導出した結果とⅲ)で行った描画を見比べることで、$2$次元正規分布に関する数式の理解がしやすいのではないかと思います。

不偏推定量〜クラメル・ラオの不等式、完備十分統計量〜|問題演習で理解する統計学【17】

推定論に基づく点推定に関しては「最尤推定」がよく用いられるが、推定論では「不偏推定」に関しても「最尤推定」に並んで重要トピックとされる。当記事ではクラメル・ラオの不等式などに基づいた、不偏推定量の取り扱いに関して演習形式で確認を行った。
・バイアス・バリアンス分解と不偏推定量(unbiased estimator)
https://www.hello-statisticians.com/explain-terms-cat/unbiased_estimator1.html

・クラメルラオの不等式を用いた一様最小分散不偏推定量(UMVU estimator)の判定
https://www.hello-statisticians.com/explain-terms-cat/unbiased_estimator2.html

・一様分布(uniform distribution)の不偏推定量・最尤推定量
https://www.hello-statisticians.com/explain-terms-cat/uniform_dist1.html

基本問題

ポアソン分布とクラメル・ラオの不等式

・問題
$X_1, X_2, …, X_n \sim Po(\lambda), i.i.d.,$で表されるように、確率変数列$X_1,…,X_n$がそれぞれ独立にポアソン分布$Po(\lambda)$に従う場合を考える。このとき、確率関数$P(X_i=x_i|\lambda)$は下記のように表される。
$$
\begin{align}
P(X_i=x_i|\lambda) = \frac{\lambda^{x_i} \exp (-\lambda)}{x_i!}
\end{align}
$$

このとき、同時確率$P(X_1=x_1,…X_n|\lambda)$を$\lambda$に関する尤度$L(\lambda)$と考えると、対数尤度の$\log{L(\lambda)}$は下記のように表すことができる。
$$
\begin{align}
\log{L(\lambda)} &= \log{P(X_1=x_1,…X_n|\lambda)} \\
&= \sum_{i=1}^{n} \log{ P(X_i=x_i|\lambda) } \\
&= \sum_{i=1}^{n} (x_i \log{\lambda} – \lambda – \log{x_i!})
\end{align}
$$
上記の詳しい導出は下記で取り扱った。
https://www.hello-statisticians.com/practice/stat_practice_advanced3.html#i-5

ここで、「現代数理統計学」の$(7.26)$式より、フィッシャー情報量$\mathit{I}_n(\lambda)$は下記のように定義される。
$$
\begin{align}
\mathit{I}_n(\lambda) = E \left[ -\frac{\partial^2}{\partial \lambda^2} \log{L(\lambda)} \right]
\end{align}
$$

ここまでの内容を元に、下記の問いに答えよ。
i) $\displaystyle \frac{\partial}{\partial \lambda} \log{L(\lambda)}$を計算せよ。
ⅱ) $\displaystyle \frac{\partial^2}{\partial \lambda^2} \log{L(\lambda)}$を計算せよ。
ⅲ) $\displaystyle \mathit{I}_n(\lambda) = E \left[ – \frac{\partial^2}{\partial \lambda^2} \log{L(\lambda)} \right]$を計算せよ。
iv) $\displaystyle V[\bar{X}] = \frac{1}{n}V[X]$を利用して、$V[\bar{X}]$を求めよ。
v) $\lambda$の推定量に$\hat{\lambda} = \bar{X}$を考えるとき、下記が成立すれば$\bar{X}$は$\lambda$の一様最小分散不偏推定量となる。
$$
\begin{align}
V[\bar{X}] = \frac{1}{\mathit{I}_n(\lambda)} \quad (1)
\end{align}
$$
ここでiv)で求めた$V[\bar{X}]$に対して、$(1)$式が成立することを示せ。

・解答
i) $\displaystyle \frac{\partial}{\partial \lambda} \log{L(\lambda)}$は下記のように計算できる。
$$
\large
\begin{align}
\frac{\partial}{\partial \lambda} \log{L(\lambda)} &= \frac{\partial}{\partial \lambda} \sum_{i=1}^{n} (x_i \log{\lambda} – \lambda – \log{x_i!}) \\
&= \sum_{i=1}^{n} \left( \frac{x_i}{\lambda} – 1 \right)
\end{align}
$$

ⅱ) $\displaystyle \frac{\partial^2}{\partial \lambda^2} \log{L(\lambda)}$は下記のように計算できる。
$$
\large
\begin{align}
\frac{\partial^2}{\partial \lambda^2} \log{L(\lambda)}
&= \frac{\partial}{\partial \lambda} \sum_{i=1}^{n} \left( \frac{x_i}{\lambda} – 1 \right) \\
&= -\sum_{i=1}^{n} \left( \frac{x_i}{\lambda^2} \right)
\end{align}
$$

ⅲ) $\displaystyle \mathit{I}_n(\lambda) = E \left[ – \frac{\partial^2}{\partial \lambda^2} \log{L(\lambda)} \right]$は下記のように計算できる。
$$
\large
\begin{align}
\mathit{I}_n(\lambda) &= E \left[ – \frac{\partial^2}{\partial \lambda^2} \log{L(\lambda)} \right] \\
&= E \left[ (-1) \times -\sum_{i=1}^{n} \left( \frac{x_i}{\lambda^2} \right) \right] \\
&= E \left[ \sum_{i=1}^{n} \left( \frac{x_i}{\lambda^2} \right) \right] \\
&= E \left[ \frac{1}{\lambda^2} \sum_{i=1}^{n} x_i \right] \\
&= \frac{nE[X]}{\lambda^2} \\
&= \frac{n \lambda}{\lambda^2} \\
&= \frac{n}{\lambda}
\end{align}
$$

iv)
$\displaystyle V[\bar{X}] = \frac{1}{n}V[X]$に基づいて、$V[\bar{X}]$は下記のように計算することができる。
$$
\large
\begin{align}
V[\bar{X}] &= \frac{1}{n}V[X] \\
&= \frac{\lambda}{n}
\end{align}
$$

v)
$$
\large
\begin{align}
\frac{1}{\mathit{I}_n(\lambda)} &= \frac{1}{n / \lambda} \\
&= \frac{\lambda}{n}
\end{align}
$$
上記より、$(1)$式が成立することが確認できる。

・解説
v)で確認した$(1)$式はクラメル・ラオの不等式を等式だけ抜き出したもので、実際はパラメータ$\theta$に関するクラメル・ラオの不等式は下記のような不等式で表されます。
$$
\large
\begin{align}
V[\hat{\theta}] \geq \frac{1}{\mathit{I}_n(\theta)}
\end{align}
$$
推定量$\hat{\theta}$が一様最小分散不偏推定量である場合、上記において等号が成立し、この問題では等号が成立する場合について取り扱いを行いました。

フィッシャー情報量の定義とその変形

・問題
クラメル・ラオの不等式を考える際に、パラメータの対数尤度からフィッシャー情報量を計算し、推定量の分散と比較を行うが、フィッシャー情報量の表記が様々あるので、大元の式定義から他の式の導出の確認をしておくとよい。ここでは「現代数理統計学」の$(7.6)$式の変形を確認する。

観測値$x_1,x_2,…,x_n$に関するパラメータ$\theta$のフィッシャー情報量を$\mathit{I}_{n}(\theta)$、同時確率分布を$P(x_1,x_2,…,x_n|\theta)$とおくと、$\mathit{I}_{n}(\theta)$は「現代数理統計学」の$(7.6)$式に基づいて下記のように表すことができる。
$$
\begin{align}
\mathit{I}_{n}(\theta) = E \left[ \left( \frac{\partial \log{P(x_1,x_2,…,x_n|\theta)}}{\partial \theta} \right)^2 \right] \quad (1)
\end{align}
$$

ここまでを元に下記の問いに答えよ。
i) 合成関数の微分の公式に基づいて下記が成立することを示せ。
$$
\begin{align}
\frac{\partial \log{P(x_1,x_2,…,x_n|\theta)}}{\partial \theta} = \frac{1}{P(x_1,x_2,…,x_n|\theta)} \times \frac{\partial P(x_1,x_2,…,x_n|\theta)}{\partial \theta}
\end{align}
$$
ⅱ) i)の結果と期待値の定義に基づいて、$(1)$式に関して下記が成立することを示せ。
$$
\begin{align}
\mathit{I}_{n}(\theta) &= E \left[ \left( \frac{\partial \log{P(x_1,x_2,…,x_n|\theta)}}{\partial \theta} \right)^2 \right] \\
&= \int\int…\int \frac{1}{P(x_1,x_2,…,x_n|\theta)} \times \left( \frac{\partial P(x_1,x_2,…,x_n|\theta)}{\partial \theta} \right)^2 dx_1dx_2…dx_n
\end{align}
$$
ⅲ) i)の式の右辺を下記のように表す。
$$
\begin{align}
l'(\theta) = \left( \frac{1}{P(x_1,x_2,…,x_n|\theta)} \times \frac{\partial P(x_1,x_2,…,x_n|\theta)}{\partial \theta} \right)
\end{align}
$$
このとき、$\displaystyle l^{”}(\theta) = \frac{\partial}{\partial \theta} l'(\theta)$が下記のように計算できることを示せ。
$$
\begin{align}
l^{”}(\theta) &= \frac{\partial^2 P(x_1,x_2,…,x_n|\theta) / \partial \theta^2}{P(x_1,x_2,…,x_n|\theta)} – \left( \frac{\partial P(x_1,x_2,…,x_n|\theta) / \partial \theta}{P(x_1,x_2,…,x_n|\theta)} \right)^2
\end{align}
$$
iv) ⅲ)に基づいて$E[l^{”}(\theta)]$を計算すると、下記の結果に一致することを示せ。
$$
\begin{align}
E[l^{”}(\theta)] = \int \int … \int \frac{\partial^2 P(x_1,x_2,…,x_n|\theta) / \partial \theta^2}{P(x_1,x_2,…,x_n|\theta)} dx_1dx_2…d_n – \mathit{I}_{n}(\theta)
\end{align}
$$
v) $\displaystyle \int \int … \int \frac{\partial^2 P(x_1,x_2,…,x_n|\theta) / \partial \theta^2}{P(x_1,x_2,…,x_n|\theta)} dx_1dx_2…d_n = 0$が成立する際に、$E[-l^{”}(\theta)] = \mathit{I}_{n}(\theta)$が成立することを確認せよ。

・解答
i)
$u = P(x_1,x_2,…,x_n|\theta), y = \log{P(x_1,x_2,…,x_n|\theta)}$とおくと、$y = \log{P(x_1,x_2,…,x_n|\theta)} = \log{u}$が成立する。このとき、合成関数の微分の公式より、$\displaystyle \frac{\partial y}{\partial \theta} = \frac{\partial \log{P(x_1,x_2,…,x_n|\theta)}}{\partial \theta}$は下記のように計算できる。
$$
\large
\begin{align}
\frac{\partial \log{P(x_1,x_2,…,x_n|\theta)}}{\partial \theta} &= \frac{\partial y}{\partial \theta} \\
&= \frac{\partial y}{\partial u} \cdot \frac{\partial u}{\partial \theta} \\
&= \frac{\partial \log{u}}{\partial u} \cdot \frac{\partial P(x_1,x_2,…,x_n|\theta)}{\partial \theta} \\
&= \frac{1}{u} \times \frac{\partial P(x_1,x_2,…,x_n|\theta)}{\partial \theta} \\
&= \frac{1}{P(x_1,x_2,…,x_n|\theta)} \times \frac{\partial P(x_1,x_2,…,x_n|\theta)}{\partial \theta}
\end{align}
$$

ⅱ)
$$
\large
\begin{align}
& E \left[ \left( \frac{\partial \log{P(x_1,x_2,…,x_n|\theta)}}{\partial \theta} \right)^2 \right] \\
&= \int\int…\int \left( \frac{\partial \log{P(x_1,x_2,…,x_n|\theta)}}{\partial \theta} \right)^2 \times P(x_1,x_2,…,x_n|\theta) dx_1dx_2…dx_n
\end{align}
$$
期待値の定義より、上記のように表すことができる。この式にi)の式を代入すると、下記のように導出できる。
$$
\large
\begin{align}
& E \left[ \left( \frac{\partial \log{P(x_1,x_2,…,x_n|\theta)}}{\partial \theta} \right)^2 \right] \\
&= \int\int…\int \left( \frac{\partial \log{P(x_1,x_2,…,x_n|\theta)}}{\partial \theta} \right)^2 \times P(x_1,x_2,…,x_n|\theta) dx_1dx_2…dx_n \\
&= \int\int…\int \left( \frac{1}{P(x_1,x_2,…,x_n|\theta)} \times \frac{\partial P(x_1,x_2,…,x_n|\theta)}{\partial \theta} \right)^2 \times P(x_1,x_2,…,x_n|\theta) dx_1dx_2…dx_n \\
&= \int\int…\int \frac{1}{P(x_1,x_2,…,x_n|\theta)} \times \left( \frac{\partial P(x_1,x_2,…,x_n|\theta)}{\partial \theta} \right)^2 dx_1dx_2…dx_n
\end{align}
$$

ⅲ)
$$
\large
\begin{align}
f(\theta) &= P(x_1,x_2,…,x_n|\theta) \\
f'(\theta) &= \frac{\partial}{\partial \theta} P(x_1,x_2,…,x_n|\theta)
\end{align}
$$
表記の簡略化にあたって、上記のように$f(\theta), f'(\theta)$を考える。このとき商の導関数の公式より、$l^{”}(\theta)$は下記のように計算できる。
$$
\large
\begin{align}
l^{”}(\theta) &= \left( \frac{f'(\theta)}{f(\theta)} \right)’ \\
&= \frac{f^{”}(\theta)f(\theta) – f'(\theta)f'(\theta)}{(f(\theta))^2} \\
&= \frac{f^{”}(\theta)}{f(\theta)} – \frac{(f'(\theta))^2}{(f(\theta))^2} \\
&= \frac{f^{”}(\theta)}{f(\theta)} – \left( \frac{f'(\theta)}{f(\theta)} \right)^2 \\
&= \frac{\partial^2 P(x_1,x_2,…,x_n|\theta) / \partial \theta^2}{P(x_1,x_2,…,x_n|\theta)} – \left( \frac{\partial P(x_1,x_2,…,x_n|\theta) / \partial \theta}{P(x_1,x_2,…,x_n|\theta)} \right)^2
\end{align}
$$

iv)
ⅱ)の結果に基づき考えることで、積分を行った際の第$2$項が$- \mathit{I}_{n}(\theta)$に一致することが確認できる。

v)
iv)の式に$\displaystyle \int \int … \int \frac{\partial^2 P(x_1,x_2,…,x_n|\theta) / \partial \theta^2}{P(x_1,x_2,…,x_n|\theta)} dx_1dx_2…d_n = 0$を代入すると、$E[-l^{”}(\theta)] = \mathit{I}_{n}(\theta)$が成立することが確認できる。


・解説
v)より、前問で用いた$E[-l^{”}(\theta)] = \mathit{I}_{n}(\theta)$を導出することができたことは抑えておくと良いです。同時確率などに関しての定義に基づく式表記が略記が多いことから、$P(x_1,x_2,…,x_n|\theta)$などを用いましたが、i)〜ⅲ)の計算表記が複雑に思われたため、ⅲ)では$f(\theta), f'(\theta)$を用いて置き換えることで、商の導関数の公式をそのまま用いることができるように工夫を行いました。
このように、定義に基づく式表記と計算にあたって用いやすい表記が異なる場合があるので、目的に応じて使い分けられるようにしておくと良いと思います。

不偏標本分散とクラメル・ラオの不等式

・問題
$$
\begin{align}
s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i-\bar{X})^2
\end{align}
$$
$X_1,…,X_n$に対して上記のように不偏標本分散$s^2$を定義する際に、母分散を$\sigma^2$とおくと$\displaystyle \frac{(n-1)s^2}{\sigma^2}$は自由度$n-1$の$\chi^2$分布$\chi^2(n-1)$に従う。

また、自由度$\nu$の$\chi^2$分布はガンマ分布$\displaystyle Ga \left( \frac{\nu}{2},2 \right)$に一致する。

ここまでの内容に基づいて以下の問いに答えよ。
i) ガンマ分布$\displaystyle Ga \left( \frac{\nu}{2},2 \right)$の確率密度関数を$f(x)$と定義するとき、$f(x)$を表せ。ただし、下記のように定義するガンマ関数$\Gamma(a)$を用いて良い。
$$
\begin{align}
\Gamma(a) = \int_{0}^{\infty} x^{a-1} e^{-x} dx
\end{align}
$$

ⅱ) i)で定義したガンマ関数に関して$\Gamma(a+1)=a\Gamma(a)$が成立することを示せ。
ⅲ) $\displaystyle Y \sim Ga \left( \frac{n-1}{2},2 \right)$が成立するとき、i)で確認を行なった確率密度関数$f(x)$を用いて$E[Y]=n-1$が成立することを示せ。
iv) ⅲ)に引き続き、$E[Y^2]=n^2-1, V[Y]=2(n-1)$が成立することをそれぞれ示せ。
v) iv)の結果を利用して、$\displaystyle V[s^2] = \frac{2 \sigma^4}{n-1}$が成立することを示せ。
vi) 正規分布$N(\mu,\tau)$の確率密度関数を$f(x)$とおくと、$f(x)$は下記のように表される。
$$
\begin{align}
f(x) = \frac{1}{\sqrt{2 \pi \tau}} \exp \left[ -\frac{(x-\mu)^2}{2 \tau} \right]
\end{align}
$$
上記に対して$l(\tau) = \log{L(\tau)} = \log{f(x)}$のように考えるとき、下記が成立することをそれぞれ確認せよ。
$$
\begin{align}
l(\tau) &= -\frac{(x-\mu)^2}{2 \tau} – \frac{1}{2} \log(2 \pi \tau) \\
\frac{\partial l(\tau)}{\partial \tau} &= \frac{(x-\mu)^2}{2 \tau^2} – \frac{1}{2 \tau} \\
\frac{\partial^2 l(\tau)}{\partial \tau^2} &= -\frac{(x-\mu)^2}{\tau^3} + \frac{1}{2 \tau^2}
\end{align}
$$
vⅱ) vi)の結果に基づいて$\tau$に関するフィッシャー情報量$\displaystyle \mathit{I}_1(\tau) = E \left[ -\frac{\partial^2 l(\tau)}{\partial \tau^2} \right]$に対し、下記が成立することを確認せよ。
$$
\begin{align}
\mathit{I}_1(\tau) = \frac{1}{2 \tau^2}
\end{align}
$$
また、このとき$\tau=\sigma^2$に基づいて、クラメル・ラオの不等式の下限の$\displaystyle \frac{1}{n \mathit{I}_1(\sigma^2)}$を求めよ。

・解答
i)
ガンマ分布$\displaystyle Ga \left( \frac{\nu}{2},2 \right)$の確率密度関数を$f(x)$は下記のように表すことができる。
$$
\large
\begin{align}
f(x) = \frac{1}{\Gamma \left( \frac{\nu}{2} \right) 2^{\frac{\nu}{2}}} x^{\frac{\nu}{2}-1} e^{-x}
\end{align}
$$

ⅱ)
部分積分を利用することで下記のように導出を行うことができる。
$$
\large
\begin{align}
\Gamma(a+1) &= \int_{0}^{\infty} x^{a} e^{-x} dx \\
&= \left[ -x^{a} e^{-x} \right]_{0}^{\infty} + a \int_{0}^{\infty} x^{a-1} e^{-x} dx \\
&= 0 + a \Gamma(a) = a \Gamma(a)
\end{align}
$$

ⅲ)
$\displaystyle Y \sim Ga \left( \frac{n-1}{2},2 \right)$より、$E[Y]$は下記のように導出することができる。
$$
\large
\begin{align}
E[Y] &= \int_{0}^{\infty} y f(y) dy \\
&= \int_{0}^{\infty} y \times \frac{1}{\Gamma \left( \frac{n-1}{2} \right) 2^{\frac{n-1}{2}}} y^{\frac{n-1}{2}-1} e^{-y} dy \\
&= \frac{1}{\Gamma \left( \frac{n-1}{2} \right) 2^{\frac{n-1}{2}}} \int_{0}^{\infty} y^{\frac{n-1}{2}+1-1} e^{-y} dy \\
&= \frac{\Gamma \left( \frac{n-1}{2}+1 \right) 2^{\frac{n-1}{2}+1}}{\Gamma \left( \frac{n-1}{2} \right) 2^{\frac{n-1}{2}}} \int_{0}^{\infty} \frac{1}{\Gamma \left( \frac{n-1}{2}+1 \right) 2^{\frac{n-1}{2}+1}} y^{\frac{n-1}{2}+1-1} e^{-y} dy \\
&= \frac{\left( \frac{n-1}{2}+1 \right) \Gamma \left( \frac{n-1}{2} \right) \times 2}{\Gamma \left( \frac{n-1}{2} \right)} \times 1 \\
&= n-1+2 = n-1
\end{align}
$$

iv)
・$E[Y^2]=n^2-1$の導出
$$
\large
\begin{align}
E[Y] &= \int_{0}^{\infty} y^2 f(y) dy \\
&= \int_{0}^{\infty} y^2 \times \frac{1}{\Gamma \left( \frac{n-1}{2} \right) 2^{\frac{n-1}{2}}} y^{\frac{n-1}{2}-1} e^{-y} dy \\
&= \frac{1}{\Gamma \left( \frac{n-1}{2} \right) 2^{\frac{n-1}{2}}} \int_{0}^{\infty} y^{\frac{n-1}{2}+2-1} e^{-y} dy \\
&= \frac{\Gamma \left( \frac{n-1}{2}+2 \right) 2^{\frac{n-1}{2}+2}}{\Gamma \left( \frac{n-1}{2} \right) 2^{\frac{n-1}{2}}} \int_{0}^{\infty} \frac{1}{\Gamma \left( \frac{n-1}{2}+2 \right) 2^{\frac{n-1}{2}+2}} y^{\frac{n-1}{2}+2-1} e^{-y} dy \\
&= \frac{\left( \frac{n-1}{2}+1 \right)\left( \frac{n-1}{2} \right) \Gamma \left( \frac{n-1}{2} \right) \times 2^2}{\Gamma \left( \frac{n-1}{2} \right)} \times 1 \\
&= (n+1)(n-1) = n^2-1
\end{align}
$$

・$V[Y]=2(n-1)$の導出
$V[Y]=E[Y^2]-E[Y]^2$より、下記のように導出を行うことができる。
$$
\large
\begin{align}
V[Y] &= E[Y^2] – E[Y]^2 \\
&= n^2-1 – (n-1)^2 \\
&= n^2-1-(n^2-2n+1) = 2(n-1)
\end{align}
$$

v)
$\displaystyle \frac{(n-1)s^2}{\sigma^2} \sim Ga \left( \frac{n-1}{2},2 \right)$より、下記が成立する。
$$
\large
\begin{align}
V \left[ \frac{(n-1)s^2}{\sigma^2} \right] = 2(n-1)
\end{align}
$$

上記に対して$V[aX]=a^2V[X]$を適用することで、下記が導出できる。
$$
\large
\begin{align}
V \left[ \frac{(n-1)s^2}{\sigma^2} \right] &= 2(n-1) \\
\frac{(n-1)^2}{\sigma^4} V[s^2] &= 2(n-1) \\
V[s^2] = 2(n-1) \times \frac{\sigma^4}{(n-1)^2} &= \frac{2 \sigma^4}{n-1}
\end{align}
$$

vi)
・$\displaystyle l(\tau) = -\frac{(x-\mu)^2}{2 \tau} – \frac{1}{2} \log(2 \pi \tau)$の導出
$$
\large
\begin{align}
l(\tau) &= \log \left( \frac{1}{\sqrt{2 \pi \tau}} \exp \left[ -\frac{(x-\mu)^2}{2 \tau} \right] \right) \\
&= -\log \left( \sqrt{2 \pi \tau} \right) + \log \left( \exp \left[ -\frac{(x-\mu)^2}{2 \tau} \right] \right) \\
&= -\frac{(x-\mu)^2}{2 \tau} – \frac{1}{2} \log(2 \pi \tau)
\end{align}
$$

・$\displaystyle \frac{\partial l(\tau)}{\partial \tau} = \frac{(x-\mu)^2}{2 \tau^2} – \frac{1}{2 \tau}$の導出
$$
\large
\begin{align}
\frac{\partial l(\tau)}{\partial \tau} &= \frac{\partial}{\partial \tau} \left( -\frac{(x-\mu)^2}{2 \tau} – \frac{1}{2} \log(2 \pi \tau) \right) \\
&= \frac{(x-\mu)^2}{2 \tau^2} – \frac{2 \pi}{2 \cdot 2 \pi \tau} \\
&= \frac{(x-\mu)^2}{2 \tau^2} – \frac{1}{2 \tau}
\end{align}
$$

・$\displaystyle \frac{\partial^2 l(\tau)}{\partial \tau^2} = -\frac{(x-\mu)^2}{\tau^3} + \frac{1}{2 \tau^2}$の導出
$$
\large
\begin{align}
\frac{\partial^2 l(\tau)}{\partial \tau^2} &= \frac{\partial}{\partial \tau} \left( \frac{(x-\mu)^2}{2 \tau^2} – \frac{1}{2 \tau} \right) \\
&= \frac{2(x-\mu)^2}{2 \tau^3} + \frac{1}{2 \tau^2} \\
&= -\frac{(x-\mu)^2}{\tau^3} + \frac{1}{2 \tau^2}
\end{align}
$$

vⅱ)
$\tau$に関するフィッシャー情報量$\displaystyle \mathit{I}_1(\tau) = E \left[ -\frac{\partial^2 l(\tau)}{\partial \tau^2} \right]$は下記のように導出できる。
$$
\large
\begin{align}
\mathit{I}_1(\tau) &= E \left[ -\frac{\partial^2 l(\tau)}{\partial \tau^2} \right] \\
&= \frac{E[(x-\mu)^2]}{\tau^3} – \frac{1}{2 \tau^2} \\
&= \frac{\tau}{\tau^3} – \frac{1}{2 \tau^2} \\
&= \frac{1}{\tau^2} – \frac{1}{2 \tau^2} \\
&= \frac{1}{2 \tau^2}
\end{align}
$$

また、このときクラメル・ラオの不等式の下限の$\displaystyle \frac{1}{n \mathit{I}_1(\sigma^2)}$は下記のように計算できる。
$$
\large
\begin{align}
\frac{1}{n \mathit{I}_1(\sigma^2)} &= \frac{1}{n} \times 2 (\sigma^2)^2 \\
&= \frac{2 \sigma^4}{n}
\end{align}
$$

・解説
v)で導出した$V[s^2]$とvⅱ)で導出した$\displaystyle \frac{1}{n \mathit{I}_1(\sigma^2)}$の値は似ている一方で除数が$n-1$と$n$である点が異なります。このように標本分散の$s^2$はクラメル・ラオの不等式において等号が成立せず、UMVUではないことがわかります。

一方で、標本平均$\mu$が既知である場合に$\displaystyle s^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i-\mu)^2$がUMVUであることが確認できることも同時に抑えておくと良いです。

また、下記のように「現代数理統計学」の「章末課題」や「統計検定1級」の「統計数理」で類題が出題されているので合わせて抑えておくと良いと思います。
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch7.html#71
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch7.html#73
https://www.hello-statisticians.com/toukei-kentei-1/stat_app/stat_certifi_1_math_18_1.html

発展問題

バイアス・バリアンス分解と不偏推定量

・問題
母集団分布のパラメータ$\theta$の推定量を$\hat{\theta}$と考える。このとき、下記が成立すれば「推定量$\hat{\theta}$が不偏推定量である」と考えることができる。
$$
\begin{align}
E[\hat{\theta}] = \theta \quad (1)
\end{align}
$$

ここで、推定量に関しては「現代数理統計学」の$7.1$節の記載に基づき、推定量(estimator)は確率変数と考え、その実際の値を推定値(estimate)とそれぞれ区別することとする。よって、推定量$\hat{\theta}$は確率変数列$X_1,…,X_n$の関数の表記で下記のように表すことを考える。
$$
\begin{align}
\hat{\theta} = \hat{\theta}(X_1,X_2,…,X_n)
\end{align}
$$

以下、ここで定義した不偏推定量のバイアス・バリアンス分解について考える。以下の問いに答えよ。
i) ポアソン分布の$n$回試行に関連して確率変数列が$X_1,…,X_n \sim Po(\lambda), i.i.d.$のように与えられる場合を考える。
このとき$\lambda$の推定値を$\displaystyle \hat{\lambda} = \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$とすれば、$E[X_1]=\lambda$より、不偏推定量の式$(1)$を用いて$\bar{X}$が不偏推定量であることを示せ。
ⅱ) 下記のように推定量$\hat{\theta}$とパラメータ$\theta$の平均二乗誤差に関して考える。
$$
\begin{align}
E \left[ \left( \hat{\theta} – \theta \right)^2 \right]
\end{align}
$$
このとき、平均二乗誤差に関して下記が成立することを確認せよ。
$$
\begin{align}
E \left[ \left( \hat{\theta} – \theta \right)^2 \right] = E \left[ \left( \hat{\theta} – E[\hat{\theta}] \right)^2 \right] + E \left[ \left( E[\hat{\theta}] – \theta \right)^2 \right] + 2\left( E[\hat{\theta}] – \theta \right) E \left[ \hat{\theta} – E[\hat{\theta}] \right]
\end{align}
$$
ⅲ) ⅱ)式に関して$\hat{\theta}$が不偏推定量であることを仮定しなくても$\displaystyle 2\left( E[\hat{\theta}] – \theta \right) E \left[ \hat{\theta} – E[\hat{\theta}] \right]=0$とできることを示せ。
iv) ⅱ)とⅲ)に対して、推定量$\hat{\theta}$の分散を$V[\hat{\theta}]$、推定量$\hat{\theta}$のバイアスを$b(\theta)$を定義し、下記のバイアス・バリアンス分解の式を導け。
$$
\begin{align}
E \left[ \left( \hat{\theta} – \theta \right)^2 \right] = V[\hat{\theta}] + b(\theta)^2 \quad (2)
\end{align}
$$
v) $(2)$式で$\hat{\theta}$が不偏推定量であれば$b(\theta)=0$となり、下記が成立する。
$$
\begin{align}
E \left[ \left( \hat{\theta} – \theta \right)^2 \right] = V[\hat{\theta}] \quad (3)
\end{align}
$$
$(3)$式に関連して一様最小分散不偏推定量(UMVU)の定義を記せ。

・解答
i)
$E[\hat{\lambda}] = E[\bar{X}] = \lambda$が成立することを確認すれば良い。
$$
\large
\begin{align}
E \left[ \hat{\lambda} \right] &= E \left[ \bar{X} \right] \\
&= E \left[ \frac{1}{n} \sum_{i=1}^{n} X_i \right] \\
&= \frac{1}{n} E \left[ \sum_{i=1}^{n} X_i \right] \\
&= \frac{1}{n} \sum_{i=1}^{n} E[X_i] \\
&= \frac{n \lambda}{n} \\
&= \lambda
\end{align}
$$
上記より、推定量$\hat{\lambda}=\bar{X}$は$\lambda$の不偏推定量である。

ⅱ)
$\hat{\theta} – \theta = (\hat{\theta} – E[\hat{\theta}]) + (E[\hat{\theta}] – \theta)$が成立することを利用し、$E[(\hat{\theta} – \theta)^2]$を計算する。
$$
\large
\begin{align}
E[(\hat{\theta} – \theta)^2] &= E[((\hat{\theta} – E[\hat{\theta}]) + (E[\hat{\theta}] – \theta))^2] \\
&= E \left[ \left( \hat{\theta} – E[\hat{\theta}] \right)^2 \right] + E \left[ \left( E[\hat{\theta}] – \theta \right)^2 \right] + 2\left( E[\hat{\theta}] – \theta \right) E \left[ \hat{\theta} – E[\hat{\theta}] \right]
\end{align}
$$

ⅲ)
$$
\large
\begin{align}
E[E[\hat{\theta}]] &= E[\hat{\theta}] \\
E[\hat{\theta} – E[\hat{\theta}]] &= E[\hat{\theta}] – E[E[\hat{\theta}]] \\
&= E[\hat{\theta}] – E[\hat{\theta}] \\
&= 0
\end{align}
$$
上記が成立するので、$\displaystyle 2\left( E[\hat{\theta}] – \theta \right) E \left[ \hat{\theta} – E[\hat{\theta}] \right] = 0$が成立する。

iv)
$$
\large
\begin{align}
V[\hat{\theta}] &= E \left[ \left( \hat{\theta} – E[\hat{\theta}] \right)^2 \right] \\
b(\theta) &= E[\hat{\theta}] – \theta
\end{align}
$$
上記のように$V[\hat{\theta}], b(\theta)$を定義し、ⅱ)式に代入し、ⅲ)式を用いれば(2)のバイアス・バリアンス分解の式を導出することができる。

v)
$\hat{\theta}$が不偏推定量の場合、不偏推定量の定義より、$b(\theta) = E[\hat{\theta}] – \theta$が成立する。よって、平均二乗誤差について下記が成立する。
$$
\large
\begin{align}
E \left[ \left( \hat{\theta} – \theta \right)^2 \right] = V[\hat{\theta}] + b(\theta)^2
\end{align}
$$
上記を解釈すると、不偏推定量に限れば分散を最小にする推定量が望ましいと考えられる。よって、下記のように一様最小分散不偏推定量$\hat{\theta}^{*}$を定義する。
$$
\large
\begin{align} V[\hat{\theta}^{*}] \leq V[\hat{\theta}], \quad {}^{\forall} \theta
\end{align}
$$

・解説
ⅲ)の結果に関しては、不偏推定量の場合は、定義より$E[\hat{\theta}] – \theta = 0$を用いることもできることは抑えておくと良いです。一方で、バイアス・バリアンス分解はバイアス項が必ずしも$0$ではない前提で考えることから、ここでは不偏性が前提ではないことは注意しておくと良いです。
$$
\large
\begin{align}
V[\hat{\theta}] &= E \left[ \left( \hat{\theta} – E[\hat{\theta}] \right)^2 \right] \\
b(\theta) &= E[\hat{\theta}] – \theta
\end{align}
$$

また、クラメル・ラオの不等式はv)で確認した一様最小分散不偏推定量であることを示すにあたって用いられることも改めて抑えておくと良いと思います。

クラメル・ラオの不等式とフィッシャー情報量

・問題
・解答
・解説

完備十分統計量に基づく十分統計量

・問題
・解答
・解説

2次元正規分布における条件付き確率分布・周辺分布の数式の導出を理解する

多次元正規分布の直感的な理解については下記で取り扱ったが、当記事ではその多次元分布において条件付き確率分布・周辺分布を考える。
https://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist1.html
「パターン認識と機械学習(PRML)」の上巻の$2.3.1$節、$2.3.2$節の導出が詳しいので、下記を参考に取りまとめた。多次元の取り扱いは複雑になることから、ここでは$2$次元の導出のみを取り扱う。

前提の確認

2次元正規分布

$$
\large
\begin{align}
P(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma}) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \right) \quad (1.1)
\end{align}
$$
詳しくは下記で取り扱ったが、多次元正規分布の式は上記のように表される。
https://www.hello-statisticians.com/explain-terms-cat/multi_norm_dist1.html#i-8

多次元の取り扱いはなかなか複雑であるので、ここでは$2$次元の$\mathbf{x}, \mathbf{\mu}, \mathbf{\Sigma}$を考え、それぞれ下記のように定義する。
$$
\large
\begin{align}
\mathbf{x} &= \left(\begin{array}{c} x_{1} \\ x_{2} \end{array} \right) \quad (1.2) \\
\mathbf{\mu} &= \left(\begin{array}{c} \mu_{1} \\ \mu_{2} \end{array} \right) \quad (1.3) \\
\mathbf{\Sigma} &= \left(\begin{array}{cc} \sigma_{11} & \sigma_{12} \\ \sigma_{21} & \sigma_{22} \end{array} \right) \quad (1.4)
\end{align}
$$

また、$\mathbf{\Sigma}$の取り扱いにあたって、$\mathbf{\Lambda} \equiv \mathbf{\Sigma}^{-1}$となる$\mathbf{\Lambda}$を定義する。このとき、$\mathbf{\Sigma}$と$\mathbf{\Lambda}$は下記のように表すことができる。
$$
\large
\begin{align}
\mathbf{\Sigma}^{-1} &= \mathbf{\Lambda} \\
\left(\begin{array}{cc} \sigma_{11} & \sigma_{12} \\ \sigma_{21} & \sigma_{22} \end{array} \right)^{-1} &= \left(\begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) \quad (1.5)
\end{align}
$$

ここで$(1.2)$〜$(1.5)$より、$(1.1)$の二次形式の$\displaystyle -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu})$は下記のように表現できる。
$$
\large
\begin{align}
-\frac{1}{2} & (\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \\
&= -\frac{1}{2} \left( \begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left( \begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) \left(\begin{array}{c} x_{1}-\mu_{1} \\ x_{2}-\mu_{2} \end{array} \right) \quad (1.6)
\end{align}
$$

$2$次元の行列の逆行列の公式

$$
\large
\begin{align}
\mathbf{A} = \left(\begin{array}{cc} a_{11} & a_{12} \\ a_{21} & a_{22} \end{array} \right) \\
\end{align}
$$

上記のように$2$次元の正則行列$A$を考えると、正則行列$A$は逆行列を持つ。$2$次元の行列の逆行列については公式があり、$\mathbf{A}$の逆行列は下記のように表すことができる。
$$
\large
\begin{align}
\mathbf{A}^{-1} = \frac{1}{a_{11}a_{22}-a_{12}a_{21}} \left(\begin{array}{cc} a_{22} & -a_{12} \\ -a_{21} & a_{11} \end{array} \right) \quad (1.7)
\end{align}
$$

$\mathbf{\Lambda}$を$\mathbf{\Sigma}$を用いて表す

$(1.5)$式と$(1.7)$式より、$\mathbf{\Lambda}$は下記のように$\mathbf{\Sigma}$を用いて表すことができる。
$$
\large
\begin{align}
\left(\begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) &= \left(\begin{array}{cc} \sigma_{11} & \sigma_{12} \\ \sigma_{21} & \sigma_{22} \end{array} \right)^{-1} \\
&= \frac{1}{\sigma_{11}\sigma_{22}-\sigma_{12}\sigma_{21}} \left(\begin{array}{cc} \sigma_{22} & -\sigma_{12} \\ -\sigma_{21} & \sigma_{11} \end{array} \right) \quad (1.8)
\end{align}
$$

条件付き確率分布の導出

$x_1$に関する二次形式の平方完成

$(1.6)$式を$x_1$に関して平方完成を行うことで、条件付き確率分布$P(x_1|x_2,\mathbf{\mu}, \mathbf{\Sigma})$が正規分布$N(\mu_{x_1|x_2}, \Sigma_{x_1|x_2})$であることや、確率分布のパラメータの$\mu_{x_1|x_2}, \Sigma_{x_1|x_2}$を求めることができる。
$$
\large
\begin{align}
-\frac{1}{2} & (\mathbf{x}-\mathbf{\mu})^{T} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \\
&= -\frac{1}{2} \left(\begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left( \begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) \left(\begin{array}{c} x_{1}-\mu_{1} \\ x_{2}-\mu_{2} \end{array} \right) \\
&= -\frac{1}{2} \left(\begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left(\begin{array}{c} \lambda_{11}(x_{1}-\mu_{1}) + \lambda_{12}(x_{2}-\mu_{2}) \\ \lambda_{21}(x_{1}-\mu_{1}) + \lambda_{22}(x_{2}-\mu_{2}) \end{array} \right) \\
&= -\frac{1}{2} (\lambda_{11}(x_{1}-\mu_{1})^2 + (\lambda_{12}+\lambda_{21})(x_{1}-\mu_{1})(x_{2}-\mu_{2}) + \mathrm{Const}) \\
&= -\frac{1}{2} \left( \lambda_{11} \left( x_{1}^2-2\mu_{1}x_{1}+\frac{2\lambda_{12}}{\lambda_{11}}(x_{2}-\mu_{2})x_1 \right) + \mathrm{Const}’ \right) \\
&= -\frac{1}{2} \left( \lambda_{11} \left( x_{1}- \left( \mu_{1}-\frac{\lambda_{12}}{\lambda_{11}}(x_{2}-\mu_{2}) \right) \right)^2 + \mathrm{Const}^{”} \right) \quad (2.1)
\end{align}
$$

上記の変形において、$x_1$に関係しない項を$\mathrm{Const}, \mathrm{Const}’, \mathrm{Const}^{”}$と表したが、それぞれ変形の過程で出てきた項を取り込んだことから、それぞれを$\mathrm{Const}, \mathrm{Const}’, \mathrm{Const}^{”}$のように分けて表した。
また、$\mathbf{\Sigma}, \mathbf{\Lambda}$が対称行列であることから、途中の式変形において$\lambda_{12}=\lambda_{21}, \lambda_{12}+\lambda_{21}=2\lambda_{12}$を用いた。

$\mu_{x_1|x_2}, \Sigma_{x_1|x_2}$の導出

$(2.1)$式より、$\mu_{x_1|x_2}, \Sigma_{x_1|x_2}$は下記のように表すことができる。
$$
\large
\begin{align}
\mu_{x_1|x_2} &= \mu_{1}-\frac{\lambda_{12}}{\lambda_{11}}(x_{2}-\mu_{2}) \quad (2.2) \\
\Sigma_{x_1|x_2}^{-1} &= \lambda_{11} \\
\Sigma_{x_1|x_2} &= \frac{1}{\lambda_{11}} \quad (2.3)
\end{align}
$$

ここで$(2.2)$式、$(2.3)$式に$(1.8)$式を代入することで下記を得ることができる。
$$
\large
\begin{align}
\mu_{x_1|x_2} &= \mu_{1}-\frac{\lambda_{12}}{\lambda_{11}}(x_{2}-\mu_{2}) \\
&= \mu_{1}-\frac{-\sigma_{21}}{\sigma_{22}}(x_{2}-\mu_{2}) \times \frac{\sigma_{11}\sigma_{22}-\sigma_{12}\sigma_{21}}{\sigma_{11}\sigma_{22}-\sigma_{12}\sigma_{21}} \\
&= \mu_{1}+\frac{\sigma_{12}}{\sigma_{22}}(x_{2}-\mu_{2}) \\
\Sigma_{x_1|x_2} &= \frac{1}{\lambda_{11}} \\
&= \frac{\sigma_{11}\sigma_{22}-\sigma_{12}\sigma_{21}}{\sigma_{22}} \\
&= \sigma_{11} – \frac{\sigma_{12}\sigma_{21}}{\sigma_{22}} \\
&= \sigma_{11} – \frac{\sigma_{12}^2}{\sigma_{22}}
\end{align}
$$

上記が条件付き正規分布$N(\mu_{x_1|x_2}, \Sigma_{x_1|x_2})$のパラメータ$\mu_{x_1|x_2}, \Sigma_{x_1|x_2}$の値である。$\mu_{x_1|x_2}$の傾き$\displaystyle \frac{\sigma_{12}}{\sigma_{22}}$は単回帰分析の傾きの式に一致することも抑えておくと良い。

周辺分布の導出

$(1.1)$式の$P(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma})$の$\mathbf{x}$は$x_1, x_2$で表すことができるので、$P(\mathbf{x}|\mathbf{\mu}, \mathbf{\Sigma})=P(x_1,x_2)$のように略記すると、周辺分布$P(x_1)$は下記のように定義できる。
$$
\large
\begin{align}
P(x_1) &= \int P(x_1, x_2) d x_2 \\
&= \int \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{T} \Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \right) d x_2 \\
&= \frac{1}{(2 \pi)^{2/2}} \frac{1}{|\Sigma|^{1/2}} \int \exp \left( -\frac{1}{2} \left(\begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left( \begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) \left(\begin{array}{c} x_{1}-\mu_{1} \\ x_{2}-\mu_{2} \end{array} \right) \right) d x_2
\end{align}
$$

上記の式を$x_2$に関して積分するにあたっては、$\exp$の内部の二次形式を$x_2$について平方完成を行いガウス積分を適用することで積分を消去できる。また、$x_2$を消去したのちは$x_1$について平方完成を行い、$x_1$に関する正規分布$N(E[x_1], V[x_1])$になることも確認できる。
ここでは周辺分布のパラメータを$E[x_1], V[x_1]$とおいた。確率密度関数における全確率の公式を元に考えても良い。$\exp$の内部について詳しく考えるにあたって、下記のように$\Delta^2$を定義する。
$$
\large
\begin{align}
\Delta^2 &= \left(\begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left( \begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) \left(\begin{array}{c} x_{1}-\mu_{1} \\ x_{2}-\mu_{2} \end{array} \right)
\end{align}
$$

$\Delta^2$に対して、下記では$x_2$に関しての平方完成を行う。$x_2$の平方完成の計算にあたっては条件付き分布と同様に考えられるが、積分を消去したのちは$x_1$に関して平方完成を行うことでパラメータを導出するので、$x_1$についての項も同時に確認する必要がある。
$$
\large
\begin{align}
& \Delta^2 = \left(\begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left( \begin{array}{cc} \lambda_{11} & \lambda_{12} \\ \lambda_{21} & \lambda_{22} \end{array} \right) \left(\begin{array}{c} x_{1}-\mu_{1} \\ x_{2}-\mu_{2} \end{array} \right) \\
&= \left(\begin{array}{cc} x_{1}-\mu_{1} & x_{2}-\mu_{2} \end{array} \right) \left(\begin{array}{c} \lambda_{11}(x_{1}-\mu_{1})+\lambda_{12}(x_{2}-\mu_{2}) \\ \lambda_{21}(x_{1}-\mu_{1})+\lambda_{22}(x_{2}-\mu_{2}) \end{array} \right) \\
&= \lambda_{11}(x_{1}-\mu_{1})^2 + 2\lambda_{12}(x_{1}-\mu_{1})(x_{2}-\mu_{2}) + \lambda_{22}(x_{2}-\mu_{2})^2 \\
&= \lambda_{22} \left( x_{2}- \left( \mu_{2}-\frac{\lambda_{12}}{\lambda_{22}}(x_{1}-\mu_{1}) \right) \right)^2 – \lambda_{22} \left( \mu_{2}-\frac{\lambda_{12}}{\lambda_{22}}(x_{1}-\mu_{1}) \right)^2 \\
&+ \lambda_{11}x_1^2 – 2 \lambda_{11}\mu_{1}x_1 – 2 \lambda_{12}\mu_{2}x_1 + \mathrm{Const}
\end{align}
$$

上記の$\displaystyle \lambda_{22} \left( x_{2}- \left( \mu_{2}-\frac{\lambda_{12}}{\lambda_{22}}(x_{1}-\mu_{1}) \right) \right)^2$は積分によって消去されるため、それ以外の項を元に$x_1$について平方完成を行う。
$$
\large
\begin{align}
& – \lambda_{22} \left( \mu_{2}-\frac{\lambda_{12}}{\lambda_{22}}(x_{1}-\mu_{1}) \right)^2 + \lambda_{11}x_1^2 – 2 \lambda_{11}\mu_{1}x_1 – 2 \lambda_{12}\mu_{2}x_1 \\
&= -\frac{\lambda_{12}^2}{\lambda_{22}}x_1^2 + 2 \lambda_{12} \left( \mu_{2} + \frac{\lambda_{12}}{\lambda_{22}}\mu_{1} \right) x_1 + \lambda_{11}x_1^2 – 2 \lambda_{11}\mu_{1}x_1 – 2 \lambda_{12}\mu_{2}x_1 \\
&= \left(\lambda_{11} – \frac{\lambda_{12}^2}{\lambda_{22}} \right) x_1^2 – 2 \left( \lambda_{11}\mu_{1} + \lambda_{12}\mu_{2} – \lambda_{12} \left( \mu_{2} + \frac{\lambda_{12}}{\lambda_{22}}\mu_{1} \right) \right) x_1 \\
&= \left(\lambda_{11} – \frac{\lambda_{12}^2}{\lambda_{22}} \right) x_1^2 – 2 \left( \lambda_{11}\mu_{1} – \frac{\lambda_{12}^2}{\lambda_{22}}\mu_{1} \right)
\end{align}
$$

ここで$\displaystyle V[x_1] = \left(\lambda_{11} – \frac{\lambda_{12}^2}{\lambda_{22}} \right)^{-1}$より、$(1.8)$式を代入することで$V[x_1]$は下記のように求めることができる。
$$
\large
\begin{align}
V[x_1] &= \left(\lambda_{11} – \frac{\lambda_{12}^2}{\lambda_{22}} \right)^{-1} \\
&= \left(\frac{\sigma_{22}}{\sigma_{11}\sigma_{22}-\sigma_{12}^2} – \frac{\sigma_{12}^2}{\sigma_{11}(\sigma_{11}\sigma_{22}-\sigma_{12}^2)} \right)^{-1} \\
&= \left( \frac{\sigma_{11}\sigma_{22} – \sigma_{12}^2}{\sigma_{11}(\sigma_{11}\sigma_{22}-\sigma_{12}^2)} \right)^{-1} \\
&= \left(\frac{1}{\sigma_{11}} \right)^{-1} \\
&= \sigma_{11}
\end{align}
$$

また、$\displaystyle E[x_1] = \sigma_{11} \left( \lambda_{11}\mu_{1} – \frac{\lambda_{12}^2}{\lambda_{22}}\mu_{1} \right)$より、$E[x_1]$の計算を行う。
$$
\large
\begin{align}
E[x_1] &= \sigma_{11} \left( \lambda_{11}\mu_{1} – \frac{\lambda_{12}^2}{\lambda_{22}}\mu_{1} \right) \\
&= \sigma_{11} \cdot \frac{1}{\sigma_{11}\sigma_{22}-\sigma_{12}} \left( \sigma_{22}\mu_{1} – \frac{\sigma_{12}^2}{\sigma_{11}}\mu_{1} \right) \\
&= \frac{\sigma_{11}}{\sigma_{11}\sigma_{22}-\sigma_{12}} \cdot \frac{\sigma_{11}\sigma_{22}-\sigma_{12}^2}{\sigma_{11}}\mu_{1} \\
&= \mu_{1}
\end{align}
$$

よって、$x_2$に関して積分を行った周辺分布$N(E[x_1],V[x_1])$のパラメータ$E[x_1],V[x_1]$は下記のように表すことができる。
$$
\large
\begin{align}
E[x_1] &= \mu_{1} \\
V[x_1] &= \sigma_{11}
\end{align}
$$

十分統計量・完備十分統計量・最小十分統計量|問題演習で理解する統計学【16】

数理統計学における「十分統計量」・「完備十分統計量」・「最小十分統計量」は、統計的推論を行うにあたっての主要な概念である。得られたサンプルを要約する統計量をサンプルの確率関数を考えることで表現できるが、やや抽象的なので、ここでは演習を通して具体的な例の確認を行う。

「十分統計量」に関しては下記でも取り扱いましたので、こちらも合わせて確認してみてください。
https://www.hello-statisticians.com/explain-terms-cat/sufficient_statistic1.html
https://www.hello-statisticians.com/explain-terms-cat/sufficient_statistic2.html
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch6.html

・標準演習$100$選
https://www.hello-statisticians.com/practice_100

基本問題

十分統計量と二項分布

・問題
二項分布$Bin(n,p)$は「$n$回のベルヌーイ試行を繰り返した際に確率$p$の事象が$k$回起こる確率」のように定義される。二項分布の確率関数は確率変数を$Y$とすると、$P(Y=k|n,p)$のように条件付き確率の表記で表すことができる。$P(Y=k|n,p)$は下記のように計算できる。
$$
\begin{align}
P(Y=k|n,p) = {}_{n} C_{k} p^{k} (1-p)^{n-k}
\end{align}
$$

ここで十分統計量と二項分布を考えるにあたって、$n$回のベルヌーイ試行それぞれに対して$X_1, X_2, …, X_n$のように確率$p$で$1$、確率$1-p$で$0$となる確率変数を考える。この同時確率関数を$P(X_1=x_1,X_2=x_2,…,X_n=x_n|p)$とおく。

ここまでの内容に基づいて以下の問いに答えよ。
i) $P(X_1=x_1,X_2=x_2,…,X_n=x_n|p)$を$x_1,…,x_n$と$p$の関数で表せ。ただし、ベルヌーイ分布の確率関数$P(X_i=x_i|p)$は下記のように与えられる。
$$
\begin{align}
P(X_i=x_i|p) = p^{x_i} (1-p)^{1-x_i} \quad (1)
\end{align}
$$
ⅱ) i)の結果において、$\displaystyle T = \sum_{i=1}^{n} x_i$を置き換えて表記せよ。
ⅲ) 確率変数$Y$を確率変数$X_1, X_2, …, X_n$を用いて表せ。
iv) $Y=T$が与えられた場合の$X_1=x_1,X_2=x_2,…,X_n=x_n$の条件付き確率を$P(X_1=x_1,X_2=x_2,…,X_n=x_n|Y=T,n,p)$とすると、$P(X_1=x_1,X_2=x_2,…,X_n=x_n|Y=T,n,p)$は下記のように表すことができる。
$$
\begin{align}
P(X_1=x_1,…,X_n=x_n|Y=T,n,p) = \frac{P(X_1=x_1,…,X_n=x_n,Y=T|n,p)}{P(Y=T|n,p)}
\end{align}
$$
ここで$P(X_1=x_1,X_2=x_2,…,X_n=x_n,Y=T|n,p)$をⅱ)の式、$P(Y=T|n,p)$を(1)式でそれぞれ表すことができることを利用して、$P(X_1=x_1,X_2=x_2,…,X_n=x_n|Y=T,n,p)$を求めよ。
v) ここまでの議論を元に、$\displaystyle T = \sum_{i=1}^{n} x_i$がパラメータ$p$に関する十分統計量であることを確認せよ。

・解答
i)
同時確率関数$P(X_1=x_1,X_2=x_2,…,X_n=x_n|p)$は下記のように表すことができる。
$$
\large
\begin{align}
P(X_1=x_1,X_2=x_2,…,X_n=x_n|p) &= \prod_{i=1}^{n} p^{x_i}(1-p)^{1-x_i} \\
&= p^{\sum_{i=1}^{n}x_i}(1-p)^{n-\sum_{i=1}^{n}x_i}
\end{align}
$$

ⅱ)
i)の結果に対して、$\displaystyle T = \sum_{i=1}^{n} x_i$のように置き換えると、$P(X_1=x_1,X_2=x_2,…,X_n=x_n|p)$は下記のように表せる。
$$
\large
\begin{align}
P(X_1=x_1,X_2=x_2,…,X_n=x_n|p) &= p^{\sum_{i=1}^{n}x_i}(1-p)^{n-\sum_{i=1}^{n}x_i} \\
&= p^{T}(1-p)^{n-T}
\end{align}
$$

ⅲ)
確率変数$Y$を確率変数$X_1, X_2, …, X_n$を用いて下記のように表すことができる。
$$
\large
\begin{align}
Y = X_1 + X_2 + … X_n
\end{align}
$$

iv)
$P(X_1=x_1,X_2=x_2,…,X_n=x_n|Y=T,n,p)$は下記のように求めることができる。
$$
\large
\begin{align}
P(X_1=x_1, & X_2=x_2,…,X_n=x_n|Y=T,n,p) \\
&= \frac{P(X_1=x_1,X_2=x_2,…,X_n=x_n,Y=T|n,p)}{P(Y=T|n,p)} \\
&= \frac{p^{T}(1-p)^{n-T}}{{}_{n} C_{T} p^{T} (1-p)^{n-T}} \\
&= \frac{1}{{}_{n} C_{T}}
\end{align}
$$

v)
「統計量$T$が与えられた時に、サンプル$x_1,…,x_n$の条件付き確率が$p$に関係しないこと」が統計量$T$が十分統計量であることの必要十分条件と考えるならば、iv)の結果より「$\displaystyle T = \sum_{i=1}^{n} x_i$が十分統計量である」ことがわかる。

・解説
「統計量$T$が与えられた時に、サンプル$x_1,…,x_n$の条件付き確率が$p$に関係しないこと」は、iv)のような計算を行うことで示すことができます。表記がやや複雑ですが、基本的には条件付き確率の公式の通りなので、難しく考え過ぎない方が良いと思います。
また、同時確率を考える際に観測値の$x_1,…,x_n$にi.i.d.を仮定して、$\displaystyle P(X_1=x_1,…X_n=x_n) = \prod_{i=1}^{n} P(X_i=x_i)$のように積の形で表現することが多いですが、ベルヌーイ分布の$n$回試行に対しては$\displaystyle P(X_1=x_1,…X_n=x_n) = \prod_{i=1}^{n} P(X_i=x_i)$のような形式以外にも二項分布で表す方法があることは抑えておくと良いです。iv)では$x_1,…,x_n$に基づく同時確率と、$\displaystyle T = \sum_{i=1}^{n} x_i$に基づく確率を考えましたが、i.i.d.を元に$X_1=x_1,…X_n=x_n$を積の計算で求めた同時確率と、二項分布に基づいて$Y=T$を用いて立式する確率関数の二つの比を計算しており、同じ事象に対し違う見方をしたものの比を計算したと考えることもできると思われます。

分解定理と十分統計量・最尤法

・問題
「現代数理統計学」の定理$6.2$で示されるように、統計量$T$が十分統計量であることを示すにあたっては、分解定理(factorization theorem)を利用すると良い。
パラメータが$\theta$の確率分布に対して、確率変数$X_1,X_2,…,X_n$とその実現値$x_1,x_n,…,x_n \in \left\{ 0,1 \right\}$に関する同時確率を$P(X_1=x_1,…X_n=x_n|\theta)$のようにおくとき、「下記が成立することが$T$が十分統計量であることと同値である」と考えるのが分解定理である。
$$
\begin{align}
P(X_1=x_1,…X_n=x_n|\theta) = g(T,\theta)h(X_1=x_1,…X_n=x_n)
\end{align}
$$
ここで上記の左辺は条件付き分布で、右辺は$2$変数関数の$g(T,\theta)$と$n$変数関数の$h(X_1=x_1,…X_n=x_n)$を表した。また、統計量$T$は標本の関数であるため、$T(X_1=x_1,…X_n=x_n)$のように表すこともある。

ここまでの内容に基づいて、下記の問いに答えよ。
i) 前問i)、ⅱ)の結果は下記のように表された。
$$
\begin{align}
P(X_1=x_1,X_2=x_2,…,X_n=x_n|p) &= \prod_{i=1}^{n} p^{x_i}(1-p)^{1-x_i} \\
&= p^{\sum_{i=1}^{n}x_i}(1-p)^{n-\sum_{i=1}^{n}x_i} \\
&= p^{T}(1-p)^{n-T}
\end{align}
$$
上記に対して分解定理を適用するときの$g(T,\theta)$と$h(X_1=x_1,…X_n=x_n)$を答えよ。
ⅱ) ベルヌーイ試行を$n$回繰り返した際の同時確率からパラメータ$p$を推定するにあたって、実現値$x_1,x_n,…,x_n \in \left\{ 0,1 \right\}$が出てくる順序は不要であることに関して考察せよ。
ⅲ) ⅱ)を最尤推定の手続きに基づいて具体的に確認する。i)で確認した同時確率の式を元にパラメータ$p$の最尤推定量を導出し、観測値の$x_1,…x_n$を用いずに$T$だけで表せることを確認せよ。
iv) ⅲ)において「パラメータ$p$の推定にあたって、十分統計量$T$があれば観測値の$x_1,…x_n$は必要ない」結果を導かれたことについて、i)の分解定理の式を$\theta$で偏微分することによって考察せよ。
v) 「$T$が十分統計量で$T$を与えた際の$X_1=x_1,…X_n=x_n$の確率分布が$\theta$に依存しない $\implies$ 分解定理が成立」を示せ。

・解答
i)
$g(T,\theta)$と$h(X_1=x_1,…X_n=x_n)$は下記が対応する。
$$
\large
\begin{align}
g(T,\theta) &= p^{T}(1-p)^{n-T} \\
h(X_1=x_1,… & X_n=x_n) = 1
\end{align}
$$

ⅱ)
$$
\large
\begin{align}
P(X_1=x_1,X_2=x_2,…,X_n=x_n|p) &= \prod_{i=1}^{n} p^{x_i}(1-p)^{1-x_i} \\
&= p^{\sum_{i=1}^{n}x_i}(1-p)^{n-\sum_{i=1}^{n}x_i} \\
&= p^{T}(1-p)^{n-T}
\end{align}
$$
上記のように同時確率が与えられるので、パラメータ$p$について考えるにあたっては、$\displaystyle T = \sum_{i=1}^{n} x_i$だけがわかればよく、$x_i$の個々の値は考える必要がない。これは順序が不要であることを意味する。

ⅲ)
$$
\large
\begin{align}
P(X_1=x_1,X_2=x_2,…,X_n=x_n|p) = p^{T}(1-p)^{n-T}
\end{align}
$$
上記に対して、最尤法を用いて$p$の推定量を導出する。$p$に関する尤度を$L(p)=P(X_1=x_1,X_2=x_2,…,X_n=x_n|p)$とおくと、対数尤度の$\log{L(p)}$は下記のように表せる。
$$
\large
\begin{align}
\log{L(p)} &= \log{p^{T}(1-p)^{n-T}} \\
&= T\log{p} + (n-T)\log{(1-p)}
\end{align}
$$

ここで$\log{L(p)}$を$p$に関して偏微分を行い、$0$に一致する際の$p$が推定値に一致する。
$$
\large
\begin{align}
\frac{\partial \log{L(p)}}{\partial p} &= 0 \\
\frac{T}{p} – \frac{n-T}{1-p} &= 0 \\
\frac{T}{p} &= \frac{n-T}{1-p} \\
T(1-p) &= (n-T)p \\
np &= T \\
p &= \frac{T}{n}
\end{align}
$$

上記のように、$p$の最尤推定量が観測値の$x_1,…x_n$を用いずに$T$の式だけで表すことができる。

iv)
$$
\large
\begin{align}
P(X_1=x_1,…X_n=x_n|\theta) = g(T,\theta)h(X_1=x_1,…X_n=x_n)
\end{align}
$$
上記の両辺を$\theta$で偏微分を行うと、下記のように変形できる。
$$
\large
\begin{align}
\frac{\partial}{\partial \theta} P(X_1=x_1,… & X_n=x_n|\theta) = \frac{\partial}{\partial \theta} g(T,\theta) \\
&= h(X_1=x_1,…X_n=x_n) \frac{\partial}{\partial \theta} g(T,\theta)
\end{align}
$$

上記が$0$に一致する場合を考えるにあたっては、$h(X_1=x_1,…X_n=x_n)$が単なる係数であるので、下記を$\theta$について解けば良い。
$$
\large
\begin{align}
\frac{\partial}{\partial \theta} g(T,\theta) = 0
\end{align}
$$
上記から、この結果得られる$\theta$の推定量が観測値の$x_1,…x_n$を用いずに$T$だけで表すことができることが読み取れる。

v)
下記のように$P(T=t|\theta), P(X_1=x_1,…X_n=x_n|T=t,\theta)$を考える。
$$
\large
\begin{align}
P(T|\theta) &= g(T,\theta) \\
P(X_1=x_1,…X_n=x_n|T=t,\theta) &= h(X_1=x_1,…X_n=x_n)
\end{align}
$$
ここで上記の$2$つ目の式は、「十分統計量$T$が与えられた際に$X_1,…,X_n$の条件付き確率が$\theta$に依存しないこと」と、「$T$が$X_1,…,X_n$の関数で表すことができること」の二つに基づいて定義することができる。

このとき、同時確率$P(X_1=x_1,…X_n=x_n|\theta)$が$P(T|\theta)P(X_1=x_1,…X_n=x_n|T=t,\theta)$で表せることから、下記のように表記できる。
$$
\large
\begin{align}
P(X_1=x_1,…X_n=x_n|\theta) &= P(T|\theta)P(X_1=x_1,…X_n=x_n|T=t,\theta) \\
&= g(T,\theta)h(X_1=x_1,…X_n=x_n)
\end{align}
$$
上記が分解定理の数式に一致する。

・解説
i)の結果にあるように、$h(X_1=x_1,…X_n=x_n) = 1$の場合もあるので、この辺は注意しておくと良いかもしれません。v)に関しては$h(X_1=x_1,…X_n=x_n)$の定義のところが少々複雑ですが、重要事項なので抑えておくと良いです。

幾何分布と十分統計量

・問題
確率$p$で表が出るベルヌーイ試行において、$x$回を経て最初に表が出る確率を$P(X=x|p)$とおくとき、確率変数$X$の分布は幾何分布$Geo(p)$に従う。このことは下記のような数式で表される。
$$
\begin{align}
P(X=x|p) = p(1-p)^{x}
\end{align}
$$

ここで、確率変数列$X_1, X_2, …, X_n$がそれぞれ独立に幾何分布$Geo(p)$に従い、下記が成立すると仮定する。
$$
\begin{align}
P(X_i=x_i|p) = p(1-p)^{x_i}
\end{align}
$$

このとき以下の問いに答えよ。
i) $X_1=x_1, X_2=x_2, …, X_n=x_n$が観測される同時確率を$P(X_1=x_1, X_2=x_2, …, X_n=x_n|p)$とおくとき、$P(X_1=x_1, X_2=x_2, …, X_n=x_n|p)$を求めよ。
ⅱ) i)の結果に対し、$\displaystyle T = \sum_{i=1}^{n} x_i$に基づいて、$x_i$から$T$の式に変形せよ。
ⅲ) 下記で表した分解定理を用いて、$\displaystyle T = \sum_{i=1}^{n} x_i$が$p$に関する十分統計量であることを示せ。
$$
\begin{align}
P(X_1=x_1,…X_n=x_n|p) = g(T,p)h(X_1=x_1,…X_n=x_n)
\end{align}
$$
iv) 同時確率$P(X_1=x_1, X_2=x_2, …, X_n=x_n|p)$を尤度$L(p)$と見るとき、対数尤度$\log{L(p)}$を求めよ。
v) $\log{L(p)}$を最大にする$p$を求め、$x_i$を用いずに$T$だけの式で表せることを確認せよ。

・解答
i)
$X_1=x_1, X_2=x_2, …, X_n=x_n$はi.i.d.であるので、$P(X_1=x_1, X_2=x_2, …, X_n=x_n|p)$は下記のように求められる。
$$
\large
\begin{align}
P(X_1=x_1, X_2=x_2, …, X_n=x_n|p) &= \prod_{i=1}^{n} P(X_i=x_i|p) \\
&= \prod_{i=1}^{n} p(1-p)^{x_i} \\
&= p^{n} (1-p)^{\sum_{i=1}^{n} x_i}
\end{align}
$$

ⅱ)
i)の結果に対し、$\displaystyle T = \sum_{i=1}^{n} x_i$を適用することで下記のように表すことができる。
$$
\large
\begin{align}
P(X_1=x_1, X_2=x_2, …, X_n=x_n|p) &= p^{n} (1-p)^{\sum_{i=1}^{n} x_i} \\
&= p^{n} (1-p)^{T}
\end{align}
$$

ⅲ)
下記のように$g(T,p), h(X_1=x_1,…X_n=x_n)$を考えることで、分解定理を適用することができる。
$$
\large
\begin{align}
& g(T,p) = p^{n} (1-p)^{T} \\
& h(X_1=x_1,…,X_n=x_n) = 1
\end{align}
$$

iv)
対数尤度$\log{L(p)}$は下記のように計算できる。
$$
\large
\begin{align}
\log{L(p)} &= \log{(p^{n} (1-p)^{T})} \\
&= n \log{p} + T \log{(1-p)}
\end{align}
$$

v)
対数尤度$\log{L(p)}$の$p$に関する偏微分が$0$になるときの$p$が最尤推定量$\hat{p}$となる。
$$
\large
\begin{align}
\frac{\partial \log{L(p)}}{\partial p} &= 0 \\
\frac{n}{p} – \frac{T}{1-p} &= 0 \\
\frac{n}{p} &= \frac{T}{1-p} \\
n(1-p) &= Tp \\
(n+T)p &= n \\
p &= \frac{n}{n+T}
\end{align}
$$
よって最尤推定量は$\displaystyle \hat{p} = \frac{n}{n+T}$となるが、これは$x_i$を用いずに$T$だけの式で表されている。

・解説
「現代数理統計学」の$6$章の「十分統計量」の章末課題の$6.1$を元に作題を行いました。
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch6.html#61
また、v)で計算した最尤推定量は$\displaystyle \hat{p} = \frac{n}{n+T}$であり、全試行のうち表が出た回数を最尤推定量としたことが読み取れることも抑えておくと良いです。このとき、ここでは試行の最後が必ず表であることによるバイアスが考慮されていないですが、$n$が大きい際などは無視できることは抑えておくと良いです。このことについては推定論で詳しくは取り扱われるため、ここでは詳細は省略します。

ポアソン分布と十分統計量

・問題
確率変数$X$がポアソン分布$Po(\lambda)$に従う場合、確率関数$P(X=x|\lambda)$は下記のような数式で表される。
$$
\begin{align}
P(X=x|\lambda) &= \frac{\lambda^{x} \exp (-\lambda)}{x!} \quad (1) \\
&= \exp(\log{\lambda^{x}} – \lambda – \log{x!}) \\
&= \exp(x \log{\lambda} – \lambda – \log{x!}) \quad (2)
\end{align}
$$

ここで、確率変数列$X_1, X_2, …, X_n$がそれぞれ独立にポアソン分布$Po(\lambda)$に従い、下記が成立すると仮定する。
$$
\begin{align}
P(X_i=x_i|\lambda) = \frac{\lambda^{x_i} \exp (-\lambda)}{x_i!}
\end{align}
$$

このとき以下の問いに答えよ。
i) $X_1=x_1, X_2=x_2, …, X_n=x_n$が観測される同時確率を$P(X_1=x_1, X_2=x_2, …, X_n=x_n|\lambda)$とおくとき、$P(X_1=x_1, X_2=x_2, …, X_n=x_n|\lambda)$を求めよ。
ⅱ) i)の結果に対し、$\displaystyle T = \sum_{i=1}^{n} x_i$に基づいて、$\displaystyle \sum_{i=1}^{n} x_i$を$T$に置き換えよ。
ⅲ) 下記で表した分解定理を用いて、$\displaystyle T = \sum_{i=1}^{n} x_i$が$\lambda$に関する十分統計量であることを示せ。
$$
\begin{align}
P(X_1=x_1,…X_n=x_n|p) = g(T,p)h(X_1=x_1,…X_n=x_n)
\end{align}
$$
iv) 同時確率$P(X_1=x_1, X_2=x_2, …, X_n=x_n|\lambda)$を尤度$L(\lambda)$と見るとき、対数尤度$\log{L(\lambda)}$を求めよ。ただし$(1)$式よりも$(2)$式の方が計算が簡単なので、$(2)$式を用いて計算を行え。
v) $\log{L(\lambda)}$を最大にする$\lambda$を求め、$x_i$を用いずに$T$だけの式で表せることを確認せよ。

・解答
i)
$X_1=x_1, X_2=x_2, …, X_n=x_n$はi.i.d.であるので、$P(X_1=x_1, X_2=x_2, …, X_n=x_n|\lambda)$は下記のように求められる。
$$
\large
\begin{align}
P(X_1=x_1, X_2=x_2, …, X_n=x_n|\lambda) &= \prod_{i=1}^{n} P(X_i=x_i|\lambda) \\
&= \prod_{i=1}^{n} \frac{\lambda^{x_i} \exp (-\lambda)}{x_i!} \\
&= \lambda^{\sum_{i=1}^{n} x_i} e^{- n \lambda} \left( \prod_{i=1}^{n} x_i \right)^{-1}
\end{align}
$$

ⅱ)
i)の結果に対し、$\displaystyle T = \sum_{i=1}^{n} x_i$を適用することで下記のように表すことができる。
$$
\large
\begin{align}
P(X_1=x_1, X_2=x_2, …, X_n=x_n|\lambda) &= \lambda^{\sum_{i=1}^{n} x_i} e^{- n \lambda} \left( \prod_{i=1}^{n} x_i \right)^{-1} \\
&= \lambda^{T} e^{- n \lambda} \left( \prod_{i=1}^{n} x_i \right)^{-1}
\end{align}
$$

ⅲ)
下記のように$g(T,\lambda), h(X_1=x_1,…X_n=x_n)$を考えることで、分解定理を適用することができる。
$$
\large
\begin{align}
g(T,p) &= \lambda^{T} e^{- n \lambda} \\
h(X_1=x_1,… & X_n=x_n) = \left( \prod_{i=1}^{n} x_i \right)^{-1}
\end{align}
$$

iv)
対数尤度$\log{L(\lambda)}$は下記のように計算できる。
$$
\large
\begin{align}
\log{\lambda} &= \log{\left(\prod_{i=1}^{n} \exp(x_i \log{\lambda} – \lambda – \log{x_i!}) \right)} \\
&= \sum_{i=1}^{n} \log{ \left( \exp(x_i \log{\lambda} – \lambda – \log{x_i!}) \right) } \\
&= \sum_{i=1}^{n} (x_i \log{\lambda} – \lambda – \log{x_i!}) \\
&= T \log{\lambda} -n \lambda – \sum_{i=1}^{n} \log{x_i!}
\end{align}
$$

v)
対数尤度$\log{L(\lambda)}$の$\lambda$に関する偏微分が$0$になるときの$\lambda$が最尤推定量$\hat{\lambda}$となる。
$$
\large
\begin{align}
\frac{\partial \log{L(\lambda)}}{\partial \lambda} &= 0 \\
\frac{T}{\lambda} – n &= 0 \\
n \lambda &= T \\
\lambda &= \frac{T}{n}
\end{align}
$$
よって最尤推定量は$\displaystyle \hat{\lambda} = \frac{T}{n}$となるが、これは$x_i$を用いずに$T$だけの式で表されている。

・解説
十分統計量に関しては抽象的が議論が多い印象で、なるべく具体的な理解ができるようにするにあたって、幾何分布に関する前問と同じ構成で作成を行いました。また、v)で求めた最尤推定量の$\hat{\lambda}$が$x_i$の平均で表されることも抑えておくと良いと思います。

正規分布と十分統計量

・問題
・解答
・解説

発展問題

完備十分統計量と最小十分統計量

・問題
・解答
・解説

微分の公式とその導出まとめ 〜積・商・合成関数・逆関数の導関数、三角関数 etc〜

数理統計学などを取り扱うにあたって基本演算に用いられる微分だが、関連する公式が多く把握が大変かつ導出によく出てくるので慣れていないと取り扱いが難しい。そこで当記事では抑えておきたい微分の公式やその導出について取りまとめを行った。
積の導関数・商の導関数・合成関数の微分・逆関数の微分などの基本的な公式や、指数関数・対数関数・三角関数などの基本的な関数の微分について取り扱った。

基本公式とその導出

積の導関数

関数$f(x),g(x)$に関して、積の導関数の公式は下記で表される。
$$
\large
\begin{align}
(f(x)g(x))’ = f'(x)g(x) + f(x)g'(x)
\end{align}
$$

以下、上記の式の導出を行う。
$$
\large
\begin{align}
(f & (x)g(x))’ = \lim_{h \to 0} \frac{f(x+h)g(x+h)-f(x)g(x)}{h} \\
&= \lim_{h \to 0} \frac{f(x+h)g(x+h)-f(x)g(x+h)+f(x)g(x+h)-f(x)g(x)}{h} \\
&= \lim_{h \to 0} \frac{f(x+h)-f(x))g(x+h)+f(x)(g(x+h)-g(x)}{h} \\
&= \lim_{h \to 0} \frac{f(x+h)-f(x)}{h}g(x+h) + \lim_{h \to 0} f(x) \frac{g(x+h)-g(x)}{h} \\
&= f'(x)g(x) + f(x)g'(x)
\end{align}
$$

商の導関数

関数$f(x),g(x)$に関して、商の導関数の公式は下記で表される。
$$
\large
\begin{align}
\left( \frac{f(x)}{g(x)} \right)’ = \frac{f'(x)g(x)-f(x)g'(x)}{(g(x))^2}
\end{align}
$$

以下、上記の式の導出を行う。
$$
\large
\begin{align}
& \left( \frac{f(x)}{g(x)} \right)’ = \lim_{h \to 0} \frac{f(x+h)/g(x+h)-f(x)/g(x)}{h} \\
&= \lim_{h \to 0} \frac{f(x+h)g(x)-f(x)g(x+h)}{hg(x+h)g(x)} \\
&= \lim_{h \to 0} \frac{f(x+h)g(x)-f(x)g(x)+f(x)g(x)-f(x)g(x+h)}{hg(x+h)g(x)} \\
&= \lim_{h \to 0} \frac{(f(x+h)-f(x))g(x)-f(x)(g(x+h)-g(x))}{hg(x+h)g(x)} \\
&= \lim_{h \to 0} \frac{f(x+h)-f(x)}{hg(x+h)g(x)}g(x) – \lim_{h \to 0} \frac{f(x)(g(x+h)-g(x))}{hg(x+h)g(x)} \\
&= \frac{f'(x)}{(g(x))^2}g(x) – f(x)\frac{g'(x)}{(g(x))^2} \\
&= \frac{f'(x)g(x) – f(x)g'(x)}{(g(x))^2}
\end{align}
$$

合成関数の微分

合成関数$y = f(u), u=g(x)$に関して、合成関数の導関数の公式は下記で表される。
$$
\large
\begin{align}
\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}
\end{align}
$$
以下、上記の式の導出を行う。
$$
\large
\begin{align}
\frac{dy}{dx} &= \lim_{h \to 0} \frac{f(g(x+h))-f(g(x))}{h} \\
&= \lim_{h \to 0} \frac{f(g(x+h))-f(g(x))}{g(x+h)-g(x)} \cdot \frac{g(x+h)-g(x)}{h}
\end{align}
$$

上記に対して$k = g(x+h)-g(x)$を考えると、$u = g(x)$より、$g(x+h) = u + k$と変形できる。また、$h \to 0$のとき、$k = g(x+h) – g(x) \to 0$である。これらを元に下記のように(1)式の変形を行うことができる。
$$
\large
\begin{align}
\frac{dy}{dx} &= \lim_{h \to 0} \frac{f(g(x+h))-f(g(x))}{g(x+h)-g(x)} \cdot \frac{g(x+h)-g(x)}{h} \\
&= \lim_{\substack{h \to 0 \\ k \to 0}} \frac{f(u+k)-f(u)}{k} \cdot \frac{g(x+h)-g(x)}{h} \\
&= \frac{dy}{du} \cdot \frac{du}{dx}
\end{align}
$$

逆関数の微分

$y = f(x)$に対して、逆関数の導関数の公式は下記で表される。
$$
\large
\begin{align}
\frac{dx}{dy} = \frac{1}{\frac{dy}{dx}}
\end{align}
$$
以下、上記の式の導出を行う。
$$
\large
\begin{align}
\frac{dx}{dy} &= \lim_{h \to 0} \frac{h}{f(x+h)-f(x)} \\
&= \lim_{h \to 0} \frac{1}{\frac{f(x+h)-f(x)}{h}} \\
&= \frac{1}{\frac{dy}{dx}}
\end{align}
$$

三角関数の微分

加法定理と$\sin{x}, \cos{x}$の微分

$$
\large
\begin{align}
\sin{(a+b)} &= \sin{a}\cos{b} + \cos{a}\sin{b} \\
\cos{(a+b)} &= \cos{a}\cos{b} – \sin{a}\sin{b} \\
\lim_{h \to 0} \frac{\sin{h}}{h} &= 1
\end{align}
$$
三角関数に関する微分の公式の導出にあたって、上記を既知であると考え、以下確認を行う。

・$(\sin{x})’ = \cos{x}$の導出
$f(x) = \sin{x}$とおき、微分の定義に基づいて$f'(x)$を求める。
$$
\large
\begin{align}
f'(x) &= \lim_{h \to 0} \frac{f(x+h)-f(x)}{h} \\
&= \lim_{h \to 0} \frac{\sin{(x+h)}-\sin{x}}{h} \\
&= \lim_{h \to 0} \frac{\sin{x}\cos{h} + \cos{x}\sin{h} – \sin{x}}{h} \\
&= \lim_{h \to 0} \frac{\cos{x}\sin{h} – \sin{x}(1 – \cos{h})}{h} \\
&= \cos{x} \cdot \lim_{h \to 0} \frac{\sin{h}}{h} – \sin{x} \cdot \lim_{h \to 0} \frac{1 – \cos{h}}{h} \\
&= \cos{x} \cdot \lim_{h \to 0} \frac{\sin{h}}{h} – \sin{x} \cdot \lim_{h \to 0} \frac{(1 – \cos{h})(1 + \cos{h})}{h(1 + \cos{h})} \\
&= \cos{x} \cdot \lim_{h \to 0} \frac{\sin{h}}{h} – \sin{x} \cdot \lim_{h \to 0} \frac{1 – \cos^2{h}}{h(1 + \cos{h})} \\
&= \cos{x} \cdot \lim_{h \to 0} \frac{\sin{h}}{h} – \sin{x} \cdot \lim_{h \to 0} \frac{\sin^2{h}}{h(1 + \cos{h})} \\
&= \cos{x} \cdot \lim_{h \to 0} \frac{\sin{h}}{h} – \sin{x} \cdot \lim_{h \to 0} \frac{\sin{h}}{1 + \cos{h}} \cdot \frac{\sin{h}}{h} \\
&= \cos{x} \cdot 1 – \sin{x} \cdot \frac{0}{2} \cdot 1 \\
&= \cos{x}
\end{align}
$$

・$(\cos{x})’ = -\sin{x}$の導出
$f(x) = \cos{x}$とおき、微分の定義に基づいて$f'(x)$を求める。
$$
\large
\begin{align}
f'(x) &= \lim_{h \to 0} \frac{f(x+h)-f(x)}{h} \\
&= \lim_{h \to 0} \frac{\cos{(x+h)}-\cos{x}}{h} \\
&= \lim_{h \to 0} \frac{\cos{x}\cos{h} – \sin{x}\sin{h}-\cos{x}}{h} \\
&= \lim_{h \to 0} \frac{-\sin{x}\sin{h} – \cos{x}(1-\cos{h})}{h} \\
&= -\sin{x} \cdot \lim_{h \to 0} \frac{\sin{h}}{h} \\
&= -\sin{x} \cdot 1 \\
&= -\sin{x}
\end{align}
$$
途中で出てきた$\displaystyle \lim_{h \to 0} \frac{\cos{x}(1-\cos{h})}{h}=0$に関しては、$(\sin{x})’ = \cos{x}$で同様の計算を取り扱ったため、ここでは省略を行った。

$\displaystyle (\tan{x})’ = 1+\tan^2{x} = \frac{1}{\cos^2{x}}$の導出

$\displaystyle \tan{x} = \frac{\sin{x}}{\cos{x}}$とおけるので、商の導関数の式に対して$f(x)=\sin{x}, g(x)=\cos{x}$を代入する。
$$
\large
\begin{align}
\left( \frac{f(x)}{g(x)} \right)’ &= \frac{f'(x)g(x) – f(x)g'(x)}{(g(x))^2} \\
&= \frac{\cos{x} \cdot \cos{x} – \sin{x} \cdot (\sin{x})}{\cos^2{x}} \\
&= \frac{\cos^2{x} + \sin^2{x}}{\cos^2{x}} \quad (1) \\
&= 1 + \frac{\sin^2{x}}{\cos^2{x}} \\
&= 1 + \tan^2{x}
\end{align}
$$

また、$(1)$式に対し、$\cos^2{x} + \sin^2{x} = 1$を適用することで、$\displaystyle (\tan{x})’ = \frac{1}{\cos^2{x}}$が成立することも示すことができる。

$\tan^{-1}{(x)}$の微分

$y = \tan^{-1}{(x)}$とおくと、$x = \tan{y}$が成立する。これに対して、逆関数の微分の公式を用いて計算する。
$$
\large
\begin{align}
(\tan^{-1}{(x)})’ &= \frac{dy}{dx} \\
&= \frac{1}{\frac{dx}{dy}} \\
&= \frac{1}{1 + \tan^2{y}} \\
&= \frac{1}{1 + x^2}
\end{align}
$$
よって、$\displaystyle \tan^{-1}{(x)}=\frac{1}{1 + x^2}$が成立する。

指数関数・対数関数の微分

下記で詳しい取り扱いを行った。
https://www.hello-statisticians.com/explain-terms-cat/def_napier1.html#i-6

統計検定準1級問題解説 ~2021年6月実施 選択問題及び部分記述問題 問1~

過去問題

過去問題は統計検定公式が問題と解答例を公開しています。こちらを参照してください。


解答

$\boxed{ \ \mathsf{記述1}\ }$ : $0.4$
$\boxed{ \ \mathsf{記述2}\ }$ : $0.85$

[1] $P(B)$は、和事象と積事象の関係と確率の乗法定理$(P(A\cap B)=P(B)\times P(A|B))$を用いて導き出す。
$$
\begin{align}
P(A\cup B)&=P(A)+P(B)-P(A\cap B)\\
P(A\cup B)-P(A)&=P(B)\{1-P(A|B)\}\\
P(B)&=\frac{P(A\cup B)-P(A)}{1-P(A|B)}=\frac{0.65-0.45}{1-0.5}=0.4
\end{align}
$$

[2]
$$
\begin{align}
P(A\cap B)&=P(B)\times P(A|B)=0.4\times 0.5=0.2\\
\therefore P(A\cup B\cup C)&=P(A)+P(B)+P(C)\\&\quad -P(A\cap B)-P(A\cap C)-P(B\cap C)+P(A\cap B\cap C)\\
&=0.45+0.4+0.45-0.2-0.2-0.1+0.05=0.85
\end{align}
$$


解説

条件付き確率

ある事象が起こったとわかった上で、別のある事象が起こる確率のことを条件付き確率という。
例えば、ある事象$B$が起こったとわかった上で別の事象$A$が起こる確率は$P(A|B)$と表し、$$P(A|B)=\frac{P(A\cap B)}{P(B)}$$と定義される。
同様に、ある事象$A$が起こったとわかった上で別の事象$B$が起こる確率は$$P(B|A)=\frac{P(A\cap B)}{P(A)}$$となる。

確率の乗法定理

条件付き確率の定義式を変形すると、$$P(A\cap B) =P(B)\times P(A|B)=P(A)\times P(B|A)$$となるが、これを確率の乗法定理という。

独立な事象

2つの事象があって、一方の事象の起こる確率に、もう一方の事象の起こる確率が影響されない場合、これらの事象は互いに独立であるという。このとき$$P(A\cap B)=P(A)\times P(B)$$となる。

統計検定2級問題解説 ~2021年6月実施~ (問13~問22)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問13 解答

(推定量)

$\boxed{ \ \mathsf{17}\ }$ ①

Ⅰ.母集団の特徴づける定数のことを母数というが、母集団から測定された標本データをもとに、確率分布の(現実には測定できない)母数を推定した数量を推定量という。推定量は標本データの関数として表されるが、確率変数の関数は確率変数なので、推定量は確率変数となる。
Ⅱ.推定量$\hat\theta_n$(推定量の標本分布が標本数$n$によって変化するものとする)が母数$\theta$に確率収束している場合、$\hat\theta$を一致推定量という。
Ⅲ.推定量$\hat\theta$の期待値が常に母数$\theta$に等しくなる場合、$\hat\theta$を不偏推定量という。例えば母分散の推定量である標本分散は一致推定量であるが不偏推定量ではない。


問14 解答

(推定量の期待値、分散)

[1]

$\boxed{ \ \mathsf{18}\ }$ ⑤

$E[\hat\theta]=\theta$となる場合、$\hat\theta$は不偏推定量という。
$$\begin{align}
E[\hat\mu_1]&=E\left[\frac1n\sum_{i=1}^nX_i\right]=\frac1n\sum_{i=1}^nE[X_i]=\frac1n\times n\mu=\mu\\
E[\hat\mu_2]&=E\left[\frac12(X_1+X_2)\right]=\frac12(E[X_1]+E[X_2])=\frac12(\mu+\mu)=\mu\\
E[\hat\mu_3]&=E[X_1]=\mu\\
E[\hat\mu_4]&=E\left[\frac2{n(n+1)}\sum_{i=1}^niX_i\right]=\frac2{n(n+1)}\sum_{i=1}^niE[X_i]=\frac2{n(n+1)}\sum_{i=1}^ni\mu\\&=\frac2{n(n+1)}\times\frac{n(n+1)}{2}\times\mu=\mu
\end{align}$$

[2]

$\boxed{ \ \mathsf{19}\ }$ ①

$$\begin{align}
V[\hat\mu_1]&=V\left[\frac1n\sum_{i=1}^nX_i\right]=\frac1{n^2}\sum_{i=1}^nV[X_i]=\frac1{n^2}\times n\sigma^2=\frac1n\sigma^2\\
V[\hat\mu_2]&=V\left[\frac12(X_1+X_2)\right]=\frac14(V[X_1]+V[X_2])=\frac14(\sigma^2+\sigma^2)=\frac12\sigma^2\\
V[\hat\mu_3]&=V[X_1]=\sigma^2\\
V[\hat\mu_4]&=V\left[\frac2{n(n+1)}\sum_{i=1}^niX_i\right]=\frac4{n^2(n+1)^2}\sum_{i=1}^ni^2V[X_i]=\frac4{n^2(n+1)^2}\sum_{i=1}^ni^2\sigma^2\\&=\frac4{n^2(n+1)^2}\times\frac{n(n+1)(2n+1)}{6}\times\sigma^2=\frac{2(2n+1)}{3n(n+1)}\sigma^2
\end{align}$$
ここで、$n\gt3$なので、$\displaystyle \frac1n\lt\frac12\lt1$
また、$\displaystyle \frac1n=\frac{3(n+1)}{3n(n+1)}<\frac{2(2n+1)}{3n(n+1)}$となることから$V[\hat\mu_1]$が最小となる。


問15 解答

(正規母集団の区間推定とサンプルサイズ)

[1]

$\boxed{ \ \mathsf{20}\ }$ ④

正規母集団から抽出した標本の標本平均は$\bar{X}\sim N(\mu,\sigma^2/n)$なので,$\begin{align}\frac{\bar{X}-\mu}{\sqrt{\sigma^2/n}}\end{align}$は標準正規分布に従う。よって「標準正規分布の上側確率」の表から
$$P\left(|\bar{X}-\mu|\le1.96{\sqrt{\sigma^2/n}}\right)=0.95$$
したがって、真の$\mu$が含まれる確率が$95\%$となる区間($\mu$の$95\%$信頼区間)は以下の通りとなる。
$$\begin{align}
\bar{X}-1.96\frac{\sigma}{\sqrt{n}}\le&\mu\le\bar{X}+1.96\frac{\sigma}{\sqrt{n}}\\
5.25-1.96\times\frac{12}{\sqrt{100}}\le&\mu\le5.25+1.96\times\frac{12}{\sqrt{100}}\\
2.90\le&\mu\le7.60
\end{align}$$

[2]

$\boxed{ \ \mathsf{21}\ }$ ③

[1]から$\mu$の$95\%$信頼区間の幅は$\displaystyle\ 2\times1.96\frac{\sigma}{\sqrt{n}}$。これを$4$以下にしたいので、
$$2\times1.96\times\frac{12}{\sqrt{n}}\le4\ \Rightarrow\ n\ge\left(\frac{2\times1.96\times12}{4}\right)^2=138.3$$


問16 解答

(単回帰モデル、最小二乗法)

[1]

$\boxed{ \ \mathsf{22}\ }$ ①

最小二乗法は実際の値$y_i$と回帰式によって予測された値$\hat{y}_i$との差(残差)の二乗和を最小にするように回帰係数を求める手法である。残差の二乗和(残差平方和)は
$$S=\sum_{i=1}^n(y_i-\hat{y}_i)^2=\sum_{i=1}^n(y_i-\hat\beta x_i)^2=\sum_{i=1}^n(y_i^2-2\hat\beta x_iy_i+\hat\beta^2x_i^2)$$
$S$を最小とする$\hat\beta$を求めるために、$\hat\beta$で偏微分し$0$に等しいとすると、
$$\begin{eqnarray}
\frac{\partial S}{\partial\hat\beta}=\sum_{i=1}^n(-2x_iy_i+2\hat\beta x_i^2)=0\\
\hat\beta\sum_{i=1}^nx_i^2=\sum_{i=1}^nx_iy_i\\
\therefore\ \hat\beta=\frac{\sum_{i=1}^nx_iy_i}{\sum_{i=1}^nx_i^2}
\end{eqnarray}$$

[2]

$\boxed{ \ \mathsf{23}\ }$ ②

Ⅰ.[1]の結果から、一般的に
$$\hat\beta=\frac{\sum_{i=1}^nx_iy_i}{\sum_{i=1}^nx_i^2}\neq\frac{\sum_{i=1}^ny_i}{\sum_{i=1}^nx_i}$$
であるから、
$$\begin{eqnarray}
\hat\beta\sum_{i=1}^nx_i&\neq&\sum_{i=1}^ny_i\\
\sum_{i=1}^ny_i-\hat\beta\sum_{i=1}^nx_i&\neq&0\\
\sum_{i=1}^n\hat u_i&\neq&0
\end{eqnarray}$$
Ⅱ.[1]から
$$\begin{eqnarray}
\hat\beta\sum_{i=1}^nx_i^2=\sum_{i=1}^nx_iy_i\\
\sum_{i=1}^nx_i(y_i-\hat\beta x_i)=0\\
\sum_{i=1}^nx_i(y_i-\hat y_i)=0\\
\sum_{i=1}^nx_i\hat u_i=0
\end{eqnarray}$$
Ⅲ.[1]の結果から、一般的に
$$\hat\beta=\frac{\sum_{i=1}^nx_iy_i}{\sum_{i=1}^nx_i^2}\neq\frac{\sum_{i=1}^ny_i}{\sum_{i=1}^nx_i}$$
であるから、
$$\begin{eqnarray}
\frac1n\hat\beta\sum_{i=1}^nx_i&\neq&\frac1n\sum_{i=1}^ny_i\\
\frac1n\sum_{i=1}^n\hat\beta x_i&\neq&\bar{y}\\
\frac1n\sum_{i=1}^n\hat y_i&\neq&\bar{y}
\end{eqnarray}$$
Ⅳ.Ⅲ.と同じく
$$\begin{eqnarray}
\frac1n\hat\beta\sum_{i=1}^nx_i&\neq&\frac1n\sum_{i=1}^ny_i\\
\hat\beta\bar{x}&\neq&\bar{y}
\end{eqnarray}$$

※定数項を含む単回帰モデル$$y_i=\alpha+\beta x_i+u_i$$の場合、残差平方和は
$$S=\sum_{i=1}^n(y_i-\hat{y}_i)^2=\sum_{i=1}^n(y_i-\hat\alpha-\hat\beta x_i)^2$$
$S$を最小とする$\hat\beta$を求めるために、$\hat\alpha,\hat\beta$で偏微分し$0$に等しいとすると、
$$
\sum_{i=1}^n(y_i^2-2\hat\alpha y_i-2\hat\beta x_iy_i+\hat\alpha^2+2\hat\alpha\hat\beta x_i+\hat\beta^2 x_i^2)
$$
$$\begin{eqnarray}
\frac{\partial S}{\partial\hat\alpha}=\sum_{i=1}^n(-2y_i+2\hat\alpha+2\hat\beta x_i)&=&0\\
n\hat\alpha+\hat\beta\sum_{i=1}^nx_i&=&\sum_{i=1}^ny_i&\cdots(A)\\
\frac{\partial S}{\partial\hat\beta}=\sum_{i=1}^n(-2x_iy_i+2\hat\alpha x_i+2\hat\beta x_i^2)&=&0\\
\hat\alpha\sum_{i=1}^nx_i+\hat\beta\sum_{i=1}^nx_i^2&=&\sum_{i=1}^nx_iy_i&\cdots(B)
\end{eqnarray}$$
$(A)$から
$$\hat\alpha=\frac1n\sum_{i=1}^ny_i-\frac1n\hat\beta\sum_{i=1}^nx_i=\bar{y}-\hat\beta\bar{x}$$
$(B)$から
$$\begin{eqnarray}
(\bar{y}-\hat\beta\bar{x})n\bar{x}+\hat\beta\sum_{i=1}^nx_i^2=\sum_{i=1}^nx_iy_i\\
\hat\beta(\sum_{i=1}^nx_i^2-n\bar{x}^2)=\sum_{i=1}^nx_iy_i-n\bar{x}\bar{y}\\
\hat\beta=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2}\\
\end{eqnarray}$$
さらに、(A)から
$$\begin{eqnarray}
\sum_{i=1}^ny_i-n\hat\alpha-\hat\beta\sum_{i=1}^nx_i&=&0\\
\sum_{i=1}^n(y_i-\hat\alpha-\hat\beta x_i)&=&0\\
\sum_{i=1}^n(y_i-\hat y_i)&=&0\\
\sum_{i=1}^n\hat u_i&=&0
\end{eqnarray}$$
また
$$\begin{eqnarray}
\bar y=\frac1n\sum_{i=1}^ny_i=\frac1n\sum_{i=1}^n(\hat\alpha+\hat\beta x_i)=\frac1n\sum_{i=1}^n\hat y\\
\bar y=\frac1n\sum_{i=1}^ny_i=\hat\alpha+\frac1n\hat\beta\sum_{i=1}^n x_i=\hat\alpha+\hat\beta\bar x
\end{eqnarray}$$
$(B)$から
$$\begin{eqnarray}
\sum_{i=1}^nx_iy_i-\hat\alpha\sum_{i=1}^nx_i-\hat\beta\sum_{i=1}^nx_i^2&=&0\\
\sum_{i=1}^nx_i(y_i-\hat\alpha-\hat\beta x_i)&=&0\\
\sum_{i=1}^nx_i(y_i-\hat y_i)&=&0\\
\sum_{i=1}^nx_i\hat u_i&=&0
\end{eqnarray}$$
[2]のⅠ.Ⅲ.Ⅳ.に相当する関係はいずれも$(A)$の式から導き出されるもので、定数項を含まないモデルでは$(A)$に相当する条件がなく、Ⅰ.Ⅲ.Ⅳ.の関係は成り立たない。


問17 解答

(母比率の区間推定)

[1]

$\boxed{ \ \mathsf{24}\ }$ ②

成功確率$p$の試行を$n$回行うときに成功する回数$X$は二項分布$B(n,p)$に従う。
  $\therefore\ \ E(X)=np,\ V(X)=np(1-p)$
このとき,$n$がある程度大きいときは,中心極限定理によって,$B(n,p)$は正規分布$N(np,np(1-p))$に近似できる。よって,$X$を標準化すると標準正規分布$N(0,1)$に従う。$$Z=\frac{X-np}{\sqrt{np(1-p)}}=\frac{X/n-p}{\sqrt{\frac{p(1-p)}n}}\sim N(0,1)$$ここで,標本平均 $\hat p=x/n$は$p$の一致推定量なので,$n$が十分大きいとき$p$は$\hat p$に置き換えられる。
したがって,母比率の$100(1-\alpha)\%$信頼区間は,標準正規分布の上側 $100\alpha/2\%$ 点を $z_{\alpha/2}$とすると,$$P\left(\hat p-z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}\le p\le\hat p+z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}\right)=1-\alpha$$
$500$ 回画びょうを投げて $284$ 回表が出たので,比率の推定値は $\hat p=284/500=0.568$
これから,表が出る確率の$95\%$信頼区間は,$n=500$,$\hat p=0.568$,$\alpha=0.05$として$$\begin{align}\hat p\pm z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}=&0.568\pm1.96\times\sqrt{\frac{0.568\times(1-0.568)}{500}}\\=&0.568\pm0.043\\=&[0.525,0.611]\end{align}$$

[2]

$\boxed{ \ \mathsf{25}\ }$ ①

・確率 $p=1/2$ の試行を $n=8$ 回行って成功する回数の分布なので,二項分布 $B(n,p)=B(8,1/2)$ に従う。$$\begin{align}P(X=4)=&{}_8\mathrm{C}_4\times(1/2)^4\times(1-1/2)^{8-4}\\=&\frac{8\times7\times6\times5}{4\times3\times2\times1}\times(1/2)^4\times(1/2)^4=0.273\end{align}$$
・帰無仮説$H_0:p=1/2$、対立仮説$H_1:p\gt1/2$として、$X\ge c_1$のとき$H_0$を棄却する検定は、片側検定となるので、$X=7$のときの$P_-$値は
$$P(X\ge7|H_0)=P(X=7)+P(X=8)=0.031+0.004=0.035$$
・帰無仮説$H_0:p=1/2$、対立仮説$H_1:p\neq1/2$として、$|X-4|\ge c_2$のとき$H_0$を棄却する検定は、両側検定となり確率分布が対称であるので、実現値が$X=7$のときの$P_-$値は
$$\begin{align}P(|X-4|\ge3|H_0)=&P(X=0)+P(X=1)+P(X=7)+P(X=8)\\=&0.004+0.0031+0.031+0.004=0.070\end{align}$$


問18 解答

(母平均の差の検定(分散未知であるが等分散))

$\boxed{ \ \mathsf{26}\ }$ ②

(ア)正規母集団$N(\mu_1,\sigma^2)$から抽出した標本平均$\bar{X}=\frac1m\sum_{i=1}^mX_i$は$N(\mu_1,\sigma^2/m)$に従い、正規母集団$N(\mu_2,\sigma^2)$から抽出した標本平均$\bar{Y}=\frac1n\sum_{i=1}^nY_i$は$N(\mu_2,\sigma^2/n)$に従う。
したがって、正規分布の再生性から、標本平均の差$\bar{X}-\bar{Y}$は$N(\mu_1-\mu_2,\sigma^2/m+\sigma^2/n)$に従う。その結果、$\bar{X}-\bar{Y}$を標準化して$$A=\frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2}{m}+\frac{\sigma^2}{n}}}\sim N(0,1)$$となる。
(イ)群$1,2$について$$\begin{eqnarray}
\sum_{i=1}^m\frac{(X_i-\bar{X})^2}{\sigma^2}=\frac{(m-1)U_X^2}{\sigma^2}\sim \chi^2(m-1)\\
\sum_{i=1}^n\frac{(Y_i-\bar{Y})^2}{\sigma^2}=\frac{(n-1)U_Y^2}{\sigma^2}\sim \chi^2(n-1)
\end{eqnarray}$$したがって、$\chi^2$分布の再生性から、$$B=\frac{(m-1)U_X^2+(n-1)U_Y^2}{\sigma^2}\sim \chi^2(m+n-2)$$となる。
(ウ)独立な$2$つの確率変数$Z\sim N(0,1)$と$W\sim\chi^2(m)$があるとき、$$\frac{Z}{\sqrt{W/m}}$$は自由度$m$の$t$分布に従う。よって、(ア)と(イ)から$$T=\frac{A}{\sqrt{\frac{B}{m+n-2}}}$$は自由度$m+n-2$の$t$分布に従う。


問19 解答

(独立性の検定)

独立性の検定は,2つの属性$A,B$が独立かどうかの検定。
属性$A$のカテゴリが$A_i$,属性$B$のカテゴリが$B_j$の観測度数を$f_{ij}=O_{ij}$とし,
 $f_{i\cdot}=\sum_jf{ij}$を$i$行の度数合計(行和),
 $f_{\cdot j}=\sum_if{ij}$を$j$列の度数合計(列和),
 $f_{\cdot\cdot}=\sum_i\sum_jf_{ij}=\sum_if_{i\cdot}=\sum_jf_{\cdot j}=n$を全度数合計という。
属性$A,B$が独立という帰無仮説は,$H_0:P(A\cap B)=P(A)P(B)$が成り立つことである。
ここで,カテゴリ$A_i,B_j$の出現確率はそれぞれ$f_{i\cdot}/n,f_{\cdot j}/n$であるので,$H_0$のもとで,属性$A$のカテゴリが$A_i$,属性$B$のカテゴリが$B_j$の期待度数は$$E_{ij}=n(f_{i\cdot}/n)(f_{\cdot j}/n)=f_{i\cdot}f_{\cdot j}/n$$となる。
帰無仮説$H_0$の下で,次検定の統計量$\chi^2$は度数が大きいときに近似的に$\chi^2$分布に従う。行和と列和が固定されていることから自由度は$(r$(行の数)$-1)\times(c$(列の数)$-1)$となる。$$\chi^2=\sum_{i=1}^r\sum_{j=1}^c\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\sim\chi^2((r-1)(c-1))$$有意水準$100\alpha\%$で帰無仮説が棄却されるには,$\chi^2$分布の上側$\alpha$点より上で求めた$\chi^2$統計量が大きくなればよい。

$\boxed{ \ \mathsf{27}\ }$ ③

期待度数は
 喫煙歴あり・心筋梗塞あり $10\times15/20=7.5$
 喫煙歴あり・心筋梗塞なし $10\times15/20=7.5$
 喫煙歴なし・心筋梗塞あり $10\times5/20=2.5$
 喫煙歴なし・心筋梗塞なし $10\times5/20=2.5$
よって、$\chi^2$統計量の実現値は
$$\chi^2=\frac{(9-7.5)^2}{7.5}+\frac{(6-7.5)^2}{7.5}+\frac{(1-2.5)^2}{2.5}+\frac{(4-2.5)^2}{2.5}=2.40$$
$\chi^2$統計量は帰無仮説の下で近似的に自由度$(2-1)\times(2-1)=1$の$\chi^2$分布に従う。
ここで、確率変数$W$が自由度$1$の$\chi^2$分布に従うとき、標準正規分布に従う確率変数$Z$を用いて$W=Z^2$と表わされる。したがって$P_-$値は「正規標準分布の上側確率」の表を用いて、
$$P(W\gt2.40)=P(|Z|\gt\sqrt{2.40})=P(|Z|\gt1.55)=2\times0.0606=0.1212$$


問20 解答

(第一種の過誤)

真実
帰無仮説が正しい対立仮説が正しい
検定の結果帰無仮説を棄却しない
(対立仮説が正しいとは言えない)
正しい第二種の過誤(β)
帰無仮説を棄却する
(対立仮説が正しい)
第一種の過誤(α)
有意水準
正しい
検出力(1-β)

[1]

$\boxed{ \ \mathsf{28}\ }$ ③

$X_j\sim N(\mu_j,1),\ X_k\sim N(\mu_k,1)$ であるから、$X_j-X_k\sim N(\mu_j-\mu_k,2)$
よって、帰無仮説$H_0:\mu_j=\mu_k$の下で$$Z=\frac{X_j-X_k-(\mu_j-\mu_k)}{\sqrt{2}}=\frac{X_j-X_k}{\sqrt{2}}\sim N(0,1)$$が成り立つ。したがって、第1種過誤の確率$\alpha_{12}(1.96\sqrt{2})$の値は$$\alpha_{12}(1.96\sqrt{2})=P(|X_j-X_k|\gt1.96\sqrt{2})=P(|Z|\gt1.96)=2\times0.025=0.050$$

[2]

$\boxed{ \ \mathsf{29}\ }$ ④

$\alpha_{12}(z)$が$(5/3)\%$となるような$z$を定める。
$$\begin{eqnarray}\alpha_{12}(z)=P(|X_j-X_k|\gt z)=P(|Z|\gt z/\sqrt{2})&=&0.05/3\\P(Z\gt z/\sqrt{2})&=&0.05/6=0.0083\end{eqnarray}$$
「正規標準分布の上側確率」の表から、
$P(Z>2.39)=0.0084,\ P(Z>2.40)=0.0082$
$\therefore\ z/\sqrt{2}=2.395\ \Rightarrow\ z=2.395\times\sqrt{2}=3.387$


問21 解答

(一元配置分散分析)

[1]

$\boxed{ \ \mathsf{30}\ }$ ③

対象とするパソコン、調査する対策、計測の順序をランダムに決めているので③が最も適切である。
(①②はパソコンの購入時期の影響を受ける。④⑤は固有のパソコンの性能と対策の順番の影響を受ける。)

[2]

$\boxed{ \ \mathsf{31}\ }$ ②

対策の平方和(水準間平方和)の自由度は対策(水準)の数$-1$なので、$3-1=2$。
誤差の平方和の自由度は総データ数$-$水準の数なので、$12-3=9$。

[3]

$\boxed{ \ \mathsf{32}\ }$ ⑤

水準数$a$、総観測値数$n$の一元配置分散分析において、水準$j$の標本平均及び観測値数を$y_{j\cdot}, n_j$、残差平方和を$S_e$、残差の自由度を$\phi_e$、残差の平均平方を$V_e$とする。
水準$j$の母平均の$100(1-\alpha)\%$信頼区間は$t_{0.05/2}(12-3)=t_{0.025}(9)=2.262$
$$y_{j\cdot}\pm t_{\alpha/2}(\phi_e)\sqrt{\frac{V_e}{n_j}}=y_{j\cdot}\pm t_{\alpha/2}(n-a)\sqrt{\frac{S_e}{(n-a)n_j}}$$
対策$3$の効果の点推定値が$-49.9$なのでこの効果の$95\%$信頼区間
$$\mu-49.9\pm 2.262\times\sqrt{\frac{1890.1}{(12-3)\times4}}=\mu-49.9\pm16.39$$
効果の信頼区間は$[-66.29,-33.51]$となる。


問22 解答

(重回帰モデル,統計ソフトウェアの活用)

※重回帰モデルの統計ソフトウェアによる出力結果の主な項目
$\mathtt{Estimate}$:回帰係数の推定値
$\mathtt{Std.Error}$:回帰係数の推定値の標準誤差
$\mathtt{t\ value}$:$t$値,$\mathtt{Pr(\gt|t|)}$:$P_-$値・・・回帰係数の検定で使う
$\mathtt{Rasidual\ standard\ error}$:誤差項の標準偏差の推定値
$\mathtt{degrees\ of\ freedom}$:自由度
$\mathtt{Multiple\ R-squared}$:決定係数($R^2$)
$\mathtt{Adjusted\ R-squared}$:自由度調整済み決定係数($R^{*2}$)
$\mathtt{F-statistic}$:$F$検定統計量,$\mathtt{p-value}$:$P_-$値・・・回帰の有意性の検定で使う

[1]

$\boxed{ \ \mathsf{33}\ }$ ⑤

$\mathtt{t\ value}$はある説明変数$x_j$は被説明変数$y$の予測に役立たない$iff\ H_0:\beta_j=0$($beta_j$は説明変数$x_j$の回帰係数)とする帰無仮説のもとで、$\hat\beta_j$に基づく$t$統計量の実現値である。回帰係数の推定値の標準誤差を$se(\hat\beta_j)$とすると、$t$統計量の実現値は、$$t=\hat\beta_j/se(\hat\beta_j)\sim t(n-p-1)$$である($n-p-1$は残差の自由度)。
したがって、(ア)の値は$-9.614/3.575=-2.689$

[2]

$\boxed{ \ \mathsf{34}\ }$ ②

① $P_-$値が最も小さい説明変数は$\log($人口密度$)$である。誤り。
② 政令指定都市ダミーの回帰係数が$-0.198$であるので、政令指定都市であれば$1$人あたり社会体育施設数は$e^-0.198=0.82$倍($2$割減)となる。正しい。
③ $15$歳未満人口の割合の$P_-$値は$0.333\ge10\%$なので、帰無仮説は棄却できない。誤り。
④ $log(1$人当たり所得$)$の回帰係数が正なので、$1$人当たり所得が低ければ、$1$人あたり社会体育施設数は少なくなる傾向にある。誤り。
⑤ 統計的に優位性が確認されたとしても、それは説明変数と被説明変数の間に相関関係が見られるということであって、説明変数の被説明変数への因果関係が存在するとは必ずしも言えない。誤り。

[3]

$\boxed{ \ \mathsf{35}\ }$ ④

Ⅰ. $log(1$人当たり所得$)$は、モデルAの結果において有意水準$5\%$で有意でない($P_-$値$\gt0.05$)。誤り。
Ⅱ. 2つのモデルの自由度調整済み決定係数($\mathtt{Adjusted\ R-squared}$)の値を比較すると、モデルBのほうが値が高いので、モデルBのほうがより良いモデルである。正しい。
Ⅲ. 2つのモデルの$F$検定の$P_-$値を見ると、それぞれ$4.494\times10^{-16}, 2.2\times10^{-16}$未満であり、極めて小さい値であることから、説明変数にかかるすべての係数がゼロであるという帰無仮説は棄却される。正しい。



統計検定2級問題解説 ~2021年6月実施~ (問1~問12)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問1 解答

(歪度)

$\boxed{ \ \mathsf{1}\ }$ ①

歪度は,右に裾が長い分布では正の値になり,左に裾が長い分布では負の値になる。
問題のグラフは全体的に右に裾の長い分布となっている。


問2 解答

(年次変化率,幾何平均)

$\boxed{ \ \mathsf{2}\ }$ ②

時点(年,月など) $t$の観測値を$y_t$としたとき,
年次変化率 $(y_{t+1}-y_t)/y_t$ または $y_{t+1}/y_t-1$
$t$年$(1950\le{t}\le1954)$の観測値を$y_t$,年次変化率を$r$としたとき,変化率の平均は幾何平均となるので、
$$
\begin{align} 
r&=(y_{1951}/y_{1950}\times y_{1952}/y_{1951}\times y_{1953}/y_{1952}\times y_{1954}/y_{1953})^{1/4}-1\\
&=(y_{1954}/y_{1950})^{1/4}-1\fallingdotseq 0.154=15.4\%
\end{align}
$$
上式から明らかなことは,各年の変化率の幾何平均は
最初年の値を$y_0$,最後年の値を$y_t$,期間を$t$とすると $\left({y_t}/{y_0}\right)^{1/t}$ で求められる。


問3 解答

(価格指数)

$\boxed{ \ \mathsf{3}\ }$ ②

主な物価指数(デフレータ
・ラスパイレス物価指数…基準年の購入量や取引量等を重みとして算出した価格指数。
品目$i$の基準年価格$=p_{oi}$,基準年数量$=q_{oi}$,比較年価格$=p_{ti}$として$$P_L=\frac{\sum_ip_{ti}q_{0i}}{\sum_ip_{0i}q_{0i}}$$
・パーシェ物価指数…比較年の購入量や取引量等を重みとして算出した価格指数。
品目$i$の基準年価格$=p_{oi}$,比較年数量$=q_{ti}$,比較年価格$=p_{ti}$として$$P_P=\frac{\sum_ip_{ti}q_{ti}}{\sum_ip_{0i}q_{ti}}$$
・フィッシャー物価指数…ラスパイレス指数とパーシェ指数の幾何平均で求められる価格指数。$$P_F=\sqrt{P_L\times P_P}$$

問題は比較年のパーシェ指数を求めるので(基準年を$100$とする)、$$P_P=\frac{80\times80+90\times70}{78\times80+84\times70}\times100=104.8$$


問4 解答

(時系列データの指数化)

[1]

$\boxed{ \ \mathsf{4}\ }$ ③

東京都の$2019$年の新聞発行部数の指数はグラフから$57$
したがって、$1990$年から$2019$年にかけての新聞発行部数は、$1990$年を$100$として$100-57=43$減少したことになる。よって、減少部数は
 $5,190$万部$\times 13\%\times 43/100\fallingdotseq 290$万部

[2]

$\boxed{ \ \mathsf{5}\ }$ ①

問題にある前年比増加率の定義から、前年から減少している場合、増加率は負の値となる。
発行部数指数のグラフを見ると、$2005$年以降は東京都、鳥取県ともに毎年減少している。このことから、前年比増加率のグラフも$2005$年以降は両都県ともに負の値となっている必要がある。これを満たすグラフは①のみである。
(②は鳥取県の$2013$年、④は東京都の$2008$年、⑤は東京都の$2006$年でそれぞれ正の値をとっている。)


問5 解答

(散布図,相関係数,共分散)

[1]

$\boxed{ \ \mathsf{6}\ }$ ⑤

Ⅰ.散布図から、飛型点のとりうる範囲に比べ、飛距離点の取りうる範囲のほうが大きいく、ばらつきが大きいので、飛距離点のほうが分散が大きくなる。正しい。
Ⅱ.2つの散布図を比較すると、飛距離点と飛型点の散布図のほうがプロットされた点が直線状に分布しているので相関が強く、相関係数も高くなる。正しい。
Ⅲ.飛距離点と飛型点の散布図に回帰直線をあてはめると、明らかに$y$切片は正の値をとる。正しい。

[2]

$\boxed{ \ \mathsf{7}\ }$ ④

飛距離点の定義から、飛距離$x$は飛距離点$y$の$1/2$に比例する($x=y/2+68$)。
このとき、飛距離の分散は飛距離点の分散の$1/4$,標準偏差は$1/2$になる。
共分散は,2つのデータの平均からの偏差の積の和なので,片方のデータの平均からの偏差が$1/2$倍となれば,$1/2$倍となる。
相関係数は、共分散をそれぞれの標準偏差で割ったものだから、飛距離と飛型点の相関係数は飛距離点と飛型点の相関係数と等しくなる。


問6 解答

(相関係数,共分散)

$\boxed{ \ \mathsf{8}\ }$ ③

共分散$$\begin{align}s_{xy}&=\frac1{10}\sum_{i=1}^{10}(x_i-\bar{x})(y_i-\bar{y})\\&=\frac1{10}\sum_{i=1}^{10}x_iy_i-\frac1{10}\sum_{i=1}^{10}x_i\bar{y}-\frac1{10}\sum_{i=1}^{10}\bar{x}y_i+\frac1{10}\sum_{i=1}^{10}\bar{x}\bar{y}\\&=\frac1{10}\sum_{i=1}^{10}x_iy_i-\bar{x}\bar{y}\\&=\frac1{10}\sum_{i=1}^{10}x_iy_i-\frac1{10}\sum_{i=1}^{10}x_i\times\frac1{10}\sum_{i=1}^{10}y_i\\&= \frac1{10} \times4548.7-\frac1{10}\times346.3\times\frac1{10}\times121.8=33.08\end{align}$$
標準偏差$$\sigma_x=\sqrt{\frac{10-1}{10}s_x^2}=\sqrt{\frac{9}{10}\times167.4}=12.27$$$$\sigma_y=\sqrt{\frac{10-1}{10}s_y^2}=\sqrt{\frac{9}{10}\times11.6}=3.23$$
よって、相関係数は$$r=\frac{s_{xy}}{\sigma_x\sigma_y}=\frac{33.08}{12.27\times3.23}=0.83$$


問7 解答

(標本抽出法)

$\boxed{ \ \mathsf{9}\ }$ ④

多段抽出法・・・母集団をいくつかのグループ(第1段抽出単位)に分け,そこから無作為抽出でいくつかグループを選び,さらにその中から無作為抽出でいくつかのグループ(第2段抽出単位)を選び・・を何段か繰り返してそこから標本を無作為に抽出する。
層化抽出法・・・母集団をあらかじめいくつかの層(グループ)に分けておき、各層の中から必要な数の調査対象を無作為に抽出する方法。
集落(クラスター)抽出法・・・母集団を小集団であるクラスター(集落)に分け,その中からいくつかのクラスターを無作為に抽出し,それぞれのクラスターにおいて全数調査を行う。


問8 解答

(同時確率関数と相関係数)

$\boxed{ \ \mathsf{10}\ }$ ⑤

まず、$X, Y$の周辺分布を求める。
$\begin{align}
P(X=-1)=P(X=1)&=0+1/4+0=1/4\\
P(X=0)&=1/4+0+1/4=1/2\\
P(Y=-1)=P(Y=1)&=0+1/4+0=1/4\\
P(Y=0)&=1/4+0+1/4=1/2
\end{align}$
これらから$X^2,Y^2$の期待値$E[X^2],E[Y^2]$、分散$V[X^2],V[Y^2]$及び$X^2$と$Y^2$の共分散$Cov(X^2,Y^2)$、相関係数$r$を求める。
$$\begin{align}
E[X^2]&= (-1)^2\times P(X=-1)+0^2\times P(X=0)+1^2\times P(X=1)\\
&=1/4+0+1/4=1/2=\mu_{X^2}\\
E[Y^2]&= (-1)^2\times P(Y=-1)+0^2\times P(Y=0)+1^2\times P(Y=1)\\
&=1/4+0+1/4=1/2=\mu_{Y^2}\\
V[X^2]&=E[(X^2-\mu_{X^2})^2]\\
&=\{(-1)^2-1/2\}^2\times P(X=-1)+(0^2-1/2)^2\times P(X=0)+(1^2-1/2)^2\times P(X=1)\\
&=1/16+1/8+1/16=1/4\\
V[Y^2]&=E[(Y^2-\mu_{Y^2})^2]\\
&={(-1)^2-1/2}^2\times P(Y=-1)+(0^2-1/2)^2\times P(Y=0)+(1^2-1/2)^2\times P(Y=1)\\
&=1/16+1/8+1/16=1/4\\
Cov[X^2,Y^2]&=E[(X^2-\mu_{X^2})(Y^2-\mu_{Y^2})\\
&={(-1)^2-1/2}\times{(-1)^2-1/2}\times P(X=-1,Y=-1)\\
&+{(-1)^2-1/2}\times(0^2-1/2)\times P(X=-1,Y=0)\\
&+{(-1)^2-1/2}\times(1^2-1/2)\times P(X=-1,Y=1)\\
&+(0^2-1/2)\times{(-1)^2-1/2}\times P(X=0,Y=-1)\\
&+(0^2-1/2)\times(0^2-1/2)\times P(X=0,Y=0)\\
&+(0^2-1/2)\times(1^2-1/2)\times P(X=0,Y=1)\\
&+(1^2-1/2)\times{(-1)^2-1/2}\times P(X=1,Y=-1)\\
&+(1^2-1/2)\times(0^2-1/2)\times P(X=1,Y=0)\\
&+(1^2-1/2)\times(1^2-1/2)\times P(X=1,Y=1)\\
&=0-1/16+0-1/16+0-1/16+0-1/16+0=-1/4\\
\therefore r&=\frac{Cov[X^2,Y^2]}{\sqrt{V[X^2]V[Y^2]}}=\frac{-1/4}{\sqrt{1/4\times1/4}}=-1
\end{align}$$
また
$P(X^2=0,Y^2=0)=P(X=0,Y=0)=0$
$P(X^2=0)=P(X=0)=1/2, P(Y^2=0)=P(Y=0)=1/2$
であることから
$P(X^2=0,Y^2=0)\neq P(X^2=0)P(Y^2=0)$
となり、$P(X^2\cap Y^2)=P(X^2)P(Y^2)$が成り立たないため、$X^2$と$Y^2$は互いに独立ではない。


問9 解答

(非復元抽出の確率)

$\boxed{ \ \mathsf{11}\ }$ ⑤

無作為に集められた$25$人の中に同じ誕生日の人が存在する確率を求めるためには、同じ誕生日の人が全くいない確率を求めて$1$から引けばよい。
同じ誕生日がないということなので、$365$日から重複を許さずに$25$日を抽出する確率を求める。
$$\underbrace{\frac{365}{365}\times\frac{364}{365}\times\frac{363}{365}\times\cdots\times\frac{341}{365}}_{25}=\frac1{365^{25}}\times\frac{365!}{340!}$$
よって、同じ誕生日の人が存在する確率は
$$1-\frac{365!}{365^{25}\times340!}$$


問10 解答

(正規分布、標準正規分布)

$\boxed{ \ \mathsf{12}\ }$ ④

確率変数$X$が正規分布$N(60,9^2)$に従うとき、$$Z=\frac{X-60}{9}$$は標準正規分布$N(0,1)$に従う。そこで、
$$P(X\le c)=0.011\iff P(Z\le \frac{c-60}{9})=0.011$$
「標準正規分布の上側確率」の表から$P(X\ge2.29)=0.011$なので、$P(X\le-2.29)=0.011$、$$\begin{align}\therefore \frac{c-60}{9}&=-2.29\\c&=39.39\end{align}$$


問11 解答

(連続型確率変数)

[1]

$\boxed{ \ \mathsf{13}\ }$ ①

$P(X\gt 1)=1-P(X\le 1)=1-F(1)=1-1=0$

[2]

$\boxed{ \ \mathsf{14}\ }$ ③

確率密度関数$f(x)$は累積分布関数$F(x)$を微分して求める。
$$\begin{eqnarray}
f(x)=\frac{d}{dx}F(x)=
\begin{cases}
1&(0\ge x\lt 1)\\
0&(x\lt 0,\ 1\ge x)
\end{cases}
\end{eqnarray}$$
期待値$E(X)$は、
$$E(X)=\int_{-\infty}^\infty xf(x)dx=\int_0^1 x\cdot1dx=\left[\frac{1}{2}x^2\right]_0^1=\frac{1}{2}$$


問12 解答

(幾何分布、チェビシェフの不等式)

[1]

$\boxed{ \ \mathsf{15}\ }$ ③

幾何分布$P(X=x)=p(1-p)^{x-1}$の期待値(平均)は$1/p$
$$\therefore\ P(X)=\frac13\left(\frac23\right)^{n-1}\ \Rightarrow\ E(X)=\frac1{1/3}=3$$

※成功か失敗しかない試行をベルヌーイ試行という。成功確率は $p$。
このベルヌーイ試行を独立に何回も行うとき,初めて成功するまでに“試行”した回数を $X$ とすると,$X$ の確率関数は$$P(X=x)=p(1-p)^{x-1}$$となり,この確率分布をパラメータ $p$ の幾何分布という。(本によっては,初めて成功するまでに“失敗”した回数を $X$ とする定義の仕方もある。)
ここで,等比級数の和$$\displaystyle \sum_{x=0}^\infty a^x=\frac1{1-a}\ \ \ (|a|<1)$$の両辺を $a$ で微分すると$$\displaystyle \sum_{x=0}^\infty xa^{x-1}=\frac1{(1-a)^2}$$さらに,この式の両辺を $a$ で微分すると,$$\displaystyle \sum_{x=0}^\infty x(x-1)a^{x-2}=\frac2{(1-a)^3}$$となる。これを利用して,幾何分布の期待値と分散を求める。$$\begin{align}E[X]=&\sum_{x=0}^\infty xp(1-p)^{x-1}=p\sum_{x=0}^\infty x(1-p)^{x-1}\\=&\frac{p}{\{1-(1-p)\}^2}=\frac1p\\V[X]=&E[X(X-1)]+E[X]-E[X]^2\\=&\sum_{x=0}^\infty x(x-1)p(1-p)^{x-1}+\frac1p-\frac1{p^2}\\=&p(1-p)\sum_{x=0}^\infty x(x-1)(1-p)^{x-2}+\frac1p-\frac1{p^2}\\=&\frac{2p(1-p)}{\{1-(1-p)\}^3}+\frac1p-\frac1{p^2}\\=&\frac{2-2p}{p^2}+\frac{p}{p^2}-\frac1{p^2}=\frac{1-p}{p^2}\\\end{align}$$

[2]

$\boxed{ \ \mathsf{16}\ }$ ④

期待値$E[X]$、分散$V[X]$を持つ確率分布に従う確率変数$X$について、任意の$\epsilon\gt 0$に対して、チェビシェフの不等式$$P(|X-E[X]|\ge\epsilon)\le V[X]/\epsilon^2$$が成り立つ。
また、母平均$\mu=3$、母分散$\sigma^2=6$の母集団から抽出した標本$X_1,\cdots,X_n$の標本平均$\displaystyle\bar{X}=\frac1n\sum_{i=1}^nX_i$の期待値と分散は
$$\begin{eqnarray}E[\bar{X}]=E\left[\frac1n\sum_{i=1}^nX_i\right]=\frac1n\sum_{i=1}^nE[X_i]=\frac{n\mu}n=\mu=3\\V[\bar{X}]=V\left[\frac1n\sum_{i=1}^nX_i\right]=\frac1{n^2}\sum_{i=1}^nV[X_i]=\frac{n\sigma^2}{n^2}=\frac{\sigma^2}{n}=\frac{6}{n}\end{eqnarray}$$
これをチェビシェフの不等式に当てはめると
$$P(|X-3|\ge\epsilon)\le\frac{6/n}{\epsilon^2}$$