ブログ

統計検定3級問題解説 ~2018年11月実施~ (問1~問10)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問1 解答

(量的変数、質的変数)

$\boxed{ \ \mathsf{1}\ }$ ②

$A$~$C$のすべては数字だけで構成される変数ですが、$A$は台風の個数、$C$は台風の中心気圧で、個数を数えたり、平均を求めたりなどの計算をすることができるので、量的変数といえます。一方、$B$は台風の識別をするための記号としてつけられているものなので、質的変数になります。


問2 解答

(確率、条件付き確率)

$\boxed{ \ \mathsf{2}\ }$ ⑤

$A$さんが赤色のボールを取り出す確率は$7/10$、このボールを戻さずに$B$さんが赤色のボールを取り出す確率は$6/9$なので、$A$さんと$B$さんが赤色のボールを取り出す確率は、$7/10\times6/9=7/15$となります。
一方、$A$さんが白色のボールを取り出す確率は$3/10$、このボールを戻さずに$B$さんが白色のボールを取り出す確率は$2/9$なので、$A$さんと$B$さんが白色のボールを取り出す確率は、$3/10\times2/9=1/15$となります。
以上より、$A$さんと$B$さんが同じ色のボールを取り出す確率は、
 $7/15+1/15=8/15$
となります。


問3 解答

(確率、反復試行)

$\boxed{ \ \mathsf{3}\ }$ ④

$5$回中、$3$回$6$の目が出て、残り$2$回$6$以外($=1$~$5$)の目が出る確率は、
 $\displaystyle \left(\frac16\right)^3\times\left(\frac56\right)^2=\frac{25}{6^5}$
となります。$5$回のうち、何回目に$6$の目が出るかの組み合わせは、${}_5 \mathrm{ C }_3$となりますので、求める確率は、
 $\displaystyle {}_5 \mathrm{ C }_3\times\frac{25}{6^5}=\frac{5\times4\times3}{3\times2\times1}\times\frac{25}{6^5}\fallingdotseq0.0032$
となります。
※)$5$回のうち、何回目に$6$の目が出るかの組み合わせは、$1$から$5$までの数字から$3$つの数字を引く組み合わせ(引く順番は考慮しない)と考えればよいので、${}_5 \mathrm{ C }_3$となります。


問4 解答

(1変数グラフ)

$\boxed{ \ \mathsf{4}\ }$ ③

Ⅰ.$A$のグラフは。ネットショッピングの利用世帯の割合の推移を示したものなので、実際の店舗を利用した人数を読み取ることはできません。
Ⅱ.$B$のグラフは、ネットショッピング支出額に占める主な項目の割合を示したものなので、世帯の割合を読み取ることはできません。
Ⅲ.$C$のグラフは、地方別に見たエアコンへの支出金額を示したもので、ここから北海道の支出金額が丹生地方より少ないことが読み取れます。


問5 解答

(ヒストグラム、相対度数)

[1]

$\boxed{ \ \mathsf{5}\ }$ ④

さいたま市の平均年齢は$59.9$歳なので、これを含む階級は$59$歳以上$60$歳未満になります。階級値はこの階級の中間地になるので$(59+60)/2=59.5$となります。また、この階級の度数が$12$と読み取れるので、相対度数は$12/47\fallingdotseq0.255$となります。

[2]

$\boxed{ \ \mathsf{6}\ }$ ③

第1四分位数は、下から$1/4$の位置にあるデータの値です。市数=都道府県数が$47$人の場合、第1四分位数は下から$12$番目と$13$番目の中間の値になります。
ここで、$57$歳未満の市数は$6$市、$58$歳未満の市数は$6+7=13$市なので、下から$12$番目と$13$番目は、$57$歳以上の$58$歳未満の階級に含まれています。
中央値は、下から$24$番目の値になります。$59$歳未満の市数は$13+10=23$市なので、下から$24$番目は、$59$歳以上の$60$歳未満の階級に含まれています。

[3]

$\boxed{ \ \mathsf{7}\ }$ ①

Ⅰ.$60$歳未満の市数は$23+12=35$市なので、全体に占める割合は$35\div47\times100\fallingdotseq74.5\%$となります。
Ⅱ.首都圏の一都三県の世帯主の平均年齢は、都県庁所在市の世帯主の平均年齢だけではわかりません。(例えば、都県庁所在市以外の市町村の平均年齢と各市町村の世帯数がわからないと求められません。)
Ⅲ.グラフからは平均年齢の分布のみがわかるだけで、世帯主の総数までは読み取ることができません。


問6 解答

(散らばりのグラフ表現)

$\boxed{ \ \mathsf{8}\ }$ ③

はずれ値を検出するためには、データの散らばり具合を見る必要があります。問題の3つのグラフのうち、箱ひげ図とヒストグラムは散らばりを表現できるグラフですが、円グラフは割合を表すグラフとして用いるものです。


問7 解答

(はずれ値)

[1]

$\boxed{ \ \mathsf{9}\ }$ ②

Ⅰ.はずれ値であったとしても、これが測定誤差や計測ミスによるものなのか、たまたまそのような値になったものがあったのかは、別途調査しないとわからないことなので、必ず取り除く必要があるとは言い切れません。
Ⅱ.はずれ値はデータ全体からみると極端に大きいか極端に小さい値となるので、平均値の値には大きな影響を与えてしまうことになりますが、中央値には大きな影響を与えないものと考えられるので、2つの値の差が大きくなることがあり得ます。
Ⅲ.範囲は最大値と最小値の差なので、はずれ値の影響を受けますが、四分位範囲は第1四分位数と第3四分位数の差なので、はずれ値の影響を受けにくいものと考えられます。したがって、データの散らばりは四分位範囲を用いて評価すべきです。

[2]

$\boxed{ \ \mathsf{10}\ }$ ②

はずれ値を取り除くと平均値が減少しているため、はずれ値は極端に大きい値であることがわかります。はずれ値を取り除く前はデータの個数が$21$個なので、中央値は下から$11$番目の値になりますが、はずれ値を取り除くと、中央値は下から$10$番目と$11$番目の値の中間値となるので、中央値は減少します。また、はずれ値を取り除くとデータの散らばりが小さくなるので、分散は減少するようになります。


問8 解答

(変動係数)

[1]

$\boxed{ \ \mathsf{11}\ }$ ⑤

単位が異なるデータや平均値が大きく異なるデータの散らばりの程度を相対的に比較したいとき、標準偏差を平均値で割って標準化したものである変動係数を用いることがあります。

[2]

$\boxed{ \ \mathsf{12}\ }$ ④

Ⅰ.男$11$歳の体重の変動係数は$8.35\div38.2\fallingdotseq0.219$、男$17$歳の体重の変動係数は$10.38\div62.6\fallingdotseq0.166$となるので、変動係数は$17$歳のほうが小さくなります。
Ⅱ.男女とも、年齢が上がるほど、平均値が大きくなり、標準偏差が小さいか同じ値となっているので、変動係数は定義から年齢が上がるほど小さくなることになります。
Ⅲ.男女のどの年齢においても、標準偏差は体重のほうが大きく、平均値は体重のほうが小さいので、変動係数は定義から体重のほうが大きくなることになります。


問9 解答

(散布図)

[1]

$\boxed{ \ \mathsf{13}\ }$ ⑤

散布図から読み取ると、滋賀県の未婚率は、
 女性の未婚率が男性の未婚率よりも小さくなっています。
 男女どちらの未婚率も$50\%$を下回っています。
 男女どちらの未婚率も平均を下回っています。
 男性の未婚率と女性の未婚率の差は$10\%$より大きくなっています。

[2]

$\boxed{ \ \mathsf{14}\ }$ ①

Ⅰ.散布図から、すべての都道府県において、女性の未婚率は男性の未婚率より低くなっています。
Ⅱ.この散布図は男女の未婚率の関係を示しているだけで、人口と未婚率の関係は示されていません。
Ⅲ.散布図から、男性の未婚率が$50\%$より大きい都道府県は、約$15$都道府県と読み取れるので、半数ではありません。


問10 解答

(散布図、折れ線グラフ)

[1]

$\boxed{ \ \mathsf{15}\ }$ ①

Ⅰ.散布図の点は、おおよそ左下から右上に分布しているので、打率が高い年は防御率も高くなっている傾向にあることがわかります。
Ⅱ.この散布図だけでは、打率と防御率がどの年のものかはわかりません。
Ⅲ.打率が一番高い点は、防御率が一番高くなっていません。

[2]

$\boxed{ \ \mathsf{16}\ }$ ⑤

Ⅰ.防御率のグラフから一番低い年は$2012$年ですが、勝率のグラフでは一番高い年は$2017$年となっています。
Ⅱ.勝率のグラフから一番高い年は$2017$年ですが、打率のグラフでは一番高い年は$2004$年となっています。
Ⅲ.例えば、$2009$年や$2015$年をみると、防御率は前年より低くなっていますが、勝率も前年より低くなっています。

Ch.6 「検定と標本の大きさ」の章末問題の解答例 〜自然科学の統計学(東京大学出版会)〜

当記事は「基礎統計学Ⅲ 自然科学の統計学(東京大学出版会)」の読解サポートにあたってChapter.$6$の「検定と標本の大きさ」の章末問題の解説について行います。
基本的には書籍の購入者向けの解答例・解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

なお、下記で取り扱った「現代数理統計学」の$8$章と内容が類似するので、下記も参考になるかもしれません。
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch8.html

章末の演習問題について

問題6.1の解答例

面が出る回数を表す確率変数を$X$、確率を表す母数を$p$、検出力関数を$\beta_{\delta}(p)$とおくと、$\beta_{\delta}(p)$は$\beta_{\delta}(p)$は$\delta$を用いて帰無仮説を棄却する確率に一致するので下記のように計算することができる。
$$
\large
\begin{align}
\beta_{\delta}(p) &= P(X=4) + P(X=0) \\
&= p^4 + (1-p)^4
\end{align}
$$

以下、$\beta_{\delta}(p)$の$p$に関する増減表を考える。
$$
\large
\begin{align}
\frac{\partial \beta_{\delta}(p)}{\partial p} &= 4p^3 – 4(1-p)^3 \\
&= 4(p^3-(1-p)^3) \\
&= 4(p-(1-p))(p^2+p(1-p)+(1-p)^2) \\
&= 4(2p-1)(p^2-p+1) \\
&= 4(2p-1) \left( \left( p^2-\frac{1}{2} \right)^2 + \frac{3}{4} \right)
\end{align}
$$
上記の計算にあたっては$A^3-B^3=(A-B)(A^2+AB+B^2)$の式が成立することを利用した。

ここまでの議論により、$\beta_{\delta}(p)$の$p$に関する増減表は下記のように描くことができる。
$$
\large
\begin{array}{|c|*5{c|}}\hline p & 0 & \cdots & \frac{1}{2} & \cdots & 1 \\
\hline \frac{\partial \beta_{\delta}(p)}{\partial p} & – & – & 0 & + & + \\
\hline \beta_{\delta}(p) & 1 & \searrow & \frac{1}{8} & \nearrow & 1 \\
\hline
\end{array}
$$

グラフは増減表に基づいて作成を行えば良い。

問題6.2の解答例

$\displaystyle \tau = \sqrt{\frac{mn}{m+n}} \cdot \frac{(\mu_{1}-\mu_{2})}{\sigma_{0}}$に$m=n=5, \mu_{1}-\mu_{2}=1, \sigma_{0}=1$を代入することで、下記のように$\tau$の値が計算できる。
$$
\large
\begin{align}
\tau &= \sqrt{\frac{mn}{m+n}} \cdot \frac{(\mu_{1}-\mu_{2})}{\sigma_{0}} \\
&= \sqrt{\frac{25}{5+5}} \cdot \frac{1}{1} \\
&= \frac{5}{\sqrt{10}} \simeq 1.581
\end{align}
$$

これを$(6.16)$式に代入することで、下記のように有意水準$\alpha=0.05$の片側検定と両側検定の検出力を得ることができる。
・片側検定
$$
\large
\begin{align}
\beta_{\delta}(\mu_{1},\mu_{2}) &= 1 – \Phi(z_{\alpha=0.05}-\tau) \\
&= 1 – \Phi(1.645-1.581) \\
&= 1 – \Phi(0.064) \\
&= 1 – 0.52392 \\
& \simeq 0.476
\end{align}
$$

・両側検定
$$
\large
\begin{align}
\beta_{\delta}(\mu_{1},\mu_{2}) &= 1 – \Phi(z_{\alpha=0.025}-\tau) + \Phi(-z_{\alpha=0.025}-\tau) \\
&= 1 – \Phi(1.96-1.581) + \Phi(-1.96-1.581) \\
&= 1 – \Phi(0.379) + \Phi(-3.541) \\
&= 0.35197 – 0.0002 \\
& \simeq 0.352
\end{align}
$$

問題6.3の解答例

$(6.16)$式は下記のように導出できる。

・右片側検定
$$
\large
\begin{align}
\beta_{\delta}(\mu_{1},\mu_{2}) &= P(z_{\alpha}<Z) \\
&= P \left( z_{\alpha} < \sqrt{\frac{mn}{m+n}} \cdot \frac{(\bar{X}-\bar{Y})}{\sigma_{0}} \right) \\
&= P \left( z_{\alpha}-\sqrt{\frac{mn}{m+n}} \cdot \frac{(\mu_1-\mu_2)}{\sigma_{0}} < \sqrt{\frac{mn}{m+n}} \cdot \frac{(\bar{X}-\bar{Y})}{\sigma_{0}}-\sqrt{\frac{mn}{m+n}} \cdot \frac{(\mu_1-\mu_2)}{\sigma_{0}} \right) \\
&= P \left( z_{\alpha}-\tau < \sqrt{\frac{mn}{m+n}} \cdot \frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sigma_{0}} \right) \\
&= 1 – \Phi(z_{\alpha}-\tau)
\end{align}
$$

・両側検定
$$
\large
\begin{align}
\beta_{\delta}(\mu_{1},\mu_{2}) &= P(Z < -z_{\alpha/2}) + P(z_{\alpha/2} < Z) \\
&= P \left( \sqrt{\frac{mn}{m+n}} \cdot \frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sigma_{0}} < -z_{\alpha/2}-\tau \right) + P \left( z_{\alpha/2}-\tau < \sqrt{\frac{mn}{m+n}} \cdot \frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sigma_{0}} \right) \\
&= 1 – \Phi(z_{\alpha/2}-\tau) + \Phi(-z_{\alpha/2}-\tau)
\end{align}
$$

問題6.4の解答例

$(6.34)$式に対して$p_0=0.4, p=0.6, z_{\alpha=0.05}=1.645, z_{\gamma=0.9}=-1.28$を代入することで$n$の一般式より$n$の条件を得る。
$$
\large
\begin{align}
n & \geq \frac{z_{\alpha=0.05} \sqrt{p_0(1-p_0)} – z_{\gamma=0.9} \sqrt{p(1-p)}}{(p-p_0)^2} \\
&= \frac{1.645 \sqrt{0.4 \cdot 0.6} + 1.28 \sqrt{0.6 \cdot 0.4}}{(0.6-0.4)^2} \\
&= 51.333…
\end{align}
$$

上記より少なくとも$n=52$が必要であることがわかる。

問題6.5の解答例

$$
\large
\begin{align}
H_0: \quad \mu=\mu_{0} \\
H_1: \quad \mu=\mu_{1}
\end{align}
$$
$\mu_{1}>\mu_{0}$の前提を元に、上記のような帰無仮説$H_{0}$と対立仮説$H_{1}$を設定する。こ子で観測値$x_1,x_2,…,x_n$に関する尤度関数を$l(x_1,…,x_n|\mu_{0}), l(x_1,…,x_n|\mu_{1})$のように定めると、尤度比は下記のように計算できる。
$$
\large
\begin{align}
\frac{l(x_1,…,x_n|\mu_{1})}{l(x_1,…,x_n|\mu_{0})} &= \frac{\prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi}\sigma_0^2} \exp \left( -\frac{(x_i-\mu_{1})^2}{2 \sigma_0^2} \right)}{\prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi}\sigma_0^2} \exp \left( -\frac{(x_i-\mu_{0})^2}{2 \sigma_0^2} \right)} \\
&= \exp \left( -\sum_{i=1}^{n}\frac{(x_i-\mu_{1})^2}{2 \sigma_0^2} + \sum_{i=1}^{n} \frac{(x_i-\mu_{0})^2}{2 \sigma_0^2} \right) \\
&= \exp \left( -\sum_{i=1}^{n}\frac{(x_i^2-2\mu_{1}x_i+\mu_{1}^2)}{2 \sigma_0^2} + \sum_{i=1}^{n} \frac{(x_i^2-2\mu_{0}x_i+\mu_{0}^2)}{2 \sigma_0^2} \right) \\
&= \exp \left( \frac{\mu_{1}}{\sigma_0^2}\sum_{i=1}^{n}x_i – \frac{\mu_{0}}{\sigma_0^2}\sum_{i=1}^{n}x_i – \frac{n \mu_{1}^2}{2 \sigma_0^2} + \frac{n \mu_{0}^2}{2 \sigma_0^2} \right) \\
&= \exp \left( \frac{n \bar{x}}{\sigma_0^2}(\mu_{1}-\mu_{0}) – \frac{n}{2 \sigma_0^2}(\mu_{1}^2-\mu_{0}^2) \right)
\end{align}
$$

ここで尤度比$\displaystyle \frac{l(x_1,…,x_n|\mu_{1})}{l(x_1,…,x_n|\mu_{0})}$に関して、$\displaystyle \frac{l(x_1,…,x_n|\mu_{1})}{l(x_1,…,x_n|\mu_{0})}>k$が成立するときに$H_{0}$を棄却することを考える。
$$
\large
\begin{align}
\frac{l(x_1,…,x_n|\mu_{1})}{l(x_1,…,x_n|\mu_{0})} &> k \\
\exp \left( \frac{n \bar{x}}{\sigma_0^2}(\mu_{1}-\mu_{0}) – \frac{n}{2 \sigma_0^2}(\mu_{1}^2-\mu_{0}^2) \right) &> k \\
\frac{n \bar{x}}{\sigma_0^2}(\mu_{1}-\mu_{0}) – \frac{n}{2 \sigma_0^2}(\mu_{1}^2-\mu_{0}^2) &> \log{k} \\
\frac{n \bar{x}}{\sigma_0^2}(\mu_{1}-\mu_{0}) &> \log{k} + \frac{n}{2 \sigma_0^2}(\mu_{1}-\mu_{0})(\mu_{0}+\mu_{1}) \\
\bar{x} &> \frac{\sigma_0^2}{n(\mu_{1}-\mu_{0})} + \frac{\mu_{0}+\mu_{1}}{2}
\end{align}
$$

ここで右辺の$\displaystyle \frac{\sigma_0^2 \log{k}}{n(\mu_{1}-\mu_{0})} + \frac{\mu_{0}+\mu_{1}}{2}$を$\displaystyle C = \frac{\sigma_0^2 \log{k}}{n(\mu_{1}-\mu_{0})} + \frac{\mu_{0}+\mu_{1}}{2}$のように置き換えることを考える。このとき、$\displaystyle \frac{\sqrt{n} (C – \mu_0)}{\sigma_0} = z_{\alpha}$のように$C$を定めると検定を$Z>z_{\alpha}$のように表すことができる。また、ここでの$C$の決め方が対立仮説の$\mu_{1}$によらないことから$\mu_{1}>\mu_{0}$のあらゆる$\mu_{1}$に関して最強力検定であることも同時にわかる。

まとめ

Chapter.$6$の「検定と標本の大きさ」の演習について取り扱いました。検定力関数や最強力検定は様々な議論で用いられるので、抑えておくのが良いと思われました。

エントロピー(entropy)の定義とその解釈 〜bit、multiplicity〜

エントロピー(entropy)は確率分布の類似度を計算するKLダイバージェンスなど、統計学や機械学習の分野で様々な形で用いられる。当記事では「Pattern Recognition and Machine Learning(C.M.Bishop)」の1.6節を参考にエントロピーの定義とその解釈について取りまとめを行なった。

目的の確認とエントロピーの定義式

無相関時のエントロピーの加法性 $h(x,y)=h(x)+h(y)$

確率関数または確率密度関数を$p(x)$と考えるとき、$h(x)=f(g(x))$のような関数を考え、$h(x)$をエントロピーの定義の要素にすることを考える。ここで互いに相関しない事象$x$と事象$y$に関して下記のような加法性が成立すると仮定する。
$$
\large
\begin{align}
h(x,y) = h(x)+h(y) \quad (1)
\end{align}
$$

また、$x$と$y$がそれぞれ無相関の場合、$p(x,y)$に関して下記が成立する。
$$
\large
\begin{align}
p(x,y) = p(x)p(y) \quad (2)
\end{align}
$$

ここで$h(x)=f(p(x))$であることより、$(1)$式の変形を下記のように考えることができる。
$$
\large
\begin{align}
h(x,y) &= f(p(x,y)) \\
&= f(p(x)p(y)) = h(x)+h(y)
\end{align}
$$

上記が成立するような$f, h$に関しては、$f(x) = -\log_{2}{x}, h(x) = -\log_{2}{p(x)}$のような対数関数を考えることができる。

エントロピーの定義式 $\displaystyle H[x] = – \sum_{x} p(x) \log_{2}{p(x)}$

前項で$f(x) = -\log_{2}{x}, h(x) = -\log_{2}{p(x)}$のように考えたが、$p(x)$で表される確率分布に関して$h(x)$の期待値を$H[x]$とおくと、$H[x]$は下記のように表すことができる。
$$
\large
\begin{align}
H[x] &= E[h(x)] \\
&= E[-\log_{2}{p(x)}] = -\sum_{x} p(x)\log_{2}{p(x)} \quad (3)
\end{align}
$$
上記を確率変数$x$に関するエントロピーと定義する。

以下、$0 \leq p(x) \leq 1$の条件下で$p(x)\log_{2}{p(x)}$の取り得る範囲について考える。シンプルに表記を行うにあたって、以下では$f(p) = p\log_{2}{p} = cp\log_{e}{p}$とおき、$f(p)$の増減表を作成する。ここで微分の計算を簡単に行うにあたって、定数$\displaystyle c = \frac{1}{\log_{e}{2}} > 0$のようにおいた。
$$
\large
\begin{align}
\frac{d f(p)}{dp} &= \frac{d}{dp} \left( cp\log_{e}{p} \right) \\
&= c\log_{e}{p} + c \\
&= c(\log_{e}{p}+1)
\end{align}
$$

エントロピーの数式の理解

はじめに、$0 \leq p(x) \leq 1$の条件下で$p(x)\log_{2}{p(x)}$の取り得る範囲について考える。シンプルに表記を行うにあたって、以下では$f(p) = p\log_{2}{p} = cp\log_{e}{p}$とおき、$f(p)$の増減表を作成する。ここで微分の計算を簡単に行うにあたって、定数$\displaystyle c = \frac{1}{\log_{e}{2}} > 0$のようにおいた。
$$
\large
\begin{align}
\frac{d f(p)}{dp} &= \frac{d}{dp} \left( cp\log_{e}{p} \right) \\
&= c\log_{e}{p} + c \\
&= c(\log_{e}{p}+1)
\end{align}
$$
上記より$\displaystyle \frac{df(p)}{dp}$が単調増加関数であり、等号が$\displaystyle p = \frac{1}{e}$の時に成立することが確認できる。よって、$0 \leq p \leq 1$の範囲での$f(p)$の増減表は下記のように記載できる。
$$
\large
\begin{array}{|c|*5{c|}}\hline p & 0 & \cdots & \frac{1}{e} & \cdots & 1 \\
\hline \frac{d f(p)}{dp} & / & – & 0 & + & / \\
\hline f(p) & / & \searrow & -\frac{1}{e \log_{e}{2}} & \nearrow & 0 \\
\hline
\end{array}
$$

上記を考える上で注意が必要なのが、$f(p) = p\log_{2}{p}$では$p=0$の場合が定義できないということである。よって、$p \to +0$の極限を考え、この値に基づいて$f(0)$を定義する必要がある。

ここで$p = 2^t$のようにおくことで、$p \to +0, t \to -\infty$の極限を計算する。
$$
\large
\begin{align}
\lim_{p \to +0} p\log_{2}{p} &= \lim_{\substack{p \to +0 \\ t \to -\infty}} 2^t \log_{2}{2^t} \\
&= \lim_{t \to -\infty} t \times 2^t \\
&= 0
\end{align}
$$

上記より$\displaystyle \lim_{p \to +0} p\log_{2}{p} = 0$が成立することから、$f(0)=0$は個別で定義を行う。

また、以下ではベルヌーイ分布のように$2$値の状態が生じ得る際のエントロピー$H[x]=g(p)$の関数の概形について確認を行う。
$$
\large
\begin{align}
H[x] = -(p\log_{2}{p} + (1-p)\log_{2}{(1-p)}) = g(p)
\end{align}
$$
$2$値の状態が生じ得る際のエントロピー$\displaystyle H[x]=g(p)$は$(3)$式より、上記のように表すことができる。

$g(p)$の増減表の作成を行うにあたって、$g(p)$を$p$で微分する。
$$
\large
\begin{align}
g'(p) &= \frac{dg(p)}{dp} = -c\frac{d}{dp}(p\log_{e}{p} + (1-p)\log_{e}{(1-p)}) \\
&= -c \left( \log_{e}{p} + \frac{p}{p} – \log_{e}{(1-p)} – \frac{1-p}{1-p} \right) \\
&= c \log{\frac{1-p}{p}}
\end{align}
$$

上記は$p$の単調減少関数であり、$g'(p)=0$は$1-p=p$より、$\displaystyle p = \frac{1}{2}$のとき成立する。

よって、エントロピー$\displaystyle H[x]=g(p)$の増減表は下記のように描くことができる。
$$
\large
\begin{array}{|c|*5{c|}}\hline p & 0 & \cdots & \frac{1}{2} & \cdots & 1 \\
\hline \frac{d g(p)}{dp} & / & + & 0 & – & / \\
\hline g(p) & 0 & \nearrow & 1 & \searrow & 0 \\
\hline
\end{array}
$$

エントロピーの式の解釈

bits

$8$つの状態を$\{a,b,c,d,e,f,g,h\}$のように表すと考える。このときに、全ての状態を等しい確率で取り得ると考えると、エントロピーは下記のように計算を行うことができる。
$$
\large
\begin{align}
H[x] &= – \sum_{x} p(x) \log_{2}{p(x)} \\
&= – 8 \times \frac{1}{8} \log_{2}{\frac{1}{8}} \\
&= 3
\end{align}
$$

次に$\{a,b,c,d,e,f,g,h\}$の状態をそれぞれ下記の確率で取る場合について考える。
$$
\large
\begin{align}
\left( \frac{1}{2},\frac{1}{4},\frac{1}{8},\frac{1}{16},\frac{1}{64},\frac{1}{64},\frac{1}{64},\frac{1}{64} \right)
\end{align}
$$
このとき、エントロピーは下記のように計算を行うことができる。
$$
\large
\begin{align}
H[x] &= – \sum_{x} p(x) \log_{2}{p(x)} \\
&= – 1 \times \frac{1}{2} \log_{2}{\frac{1}{2}} – 1 \times \frac{1}{4} \log_{2}{\frac{1}{4}} – 1 \times \frac{1}{8} \log_{2}{\frac{1}{8}} \\
&- 1 \times \frac{1}{16} \log_{2}{\frac{1}{16}} – 4 \times \frac{1}{64} \log_{2}{\frac{1}{64}} \\
&= \frac{1}{2} + \frac{1}{2} + \frac{3}{8} + \frac{1}{4} + \frac{3}{8} \\
&= 2
\end{align}
$$

ここまでの議論は${a,b,c,d,e,f,g,h}$を$2$進数で符号化する際の平均ビット長と対比させて考えることもできる。まず$(4)$式は$000,001,010,011,100,101,110,111$のようにそれぞれ符号を割り振った際に平均ビット長が$3$であることに対応すると考えられる。

次に$(5)$式に関しては、$0,10,110,1110,111100,111101,111110,111111$と割り振った際の平均ビット長に一致することは下記のように確かめることができる。
$$
\large
\begin{align}
& 1 \times \frac{1}{2} + 2 \times \frac{1}{4} + 3 \times \frac{1}{8} + 4 \times \frac{1}{16} + 6 \times \frac{1}{64} \times 4 \\
&= \frac{1}{2} + \frac{1}{2} + \frac{3}{8} + \frac{1}{4} + \frac{3}{8} \\
&= 2
\end{align}
$$

multiplicity

・スターリングの近似
https://www.hello-statisticians.com/explain-terms-cat/stirling_approximation1.html

スターリングの近似(Stirling’s approximation)まとめ

スターリングの近似(Stirling’s approximation)は$t$分布の極限やエントロピーを考える際に出てくるなど応用範囲が広い一方で、式のみが出てくることが多く、解説されている機会が少ないように思われる。そこで当記事ではスターリングの近似のまとめを行なった。

$\log{n!} \simeq n \log{n} – n$の導出

$f(x)=\log{x}$を用いた上側からの評価

$f(x)=\log{x}$の区間$[1,n]$の定積分の$\displaystyle \int_{1}^{n} \log{x} dx$と$\log{1}+\log{2}+…+\log{(n-1)} = \log{(n-1)!}$に関して下記が成立する。
$$
\large
\begin{align}
\log{1}+\log{2}…\log{(n-1)} &< \int_{1}^{n} \log{x} dx \\
\log{(n-1)!} &< \left[ x \log{x} – x \right]_{1}^{n} \\
\log{(n-1)!} &< n \log{n} – n + 1
\end{align}
$$

上記の両辺に$\log{n}$を加えると下記が導出できる。
$$
\large
\begin{align}
\log{(n-1)!} + \log{n} &< n \log{n} – n + 1 + \log{n} \\
\log{n!} &< (n+1) \log{n} – n + 1
\end{align}
$$

上記が$\log{n!}$の上からの評価と考えることができる。

$f(x)=\log{x}$を用いた下側からの評価

$f(x)=\log{x}$の区間$[1,n]$の定積分の$\displaystyle \int_{1}^{n} \log{x} dx$と$\log{2}+\log{3}+…+\log{n} = \log{n!}$に関して下記が成立する。
$$
\large
\begin{align}
\int_{1}^{n} \log{x} dx &< \log{2}+…+\log{n} \\
\int_{1}^{n} \log{x} dx &< \log{n!} \\
n \log{n} – n + 1 &< \log{n!}
\end{align}
$$

上記が$\log{n!}$の下からの評価と考えることができる。

$\log{n!} \simeq n \log{n} – n$の導出

ここまでの導出を整理すると、$\log{n!}$に関して下記のような評価式が得られる。
$$
\large
\begin{align}
n \log{n} – n + 1 < \log{n!} < (n+1) \log{n} – n + 1
\end{align}
$$

上記の両辺を$n \log{n} – n$で割ると、$n \log{n} – n > 0$より、下記のように変形ができる。
$$
\large
\begin{align}
n \log{n} – n + 1 < & \log{n!} < (n+1) \log{n} – n + 1 \\
\frac{n \log{n} – n + 1}{n \log{n} – n} < & \frac{\log{n!}}{n \log{n} – n} < \frac{(n+1) \log{n} – n + 1}{n \log{n} – n} \\
1 + \frac{1}{n \log{n} – n} < & \frac{\log{n!}}{n \log{n} – n} < 1 + \frac{\log{n} + 1}{n \log{n} – n}
\end{align}
$$

$n \to \infty$のとき両端が$1$に収束することより、$\displaystyle \frac{\log{n!}}{n \log{n} – n}$も$1$に収束する。よって、下記のような近似を考えることができる。
$$
\large
\begin{align}
\log{n!} \simeq n \log{n} – n
\end{align}
$$

$\displaystyle n! \simeq \sqrt{2 \pi n} \left( \frac{n}{e} \right)^n$

$\displaystyle n! \simeq \sqrt{2 \pi n} \left( \frac{n}{e} \right)^n$の形の近似式は下記などで用いられる。
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch4.html#45

統計検定準1級問題解説 ~2019年6月実施 問8 L1正則化~

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


解答

[1] 解答

$\boxed{ \ \mathsf{16}\ }$ : ④

Fused Lassoは正則化項(罰則項)にL1ノルムを用いておりスパース性(係数の多くを0と推定する性質)をもつ。Fused Lassoでは$\beta_{i+1}-\beta_i$が$0$になりやすくなるため、隣接した$\beta_i$が同じ値になりやすくなる。このためFused Lassoを時系列データに適用して平滑化をした場合、平滑化されたデータのグラフは階段状になることから、④のグラフが正解となる。

[2] 解答

$\boxed{ \ \mathsf{17}\ }$ : ④

グラフをみると、同じ傾きの区間が多くなることから、データの差分($\beta_{i+1}-\beta_i$)の差分にL1正則化を適用しているものと考えられる。したがって、
$$(\beta_{i+2}-\beta_{i+1})-(\beta_{i+1}-\beta_i)=\beta_{i+2}-2\beta_{i+1}-\beta_i$$となることから、④が正解である。


解説

正則化

重回帰分析における回帰係数の推定といった線形モデルの推定においては、係数の分散を大きくするような極端な値が含まれていると、モデルが極端な値の影響を受け複雑になることがなる。そこで、極端な値にペナルティを科すための追加情報を導入するための手法の一つが正則化である。代表的な正則化にはL2ノルムを用いたL2正則化とL1ノルムを用いたL1正則化がある。一般に正則化のモデルは
$$
\newcommand{\argmin}{\mathop{\rm arg~min}\limits}
\begin{align}
L_2:\quad&\argmin_{\mathbf\beta\in\mathbb{R}^p}\left\{f(y_i,x_i,\mathbf\beta)+\lambda\sum_{j=1}^p\sqrt{|\beta_j|^2}\right\}\\
L_1:\quad&\argmin_{\mathbf\beta\in\mathbb{R}^p}\left\{f(y_i,x_i,\mathbf\beta)+\lambda\sum_{j=1}^p|\beta_j|\right\}
\end{align}
$$
となる。ここで、
・$\mathbf\beta=(,\beta_1,\beta_2,\cdots,\beta_p)^\mathrm{ T }$:推定した係数ベクトル
・$f(y_i,x_i,\mathbf\beta)$:誤差関数(損失関数)
・$\lambda(\le0)$:正則化パラメータ(この値が大きいほど、より強いペナルティを与える)
・$\lambda\sum_{j=1}^p\sqrt{|\beta_j|^2}$:L2正則化項
・$\lambda\sum_{j=1}^p|\beta_j|$:L1正則化項

統計検定1級 統計応用 問題解説 ~2018年11月実施 社会科学 問2~

統計検定1級の2018年11月の「統計応用」の「社会科学 問2」の解答例と解説について取り扱いました。他の問題の解答に関しては下記よりご確認ください。
https://www.hello-statisticians.com/stat_certifi_1_app

問題

詳しくは統計検定公式よりご確認ください。

解答

[1]
経済データでは値の大きさに比例して標準偏差が大きくなることが多いので、散らばりの指標には標準偏差よりも標準偏差を平均値で割った変動係数が妥当な指標となる。また、層1〜3における変動係数はそれぞれ$0.10, 0.10, 0.16$であり、層3の散らばりが最も大きいと考えることができる。

[2]
正規分布に基づく母平均の$95$%区間は、標本平均を$\bar{x}$、標準正規分布の上側$2.5$%点を$z_{\alpha=0.025}$とした際に下記のように与えられる。
$$
\large
\begin{align}
\bar{x} \pm z_{\alpha=0.025} \frac{\sigma}{\sqrt{n}}
\end{align}
$$

よって、$\displaystyle d \geq z_{\alpha=0.025} \frac{\sigma}{\sqrt{n}}$が得られる。これを$n$に関して解くと、下記が導出できる。
$$
\large
\begin{align}
d & \geq z_{\alpha=0.025} \frac{\sigma}{\sqrt{n}} \\
\sqrt{n} & \geq z_{\alpha=0.025} \frac{\sigma}{d} \\
n & \geq z_{\alpha=0.025}^2 \frac{\sigma^2}{d^2}
\end{align}
$$
上記は与式が成立することを示唆する。

また、$z_{\alpha=0.025}=1.96, \sigma^2=\sigma_1^2=10^2, d=5$を用いて$n_1^{*}$に関して下記が導出できる。
$$
\large
\begin{align}
n_1^{*} & \geq z_{\alpha=0.025}^2 \frac{\sigma_1^2}{d^2} \\
&= 1.96^2 \frac{10^2}{5^2} \\
&= 15.36… \simeq 15.4
\end{align}
$$
ここで$n_1^{*}$は整数なので$n_1^{*}=16$となる。

[3]
$\mu$の推定量$\hat{\mu}$の分散$V[\hat{\mu}]$は下記のように求めることができる。
$$
\large
\begin{align}
V[\hat{\mu}] &= V \left[ \sum_{i=1}^{3} \frac{N_i}{N} \bar{x_i} \right] \\
&= V \left[ \frac{N_1}{N} \bar{x_1} + \frac{N_2}{N} \bar{x_2} + \frac{N_3}{N} \bar{x_3} \right] \\
&= V \left[ \frac{N_1}{N} \bar{x_1} \right] + V \left[ \frac{N_2}{N} \bar{x_2} \right] + V \left[ \frac{N_3}{N} \bar{x_3} \right] \\
&= \frac{N_1^2}{N^2} V \left[\bar{x_1} \right] + \frac{N_2^2}{N^2} V \left[ \bar{x_2} \right] + \frac{N_3^2}{N^2} V \left[ \bar{x_3} \right] \\
&= \frac{N_1^2}{N^2} \cdot \frac{N_1-n_1}{N_1-1} \cdot \frac{\sigma_1^2}{n_1} + \frac{N_2^2}{N^2} \cdot \frac{N_2-n_2}{N_2-1} \cdot \frac{\sigma_2^2}{n_2} + \frac{N_3^2}{N^2} \cdot \frac{N_3-n_3}{N_3-1} \cdot \frac{\sigma_3^2}{n_3} \\
&= \sum_{i=1}^{3} \frac{N_i^2}{N^2} \frac{N_i-n_i}{N_i-1} \cdot \frac{\sigma_i^2}{n_i}
\end{align}
$$

[4]
ラグランジュの未定乗数法を用いることで下記の結果が得られる。
$$
\large
\begin{align}
n_i^{\#} = \frac{\frac{N_i}{N}\sigma_i}{\sum_{i=1}^{3}\frac{N_i}{N}\sigma_i} n
\end{align}
$$

[5]
与えられた値や[4]で導出した式を用いることで$n_1^{\#} \simeq 9.06, n_2^{\#} \simeq 20.38, n_3^{\#} \simeq 90.57$が得られる。したがって標本の大きさ$n=120$に対して、層1には$9$、層$2$には$20$、層$3$には$91$の標本をそれぞれ割り当てればよい。

統計検定準1級問題解説 ~2021年6月実施 選択問題及び部分記述問題 問2~

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


解答

$\boxed{ \ \mathsf{記述4}\ }$ : $\lambda^2$
$\boxed{ \ \mathsf{記述5}\ }$ : $\displaystyle\left(\frac1n\sum_{i=1}^n X_i\right)^2$
$\boxed{ \ \mathsf{記述6}\ }$ : $4\lambda^4$

[1]

指数分布の分散は、平均(期待値)の二乗なので、$V(X_i)=\lambda^2$

(分散の導出)分散を$V(X)=E(X^2)-E(X)^2$より求める。$$
\begin{align}
\theta=V(X_i)&=E(X_i ^2)-E(X_i )^2\\
&=\int_0^\infty x^2f(x)dx-\left(\int_0^\infty xf(x)dx\right)^2\\
&=\int_0^\infty x^2\frac1{\lambda}e^{-x/\lambda}dx-\left(\int_0^\infty x\frac{1}{\lambda} e^{-x/\lambda}dx\right)^2\\
&=\frac1{\lambda}\int_0^\infty x^2e^{-x/\lambda}dx-\frac{1}{\lambda^2}\left(\int_0^\infty xe^{-x/\lambda}dx\right)^2\\
\end{align}$$
ここで、積分の計算で部分積分の公式$$\int f(x)g'(x)dx=f(x)g(x)-\int f'(x)g(x)dx$$を使う。$$
\begin{align}
\int_0^\infty xe^{-x/\lambda}dx&=\int_0^\infty x\left(-\lambda e^{-x/\lambda}\right)’dx\\
&=\left[x\left(-\lambda e^{-x/\lambda}\right)\right]_0^\infty-\int_0^\infty 1\cdot-\lambda e^{-x/\lambda}dx\\
&=0-\left[\lambda^2e^{-x/\lambda}\right]_0^\infty=-(0-\lambda^2)=\lambda^2\\
\int_0^\infty x^2e^{-x/\lambda}dx&=\int_0^\infty x^2\left(-\lambda e^{-x/\lambda}\right)’dx\\
&=\left[x^2\left(-\lambda e^{-x/\lambda}\right)\right]_0^\infty-\int_0^\infty 2x\cdot-\lambda e^{-x/\lambda}dx\\
&=0+2\lambda\int_0^\infty xe^{-x/\lambda}dx=2\lambda^3\\
\end{align}$$
よって、分散$\theta$は、
$$
\theta=\frac1{\lambda}\cdot 2\lambda^3-\frac{1}{\lambda^2}(\lambda^2)^2=\lambda^2
$$

[2]

分散$\theta$は$\lambda^2$なので、 $\lambda$の最尤推定量$\hat\lambda$を求める。
$\lambda$の尤度関数は、$$
L(X_1、X_2, \cdots, X_n | \lambda)=f(X_1)f(X_2)\cdots f(X_n)=\lambda^{-n}e^{-(X_1+X_2+\cdots+X_n)/\lambda}$$
よって、$$
\log L=-n\log\lambda-(X_1+X_2+\cdots+X_n)/\lambda$$
ここで、尤度関数$L$を最大にするには$\log L$を最大にすればよいので、$\frac{\partial\log L}{\partial\lambda}=0$を解けばよい。$$
\begin{align}
0&=\frac{\partial\log L}{\partial\lambda}\\
0&=\frac{\partial}{\partial\lambda}(-n\log\lambda-(X_1+X_2+\cdots+X_n)/\lambda)\\
0&=-\frac{n}{\lambda}+\frac1{\lambda^2}(X_1+X_2+\cdots+X_n)\\
\lambda n&=X_1+X_2+\cdots+X_n\\
\end{align}$$
よって、最尤推定量$\hat\lambda$は、$$
\hat\lambda=\frac1n(X_1+X_2+\cdots+X_n)=\frac1n\sum_{i=1}^nX_i$$
これを用いて、分散の最尤推定量$\hat\theta$は、$$
\hat\theta=\hat\lambda^2=\left(\frac1n\sum_{i=1}^nX_i\right)^2$$

[3]

$\theta=\lambda^2$であるから$X_i$の確率密度関数$f(x)$は、$$f(x;\theta)=\frac1{\sqrt{\theta}} e^{-x/\sqrt{\theta}}$$となる。
最尤推定量$\hat\theta$の漸近正規性から、$\sqrt{n}(\hat\theta-\theta)$は正規分布$N(0,J_1(\theta)^{-1})$に分布収束する。ここで、$J_1(\theta)$は$1$このデータのフィッシャー情報量である。したがって、
$$\lim_{n \to \infty}V(\sqrt{n}(\hat\theta-\theta))=J_1(\theta)^{-1}$$
となる。フィッシャー情報量$J_1(\theta)$は、$$J_1(\theta)=E\left[-\frac{\partial^2}{\partial\theta^2}\log f(X_i;\theta)\right]$$なので、まず、$E[\ ]$の中を計算する。$$\begin{align}-\frac{\partial^2}{\partial\theta^2}\log f(X_i;\theta)=&-\frac{\partial^2}{\partial\theta^2}\log\left(\frac1{\sqrt{\theta}} e^{-X_i/\sqrt{\theta}}\right)\\=&-\frac{\partial^2}{\partial\theta^2}\left(-\frac12\log{\theta}-\frac{X_i}{\sqrt{\theta}}\right)\\=&-\frac{\partial}{\partial\theta}\left(-\frac1{2\theta}+\frac{X_i}{2\theta^{3/2}}\right)\\=&-\left(\frac1{2\theta^2}-\frac{3X_i}{4\theta^{5/2}}\right)\end{align}$$$E[X_i]=\lambda=\theta^{1/2}$なので、$$\begin{align}\therefore J_1(\theta)^{-1}=&E\left[-\frac1{2\theta^2}+\frac{3X_i}{4\theta^{5/2}}\right]^{-1}\\=&\left(-\frac1{2\theta^2}+\frac{3E[X_i]}{4\theta^{5/2}}\right)^{-1}\\=&\left(-\frac1{2\theta^2}+\frac{3\theta^{1/2}}{4\theta^{5/2}}\right)^{-1}\\=&\left(-\frac1{2\theta^2}+\frac{3}{4\theta^2}\right)^{-1}\\=&\left(\frac1{4\theta^2}\right)^{-1}=4\theta^2=4\lambda^4\end{align}$$


解説

指数分布

$\lambda\gt0$に対し、確率密度関数$$f(x)=\lambda e^{-\lambda x},\quad x\gt0$$を持つ分布を指数分布という。指数分布の累積分布関数は$$F(x)=P(X\le x)=\int_{-\infty}^xf(x)dx=\int_0^x\lambda e^{-\lambda x}dx=1-e^{-\lambda x},\quad x\gt0$$となる。指数分布はランダムに発生する事象の発生間隔を表す分布といえる。(離散型確率分布である幾何分布の連続型が指数分布といえる。)
指数分布の期待値、分散は以下のとおりである。
$$\begin{align}
E(X)=&\int_0^{\infty}xf(x)dx\\
=&\int_0^{\infty}x\lambda e^{-\lambda x}dx\\
=&\int_0^{\infty}x\lambda \left(-\frac1\lambda e^{-\lambda x}\right)’dx\\
=&\left[x\lambda\left(-\frac1\lambda e^{-\lambda x}\right)\right]_0^{\infty}-\int_0^{\infty}\lambda \left(-\frac1\lambda e^{-\lambda x}\right)dx\\
=&(0-0)-\left[\frac1\lambda e^{-\lambda x}\right]_0^{\infty}\\
=&-\left(0-\frac1\lambda\right)=\frac1\lambda\\
E(X^2)=&\int_0^{\infty}x^2f(x)dx\\
=&\int_0^{\infty}x^2\lambda e^{-\lambda x}dx\\
=&\int_0^{\infty}x^2\lambda \left(-\frac1\lambda e^{-\lambda x}\right)’dx\\
=&\left[x^2\lambda\left(-\frac1\lambda e^{-\lambda x}\right)\right]_0^{\infty}-\int_0^{\infty}2x\lambda \left(-\frac1\lambda e^{-\lambda x}\right)dx\\
=&(0-0)+\frac2\lambda\int_0^{\infty}x\lambda e^{-\lambda x}dx\\
=&\frac2\lambda\times\frac1\lambda=\frac2{\lambda^2}\\
V(X)=&E(X^2)-E(X)^2=\frac2{\lambda^2}-\left(\frac1\lambda\right)^2=\frac1{\lambda^2}
\end{align}$$
$X$が指数分布に従うとき$$P(X\ge t_1+t_2|X\ge t_1)=P(X\ge t_2),\quad t_1,t_2\ge0$$が成り立つ。これを指数関数の無記憶性という。「$t_1$ の期間成功しなかったうえでさらに $t_2$ の期間成功しない確率は、最初から$t_2$ の期間成功しない確率に等しい」

最尤推定量

ある確率分布の確率密度関数(離散型の場合は確率関数)を$f(x;\theta)$とする。この確率分布に従う母集団から抽出した標本の実現値を$x_1,x_2,\dots x_n$としたとき、標本の独立同一性から同時確率密度関数は$$L(\theta)=\prod_{i=1}^n f(x_i;\theta)$$となる。これを母数$\theta$の関数として扱うとき、$\theta$の尤度関数(尤度)という。この尤度関数$L(theta)$が標本実現値の下で最大となるような$\theta=\hat\theta$の値を最尤推定量という。最大推定量は母数$\theta$の推定値として用いることができる。尤度関数の最大を求めるにあたっては、尤度関数の対数をとると計算しやすく、これを対数尤度という。$$\log L(\theta)=\sum_{i=1}^n \log f(x_i;\theta)$$(尤度関数のパラメータが最尤推定量になれば、標本実現値$x_1,x_2,\dots x_n$が出る確率が最大となることから、最も尤もらしい推定値といえる。)

最尤推定量の一致性、漸近正規性

サイズ$n$の標本に基づいた$\theta$の推定量$\hat\theta_n$としたとき、真のパラメータ$\theta$は未定であるが、どのような推定量であってもその値が真のパラメータに確率収束するとき、すなわち、任意の$\varepsilon\gt0$に対して、
$$\lim_{ n \to \infty }P(|\hat\theta_n-\theta|\lt\varepsilon)=1$$
が成り立つとき、その推定量は一致性を持つという。
また、一致推定量の分散が漸近的にクラーメル・ラオの不等式の下限を達成するとき、すなわち、任意の$\theta$に対して、
$$\lim_{ n \to \infty }nV_\theta[\hat\theta]=J_1(\theta)^{-1}=E\left[-\frac{\partial^2}{\partial\theta^2}\log f(X_i;\theta)\right]^{-1}$$
となるとき、この推定量が漸近有効性を持つという。
適当な正則条件が成り立つような確率分布に関して、パラメータの最尤推定量は一致性及び漸近有効性をもつことが知られている。
さらに、$\theta$の最尤推定値$\hat\theta$について、$\sqrt{n}(\hat\theta_n-\theta)$は正規分布$N(0,J_1(\theta)^{-1})$に分布収束する。すなわち、$\sqrt{n}(\hat\theta_n-\theta)$の累積分布関数は、$N(0,J_1(\theta)^{-1})$の累積分布関数に各点で収束する。これを最尤推定量の漸近正規性という。

統計検定1級 統計応用 問題解説 ~2018年11月実施 社会科学 問1~

統計検定1級の2018年11月の「統計応用」の「社会科学 問1」の解答例と解説について取り扱いました。他の問題の解答に関しては下記よりご確認ください。
https://www.hello-statisticians.com/stat_certifi_1_app

問題

詳しくは統計検定公式よりご確認ください。

解答

[1]
帰無仮説を$H_{0}$とおくと、下記のように表せる。
$$
\large
\begin{align}
H_{0}: \quad p_{ij} = p_{i+}p_{+j}
\end{align}
$$

また、帰無仮説$H_{0}$の下での期待度数$e_{11}$は下記のように計算できる。
$$
\large
\begin{align}
e_{ij} &= n \times p_{1+}p_{+1} \\
&= n \times \frac{f_{1+}}{n} \times \frac{f_{+1}}{n} \\
&= 158 \times \frac{133}{158} \times \frac{81}{158} \\
&= \frac{133 \times 81}{158} \\
&= 68.183… \simeq 68.2
\end{align}
$$

[2]
イェーツの補正を行なった検定統計量$Y$の値は下記のように計算できる。
$$
\large
\begin{align}
Y &= \sum_{i=1}^{2} \sum_{j=1}^{2} \frac{(|f_{ij}-e_{ij}|-0.5)^2}{e_{ij}} \\
&= \frac{(|75-68.2|-0.5)^2}{68.2} + \frac{(|58-64.8|-0.5)^2}{64.8} \\
&+ \frac{(|6-12.8|-0.5)^2}{12.8} + \frac{(|19-12.2|-0.5)^2}{12.2} \\
&= 7.548… \simeq 7.55
\end{align}
$$
有意水準$0.05$での棄却域は自由度$1$のカイ二条分布の上側$5$%点の$3.84$であり、$Y>3.84$であるので検定統計量の値は棄却域に入る。これにより、「女性の職種と不払い労働時間の有無の間に関連性がない」とされる帰無仮説$H_0$が棄却され、「女性の職種と不払い労働時間の有無」に関連性があるという結論が得られる。

[3]

[4]

解説

統計検定1級 統計応用 問題解説 ~2018年11月実施 全分野共通問題 問5~

統計検定1級の2018年11月の「統計応用、全分野共通問題」の問5の解答例と解説について取り扱いました。他の問題の解答に関しては下記よりご確認ください。
https://www.hello-statisticians.com/stat_certifi_1_app

問題

詳しくは統計検定公式よりご確認ください。

解答

[1]
・期待値$\xi = E[X]$の導出
$X$の期待値$E[X]$は下記のように導出できる。
$$
\large
\begin{align}
E[X] &= \int_{-\infty}^{\infty} x f(x) dx \\
&= \int_{-\infty}^{\infty} x \cdot \frac{1}{2}(f_1(x)+f_2(x)) dx \\
&= \frac{1}{2} \int_{-\infty}^{\infty} x f_1(x) dx + \frac{1}{2} \int_{-\infty}^{\infty} x f_2(x) dx \\
&= \frac{1}{2} \mu_1 + \frac{1}{2} \mu_2 \\
&= \frac{\mu_1+\mu_2}{2}
\end{align}
$$

・分散$\tau^2 = V[X]$の導出
$$
\large
\begin{align}
(x-\xi)^2 &= \left( x-\frac{\mu_1+\mu_2}{2} \right)^2 \\
&= \left( (x-\mu_1) + \frac{\mu_1-\mu_2}{2} \right)^2 \\
&= (x-\mu_1)^2 + (x-\mu_1)(\mu_1-\mu_2) + \left( \frac{\mu_1-\mu_2}{2} \right)^2 \\
(x-\xi)^2 &= \left( x-\frac{\mu_1+\mu_2}{2} \right)^2 \\
&= \left( (x-\mu_2) + \frac{\mu_2-\mu_1}{2} \right)^2 \\
&= (x-\mu_2)^2 + (x-\mu_2)(\mu_2-\mu_1) + \left( \frac{\mu_1-\mu_2}{2} \right)^2
\end{align}
$$

上記が成立することを活用し、下記のように$\tau^2 = V[X]$を計算することができる。
$$
\large
\begin{align}
\tau^2 &= V[X] = \int_{-\infty}^{\infty} (x-\xi)^2 f(x) dx \\
&= \int_{-\infty}^{\infty} (x-\xi)^2 \cdot \frac{1}{2}(f_1(x)+f_2(x)) dx \\
&= \frac{1}{2} \int_{-\infty}^{\infty} (x-\xi)^2 f_1(x) dx + \frac{1}{2} \int_{-\infty}^{\infty} (x-\xi)^2 f_2(x) dx \quad (1)
\end{align}
$$

以下、$(1)$式の第1項と第2項をそれぞれ計算する。
・第1項
$$
\large
\begin{align}
\frac{1}{2} & \int_{-\infty}^{\infty} (x-\xi)^2 f_1(x) dx \\
&= \frac{1}{2} \int_{-\infty}^{\infty} \left( (x-\mu_1)^2 + (x-\mu_1)(\mu_1-\mu_2) + \left( \frac{\mu_1-\mu_2}{2} \right)^2 \right) f_1(x) dx \\
&= \frac{1}{2} \left( \int_{-\infty}^{\infty} (x-\mu_1)^2 f_1(x) dx + 0 + \left( \frac{\mu_1-\mu_2}{2} \right)^2 \int_{-\infty}^{\infty} f_1(x) dx \right) \\
&= \frac{1}{2} \left( \sigma^2 + \left( \frac{\mu_1-\mu_2}{2} \right)^2 \right) \quad (2)
\end{align}
$$

・第2項
$$
\large
\begin{align}
\frac{1}{2} & \int_{-\infty}^{\infty} (x-\xi)^2 f_2(x) dx \\
&= \frac{1}{2} \int_{-\infty}^{\infty} \left( (x-\mu_2)^2 + (x-\mu_2)(\mu_2-\mu_1) + \left( \frac{\mu_2-\mu_1}{2} \right)^2 \right) f_2(x) dx \\
&= \frac{1}{2} \left( \int_{-\infty}^{\infty} (x-\mu_2)^2 f_2(x) dx + 0 + \left( \frac{\mu_2-\mu_1}{2} \right)^2 \int_{-\infty}^{\infty} f_2(x) dx \right) \\
&= \frac{1}{2} \left( \sigma^2 + \left( \frac{\mu_2-\mu_1}{2} \right)^2 \right) \quad (3)
\end{align}
$$

$(2), (3)$式を$(1)$式に代入することで下記が得られる。
$$
\large
\begin{align}
\tau^2 &= V[X] = \frac{1}{2} \int_{-\infty}^{\infty} (x-\xi)^2 f_1(x) dx + \frac{1}{2} \int_{-\infty}^{\infty} (x-\xi)^2 f_2(x) dx \\
&= \frac{1}{2} \left( \sigma^2 + \left( \frac{\mu_1-\mu_2}{2} \right)^2 \right) + \frac{1}{2} \left( \sigma^2 + \left( \frac{\mu_2-\mu_1}{2} \right)^2 \right) \\
&= \sigma^2 + \left( \frac{\mu_1-\mu_2}{2} \right)^2
\end{align}
$$

・平均$\bar{x}$の計算
数学選択の学生の点数を$x_1,…,x_{50}$、数学非選択の学生の点数を$x_{51},…,x_{100}$のようにおく。このとき、それぞれの平均を$\bar{x}_1, \bar{x}_2$のように定義すると、全体の平均$\bar{x}$は下記のように計算できる。
$$
\large
\begin{align}
\bar{x} &= \frac{1}{100} \sum_{i=1}^{100} x_i \\
&= \frac{1}{100} \left( \sum_{i=1}^{50} x_i + \sum_{i=51}^{100} x_i \right) \\
&= \frac{1}{2} \left( \frac{1}{50} \sum_{i=1}^{50} x_i + \frac{1}{50} \sum_{i=51}^{100} x_i \right) \\
&= \frac{1}{2} (\bar{x}_1 + \bar{x}_2) \\
&= \frac{1}{2} (69.7 + 49.6) \\
&= 59.65
\end{align}
$$

・標準偏差$s$の計算
数学選択の学生の点数の標準偏差を$s_1^2$、非選択の学生の点数の標準偏差を$s_2^2$とおく。このとき、$s^2$に関して下記のように考えることができる。
$$
\large
\begin{align}
s^2 &= \frac{1}{100} \sum_{i=1}^{100} (x_i-\bar{x})^2 \\
&= \frac{1}{2} \times \frac{1}{50} \sum_{i=1}^{50} (x_i-\bar{x})^2 + \frac{1}{2} \times \sum_{i=51}^{100} (x_i-\bar{x})^2 \quad (4)
\end{align}
$$

以下、上記の第1項と第2項についてそれぞれ計算を行う。
・第1項
$$
\large
\begin{align}
\frac{1}{2} \times & \frac{1}{50} \sum_{i=1}^{50} (x_i-\bar{x})^2 = \frac{1}{2} \times \frac{1}{50} \sum_{i=1}^{50} ((x_i-\bar{x}_1)+(\bar{x}_1-\bar{x}))^2 \\
&= \frac{1}{2} \times \frac{1}{50} \sum_{i=1}^{50} ((x_i-\bar{x}_1)^2+(x_i-\bar{x}_1)(\bar{x}_1-\bar{x})+(\bar{x}_1-\bar{x})^2) \\
&= \frac{1}{2} (s_1^2 + (\bar{x}_1-\bar{x})^2) \quad (5)
\end{align}
$$

・第2項
$$
\large
\begin{align}
\frac{1}{2} \times & \frac{1}{50} \sum_{i=51}^{100} (x_i-\bar{x})^2 = \frac{1}{2} \times \frac{1}{50} \sum_{i=51}^{100} ((x_i-\bar{x}_2)+(\bar{x}_2-\bar{x}))^2 \\
&= \frac{1}{2} \times \frac{1}{50} \sum_{i=51}^{100} ((x_i-\bar{x}_2)^2+(x_i-\bar{x}_2)(\bar{x}_2-\bar{x})+(\bar{x}_2-\bar{x})^2) \\
&= \frac{1}{2} (s_2^2 + (\bar{x}_2-\bar{x})^2) \quad (6)
\end{align}
$$

$(4)$式に$(5), (6)$を代入することで、標準偏差の$s$は下記のように導出できる。
$$
\large
\begin{align}
s &= \sqrt{s^2} = \sqrt{\frac{1}{2} \times \frac{1}{50} \sum_{i=1}^{50} (x_i-\bar{x})^2 + \frac{1}{2} \times \frac{1}{50} \sum_{i=51}^{100} (x_i-\bar{x})^2} \\
&= \sqrt{\frac{1}{2}(s_1^2 + (\bar{x}_1-\bar{x})^2) + \frac{1}{2} (s_2^2 + (\bar{x}_2-\bar{x})^2)} \\
&= \sqrt{\frac{s_1^2+s_2^2}{2} + \frac{(\bar{x}_1-\bar{x})^2+(\bar{x}_2-\bar{x})^2}{2}} \\
&= \sqrt{\frac{6.8^2+7.8^2}{2} + \frac{(69.7-59.65)^2+(49.6-59.65)^2}{2}} \\
&= 12.431… \simeq 12.43
\end{align}
$$

[3]
・$1$次導関数$f'(x)$の導出
$1$次導関数$f'(x)$は下記のように導出することができる。
$$
\large
\begin{align}
f'(x) &= \frac{1}{2} \left( \frac{1}{\sqrt{2 \pi}\sigma} \exp \left[ -\frac{(x-\mu_1)^2}{2 \sigma^2} \right] \times -\frac{(x-\mu_1)}{\sigma^2} + \frac{1}{\sqrt{2 \pi}\sigma} \exp \left[ -\frac{(x-\mu_2)^2}{2 \sigma^2} \right] \times -\frac{(x-\mu_2)}{\sigma^2} \right) \\
&= \frac{1}{2} \cdot \frac{1}{\sqrt{2 \pi}\sigma} \left( – \frac{(x-\mu_1)}{\sigma^2} \exp \left[ -\frac{(x-\mu_1)^2}{2 \sigma^2} \right] – \frac{(x-\mu_2)}{\sigma^2} \exp \left[ -\frac{(x-\mu_2)^2}{2 \sigma^2} \right] \right)
\end{align}
$$

・$2$次導関数$f^{”}(x)$の導出
$2$次導関数$f^{”}(x)$は下記のように導出することができる。
$$
\large
\begin{align}
f^{”}(x) &= (f'(x))’ \\
&= \frac{1}{2} \cdot \frac{1}{\sqrt{2 \pi}\sigma} \left( – \frac{1}{\sigma^2} \exp \left[ -\frac{(x-\mu_1)^2}{2 \sigma^2} \right] + \left( \frac{(x-\mu_1)}{\sigma^2} \right)^2 \exp \left[ -\frac{(x-\mu_1)^2}{2 \sigma^2} \right] \right) \\
&+ \frac{1}{2} \cdot \frac{1}{\sqrt{2 \pi}\sigma} \left( – \frac{1}{\sigma^2} \exp \left[ -\frac{(x-\mu_2)^2}{2 \sigma^2} \right] + \left( \frac{(x-\mu_2)}{\sigma^2} \right)^2 \exp \left[ -\frac{(x-\mu_2)^2}{2 \sigma^2} \right] \right)
\end{align}
$$

・極値の議論
省略。

[4]
省略。

解説

[3]の極値に関しては$f'(\xi)=0$を示すだけでは必要条件にしかならないと思われるのですが、公式解答ではこの点の議論がないように思われました。[4]で$f^{”}(\xi)$を用いた議論が行われるので、ある程度厳密ではありますが、誘導の意図がわかりにくく試験問題の出題には不適だと思います。
「混合分布が単峰か多峰であるかの条件を答える」題材自体は良いと思うので、詳しく考察すると参考になると思います。
20点配分なら[1]が5点、[2]が5点、[3]が5点、[4]が5点ほどが妥当な印象でした。極値の厳密な議論はこの問題のように関数が複雑な際は難しいので、後半は部分点狙いでも良いように思われました。

統計検定1級 統計応用 問題解説 ~2018年11月実施 理工学 問4~

統計検定1級の2018年11月の「統計応用、理工学」の問4の解答例と解説について取り扱いました。他の問題の解答に関しては下記よりご確認ください。
https://www.hello-statisticians.com/stat_certifi_1_app

問題

詳しくは統計検定公式よりご確認ください。

解答

[1]
水準の設定の例は下記のように表せる。
・$4$つの要因に基づく$2^4$計画の$1/2$実施
$$
\large
\begin{array}{|c|*4{c|}}\hline ex & A & B & C & D \\
\hline 1 & 1 & 1 & 1 & 1 \\
\hline 2 & 1 & 1 & -1 & -1 \\
\hline 3 & -1 & -1 & 1 & 1 \\
\hline 4 & -1 & -1 & -1 & -1 \\
\hline 5 & 1 & -1 & 1 & -1 \\
\hline 6 & 1 & -1 & -1 & 1 \\
\hline 7 & -1 & 1 & 1 & -1 \\
\hline 8 & -1 & 1 & -1 & 1 \\
\hline
\end{array}
$$

・5つの要因に基づく$2^5$計画の$1/4$実施
$$
\large
\begin{array}{|c|*5{c|}}\hline ex & A & B & C & D & E \\
\hline 1 & 1 & 1 & 1 & 1 & 1 \\
\hline 2 & 1 & 1 & -1 & -1 & 1 \\
\hline 3 & -1 & -1 & 1 & 1 & 1 \\
\hline 4 & -1 & -1 & -1 & -1 & 1 \\
\hline 5 & 1 & -1 & 1 & -1 & -1 \\
\hline 6 & 1 & -1 & -1 & 1 & -1 \\
\hline 7 & -1 & 1 & 1 & -1 & -1 \\
\hline 8 & -1 & 1 & -1 & 1 & -1 \\
\hline
\end{array}
$$

表の作成にあたっては、任意の$2$つの因子を選んだ際に$(1,1),(1,-1),(-1,1),(-1,-1)$の組み合わせがそれぞれ$2$回ずつ出現するように作成を行うことで、一部実施要因計画を考える際のテンプレートとされる直交表の考え方に基づくことができる。

[2]
[1]の解答を元に考える場合の「要因Aの主効果」と「要因Aと要因Bの$2$因子交互作用」は下記のように求めることができる。
・要因Aの主効果
$$
\large
\begin{align}
\frac{1}{8}(y_1+y_2-y_3-y_4+y_5+y_6-y_7-y_8)
\end{align}
$$

・要因Aと要因Bの$2$因子交互作用
$$
\large
\begin{align}
\frac{1}{8}(y_1+y_2+y_3+y_4-y_5-y_6-y_7-y_8)
\end{align}
$$

[3]

[4]

[5]

解説