ブログ

統計検定2級問題解説 ~2021年6月実施~ (その2)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問13 解答

(推定量)

$\boxed{ \ \mathsf{17}\ }$ ①

Ⅰ.母集団の特徴づける定数のことを母数というが、母集団から測定された標本データをもとに、確率分布の(現実には測定できない)母数を推定した数量を推定量という。推定量は標本データの関数として表されるが、確率変数の関数は確率変数なので、推定量は確率変数となる。
Ⅱ.推定量$\hat\theta_n$(推定量の標本分布が標本数$n$によって変化するものとする)が母数$\theta$に確率収束している場合、$\hat\theta$を一致推定量という。
Ⅲ.推定量$\hat\theta$の期待値が常に母数$\theta$に等しくなる場合、$\hat\theta$を不偏推定量という。例えば母分散の推定量である標本分散は一致推定量であるが不偏推定量ではない。


問14 解答

(推定量の期待値、分散)

[1]

$\boxed{ \ \mathsf{18}\ }$ ⑤

$E[\hat\theta]=\theta$となる場合、$\hat\theta$は不偏推定量という。
$$\begin{align}
E[\hat\mu_1]&=E\left[\frac1n\sum_{i=1}^nX_i\right]=\frac1n\sum_{i=1}^nE[X_i]=\frac1n\times n\mu=\mu\\
E[\hat\mu_2]&=E\left[\frac12(X_1+X_2)\right]=\frac12(E[X_1]+E[X_2])=\frac12(\mu+\mu)=\mu\\
E[\hat\mu_3]&=E[X_1]=\mu\\
E[\hat\mu_4]&=E\left[\frac2{n(n+1)}\sum_{i=1}^niX_i\right]=\frac2{n(n+1)}\sum_{i=1}^niE[X_i]=\frac2{n(n+1)}\sum_{i=1}^ni\mu\\&=\frac2{n(n+1)}\times\frac{n(n+1)}{2}\times\mu=\mu
\end{align}$$

[2]

$\boxed{ \ \mathsf{19}\ }$ ①

$$\begin{align}
V[\hat\mu_1]&=V\left[\frac1n\sum_{i=1}^nX_i\right]=\frac1{n^2}\sum_{i=1}^nV[X_i]=\frac1{n^2}\times n\sigma^2=\frac1n\sigma^2\\
V[\hat\mu_2]&=V\left[\frac12(X_1+X_2)\right]=\frac14(V[X_1]+V[X_2])=\frac14(\sigma^2+\sigma^2)=\frac12\sigma^2\\
V[\hat\mu_3]&=V[X_1]=\sigma^2\\
V[\hat\mu_4]&=V\left[\frac2{n(n+1)}\sum_{i=1}^niX_i\right]=\frac4{n^2(n+1)^2}\sum_{i=1}^ni^2V[X_i]=\frac4{n^2(n+1)^2}\sum_{i=1}^ni^2\sigma^2\\&=\frac4{n^2(n+1)^2}\times\frac{n(n+1)(2n+1)}{6}\times\sigma^2=\frac{2(2n+1)}{3n(n+1)}\sigma^2
\end{align}$$
ここで、$n\gt3$なので、$\displaystyle \frac1n\lt\frac12\lt1$
また、$\displaystyle \frac1n=\frac{3(n+1)}{3n(n+1)}<\frac{2(2n+1)}{3n(n+1)}$となることから$V[\hat\mu_1]$が最小となる。


問15 解答

(正規母集団の区間推定とサンプルサイズ)

[1]

$\boxed{ \ \mathsf{20}\ }$ ④

正規母集団から抽出した標本の標本平均は$\bar{X}\sim N(\mu,\sigma^2/n)$なので,$\begin{align}\frac{\bar{X}-\mu}{\sqrt{\sigma^2/n}}\end{align}$は標準正規分布に従う。よって「標準正規分布の上側確率」の表から
$$P\left(|\bar{X}-\mu|\le1.96{\sqrt{\sigma^2/n}}\right)=0.95$$
したがって、真の$\mu$が含まれる確率が$95\%$となる区間($\mu$の$95\%$信頼区間)は以下の通りとなる。
$$\begin{align}
\bar{X}-1.96\frac{\sigma}{\sqrt{n}}\le&\mu\le\bar{X}+1.96\frac{\sigma}{\sqrt{n}}\\
5.25-1.96\times\frac{12}{\sqrt{100}}\le&\mu\le5.25+1.96\times\frac{12}{\sqrt{100}}\\
2.90\le&\mu\le7.60
\end{align}$$

[2]

$\boxed{ \ \mathsf{21}\ }$ ③

[1]から$\mu$の$95\%$信頼区間の幅は$\displaystyle\ 2\times1.96\frac{\sigma}{\sqrt{n}}$。これを$4$以下にしたいので、
$$2\times1.96\times\frac{12}{\sqrt{n}}\le4\ \Rightarrow\ n\ge\left(\frac{2\times1.96\times12}{4}\right)^2=138.3$$


問16 解答

(単回帰モデル、最小二乗法)

[1]

$\boxed{ \ \mathsf{22}\ }$ ①

最小二乗法は実際の値$y_i$と回帰式によって予測された値$\hat{y}_i$との差(残差)の二乗和を最小にするように回帰係数を求める手法である。残差の二乗和(残差平方和)は
$$S=\sum_{i=1}^n(y_i-\hat{y}_i)^2=\sum_{i=1}^n(y_i-\hat\beta x_i)^2=\sum_{i=1}^n(y_i^2-2\hat\beta x_iy_i+\hat\beta^2x_i^2)$$
$S$を最小とする$\hat\beta$を求めるために、$\hat\beta$で偏微分し$0$に等しいとすると、
$$\begin{eqnarray}
\frac{\partial S}{\partial\hat\beta}=\sum_{i=1}^n(-2x_iy_i+2\hat\beta x_i^2)=0\\
\hat\beta\sum_{i=1}^nx_i^2=\sum_{i=1}^nx_iy_i\\
\therefore\ \hat\beta=\frac{\sum_{i=1}^nx_iy_i}{\sum_{i=1}^nx_i^2}
\end{eqnarray}$$

[2]

$\boxed{ \ \mathsf{23}\ }$ ②

Ⅰ.[1]の結果から、一般的に
$$\hat\beta=\frac{\sum_{i=1}^nx_iy_i}{\sum_{i=1}^nx_i^2}\neq\frac{\sum_{i=1}^ny_i}{\sum_{i=1}^nx_i}$$
であるから、
$$\begin{eqnarray}
\hat\beta\sum_{i=1}^nx_i&\neq&\sum_{i=1}^ny_i\\
\sum_{i=1}^ny_i-\hat\beta\sum_{i=1}^nx_i&\neq&0\\
\sum_{i=1}^n\hat u_i&\neq&0
\end{eqnarray}$$
Ⅱ.[1]から
$$\begin{eqnarray}
\hat\beta\sum_{i=1}^nx_i^2=\sum_{i=1}^nx_iy_i\\
\sum_{i=1}^nx_i(y_i-\hat\beta x_i)=0\\
\sum_{i=1}^nx_i(y_i-\hat y_i)=0\\
\sum_{i=1}^nx_i\hat u_i=0
\end{eqnarray}$$
Ⅲ.[1]の結果から、一般的に
$$\hat\beta=\frac{\sum_{i=1}^nx_iy_i}{\sum_{i=1}^nx_i^2}\neq\frac{\sum_{i=1}^ny_i}{\sum_{i=1}^nx_i}$$
であるから、
$$\begin{eqnarray}
\frac1n\hat\beta\sum_{i=1}^nx_i&\neq&\frac1n\sum_{i=1}^ny_i\\
\frac1n\sum_{i=1}^n\hat\beta x_i&\neq&\bar{y}\\
\frac1n\sum_{i=1}^n\hat y_i&\neq&\bar{y}
\end{eqnarray}$$
Ⅳ.Ⅲ.と同じく
$$\begin{eqnarray}
\frac1n\hat\beta\sum_{i=1}^nx_i&\neq&\frac1n\sum_{i=1}^ny_i\\
\hat\beta\bar{x}&\neq&\bar{y}
\end{eqnarray}$$

※定数項を含む単回帰モデル$$y_i=\alpha+\beta x_i+u_i$$の場合、残差平方和は
$$S=\sum_{i=1}^n(y_i-\hat{y}_i)^2=\sum_{i=1}^n(y_i-\hat\alpha-\hat\beta x_i)^2$$
$S$を最小とする$\hat\beta$を求めるために、$\hat\alpha,\hat\beta$で偏微分し$0$に等しいとすると、
$$
\sum_{i=1}^n(y_i^2-2\hat\alpha y_i-2\hat\beta x_iy_i+\hat\alpha^2+2\hat\alpha\hat\beta x_i+\hat\beta^2 x_i^2)
$$
$$\begin{eqnarray}
\frac{\partial S}{\partial\hat\alpha}=\sum_{i=1}^n(-2y_i+2\hat\alpha+2\hat\beta x_i)&=&0\\
n\hat\alpha+\hat\beta\sum_{i=1}^nx_i&=&\sum_{i=1}^ny_i&\cdots(A)\\
\frac{\partial S}{\partial\hat\beta}=\sum_{i=1}^n(-2x_iy_i+2\hat\alpha x_i+2\hat\beta x_i^2)&=&0\\
\hat\alpha\sum_{i=1}^nx_i+\hat\beta\sum_{i=1}^nx_i^2&=&\sum_{i=1}^nx_iy_i&\cdots(B)
\end{eqnarray}$$
$(A)$から
$$\hat\alpha=\frac1n\sum_{i=1}^ny_i-\frac1n\hat\beta\sum_{i=1}^nx_i=\bar{y}-\hat\beta\bar{x}$$
$(B)$から
$$\begin{eqnarray}
(\bar{y}-\hat\beta\bar{x})n\bar{x}+\hat\beta\sum_{i=1}^nx_i^2=\sum_{i=1}^nx_iy_i\\
\hat\beta(\sum_{i=1}^nx_i^2-n\bar{x}^2)=\sum_{i=1}^nx_iy_i-n\bar{x}\bar{y}\\
\hat\beta=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2}\\
\end{eqnarray}$$
さらに、(A)から
$$\begin{eqnarray}
\sum_{i=1}^ny_i-n\hat\alpha-\hat\beta\sum_{i=1}^nx_i&=&0\\
\sum_{i=1}^n(y_i-\hat\alpha-\hat\beta x_i)&=&0\\
\sum_{i=1}^n(y_i-\hat y_i)&=&0\\
\sum_{i=1}^n\hat u_i&=&0
\end{eqnarray}$$
また
$$\begin{eqnarray}
\bar y=\frac1n\sum_{i=1}^ny_i=\frac1n\sum_{i=1}^n(\hat\alpha+\hat\beta x_i)=\frac1n\sum_{i=1}^n\hat y\\
\bar y=\frac1n\sum_{i=1}^ny_i=\hat\alpha+\frac1n\hat\beta\sum_{i=1}^n x_i=\hat\alpha+\hat\beta\bar x
\end{eqnarray}$$
$(B)$から
$$\begin{eqnarray}
\sum_{i=1}^nx_iy_i-\hat\alpha\sum_{i=1}^nx_i-\hat\beta\sum_{i=1}^nx_i^2&=&0\\
\sum_{i=1}^nx_i(y_i-\hat\alpha-\hat\beta x_i)&=&0\\
\sum_{i=1}^nx_i(y_i-\hat y_i)&=&0\\
\sum_{i=1}^nx_i\hat u_i&=&0
\end{eqnarray}$$
[2]のⅠ.Ⅲ.Ⅳ.に相当する関係はいずれも$(A)$の式から導き出されるもので、定数項を含まないモデルでは$(A)$に相当する条件がなく、Ⅰ.Ⅲ.Ⅳ.の関係は成り立たない。


問17 解答

(母比率の区間推定)

[1]

$\boxed{ \ \mathsf{24}\ }$ ②

成功確率$p$の試行を$n$回行うときに成功する回数$X$は二項分布$B(n,p)$に従う。
  $\therefore\ \ E(X)=np,\ V(X)=np(1-p)$
このとき,$n$がある程度大きいときは,中心極限定理によって,$B(n,p)$は正規分布$N(np,np(1-p))$に近似できる。よって,$X$を標準化すると標準正規分布$N(0,1)$に従う。$$Z=\frac{X-np}{\sqrt{np(1-p)}}=\frac{X/n-p}{\sqrt{\frac{p(1-p)}n}}\sim N(0,1)$$ここで,標本平均 $\hat p=x/n$は$p$の一致推定量なので,$n$が十分大きいとき$p$は$\hat p$に置き換えられる。
したがって,母比率の$100(1-\alpha)\%$信頼区間は,標準正規分布の上側 $100\alpha/2\%$ 点を $z_{\alpha/2}$とすると,$$P\left(\hat p-z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}\le p\le\hat p+z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}\right)=1-\alpha$$
$500$ 回画びょうを投げて $284$ 回表が出たので,比率の推定値は $\hat p=284/500=0.568$
これから,表が出る確率の$95\%$信頼区間は,$n=500$,$\hat p=0.568$,$\alpha=0.05$として$$\begin{align}\hat p\pm z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}n}=&0.568\pm1.96\times\sqrt{\frac{0.568\times(1-0.568)}{500}}\\=&0.568\pm0.043\\=&[0.525,0.611]\end{align}$$

[2]

$\boxed{ \ \mathsf{25}\ }$ ①

・確率 $p=1/2$ の試行を $n=8$ 回行って成功する回数の分布なので,二項分布 $B(n,p)=B(8,1/2)$ に従う。$$\begin{align}P(X=4)=&{}_8\mathrm{C}_4\times(1/2)^4\times(1-1/2)^{8-4}\\=&\frac{8\times7\times6\times5}{4\times3\times2\times1}\times(1/2)^4\times(1/2)^4=0.273\end{align}$$
・帰無仮説$H_0:p=1/2$、対立仮説$H_1:p\gt1/2$として、$X\ge c_1$のとき$H_0$を棄却する検定は、片側検定となるので、$X=7$のときの$P_-$値は
$$P(X\ge7|H_0)=P(X=7)+P(X=8)=0.031+0.004=0.035$$
・帰無仮説$H_0:p=1/2$、対立仮説$H_1:p\neq1/2$として、$|X-4|\ge c_2$のとき$H_0$を棄却する検定は、両側検定となり確率分布が対称であるので、実現値が$X=7$のときの$P_-$値は
$$\begin{align}P(|X-4|\ge3|H_0)=&P(X=0)+P(X=1)+P(X=7)+P(X=8)\\=&0.004+0.0031+0.031+0.004=0.070\end{align}$$


問18 解答

(母平均の差の検定(分散未知であるが等分散))

$\boxed{ \ \mathsf{26}\ }$ ②

(ア)正規母集団$N(\mu_1,\sigma^2)$から抽出した標本平均$\bar{X}=\frac1m\sum_{i=1}^mX_i$は$N(\mu_1,\sigma^2/m)$に従い、正規母集団$N(\mu_2,\sigma^2)$から抽出した標本平均$\bar{Y}=\frac1n\sum_{i=1}^nY_i$は$N(\mu_2,\sigma^2/n)$に従う。
したがって、正規分布の再生性から、標本平均の差$\bar{X}-\bar{Y}$は$N(\mu_1-\mu_2,\sigma^2/m+\sigma^2/n)$に従う。その結果、$\bar{X}-\bar{Y}$を標準化して$$A=\frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2}{m}+\frac{\sigma^2}{n}}}\sim N(0,1)$$となる。
(イ)群$1,2$について$$\begin{eqnarray}
\sum_{i=1}^m\frac{(X_i-\bar{X})^2}{\sigma^2}=\frac{(m-1)U_X^2}{\sigma^2}\sim \chi^2(m-1)\\
\sum_{i=1}^n\frac{(Y_i-\bar{Y})^2}{\sigma^2}=\frac{(n-1)U_Y^2}{\sigma^2}\sim \chi^2(n-1)
\end{eqnarray}$$したがって、$\chi^2$分布の再生性から、$$B=\frac{(m-1)U_X^2+(n-1)U_Y^2}{\sigma^2}\sim \chi^2(m+n-2)$$となる。
(ウ)独立な$2$つの確率変数$Z\sim N(0,1)$と$W\sim\chi^2(m)$があるとき、$$\frac{Z}{\sqrt{W/m}}$$は自由度$m$の$t$分布に従う。よって、(ア)と(イ)から$$T=\frac{A}{\sqrt{\frac{B}{m+n-2}}}$$は自由度$m+n-2$の$t$分布に従う。


問19 解答

(独立性の検定)

独立性の検定は,2つの属性$A,B$が独立かどうかの検定。
属性$A$のカテゴリが$A_i$,属性$B$のカテゴリが$B_j$の観測度数を$f_{ij}=O_{ij}$とし,
 $f_{i\cdot}=\sum_jf{ij}$を$i$行の度数合計(行和),
 $f_{\cdot j}=\sum_if{ij}$を$j$列の度数合計(列和),
 $f_{\cdot\cdot}=\sum_i\sum_jf_{ij}=\sum_if_{i\cdot}=\sum_jf_{\cdot j}=n$を全度数合計という。
属性$A,B$が独立という帰無仮説は,$H_0:P(A\cap B)=P(A)P(B)$が成り立つことである。
ここで,カテゴリ$A_i,B_j$の出現確率はそれぞれ$f_{i\cdot}/n,f_{\cdot j}/n$であるので,$H_0$のもとで,属性$A$のカテゴリが$A_i$,属性$B$のカテゴリが$B_j$の期待度数は$$E_{ij}=n(f_{i\cdot}/n)(f_{\cdot j}/n)=f_{i\cdot}f_{\cdot j}/n$$となる。
帰無仮説$H_0$の下で,次検定の統計量$\chi^2$は度数が大きいときに近似的に$\chi^2$分布に従う。行和と列和が固定されていることから自由度は$(r$(行の数)$-1)\times(c$(列の数)$-1)$となる。$$\chi^2=\sum_{i=1}^r\sum_{j=1}^c\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\sim\chi^2((r-1)(c-1))$$有意水準$100\alpha\%$で帰無仮説が棄却されるには,$\chi^2$分布の上側$\alpha$点より上で求めた$\chi^2$統計量が大きくなればよい。

$\boxed{ \ \mathsf{27}\ }$ ③

期待度数は
 喫煙歴あり・心筋梗塞あり $10\times15/20=7.5$
 喫煙歴あり・心筋梗塞なし $10\times15/20=7.5$
 喫煙歴なし・心筋梗塞あり $10\times5/20=2.5$
 喫煙歴なし・心筋梗塞なし $10\times5/20=2.5$
よって、$\chi^2$統計量の実現値は
$$\chi^2=\frac{(9-7.5)^2}{7.5}+\frac{(6-7.5)^2}{7.5}+\frac{(1-2.5)^2}{2.5}+\frac{(4-2.5)^2}{2.5}=2.40$$
$\chi^2$統計量は帰無仮説の下で近似的に自由度$(2-1)\times(2-1)=1$の$\chi^2$分布に従う。
ここで、確率変数$W$が自由度$1$の$\chi^2$分布に従うとき、標準正規分布に従う確率変数$Z$を用いて$W=Z^2$と表わされる。したがって$P_-$値は「正規標準分布の上側確率」の表を用いて、
$$P(W\gt2.40)=P(|Z|\gt\sqrt{2.40})=P(|Z|\gt1.55)=2\times0.0606=0.1212$$


問20 解答

(第一種の過誤)

真実
帰無仮説が正しい対立仮説が正しい
検定の結果帰無仮説を棄却しない
(対立仮説が正しいとは言えない)
正しい第二種の過誤(β)
帰無仮説を棄却する
(対立仮説が正しい)
第一種の過誤(α)
有意水準
正しい
検出力(1-β)

[1]

$\boxed{ \ \mathsf{28}\ }$ ③

$X_j\sim N(\mu_j,1),\ X_k\sim N(\mu_k,1)$ であるから、$X_j-X_k\sim N(\mu_j-\mu_k,2)$
よって、帰無仮説$H_0:\mu_j=\mu_k$の下で$$Z=\frac{X_j-X_k-(\mu_j-\mu_k)}{\sqrt{2}}=\frac{X_j-X_k}{\sqrt{2}}\sim N(0,1)$$が成り立つ。したがって、第1種過誤の確率$\alpha_{12}(1.96\sqrt{2})$の値は$$\alpha_{12}(1.96\sqrt{2})=P(|X_j-X_k|\gt1.96\sqrt{2})=P(|Z|\gt1.96)=2\times0.025=0.050$$

[2]

$\boxed{ \ \mathsf{29}\ }$ ④

$\alpha_{12}(z)$が$(5/3)\%$となるような$z$を定める。
$$\begin{eqnarray}\alpha_{12}(z)=P(|X_j-X_k|\gt z)=P(|Z|\gt z/\sqrt{2})&=&0.05/3\\P(Z\gt z/\sqrt{2})&=&0.05/6=0.0083\end{eqnarray}$$
「正規標準分布の上側確率」の表から、
$P(Z>2.39)=0.0084,\ P(Z>2.40)=0.0082$
$\therefore\ z/\sqrt{2}=2.395\ \Rightarrow\ z=2.395\times\sqrt{2}=3.387$


問21 解答

(一元配置分散分析)

[1]

$\boxed{ \ \mathsf{30}\ }$ ③

対象とするパソコン、調査する対策、計測の順序をランダムに決めているので③が最も適切である。
(①②はパソコンの購入時期の影響を受ける。④⑤は固有のパソコンの性能と対策の順番の影響を受ける。)

[2]

$\boxed{ \ \mathsf{31}\ }$ ②

対策の平方和(水準間平方和)の自由度は対策(水準)の数$-1$なので、$3-1=2$。
誤差の平方和の自由度は総データ数$-$水準の数なので、$12-3=9$。

[3]

$\boxed{ \ \mathsf{32}\ }$ ⑤

水準数$a$、総観測値数$n$の一元配置分散分析において、水準$j$の標本平均及び観測値数を$y_{j\cdot}, n_j$、残差平方和を$S_e$、残差の自由度を$\phi_e$、残差の平均平方を$V_e$とする。
水準$j$の母平均の$100(1-\alpha)\%$信頼区間は$t_{0.05/2}(12-3)=t_{0.025}(9)=2.262$
$$y_{j\cdot}\pm t_{\alpha/2}(\phi_e)\sqrt{\frac{V_e}{n_j}}=y_{j\cdot}\pm t_{\alpha/2}(n-a)\sqrt{\frac{S_e}{(n-a)n_j}}$$
対策$3$の効果の点推定値が$-49.9$なのでこの効果の$95\%$信頼区間
$$\mu-49.9\pm 2.262\times\sqrt{\frac{1890.1}{(12-3)\times4}}=\mu-49.9\pm16.39$$
効果の信頼区間は$[-66.29,-33.51]$となる。


問22 解答

(重回帰モデル,統計ソフトウェアの活用)

※重回帰モデルの統計ソフトウェアによる出力結果の主な項目
$\mathtt{Estimate}$:回帰係数の推定値
$\mathtt{Std.Error}$:回帰係数の推定値の標準誤差
$\mathtt{t\ value}$:$t$値,$\mathtt{Pr(\gt|t|)}$:$P_-$値・・・回帰係数の検定で使う
$\mathtt{Rasidual\ standard\ error}$:誤差項の標準偏差の推定値
$\mathtt{degrees\ of\ freedom}$:自由度
$\mathtt{Multiple\ R-squared}$:決定係数($R^2$)
$\mathtt{Adjusted\ R-squared}$:自由度調整済み決定係数($R^{*2}$)
$\mathtt{F-statistic}$:$F$検定統計量,$\mathtt{p-value}$:$P_-$値・・・回帰の有意性の検定で使う

[1]

$\boxed{ \ \mathsf{33}\ }$ ⑤

$\mathtt{t\ value}$はある説明変数$x_j$は被説明変数$y$の予測に役立たない$iff\ H_0:\beta_j=0$($beta_j$は説明変数$x_j$の回帰係数)とする帰無仮説のもとで、$\hat\beta_j$に基づく$t$統計量の実現値である。回帰係数の推定値の標準誤差を$se(\hat\beta_j)$とすると、$t$統計量の実現値は、$$t=\hat\beta_j/se(\hat\beta_j)\sim t(n-p-1)$$である($n-p-1$は残差の自由度)。
したがって、(ア)の値は$-9.614/3.575=-2.689$

[2]

$\boxed{ \ \mathsf{34}\ }$ ②

① $P_-$値が最も小さい説明変数は$\log($人口密度$)$である。誤り。
② 政令指定都市ダミーの回帰係数が$-0.198$であるので、政令指定都市であれば$1$人あたり社会体育施設数は$e^-0.198=0.82$倍($2$割減)となる。正しい。
③ $15$歳未満人口の割合の$P_-$値は$0.333\ge10\%$なので、帰無仮説は棄却できない。誤り。
④ $log(1$人当たり所得$)$の回帰係数が正なので、$1$人当たり所得が低ければ、$1$人あたり社会体育施設数は少なくなる傾向にある。誤り。
⑤ 統計的に優位性が確認されたとしても、それは説明変数と被説明変数の間に相関関係が見られるということであって、説明変数の被説明変数への因果関係が存在するとは必ずしも言えない。誤り。

[3]

$\boxed{ \ \mathsf{35}\ }$ ④

Ⅰ. $log(1$人当たり所得$)$は、モデルAの結果において有意水準$5\%$で有意でない($P_-$値$\gt0.05$)。誤り。
Ⅱ. 2つのモデルの自由度調整済み決定係数($\mathtt{Adjusted\ R-squared}$)の値を比較すると、モデルBのほうが値が高いので、モデルBのほうがより良いモデルである。正しい。
Ⅲ. 2つのモデルの$F$検定の$P_-$値を見ると、それぞれ$4.494\times10^{-16}, 2.2\times10^{-16}$未満であり、極めて小さい値であることから、説明変数にかかるすべての係数がゼロであるという帰無仮説は棄却される。正しい。


統計検定2級問題解説 ~2021年6月実施~ (その1)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問1 解答

(歪度)

$\boxed{ \ \mathsf{1}\ }$ ①

歪度は,右に裾が長い分布では正の値になり,左に裾が長い分布では負の値になる。
問題のグラフは全体的に右に裾の長い分布となっている。


問2 解答

(年次変化率,幾何平均)

$\boxed{ \ \mathsf{2}\ }$ ②

時点(年,月など) $t$の観測値を$y_t$としたとき,
年次変化率 $(y_{t+1}-y_t)/y_t$ または $y_{t+1}/y_t-1$
$t$年$(1950\le{t}\le1954)$の観測値を$y_t$,年次変化率を$r$としたとき,変化率の平均は幾何平均となるので、
$$
\begin{align} 
r&=(y_{1951}/y_{1950}\times y_{1952}/y_{1951}\times y_{1953}/y_{1952}\times y_{1954}/y_{1953})^{1/4}-1\\
&=(y_{1954}/y_{1950})^{1/4}-1\fallingdotseq 0.154=15.4\%
\end{align}
$$
上式から明らかなことは,各年の変化率の幾何平均は
最初年の値を$y_0$,最後年の値を$y_t$,期間を$t$とすると $\left({y_t}/{y_0}\right)^{1/t}$ で求められる。


問3 解答

(価格指数)

$\boxed{ \ \mathsf{3}\ }$ ②

主な物価指数(デフレータ
・ラスパイレス物価指数…基準年の購入量や取引量等を重みとして算出した価格指数。
品目$i$の基準年価格$=p_{oi}$,基準年数量$=q_{oi}$,比較年価格$=p_{ti}$として$$P_L=\frac{\sum_ip_{ti}q_{0i}}{\sum_ip_{0i}q_{0i}}$$
・パーシェ物価指数…比較年の購入量や取引量等を重みとして算出した価格指数。
品目$i$の基準年価格$=p_{oi}$,比較年数量$=q_{ti}$,比較年価格$=p_{ti}$として$$P_P=\frac{\sum_ip_{ti}q_{ti}}{\sum_ip_{0i}q_{ti}}$$
・フィッシャー物価指数…ラスパイレス指数とパーシェ指数の幾何平均で求められる価格指数。$$P_F=\sqrt{P_L\times P_P}$$

問題は比較年のパーシェ指数を求めるので(基準年を$100$とする)、$$P_P=\frac{80\times80+90\times70}{78\times80+84\times70}\times100=104.8$$


問4 解答

(時系列データの指数化)

[1]

$\boxed{ \ \mathsf{4}\ }$ ③

東京都の$2019$年の新聞発行部数の指数はグラフから$57$
したがって、$1990$年から$2019$年にかけての新聞発行部数は、$1990$年を$100$として$100-57=43$減少したことになる。よって、減少部数は
 $5,190$万部$\times 13\%\times 43/100\fallingdotseq 290$万部

[2]

$\boxed{ \ \mathsf{5}\ }$ ①

問題にある前年比増加率の定義から、前年から減少している場合、増加率は負の値となる。
発行部数指数のグラフを見ると、$2005$年以降は東京都、鳥取県ともに毎年減少している。このことから、前年比増加率のグラフも$2005$年以降は両都県ともに負の値となっている必要がある。これを満たすグラフは①のみである。
(②は鳥取県の$2013$年、④は東京都の$2008$年、⑤は東京都の$2006$年でそれぞれ正の値をとっている。)


問5 解答

(散布図,相関係数,共分散)

[1]

$\boxed{ \ \mathsf{6}\ }$ ⑤

Ⅰ.散布図から、飛型点のとりうる範囲に比べ、飛距離点の取りうる範囲のほうが大きいく、ばらつきが大きいので、飛距離点のほうが分散が大きくなる。正しい。
Ⅱ.2つの散布図を比較すると、飛距離点と飛型点の散布図のほうがプロットされた点が直線状に分布しているので相関が強く、相関係数も高くなる。正しい。
Ⅲ.飛距離点と飛型点の散布図に回帰直線をあてはめると、明らかに$y$切片は正の値をとる。正しい。

[2]

$\boxed{ \ \mathsf{7}\ }$ ④

飛距離点の定義から、飛距離$x$は飛距離点$y$の$1/2$に比例する($x=y/2+68$)。
このとき、飛距離の分散は飛距離点の分散の$1/4$,標準偏差は$1/2$になる。
共分散は,2つのデータの平均からの偏差の積の和なので,片方のデータの平均からの偏差が$1/2$倍となれば,$1/2$倍となる。
相関係数は、共分散をそれぞれの標準偏差で割ったものだから、飛距離と飛型点の相関係数は飛距離点と飛型点の相関係数と等しくなる。


問6 解答

(相関係数,共分散)

$\boxed{ \ \mathsf{8}\ }$ ③

共分散$$\begin{align}s_{xy}&=\frac1{10}\sum_{i=1}^{10}(x_i-\bar{x})(y_i-\bar{y})\\&=\frac1{10}\sum_{i=1}^{10}x_iy_i-\frac1{10}\sum_{i=1}^{10}x_i\bar{y}-\frac1{10}\sum_{i=1}^{10}\bar{x}y_i+\frac1{10}\sum_{i=1}^{10}\bar{x}\bar{y}\\&=\frac1{10}\sum_{i=1}^{10}x_iy_i-\bar{x}\bar{y}\\&=\frac1{10}\sum_{i=1}^{10}x_iy_i-\frac1{10}\sum_{i=1}^{10}x_i\times\frac1{10}\sum_{i=1}^{10}y_i\\&= \frac1{10} \times4548.7-\frac1{10}\times346.3\times\frac1{10}\times121.8=33.08\end{align}$$
標準偏差$$\sigma_x=\sqrt{\frac{10-1}{10}s_x^2}=\sqrt{\frac{9}{10}\times167.4}=12.27$$$$\sigma_y=\sqrt{\frac{10-1}{10}s_y^2}=\sqrt{\frac{9}{10}\times11.6}=3.23$$
よって、相関係数は$$r=\frac{s_{xy}}{\sigma_x\sigma_y}=\frac{33.08}{12.27\times3.23}=0.83$$


問7 解答

(標本抽出法)

$\boxed{ \ \mathsf{9}\ }$ ④

多段抽出法・・・母集団をいくつかのグループ(第1段抽出単位)に分け,そこから無作為抽出でいくつかグループを選び,さらにその中から無作為抽出でいくつかのグループ(第2段抽出単位)を選び・・を何段か繰り返してそこから標本を無作為に抽出する。
層化抽出法・・・母集団をあらかじめいくつかの層(グループ)に分けておき、各層の中から必要な数の調査対象を無作為に抽出する方法。
集落(クラスター)抽出法・・・母集団を小集団であるクラスター(集落)に分け,その中からいくつかのクラスターを無作為に抽出し,それぞれのクラスターにおいて全数調査を行う。


問8 解答

(同時確率関数と相関係数)

$\boxed{ \ \mathsf{10}\ }$ ⑤

まず、$X, Y$の周辺分布を求める。
$\begin{align}
P(X=-1)=P(X=1)&=0+1/4+0=1/4\\
P(X=0)&=1/4+0+1/4=1/2\\
P(Y=-1)=P(Y=1)&=0+1/4+0=1/4\\
P(Y=0)&=1/4+0+1/4=1/2
\end{align}$
これらから$X^2,Y^2$の期待値$E[X^2],E[Y^2]$、分散$V[X^2],V[Y^2]$及び$X^2$と$Y^2$の共分散$Cov(X^2,Y^2)$、相関係数$r$を求める。
$$\begin{align}
E[X^2]&= (-1)^2\times P(X=-1)+0^2\times P(X=0)+1^2\times P(X=1)\\
&=1/4+0+1/4=1/2=\mu_{X^2}\\
E[Y^2]&= (-1)^2\times P(Y=-1)+0^2\times P(Y=0)+1^2\times P(Y=1)\\
&=1/4+0+1/4=1/2=\mu_{Y^2}\\
V[X^2]&=E[(X^2-\mu_{X^2})^2]\\
&=\{(-1)^2-1/2\}^2\times P(X=-1)+(0^2-1/2)^2\times P(X=0)+(1^2-1/2)^2\times P(X=1)\\
&=1/16+1/8+1/16=1/4\\
V[Y^2]&=E[(Y^2-\mu_{Y^2})^2]\\
&={(-1)^2-1/2}^2\times P(Y=-1)+(0^2-1/2)^2\times P(Y=0)+(1^2-1/2)^2\times P(Y=1)\\
&=1/16+1/8+1/16=1/4\\
Cov[X^2,Y^2]&=E[(X^2-\mu_{X^2})(Y^2-\mu_{Y^2})\\
&={(-1)^2-1/2}\times{(-1)^2-1/2}\times P(X=-1,Y=-1)\\
&+{(-1)^2-1/2}\times(0^2-1/2)\times P(X=-1,Y=0)\\
&+{(-1)^2-1/2}\times(1^2-1/2)\times P(X=-1,Y=1)\\
&+(0^2-1/2)\times{(-1)^2-1/2}\times P(X=0,Y=-1)\\
&+(0^2-1/2)\times(0^2-1/2)\times P(X=0,Y=0)\\
&+(0^2-1/2)\times(1^2-1/2)\times P(X=0,Y=1)\\
&+(1^2-1/2)\times{(-1)^2-1/2}\times P(X=1,Y=-1)\\
&+(1^2-1/2)\times(0^2-1/2)\times P(X=1,Y=0)\\
&+(1^2-1/2)\times(1^2-1/2)\times P(X=1,Y=1)\\
&=0-1/16+0-1/16+0-1/16+0-1/16+0=-1/4\\
\therefore r&=\frac{Cov[X^2,Y^2]}{\sqrt{V[X^2]V[Y^2]}}=\frac{-1/4}{\sqrt{1/4\times1/4}}=-1
\end{align}$$
また
$P(X^2=0,Y^2=0)=P(X=0,Y=0)=0$
$P(X^2=0)=P(X=0)=1/2, P(Y^2=0)=P(Y=0)=1/2$
であることから
$P(X^2=0,Y^2=0)\neq P(X^2=0)P(Y^2=0)$
となり、$P(X^2\cap Y^2)=P(X^2)P(Y^2)$が成り立たないため、$X^2$と$Y^2$は互いに独立ではない。


問9 解答

(非復元抽出の確率)

$\boxed{ \ \mathsf{11}\ }$ ⑤

無作為に集められた$25$人の中に同じ誕生日の人が存在する確率を求めるためには、同じ誕生日の人が全くいない確率を求めて$1$から引けばよい。
同じ誕生日がないということなので、$365$日から重複を許さずに$25$日を抽出する確率を求める。
$$\underbrace{\frac{365}{365}\times\frac{364}{365}\times\frac{363}{365}\times\cdots\times\frac{341}{365}}_{25}=\frac1{365^{25}}\times\frac{365!}{340!}$$
よって、同じ誕生日の人が存在する確率は
$$1-\frac{365!}{365^{25}\times340!}$$


問10 解答

(正規分布、標準正規分布)

$\boxed{ \ \mathsf{12}\ }$ ④

確率変数$X$が正規分布$N(60,9^2)$に従うとき、$$Z=\frac{X-60}{9}$$は標準正規分布$N(0,1)$に従う。そこで、
$$P(X\le c)=0.011\iff P(Z\le \frac{c-60}{9})=0.011$$
「標準正規分布の上側確率」の表から$P(X\ge2.29)=0.011$なので、$P(X\le-2.29)=0.011$、$$\begin{align}\therefore \frac{c-60}{9}&=-2.29\\c&=39.39\end{align}$$


問11 解答

(連続型確率変数)

[1]

$\boxed{ \ \mathsf{13}\ }$ ①

$P(X\gt 1)=1-P(X\le 1)=1-F(1)=1-1=0$

[2]

$\boxed{ \ \mathsf{14}\ }$ ③

確率密度関数$f(x)$は累積分布関数$F(x)$を微分して求める。
$$\begin{eqnarray}
f(x)=\frac{d}{dx}F(x)=
\begin{cases}
1&(0\ge x\lt 1)\\
0&(x\lt 0,\ 1\ge x)
\end{cases}
\end{eqnarray}$$
期待値$E(X)$は、
$$E(X)=\int_{-\infty}^\infty xf(x)dx=\int_0^1 x\cdot1dx=\left[\frac{1}{2}x^2\right]_0^1=\frac{1}{2}$$


問12 解答

(幾何分布、チェビシェフの不等式)

[1]

$\boxed{ \ \mathsf{15}\ }$ ③

幾何分布$P(X=x)=p(1-p)^{x-1}$の期待値(平均)は$1/p$
$$\therefore\ P(X)=\frac13\left(\frac23\right)^{n-1}\ \Rightarrow\ E(X)=\frac1{1/3}=3$$

※成功か失敗しかない試行をベルヌーイ試行という。成功確率は $p$。
このベルヌーイ試行を独立に何回も行うとき,初めて成功するまでに“試行”した回数を $X$ とすると,$X$ の確率関数は$$P(X=x)=p(1-p)^{x-1}$$となり,この確率分布をパラメータ $p$ の幾何分布という。(本によっては,初めて成功するまでに“失敗”した回数を $X$ とする定義の仕方もある。)
ここで,等比級数の和$$\displaystyle \sum_{x=0}^\infty a^x=\frac1{1-a}\ \ \ (|a|<1)$$の両辺を $a$ で微分すると$$\displaystyle \sum_{x=0}^\infty xa^{x-1}=\frac1{(1-a)^2}$$さらに,この式の両辺を $a$ で微分すると,$$\displaystyle \sum_{x=0}^\infty x(x-1)a^{x-2}=\frac2{(1-a)^3}$$となる。これを利用して,幾何分布の期待値と分散を求める。$$\begin{align}E[X]=&\sum_{x=0}^\infty xp(1-p)^{x-1}=p\sum_{x=0}^\infty x(1-p)^{x-1}\\=&\frac{p}{\{1-(1-p)\}^2}=\frac1p\\V[X]=&E[X(X-1)]+E[X]-E[X]^2\\=&\sum_{x=0}^\infty x(x-1)p(1-p)^{x-1}+\frac1p-\frac1{p^2}\\=&p(1-p)\sum_{x=0}^\infty x(x-1)(1-p)^{x-2}+\frac1p-\frac1{p^2}\\=&\frac{2p(1-p)}{\{1-(1-p)\}^3}+\frac1p-\frac1{p^2}\\=&\frac{2-2p}{p^2}+\frac{p}{p^2}-\frac1{p^2}=\frac{1-p}{p^2}\\\end{align}$$

[2]

$\boxed{ \ \mathsf{16}\ }$ ④

期待値$E[X]$、分散$V[X]$を持つ確率分布に従う確率変数$X$について、任意の$\epsilon\gt 0$に対して、チェビシェフの不等式$$P(|X-E[X]|\ge\epsilon)\le V[X]/\epsilon^2$$が成り立つ。
また、母平均$\mu=3$、母分散$\sigma^2=6$の母集団から抽出した標本$X_1,\cdots,X_n$の標本平均$\displaystyle\bar{X}=\frac1n\sum_{i=1}^nX_i$の期待値と分散は
$$\begin{eqnarray}E[\bar{X}]=E\left[\frac1n\sum_{i=1}^nX_i\right]=\frac1n\sum_{i=1}^nE[X_i]=\frac{n\mu}n=\mu=3\\V[\bar{X}]=V\left[\frac1n\sum_{i=1}^nX_i\right]=\frac1{n^2}\sum_{i=1}^nV[X_i]=\frac{n\sigma^2}{n^2}=\frac{\sigma^2}{n}=\frac{6}{n}\end{eqnarray}$$
これをチェビシェフの不等式に当てはめると
$$P(|X-3|\ge\epsilon)\le\frac{6/n}{\epsilon^2}$$

Ch.7 「推定論」の章末問題の解答例 〜現代数理統計学(学術図書出版社)〜

当記事は「現代数理統計学(学術図書出版社)」の読解サポートにあたってChapter.7の「推定論」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は購入の上ご確認ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。(そのため著者の意図とは異なる解説となる可能性はあります)

↓下記が公式の解答なので、正確にはこちらを参照ください。
https://www.gakujutsu.co.jp/text/isbn978-4-7806-0860-1/

章末の演習問題について

問題7.1の解答例

(2.77)式より、ガンマ分布$Ga(\nu, \alpha)$の期待値$E[X]$と分散$V[X]$は下記のように与えられる。
$$
\large
\begin{align}
E[X] &= \nu \alpha \\
V[X] &= \nu \alpha^2
\end{align}
$$
詳しくは下記で示した。
https://www.hello-statisticians.com/explain-terms-cat/gamma_distribution1.html#i-4

また、問4.1で示したように、自由度$k$の$\chi^2$分布$\chi^2(k)$はガンマ分布$Ga(k/2, 2)$に一致する。よって、$\chi^2(k)$の分散$V[X]$は下記のように計算できる。
$$
\large
\begin{align}
V[X] &= \nu \alpha^2 \\
&= \frac{k}{2} \cdot 2^2 \\
&= 2k
\end{align}
$$

ここで、$\displaystyle \frac{(n-1)s^2}{\sigma^2}$は自由度$n-1$の$\chi^2$分布$\chi^2(n-1)$に従うため、分散$V[s^2]$は下記のように示すことができる。
$$
\large
\begin{align}
V \left[ \frac{(n-1)s^2}{\sigma^2} \right] &= 2(n-1) \\
\left( \frac{n-1}{\sigma^2} \right)^2 V[s^2] &= 2(n-1) \\
V[s^2] &= 2(n-1) \left( \frac{\sigma^2}{n-1} \right)^2 \\
&= 2(n-1) \frac{\sigma^4}{(n-1)^2} \\
&= \frac{2 \sigma^4}{n-1}
\end{align}
$$

問題7.2の解答例

$$
\large
\begin{align}
f(x) &= \frac{\lambda^{x} e^{-\lambda}}{x!} \\
l(\lambda) &= \log{f(x)} \\
&= x \log{\lambda} – \lambda – \log{x!}
\end{align}
$$

ここでポアソン分布の確率関数$f(x)$、$n=1$の際の対数尤度関数$l(\lambda)$は上記のように記載できる。ポアソン分布の$n=1$の時のフィッシャー情報量を$\mathit{I}_{1}(\lambda)$とおくと、$\mathit{I}_{1}(\lambda)=E[-l^{”}(\lambda)]$であるので、$l^{”}(\lambda)$を求める。
$$
\large
\begin{align}
l'(\lambda) &= \frac{x}{\lambda} – 1 \\
l^{”}(\lambda) &= -\frac{x}{\lambda^2}
\end{align}
$$

上記より、フィッシャー情報量$\mathit{I}_{1}(\lambda)=E[-l^{”}(\lambda)]$は下記のように計算できる。
$$
\large
\begin{align}
\mathit{I}_{1}(\lambda) &= E[-l^{”}(\lambda)] \\
&= E \left[ -(-\frac{X}{\lambda^2}) \right] \\
&= E \left[ \frac{X}{\lambda^2} \right] \\
&= \frac{1}{\lambda^2} E[X] \\
&= \frac{\lambda}{\lambda^2} \\
&= \frac{1}{\lambda}
\end{align}
$$

一方で標本平均の$\bar{X}$の分散は$\displaystyle \frac{\lambda}{n}$であり、$\mathit{I}_{1}(\lambda)$を用いて下記のように表すことができる。
$$
\large
\begin{align}
\frac{\lambda}{n} = \frac{1}{\mathit{I}_{1}(\lambda)}
\end{align}
$$

上記はクラメル・ラオの不等式において等号が成立している場合なので、標本平均$\bar{X}$は$\lambda$の一様最小分散不偏推定量であることがわかる。

問題7.3の解答例

(7.27)式より、$\sigma^2$のフィッシャー情報量は$\displaystyle \mathit{I}_1(\sigma^2) = \frac{1}{2 \sigma^4}$である。よって、このときのクラメル・ラオの不等式による不偏推定量の分散の下限は下記のようになる。
$$
\large
\begin{align}
\frac{1}{n\mathit{I}_1(\sigma^2)} = \frac{2 \sigma^4}{n} \quad (1)
\end{align}
$$

一方で、$\mu$が既知の場合は、$\displaystyle S^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i – \mu)^2$は$\sigma^2$の不偏推定量で、問7.1より分散$V[S^2]$は下記のように得ることができる。
$$
\large
\begin{align}
V[S^2] = \frac{2 \sigma^4}{n} \quad (2)
\end{align}
$$

(1)と(2)が一致することにより、クラメル・ラオの不等式より$S^2$がUMVUであることを示すことができる。

問題7.4の解答例

$\displaystyle \frac{(n+1)T}{n}$が$\theta$の不偏推定量であることを示すには、$\theta$に関して下記の(1)式が成立することを確認すればよい。
$$
\large
\begin{align}
\theta &= E \left[ \frac{(n+1)T}{n} \right] \quad (1) \\
E \left[ \frac{(n+1)T}{n} \right] &= \int \frac{(n+1)t}{n} \times p(t, \theta) dt \quad (2)
\end{align}
$$

ここで一様分布の同時確率密度関数$p(t, \theta)$は下記のように与えられる。
$$
\large
\begin{align}
p(t, \theta) = \frac{n t^{n-1}}{\theta^n} \quad (0<t<\theta) \quad (3)
\end{align}
$$

(3)式を(2)式に代入し、計算すると下記が導出できる。
$$
\large
\begin{align}
E \left[ \frac{(n+1)T}{n} \right] &= \int_{0}^{\theta} \frac{(n+1)t}{n} \times \frac{n t^{n-1}}{\theta^n} dt \\
&= (n+1)\int_{0}^{\theta} t \times \frac{t^{n-1}}{\theta^n} dt \\
&= (n+1)\int_{0}^{\theta} \frac{t^{n}}{\theta^n} dt \\
&= (n+1) \left[ \frac{t^{n+1}}{(n+1)\theta^n} \right]_{0}^{\theta} \\
&= (n+1) \frac{\theta^{n+1}}{(n+1) \theta^n} \\
&= \theta
\end{align}
$$
上記は(1)式が成立することを意味するので、これにより$\displaystyle \frac{(n+1)T}{n}$が$\theta$の不偏推定量であることを示すことができる。

(4)式と同様に考えることで、$E[T], E[T^2]$を求めることができる。
$$
\large
\begin{align}
E[T] &= \frac{n}{n+1} \theta \quad (5) \\
E[T^2] &= \int_{0}^{\theta} t^2 \times \frac{n t^{n-1}}{\theta^n} dt \\
&= \int_{0}^{\theta} \frac{n t^{n+1}}{\theta^n} dt \\
&= \left[ \frac{n t^{n+2}}{(n+2)\theta^n} \right]_{0}^{\theta} \\
&= \frac{n \theta^{n+2}}{(n+2)\theta^n} \\
&= \frac{n \theta^{2}}{(n+2)} \quad (6)
\end{align}
$$

また、$V[T] = E[T^2] – E[T]$より、(5)式(6)式を用いて$T$の分散$V[T]$は下記のように求めることができる。
$$
\large
\begin{align}
V[T] &= E[T^2] – E[T] \\
&= \frac{n \theta^{2}}{(n+2)} – \frac{n^2 \theta^2}{(n+1)^2} \\
&= \frac{n(n+1)^2 \theta^{2}}{(n+2)(n+1)^2} – \frac{n^2(n+2) \theta^2}{(n+2)(n+1)^2} \\
&= \frac{(n^3+2n^2+n) – (n^3+2n^2)}{(n+2)(n+1)^2} \theta^{2} \\
&= \frac{n}{(n+2)(n+1)^2} \theta^{2} \quad (7)
\end{align}
$$

(7)式を用いることで、$\displaystyle \frac{(n+1)T}{n}$の分散の$\displaystyle V \left[ \frac{(n+1)T}{n} \right]$は下記のように求めることができる。
$$
\large
\begin{align}
V \left[ \frac{(n+1)T}{n} \right] &= \frac{(n+1)^2}{n^2}V[T] \\
&= \frac{(n+1)^2}{n^2} \frac{n}{(n+2)(n+1)^2} \theta^{2} \\
&= \frac{\theta^{2}}{n(n+2)}
\end{align}
$$

問題7.5の解答例

$E[s]$は下記のように変形できる。
$$
\large
\begin{align}
E[s] = E[\sqrt{s^2}]
\end{align}
$$

ここで関数$f(x) = \sqrt{x}$を定義する。これは厳密に上に凸の関数となる。このときジェンセンの不等式より、下記が成立する。
$$
\large
\begin{align}
E[f(X)] < f(E[X])
\end{align}
$$

$E[s]$にジェンセンの不等式を適用すると下記のような導出が行える。
$$
\large
\begin{align}
E[s] &= E[\sqrt{s^2}] \\
&< \sqrt{E[s^2]} \\
&= \sqrt{\sigma^2} = \sigma
\end{align}
$$

ここまでの議論により、$E[s] < \sigma$を示すことができる。

問題7.6の解答例

$\displaystyle x = \frac{(n-1)s^2}{\sigma^2}$、$x$の確率密度関数を$f(x)$と考えると、$x$は$\displaystyle \chi^2(n-1) = Ga \left( \frac{n-1}{2},2 \right)$に従うことより$f(x)$は下記のように表すことができる。
$$
\large
\begin{align}
f(x) = \frac{1}{2^{\frac{n-1}{2}} \Gamma \left( \frac{n-1}{2} \right)} x^{\frac{n-1}{2}-1} e^{-\frac{x}{2}}
\end{align}
$$

ここで$\displaystyle s = \frac{\sigma}{\sqrt{n-1}} \sqrt{x}$より、$E[s]$は下記のように計算できる。
$$
\large
\begin{align}
E[s] &= E \left[ \frac{\sigma}{\sqrt{n-1}} \sqrt{x} \right] \\
&= \int_{0}^{\infty} \frac{\sigma}{\sqrt{n-1}} \sqrt{x} \times \frac{1}{2^{\frac{n-1}{2}} \Gamma \left( \frac{n-1}{2} \right)} x^{\frac{n-1}{2}-1} e^{-\frac{x}{2}} dx \\
&= \frac{\sigma}{\sqrt{n-1}} \int_{0}^{\infty} x^{\frac{1}{2}} \times \frac{1}{2^{\frac{n-1}{2}} \Gamma \left( \frac{n-1}{2} \right)} x^{\frac{n-1}{2}-1} e^{-\frac{x}{2}} dx \\
&= \frac{\sigma}{\sqrt{n-1}} \int_{0}^{\infty} \frac{1}{2^{\frac{n-1}{2}} \Gamma \left( \frac{n-1}{2} \right)} x^{\frac{n}{2}-1} e^{-\frac{x}{2}} dx \\
&= \frac{\sigma}{\sqrt{n-1}} \times \sqrt{2} \frac{\Gamma \left( \frac{n}{2} \right)}{\Gamma \left( \frac{n-1}{2} \right)} \int_{0}^{\infty} \frac{1}{2^{\frac{n}{2}} \Gamma \left( \frac{n}{2} \right)} x^{\frac{n}{2}-1} e^{-\frac{x}{2}} dx \\
&= \frac{\sigma}{\sqrt{n-1}} \times \sqrt{2} \frac{\Gamma \left( \frac{n}{2} \right)}{\Gamma \left( \frac{n-1}{2} \right)} \times 1 \\
&= \sigma \frac{\sqrt{2} \Gamma \left( \frac{n}{2} \right)}{\sqrt{n-1} \Gamma \left( \frac{n-1}{2} \right)}
\end{align}
$$
上記より、与式を示すことができた。

問題7.7の解答例

$V[\bar{X}] = E[\bar{X}^2] – E[\bar{X}]^2$より下記が成立する。
$$
\large
\begin{align}
E[\bar{X}^2] &= V[\bar{X}] + E[\bar{X}]^2 \\
&= \frac{\sigma^2}{n} + \mu^2 \\
\mu^2 &= E[\bar{X}^2] – \frac{\sigma^2}{n}
\end{align}
$$
上記を元に考えることで、$\mu^2$の不偏推定量$\hat{\mu}^2$は不偏分散$s^2$を用いて下記のように表すことができる。
$$
\large
\begin{align}
\hat{\mu}^2 &= \bar{X}^2 – \frac{s^2}{n} \\
&= \bar{X}^2 – \frac{\sum_{i=1}^{n}(X_i-\bar{X})^2}{n(n-1)} \quad (7.38)
\end{align}
$$

上記の導出において、$\displaystyle \hat{\mu}^2 = \bar{X}^2 – \frac{s^2}{n}$は(7.38)と同値であることがわかる。ここで$\bar{X}$と$s^2$がそれぞれ独立に動くことから$\hat{\mu}^2$が負となる確率は0ではないことが言える。

問題7.8の解答例

「$P(E[X|T]<0)>0 \implies P(X<0)>0$」を示すにあたって、対偶の「$P(X<0)=0 \implies P(E[X|T]<0)=0$」を示す。非負の確率変数に対しては条件付き期待値が$0$以下とならないことから、対偶を示すことができ、元の命題も成立することがわかる。

・直感的な考察
サイコロを考えた際に、サイコロの目が1〜6である場合は、どのような条件を考えてもサイコロの目が0より小さくなることは起こりえないことを考えると納得がいくと思われる。また、元々の命題に関しても、条件付き期待値が0より小さくなりうる場合は、0よりも小さい値を何かしら持つと解釈すると良い。

問題7.9の解答例

https://www.gakujutsu.co.jp/text/isbn978-4-7806-0860-1/
幾何分布の平均と分散を求めるにあたって上記の公式の解答では(2.62)式などで示された負の二項分布の結果を用いているが、大元の導出自体が大変なことからここでは確率母関数$G(s)$を用いた別解を記載する。$E[X], E[X(X-1)]$を求めて$E[X], V[X]$を求めることもできるが、$G'(1)=E[X], G^{”}(1)=E[X(X-1)]$が成立することを鑑みると、「確率母関数を用いる手法」と「$E[X], E[X(X-1)]$を定義に基づいて計算する手法」は同様であり、$E[X], E[X(X-1)]$を定義に基づいて計算するにはマクローリン展開を2度行う必要のあることからここでは確率母関数を用いる手法を選定した。

・確率母関数の導出
確率母関数$G(s)=E[s^X]$の定義に基づいて、確率母関数を計算する。
$$
\large
\begin{align}
G(s) &= E[s^X] \\
&= s^0 p(1-p)^0 + s^1 p(1-p)^1 + s^2 p(1-p)^2 + … \\
&= \sum_{n=0}^{\infty} s^n p(1-p)^n \\
&= p \sum_{n=0}^{\infty} (s(1-p))^n \\
&= p \frac{1}{1-s(1-p)} \\
&= \frac{p}{1-s(1-p)}
\end{align}
$$
上記において$\displaystyle \sum_{n=0}^{\infty} (s(1-p))^n = \frac{1}{1-s(1-p)}$は$\displaystyle \lim_{n \to \infty} (s(1-p))^n = 0$という前提に基づいて、等比級数の公式を用いて求めた。
等比級数の公比に関しては$G'(1), G^{”}(1)$を考えることから$s=1$の周辺だけ調べれば十分であり、$s=1$のとき$1-s(1-p)=p$であり、$0<p<1$を考慮すると収束するだろうと考えられる。

次に$G'(s), G^{”}(s)$を導出する。
$$
\large
\begin{align}
G'(s) &= \left( \frac{p}{1-s(1-p)} \right)’ \\
&= \frac{-p \times (-(1-p))}{(1-s(1-p))^2} \\
&= \frac{p(1-p)}{(1-s(1-p))^2} \\
G^{”}(s) &= \left( \frac{p(1-p)}{(1-s(1-p))^2} \right)’ \\
&= \frac{-2p(1-p) \times (-(1-p))}{(1-s(1-p))^3} \\
&= \frac{2p(1-p)^2}{(1-s(1-p))^3}
\end{align}
$$
このとき、$G'(1), G^{”}(1)$は$s$に$1$を代入することで下記のようになる。
$$
\large
\begin{align}
G'(1) &= \frac{p(1-p)}{(1 – 1 \cdot (1-p))^2} \\
&= \frac{p(1-p)}{(1 – 1 + p))^2} \\
&= \frac{p(1-p)}{p^2} \\
&= \frac{1-p}{p} \\
G^{”}(1) &= \frac{2p(1-p)^2}{(1 – 1 \cdot (1-p))^3} \\
&= \frac{2p(1-p)^2}{(1 – 1 + p))^3} \\
&= \frac{2p(1-p)^2}{p^3} \\
&= \frac{2(1-p)^2}{p^2}
\end{align}
$$

・平均$E[X]$、分散$V[X]$の導出
ここまでで求めた$G'(1), G^{”}(1)$に対し、$E[X]=G'(1), V[X]=G^{”}(1)+G'(1)-(G'(1))^2$を用いて$E[X], V[X]$の導出を行う。
$$
\large
\begin{align}
E[X] &= G'(1) \\
&= \frac{1-p}{p} \\
V[X] &= G^{”}(1)+G'(1)-(G'(1))^2 \\
&= \frac{2(1-p)^2}{p^2} + \frac{1-p}{p} – \frac{(1-p)^2}{p^2} \\
&= \frac{(1-p)^2}{p^2} + \frac{p(1-p)}{p^2} \\
&= \frac{(1-p)(1-p+p)}{p^2} \\
&= \frac{1-p}{p^2}
\end{align}
$$

・フィッシャー情報量の導出
幾何分布の対数尤度を$l(p)$とおくと、$l(p) = \log{p(x)}$より、$l(p)$は下記のように表すことができる。
$$
\large
\begin{align}
l(p) &= \log{p(x)} \\
&= \log{p(1-p)^x} \\
&= \log{p} + x \log{(1-p)}
\end{align}
$$
上記を下記のように$p$で2回微分を行う。
$$
\large
\begin{align}
l'(p) &= (x \log{(1-p)} + \log{p})’ \\
&= \frac{1}{p} – \frac{x}{1-p} \\
l^{”}(p) &= -\frac{1}{p^2} – \frac{x}{(1-p)^2}
\end{align}
$$
よって、フィッシャ情報量$\mathit{I}(p)=E[-l^{”}(p)]$は下記のように求めることができる。
$$
\large
\begin{align}
\mathit{I}(p) &= E[-l^{”}(p)] \\
&= E \left[ \frac{1}{p^2} + \frac{x}{(1-p)^2} \right] \\
&= \frac{1}{p^2} + \frac{E[X]}{(1-p)^2} \\
&= \frac{1}{p^2} + \frac{1}{(1-p)^2} \cdot \frac{1-p}{p} \\
&= \frac{1}{p^2} + \frac{1}{p(1-p)} \\
&= \frac{1}{p^2(1-p)}
\end{align}
$$

問題7.10の解答例

$y$個の球を$n-1$個の仕切りで分けることで、各非負の$x_i$に対応させることを考える。この組み合わせの数は${}_{y+n-1} C{y}={}_{n+y-1} C{y}$のように求めることができる。

問題7.11の解答例

下記のQ3.8の解答で取り扱ったように、負の二項分布に関して$NB(r_1,p)*NB(r_2,p) = NB(r_1+r_2,p)$が成立する。
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch3.html#38

幾何分布は負の二項分布$NB(r,p)$において$r=1$の場合であるので、上記と同様なたたみこみ演算を$n$回行うことで幾何分布から負の二項分布を導出することができる。

問題7.12の解答例

$X_1, X_2, …, X_n$の同時確率$P(X_1=x_1,…,X_n=x_n)$は下記のように表すことができる。
$$
\large
\begin{align}
P(X_1=x_1,…,X_n=x_n) &= \prod_{i=1}^{n} p(1-p) \\
&= p^{n} (1-p)^{\sum_{i=1}^{n}x_i}
\end{align}
$$

上記において分解定理を考えると、$p$の十分統計量が$\displaystyle Y = \sum_{i=1}^{n}X_i$で与えられることがわかる。また、問題6.7より完備性は示される。

ここで$Y=y$を与えた際の$X_1, X_2, …, X_n$の条件付き分布$P(X_1=x_1,…,X_n=x_n|Y=y)$は下記のように表すことができる。
$$
\large
\begin{align}
P(X_1=x_1,…,X_n=x_n|Y=y) &= \frac{P(X_1=x_1,…,X_n=x_n,Y=y)}{P(Y=y)} \\
&= \frac{P(X_1=x_1,…,X_n=x_n)}{P(Y=y)} \\
&= \frac{p^{n} (1-p)^{\sum_{i=1}^{n}x_i}}{{}_{n+y-1} C_{y} p^{n} (1-p)^{y}} \\
&= \frac{p^{n} (1-p)^{y}}{{}_{n+y-1} C_{y} p^{n} (1-p)^{y}} \\
&= \frac{1}{{}_{n+y-1} C_{y}}
\end{align}
$$

・考察
条件付き分布を考える際に$P(X_1=x_1,…,X_n=x_n,Y=y)=P(X_1=x_1,…,X_n=x_n)$のように考えたが、これは$\displaystyle Y = \sum_{i=1}^{n}X_i$のようにおいたことに基づく。

より詳細には下記のように考えると良いと思われる。
$$
\large
\begin{align}
P(X_1=x_1,…,X_n=x_n,Y=y) &= p^{n} (1-p)^{y} \\
&= p^{n} (1-p)^{\sum_{i=1}^{n}X_i} \\
&= P(X_1=x_1,…,X_n=x_n)
\end{align}
$$

問題7.13の解答例

$$
\large
\begin{align}
P(Y=y) = {}_{n+y-1} C_{y} p^{n} (1-p)^{y}
\end{align}
$$
$p$の尤度を$L(p)$とおくと、$L(p)=P(Y=y)$なので、対数尤度の$\log{L(p)}$は下記のように表すことができる。
$$
\large
\begin{align}
\log{L(p)} &= \log{( {}_{n+y-1} C_{y} p^{n} (1-p)^{y} )} \\
&= n \log{p} + y \log{(1-p)} + Const. \quad (1)
\end{align}
$$

ここで(1)式を$p$に関して微分した際に$0$になる$p$値を下記のように計算する。
$$
\large
\begin{align}
\frac{d \log{L(p)}}{d p} &= 0 \\
\frac{n}{p} – \frac{y}{1-p} &= 0 \\
\frac{y}{1-p} &= \frac{n}{p} \\
yp &= n(1-p) \\
(n+y)p &= n \\
p &= \frac{n}{n+y}
\end{align}
$$
上記が最尤推定量$\hat{p}$を表すので、$\displaystyle \hat{p} = \frac{n}{n+y}$が成立する。

次に(7.62)式を示す。$\displaystyle E \left[ \frac{1}{(N-1)(N-2)…(N-k)} \right] = E \left[ \frac{1}{(n+y-1)(n+y-2)…(n+y-k)} \right]$は下記のように変形することができる。
$$
\large
\begin{align}
E & \left[ \frac{1}{(N-1)(N-2)…(N-k)} \right] = E \left[ \frac{1}{(n+y-1)(n+y-2)…(n+y-k)} \right] \\
&= \sum_{y=0}^{\infty} \frac{1}{(n+y-1)(n+y-2)…(n+y-k)} \times {}_{n+y-1} C_{y} p^{n} (1-p)^{y} \\
&= \sum_{y=0}^{\infty} \frac{1}{(n+y-1)(n+y-2)…(n+y-k)} \times \frac{(n+y-1)!}{y!(n-1)!} p^{n} (1-p)^{y} \\
&= \sum_{y=0}^{\infty} \frac{(n+y-1-k)!}{y!(n-1)!} p^{n} (1-p)^{y} \\
&= \frac{1}{(n-1)(n-2)…(n-k)} \sum_{y=0}^{\infty} \frac{(n+y-1-k)!}{y!(n-k)!} p^{n} (1-p)^{y} \\
&= \frac{p^k}{(n-1)(n-2)…(n-k)} \sum_{y=0}^{\infty} \frac{(n-k+y-1)!}{y!(n-k)!} p^{n-k} (1-p)^{y}
\end{align}
$$

ここで(2)式の$\displaystyle \sum_{y=0}^{\infty}$の中は負の二項分布$NB(n-k,y)$の$y=0,1,…,$を表している。
従って、確率分布のそれぞれの確率関数の和が1になることを考えることによって$\displaystyle \sum_{y=0}^{\infty} \frac{(n-k+y-1)!}{y!(n-k)!} p^{n-k} (1-p)^{y}=1$であることがわかる。これを(2)に代入することによって、下記を得ることができる。
$$
\large
\begin{align}
E & \left[ \frac{1}{(N-1)(N-2)…(N-k)} \right] = E \left[ \frac{1}{(n+y-1)(n+y-2)…(n+y-k)} \right] \\
&= \frac{p^k}{(n-1)(n-2)…(n-k)} \sum_{y=0}^{\infty} \frac{(n-k+y-1)!}{y!(n-k)!} p^{n-k} (1-p)^{y} \\
&= \frac{p^k}{(n-1)(n-2)…(n-k)} \quad (3)
\end{align}
$$
上記は(7.62)式が成立することを表す。

また、(3)式の両辺に$(n-1)(n-2)…(n-k)$をかけると下記のようになる。
$$
\large
\begin{align}
E \left[ \frac{1}{(N-1)…(N-k)} \right] (n-1)…(n-k) &= \frac{p^k}{(n-1)…(n-k)}(n-1)…(n-k) \\
E \left[ \frac{(n-1)(n-2)…(n-k)}{(N-1)(N-2)…(N-k)} \right] &= p^k \\
E \left[ \frac{(n-1)(n-2)…(n-k)}{(n+y-1)(n+y-2)…(n+y-k)} \right] &= p^k
\end{align}
$$

上記より$\displaystyle E \left[ \frac{n-1}{n+y-1} \right] = p$が成立し、$\displaystyle \frac{n-1}{n+y-1}$が$p$の不偏推定量であることがわかる。

問題7.14の解答例

問題7.15の解答例

(7.63)式と、(7.64)式はそれぞれ左辺を変形することで、右辺を導出できるので以下に示す。

・(7.63)式の導出
$$
\large
\begin{align}
\frac{n}{N} – \frac{n}{N-1} + \frac{n}{(N-1)(N-2)} &= \frac{n(N-1)(N-2) – nN(N-2) + nN}{N(N-1)(N-2)} \\
&= \frac{n(N^2-3N+2) – n(N^2-2N) + nN}{N(N-1)(N-2)} \\
&= \frac{nN^2 – 3nN + 2n – nN^2 + 2nN + nN}{N(N-1)(N-2)} \\
&= \frac{2n}{N(N-1)(N-2)}
\end{align}
$$

・(7.64)式の導出
$$
\large
\begin{align}
\frac{n^2}{N^2} – \frac{n^2}{(N-1)(N-2)} &+ \frac{3n^2}{(N-1)(N-2)(N-3)} \\
&= \frac{n^2(N-1)(N-2)(N-3) – n^2N^2(N-3) + 3n^2(N-3)}{N^2(N-1)(N-2)(N-3)}
\end{align}
$$
上記を計算するにあたっては、分子を整理して$(N-1)(N-2)(N-3) – N^2(N-3) + 3N^2$を計算すればよい。
$$
\large
\begin{align}
(N-1)(N-2)(N-3) – N^2(N-3) + 3N^2 &= (N^2-3N+2)(N-3) – (N^3-3N^2) + 3N^2 \\
&= (N^3 – 3N^2 + 2N – 3N^2 + 9N – 6) – N^3 + 3N^2 + 3N^2 \\
&= 11N – 6
\end{align}
$$

よって、(1)式は下記のように整理することができる。
$$
\large
\begin{align}
\frac{n^2}{N^2} – \frac{n^2}{(N-1)(N-2)} &+ \frac{3n^2}{(N-1)(N-2)(N-3)} \\
&= \frac{n^2(N-1)(N-2)(N-3) – n^2N^2(N-3) + 3n^2N^2}{N^2(N-1)(N-2)(N-3)} \\
&= \frac{11Nn^2 – 6n^2}{N^2(N-1)(N-2)(N-3)}
\end{align}
$$

問題7.16の解答例

ポアソン分布は下記で導出を行ったように再生性が成立し、(3.51)式のようにたたみこみが行える。
https://www.hello-statisticians.com/explain-terms-cat/probdist3.html#i-4
(3.51)式より、$\displaystyle \sum_{i=1}^{n} X_i$は$Po(n \lambda)$に従う。ここで、$e^{-2\lambda}$の推定量が$\delta(y)$であることより、下記が成立する。
$$
\large
\begin{align}
e^{-2\lambda} &= E[\delta(y)] \\
&= \sum_{y=0}^{\infty} \delta(y) \frac{(n \lambda)^y}{y!} e^{-n \lambda}
\end{align}
$$

ここで、両辺を$e^{-n \lambda}$で割ることで下記が導出できる。
$$
\large
\begin{align}
e^{(n-2)\lambda} = \sum_{y=0}^{\infty} \delta(y) \frac{(n \lambda)^y}{y!} \quad (1)
\end{align}
$$

また、$e^{(n-2) \lambda}$に関するマクローリン展開を考えることで、下記が成立することがわかる。
$$
\large
\begin{align}
e^{(n-2)\lambda} = \sum_{y=0}^{\infty} \frac{((n-2) \lambda)^y}{y!} \quad (2)
\end{align}
$$

ここで、(1)と(2)の級数が一致するには下記が成立しなければならない。
$$
\large
\begin{align}
\delta(y) (n \lambda)^y &= ((n-2) \lambda)^y \\
\delta(y) &= \frac{((n-2) \lambda)^y}{(n \lambda)^y} \\
&= \left( \frac{n-2}{n} \right)^y \quad (3)
\end{align}
$$

上記のように$e^{-2 \lambda}$の推定量を得ることができる。

・考察
以下、$\lambda=5$において、実際に$e^{-2 \lambda}=e^{-10}$を(3)式を用いて推定を行い、値を確認する。

  • $e^{-2 \lambda}=e^{-10}$
    $$
    \large
    \begin{align}
    e^{-10} = 4.5399… \times 10^{-5}
    \end{align}
    $$
  • $n = 3, y = n \lambda = 3 \times 5$
    $$
    \large
    \begin{align}
    \delta(y) &= \left( \frac{3-2}{3} \right)^{3 \times 5} \\
    &= \left( \frac{1}{3} \right)^{3 \times 5} \\
    &= 6.969… \times 10^{-8}
    \end{align}
    $$
  • $n = 50, y = n \lambda = 50 \times 5$
    $$
    \large
    \begin{align}
    \delta(y) &= \left( \frac{50-2}{50} \right)^{3 \times 5} \\
    &= \left( \frac{48}{50} \right)^{50 \times 5} \\
    &= 3.69662… \times 10^{-5}
    \end{align}
    $$
  • $n = 100, y = n \lambda = 100 \times 5$
    $$
    \large
    \begin{align}
    \delta(y) &= \left( \frac{100-2}{100} \right)^{100 \times 5} \\
    &= \left( \frac{98}{100} \right)^{100 \times 5} \\
    &= 4.1023… \times 10^{-5}
    \end{align}
    $$
  • $n = 1000, y = n \lambda = 1000 \times 5$
    $$
    \large
    \begin{align}
    \delta(y) &= \left( \frac{1000-2}{1000} \right)^{1000 \times 5} \\
    &= \left( \frac{998}{1000} \right)^{1000 \times 5} \\
    &= 4.4947… \times 10^{-5}
    \end{align}
    $$
  • $n = 1000000, y = n \lambda = 1000000 \times 5$
    $$
    \large
    \begin{align}
    \delta(y) &= \left( \frac{1000000-2}{1000000} \right)^{1000000 \times 5} \\
    &= \left( \frac{999998}{1000000} \right)^{1000000 \times 5} \\
    &= 4.53994… \times 10^{-5}
    \end{align}
    $$

サンプルが増えるに従って、$\delta(y)$が$e^{-2 \lambda}$に近づいており、これにより$e^{-2\lambda} = E[\delta(y)]$が成立することが妥当であることが確認できる。

問題7.17の解答例

問題7.18の解答例

問題7.19の解答例

問題7.20の解答例

問題7.21の解答例

問題7.22の解答例

問題7.23の解答例

問題7.24の解答例

統計検定1級 統計数理 問題解説 ~2018年11月実施 問2~

統計検定1級の2018年11月の「統計数理」の問2の解答例と解説について取り扱いました。他の問題の解答に関しては下記よりご確認ください。
https://www.hello-statisticians.com/stat_certifi_1_math

問題

詳しくは統計検定公式よりご確認ください。

解答

[1]
$P(X_i=1)$と$P(X_i=1,X_j=1), \quad i \neq j$はそれぞれ下記のように計算できる。
$$
\large
\begin{align}
P(X_i=1) &= \frac{{}_M P_1}{{}_N P_1} \\
&= \frac{M}{N} \\
P(X_i=1,X_j=1) &= \frac{{}_M P_2}{{}_N P_2} \\
&= \frac{M \times (M-1)}{N \times (N-1)} \\
&= \frac{M(M-1)}{N (N-1)}
\end{align}
$$

[2]
・期待値$E[X_i]$の導出
$$
\large
\begin{align}
E[X_i] &= 0 \times P(X_i=0) + 1 \times P(X_i=1) \\
&= \frac{M}{N}
\end{align}
$$

・分散$V[X_i]$の導出
$$
\large
\begin{align}
V[X_i] &= E[X_i^2] – E[X_i]^2 \\
&= 0^2 \times P(X_i=0) + 1^2 \times P(X_i=1) – \left( \frac{M}{N} \right)^2 \\
&= \frac{M}{N} – \left( \frac{M}{N} \right)^2 \\
&= \frac{MN – M^2}{N^2} \\
&= \frac{M(N – M)}{N^2}
\end{align}
$$

・共分散$Cov[X_i,X_j]$の導出
$$
\large
\begin{align}
Cov[X_i,X_j] &= E[X_iX_j] – E[X_i]E[X_j] \\
&= 1 \times P(X_i=1, X_j=1) – \left( \frac{M}{N} \right)^2 \\
&= \frac{M(M-1)}{N (N-1)} – \frac{M^2}{N^2} \\
&= \frac{MN(M-1) – M^2(N-1)}{N^2(N-1)} \\
&= \frac{M^2N – MN – M^2N + M^2}{N^2(N-1)} \\
&= \frac{M^2 – MN}{N^2(N-1)} \\
&= \frac{M(M – N)}{N^2(N-1)} \\
&= -\frac{M(N – M)}{N^2(N-1)}
\end{align}
$$

[3]
$P(X=x)$を考えるにあたっては$n$回の抽出のうち、赤球を$x$個、青球を$n-x$個引く確率だと考えれば良いので、下記のように求めることができる。
$$
\large
\begin{align}
P(X=x) &= \frac{{}_M C_x \times {}{N-M} C_{n-x}}{{}_N C_n} \\
&= \frac{{}_M C_x {}_{N-M} C_{n-x}}{{}_N C_n}
\end{align}
$$

[4]
・期待値$E[X]$の導出
$E[X]=E[X_1+…+X_n]=E[X_1]+…+E[X_n]$を元に下記のように導出することができる。
$$
\large
\begin{align}
E[X] &= E[X_1+…+X_n] \\
&= E[X_1] + … + E[X_n] \\
&= \frac{nM}{N}
\end{align}
$$

・分散$V[X]$の導出
$$
\large
\begin{align}
V[X] &= V[X_1+…+X_n] \\
&= \sum_{i=1}^{n} V[X_i] + \sum_{i \neq j} Cov[X_i,X_j] \\
&= n \times \frac{M(N – M)}{N^2} + n(n-1) \times -\frac{M(N – M)}{N^2(N-1)} \\
&= \frac{nM(N – M)(N-1) – n(n-1)M(N – M)}{N^2(N-1)} \\
&= \frac{nM(N – M)((N-1)-(n-1))}{N^2(N-1)} \\
&= \frac{nM(N – M)(N-n)}{N^2(N-1)}
\end{align}
$$

[5]
公式の解答が詳しいのでここでは省略する。

解説

$[3]$までは確率や期待値の定義に沿って計算を行えばそれほど難しくないと思います。また$[3]$の式が超幾何分布を表すことも抑えておくと良いです。また、$[4]$の導出にあたって$E[X]=E[X_1+…+X_n]=E[X_1]+…+E[X_n]$が成立する一方で、$V[X]=V[X_1+…+X_n]=V[X_1]+…+V[X_n]$が成立しないことは確認しておくと良いです。$X_1,…,X_n$が非復元抽出であることから類題の多くで成立する$i.i.d.,$がここでは成立していないことに注意が必要です。
20点配分なら[1]が3点、[2]が5点、[3]が2点、[4]が5点、[5]が5点が妥当な印象でした。[5]の議論に関しては複雑なように思われるので、飛ばして良いかもしれません。

統計検定1級 統計数理 問題解説 ~2018年11月実施 問5~

統計検定1級の2018年11月の「統計数理」の問5の解答例と解説について取り扱いました。他の問題の解答に関しては下記よりご確認ください。
https://www.hello-statisticians.com/stat_certifi_1_math

問題

詳しくは統計検定公式よりご確認ください。

解答

[1]
・$f_1(y)$の導出
$Y_1$の累積分布関数は$0 < y \leq 1$の範囲で下記のように考えることができる。
$$
\large
\begin{align}
F_{1}(y) &= P(Y_1 \leq y) \\
&= 1 – P(Y_1 > y)
\end{align}
$$

ここで$Y_1 \leq Y_2 \leq Y_3$より、「$Y_1 > y \iff Y_1 > y, Y_2 > y, Y_3 >y$」が成立する。よって、$F_{1}(y)$は下記のように表すことができる。
$$
\large
\begin{align}
F_{1}(y) &= 1 – P(Y_1 > y) \\
&= 1 – P(Y_1 > y, Y_2 > y, Y_3 >y) \\
&= 1 – P(Y_1 > y)P(Y_2 > y)P(Y_3 > y) \\
&= 1 – (1-y)^3
\end{align}
$$

確率密度関数$f_1(y)$は、上記の$F_1(y)$に対して微分を行うことで下記のように得られる。
$$
\large
\begin{align}
f_1(y) &= \frac{d}{dy} F_1(y) \\
&= \frac{d}{dy} (1 – (1-y)^3) \\
&= 3(1-y)^2
\end{align}
$$

・期待値$E[Y_1]$の導出
$E[Y_1]$は下記のように計算できる。
$$
\large
\begin{align}
E[Y_1] &= \int_{0}^{1} y f_1(y) dy \\
&= \int_{0}^{1} y \times 3(1-y)^2 dy \\
&= 3 \int_{0}^{1} (y^3-2y^2+y) dy \\
&= 3 \left[ \frac{y^4}{4} – \frac{2y^3}{3} + \frac{y^2}{2} \right]_{0}^{1} \\
&= 3 \left( \frac{1}{4} – \frac{2}{3} + \frac{1}{2} \right) \\
&= 3 \times \frac{1}{12} \\
&= \frac{1}{4}
\end{align}
$$

・$f_3(y)$の導出
$Y_3$の累積分布関数は$0 < y \leq 1$の範囲で下記のように考えることができる。
$$
\large
\begin{align}
F_{3}(y) = P(Y_3 \leq y)
\end{align}
$$

ここで$Y_1 \leq Y_2 \leq Y_3$より、「$Y_3 \leq y \iff Y_1 \leq y, Y_2 \leq y, Y_3 \leq y$」が成立する。よって、$F_{3}(y)$は下記のように表すことができる。
$$
\large
\begin{align}
F_{3}(y) &= P(Y_3 \leq y) \\
&= P(Y_1 \leq y, Y_2 \leq y, Y_3 \leq y) \\
&= P(Y_1 \leq y)P(Y_2 \leq y)P(Y_3 \leq y) \\
&= y^3
\end{align}
$$

確率密度関数$f_3(y)$は、上記の$F_3(y)$に対して微分を行うことで下記のように得られる。
$$
\large
\begin{align}
f_3(y) &= \frac{d}{dy} F_3(y) \\
&= \frac{d}{dy} (y^3) \\
&= 3y^2
\end{align}
$$

・期待値$E[Y_3]$の導出
$E[Y_3]$は下記のように計算できる。
$$
\large
\begin{align}
E[Y_3] &= \int_{0}^{1} y f_3(y) dy \\
&= \int_{0}^{1} y \times 3y^2 dy \\
&= 3 \int_{0}^{1} 3y^3 dy \\
&= 3 \left[ \frac{3 y^4}{4} \right]_{0}^{1} \\
&= \frac{3}{4}
\end{align}
$$

[2]
$0 < y \leq 1$の範囲で$Y_2 \leq y$が成立する場合は、「$Y_1,Y_2,Y_3 \leq y$」の場合か「$Y_1,Y_2 \leq y, Y_3 > y$」の場合のどちらかである。$y$を上回る$X_1,X_2,X_3$の選び方は$3$通りあるので、$Y_2$の累積分布関数$F_{2}(y)$は下記のように考えることができる。
$$
\large
\begin{align}
F_{2}(y) &= P(Y_1 \leq y, Y_2 \leq y, Y_3 \leq y) + {}_3 C_1 P(Y_1 \leq y, Y_2 \leq y, Y_3 > y) \\
&= P(Y_1 \leq y)P(Y_2 \leq y)P(Y_3 \leq y) + 3P(Y_1 \leq y)P(Y_2 \leq y)P(Y_3 > y) \\
&= y^3 + 3 y^2(1-y) \\
&= y^3 + 3y^2 – 3y^3 \\
&= 3y^2 – 2y^3
\end{align}
$$

よって確率密度関数$f_2(y)$は、上記の$F_2(y)$に対して微分を行うことで下記のように得られる。
$$
\large
\begin{align}
f_2(y) &= \frac{d}{dy} F_2(y) \\
&= \frac{d}{dy} (3y^2 – 2y^3) \\
&= 6y – 6y^2 \\
&= 6y(1-y)
\end{align}
$$

また、$P(Y_2 \leq 0.5)$は下記のように計算できる。
$$
\large
\begin{align}
P(Y_2 \leq 0.5) &= \int_{0}^{0.5} f_2(y) dy \\
&= \int_{0}^{0.5} (6y – 6y^2) dy \\
&= \left[ 3y^2 – 2y^3 \right]_{0}^{0.5} \\
&= 3 \times (0.5)^2 – 2 \times (0.5)^3 \\
&= 0.5
\end{align}
$$

[3]
確率変数$Z$の期待値を$E[Z]$とおくと、$E[Z]=E[Y_3-Y_1]=E[Y_3]-E[Y_1]$より、$E[Z]$は下記のように導出できる。
$$
\large
\begin{align}
E[Z] &= E[Y_3] – E[Y_1] \\
&= \frac{3}{4} – \frac{1}{4} \\
&= \frac{1}{2}
\end{align}
$$

分散の計算は公式の解答が詳しいのでここでは省略を行なった。

解説

順序統計量からの確率密度関数の導出にあたっては累積分布関数の微分から計算することでシンプルに導出することが可能です。一連の導出の流れは抑えておくと良いと思います。
20点配分なら[1]が7点、[2]が5点、[3]が8点ほどが妥当な印象でした。

統計検定1級 統計数理 問題解説 ~2018年11月実施 問3~

統計検定1級の2019年11月の「統計数理」の問3の解答例と解説について取り扱いました。他の問題の解答に関しては下記よりご確認ください。
https://www.hello-statisticians.com/stat_certifi_1_math

問題

詳しくは統計検定公式よりご確認ください。

解答

[1]
二項分布$Bin(n,p)$は$n$回のベルヌーイ試行に基づく分布であるので、$i$回目の試行を表す確率変数を$X_i \in \{0,1\}$のようにおくと、二項分布の確率変数$X$は$\displaystyle X = \sum_{i=1}^{n} X_i$のように表すことができる。

ここで確率変数$X_i$に対して期待値$E[X_i]$と分散$V[X_i]$は下記のように表すことができる。
$$
\large
\begin{align}
E[X_i] &= 0 \times (1-p) + 1 \times p \\
&= p \\
V[X_i] &= E[(X_i-E[X_i])^2] \\
&= E[X_i^2] – E[X_i]^2 \\
&= 0^2 \times (1-p) + 1^2 \times p – p^2 \\
&= p – p^2 \\
&= p(1-p)
\end{align}
$$

$X_1,X_2,…,X_n \sim Bin(1,p) \quad i.i.d.,$かつ上記より二項分布$Bin(n,p)$の期待値$E[X]$と分散$V[X]$は下記のように計算できる。
$$
\large
\begin{align}
E[X] &= E[X_1+X_2+…+X_n] \\
&= E[X_1]+E[X_2]+…+E[X_n] \\
&= np \\
V[X] &= V[X_1+X_2+…+X_n] \\
&= V[X_1]+V[X_2]+…+V[X_n] \\
&= np(1-p)
\end{align}
$$

$V[X_1+X_2+…+X_n]=V[X_1]+V[X_2]+…+V[X_n]$は一般的には成立しないが、$X_1,X_2,…,X_n$が$i.i.d.,$のときは成立するので上記の計算を行うことができた。
https://www.hello-statisticians.com/explain-terms-cat/expectation-variance-covariance.html

[2]
条件付き確率に関する公式より、$h(x) = P(X = x|X \geq 1)$は下記のように表すことができる。
$$
\large
\begin{align}
h(x) &= P(X = x|X \geq 1) \\
&= \frac{P(X = x, X \geq 1)}{P(X \geq 1)}
\end{align}
$$

ここで$P(X \geq 1) = 1 – P(X = 0)$より、$P(X \geq 1)$は下記のように求められる。
$$
\large
\begin{align}
P(X \geq 1) &= 1 – P(X = 0) \\
&= 1 – (1 – \theta)^n
\end{align}
$$

よって、条件付き確率$h(x)$は、下記のように導出できる。
$$
\large
\begin{align}
h(x) &= \frac{P(X = x, X \geq 1)}{P(X \geq 1)} \\
&= \frac{{}_n C_x \theta^x (1-\theta)^{n-x}}{1 – (1 – \theta)^n} \quad (x=1,2,…,n)
\end{align}
$$

[3]
・期待値$\eta(\theta)=E[X|X \geq 1]$の導出
$$
\large
\begin{align}
\eta(\theta) &= E[X|X \geq 1] \\
&= \sum_{x=1}^{n} x \times h(x) \\
&= \frac{1}{1 – (1 – \theta)^n} \sum_{x=1}^{n} x {}_n C_x \theta^x (1-\theta)^{n-x} \quad (1)
\end{align}
$$

期待値の定義に基づいて、$E[X|X \geq 1]$は上記のように変形できる。ここで$x {}_n C_x = n {}_{n-1} C_{x-1}$であることは下記のように示すことができる。
$$
\large
\begin{align}
x {}_n C_x &= x \times \frac{n!}{x!(n-x)!} \\
&= n \times \frac{(n-1)!}{(x-1)!(n-x)!} \\
&= n {}_{n-1} C_{x-1} \quad (2)
\end{align}
$$

$(2)$式より$(1)$式は下記のように変形できる。
$$
\large
\begin{align}
\eta(\theta) &= \frac{1}{1 – (1 – \theta)^n} \sum_{x=1}^{n} x {}_n C_x \theta^x (1-\theta)^{n-x} \\
&= \frac{1}{1 – (1 – \theta)^n} \sum_{x=1}^{n} n {}_{n-1} C_{x-1} \theta^x (1-\theta)^{n-x} \\
&= \frac{n}{1 – (1 – \theta)^n} \sum_{y=0}^{n-1} {}_{n-1} C_{y} \theta^{y+1} (1-\theta)^{n-y-1} \quad (3)
\end{align}
$$
上記の変形にあたっては$y=x-1, x=y+1$を用いて文字を置き換えた。

ここで$(3)$式の$\displaystyle \sum_{y=0}^{n-1} {}_{n-1} C_{y} \theta^{y+1} (1-\theta)^{n-x-1}$に対して二項定理より下記が成立する。
$$
\large
\begin{align}
\eta(\theta) &= \frac{n}{1 – (1 – \theta)^n} \sum_{y=0}^{n-1} {}_{n-1} C_{y} \theta^{y+1} (1-\theta)^{n-y-1} \\
&= \frac{n \theta}{1 – (1 – \theta)^n} \sum_{y=0}^{n-1} {}_{n-1} C_{y} \theta^{y} (1-\theta)^{n-y-1} \\
&= \frac{n \theta}{1 – (1 – \theta)^n} (\theta + 1 – \theta)^{n-1} \\
&= \frac{n \theta}{1 – (1 – \theta)^n}
\end{align}
$$

・分散$\xi(\theta)=V[X|X \geq 1]$の導出
$$
\large
\begin{align}
\xi(\theta) &= V[X|X \geq 1] \\
&= E[X(X-1)|X \geq 1] + E[X|X \geq 1] – E[X|X \geq 1]^2 \quad (4)
\end{align}
$$
期待値の定義に基づいて、$V[X|X \geq 1]$は上記のように変形できる。$E[X|X \geq 1]$はすでに求めたので、以下、$E[X(X-1)|X \geq 1]$の導出を行う。

$$
\large
\begin{align}
E[X(X-1)|X \geq 1] &= \sum_{x=1}^{n} x(x-1) \times h(x) \\
&= \frac{1}{1 – (1 – \theta)^n} \sum_{x=1}^{n} x(x-1) {}_n C_x \theta^x (1-\theta)^{n-x} \quad (5) \end{align}
$$ ここで$x(x-1) {}_n C_x$は$x=1$のとき$0$、$x \geq 2$のとき$x(x-1) {}_n C_x = n(n-1) {}_{n-2} C_{x-2}$であることは下記のように示すことができる。
$$
\large
\begin{align}
x(x-1) {}_n C_x &= x(x-1) \times \frac{n!}{x!(n-x)!} \\
&= n(n-1) \times \frac{(n-2)!}{(x-2)!(n-x)!} \\
&= n(n-1) {}_{n-2} C_{x-2} \quad (6)
\end{align}
$$

$(6)$式に基づいて$(5)$式は下記のように変形できる。
$$
\large
\begin{align}
E[X(X-1)|X \geq 1] &= \frac{1}{1 – (1 – \theta)^n} \sum_{x=1}^{n} x(x-1) {}_n C_x \theta^x (1-\theta)^{n-x} \\
&= \frac{1}{1 – (1 – \theta)^n} \sum_{x=2}^{n} x(x-1) {}_n C_x \theta^x (1-\theta)^{n-x} \\
&= \frac{1}{1 – (1 – \theta)^n} \sum_{x=2}^{n} n(n-1) {}_{n-2} C_{x-2} \theta^x (1-\theta)^{n-x} \\
&= \frac{n(n-1)}{1 – (1 – \theta)^n} \sum_{x=2}^{n} {}_{n-2} C_{x-2} \theta^x (1-\theta)^{n-x} \\
&= \frac{n(n-1)}{1 – (1 – \theta)^n} \sum_{y=0}^{n-2} {}_{n-2} C_{y} \theta^{y+2} (1-\theta)^{n-y-2} \\
&= \frac{n(n-1) \theta^2}{1 – (1 – \theta)^n} \sum_{y=0}^{n-2} {}_{n-2} C_{y} \theta^{y} (1-\theta)^{n-y-2} \\
&= \frac{n(n-1) \theta^2}{1 – (1 – \theta)^n} (\theta + 1 – \theta)^{n-2} \\
&= \frac{n(n-1) \theta^2}{1 – (1 – \theta)^n} \quad (7)
\end{align}
$$

$(4)$式は$(7)$式と$\eta(\theta)$の導出結果を用いることで、下記のように導出できる。
$$
\large
\begin{align}
\xi(\theta) &= E[X(X-1)|X \geq 1] + E[X|X \geq 1] – E[X|X \geq 1]^2 \\
&= \frac{n(n-1) \theta^2}{1 – (1 – \theta)^n} + \frac{n \theta}{1 – (1 – \theta)^n} – \left( \frac{n \theta}{1 – (1 – \theta)^n} \right)^2 \\
&= \frac{n^2 \theta – n \theta^2 + n \theta}{1 – (1 – \theta)^n} – \frac{n^2 \theta^2}{\left\{ 1 – (1 – \theta)^n \right\}^2} \\
&= \frac{n \theta(1 – \theta)}{1 – (1 – \theta)^n} + \frac{n^2 \theta^2(1 – (1 – \theta)^n) – n^2 \theta^2}{\left\{ 1 – (1 – \theta)^n \right\}^2} \\
&= \frac{n \theta(1 – \theta)}{1 – (1 – \theta)^n} + \frac{- n^2 \theta^2(1 – \theta)^n}{\left\{ 1 – (1 – \theta)^n \right\}^2} \\
&= \frac{n \theta(1 – \theta)}{1 – (1 – \theta)^n} – \frac{n^2 \theta^2(1 – \theta)^n}{\left\{ 1 – (1 – \theta)^n \right\}^2}
\end{align}
$$

[4]
$E[X] = n \theta$であるので、$\eta(\theta) = 2n \theta$が成立する$\theta$を求めればよい。
$$
\large
\begin{align}
\eta(\theta) &= 2n \theta \\
\frac{n \theta}{1 – (1 – \theta)^n} &= 2n \theta \\
\frac{1}{1 – (1 – \theta)^n} &= 2 \\
1 &= 2(1 – (1 – \theta)^n) \\
1 &= 2 – 2(1 – \theta)^n) \\
2(1 – \theta)^n) &= 1 \\
(1 – \theta)^n &= 0.5 \\
1 – \theta &= (0.5)^{\frac{1}{n}} \\
\theta &= 1 – (0.5)^{\frac{1}{n}}
\end{align}
$$
上記に対して$n=8$のときの$\theta$を計算すると、$\theta \simeq 1 – 0.917 = 0.083$が得られる。

[5]
観測値$y_1,…,y_m$に関する尤度を$L(\theta|\theta|y_1,…,y_m)$のようにおくと、$L(\theta|y_1,…,y_m)$は同時確率に一致することから下記のように表すことができる。
$$
\large
\begin{align}
L(\theta|y_1,…,y_m) = \prod_{i=1}^{n} \frac{{}_n C_{y_i} \theta^{y_i} (1-\theta)^{n-y_i}}{1-(1-\theta)^n}
\end{align}
$$

このとき対数尤度を$l(\theta) = \log L(\theta|y_1,…,y_m)$のようにおくと、$l(\theta)$は下記のように変形できる。
$$
\large
\begin{align}
l(\theta) &= \log L(\theta|y_1,…,y_m) \\
&= \log \prod_{i=1}^{n} \frac{{}_n C_{y_i} \theta^{y_i} (1-\theta)^{n-y_i}}{1-(1-\theta)^n} \\
&= \sum_{i=1}^{n} \log \left\{ \frac{{}_n C_{y_i} \theta^{y_i} (1-\theta)^{n-y_i}}{1-(1-\theta)^n} \right\} \\
&= \sum_{i=1}^{n} \left\{ \log {}_n C_{y_i} + y_i \log \theta (n-y_i) \log (1-\theta) – \log(1-(1-\theta)^n) \right\} \\
&= \sum_{i=1}^{n} \left\{y_i \log \theta + (n-y_i) \log (1-\theta) – \log(1-(1-\theta)^n) + Const. \right\}
\end{align}
$$
上記では$\theta$に関係ない項を$Const.$のようにおいた。

ここで$l(\theta)$を$\theta$で偏微分することを考える。
$$
\large
\begin{align}
\frac{\partial l(\theta)}{\partial \theta} &= \sum_{i=1}^{n} \left\{ \frac{y_i}{\theta} – \frac{n-y_i}{1-\theta} – \frac{-n(1-\theta)^{n-1} \times (-1)}{1-(1-\theta)^n} \right\} \\
&= \sum_{i=1}^{n} \left\{ \frac{y_i}{\theta} – \frac{n-y_i}{1-\theta} – \frac{n(1-\theta)^{n-1}}{1-(1-\theta)^n} \right\} \\
&= \frac{m \bar{y}}{\theta} – \frac{mn – m \bar{y}}{1-\theta} – \frac{mn(1-\theta)^{n-1}}{1-(1-\theta)^n}
\end{align}
$$

上記が$0$になる$\theta$の値を以下導出を行う。
$$
\large
\begin{align}
\frac{\partial l(\theta)}{\partial \theta} &= 0 \\
\frac{m \bar{y}}{\theta} – \frac{mn – m \bar{y}}{1-\theta} – \frac{mn(1-\theta)^{n-1}}{1-(1-\theta)^n} &= 0 \\
\frac{\bar{y}}{\theta} – \frac{n – \bar{y}}{1-\theta} &= \frac{n(1-\theta)^{n-1}}{1-(1-\theta)^n} \\
(\bar{y}(1-\theta) – (n – \bar{y})\theta) \left\{ 1-(1-\theta)^n \right\} &= n(1-\theta)^{n-1} \theta(1-\theta) \\
(\bar{y} – \bar{y}\theta – n \theta + \bar{y} \theta) \left\{ 1-(1-\theta)^n \right\} &= n \theta (1-\theta)^{n} \\
(\bar{y} – n \theta) \left\{ 1-(1-\theta)^n \right\} &= n \theta (1-\theta)^{n} \\
\bar{y} – \bar{y}(1-\theta)^n – n \theta + n \theta (1-\theta)^n &= n \theta (1-\theta)^{n} \\
n \theta &= \bar{y} \left\{ 1-(1-\theta)^n) \right\}
\end{align}
$$
パラメータ$\theta$の最尤推定値$\hat{\theta}$は上記に基づいて、何らかの数値計算の手法などを用いて計算することができる。

また、$(8)$式より、$\bar{y}$に関して下記が成立する。
$$
\large
\begin{align}
\bar{y} = \frac{n \theta}{1-(1-\theta)^n)} = \eta(\theta)
\end{align}
$$
よって、$\hat{\theta}$はモーメント法に基づく推定値でもあることが確認できる。

解説

[2]の分子の$P(X = x, X \geq 1)$の取り扱いがいきなり出てくるのでやや難しいかもしれません。[3]も期待値の定義に基づく変形に気づかなければ解くのが難しい印象でした。上記の解答では$x {}_n C_x = n {}_{n-1} C_{x-1}$と二項定理を用いましたが、計算ミスが多くなりやすいかもしれません。また、[3]の分散の計算にあたっては$V[X]=E[X(X-1)]+E[X]-E[X]^2$を用いましたが、これは確率母関数による$E[X], V[X]$の導出の際の式と同様なので、抑えておくと良いと思います。
20点配分なら[1]が3点、[2]が3点、[3]が5点、[4]が3点、[5]が6点ほどが全体の難易度から見ると妥当な印象ですが、解答状況を鑑みて序盤の問題に多めに点が配分されるかもしれません。

統計検定1級 統計数理 問題解説 ~2019年11月実施 問5~

統計検定1級の2019年11月の「統計数理」の問5の解答例と解説について取り扱いました。他の問題の解答に関しては下記よりご確認ください。
https://www.hello-statisticians.com/stat_certifi_1_math

問題

詳しくは統計検定公式よりご確認ください。

解答

[1]
・$E[\mu]$の導出
事前分布の期待値$E[\mu]$は下記のように考えることができる。
$$
\large
\begin{align}
E[\mu] &= \int_{-\infty}^{\infty} \mu \times g(\mu) d \mu \\
&= \int_{-\infty}^{\infty} \mu \times \frac{\lambda}{2} \exp \left\{ -\lambda|\mu-\xi| \right\} d \mu \\
&= \int_{-\infty}^{\xi} \mu \times \frac{\lambda}{2} \exp \left\{ \lambda(\mu-\xi) \right\} d \mu + \int_{\xi}^{\infty} \mu \times \frac{\lambda}{2} \exp \left\{ – \lambda(\mu-\xi) \right\} d \mu
\end{align}
$$

上記を詳しく導出するにあたって、$\displaystyle \int_{-\infty}^{\xi} \mu \times \frac{\lambda}{2} \exp \left\{ \lambda(\mu-\xi) \right\} d \mu$と$\displaystyle \int_{\xi}^{\infty} \mu \times \frac{\lambda}{2} \exp \left\{ -\lambda(\mu-\xi) \right\} d \mu$の計算を以下で行う。
$$
\large
\begin{align}
& \int_{-\infty}^{\xi} \mu \times \frac{\lambda}{2} \exp \left\{ \lambda(\mu-\xi) \right\} d \mu \\
&= \left[ \mu \times \frac{\lambda}{2} \times \frac{1}{\lambda} \exp \left\{ \lambda(\mu-\xi) \right\} \right]_{-\infty}^{\xi} – \int_{-\infty}^{\xi} (\mu)’ \times \frac{\lambda}{2} \times \frac{1}{\lambda} \exp \left\{ \lambda(\mu-\xi) \right\} d \mu \\
&= \frac{1}{2}(\xi \cdot 1 – 0) – \frac{1}{2} \int_{-\infty}^{\xi} \exp \left\{ \lambda(\mu-\xi) \right\} d \mu \\
&= \frac{\xi}{2} – \frac{1}{2} \left[ \frac{1}{\lambda} \exp \left\{ \lambda(\mu-\xi) \right\} \right]_{-\infty}^{\xi} \\
&= \frac{\xi}{2} – \frac{1}{2 \lambda} (1-0) \\
&= \frac{\xi}{2} – \frac{1}{2 \lambda}
\end{align}
$$

$$
\large
\begin{align}
& \int_{\xi}^{\infty} \mu \times \frac{\lambda}{2} \exp \left\{ -\lambda(\mu-\xi) \right\} d \mu \\
&= \left[ \mu \times \frac{\lambda}{2} \times \frac{-1}{\lambda} \exp \left\{ -\lambda(\mu-\xi) \right\} \right]_{\xi}^{\infty} – \int_{\xi}^{\infty} (\mu)’ \times \frac{\lambda}{2} \times \frac{-1}{\lambda} \exp \left\{ -\lambda(\mu-\xi) \right\} d \mu \\
&= -\frac{1}{2}(0 – \xi \cdot 1) + \frac{1}{2} \int_{\xi}^{\infty} \exp \left\{ -\lambda(\mu-\xi) \right\} d \mu \\
&= \frac{\xi}{2} + \frac{1}{2} \left[ \frac{-1}{\lambda} \exp \left\{ -\lambda(\mu-\xi) \right\} \right]_{\xi}^{\infty} \\
&= \frac{\xi}{2} – \frac{1}{2 \lambda} (0-1) \\
&= \frac{\xi}{2} + \frac{1}{2 \lambda}
\end{align}
$$

ここまでの議論より$E[\mu]$の計算を行うと下記が得られる。
$$
\large
\begin{align}
E[\mu] &= \int_{-\infty}^{\xi} \mu \times \frac{\lambda}{2} \exp \left\{ \lambda(\mu-\xi) \right\} d \mu + \int_{\xi}^{\infty} \mu \times \frac{\lambda}{2} \exp \left\{ \lambda(\mu-\xi) \right\} d \mu \\
&= \frac{\xi}{2} – \frac{1}{2 \lambda} + \frac{\xi}{2} + \frac{1}{2 \lambda} \\
&= \xi
\end{align}
$$

・$V[\mu]$の導出
事前分布の分散$V[\mu]$は下記のように考えることができる。
$$
\large
\begin{align}
V[\mu] &= E[(\mu-E[\mu])^2] \\
&= E[(\mu-\xi)^2] \\
&= \int_{-\infty}^{\infty} (\mu-\xi)^2 \times g(\mu) d \mu \\
&= \int_{-\infty}^{\infty} (\mu-\xi)^2 \times \frac{\lambda}{2} \exp \left\{ -\lambda|\mu-\xi| \right\} d \mu \\
&= \int_{-\infty}^{\xi} (\mu-\xi)^2 \times \frac{\lambda}{2} \exp \left\{ \lambda(\mu-\xi) \right\} d \mu + \int_{\xi}^{\infty} (\mu-\xi)^2 \times \frac{\lambda}{2} \exp \left\{ -\lambda(\mu-\xi) \right\} d \mu
\end{align}
$$

上記を詳しく導出するにあたって、$\displaystyle \int_{-\infty}^{\xi} (\mu-\xi)^2 \times \frac{\lambda}{2} \exp \left\{ \lambda(\mu-\xi) \right\} d \mu$と$\displaystyle \int_{\xi}^{\infty} (\mu-\xi)^2 \times \frac{\lambda}{2} \exp \left\{ -\lambda(\mu-\xi) \right\} d \mu$の計算を以下で行う。そのまま計算を行うと複雑なので、変数を$x = \lambda(\mu-\xi)$のように置き換えて積分を行う。
$$
\large
\begin{align}
\int_{-\infty}^{\xi} (\mu-\xi)^2 \times \frac{\lambda}{2} \exp \left\{ \lambda(\mu-\xi) \right\} d \mu &= \int_{-\infty}^{0} \left( \frac{x}{\lambda} \right)^2 \times \frac{\lambda}{2} \exp \left\{ x \right\} \times \frac{1}{\lambda} dx \\
&= \frac{1}{2 \lambda^2} \int_{-\infty}^{0} x^2 e^x dx \\
&= \frac{1}{2 \lambda^2} \left( \left[ x^2 e^x \right]_{-\infty}^{0} – \int_{-\infty}^{0} 2x e^x dx \right) \\
&= \frac{1}{2 \lambda^2} \left( (0-0) – 2 \left[ x e^x \right]_{-\infty}^{0} + \int_{-\infty}^{0} e^x dx \right) \\
&= \frac{1}{2 \lambda^2} \left( – 2(0-0) + 2 \left[ e^x \right]_{-\infty}^{0} \right) \\
&= \frac{1}{2 \lambda^2} \times 2(1-0) \\
&= \frac{1}{\lambda^2}
\end{align}
$$

$$
\large
\begin{align}
\int_{\xi}^{\infty} (\mu-\xi)^2 \times \frac{\lambda}{2} \exp \left\{ -\lambda(\mu-\xi) \right\} d \mu &= \int_{0}^{\infty} \left( \frac{x}{\lambda} \right)^2 \times \frac{\lambda}{2} \exp \left\{ -x \right\} \times \frac{1}{\lambda} dx \\
&= \frac{1}{2 \lambda^2} \int_{0}^{\infty} x^2 e^{-x} dx \\
&= \frac{1}{2 \lambda^2} \left( \left[ -x^2 e^x \right]_{0}^{\infty} + \int_{0}^{\infty} 2x e^{-x} dx \right) \\
&= \frac{1}{2 \lambda^2} \left( -(0-0) + 2 \left[ – x e^{-x} \right]_{0}^{\infty} + 2 \int_{0}^{\infty} e^x dx \right) \\
&= \frac{1}{2 \lambda^2} \left( – 2(0-0) + 2 \left[ -e^x \right]_{0}^{\infty} \right) \\
&= \frac{1}{2 \lambda^2} \times -2(0-1) \\
&= \frac{1}{\lambda^2}
\end{align}
$$

ここまでの議論より$V[\mu]$の計算を行うと下記が得られる。
$$
\large
\begin{align}
V[\mu] &= \int_{-\infty}^{\xi} (\mu-\xi)^2 \times \frac{\lambda}{2} \exp \left\{ \lambda(\mu-\xi) \right\} d \mu + \int_{\xi}^{\infty} (\mu-\xi)^2 \times \frac{\lambda}{2} \exp \left\{ -\lambda(\mu-\xi) \right\} d \mu \\
&= \frac{1}{\lambda^2} + \frac{1}{\lambda^2} \\
&= \frac{2}{\lambda^2}
\end{align}
$$

[2]
$\mathbf{y}=(y_1,y_2,…,y_n)$に関する同時確率密度関数を$f(y_1,y_2,…,y_n)$とおくと、$f(y_1,y_2,…,y_n)$に関して下記が成立する。
$$
\large
\begin{align}
f(y_1,y_2,…,y_n) &= \prod_{i=1}^{n} f(y_i) \\
&= \prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi}} \exp \left[ -\frac{(y_i-\mu)^2}{2} \right] \\
&= (2 \pi)^{-\frac{n}{2}} \exp \left[ – \frac{1}{2} \sum_{i=1}^{n} (y_i-\mu)^2 \right]
\end{align}
$$

よって、$\mu$の事後確率$g(\mu|y_1,y_2,…,y_n)$は正規化定数を無視すると下記のように得ることができる。
$$
\large
\begin{align}
g(\mu|y_1,y_2,…,y_n) & \propto f(y_1,y_2,…,y_n) g(\mu) \\
&= (2 \pi)^{-\frac{n}{2}} \exp \left[ – \frac{1}{2} \sum_{i=1}^{n} (y_i-\mu)^2 \right] \times \frac{\lambda}{2} \exp \left[ – \lambda|\mu-\xi| \right] \\
&= \frac{\lambda}{2(2 \pi)^{\frac{n}{2}}} \exp \left[ – \frac{1}{2} \sum_{i=1}^{n} (y_i-\mu)^2 – \lambda|\mu-\xi| \right]
\end{align}
$$

[3]、[4]
難問だと思われるので、ここでは省略します。詳しくは公式の書籍をご確認ください。

解説

確率密度関数$g(\mu)$に絶対値が出てくることで全体的に計算が複雑な印象でした。[1]は積分区間を考えることで絶対値を通常の関数に変形し、その後に部分積分を行うことで計算を行えます。[2]に関してはベイズの定理を元に事前分布と事後分布を理解していればそれほど難しくないと思います。
[3]と[4]に関してはベイズ法の基本的な流れを理解しているだけでは試験中に解答できるとは思えなかったので、ここでは省略しました。
配点に関しては[1]が7点、[2]が3点、[3]が7点、[4]が3点ほどが妥当な印象で、[3]と[4]は部分点狙いで十分だと思われました。

統計検定1級 統計数理 問題解説 ~2019年11月実施 問4~

統計検定1級の2019年11月の「統計数理」の問4の解答例と解説について取り扱いました。他の問題の解答に関しては下記よりご確認ください。
https://www.hello-statisticians.com/stat_certifi_1_math

問題

詳しくは統計検定公式よりご確認ください。

解答

[1]
検定における第一種の過誤の確率$\alpha$は棄却域が$R=\{x:1<x<3\}$であることより、下記のように計算できる。
$$
\large
\begin{align}
\alpha &= P(1<X<3|\theta=0) \\
&= \int_{1}^{3} \frac{1}{\pi \{ 1+x^2 \}} \\
&= \frac{1}{\pi} \left[ \tan^{-1}(x) \right]_{1}^{3} \\
&= \frac{1}{\pi} (\tan^{-1}(3) – \tan^{-1}(1)) \\
&= \frac{1}{\pi} \left( 1.249 – \frac{\pi}{4} \right) \\
&= \frac{1.249}{3.1416} – \frac{1}{4} \\
&= 0.147568… \\
& \fallingdotseq 0.148
\end{align}
$$

[2]
検出力$1-\beta$は棄却域が$R=\{x:1<x<3\}$であることより、下記のように計算できる。
$$
\large
\begin{align}
1-\beta &= 1 – P(X<1, 3<X|\theta=1) \\
&= P(1<X<3|\theta=1) \\
&= \int_{1}^{3} \frac{1}{\pi \{ 1+(x-1)^2 \}} dx \\
&= \frac{1}{\pi} \left[ \tan^{-1}(x-1) \right]_{1}^{3} \\
&= \frac{1}{\pi} (\tan^{-1}(3-1) – \tan^{-1}(1-1)) \\
&= \frac{1}{\pi} (\tan^{-1}(2) – \tan^{-1}(0)) \\
&= \frac{1}{3.1416} (1.107 – 0) \\
&= 0.3523682… \\
& \fallingdotseq 0.352
\end{align}
$$

[3]
尤度比$\lambda(x)$を考えるにあたって、$f_{0}(x), f_{1}(x)$はそれぞれ下記のように表すことができる。
$$
\large
\begin{align}
f_{0}(x) &= \frac{1}{\pi ( 1+x^2 )} \\
f_{1}(x) &= \frac{1}{\pi \{ 1+(x-1)^2 \}}
\end{align}
$$

上記より、尤度比$\displaystyle \lambda(x) = \frac{f_{1}(x)}{f_{0}(x)}$は下記のように導出できる。
$$
\large
\begin{align}
\lambda(x) &= \frac{f_{1}(x)}{f_{0}(x)} \\
&= \frac{1}{\pi \{ 1+(x-1)^2 \}} \times \pi ( 1+x^2 ) \\
&= \frac{1+x^2}{1+(x-1)^2} \\
\end{align}
$$

上記で導出した$\lambda(x)$に$x=1, x=3$を代入することで下記を求めることができる。
$$
\large
\begin{align}
\lambda(1) &= \frac{1+1^2}{1+(1-1)^2} \\
&= \frac{1+1^2}{1+0^2} \\
&= 2 \\
\lambda(3) &= \frac{1+3^2}{1+(3-1)^2} \\
&= \frac{1+3^2}{1+2^2} \\
&= 2
\end{align}
$$

グラフの概形に関しては、$\lambda'(x)=0$より極値を持つ$x$の値を求め、$x \to \pm \infty$の極限を計算することで描くことができる。公式の書籍の解答がわかりやすいのでここでは省略を行う。

[4]
ネイマン・ピアソンの基本定理により、$\alpha$が与えられた条件下における最強力検定は、尤度比がある値以上の領域を棄却域に定める。[1]〜[3]の解答より、棄却域を$R={x:1<x<3}$にする検定が最強力検定となる。

解説

[1]〜[3]に関しては他の大問に比べて比較的計算しやすい問いが並んでいるので、大問5題中3題の選択にあたってはなるべくこういった問題を選ぶと良いと思われました。
[4]を理解するにあたっては、$H_{0}:\theta=0, H_{1}:\theta=1$の単純仮説検定に対して、尤度比$\lambda(x)$に対して$\lambda(x) > 2$を棄却域に定めたと考えれば[3]で作成を行うグラフより棄却域の$R=\{x:1<x<3\}$が対応するので、ネイマン・ピアソンの定理に対応付けて理解することができると思います。
20点配分なら[1]が5点、[2]が5点、[3]が7点、[4]が3点が妥当なのではないかと思います。[3]のグラフを正確に描くことができ、そこから[4]を考察できれば試験時であっても完答が狙えるのではないかと思います。

統計検定1級 統計数理 問題解説 ~2019年11月実施 問3~

統計検定1級の2019年11月の「統計数理」の問3の解答例と解説について取り扱いました。他の問題の解答に関しては下記よりご確認ください。
https://www.hello-statisticians.com/stat_certifi_1_math

問題

詳しくは統計検定公式よりご確認ください。

解答

[1]
一様分布を考えるにあたって指示関数$\mathit{I}_{[x \leq c]}(x)$を下記のように定義する。
$$
\large
\begin{align}
\mathit{I}_{[x \leq c]}(x) &= 1, \quad if \quad x \leq c \\
&= 0 \quad otherwise
\end{align}
$$

上記は$x$に関して$x \leq c$が成立すれば$\mathit{I}_{[x \leq c]}(x)=1$、そうでなければ$\mathit{I}_{[x \leq c]}(x)=0$を表す。

このとき一様分布$U(0,\theta)$に従う確率変数$X_i$の確率密度関数を$f(x_i)$と定義すると、$f(x_i)$は指示関数を用いて下記のように表すことができる。
$$
\large
\begin{align}
f(x_i) = \frac{1}{\theta} \mathit{I}_{[0 \leq x_i \leq \theta]}(x_i)
\end{align}
$$

上記に基づいて、確率変数$X_1,X_2,…,X_n$に関する同時確率密度関数を$f(x_1,x_2,…,x_n)$のように定義すると、$f(x_1,x_2,…,x_n)$は下記のように表せる。
$$
\large
\begin{align}
f(x_1,x_2,…,x_n) &= \prod_{i=1}^{n} \frac{1}{\theta} \mathit{I}_{[0 \leq x_i \leq \theta]}(x_i) \\
&= \frac{1}{\theta^n} \prod_{i=1}^{n} \mathit{I}_{[0 \leq x_i \leq \theta]}(x_i) \\
&= \frac{1}{\theta^n} \mathit{I}_{[0 \leq x_1 \leq \theta, …, 0 \leq x_n \leq \theta]}(x_1,…,x_n) \\
&= \frac{1}{\theta^n} \mathit{I}_{[0 \leq \min x_i]}(x_1,…,x_n) \mathit{I}_{[\max x_i \leq \theta]}(x_1,…,x_n) \\
&= \frac{1}{\theta^n} \mathit{I}_{[0 \leq \min x_i]}(x_1,…,x_n) \mathit{I}_{[y \leq \theta]}(y)
\end{align}
$$

上記より、Fisher-Neymanの分解定理により、$Y$が$\theta$に関する十分統計量であることが確認できる。

[2]
$Y$の累積分布関数を$G(y)$とおくとき、$G(y)$は$0 < y < \theta$の範囲で下記のように表すことができる。
$$
\large
\begin{align}
G(y) &= P(Y \leq y) \\
&= P(X_1,X_2,…,X_n \leq y) \\
&= P(X_1 \leq y)P(X_2 \leq y)…P(X_n \leq y) \\
&= \prod_{i=1}^{n} \frac{y}{\theta} \\
&= \frac{y^n}{\theta^n}
\end{align}
$$

$Y$の確率密度関数の$g(y)$は$G(y)$を$y$で微分することで、$0 < y < \theta$の範囲で下記のように得ることができる。
$$
\large
\begin{align}
g(y) &= \frac{d}{dy} G'(y) \\
&= \frac{d}{dy} \left( \frac{y^n}{\theta^n} \right)’ \\
&= \frac{n}{\theta^n} y^{n-1}
\end{align}
$$

[3]
$Y=y$が与えられた際の$X_1,…,X_n$に関する条件付き同時確率密度関数を$Y$以外の確率変数を$X_1,…,X_{n-1}$とおくことで$f(x_1,…,x_{n-1}|y)$のように定義する。このとき条件付き確率の式より、$f(x_1,…,x_{n-1}|y)$は下記のように表すことができる。
$$
\large
\begin{align}
f(x_1,…,x_{n-1}|y) = \frac{f(x_1,…,x_{n-1},y)}{g(y)}
\end{align}
$$

上記の$g(y)$は[2]で求めた。$f(x_1,…,x_{n-1},y)$は一様分布の1つの地点であり、$Y$の選び方が$n$通りあると考えると下記が成立する。
$$
\large
\begin{align}
f(x_1,…,x_{n-1},y) = \frac{n}{\theta^n}
\end{align}
$$

ここまでの議論により、条件付き確率$f(x_1,…,x_{n-1}|y)$は下記のように導出できる。
$$
\large
\begin{align}
f(x_1,…,x_{n-1}|y) &= \frac{f(x_1,…,x_{n-1},y)}{g(y)} \\
&= \frac{\frac{n}{\theta^n}}{\frac{n}{\theta^n} y^{n-1}} \\
&= \frac{1}{y^{n-1}}
\end{align}
$$

・別解
$Y=X_n$となる確率が$1/n$と考えて解く方法もある。← 公式書籍に記載されているので、そちらを参照ください。

[4]
$Y$の期待値$E[Y]$は下記のように計算することができる。
$$
\large
\begin{align}
E[Y] &= \int_{0}^{\theta} y \cdot g(y) dy \\
&= \int_{0}^{\theta} y \cdot \frac{n}{\theta^n} y^{n-1} dy \\
&= \frac{n}{\theta^n} \int_{0}^{\theta} y^{n} dy \\
&= \frac{n}{\theta^n} \left[ \frac{1}{n+1} y^{n+1} \right]_{0}^{\theta} \\
&= \frac{n}{\theta^n} \times \frac{\theta^{n+1}}{n+1} \\
&= \frac{n}{n+1} \theta
\end{align}
$$

また、上記より、下記が成立する。
$$
\large
\begin{align}
E \left[ \frac{n+1}{n}Y \right] &= \frac{n+1}{n} E[Y] \\
&= \frac{n+1}{n} \times \frac{n}{n+1} \theta \\
&= \theta
\end{align}
$$
上記より$\displaystyle \tilde{\theta} = \frac{n+1}{n} Y$とおけば$E[\tilde{\theta}]=\theta$より、$\tilde{\theta}$が不偏推定量であることがわかる。

[5]
$E[u(Y)]=0$であることより、下記のように考えることができる。
$$
\large
\begin{align}
E[u(Y)] &= \int_{0}^{\theta} u(y) \cdot g(y) dy \\
&= \int_{0}^{\theta} u(y) \cdot \frac{n}{\theta^n} y^{n-1} dy \\
&= \frac{n}{\theta^n} \int_{0}^{\theta} u(y) y^{n-1} dy = 0 \\
\end{align}
$$

上記が全ての$\theta$で成立するには$u(Y)$がなめらかであることより$u(Y) \equiv 0$でなければならない。

[6]
$s(Y)$を$\theta$の別の不偏推定量であると考えると、$E[s(Y)]=\theta$が成立する。ここで$u(Y)=s(Y)-\tilde{\theta}$とおくと、$E[u(Y)]$は下記のように変形できる。
$$
\large
\begin{align}
E[u(Y)] &= E \left[ s(Y)-\tilde{\theta} \right] \\
&= E \left[ s(Y) \right] – E \left[ \frac{n+1}{n}Y \right] \\
&= \theta – \theta \\
&= 0
\end{align}
$$
ここで[5]より$E[u(Y)]=0 \implies u(Y) \equiv 0$が成立し、$u(Y) \equiv 0$より$s(Y) \equiv \tilde{\theta}$も成立する。よって、[4]で計算を行なった$\tilde{\theta}$が唯一の不偏推定量であることがわかる。

解説

[1]でFisher-Neymanの分解定理を用いて示した十分統計量に関しては[3]の式が$\theta$に依存しないことを確認することで示すことができます。[1]と[3]が重複することでミスリードを生むとも思われるので、何かしら問題文に追記がある方が良い印象でした。
また、[4]で導出を行なった一様分布の不偏推定量が$\displaystyle \tilde{\theta} = \frac{n+1}{n} Y = \frac{n+1}{n} \max X_i$となるのは最尤推定量が$\max X_i$であるのと合わせて抑えておくと良いと思います。
20点配分なら[1]が5点、[2]が3点、[3]が3点、[4]が3点、[5]が3点、[6]が3点ほどが妥当だと思われました。

統計検定1級 統計数理 問題解説 ~2019年11月実施 問1~

統計検定1級の2019年11月の「統計数理」の問1の解答例と解説について取り扱いました。他の問題の解答に関しては下記よりご確認ください。
https://www.hello-statisticians.com/stat_certifi_1_math

問題

詳しくは統計検定公式よりご確認ください。

解答

[1]
$G_{X}(t)$を$t$に関して$1$階微分、$2$階微分を行うと下記が得られる。
$$
\large
\begin{align}
\frac{d}{dt} G_{X}(t) &= \frac{d}{dt} E[t^X] \\
&= E \left[ \frac{d}{dt} t^X \right] \\
&= E[Xt^{X-1}] \\
\frac{d^2}{dt^2} G_{X}(t) &= \frac{d}{dt} E[Xt^{X-1}] \\
&= E \left[ \frac{d}{dt} Xt^{X-1} \right] \\
&= E[X(X-1)t^{X-2}]
\end{align}
$$

上記に対し、$t=1$を代入することで下記が得られる。
$$
\large
\begin{align}
\frac{d}{dt} G_{X}(t) \Bigr|_{t=1} &= E[X 1^{X-1}] \\
&= E[X] = G{X}'(1) \\
\frac{d^2}{dt^2} G_{X}(t) \Bigr|_{t=1} &= E[X(X-1) 1^{X-2}] \\
&= E[X(X-1)] = G{X}^{”}(1)
\end{align}
$$

ここで$V[X]=E[X^2]-E[X]^2$より確率変数$X$の期待値と分散は下記のように確率母関数を用いて表すことができる。
$$
\large
\begin{align}
E[X] &= G_{X}'(1) \\
V[X] &= E[X^2]-E[X]^2 \\
&= E[X(X-1+1)]-E[X]^2 \\
&= E[X(X-1)+X]-E[X]^2 \\
&= E[X(X-1)]+E[X]-E[X]^2 \\
&= G_{X}^{”}(1) + G_{X}'(1) – G_{X}'(1)^2
\end{align}
$$

[2]
二項分布の確率変数$X$に対し、$i$回目のベルヌーイ試行の確率変数を$X_i \in {0,1}$とおく。このとき$X_i$に関して$E[t^{X_i}]$は下記のように計算できる。
$$
\large
\begin{align}
E[t^{X_i}] &= p t^{1} + (1-p) t^{0} \\
&= pt + 1 – p
\end{align}
$$

ここで$\displaystyle X = \sum_{i=1}^{n} X_i$のように表せることから、二項分布に関する確率母関数$G_{X}(t)=E[t^X]$は下記のように求めることができる。
$$
\large
\begin{align}
G_{X}(t) &= E[t^{X}] \\
&= E[t^{\sum_{i=1}^{n} X_i}] \\
&= E[t^{X_1}] \times E[t^{X_2}] \times … \times E[t^{X_n}] \\
&= (pt + 1 – p) \times … \times (pt + 1 – p) \\
&= (pt + 1 – p)^n
\end{align}
$$

また、$G_{X}'(t), G_{X}^{”}(t)$は下記のように計算できる。
$$
\large
\begin{align}
G_{X}'(t) &= \frac{d}{dt} (pt + 1 – p)^n \\
&= np(pt + 1 – p)^{n-1} \\
G_{X}^{”}(t) &= \frac{d}{dt} G_{X}'(t) \\
&= \frac{d}{dt} (np(pt + 1 – p)^{n-1}) \\
&= n(n-1)p^2 (pt + 1 – p)^{n-2}
\end{align}
$$

よって、$G_{X}'(1), G_{X}^{”}(1)$に関して下記が得られる。
$$
\large
\begin{align}
G_{X}'(1) &= np(p \cdot 1 + 1 – p)^{n-1} \\
&= np \times 1^{n-1} \\
&= np \\
G_{X}^{”}(1) &= n(n-1)p^2 (p \cdot 1 + 1 – p)^{n-2} \\
&= n(n-1)p^2 \times 1^{n-1} \\
&= n(n-1)p^2
\end{align}
$$

上記と[1]の結果を元に、二項分布$Bin(n,p)$の期待値$E[X]$と分散$V[X]$は下記のように導出することができる。
$$
\large
\begin{align}
E[X] &= G_{X}'(1) \\
&= np \\
V[X] &= G_{X}^{”}(1) + G_{X}'(1) – G_{X}'(1)^2 \\
&= n(n-1)p^2 + np – (np)^2 \\
&= n^2p^2 – np^2 + np – n^2p^2 \\
&= np – np^2 \\
&= np(1-p)
\end{align}
$$

・別解
公式の書籍での解答のように定義に沿って計算し、二項定理を用いて導出を行うこともできる。が、少々式が複雑なので、ここではベルヌーイ分布の確率変数$X_i$を考え、その和を元に二項分布の確率変数$X$を考えた。

[3]
$$
\large
\begin{align}
G_{X}(t) = E[t^X] = \sum_{k} t^k P(X=k) \quad (-1 \leq t \leq 1) \qquad (1)
\end{align}
$$
問題文では上記の$(1)$式が与えられるが、右辺の$\displaystyle \sum_{k}$に対し、$\displaystyle \sum_{k} = \sum_{k \leq r} + \sum_{k > r}$を考えると下記が得られる。
$$
\large
\begin{align}
\sum_{k} t^k P(X=k) = \sum_{k \leq r} t^k P(X=k) + \sum_{k > r} t^k P(X=k)
\end{align}
$$

ここで$\displaystyle \sum_{k \leq r} t^k P(X=k) \leq 0, \sum_{k > r} t^k P(X=k) \leq 0$より$G_{X}(t)$に関して下記が得られる。
$$
\large
\begin{align}
G_{X}(t) &= \sum_{k} t^k P(X=k) \\
& \geq \sum_{k \leq r} t^k P(X=k)
\end{align}
$$

上記の両辺に$t^{-r}$をかけることを考える。ここで$0 < t \leq 1$より$t^{-r}>0$であり、不等号は入れ替わらない。
$$
\large
\begin{align}
t^{-r} G_{X}(t) & \geq t^{-r} \sum_{k \leq r} t^k P(X=k) \\
&= \sum_{k \leq r} t^{k-r} P(X=k)
\end{align}
$$
上記に対し、$k-r \leq 0$より、$0 < t \leq 1$から$t^{k-r} \geq 1$が成立する。
$$
\large
\begin{align}
\sum_{k \leq r} t^{k-r} P(X=k) & \geq \sum_{k \leq r} P(X=k) \\
&= P(X \leq r)
\end{align}
$$

ここまでの議論により、$P(X \leq r) \leq t^{-r} G_{X}(t)$を示すことができる。

[4]
[3]の結果に対して$r=an$を代入し、下記を得る。
$$
\large
\begin{align}
P(X \leq an) \leq t^{-an} G_{X}(t)
\end{align}
$$

ここで右辺の$t^{-an} G_{X}(t) = t^{-an} (pt+1-p)^n$を$f(t)$とおき、$0 < t \leq 1$における最小値を求めることを考える。$t$に関する$f'(t)$を計算する。
$$
\large
\begin{align}
f'(t) &= \frac{d}{dt} (t^{-an} (pt+1-p)^n) \\
&= -an t^{-an-1} \times (pt+1-p)^n + t^{-an} \times np(pt+1-p)^{n-1} \\
&= n t^{-an-1} (pt+1-p)^{n-1} \times -a(pt+1-p) + n t^{-an-1} (pt+1-p)^{n-1} \times pt \\
&= n t^{-an-1} (pt+1-p)^{n-1} \left(-a(pt+1-p) + pt \right) \\
&= n t^{-an-1} np(pt+1-p)^{n-1} \left( pt(1-a) – a(1-p) \right) \\
&= n t^{-an-1} np(pt+1-p)^{n-1} \left( p(1-a)t – a(1-p) \right)
\end{align}
$$

上記に対して$f'(t)=0$となる$t$を考える。
$$
\large
\begin{align}
f'(t) &= 0 \\
p(1-a)t – a(1-p) &= 0 \\
t &= \frac{a(1-p)}{p(1-a)}
\end{align}
$$
ここで$a0, t^{-an-1}>0, pt+1-p>0, p>0, 1-a>0$より、$f'(t)$は$t$に関する単調増加関数である。

よって、$f(t)$は$\displaystyle t=\frac{a(1-p)}{p(1-a)}$の時、最小値をとる。これを$t^{-an} G_{X}(t)$に代入を行うことで下記が導出できる。
$$
\large
\begin{align}
P(X \leq an) & \leq \min ( t^{-an} G_{X}(t) ) \\
&= \min ( t^{-an} (pt+1-p)^{n} ) \\
&= \left( \frac{a(1-p)}{p(1-a)} \right)^{-an} \left( p \cdot \frac{a(1-p)}{p(1-a)} + 1 – p \right)^{n} \\
&= \left( \frac{a(1-p)}{p(1-a)} \right)^{-an} \left( \frac{a(1-p)}{1-a} + 1 – p \right)^{n} \\
&= \left( \frac{a(1-p)}{p(1-a)} \right)^{-an} \left( \frac{a(1-p)+(1-a)(1-p)}{1-a} \right)^{n} \\
&= \left( \frac{a(1-p)}{p(1-a)} \right)^{-an} \left( \frac{(1-p)}{1-a} \right)^{n} \\
&= \left( \frac{a}{p} \right)^{-an} \left( \frac{(1-p)}{1-a} \right)^{(1-a)n}
\end{align}
$$

解説

[2]までは教科書などでも出てくる導出であるので、ここまでは必ず解けるようにしておくと良いと思います。確率母関数やモーメント母関数を用いる際は確率変数の和を考えると計算が簡単になる場合が多いので、このような解法も抑えておくと良いです。
20点配分なら[1]が3点、[2]が7点、[3]が2点、[4]が8点くらいが良い印象で、[4]の計算は少々複雑なので[3]まで解いて[4]は部分点狙いでも十分だと思います。
また、[4]の公式の解答に、$f'(t)$が単調増加であることが書かれていないですが、$f'(t)=0$は最小値の必要条件でしかないので、単調増加も議論しておく方が良いと思います。

統計検定1級 統計数理 問題解説 ~2019年11月実施 問2~

統計検定1級の2019年11月の「統計数理」の問2の解答例と解説について取り扱いました。他の問題の解答に関しては下記よりご確認ください。
https://www.hello-statisticians.com/stat_certifi_1_math

問題

詳しくは統計検定公式よりご確認ください。

解答

[1]
$E[U]=E[X_1+X_2]=2E[X_1]$より、$E[X_1]$を求めることを考える。
$$
\large
\begin{align}
E[X_1] &= \int_{0}^{\infty} x \times \lambda e^{-\lambda x} dx \\
&= \left[ x \times -\frac{\lambda}{\lambda} e^{-\lambda x} \right]_{0}^{\infty} + \int_{0}^{\infty} x e^{-\lambda x} dx \\
&= \left[ -\frac{1}{\lambda} x e^{-\lambda x} \right]_{0}^{\infty} \\
&= -\frac{1}{\lambda} (0-1) \\
&= \frac{1}{\lambda}
\end{align}
$$

よって、$E[U]$は下記のように求められる。
$$
\large
\begin{align}
E[U] &= 2E[X_1] \\
&= 2 \times \frac{1}{\lambda} \\
&= \frac{2}{\lambda}
\end{align}
$$

[2]
下記のように確率変数$X_1,X_2$から確率変数$U,V$への変換を考える。
$$
\large
\begin{align}
U &= X_1+X_2 \\
V &= X_1
\end{align}
$$
このとき、逆変換は下記のように表せる。
$$
\large
\begin{align}
X_1 &= V \\
X_2 &= U-V
\end{align}
$$

ここでこの変換に関するヤコビ行列を$\mathbf{J}$とおくと、$\mathbf{J}$は下記のように表せる。
$$
\large
\begin{align}
\mathbf{J} &= \left( \begin{array}{cc} \frac{\partial x_1}{\partial u} & \frac{\partial x_1}{\partial v} \\ \frac{\partial x_2}{\partial u} & \frac{\partial x_1}{\partial v} \end{array} \right) \\
&= \left( \begin{array}{cc} 0 & 1 \\ 1 & -1 \end{array} \right)
\end{align}
$$
よって、ヤコビアン$|\det \mathbf{J}|$は下記のように計算できる。
$$
\large
\begin{align}
|\det \mathbf{J}| &= abs \left| \begin{array}{cc} 0 & 1 \\ 1 & -1 \end{array} \right| \\
&= |0 \cdot (-1) – 1 \cdot 1| \\
&= 1
\end{align}
$$

ここで$U,V$に関する確率密度関数の$g(u,v)$を考えると、変数変換に関する公式より下記のように導出できる。
$$
\large
\begin{align}
g(u,v) &= f(x_1,x_2) |\det \mathbf{J}| \\
&= f(x_1)f(x_2) \\
&= f(v)f(u-v) \\
&= \lambda e^{-\lambda v} \times \lambda e^{-\lambda (u-v)} \\
&= \lambda^2 e^{-\lambda u}
\end{align}
$$

また、$x_1>0,x_2>0$より、$v$に関して$0<v<u$が成立する。よって、確率密度関数$g(u)$は下記のように導出できる。
$$
\large
\begin{align}
g(u) &= \int_{0}^{\infty} g(u,v) dv \\
&= \int_{0}^{\infty} \lambda^2 e^{-\lambda u} dv \\
&= \lambda^2 e^{-\lambda u} [v]_{0}^{u} \\
&= u \lambda^2 e^{-\lambda u}
\end{align}
$$

[3]
期待値$\displaystyle E \left[ \frac{1}{U} \right]$は下記のように計算を行うことができる。
$$
\large
\begin{align}
E \left[ \frac{1}{U} \right] &= \int_{0}^{\infty} \frac{1}{u} g(u) du \\
&= \int_{0}^{\infty} \frac{1}{u} \times u \lambda^2 e^{-\lambda u} du \\
&= \int_{0}^{\infty} \lambda^2 e^{-\lambda u} du \\
&= \left[ -\frac{1}{\lambda} \lambda^2 e^{-\lambda u} \right]_{0}^{\infty} \\
&= \left[ -\lambda e^{-\lambda u} \right]_{0}^{\infty} \\
&= -\lambda(0-1) \\
&= \lambda
\end{align}
$$

[4]
$R(\alpha,\theta)$を定義に基づいて計算を行う。
$$
\large
\begin{align}
R(\alpha,\theta) &= E[L(\alpha \bar{X},\theta)] \\
&= E \left[ \frac{\alpha \bar{X}}{\theta} + \frac{\theta}{\alpha \bar{X}} – 2 \right] \\
&= E \left[ \frac{\alpha U}{2 \theta} \right] + E \left[ \frac{2 \theta}{\alpha U} \right] – 2 \\
&= \frac{2 \alpha}{2 \theta \lambda} + \frac{2 \theta \lambda}{\alpha} – 2 \\
&= \frac{\alpha}{\theta \lambda} + \frac{2 \theta \lambda}{\alpha} – 2 \\
&= \alpha + \frac{2}{\alpha} – 2
\end{align}
$$
上記の途中式では$\displaystyle \theta = \frac{1}{\lambda}$を用いた。

ここで$\displaystyle R(\alpha) = \alpha + \frac{2}{\alpha} – 2$が最小となる際の$\alpha$を求めるにあたって、$R(\alpha)$を$\alpha$で微分する。
$$
\large
\begin{align}
\frac{d}{d \alpha}R(\alpha) = 1 – \frac{2}{\alpha^2}
\end{align}
$$
上記より$\alpha=\sqrt{2}$の前後で$\displaystyle \frac{d}{d \alpha}R(\alpha)$の符号が$-$から$+$に入れ替わる。よって、$R(\alpha,\theta)$が最小になる$\alpha$の条件は$\alpha=\sqrt{2}$であることがわかる。

・別解
$\displaystyle \alpha + \frac{2}{\alpha}$に関して相加平均・相乗平均の不等式の等号成立条件の$\displaystyle \alpha = \frac{2}{\alpha}$を考えても良い。
$$
\large
\begin{align}
\alpha &= \frac{2}{\alpha} \\
\alpha^2 &= 2
\end{align}
$$
上記に対して$\alpha>0$より$\alpha=\sqrt{2}$となる。

解説

[2]が2変数の変数変換であり計算が複雑なのと、$V=X_1$とおくところが問題文にないことから少々難しいのではという印象でした。また、$g(u,v)$の導出後に積分を行うことや、その後の[3]が簡単なことからも問題を2つに分割しても良いと思われます。
20点配分なら[1]が3点、[2]が9点、[3]が2点、[4]が6点くらいが妥当な印象で、[2]を解かないと[3]が解けないことから[4]に比べても[2]の配点を大きくするのが良いのではと思われました。

指数型分布族における一様最強力不偏検定(UMPU test)とその図形的解釈

当記事では指数型分布族の式に関して一様最強力不偏検定(Uniformly Most Powerful Unbiased test)に関する補題を適用し、凸関数と直線の比較により両側検定の導出の解釈を行った。「現代数理統計学」の8章の「検定論」を参考に作成を行った。

一様最強力不偏検定に関する補題

一様最強力検定と片側検定

下記で取り扱った。
https://www.hello-statisticians.com/explain-terms-cat/most_powerful_test1.html

一様最強力不偏検定に関する補題

以下、「現代数理統計学」の補題8.5の確認を行う。

・現代数理統計学の補題8.5より一部改変
$$
\large
\begin{align}
H_0 &: \quad \theta = \theta_0 \\
H_1 &: \quad \theta \neq \theta_0
\end{align}
$$
上記のような検定を考える際に、$\beta_{\delta^{*}}(\theta_0)=\alpha,\beta_{\delta^{*}}'(\theta_0)=0$が成立すると仮定する。
ここで$\theta_1 \neq \theta_0$となる$\theta_1$を任意に固定したとき、$\delta^{*}$がある$c_1, c_2$を用いて下記の形式で表されれば$\delta^{*}$は不偏検定である。
$$
\large
\begin{align}
\delta^{*}(x) &= 1, \quad if \quad f(x,\theta_1) – c_1f(x,\theta_0) – c_2 \frac{\partial}{\partial \theta}f(x,\theta_0) > 0 \\
&= r(x), \quad if \quad f(x,\theta_1) – c_1f(x,\theta_0) – c_2 \frac{\partial}{\partial \theta}f(x,\theta_0) = 0 \\
&= 0, \quad if \quad f(x,\theta_1) – c_1f(x,\theta_0) – c_2 \frac{\partial}{\partial \theta}f(x,\theta_0) < 0 \quad (1.1)
\end{align}
$$

ここで任意の$\theta_1 \neq \theta_0$に関して$c_1=c_1(\theta_1),c_2=c_2(\theta_1)$を適当に選んだ際に$\delta^{*}$が$(1.1)$式の形で表されるならば$\delta^{*}$は一様最強力不偏検定である。

$(1.1)$式に関して以降で考えるにあたって、式の共通部分を$g(x,\theta_0,\theta_1)$と定義する。$g(x,\theta_0,\theta_1)$は下記のように表すことができる。
$$
\large
\begin{align}
g(x,\theta_0,\theta_1) = f(x,\theta_1) – c_1f(x,\theta_0) – c_2 \frac{\partial}{\partial \theta}f(x,\theta_0) \quad (1.2)
\end{align}
$$

指数型分布族における一様最強力不偏検定

指数型分布族の式の確認

変数$x$、自然パラメータ$\psi$の指数型分布族の確率関数・確率密度関数を$f(x,\psi)$とおくと、$f(x,\psi)$は下記のように表すことができる。
$$
\large
\begin{align}
f(x,\psi) = h(x) \exp \left\{ \psi T(x) – c(\psi) \right\}
\end{align}
$$

このとき、尤度比$\displaystyle \frac{f(x,\psi)}{f(x,\psi_0)}$は下記のように計算することができる。
$$
\large
\begin{align}
\frac{f(x,\psi)}{f(x,\psi_0)} &= \frac{h(x) \exp \left\{ \psi T(x) – c(\psi) \right\}}{h(x) \exp \left\{ \psi_0 T(x) – c(\psi_0) \right\}} \\
&= \exp \left\{ (\psi – \psi_0) T(x) – (c(\psi) – c(\psi_0)) \right\} \quad (2.1)
\end{align}
$$

上記の$(2.1)$式の両辺に$f(x,\psi_0)$をかけることで、下記で表すような「現代数理統計学」の$(8.56)$式を導出することができる。
$$
\large
\begin{align}
f(x,\psi) = \exp \left\{ (\psi – \psi_0) T(x) – (c(\psi) – c(\psi_0)) \right\} f(x,\psi_0) \quad (2.2)
\end{align}
$$

指数型分布族の微分

前項で取り扱った指数型分布族の確率関数・確率密度関数の$f(x,\psi)$に対して自然パラメータの$\psi$に関して微分を行うと、下記のように計算を行うことができる。
$$
\large
\begin{align}
\frac{\partial}{\partial \psi} f(x,\psi) &= \frac{\partial}{\partial \psi} \left\{ h(x) \exp \left\{ \psi T(x) – c(\psi) \right\} \right\} \\
&= h(x) \exp \left\{ \psi T(x) – c(\psi) \right\} \times \frac{\partial}{\partial \psi} (\psi T(x) – c(\psi)) \\
&= (T(x) – c'(\psi)) f(x,\psi) \quad (2.3)
\end{align}
$$

補題への確率関数の適用

$(1.1),(1.2)$式に対して、$(2.2)$式や$(2.3)$式を元に指数型分布族に関する計算を反映させることを考える。$\theta$と$\psi$が違うとわかりにくいので、$(1.1),(1.2)$式を$\psi$を用いた表記に書き直す。
$$
\large
\begin{align}
\delta^{*}(x) &= 1, \quad if \quad f(x,\psi_1) – c_1f(x,\psi_0) – c_2 \frac{\partial}{\partial \theta}f(x,\psi_0) > 0 \\
&= r(x), \quad if \quad f(x,\psi_1) – c_1f(x,\psi_0) – c_2 \frac{\partial}{\partial \psi}f(x,\psi_0) = 0 \\
&= 0, \quad if \quad f(x,\psi_1) – c_1f(x,\psi_0) – c_2 \frac{\partial}{\partial \theta}f(x,\psi_0) < 0 \quad (1.1)’
\end{align}
$$
$$
\large
\begin{align}
g(x,\psi_0,\psi_1) = f(x,\psi_1) – c_1f(x,\psi_0) – c_2 \frac{\partial}{\partial \psi}f(x,\psi_0) \quad (1.2)’
\end{align}
$$

また、$(2.2)$式を元に$f(x,\psi_1)$を、$(2.3)$式を元に$\displaystyle \frac{\partial}{\partial \psi}f(x,\psi_0)$を考えると下記のように導出できる。
$$
\large
\begin{align}
f(x,\psi_1) = \exp \left\{ (\psi_1 – \psi_0) T(x) – (c(\psi_1) – c(\psi_0)) \right\} f(x,\psi_0) \quad (2.4)
\end{align}
$$
$$
\large
\begin{align}
\frac{\partial}{\partial \psi} f(x,\psi_0) &= \frac{\partial}{\partial \psi} f(x,\psi) \Bigr|_{\psi=\psi_0} \\
&= (T(x) – c'(\psi_0)) f(x,\psi_0) \quad (2.5)
\end{align}
$$

$(1.2)’$式に$(2.4),(2.5)$式の代入を行う。
$$
\large
\begin{align}
g(x,\psi_0,\psi_1) &= f(x,\psi_1) – c_1f(x,\psi_0) – c_2 \frac{\partial}{\partial \psi}f(x,\psi_0) \\
&= \exp \left\{ (\psi_1 – \psi_0) T(x) – (c(\psi_1) – c(\psi_0)) \right\} f(x,\psi_0) – c_1f(x,\psi_0) – c_2 (T(x) – c'(\psi_0)) f(x,\psi_0) \\
&= \left[ \exp \left\{ (\psi_1 – \psi_0) T(x) – (c(\psi_1) – c(\psi_0)) \right\} – c_1 – c_2 (T(x) – c'(\psi_0)) \right] f(x,\psi_0) \quad (2.6)
\end{align}
$$

$(2.6)$式を元に$(1.1)’$式の1番目の式の$g(x,\psi_0,\psi_1)>0$について考える。
$$
\large
\begin{align}
g(x,\psi_0,\psi_1) &> 0 \\
\left[ \exp \left\{ (\psi_1 – \psi_0) T(x) – (c(\psi_1) – c(\psi_0)) \right\} – c_1 – c_2 (T(x) – c'(\psi_0)) \right] f(x,\psi_0) &> 0 \\
\exp \left\{ (\psi_1 – \psi_0) T(x) – (c(\psi_1) – c(\psi_0)) \right\} – c_1 – c_2 (T(x) – c'(\psi_0)) &> 0 \\
\exp \left\{ (\psi_1 – \psi_0) T(x) – (c(\psi_1) – c(\psi_0)) \right\} &> c_1 + c_2 (T(x) – c'(\psi_0)) \\
\exp \left\{ (\psi_1 – \psi_0) T(x) \right\} &> (c_1 + c_2 (T(x) – c'(\psi_0))) \exp \left\{ c(\psi_1) – c(\psi_0) \right\} \\
\exp \left\{ (\psi_1 – \psi_0) T(x) \right\} &> ((c_1- c'(\psi_0)) + c_2 T(x)) \exp \left\{ c(\psi_1) – c(\psi_0) \right\} \quad (2.7)
\end{align}
$$

ここで上記に対し、$\tilde{c}_1=(c_1- c'(\psi_0))\exp \left\{ c(\psi_1) – c(\psi_0) \right\}, \tilde{c}_2=c_2 T(x) \exp \left\{ c(\psi_1) – c(\psi_0) \right\}$のように置き直すことを考える。このとき$(2.7)$式は下記のように変形できる。
$$
\large
\begin{align}
\exp \left\{ (\psi_1 – \psi_0) T(x) \right\} &> ((c_1- c'(\psi_0)) + c_2 T(x)) \exp \left\{ c(\psi_1) – c(\psi_0) \right\} \\
\exp \left\{ (\psi_1 – \psi_0) T(x) \right\} &> \tilde{c}_1 + \tilde{c}_2 T(x) \quad (2.8)
\end{align}
$$

図形的解釈

前項で導出を行なった$(2.8)$式に関して図形的解釈を行う。
$$
\large
\begin{align}
\exp \left\{ (\psi_1 – \psi_0) T(x) \right\} > \tilde{c}_1 + \tilde{c}_2 T(x) \quad (2.8)
\end{align}
$$

$T(x)$を変数、左辺と右辺をそれぞれ関数と見るとき、上記の左辺は$T(x)$に関する指数関数、右辺は$T(x)$に関する一次関数である。

このとき$(2.8)$式の図形的解釈は、「左辺の指数関数が右辺の一次関数を上回る$T(x)$の範囲を表す式」と考えることができる。ここまでで$\psi_0, \psi_1$の大小関係は考えていないが、$\psi_1 – \psi_0 > 0, \psi_1 – \psi_0 < 0$のどちらの場合も「指数関数と一次関数の形状の比較から、両端で指数関数の方が大きくなり、中心で一次関数の方が大きくなるような解しか持ち得ない」ことがわかる。

よって、$\exp \left\{ (\psi_1 – \psi_0) T(x) \right\} > \tilde{c}_1 + \tilde{c}_2 T(x) = 0$が解を持つように$\tilde{c}_1, \tilde{c}_2$を設定する場合、$(2.8)$式の$T(x)$の解は$T(x)<a, b<T(x)$という形式になる。この形式を元に両側検定を導出することができる。

両側検定

前項の導出を元に、下記のような両側検定を考えることができる。
$$
\large
\begin{align}
T(x) > a, b < T(x) \implies reject
\end{align}
$$
上記は下記のように表す一様最強力不偏検定$\delta$に対応する。
$$
\large
\begin{align}
\beta(\phi_0)=\alpha, \beta'(\phi_0)=0
\end{align}
$$
$$
\large
\begin{align}
\delta(x) &= 1, \quad if \quad T(x)<a,b<T(x) \\
&= 0, \quad if \quad a<T(x)<b \\
&= r_a \quad if \quad T(x)=a \\
&= r_b \quad if \quad T(x)=b
\end{align}
$$
具体例がある方がわかりやすければ、下記で解答をまとめた「現代数理統計学」の章末課題の$8.9$で二項分布について取り扱われているので、合わせて確認すると良いと思われる。
https://www.hello-statisticians.com/explain-books-cat/math_stat_practice_ch8.html#89

抑えておきたいニュートン法と勾配法(Gradient Descent)の解釈の違いに関して

最適化問題を解くにあたって、勾配法(Gradient Descent)と同様によく用いられるのがニュートン法である。一方で、元々の数式がシンプルな勾配法とは異なり、ニュートン法は式が難しく表記されることが多いような印象を受ける。
ニュートン法の解説に関しては「ゼロから作るDeep Learning③」の解説が非常にわかりやすいと思われたので、当記事では「ゼロから作るDeep Learning③」の記載を元にニュートン法と勾配法の違いについて更新式の違いに着目することで確認を行う。

勾配法(Gradient Descent)

手法の確認

勾配法(Gradient Descent)は最適化問題を繰り返し演算を用いて解く手法である。以下、下に凸の関数$f(x)$に関して$f(x)$が最小になる$x$を求めることを考える。

$f(x)$に対して勾配法を用いるにあたっては、下記の漸化式を用いた更新式を用いる。
$$
\large
\begin{align}
x_{n+1} = x_{n} – \alpha f'(x_{n}) \quad (1)
\end{align}
$$

上記の解釈にあたっては、「点$x_n$における傾きのマイナスの向きに$x_n$を動かす=傾きが正なら数直線の左、傾きが負なら数直線の右に動かす」と考えれば良い。これにより、少なくとも点$x_n$よりも小さい点がある向きに動かして$x_{n+1}$を得ると考えることができる。

また、$\alpha$は学習率であり、$x_n$をどのくらい動かして$x_{n+1}$を得るかということを制御すると考えれば良い。

具体例を元に確認

下に凸の関数$f(x)=x^2$に対して、前項で確認した勾配法を元に値の更新を確認する。計算の簡易化にあたって、$x_0=8, \alpha=0.25$と定義する。このとき$x_1, x_2, x_3$は下記のように計算することができる。
$$
\large
\begin{align}
x_1 &= x_{0} – \alpha f'(x_{0}) \\
&= x_{0} – 0.25 \times 2x_0 \\
&= 0.5x_{0} = 4 \\
x_2 &= x_{1} – \alpha f'(x_{1}) \\
&= x_{1} – 0.25 \times 2x_1 \\
&= 0.5x_{1} = 2 \\
x_3 &= x_{2} – \alpha f'(x_{2}) \\
&= x_{2} – 0.25 \times 2x_2 \\
&= 0.5x_{2} = 1
\end{align}
$$

上記を確認すると、$x_0=8, x_1=4, x_2=2, x_3=1$のように、徐々に値が半分に変化することが確認できる。

ここまでの内容を元に一般項の$x_n$について考える。前項で表した$(1)$式は$x_0=8, \alpha=0.25$のとき下記のように変形を行うことができる。
$$
\large
\begin{align}
x_{n+1} &= x_{n} – \alpha f'(x_{n}) \\
&= x_{n} – 0.25 \times 2 x_n \\
&= 0.5x_{n}
\end{align}
$$
上記は数列${x_n}$が公比$0.5$の等比数列であることを表している。

ニュートン法

手法の確認

具体例を元に確認

ニュートン法の解釈