ブログ

統計検定準1級問題解説 ~2019年6月実施 問6 主成分分析~

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


解答

[1] 解答

$\boxed{ \ \mathsf{9}\ }$ : ③

表の各主成分の寄与率から累積寄与率を求めると、第4主成分までの累積寄与率が$0.292+0.193+0.172+0.127=0.784$、第5主成分までの累積寄与率が$0.784+0.117=0.901$となり、第5主成分で累積寄与率$80\%$を超える。

[2] 解答

$\boxed{ \ \mathsf{10}\ }$ : ①

第1主成分と第2主成分の固有ベクトルの値を散布図にプロットしたものは、明らかに①である。

[3] 解答

$\boxed{ \ \mathsf{11}\ }$ : ②

線形回帰モデルにおいては、AICの値が最も小さくなるようなモデルが最適なモデルとなるので、モデル4が最適なモデルといえる。

[4] 解答

$\boxed{ \ \mathsf{12}\ }$ : ②

① 前処理としてのデータの標準化は、例えばデータ間の単位が揃ってないような場合は行ったほうが良いが、必ずしも不可欠ではない。誤り。
②相関行列に対する主成分分析の場合、各主成分の主成分負荷量は、主成分ともとの変量との相関係数を表す。正しい。
③AICでモデルを比較する場合、比較するモデルの間に包含関係がある必要はない。誤り。
④AICによるモデル選択は標本の大きさ$n$が大きくなっても真のモデルを選ばないことがあるので、モデル同定の一致性を持っていない。誤り。
⑤交差検証法(クロスバリデーション)では、元のデータをいくつかに分割して、そのうち1つのデータをテスト用に残しておき、残りのデータで学習したモデルにテスト用のデータをあてはめ検証するという手順を、テストデータを入れ替えながら行っていくので、一般に計算量は大きくなる。誤り。


解説

主成分分析

主成分分析は、多変量データを少数で全体のばらつきを最もよく表す主成分と呼ばれる合成変数で記述する多変量解析の手法で、データの次元削減を目的とした手法である。

ここに、$d$個の変数をもつ$n$個の多変量データがある。
$$
{X} = \left(
\begin{array}{ccc}
x_{1,1} & x_{1,2} & \ldots & x_{1,d} \\
x_{2,1} & x_{2,2} & \ldots & x_{2,d} \\
\vdots & \vdots & \ddots & \vdots \\
x_{n,1} & x_{n,2} & \ldots & x_{n,d} \\
\end{array}
\right)\
$$
変数$j$における$n$個のデータの平均は
$$\bar x_{j}=\frac 1n\sum_{i=1}^n x_{i,j}$$
となる。変数$j$の分散$s_j^2$、変数$j$と変数$k$の共分散$s_{jk}\ (j\ne k)$は
$$
\begin{align}
s_j^2&=\frac1{n-1}\sum^n_{i=1}{(x_{ij}-\bar x_{j})^2}\\
s_{jk}&=\frac1{n-1}\sum^n_{i=1}{x_{ij}-\bar x_{j})(x_{ik}-\bar x_{k})}
\end{align}
$$
となり、この分散、共分散を並べた次の行列$S$を標本分散共分散行列という。
$$
{S} = \left(
\begin{array}{ccc}
s_1^2 & s_{12} & \ldots & s_{1d} \\
s_{21} & s_2^2 & \ldots & s_{2d} \\
\vdots & \vdots & \ddots & \vdots \\
s_{d1} & s_{d2} & \ldots & s_d^2 \\
\end{array}
\right)\
$$
標本分散共分散行列$S$の固有値$\lambda$と固有ベクトル$\boldsymbol{w}$は固有方程式
$$
S\boldsymbol{w}=\lambda\boldsymbol{w}
$$
を解くことで求められる。この方程式の解である固有値、固有ベクトルの組は$d$個ある。固有値を$$\lambda_1\ge\lambda_2\ge\cdots\ge\lambda_d\ge0$$と降順に並べたとき、$j$番目の固有値$\lambda_j$に対応する固有ベクトル$\boldsymbol{w}_j=(w_{1,j},w_{2,j},\cdots,w_{d,j})$ともとの変数$\boldsymbol{x}=(x_1,x_2,\cdots,x_d)^{\mathrm T}$との内積を第$j$主成分という。また、$c_j=\lambda_j/(\lambda_1+\cdots+\lambda_d)$を寄与率、$A_j=\sum_{k=1}^{j}c_k$を累積寄与率、データ$\boldsymbol{x}_i=(x_{i,1},x_{i,2},\cdots,x_{i,d})^{\mathrm T}$を主成分に代入した、
$$y_{i,j}=w_{1,j}x_{i,1}+w_{2,j}x_{i,2}+\cdots+w_{d,j}x_{i,d}$$を主成分得点という。
主成分ともとの変数の相関係数$$r_{i,j}=\frac{\sqrt{\lambda_j}w_{i,j}}{\sqrt{s_i^2}}$$
を主成分負荷量(因子負荷量)といい、主成分にもとの変数がどの程度影響があるのかを知る指標として使われる。主成分負荷量が大きいほど変数は主成分に大きく寄与しているといえる。

統計検定準1級問題解説 ~2019年6月実施 問5 後向き研究とオッズ比~

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


解答

$\boxed{ \ \mathsf{8}\ }$ : ①

本問題における調査は、喫煙歴が心筋梗塞の罹患率に影響があるのかを調べるための調査である。
喫煙の有無を$X$(喫煙なし$:X=0$,喫煙あり$:X=1$)、心筋梗塞の有無を$Y$(心筋梗塞患者でない者$:Y=0$,心筋梗塞患者$:Y=1$)とすると、喫煙歴がある場合とない場合のそれぞれに対する心筋梗塞の罹患率の比(相対リスク)は$P(Y=1|X=1)/P(Y=1|X=0)$で表されるので、本来求めたいのは$P(Y|X)$である。そのためには、心筋梗塞の罹患率が小さい値と知られているので、喫煙ありの人数と喫煙なしの人数を十分大きくとり、それぞれの心筋梗塞の罹患率を求めるほうが、相対リスクをより正確に推定することができる。

このとき、心筋梗塞患者に関する喫煙ありのオッズと心筋梗塞患者でない者に関する喫煙ありのオッズのオッズ比は$$
\begin{align*}
\frac{P(X=1|Y=1)/P(X=0|Y=1)}{P(X=1|Y=0)/P(X=0|Y=0)}&=\frac{P(X=1|Y=1)P(X=0|Y=0)}{P(X=0|Y=1)P(X=1|Y=0)}\\
&=\frac{P(X=1\cap Y=1)/P(Y=1)\cdot P(X=0\cap Y=0)/P(Y=0)}{P(X=0\cap Y=1)/P(Y=1)\cdot P(X=1\cap Y=0)/P(Y=0)}\\
&=\frac{P(X=1\cap Y=1)/P(X=1)\cdot P(X=0\cap Y=0)/P(X=0)}{P(X=0\cap Y=1)/P(X=0)\cdot P(X=1\cap Y=0)/P(X=1)}\\
&=\frac{P(Y=1|X=1)P(Y=0|X=0)}{P(Y=1|X=0)P(Y=0|X=1)}\\
\end{align*}
$$
と変形できる。そもそも、心筋梗塞の罹患率が小さい値であるから、喫煙あり、喫煙なしの人数を十分大きくとることができれば、$P(Y=0|X=0)/P(Y=0|X=1)$は限りなく$1$に近くなり、
$$
\frac{P(X=1|Y=1)/P(X=0|Y=1)}{P(X=1|Y=0)/P(X=0|Y=0)}\simeq\frac{P(Y=1|X=1)}{P(Y=1|X=0)}
$$
となる。このことから、オッズ比が相対リスクの近似値となりうる。

実際には本問題の調査のように、心筋梗塞患者とそうでない者を一定数用意し、過去の喫煙歴を調べている。この調査で推定できるのは$P(X|Y)$であるため、オッズ比は求められるが、この調査結果から直接喫煙者の心筋梗塞の罹患率や相対リスクを求めることは、標本数が心筋梗塞患者に対して十分大きくないため、正確に推計することはできない。

以上より、選択肢①が正しい。選択肢②は罹患者群とコントロール群の比率が相対リスクに影響しないので間違いである。選択肢③と④は調査結果から直接求めた罹患率を求めて分析しているので間違いである。選択肢①が正しいので選択肢⑤は「この調査から読み取れるものない」ということにならないので間違い。


解説

前向き研究と後向き研究、オッズ比

本問題の調査のように、喫煙の有無が心筋梗塞の罹患率に影響を与えるかを調査するために、心筋梗塞患者と心筋梗塞に罹患していない患者(コントロール群)を抽出して、過去の喫煙の有無を調べる手法を後向き研究という。一方、心筋梗塞に罹患する前の喫煙者と非喫煙者を無作為に抽出して、一定期間後、心筋梗塞に罹患した人数を調べる調査方法を前向き研究という。

一般的に心筋梗塞の罹患率のような全体に占める割合が小さい事象に対しては、前向き研究は、標本サイズを十分に大きくすれば現実に即したものが得られやすいが、調査に時間がかかる。後向き研究は、前向き研究に比べ標本の抽出は容易で、結果に対して原因を調査するため調査に時間がかからない。しかし、大抵は標本が現実の割合を反映していないため、リスクの比較が行えない。

後向き研究は、前向き研究が実施困難な場合に原因(喫煙の有無)が結果(心筋梗塞の罹患率)に影響を与えるかを推計するための調査で、解答にある考え方により、後向き研究におけるオッズ比から相対リスクを推計することができる。

統計検定準1級問題解説 ~2019年6月実施 問4 独立性の検定~

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


解答

[1] 解答

$\boxed{ \ \mathsf{5}\ }$ : ④

CMの影響の有無と購入の有無は関連がないと仮定すると、CMの影響の有無の確率と購入の有無は独立である。よって、CMの影響ありかつ購入ありの期待値は、
$$
300\times\frac{135}{300}\times\frac{190}{300}=\frac{135\times190}{300}=85.5
$$

[2] 解答

$\boxed{ \ \mathsf{6}\ }$ : ③

CMの影響の有無と購入の有無は関連性を検定するには独立性の検定を行う。
帰無仮説として2つの属性の間に関連がないとすると、
このときの検定統計量($\chi^2$統計量)は、2つの属性のそれぞれのケースの組み合わせについての$($観測値$-$期待値$)^2/$期待値の和でもとめる。
$$
\begin{eqnarray}
\chi^2統計量&=&\frac{(93-135\times190/300)^2}{135\times190/300}+\frac{(42-135\times110/300)^2}{135\times110/300}\\&+&\frac{(97-165\times190/300)^2}{165\times190/300}+\frac{(68-165\times110/300)^2}{165\times110/300}\\
&=&3.262
\end{eqnarray}
$$

[3] 解答

$\boxed{ \ \mathsf{7}\ }$ : ②

$2\times 2$分割表の2つの因子の独立性の検定においては、[2]で求めた統計検定量は自由度$1(=($行の個数$-1)\times($列の個数$-1)=(2-1)\times(2-1))$の$\chi^2$分布に従う。$\chi^2$分布のパーセント表から、
$$
\chi^2_{0.10}=2.71,\quad\chi^2_{0.05}=3.54
$$
よって、[2]の統計量は$\chi^2_{0.10}<3.262<\chi^2_{0.05}$となることから、帰無仮説は有意水準$10\%$では棄却されるが、有意水準$5\%$では棄却されない。


解説

独立性の検定

2つの属性(因子)に従って属性の値(水準)の組み合わせごとの頻度を集計して表にしたものを分割表という。
ここで、下表のような$r\times c$分割表について考える。

$$
\begin{array}{c|cccc|c}
& B_1 & B_2 & \cdots & B_c & total \\
\hline
A_1 & x_{11} & x_{12} & \cdots & x_{1c} & x_{1\cdot}\\
A_2 & x_{21} & x_{22} & \cdots & x_{2c} & x_{2\cdot}\\
\vdots & \vdots & \vdots & & \vdots & \vdots\\
A_r & x_{r1} & x_{r2} & \cdots & x_{rc} & x_{r\cdot}\\
\hline
total & x_{\cdot 1} & x_{\cdot 2} & \cdots & x_{\cdot c} & x_{\cdot\cdot}=n
\end{array}
$$

ここで、2つの因子$A,B$の間に関係性が見られないこと、すなわち独立であることを検証する。
2つの因子$A,B$が独立とは、帰無仮説
$$
H_0 : P(A_i\cap B_j)=P(A_i)P(B_j)\quad \forall i,j
$$
が成り立つことをいう。ここで、分割表の$(i,j)$セルの起こる確率を$P(A_i\cap B_j)=p_{ij}$で表し、$A,B$の周辺確率分布は$P(A_i)=p_{i\cdot}=\sum_j p_{ij},P(B_i)=p_{\cdot j}=\sum_i p_{ij}$とすると、先の帰無仮説は、
$$
H_0 : p_{ij}=p_{i\cdot}\cdot p_{\cdot j}\quad \forall i,j
$$
で表わせられる。

ところで、$p_{ij}$の確率分布は$r\times c$個の項目を持つ多項分布であるから、
$$
p_{ij}=\frac{n!}{\prod_{i=1}^r\prod_{j=1}^cx_{ij}!}\prod_{i=1}^r\prod_{j=1}^cp_{ij}^{x_{ij}}
$$
上式の対数尤度は、すべての$p_{ij}$の関数として、
$$
\begin{align*}
\log L(\boldsymbol{p})&=\log\left(\frac{n!}{\prod_{i=1}^r\prod_{j=1}^cx_{ij}!}\right)+\sum_{i=1}^r\sum_{j=1}^cx_{ij}\log p_{ij}\\
&=const.+\sum_{i=1}^r\sum_{j=1}^cx_{ij}\log p_{ij}
\end{align*}
$$
ここで、独立の仮説($p_{ij}=p_{i\cdot}\cdot p_{\cdot j}$)の下で対数尤度は
$$
\log L(\boldsymbol{p})=const.+\sum_{i=1}^rx_{i\cdot}\log p_{i\cdot}+\sum_{j=1}^cx_{\cdot j}\log p_{\cdot j}
$$
と表わされる。これを最大化する$p_{i\cdot}, p_{\cdot j}$の推定量(最尤推定量)を求める。

上式の対数尤度関数の最大化は、条件$\sum_{i=1}^r p_{i\cdot}=1, \sum_{j=1}^c p_{\cdot j}=1$に対するラグランジュ未定係数を$\lambda_1,\lambda_2$として、次の関数
$$
L^*=const.+\sum_{i=1}^rx_{i\cdot}\log p_{i\cdot}+\sum_{j=1}^cx_{\cdot j}\log p_{\cdot j}-\lambda_1(\sum_{i=1}^r p_{i\cdot}-1)-\lambda_2(\sum_{j=1}^c p_{\cdot j}-1)
$$
の最大化を考えればよい。$L^*$を$p_{i\cdot},p_{\cdot j},\lambda_1,\lambda_2$でそれぞれ偏微分して$0$とおくと、連立方程式
$$
\begin{eqnarray}
\left\{
\begin{array}{l}
\frac{\partial L^*}{\partial p_{i\cdot}}&=x_{i\cdot}/p_{i\cdot}-\lambda_1=0,\quad i=1,\cdots,r\\
\frac{\partial L^*}{\partial p_{\cdot j}}&=x_{\cdot j}/p_{\cdot j}-\lambda_2=0,\quad j=1,\cdots,c\\
\frac{\partial L^*}{\partial \lambda_1}&=\sum_{i=1}^r p_{i\cdot}-1=0\\
\frac{\partial L^*}{\partial \lambda_2}&=\sum_{j=1}^c p_{\cdot j}-1=0
\end{array}
\right.
\end{eqnarray}
$$
が得られる。このうち、上の2式から
$p_{i\cdot}=x_{i\cdot}/\lambda_1,p_{\cdot j}=x_{\cdot j}/\lambda_2$
これを下の2式に代入して、
$\sum_{i=1}^r x_{i\cdot}/\lambda_1=1,\quad \sum_{j=1}^c x_{\cdot j}/\lambda_2=1\Rightarrow \lambda_1=\lambda_2=n,$
したがって、$p_{i\cdot}, p_{\cdot j}$の最尤推定量は
$$
\begin{eqnarray}
\hat p_{i\cdot}&=&x_{i\cdot}/n,\quad i=1,\cdots,r \\
\hat p_{\cdot j}&=&x_{\cdot j}/n\quad j=1,\cdots,c
\end{eqnarray}
$$
となり、独立の仮説の下で$p_{ij}$の最尤推定量は、
$$
\hat p_{ij}=x_{i\cdot}x_{\cdot j}/n^2
$$
となる。これから、独立の仮説の下での分割表の$(i,j)$セルの度数(理論度数)は
$$
\hat x_{ij}=n\cdot\hat p_{ij}=x_{i\cdot}x_{\cdot j}/n
$$
となる。これと実際に観測された$x_{ij}$の値(観測度数)から得られる以下の$\chi^2$統計量
$$
\chi^2=\frac{(x_{ij}-\hat x_{ij})^2}{\hat x_{ij}}=\frac{(x_{ij}-x_{i\cdot}x_{\cdot j}/n)^2}{x_{i\cdot}x_{\cdot j}/n}
$$
は、$n$が十分大きいとき、漸近的に$\chi^2$分布に従う。ここで、自由度は周辺度数$x_{i\cdot}=\sum_jx_{ij},x_{\cdot j}=\sum_jx_{ij}$が固定なので、$(r-1)(c-1)$となる。

Ch.6 「確率分布」の章末問題の解答例 〜基礎統計学Ⅰ 統計学入門(東京大学出版会)〜

当記事は基礎統計学Ⅰ 統計学入門(東京大学出版会)の読解サポートにあたってChapter.6の確率分布」の章末問題の解答例のご紹介を行います。
※ 基本的には書籍の購入者向けの解答例・解説なので、まだ入手されていない方は下記より入手をご検討いただけたらと思います。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。(そのため著者の意図とは異なる解説となる可能性はあります)
https://www.amazon.co.jp/dp/4130420658

章末の演習問題について

問題6.1の解答例

問題には「分散を証明せよ」とあるが、期待値も同時に抑えておく方が望ましいので、期待値も計算するものとする。
・二項分布に関して
二項分布はベルヌーイ試行を独立に繰り返した時の分布と考えることができるので、期待値$E[X]$と分散$V[X]$を求めるにあたってはベルヌーイ分布に対して$E[X_i]$、$V[X_i]$を求め、それをそれぞれ$n$倍すれば良い。
$$
\begin{align}
E[X_i] &= 0 \times (1-p) + 1 \times p \\
&= p \\
V[X_i] &= (0-E[X_i])^2 \times (1-p) + (1-E[X_i])^2 \times p \\
&= p^2(1-p) + (1-p)^2p \\
&= p(1-p)(p+(1-p)) \\
&= p(1-p)
\end{align}
$$
上記より$E[X]=nE[X_i]=np$、$V[X]=nV[X_i]=np(1-p)$が成立する。

・ポアソン分布に関して
ポアソン分布は二項分布の式において$np=\lambda$とした上で、$p$が限りなく小さい事象について取り扱うため$\lambda$が一定の状況で$n \to \infty$を考える($n \to \infty$のとき$p \to 0$)。期待値を$E[X]$、分散を$V[X]$とし、それぞれを二項分布の期待値と分散の$n \to \infty$の時の極限から求める。
$$
\begin{align}
E[X] &= \lim_{n \to \infty} np \\
&= \lim_{n \to \infty} \lambda \\
&= \lambda \\
V[X_i] &= \lim_{n \to \infty} np(1-p) \\
&= \lim_{n \to \infty} \lambda\left(1-\frac{\lambda}{n}\right) \\
&= \lambda(1-0) \\
&= \lambda
\end{align}
$$
よって$E[X] = \lambda$、$V[X] = \lambda$が導出できる。

問題6.2の解答例

$X=k$のときの確率を$P(X=k|\lambda)$とすると、$X$が$\lambda=2.5$のポアソン分布に従うことから下記が成立する。
$$
\begin{align}
P(X=k|\lambda) &= \frac{\lambda^ke^{-\lambda}}{k!} \\
&=\frac{2.5^ke^{-2.5}}{k!}
\end{align}
$$
求める確率は$X > 5$となる確率$P(X>5|\lambda=2.5)$であるが、極限的な取り扱いが必要になり大変なので$P(X \leq 4|\lambda=2.5)$の確率を$1$から引くことで求める。
$$
\begin{align}
P(X>5|\lambda) &= 1 – P(X \leq 4|\lambda) \\
&= 1 – (P(X=0|\lambda)+P(X=1|\lambda)+P(X=2|\lambda)+P(X=3|\lambda)+P(X=4|\lambda)) \\
&= 1 – \left(\frac{2.5^0e^{-2.5}}{0!}+\frac{2.5^1e^{-2.5}}{1!}+\frac{2.5^2e^{-2.5}}{2!}+\frac{2.5^3e^{-2.5}}{3!}+\frac{2.5^4e^{-2.5}}{4!}\right) \\
&= 1 – \left(\frac{2.5^0}{0!}+\frac{2.5^1}{1!}+\frac{2.5^2}{2!}+\frac{2.5^3}{3!}+\frac{2.5^4}{4!}\right)e^{-2.5} \\
&= 1 – \left(\frac{1}{1}+\frac{2.5}{1}+\frac{2.5^2}{2}+\frac{2.5^3}{6}+\frac{2.5^4}{24}\right)e^{-2.5} \\
&= 0.1088…
\end{align}
$$
上記が求める確率となる。

問題6.3の解答例

負の二項分布は$k$回目の成功を得るまでの失敗回数を$x$とした際に、確率を以下のように表す。
$$
\begin{align}
f(x) = {}_{k+x-1} C_{x} p^k (1-p)^x
\end{align}
$$
上記は幾何分布の一般化と考えることもできる。

問題6.4の解答例

i)
求める確率は下記のようになる。
$$
\begin{align}
{}_n C_{1} p^1 (1-p)^{n-1} + {}_n C_{n-1} p^{n-1} (1-p)^1 &= np(1-p)^{n-1}+np^{n-1} (1-p) \\
&= n(p^{n-1} (1-p) + p(1-p)^{n-1})
\end{align}
$$

ⅱ)
1回の試行がi)で確認した確率の幾何分布に従うので、求める期待値は$\displaystyle \frac{1}{n(p^{n-1} (1-p) + p(1-p)^{n-1})}$となる。

問題6.5の解答例

確率分布の定義より、確率密度関数の$0$以外の全区間に対して積分した結果は$1$に等しくなることを利用する。
$$
\begin{align}
\int_{-1}^{1} c(1-x^2) dx &= 2c\int_{0}^{1} c(1-x^2) dx (1-x^2がy軸に対して線対称であることを利用)\\
&= 2c\left[ x-\frac{1}{3}x^3 \right]_{0}^{1} \\
&= 2c\left( 1-\frac{1}{3} \right) \\
&= \frac{4}{3}c = 1 \\
c &= \frac{3}{4}
\end{align}
$$
上記より、$\displaystyle c=\frac{3}{4}$が得られる。また、この確率分布の期待値は下記のように計算できる。
$$
\begin{align}
E[X] &= \int_{-1}^{1} x \times \frac{3}{4}(1-x^2) dx \\
&= \frac{3}{4} \int_{-1}^{1} (x-x^3) dx \\
&= 0 (x-x^3は原点を中心に点対称であることを利用する)
\end{align}
$$
上記より、$E[X]=0$となり、分散$V[X]$、歪度$\alpha_3$、尖度$\beta_4=\alpha_4-3$はそれぞれ下記のように求めることができる。
$$
\begin{align}
V[X] &= \int_{-1}^{1} (x-0)^2 \times \frac{3}{4}(1-x^2) dx \\
&= \frac{3}{4} \int_{-1}^{1} (x^2-x^4) dx \\
&= \frac{3}{2} \int_{0}^{1} (x^2-x^4) dx (x^2-x^4がy軸に対して線対称であることを利用) \\
&= \frac{3}{2} \left[ \frac{1}{3}x^3 – \frac{1}{5}x^5 \right]_{0}^{1} \\
&= \frac{3}{2} \left( \frac{1}{3}-\frac{1}{5} \right) \\
&= \frac{3}{2} \times \frac{2}{15} \\
&= \frac{1}{5} \\ \\
\alpha_3 &= \frac{1}{V[X]^{3/2}}\int_{-1}^{1} (x-0)^3 \times \frac{3}{4}(1-x^2) dx \\
&= \frac{3}{4V[X]^{3/2}}\int_{-1}^{1} (x^3-x^5) dx \\
&= 0 (x^3-x^5は原点を中心に点対称であることを利用する)\\ \\
\alpha_4 &= \frac{1}{V[X]^2}\int_{-1}^{1} (x-0)^4 \times \frac{3}{4}(1-x^2) dx \\
&= \frac{3}{4V[X]^2}\int_{-1}^{1} (x^4-x^6) dx \\
&= \frac{3}{2V[X]^2}\int_{0}^{1} (x^4-x^6) dx (x^4-x^6がy軸に対して線対称であることを利用) \\
&= \frac{3 \times 5^2}{2} \left[ \frac{1}{5}x^5 – \frac{1}{7}x^7 \right]_{0}^{1} \\
&= \frac{3 \times 5^2}{2} \left( \frac{1}{5} – \frac{1}{7} \right) \\
&= \frac{3 \times 5^2}{2} \frac{2}{35} \\
&= \frac{15}{7} \\
\beta_4 &= \alpha_4 – 3 \\
&= -\frac{6}{7}
\end{align}
$$

問題6.6の解答例

i)
指数分布の確率密度関数は$\displaystyle f(x) = \lambda e^{-\lambda x}$、累積分布関数は$F(x) = f(X \leq x) = 1 – e^{-\lambda x}$と表現することができる。また、$1-F(x)$も$1-F(x) = f(X \geq x) = e^{-\lambda x}$で求めることができる。
このとき、$P(X>a+b|X>a)$は下記のように計算できる。
$$
\begin{align}
P(X>a+b|X>a) &= \frac{P(X>a+b)}{P(X>a)} \\
&= \frac{e^{-\lambda (a+b)}}{e^{-\lambda a}} \\
&= e^{-\lambda b} = P(X>b)
\end{align}
$$
上記で$P(X>a+b|X>a)=P(X>b)$を示すことができた。また、これは指数分布の無記憶性を意味しており、指数分布はどの状態からでも同様の確率で事象が観測されることを想定している。

ⅱ)
i)で行なった文字の定義より、$\lambda(x)$は下記のように計算できる。
$$
\begin{align}
\lambda(x) &= \frac{f(x)}{1-F(x)} \\
&= \frac{\lambda e^{-\lambda x}}{e^{-\lambda x}} \\
&= \lambda
\end{align}
$$
上記が$x$によらないので、事象が起こる瞬間的な確率が常に一定であることが確認できる。

・参考
問題文には記載がないが、生存関数(survival function)やハザード関数(hazard function)の考え方に基づいて作題されているので、下記なども合わせて抑えておくと良いと思われる。
https://www.hello-statisticians.com/explain-books-cat/stat_workbook/stat_workbook_ch19.html
https://www.hello-statisticians.com/toukei-kentei-1/stat_app/stat_certifi_1_app_sci_19_1.html

問題6.7の解答例

$P(|Z|>c)=P(Zc)=2P(cc)=0.01,…0.1$に対応する$c$については$z_{\alpha=0.005}$、$z_{\alpha=0.01}$、$z_{\alpha=0.025}$、$z_{\alpha=0.05}$を求めればよくそれぞれ下記のようになる。
$$
\begin{align}
z_{\alpha=0.005} &= 2.57 \\
z_{\alpha=0.01} &= 2.33 \\
z_{\alpha=0.025} &= 1.96 \\
z_{\alpha=0.05} &= 1.64
\end{align}
$$
また、$P(Z>c)=0.01,…0.1$に対応する$c$については$z_{\alpha=0.01}$、$z_{\alpha=0.02}$、$z_{\alpha=0.05}$、$z_{\alpha=0.1}$を求めればよくそれぞれ下記のようになる。
$$
\begin{align}
z_{\alpha=0.01} &= 2.33 \\
z_{\alpha=0.02} &= 2.05 \\
z_{\alpha=0.05} &= 1.64 \\
z_{\alpha=0.1} &= 1.28 \\
\end{align}
$$
$z_{\alpha=0.025} = 1.96$が両側を考える際の95%区間でよく使われるが、他の値も大まかに把握しておきたい。

問題6.8の解答例

ベータ分布$Beta(a,b)$の確率密度関数はベータ関数$B(a,b)$を用いて$f(x)=x^{a-1}(1-x)^{b-1}/B(a,b)$のように表すことができるが、$B(a,b)$は規格化のために用いているので$x$について考える際は定数とみなすことができる。よって$f(x)$は下記のようにおくことができる。
$$
\large
\begin{align}
f(x) = cx^{a-1}(1-x)^{b-1}
\end{align}
$$

ここでモードは確率密度関数が最大となる$x$に一致するので、$f(x)$が最大となるときの$x$を求めるにあたって$f'(X)$を計算する。
$$
\large
\begin{align}
f'(x) &= (cx^{a-1}(1-x)^{b-1})’ \\
&= c(a-1)x^{a-2}(1-x)^{b-1}-c(b-1)x^{a-1}(1-x)^{b-2} \\
&= cx^{a-2}(1-x)^{b-2}((a-1)(1-x)-(b-1)x) \\
&= cx^{a-2}(1-x)^{b-2}((a-1)-(a-1)x-(b-1)x) \\
&= cx^{a-2}(1-x)^{b-2}((a-1)-(a+b-2)x)
\end{align}
$$

ベータ分布は$0<x<1$以外では確率密度関数が$0$であるので、この$f'(x)$の$0<x<1$の区間での正負の変化を考える。このとき、$cx^{a-2}(1-x)^{b-2}$は常に正であるので、$D(x)=(a-1)-(a+b-2)x$の符号の変化を考える。
$f(x)$が$0<x<1$でモードを持つためには$D(x)$に対し切片の$D(0)>0$と傾きの$-(a+b-2)<0$が成立しなければならない(必要条件)。これより$a>1$、$b>1$が$f(x)$が$0<x<1$でモードを持つための必要条件となる。このとき$D(1)=(a-1)-(a+b-2)=1-b<0$も満たすので、十分条件でもあり、「$a>1$、$b>1$が$f(x)$が$0<x<1$でモードを持つための必要十分条件」となる。
以下、$a>1$、$b>1$とした上で、$f'(x)=0$となる$x$を求める。
$$
\large
\begin{align}
f'(x) &= 0 \\
cx^{a-2}(1-x)^{b-2}&((a-1)-(a+b-2)x) = 0 \\
(a-1)-(a+&b-2)x = 0 \\
(a+b-2)&x = a-1 \\
x &= \frac{a-1}{a+b-2}
\end{align}
$$
よってベータ分布のモードは$a>1$、$b>1$のとき、$\displaystyle x = \frac{a-1}{a+b-2}$となる。

問題6.9の解答例

ワイブル分布の確率密度関数$f(x)$は下記のように表すことができる。
$$
\large
\begin{align}
f(x) = \frac{b}{a^b} x^{b-1} \exp \left[ – \left( \frac{x}{a} \right)^{b} \right] \quad x \geq 0
\end{align}
$$

このとき累積分布関数$F(x)$は下記のように導出を行うことができる。
$$
\large
\begin{align}
F(x) &= \int_{0}^{x} f(u) du \\
&= \int_{0}^{x} \frac{b}{a^b} u^{b-1} \exp \left[ – \left( \frac{u}{a} \right)^{b} \right] du \\
&= \int_{0}^{x} \left( – \exp \left[ – \left( \frac{u}{a} \right)^{b} \right] \right)’ du \\
&= \left[ – \exp \left[ – \left( \frac{u}{a} \right)^{b} \right] \right]_{0}^{x} \\
&= 1 – \exp \left[ – \left( \frac{x}{a} \right)^{b} \right]
\end{align}
$$

また、$x < 0$のときは$F(x)=0$である。

問題6.10の解答例

・正規分布
確率変数を$X$とした際に正規分布のモーメント母関数は$\displaystyle m_{X}(t) = exp \left( \mu t + \frac{\sigma^2t^2}{2} \right)$で表すことができる。これをそのまま使うと複雑なので、標準正規分布のモーメント母関数の$\displaystyle m_{X}(t) = exp \left( \frac{t^2}{2} \right)$で考えることとする。
$$
\large
\begin{align}
exp \left( \frac{t^2}{2} \right) &= 1 + \frac{t^2/2}{1!} + \frac{(t^2/2)^2}{2!} + … \\
&= 1 + \frac{t^2}{2} + \frac{t^4}{8} + …
\end{align}
$$
$\displaystyle m_{X}(t) = exp \left( \frac{t^2}{2} \right)$のマクローリン展開を考えると上記のように変形することができる。

$$
\large
\begin{align}
m_{X}(t) = 1 + \frac{t \mu_1}{1!} + \frac{t^2 \mu_2}{2!} + \frac{t^3 \mu_3}{3!} + …
\end{align}
$$
https://www.hello-statisticians.com/explain-terms-cat/prob_generating.html
ここで、モーメント母関数が上記を満たすので、係数を比較することでモーメントを計算する。
$$
\large
\begin{align}
\mu_1 &= 0 \\
\frac{\mu_2}{2!} &= \frac{1}{2} \\
\frac{\mu_3}{3!} &= 0 \\
\frac{\mu_4}{4!} &= \frac{1}{8}
\end{align}
$$

上記よりモーメントは下記のように計算できる。
$$
\large
\begin{align}
\mu_1 &= 0 \\
\mu_2 &= 1 \\
\mu_3 &= 0 \\
\mu_4 &= 3
\end{align}
$$
これより標準正規分布は平均$0$、分散$1$、歪度$0$、尖度$3-3=0$となることが確認できる。

まとめ

Chapter.$6$の「確率分布」は統計学を考える上で多くの内容に関連し、様々な視点から確率分布の取り扱いがなされるなど非常に重要なトピックです。とはいえ、数が多いので、最初はベルヌーイ分布、二項分布、正規分布を中心に抑え、徐々に幾何分布、ポアソン分布、指数分布などに広げていくのが良いと思います。

Ch.9 「標本分布」の章末問題の解答例 〜基礎統計学Ⅰ 統計学入門(東京大学出版会)〜

当記事は基礎統計学Ⅰ 統計学入門(東京大学出版会)」の読解サポートにあたってChapter.9の標本分布(Sampling Distribution)の章末問題の解説について行います。
※ 基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討いただけたらと思います。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。(そのため著者の意図とは異なる解説となる可能性はあります)

https://www.amazon.co.jp/dp/4130420658

章末の演習問題について

問題9.1の解答例

$$
\begin{align}
E[\bar{X}] = \mu
\end{align}
$$
上記のように標本平均(sample mean)は母平均の近似的な値と考えることができる。
$$
\begin{align}
& s^2 = \frac{1}{n-1}((X_1-\bar{X})^2 + (X_2-\bar{X})^2) + … + (X_n-\bar{X})^2 \\
& E[s^2] = \sigma^2
\end{align}
$$
また標本分散は上記のように設定すると母分散との間に不偏性を満たし、これを不偏分散という。

問題9.2の解答例

・標本平均
$$
\begin{align}
\bar{X} &= \frac{1}{6}(1.22+1.24+1.25+1.19+1.17+1.18) \\
&= 1.2083… \\
& \simeq 1.21
\end{align}
$$

・標本分散
$$
\begin{align}
s^2 &= \frac{1}{6-1}((1.22-1.208)^2+(1.24-1.208)^2+(1.25-1.208)^2+(1.19-1.208)^2+(1.17-1.208)^2+(1.18-1.208)^2) \\
&= 0.001096…
\end{align}
$$

問題9.3の解答例

問題9.4の解答例

$$
\begin{align}
s^2 &= \frac{1}{n-1} \sum_{i=1}^{n}(X_i-\bar{X})^2 \\
&= \frac{1}{n-1} \sum_{i=1}^{n}((X_i-\mu)-(\bar{X}-\mu))^2 \\
&= \frac{1}{n-1} \left( \sum_{i=1}^{n}(X_i-\mu)^2 + n(\bar{X}-\mu)^2 – 2(\bar{X}-\mu)\sum_{i=1}^{n}(X_i-\mu) \right) \\
&= \frac{1}{n-1} \left( \sum_{i=1}^{n}(X_i-\mu)^2 + n(\bar{X}-\mu)^2 – 2n(\bar{X}-\mu))^2 \right) \\
&= \frac{1}{n-1} \left( \sum_{i=1}^{n}(X_i-\mu)^2 – n(\bar{X}-\mu)^2 \right)
\end{align}
$$
$s^2$は上記のように計算できる。この期待値を計算する。
$$
\begin{align}
E[s^2] &= \frac{1}{n-1} E \left[ \sum_{i=1}^{n} (X_i-\mu)^2 – n(\bar{X}-\mu)^2 \right] \\
&= \frac{1}{n-1} \left( \sum_{i=1}^{n}E([(X_i-\mu)^2] – nE[(\bar{X}-\mu)^2] \right) \\
&= \frac{1}{n-1} \left( n\sigma^2 – n\frac{\sigma^2}{n} \right) \\
&= \frac{(n-1)\sigma^2}{n-1} \\
&= \sigma^2
\end{align}
$$
上記より、$E[s^2]=\sigma^2$を示すことができる。

問題9.5の解答例

$n=3$,$n=5$のそれぞれのケースにおいて正しく伝達される確率を$p$とおいた時に多数決が正しい確率は下記のように表せる。
・$n=3$の場合
$$
\begin{align}
{}_3 C_3 p^3 + {}_3 C_2 p^2(1-p)^1
\end{align}
$$
・$n=5$の場合
$$
\begin{align}
{}_5 C_5 p^5 + {}_5 C_4 p^4(1-p)^1 + {}_5 C_3 p^3(1-p)^2
\end{align}
$$
上記に$p=0.9$を代入し、求める確率は$n=3$の時$0.972$、$n=5$の時$0.99144$となる。

問題9.6の解答例

$3$時間の来客数は$\lambda=4.5$のポアソン分布に従うことにより、来客数を$x$とした時の来客数を表す確率$P(x|\lambda=4.5)$は下記のようになる。
$$
\begin{align}
P(x|\lambda=4.5) = \frac{4.5^x e^{-4.5}}{x!}
\end{align}
$$
来客数が$5$以上になる確率は$4$以下にならない確率と一致するので下記のように表せる。
$$
\begin{align}
1-&(P(x=0|\lambda=4.5)+P(x=1|\lambda=4.5)+P(x=2|\lambda=4.5)+P(x=3|\lambda=4.5)+P(x=4|\lambda=4.5)) \\
&= 1 – \left(\frac{4.5^0 e^{-4.5}}{0!} + \frac{4.5^1 e^{-4.5}}{1!} + \frac{4.5^2 e^{-4.5}}{2!} + \frac{4.5^3 e^{-4.5}}{3!} + \frac{4.5^4 e^{-4.5}}{4!}\right) \\
&= 1 – \left(\frac{4.5^0}{0!} + \frac{4.5^1}{1!} + \frac{4.5^2}{2!} + \frac{4.5^3}{3!} + \frac{4.5^4}{4!}\right)e^{-4.5} \\
&= 1 – \frac{(24\times4.5^0 + 24\times4.5^1 + 12\times4.5^2 + 4\times4.5^3 + 4.5^4) e^{-4.5}}{24} \\
&= 0.4678…
\end{align}
$$

問題9.7の解答例

i)
下記を実行することで結果を計算することができる。

import math

lambs = [9.7, 4.0, 5.7, 7.8]
probs = [0, 0, 0, 0]
for i in range(4):
    for j in range(10):
        probs[i] += (lambs[i]**j * math.e**(-lambs[i]))/math.factorial(j)

print("Hokkaido: {}".format(probs[0]))
print("Tokyo: {}".format(probs[1]))
print("Osaka: {}".format(probs[2]))
print("Fukuoka: {}".format(probs[3]))

・実行結果

> print("Hokkaido: {}".format(probs[0]))
Hokkaido: 0.49597884175
> print("Tokyo: {}".format(probs[1]))
Tokyo: 0.991867757203
> print("Osaka: {}".format(probs[2]))
Osaka: 0.935182528029
> print("Fukuoka: {}".format(probs[3]))
Fukuoka: 0.74110891657

ⅱ)
下記を実行することで結果を計算することができる。

import math
import numpy as np

lambs = np.array([526.6, 508.7, 703.8, 867.2])/365.
probs = [0, 0, 0, 0]
for i in range(4):
    for j in range(5):
        probs[i] += (lambs[i]**j * math.e**(-lambs[i]))/math.factorial(j)

print("Hokkaido: {}".format(probs[0]))
print("Tokyo: {}".format(probs[1]))
print("Osaka: {}".format(probs[2]))
print("Fukuoka: {}".format(probs[3]))

・実行結果

> print("Hokkaido: {}".format(probs[0]))
Hokkaido: 0.983992018679
> print("Tokyo: {}".format(probs[1]))
Tokyo: 0.985993977993
> print("Osaka: {}".format(probs[2]))
Osaka: 0.953590963991
> print("Fukuoka: {}".format(probs[3]))
Fukuoka: 0.907130585883

問題9.8の解答例

問題9.9の解答例

まとめ

Ch.9で取り扱った標本分布は標本平均などの分布を考えるトピックです。推測統計はなかなかややこしいですが、演習を数取り組むことでイメージをつかむのが良いと思います。

Ch.10 「正規分布からの標本」の章末問題の解答例 〜基礎統計学Ⅰ (東京大学出版会)〜

当記事は「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の読解サポートにあたってChapter.10の「正規分布からの標本」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。(そのため著者の意図とは異なる解説となる可能性はあります)

・解答まとめ
https://www.hello-statisticians.com/answer_textbook_stat_basic_1-3#red

章末の演習問題について

問題10.1の解答例

$E[\bar{X}]$と$V[\bar{X}]$は下記のように計算できる。
$$
\begin{align}
E[\bar{X}] &= \mu = 100 \\
V[\bar{X}] &= \frac{\sigma^2}{n} \\
&= \frac{0.1}{10} \\
&= 0.01
\end{align}
$$
上記より、$\bar{X}$に関する標本分布は$N(100, 0.01)$に従う。

また、標本分布の分散を$\sigma_{mean}$とすると、$\sigma_{mean}=0.1$より、$|\bar{X}-100|>0.3$は正規分布の3σ区間の外となる確率を意味する。正規分布表より、3σより大きい区間の上側確率は$0.0013499$であるから求める確率はこれを$2$倍した、$0.0026998$となる。(約0.27%であり、なかなか起こらない事象と考えることができる。)

問題10.2の解答例

$|\bar{X}-100|<0.1$の確率を0.9にするにあたっては、標本分布の分散を$0.1$の上側確率が$5$%となるように$\sigma_{mean}$を設定すればよい。よって$0.1$が正規分布の1.64σに対応するように標本分布の分散を設定すればよい。
$$
\begin{align}
V[\bar{X}] &= \sqrt{\frac{0.1}{n}} \times 1.645 = 0.1 \\
0.1 \times 1.645^2 &= 0.01n \\
n &= 10 \times 1.645^2 \\
&= 27.06…
\end{align}
$$
問題は確率を0.9より大きくするだったので、上記の数より大きい$28$回以上の測定が必要となる。

問題10.3の解答例

i)
問題より下記が成立する。
$$
\begin{align}
E[\bar{X}] &= \mu = 4 \\
V[\bar{X}] &= \frac{\sigma^2}{n} \\
&= \frac{15}{10} \\
&= 1.5
\end{align}
$$
したがって、$\bar{X}$の標本分布は$N(4,1.5)$に従う。この標準化した値を$Z$とすると、$Z$は下記のように計算できる。
$$
\begin{align}
Z &= \frac{\bar{X}-E[\bar{X}]}{\sqrt{V[X]}} \\
&= \frac{\bar{X}-4}{\sqrt{1.5}}
\end{align}
$$
これを元に求める確率は下記のように計算できる。
$$
\begin{align}
P(3 \leq \bar{X} \leq 6) &= P\left(\frac{3-4}{\sqrt{1.5}} \leq \frac{\bar{X}-4}{\sqrt{1.5}} \leq \frac{6-4}{\sqrt{1.5}}\right) \\
&= P\left(\frac{-1}{\sqrt{1.5}} \leq Z \leq \frac{2}{\sqrt{1.5}}\right) \\
&= P(-0.82 \leq Z \leq 1.63) \\
&= 1-(0.20611+0.051551) \\
&= 0.7423…
\end{align}
$$

ⅱ)
問題文より、$\displaystyle \chi^2 = \frac{(n-1)s^2}{\sigma^2} = \frac{9s^2}{15}$が$\displaystyle \chi^2(n-1) = \chi^2(9)$に従うことがわかる。この確率分布において、上側確率が$0.05$となる点を$\displaystyle \chi_{0.05}^2(9)$とすると、$\chi^2$分布の分布表より$\displaystyle \chi_{0.05}^2(9) = 16.9190$が読み取れる。
$$
\begin{align}
P\left( s^2 > a \right) &= 0.05 \\
P\left( \frac{9s^2}{15} > \frac{9a}{15} \right) &= 0.05
\end{align}
$$
この時、上記より、$\displaystyle \chi_{0.05}^2(9) = \frac{9a}{15} = 16.9190$となる。よって求める定数$a$は、$\displaystyle a = \frac{15}{9} \times 16.9190 = 28.198…$となる。

問題10.4の解答例

問題の内容を整理すると下記のようになる。
$$
\begin{align}
P\left( \frac{\bar{X}-3}{s} > a \right) &= 0.01 \\
P\left( \frac{\bar{X}-3}{s/\sqrt{15}} > \sqrt{15}a \right) &= 0.01
\end{align}
$$
ここで$\displaystyle \frac{\bar{X}-3}{s/\sqrt{15}}$は自由度$14$の$t$分布$t(14)$に従う。よって、$\sqrt{15}a=t_{0.01}(14)=2.624$が成立するので、$\displaystyle a=\frac{2.624}{\sqrt{15}}=0.6775…$となる。

問題10.5の解答例

二つの標本平均をそれぞれ$\bar{X}_1$、$\bar{X}_2$とする。この際に下記のように$Z$を定義する。
$$
\begin{align}
Z = \frac{(\bar{X}_1-\bar{X}_2)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}}
\end{align}
$$
このとき、$Z$は標準正規分布$N(0,1)$に従う。また、問題より下記が計算できる。
$$
\begin{align}
\mu_1-\mu_2 &= 2-5 \\
&= -3 \\
\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n} &= \frac{3}{10}+\frac{4}{8} \\
&= \frac{4}{5} \\
&= 0.8
\end{align}
$$
上記より、標本平均の差$\bar{X}_1-\bar{X}_2$の標本分布は$N(-3,0.8)$となる。

問題10.6の解答例

$$
\begin{align}
F &= \frac{\sigma_2^2}{\sigma_1^2} \cdot \frac{s_1^2}{s_2^2} \\
&= \frac{4s_1^2}{3s_2^2}
\end{align}
$$
問題文より、上記は自由度$(m-1,n-1)=(10-1,8-1)=(9,7)$の$F$分布の$F(9,7)$に従う。よって下記が成立する。
$$
\begin{align}
&P\left(\frac{s_1^2}{s_2^2}>c\right) = 0.05 \\
&P\left(\frac{4s_1^2}{3s_2^2}>\frac{4}{3}c\right) = 0.05 \\
&P\left(\frac{4s_1^2}{3s_2^2}>F_{\alpha=0.05}(9,7)\right) = 0.05 \\
&P\left(\frac{4s_1^2}{3s_2^2}>3.677\right) = 0.05
\end{align}
$$
上記より、$\displaystyle \frac{4}{3}c=3.677$なので、$\displaystyle c=3.677 \times \frac{3}{4} = 2.75775$となる。

問題10.7の解答例

i)
$\bar{X}$の母平均を$\mu$、母標準偏差を$\displaystyle \frac{\sigma}{10}$とする($\bar{X}$よりも$X$の母標準偏差を$\sigma$としておくことが多いと思われるため、ここでは母標準偏差を$\sigma^2$とおくことにした)。問題文を整理すると下記のようになる。
$$
\begin{align}
P\left( |\bar{X}-\mu|>0.8\frac{\sigma}{10} \right) &= P\left( \frac{|\bar{X}-\mu|}{\sigma/10} \geq 0.8 \right) \\
&= P\left( \frac{|\bar{X}-\mu|}{\sigma/10} \geq 0.8 \right) \\
&= 2P\left( \frac{\bar{X}-\mu}{\sigma/10} \geq 0.8 \right) \\
&= 0.21186 \times 2 \left( \displaystyle \frac{\bar{X}-\mu}{\sigma/10}が標準正規分布N(0,1)に従うことを利用 \right) \\
&= 0.42372
\end{align}
$$
上記が求める確率となる。

ⅱ)
$\bar{X}$の母平均を$\mu$、母標準偏差を$\displaystyle \frac{s}{10}$とする。問題文を整理すると下記のようになる。
$$
\begin{align}
P\left( |\bar{X}-\mu|>0.8\frac{s}{10} \right) &= P\left( \frac{|\bar{X}-\mu|}{s/10} \geq 0.8 \right) \\
&= P\left( \frac{|\bar{X}-\mu|}{s/10} \geq 0.8 \right) \\
&= 2P\left( \frac{\bar{X}-\mu}{s/10} \geq 0.8 \right) \\
&= \frac{97 \times 0.25 + 83 \times 0.2}{97+83} \times 2 \left(\displaystyle \frac{\bar{X}-\mu}{s/10}が自由度10-1=9のt分布t(9)に従うことを利用 \right) \\
&= 0.453888…
\end{align}
$$
上記が求める確率となる。(書籍の解答は$0.446$であり、少々異なるが、$P(|t| \geq 0.8)$を計算しているところまでは合致しているので、一旦こちらを載せるに至った)

問題10.8の解答例

定数$c_1, c_2$の値は下記を実行することで計算することができる。

import numpy as np
from scipy import stats

rho = 0.6
n = 15.
eta = np.log((1+rho)/(1-rho))/2.

z_1 = stats.norm.ppf(0.025, eta, np.sqrt(1./(n-3)))
z_2 = stats.norm.ppf(0.975, eta, np.sqrt(1./(n-3)))

c_1 = (np.e**(2*z_1)-1)/(np.e**(2*z_1)+1)
c_2 = (np.e**(2*z_2)-1)/(np.e**(2*z_2)+1)

print("c_1: {:.3f}".format(c_1))
print("c_2: {:.3f}".format(c_2))

・実行結果

> print("c_1: {:.3f}".format(c_1))
c_1: 0.127
> print("c_2: {:.3f}".format(c_2))
c_2: 0.851

zからcの計算では、$\displaystyle z = \frac{1}{2} \log{ \frac{1+r}{1-r} }$を$r$について解くと、$\displaystyle r = \frac{e^{2z}-1}{e^{2z}+1}$のように表せることを用いた。

問題10.9の解答例

i)

ⅱ)
$$
\begin{align}
Z_{\alpha=0.025} &= 1.96 \\
(Z_{\alpha=0.025})^2 &= 3.8416 \\
\chi_{\alpha=0.05}(1) &= 3.84…
\end{align}
$$
$$
\begin{align}
t_{\alpha=0.025}(120) &= 1.98 \\
(t_{\alpha=0.025}(120))^2 &= 3.9204 \\
F_{\alpha=0.05}(1,120) &= 3.920
\end{align}
$$
$$
\begin{align}
t_{\alpha=0.05}(120) &= 1.658 \\
Z_{\alpha=0.025} &= 1.645
\end{align}
$$
上記より、ここで具体的に考えた値に関して概ね一致していることが確認できる。

まとめ

標本抽出に関連する一連の事項は推測統計を考えるにあたって中心的な考え方になるので、Ch.10の内容はCh.11の推定やCh.12の検定を考える上で非常に重要な印象です。

https://www.amazon.co.jp/dp/4130420658

Ch.8 「大数の法則と中心極限定理」の章末問題の解答例 〜基礎統計学Ⅰ (東京大学出版会)〜

当記事は「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の読解サポートにあたってChapter.8の「大数の法則と中心極限定理」の章末問題の解説について行います。
※ 基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討いただけたらと思います。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。(そのため著者の意図とは異なる解説となる可能性はあります)
https://www.amazon.co.jp/dp/4130420658

章末の演習問題について

問題8.1の解答例

$$
\begin{align}
& P(L \leq X_1+X_2+…+X_n \leq U) = 0.05 \\
& P\left(\frac{L-np}{\sqrt{np(1-p)}} \leq \frac{X_1+X_2+…+X_n-np}{\sqrt{np(1-p)}} \leq \frac{U-np}{\sqrt{np(1-p)}}\right) = 0.05
\end{align}
$$
問題文の式を上記のように変形する。このとき、$\displaystyle z = \frac{X_1+X_2+…+X_n-np}{\sqrt{np(1-p)}}$は標準正規分布$N(0,1)$に従う。よって、下記が成立する。
$$
\begin{align}
\frac{L-np}{\sqrt{np(1-p)}} &= z_{\alpha=0.025} = -1.96 \\
\frac{U-np}{\sqrt{np(1-p)}} &= z_{\alpha=0.975} = 1.96
\end{align}
$$
上記の式を$L$と$U$について整理すると下記のようになる。
$$
\begin{align}
L = np – 1.96\sqrt{np(1-p)} \\
U = np + 1.96\sqrt{np(1-p)}
\end{align}
$$
このとき上記に$n=700$、$p=0.4$を代入する。
$$
\begin{align}
L &= 700\times0.4 – 1.96\sqrt{700\times0.4(1-0.4)} \\
&= 280 – 1.96\sqrt{700\times0.24} \\
&= 254.595… \\
U &= 700\times0.4 + 1.96\sqrt{700\times0.4(1-0.4)} \\
&= 280 + 1.96\sqrt{700\times0.24} \\
&= 305.404…
\end{align}
$$
求める$L$と$U$は上記のようになる。

また、開票結果によって$X_1+X_2+…+X_n$と$n$がわかるとした際に、$\displaystyle z = \frac{X_1+X_2+…+X_n-np}{\sqrt{np(1-p)}}$が標準正規分布$N(0,1)$に従うことに基づいて母集団の確率$p$の区間推定を行うことで、全体の得票率の95%信頼区間などを求めることができる。これを選挙の議席予測などに用いることができる。

問題8.2の解答例

i)
$P(X_i=1)=p$、$P(X_i=-1)=1-p=q$より、期待値$E[X_i]$と分散$V[X_i]$は下記のように計算できる。
$$
\begin{align}
E[X_i] &= 1 \times P(X_i=1) + (-1) \times P(X_i=-1) \\
&= 1 \times p + (-1) \times (1-p) \\
&= p – (1-p) \\
&= 2p-1 \\
V[X_i] &= (1-E[X_i])^2 \times P(X_i=1) + (-1-E[X_i])^2 \times P(X_i=-1) \\
&= (1-(2p-1))^2 \times P(X_i=1) + (-1-(2p-1))^2 \times P(X_i=-1) \\
&= (-2p+2)^2 \times p + (-2p)^2 \times (1-p) \\
&= 4(1-p)^2p + 4p^2(1-p) \\
&= 4p(1-p)(p+(1-p)) \\
&= 4p(1-p)
\end{align}
$$
$n$が大きいときは中心極限定理により、$N(nE[X_i], nV[X_i])=N(n(2p-1), 4np(1-p))$に従う。(中心極限定理を取り扱うにあたっては総和を考えるときは$N(n\mu,n\sigma^2)$、平均を考えるときは$\displaystyle N\left(\mu,\frac{\sigma^2}{n}\right)$に従うと考えることができる。)

ⅱ)
$S_{10}$は正規分布$N(10 \times (2\times0.4-1), 4 \times 10 \times 0.4 \times (1-0.4)) = N(-2,9.6)$に従う。
$S_{20}$は正規分布$N(10 \times (2\times0.4-1), 4 \times 10 \times 0.4 \times (1-0.4)) = N(-4,19.2)$に従う。

問題8.3の解答例

打数$1$回あたりの安打数の期待値を$E[X_i]$、分散を$V[X_i]$とすると、それぞれ下記のように計算できる。
$$
\begin{align}
E[X_i] &= 1 \times P(X_i=1) + 0 \times P(X_i=0) \\
&= 1 \times p + 0 \times (1-p) \\
&= p \\
V[X_i] &= (1-E[X_i])^2 \times P(X_i=1) + (0-E[X_i])^2 \times P(X_i=0) \\
&= (1-p)^2 \times p + (0-p)^2 \times (1-p) \\
&= p(1-p)^2 + (-p)^2(1-p) \\
&= p(1-p)^2 + p^2(1-p) \\
&= p(1-p)(1-p+p) \\
&= p(1-p)
\end{align}
$$

$450$打数時における安打数を$\displaystyle S_n=\sum_{i=1}^{450}X_i$とすると、中心極限定理により、$S_n$は正規分布$N(np,np(1-p))$に従う。問題文より、$n=450$、$p=0.28$を代入すると、$N(np,np(1-p))$は下記のように計算できる。
$$
\begin{align}
N(np,np(1-p)) &= N(450 \times 0.28, 450 \times 0.28 \times (1-0.28)) \\
&= N(126, 90.72)
\end{align}
$$

このとき$3$割バッターになるためには、$0.3 \times 450 = 135$安打以上打つ必要があるため($S_n \geq 135$)、求める確率は下記のようになる。
$$
\begin{align}
P(S_n \geq 135) &= P(S_n-126 \geq 135-126) \\
&= P\left(\frac{S_n-126}{\sqrt{90.72}} \geq \frac{135-126}{\sqrt{90.72}}\right) \\
&= P\left(\frac{S_n-np}{\sigma} \geq 0.9449…\right) \\
&= 0.17361
\end{align}
$$

また、確率$0.2$で$3$割バッターになるには$\displaystyle P\left(\frac{S_n-np}{\sqrt{p(1-p)}} \geq \frac{0.3n-np}{\sqrt{p(1-p)}}\right)=0.2$を満たす$n$を考えれば良い(このとき$p=0.28$であると考える)。正規分布の分布表より、$\displaystyle \frac{0.3n-0.28n}{\sqrt{p(1-p)}} = z_{\alpha=0.8}=0.84$なので、このときの$n$は以下のように求めることができる。
$$
\begin{align}
\frac{0.3n-0.28n}{\sqrt{np(1-p)}} &= 0.84 \\
\frac{0.3n-0.28n}{\sqrt{n}} &= 0.84\sqrt{p(1-p)} \\
0.02\sqrt{n} &= 0.84\sqrt{p(1-p)} \\
n &= 0.84^2 \times 50^2 \times 0.28 \times 0.72 \\
&= 355.6224
\end{align}
$$

よって、$355$打数ほどである必要がある。
(書籍の解答だと$n<339$とされていますが、途中計算が定かでなく再現できなかったのでこちらを記載することといたしました。)

まとめ

中心極限定理関連の問題は基本的な統計学の範囲ではやや難しいので、何度か繰り返して慣れておくと良いのではと思います。

Chapter.11 「推定」の章末問題の解答例 〜基礎統計学Ⅰ 統計学入門(東京大学出版会)〜

当記事は基礎統計学Ⅰ 統計学入門(東京大学出版会)」の読解サポートにあたってChapter.11の「推定」の章末問題の解説について行います。
※ 基本的には書籍の購入者向けの解説なので、まだ入手されていない方は下記より入手をご検討いただけたらと思います。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。(そのため著者の意図とは異なる解説となる可能性はあります)
https://www.amazon.co.jp/dp/4130420658

章末の演習問題について

問題11.1の解答例

指数分布$P(x|\lambda)$は下記の数式で表現することができる。
$$
\begin{align}
P(x|\lambda) = \lambda e^{-\lambda x}
\end{align}
$$
観測される標本を${x_1, x_2, … , x_n}$とした際に、この同時確率$P(x_1,x_2,…,x_n|\lambda)$は下記のように計算できる。
$$
\begin{align}
P(x_1,x_2,…,x_n|\lambda) &= \prod_{i=1}^{n} \lambda e^{-\lambda x_i} \\
&= \lambda^n \prod_{i=1}^{n} e^{-\lambda x_i} \\
&= \lambda^n e^{-\sum_{i=1}^{n} \lambda x_i} \\
&= \lambda^n e^{-\lambda \sum_{i=1}^{n} x_i}
\end{align}
$$
上記の同時確率をパラメータ$\lambda$の式で見たのが尤度$L(\lambda)$なので、$\displaystyle L(\lambda) = \lambda^n e^{-\lambda \sum_{i=1}^{n} x_i}$となる。この$L(\lambda)$の対数を取った対数尤度$\log{L(\lambda)}$は下記のように計算できる。
$$
\begin{align}
\log{L(\lambda)} &= \log{ \left( \lambda^n e^{-\lambda \sum_{i=1}^{n} x_i} \right) } \\
&= \log{\lambda^n} + \log{e^{-\lambda \sum_{i=1}^{n} x_i}} \\
&= n\log{\lambda} – \lambda \sum_{i=1}^{n} x_i
\end{align}
$$
ここで対数尤度$\log{L(\lambda)}$の$\lambda$に関する微分$\displaystyle \frac{\delta \log{L(\lambda)}}{\delta \lambda}=0$を考える。
$$
\begin{align}
\frac{\delta \log{L(\lambda)}}{\delta \lambda} &= \frac{n}{\lambda} – \sum_{i=1}^{n} x_i = 0 \\
& \frac{n}{\lambda} = \sum_{i=1}^{n} x_i \\
& \lambda = \frac{n}{\sum_{i=1}^{n} x_i} \\
& \lambda = \frac{1}{\sum_{i=1}^{n} x_i / n} \\
& \lambda = \frac{1}{\bar{x}}
\end{align}
$$
上記より、$\lambda$の最尤推定量を$\hat{\lambda}$とすると、$\displaystyle \hat{\lambda} = \frac{1}{\bar{x}}$とできることがわかる。

問題11.2の解答例

線形推定量を$aX_1+bX_2$とし、こちらについて不偏性を考えると$E[aX_1+bX_2]=\mu$が成立する。これより下記のように式変形ができる。
$$
\begin{align}
E[aX_1+bX_2] &= \mu \\
aE[X_1]+bE[X_2] &= \mu
\end{align}
$$
上記において$E[X_1]=E[X_2]=\mu$なので、$(a+b)\mu = \mu$が成立し、これより$a+b=1$が導出できる。また、このとき分散に関しては下記が成立する。
$$
\begin{align}
V[aX_1+bX_2] &= a^2V[X_1]+b^2V[X_2] \\
&= (a^2+b^2)\sigma^2
\end{align}
$$
上記において、$a+b=1$より$b=a-1$を代入し、$a$に関する最小値を求める。
$$
\begin{align}
V[aX_1+bX_2] &= (a^2+b^2)\sigma^2 \\
&= (a^2+(1-a)^2)\sigma^2 \\
&= 2(a^2-a+\frac{1}{2})\sigma^2 \\
&= 2\left( \left( a-\frac{1}{2} \right)^2 + \frac{1}{2} – \frac{1}{4} \right)\sigma^2 \\
&= 2\left( \left( a-\frac{1}{2} \right)^2 + \frac{1}{4} \right)\sigma^2
\end{align}
$$
上記より、$\displaystyle a=\frac{1}{2}$のとき、分散は最小値$\displaystyle \frac{\sigma^2}{2}$を取る。

問題11.3の解答例

$$
\begin{align}
z = \frac{\bar{x}-\mu}{\sqrt{\sigma^2/n}}
\end{align}
$$
上記のように標本平均$\bar{x}$に関する標準化を行うと、$z$は標準正規分布$N(0,1)$に従う。
標準正規分布において上側確率が$100\alpha$%となるパーセント点に対応する$z$の値を$z_{\alpha}$とする。このときに$z$が95%区間であるためには下記が成立する必要がある。
$$
\begin{align}
z_{\alpha=0.975} \leq &z \leq z_{\alpha=0.025} \\
z_{\alpha=0.975} \leq &\frac{\bar{x}-\mu}{\sqrt{\sigma^2/n}} \leq z_{\alpha=0.025}
\end{align}
$$
ここで$z_{\alpha=0.025}$は$z_{\alpha=0.025}=1.96$よりも大きくなる確率は$0.025$であると解釈する必要がある。上記を$\mu$に関して整理する。
$$
\begin{align}
z_{\alpha=0.975}\sqrt{\frac{\sigma^2}{n}} \leq &\bar{x}-\mu \leq z_{\alpha=0.025}\sqrt{\frac{\sigma^2}{n}} \\
-z_{\alpha=0.025}\sqrt{\frac{\sigma^2}{n}} \leq &\mu-\bar{x} \leq -z_{\alpha=0.975}\sqrt{\frac{\sigma^2}{n}} \\
\bar{x}-z_{\alpha=0.025}\sqrt{\frac{\sigma^2}{n}} \leq &\mu \leq \bar{x}-z_{\alpha=0.975}\sqrt{\frac{\sigma^2}{n}} \cdot \cdot \cdot (1)
\end{align}
$$
標準正規分布の分布表より、$z_{\alpha=0.025}=1.96$、$z_{\alpha=0.975}=-1.96$が成立することがわかり、また問題より$n=5$、$\sigma^2=4$、$\bar{x}=9.722$である。
これを$(1)$式に代入して下記を得る。
$$
\begin{align}
\bar{x}-z_{\alpha=0.025}\sqrt{\frac{\sigma^2}{n}} \leq &\mu \leq \bar{x}-z_{\alpha=0.975}\sqrt{\frac{\sigma^2}{n}} \\
9.722-1.96\sqrt{\frac{4}{5}} \leq &\mu \leq 9.722+1.96\sqrt{\frac{4}{5}} \\
7.9689… \leq &\mu \leq 11.475
\end{align}
$$
上記が母平均$\mu$の95%区間となる。 

問題11.4の解答例

$$
\begin{align}
\bar{x}-z_{\alpha=0.005}\sqrt{\frac{\sigma^2}{n}} \leq \mu \leq \bar{x}-z_{\alpha=0.995}\sqrt{\frac{\sigma^2}{n}}
\end{align}
$$
問題11.3と同様に考えると上記を導出することができる。ここで$z_{\alpha=0.005}$と$z_{\alpha=0.995}$は標準正規分布の分布表より下記のように求めることができる。($2.57$と$2.58$の中間にあるのでここでは加重平均を計算し用いるものとする)
$$
\begin{align}
z_{\alpha=0.005} &= \frac{2.57\times849 + 2.58\times600}{849+600} \\
z_{\alpha=0.995} &= -\frac{2.57\times849 + 2.58\times600}{849+600}
\end{align}
$$

上記を考慮すると$\mu$の99%区間の幅を$1$以下にするには下記が成立すれば良い。
$$
\begin{align}
& -z_{\alpha=0.995}\sqrt{\frac{\sigma^2}{n}}+z_{\alpha=0.005}\sqrt{\frac{\sigma^2}{n}} \leq 1 \\
& (z_{\alpha=0.005}-z_{\alpha=0.005})\sqrt{\frac{\sigma^2}{n}} \leq 1 \\
& 2z_{\alpha=0.005}\sigma \leq \sqrt{n} \\
& 6z_{\alpha=0.005} \leq \sqrt{n} \\
& (6z_{\alpha=0.005})^2 \leq n \\
& 36 \times \left( \frac{2.57\times849 + 2.58\times600}{849+600} \right)^2 \leq n \\
& 238.543… \leq n
\end{align}
$$
上記より、サンプル数は239以上にすれば良いことがわかる。

問題11.5の解答例

母分散は等しいと仮定できる。投薬群の平均を$\bar{X}$、対照群の平均を$\bar{Y}$、不偏分散を$s^2$とし、それぞれを計算する。
$$
\begin{align}
\bar{X} &= \frac{1}{10}(7.97+7.66+7.59+8.44+8.05+8.08+8.35+7.77+7.98+8.15) \\
&= 8.004 \\
\bar{Y} &= \frac{1}{10}(8.06+8.27+8.45+8.05+8.51+8.14+8.09+8.15+8.16+8.42) \\
&= 8.23 \\
s^2 &= \frac{1}{10+10-2} \left( \sum_{i=1}^{10}(x_i-\bar{X})^2 + \sum_{i=1}^{10}(y_i-\bar{Y})^2 \right) \\
&= 0.0527… \\
s &= 0.22973…
\end{align}
$$
このとき$t$値は下記のように計算できる。
$$
\begin{align}
t &= \frac{(\bar{X}-\bar{Y}) – (\mu_1-\mu_2)}{s \sqrt{1/10+1/10}} \\
&= \frac{(-0.226 – (\mu_1-\mu_2))\sqrt{5}}{0.2297}
\end{align}
$$
ここで$t_{\alpha=0.025}(18)=2.101$より、求める区間は$\displaystyle -0.226 \pm \frac{2.101 \cdot 0.2297}{\sqrt{5}}$で得ることができる。
よって求める区間は$[-0.4418, -0.01017]$となる。

問題11.6の解答例

下記を実行することで二つの群の不偏標本分散の$s_1^2, s_2^2$の計算を行う。

import numpy as np

x1 = np.array([25., 24., 25., 26.])
x2 = np.array([23., 18., 22., 28., 17., 25., 19., 16.])

s1 = np.sum((x1-np.mean(x1))**2)/(x1.shape[0]-1)
s2 = np.sum((x2-np.mean(x2))**2)/(x2.shape[0]-1)

print("s1^2: {:.1f}".format(s1))
print("s2^2: {:.1f}".format(s2))

・実行結果

> print("s1^2: {:.1f}".format(s1))
s1^2: 0.7
> print("s2^2: {:.1f}".format(s2))
s2^2: 17.7

上記の$2$つの群の不偏標本分散が大きく異なることから、母分散も大きく異なると考えることができる。よって、ウェルチの近似法を用いて自由度$\nu$を計算し、自由度$\nu$の$t$分布$t(\nu)$を用いて区間推定を行う。

from scipy import stats

s = s1/x1.shape[0]+s2/x2.shape[0]
nu = np.int(s**2/((s1/x1.shape[0])**2/(x1.shape[0]-1)+(s2/x2.shape[0])**2/(x2.shape[0]-1)))

c_lower = np.mean(x1) - np.mean(x2) + stats.t.ppf(0.025,nu)*np.sqrt(s)
c_upper = np.mean(x1) - np.mean(x2) + stats.t.ppf(0.975,nu)*np.sqrt(s)

print("Estimated Interval: [{:.1f}, {:.1f}]".format(c_lower,c_upper))

・実行結果

> print("Estimated Interval: [{:.1f}, {:.1f}]".format(c_lower,c_upper))
Estimated Interval: [0.4, 7.6]

問題11.7の解答例

i)
標本平均を$\bar{x}$、不偏標本分散を$s^2$とする。このときそれぞれ下記のように求められる。
$$
\begin{align}
\bar{x} &= \frac{1}{10}(21.8+22.4+22.7+24.5+25.9+24.9+24.8+25.3+25.2+24.6) \\
&= 24.21 \\
s^2 &= \frac{1}{9}((21.8-24.21)^2 + (22.4-24.21)^2 + (22.7-24.21)^2 + (24.5-24.21)^2 + (25.9-24.21)^2 \\
&+ (24.9-24.21)^2 + (24.8-24.21)^2 + (25.3-24.21)^2 + (25.2-24.21)^2 + (24.6-24.21)^2) \\
&= 1.9387777… \\
s &= 1.3924…
\end{align}
$$

ここで$t$分布において上側確率が$100\alpha$%となるパーセント点に対応する$t$の値を$t_{\alpha}$とする。このとき問題文の条件を整理すると下記のようになる。
$$
\begin{align}
& P\left( t_{\alpha=0.995}(10-1) \leq \frac{\bar{x}-\mu}{s/\sqrt{10}} \leq t_{\alpha=0.005}(10-1) \right) = 0.99 \\
& P\left( t_{\alpha=0.995}(9)\frac{s}{\sqrt{10}} \leq \bar{x}-\mu \leq t_{\alpha=0.005}(9)\frac{s}{\sqrt{10}} \right) = 0.99 \\
& P\left( -t_{\alpha=0.005}(9)\frac{s}{\sqrt{10}} \leq \mu-\bar{x} \leq -t_{\alpha=0.995}(9)\frac{s}{\sqrt{10}} \right) = 0.99 \\
& P\left( \bar{x}-t_{\alpha=0.005}(9)\frac{s}{\sqrt{10}} \leq \mu \leq \bar{x}-t_{\alpha=0.995}(9)\frac{s}{\sqrt{10}} \right) = 0.99
\end{align}
$$
上記において$t_{\alpha=0.005}(9)=3.25$、$t_{\alpha=0.995}(9)=-3.25$なので、下記のように計算できる。
$$
\begin{align}
\bar{x}-t_{\alpha=0.005}(9)\frac{s}{\sqrt{10}} &= 24.21 – \frac{3.25 \times 1.3924}{\sqrt{10}} \\
&= 22.77897… \\
\bar{x}-t_{\alpha=0.995}(9)\frac{s}{\sqrt{10}} &= 24.21 + \frac{3.25 \times 1.3924}{\sqrt{10}} \\
&= 25.64102…
\end{align}
$$
よって求める99%区間は$[22.78, 25.64]$となる。

ⅱ)
$\displaystyle \frac{(n-1)s^2}{\sigma^2}$は自由度$10-1=9$の$\chi^2$分布の$\chi^2(9)$に従う。ここで$\chi^2$分布において上側確率が$100\alpha$%となるパーセント点に対応する$\chi^2$の値を$\chi^2_{\alpha}$とする。このとき問題文の条件を整理すると下記のようになる。
$$
\begin{align}
& P\left( \chi_{\alpha=0.975}(9) \leq \frac{(n-1)s^2}{\sigma^2} \leq \chi_{\alpha=0.025}(9) \right) = 0.95 \\
& P\left( \frac{9s^2}{\chi_{\alpha=0.025}(9)} \leq \sigma^2 \leq \frac{9s^2}{\chi_{\alpha=0.975}(9)} \right) = 0.95
\end{align}
$$
ここで$\chi_{\alpha=0.975}(9)=2.70039$、$\chi_{\alpha=0.025}(9)=19.0228$、$9s^2=17.449$より、下記のように計算できる。
$$
\begin{align}
\frac{9s^2}{\chi_{\alpha=0.975}(9)} &= \frac{17.449}{2.70039} \\
&= 6.4616… \\
\frac{9s^2}{\chi_{\alpha=0.025}(9)} &= \frac{17.449}{19.023} \\
&= 0.9172…
\end{align}
$$
よって求める99%区間は$[0.92, 6.46]$となる。

問題11.8の解答例

1回のベルヌーイ試行の$Bi(1,p)$に基づいて確率変数$X_i$を定め、$S_{50} = X_1+X_2+…+X_{50}$のように定義する。このとき母集団の母数を$p$としたので、$n=50$の二項分布の期待値は$E[S_n]=50p$、分散が$V[S_n]=50p(1-p)$となる。ここで、標準正規分布において上側確率が$100\alpha$%となるパーセント点に対応する$z$の値を$z_{\alpha}$とする。このとき下記が成立する。
$$
\begin{align}
& P\left( z_{\alpha=0.975} \leq \frac{S_n-E[S_n]}{\sqrt{V[S_n]}} \leq z_{\alpha=0.025} \right) = 0.95 \\
& P\left( z_{\alpha=0.975} \leq \frac{27-50p}{\sqrt{50p(1-p)}} \leq z_{\alpha=0.025} \right) = 0.95 \\
& P\left( -1.96 \leq \frac{27/50-p}{\sqrt{p(1-p)/50}} \leq 1.96 \right) = 0.95 \\
& P\left( -1.96 \leq \frac{27/50-p}{\sqrt{0.54(1-0.46)/50}} \leq 1.96 \right) = 0.95 (ここで近似を行なったことに注意) \\
& -1.96 \leq \frac{0.54-p}{\sqrt{0.54(1-0.46)/50}} \leq 1.96
\end{align}
$$
上記の不等式を$p$について解くと、下記のようになる。
$$
\begin{align}
& -1.96\sqrt{\frac{0.54(1-0.46)}{50}} \leq 0.54-p \leq 1.96\sqrt{\frac{0.54(1-0.46)}{50}} \\
& 0.54-1.96\sqrt{\frac{0.54(1-0.46)}{50}} \leq p \leq 1.96\sqrt{\frac{0.54(1-0.46)}{50}} \\
& 0.40185… \leq p \leq 0.67814…
\end{align}
$$
上記が求める$p$の95%区間となる。

問題11.9の解答例

$i$番目の時間の確率変数を$X_i$とすると、$\displaystyle \frac{\sum_{i=1}^{10}X_i – n\lambda}{\sqrt{n\lambda}}$は$n$が大きい場合標準正規分布$N(0,1)$で近似できる。ここで、標準正規分布において上側確率が$100\alpha$%となるパーセント点に対応する$z$の値を$z_{\alpha}$とする。このとき下記のように99%区間を表すことができる。
$$
\begin{align}
P\left( z_{\alpha=0.995} \leq \frac{\sum_{i=1}^{10}X_i – 10\lambda}{\sqrt{10\lambda}} \leq z_{\alpha=0.005} \right) = 0.99 \\
P\left( -2.576 \leq \frac{\sum_{i=1}^{10}X_i – 10\lambda}{\sqrt{10\lambda}} \leq 2.576 \right) = 0.99 \\
-2.576 \leq \frac{48 – 10\lambda}{\sqrt{10\lambda}} \leq 2.576 \\
-2.576 \leq \frac{48 – 10\lambda}{\sqrt{10 \times 4.8}} \leq 2.576(ここで近似を行なったことに注意) \\
-2.576 \leq \frac{4.8 – \lambda}{\sqrt{0.48}} \leq 2.576 \\
4.8-2.576\sqrt{0.48} \leq \lambda \leq 4.8+\leq 2.576\sqrt{0.48} \\
3.01529… \leq \lambda \leq 6.58470…
\end{align}
$$
上記が求める$\lambda$の99%区間となる。

まとめ

区間推定の問題は基本的に同じパターンですが、多種多様なトピックを取り扱うのでなかなか大変です。可能な限り、$\displaystyle P\left( z_{\alpha=0.975} \leq \frac{\bar{X}-\mu}{\sigma} \leq z_{\alpha=0.025} \right)=0.95$のような表記を元に考えるようにすることで、毎回同じ解き方ができるようにしておくのが良いかと思います。

$\alpha$の定義にあたっては、$\displaystyle \int_{-\infty}^{z_{\alpha}} p(x) dx = \alpha$ではなく、$\displaystyle \int_{z_{\alpha}}^{\infty} p(x) dx = \alpha$のように考えることに注意が必要です。累積分布関数のような定義もわかりやすいのではと思われましたが、正規分布、$t$分布、$\chi^2$分布などの表を用いるにあたってこのような定義に基づいて表が作成されていることから、この定義をそのまま用いる方が良いという印象です。

「統計学実践ワークブック」 演習問題中心 第1章 事象と確率

統計検定準1級対応の公式テキストである「統計学実践ワークブック」を1章から順に演習問題を中心に解説していきます。
今回は第1章「事象と確率」です。

重要ポイント

第1章で抑えておくべきポイントは、条件付き確率(conditional probability)、確率関数(probability function)、期待値(expectation)です。

条件付き確率とベイズの定理

2つの事象A, Bがあり、事象Aの生じる確率を$p(A)$と表現します。また、AとBが同時に生じる確率を$p(A \cap B)$と表します。このあたりはベン図を思い浮かべると理解しやすいですね(下図)。

上図の右端である$p(A|B)$を条件付き確率と呼びます。これは、事象Bが生じたという条件の下でのAの生じる確率です。図から想像できますが、$p(A \cap B)$と以下の関係が成り立ちます。

$$
p(A | B) = \frac{p(A \cap B)}{p(A)}
$$

この関係は対称性があり、変形させると条件付き確率は以下のような関係があることがわかります。

$$
\begin{eqnarray}
p(A \cap B) = p(A | B)p(B) &= p(B | A)p(A) \\\
p(A | B) &= \frac{p(B | A)p(A)}{p(B)}
\end{eqnarray}
$$

この関係は特に、「ベイズの定理」と呼ばれています。特別な名前がついていますが、特に気にする必要はありません。条件付き確率の性質を使えば自然に導かれる式です。

確率関数

確率を考える対象であるランダムに変動する変数のことを「確率変数(random variable)」と呼びます。この確率変数(X)が実際に取りうる値(x)についての関数を確率関数(probability function) $p(x)$と呼びます。

この確率関数ですが、Xが連続値を取る場合は特に、確率密度関数(probability density function)と呼ばれています。確率なので、Xの取りうる全ての範囲を合わせると1になります。

$$
\int p(x) dx = 1.0
$$

Xが離散値(コインの裏表やサイコロの目など)を取る場合には、確率質量関数(probability mass function)と呼ばれています。これも確率の定義通り、全ての事象について足し合わせると1になります。(xが離散の値なので、積分ではなく総和になっています)

$$
\sum p(x) = 1.0
$$

期待値

確率変数Xの期待値$E[X]$は平均値とも呼ばれています。
以下の式で定義されており、とりうる全てのXに対して確率$p(x)$をかけて足し合わせたものです。

$$
E[X] = \sum_x xp(x)
$$

Xが連続型の確率変数の場合には、積分になります。

$$
E[X] = \int xp(x) dx
$$

期待値については、合わせてこちらも参照ください。

演習問題解説

演習問題の全文は掲載しません。テキストは各自で用意するか、以下の抜粋から想像してください。

問題概要 [1.1]

ある試験を受験した女性の比率が0.4で、男性合格率は0.4、女性比率は0.5だった。

(1) この試験全体の合格率は?

受験者全体の人数を$x$として、合格者の人数を$y$とします。すると男性受験者は$0.6x$、女性受験者は$0.4x$と表現できます。次に、合格者の人数$y$をxを使って表現すると以下の通りとなります。

$$
y = 0.6 x \cdot 0.4 + 0.4x \cdot 0.5
$$

「合格率」は単純に$y/x$ですので、$x, y$それぞれの関係から以下のように導出できます。

$$
\mathrm{rate} = \frac{y}{x} = (0.6 \cdot 0.4 + 0.4 \cdot 0.5) = 0.44
$$

(2) この試験の合格者の中から、ランダムに選んだ一人が女性である確率は?

この問題は、ベイズの定理を使っても計算できますが、以下のように考えた方が簡単だと思います。ベイズの定理を使った回答例はテキストを参照してください。

ランダムに選んだ一人が女性の確率とは、結局、合格者の中での女性比率ということになります。男性、女性それぞれの合格者の人数をxを使って表現すると以下のようになります。((1)の回答参照)

$$
\begin{eqnarray}
男性 = 0.24 x \\
女性 = 0.2 x
\end{eqnarray}
$$

女性の比率を算出します。

$$

$$
\begin{eqnarray}
\frac{0.2x}{0.24x + 0.2x} = \frac{0.2}{0.44} = \frac{5}{11}
\end{eqnarray}

問題概要 [1.2 ]

1,2,3の3種類の数字”だけ”が書かれているサイコロがあります。それぞれの数字がいくつ書かれているかは不明だが、少なくとも1回は書かれているものとします。

このサイコロで、1が出る確率と2が出る確率は等しい。また、各面が出る確率は$1/6$だとします。

このサイコロの期待値は2より大きいということがわかっているとします。

(1) このサイコロの期待値と分散は?

$p(X=1) = p(X=2)$ということなので、サイコロの目のパターンは二通りが考えられます。1~3の数字が2回づつ書かれているパターンと1と2は1回で3だけ4回書かれているパターンです。どっちかはわからないので、両パターンの期待値を計算してみます。

【2回づつのパターン】

$p(x)=\frac{1}{3}$となるので、以下のように計算できます。

$$
E[X] = \sum xp(x) = \frac{1}{3}(1+2+3) = 2
$$

問題に期待値は2より大きいとなっているため、この時点でこの2回づつパターンではないことがわかります。
ということで、あとは期待値と分散の定義に従って計算するだけ。

【3が4回書かれているパターン】

数字のパターンから、$p(X=1) = p(X=2) = \frac{1}{6}$で$p(X=3)=\frac{4}{6}$です。

$$
\begin{eqnarray}
E[X] &=& \sum xp(x) = \frac{1}{6}(1+2) + \frac{4}{6}(3) = \frac{5}{2}
\end{eqnarray}
$$

次に分散です。

$$
\begin{eqnarray}
V[X] = E[(x-\bar{x})^2] = E[x^2] – (E[X])^2
\end{eqnarray}
$$

ここで、

$$
E[X^2] = \frac{1}{6}(1^2 + 2^2) + \frac{4}{6}(3^2) = \frac{41}{6}
$$

なので、

$$
V[X] = \frac{41}{6} – \left( \frac{5}{2} \right)^2 = \frac{7}{12}
$$

です。

(2) このサイコロを2回投げて大きい方の数字を確率変数Yとするとき、確率P(Y=3)は?

2回投げて大きい方が3になるということなので、少なくとも1回は3が出る確率を考えます。つまり、3が出ないケースを1から引けば良いです。

$$
\begin{eqnarray}
P(Y=3) &=& 1 – p(X_1 \le 2, X_2 \le 2) \\
&=& 1 – p(X_1 \le 2)p(X_2 \le 2) \\
&=& 1 – \frac{2}{6}\frac{2}{6} = \frac{8}{9}
\end{eqnarray}
$$

問題概要 [1.3]

100人に一人の割合でかかる病気があります。
2段階の検査(検査1、検査2)があり、検査1では真に病気の人を99.0%で陽性と示しますが、病気ではない場合でも2%の確率で陽性になります。検査2は、検査1で陽性の人に対して行われる検査で真に病気の人は90%で陽性になりますが、病気ではなくても10%で陽性を示します。

(1) Aさんが検査1で陽性反応が出た場合に本当に病気の確率はいくらか?

検査で陽性反応が出たことを条件として、真に病気である確率を条件付き確率の性質(ベイズの定理)をそのまま使って算出します。

$$
\begin{eqnarray}
p(病気 | 検査1陽性) = \frac{p(検査1陽性 | 病気)p(病気)}{p(検査1陽性)}
\end{eqnarray}
$$

ここで、分母の$p(検査1陽性)$は以下のように算出します。

$$
\begin{eqnarray}
p(検査1陽性) &=& p(検査1陽性 | 病気)p(病気) + p(検査1陽性 | \bar{病気})p(\bar{病気}) \\
&=& 0.99 \cdot \frac{1}{100} + 0.02 \cdot \frac{99}{100} \\
&=& \frac{2.97}{100}
\end{eqnarray}
$$

ということで確率は以下の通りです。

$$
\begin{eqnarray}
p(病気 | 検査1陽性) &=& \frac{p(検査1陽性 | 病気)p(病気)}{p(検査1陽性)} \\
&=& 0.99 \cdot \frac{1}{100} \cdot \frac{100}{2.97} \\
&=& \frac{1}{3}
\end{eqnarray}
$$

病気の確率はまだまだ全然低いですね。

(2) Aさんが検査2でも陽性反応が出た場合に本当に病気の確率はいくらか?

これも(1)とほとんど同じですが、検査2は「検査1で陽性反応の人が受診する」ということです。 事前分布が検査1と異なり、「検査1で陽性反応の人」となります。

$$
\begin{eqnarray}
p(病気 | 検査2陽性, 検査1陽性) = \frac{p(検査2陽性 | 病気, 検査1陽性) p(病気 | 検査1陽性)}{p(検査2陽性)}
\end{eqnarray}
$$

これからわかる通り、分子の事前分布は(1)で導出した$p(病気 | 検査1陽性)$です。

また、ここでの分母は次のように導出されます。ここも(1)の結果を使います(なんせ、検査2は検査1をパスした人だけが対象ですから)。

$$
\begin{eqnarray}
p(検査2陽性) &=& p(検査2陽性 | 病気, 検査1陽性)p(病気 | 検査1陽性) + p(検査2陽性 | \bar{病気}, 検査1陽性)p(\bar{病気}, 検査1陽性) \\
&=& 0.9 \cdot \frac{1}{3} + 0.1 \cdot \frac{2}{3} \\
&=& \frac{1.1}{3}
\end{eqnarray}
$$

ということで、最終的な病気の確率は以下の通りです。

$$
\begin{eqnarray}
p(病気 | 検査2陽性, 検査1陽性) &=& \frac{p(検査2陽性 | 病気, 検査1陽性) p(病気 | 検査1陽性)}{p(検査2陽性)} \\
&=& 0.9 \cdot \frac{1}{3} \cdot \frac{3}{1.1} \\
&=& \frac{9}{11} \simeq 0.82
\end{eqnarray}
$$

参考書籍

統計学実践ワークブックは広大な範囲の準1級をカバーしているために、各トピックの内容は薄いです。そのため本章を理解するには以下の書籍も参考になると思います。

統計検定準1級問題解説 ~2019年6月実施 問3 母比率の検定と検定の過誤~

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


解答

[1] 解答

(1)

$\boxed{ \ \mathsf{1}\ }$ : ①

症例数 $n=475$ 帰無仮説 $H_0 : p=0.05$ の片側検定をするとき、検定統計量
$$
z=\frac{\hat p-p}{\sqrt{p(1-p)/n}}=\frac{\hat p-0.05}{\sqrt{0.05\times(1-0.05)/475}}=\frac{\hat p-0.05}{\sqrt{0.05\times0.95/475}}
$$
は、近似的に標準正規分布 $N(0,1)$ に従う。帰無仮説の下で $\hat p$ が $0.0733$ 以上になる確率は、
$$
\begin{align*}
P(\hat p \geqq 0.0733)&=P\left(\frac{\hat p-0.05}{\sqrt{0.05\times0.95/475}} \geqq \frac{0.0733-0.05}{\sqrt{0.05\times0.95/475}}\right)\\
&=P\left(\frac{\hat p-0.05}{\sqrt{0.05\times0.95/475}} \geqq 2.33\right)\\
&=0.0099 \fallingdotseq 0.01
\end{align*}
$$

(2)

$\boxed{ \ \mathsf{2}\ }$

症例数 $n$ として、問題文の片側検定を考える。
帰無仮説 $H_0 : p=0.05$ の下で $\hat p$ は正規分布 $N(0.05, (1-0.05)/n)$ に近似的に従い、有意水準 $2.5%$ のとき、棄却限界値は $0.05+Z_{0.025}\sqrt{0.05\times(1-0.05)/n}$ となる。
一方 、対立仮説 $H_1 : p=0.1$ の帰無仮説の下で $\hat p$ は正規分布 $N(0.1, (1-0.1)/n)$ に近似的に従い、検出力が $90\%$ のとき、棄却限界値は $0.1-Z_{(1-0.9)}\sqrt{0.1\times(1-0.1)/n}$となる。
ここで、 $Z_\alpha$ は 上側確率 $\alpha$ に対する標準正規分布のパーセント点を表し、標準正規分布の上側確率の表から $Z_{0.025}=1.96, Z_{0.1}=1.28$ である。
これらの条件を成立させるためには、
$$
\begin{align*}
0.05+Z_{0.025}\sqrt{0.05\times(1-0.05)/n} &\fallingdotseq 0.1-Z_{(1-0.9)}\sqrt{0.1\times(1-0.1)/n}\\
0.05+\frac{1.96\sqrt{0.05\times0.95}}{\sqrt{n}} &\fallingdotseq 0.1-\frac{1.28\sqrt{0.1\times0.9}}{\sqrt{n}}\\
\frac{1.96\sqrt{0.05\times0.95}+1.28\sqrt{0.1\times0.9}}{\sqrt{n}} &\fallingdotseq 0.1-0.05\\
\sqrt{n} &\fallingdotseq \frac{1.96\sqrt{0.05\times0.95}+1.28\sqrt{0.1\times0.9}}{0.1-0.05}\\
n &\fallingdotseq \left(\frac{1.96\sqrt{0.05\times0.95}+1.28\sqrt{0.1\times0.9}}{0.1-0.05}\right)^2\\
n &\fallingdotseq 263.2
\end{align*}
$$

[2] 解答

(1)

$\boxed{ \ \mathsf{3}\ }$ : ③

発現割合が $0.05$ の事象について、独立に $8$ 症例調べたとき、「少なくとも $1$ 例の有害事象が観測される」ということは、「有害事象が$8$ 症例中全く観測されない」ことではないことから、その確率は、$1-(1-0.05)^8 \fallingdotseq 0.34$ となる。

(2)

$\boxed{ \ \mathsf{4}\ }$ : ⑤

発現割合が $0.001$ の事象について、独立に $n$ 症例調べたとき、「少なくとも $1$ 例の有害事象が観測される」ということは、「有害事象が$n$ 症例中全く観測されない」ことではないことから、
$$
\begin{align*}
1-(1-0.001)^n &= 95\% \\
(1-0.001)^n &= 1-0.95 \\
n\log (1-0.001) &= \log 0.05\\
n &= \frac{\log 0.05}{\log (1-0.001)}
\end{align*}
$$
ここで、$\log (1-\varepsilon) \simeq -\varepsilon$ を使って、$\log (1-0.001) \simeq -0.001$
$$
\therefore n = \frac{\log 0.05}{-0.001} = \frac{2.3026\log_{10} (5/10^2)}{-0.001}= \frac{2.3026 \times (0.669 – 2)}{-0.001} \fallingdotseq 3065
$$


解説

母比率の検定

(「統計検定2級対応 統計学基礎」 p.148, p.118 参照)

大きさ $n$ の標本のうち母比率 $p$ の対象に該当する標本の数 $X$ の分布は二項分布 $B(n,p)$ に従うと考えられる。その期待値と分散は $E[x]=np,\ V[x]=np(1-p)$
$n$ が大きいとき、中心極限定理によって、次の $z$ は標準正規分布 $N(0,1)$ で近似できる。
$$
z=\frac{X-np}{\sqrt{np(1-p)}}
$$
ここで,標本比率は $\hat p=X/n$で求められるため、上式は次のように変形できる。
$$
z=\frac{\hat p-p}{\sqrt{p(1-p)/n}}
$$
したがって、母比率の検定では、帰無仮説 $H_0 : p=p_0$ の下で、次の統計検定量 $z$ が標準正規分布に従うものとして検定を行う。
$$
z=\frac{\hat p-p_0}{\sqrt{p_0(1-p_0)/n}}
$$

検定の過誤

統計的仮説検定においては、帰無仮説(否定したい仮説)と対立仮説(検証したい仮説)の相反する2つの仮説を立てて検定を行う。したがって次の2種類の誤りが生じ得る。

  • 第1種の過誤・・帰無仮説が正しいのに帰無仮説を棄却する過誤
    この過誤を犯す確率を有意水準という。(第1種の過誤を犯す確率=有意水準)
  • 第2種の過誤・・対立仮説が正しいのに帰無仮説を棄却しない過誤
    この過誤を犯さない確率を検出力という。(第2種の過誤を犯す確率=$1-$検出力)

これらの2種類の過誤は、帰無仮説が棄却されるぎりぎりの値である棄却限界値を境にトレードオフの関係にあり、第1種の過誤の確率を小さくすると第2種の過誤の確率は大きくなり、逆に第1種の過誤の確率を大きくすると第2種の過誤の確率は小さくなる。