推測統計フローチャート(推定、検定を考えるにあたっての解法の整理)

中心極限定理などに基づいて母集団の確率分布のパラメータの点推定・区間推定や、パラメータに関する仮説の検定を行う推測統計は、基本的な考え方は一貫している一方で推定の対象や分散の既知・未知などに置ける場合分けなど、関連する概念が多くわかりにくい。
そのため当稿では解法の整理の補助となるように、推測統計に関連するトピックをフローチャートの形式にまとめる。作成にあたっては、「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の9章〜12章を主に参考にした。

大枠の整理

推測統計を考える際の前提

推測統計を考える際に前提となるのが母集団(population)と標本(sample)である。記述統計学(descriptive statistics)では得られた標本についてのみ考えるが、得られた標本の裏側の母集団についても考察を行うのが推測統計である。

推測統計では母集団の持つ分布である、母集団分布(population distribution)について知ることが目的となる。母集団分布を考えるにあたっては、事象に対して基本的には理論的・経験的に正規分布やポアソン分布などの確率分布をあてはめることができるとされることが多い。正規分布やポアソン分布を母集団分布に仮定できる場合、正規分布の$\mu$や$\sigma^2$、二項分布の$p$、ポアソン分布の$\lambda$のようにいくつかの確率分布のパラメータさえわかれば母集団分布について全て知ることができる。統計的推測(statistical inference)ではこのパラメータを母数(parameter)と呼び、母数の推測が推測統計の目的となる。

よって、推測統計では母集団分布が正規分布の際の$\mu$や$\sigma^2$などが推測の対象となる。

フローチャート

推測統計の手法を用いる際のフローチャートは概ね上記のようになる。書籍などで確認するとトピックが多く大変だが、このように図で整理することでパターンの把握が容易になるのではと思われる。
どの問題もまず最初に推測の対象を考えるとよく、基本的には「母平均」、「母分散」、「その他」で把握しておくと良い。

以下、フローチャートに対応させつつそれぞれのパターンについて確認する。区間推定、検定のどちらも考え方自体はそれほど変わらないため、ここでは区間推定を元に考えることとする。また、全てを同時に抑えるのは大変なので、発展項目と思われるものについては*をつけた。

上側確率について

区間推定や検定を行う際に、確率密度関数の変数$x$の位置とその位置における積分値の対応を考える際に、$\alpha$を導入して考えることが多い。たとえば区間推定を行う際に、母集団分布の母数$\theta$が$L \leq \theta \leq U$のように$L$(lower confidence limit)、$U$(upper confidence limit)を用いて表せると考えると、確率分布と$\alpha$、$L$、$U$の関係は下記のようになる。
$$
\begin{align}
P(L \leq \theta \leq U) = 1 – \alpha
\end{align}
$$
上記が基本的な$\alpha$の考え方であり、標準正規分布表や$t$分布表、$\chi^2$分布の表などと見比べて区間推定や検定を行う。一方で、この際に、表の読み取りの際に$\alpha/2$などが出てきてわかりにくくなるケースがある。

このような状況を防ぐにあたって、「$XX$分布において上側確率が$100\alpha$%となるパーセント点に対応する$XX$の値を$XX_{\alpha}$とする」と表記し、5%区間を考えるにあたっては上側確率が2.5%の際は$XX_{\alpha=0.025}$のように、$\alpha/2$ではなく$\alpha=0.025$のように数値を変更する形式で表す方が取り扱いやすいと思われる。また、$x=0$を中心とする左右対称の確率分布の場合は$XX_{\alpha=0.975}=-XX_{\alpha=0.025}<0$であることも抑えておくと良い。これは標準正規分布と$t$分布に当てはまる。

母平均の区間推定(母分散既知)

標本数を$n$、標本平均を$\bar{x}$、母平均を$\mu$、母分散を$\sigma^2$とする。
$$
\begin{align}
z = \frac{\bar{x}-\mu}{\sigma/\sqrt{n}}
\end{align}
$$
上記のように$z$を計算したとき、$z$は平均を引いたのちに標準偏差で割っているので標準化されたと考えることができる。よって$z$は標準正規分布$N(0,1)$に従うと考えることができる。

これにより、$z$値を標準正規分布と見比べることで区間推定を行うことができる。母平均$\mu$の95%区間を考えるにあたって、対応する標準正規分布の区間が$z_{\alpha=0.975} \leq z \leq z_{\alpha=0.025}$のように表せるとする。ここで正規分布表より、$z_{\alpha=0.975}=-1.96$、$z_{\alpha=0.025}=1.96$を満たすことが読み取れる。このとき、下記の式変形によって$\mu$の95%区間を求めることができる。
$$
\begin{align}
z_{\alpha=0.975} \leq &z \leq z_{\alpha=0.025} \\
z_{\alpha=0.975} \leq &\frac{\bar{x}-\mu}{\sigma/\sqrt{n}} \leq z_{\alpha=0.025} \\
z_{\alpha=0.975}\frac{\sigma}{\sqrt{n}} \leq &\bar{x}-\mu \leq z_{\alpha=0.025}\frac{\sigma}{\sqrt{n}} \\
-z_{\alpha=0.025}\frac{\sigma}{\sqrt{n}} \leq &\mu-\bar{x} \leq -z_{\alpha=0.975}\frac{\sigma}{\sqrt{n}} \\
\bar{x}-z_{\alpha=0.025}\frac{\sigma}{\sqrt{n}} \leq &\mu \leq \bar{x}-z_{\alpha=0.975}\frac{\sigma}{\sqrt{n}} \\
\bar{x}-1.96\frac{\sigma}{\sqrt{n}} \leq &\mu \leq \bar{x}+1.96\frac{\sigma}{\sqrt{n}}
\end{align}
$$

母平均の区間推定(母分散未知)

標本数を$n$、標本平均を$\bar{x}$、母平均を$\mu$、標本分散を$s^2$とする。
$$
\begin{align}
t = \frac{\bar{x}-\mu}{s/\sqrt{n}}
\end{align}
$$
上記のように$t$を計算したとき、$t$はt分布$t(n-1)$に従うと考えることができる。

これにより、$t$値をt分布$t(n-1)$と見比べることで区間推定を行うことができる。母平均$\mu$の95%区間を考えるにあたって、対応する$t$分布の区間が$t_{\alpha=0.975}(n-1) \leq t \leq t_{\alpha=0.025}(n-1)$のように表せるとする。ここで$n=10$の際はt分布の表より、$t_{\alpha=0.025}(10-1)=t_{\alpha=0.025}(9)=2.262$、$t_{\alpha=0.975}(10-1)=-t_{\alpha=0.025}(9)=-2.262$を満たすことが読み取れる。このとき、下記の式変形によって$\mu$の95%区間を求めることができる。
$$
\begin{align}
t_{\alpha=0.975}(9) \leq &t \leq t_{\alpha=0.025}(9) \\
t_{\alpha=0.975}(9) \leq &\frac{\bar{x}-\mu}{s/\sqrt{n}} \leq t_{\alpha=0.025}(9) \\
t_{\alpha=0.975}(9)\frac{s}{\sqrt{n}} \leq &\bar{x}-\mu \leq t_{\alpha=0.025}(9)\frac{s}{\sqrt{n}} \\
-t_{\alpha=0.025}(9)\frac{s}{\sqrt{n}} \leq &\mu-\bar{x} \leq -t_{\alpha=0.975}(9)\frac{s}{\sqrt{n}} \\
\bar{x}-t_{\alpha=0.025}(9)\frac{s}{\sqrt{n}} \leq &\mu \leq \bar{x}+t_{\alpha=0.025}(9)\frac{s}{\sqrt{n}} \\
\bar{x}-2.262\frac{s}{\sqrt{n}} \leq &\mu \leq \bar{x}+2.262\frac{s}{\sqrt{n}}
\end{align}
$$
サンプル数が多くなるにつれて$t$分布は正規分布に近づく。一方で、サンプル数が少ない際は母分散既知の場合に比較して95%区間は大きくなる。このことは「母分散がわからない方が母集団の不確実性が大きい」と直感的に解釈しておくと良いと思われる。

母分散の区間推定

標本数を$n$、母分散を$\sigma^2$、標本分散を$s^2$とする。
$$
\begin{align}
\chi^2 = \frac{(n-1)s^2}{\sigma^2}
\end{align}
$$
上記のように$\chi^2$を計算したとき、$t$は$\chi^2$分布$\chi^2(n-1)$に従うと考えることができる。これにより、$\chi^2$値を$\chi^2$分布$\chi^2(n-1)$と見比べることで区間推定を行うことができる。

ここで$\chi^2$分布において上側確率が$100\alpha$%となるパーセント点に対応する$\chi^2$の値を$\chi^2_{\alpha}$とする。このとき母分散$\sigma^2$の95%区間は、$\chi^2_{\alpha=0.975}(n-1) \leq \chi^2 \leq \chi^2_{\alpha=0.025}(n-1)$のように表せる。ここで$n=10$の際は$\chi^2$分布の表より、$\chi^2_{\alpha=0.975}(10-1)=\chi^2_{\alpha=0.975}(9)=2.70039$、$\chi^2_{\alpha=0.025}(10-1)=\chi^2_{\alpha=0.025}(9)=19.0228$を満たすことが読み取れる。このとき、下記の式変形によって$\sigma^2$の95%区間を求めることができる。
$$
\begin{align}
\chi^2_{\alpha=0.975}(9) \leq &\chi^2 \leq \chi^2_{\alpha=0.025}(9) \\
\chi^2_{\alpha=0.975}(9) \leq &\frac{(n-1)s^2}{\sigma^2} \leq \chi^2_{\alpha=0.025}(9) \\
\frac{1}{\chi^2_{\alpha=0.025}(9)} \leq &\frac{\sigma^2}{(n-1)s^2} \leq \frac{1}{\chi^2_{\alpha=0.975}(9)} \\
\frac{(n-1)s^2}{\chi^2_{\alpha=0.025}(9)} \leq &\sigma^2 \leq \frac{(n-1)s^2}{\chi^2_{\alpha=0.975}(9)} \\
\frac{9s^2}{19.0228} \leq &\sigma^2 \leq \frac{9s^2}{2.70039}
\end{align}
$$

母平均の差の区間推定(母分散が未知だが等しいと仮定)

母集団分布を$N(\mu_1, \sigma^2)$と$N(\mu_2, \sigma^2)$で表すことのできる母分散の等しい二つの正規母集団から個別に標本$X_1, X_2, …, X_m$と$Y_1, Y_2, …, Y_n$を抽出した際の母平均の差$\mu_1-\mu_2$の区間推定について考える。このとき不偏分散を$s^2$とすると$s^2$は下記のように計算できる。
$$
\begin{align}
s^2 = \frac{1}{m+n-2} \left( \sum_{j=1}^{m}(X_i-\bar{X})^2 + \sum_{j=1}^{n}(Y_i-\bar{Y})^2 \right)
\end{align}
$$
ここで下記のように$t$値を計算する。
$$
\begin{align}
t = \frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{s \sqrt{1/m+1/n}}
\end{align}
$$
このとき上記は自由度$m+n-2$の$t$分布$t(m+n-2)$に従うため、$t(m+n-2)$見比べることで区間推定を行うことができる。母平均の差$\mu_1-\mu_2$の95%区間を考えるにあたって、対応する$t$分布$t(m+n-2)$の区間が$t_{\alpha=0.975}(m+n-2) \leq t \leq t_{\alpha=0.025}(m+n-2)$のように表せるとする。ここで$m=10$、$n=10$の際は$t$分布の表より、$t_{\alpha=0.975}(10+10-2)=-t_{\alpha=0.025}(18)=-2.101$、$t_{\alpha=0.025}(10+10-2)=t_{\alpha=0.025}(18)=2.101$を満たすことが読み取れる。このとき、下記の式変形によって$\mu_1-\mu_2$の95%区間を求めることができる。
$$
\begin{align}
t_{\alpha=0.975}(18) \leq &t \leq t_{\alpha=0.025}(18) \\
t_{\alpha=0.975}(18) \leq &\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{s \sqrt{1/m+1/n}} \leq t_{\alpha=0.025}(18) \\
-t_{\alpha=0.025}(18) \leq &\frac{(\mu_1-\mu_2)-(\bar{X}-\bar{Y})}{s \sqrt{1/m+1/n}} \leq -t_{\alpha=0.975}(18) \\
-t_{\alpha=0.025}(18)s \sqrt{1/m+1/n} \leq &(\mu_1-\mu_2)-(\bar{X}-\bar{Y}) \leq -t_{\alpha=0.975}(18)s \sqrt{1/m+1/n} \\
(\bar{X}-\bar{Y})-t_{\alpha=0.025}(18)s \sqrt{1/m+1/n} \leq &(\mu_1-\mu_2) \leq (\bar{X}-\bar{Y})+t_{\alpha=0.025}(18)s \sqrt{1/m+1/n} \\
(\bar{X}-\bar{Y})-2.101s \sqrt{1/10+1/10} \leq &(\mu_1-\mu_2) \leq (\bar{X}-\bar{Y})+2.101s \sqrt{1/10+1/10} \\
(\bar{X}-\bar{Y})-\frac{2.101s}{\sqrt{5}} \leq &(\mu_1-\mu_2) \leq (\bar{X}-\bar{Y})+\frac{2.101s}{\sqrt{5}}
\end{align}
$$

母平均の差の区間推定(母分散が未知であるかつ等しいと仮定できない)*

二つの母分散が等しいと仮定できない場合の母平均の差の場合は、下記のように集団ごとに不偏分散を計算する。
$$
\begin{align}
s_1^2 &= \frac{1}{m-1} \sum_{j=1}^{m}(X_i-\bar{X})^2 \\
s_2^2 &= \frac{1}{n-1} \sum_{j=1}^{n}(Y_i-\bar{Y})^2
\end{align}
$$
上記のようにそれぞれの集団の不偏分散を計算したのちにウェルチの近似法を用いて$t$値を計算する。
$$
\begin{align}
t = \frac{(\bar{X}-\bar{Y}) – (\mu_1-\mu_2)}{\sqrt{s_1^2/m + s_2^2/n}}
\end{align}
$$
このとき下記のように$\nu$を計算する。
$$
\begin{align}
\nu = \frac{(s_1^2/m + s_2^2/n)^2}{\frac{(s_1^2/m)^2}{m-1} + \frac{(s_2^2/n)^2}{n-1}}
\end{align}
$$
ここで$\nu$に一番近い整数を$\nu’$とすると前述のように計算した$t$値は自由度$\nu’$の$t$分布$t(\nu’)$に近似的に従う。

このとき$\mu_1-\mu_2$の95%区間はこれまでと同様に求めることができる。
$$
\begin{align}
t_{\alpha=0.975}(\nu’) \leq &t \leq t_{\alpha=0.025}(\nu’) \\
(\bar{X}-\bar{Y})-t_{\alpha=0.025}(\nu’)\sqrt{s_1^2/m + s_2^2/n} \leq &(\mu_1-\mu_2) \leq (\bar{X}-\bar{Y})+t_{\alpha=0.025}(\nu’)\sqrt{s_1^2/m + s_2^2/n}
\end{align}
$$
他と比較しても式が複雑なので途中計算は省略した。

母分散の比の区間推定 *

二つの集団のサンプル数を$m$、$n$、母分散を$\sigma_1^2$、$\sigma_2^2$とし、不偏標本分散を$s_1^2$、$s_2^2$とする。
$$
\begin{align}
F = \frac{\sigma_2^2 s_1^2}{\sigma_1^2 s_2^2}
\end{align}
$$

このとき上記のように$F$値を定義すると$F$値は自由度$(m-1,n-1)$の$F$分布$F(m-1,n-1)$に従う。この導出にあたっての詳細は省略したが「基礎統計学Ⅰ 統計学入門(赤本)」の10.5.2節の記載が参考になる。

さて、このとき$\displaystyle \frac{\sigma_2^2}{\sigma_1^2}$の95%区間を求める。
$$
\begin{align}
F_{\alpha=0.975}(m-1,n-1) \leq &F \leq F_{\alpha=0.025}(m-1,n-1) \\
F_{\alpha=0.975}(m-1,n-1) \leq &\frac{\sigma_2^2 s_1^2}{\sigma_1^2 s_2^2} \leq F_{\alpha=0.025}(m-1,n-1) \\
F_{\alpha=0.975}(m-1,n-1)\frac{s_2^2}{s_1^2} \leq &\frac{\sigma_2^2}{\sigma_1^2} \leq F_{\alpha=0.025}(m-1,n-1)\frac{s_2^2}{s_1^2}
\end{align}
$$
負の値や逆数を取るなどの不等号が反転する演算を行っていないことに注意しておくとよい。不等号の反転がある場合の計算がややこしい場合は不等号を一つずつ計算する方がミスが減らせるので、わからなくなったら一つずつ計算する方が良いと思われる。

母比率の区間推定(二項分布)

サンプル数$n$、母比率$p$の二項分布$Binom(n,p)$に従う確率変数$X$の母平均は$np$、母分散は$np(1-p)$と表すことができる。
https://www.hello-statisticians.com/explain-books-cat/toukeigakunyuumon-akahon/ch6_practice.html#61
$$
\begin{align}
z = \frac{X-np}{\sqrt{np(1-p)}}
\end{align}
$$
このとき中心極限定理に基づいて、上記が従う分布は標準正規分布で近似できる。よって、$z$値を標準正規分布と見比べることで区間推定を行うことができる。母比率$p$の95%区間を考えるにあたって、対応する標準正規分布の区間が$z_{\alpha=0.975} \leq z \leq z_{\alpha=0.025}$のように表せるとする。ここで正規分布表より、$z_{\alpha=0.975}=-1.96$、$z_{\alpha=0.025}=1.96$を満たすことが読み取れる。このとき、下記の式変形によって$p$の95%区間を求めることができる。
$$
\begin{align}
z_{\alpha=0.975} \leq &z \leq z_{\alpha=0.025} \\
z_{\alpha=0.975} \leq &\frac{X-np}{\sqrt{np(1-p)}} \leq z_{\alpha=0.025} \\
-z_{\alpha=0.025} \leq &\frac{p-X/n}{\sqrt{p(1-p)/n}} \leq -z_{\alpha=0.975} \\
-z_{\alpha=0.025} \leq &\frac{p-\hat{p}}{\sqrt{p(1-p)/n}} \leq -z_{\alpha=0.975} \\
-z_{\alpha=0.025}\sqrt{p(1-p)/n} \leq &p-\hat{p} \leq -z_{\alpha=0.975}\sqrt{p(1-p)/n} \\
\hat{p}-z_{\alpha=0.025}\sqrt{p(1-p)/n} \leq &p \leq \hat{p}+z_{\alpha=0.025}\sqrt{p(1-p)/n} \\
\hat{p}-1.96\sqrt{p(1-p)/n} \leq &p \leq \hat{p}+1.96\sqrt{p(1-p)/n}
\end{align}
$$
「基礎統計学Ⅰ 統計学入門」の11.5.3の議論により、「$n$が大きい場合大数の法則に基づいて、不等号の一番左と右の式における$p$は$\hat{p}$で近似できる」と考えることができる。よって、95%区間は下記のように近似することができる。
$$
\begin{align}
\hat{p}-1.96\sqrt{\hat{p}(1-\hat{p})/n} \leq p \leq \hat{p}+1.96\sqrt{\hat{p}(1-\hat{p})/n}
\end{align}
$$

母比率の区間推定(ポアソン分布)

解法の整理

区間推定

点推定

検定

まとめ

問題演習(基礎統計学Ⅰ)

https://www.hello-statisticians.com/explain-books-cat/toukeigakunyuumon-akahon/ch10_practice.html
https://www.hello-statisticians.com/explain-books-cat/toukeigakunyuumon-akahon/ch11_practice.html
https://www.hello-statisticians.com/explain-books-cat/toukeigakunyuumon-akahon/ch12_practice.html

「推測統計フローチャート(推定、検定を考えるにあたっての解法の整理)」への4件のフィードバック

  1. […] 「2標本問題(two-sample problem)」は何らかの処理を施した「処理群(treatment group)」とそうでない「対照群(control group)」や、異なる地点での気温のように、2つの対象の比較(comparison)を行う問題である。https://www.hello-statisticians.com/explain-terms-cat/flow_chart_stat1.html基本的には上記などでまとめた2標本の「母平均の差」や「母分散の比」などの考察によって2つの推測を行うと考えておけば良い。 […]

  2. […] 推測統計学における「推定」は「区間推定」と「点推定」にわけられるが、「点推定論」では「一様最小分散不偏推定量(UMVU; Uniformly Minimum Variance Unbiased estimator)」や「最尤推定量」について主に取り扱われる。当記事では一様最小分散不偏推定量の構成要素の一つである不偏推定量に関して、バイアス・バリアンス分解の視点から確認を行う。作成にあたっては「現代数理統計学(学術図書出版社)」の7.1節の「点推定論の枠組み」を参考にした。 […]

  3. […] 「統計的決定理論(statistical decision theory)」は推定・検定などの統計的推測を統一的に論じるにあたってワルドが導入した考え方である。統計的決定理論は抽象的な理論であるが、推定や検定に関する表記を行う際に役に立つので抑えておくとよい。当記事では「統計的決定理論」に関する基本的な用語と定義をまとめた。作成にあたっては「現代数理統計学(学術図書出版社)」の第5章の「統計的決定理論の枠組み」を参考にした。 […]

コメントは受け付けていません。