当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$4.1$節「仮説検定の考え方」の内容を元に仮説検定の概要と基本的な考え方について確認を行います。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。
・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic
「仮説検定の考え方」の概要
概要
「推測統計」では得られた「観測値」を元に「母集団」についてなんらかの推測を行います。「区間推定」では「母平均」のような母集団のパラメータの値を区間での予測を行いますが、「仮説検定」では「パラメータの値を特定の値に定めて良いか」を確率的に検証します。
必要な数学
「統計検定2級対応 統計学基礎」では$2$項分布の例が出てくるので当記事でも同様の例を取り扱います。よって、「順列・組み合わせ」の理解が必要になります。
仮説検定
基本的な考え方
「仮説検定」では母集団に対して「母平均」や「母比率」のようなパラメータの値を定めた際に、「手元に得られた観測値が確率的に珍しいかどうか」を元に考察を行います。たとえば「同様に確からしい」サイコロのが$3$回中$3$回が$1$である確率は下記のように計算できます。
$$
\large
\begin{align}
\left( \frac{1}{6} \right)^{3} &= \frac{1}{216} \\
&= 0.00462 \cdots
\end{align}
$$
上記のようにサイコロを$3$回投げた際に$3$回とも$1$が出る確率は約$0.46$%であり、低い確率であると考えられます。状況によりますがこのような場合は「サイコロに仕掛けがあるのではないか」と考える場合があると思います。
同様に「統計検定2級対応 統計学基礎」では「タコが$20$試合中$14$試合の結果を予測した場合、珍しいと言えるか」について取り扱われています。的中させる確率を$1/2$と考えるとき、「$20$試合中$14$試合の結果を予測する確率」は下記のように計算できます。
$$
\large
\begin{align}
{}_{20} C_{14} \left( \frac{1}{2} \right)^{14} \left( \frac{1}{2} \right)^{6} = 0.0369 \cdots
\end{align}
$$
上記のように約$3.7$%が得られますが、「この結果が珍しいか」を判断するにあたっては、$15$試合以上的中させた場合と$6$試合以下のみの的中の場合を加えて珍しいかを判断する必要があります。この確率が約$11.5$%なので$14$試合の的中はそれほど珍しくないと考えることができます。
下記を実行することで具体的な計算を行いました。
import math
prob1 = math.factorial(20)/(math.factorial(14)*math.factorial(6)*2.**20)
prob2 = 0.
for i in range(14,21):
prob2 += math.factorial(20)/(math.factorial(i)*math.factorial(20-i)*2.**20)
print(prob1)
print(prob2*2)
上記では「珍しくないか」を確認するにあたって、サイコロでは$1/6$、タコの予測では$1/2$のように「一様な確率」を母集団の確率の「母比率」に仮定しました。ここで設定した確率を「帰無仮説」といい、珍しい結果が得られた場合に「帰無仮説を棄却する」というのが仮説検定の考え方です。
このとき、帰無仮説を棄却する基準が必要になりますが、ここで設定する確率を統計学では「有意水準(level of significance)」といい、$\alpha$で表します。
また、サイコロの例では「片側確率」、タコの例では「両側確率」を取り扱いましたが、これらの取り扱いは問題によって使い分ける必要があります。詳しくは「基本的な仮説検定の構造」で取り扱いました。
[…] 4.1 仮説検定の考え方 〜統計検定2級対応・統計学入門まとめ〜 […]