【具体例で解説】仮説検定の計算(二項検定、二つの母平均の差の区間推定)

この記事では具体例を用いて,仮説検定の基本的な考え方について解説します.

二項分布を使った検定(二項検定)

例:セールスマントークで使うフレーズの効果

セールストークにおいてフレーズAを使うことが商談成立に寄与しているかを考えます.
全ての商談は独立同一分布(つまり、同じセールストークを使った時の商談成功率はすべての商談で変わらない)とします.

問題設定

フレーズAを使わなかった時の商談成功率は$50$%であるとします.
フレーズAを使った時の商談$100$回試してみたところ,55回成功したとします.
この時,フレーズAは商談成立に効果のあるフレーズといえるでしょうか?
単純に比べると,フレーズAを使わなかっときは$50$%の成功率,フレーズAを使った時は$55$%なので,フレーズAを使うのが良いように見えます.ただ,これは試行回数が少ないだけで,たまたまフレーズAを使った場合がよかっただけかもしれません.

たまたま良かっただけなのか,本当に効果があるのか,二項検定で調べてみましょう.

計算

商談成功率はフレーズAを使った場合でも変わらず$50$%であるとします.このとき,$100$回のうち$55$回成功する確率は,

$$
{\rm 55回商談成功する確率} = {}_{100} C_{55} \cdot 0.5 ^{55} \cdot (1 – 0.5) ^{45} = 0.07958924
$$

となり,約$8$%です.同様に $56$回,$57$回…と計算して$100$回のうち$55$回以上商談が成功する確率を計算しましょう.すると次のようになります.
$$
{\rm 55回以上商談成功する確率} = \sum _{k=55}^{100} {}_{100} C_{k} \cdot 0.5 ^{k} \cdot (1 – 0.5) ^{100-k} = 0.184100808663348
$$
となり,約$18$%と出ました.確かに確率は低いですが,運が良ければあり得なくもない数字です.フレーズAを入れた場合の商談成功率が$50$%で変わっていなかったとしても,$55$回以上成功する事象はあり得ると考えた方がよさそうです,なので,この$100$回の試行ではフレーズAが商談成功に寄与するとは言えない(まだわからない) という結論になります.

$300$回試行した場合の計算

追加でさらに検証して,$300$回のうち$165$回商談が成功したという結果が得られたとしましょう.フレーズAは効果があるといえるでしょうか.上の計算と同様に,商談成功率$50$%で,$165$回以上成功する確率を計算してみます.すると,
$$
{\rm 165回以上商談成功する確率} = \sum _{k=165}^{300} {}_{300} C_{k} \cdot 0.5 ^{k} \cdot (1 – 0.5) ^{300-k} = 0.04695185
$$

となり,約$4.7$%とでました.もしフレーズAを入れた商談成功率が$50$%で変わっていなかった場合,$165$回以上成功する確率はかなり低いと言ってよさそうです.つまり,
商談成功率が変わっていなければあり得にくいことが起こっている
→商談成功率が変わっている(上がっている)と考えるのが自然
→フレーズAは商談成功に寄与している
といえることになります.

よって,今回の例では$300$回の試行でフレーズAが商談成功に寄与していると結論付けできました.

二つの母平均の差の区間推定

例:ある教材を使った時の生徒の成績

教材A,Bそれぞれを使った授業を受ける生徒の成績を$2$つの母集団として,どちらを使った方が良いのか,あるいはどちらを使っても変わらないのか推定することを考えましょう.

問題設定

教材Aを使った生徒$m$人で,それぞれの点数が$x_1, \cdots , x_m$,教材Bを使った生徒が$n$人で,それぞれの点数が$y_1, \cdots , y_n$とします.それぞれの平均を
$$
\begin{eqnarray}
\bar{x} &=& \frac{ \displaystyle \sum_{i=1}^m x_i}{n} \\
\bar{y} &=& \frac{ \displaystyle \sum_{i=1}^n y_i}{n}
\end{eqnarray}
$$
とします.このとき,$\bar{x}-\bar{y}$の差が$10$点だったとします.この$10$点は意味のある差で「教材Aを使った方がよい」のでしょうか.それともたまたまで教材Aと教材Bどちらを使っても良いのでしょうか.
ここで,教材Aを使ったときのテストの点数は平均$\mu _1$,分散$\sigma^2$,教材Bを使ったときのテストの点数は平均 $\mu _2$,分散$\sigma^2$ に従うものとします.

計算

正規分布に関する二つの事実を使います.
中心極限定理から,十分$n,m$が大きいとすると,$\bar{x}$はそれぞれ平均$\mu _1$,分散$\cfrac{\sigma^2}{m}$の正規分布$\bar{y}$はそれぞれ平均$\mu _2$,分散$\cfrac{\sigma^2}{n}$の正規分布に(法則)収束します.
また,正規分布の和は正規分布になることが知られています.これを利用すると,$\delta = \bar{x}-\bar{y}$の平均は$\mu _1 – \mu _2$,分散は$\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}$ですから,$\delta$は平均は$\mu _1 – \mu _2$,分散は$\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}$の正規分布に従います.
このことを利用して検定してみましょう.

実際は教材Aと教材Bどちらを使っても変わらないときを考えましょう.もし変わらないのであれば,平均はどちらも同じということです.つまり
$$
\mu _1 = \mu _2
$$
です.このとき,$\delta$は平均$0$,分散$\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}$の正規分布に従います.今,$\delta=10$であったので,この値が正規分布$\mathcal{N}\left(0,\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}\right)$において起こりやすい値なのか,起こりにくい値なのかを調べれば良さそうです.

ここで,何をもって「起こりやすい」,「起こりにくい」とみなすのか整理しておきましょう.今考えている分布は正規分布なので,一番起こりうる値は平均$0$からどれくらい離れているかで考えると良さそうです.$0$を中心とした区間$[-a, a]$で
$$
\int_{-a}^a \phi (x) dx = 0.95
$$
ここで,$\phi (x)$は$\mathcal{N}\left(0,\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}\right)$の確率密度関数としました.
上式を満たす$a$をとり,区間$[-a, a]$に入るかどうかで判定するのが良さそうです.つまり,区間$[-a, a]$に入っていればそれは$95$%の確率で起こりうる事象の範疇であるから「起こりやすい」,$[-a, a]$に入っていなければそれは$5$%の確率で起こりうる事象の範疇であるから「起こりにくい」とするわけです.
正規分布の標準偏差が$\sigma$の場合は,この$a$は約$1.96\sigma$であることが知られています.今,標準偏差は$\sqrt{\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}}$なので,
$$
\begin{eqnarray}
\deltaが\left[ -1.96\sqrt{\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}},1.96\sqrt{\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}} \ \right]内に入っているなら起こりやすい \\
\deltaが\left[ -1.96\sqrt{\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}},1.96\sqrt{\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}} \ \right]内に入っていないなら起こりにくい
\end{eqnarray}
$$
と判断すると良いことになります.これで何をもって「起こりやすい」,「起こりにくい」とみなすのかはっきりと示すことができました.

さて,準備が整ったところで具体的な計算に移っていきましょう.$\sigma = 20$,$m=n=100$のときを考えましょう.すると上で求めた区間は
$$
\left[ -1.96\sqrt{\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}},1.96\sqrt{\cfrac{\sigma^2}{m}+\cfrac{\sigma^2}{n}} \ \right] = [-5.534… , 5.534…]
$$
となります.プラスマイナス約$5.5$点の範囲であれば誤差といえるようです.今,平均の点の差は$10$点であったので,起こりにくいということになります.つまり,
教材Aと教材Bを使った時の平均が同じであるとすると起こりにくいことが起こっている
→教材Aと教材Bを使った時の平均が同じでないとするのが妥当
→平均の高かった教材Aをつかう方が生徒の成績が上がる

といえることになります.

よって今回の例では教材Aを使うべき,と結論付け出来ました.

まとめ

以上が仮説検定の素朴な適用方法になります.仮説検定の手法は色々ありますが,考え方は同じで,次の$3$ステップで計算を行います.

  1. ある仮定をして(この仮定を帰無仮説といいます),
  2. その仮定の下で今起こっている事象がレアな事象なのかどうかを判定し(今回は信頼水準$95$%で判定)
  3. レアな事象と判定できれば最初の仮定を否定できる(このことを信頼水準$95$%で帰無仮説を棄却できた、といいます)

尚,この記事では帰無仮説,有意水準,棄却といった言葉は使わずに書きました.これらの用語が上の例でいうとどこに該当するか考えると更に理解が深まると思います.