「統計学実践ワークブック」 演習問題etc Ch.18 「質的回帰」

当記事は「統計学実践ワークブック(学術図書出版社)」の読解サポートにあたってChapter.18の「質的回帰」に関して演習問題を中心に解説を行います。ロジスティック回帰やポアソン回帰など一般化線形モデルはよく出てくるトピックなので、演習を通して抑えておくと良いと思われました。

本章のまとめ

下記などで関連のテーマを取り扱ったので、こちらも合わせてご確認ください。
https://www.hello-statisticians.com/practice/stat_practice7.html

演習問題解説

問18.1

$[1]$
ロジスティックシグモイド関数の形状より、回帰式が$0$に一致するとき、確率が$0.5$に一致する。ここで導出する値を$x$とおくと、下記を$x$に関して解けば良い。
$$
\large
\begin{align}
-3.77714 + 0.14486x &= 0 \\
x &= \frac{3.77714}{0.14486} \\
x &= 26.074…
\end{align}
$$

また、ここでロジスティックシグモイド関数の変数に$x=30$を代入すると下記のように計算できる。
$$
\large
\begin{align}
\frac{1}{1+e^{-(-3.77714 + 0.14486 \times 30)}} &= \frac{1}{1+e^{-0.5686…}} \\
&= 0.6384…
\end{align}
$$

$[2]$
推定されたパラメータを$\beta_0,\beta_1$、説明変数を$x_1$とおくとき、確率の推定値$\hat{p}$のオッズは下記のように表される。
$$
\large
\begin{align}
\frac{\hat{p}}{1-\hat{p}} &= e^{\beta_0+\beta_1x_1} \\
&= e^{\beta_0}e^{\beta_1x_1}
\end{align}
$$

ここで、$x_1=a$と$x_1=a+2$のときのオッズを比較すると、$x_1=a+2$のときが$x_1=a$のときの$e^{2\beta_1}=e^{2 \times 0.14486} = 1.336…$倍であることが確認できる。

問18.2

$[1]$
確率の推定値を$\hat{p}$とおくと、$\hat{p}$は下記のように計算できる。
$$
\large
\begin{align}
\hat{p} &= \frac{1}{1+e^{-(-2.37766 – 0.06777 x_1 + 0.69531 x_2 + 0.87194 x_3)}} \\
&= \frac{1}{1+e^{-(-2.37766 – 0.06777 \cdot 1 + 0.69531 \cdot 1 + 0.87194 \cdot 1)}} \\
& \simeq 0.293555
\end{align}
$$

$[2]$
$x_1, x_3$を固定し、$x_2=0, x_2=1$の推定リスクに関して確認を行う。
・$x_2=0$
$$
\large
\begin{align}
\frac{\hat{p}}{1-\hat{p}} &= e^{(-2.37766 – 0.06777 x_1 + 0.87194 x_3)}
\end{align}
$$

・$x_2=1$
$$
\large
\begin{align}
\frac{\hat{p}}{1-\hat{p}} &= e^{(-2.37766 – 0.06777 x_1 + 0.69531 + 0.87194 x_3)}
\end{align}
$$

よって$x_2=1$のときは$x_2=0$の時に比べて$e^{0.69531} \simeq 2.00$倍のリスクを持つ。

$[3]$
推定量$0.69531$に対応する標準偏差が$0.285$であることから、推定量が標準正規分布に従うと考えた際の$95$%区間は下記のように計算できる。
$$
\large
\begin{align}
0.69531 \pm 1.96 \times 0.285 &= [0.1367, 1.254]
\end{align}
$$

よって、$95$%区間は$[e^{0.1367},e^{1.254}] = [1.146,3.504]$のように計算できる。

問18.3

$[1]$
問$18.2$と同様に$2$値変数をそれぞれ$x_1,x_2,x_3 \in {0,1}$とおく。また、標準正規分布の累積分布関数を$\Phi(z)$とおく。このとき推定値を$\hat{p}$とおくと、$\hat{p}$は下記のように計算できる。
$$
\large
\begin{align}
\hat{p} &= \Phi(-1.37312-0.03865x_1+0.39996x_2+0.46508x_3) \\
&= \Phi(-1.37312 – 0.03865 \cdot 1 + 0.39996 \cdot 1 + 0.46508 \cdot 1) \\
&= \Phi(-0.5467) \simeq 0.291
\end{align}
$$

$[2]$
係数をそれぞれ$\beta_0, \beta_1, \beta_2, \beta_3$とするとき、$x_2$に対する限界効果は定義より下記のように導出できる。
$$
\large
\begin{align}
\frac{\partial \hat{p}}{\partial x_2} &= \frac{\partial}{\partial x_2} \Phi(\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3) \\
&= \phi(\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3) \beta_2
\end{align}
$$

上記に対し、$x_1=0,x_2=0,x_3=0$を代入し、$\beta$の推定値$\hat{\beta}$にここでの結果を代入すると下記が得られる。
$$
\large
\begin{align}
\phi(\hat{\beta}_0+\hat{\beta}_1x_1+\hat{\beta}_2x_2+\hat{\beta}_3x_3) \beta_2 &= \phi(\hat{\beta}_0) \hat{\beta}_2 \\
&= \phi(-1.37312) \times 0.39996 \\
& \simeq 0.155 \times 0.39996 \simeq 0.062
\end{align}
$$

問18.4

$[1]$
得点の推定値を$\lambda$とおくと、$\lambda$は下記のような式で表される。
$$
\large
\begin{align}
\lambda &= e^{\beta_0 + \beta_1x_1 + \beta_2x_2} \\
&= e^{6.340460 – 0.081255x_1 + 0.019589x_2} \\
&= e^{6.340460}e^{-0.081255x_1}e^{0.019589x_2}
\end{align}
$$
上記より、$x_1$が$1$増えると$\lambda$が$e^{-0.081255} \simeq 0.92$倍、$x_2$が$1$増えると$\lambda$が$e^{0.019589} \simeq 1.02$倍になると推定できる。

$[2]$
Pr(>|t|)を確認すると、$x_2$に関して有意だが、$x_1$に関しては有意でないことが確認できる。

参考

・準1級関連まとめ
https://www.hello-statisticians.com/toukeikentei-semi1