統計検定準1級 問題解説 ~2018年6月実施 論述問題 問2 質的回帰・AIC~

問題

過去問題は統計検定公式が問題と解答例を公開しています。こちらを参照してください。

解答

[1] 解答

$(1)$
確率$P(Y=1|X_1=1,X_2=1)$は下記のように計算することができる。
$$
\large
\begin{align}
P(Y=1|X_1=1,X_2=1) &= \Phi(\alpha_0 + \alpha_1 + \alpha_2) \\
&= \Phi(-0.958 – 0.265 – 0.246) = \Phi(-1.469) \\
&= 0.0709… \simeq 0.071
\end{align}
$$

・追記
SciPyを用いる場合は下記のように計算を行うことができる。

from scipy import stats

print("result: {:.5f}".format(stats.norm.cdf(-0.958 - 0.265 - 0.246)))

・実行結果

result: 0.07092

$(2)$
$\Phi(\alpha_0 + \alpha_1 X_1 + \alpha_2 X_2)$の$X_1, X_2$での偏微分は下記のように計算できる。
$$
\large
\begin{align}
\frac{\partial \Phi(\alpha_0 + \alpha_1 X_1 + \alpha_2 X_2)}{\partial X_1} &= \phi(\alpha_0 + \alpha_1 X_1 + \alpha_2 X_2) \times \frac{\partial}{\partial X_1} (\alpha_0 + \alpha_1 X_1 + \alpha_2 X_2) \\
&= \phi(\alpha_0 + \alpha_1 X_1 + \alpha_2 X_2) \alpha_1 \\
\frac{\partial \Phi(\alpha_0 + \alpha_1 X_1 + \alpha_2 X_2)}{\partial X_2} &= \phi(\alpha_0 + \alpha_1 X_1 + \alpha_2 X_2) \alpha_2
\end{align}
$$

上記を元に限界効果は下記のように計算することができる。
$$
\large
\begin{align}
\frac{\partial P(Y=1|X_1,X_2=0)}{\partial X_1} \Bigr|_{X_1=0} &= \phi(\alpha_0) \alpha_1 \\
&= 0.252 \times (-0.265) \\
&= -0.06678 \\
\frac{\partial P(Y=1|X_1=0,X_2)}{\partial X_2} \Bigr|{X_2=0} &= \phi(\alpha_0) \alpha_2 \\
&= 0.252 \times (-0.246) \\
&= -0.061992
\end{align}
$$

[2] 解答

$(1)$
省略

$(2)$
対数尤度を$l$、自由パラメータの数を$k$とおくとき、AICは下記のような数式で定義される。
$$
\large
\begin{align}
AIC = -2l + 2k
\end{align}
$$

ここでは自由パラメータの数は回帰係数と分散$\sigma^2$が対応するので、変数の数$+2$がここでの$k$の値に一致する。このことに基づいて下記のような計算を行うことでAICの計算結果を得ることができる。

import numpy as np

log_l = np.array([-168.469, -168.304, -166.565, -166.161])
k = np.array([4., 5., 5., 6.])

print(-2*log_l+2*k)

・実行結果

[ 344.938  346.608  343.13   344.322]

上記の結果より、AICが最大になる「日照時間+平均気温+最低気温」の変数の組み合わせを用いると良い。

解説

プロビット回帰を行う際の限界効果の計算などにあたって、合成関数の微分の考え方が出てくるので注意して抑えておくと良いと思います。

参考

・統計検定準1級 まとめ
https://www.hello-statisticians.com/toukeikentei-semi1