当記事は「現代数理統計学(学術図書出版社)」の読解サポートにあたってChapter.11の「線形モデル」の章末問題の解説について行います。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は購入の上ご確認ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。(そのため著者の意図とは異なる解説となる可能性はあります)
↓下記が公式の解答なので、正確にはこちらを参照ください。
https://www.gakujutsu.co.jp/text/isbn978-4-7806-0860-1/
Contents
- 1 章末の演習問題について
- 1.1 問題11.1の解答例
- 1.2 問題11.2の解答例
- 1.3 問題11.3の解答例
- 1.4 問題11.4の解答例
- 1.5 問題11.5の解答例
- 1.6 問題11.6の解答例
- 1.7 問題11.7の解答例
- 1.8 問題11.8の解答例
- 1.9 問題11.9の解答例
- 1.10 問題11.10の解答例
- 1.11 問題11.11の解答例
- 1.12 問題11.12の解答例
- 1.13 問題11.13の解答例
- 1.14 問題11.14の解答例
- 1.15 問題11.15の解答例
- 1.16 問題11.16の解答例
- 1.17 問題11.17の解答例
- 1.18 問題11.18の解答例
- 1.19 問題11.19の解答例
- 1.20 問題11.20の解答例
- 1.21 問題11.21の解答例
- 1.22 関連
章末の演習問題について
問題11.1の解答例
$(11.14)$式を元に$(11.13)$式は下記のように変形することができる。
$$
\large
\begin{align}
f(y) &= \frac{1}{(2 \pi \sigma^2)^{n/2}} \exp \left( -\frac{1}{2 \sigma^2}(y – X \beta)^{\mathrm{T}}(y – X \beta) \right) \\
&= \exp \left( -\frac{1}{2 \sigma^2} y^{\mathrm{T}}y + \frac{1}{\sigma^2} \beta^{\mathrm{T}} X^{\mathrm{T}}y – \frac{\beta^{\mathrm{T}} X^{\mathrm{T}} X \beta}{\sigma^2} – \frac{n}{2} \log{(2 \pi \sigma^2)} \right) \quad (1)
\end{align}
$$
上記の$(1)$式に対して、$\displaystyle \psi_{1} = -\frac{1}{2 \sigma^2}, \psi_{2} = \frac{\beta^{\mathrm{T}}}{\sigma^2}$とおき、$\displaystyle T_{1} = y^{\mathrm{T}}y, T_{2} = X^{\mathrm{T}}y, c(\psi) = \frac{n}{2} \log{(2 \pi \sigma^2)}$とおくと、$(1)$式は$(6.17)$式の指数型分布族の式に一致する。よって$(y^{\mathrm{T}}y, X^{\mathrm{T}}y)$が完備十分統計量であると考えることができる。
・参考 $(6.17)$式による指数型分布族の定義
$$
\large
\begin{align}
f(x,\psi) = h(x) \exp \left( \sum_{j=1}^{k} T_{j}(x) \psi_{j} – c(\psi) \right)
\end{align}
$$
問題11.2の解答例
・$a^{\mathrm{T}}b$に関する導出
$a^{\mathrm{T}}b$は下記のように成分を用いて表すことができる。
$$
\large
\begin{align}
a^{\mathrm{T}}b &= \left(\begin{array}{ccc} a_{1} & \cdots & a_{q} \end{array} \right) \left(\begin{array}{c} b_{1} \\ \vdots \\ b_{q} \end{array} \right) \\
&= \sum_{k=1}^{p} a_{k} b_{k}
\end{align}
$$
よって上記の$a_{i}$での偏微分は$\displaystyle \frac{\partial}{\partial a_{i}} a^{\mathrm{T}}b = b_{i}$のように考えることができる。また、これをベクトル表記することで下記が成立することも示すことができる。
$$
\large
\begin{align}
\left(\begin{array}{c} \frac{\partial}{\partial a_{1}} \\ \vdots \\ \frac{\partial}{\partial a_{q}} \end{array} \right) a^{\mathrm{T}}b &= \left(\begin{array}{c} \frac{\partial}{\partial a_{1}} \\ \vdots \\ \frac{\partial}{\partial a_{q}} \end{array} \right) \sum_{k=1}^{p} a_{k} b_{k} \\
&= \left(\begin{array}{c} b_{1} \\ \vdots \\ b_{q} \end{array} \right) = b
\end{align}
$$
・$a^{\mathrm{T}}Ca$に関する導出
$a^{\mathrm{T}}Ca$は下記のように成分を用いて表すことができる。
$$
\large
\begin{align}
a^{\mathrm{T}}Ca &= \left(\begin{array}{ccc} a_{1} & \cdots & a_{q} \end{array} \right) \left(\begin{array}{ccc} c_{11} & \cdots & c_{1q} \\ \vdots & \ddots & \vdots \\ c_{q1} & \cdots & c_{qq} \end{array} \right) \left(\begin{array}{c} a_{1} \\ \vdots \\ a_{q} \end{array} \right) \\
&= \left(\begin{array}{ccc} a_{1} & \cdots & a_{q} \end{array} \right) \left(\begin{array}{c} \sum_{l=1}^{q} c_{1j}a_{j} \\ \vdots \\ \sum_{j=1}^{q} c_{ql}a_{l} \end{array} \right) \\
&= a_{1} \sum_{l=1}^{q} c_{ql}a_{l} + … + a_{q} \sum_{l=1}^{q} c_{ql}a_{l} \\
&= \sum_{k=1}^{q} a_{k} \sum_{l=1}^{q} c_{kl}a_{l} \\
&= \sum_{k=1}^{q}\sum_{j=1}^{q} c_{kl}a_{k}a_{l} \\
&= \sum_{k=1}^{q} c_{kk}a_{k}^2 + 2 \sum_{i<j}^{q} c_{kl}a_{k}a_{l}
\end{align}
$$
上記より、偏微分$\displaystyle \frac{\partial}{\partial a_{i}} a^{\mathrm{T}}Ca$は下記のように計算できる。
$$
\large
\begin{align}
\frac{\partial}{\partial a_{i}} a^{\mathrm{T}}Ca &= \frac{\partial}{\partial a_{i}} \left( \sum_{k=1}^{q} c_{kk}a_{k}^2 + 2 \sum_{k<l}^{q} c_{kl}a_{k}a_{l} \right) \\
&= 2c_{ii}a_{i}^2 + 2 \sum_{j \neq i}^{q} c_{ij}a_{j} \\
&= 2 \sum_{j=1}^{q} c_{ij}a_{j}
\end{align}
$$
また、上記をベクトル表記することで下記が成立することも示すことができる。
$$
\large
\begin{align}
\left(\begin{array}{c} \frac{\partial}{\partial a_{1}} \\ \vdots \\ \frac{\partial}{\partial a_{q}} \end{array} \right) a^{\mathrm{T}}Ca &= \left(\begin{array}{c} \frac{\partial}{\partial a_{1}} \\ \vdots \\ \frac{\partial}{\partial a_{q}} \end{array} \right) \left( \sum_{k=1}^{q} c_{kk}a_{k}^2 + 2 \sum_{k<l}^{q} c_{kl}a_{k}a_{l} \right) \\
&= 2 \left(\begin{array}{c} \sum_{j=1}^{q} c_{1j}a_{j} \\ \vdots \\ \sum_{j=1}^{q} c_{qj}a_{j} \end{array} \right) \\
&= 2 \left(\begin{array}{ccc} c_{11} & \cdots & c_{1q} \\ \vdots & \ddots & \vdots \\ c_{q1} & \cdots & c_{qq} \end{array} \right) \left(\begin{array}{c} a_{1} \\ \vdots \\ a_{q} \end{array} \right) = 2Ca
\end{align}
$$
問題11.3の解答例
$$
\large
\begin{align}
\left(\begin{array}{c} \frac{\partial}{\partial \beta_{0}} \\ \vdots \\ \frac{\partial}{\partial \beta_{p}} \end{array} \right) Q(\beta) = 2 X^{\mathrm{T}} X \beta – 2 X^{\mathrm{T}}y
\end{align}
$$
$Q(\beta) = (y – X \beta)^{\mathrm{T}}(y – X \beta) = y^{\mathrm{T}}y – 2 \beta^{\mathrm{T}}X^{\mathrm{T}}y + \beta^{\mathrm{T}} X^{\mathrm{T}} X \beta$に対して、上記が成立することを示す。
$X^{\mathrm{T}} X$は対称行列であるので、$11.2$の導出結果より、下記がそれぞれ成立する。
$$
\large
\begin{align}
\left(\begin{array}{c} \frac{\partial}{\partial \beta_{0}} \\ \vdots \\ \frac{\partial}{\partial \beta_{p}} \end{array} \right) \beta^{\mathrm{T}}X^{\mathrm{T}}y &= X^{\mathrm{T}}y \\
\beta^{\mathrm{T}} X^{\mathrm{T}} X \beta &= 2 X^{\mathrm{T}} X \beta
\end{align}
$$
よって、下記のように考えることができる。
$$
\large
\begin{align}
\left(\begin{array}{c} \frac{\partial}{\partial \beta_{0}} \\ \vdots \\ \frac{\partial}{\partial \beta_{p}} \end{array} \right) Q(\beta) &= \left(\begin{array}{c} \frac{\partial}{\partial \beta_{0}} \\ \vdots \\ \frac{\partial}{\partial \beta_{p}} \end{array} \right) (y^{\mathrm{T}}y – 2 \beta^{\mathrm{T}}X^{\mathrm{T}}y + \beta^{\mathrm{T}} X^{\mathrm{T}} X \beta) \\
&= – 2 X^{\mathrm{T}}y + 2 X^{\mathrm{T}} X \beta \\
&= 2 X^{\mathrm{T}} X \beta – 2 X^{\mathrm{T}}y
\end{align}
$$
問題11.4の解答例
$X$の列数と同じ要素の数の任意のベクトル$a$に関して$a^{\mathrm{T}} X^{\mathrm{T}} X a = (Xa)^{\mathrm{T}} (Xa) \geq 0$が成立するので、$X^{\mathrm{T}} X$は半正定値行列であることがわかる。
以下、問題文を元に背理法を用いて示す。$X^{\mathrm{T}} X$が半正定値行列であることより、正定値行列でない場合は$a^{\mathrm{T}} X^{\mathrm{T}} X a = (Xa)^{\mathrm{T}} (Xa) = 0$が成立すると考えられ、この時に「一次独立となる場合がある」と仮定する。
このとき$(Xa)^{\mathrm{T}} (Xa) = 0$より、$Xa$は要素が$0$である零ベクトルに一致する。これは$X$の列が一次従属であることを意味する。逆に一次従属であるときは$(Xa)^{\mathrm{T}} (Xa) = 0$が成立する。
上記の議論より、「$X$の列が一次従属 $\iff$ $a^{\mathrm{T}} X^{\mathrm{T}} X a = (Xa)^{\mathrm{T}} (Xa) = 0$」が成立する。これは「$X^{\mathrm{T}} X$が正定値行列でない場合に一次独立となる場合がある」という仮定に反する。
よって「$X$の列が一次独立 $\iff$ $a^{\mathrm{T}} X^{\mathrm{T}} X a = (Xa)^{\mathrm{T}} (Xa) > 0$」が示される。
・考察
問題文にあるような背理法を用いることで逆にわかりにくいように思われた。「一次独立=$Xa$が零ベクトルでない」と考え、この際に$a^{\mathrm{T}} X^{\mathrm{T}} X a = (Xa)^{\mathrm{T}} (Xa) > 0$であることから示す方がシンプルであると思われる。
問題11.5の解答例
式の簡易化にあたって$\tau = \sigma^2$とおき、集約尤度関数(concentrated likelihood function)を表す$(11.13)$式に代入すると下記が得られる。
$$
\large
\begin{align}
f(y) &= \frac{1}{(2 \pi \tau)^{n/2}} \exp \left( -\frac{1}{2 \tau}(y – X \beta)^{\mathrm{T}}(y – X \beta) \right) \\
&= \exp \left( -\frac{1}{2 \tau}(y – X \beta)^{\mathrm{T}}(y – X \beta) – \frac{n}{2} \log{(2 \pi \tau)} \right)
\end{align}
$$
以下、$\tau$に関する偏微分を考えることで、$\log{f(y)}$を最大にする$\tau$の導出を行う。
$$
\large
\begin{align}
\frac{\partial \log{f(y)}}{\partial \tau} &= \frac{\partial}{\partial \tau} \left( -\frac{1}{2 \tau}(y – X \beta)^{\mathrm{T}}(y – X \beta) – \frac{n}{2} \log{(2 \pi \tau)} \right) \\
&= \frac{1}{2 \tau^2}(y – X \beta)^{\mathrm{T}}(y – X \beta) – \frac{n}{2} \times \frac{2 \pi}{2 \pi \tau} \\
&= \frac{1}{2 \tau^2} \left( (y – X \beta)^{\mathrm{T}}(y – X \beta) – n \tau \right)
\end{align}
$$
上記は$\tau$に関して単調減少であるので、$\displaystyle \tau = \frac{(y – X \beta)^{\mathrm{T}}(y – X \beta)}{n} = \frac{e^{\mathrm{T}}e}{n}$のときに$\log{f(y)}$と$f(y)$は最大値を取ることがわかる。
ここまでの導出により$(11.23)$式の$\displaystyle \hat{\sigma}_{ML}^{2} = \frac{e^{\mathrm{T}}e}{n}$が成立することが確認できる。
問題11.6の解答例
問題11.7の解答例
$$
\large
\begin{align}
X = \left(\begin{array}{cccc} 1 & 0 & \cdots & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 1 & 0 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 0 & 1 & \cdots & 0 \\ 0 & 0 & \cdots & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 0 & 0 & \cdots & 0 \\ 0 & 0 & \cdots & 1 \\ \vdots & \vdots & \vdots & \vdots \\ 0 & 0 & \cdots & 1 \end{array} \right)
\end{align}
$$
上記のように$X$を定めるとき、$X^{\mathrm{T}}X$は下記のように考えることができる。
$$
\large
\begin{align}
X^{\mathrm{T}}X &= \left(\begin{array}{cccccccccccc} 1 & \cdots & 1 & 0 & \cdots & 0 & 0 & \cdots & 0 & 0 & \cdots & 0 \\ 0 & \cdots & 0 & 1 & \cdots & 1 & 0 & \cdots & 0 & 0 & \cdots & 0 \\ \vdots & \cdots & \vdots & \vdots & \cdots & \vdots & \vdots & \cdots & \vdots & \vdots & \cdots & \vdots \\ 0 & \cdots & 0 & 0 & \cdots & 0 & 0 & \cdots & 0 & 1 & \cdots & 1 \end{array} \right) \left(\begin{array}{cccc} 1 & 0 & \cdots & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 1 & 0 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 0 & 1 & \cdots & 0 \\ 0 & 0 & \cdots & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 0 & 0 & \cdots & 0 \\ 0 & 0 & \cdots & 1 \\ \vdots & \vdots & \vdots & \vdots \\ 0 & 0 & \cdots & 1 \end{array} \right) \\
&= \left(\begin{array}{cccc} n_1 & 0 & \cdots & 0 \\ 0 & n_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & n_k \end{array} \right)
\end{align}
$$
よって$(X^{\mathrm{T}}X)^{-1}$は下記のように表すことができる。
$$
\large
\begin{align}
(X^{\mathrm{T}}X)^{-1} &= \left(\begin{array}{cccc} n_1 & 0 & \cdots & 0 \\ 0 & n_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & n_k \end{array} \right)^{-1} \\
&= \left(\begin{array}{cccc} 1/n_1 & 0 & \cdots & 0 \\ 0 & 1/n_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1/n_k \end{array} \right)
\end{align}
$$
また、$X^{\mathrm{T}}Y$は下記のように考えることができる。
$$
\large
\begin{align}
X^{\mathrm{T}}Y &= \left(\begin{array}{cccccccccccc} 1 & \cdots & 1 & 0 & \cdots & 0 & 0 & \cdots & 0 & 0 & \cdots & 0 \\ 0 & \cdots & 0 & 1 & \cdots & 1 & 0 & \cdots & 0 & 0 & \cdots & 0 \\ \vdots & \cdots & \vdots & \vdots & \cdots & \vdots & \vdots & \cdots & \vdots & \vdots & \cdots & \vdots \\ 0 & \cdots & 0 & 0 & \cdots & 0 & 0 & \cdots & 0 & 1 & \cdots & 1 \end{array} \right) \left(\begin{array}{c} Y_{11} \\ Y_{12} \\ \vdots \\ Y_{1n_{1}} \\ Y_{21} \\ \vdots \\ Y_{kn_{k}} \end{array} \right) \\
&= \left(\begin{array}{c} \sum_{j=1}^{n_1} Y_{1j} \\ \sum_{j=1}^{n_2} Y_{2j} \\ \vdots \\ \sum_{j=1}^{n_k} Y_{kj} \end{array} \right)
\end{align}
$$
よって、$\hat{\beta} = (X^{\mathrm{T}}X)^{-1}X^{\mathrm{T}}Y$は下記のように表せる。
$$
\large
\begin{align}
\hat{\beta} &= (X^{\mathrm{T}}X)^{-1}X^{\mathrm{T}}Y \\
&= \left(\begin{array}{c} \bar{Y}_{1} \\ \vdots \\ \bar{Y}_{k} \end{array} \right) \\
\bar{Y}_{i} &= \frac{1}{n_i} \sum_{j=1}^{n_i} Y_{ij}
\end{align}
$$
上記は$(11.33)$式に一致する。
問題11.8の解答例
・$(11.36)$式
$$
\large
\begin{align}
\alpha_{1} + \cdots + \alpha_{k} = 0
\end{align}
$$
上記で表した$(11.36)$式の制約は、下記のような$(11.37)$式の形式で表すことができる。
$$
\large
\begin{align}
\mu &= \frac{\mu_1 + \cdots + \mu_k}{k} = \bar{\mu} \\
\alpha_i &= \mu_i – \bar{\mu}
\end{align}
$$
上記より、$\mu_1, \cdots , \mu_k$から$\mu, \alpha_1, \cdots , \alpha_{k}$が定まると考えることができる。また、逆方向も$\mu_i = \mu + \alpha_i$で定まると考えることができる。これより$1$対$1$対応が確認できる。
・$(11.39)$式
$$
\large
\begin{align}
n_1 \alpha_{1} + \cdots + n_k \alpha_{k} = 0
\end{align}
$$
上記で表した$(11.39)$式に関しても同様に下記のような$(11.40)$式の形式で表すことができる。
$$
\large
\begin{align}
\mu &= \frac{n_1 \mu_1 + \cdots + n_k \mu_k}{n} = \bar{\mu} \\
\alpha_i &= \mu_i – \bar{\mu} \\
n &= n_1 + \cdots + n_k
\end{align}
$$
上記より、$\mu_1, \cdots , \mu_k$から$\mu, \alpha_1, \cdots , \alpha_{k}$が定まると考えることができる。また、逆方向も$\mu_i = \mu + \alpha_i$で定まると考えることができる。これより$1$対$1$対応が確認できる。
[…] 詳しい導出は「現代数理統計学(学術図書出版社)」の章末課題$11.2$で取り扱った。 […]