微分方程式のハザード関数への適用と確率密度関数の導出|問題演習で理解する統計学【12】

統計学に関する書籍は数多く出版されていますが、解説書が多く、問題演習については問題がシンプルで解説が丁寧なものが少ない印象のため、演習問題の作成を進めています。当記事では微分方程式のハザード関数への適用と確率密度関数の導出に関する演習問題を取り扱いました。

・統計学 標準演習$100$選
https://www.hello-statisticians.com/practice_100

基本問題

微分方程式の基本変形

・問題
微分を含む方程式を微分方程式といい、積分などを用いて解くことが多い。ハザード関数に関連して微分方程式が出てくるが、「不定積分を導出」し、「初期条件に基づいて積分定数の値を計算」することでハザード関数から累積分布関数や確率密度関数を導出することができる。

以下、ハザード関数に関連して出てくる微分方程式と同様な式を元に「不定積分の導出」と「初期条件に基づく積分定数の値の計算」の$2$つに関して確認を行う。以下の問題にそれぞれ答えよ。
i) $\displaystyle g'(x) = \frac{d}{dx}g(x)$の不定積分を計算せよ。
ⅱ) $\displaystyle \lambda = -\frac{d}{dx}g(x)$のように表せるとき、両辺を積分し、$g(x)$に関して解け。
ⅲ) $x=0$に対し、$g(0)=0$が対応するとき、定数$C$の値を計算し、ⅱ)で得られた式に代入せよ。

・解答
i)
$\displaystyle g'(x) = \frac{d}{dx}g(x)$の不定積分は下記のように表せる。
$$
\large
\begin{align}
\int g'(x) dx = g(x) + C
\end{align}
$$

ⅱ)
$\displaystyle \lambda = -\frac{d}{dx}(\log{(1-F(x))})$の両辺を積分すると下記のように変形を行える。
$$
\large
\begin{align}
\int \lambda dx &= – \int \frac{d}{dx}g(x) dx \\
\lambda x &= – g(x) + C \\
g(x) &= – \lambda x + C
\end{align}
$$

ⅲ)
$g(x) = – \lambda x + C$に$x=0, g(0)=0$を代入すると下記が得られる。
$$
\large
\begin{align}
g(0) &= – \lambda \cdot 0 + C \\
C &= 0
\end{align}
$$

上記をⅱ)の結果に代入することで$g(x) = – \lambda x$が得られる。

・解説
微分方程式を解くにあたっては、「不定積分の導出」と「初期条件に基づいて積分定数の値を計算」の$2$つの段階を元に流れを抑えておくと良いです。

ハザード関数の定義と指数分布の確率密度関数の導出

・問題
$x$の定義域が実数全体の連続型の確率分布の確率密度関数を$f(x)$、累積分布関数を$F(x)$とおく。このとき下記のようにハザード関数$h(x)$を定める。
$$
\large
\begin{align}
h(x) = \frac{f(x)}{1-F(x)}
\end{align}
$$

上記を元にハザード関数は「$x$での確率密度関数を$x$まで事象が起こらない確率$1-F(x)$で割った関数」と解釈することができる。以下、ハザード関数と指数分布に関する下記の問題にそれぞれ答えよ。

i) $x$の定義域が実数全体であるとき$F(x)$を$f(x)$の定積分の形式で表せ。
ⅱ) i)の結果は$F'(x)=f(x)$と同義である。このとき$-\log{(1-F(x))}$を$x$で微分し、$h(x)$に一致することを確認せよ。
ⅲ) 指数分布は$x$の定義域が$x \geq 0$かつ、ハザード関数が$h(x)=\lambda$の場合の確率分布に対応する。ⅱ)で導出を行なった$h(x)=(-\log{(1-F(x))})’$に基づいて指数分布の累積分布関数を導出せよ。
iv) ⅲ)の結果を元に$f(x)=F'(x)$に基づいて確率密度関数$f(x)$を計算し、指数分布の確率密度関数に一致することを確かめよ。
v) 指数分布を適用する際の注意点を$h(x)=\lambda$であることに基づいて考察せよ。

・解答
i)
$x$の定義域が実数全体であるので、累積分布関数$F(x)$は$f(x)$を用いて下記のように表すことができる。
$$
\large
\begin{align}
F(x) = \int_{-\infty}^{x} f(t) dt
\end{align}
$$

ⅱ)
$-\log{(1-F(x))}$を$x$で微分すると下記のように変形を行える。
$$
\large
\begin{align}
\frac{d}{dx} \left( -\log{(1-F(x))} \right) &= -\frac{(1-F(x))’}{1-F(x)} \\
&= -\frac{-f(x)}{1-F(x)} \\
&= \frac{f(x)}{1-F(x)} = h(x)
\end{align}
$$

ⅲ)
下記のように$x \geq 0$の範囲で$\lambda = h(x) = (-\log{(1-F(x))})’$の両辺の$x$での積分を考える。
$$
\large
\begin{align}
\lambda &= (-\log{(1-F(x))})’ \\
-\log{(1-F(x))} &= \int_{0}^{x} \lambda dt \\
-\log{(1-F(x))} &= \left[ \lambda t \right]_{0}^{x} \\
-\log{(1-F(x))} &= \lambda x \\
\log{(1-F(x))} &= – \lambda x \\
1 – F(x) &= e^{-\lambda x} \\
F(x) &= 1 – e^{-\lambda x}
\end{align}
$$

iv)
確率密度関数$f(x)$は下記のように導出できる。
$$
\large
\begin{align}
f(x) &= F'(x) \\
&= (1 – e^{-\lambda x})’ \\
&= \lambda e^{-\lambda x}
\end{align}
$$

上記は指数分布の確率密度関数に一致する。

v)
$h(x)=\lambda$より、指数分布を用いる際は$x$における事象の生起確率が常に一定であることが前提になることに注意が必要である。たとえばある製品が故障するまでの期間を$x$とおくとき、故障確率が$x$によらず一定である場合に指数分布を用いると良い。

・解説
詳しく把握するにあたっては下記の確認も行うと良いと思います。
「統計学実践ワークブック」 演習問題etc Ch.19 「回帰分析その他」
微分方程式を用いた指数分布の確率密度関数の導出

ワイブル分布の確率密度関数の導出

・問題
「ハザード関数の定義と指数分布の確率密度関数の導出」で取り扱ったように、ハザード関数$h(x)$は確率密度関数の$f(x)$や累積分布関数の$F(x)$を用いて下記のように表すことができる。
$$
\begin{align}
h(x) = \frac{f(x)}{1-F(x)} = \frac{d}{dx} \left( -\log{(1-F(x))} \right)
\end{align}
$$

上記に対し、ワイブル分布のハザード関数をパラメータ$\lambda > 0, p > 0$を用いて$h(x) = \lambda p(\lambda x)^{p-1}$のように表すことを考える。このとき、ワイブル分布に関する下記の問題にそれぞれ答えよ。
i) $p=1$のときワイブル分布のハザード関数が$h(x) = \lambda$に一致することを確認せよ。
ⅱ) $x \geq 0$の範囲における$h(x)$の増減を$p$の値で場合分けして考察せよ。
ⅲ) 下記の両辺を積分し、積分定数$C$を用いて表せ。
$$
\begin{align}
\lambda p(\lambda x)^{p-1} = \frac{d}{dx} \left( -\log{(1-F(x))} \right)
\end{align}
$$
iv) ⅲ)の導出結果に対し、$x=0, F(0)=0$を代入し、積分定数$C$に関して解け。
v) iv)の結果をⅲ)に代入し、$F(x)$を導出せよ。
vi) v)で導出した$F(x)$を$x$で微分すると確率密度関数$f(x)=F'(x)$が得られるが、$f(x)$が下記で表したワイブル分布の確率密度関数に一致することを確かめよ。
$$
\large
\begin{align}
f(x) = p \lambda (\lambda x)^{p-1} e^{-\lambda^{p} x^{p}}
\end{align}
$$

・解答
i)
$h(x) = \lambda p(\lambda x)^{p-1}$に$p=1$を代入すると下記のように変形できる。
$$
\large
\begin{align}
h(x) &= \lambda p(\lambda x)^{p-1} \\
&= \lambda \times 1 \times (\lambda x)^{1-1} \\
&= \lambda
\end{align}
$$

ⅱ)
$h(x)$を$x$で微分すると下記が得られる。
$$
\large
\begin{align}
h'(x) &= \frac{d}{dx} ( \lambda p(\lambda x)^{p-1} ) \\
&= \lambda p(p-1)(\lambda x)^{p-2}
\end{align}
$$

ここで$\lambda > 0, x \geq 0$より$\lambda (\lambda x)^{p-2} \geq 0$が成立する。よって、$h(x)$の増減は$p(p-1)$の符号のみに対応し、下記のように考えることができる。

$0<p<1$のとき$p(p-1)<0$より、$h(x)$は単調減少
$p=1$のとき$p(p-1)=0$より、$h(x)$は定数 $\, \to \,$ 指数分布
$1<p$のとき$p(p-1)>0$より、$h(x)$は単調減少

ⅲ)
下記のように積分を行うことができる。
$$
\large
\begin{align}
\lambda p(\lambda x)^{p-1} &= \frac{d}{dx} \left( -\log{(1-F(x))} \right) \\
p \lambda^{p} \int x^{p-1} dx &= -\log{(1-F(x))} \\
\lambda^{p} x^{p} &= -\log{(1-F(x))} + C
\end{align}
$$

iv)
ⅲ)の結果に$x=0, F(0)=0$を代入することで下記が得られる。
$$
\large
\begin{align}
\lambda^{p} x^{p} &= -\log{(1-F(x))} + C \\
\lambda^{p} 0^{p} &= -\log{(1-0)} + C \\
C &= 0
\end{align}
$$

v)
iv)で導出した$C=0$をⅲ)の結果に代入すると下記が得られる。
$$
\large
\begin{align}
\lambda^{p} x^{p} &= -\log{(1-F(x))} + C \\
-\log{(1-F(x))} &= \lambda^{p} x^{p} \\
\log{(1-F(x))} &= -\lambda^{p} x^{p} \\
1-F(x) &= e^{-\lambda^{p} x^{p}} \\
F(x) &= 1 – e^{-\lambda^{p} x^{p}}
\end{align}
$$

vi)
v)の導出結果に対し、$f(x)=F'(x)$を計算すると下記が得られる。
$$
\large
\begin{align}
f(x) &= F'(x) \\
&= \frac{d}{dx} \left( 1 – e^{-\lambda^{p} x^{p}} \right) \\
&= -e^{-\lambda^{p} x^{p}} (-\lambda^{p} x^{p})’ \\
&= p \lambda^{p} x^{p-1} e^{-\lambda^{p} x^{p}} \\
&= \lambda p (\lambda x)^{p-1} e^{-\lambda^{p} x^{p}}
\end{align}
$$

上記はワイブル分布の確率密度関数に一致する。

・解説
i)の結果よりワイブル分布の特殊な場合が指数分布であることは抑えておくと良いです。ⅱ)の結果に関しては、$p \leq 1$のときをDFR(Decreasing Failure Rate)、$p \leq 1$のときをIFR(Increasing Failure Rate)のように表されます。
また、詳しく把握するにあたっては下記の確認も行うと良いと思います。
微分方程式を用いたワイブル分布の確率密度関数の導出

発展問題

指数分布と回帰式

・問題
ハザード関数$h(t)$を下記のように回帰と同様な手順で計算することを考える。
$$
\begin{align}
h(t) &= h_{0}(t) e^{\mathbf{x}^{\mathrm{T}} \boldsymbol{\beta}} \\
\mathbf{x} &= \left( \begin{array}{c} x_1 \\ \vdots \\ x_p \end{array} \right) \\
\boldsymbol{\beta} &= \left( \begin{array}{c} \beta_1 \\ \vdots \\ \beta_p \end{array} \right)
\end{align}
$$

上記の$\mathbf{x}^{\mathrm{T}} \boldsymbol{\beta}$は回帰の式と同様であり、$\mathbf{x}$は特徴量$\boldsymbol{\beta}$は係数に対応すると考えれば良い。

ここでパラメータ$\boldsymbol{\beta}$の推定を行うにあたって、$h_0(t)$が定数であれば指数分布の最尤法で解くことができる。また、定数でない場合はCox比例ハザードモデルに当てはめて考えることができる。

以下、$h_0(t)$が定数である際のパラメータ推定に関する計算の詳細の確認を行う。ここまでの内容を元に下記の問題にそれぞれ答えよ。
i) $h_0(t)=h_{0}$のように$h_0(t)$が定数で表せるとき、ハザード関数を$h(t)=h_{0} e^{\mathbf{x}^{\mathrm{T}}\boldsymbol{\beta}}=\lambda>0$のようにおく。このとき前節の演習で取り扱った「ハザード関数の定義と指数分布の確率密度関数の導出」の解答より、確率分布は指数分布に対応する。パラメータ$\lambda$の指数分布の確率密度関数$f(t)$を答えよ。ただし導出過程は複雑なので省略して良い。
ⅱ) 標本$t_1, t_2, \cdots, t_n$が得られたとき、$\lambda$に関する尤度関数$L(\lambda)$と対数尤度関数$l(\lambda)=\log{L(\lambda)}$をそれぞれ表せ。
ⅲ) ⅱ)で得られた対数尤度関数の$l(\lambda)=\log{L(\lambda)}$が最大になる際の$\lambda$を求めよ。
iv) ⅱ)の対数尤度の$\lambda$を$\lambda_{i} = h_{0}e^{\mathbf{x}_{i}^{\mathrm{T}}\boldsymbol{\beta}}$で置き換える。この際の$\boldsymbol{\beta}$に関する尤度関数$L(\boldsymbol{\beta})$と対数尤度関数$l(\boldsymbol{\beta})=\log{L(\boldsymbol{\beta})}$をそれぞれ表せ。
v) iv)で導出した対数尤度関数$l(\boldsymbol{\beta})$の$\boldsymbol{\beta}$に関する勾配を計算せよ。

・解答
i)
パラメータ$\lambda$の指数分布の確率密度関数$f(t)$は下記のように表される。
$$
\large
\begin{align}
f(t) = \lambda e^{-\lambda t}, \quad t \geq 0
\end{align}
$$

ⅱ)
尤度関数$L(\lambda)$と対数尤度関数$l(\lambda)=\log{L(\lambda)}$はそれぞれ下記のように表すことができる。
$$
\large
\begin{align}
L(\lambda) &= \prod_{i=1}^{n} f(t_i) \\
&= \prod_{i=1}^{n} \lambda e^{-\lambda t_i} \\
&= \lambda^{n} \exp \left[ -\lambda \sum_{i=1}^{n} t_i \right] \\
l(\lambda) &= \log{L(\lambda)} = \log{ \left( \lambda^{n} \exp \left[ -\lambda \sum_{i=1}^{n} t_i \right] \right)} \\
&= n \log{\lambda} – \lambda \sum_{i=1}^{n} t_i
\end{align}
$$

ⅲ)
$l(\lambda)$を$\lambda$に関して微分すると下記が得られる。
$$
\large
\begin{align}
\frac{d}{d \lambda} l(\lambda) &= \frac{d}{d \lambda} \left[ n \log{\lambda} – \lambda \sum_{i=1}^{n} t_i \right] \\
&= \frac{n}{\lambda} – \sum_{i=1}^{n} t_i
\end{align}
$$

上記は$\lambda>0$の範囲で単調減少であるので$\displaystyle \frac{d}{d \lambda} l(\lambda)=0$の際に$l(\lambda)$は最大値を取る。
$$
\large
\begin{align}
\frac{d}{d \lambda} l(\lambda) &= 0 \\
\frac{n}{\lambda} – \sum_{i=1}^{n} t_i &= 0 \\
\frac{n}{\lambda} &= \sum_{i=1}^{n} t_i \\
\lambda &= \frac{n}{\displaystyle \sum_{i=1}^{n} t_i} \\
&= \frac{1}{\displaystyle \frac{1}{n} \sum_{i=1}^{n} t_i} = \frac{1}{\overline{t}}
\end{align}
$$

iv)
$\boldsymbol{\beta}$に関する尤度関数$L(\boldsymbol{\beta})$と対数尤度関数$l(\boldsymbol{\beta})=\log{L(\boldsymbol{\beta})}$はそれぞれ下記のように表せる。
$$
\large
\begin{align}
L(\boldsymbol{\beta}) &= \prod_{i=1}^{n} f(t_i|\mathbf{x},\boldsymbol{\beta}) \\
&= \prod_{i=1}^{n} h_{0}e^{\mathbf{x}_{i}^{\mathrm{T}}\boldsymbol{\beta}} e^{-h_{0}e^{\mathbf{x}_{i}^{\mathrm{T}}\boldsymbol{\beta}} t_i} \\
&= h_{0}^{n} \exp \left[ \left( \sum_{i=1}^{n} \mathbf{x}_{i} \right)^{\mathrm{T}}\boldsymbol{\beta} \right] \exp \left[ -h_0 \sum_{i=1}^{n} \exp(\mathbf{x}_{i}^{\mathrm{T}}\boldsymbol{\beta}) t_{i} \right] \\
l(\boldsymbol{\beta}) &= \log{L(\boldsymbol{\beta})} = \log{ \left( h_{0}^{n} \exp \left[ \left( \sum_{i=1}^{n} \mathbf{x}_{i} \right)^{\mathrm{T}}\boldsymbol{\beta} \right] \exp \left[ -h_0 \sum_{i=1}^{n} \exp(\mathbf{x}_{i}^{\mathrm{T}}\boldsymbol{\beta}) t_{i} \right] \right)} \\
&= n \log{h_0} + \left( \sum_{i=1}^{n} \mathbf{x}_{i} \right)^{\mathrm{T}}\boldsymbol{\beta} – h_0 \sum_{i=1}^{n} \exp(\mathbf{x}_{i}^{\mathrm{T}}\boldsymbol{\beta}) t_{i}
\end{align}
$$

v)
対数尤度関数$l(\boldsymbol{\beta})$の$\boldsymbol{\beta}$に関する勾配は下記のように計算できる。
$$
\large
\begin{align}
\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} &= \sum_{i=1}^{n} \mathbf{x}_{i} – h_0 \sum_{i=1}^{n} \exp(\mathbf{x}_{i}^{\mathrm{T}}\boldsymbol{\beta}) \mathbf{x}_{i} t_{i}
\end{align}
$$

・解説
ⅲ)の結果は指数分布$\mathrm{Ex}(\lambda)$の期待値が$\displaystyle E[X]=\frac{1}{\lambda}$で得られることに基づいて、$\displaystyle \lambda=\frac{1}{E[X]}$と対応させると結果が妥当であることが確認できます。

Cox比例ハザードモデル

・問題
前問の「指数分布と回帰式」ではハザード関数が$h(t|\mathbf{x})=h_{0} e^{\mathbf{x}^{\mathrm{T}}\boldsymbol{\beta}}=\lambda>0$のように$t$に関して定数である場合を取り扱ったが、ここでは下記のように$t$の値によってハザード関数が変化する場合を取り扱う。
$$
\begin{align}
h(t|\mathbf{x}) = h_{0}(t) e^{\mathbf{x}^{\mathrm{T}}\boldsymbol{\beta}}, \quad (h_{0}(t) > 0) \quad (1)
\end{align}
$$

上記のようにハザード関数を設定する場合をCox比例ハザードモデル(proportional hazard model)という。$h_{0}(t)$で表される基準ハザード(baseline hazard)の形に制約を設けないことから、Cox比例ハザードモデルは広く用いられる。ここまでの内容を元に以下の問題に答えよ。
i) $(1)$式で定めた特徴量$\mathbf{x}$に対応するハザード関数$h(t|\mathbf{x})$の式を元に、下記で表したハザードの比の計算を行え。
$$
\begin{align}
\frac{h(t|\mathbf{x}_{1})}{h(t|\mathbf{x}_{0})}
\end{align}
$$
ⅱ) i)の結果が$t$に関して定数であり、比例ハザード性が成立することを確認せよ。
ⅲ) $(1)$式のハザード関数$h(t|\mathbf{x})$に対応する累積分布関数を$F(t|\mathbf{x})$、確率密度関数を$f(t|\mathbf{x})$とおく。このときハザード関数の定義が$\displaystyle h(t|\mathbf{x}) = \frac{f(t|\mathbf{x})}{1-F(t|\mathbf{x})}$であることに基づいて下記が成立することを示せ。
$$
\begin{align}
h(t|\mathbf{x}) = -\frac{d}{dt}\log{(1-F(t|\mathbf{x}))} \quad (2)
\end{align}
$$
iv) $(2)$式の両辺を$t$で積分することで下記が導出できることを確認せよ。
$$
\begin{align}
e^{\mathbf{x}^{\mathrm{T}}\boldsymbol{\beta}} (H_{0}(t) + C) &= \log{(1-F(t|\mathbf{x}))} \quad (3) \\
H_{0}(t) &= \int_{0}^{t} h_{0}(u) du
\end{align}
$$
v) $t=0,F(t|\mathbf{x})=0$であることに基づいて、$(3)$式の$C$が$C=0$であることを示せ。また、$(3)$式に$C=0$を代入し、両辺の対数を取ることで下記が成立することを示せ。
$$
\begin{align}
\mathbf{x}^{\mathrm{T}}\boldsymbol{\beta} + \log{H_{0}(t)} &= \log{(-\log{(1-F(t|\mathbf{x}))})} \\
H_{0}(t) &= \int_{0}^{t} h_{0}(u) du
\end{align}
$$

・解答
i)
$(1)$式よりハザード比は下記のように計算できる。
$$
\large
\begin{align}
\frac{h(t|\mathbf{x}_{1})}{h(t|\mathbf{x}_{0})} &= \frac{\cancel{h_{0}(t)} e^{\mathbf{x}_{1}^{\mathrm{T}}\boldsymbol{\beta}}}{\cancel{h_{0}(t)} e^{\mathbf{x}_{0}^{\mathrm{T}}\boldsymbol{\beta}}} \\
&= \exp \left[ (\mathbf{x}_{1}-\mathbf{x}_{0})^{\mathrm{T}}\boldsymbol{\beta} \right]
\end{align}
$$

ⅱ)
ハザード比$\displaystyle \frac{h(t|\mathbf{x}_{1})}{h(t|\mathbf{x}_{0})} = \exp \left[ (\mathbf{x}_{1}-\mathbf{x}_{0})^{\mathrm{T}}\boldsymbol{\beta} \right]$の式より$t$に関して定数であることが確認できる。

ⅲ)
合成関数の微分の公式に基づいて$\displaystyle -\frac{d}{dt}\log{(1-F(t|\mathbf{x}))}$は下記のように計算を行える。
$$
\large
\begin{align}
-\frac{d}{dt}\log{(1-F(t|\mathbf{x}))} &= -\frac{\displaystyle \frac{d}{dt}(1-F(t|\mathbf{x}))}{(1-F(t|\mathbf{x}))} \\
&= -\frac{-f(t|\mathbf{x})}{(1-F(t|\mathbf{x}))} \\
&= \frac{f(t|\mathbf{x})}{(1-F(t|\mathbf{x}))} = h(t|\mathbf{x})
\end{align}
$$

上記より$\displaystyle h(t|\mathbf{x}) = -\frac{d}{dt}\log{(1-F(t|\mathbf{x}))}$が成り立つことが確認できる。

iv)
$(2)$式の両辺を積分することで下記のように変形できる。
$$
\large
\begin{align}
h(t|\mathbf{x}) &= -\frac{d}{dt}\log{(1-F(t|\mathbf{x}))} \quad (2) \\
h_{0}(t) e^{\mathbf{x}^{\mathrm{T}}\boldsymbol{\beta}} &= -\frac{d}{dt}\log{(1-F(t|\mathbf{x}))} \\
\int h_{0}(t) e^{\mathbf{x}^{\mathrm{T}}\boldsymbol{\beta}} dt &= – \int \frac{d}{dt}\log{(1-F(t|\mathbf{x}))} dt \\
e^{\mathbf{x}^{\mathrm{T}}\boldsymbol{\beta}} \int h_{0}(t) dt &= \log{(1-F(t|\mathbf{x}))} \\
e^{\mathbf{x}^{\mathrm{T}}\boldsymbol{\beta}} (H_{0}(t) + C) &= \log{(1-F(t|\mathbf{x}))}
\end{align}
$$

上記では$\displaystyle \frac{d}{dt}H_{0}(t) = h_{0}(t)$であることに基づいて、$\displaystyle H_{0}(t) = \int_{0}^{t} h_{0}(u) du$のようにおいた。

v)
$(3)$式に$t=0,F(t|\mathbf{x})=0$を代入すると下記が得られる。
$$
\large
\begin{align}
e^{\mathbf{x}^{\mathrm{T}}\boldsymbol{\beta}} (H_{0}(t) + C) &= \log{(1-F(t|\mathbf{x}))} \\
e^{\mathbf{x}^{\mathrm{T}}\boldsymbol{\beta}} (H_{0}(0) + C) &= \log{(1-0)} \\
e^{\mathbf{x}^{\mathrm{T}}\boldsymbol{\beta}} \left( \int_{0}^{0} h_{0}(u) du + C \right) &= 0 \\
e^{\mathbf{x}^{\mathrm{T}}\boldsymbol{\beta}} (0+C) &= 0 \\
C &= 0
\end{align}
$$

上記を$(3)$式に代入し、両辺の対数を取ることで下記が得られる。
$$
\large
\begin{align}
e^{\mathbf{x}^{\mathrm{T}}\boldsymbol{\beta}} (H_{0}(t) + C) &= \log{(1-F(t|\mathbf{x}))} \quad (3) \\
e^{\mathbf{x}^{\mathrm{T}}\boldsymbol{\beta}} H_{0}(t) &= \log{(1-F(t|\mathbf{x}))} \\
\log{ \left[ e^{\mathbf{x}^{\mathrm{T}}\boldsymbol{\beta}} \int h_{0}(t) dt \right] } &= \log{(-\log{(1-F(t|\mathbf{x}))})} \\
\mathbf{x}^{\mathrm{T}}\boldsymbol{\beta} + \log{ H_0(t) } &= \log{(-\log{(1-F(t|\mathbf{x}))})} \\
H_{0}(t) &= \int_{0}^{t} h_{0}(u) du
\end{align}
$$

・解説
v)で導出した結果が「統計検定準$1$級対応 統計学実践ワークブック」の$19.5$式に対応するので合わせて抑えておくと良いと思います。

参考書籍

・統計検定準$1$級対応 統計学実践ワークブック

・統計検定$1$級公式テキスト