生存時間解析第4章

前章までの基本式

時刻 $t_i$ におけるイベント発生の確率密度関数： $f(t_i)$
時刻 $t_i$ までにイベントを体験する累積分布関数： $F(t_i) = Pr(T \leq t_i)$
生存関数： (2.2.2)
- すなわち $f(t) = - \frac{dS(t)}{dt}$
時刻までイベントを体験せず、時刻で体験するハザード比/ハザード関数： (2.3.1) ただし
- if $T$ が連続確率変数： $h(t) = \frac{f(t)}{S(t)} = - \frac{d}{dt} \ln [S(t)]$ (2.3.2)
- 両辺積分し累積ハザード関数 $H(x)$ ： $H(x) = \sig^x_0 h(u)du = -\ln[S(x)]$ (2.3.3)
- $S(t) = e^{-H(t)} = exp[-\sig^x_0 h(u)du]$

例えば、ワイブル分布の場合は $H(t) = \lamda t^\alpha$ となり、 $\alpha$ の大きさにより $S(t)$ は挙動を変化させる

定義

イベント発生：D個の異なる時間 $t_1 < t_2 < ... < t_D$
イベントごとのイベント回数(例: 死亡)：時刻 $t_{i}$ で $d_{i}$ 回
時刻 $t_i$ においてイベント発生のリスクを負っている対象者(=時刻 $t_i$ までにイベントが発生していない対象者)： $Y_i$
時刻 $t_i$ において1人の対象者がイベントを体験する条件付き確率： $d_i/Y_i$

実際のデータから、生存関数や累積ハザード関数などの推定量の作成 (4.2)
固定した時間 $t$ における $S(t)$ および $H(t)$ の信頼区間の求め方 (4.3, 4.4)
右側打ち切りされたデータにおけるイベント発生までの生存時間 $X$ についての、平均生存時間、パーセント点などの推定量の求め方 (4.5)

4.2 右側打ち切りされたデータに対して、生存関数と累積ハザード関数の推定量

Kaplan & Meier 推定量 : 積-極限推定量

$\hat{S(t)} = \left{\begin{array}{cc} \\ 1 & (t < t_1) \\ \prod_{i(t_i \leq t)} (1 - \frac{d_i}{Y_i}) & (t_1 \leq t) \end{array}$ (4.2.1)

これは、時刻 $t_{i+1}$ における生存確率が $1-\frac{d_i}{Y_i}$ で下がる=条件付きイベント発生確率 $\frac{d_i}{Y_i}$ の補集合分だけ残る、ことを意味している(p106参照)

積-極限推定量の分散：
- Greenwood formulaが探せなかった・・・

生存関数の推定量 $\hat{S}(t)$ が求められれば、累積ハザード関数の推定量 $\hat{H}(t)=-\ln[\hat{S}(t)]$ が求められる

Nelson & Aalen 累積ハザード関数推定量

$\tilde{H}(t) = \left{\begin{array}{cc} \\ 0 & (t < t_i) \\ \sum_{i (t_i \leq t)} \frac{d_i}{Y_i} & (t \geq t_i)\end{array}$ (4.2.3)
分散の見積り： $\sigma_{H}^2 (t) = \sum_{i(t_i \leq t)} \frac{d_i}{Y_i ^2}$ (4.2.4)

こちらは積-極限推定量よりも累積ハザード関数が指数的であることを意識した形式

$\tilde{S}(t) = exp^{-\tilde{H}(t)} = \exp [- \sum_{i(t_i \leq t)} \frac{d_i}{Y_i}]= \exp [ \frac{d_i}{Y_i} ] \tilde{S}(t - 1)$

データ解析におけるNelson & Aalen 推定量の2つの主な用途

イベント発生までの生存時間に対するパラメトリックなモデルの間で適正なモデル選択をするときに用いられる
ハザード比のおおまかな推定を求めるときに用いられる

右側打ち切りの尾部の扱い

最大観測時間を $t_{max}$ とする

Efron： $\hat{S}(t) = 0 (t > t_{max})$ ：時刻 $t_{max}$ のすぐ後に死亡イベントが発生した→負に偏った推定量
Gill：：時刻で死亡イベントが発生した→性に偏った推定量
- Kleinの研究ではGillの方が好ましいことが示されている
Brown, Hollander & Kowar： $\hat{S}(t) = \exp [\frac{\ln \hat{S}(t_{max})}{t_{max}} t]$ ：時刻 $t_{max}$ の時点での推定量が計算できれば尾部をつなぎ合わせることができる

4.3 生存関数に対する点ごとの信頼区間

ある時刻 $t_0$ が決まった時に、その分散から得られる信頼区間=「点ごとの信頼区間」

$\sigma_s^2(t) = \hat{V}[\hat{S}(t)] / \{\hat{S}(t)\}^2$ => $\sigma_s^2(t) = \prod_{i(t_i \leq t)} \frac{d_i}{Y_i (Y_i - d_i)}$

時刻での信頼区間 aka 線形信頼区間：
- $Z_{1-\frac{\alpha}{2}$ は標準正規分布の $1-\frac{\alpha}{2}$ パーセント点
対数変換された信頼区間 $[\{\hat{S}(t_0)\}^{\frac{1}{\theta}}, \{\hat{S}(t_0)\}^{\theta}]$ ただし $\theta = \exp [\frac{Z_{1-\frac{\alpha}{2}} \sigma_s(t_0)}{\ln\hat{S}(t_0)}]$
アークサイン平方根を用いた信頼区間 $\sin^2\{\max[0, \arcsin(\sqrt{\hat{S}(t_0)}) - 0.5 Z_{1-\frac{\alpha}{2}} \sigma_s(t_0)\sqrt{\frac{\hat{S}(t_0)}{1-\hat{S}(t_0)}}]\} \leq S(t_0) \leq \sin^2\{\max[0, \arcsin(\sqrt{\hat{S}(t_0)}) + 0.5 Z_{1-\frac{\alpha}{2}} \sigma_s(t_0)\sqrt{\frac{\hat{S}(t_0)}{1-\hat{S}(t_0)}}]\}$

4.4 生存関数に対する信頼バンド

点ごとでは、文字通り「ある時刻においてのみ」有効な信頼区間であったが、範囲内のすべての時間 $t$ に対して生存関数がその範囲内に落ち込むような信頼区間=信頼バンドを求めたい
すなわち $1-\alpha = Pr[L(t) \leq S(t) \leq U(t), t_L \leq t t_U]$ となる $[L(t), U(t)]$ を求めたい

信頼バンドの導出に失敗しました・・・

4.5 平均生存時間、メディアン生存時間の点推定と区間推定

平均生存時間 $\mu = \sig_0^\infty S(t) dt$ ここで、ある観測区間 $[0, \tau]$ に限定して推定した平均値は $\hat{\mu_\tau} = \sig_0^\tau \hat{S}(t) dt$ でも止められる
この平均生存時間の分散は $\hat{V}[\hat{\mu}_\tau] = \sum_{i = 1}^D [\sig_{t_0}^\tau \hat{S}(t) dt]^2 \frac{d_i}{Y_i (Y_i - d_i)}$ で表される