生存時間解析 第4章

前章までの基本式

  • 時刻t_iにおけるイベント発生の確率密度関数:f(t_i)
  • 時刻t_iまでにイベントを体験する累積分布関数:F(t_i) = Pr(T \leq t_i)
  • 生存関数:S(t) = 1 - F(t) = Pr(X > x) = \Sig^\infty_x f(t)dt (2.2.2)
    • すなわちf(t) = - \frac{dS(t)}{dt}
  • 時刻t_iまでイベントを体験せず、時刻t_iで体験するハザード比/ハザード関数:h(t)=\lim_{\Delta t\rightarrow 0}\frac{Pr(t \leq T < t + \Delta t | T \geq t)}{\Delta t} (2.3.1) ただしh(t) \geq 0
    • if Tが連続確率変数:h(t) = \frac{f(t)}{S(t)} = - \frac{d}{dt} \ln [S(t)] (2.3.2)
    • 両辺積分し累積ハザード関数H(x)H(x) = \sig^x_0 h(u)du = -\ln[S(x)] (2.3.3)
    • S(t) = e^{-H(t)} = exp[-\sig^x_0 h(u)du]

例えば、ワイブル分布の場合はH(t) = \lamda t^\alphaとなり、\alphaの大きさによりS(t)は挙動を変化させる

定義

  • イベント発生:D個の異なる時間 t_1 < t_2 < ... < t_D
  • イベントごとのイベント回数(例: 死亡):時刻t_{i}d_{i}
  • 時刻t_iにおいてイベント発生のリスクを負っている対象者(=時刻t_iまでにイベントが発生していない対象者):Y_i
  • 時刻t_iにおいて1人の対象者がイベントを体験する条件付き確率:d_i/Y_i

目次

  • 実際のデータから、生存関数や累積ハザード関数などの推定量の作成 (4.2)
  • 固定した時間tにおけるS(t)およびH(t)の信頼区間の求め方 (4.3, 4.4)
  • 右側打ち切りされたデータにおけるイベント発生までの生存時間Xについての、平均生存時間、パーセント点などの推定量の求め方 (4.5)

4.2 右側打ち切りされたデータに対して、生存関数と累積ハザード関数の推定量

Kaplan & Meier 推定量 : 積-極限推定量

  • \hat{S(t)} = \left{\begin{array}{cc} \\ 1 & (t < t_1) \\ \prod_{i(t_i \leq t)} (1 - \frac{d_i}{Y_i}) & (t_1 \leq t) \end{array} (4.2.1)

これは、時刻t_{i+1}における生存確率が1-\frac{d_i}{Y_i}で下がる=条件付きイベント発生確率\frac{d_i}{Y_i}の補集合分だけ残る、ことを意味している(p106参照)

  • 積-極限推定量の分散:\hat{V}[\hat{S}(t)]^2\prod_{i(t_i \leq t)} \frac{d_i}{Y_i (Y_i - d_i)}
    • Greenwood formulaが探せなかった・・・
  • 生存関数の推定量\hat{S}(t)が求められれば、累積ハザード関数の推定量\hat{H}(t)=-\ln[\hat{S}(t)]が求められる

Nelson & Aalen 累積ハザード関数 推定量

  • \tilde{H}(t) = \left{\begin{array}{cc} \\ 0 & (t < t_i) \\ \sum_{i (t_i \leq t)} \frac{d_i}{Y_i} & (t \geq t_i)\end{array} (4.2.3)
  • 分散の見積り:\sigma_{H}^2 (t) = \sum_{i(t_i \leq t)} \frac{d_i}{Y_i ^2} (4.2.4)

こちらは積-極限推定量よりも累積ハザード関数が指数的であることを意識した形式

  •  \tilde{S}(t) = exp^{-\tilde{H}(t)} = \exp [- \sum_{i(t_i \leq t)} \frac{d_i}{Y_i}]= \exp [ \frac{d_i}{Y_i} ] \tilde{S}(t - 1)
データ解析におけるNelson & Aalen 推定量の2つの主な用途
  1. イベント発生までの生存時間に対するパラメトリックなモデルの間で適正なモデル選択をするときに用いられる
  2. ハザード比のおおまかな推定を求めるときに用いられる

右側打ち切りの尾部の扱い

最大観測時間をt_{max}とする

  1. Efron:\hat{S}(t) = 0 (t > t_{max}):時刻t_{max}のすぐ後に死亡イベントが発生した→負に偏った推定量
  2. Gill:\hat{S}(t) = \hat{S}(t_{max}) (t > t_{max}):時刻\inftyで死亡イベントが発生した→性に偏った推定量
    • Kleinの研究ではGillの方が好ましいことが示されている
  3. Brown, Hollander & Kowar:\hat{S}(t) = \exp [\frac{\ln \hat{S}(t_{max})}{t_{max}} t]:時刻t_{max}の時点での推定量が計算できれば尾部をつなぎ合わせることができる

4.3 生存関数に対する点ごとの信頼区間

ある時刻t_0が決まった時に、その分散から得られる信頼区間=「点ごとの信頼区間」

  • \sigma_s^2(t) = \hat{V}[\hat{S}(t)] / \{\hat{S}(t)\}^2 => \sigma_s^2(t) = \prod_{i(t_i \leq t)} \frac{d_i}{Y_i (Y_i - d_i)}
  • 時刻t_0での信頼区間 aka 線形信頼区間: [\hat{S}(t_0) - Z_{1-\frac{\alpha}{2}} \sigma_s(t_0) \hat{S}(t_0), \hat{S}(t_0) + Z_{1-\frac{\alpha}{2}} \sigma_s(t_0) \hat{S}(t_0) ]
  • 対数変換された信頼区間 [\{\hat{S}(t_0)\}^{\frac{1}{\theta}}, \{\hat{S}(t_0)\}^{\theta}] ただし \theta = \exp [\frac{Z_{1-\frac{\alpha}{2}} \sigma_s(t_0)}{\ln\hat{S}(t_0)}]
  • アークサイン平方根を用いた信頼区間 \sin^2\{\max[0, \arcsin(\sqrt{\hat{S}(t_0)}) - 0.5 Z_{1-\frac{\alpha}{2}} \sigma_s(t_0)\sqrt{\frac{\hat{S}(t_0)}{1-\hat{S}(t_0)}}]\} \leq S(t_0) \leq \sin^2\{\max[0, \arcsin(\sqrt{\hat{S}(t_0)}) + 0.5 Z_{1-\frac{\alpha}{2}} \sigma_s(t_0)\sqrt{\frac{\hat{S}(t_0)}{1-\hat{S}(t_0)}}]\}

4.4 生存関数に対する信頼バンド

点ごとでは、文字通り「ある時刻においてのみ」有効な信頼区間であったが、範囲内のすべての時間tに対して生存関数がその範囲内に落ち込むような信頼区間=信頼バンドを求めたい
すなわち1-\alpha = Pr[L(t) \leq S(t) \leq U(t), t_L \leq t t_U]となる[L(t), U(t)]を求めたい

  • 信頼バンドの導出に失敗しました・・・

4.5 平均生存時間、メディアン生存時間の点推定と区間推定

平均生存時間 \mu = \sig_0^\infty S(t) dt ここで、ある観測区間[0, \tau]に限定して推定した平均値は\hat{\mu_\tau} = \sig_0^\tau \hat{S}(t) dtでも止められる
この平均生存時間の分散は\hat{V}[\hat{\mu}_\tau] = \sum_{i = 1}^D [\sig_{t_0}^\tau \hat{S}(t) dt]^2 \frac{d_i}{Y_i (Y_i - d_i)}で表される

4.6 左側切断、右側打ち切りされたデータに対する生存関数の推定量

4.7 競合リスクに対する要約生存曲線