馬睿琳

摘要:生存分析是對(duì)壽命數(shù)據(jù)進(jìn)行統(tǒng)計(jì)推斷的方法,在此研究過(guò)程中,經(jīng)常會(huì)遇到刪失數(shù)據(jù),文章介紹刪失數(shù)據(jù)的類型。為了解決刪失數(shù)據(jù)中存在的治愈指標(biāo)部分缺失的生存問(wèn)題,文章主要研究基于漸近正態(tài)數(shù)據(jù)擴(kuò)充的多重插補(bǔ)法,主要介紹多重插補(bǔ)法的基本原理和方法步驟。最后總結(jié)全文,給出今后研究的方向及展望。
關(guān)鍵詞:生存分析;右刪失數(shù)據(jù);多重插補(bǔ)法
一、引言
生存分析是對(duì)一個(gè)或多個(gè)非負(fù)隨機(jī)變量進(jìn)行統(tǒng)計(jì)分析,即對(duì)壽命數(shù)據(jù)進(jìn)行分析的一種方法,在醫(yī)學(xué)領(lǐng)域,主要是人和生物壽命的研究、手術(shù)后人的壽命的預(yù)測(cè)以及藥物療效的分析。在進(jìn)行生存分析研究中,經(jīng)常會(huì)遇到刪失數(shù)據(jù),現(xiàn)在研究人員已經(jīng)研究出許多方法去處理帶有刪失數(shù)據(jù)的問(wèn)題,本文主要研究的多重插補(bǔ)法是一個(gè)處理缺失數(shù)據(jù)的流行并且實(shí)用的方法,最早由Rubin在1978年提出,隨后很多學(xué)者對(duì)此方法做出改進(jìn)和延伸。本文意在通過(guò)了解刪失數(shù)據(jù)類型,探究多重插補(bǔ)法對(duì)右刪失數(shù)據(jù)中缺失的治愈指標(biāo)進(jìn)行插補(bǔ)及分析的原理和實(shí)現(xiàn)過(guò)程。
二、刪失數(shù)據(jù)
在生存分析實(shí)驗(yàn)研究中,常常要在給定的時(shí)間內(nèi)完成研究,所以得到的數(shù)據(jù)存在兩種狀態(tài),一種是完整觀測(cè)到的數(shù)據(jù),另一種是刪失數(shù)據(jù),本文針對(duì)刪失數(shù)據(jù)進(jìn)行介紹,分別介紹右刪失數(shù)據(jù)、左刪失數(shù)據(jù)和區(qū)間刪失數(shù)據(jù)。
(一)右刪失數(shù)據(jù)
在生存分析調(diào)查中,會(huì)有一個(gè)固定的時(shí)間,在給定時(shí)間開(kāi)始給定時(shí)間結(jié)束。在此過(guò)程中,會(huì)出現(xiàn)患者在研究結(jié)束時(shí)沒(méi)有死亡或者研究人員與患者失去聯(lián)系等情況,此時(shí),患者的生存情況未知,但已知患者的生存時(shí)間大于一個(gè)確定的數(shù)值,這種數(shù)據(jù)就被稱為右刪失數(shù)據(jù)。
具體來(lái)說(shuō),本文設(shè)患者的生存時(shí)間為X,刪失時(shí)間為C。若X≤C,則說(shuō)明這個(gè)是可觀測(cè)到的數(shù)據(jù);若X>C,則說(shuō)明此患者在C處刪失。令最終觀測(cè)時(shí)間為U,則U=XΛC,即觀測(cè)時(shí)間U為患者生存時(shí)間X和刪失時(shí)間C中較小的數(shù)值。本文設(shè)刪失指標(biāo)為δ,δ=I{X≤C}。若δ=1,則表示患者的生存時(shí)間是可被觀測(cè)的,此時(shí)U=X;若δ=0,則說(shuō)明患者的生存時(shí)間是右刪失的,此時(shí)U=C。在試驗(yàn)跟蹤期間,本文主要針對(duì)患者的生存時(shí)間來(lái)研究,患者分為已治愈和未治愈兩種狀態(tài),研究未治愈患者的生存時(shí)間是本文研究的重點(diǎn)。右刪失數(shù)據(jù)中患者的治愈狀況在研究中缺失,故便于后續(xù)研究,引入治愈指標(biāo)Y,若Y=1,則患者未治愈,若Y=0,則患者治愈。研究過(guò)程中,同時(shí)要分析生存概率,則引入?yún)f(xié)變量Z=(Z1,Z2,…ZP,P=1,2,3,…),最終的觀測(cè)數(shù)據(jù)集為(U,Z,δ)。
例如在一項(xiàng)為期一年的研究期間內(nèi)共有六位急性白血病患者進(jìn)入臨床研究,我們還假設(shè)某種治療對(duì)這些患者起作用而且實(shí)現(xiàn)了病情緩解,緩解時(shí)間在圖1中給出。患者A、C和E分別在2月初、4月初和9月初出現(xiàn)緩解后又分別4個(gè)月、6個(gè)月和3個(gè)月后病情復(fù)發(fā)。患者B在3月初出現(xiàn)緩解但在四個(gè)月后失蹤(退出研究不被跟蹤觀察),從而緩解時(shí)間至少是4個(gè)月。患者D和F分別在5月初和10月初實(shí)現(xiàn)了緩解,到研究時(shí)間結(jié)束時(shí)仍舊處于緩解狀態(tài),從而他們的緩解時(shí)間分別至少是8個(gè)月和3個(gè)月。
(二)左刪失數(shù)據(jù)
在生存分析調(diào)查中,研究時(shí)間是固定的,在確定時(shí)間開(kāi)始確定時(shí)間結(jié)束。患者在此期間不同時(shí)間進(jìn)入研究,若此時(shí),患者的確切壽命未知,但已知患者的生存時(shí)間小于一個(gè)確切的數(shù)值,那么這種數(shù)據(jù)是左刪失的。具體形式同上,不再贅述。
(三)區(qū)間刪失數(shù)據(jù)
區(qū)間刪失數(shù)據(jù)在實(shí)際研究中也經(jīng)常出現(xiàn)。在大多數(shù)文獻(xiàn)中可以了解到,事件是發(fā)生或即將發(fā)生在基于試驗(yàn)時(shí)間的一個(gè)特定的時(shí)間區(qū)間內(nèi)而不是一個(gè)特定的時(shí)間點(diǎn)。也就是說(shuō),每一個(gè)患者都有一個(gè)包含了患者生存時(shí)間的觀測(cè)區(qū)間(L,R]。當(dāng)L=0時(shí),區(qū)間刪失數(shù)據(jù)變?yōu)樽髣h失數(shù)據(jù),當(dāng)R=∞時(shí),區(qū)間刪失數(shù)據(jù)則變?yōu)橛覄h失數(shù)據(jù)。
三、多重插補(bǔ)法
(一)基本原理
多重插補(bǔ)法是處理帶有缺失數(shù)據(jù)的問(wèn)題的一種有效方法。其基本思想是:將數(shù)據(jù)集中的缺失數(shù)據(jù)用多個(gè)來(lái)自其可能分布的值來(lái)代替,插補(bǔ)成為一個(gè)完整的數(shù)據(jù)集,再利用已有的處理完整數(shù)據(jù)的統(tǒng)計(jì)分析方法對(duì)插補(bǔ)后的數(shù)據(jù)集進(jìn)行分析,得到理想且更可能依據(jù)所有數(shù)據(jù)信息的結(jié)果。
(二)方法步驟
本文針對(duì)右刪失數(shù)據(jù),基于漸近正態(tài)數(shù)據(jù)擴(kuò)充給出多重插補(bǔ)法的具體步驟如下:
四、總結(jié)與展望
本文針對(duì)生存分析中經(jīng)常出現(xiàn)的刪失數(shù)據(jù)進(jìn)行研究,利用基于漸近正態(tài)數(shù)據(jù)擴(kuò)充的多重插補(bǔ)法來(lái)插補(bǔ)右刪失數(shù)據(jù)中部分缺失的治愈指標(biāo)。多重插補(bǔ)法的優(yōu)勢(shì)在于,可以同時(shí)獲得參數(shù)及方差的估計(jì),而且可以簡(jiǎn)單方便的利用統(tǒng)計(jì)軟件來(lái)實(shí)現(xiàn)。其關(guān)鍵在于插補(bǔ)值的產(chǎn)生,也就是數(shù)據(jù)擴(kuò)充方法的結(jié)合使用。
在今后的研究中,我們還需針對(duì)生存分析問(wèn)題中的模型進(jìn)行研究,其中混合治愈模型是研究生存分析很流行的方法,這種模型假設(shè)研究群體包括感興趣的事件和不感興趣的事件,通過(guò)邏輯斯蒂回歸對(duì)影響群體治愈率的協(xié)變量進(jìn)行建模。之后可以增加對(duì)模型的研究,進(jìn)而計(jì)算自然函數(shù)。利用仿真研究對(duì)模型等進(jìn)行假設(shè)驗(yàn)證,同時(shí)收集適合的數(shù)據(jù)集,將此方法應(yīng)用到實(shí)際數(shù)據(jù)中去,進(jìn)一步驗(yàn)證方法的有效性和優(yōu)勢(shì)。這是今后研究的方向。
參考文獻(xiàn):
[1]Pan W. A multiple imputation appr
oach to Cox regression with interval-censored data.[J]. Biometrics, 2000(01).
[2]Tanner M A. Applications of Multiple Imputation to the Analysis of Censored Regression Data[J].Biometrics,1991(04).
[3]ElisaT.Lee,陳家鼎,戴中維,等.生存數(shù)據(jù)分析的統(tǒng)計(jì)方法[J].數(shù)理統(tǒng)計(jì)與管理, 2000(02).
[4]陳家鼎.生存分析與可靠性[M].北京大學(xué)出版社,2005.
[5]Zhou J, Zhang J, Mclain A C, et al.
A multiple imputation approach for semiparametric cure model with interval censored data[J]. Computational Statistics & Data Analysis, 2016(C).