999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

動態(tài)事件時間數(shù)據(jù)的多任務(wù)Logistic生存預(yù)測方法

2020-06-07 07:06:22阮燦華林甲祥
計算機應(yīng)用 2020年5期
關(guān)鍵詞:模型

阮燦華,林甲祥

(福建農(nóng)林大學(xué)計算機與信息學(xué)院,福州350002)

(?通信作者電子郵箱ruancanhua@fafu.edu.cn)

0 引言

生存分析(survival analysis)是一種估計事件時間(timeto-event)的統(tǒng)計方法,已被廣泛應(yīng)用于臨床醫(yī)學(xué)、衛(wèi)生保健、生物信息學(xué)、人口統(tǒng)計學(xué)、機械制造、經(jīng)濟學(xué)等領(lǐng)域[1]。在生存分析問題中,“生存”不僅可以指人或動物存活的狀態(tài)(相對于死亡事件),還可以表示某藥物的有效作用(相對于失效事件)、患者病情穩(wěn)定的狀態(tài)(相對于疾病復(fù)發(fā)或病情惡化事件),以及儀器設(shè)備的正常工作狀態(tài)(相對于故障事件)等。因此,“生存時間”也是廣義的,不單單是指通常意義下生物體的存活時間,而是泛指研究者所關(guān)心的某現(xiàn)象(如患者體征穩(wěn)定)的持續(xù)時間。生存分析的核心問題是對事件時間進(jìn)行估計,即預(yù)測某研究對象的生存時間或特定時間段內(nèi)某事件未發(fā)生的概率。生存分析是研究特定人群壽命、各類慢性疾病、藥物療效以及提高醫(yī)療衛(wèi)生服務(wù)的一項重要課題。例如,臨床醫(yī)學(xué)研究需要預(yù)估冠心病患者出院后下一次可能復(fù)發(fā)的時間;流行病學(xué)和生物學(xué)研究則需要檢測樣本從接觸感染到發(fā)病所需要的時間;機械制造過程中人們常常對設(shè)備的可靠性進(jìn)行測試,并估算故障發(fā)生時間(即設(shè)備使用壽命)。

傳統(tǒng)生存分析方法按照生存時間分布假設(shè)及模型參數(shù)可以分為無參、有參和半?yún)⑷N類型。無參模型主要包括Kaplan-Meier(KM)估計[2]、Nelson-Aalen 估計[3]以及生命表法(life table);有參模型通常假設(shè)事件時間服從某種特殊分布時,并采用正態(tài)、韋伯(Weibull)、log-Logistic等分布函數(shù)估計生存概率。然而,大多數(shù)情況下,關(guān)于事件時間的先驗知識相對較少,因此應(yīng)用局限性較大。半?yún)ⅲ╯emi-parametric)模型的主要代表是比例風(fēng)險(proportional-hazard)Cox回歸模型[4],該模型具有簡單易用的特點。近年來,機器學(xué)習(xí)方法也被廣泛用于生存數(shù)據(jù)處理以及生存模型的參數(shù)學(xué)習(xí):Leblanc等[5]提出了一種針對刪失數(shù)據(jù)的分類回歸樹,即生存樹(survival tree);Khan等[6]提出了一種針對刪失數(shù)據(jù)的支持向量回歸(Support Vector Regression,SVR)模型;楊銘等[7]針對復(fù)雜中醫(yī)腫瘤臨床數(shù)據(jù)提出了一種采用生存網(wǎng)絡(luò)結(jié)構(gòu)模型;潘浩等[8]提出了一種基于深度學(xué)習(xí)的Cox-Lasso生存分析方法用于肺癌細(xì)胞自動檢測;Fisher等[9]針對縱向數(shù)據(jù)(longitudinal data)提出了一種動態(tài)Cox模型;Cortese等[10]提出了一種可以處理內(nèi)在(internal)風(fēng)險因子變量的多狀態(tài)對比風(fēng)險模型;Wang[11]提出了一種針對動態(tài)風(fēng)險因子的數(shù)值插入法以及對未知鏈接函數(shù)進(jìn)行估計的動態(tài)比例風(fēng)險模型。

研究事件發(fā)生規(guī)律常常需要對樣本進(jìn)行長期追蹤,因此本文需要處理的事件時間數(shù)據(jù)包含大量隨時間變化的風(fēng)險因子變量(如哮喘病患者在不同時間點的血液含氧量和二氧化碳分壓觀測值)。然而,現(xiàn)有的生存分析方法大多無法有效處理這類復(fù)雜的動態(tài)數(shù)據(jù),這些方法通常采用簡單的單點取樣[12](如當(dāng)前值抽樣和平均值抽樣),在估計某時刻的生存概率時只考慮當(dāng)前記錄時間點的風(fēng)險因子變量值而忽略歷史數(shù)據(jù)的作用,這在許多實際應(yīng)用中并不合理,例如哮喘患者在服用β2激動劑之后,本文會觀測到生理指標(biāo)一秒鐘用力呼氣容積(Forced Expiratory Volume in one second,F(xiàn)EV1)在很長一段時間內(nèi)都會受該藥劑影響,因此某一時刻的FEV1觀測值并不能刻畫病人的病情發(fā)展以及變量FEV1與生存概率之間的關(guān)系。總體而言,如何有效分析復(fù)雜的動態(tài)事件時間數(shù)據(jù)、構(gòu)建事件時間預(yù)測模型是一個亟待解決的難點和熱點問題,因此,本文的工作重點是探究刻畫風(fēng)險因子變量觀測序列的數(shù)據(jù)模型以及生存機器學(xué)習(xí)方法。

事件時間數(shù)據(jù)作為一種特殊的觀測型數(shù)據(jù),包含大量刪失數(shù)據(jù),可以用于事件預(yù)測模型學(xué)習(xí)的事件時間信息多有缺失。多任務(wù)學(xué)習(xí)方法能夠為每個訓(xùn)練任務(wù)提供更多的信息,從而提高模型精度并降低預(yù)測錯誤率,例如,多任務(wù)學(xué)習(xí)預(yù)測病情發(fā)展、HIV(Human Immunodeficiency Virus)治療、基因數(shù)據(jù)分析等[13-14]。鑒于此,本文提出了一種多任務(wù)Logistic生存學(xué)習(xí)模型(Multi-task Logistic Survival Learning,MLSL),該模型將生存預(yù)測任務(wù)轉(zhuǎn)化為一系列不同時間點的Logistic生存回歸學(xué)習(xí)與分類問題,即多任務(wù)學(xué)習(xí)與預(yù)測。針對風(fēng)險因子變量的動態(tài)觀測值,本文將構(gòu)建一個新的全數(shù)據(jù)生存函數(shù),利用所有可觀測值估計累計事件風(fēng)險,提高數(shù)據(jù)利用率;另外,本文的新方法利用Logistic回歸模型分別估計事件樣本和刪失樣本在不同時間點的事件概率,并根據(jù)各時間點的概率對事件時間進(jìn)行估計。為了學(xué)習(xí)MLSL模型的參數(shù),本文在優(yōu)化目標(biāo)函數(shù)中對模型參數(shù)進(jìn)行了正則化和平滑處理,避免模型過擬合。最后,本文在多個臨床事件時間數(shù)據(jù)上開展對比實驗,并驗證模型的有效性和實用性。

1 生存預(yù)測

本章介紹事件時間數(shù)據(jù),并描述動態(tài)事件時間數(shù)據(jù)特性以及Logistic生存函數(shù)和概率模型。

1.1 事件時間數(shù)據(jù)

不同于一般類型的數(shù)據(jù),事件時間數(shù)據(jù)是一種特殊的觀測型數(shù)據(jù),常常包含右刪失(right-censoring)、左刪失、區(qū)間刪失等類型的事件刪失樣本。事件刪失的主要原因有以下兩種:

失訪 某些與研究無關(guān)的原因?qū)е聵颖緹o法訪問,如肺癌患者在隨訪期間死于心肌梗塞、自殺或車禍。

追蹤終止 追蹤在事件發(fā)生之前終止。

如圖1所示的7個樣本中,A、B、G的初始觀測時間未知,即事件左刪失;樣本B、C、E中途退出實驗,G在追蹤終止時仍未有事件發(fā)生,這4個樣本都屬于事件右刪失類型。本文主要針對最常見的右刪失類型數(shù)據(jù)開展模型研究和應(yīng)用研究。

圖1 事件時間數(shù)據(jù)示例Fig.1 An exampleof time-to-event data

1.2 動態(tài)事件時間數(shù)據(jù)

樣本i在t時刻的D個風(fēng)險因子變量的觀測值記為x(i t)=(xi(1t),xi(2t),…,xiD(t))。對于給定數(shù)據(jù)集,假設(shè)所有非刪失樣本的事件時間點為τ1<τ2<…<τK。給定風(fēng)險因子變量觀測時間點集合為φ,動態(tài)事件時間數(shù)據(jù)X i=(x(i u1),x(i u2),…,xi(u|φ|)),其中uj∈φ是風(fēng)險因子變量觀測時間點。特別地,本文用φ(t)表示在時間t之前的所有觀測時間點。生存狀態(tài)zi為表示事件是否發(fā)生的二元變量,即zi∈{0,1}:當(dāng)i的事件已發(fā)生則取值為1,否則為0;標(biāo)簽時間變量yi∈R+在zi=1時為生存時間Ti,即yi=Ti,而當(dāng)zi=0,則為刪失事件時間Ci,即yi=Ci。本文用E1={i|zi=1}表示追蹤期內(nèi)有事件發(fā)生的所有樣本。對于刪失事件樣本,本文無法在追蹤期內(nèi)觀測到事件是否發(fā)生,也無法得知其在追蹤期外的生存狀態(tài),但至少本文已知在丟失其可觀測的最后時間點之前仍是“存活”的。換言之,右刪失樣本的生存時間大于或等于刪失時間,即Ti≥Ci,?i∈E0,集合E0={i|zi=0}包含所有追蹤期內(nèi)沒有事件發(fā)生的樣本。

1.3 Logistic生存函數(shù)

生存預(yù)測的核心任務(wù)是預(yù)測事件時間,即預(yù)測事件在某時間點發(fā)生的概率,其概率密度函數(shù)為F(t)=Pr(T≤t)。生存函數(shù)S(t)表示t時刻的生存概率,即事件不會早于t發(fā)生的概率,因此S(t)=Pr(T>t)=1-F(t)。實際上,任意形式的分布(如指數(shù)分布、Weibull分布、正態(tài)分布),只要滿足時間變量t∈[0,∞)都可以作為生存分布假設(shè)[15]。例如當(dāng)且僅當(dāng)lnT=η+σU時(U∈(-∞,∞)為隨機變量),T服從log-Logistic分布,生存概率則為:

從式(1)可以看出,生存函數(shù)與風(fēng)險因子變量無關(guān),因此傳統(tǒng)的log-Logistic有參模型無法估計風(fēng)險因子變量對事件發(fā)生的影響。本文改寫η為風(fēng)險因子變量的線性函數(shù),并構(gòu)造如下生存函數(shù):

這里,參數(shù)w刻畫了風(fēng)險因子自變量在t時刻對事件發(fā)生的瞬時作用。生存函數(shù)S表示觀察對象隨訪到t時刻的累積生存率,該生存概率只由當(dāng)前觀測值決定,而風(fēng)險因子觀測值的變化對事件時間的影響作用被忽略。

2 多任務(wù)Logistic事件時間預(yù)測

本章給出新的風(fēng)險累積Logistic生存函數(shù)和多任務(wù)學(xué)習(xí)方法、回歸模型系數(shù)的選擇策略,以及事件時間估計方法。

2.1 風(fēng)險累積Logistic生存函數(shù)

為了估計風(fēng)險因子變量在整個觀測期內(nèi)對生存概率的累積作用,本文構(gòu)建以下Logistic生存函數(shù):

其中Ri(u,W)是i在觀測時間點u的累積事件風(fēng)險,計算如下:

指數(shù)函數(shù)η(u,t)為u時刻的事件風(fēng)險到t時刻的衰減率,取值范圍為(0,1],即時間越久,風(fēng)險衰減越多。換言之,累積生存函數(shù)可以充分利用觀測數(shù)據(jù),更符合臨床應(yīng)用中的實際情況,例如病人用藥之后的很長一段時間內(nèi),生理指標(biāo)都會受到藥效影響,且該影響會隨著時間變小。

2.2 多任務(wù)生存學(xué)習(xí)

實際上,風(fēng)險因子變量與事件發(fā)生概率之間的關(guān)系是隨時間而變化的,因此本文設(shè)定一個新的回歸系數(shù)矩陣W=(w0,w1,w2,…,w K)用于描述風(fēng)險因子變量對生存概率的潛在影響力:w k是在tk時刻的D維回歸系數(shù)向量。樣本i的生存狀態(tài)在觀測期內(nèi)的變化可以表示成一個二元序列,zi(τ2),…,zi(τK)),當(dāng)t≤Ti時,zi(t)取值為0,t>Ti時則取值為1。為了求取最優(yōu)的回歸系數(shù)W*,本文將優(yōu)化關(guān)于W的似然函數(shù)。該似然估計實際上是在給定參數(shù)時對z i概率的估計。給定i∈E1,關(guān)于W的似然函數(shù)為:

最大化似然函數(shù)可以轉(zhuǎn)化為最小化似然函數(shù)的負(fù)對數(shù),由此,本文的學(xué)習(xí)任務(wù)為:

2.3 正則化系數(shù)選擇

正則化系數(shù)λ可以在驗證集上采用交叉驗證方法進(jìn)行優(yōu)化。為了避免優(yōu)化過程中目標(biāo)函數(shù)出現(xiàn)常數(shù)項,本文對訓(xùn)練集風(fēng)險因子變量矩陣X和驗證集風(fēng)險因子變量矩陣U的各列,以及訓(xùn)練集事件輸出列向量Y和驗證集事件輸出列向量Q都進(jìn)行標(biāo)準(zhǔn)化處理。最優(yōu)的λ值能夠使得模型在驗證集上的預(yù)測錯誤率最低,因此正則化系數(shù)優(yōu)化的核心是解決下述最小化問題:

為了計算方便,上述優(yōu)化問題的解可以近似估計為ridge回歸模型的正則化系數(shù)最優(yōu)解,因此

目標(biāo)函數(shù)O關(guān)于λ的偏導(dǎo)數(shù)為:

根據(jù)推論1以及矩陣計算,本文可以得到:

將式(11)和式(9)代入式(10),并令J=XTX+λI,則本文有:

式(12)包含大量的矩陣轉(zhuǎn)置計算,難度大且效率低,因此,本文用XTX的分解特征值來改寫式(12)。假設(shè)矩陣V的每列為特征向量,γ為特征值向量,那么XTX=Vdiag(γ)VT。G=XTX+λI的特征向量仍然為V,特征值則為γ+λI。因此,本文有G=Vdiag(γ+λI)VT。假設(shè)P=diag((γ+λI)-1),P-1=VPVT,則

推論1 假設(shè)M是一個基于實參κ的方陣,且各分量函數(shù)可導(dǎo),M(κ)對于所有的T都是可逆的,那么d

證明假設(shè)mij(κ)是M的分量函數(shù),mjk(κ)是M-1(κ)的分量函數(shù)。給定矩陣M的階n以及克羅內(nèi)克(Kronecker)函數(shù),對于任意κ,本文有:

其中Ξ={τ1,τ2,…,τK}。損失函數(shù)Δ(G,T)為預(yù)測事件時間G和真實事件時間T之間的誤差,如絕對誤差|G-T|或?qū)?shù)誤差|lnG-lnT|。

2.5 模型分析

本文的多任務(wù)回歸學(xué)習(xí)方法將生存函數(shù)(曲線)的擬合問題轉(zhuǎn)化為各時間點的生存狀態(tài)預(yù)測問題。這些預(yù)測任務(wù)是緊密相關(guān)的,各時間點的預(yù)測結(jié)果滿足生存概率的單調(diào)性。

與參數(shù)模型相比,本文的新模型無需生存時間分布假設(shè),而且可以給出各時間點的事件風(fēng)險率以及風(fēng)險因子變量對風(fēng)險率的影響,具有一定的普遍適用性。Cox模型采用比例風(fēng)險假設(shè),并估計生存概率為:

其中:基線風(fēng)險H(0t)為不考慮風(fēng)險因子變量時的累積風(fēng)險,通常由Breslow估計法[16]確定;基線概率SCo(xt)=S(t(|0,0,…,0)),表示在t時刻的基準(zhǔn)死亡比例(即發(fā)病密度或死亡密度)。回歸系數(shù)β描述了生存概率與風(fēng)險因子變量之間的關(guān)系,該關(guān)系不隨時間變化而變化。靜態(tài)回歸系數(shù)簡單,但卻不如本文的動態(tài)回歸參數(shù)更符合實際情況,這也是動態(tài)Cox(Time-dependent Cox,TCox)模型[9]采用動態(tài)系數(shù)βk的主要原因。類似地,Cox的半比例風(fēng)險(Semi-Proportional Hazards,SPH)[17]模型也采用動態(tài)回歸系數(shù)。與SPH模型的全數(shù)據(jù)學(xué)習(xí)方法類似,新模型充分利用刪失數(shù)據(jù)優(yōu)化參數(shù)。本質(zhì)上,新模型和基于Cox的模型采用的都是風(fēng)險乘積方式。

新模型中的全數(shù)據(jù)似然函數(shù)不同于Cox模型的最大化如下局部似然估計(Maximum Partial Likelihood Estimate,MPLE)[18]函數(shù):

2.4 事件時間預(yù)測

模型學(xué)習(xí)在訓(xùn)練樣本上優(yōu)化生存函數(shù)參數(shù)并得到最優(yōu)值W*。因此,對給定風(fēng)險因子變量值Xtest的測試樣本,本文用Logistic回歸函數(shù)估計生存概率為S(t|Xtes)t=(1+R(i u,W*))-1。鑒于生存函數(shù)只能估計生存概率,且目前尚沒有具體的生存時間估計方法,本文對樣本i的事件時間估計如下:

其中χ(yi)是在時間yi前所有未有事件發(fā)生的樣本。另外,新模型的目標(biāo)函數(shù)沒有采用傳統(tǒng)的Elastic-Net[19]懲罰因子

3 實驗

本章首先說明數(shù)據(jù)集及預(yù)處理工作,接著給出對比模型和性能評價標(biāo)準(zhǔn),最后介紹實驗過程并根據(jù)實驗結(jié)果對模型的有效性和效率進(jìn)行分析。

3.1 實驗數(shù)據(jù)及預(yù)處理

本實驗將在如表1所示的10個數(shù)據(jù)集上開展,其中,Lung、Prostate和Colorectal三個癌癥數(shù)據(jù)集是由NIH CDAS(https://cdas.cancer.gov)提供;其他7個數(shù)據(jù)集從R database獲得,且本文利用tmerge函數(shù)[20]為每個數(shù)據(jù)集生成動態(tài)風(fēng)險因子變量值。為了減少觀測值差異對相似度度量的影響,本文將數(shù)值型數(shù)據(jù)集的觀測值都進(jìn)行標(biāo)準(zhǔn)化處理。對于類屬性變量,本文利用虛擬變量法(dummy variable)將其轉(zhuǎn)化為0-1二元變量,這樣所有風(fēng)險因子變量便可以直接用于回歸模型的計算。虛擬變量法的核心是將有l(wèi)(l≥2)個觀測值的分類型風(fēng)險因子變量用其中任意l-1個觀測值所構(gòu)成的0-1二元虛擬變量所表示。例如,生理指標(biāo)BMI(Body Mass Index)一般有“體重過輕”“正常”“超重”和“肥胖”四個類屬性變量值,本文任選三個變量值作為虛擬變量來描述變量BMI。假設(shè)(體重過輕、正常、超重)為一組虛擬變量,每個虛擬變量取值1(“是”)或0(“否”),(0,0,0)則表示“肥胖”。本文都從每組數(shù)據(jù)中抽取10%的樣本作為驗證集用于選擇MLSL的正則化系數(shù)。

表1 事件時間數(shù)據(jù)集統(tǒng)計信息Tab.1 Statisticsof time-to-event datasets

3.2 對比模型

本文將MLSL與以下6個具有代表性的生存預(yù)測模型作對比:

1)TCox,即動態(tài) Cox模型[9],由 R 提供的 survival宏包實現(xiàn)。

2)CoxEN,即彈性網(wǎng)絡(luò)(Elastic-Net)規(guī)范化Cox模型[19],由R宏包survival和glmnet實現(xiàn)。

3)RSF,即隨機生存森林(Random Survival Forest)[21],可以用randomForestSRC包實現(xiàn),模型參數(shù)為R函數(shù)默認(rèn)值。

4)Cox-TRACE,即基于Cox的跡準(zhǔn)則多任務(wù)生存分析模型,由文獻(xiàn)[22]提供的開源代碼實現(xiàn)。

5)SPH,即半比例風(fēng)險模型,以Cox為基礎(chǔ)用于處理序列型特征變量,本文對比實驗采用與文獻(xiàn)[17]相同的參數(shù)設(shè)置。

6)AFT,即疊加失效時間(Accelerated Failure Time)模型[23],假設(shè)事件時間滿足 Weibull分布,由R函數(shù)WeibullReg實現(xiàn)。

3.3 評價指標(biāo)

為了評價各模型的生存概率預(yù)測能力,本文采用常用的AUC(Area Under the Curve)和C-index[24]作為評價指標(biāo)。在隨訪學(xué)習(xí)結(jié)束時,預(yù)測事件是否發(fā)生是一個二元分類問題,因此本文采用如下的AUC指標(biāo)檢測模型的預(yù)測(二分類)能力:

其中:I是0-1示性函數(shù),t0為隨訪時間。

C-index指標(biāo)是AUC指標(biāo)的泛化形式,用于評價模型概率預(yù)測的能力。若數(shù)據(jù)集共有n個可以按照真實事件時間排序的樣本組合,則:

其中:i∈E1,yi≤yj表示所有可排序的樣本組合i、j。C-index統(tǒng)計在各觀測時間點yi所有滿足預(yù)測事件概率的排序與真實事件時間排序一致的樣本對i、j的個數(shù),并考慮了生存并列(ties)樣本的存在[25]。AUC和C-index指標(biāo)的取值范圍通常是0.5(完全隨機預(yù)測)到1.0(最佳預(yù)測)。

為了檢測模型預(yù)測事件時間的準(zhǔn)確率,本文對比預(yù)測時間G和真實事件時間T之間的誤差,并定義如下相對錯誤率(Relative Error rate,RE):

顯然,RE值越小,模型預(yù)測的事件時間越準(zhǔn)確。

3.4 結(jié)果與分析

3.4.1 生存預(yù)測結(jié)果對比

每個模型在10個數(shù)據(jù)集上各進(jìn)行100次10折交叉驗證,所得結(jié)果的平均值為最終結(jié)果。表2的每個單元格列出了平均AUC和平均C-index值,同時表3給出了對應(yīng)的MLSL模型正則化系數(shù)。

表2 各模型關(guān)于AUC和C-index指標(biāo)的預(yù)測結(jié)果比較Tab.2 Comparison of prediction resultsof each model in termsof AUCand C-index

表3 MLSL正則化系數(shù)Tab.3 Regularized coefficientsfor MLSL

表2結(jié)果表明不論是對于刪失比例很高的PBC、Nwtco、Veteran和Lung四個數(shù)據(jù)集,還是在樣本數(shù)和維度都較大的Prostate和Colorectal數(shù)據(jù)集上,MLSL均獲得了較高的預(yù)測精度,由此可見本文提出的MLSL模型對各類復(fù)雜數(shù)據(jù)具有較強的適用性。盡管對比模型能夠在個別數(shù)據(jù)集上取得較好的結(jié)果,如SPH在CGD和Lung數(shù)據(jù)集上,Cox-TRACE在Standford2數(shù)據(jù)集上達(dá)到或超越了MLSL的預(yù)測精度,但是整體表現(xiàn)不如MLSL,其主要原因就是這兩個模型是基于Cox的等比例風(fēng)險假設(shè)。同樣地,TCox和CoxEN魯棒性也較差。參數(shù)模型AFT在所有數(shù)據(jù)集上都表現(xiàn)較差,原因在于Weibull分布假設(shè)并不符合大多數(shù)數(shù)據(jù)的真實情況。值得注意的是,多數(shù)情況下,模型在同一數(shù)據(jù)集上獲得的C-index精度往往比AUC略低,這是因為C-index作為泛化的AUC,在計算過程中需要對全部樣本生存時間進(jìn)行精確排序,難度較大。

表4給出了模型在測試集上的事件時間預(yù)測結(jié)果的相對錯誤率。除了在FLchain數(shù)據(jù)集上相對錯誤率比SPH的稍大以外,MLSL關(guān)于事件時間的預(yù)測結(jié)果都是最好的,這主要得益于全數(shù)據(jù)學(xué)習(xí)和多任務(wù)學(xué)習(xí)對生存概率的估計和生存函數(shù)參數(shù)的優(yōu)化。另外,生存函數(shù)本身也對事件時間的預(yù)測起決定性作用,本文的Logistic生存函數(shù)只需要在參數(shù)得到優(yōu)化的情況下就可以較精確地擬合數(shù)據(jù)集中的樣本生存概率分布。然而,基于Cox的方法雖然在參數(shù)學(xué)習(xí)過程不需要估計基線風(fēng)險,但是在預(yù)測生存概率和事件時間時則需要用到某些參數(shù)估計方法(如Breslow估計)[16],從而影響了預(yù)測準(zhǔn)確率。

3.4.2 生存概率曲線對比

圖2繪出了一位67歲的男性肺癌(Lung)患者和一位82歲女性直腸癌(Colorectal)患者在一年內(nèi)(52周)的生存概率曲線。肺癌患者和直腸癌患者的生存時間分別為13周和10周,因此從理論意義上說,從第13周開始,肺癌患者的生存概率為0,即S(t>13)=0,而直腸癌患者則從第10周開始生存概率應(yīng)當(dāng)為0,即S(t>10)=0。從圖2(a)可以看出MLSL在第13周時所預(yù)測的生存概率最低,且早在第8周,MLSL預(yù)測該肺癌患者的生存概率低于50%,遠(yuǎn)比其他預(yù)測模型所得到的生存概率低。在圖2(b)中,MLSL預(yù)測的結(jié)腸直腸癌患者生存概率在第10周之后是最低的。由此可見,MLSL模型具有一定的預(yù)警能力,能夠盡早發(fā)出警告,這在臨床決策具有相當(dāng)重要的意義。另外,目標(biāo)函數(shù)中的參數(shù)平滑處理使得MLSL生存曲線要比其他曲線略微平滑。

表4 事件時間預(yù)測的相對錯誤率比較Tab.4 REcomparison of predicted time-to-events

圖2 各模型預(yù)測的生存概率曲線對比Fig.2 Comparison of predicted survival curves by different models

3.4.3 模型效率對比

對比實驗中預(yù)測模型的測試效率都較高,且差異不明顯,因此本文只給出各模型的訓(xùn)練效率。圖3列出了各模型在10個數(shù)據(jù)集上的訓(xùn)練時間(單位:s)。由圖可見,MLSL在大數(shù)據(jù)集上的效率高于同樣采用動態(tài)系數(shù)的TCox模型,這主要是由于新模型的似然估計對每個樣本的生存概率估計是相互獨立的,目標(biāo)函數(shù)收斂速度比偏似然估計快。CoxEN需要估計兩個模型參數(shù),當(dāng)風(fēng)險因子變量較多時,參數(shù)優(yōu)化消耗時間較多,因此處理維度較高的數(shù)據(jù)時效率較低。RSF模型中,樹節(jié)點的分裂過程需要評估log-rank結(jié)果,訓(xùn)練時間受樣本數(shù)量影響較大,因此處理不同規(guī)模數(shù)據(jù)的效率差異明顯。SPH優(yōu)化具有瞬時風(fēng)險約束條件的目標(biāo)函數(shù),模型復(fù)雜度相對較高,算法迭代次數(shù)增加,因而其運行時間也有所增加。

為了進(jìn)一步分析MLSL的泛化能力,本文檢測了MLSL的效率與樣本數(shù)量N和數(shù)據(jù)維度D之間的關(guān)系。以Prostate數(shù)據(jù)為例,本文重新合成該數(shù)據(jù)集,分別調(diào)整N和D并測試MSLS的效率:固定數(shù)據(jù)維度D=30,并不斷增加樣本數(shù)量,MLSL的運行時間與樣本數(shù)呈線性關(guān)系,如圖4(a)所示;當(dāng)固定樣本數(shù)量N=3500,并不斷增加風(fēng)險因子個數(shù),MLSL的運行時間與維度D也呈現(xiàn)線性關(guān)系,如圖4(b)所示。以上結(jié)果表明本文的MLSL具有很強的泛化能力,適用于不同規(guī)模的數(shù)據(jù)。

圖3 MLSL的訓(xùn)練時間與數(shù)據(jù)規(guī)模和數(shù)據(jù)維度之間的關(guān)系Fig.3 Relationship between training time and data size/dimensionality of MLSL

4 結(jié)語

本文提出了一種針對動態(tài)事件時間數(shù)據(jù)的多任務(wù)Logistic生存學(xué)習(xí)模型MLSL。新模型通過全數(shù)據(jù)學(xué)習(xí)方式估計事件樣本和刪失樣本的生存概率,并構(gòu)建了具有參數(shù)正則化約束和平滑約束的優(yōu)化目標(biāo)函數(shù)。MLSL將生存預(yù)測轉(zhuǎn)化為一系列在不同時間點的Logistic回歸學(xué)習(xí)任務(wù),無需未知數(shù)據(jù)生存分布假設(shè),同時增強了模型對刪失數(shù)據(jù)的預(yù)測能力。針對動態(tài)數(shù)據(jù)的特性,MLSL刻畫了風(fēng)險因子序列特征,并估計事件累積風(fēng)險。與傳統(tǒng)方式相比,新模型能夠挖掘出風(fēng)險因子變量與生存概率之間的潛在關(guān)系。在實際臨床數(shù)據(jù)上的對比實驗結(jié)果表明,MLSL可以有效地預(yù)測動態(tài)事件時間數(shù)據(jù),其預(yù)測精度優(yōu)于目前經(jīng)典的生存分析方法,并且大幅度提升了預(yù)測結(jié)果的穩(wěn)定性。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久精品一卡日本电影| 成人免费黄色小视频| 尤物在线观看乱码| 亚洲一区无码在线| 国产在线视频导航| 亚洲swag精品自拍一区| 免费视频在线2021入口| 国产一级毛片在线| 色天天综合| 成年看免费观看视频拍拍| 国产黄在线免费观看| 99re经典视频在线| 久久亚洲精少妇毛片午夜无码 | 99国产在线视频| 成人在线综合| 精品国产自| 成人国产精品2021| 老司机精品一区在线视频| 国产哺乳奶水91在线播放| 久久人体视频| 99在线免费播放| 欧美精品一二三区| 亚洲欧美成人在线视频| 国产欧美日韩va另类在线播放 | 思思99思思久久最新精品| 欧美日韩国产成人高清视频| 欧美亚洲国产视频| 91人人妻人人做人人爽男同| 欧美黑人欧美精品刺激| 色婷婷天天综合在线| 国产在线无码一区二区三区| 最新国产精品第1页| 91精品人妻一区二区| 国产精品色婷婷在线观看| аⅴ资源中文在线天堂| 免费一级全黄少妇性色生活片| 亚洲无限乱码一二三四区| 无码免费视频| 国产人妖视频一区在线观看| 久久久精品国产亚洲AV日韩| 欧美黄网站免费观看| 免费啪啪网址| 乱人伦中文视频在线观看免费| 欧美日韩中文国产| 日韩精品欧美国产在线| 久久久久夜色精品波多野结衣| 亚洲黄网在线| 国产成人狂喷潮在线观看2345| 91www在线观看| 美女国内精品自产拍在线播放| 成人免费网站久久久| 激情综合图区| 国产乱子精品一区二区在线观看| 不卡无码h在线观看| 一级毛片视频免费| 亚洲天堂色色人体| 国产黄色片在线看| 免费AV在线播放观看18禁强制| 在线观看欧美精品二区| 国产欧美视频综合二区| 婷婷激情五月网| 国产本道久久一区二区三区| 国产精品免费露脸视频| 久久中文字幕av不卡一区二区| 无码网站免费观看| 欧美特黄一级大黄录像| 天天躁夜夜躁狠狠躁图片| 国产精品成人观看视频国产| 亚洲天堂视频在线免费观看| 国产福利不卡视频| 国产屁屁影院| 免费无遮挡AV| 91精品情国产情侣高潮对白蜜| 国产精品99在线观看| 欧美精品成人| 国产美女在线免费观看| 中文纯内无码H| 亚洲男人天堂网址| 久久公开视频| 免费观看男人免费桶女人视频| 国产成人高清在线精品| 成人在线观看一区|