李 淼 羅天娥△ 郭 強 于智凱 趙晉芳 段 燕
【提 要】 目的 應(yīng)用隨機生存森林模型探討肺癌患者預(yù)后影響因素的重要性并對預(yù)測結(jié)果進行評價。方法 對山西省某三甲醫(yī)院342例確診的肺癌患者進行隨訪研究,建立隨機生存森林模型,并與傳統(tǒng)的Cox回歸模型進行比較。結(jié)果 342例肺癌患者中226例患者發(fā)生死亡,中位生存時間為28.23月。治療方式、腫瘤大小、臨床分期等變量是影響肺癌患者預(yù)后的重要因素,淋巴結(jié)轉(zhuǎn)移、分化程度、病理分型、年齡是中度預(yù)測因素,并分析了變量之間的交互作用。二者的模型比較結(jié)果顯示隨機生存森林模型預(yù)測錯誤率以及預(yù)測誤差均低于Cox回歸模型。結(jié)論 隨機生存森林模型擬合效果好,可用于右刪失生存數(shù)據(jù)的分析,不但能發(fā)現(xiàn)重要的影響因素,還能發(fā)現(xiàn)變量之間的交互作用,為肺癌患者預(yù)后狀況的改善,提升生命質(zhì)量提供科學(xué)依據(jù)。
癌癥是世界范圍內(nèi)一個重大的公共衛(wèi)生問題。目前,肺癌已經(jīng)成為中國人口的主要死因,產(chǎn)生了沉重的疾病負擔(dān)[1],且肺癌患者預(yù)后較差[2]。因此,做好肺癌患者治療后生存狀況的影響因素研究是非常必要的。目前常用傳統(tǒng)的Cox回歸模型對患者的生存預(yù)后因素進行分析,但由于模型要求滿足比例風(fēng)險(PH假定),在實際應(yīng)用時會遇到不滿足的情形[3],且模型不能自動識別交互作用,使其應(yīng)用受限。而隨機生存森林模型(random survival forests,RSF)沒有PH假定的限制,也可自動識別變量間交互作用[4],目前已有一些高維生存數(shù)據(jù)方面的應(yīng)用,可提高預(yù)測性能[4-5]。本研究將RSF模型應(yīng)用于肺癌患者的臨床隨訪資料,對患者預(yù)后因子進行評估,探討因素間交互作用,并與傳統(tǒng)的Cox回歸模型的預(yù)測性能進行比較,尋找沒有太多限定,能發(fā)現(xiàn)主要的影響因素及分析因素間的復(fù)雜關(guān)系的生存分析模型,為探索肺癌患者預(yù)后的改善提供理論指導(dǎo),為預(yù)防重大疾病,實現(xiàn)全民健康這一目標(biāo)提供科學(xué)依據(jù)。
本研究數(shù)據(jù)來源于山西省某三甲醫(yī)院呼吸科,隨訪隊列人群為首次確診并住院治療的肺癌患者共342例,隨訪時間從2011年1月1至2018年12月31日,數(shù)據(jù)包含患者的一般人口學(xué)特征以及臨床資料,自變量包括:家族史、既往史、吸煙史、年齡、性別、病理分型、臨床分期、分化程度、腫瘤大小、淋巴結(jié)轉(zhuǎn)移、治療方式、復(fù)發(fā)次數(shù),反應(yīng)變量為生存時間和生存結(jié)局。
隨機生存森林(RSF)是由Ishwaran等于2008年[6]提出的一種非參數(shù)和非線性的樹集成學(xué)習(xí)方法,是隨機森林(RF)基于右刪失生存數(shù)據(jù)的擴展,與RF具有相似的特點。它是一種自適應(yīng)過程,能夠模擬非線性效應(yīng)和特征之間的復(fù)雜交互作用,這些特征使其能夠很好地適應(yīng)復(fù)雜的生存數(shù)據(jù)。在RF中,以兩種形式引入隨機化。首先是隨機抽取的自助采樣(bootstrap)樣本生成一棵樹;其次是在樹的每個節(jié)點,隨機選擇協(xié)變量的子集作為分裂的候選變量。RSF是由一組二元決策樹計算出來的,應(yīng)用bootstrap和隨機節(jié)點分裂來生長獨立決策樹,然后將所有的樹集合形成RSF。在RSF中,每棵樹由分類或拆分的節(jié)點變量組成,其中樹節(jié)點根據(jù)子節(jié)點之間的最大生存差異進行分裂。患者的生存時間和生存狀態(tài)是反應(yīng)變量,通過計算數(shù)據(jù)集中每個樣本的累積風(fēng)險函數(shù),根據(jù)生存時間進行匯總產(chǎn)生集成死亡率的預(yù)測結(jié)果。因此,可以在不滿足PH假定條件下,從客觀角度自動評估所有變量之間的復(fù)雜影響和相互作用,并基于模型輸出的重要性值進行排序,找到有影響的協(xié)變量,同時也能降低泛化誤差。
(1)通過自助采樣從原始數(shù)據(jù)中得到ntree個樣本,每個樣本平均包含63%的原始觀測數(shù)據(jù),其余37%作為袋外數(shù)據(jù)(out-of-bag,OOB數(shù)據(jù))。自助采樣過程中通過引入隨機化,降低了集合樹的泛化誤差。生成的OOB數(shù)據(jù)用于獲得計算集成CHF的預(yù)測錯誤率。
(2)每個自助采樣樣本生長一棵生存樹。在樹的每個節(jié)點,隨機選擇mtry個變量作為候選變量,選擇使子節(jié)點間生存差異最大的候選變量作為節(jié)點進行分裂,通過對數(shù)秩(logrank)或?qū)?shù)秩得分(logrank score)分裂準則比較兩組的生存曲線,評價分裂變量和分裂點的有效性。對數(shù)秩檢驗已被證明是在比例和非比例風(fēng)險的情況下分裂生存樹的一種有效檢驗方法[8]。
詳細過程為:分裂變量和分裂點是通過隨機選擇變量x的子集和所有可能的分裂點c來建立的。選擇能使子節(jié)點之間的生存差異最大化的候選變量x*和分裂點c*。在隨機分裂方法中,考慮變量x上所有可能的分裂點。對于連續(xù)變量,采取x≤c和x>c的形式直接分裂。當(dāng)xi≤c和xi>c時,具有變量值xi的個體i將分別分配給左、右子節(jié)點。若分裂變量是分類變量,則考慮其所有水平來分組。例如一個具有4個水平的分類變量x,有兩種分組方法。第一種方法是一個水平表示一節(jié)點,其余三個水平表示另一節(jié)點;第二種方法是左右兩個節(jié)點都有兩個水平。隨著分類變量水平量的增加,可能的分裂組合數(shù)隨之增加。
(3)在終節(jié)點不少于nodesize個事件的條件下生長樹,否則樹停止生長。
(4)為每棵樹計算一個累積風(fēng)險函數(shù)(CHF),計算其平均值為集成CHF。

(1)
式中,di,h表示在時間ti,h處的死亡人數(shù),Si,h表示在ti,h處于風(fēng)險的人數(shù)(即期初例數(shù))。在相同的終端節(jié)點h處的個體具有相同的CHF。
每個有d維協(xié)變量Xi的個體i,屬于一個唯一的終節(jié)點h,將終節(jié)點h的CHF作為具有協(xié)變量Xi的個體i的CHF,用H(t|Xi)表示個體i的CHF,則
(2)
集成CHF見公式(3),即CHF的平均值。
(3)
(5)利用OOB數(shù)據(jù),計算集成CHF的預(yù)測錯誤率。預(yù)測錯誤率用C指數(shù)評估。
公式(3)表示使用所有的生存樹來估計具有協(xié)變量Xi的個體i的CHF。通過再次簡單抽取樹的平均值來獲得OOB估計值,指示變量Ii,b用于選擇要使用的樹,如果Ii,b=1表示i屬于OOB的個體,Ii,b=0表示i屬于bootstrap樣本的個體。則OOB樣本的CHF為:
(4)
預(yù)測錯誤率用C指數(shù)評估。通過比較觀察到的生存時間和整體死亡率來計算一致性指數(shù)。例如在所有組成的每一對觀測對象中,假定個體i比j有更差的預(yù)測結(jié)局,i的集成死亡率比j高,即:
(5)
若觀察到的生存時間ti>tj,則認為i和j的預(yù)測與實際觀測不一致。反之,如果觀察到i的生存時間低于j,則i和j的預(yù)測與實際觀測一致。統(tǒng)計預(yù)測正確的對數(shù),計算其在可評價總對數(shù)中的比例,為一致性指數(shù)C,預(yù)測錯誤率為1-C。
(1)預(yù)測錯誤率
Harrell的一致性指數(shù)(C指數(shù))是衡量生存模型是否能區(qū)分高低風(fēng)險人群的指標(biāo)[6]。它不依賴于選擇一個固定的時間來評估模型,并特別考慮到個體刪失。預(yù)測錯誤率介于0到1之間,0.5意味著與隨機估計的結(jié)果一致,0值認為是預(yù)測效果最好。本文用1-C計算的錯誤率來量化Cox回歸模型和RSF模型的比較結(jié)果。
(2)預(yù)測誤差曲線

模型的建立與評價均通過軟件R 3.6.2實現(xiàn):應(yīng)用survival包中的coxph()函數(shù)建立Cox回歸模型,應(yīng)用randomForestSRC包建立RSF模型,應(yīng)用pec包進行模型比較。
本研究獲得有效病例342例,中位生存時間為28.23月,226例患者發(fā)生死亡,其余116份病例至研究時間截止仍存活或未發(fā)生指定的結(jié)局事件,數(shù)據(jù)的刪失比例約占33.9%。以肺癌患者的生存時間(天)和生存結(jié)局(刪失:0;死亡:1)為應(yīng)變量,家族史(無:0;有:1)、既往史(無:0;有:1)、吸煙史(無:0;有:1)、年齡(歲)、性別(男:0;女:1)、病理分型(鱗癌:0;腺癌:1)、臨床分期(I期:1;II期:2;III期:3;IV期:4)、分化程度(中分化:0;低分化:1)、腫瘤大小(cm)、淋巴結(jié)轉(zhuǎn)移(無:0;有:1)、治療方式(非手術(shù)治療:0;手術(shù)治療:1)、復(fù)發(fā)次數(shù)(0次:0;1次:1;大于等于2次:2)12個指標(biāo)為自變量分別建立Cox回歸模型與RSF模型。
342例肺癌患者的年齡平均為(59.6±9.9)歲,最小年齡29歲,最大年齡為84歲;腫瘤大小(3.85±1.89)cm,最小值為0.3cm,最大值為10.1cm;其余變量的基本信息見表1。

表1 342例肺癌患者的隨訪資料的統(tǒng)計描述
將所有自變量納入Cox回歸模型,采用逐步回歸方法(α入=0.05,α出=0.10)進行影響因素的篩選,結(jié)果見表2。分析結(jié)果可見年齡、臨床分期、分化程度、腫瘤大小、淋巴結(jié)轉(zhuǎn)移、治療方式與復(fù)發(fā)次數(shù)對肺癌患者預(yù)后有影響。

表2 Cox回歸模型逐步回歸分析結(jié)果

(1)自變量重要性分析
RSF模型很重要的一個結(jié)果為根據(jù)VIMP值進行變量重要性排序,VIMP值定義為有噪聲和無噪聲的預(yù)測誤差之間的差異[11],用來評估各個變量在預(yù)測中所起的作用。本研究得出結(jié)論:肺癌患者的治療方式、腫瘤大小、臨床分期、復(fù)發(fā)次數(shù)是高度預(yù)測因素;淋巴結(jié)轉(zhuǎn)移、分化程度、病理分型、年齡是中度預(yù)測因素;性別、吸煙史、既往史和家族史是不重要的預(yù)測因素[6]。結(jié)果見表3。

表3 各變量重要性值
(2)自變量間交互作用的分析
在醫(yī)學(xué)研究中,疾病的發(fā)生與預(yù)后往往受到多個因素的影響,變量之間的交互作用也是非常重要的。變量間的交互作用非常復(fù)雜,通常用兩個或多個自變量的乘積即交互項來研究。交互項的存在表明某個解釋變量對應(yīng)變量的作用是以另一個解釋變量的不同取值為條件的。RSF能夠自動擬合交互作用,同時控制過擬合[6]。本文應(yīng)用RSF模型來分析肺癌患者預(yù)后影響因素之間的交互作用,部分結(jié)果見表4。

表4 交互作用分析
表4按成對交互從大到小排序,結(jié)果可見交互作用最大的兩個變量是治療方式與臨床分期,其次是治療方式與腫瘤大小,治療方式與淋巴結(jié)轉(zhuǎn)移,之后的關(guān)聯(lián)性急劇下降。為了進一步解釋變量之間的交互關(guān)系,繪制了在不同的治療方式與臨床分期的條件下,腫瘤最大徑與生存時間之間的coplot圖,見圖2。
圖1結(jié)果可見,平滑曲線描述的是每個患者的生存曲線。以圖1選擇兩種情況的生存曲線圖來進行解釋,如臨床分期為1期,治療方式為1(手術(shù)組),可見大多數(shù)肺癌患者的腫瘤最大徑較小,生存曲線最好,生存時間最長(見第一行第一列),提示肺癌患者如果能早診斷、早治療,預(yù)后較好;對于臨床分期為4期,治療方式為0(非手術(shù)組)的患者存活率是最差的(見第二行第四列);腫瘤大小不同,生存時間也不同,腫瘤大小變異范圍是0~10cm,總的來說,對于腫瘤最大徑<2cm的患者,生存時間約為1000天,而腫瘤最大徑>6cm的患者,生存時間降為500天左右。

圖1 變量的交互作用對生存時間的影響

圖2 預(yù)測誤差曲線比較
Brier分數(shù)預(yù)測值越低,表明預(yù)測精度越好。根據(jù)Brier分數(shù)的預(yù)測結(jié)果繪制預(yù)測誤差曲線,見圖3。結(jié)果表明,隨著生存時間的延長,RSF模型的預(yù)測精度均優(yōu)于Cox回歸模型,即RSF模型的預(yù)測結(jié)果中個體預(yù)測值之間較為一致,且與真實值較為接近。在1500天以后,隨著生存時間的延長,兩個模型的預(yù)測誤差均上升,甚至高于K-M估計,表明二者對于生存時間較短的患者(2年以內(nèi))以及生存時間長(超過5年)的患者的預(yù)測效果均差于生存時間處于3~5年之間的患者的預(yù)測效果,對生存時間處于3~5年中間的患者的預(yù)測精度較好。
表5為兩模型一致性錯誤率的比較,總的來講RSF模型一致性錯誤率低于Cox回歸模型(除第3年)。

表5 預(yù)測錯誤率比較(%)
隨機生存森林(RSF)通過引入隨機化,應(yīng)用bootstrap和隨機節(jié)點分裂來生長獨立決策樹,將所有的樹集成形成RSF。可以防止過擬合、不受PH假定的限制,自動評估所有變量之間的復(fù)雜影響和相互作用,RSF模型不依賴于P值,可以根據(jù)數(shù)據(jù)分析變量之間的線性或非線性的關(guān)系,常用于復(fù)雜生存數(shù)據(jù)的變量篩選和預(yù)測。克服了Cox回歸遇到的一些限制。使用OOB估計來取代交叉驗證,大大減少了計算時間。
目前,關(guān)于各因素間的交互作用對疾病預(yù)后的影響分析較罕見[12]。本研究將RSF用于肺癌患者的生存分析中,確定影響預(yù)后的高度預(yù)測變量,分析了變量間的交互作用,并以可視化的形式表現(xiàn)出來,結(jié)果解釋合理。而在Cox回歸分析中分析交互時,需根據(jù)專業(yè)知識提前指定交互項,加到模型中進行分析,使分析趨向復(fù)雜[13]。
研究利用預(yù)測錯誤率和預(yù)測誤差曲線對RSF和Cox回歸模型進行比較,發(fā)現(xiàn)RSF的預(yù)測性能總的來說優(yōu)于Cox回歸。目前,RSF模型已應(yīng)用于多種臨床疾病數(shù)據(jù),包括食管癌[14]、乳腺癌[13]以及基因組學(xué)數(shù)據(jù)[15]。將RSF與包括Cox回歸模型在內(nèi)的其他方法進行比較,均表明RSF優(yōu)于或與其他模型性能相當(dāng)[16]。由于RSF是基于隨機節(jié)點分裂來生長決策樹,本次研究變量大多為多分類變量,RSF在隨機選擇分裂點時不可避免地存在偏倚,后續(xù)基于RSF模型的優(yōu)化有待進一步研究。