999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

隨機生存森林模型在肺癌患者預(yù)后分析中的應(yīng)用*

2021-07-07 09:36:58羅天娥于智凱趙晉芳
中國衛(wèi)生統(tǒng)計 2021年3期
關(guān)鍵詞:肺癌分析模型

李 淼 羅天娥△ 郭 強 于智凱 趙晉芳 段 燕

【提 要】 目的 應(yīng)用隨機生存森林模型探討肺癌患者預(yù)后影響因素的重要性并對預(yù)測結(jié)果進行評價。方法 對山西省某三甲醫(yī)院342例確診的肺癌患者進行隨訪研究,建立隨機生存森林模型,并與傳統(tǒng)的Cox回歸模型進行比較。結(jié)果 342例肺癌患者中226例患者發(fā)生死亡,中位生存時間為28.23月。治療方式、腫瘤大小、臨床分期等變量是影響肺癌患者預(yù)后的重要因素,淋巴結(jié)轉(zhuǎn)移、分化程度、病理分型、年齡是中度預(yù)測因素,并分析了變量之間的交互作用。二者的模型比較結(jié)果顯示隨機生存森林模型預(yù)測錯誤率以及預(yù)測誤差均低于Cox回歸模型。結(jié)論 隨機生存森林模型擬合效果好,可用于右刪失生存數(shù)據(jù)的分析,不但能發(fā)現(xiàn)重要的影響因素,還能發(fā)現(xiàn)變量之間的交互作用,為肺癌患者預(yù)后狀況的改善,提升生命質(zhì)量提供科學(xué)依據(jù)。

癌癥是世界范圍內(nèi)一個重大的公共衛(wèi)生問題。目前,肺癌已經(jīng)成為中國人口的主要死因,產(chǎn)生了沉重的疾病負擔(dān)[1],且肺癌患者預(yù)后較差[2]。因此,做好肺癌患者治療后生存狀況的影響因素研究是非常必要的。目前常用傳統(tǒng)的Cox回歸模型對患者的生存預(yù)后因素進行分析,但由于模型要求滿足比例風(fēng)險(PH假定),在實際應(yīng)用時會遇到不滿足的情形[3],且模型不能自動識別交互作用,使其應(yīng)用受限。而隨機生存森林模型(random survival forests,RSF)沒有PH假定的限制,也可自動識別變量間交互作用[4],目前已有一些高維生存數(shù)據(jù)方面的應(yīng)用,可提高預(yù)測性能[4-5]。本研究將RSF模型應(yīng)用于肺癌患者的臨床隨訪資料,對患者預(yù)后因子進行評估,探討因素間交互作用,并與傳統(tǒng)的Cox回歸模型的預(yù)測性能進行比較,尋找沒有太多限定,能發(fā)現(xiàn)主要的影響因素及分析因素間的復(fù)雜關(guān)系的生存分析模型,為探索肺癌患者預(yù)后的改善提供理論指導(dǎo),為預(yù)防重大疾病,實現(xiàn)全民健康這一目標(biāo)提供科學(xué)依據(jù)。

資料來源

本研究數(shù)據(jù)來源于山西省某三甲醫(yī)院呼吸科,隨訪隊列人群為首次確診并住院治療的肺癌患者共342例,隨訪時間從2011年1月1至2018年12月31日,數(shù)據(jù)包含患者的一般人口學(xué)特征以及臨床資料,自變量包括:家族史、既往史、吸煙史、年齡、性別、病理分型、臨床分期、分化程度、腫瘤大小、淋巴結(jié)轉(zhuǎn)移、治療方式、復(fù)發(fā)次數(shù),反應(yīng)變量為生存時間和生存結(jié)局。

原理與方法

1.RSF模型

隨機生存森林(RSF)是由Ishwaran等于2008年[6]提出的一種非參數(shù)和非線性的樹集成學(xué)習(xí)方法,是隨機森林(RF)基于右刪失生存數(shù)據(jù)的擴展,與RF具有相似的特點。它是一種自適應(yīng)過程,能夠模擬非線性效應(yīng)和特征之間的復(fù)雜交互作用,這些特征使其能夠很好地適應(yīng)復(fù)雜的生存數(shù)據(jù)。在RF中,以兩種形式引入隨機化。首先是隨機抽取的自助采樣(bootstrap)樣本生成一棵樹;其次是在樹的每個節(jié)點,隨機選擇協(xié)變量的子集作為分裂的候選變量。RSF是由一組二元決策樹計算出來的,應(yīng)用bootstrap和隨機節(jié)點分裂來生長獨立決策樹,然后將所有的樹集合形成RSF。在RSF中,每棵樹由分類或拆分的節(jié)點變量組成,其中樹節(jié)點根據(jù)子節(jié)點之間的最大生存差異進行分裂。患者的生存時間和生存狀態(tài)是反應(yīng)變量,通過計算數(shù)據(jù)集中每個樣本的累積風(fēng)險函數(shù),根據(jù)生存時間進行匯總產(chǎn)生集成死亡率的預(yù)測結(jié)果。因此,可以在不滿足PH假定條件下,從客觀角度自動評估所有變量之間的復(fù)雜影響和相互作用,并基于模型輸出的重要性值進行排序,找到有影響的協(xié)變量,同時也能降低泛化誤差。

2.RSF算法[7]

(1)通過自助采樣從原始數(shù)據(jù)中得到ntree個樣本,每個樣本平均包含63%的原始觀測數(shù)據(jù),其余37%作為袋外數(shù)據(jù)(out-of-bag,OOB數(shù)據(jù))。自助采樣過程中通過引入隨機化,降低了集合樹的泛化誤差。生成的OOB數(shù)據(jù)用于獲得計算集成CHF的預(yù)測錯誤率。

(2)每個自助采樣樣本生長一棵生存樹。在樹的每個節(jié)點,隨機選擇mtry個變量作為候選變量,選擇使子節(jié)點間生存差異最大的候選變量作為節(jié)點進行分裂,通過對數(shù)秩(logrank)或?qū)?shù)秩得分(logrank score)分裂準則比較兩組的生存曲線,評價分裂變量和分裂點的有效性。對數(shù)秩檢驗已被證明是在比例和非比例風(fēng)險的情況下分裂生存樹的一種有效檢驗方法[8]。

詳細過程為:分裂變量和分裂點是通過隨機選擇變量x的子集和所有可能的分裂點c來建立的。選擇能使子節(jié)點之間的生存差異最大化的候選變量x*和分裂點c*。在隨機分裂方法中,考慮變量x上所有可能的分裂點。對于連續(xù)變量,采取x≤c和x>c的形式直接分裂。當(dāng)xi≤c和xi>c時,具有變量值xi的個體i將分別分配給左、右子節(jié)點。若分裂變量是分類變量,則考慮其所有水平來分組。例如一個具有4個水平的分類變量x,有兩種分組方法。第一種方法是一個水平表示一節(jié)點,其余三個水平表示另一節(jié)點;第二種方法是左右兩個節(jié)點都有兩個水平。隨著分類變量水平量的增加,可能的分裂組合數(shù)隨之增加。

(3)在終節(jié)點不少于nodesize個事件的條件下生長樹,否則樹停止生長。

(4)為每棵樹計算一個累積風(fēng)險函數(shù)(CHF),計算其平均值為集成CHF。

(1)

式中,di,h表示在時間ti,h處的死亡人數(shù),Si,h表示在ti,h處于風(fēng)險的人數(shù)(即期初例數(shù))。在相同的終端節(jié)點h處的個體具有相同的CHF。

每個有d維協(xié)變量Xi的個體i,屬于一個唯一的終節(jié)點h,將終節(jié)點h的CHF作為具有協(xié)變量Xi的個體i的CHF,用H(t|Xi)表示個體i的CHF,則

(2)

集成CHF見公式(3),即CHF的平均值。

(3)

(5)利用OOB數(shù)據(jù),計算集成CHF的預(yù)測錯誤率。預(yù)測錯誤率用C指數(shù)評估。

公式(3)表示使用所有的生存樹來估計具有協(xié)變量Xi的個體i的CHF。通過再次簡單抽取樹的平均值來獲得OOB估計值,指示變量Ii,b用于選擇要使用的樹,如果Ii,b=1表示i屬于OOB的個體,Ii,b=0表示i屬于bootstrap樣本的個體。則OOB樣本的CHF為:

(4)

預(yù)測錯誤率用C指數(shù)評估。通過比較觀察到的生存時間和整體死亡率來計算一致性指數(shù)。例如在所有組成的每一對觀測對象中,假定個體i比j有更差的預(yù)測結(jié)局,i的集成死亡率比j高,即:

(5)

若觀察到的生存時間ti>tj,則認為i和j的預(yù)測與實際觀測不一致。反之,如果觀察到i的生存時間低于j,則i和j的預(yù)測與實際觀測一致。統(tǒng)計預(yù)測正確的對數(shù),計算其在可評價總對數(shù)中的比例,為一致性指數(shù)C,預(yù)測錯誤率為1-C。

3.模型比較評價指標(biāo)

(1)預(yù)測錯誤率

Harrell的一致性指數(shù)(C指數(shù))是衡量生存模型是否能區(qū)分高低風(fēng)險人群的指標(biāo)[6]。它不依賴于選擇一個固定的時間來評估模型,并特別考慮到個體刪失。預(yù)測錯誤率介于0到1之間,0.5意味著與隨機估計的結(jié)果一致,0值認為是預(yù)測效果最好。本文用1-C計算的錯誤率來量化Cox回歸模型和RSF模型的比較結(jié)果。

(2)預(yù)測誤差曲線

4.軟件實現(xiàn)

模型的建立與評價均通過軟件R 3.6.2實現(xiàn):應(yīng)用survival包中的coxph()函數(shù)建立Cox回歸模型,應(yīng)用randomForestSRC包建立RSF模型,應(yīng)用pec包進行模型比較。

結(jié) 果

本研究獲得有效病例342例,中位生存時間為28.23月,226例患者發(fā)生死亡,其余116份病例至研究時間截止仍存活或未發(fā)生指定的結(jié)局事件,數(shù)據(jù)的刪失比例約占33.9%。以肺癌患者的生存時間(天)和生存結(jié)局(刪失:0;死亡:1)為應(yīng)變量,家族史(無:0;有:1)、既往史(無:0;有:1)、吸煙史(無:0;有:1)、年齡(歲)、性別(男:0;女:1)、病理分型(鱗癌:0;腺癌:1)、臨床分期(I期:1;II期:2;III期:3;IV期:4)、分化程度(中分化:0;低分化:1)、腫瘤大小(cm)、淋巴結(jié)轉(zhuǎn)移(無:0;有:1)、治療方式(非手術(shù)治療:0;手術(shù)治療:1)、復(fù)發(fā)次數(shù)(0次:0;1次:1;大于等于2次:2)12個指標(biāo)為自變量分別建立Cox回歸模型與RSF模型。

1.基本情況

342例肺癌患者的年齡平均為(59.6±9.9)歲,最小年齡29歲,最大年齡為84歲;腫瘤大小(3.85±1.89)cm,最小值為0.3cm,最大值為10.1cm;其余變量的基本信息見表1。

表1 342例肺癌患者的隨訪資料的統(tǒng)計描述

2.建立Cox回歸模型

將所有自變量納入Cox回歸模型,采用逐步回歸方法(α入=0.05,α出=0.10)進行影響因素的篩選,結(jié)果見表2。分析結(jié)果可見年齡、臨床分期、分化程度、腫瘤大小、淋巴結(jié)轉(zhuǎn)移、治療方式與復(fù)發(fā)次數(shù)對肺癌患者預(yù)后有影響。

表2 Cox回歸模型逐步回歸分析結(jié)果

3.建立RSF模型

(1)自變量重要性分析

RSF模型很重要的一個結(jié)果為根據(jù)VIMP值進行變量重要性排序,VIMP值定義為有噪聲和無噪聲的預(yù)測誤差之間的差異[11],用來評估各個變量在預(yù)測中所起的作用。本研究得出結(jié)論:肺癌患者的治療方式、腫瘤大小、臨床分期、復(fù)發(fā)次數(shù)是高度預(yù)測因素;淋巴結(jié)轉(zhuǎn)移、分化程度、病理分型、年齡是中度預(yù)測因素;性別、吸煙史、既往史和家族史是不重要的預(yù)測因素[6]。結(jié)果見表3。

表3 各變量重要性值

(2)自變量間交互作用的分析

在醫(yī)學(xué)研究中,疾病的發(fā)生與預(yù)后往往受到多個因素的影響,變量之間的交互作用也是非常重要的。變量間的交互作用非常復(fù)雜,通常用兩個或多個自變量的乘積即交互項來研究。交互項的存在表明某個解釋變量對應(yīng)變量的作用是以另一個解釋變量的不同取值為條件的。RSF能夠自動擬合交互作用,同時控制過擬合[6]。本文應(yīng)用RSF模型來分析肺癌患者預(yù)后影響因素之間的交互作用,部分結(jié)果見表4。

表4 交互作用分析

表4按成對交互從大到小排序,結(jié)果可見交互作用最大的兩個變量是治療方式與臨床分期,其次是治療方式與腫瘤大小,治療方式與淋巴結(jié)轉(zhuǎn)移,之后的關(guān)聯(lián)性急劇下降。為了進一步解釋變量之間的交互關(guān)系,繪制了在不同的治療方式與臨床分期的條件下,腫瘤最大徑與生存時間之間的coplot圖,見圖2。

圖1結(jié)果可見,平滑曲線描述的是每個患者的生存曲線。以圖1選擇兩種情況的生存曲線圖來進行解釋,如臨床分期為1期,治療方式為1(手術(shù)組),可見大多數(shù)肺癌患者的腫瘤最大徑較小,生存曲線最好,生存時間最長(見第一行第一列),提示肺癌患者如果能早診斷、早治療,預(yù)后較好;對于臨床分期為4期,治療方式為0(非手術(shù)組)的患者存活率是最差的(見第二行第四列);腫瘤大小不同,生存時間也不同,腫瘤大小變異范圍是0~10cm,總的來說,對于腫瘤最大徑<2cm的患者,生存時間約為1000天,而腫瘤最大徑>6cm的患者,生存時間降為500天左右。

圖1 變量的交互作用對生存時間的影響

圖2 預(yù)測誤差曲線比較

4.模型比較

Brier分數(shù)預(yù)測值越低,表明預(yù)測精度越好。根據(jù)Brier分數(shù)的預(yù)測結(jié)果繪制預(yù)測誤差曲線,見圖3。結(jié)果表明,隨著生存時間的延長,RSF模型的預(yù)測精度均優(yōu)于Cox回歸模型,即RSF模型的預(yù)測結(jié)果中個體預(yù)測值之間較為一致,且與真實值較為接近。在1500天以后,隨著生存時間的延長,兩個模型的預(yù)測誤差均上升,甚至高于K-M估計,表明二者對于生存時間較短的患者(2年以內(nèi))以及生存時間長(超過5年)的患者的預(yù)測效果均差于生存時間處于3~5年之間的患者的預(yù)測效果,對生存時間處于3~5年中間的患者的預(yù)測精度較好。

表5為兩模型一致性錯誤率的比較,總的來講RSF模型一致性錯誤率低于Cox回歸模型(除第3年)。

表5 預(yù)測錯誤率比較(%)

討 論

隨機生存森林(RSF)通過引入隨機化,應(yīng)用bootstrap和隨機節(jié)點分裂來生長獨立決策樹,將所有的樹集成形成RSF。可以防止過擬合、不受PH假定的限制,自動評估所有變量之間的復(fù)雜影響和相互作用,RSF模型不依賴于P值,可以根據(jù)數(shù)據(jù)分析變量之間的線性或非線性的關(guān)系,常用于復(fù)雜生存數(shù)據(jù)的變量篩選和預(yù)測。克服了Cox回歸遇到的一些限制。使用OOB估計來取代交叉驗證,大大減少了計算時間。

目前,關(guān)于各因素間的交互作用對疾病預(yù)后的影響分析較罕見[12]。本研究將RSF用于肺癌患者的生存分析中,確定影響預(yù)后的高度預(yù)測變量,分析了變量間的交互作用,并以可視化的形式表現(xiàn)出來,結(jié)果解釋合理。而在Cox回歸分析中分析交互時,需根據(jù)專業(yè)知識提前指定交互項,加到模型中進行分析,使分析趨向復(fù)雜[13]。

研究利用預(yù)測錯誤率和預(yù)測誤差曲線對RSF和Cox回歸模型進行比較,發(fā)現(xiàn)RSF的預(yù)測性能總的來說優(yōu)于Cox回歸。目前,RSF模型已應(yīng)用于多種臨床疾病數(shù)據(jù),包括食管癌[14]、乳腺癌[13]以及基因組學(xué)數(shù)據(jù)[15]。將RSF與包括Cox回歸模型在內(nèi)的其他方法進行比較,均表明RSF優(yōu)于或與其他模型性能相當(dāng)[16]。由于RSF是基于隨機節(jié)點分裂來生長決策樹,本次研究變量大多為多分類變量,RSF在隨機選擇分裂點時不可避免地存在偏倚,后續(xù)基于RSF模型的優(yōu)化有待進一步研究。

猜你喜歡
肺癌分析模型
一半模型
中醫(yī)防治肺癌術(shù)后并發(fā)癥
對比增強磁敏感加權(quán)成像對肺癌腦轉(zhuǎn)移瘤檢出的研究
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動化發(fā)展趨勢分析
3D打印中的模型分割與打包
microRNA-205在人非小細胞肺癌中的表達及臨床意義
主站蜘蛛池模板: 色播五月婷婷| 三级毛片在线播放| 青草免费在线观看| 在线看片免费人成视久网下载| 青草视频网站在线观看| 国产白丝av| 国产色网站| 成人国产精品网站在线看| 久热99这里只有精品视频6| 日韩无码一二三区| 国产精品专区第1页| 日韩国产一区二区三区无码| 中文字幕佐山爱一区二区免费| h网址在线观看| 日本www在线视频| 91丝袜乱伦| 91精品情国产情侣高潮对白蜜| 中文字幕波多野不卡一区| 黄色国产在线| 国产主播一区二区三区| 国产日韩欧美中文| 蜜芽国产尤物av尤物在线看| 国产日韩久久久久无码精品| 国产在线麻豆波多野结衣| 露脸国产精品自产在线播| 色香蕉影院| 久久成人国产精品免费软件 | 好久久免费视频高清| 欧美色99| 久久a级片| 亚洲人成网7777777国产| 国产二级毛片| 亚洲国产精品成人久久综合影院| 美女免费黄网站| 亚洲无码高清一区| 毛片三级在线观看| 香蕉网久久| 成人中文字幕在线| 小说区 亚洲 自拍 另类| 巨熟乳波霸若妻中文观看免费| 国产欧美精品专区一区二区| 色欲色欲久久综合网| 国产成人精品无码一区二| 亚洲大学生视频在线播放| 婷婷成人综合| 久久伊人操| 国产亚洲欧美在线人成aaaa| 国产大片黄在线观看| 四虎影视无码永久免费观看| 99久久国产精品无码| 欧美亚洲国产精品第一页| 国产精品无码一二三视频| 亚洲欧美不卡| 色偷偷一区二区三区| 亚洲VA中文字幕| 91在线免费公开视频| 亚洲欧洲日产国产无码AV| 亚洲高清无码精品| 亚洲色图欧美在线| 亚洲精品高清视频| 日韩一区二区三免费高清| 99手机在线视频| 制服丝袜一区| 亚洲国内精品自在自线官| 国产原创演绎剧情有字幕的| 高清久久精品亚洲日韩Av| 亚洲综合婷婷激情| 欧美另类图片视频无弹跳第一页| 久久久久亚洲AV成人网站软件| 久久综合干| 亚洲国产欧美目韩成人综合| 91人妻在线视频| 亚洲无线观看| 欧美激情首页| 亚洲国产天堂久久综合226114| 自拍偷拍欧美日韩| 在线无码九区| 爱爱影院18禁免费| 中国特黄美女一级视频| 国产高清国内精品福利| a亚洲视频| 婷婷色丁香综合激情|