999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SEER數據庫的結直腸癌預后因素探討及預后模型構建

2017-03-21 08:44:00,,2
中華醫學圖書情報雜志 2017年11期
關鍵詞:特征方法模型

,,2

結直腸癌包括結腸癌和直腸癌,是胃腸道中常見的惡性腫瘤。在2015年中國癌癥統計和2017年美國癌癥統計中,結直腸癌的發病率和死亡率在所有惡性腫瘤中均處在前5位[1-2]。根據美國SEER(Surveillance,Epidemiology and End Results)數據庫的最新統計顯示,結直腸癌患者5年生存率僅為64.5%,中國結直腸癌患者5年生存率比美國和歐洲更低[3]。因此,建立結直腸癌預后模型,對制定臨床決策和改善結直腸癌預后具有重要意義。

近年來,隨著機器學習的發展,越來越多的機器學習方法應用于醫學模型的構建當。如2015年Kang J等[4]探討了邏輯回歸、支持向量機、人工神經網絡等3種方法在預測放射治療結果中的應用,Bunjira Makond等[5]應用貝葉斯網絡方法對肺癌腦轉移患者的短期生存能力進行預測,2016年Su Jili等[6]應用支持向量機和基因函數聚類構建喉癌復發模型,曹文哲[7]基于3種機器學習算法建立了前列腺癌診斷模型。在預后模型構建過程中,特征選擇是非常重要的一步,也通常被視作數據挖掘的第一步。通過特征選擇可以去除大量冗余信息和不相關特征的干擾,降低分析成本,提高準確率,提升模型性能[8]。因此,本文應用人工神經網絡(Artificial Neural Network,ANN)分類算法,通過3種不同的變量篩選方法進行特征選擇,分別建立結直腸癌預后模型,并進行進一步的比較分析。

1 三種特征選擇方法簡述

1.1 Logistic回歸

Logistic回歸中自變量選擇的常用方法為逐步選擇法。該法按照選入變量的順序不同分為前進法(forward selection)、后退法(backward elimination)和逐步回歸法(stepwise regression),其共同特點是每一步只引入或剔除一個自變量Xj,決定其取舍則基于對偏回歸平方和的F檢驗,即

(1)

1.2 貝葉斯模型平均法

在標準統計研究中,數據分析者通常從某些類別的諸多模型中選擇一個模型,然后進行實驗研究。這種模型選擇方法忽略了模型的不確定性,會導致過度的推論和決定[10]。同樣,如果只是針對一種或者少數幾種模型進行特征選擇,結果也是不準確的。而貝葉斯模型平均法(Bayesian Model Averaging,BMA)則彌補了這一不足,通過the fast leaps和bounds算法可遍歷模型空間中的每一個模型[11]。

假設研究感興趣的變量為Δ,可能存在的所有模型為M={M1,M2,…,MK}(如果有p個自變量,即特征變量,那么可能存在的模型將會達到2p個)。在給定數據集D的情況下,Δ的后驗分布為:

(2)

式(2)中,Mk后驗模型概率為:

(3)

公式(3)中,p(D|Mk)是模型Mk的邊際似然概率,可由公式(4)得出:

(4)

公式(4)中,θk是模型Mk的所有參數向量。

由公式(2)、公式(3)、公式(4)可以得出Δ的后驗分布,從而可以選擇最優模型及其所包含的特征向量。

1.3 LASSO回歸

(5)

公式(5)中,參數λ表示LASSO回歸模型的復雜度,λ越大則懲罰力度越大,納入模型的變量越少。LASSO回歸克服了logistic回歸逐步選擇法的局限,并且保留了嶺回歸和子集回歸的優點[12]。

2 模型構建

2.1 數據收集與預處理

從SEER數據庫的Custom Data中提取被確診為結直腸癌的患者信息。納入標準為:腫瘤部位為結直腸且不含闌尾,確診年份為2004-2009年;排除標準為:原位癌,信息缺失記錄。最終共納入65 145名患者信息,涉及24個預后變量。變量的詳細信息見表1。

24個預后變量中有19個為分類型變量、5個為連續型變量。其中,19個分類型變量又包括6個二分類變量(性別、遠處轉移情況、淋巴結移除情況、是否化療、是否為首要惡性腫瘤、機構類型)、有序多分類變量2個(腫瘤分期、組織分級)、11個無序多分類變量(種族、居住地、發病部位、病理類型、浸潤程度、淋巴受累程度、手術類型、放療順序、放療類型、婚姻狀況、保險情況)。為避免因啞變量過多造成自由度變高而引發維數災難以及變量的多重共線性等問題,在保證結果準確度的情況下,二分類變量和有序多分類變量無須設置啞變量,只對11個無序多分類變量設置啞變量即可。

表1 結直腸癌預后變量信息

模型的結局變量為生存狀態(survive),將生存期大于等于60個月的患者視為生存(編碼為1),不足60個月的患者視為死亡(編碼為0)。其中,生存人數與死亡人數的比值為36841∶28304,比值接近1∶1,可視為平衡數據。

2.2 特征變量篩選

將數據集按7:3分為訓練集和測試集,在訓練集內分別用logistic回歸、BMA和LASSO回歸3種方法對特征變量進行篩選。

2.2.1 logistic篩選回歸特征變量

本文設定了α=0.05,作為Logistic回歸逐步選擇法的納入標準,一共納入種族、性別、年齡、居住地、組織分級、病理類型、浸潤程度、淋巴受累程度、遠處轉移情況、受檢淋巴結數量、陽性淋巴結數量、手術類型、淋巴結移除情況、是否化療、是否為首要惡性腫瘤、腫瘤個數、婚姻狀況和保險情況等18個特征變量。

Logistic回歸、BMA、LASSO回歸的結果信息見表2。

表2 Logistic回歸、BMA、LASSO回歸結果信息

2.2.2 采用貝葉斯模型平均法篩選特征變量

貝葉斯模型平均法可遍歷模型空間中的每一個模型。本文共有24個特征變量,可能存在的模型個數將達到16 777 216個。因此,選取后驗概率最高的Model1作為最佳模型,Model1內共包含16個特征變量:種族、性別、年齡、居住地、組織分級、浸潤程度、淋巴受累程度、遠處轉移情況、受檢淋巴結數量、陽性淋巴結數量、手術類型、淋巴結移除情況、是否化療、是否為首要惡性腫瘤、婚姻狀況和保險情況。

為便于理解Model1,對其進行可視化(圖1)。圖1中每一行對應一個變量(啞變量),每一列對應一個模型(本文只納入了后驗概率最高的model1),紅色矩形對應的變量(啞變量)與結局變量呈正相關,藍色矩形對應的變量(啞變量)與結局變量呈負相關,白色矩形對應的變量(啞變量)未被納入對應的模型中。

圖1 BMA可視化

2.2.3 采用LASSO篩選回歸特征變量

構建模型之前需要對自變量進行進一步的矩陣化處理,并設定響應變量為二分類變量。結果見圖2。圖中每一條線代表一個變量(啞變量),左側坐標軸為變量(啞變量)的系數,上側坐標軸為變量(啞變量)個數,底部坐標軸為參數λ的對數值。

由圖2可知,λ作為LASSO回歸中一個非常重要的參數,可以調節模型內自變量的數目,因此確定一個最優的λ值極為重要。本文通過十折交叉驗證方法確定的最優λ值見圖3。

圖2 LASSO回歸

圖3 十折交叉驗證

由圖3可以看出,不同的λ值(對數值)對應著不同的自變量數目和模型誤差。

最優的λ值(對數值)應該對應最低的模型誤差,即紅色曲線的最低點,這時可以得到最優λ值為0.0003656017。模型共納入48個變量(啞變量),對應圖3左側的虛線。

此外,該算法還提供了在其一倍標準誤內更簡潔的模型,即圖3中右側的虛線所對應的模型,并且兩個λ值對應的模型誤差變化不大。因此最終選取λ值為0.004106892,這時共納入30個變量(啞變量)。

30個變量(啞變量)可對應為19個特征變量:種族、性別、年齡、居住地、腫瘤分期、發病部位、組織分級、病理類型、浸潤程度、遠處轉移情況、受檢淋巴結數量、陽性淋巴結數量、手術類型、淋巴結移除情況、是否化療、是否為首要惡性腫瘤、腫瘤個數、婚姻狀況和保險情況。

2.2.4 特征變量系數

Logistic逐步回歸法、貝葉斯模型平均法和LASSO回歸3種特征變量篩選方法的共同變量(啞變量)的系數見表3。

2.3 模型構建

基于3種不同的特征變量篩選方法,應用人工神經網絡分類算法建立了3個預后模型,分別為logit_ANN、bma_ANN、lasso_ANN。此外,還構建了未進行特征選擇的原始數據集基線模型(ANN)。上述各個模型的參數均相同。同時通過準確率、ROC曲線下面積等指標對模型性進行評價的詳細結果見表4,ROC曲線見圖4。

表3 特征變量系數

表4 各分類器性能比較

圖4 ROC曲線

由表4可知,bma_ANN模型的性能最好。進一步優化bma_ANN模型,設定隱藏層個數為5,初始隨機數權值為0.1,權值衰減參數為5e-4,最大迭代次數為200,可得到表4中的bma_op_ANN模型。

3 結果分析

3.1 結直腸癌預后相關因素的篩選

Logistic逐步回歸、貝葉斯模型平均法和LASSO回歸3種方法篩選出的預后影響因素各不相同,相同預后影響因素共有15個:種族、性別、年齡、居住地、組織分級、浸潤程度、遠處轉移情況、受檢淋巴結數量、陽性淋巴結數量、手術類型、淋巴轉移情況、是否化療、是否為惡性腫瘤、婚姻狀況和保險情況。上述15個因素被3種特征選擇方法均納入模型中,說明這些因素很大程度上會影響結直腸癌的預后,是決定結直腸癌患者5年生存狀態的關鍵因素。3種特征選擇方法均排除的變量有4個:腫瘤大小、放療順序、放療類型和機構類型,說明腫瘤的大小、放療與手術的先后順序、采取何種放療方法以及患者的就診機構對結直腸癌患者5年生存狀態的影響甚微,作用幾乎可以忽略。剩余的腫瘤分期、發病部位、淋巴受累程度、病理類型和腫瘤個數等5個特征變量因變量篩選方法的不同而被納入不同的模型。

通過表3進一步研究特征變量對結局變量的作用方向。由表3可知,雖然3種特征變量篩選方法所篩出的共同變量(啞變量)在各自模型內的系數互不相同,但是同一變量(啞變量)在3種篩選方法內的系數的正負情況卻基本一致(除啞變量extension2外)。系數為正值的變量(啞變量)與結直腸癌患者5年生存狀態呈正相關關系,系數為負值的變量(啞變量)與其呈負相關關系(這種關系闡釋多用于連續型變量和有序分類型變量)。由此可以區分預后危險因素和預后保護因素。變量age屬于預后危險因素,說明年齡越大患者5年生存概率越小;而變量scope則屬于預后保護因素,說明一定程度上移除淋巴結數量的增多有利于改善患者的5年生存狀態。

3.2 特征變量選擇方法與模型性能的關系

根據表2和表4可知,ANN、logit_ANN、bma_ANN和lasso_ANN模型納入的特征變量的個數分別為24個、18個、16個和19個,4個模型對應的準確率分別為70.78%、66.45%、72.96%和72.88%。特征變量個數排名為ANN>lasso_ANN>logit_ANN>bma_ANN,而準確率排名為bma_ANN>lasso_ANN>ANN> logit_ANN。因此,模型準確率與其納入的特征變量個數并無直接關系,并不是特征變量越多越全,就可以得到很高的模型準確率。此外,不考慮數據集的類型以及建模所用方法的特點,直接對數據集進行Logistic回歸并通過逐步選擇篩選特征變量的做法并不可取。針對本文所用的結直腸癌患者預后信息數據集,應用人工神經網絡構建預后模型,Logistic逐步回歸法反而導致了基線模型準確率的下降,而另外兩種變量篩選方法則對基線模型的準確率有一定的提升。所以,應該根據不同的數據類型、建模方法和研究目的,選擇更為合適的特征變量篩選方法,而不是不考慮實際情況,貿然使用最為常見的Logistic逐步回歸法。

3.3 提升預后模型準確率的意義

基線模型的準確率為70.78%,最后獲得的最優模型bma_op_ANN的準確率為73.18%。從數值上看,準確率只提升了2.4%,但是鑒于醫學數據的復雜性且基數龐大,提升2.4%具有一定的實際意義。基線模型預測正確的例數為15 820例,而bma_op_ANN模型預測正確的例數為15 890例,多出70位患者的5年生存狀態被正確預測,可節約大量的醫療資源。我國結直腸癌每年新發病例高達30萬,并且每年增加4%[13]。因此,在實際應用中,結直腸癌預后模型準確率每提升1%,就相當于多成功預測3 000名結直腸癌患者的5年生存狀態,對節省醫療開支和促進醫療資源的合理利用有一定的積極作用。

4 結語

本文詳細闡述了3種特征變量篩選方法的原理與特點,通過其篩出的變量探討了影響結直腸癌預后的相關因素,并根據其所構建模型效能的不同對3種方法進行了進一步的比較分析,最終選擇表現最佳的貝葉斯模型平均法進行變量篩選,應用人工神經網絡分類算法構建的結直腸癌患者預后模型,可為醫生制定臨床決策提供輔助支持。

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 日韩在线中文| 97综合久久| 中文无码精品A∨在线观看不卡 | 亚洲天堂啪啪| AV不卡无码免费一区二区三区| 免费高清a毛片| 久久77777| 中国国产一级毛片| 亚洲人精品亚洲人成在线| 中文字幕第1页在线播| 四虎成人精品在永久免费| 国产成人精品免费视频大全五级| 最新国产麻豆aⅴ精品无| 久久久亚洲色| 亚洲AV无码乱码在线观看代蜜桃| 亚洲精品第一页不卡| 青青热久免费精品视频6| www.av男人.com| 她的性爱视频| 免费看a毛片| 亚洲黄色成人| аⅴ资源中文在线天堂| 色九九视频| 欧美激情伊人| 91在线播放免费不卡无毒| 国产精品无码影视久久久久久久| 91麻豆精品国产91久久久久| 欧美有码在线| 中文字幕欧美日韩| 亚洲人成日本在线观看| 91成人免费观看| 在线观看国产小视频| 97视频精品全国免费观看| 国产第三区| 在线另类稀缺国产呦| 亚洲天堂成人在线观看| 麻豆国产在线观看一区二区| 97视频免费在线观看| 欧美色亚洲| 在线观看视频一区二区| 国产精品视频系列专区| 国产高清无码第一十页在线观看| 香蕉精品在线| 午夜视频在线观看免费网站| 亚洲成人在线网| 欧美国产日产一区二区| 88国产经典欧美一区二区三区| 大香网伊人久久综合网2020| 精品91在线| 日日拍夜夜嗷嗷叫国产| 欧美精品成人一区二区视频一| 97国产精品视频自在拍| 久热这里只有精品6| 国产情侣一区| 在线国产资源| 在线观看国产网址你懂的| 日韩 欧美 国产 精品 综合| 免费大黄网站在线观看| 麻豆精品久久久久久久99蜜桃| 国产呦精品一区二区三区网站| 亚洲手机在线| 老熟妇喷水一区二区三区| 亚洲黄色网站视频| 免费毛片a| 日本黄色a视频| 国产剧情国内精品原创| 四虎影视无码永久免费观看| 小13箩利洗澡无码视频免费网站| 国产激情在线视频| 欧美精品一二三区| 在线高清亚洲精品二区| 亚洲婷婷在线视频| 2021精品国产自在现线看| 91人妻日韩人妻无码专区精品| 一区二区理伦视频| 亚洲欧美另类日本| 亚洲美女一级毛片| 91在线激情在线观看| 国产免费黄| 欧美色视频在线| 美女无遮挡免费视频网站| 波多野结衣一区二区三区88|