999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多類支持向量機遞歸特征消除方法特征選擇的原發性肝癌患者預后預測*

2019-04-20 07:02:00李琳楊日東王哲楊紅梅華赟鵬周毅張學良
生物醫學工程研究 2019年1期
關鍵詞:排序特征方法

李琳,楊日東,王哲,楊紅梅,華赟鵬,周毅,張學良△

(1.新疆醫科大學,烏魯木齊 830011;2.中山大學中山醫學院,廣州 510080;3.中山大學第一附屬醫院,廣州 510080)

1 引 言

原發性肝細胞癌(hepatocellular carcinoma,HCC)是全球最常見的惡性腫瘤之一,預計未來幾年這一疾病負擔會驟增[1]。

使用臨床數據建立原發性肝癌預后預測模型,將對肝癌的預防和治療起到推動性的作用。然而由于臨床數據呈現高維度、多樣化的特點,造成預后預測模型性能下降,即出現了模式分類維度災難。特征選擇可以減少特征數量,刪除無關、冗余或有噪聲的數據,加快數據挖掘算法的速度,提高預測精度[2],是數據預處理中重要且常用的技術之一[3]。

支持向量機[4](support vector machine,SVM)是有監督的分類算法,分類性能優越,其參數如懲罰因子的值取決于樣本的數量而不是特征的數量,與樣本-特征的數量比率幾乎無關,此模型在各種應用上都有比較穩定的分類性能,可以很好地適應高維小樣本數據[5]。正因為這些良好的特性,SVM也被擴展成了封裝(Wrapper)的特征選擇方法[6]。本研究使用Duan[7]提出的MSVM-RFE對影響患者3年無瘤生存時間(disease-free Survival,DFS)和總體生存時間(overall survival,OS)的影響因素進行重要性排序。Duan在多個數據集上驗證了該方法相較于SVM-RFE有更好的穩定性,能選擇更好的特征子集,并提高癌癥分類的準確性。該方法目前廣泛應用于圖像處理[8]、文本分析[9]、生物信息處理[10]等應用領域。與其他特征選擇方法相比,MSVM-RFE是一種可伸縮、高效的包裝方法。

本研究將排序結果與臨床醫生溝通,將重要特征排序結果依次納入SVM模型來確定最優特征子集。最后將最優特征子集納入COX比例風險模型(proportional hazards model,COX),構造能夠反映患者1年、3年無瘤生存和總生存風險的列線圖(Nomograms)。

2 資料與方法

2.1 病歷資料

本研究收集了2005年至2009年在廣東省某三甲醫院收治的386例肝腫瘤患者的臨床資料,包括患者的人口學特征,家族史,體格檢查以及術前最近一次的實驗室檢查。患者的人口學特征包括患者性別、年齡(≥60和<60)、家族史。在根治性肝切除術前獲得了患者的白細胞計數(WBC)、紅細胞計數(RBC)、血紅蛋白(Hb)、血小板計數(PLT)、尿素氮(BUN)、丙氨酸氨基轉移酶(ALT)、天冬氨酸氨基轉移酶(AST)、γ-谷氨酰轉肽酶(rGGT)、總膽紅素(TBIL)、白蛋白(ALB)、甲胎蛋白(ALP),并依據醫學參考值范圍分為正常值和異常值。此外還獲得患者的乙肝表面抗原(HBsAg)的信息,患者是否有門靜脈癌栓瘤栓(PVTT)、肝靜脈瘤栓(HVT)、膽管瘤栓(BDT)、下腔靜脈瘤栓(IVCT)、大血管侵犯、脈管侵犯、周圍器官侵犯、并發癥、淋巴結轉移的信息。腫瘤大小使用最大腫瘤直徑。本研究還將反應機體炎癥特征的嗜中性粒細胞/淋巴細胞比例(neutrophil to lymphocyte ratio,NLR)作為分析變量。

2.2 方法

首先對數據進行預處理,刪除無生存時間記錄的樣本之后共386名患者納入研究,樣本缺失率約為4.299%,為保證數據樣本量,采用最近鄰(KNN)插補,獲得完整數據集。采用MSVM-RFE特征選擇的方法對34個臨床特征進行特征排序,通過評估SVM的錯誤率和受試者工作特征曲線(receiver operating characteristic curve,ROC)下面積(area under curve,AUC),選出最優特征子集,最后構造原發性肝癌患者的1年、3年無瘤生存和總體生存的Nomograms。所有統計分析均在R軟件中實現,其中Nomograms采用rms包中的nomogram函數。

2.2.1MSVM-RFE 2002年,由Guyon[11]等人共同提出了一種支持向量機遞歸特征消除方法(recursive feature elimination based on support vector machine,SVM-RFE),是一種SVM和后向刪除搜索策略結合的高性能Wrapper特征選擇方法。其中心思想就是尋找一個最優分類面,使其分類面兩邊的分類間隔可以達到最大[12]。Duan[7]提出了一種與SVM-RFE相似的特征選擇算法,但是在每個步驟中,使用多個線性權重向量的統計分析來計算排序分數,在每次迭代中使用交叉驗證以穩定特征排名,該方法成為MSVM-RFE。

2.2.2Nomograms Nomograms是一種綜合分析多個定量變量和定性變量以預測某特定事件發生的圖畫法預測模型[13]。模型可以基于Logistic模型和Cox模型,將其結果用直觀的圖對個體患者進行風險評估。Nomograms根據模型回歸系數的大小來制定評分標準,對每個自變量的每種取值進行評分,對每個患者,就可計算得到一個總分,再通過得分與結局發生概率之間的轉換函數,計算每個患者的結局時間發生的概率。目前該模型已經受到廣大患者和臨床醫師的認可,并應用于預后風險評估工作。

對于Nomograms的評價指標采用一致性指數 (concordance index, C-index),C-index在意義上與AUC相同,即出現結局事件的患者的預測值高于未出現結局事件的患者的比例[14]。

3 結果

3.1 SVM-RFE特征排序

通過10折交叉驗證的MSVM-RFE特征選擇對386名患者的34個臨床特征進行排序,影響3年無瘤生存時間和3年總體生存時間的重要特征排序結果見表1、表2,平均排序的分數越低,說明該變量越重要。

表2 影響3年總體生存時間的特征

3.2 SVM預測模型

MSVM-RFE的遞歸過程產生了嵌套的特征子集,但并不產生最優子集數量。為了選取最佳特征子集數量,本研究按照特征排序的結果,依次將特征帶入SVM模型來預測患者的存活時間。通過5折交叉驗證得到SVM的錯誤率和ROC曲線下面積,繪制特征數目與癌癥生存預測準確度的關系圖(見圖1、圖2),橫坐標為特征數,縱坐標代表錯誤率。從圖上可以看出,其生存預測的錯誤率會隨著特征數目的增加,先降低后增加,見圖1,當選取的特征數≥6 之后,錯誤率開始上升,AUC逐漸下降。當納入前6個特征時,SVM模型的錯誤率最低為25.38%, ROC曲線下面積為0.7162。圖2則表示納入前16個變量時,SVM的錯誤率最低,ROC曲線下面積最高。因此,當構造3年無瘤生存時間和3年總體生存時間的COX比例風險模型時,分別納入6個和16個特征。

圖1 預測3年無瘤生存時間模型的錯誤率和AUC

Fig1TheerrorrateandAUCofpredictionmodelfor3-yearsDFS

3.3 Nomograms

根據SVM-RFE和SVM確定最優子集,并納入COX比例風險模型,構建患者1年、3年無瘤生存率的Nomograms。圖3為原發性肝癌患者手術后的1年、3年的無瘤生存的Nomograms。在構造患者1年、3年總生存率的Nomograms時,使用向前逐步回歸的COX的比例風險模型對16個臨床特征進行建模,有6個特征為COX回歸的顯著性變量,結果見圖4。表3 為Nomograms中的各特征變量的含義。

圖2 預測3年總體生存時間模型的錯誤率和AUC

Fig2TheerrorrateandAUCofpredictionmodelfor3-yearsOS

圖3 1年、3年的無瘤生存的Nomograms

特征類型含義腫瘤大小數值最大腫瘤直徑(cm)腫瘤個數離散1=多發,0=單發淋巴結轉移離散1=有淋巴結轉移,0=無腹水離散1=有腹水,0=無脈管侵犯離散1=有脈管侵犯,0=無TBIL離散1=異常值,0=正常值ALB離散1=異常值,0=正常值rGGT離散1=異常值,0=正常值LDH離散1=異常值,0=正常值

校準驗證到患者1年、3年無瘤生存風險和總生存風險的Nomograms,C-index分別為0.701和0.706。

對于Nomograms,患者的每個特征都有對應的變量軸,在變量軸向上繪制一條直線以確定每個變量值。這些數字的總和位于總點軸上,并且向下延伸到生存軸以確定3年或1年存活的可能性。如在圖3中,腫瘤單發(Points≈32),最大腫瘤直徑為15(Points≈50),沒有腹水(Points≈15)、沒有淋巴結轉移(Points≈40),TBIL和ALB為異常值(Points=0),Total Points=137;將此數值在Total points軸上向Risk概率軸投射,則可知風險大概在0.2~0.25左右。

圖4 1年、3年總生存的Nomograms

4 討論

本研究基于MSVM-RFE的特征選擇的方法,對386名原發性肝癌患者的34個臨床變量進行特征排序,該方法將原始特征集合中與分類器關聯性小、冗余的特征先去掉,然后再次循環進行篩選,直至原始集合中沒有特征為止,得到一個按照相關性排序的特征列表。這種方法在處理非線性、樣本數目少、空間維度高的問題上尤為有效。

本研究選擇10折交叉驗證作為重采樣方法,使用MSVM-RFE對影響患者3年無瘤生存時間和總生存時間的因素進行重要性排序,與臨床醫生溝通,確認特征排序結果合理。使用5折交叉驗證的SVM,確認影響患者3年無瘤生存時間和總體生存時間的最優特征子集。由圖1、圖2發現,特征數量可以影響SVM模型預測的準確性,即模型的錯誤率會隨著特征數目的增加,先降低后增加,AUC先下降后上升。在構造3年無瘤生存時間的COX比例風險模型時,納入前6個變量時的SVM模型的錯誤率(25.38%)最低,AUC(0.72)最高。分析3年總生存時間的COX模型時,納入前16個特征的SVM模型的預測錯誤率最低,為26.41%,AUC最高,為0.73。

將最優子集納入COX比例風險模型,得到無瘤生存預測模型和總生存預測模型的最小信息準則值(akaike information criterion,AIC)為2529.49和2362.49,。為驗證MSVM-RFE特征選擇方法是否能夠提高預測模型的準確度,本研究將所有特征變量帶入COX比例風險模型,得到無瘤生存時間和總生存時間預測模型的AIC值分別為2368.58和2530.301。進行過特征選擇之后,COX比例風險模型的AIC值有所下降,證明先對原發性肝癌患者進行MSVM-RFE特征選擇,再進行建模能夠提高模型的擬合優度和準確度。

最后構建了患者1年、3年無瘤生存風險和總生存風險的Nomograms,其C-index分別為0.701和0.706。該Nomograms在一定程度上可以為原發性肝癌患者提供術后生存風險信息。本研究仍有潛在的局限性需要考慮。HCC患者的隨訪時間較短,為了更全面的分析患者的術后生存狀況,需要進行長期隨訪后再進一步分析。本研究的數據集僅包括386名患者,且所有數據來源于同一家醫院,為了覆蓋更多人群,獲得更加個體化的預后分析,需收集其他地區醫院的HCC患者信息。本研究為保證樣本量,對個別缺失值進行插值處理,其結果可能會影響結果。雖然MSVM-RFE現在成為了生物信息學等領域中的研究熱點,這種方法屬于后向循環消去、包裝式算法,因此存在計算相對復雜、收斂速度較慢等問題。

猜你喜歡
排序特征方法
排序不等式
恐怖排序
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: a级毛片视频免费观看| 免费无码又爽又黄又刺激网站 | 手机在线看片不卡中文字幕| 欧美成人精品高清在线下载| 国产va在线观看免费| 日韩人妻无码制服丝袜视频| 暴力调教一区二区三区| 亚洲欧美在线看片AI| 亚洲国产AV无码综合原创| 综合五月天网| 欧美一区二区三区不卡免费| 毛片网站在线看| 亚洲国产成人精品一二区| 高清亚洲欧美在线看| 国产午夜在线观看视频| 爱做久久久久久| 国产靠逼视频| 亚洲成网777777国产精品| 狠狠干欧美| 亚洲欧美日韩中文字幕在线一区| 欧美啪啪网| 四虎永久免费地址| 亚洲中字无码AV电影在线观看| 欧洲av毛片| 日韩高清无码免费| 午夜三级在线| 波多野结衣亚洲一区| 99在线视频免费| 欧美日韩综合网| 制服丝袜亚洲| 日本精品视频一区二区| 亚洲午夜福利在线| 亚洲天堂视频网站| 久久精品一品道久久精品| 久久久亚洲色| 久久精品国产电影| 一区二区自拍| 亚洲一区网站| 国产精品免费露脸视频| 欧美特黄一级大黄录像| 日本成人一区| 爽爽影院十八禁在线观看| 手机在线看片不卡中文字幕| 亚洲日本中文字幕乱码中文| 性喷潮久久久久久久久| 黄色一级视频欧美| 久久综合色播五月男人的天堂| 国产视频大全| 91美女视频在线| 中文国产成人精品久久一| 久久久久国产精品嫩草影院| 国产亚洲精品自在久久不卡 | 亚洲第一天堂无码专区| 亚洲精品无码AⅤ片青青在线观看| 亚洲中文字幕23页在线| 亚洲中文无码h在线观看 | 国产亚洲精品精品精品| 国产不卡在线看| 老色鬼久久亚洲AV综合| 五月天久久婷婷| 亚洲日韩图片专区第1页| 青青久在线视频免费观看| 国产成人艳妇AA视频在线| 中文字幕在线观| 在线看片国产| 超碰精品无码一区二区| 国产97视频在线观看| 毛片a级毛片免费观看免下载| 亚洲人成网址| 国产成人亚洲无码淙合青草| 黄色三级网站免费| 久久精品国产免费观看频道| 97人妻精品专区久久久久| 在线无码九区| 一个色综合久久| 97人妻精品专区久久久久| 久久99热66这里只有精品一| 香蕉精品在线| 茄子视频毛片免费观看| 成年人福利视频| 在线中文字幕日韩| 伊人婷婷色香五月综合缴缴情|