999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于不平衡分類的原發性肝癌患者無病生存期預測研究*

2019-04-20 07:02:00楊日東李琳陳秋源華赟鵬周毅
生物醫學工程研究 2019年1期
關鍵詞:肝癌分類

楊日東,李琳,陳秋源,華赟鵬,周毅△

(1.中山大學 中山醫學院,廣州 510080;2.新疆醫科大學 公共衛生學院,烏魯木齊 830011; 3.中山大學附屬第一醫院 肝膽外科,廣州 510080)

1 引 言

肝癌是死亡率最高的惡性腫瘤之一,中國每年約有38.3萬人死于肝癌,占全球肝癌死亡人數的51%。近年來,隨著原發性肝癌(hepatocellular carcinoma,HCC)的早期診斷和早期治療,患者的總體療效明顯提高。但據有關研究表明,即使對肝癌進行根治性切除,5年內仍高達60%~70%的患者出現轉移復發[1]。因此,對肝癌轉移復發進行預測,從而尋找有效的抑制途徑,是進一步提高肝癌患者生存率的關鍵,具有重大的研究意義。

在HCC預后預測研究方面,Hua[2]等人通過多因素分析,表明腫瘤數量,數門脈癌栓、腫瘤大小和中性粒細胞/淋巴細胞比值(NLR)是無病生存(DFS)和總生存(OS)的獨立預測因素,并表明伴有肝硬化的肝癌患者,較大的NLR往往術后DFS和OS較差。Ji[3]等人通過單因素分析和多因素分析,發現NLR和谷草轉氨酶/血小板比值指數(APRI)可作為HCC患者預后的獨立預測因子,并且當兩者結合起來預測時,可以得到更高的準確率。趙利鋒[4]等人通過多因素Logistic回歸模型,顯示原發性肝癌患者術前血液中RBC數量低于標準是影響其累積生存時間的危險性因素之一。目前,基于機器學習的原發性肝癌患者無病生存期預測研究較少,結合多種影響因素構建HCC的預后預測模型,是當前一大研究熱點。

然而,大部分HCC患者的無病生存期小于5年,研究數據往往是類不平衡的。傳統機器學習算法以最小化分類器的錯誤率為目的,導致多數類樣本的識別率遠高于少數類樣本的識別率。鑒于此,本研究提出一種針對類不平衡改進的提升樹算法。為了提高分類器對難分類的少數類樣本的預測性能,我們修改提升算法的樣本權重更新方式,在每次迭代過程中,僅提高誤分類的少數類樣本權重,對于分類正確的少數類樣本和所有多數類樣本,保持其權重不變。并且,為了更好地評價基分類器,我們修改提升算法的權重更新方式,將F值納入到基分類器權重的計算中。

簡單起見,本研究將多數類稱為負類,將少數類稱為正類。

2 實驗2.1 實驗數據

本實驗數據來自廣東省某三甲醫院于2006至2009年收治的321例進行肝切除術的肝癌患者,包括77例無病生存超過5年的患者和244例無病生存小于5年的患者。具體屬性說明見表1。

2.2 實驗方法

2.2.1代價提升樹 傳統的提升算法在每次迭代中增加當前基分類器誤分類樣本的權重,并減少正確分類樣本的權重。考慮到這種權重更新策略并不能強調正類樣本的重要性,我們提出了一種改進的提升樹算法——代價提升樹(cost boosting tree,CBT)。在代價提升算法的每次迭代中,只增加誤分類的正類樣本權重。對于負類樣本和正確分類的正類樣本,則保持其權重不變。因此,代價提升樹的基分類器更關注難學習的正類樣本,最終提高整個集成分類器對正類樣本的預測性能。

表1 HCC臨床數據集屬性說明

另外,傳統提升算法在更新分類器權重時考慮的是整體錯誤率:

然而,錯誤率并不能很好地衡量不平衡學習任務。鑒于此,我們將F值(F-measure)作為衡量基分類器性能的指標。

基分類器的權重更新如下:

在最終決策時,它將作為基分類器的權重系數。這里Max(F-measurem,0.5)是為了保證基分類器的F值大于0.5,若F值小于0.5,則am=0,表示舍棄該基分類器。具體的算法步驟如下:

輸入:訓練數據集:

T={(x1,y1),(x2,y2),…(xn,yn)},基分類器CART

(2)對于m=1,2,…M。

(3)使用帶權重分布的樣本Dm訓練數據集學習,得到基分類器:

Gm(x):→{-1,+1}

(4)計算Gm(x)在訓練數據集上的F值:

其中:

這里的I是指示函數,當條件成立時等于1,當條件不成立時等于0。

(5)計算Gm(x)的權重系數:

(6)更新訓練集的權重分布:

Dm+1=(wm+1,1,…,wm+1,i,…,wm+1,N)

這里的Zm是歸一化因子,它使得樣本的權重分布成為概率分布:

(7)構建基分類器的線性組合,最終得到分類器:

2.2.2采樣技術 采樣技術是解決類不平衡的方法之一,它通過對數據樣本的預處理,從而達到數據平衡的效果[5]。為了驗證改進提升樹的有效性,本研究將改進提升樹與結合了過采樣技術(SMOTE、BorderlineSMOTE和ADASYN)或欠采樣技術(One-Sided Selection)的決策樹進行對比。

1、合成少數抽樣技術

Chawla[6]等人提出了一種經典的過采樣技術,稱為合成少數抽樣技術(synthetic minority over-sampling technique,SMOTE)。基本思想是正類樣本與其在正類樣本集中的K近鄰的連線之間隨機產生一個樣本。

2、自適應合成抽樣方法

He[7]等人提出了一種自適應合成抽樣方法(adaptive synthetic sampling,ADASYN)。ADASYN根據正類樣本的K近鄰中正類樣本數判斷學習的難易程度,自適應地調整合成樣本的數量。具體地,對于K近鄰中屬于正類的樣本越少,認為越難被正確預測,在其附近生成更多的正類樣本,反之更少。

3、邊界合成少數類過采樣技術(BorderlineSMOTE)

考慮到類邊界附近的樣本對分類器的影響較大,Han[8]等人提出了一種BorderlineSMOTE過采樣算法。他們根據正類樣本的K近鄰中的正類樣本數將其分為“安全樣本”,“噪聲樣本”和“危險樣本”(即在類邊界的樣本),并僅對“危險樣本”合成新樣本。

4、單邊選擇欠采樣技術(One-Sided Selection)

Kubar[9]等人提出一種欠采樣算法,稱為One-Sided Selection算法。One-Sided Selection將負樣本分為“安全樣本”,“冗余樣本”,“邊界樣本”和“噪聲樣本”。他們使用CNN算法去除“冗余樣本”,然后通過去除Tomek-link樣本的方式去除“邊界樣本”和“噪聲樣本”。這樣,數據集僅保留安全的負類樣本和所有正類樣本。

2.3 評價指標

二分類算法的分類性能可用混淆矩陣表示[6],見表2。

表2 混淆矩陣

對于類不平衡問題,準確率通常無法衡量分類算法的好壞[6]。例如,不平衡數據集的負類樣本數為990,正類樣本數為10,分類器將所有樣本預測為負類,其準確率將達到99%,然而這是毫無意義的分類器。此時,應考慮的評價指標為:召回率、精度、F值(F-measure)、G均值(G-mean)、AUC(Area Under roc Curve)。具體計算方式如下:

G-mean=(ACC-×ACC+)1/2

其中,參數β用于調整召回率和精度之間的權重,一般令其為1。

在類不平衡問題中,F值用于權衡召回率與精度的重要性。G均值則與召回率和特異性相關,一般召回率高的分類器,即使精度偏低,也可達到較好的G均值。因此,G均值可用于衡量重視召回率的類不平衡學習任務。

2.4 實驗結果

為了提高分類性能,可對條件屬性進行單變量統計檢驗,以P值為參考標準,僅保留P<0.01的屬性構建模型,見表3。

表3 各變量的統計檢驗結果

考慮到文獻[2-3]提出的NLR對HCC患者無病生存的影響較大,本次實驗也將其保留。

為了對比算法本身的改進,我們用BT表示傳統提升樹,用CBT(錯誤率)表示僅修改樣本權重更新方式的提升樹,用CBT(F值)表示修改樣本權重更新方式和基分類器權重計算方式的提升樹,進行對比。本次實驗用到的決策樹是調用python中的sklearn工具包[10],在保證準確率的情況下,參數的設置以最大化AUC值為原則。采用20次10折交叉驗證的平均值作為最終結果,實驗結果見表4。

表4 各算法在HCC臨床數據集上的性能對比

從表4可以看出,由于傳統的提升樹BT以整體錯誤率為優化目標,導致其在不平衡數據集上的F值、G均值和AUC指標較差。經修改,樣本權重更新方式的CBT(錯誤率)相比BT在各性能指標上有很大提升。可得出結論:在樣本權重更新過程中,只提高誤分類的正類樣本權重,有利于訓練出更關注正類的基分類器,從而提升對正類樣本的預測性能。與CBT(錯誤率)相比,CBT(F值)以F值計算基分類器權重,而CBT(錯誤率)采用錯誤率。CBT(F值)相比CBT(錯誤率)有所提升,這說明以F值為指標計算基分類器權重更有利于評價不平衡分類,從而提升整體集成決策的預測性能。同時,CBT在數據集上的F值、G均值和AUC優于結合采樣技術的決策樹算法,說明CBT在不平衡分類任務中是有效且可行的。

3 總結

傳統的HCC預后研究是基于統計學的方法找出影響因素,而利用機器學習算法,根據影響因素構建分類器的研究較少。傳統機器學習算法在類不平衡數據集上的性能不佳,主要體現在正類的識別率遠低于負類,導致AUC指標低。鑒于此,本研究針對傳統提升算法迭代過程中,樣本權重的更新方式無法體現出正類樣本的重要性和錯誤率,無法準確衡量不平衡分類任務的問題,提出了一種改進的提升樹算法——代價提升樹。在每次迭代中,CBT提高誤分類的正類樣本權重。并且,CBT將F值納入基分類器權重的計算。通過在HCC患者的臨床數據集上進行實驗,我們發現CBT算法的F值、G均值和AUC比傳統提升樹有很大提升,并且優于結合采樣技術的決策樹算法。

本次實驗還發現,在CBT每次迭代過程中,由于提升了誤分類的正類樣本權重,因此,每次抽樣后正類樣本的比例呈遞增趨勢。我們意識到,若正類樣本的比例越大,其訓練得到的基分類器對正類樣本的分類效果會越好。因此,在后續研究,我們將考慮以正類樣本的比例構造基分類器的權重系數,得到新的加權集成方式。

猜你喜歡
肝癌分類
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
LCMT1在肝癌中的表達和預后的意義
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
結合斑蝥素對人肝癌HepG2細胞增殖和凋亡的作用
中成藥(2016年8期)2016-05-17 06:08:14
microRNA在肝癌發生發展及診治中的作用
給塑料分分類吧
Rab27A和Rab27B在4種不同人肝癌細胞株中的表達
主站蜘蛛池模板: 国产成人在线无码免费视频| 尤物国产在线| 幺女国产一级毛片| 亚洲a级毛片| 国产精品视频a| 一级毛片免费高清视频| 欧美天堂在线| 亚洲男人的天堂在线观看| 国产成人精品一区二区三在线观看| 在线va视频| 国产美女无遮挡免费视频| 无码人中文字幕| 亚洲精品国产精品乱码不卞| 国产超薄肉色丝袜网站| 国产高清无码麻豆精品| 91偷拍一区| 福利一区三区| 91久久大香线蕉| 国产成人亚洲精品色欲AV| 亚洲欧美另类日本| 国产亚洲一区二区三区在线| 亚洲综合久久成人AV| 女人18毛片水真多国产| 91青青视频| 丁香五月激情图片| 波多野结衣AV无码久久一区| 亚洲日本中文字幕乱码中文| 亚洲第一综合天堂另类专| 亚洲视屏在线观看| 亚洲狠狠婷婷综合久久久久| 亚洲狼网站狼狼鲁亚洲下载| 亚洲经典在线中文字幕 | 国产香蕉97碰碰视频VA碰碰看| 国产不卡一级毛片视频| 狠狠色综合久久狠狠色综合| 久久人搡人人玩人妻精品一| 91在线无码精品秘九色APP| 欧美精品高清| 色综合久久综合网| 国产成人毛片| 日韩av在线直播| 91福利片| 亚洲精品成人福利在线电影| 国产精品久久久免费视频| 日韩毛片免费| 伊人久久青草青青综合| 国产成人艳妇AA视频在线| 午夜视频免费试看| 欧美色丁香| 亚洲无码精品在线播放| 亚洲三级影院| 欧美成人怡春院在线激情| 久久久精品无码一区二区三区| 国产精品亚欧美一区二区| 色天天综合久久久久综合片| 五月天久久综合| 国产成人亚洲精品色欲AV| 一区二区午夜| 伊人福利视频| 亚洲中文字幕国产av| 性欧美久久| 好紧好深好大乳无码中文字幕| 国产麻豆福利av在线播放| 亚洲天堂网在线播放| 一区二区三区四区精品视频 | 精品福利视频网| 高清无码不卡视频| 亚洲小视频网站| 国产一级在线播放| 91精品久久久久久无码人妻| 国产高清不卡| 色综合成人| 国产一区二区三区夜色| 91九色最新地址| 无码免费视频| 国产99欧美精品久久精品久久| 精品一区二区三区自慰喷水| 久久婷婷六月| 91精品啪在线观看国产| 免费看久久精品99| 尤物精品视频一区二区三区| 久久国产精品无码hdav|