楊日東,李琳,陳秋源,華赟鵬,周毅△
(1.中山大學 中山醫學院,廣州 510080;2.新疆醫科大學 公共衛生學院,烏魯木齊 830011; 3.中山大學附屬第一醫院 肝膽外科,廣州 510080)
肝癌是死亡率最高的惡性腫瘤之一,中國每年約有38.3萬人死于肝癌,占全球肝癌死亡人數的51%。近年來,隨著原發性肝癌(hepatocellular carcinoma,HCC)的早期診斷和早期治療,患者的總體療效明顯提高。但據有關研究表明,即使對肝癌進行根治性切除,5年內仍高達60%~70%的患者出現轉移復發[1]。因此,對肝癌轉移復發進行預測,從而尋找有效的抑制途徑,是進一步提高肝癌患者生存率的關鍵,具有重大的研究意義。
在HCC預后預測研究方面,Hua[2]等人通過多因素分析,表明腫瘤數量,數門脈癌栓、腫瘤大小和中性粒細胞/淋巴細胞比值(NLR)是無病生存(DFS)和總生存(OS)的獨立預測因素,并表明伴有肝硬化的肝癌患者,較大的NLR往往術后DFS和OS較差。Ji[3]等人通過單因素分析和多因素分析,發現NLR和谷草轉氨酶/血小板比值指數(APRI)可作為HCC患者預后的獨立預測因子,并且當兩者結合起來預測時,可以得到更高的準確率。趙利鋒[4]等人通過多因素Logistic回歸模型,顯示原發性肝癌患者術前血液中RBC數量低于標準是影響其累積生存時間的危險性因素之一。目前,基于機器學習的原發性肝癌患者無病生存期預測研究較少,結合多種影響因素構建HCC的預后預測模型,是當前一大研究熱點。
然而,大部分HCC患者的無病生存期小于5年,研究數據往往是類不平衡的。傳統機器學習算法以最小化分類器的錯誤率為目的,導致多數類樣本的識別率遠高于少數類樣本的識別率。鑒于此,本研究提出一種針對類不平衡改進的提升樹算法。為了提高分類器對難分類的少數類樣本的預測性能,我們修改提升算法的樣本權重更新方式,在每次迭代過程中,僅提高誤分類的少數類樣本權重,對于分類正確的少數類樣本和所有多數類樣本,保持其權重不變。并且,為了更好地評價基分類器,我們修改提升算法的權重更新方式,將F值納入到基分類器權重的計算中。
簡單起見,本研究將多數類稱為負類,將少數類稱為正類。
本實驗數據來自廣東省某三甲醫院于2006至2009年收治的321例進行肝切除術的肝癌患者,包括77例無病生存超過5年的患者和244例無病生存小于5年的患者。具體屬性說明見表1。
2.2.1代價提升樹 傳統的提升算法在每次迭代中增加當前基分類器誤分類樣本的權重,并減少正確分類樣本的權重。考慮到這種權重更新策略并不能強調正類樣本的重要性,我們提出了一種改進的提升樹算法——代價提升樹(cost boosting tree,CBT)。在代價提升算法的每次迭代中,只增加誤分類的正類樣本權重。對于負類樣本和正確分類的正類樣本,則保持其權重不變。因此,代價提升樹的基分類器更關注難學習的正類樣本,最終提高整個集成分類器對正類樣本的預測性能。

表1 HCC臨床數據集屬性說明
另外,傳統提升算法在更新分類器權重時考慮的是整體錯誤率:
然而,錯誤率并不能很好地衡量不平衡學習任務。鑒于此,我們將F值(F-measure)作為衡量基分類器性能的指標。
基分類器的權重更新如下:
在最終決策時,它將作為基分類器的權重系數。這里Max(F-measurem,0.5)是為了保證基分類器的F值大于0.5,若F值小于0.5,則am=0,表示舍棄該基分類器。具體的算法步驟如下:
輸入:訓練數據集:
T={(x1,y1),(x2,y2),…(xn,yn)},基分類器CART

(2)對于m=1,2,…M。
(3)使用帶權重分布的樣本Dm訓練數據集學習,得到基分類器:
Gm(x):→{-1,+1}
(4)計算Gm(x)在訓練數據集上的F值:
其中:
這里的I是指示函數,當條件成立時等于1,當條件不成立時等于0。
(5)計算Gm(x)的權重系數:
(6)更新訓練集的權重分布:
Dm+1=(wm+1,1,…,wm+1,i,…,wm+1,N)
這里的Zm是歸一化因子,它使得樣本的權重分布成為概率分布:
(7)構建基分類器的線性組合,最終得到分類器:
2.2.2采樣技術 采樣技術是解決類不平衡的方法之一,它通過對數據樣本的預處理,從而達到數據平衡的效果[5]。為了驗證改進提升樹的有效性,本研究將改進提升樹與結合了過采樣技術(SMOTE、BorderlineSMOTE和ADASYN)或欠采樣技術(One-Sided Selection)的決策樹進行對比。
1、合成少數抽樣技術
Chawla[6]等人提出了一種經典的過采樣技術,稱為合成少數抽樣技術(synthetic minority over-sampling technique,SMOTE)。基本思想是正類樣本與其在正類樣本集中的K近鄰的連線之間隨機產生一個樣本。
2、自適應合成抽樣方法
He[7]等人提出了一種自適應合成抽樣方法(adaptive synthetic sampling,ADASYN)。ADASYN根據正類樣本的K近鄰中正類樣本數判斷學習的難易程度,自適應地調整合成樣本的數量。具體地,對于K近鄰中屬于正類的樣本越少,認為越難被正確預測,在其附近生成更多的正類樣本,反之更少。
3、邊界合成少數類過采樣技術(BorderlineSMOTE)
考慮到類邊界附近的樣本對分類器的影響較大,Han[8]等人提出了一種BorderlineSMOTE過采樣算法。他們根據正類樣本的K近鄰中的正類樣本數將其分為“安全樣本”,“噪聲樣本”和“危險樣本”(即在類邊界的樣本),并僅對“危險樣本”合成新樣本。
4、單邊選擇欠采樣技術(One-Sided Selection)
Kubar[9]等人提出一種欠采樣算法,稱為One-Sided Selection算法。One-Sided Selection將負樣本分為“安全樣本”,“冗余樣本”,“邊界樣本”和“噪聲樣本”。他們使用CNN算法去除“冗余樣本”,然后通過去除Tomek-link樣本的方式去除“邊界樣本”和“噪聲樣本”。這樣,數據集僅保留安全的負類樣本和所有正類樣本。
二分類算法的分類性能可用混淆矩陣表示[6],見表2。

表2 混淆矩陣
對于類不平衡問題,準確率通常無法衡量分類算法的好壞[6]。例如,不平衡數據集的負類樣本數為990,正類樣本數為10,分類器將所有樣本預測為負類,其準確率將達到99%,然而這是毫無意義的分類器。此時,應考慮的評價指標為:召回率、精度、F值(F-measure)、G均值(G-mean)、AUC(Area Under roc Curve)。具體計算方式如下:
G-mean=(ACC-×ACC+)1/2
其中,參數β用于調整召回率和精度之間的權重,一般令其為1。
在類不平衡問題中,F值用于權衡召回率與精度的重要性。G均值則與召回率和特異性相關,一般召回率高的分類器,即使精度偏低,也可達到較好的G均值。因此,G均值可用于衡量重視召回率的類不平衡學習任務。
為了提高分類性能,可對條件屬性進行單變量統計檢驗,以P值為參考標準,僅保留P<0.01的屬性構建模型,見表3。

表3 各變量的統計檢驗結果
考慮到文獻[2-3]提出的NLR對HCC患者無病生存的影響較大,本次實驗也將其保留。
為了對比算法本身的改進,我們用BT表示傳統提升樹,用CBT(錯誤率)表示僅修改樣本權重更新方式的提升樹,用CBT(F值)表示修改樣本權重更新方式和基分類器權重計算方式的提升樹,進行對比。本次實驗用到的決策樹是調用python中的sklearn工具包[10],在保證準確率的情況下,參數的設置以最大化AUC值為原則。采用20次10折交叉驗證的平均值作為最終結果,實驗結果見表4。

表4 各算法在HCC臨床數據集上的性能對比
從表4可以看出,由于傳統的提升樹BT以整體錯誤率為優化目標,導致其在不平衡數據集上的F值、G均值和AUC指標較差。經修改,樣本權重更新方式的CBT(錯誤率)相比BT在各性能指標上有很大提升。可得出結論:在樣本權重更新過程中,只提高誤分類的正類樣本權重,有利于訓練出更關注正類的基分類器,從而提升對正類樣本的預測性能。與CBT(錯誤率)相比,CBT(F值)以F值計算基分類器權重,而CBT(錯誤率)采用錯誤率。CBT(F值)相比CBT(錯誤率)有所提升,這說明以F值為指標計算基分類器權重更有利于評價不平衡分類,從而提升整體集成決策的預測性能。同時,CBT在數據集上的F值、G均值和AUC優于結合采樣技術的決策樹算法,說明CBT在不平衡分類任務中是有效且可行的。
傳統的HCC預后研究是基于統計學的方法找出影響因素,而利用機器學習算法,根據影響因素構建分類器的研究較少。傳統機器學習算法在類不平衡數據集上的性能不佳,主要體現在正類的識別率遠低于負類,導致AUC指標低。鑒于此,本研究針對傳統提升算法迭代過程中,樣本權重的更新方式無法體現出正類樣本的重要性和錯誤率,無法準確衡量不平衡分類任務的問題,提出了一種改進的提升樹算法——代價提升樹。在每次迭代中,CBT提高誤分類的正類樣本權重。并且,CBT將F值納入基分類器權重的計算。通過在HCC患者的臨床數據集上進行實驗,我們發現CBT算法的F值、G均值和AUC比傳統提升樹有很大提升,并且優于結合采樣技術的決策樹算法。
本次實驗還發現,在CBT每次迭代過程中,由于提升了誤分類的正類樣本權重,因此,每次抽樣后正類樣本的比例呈遞增趨勢。我們意識到,若正類樣本的比例越大,其訓練得到的基分類器對正類樣本的分類效果會越好。因此,在后續研究,我們將考慮以正類樣本的比例構造基分類器的權重系數,得到新的加權集成方式。