基于不平衡分類的原發性肝癌患者無病生存期預測研究*

2019-04-20 07:02:00楊日東李琳陳秋源華赟鵬周毅

生物醫學工程研究 2019年1期

楊日東，李琳，陳秋源，華赟鵬，周毅△

(1.中山大學中山醫學院，廣州 510080；2.新疆醫科大學公共衛生學院，烏魯木齊 830011； 3.中山大學附屬第一醫院肝膽外科，廣州 510080)

1 引言

肝癌是死亡率最高的惡性腫瘤之一，中國每年約有38.3萬人死于肝癌，占全球肝癌死亡人數的51%。近年來，隨著原發性肝癌(hepatocellular carcinoma，HCC)的早期診斷和早期治療，患者的總體療效明顯提高。但據有關研究表明，即使對肝癌進行根治性切除，5年內仍高達60%～70%的患者出現轉移復發[1]。因此，對肝癌轉移復發進行預測，從而尋找有效的抑制途徑，是進一步提高肝癌患者生存率的關鍵，具有重大的研究意義。

在HCC預后預測研究方面，Hua[2]等人通過多因素分析，表明腫瘤數量，數門脈癌栓、腫瘤大小和中性粒細胞/淋巴細胞比值(NLR)是無病生存(DFS)和總生存(OS)的獨立預測因素，并表明伴有肝硬化的肝癌患者，較大的NLR往往術后DFS和OS較差。Ji[3]等人通過單因素分析和多因素分析，發現NLR和谷草轉氨酶/血小板比值指數(APRI)可作為HCC患者預后的獨立預測因子，并且當兩者結合起來預測時，可以得到更高的準確率。趙利鋒[4]等人通過多因素Logistic回歸模型，顯示原發性肝癌患者術前血液中RBC數量低于標準是影響其累積生存時間的危險性因素之一。目前，基于機器學習的原發性肝癌患者無病生存期預測研究較少，結合多種影響因素構建HCC的預后預測模型，是當前一大研究熱點。

然而，大部分HCC患者的無病生存期小于5年，研究數據往往是類不平衡的。傳統機器學習算法以最小化分類器的錯誤率為目的，導致多數類樣本的識別率遠高于少數類樣本的識別率。鑒于此，本研究提出一種針對類不平衡改進的提升樹算法。為了提高分類器對難分類的少數類樣本的預測性能，我們修改提升算法的樣本權重更新方式，在每次迭代過程中，僅提高誤分類的少數類樣本權重，對于分類正確的少數類樣本和所有多數類樣本，保持其權重不變。并且，為了更好地評價基分類器，我們修改提升算法的權重更新方式，將F值納入到基分類器權重的計算中。

簡單起見，本研究將多數類稱為負類，將少數類稱為正類。

2 實驗2.1 實驗數據

本實驗數據來自廣東省某三甲醫院于2006至2009年收治的321例進行肝切除術的肝癌患者，包括77例無病生存超過5年的患者和244例無病生存小于5年的患者。具體屬性說明見表1。

2.2 實驗方法

2.2.1代價提升樹傳統的提升算法在每次迭代中增加當前基分類器誤分類樣本的權重，并減少正確分類樣本的權重。考慮到這種權重更新策略并不能強調正類樣本的重要性，我們提出了一種改進的提升樹算法——代價提升樹(cost boosting tree，CBT)。在代價提升算法的每次迭代中，只增加誤分類的正類樣本權重。對于負類樣本和正確分類的正類樣本，則保持其權重不變。因此，代價提升樹的基分類器更關注難學習的正類樣本，最終提高整個集成分類器對正類樣本的預測性能。

表1 HCC臨床數據集屬性說明

另外，傳統提升算法在更新分類器權重時考慮的是整體錯誤率：

然而，錯誤率并不能很好地衡量不平衡學習任務。鑒于此，我們將F值(F-measure)作為衡量基分類器性能的指標。

基分類器的權重更新如下：

在最終決策時，它將作為基分類器的權重系數。這里Max(F-measurem,0.5)是為了保證基分類器的F值大于0.5，若F值小于0.5，則am=0，表示舍棄該基分類器。具體的算法步驟如下：

輸入：訓練數據集:

T={(x1,y1),(x2,y2),…(xn,yn)}，基分類器CART

(2)對于m=1,2,…M。

(3)使用帶權重分布的樣本Dm訓練數據集學習，得到基分類器:

Gm(x):→{-1,+1}

(4)計算Gm(x)在訓練數據集上的F值：

其中:

這里的I是指示函數，當條件成立時等于1，當條件不成立時等于0。

(5)計算Gm(x)的權重系數:

(6)更新訓練集的權重分布:

Dm+1=(wm+1,1,…,wm+1,i,…,wm+1,N)

這里的Zm是歸一化因子，它使得樣本的權重分布成為概率分布:

(7)構建基分類器的線性組合，最終得到分類器：

2.2.2采樣技術采樣技術是解決類不平衡的方法之一，它通過對數據樣本的預處理，從而達到數據平衡的效果[5]。為了驗證改進提升樹的有效性，本研究將改進提升樹與結合了過采樣技術(SMOTE、BorderlineSMOTE和ADASYN)或欠采樣技術(One-Sided Selection)的決策樹進行對比。

1、合成少數抽樣技術

Chawla[6]等人提出了一種經典的過采樣技術，稱為合成少數抽樣技術(synthetic minority over-sampling technique，SMOTE)。基本思想是正類樣本與其在正類樣本集中的K近鄰的連線之間隨機產生一個樣本。

2、自適應合成抽樣方法

He[7]等人提出了一種自適應合成抽樣方法(adaptive synthetic sampling，ADASYN)。ADASYN根據正類樣本的K近鄰中正類樣本數判斷學習的難易程度，自適應地調整合成樣本的數量。具體地，對于K近鄰中屬于正類的樣本越少，認為越難被正確預測，在其附近生成更多的正類樣本，反之更少。

3、邊界合成少數類過采樣技術(BorderlineSMOTE)

考慮到類邊界附近的樣本對分類器的影響較大，Han[8]等人提出了一種BorderlineSMOTE過采樣算法。他們根據正類樣本的K近鄰中的正類樣本數將其分為“安全樣本”，“噪聲樣本”和“危險樣本”(即在類邊界的樣本)，并僅對“危險樣本”合成新樣本。

4、單邊選擇欠采樣技術(One-Sided Selection)

Kubar[9]等人提出一種欠采樣算法，稱為One-Sided Selection算法。One-Sided Selection將負樣本分為“安全樣本”，“冗余樣本”，“邊界樣本”和“噪聲樣本”。他們使用CNN算法去除“冗余樣本”，然后通過去除Tomek-link樣本的方式去除“邊界樣本”和“噪聲樣本”。這樣，數據集僅保留安全的負類樣本和所有正類樣本。

2.3 評價指標

二分類算法的分類性能可用混淆矩陣表示[6]，見表2。

表2 混淆矩陣

對于類不平衡問題，準確率通常無法衡量分類算法的好壞[6]。例如，不平衡數據集的負類樣本數為990，正類樣本數為10，分類器將所有樣本預測為負類，其準確率將達到99%，然而這是毫無意義的分類器。此時，應考慮的評價指標為：召回率、精度、F值(F-measure)、G均值(G-mean)、AUC(Area Under roc Curve)。具體計算方式如下：

G-mean=(ACC-×ACC+)1/2

其中，參數β用于調整召回率和精度之間的權重，一般令其為1。

在類不平衡問題中，F值用于權衡召回率與精度的重要性。G均值則與召回率和特異性相關，一般召回率高的分類器，即使精度偏低，也可達到較好的G均值。因此，G均值可用于衡量重視召回率的類不平衡學習任務。

2.4 實驗結果

為了提高分類性能，可對條件屬性進行單變量統計檢驗，以P值為參考標準，僅保留P<0.01的屬性構建模型，見表3。

表3 各變量的統計檢驗結果

考慮到文獻[2-3]提出的NLR對HCC患者無病生存的影響較大，本次實驗也將其保留。

為了對比算法本身的改進，我們用BT表示傳統提升樹，用CBT(錯誤率)表示僅修改樣本權重更新方式的提升樹，用CBT(F值)表示修改樣本權重更新方式和基分類器權重計算方式的提升樹，進行對比。本次實驗用到的決策樹是調用python中的sklearn工具包[10]，在保證準確率的情況下，參數的設置以最大化AUC值為原則。采用20次10折交叉驗證的平均值作為最終結果，實驗結果見表4。

表4 各算法在HCC臨床數據集上的性能對比

從表4可以看出，由于傳統的提升樹BT以整體錯誤率為優化目標，導致其在不平衡數據集上的F值、G均值和AUC指標較差。經修改，樣本權重更新方式的CBT(錯誤率)相比BT在各性能指標上有很大提升。可得出結論：在樣本權重更新過程中，只提高誤分類的正類樣本權重，有利于訓練出更關注正類的基分類器，從而提升對正類樣本的預測性能。與CBT(錯誤率)相比，CBT(F值)以F值計算基分類器權重，而CBT(錯誤率)采用錯誤率。CBT(F值)相比CBT(錯誤率)有所提升，這說明以F值為指標計算基分類器權重更有利于評價不平衡分類，從而提升整體集成決策的預測性能。同時，CBT在數據集上的F值、G均值和AUC優于結合采樣技術的決策樹算法，說明CBT在不平衡分類任務中是有效且可行的。

3 總結

傳統的HCC預后研究是基于統計學的方法找出影響因素，而利用機器學習算法，根據影響因素構建分類器的研究較少。傳統機器學習算法在類不平衡數據集上的性能不佳，主要體現在正類的識別率遠低于負類，導致AUC指標低。鑒于此，本研究針對傳統提升算法迭代過程中，樣本權重的更新方式無法體現出正類樣本的重要性和錯誤率，無法準確衡量不平衡分類任務的問題，提出了一種改進的提升樹算法——代價提升樹。在每次迭代中，CBT提高誤分類的正類樣本權重。并且，CBT將F值納入基分類器權重的計算。通過在HCC患者的臨床數據集上進行實驗，我們發現CBT算法的F值、G均值和AUC比傳統提升樹有很大提升，并且優于結合采樣技術的決策樹算法。

本次實驗還發現，在CBT每次迭代過程中，由于提升了誤分類的正類樣本權重，因此，每次抽樣后正類樣本的比例呈遞增趨勢。我們意識到，若正類樣本的比例越大，其訓練得到的基分類器對正類樣本的分類效果會越好。因此，在后續研究，我們將考慮以正類樣本的比例構造基分類器的權重系數，得到新的加權集成方式。