基于層次分類法的彌漫大B細胞淋巴瘤的疾病進展階段多分類預測研究*

2021-05-08 05:54:56黃雪倩張巖波鄭楚楚余紅梅范雙龍陽楨寰趙志強羅艷虹

中國衛生統計 2021年2期

黃雪倩張巖波王蕾鄭楚楚余紅梅范雙龍陽楨寰邢蒙趙志強羅艷虹Δ

【提要】目的對山西省某醫院2011-2017年確診為彌漫大B細胞淋巴瘤(diffuse large B-cell lymphoma，DLBCL)患者進行疾病進展階段多分類預測，為患者是否需要及時轉為二線挽救治療或放療等治療手段的選擇提供參考。方法用層次分類法將三分類的疾病進展階段進行兩層二分類，分別進行變量篩選后，用SMOTE過采樣處理數據中的類別不平衡問題，然后使用SVM、BP神經網絡、隨機森林等單分類器模型與AdaBoost同型集成和Stacking異型集成方法分別構建兩層疾病進展階段的二分類預測模型，最后分別選擇兩層中分類性能最優的模型并結合在一起。結果使用經SMOTE平衡后的數據構建的兩層分類模型中的SVMboost集成模型，準確率分別為0.951和0.972，模型性能均為最優，因此兩層二分類的基分類器均選擇SVMboost。結論本研究構建彌漫大B細胞淋巴瘤患者疾病進展階段的層次多分類預測模型，其中兩層分類模型中的SVMboost集成模型性能均為最優，將兩層二分類的基分類器結合后，準確率為0.924，高于作為對比的直接多分類模型，為臨床工作者的診斷與治療方案選擇提供一定參考。

彌漫大B細胞淋巴瘤(diffuse large B-cell lymphoma，DLBCL)是非霍奇金淋巴瘤(non-Hodgkinlymphoma，NHL)中最常見的亞型，占所有NHL的30%～40%[1]，是一組具有高度異質性的惡性腫瘤，常呈進展性。目前利妥昔單抗+環磷酰胺、阿霉素、長春新堿和強的松(R-CHOP)是DLBCL的化療首選方案，大部分患者經治療后可以達到完全緩解(complete remission，CR)。但仍有部分患者在治療中病情進展或緩解后早期復發(緩解期小于一年)，且復發后治療反應率較低，反應持續時間較短，最終轉變為難治性DLBCL，成為DLBCL主要死亡原因[2-3]。針對復發性和難治性DLBCL，臨床上研發了很多二線挽救治療方案，能有效延長患者的總生存期(overall survival，OS)，提高患者生存質量。自體造血干細胞移植和低劑量姑息性放療等方法[4]對難治性侵襲性淋巴瘤也有一定效果。復發性和難治性DLBCL通常對一線治療方案不敏感或產生耐藥性，若不能準確地對疾病進展階段進行判斷，重復地對其進行無用治療，不僅會錯過最好的二線挽救治療時機，還會給患者帶來一定的心理負擔和經濟負擔。因此，對DLBCL疾病的進展階段進行精確的分類預測有較大的現實意義。

資料來源

本研究數據來自于山西省某醫院2011-2017年被確診為DLBCL的患者，共384例。其中復發性DLBCL是指初次化療獲得完全緩解后復發的淋巴瘤，共74例；難治性DLBCL是指滿足以下任何一項：①經標準方案規范化療 4 個療程，腫瘤縮小<50%或病情進展；②經標準方案化療達CR，但半年內復發；③CR后2次或2次以上復發；④造血干細胞移植后復發，共38例；剩余病例為一般性DLBCL[5]，共272例。因不同疾病進展階段的病例數量差距較大，造成了數據的不平衡，因此需要對數據進行過采樣使其平衡。本文采用的過采樣方法是SMOTE算法。

原理及方法

1.類別不平衡數據

SMOTE(synthetic minority over-sampling technique)[6]算法在2002年被提出并得到認可，它的基本思想是通過人工合成新的少數類樣本來降低類別不平衡性。具體做法是：假設鄰近參數為k，首先從每個少數類樣本的x個同類最近鄰中隨機選擇k個樣本；然后將每個少數類樣本分別與選中的k個樣本按式(1)合成k少數類新樣本；最后，將新樣本添加至訓練樣本集中，形成新的訓練樣本集[7]。

xnew=x+δ(y[i]-x)

(1)

式中：xnew為合成的新樣本；x為少數類樣本；δ為0到1之間的隨機數；y[i]為x的第i個近鄰樣本。

在 SMOTE 算法中，鄰近參數k是否能夠合理設置將直接影響最終的分類性能。通常設置鄰近參數k=5。

本研究中SMOTE使用R軟件中DMwR包SMOTE語句實現，其中設perc.over=500，perc.under=100。

2.分類模型

多分類的本質是多次二分類，包括直接法和間接法。直接法是直接在目標函數上修改，將多個分類面的參數求解合并到一個最優化問題中，通過求解該最優化問題一次性實現多分類。該方法看似簡單，但其計算復雜度較高，且沒有通用的多分類求解法，需要根據具體問題設計策略，實現起來較困難，且分類準確率不高；間接法主要是通過組合多個二分類器來實現多分類器的構造，常見的方法有“一對一”(one-versus-one，OVO)、“一對其余”(one-versus-rest，OVR)和層次分類法等。

(1)層次分類法原理

本文采用的是層次分類法[8-9]，其原理是第一層將所有類分為一級子類，第二層再將一級子類進一步分為二級子類，直到能夠區分所有類別為止。圖1為包含四個類別的兩種層次結構。圖1(a)是完全二叉樹，它在每個決策節點將所包含的類別分為兩個包含類別數目相同的子類；圖1(b)是偏二叉樹，它在每個決策節點將一類與其他所有類別分開。

圖1 層次分類法結構

針對本研究數據，使用偏二叉樹層次結構，即先將所有病例分為一般性DLBCL和復發性/難治性DLBCL兩類，然后再將復發性/難治性DLBCL分為復發性DLBCL和難治性DLBCL兩類，最終將所有病例分為一般性DLBCL、復發性DLBCL和難治性DLBCL三類。

(2)層次分類法基分類器的選擇

在本研究中，層次分類法將三分類的DLBCL疾病進展階段數據分為兩層二分類。在每層二分類中，首先應用支持向量機[10]、BP神經網絡[11]、隨機森林[12]等單分類器構建二分類模型；然后，分別應用上述單分類器構建集成學習二分類模型，集成方法主要包括AdaBoost集成[13]和Stacking集成[14]，并將集成模型與各個單分類器的分類性能進行比較；最后分別選擇兩層中分類性能最優的模型并組合在一起，即完成層次分類法基分類器的選擇。

(3)構建模型

為進一步證實層次分類法的分類性能，本文應用可進行直接多分類的單分類器(SVM、隨機森林和BP神經網絡)構建直接三分類模型，并應用上述單分類器構建AdaBoost集成模型和Stacking集成模型，分別將其分類性能與層次分類法進行對比。

①直接多分類

分別從一般性、復發性和難治性DLBCL三類中各隨機抽取三分之一樣本合并，作為測試集；其余樣本作為訓練集，訓練集用于構建模型，測試集用于測試模型的分類準確率，重復采樣并構建模型100次。

②層次分類法

將三分類的疾病進展階段分為兩層二分類。第一層分別從一般性DLBCL和復發/難治性DLBCL兩類中各隨機抽取三分之一樣本合并，作為測試集，其余樣本作為訓練集，訓練集用于構建模型，測試集用于測試模型的分類準確率，重復采樣并構建模型100次；第二層從復發性DLBCL和難治性DLBCL兩類中抽樣，其余同上所述。

3.評價指標

本研究采用準確率(accuracy)[7]、靈敏度(sensitivity)、F值、ROC曲線下面積(AUC)和G-means值作為評價指標。由于AUC、F值、G-means一般僅適用于二分類問題，因此本研究中，上述指標用于兩層二分類最優模型的選擇，準確率作為經典直接多分類器和層次分類法的對比評價指標。

每個分類器的結果可以分為真陽性(TP)、真陰性(TN)、假陽性(FP)和假陰性(FN)四類。由此可得以下的公式：

(2)

(3)

(4)

(5)

由式(3)，(4)，(5)可得出F值和G-means的表達式為：

(6)

(7)

F值既考慮精度(正確陽性結果的數量除以所有陽性結果的數量)，也考慮召回率(正確陽性結果的數量除以應該返回的陽性結果的數量)。只有精度和召回率都比較高的前提下，F值才會高。G值綜合考慮了少數類和多數類的分類性能，必須滿足多數類和少數類樣本正確率的值同時高，G值才會高。受試者工作特征曲線(receiver operating characteristic curve，ROC)是在平面上以假陽性率(FPR)為橫坐標，以真陽性率(TPR)為縱坐標所畫的一條曲線，橫坐標FPR和縱坐標TPR可由下式計算得出：

(8)

(9)

4.變量篩選

病例信息來自于醫院的電子病例，包括一般情況、病理信息、CT/PET-CT影像數據和治療方案等100余個變量。結合《2013年中國彌漫大B細胞淋巴瘤診斷與治療指南》[15]，對兩層二分類分別進行變量重要性排序，篩選出前18個與疾病進展階段分類相關的變量。圖2為前30個變量的重要性排序(其中1為原發部位，2為繼發部位)。

圖2 變量重要性排序

結果

1.直接多分類

表1為三種單分類器及其構建的集成模型的直接多分類結果，用分類準確率作為評價指標。

表1 直接多分類準確率

由表1可知，三種單分類器中，隨機森林分類準確率最高，BP神經網絡和SVM準確率相差不多；各單分類器的AdaBoost集成模型分類準確率較單分類器均有所提高，三種單分類器組合的Stacking集成分類準確率高于SVM和BP神經網絡，但所有直接多分類模型準確率均沒有達到90%。

2.層次分類法

表2和表3分別是使用測試集進行驗證的兩層分類模型的評價指標。

表2 第一層分類模型性能評價

表3 第二層分類模型性能評價

由表2可得第一層二分類中，SVMboost模型性能最優(準確率=0.951，靈敏度=0.977，F值=0.956，AUC=0.948，G-means=1.001)，因此選取SVMboost作為第一層的基分類器；由表3可得第二層二分類中，SVMboost模型性能最優(準確率=0.972，靈敏度=0.997，F值=0.975，AUC=0.969，G-means=0.968)，因此第二層的基分類器也選擇SVMboost。

將兩層二分類所選擇的最優基分類器SVMboost組合起來，疾病進展階段三分類準確率可達0.924。圖3為直接多分類模型和本文所應用的層次分類法的分類準確率對比。層次分類法的分類準確率明顯高于直接多分類模型。

圖3 八種分類模型的準確率

圖4分別給出了兩層分類模型中各個基分類器訓練集和測試集的分類準確率(其中1代表第一層分類，2代表第二層分類)。由圖4可知，所有模型中訓練集的分類準確率均優于測試集；所有模型的第二層分類準確率均高于第一層分類。對集成模型與單分類器進行分類性能比較可知，除隨機森林模型外，集成模型的分類性能均優于其對應的單分類器，而隨機森林本身就是對樹模型的Bagging集成模型，本研究中對其做進一步的AdaBoost集成后發現其模型的分類性能并未明顯提升。

圖4 層次分類法訓練集和測試集的分類準確率

討論

本文應用的層次分類法能將復雜的多分類問題簡化，每一層都含有7個基分類器，包括單分類器和同型/異型集成模型，分類準確率高于幾種用于對比的直接多分類器；在其他應用集成算法的直接多分類研究中，宋亞男等在未進行不平衡數據處理的AdaBoost 模型預測2型糖尿病患者降糖藥用藥分類準確率僅為0.642[16]，王莉莉等在基于主動學習不平衡多分類 AdaBoost 算法的心臟病分類的準確率為0.883[17]，均未達到90%，而Stjepan Picek等在機器學習旁路攻擊中[18]，層次分類法的分類準確率比直接多分類法提高了21%。層次分類法應用靈活，每種基分類器對不同數據類型的分類性能均有所差別，趙理莉等在宮頸細胞識別的層次分類法中每層使用了6種基分類器[19]。此外，層次分類法實際應用廣泛，包括Celine Vens等對文本進行層次分類[20]，IvicaDimitrovski等進行醫學圖像注釋[21]，以及Ricardo Cerri等對蛋白質功能預測等生物信息學任務等[22]。本文層次分類法的模型構建通過R語言實現，其他軟件如Python等也可實現，適用性較強。

但是層次分類法中存在自上而下的“誤差累積”問題，且該方法每層分類所需的運行時間較長。本文每層分類循環次數為100次，運行時間超過20小時。當需要解決5類或5類以上的多分類問題時，應用該方法所需要分的層次更多，所得分類準確率會越低，運行的時間也越長。此外，如何在層次分類中有效地進行特征變量選擇也是一個值得關注的問題，不同的特征變量能影響各層中子類的區分，進而影響整個分類模型的準確率。例如Hussein Alahmer等在基于特征差的肝臟腫瘤層次分類中[23]，不同的特征采集導致分類性能差異很大。如何解決和改進上述幾個方面是本研究需要進一步研究的問題。

基于層次分類法的彌漫大B細胞淋巴瘤的疾病進展階段多分類預測研究*

資料來源

原理及方法

結 果

討 論

結果

討論