基于支持向量機與XGboost 的成年人群腫瘤患病風險預測研究

2020-04-11 10:45:02馬倩倩孫東旭石金銘何賢英翟運開

中國全科醫學 2020年12期

關鍵詞：模型

馬倩倩，孫東旭，石金銘，何賢英，翟運開，3*

本文價值及局限性：

（1）腫瘤風險預測對于提高人群健康水平、降低患者經濟負擔意義重大。隨著海量醫療健康大數據的產生，傳統的統計學方法已無法滿足數據分析需求，部分學者開始嘗試將支持向量機等機器學習算法進行數據挖掘。但尚未見支持向量機、XGboost 等算法應用于預測個體腫瘤發生風險。

（2）本文創新性地將支持向量機、XGboost 等算法應用在腫瘤風險預測領域，搭建的腫瘤患病風險預測模型表現出較高的預測正確率及穩健性，可以提前給予腫瘤風險預警，從而可根據風險指標開展精準健康干預，為腫瘤預防提供一定的臨床指導和幫助。

（3）本研究有一定局限性，例如進入模型的特征依然不夠全面，未包含生化指標、環境指標、飲食攝入情況等因素；支持向量機模型中核函數的選擇中，僅采用了常用的徑向基核函數，未考慮多項式核函數等其他不同核函數向量分類器并進行對比，可進一步深入研究。

腫瘤是危害人類健康的重要問題之一，2015 年中國惡性腫瘤發病率約285.83/10 萬，死亡率約為 170.05/10 萬，惡性腫瘤發病率、死亡率近十幾年來分別保持3.9%、2.5%的增幅［1］，疾病負擔呈持續上升趨勢。腫瘤的防控對于節約醫療資源、降低醫療開支、提高人群健康水平意義重大。腫瘤受生活方式、環境、基因等多種因素的影響，對于其患病風險的精準預測涉及龐大的數據量和數據特征，尤其隨著海量醫療健康大數據的產生，傳統的統計學方法已無法滿足數據分析需求，部分學者開始嘗試采用支持向量機等機器學習算法進行數據挖掘［2-4］。目前尚未見支持向量機、XGboost 等算法應用在腫瘤風險預測領域中的研究。因此，本文旨在探索支持向量機和XGboost 于腫瘤風險預測的應用價值。

1 資料與方法

1.1 一般資料本研究時間為2011—2015 年，數據來源于中國健康與營養調查（CHNS）［5］，其是北卡羅來納大學教堂山分校（University of North Carolina at Chapel Hill）的卡羅來納州人口中心（Carolina Population Center）與中國疾病防控中心的國家營養與食品安全研究所共同開展的國際合作項目。該調查是一個持續開放的隊列，采用多階段分層整群隨機抽樣法，共得到約4 400 個家庭住戶、26 000 個個人樣本，覆蓋了在地理位置、經濟發展、公共資源和衛生指標均存在巨大差異的黑龍江、遼寧、湖南、山東、貴州、江蘇、廣西、湖北、河南、北京、上海和重慶12 個地區，是一個少見的、信息含量豐富的、具有全國代表性的數據。本文選用其中成年人調查表所得數據，篩選出患腫瘤可能的影響因素（見表1）［5］。以我國12 個地區城鄉成年（≥18 歲）常住居民為對象，經過數據清理，合并2011 年與2015 年數據［5］，剔除重復記錄數據，最終納入分析的對象有19 410 例，其中男9 371 例（48.28%），女10 039 例（51.72%）。

1.2 數據處理剔除是否患腫瘤（U24W：醫生給你下過腫瘤的診斷嗎?）等關鍵變量存在缺失記錄及重復的記錄，并采用隨機森林算法填補缺失數據。以是否患腫瘤為因變量，分別隨機抽取2/3 樣本作為訓練集，剩余1/3 樣本作為測試集評估各模型表現。

1.3 方法基于逐步Logistic回歸分析的變量篩選策略，在訓練集上分別建立逐步Logistic 回歸、支持向量機、XGboost 腫瘤患病風險預測模型，并在測試集上進行驗證。

1.3.1 逐步Logistic 回歸分析在訓練數據集中，以成年人群是否患腫瘤為因變量，以表1 中除因變量外所有變量為自變量進行初始逐步Logistic 回歸分析，利用R軟件中step 函數，基于赤池信息量準則（AIC）越小模型更優原則逐步進行變量篩選。

1.3.2 支持向量機支持向量機是由VAPNIK［6］于1997 年提出的，是一種線性和非線性分類方法，其基本思想是利用適當的核函數將待分類數據映射到具有一定容錯條件的更高維特征空間，通過在此空間構建最優的分類超平面將數據分類。支持變量為確定最佳分類超平面時附近距離最近的樣本點。支持向量機適用于小樣本、非線性、高維數據分類問題，具有預測可靠性高、穩定性強、泛化能力強等特點。支持向量機主要的參數有用于控制錯誤分類懲罰程度的正則化參數C 與控制樣本間距離尺度的徑向基核函數半徑的倒數γ，此處采用常用的徑向基核函數。

1.3.3 XGboost 算法 XGboost 由陳天奇教授于2016 年提出，是一種基于迭代決策樹模型的集成學習算法［7］。作為Boosting 算法中的一種，其基本思想是集成眾多弱分類器形成強分類器。該算法最大的特點在于多線程計算，并利用正則化提升技術減少過度擬合，從而保證模型的魯棒性。同時可自定義損失函數、稀疏特征的處理、允許缺失值等，具有靈活、計算速度快、不易受異常值干擾、穩健性好的優勢。

1.4 統計分析與軟件采用RStudio1.1.456 建模與評價，分別采用e1071 程序包、XGboost 程序包建立支持向量機和XGboost。訓練集進行逐步Logistic 回歸分析時，采用stepwise 方法對模型特征進行篩選；XGboost 與支持向量機利用網格搜索方法進行調參，將訓練集作為原始數據，利用K 折交叉驗證法（K-CV），本文K=10，找到交叉驗證精度與正確率最高誤差最小的最優參數組合。以逐步Logistic 回歸為對照，由受試者工作特征（ROC）曲線下面積（AUC）判斷各模型優劣，使用pROC 程序包中roc.test 函數，利用DeLong 檢驗比較各模型AUC 的差異，以比較各模型的性能。雙側檢驗水準α=0.05。

2 結果

2.1 一般資料 19 410 例研究對象中，被診斷為腫瘤患者262 例（1.35%）。訓練集（n=12 919）中含有174例腫瘤患者，測試集（n=6 491）含有88 例腫瘤患者。

2.2 逐步Logistic 回歸分析基于AIC 逐步進行變量篩選，最終得到逐步Logistic 回歸分析結果（見表2）。逐步Logistic 回歸分析在訓練集上的擬合值與真實值相比，其預測成年人群患腫瘤的正確率為73.28%〔95%CI（72.51%，74.04%）〕，靈敏度為68.97%，特異度為73.34%。

表 1 變量賦值說明Table 1 The description of variables

表2 成年人群是否患腫瘤的多因素逐步Logistic 回歸分析結果Table 2 Stepwise multivariate Logistic regression analysis of variables possibly associated with cancer in adult population

2.3 支持向量機以成年人群是否患腫瘤為因變量（賦值：0=否，1=是），以逐步Logistic 回歸分析篩選出的變量作為自變量（賦值同表1），在訓練集上建立支持向量機，利用tune.svm（）函數，通過網格搜索方法，循環遍歷，嘗試各種參數組合以尋找最優的參數，C與γ 初始取值范圍皆為［0.01，0.1，1，10，100］。10 折交叉驗證錯誤率最低時的最優參數為C=100、γ=0.01，此時訓練徑向支持向量機預測成年人群患腫瘤的正確率、靈敏度、特異度均為100.00%。

2.4 XGboost 算法使用Caret 包中train（）函數的網格搜索法進行參數調優，選取模型預測正確率更高的參數組合，最終確定學習率η=0.3，樹深度max_depth=1，nrounds=150，gamma=0，colsample_bytree=0.6，min_child_weight=2，subsample=1，scale_pos_weight=1，此時在訓練集上預測成年人群患腫瘤的正確率為69.78%〔95%CI（68.98%，70.57%）〕，靈敏度為78.16%，特異度為69.67%，變量重要性評分見圖1。

圖1 基于XGboost 算法得出的變量重要性評價（前15 個）Figure 1 Variable importance evaluation based on XGboost algorithm（top 15）

2.5 模型對比以上3 個模型其實是二值分類器，在測試集上驗證其預測性能。由ROC 曲線可知，支持向量機預測成年人群患腫瘤的AUC 最大，為86.32%〔95%CI（81.64%，91.00%）〕，且正確率最高，為99.54%〔95%CI（99.34%，99.69%）〕。經DeLong 檢驗，支持向量機、XGboost 預測成年人群患腫瘤的AUC與Logistic 回歸模型比較，差異有統計學意義（Z 值分別為-2.519、-2.138，P 值分別為0.012、0.032）；XGboost 預測成年人群患腫瘤的AUC 低于支持向量機，差異有統計學意義（Z=2.081，P=0.037，見表3、圖2）。

表3 支持向量機、XGboost、逐步Logistic 回歸分析預測成年人群患腫瘤的正確率、靈敏度、特異度、AUCTable 3 Accuracies，sensitivities，specificities，AUCs of SVM，XGboost and SLR for cancer of prediction in adult population

3 討論

圖2 支持向量機、XGboost、逐步Logistic 回歸分析預測成年人群患腫瘤的ROC 曲線Figure 2 ROC curves of SVM，XGboost and SLR for cancer of prediction in adult population

隨著生活節奏的加速、生活方式的改變，我國罹患各類腫瘤的患者數量不斷增加［8］。通過特定的模型預測個體腫瘤發生風險，可及早發現腫瘤患病高危人群，對高危人群實施干預措施，從而提高人群健康水平。本文分別采用逐步Logistic 回歸分析、XGboost 與支持向量機建立腫瘤風險預測模型，結果顯示，在測試集上，支持向量機模型在預測成年人群患腫瘤的正確率、靈敏度、AUC 等性能指標上優于其他兩者，雖然XGboost 預測成年人群患腫瘤的AUC 大于逐步Logistic 回歸分析，但未見其預測成年人群患腫瘤的正確率明顯提升。

傳統Logistic 回歸分析適用范圍廣，應用靈活。對于特定的問題，其性能等效甚至優于某些相對復雜的機器學習算法，如在肝硬化患者上消化道出血預后評估的研究中，Logistic 回歸模型的正確率為81.5%，高于決策樹模型（75.1%）［9］。趙子龍等［4］在判別乳腺病變性質領域發現，傳統Logistic 回歸模型與隨機森林、支持向量機等機器學習算法建立的診斷模型相比較，預測效果不存在明顯差異。但有研究表明，Logistic 回歸分析在交互作用方面的處理效果不如決策樹和隨機森林模型［10］。

機器學習在醫療行業領域的應用發展迅速，支持向量機是機器學習中常用算法，由于其強大的學習功能，已在醫學領域得到廣泛應用［2-3，11-12］。VIJAYARAJESWARI 等［3］利用Hough 變換提取乳腺鉬靶圖像特征，并利用支持向量機對其進行分類，用于發現異常檢查結果，實現乳腺癌早期篩查。KAUR 等［12］分別利用支持向量機、K 近鄰法（KNN）、線性判別分析（LDA）和決策樹模型建立圖像識別乳腺癌的多分類診斷模型（正常、良性、惡性）。BATTINENI 等［11］通過建立支持向量機模型分析373 個MRI 數據預測癡呆，發現低γ 高正則項系數（γ=0.000 1，C=100）模型表現出更好的性能，正確率和精確度分別達68.75%、64.18%。

近年部分學者將XGboost 算法應用于健康預測領域。在預測ICU 膿毒癥患者住院死亡風險的研究中，XGboost 的AUC 為0.836〔95%CI（0.819，0.853）〕，優于支持向量機模型和SAPS-Ⅱ模型，可以有效地輔助臨床醫生開展ICU 膿毒癥患者死亡風險預測，進而提前采取合理的臨床干預措施［13］。張洪俠等［14］基于XGboost 算法建立2 型糖尿病精準預測模型，預測正確率達96.6%，并發現血糖、三酰甘油、SLC30A8 基因等是模型中重要性排序靠前的影響因素。XGboost 獨特的優勢之一在于可以得到每個因素的重要性得分，對于腫瘤患病危險因素的分析具有指導意義。XGboost 具有高度靈活性，但這也增加了模型調參的復雜度。

另外，不少學者開始嘗試將其他機器學習算法應用于健康風險預測、疾病診斷［9，15-16］。有學者發現，隨機森林算法對體檢人群的糖尿病風險預測具有較高效能，但多因素Logistic 回歸分析具有更直觀的解釋性［16］。張英男等［17］通過隨機森林算法預測阿爾茨海默患病風險，具有較高的精確度及穩定性，并能輸出對患病影響程度較大的因素。王喜丹等［18］在糖尿病患病風險預測中發現，采用深度信念網絡（DBN）的模型預測正確率比基于反向傳播神經網絡的預測正確率更高、更準確（93.10%與89.66%）。

綜上所述，用于分類預測的機器學習方法很多，不同方法間的優劣取決于具體問題與數據情況。模型的最終選擇需結合模型的預測能力、可解釋性、計算能力、運行效率等多個方面綜合考慮［4］。支持向量機可以使用核函數對高度非線性數據進行分類，但其可解釋性較差，無法有效地進行自變量篩選，常與其他方法結合使用。本文XGboost 與逐步Logistic 回歸預測成年人群患腫瘤的效果近似，但考慮到Logistic 回歸分析具有操作便捷、適用性廣和可解釋性強的特點，建議在腫瘤風險預測方面，采用支持向量機與Logistic 回歸分析相結合的模式，綜合得到預測能力更強的模型。

本研究搭建的腫瘤患病風險預測模型表現出較高的預測正確率及穩健性，可以提前給予腫瘤風險預警，從而可根據風險指標開展精準健康干預，為腫瘤預防提供一定的臨床指導和幫助。但本研究也有一定局限性，例如進入模型的特征未包含生化指標、環境指標、飲食攝入情況等因素；侯玉梅等［19］在2 型糖尿病非線性樣本預測時發現，基于多項式核函數比基于徑向基核函數的支持向量機分類正確率更高，而本文采用了常用的徑向基核函數，未進一步深入考慮不同核函數向量分類器。在大數據的背景下，利用數據挖掘處理海量多源健康數據，建立預測效能高、訓練速度快的模型是醫療領域的重要方向。

志謝：本研究采用中國健康與營養調查（CHNS）數據，感謝國家營養與健康研究所、中國疾病預防控制中心、美國卡羅來納州人口中心和北卡羅來納大學教堂山分校等對CHNS 數據的收集和財務的支持。

作者貢獻：馬倩倩、翟運開進行文章的構思與設計，文章的可行性分析；馬倩倩、孫東旭進行數據收集、整理、統計學分析與論文撰寫；石金銘、何賢英、翟運開負責論文的修訂，以及文章的質量控制及審校。

本文無利益沖突。