天津醫科大學公共衛生學院流行病與衛生統計學系(300070)
王肖萌 宋德勝 張甜甜 常琴雪 王 淳 王柯云 劉媛媛 李長平 崔 壯△ 馬 駿
【提 要】 目的 評價Boosting算法結合SMOTE技術預測青年男男性行為者(YMSM)HIV感染狀況的性能。 方法 通過網絡和現場抽取2018-2019年天津市YMSM 1179名,分別用XGBoost、LightGBM、CatBoost和logistic結合SMOTE技術建立預測模型,通過AUC、F1、Accuracy、Brier score等指標評價其分類性能。 結果 應用SMOTE合成數據后,logistic、CatBoost、LightGBM和XGBoost的AUC分別提升了23.4%、24.0%、25.4%和26.8%,Boosting算法的分類性能優于logistic模型。 結論 Boosting算法結合SMOTE技術為類不平衡數據的分類預測提供了新思路。
近年來,男男性行為者(men who have sex with men,MSM)由于其高危行為已成為HIV感染的關鍵人群[1]。而近期調查數據顯示,我國MSM人群中25歲以下青年人正不斷增加,已達到30%左右[2-3]。截至2019年,我國青年男男性行為者(YMSM)HIV感染率已達到5.6%[4]。沖動冒險、資金缺乏、社會歧視、家庭學校壓力、首次肛交年齡呈不斷下降趨勢[5]等均促成了YMSM的高感染低檢測現狀。因此,構建科學準確的YMSM人群 HIV感染的預測模型,對于及時發現早期的HIV感染者、減少YMSM人群HIV的傳播具有重要意義。
近年來,機器學習技術蓬勃發展,越來越被用于解決各種醫療問題或結果預測[6],而Boosting算法是機器學習中較為優秀的集成算法。因此,本研究使用Boosting集成學習算法(XGBoost,LightGBM和CatBoost)和logistic模型對YMSM的原始HIV感染數據和基于SMOTE-NC的合成數據進行擬合,比較Boosting算法和logistic回歸在應用于YMSM HIV感染數據時的分類效能,為YMSM人群HIV感染的預測建模提供科學依據。
1.研究對象
本研究共選取2018-2019年在天津市深藍公共衛生咨詢服務中心進行過HIV咨詢與檢測(HCT)的YMSM 1179名。納入標準包括:16~24周歲,近6個月與男性發生過肛交性行為。收集的數據包括基本人口學信息(年齡、性向、文化程度等)、性行為信息(首次性行為年齡、精神物質使用、近1周同性肛交次數、安全套使用情況等)、HIV知曉信息(近1年接受HCT及同伴教育服務、聽說過PrEP等)和HIV感染信息(既往HIV檢測、梅毒感染等)。
2.基本原理
(1)Boosting算法
XGBoost在傳統的梯度提升樹(GBDT)上進行了優化,它在擬合樹模型時,使用了預排序算法,在樹生長時遍歷所有切分點,在找到最優切分點后對數據進行葉子節點的劃分。最終將葉子節點的分數相加得到樣本的預測值。并且,它在計算時支持并行,內置處理缺失值的規則,擁有很大的靈活性,可以提供更高的運行速度和更低的內存消耗[7]。
LightGBM在XGBoost的基礎上作了進一步的改造。LightGBM使用直方圖算法和按葉子節點分割的樹生長策略,大大減少了計算和內存代價,因而在保持模型精度的同時加快了訓練速度。此外,LightGBM在模型中增加了樹的最大深度限制,一定程度上避免了按葉子節點分割導致的過擬合問題[8]。
CatBoost以對稱樹作為基學習器,在訓練過程中采用Target-based方式處理類別特征。因此,當數據集中絕大多數特征都是類別特征時,CatBoost可以高效合理地處理這些特征。 另外,它減少了對廣泛的超參數優化的需要,采用默認參數往往就可以獲得很好的效果,有助于減少預測時間,避免過擬合[9]。
(2)logistic回歸
logistic模型利用logistic函數將二分類問題轉化為連續型條件概率問題。假設有n個觀測樣本,觀測值分別為y1,y2,y3…yn,在給定xi的條件下,令y=1的概率記為pi。則可得到logistic模型的對數似然函數:
在機器學習中,經常在上式中加入L1、L2或Elastic-Net正則項以增加結果的穩定性[10]。
(3)SMOTE-NC
YMSM人群HIV感染的資料通常是類不平衡數據。已有的機器學習方法在應用于極不平衡數據或混合類型數據時通常不能提供太大的分類改進[11]。SMOTE是過采樣技術中調整類不平衡數據類別比例的代表方法,這種方法有效地使少數類決策區域變得一般化,放大了少數類的特征[12]。
在面對分類特征時,SMOTE無法直接對其計算距離,SMOTE-NC提供了解決辦法,它的核心思想是取k個近鄰樣本中出現頻率最高的樣本值作為新樣本的變量值[12]。本研究采用SMOTE-NC合成新樣本。
3.統計學方法
(1)單因素分析
本研究采用Wilcoxon秩和檢驗和卡方檢驗分別對定量變量和分類變量進行分析,檢驗水準α=0.05。
(2)模型訓練與評價
本研究采用10×5折交叉驗證對數據集進行擬合,使用SMOTE-NC進行少數類樣本的合成,最終得到1592例樣本(陽性∶陰性=1∶1)。
本研究使用XGBoost、LightGBM、CatBoost和logistic模型分別對原始數據和合成數據進行擬合,使用F1,AUC,Accuracy和Brier score對模型的分類性能進行評價,并繪制校準曲線圖視化模型的校準度。各指標含義及計算公式[13-15]見表1。

表1 模型評價指標
本研究使用SAS 9.4進行單因素分析,Python3.7.6進行3種Boosting算法和logistic回歸模型的擬合。
1.一般情況及單因素分析
本研究納入YMSM 1179例,其中HIV感染者66例,HIV感染率5.6%。
以是否HIV感染對指標進行單因素分析后,年齡、文化程度、本地居住時間、精神物質使用等變量有統計學意義,詳見表2。

表2 單因素分析結果
2.四種模型在原始數據集的表現
表3顯示了四種算法應用于原始數據的結果。就測試集而言,logistic的分類效能最優(AUC 0.750,Accuracy 94.7%),但Brier score較低,事件預測概率的精度較小。Catboost雖Accuracy高,但其F1值為0,且在訓練集上的表現差。

表3 原始數據四種算法的評價指標比較
3.四種模型在合成數據集的表現
表4顯示了4種算法應用于合成數據的結果,圖1是算法在測試集上的表現。與原始數據結果相比,logistic、CatBoost、LightGBM、和XGBoost的AUC分別提升了23.4%、24.0%、25.4%和26.8%。3種Boosting算法的F1值、AUC及準確度均高于logistic回歸,分類性能更優。XGBoost、LightGBM和CatBoost之間的結果沒有明顯差異。

表4 合成數據四種算法的評價指標比較

圖1 合成數據4種算法評價指標雷達圖
圖2顯示了4種算法的校準曲線,橫坐標為事件預測發生率,縱坐標為陽性事件實際發生比例,點越靠近虛線則模型校準度越好。由圖2可知,logistic回歸的校準度最好。

圖2 合成數據4種算法校準曲線
4.變量重要性
經過100次模型擬合之后,原始數據和合成數據前10位變量相對重要性排序如圖3、圖4,各算法前10位變量基本相同。

圖3 原始數據變量相對重要性排序

圖4 合成數據變量相對重要性排序
本研究將XGBoost、LightGBM、CatBoost和logistic回歸應用于YMSM HIV感染的分類預測,利用多項指標對模型泛化能力進行評估,并計算了變量的相對重要性排序。對于原始數據和合成數據,變量重要性排序前10位基本相同。主要的變量包括精神物質使用、近六個月同性安全套使用、本機構檢測類型等。YMSM精神物質的使用、首檢類型和危險性行為密切相關,如多性伴、無安全套性行為、性交前酗酒等,因此會導致更高的感染風險,這與既往研究的結果一致[16-18]。
本研究原始數據的模型訓練結果顯示,logistic回歸的AUC最高,這可能是因為logistic作為傳統的分類模型,其損失函數為交叉熵,需求解的參數減少,更能充分利用陽性樣本信息。就F1值而言,由于本研究使用的數據類別比例差異較大,因此四個模型的訓練結果都較小,這也一定程度上反應出F1對類別比例的敏感性。而在準確度方面,LightGBM效果最差,這可能是因為LightGBM采用了直方圖算法,其犧牲了一定的切分準確性而換取訓練速度以及節省內存空間消耗,一定程度上忽略了很多數據的細節特征,導致數據之間的差異性減小。
考慮到YMSM人群的隱蔽性,樣本量較少,我們使用了SMOTE技術對原始數據進行了合成以平衡類別比例,同時觀察了算法在應用于YMSM大樣本情況下的分類效能。就測試集而言,使用SMOTE后,Boosting算法的模型結果整體上優于logistic。而三種Boosting算法相比,CatBoost的AUC數值上稍高于其他模型,但在準確度和F1值上稍弱。CatBoost分類性能好可能是因為其在處理分類特征時使用的是Target-based 的思想。該思想會隨機順序置換觀測,產生多個隨機置換的觀測集合。然后將標簽值從浮點類型或分類類型轉化為整數,最終所有的分類特征值都被轉為整數。這種方式避免了one-hot編碼處理高維數據會產生大量新特征的缺點。因此,在有大量分類特征時,CatBoost可以充分利用這些特征的信息[19]。
模型校準曲線可以比較不同分類器概率預測的校準度,曲線越靠近對角線虛線則模型校準度越好。本研究發現logistic回歸校準效果較優,這是因為logistic回歸直接優化了對數損失,默認返回經過良好校準的預測值,而Boosting算法為非概率模型,需對其分類結果進行再學習得到概率,返回的概率有偏差,且每個方法的偏差均不同[20]。
在應用SMOTE技術后,四類算法的分類能力都得到了顯著提升,尤其是對類別比例較敏感的F1值、Brier score等指標。雖然3種Boosting算法都可設置陽性樣本權重,但是在處理YMSM數據時,其效果并不如SMOTE合成數據顯著,這可能是因為本研究樣本例數較少,Boosting算法并未充分學習到陽性感染例數的特征。由此可見,SMOTE作為機器學習中處理類不平衡數據的經典手段,擴大了正例的比例,有助于提高Boosting等其他算法的分類性能,這為今后YMSM數據的預測建模提供了一種新思路。