999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Boosting算法結合SMOTE技術在青年男男性行為者HIV感染預測中的應用*

2022-03-17 08:09:14天津醫科大學公共衛生學院流行病與衛生統計學系300070
中國衛生統計 2022年1期
關鍵詞:分類特征模型

天津醫科大學公共衛生學院流行病與衛生統計學系(300070)

王肖萌 宋德勝 張甜甜 常琴雪 王 淳 王柯云 劉媛媛 李長平 崔 壯△ 馬 駿

【提 要】 目的 評價Boosting算法結合SMOTE技術預測青年男男性行為者(YMSM)HIV感染狀況的性能。 方法 通過網絡和現場抽取2018-2019年天津市YMSM 1179名,分別用XGBoost、LightGBM、CatBoost和logistic結合SMOTE技術建立預測模型,通過AUC、F1、Accuracy、Brier score等指標評價其分類性能。 結果 應用SMOTE合成數據后,logistic、CatBoost、LightGBM和XGBoost的AUC分別提升了23.4%、24.0%、25.4%和26.8%,Boosting算法的分類性能優于logistic模型。 結論 Boosting算法結合SMOTE技術為類不平衡數據的分類預測提供了新思路。

近年來,男男性行為者(men who have sex with men,MSM)由于其高危行為已成為HIV感染的關鍵人群[1]。而近期調查數據顯示,我國MSM人群中25歲以下青年人正不斷增加,已達到30%左右[2-3]。截至2019年,我國青年男男性行為者(YMSM)HIV感染率已達到5.6%[4]。沖動冒險、資金缺乏、社會歧視、家庭學校壓力、首次肛交年齡呈不斷下降趨勢[5]等均促成了YMSM的高感染低檢測現狀。因此,構建科學準確的YMSM人群 HIV感染的預測模型,對于及時發現早期的HIV感染者、減少YMSM人群HIV的傳播具有重要意義。

近年來,機器學習技術蓬勃發展,越來越被用于解決各種醫療問題或結果預測[6],而Boosting算法是機器學習中較為優秀的集成算法。因此,本研究使用Boosting集成學習算法(XGBoost,LightGBM和CatBoost)和logistic模型對YMSM的原始HIV感染數據和基于SMOTE-NC的合成數據進行擬合,比較Boosting算法和logistic回歸在應用于YMSM HIV感染數據時的分類效能,為YMSM人群HIV感染的預測建模提供科學依據。

對象和方法

1.研究對象

本研究共選取2018-2019年在天津市深藍公共衛生咨詢服務中心進行過HIV咨詢與檢測(HCT)的YMSM 1179名。納入標準包括:16~24周歲,近6個月與男性發生過肛交性行為。收集的數據包括基本人口學信息(年齡、性向、文化程度等)、性行為信息(首次性行為年齡、精神物質使用、近1周同性肛交次數、安全套使用情況等)、HIV知曉信息(近1年接受HCT及同伴教育服務、聽說過PrEP等)和HIV感染信息(既往HIV檢測、梅毒感染等)。

2.基本原理

(1)Boosting算法

XGBoost在傳統的梯度提升樹(GBDT)上進行了優化,它在擬合樹模型時,使用了預排序算法,在樹生長時遍歷所有切分點,在找到最優切分點后對數據進行葉子節點的劃分。最終將葉子節點的分數相加得到樣本的預測值。并且,它在計算時支持并行,內置處理缺失值的規則,擁有很大的靈活性,可以提供更高的運行速度和更低的內存消耗[7]。

LightGBM在XGBoost的基礎上作了進一步的改造。LightGBM使用直方圖算法和按葉子節點分割的樹生長策略,大大減少了計算和內存代價,因而在保持模型精度的同時加快了訓練速度。此外,LightGBM在模型中增加了樹的最大深度限制,一定程度上避免了按葉子節點分割導致的過擬合問題[8]。

CatBoost以對稱樹作為基學習器,在訓練過程中采用Target-based方式處理類別特征。因此,當數據集中絕大多數特征都是類別特征時,CatBoost可以高效合理地處理這些特征。 另外,它減少了對廣泛的超參數優化的需要,采用默認參數往往就可以獲得很好的效果,有助于減少預測時間,避免過擬合[9]。

(2)logistic回歸

logistic模型利用logistic函數將二分類問題轉化為連續型條件概率問題。假設有n個觀測樣本,觀測值分別為y1,y2,y3…yn,在給定xi的條件下,令y=1的概率記為pi。則可得到logistic模型的對數似然函數:

在機器學習中,經常在上式中加入L1、L2或Elastic-Net正則項以增加結果的穩定性[10]。

(3)SMOTE-NC

YMSM人群HIV感染的資料通常是類不平衡數據。已有的機器學習方法在應用于極不平衡數據或混合類型數據時通常不能提供太大的分類改進[11]。SMOTE是過采樣技術中調整類不平衡數據類別比例的代表方法,這種方法有效地使少數類決策區域變得一般化,放大了少數類的特征[12]。

在面對分類特征時,SMOTE無法直接對其計算距離,SMOTE-NC提供了解決辦法,它的核心思想是取k個近鄰樣本中出現頻率最高的樣本值作為新樣本的變量值[12]。本研究采用SMOTE-NC合成新樣本。

3.統計學方法

(1)單因素分析

本研究采用Wilcoxon秩和檢驗和卡方檢驗分別對定量變量和分類變量進行分析,檢驗水準α=0.05。

(2)模型訓練與評價

本研究采用10×5折交叉驗證對數據集進行擬合,使用SMOTE-NC進行少數類樣本的合成,最終得到1592例樣本(陽性∶陰性=1∶1)。

本研究使用XGBoost、LightGBM、CatBoost和logistic模型分別對原始數據和合成數據進行擬合,使用F1,AUC,Accuracy和Brier score對模型的分類性能進行評價,并繪制校準曲線圖視化模型的校準度。各指標含義及計算公式[13-15]見表1。

表1 模型評價指標

本研究使用SAS 9.4進行單因素分析,Python3.7.6進行3種Boosting算法和logistic回歸模型的擬合。

結 果

1.一般情況及單因素分析

本研究納入YMSM 1179例,其中HIV感染者66例,HIV感染率5.6%。

以是否HIV感染對指標進行單因素分析后,年齡、文化程度、本地居住時間、精神物質使用等變量有統計學意義,詳見表2。

表2 單因素分析結果

2.四種模型在原始數據集的表現

表3顯示了四種算法應用于原始數據的結果。就測試集而言,logistic的分類效能最優(AUC 0.750,Accuracy 94.7%),但Brier score較低,事件預測概率的精度較小。Catboost雖Accuracy高,但其F1值為0,且在訓練集上的表現差。

表3 原始數據四種算法的評價指標比較

3.四種模型在合成數據集的表現

表4顯示了4種算法應用于合成數據的結果,圖1是算法在測試集上的表現。與原始數據結果相比,logistic、CatBoost、LightGBM、和XGBoost的AUC分別提升了23.4%、24.0%、25.4%和26.8%。3種Boosting算法的F1值、AUC及準確度均高于logistic回歸,分類性能更優。XGBoost、LightGBM和CatBoost之間的結果沒有明顯差異。

表4 合成數據四種算法的評價指標比較

圖1 合成數據4種算法評價指標雷達圖

圖2顯示了4種算法的校準曲線,橫坐標為事件預測發生率,縱坐標為陽性事件實際發生比例,點越靠近虛線則模型校準度越好。由圖2可知,logistic回歸的校準度最好。

圖2 合成數據4種算法校準曲線

4.變量重要性

經過100次模型擬合之后,原始數據和合成數據前10位變量相對重要性排序如圖3、圖4,各算法前10位變量基本相同。

圖3 原始數據變量相對重要性排序

圖4 合成數據變量相對重要性排序

討 論

本研究將XGBoost、LightGBM、CatBoost和logistic回歸應用于YMSM HIV感染的分類預測,利用多項指標對模型泛化能力進行評估,并計算了變量的相對重要性排序。對于原始數據和合成數據,變量重要性排序前10位基本相同。主要的變量包括精神物質使用、近六個月同性安全套使用、本機構檢測類型等。YMSM精神物質的使用、首檢類型和危險性行為密切相關,如多性伴、無安全套性行為、性交前酗酒等,因此會導致更高的感染風險,這與既往研究的結果一致[16-18]。

本研究原始數據的模型訓練結果顯示,logistic回歸的AUC最高,這可能是因為logistic作為傳統的分類模型,其損失函數為交叉熵,需求解的參數減少,更能充分利用陽性樣本信息。就F1值而言,由于本研究使用的數據類別比例差異較大,因此四個模型的訓練結果都較小,這也一定程度上反應出F1對類別比例的敏感性。而在準確度方面,LightGBM效果最差,這可能是因為LightGBM采用了直方圖算法,其犧牲了一定的切分準確性而換取訓練速度以及節省內存空間消耗,一定程度上忽略了很多數據的細節特征,導致數據之間的差異性減小。

考慮到YMSM人群的隱蔽性,樣本量較少,我們使用了SMOTE技術對原始數據進行了合成以平衡類別比例,同時觀察了算法在應用于YMSM大樣本情況下的分類效能。就測試集而言,使用SMOTE后,Boosting算法的模型結果整體上優于logistic。而三種Boosting算法相比,CatBoost的AUC數值上稍高于其他模型,但在準確度和F1值上稍弱。CatBoost分類性能好可能是因為其在處理分類特征時使用的是Target-based 的思想。該思想會隨機順序置換觀測,產生多個隨機置換的觀測集合。然后將標簽值從浮點類型或分類類型轉化為整數,最終所有的分類特征值都被轉為整數。這種方式避免了one-hot編碼處理高維數據會產生大量新特征的缺點。因此,在有大量分類特征時,CatBoost可以充分利用這些特征的信息[19]。

模型校準曲線可以比較不同分類器概率預測的校準度,曲線越靠近對角線虛線則模型校準度越好。本研究發現logistic回歸校準效果較優,這是因為logistic回歸直接優化了對數損失,默認返回經過良好校準的預測值,而Boosting算法為非概率模型,需對其分類結果進行再學習得到概率,返回的概率有偏差,且每個方法的偏差均不同[20]。

在應用SMOTE技術后,四類算法的分類能力都得到了顯著提升,尤其是對類別比例較敏感的F1值、Brier score等指標。雖然3種Boosting算法都可設置陽性樣本權重,但是在處理YMSM數據時,其效果并不如SMOTE合成數據顯著,這可能是因為本研究樣本例數較少,Boosting算法并未充分學習到陽性感染例數的特征。由此可見,SMOTE作為機器學習中處理類不平衡數據的經典手段,擴大了正例的比例,有助于提高Boosting等其他算法的分類性能,這為今后YMSM數據的預測建模提供了一種新思路。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 青青草综合网| 国产在线八区| 国产午夜一级毛片| 国产一级在线播放| 国产幂在线无码精品| 97青草最新免费精品视频| 狠狠亚洲婷婷综合色香| AV天堂资源福利在线观看| 麻豆精品久久久久久久99蜜桃| 夜夜爽免费视频| 国产精品lululu在线观看| 欧美一区二区三区国产精品| 亚洲永久色| 国产女人在线视频| 超清无码熟妇人妻AV在线绿巨人| 精品一区国产精品| 全部免费毛片免费播放 | 午夜视频日本| 国产成人精品一区二区秒拍1o| 国产日产欧美精品| 国产成人三级| 99这里只有精品免费视频| 国产精品久久久久久影院| 亚洲国产中文综合专区在| 亚洲欧美不卡中文字幕| 亚洲三级视频在线观看| 波多野结衣久久精品| 午夜欧美理论2019理论| 四虎成人精品| 老司机久久99久久精品播放| 亚洲系列中文字幕一区二区| 欧美爱爱网| 婷婷激情亚洲| 国产精品香蕉在线| 二级特黄绝大片免费视频大片| 99在线观看免费视频| 国产精品真实对白精彩久久| 国产精品久久久免费视频| 国产在线观看一区精品| 久青草网站| 国产精品永久免费嫩草研究院| 欧美一区日韩一区中文字幕页| 欧美成人一级| 992Tv视频国产精品| 日韩精品亚洲一区中文字幕| 免费一极毛片| 国产精品粉嫩| 久久精品亚洲热综合一区二区| 激情爆乳一区二区| 伊人色综合久久天天| 久久伊人色| 国产欧美精品午夜在线播放| 538国产在线| 美女被操91视频| 中文字幕亚洲精品2页| 99这里只有精品免费视频| 全色黄大色大片免费久久老太| 欧美成人午夜在线全部免费| www.av男人.com| 欧美国产日韩在线观看| 日本黄色不卡视频| 一级毛片免费播放视频| 亚洲一区二区日韩欧美gif| 91探花国产综合在线精品| 色婷婷在线影院| 久久综合丝袜长腿丝袜| 男女男免费视频网站国产| 国产地址二永久伊甸园| 伊人久综合| 亚洲天堂久久久| 国产美女91呻吟求| 国产精品视频a| 国产亚洲精品自在线| 国产色爱av资源综合区| 19国产精品麻豆免费观看| 麻豆精品在线播放| 国产免费羞羞视频| 在线看AV天堂| 欧美成人A视频| 国产九九精品视频| 中文字幕无线码一区| 国产www网站|