999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習算法在預測男男性行為人群中HIV感染的應用*

2019-03-18 03:31:32天津醫(yī)科大學公共衛(wèi)生學院流行病與衛(wèi)生統(tǒng)計學系300070
中國衛(wèi)生統(tǒng)計 2019年1期
關(guān)鍵詞:分類模型研究

天津醫(yī)科大學公共衛(wèi)生學院流行病與衛(wèi)生統(tǒng)計學系(300070)

郭長滿 郭 敏 劉媛媛 李長平 崔 壯△ 馬 駿

男男性行為人群(men who have sex with men,MSM)是感染HIV、性病風險最高的人群之一,也是感染人數(shù)增長較快的人群[1],在最新確認的HIV感染者中,MSM所占比例穩(wěn)步增長,甚至一度達到了新確診的22.8%[2]。當前的研究已經(jīng)表明高危性行為,如多性伴、群交、使用物質(zhì)(助性劑)以及無保護性交均為HIV感染的高危因素[3]。針對具有這些高危因素的人群采取必要的預防保護措施可以有效地減少HIV在該人群中的傳播,提高該人群的健康水平,盡管當前已經(jīng)有大量的檢測措施可以早期發(fā)現(xiàn)和治療HIV感染者,但是每年仍然有大量未被發(fā)現(xiàn)的新增HIV感染者,并且有一部分人群仍在接受不必要的預防服務,從而造成醫(yī)療資源的浪費,因此,開發(fā)一種準確而有效的識別早期HIV感染者的方法,具有重要的現(xiàn)實意義。

已有的模型如logistic回歸分析和Poisson回歸分析已經(jīng)在男男性行為人群中的HIV感染廣泛應用,然而這些模型在男男性行為人群中的分類和預測性能卻少有研究,機器學習算法的發(fā)展為評估該高危人群的特征提供了一種新的思路。

機器學習又稱為人工智能,即通過計算機網(wǎng)絡(luò)處理各個變量間的復雜和非線性關(guān)系并使誤差最小化的方法[4]。目前廣泛應用的機器學習算法包括神經(jīng)網(wǎng)絡(luò)、隨機森林和支持向量機,這些算法已經(jīng)廣泛應用于工程學、建筑學等領(lǐng)域,卻很少有研究將這些算法應用于男男性行為人群,為了更好地評估這些算法是否能提高預測HIV感染的精確度,以及尋找具有最好分類效能的分類算法,本研究比較了四種算法的分類效能。

原理與方法

1.logistic回歸的原理

logistic回歸分析在醫(yī)學研究中應用廣泛。目前主要是用于流行病學研究中危險因素的篩選,但它同時具有良好的判別和預測功能,尤其是在資料類型不能滿足Fisher判別和Bayes判別的條件時,更顯示出logistic回歸判別的優(yōu)勢和效能[5]。

2.BP神經(jīng)網(wǎng)絡(luò)的原理

BP神經(jīng)網(wǎng)絡(luò)是一種有監(jiān)督的前饋運行的神經(jīng)網(wǎng)絡(luò),它由輸入層、隱含層、輸出層以及各層之間的節(jié)點的連接權(quán)所組成,這個學習過程的算法由信息的正向傳播和誤差的反向傳播構(gòu)成,在正向傳播過程中,輸入信息從輸入層經(jīng)隱含層逐層處理,并傳向輸出層,每一層神經(jīng)元只影響下一層神經(jīng)元的輸出,信息完成正向的傳播后,如果在輸出層不能得到期望的輸出,那么誤差將進入反向傳播,運用鏈導數(shù)法則將連接權(quán)關(guān)于誤差函數(shù)的導數(shù)沿原來的連接通路返回,通過修改各層的權(quán)值使得誤差函數(shù)減小[6]。

3.隨機森林的原理

隨機森林由Leo Breiman(2001)提出,它通過自助法(bootstrap)重采樣技術(shù),從原始訓練樣本集N中有放回地重復隨機抽取n個樣本生成新的訓練自助樣本集合,然后根據(jù)自助樣本集生成n個分類樹組成隨機森林,新數(shù)據(jù)的分類結(jié)果按分類樹投票多少形成的分數(shù)而定[7]。

4.支持向量機的原理

支持向量機通過結(jié)構(gòu)風險最小化原理來提高泛化能力,它較好地解決了小樣本、非線性、高維數(shù)、局部極小點等實際問題。其主要思想:首先選擇一非線性映射把n維樣本從原空間映射到特征空間,在此高維特征空間中構(gòu)造最優(yōu)線性決策函數(shù)。在構(gòu)造最優(yōu)決策函數(shù)時,利用了結(jié)構(gòu)風險最小化原則,同時引入了間隔的概念。并巧妙地利用原空間的核函數(shù)取代了高維特征空間的點積運算,避免了復雜計算[8]。

5.算法的比較

本研究納入了四種常用的數(shù)據(jù)分類算法,即logistic回歸、神經(jīng)網(wǎng)絡(luò)、隨機森林和支持向量機,比較這四種分類算法基于已有的變量信息對目標人群是否感染HIV進行分類。為了比較四種分類算法的分類效果,將數(shù)據(jù)集分為訓練集和測試集,訓練集用于對分類算法進行訓練,測試集用于對訓練的結(jié)果進行比較和總結(jié)。原數(shù)據(jù)集分別經(jīng)過10次、50次和100次有放回bootstrap重抽樣[9],從而產(chǎn)生10個、50個和100個與原數(shù)據(jù)集大小相同的子樣本集,基于bootstrap重抽樣的特性,每次抽樣時原數(shù)據(jù)集中總會有約37%的樣本不被抽到,用這部分不被抽到的樣本集來分別作為測試集,新產(chǎn)生的子樣本集來分別作為訓練集,基于每種分類算法的分類結(jié)果進行綜合評價。

6.統(tǒng)計學方法

分類器的分類性能采用測試集的分類結(jié)果來進行評價,分類效果的評價采用C統(tǒng)計量來進行[10],即曲線下面積(AUC),及其95%置信區(qū)間,用實驗室檢測得到的樣本人群HIV感染情況作為金標準,而每個分類器每次采用驗證集分類的結(jié)果和金標準進行比較從而可以得到靈敏度、特異度、精確度和相應的曲線下面積。關(guān)于神經(jīng)網(wǎng)絡(luò)、支持向量機和隨機森林最優(yōu)參數(shù)的選取基于3折交叉驗證的方法,最優(yōu)模型的選取依據(jù)分類模型的曲線下面積,選擇具有最大曲線下面積時所對應的參數(shù)。其中,神經(jīng)網(wǎng)絡(luò)的隱藏層神經(jīng)元個數(shù)范圍為(0,10),支持向量機選擇的核函數(shù)為徑向基核函數(shù),對于cost設(shè)置參數(shù)選擇范圍為(2-5,20,215),gamma的范圍為(2-15,20,23),隨機森林中節(jié)點數(shù)范圍為(3,4,5),決策樹的個數(shù)為范圍為(100,200,500),從中選擇最佳的參數(shù)來進行建模和預測。Nnet包被用來實現(xiàn)神經(jīng)網(wǎng)絡(luò)算法,randomForest包用來實現(xiàn)隨機森林算法,e1071包用來實現(xiàn)支持向量機算法,rminer包用于模型調(diào)參。所有的統(tǒng)計分析均運用R語言實現(xiàn)的。

結(jié) 果

1.研究人群和研究變量

本次研究的資料來源于天津市某男性同性戀志愿組織調(diào)查收集的關(guān)于男男性行為人群的資料和體檢信息,入選標準:①年齡≥18周歲;②在天津市居住≥6個月;③在過去六個月曾發(fā)生過至少一次商業(yè)男男性行為。對數(shù)據(jù)進行核查、清洗,排除不符合入選標準,數(shù)據(jù)大量缺失以及有邏輯錯誤的樣本。最終納入研究的目標人群有3086人。對研究變量與HIV的關(guān)系進行單因素分析,篩選出結(jié)果有意義的,以及文獻研究顯示可能有影響的變量。該目標人群HIV感染率為8.39%。最終研究中用到的變量如表1所示。

表1 研究中納入的變量

2.分類算法在訓練集上的表現(xiàn)

表2顯示了經(jīng)過10次、50次和100次重抽樣后,計算四種分類算法在訓練集里的指標及其95%CI,結(jié)果支持向量機在靈敏度、特異度、準確度(PRE)以及曲線下面積(AUC)上表現(xiàn)最好。

表2 四種分類算法在訓練集上的分類效能

3.分類算法在測試集上的表現(xiàn)

表3顯示了經(jīng)過10次、50次和100次重抽樣后四種分類算法在測試集上的效能指標及其95%CI,結(jié)果顯示隨機森林的靈敏度最高(97.6%),支持向量機在特異度,準確度(PRE)以及曲線下面積(AUC)上表現(xiàn)最好。

表3 四種分類算法在測試集上的分類效能

4.四種不同分類算法預測性能比較

預測性能用曲線下面積(AUC)來表示,分別經(jīng)過10次、50次和100次bootstrap重抽樣后:logistic回歸分類結(jié)果對應的AUC分別是為0.724、0.723和0.725;神經(jīng)網(wǎng)絡(luò)為0.916、0.908和0.909;隨機森林為0.924、0.921和0.922;支持向量機為0.949、0.949和0.948;經(jīng)過100次重抽樣后,相比于logistic回歸,神經(jīng)網(wǎng)絡(luò)、隨機森林和支持向量機的預測性能分別提升了18.4%、19.7%和22.3%,具體可參見表4。

5.變量重要性

圖1列出了所有變量的重要性,并使用訓練集進行計算,通過設(shè)置各種算法的最優(yōu)參數(shù)得到每種算法訓練100次后變量的平均重要性。HIV感染的預測算法的變量重要性列于圖1。

表4 不同分類算法預測男性同性戀人群HIV的比較

圖1 基于機器學習算法的變量重要性

討 論

男男性行為人群是HIV感染的高危人群[3],近年來的研究發(fā)現(xiàn)該人群HIV感染率在10%左右[11]。一方面由于其隱蔽性和不可及性,該人群的健康狀況資料較難獲得,因此研究該目標人群時常常受到樣本量的限制。另一方面,由于HIV的高危性,一旦感染HIV卻未得到及時的抗病毒治療將會導致病情的發(fā)展并最終導致艾滋病的發(fā)生。因此為了實現(xiàn)基于有限的樣本數(shù)據(jù),提高分類模型(或分類器)的分類能力的目標,我們嘗試采用傳統(tǒng)模型和機器學習算法結(jié)合,探索適用于男男性行為人群研究的最佳分類器。

本研究是第一次將機器學習算法應用到男男性行為人群中進行分類的研究,采用bootstrap抽樣方法用來對數(shù)據(jù)進行抽樣,結(jié)果具有較好的穩(wěn)定性[9],經(jīng)過100次bootstrap重抽樣后,相比于logistic回歸,神經(jīng)網(wǎng)絡(luò)、隨機森林和支持向量機表現(xiàn)出較好的分類效能,所對應的曲線下面積(AUC)分別提高了18.4%、19.7%和22.3%,且支持向量機為最優(yōu)分類算法,有最高的分類準確度(98.9%)和曲線下面積(94.8%)。

在變量的重要性的計算中,不同的算法具有不同的理論基礎(chǔ)[12]。其中l(wèi)ogistic回歸的變量重要性用回歸系數(shù)和標準差的乘積來衡量。隨機森林是基于平均基尼系數(shù)或平均精確度減少量;神經(jīng)網(wǎng)絡(luò)使用模型內(nèi)變量的總體加權(quán);支持向量機則是基于信息值的變化來衡量。結(jié)果顯示各個變量在不同算法中的重要性大小不一,但是綜合上述算法最終結(jié)果顯示,高危性行為及性病史仍然是影響HIV感染的主要因素,這與之前的研究結(jié)果相一致[3],因此潔身自好,養(yǎng)成良好的生活方式仍然是預防HIV感染的關(guān)鍵措施。

隨著潛在風險因素的數(shù)量增加,模型的復雜性可能導致過度擬合,產(chǎn)生不可信的結(jié)果。為了避免該問題,常用的方法包括適當選擇預訓練、調(diào)整超參數(shù)、交叉驗證、bootstrap和正則化等[13]。本研究中,我們通過對原數(shù)據(jù)集進行bootstrap重抽樣并對結(jié)果進行10次、50次和100次的循環(huán)來驗證用訓練樣本訓練的模型穩(wěn)定性,對比訓練集和測試集的結(jié)果顯示,兩者差異不大,分類效能均比較理想,表明模型的泛化能力比較好;其次通過對機器學習算法中超參數(shù)的調(diào)整,選擇最優(yōu)的超參數(shù)使模型達到最優(yōu)的分類效能。

作為經(jīng)典的統(tǒng)計學方法,logistic回歸仍然是一個可靠的分類方法,其可以計算出各個變量在模型中的系數(shù)以及優(yōu)勢比,各個變量在模型中的作用是清晰、明確的。但是對于非線性可分問題,或處理分類能力有限的變量時表現(xiàn)往往不佳。機器學習算法如神經(jīng)網(wǎng)絡(luò)、支持向量機和隨機森林已成為統(tǒng)計學研究的熱點,因其具有較強自適應、自學習、非線性映射、容錯和泛化能力,正在越來越多地被應用到實際問題中。應用神經(jīng)網(wǎng)絡(luò)時如何選取合適的隱藏層是其中的關(guān)鍵[6],本研究中選取每次訓練結(jié)果(AUC)最好時的參數(shù)作為每次測試集的最優(yōu)參數(shù)。支持向量機算法在處理高維小樣本數(shù)據(jù)時具有比較好的分類效能。其最優(yōu)模型參數(shù)的選取是基于每次訓練過程中模型最優(yōu)性能時所對應的參數(shù),參數(shù)的選取采用3折交叉驗證法。隨機森林比較適合處理海量數(shù)據(jù)、高維問題、連續(xù)性變量,分類變量等。隨機森林在生成過程中采用了bootstrap方法進行重抽樣,生成其內(nèi)部的訓練集和袋外數(shù)據(jù),通過袋外數(shù)據(jù)來測試模型的分類性能,這種基于Bagging的思想提升了模型的性能和穩(wěn)定性[7],但也存在運算量大的局限性。時至今日,機器學習算法的“黑箱”特性仍被詬病,它們不能像logistic回歸模型那樣描述風險因素變量如何相互作用的復雜性以及它們對結(jié)果的獨立影響,但數(shù)據(jù)可視化方法有助于對這些模型的理解[14]。

本研究發(fā)現(xiàn)機器學習算法有助于識別未被發(fā)現(xiàn)的感染HIV的男男性行為人群,從而做到早發(fā)現(xiàn)、早診斷、早治療的目的,同時也為機器學習算法應用于醫(yī)學數(shù)據(jù)開辟了思路。

猜你喜歡
分類模型研究
一半模型
FMS與YBT相關(guān)性的實證研究
遼代千人邑研究述論
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
視錯覺在平面設(shè)計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統(tǒng)研究
分類討論求坐標
數(shù)據(jù)分析中的分類討論
主站蜘蛛池模板: 3344在线观看无码| 亚洲日韩高清在线亚洲专区| 在线播放国产一区| …亚洲 欧洲 另类 春色| 9999在线视频| 在线综合亚洲欧美网站| 精品人妻无码中字系列| 中文国产成人精品久久一| 色悠久久综合| 国产在线小视频| 特级做a爰片毛片免费69| 69精品在线观看| 视频在线观看一区二区| 免费亚洲成人| 美女视频黄又黄又免费高清| 蜜芽一区二区国产精品| 亚洲视频无码| 伊伊人成亚洲综合人网7777| 国产成人精品在线1区| 动漫精品中文字幕无码| 婷婷激情亚洲| 一边摸一边做爽的视频17国产| 国产激情在线视频| 熟女成人国产精品视频| 亚洲三级片在线看| 亚洲精品在线影院| 欧美亚洲一二三区| 亚洲另类色| 国产成人精品一区二区不卡| 最新日韩AV网址在线观看| 精品久久人人爽人人玩人人妻| 日韩免费中文字幕| 国产在线97| 日本中文字幕久久网站| 免费观看成人久久网免费观看| 成年人免费国产视频| 日韩中文字幕免费在线观看 | 国产成人精品一区二区| 亚洲无线视频| 欧美在线伊人| 欧洲亚洲一区| 91精品国产一区| 狼友视频一区二区三区| 久久黄色小视频| 五月天福利视频| 中文字幕在线欧美| 国产综合精品日本亚洲777| 亚洲日本在线免费观看| 亚洲国产精品无码AV| 99久久99这里只有免费的精品| 国产剧情一区二区| 国产无码网站在线观看| 免费无码AV片在线观看国产| 99视频在线免费| 亚洲综合久久一本伊一区| 国内丰满少妇猛烈精品播| 日本一区二区三区精品视频| 中文字幕永久视频| 日本欧美在线观看| 亚洲欧美人成人让影院| 欧美劲爆第一页| 综合人妻久久一区二区精品| 国产成人精品一区二区三在线观看| 国产视频你懂得| 欧美一级色视频| 老熟妇喷水一区二区三区| 天堂久久久久久中文字幕| 丰满的少妇人妻无码区| 欧美精品一二三区| 中文字幕无线码一区| 麻豆精品在线视频| 色综合a怡红院怡红院首页| 欧美亚洲国产视频| 91免费观看视频| 无码在线激情片| 日本精品中文字幕在线不卡| 99久久精彩视频| 尤物在线观看乱码| 国模沟沟一区二区三区| 黄色在线网| 天堂中文在线资源| 国产一区二区三区免费观看|