999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost算法的潛在高血脂癥預(yù)測(cè)研究

2021-04-20 02:23:54李榮楊嘉燁宋蘇燕郭志高丁有偉
電子技術(shù)與軟件工程 2021年2期
關(guān)鍵詞:高血脂癥高血壓模型

李榮 楊嘉燁 宋蘇燕 郭志高 丁有偉

(南京中醫(yī)藥大學(xué)人工智能與信息技術(shù)學(xué)院 江蘇省南京市 210033)

1 引言

隨著人民生活水平和膳食結(jié)構(gòu)的改變,我國血脂異常的發(fā)生率呈持續(xù)上升趨勢(shì),血脂異常與動(dòng)脈粥樣硬化密切相關(guān),是冠心病、腦卒中、心肌梗死、猝死的危險(xiǎn)因素[1]。我國成人血脂異常患者的知曉率和治療率仍處于較低水平,血脂異常的防治工作有待加強(qiáng)[2],因此高血脂的評(píng)估和預(yù)測(cè)對(duì)阻止病情的發(fā)生,延緩病情具有重要意義。

近年來,機(jī)器學(xué)習(xí)技術(shù)發(fā)展迅速,并被廣泛用于慢性病預(yù)測(cè)。M Chen 等人[3]在數(shù)據(jù)不完整的情況下使用潛在因素模型重建丟失數(shù)據(jù),并對(duì)某一地區(qū)的慢性病腦梗死患者的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行試驗(yàn),提出了一種新的基于CNN 的多模態(tài)疾病風(fēng)險(xiǎn)預(yù)測(cè)算法(CNN-MDRP),該算法準(zhǔn)確率高,收斂速度快。A Wang 等人[4]借助logistic 回歸對(duì)風(fēng)險(xiǎn)因素初篩,進(jìn)而采構(gòu)建BP 算法的多層感知神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)高血壓。將Logistic 回歸和ANN 進(jìn)行有效結(jié)合,對(duì)于高血壓篩查具有重要意義。Chang W 等人[5]使用遞歸特征消除與交叉驗(yàn)證從體檢數(shù)據(jù)中提取最佳特征子集后,采用SVM、決策樹、隨機(jī)森林、XGBoost 預(yù)測(cè)高血壓,發(fā)現(xiàn)XGBoost 預(yù)測(cè)性能最好,此試驗(yàn)對(duì)深入研究高血壓并發(fā)癥具有較強(qiáng)的現(xiàn)實(shí)意義。

在國內(nèi)外的相關(guān)研究中,將機(jī)器學(xué)習(xí)應(yīng)用于疾病預(yù)測(cè)的研究可以分為用于預(yù)測(cè)慢性疾病的模型設(shè)計(jì)和通過不同模型比較預(yù)測(cè)結(jié)果,大部分研究主要針對(duì)高血壓等一些慢性疾病,由于高血脂癥和其他慢性疾病同樣重要,因此本研究選擇高血脂癥作為主要分析的疾病,提出基于XGBoost 算法的潛在高血脂疾病預(yù)測(cè)方法。針對(duì)采集到的數(shù)據(jù)進(jìn)行數(shù)據(jù)的清洗、轉(zhuǎn)化等處理,利用XGBoost、隨機(jī)森林和Logistics 三種算法對(duì)潛在高血壓進(jìn)行預(yù)測(cè),并比對(duì)不同算法的預(yù)測(cè)結(jié)果,從而找到最理想的算法,為早期高血壓的檢測(cè)和防治提供保障。

2 相關(guān)技術(shù)

2.1 高血脂癥的預(yù)測(cè)原理

高血脂癥是指血清中的膽固醇(TC)和(或)甘油三酯(TG)水平升高,通常患有高血脂癥的患者會(huì)在某些方面的身體數(shù)據(jù)指標(biāo)有異于正常人的表現(xiàn)。潛在高血脂癥的預(yù)測(cè)原理是通過機(jī)器學(xué)習(xí)相關(guān)理論及在海量個(gè)體生理數(shù)據(jù)中搜索異常的,可能引發(fā)高血脂癥的相關(guān)數(shù)據(jù)。

2.2 隨機(jī)森林

隨機(jī)森林(Random Forest)是由Breiman[6]提出的,是基于多棵決策樹的集成分類方法。隨機(jī)森林由多棵決策樹構(gòu)成,用隨機(jī)的方法組成森林,決策樹之間互不關(guān)聯(lián)。當(dāng)有樣本需要判斷時(shí),將抽取的樣本數(shù)據(jù)放到?jīng)Q策樹的根節(jié)點(diǎn),抽取樣本采用有放回的抽樣方法,保證每棵樹之間相互獨(dú)立。決策樹根據(jù)選擇的屬性進(jìn)行判斷,并得到一個(gè)結(jié)果,最后匯總這些結(jié)果,通過少數(shù)服從多數(shù)的方法,出現(xiàn)最多的分類結(jié)果就是最后的答案。

2.3 XGBoost

XGBoost(eXtreme Gradient Boosting)是由陳天奇[7]等人2015年提出,是一種基于決策樹的集成機(jī)器學(xué)習(xí)算法。是在GBDT 基礎(chǔ)上,加入目標(biāo)函數(shù)的二次泰勒展開項(xiàng)和模型復(fù)雜度的正則項(xiàng),使得目標(biāo)函數(shù)與實(shí)際數(shù)據(jù)相差更小,達(dá)到減少數(shù)據(jù)誤差,提高預(yù)測(cè)準(zhǔn)確度的一種算法。

2.4 Logistic回歸

Logistic 回歸算法是從統(tǒng)計(jì)學(xué)中借鑒而來的,通過使用固有的Logistic 函數(shù)估計(jì)概率,來衡量因變量與一個(gè)或者多個(gè)自變量之間的關(guān)系。邏輯回歸假設(shè)數(shù)據(jù)服從伯努利分布,通過極大化化似然函數(shù)方法,運(yùn)用梯度下降來求解參數(shù)達(dá)到將數(shù)據(jù)二分的目的。

3 數(shù)據(jù)預(yù)處理

實(shí)際在生活中取得的數(shù)據(jù)存在許多問題,特別是醫(yī)療領(lǐng)域的數(shù)據(jù),有其獨(dú)特的特點(diǎn),決定了數(shù)據(jù)處理過程中面臨諸多問題,比如冗余性,不完整性,不一致性,多類別數(shù)據(jù)特征等,因此,數(shù)據(jù)預(yù)處理在數(shù)據(jù)建模過程中占據(jù)重要作用,本研究主要使用下述方法對(duì)體檢數(shù)據(jù)進(jìn)行預(yù)處理。

(1)數(shù)據(jù)清洗。對(duì)待預(yù)測(cè)人員體檢數(shù)據(jù)采集的過程中,不可避免會(huì)有大量與潛在高血脂癥預(yù)測(cè)無關(guān)的冗余信息以及不完整信息,因此,需要對(duì)采集到的數(shù)據(jù)集進(jìn)行清洗。

(2)數(shù)據(jù)轉(zhuǎn)換。將隸屬于非布爾屬性的體檢數(shù)據(jù)轉(zhuǎn)換成布爾數(shù)據(jù)屬性。可以通過文本關(guān)鍵詞的提取,長文本轉(zhuǎn)換成數(shù)值向量等方式進(jìn)行處理。

通過上述方式處理得到待預(yù)測(cè)人員的體檢數(shù)據(jù),能更方便的進(jìn)行高血脂癥的數(shù)據(jù)預(yù)測(cè)分析,為潛在高血脂癥的預(yù)測(cè)提供數(shù)據(jù)支撐。

4 實(shí)驗(yàn)結(jié)果及其分析

4.1 實(shí)驗(yàn)環(huán)境和條件

實(shí)驗(yàn)使用的是Windows 10、i5 處理器、8GB 內(nèi)存的計(jì)算機(jī),編程語言采用的是Python 3.8。

4.2 實(shí)驗(yàn)數(shù)據(jù)集

本實(shí)驗(yàn)選擇美年體檢數(shù)據(jù),其中包括57298 份體檢報(bào)告,2795項(xiàng)體檢項(xiàng)目。該體檢報(bào)告中包括數(shù)值型數(shù)據(jù)和文本型數(shù)據(jù),體檢項(xiàng)目名稱已被脫敏處理,個(gè)人id 也進(jìn)行加密處理。

4.3 分類性能評(píng)判標(biāo)準(zhǔn)

使用準(zhǔn)確率(precision,P)、召回率(recall,R)和F1 值(F1-measure,F1)3 個(gè)指標(biāo)作為分類器評(píng)判標(biāo)準(zhǔn)。在分類問題中,可將樣本根據(jù)真實(shí)類和分類模型給出的預(yù)測(cè)類的組合,劃分為真正例(True Positive,TP)、假正例(False Positive,F(xiàn)P)、真反例(True Negative,TN)、假反例(False Negative,F(xiàn)N)四種情況。則有如下定義:

4.4 不同分類模型的比較

本研究主要從體檢數(shù)據(jù)中提取個(gè)體特征,對(duì)疾病進(jìn)行風(fēng)險(xiǎn)預(yù)測(cè),預(yù)測(cè)其膽固醇和血清甘油三酯是否處于異常,從而判斷是否屬于高血脂。

為驗(yàn)證XGBoost 算法分類的準(zhǔn)確性,本研究還選擇了隨機(jī)森林和Logistics 兩種算法,在100%數(shù)據(jù)量下,進(jìn)行比較。由表1可知,XGBoost 算法的結(jié)果要明顯優(yōu)于其他兩種算法。

4.5 不同數(shù)據(jù)量的影響

隨機(jī)選取20%、40%、60%、80%的數(shù)據(jù)作為訓(xùn)練集。從圖1中可以看出,隨著數(shù)據(jù)量的增加,模型的結(jié)果逐步增強(qiáng),但是有一定的波動(dòng)。由于數(shù)據(jù)集樣本分布并不均衡,且一些字段存在一定的缺失率,這導(dǎo)致了模型結(jié)果出現(xiàn)波動(dòng),但從F1 值來來看,隨著數(shù)據(jù)量的增加,模型的結(jié)果逐步增強(qiáng),且未出現(xiàn)明顯下降的趨勢(shì)。如表2所示。

圖1:XGBoost 在不同的數(shù)據(jù)量下測(cè)試結(jié)果的變化

表1:XGBoost 與其他算法的對(duì)比

表2:訓(xùn)練樣本數(shù)據(jù)量對(duì)xgboost 算法的影響

5 結(jié)束語

針對(duì)高血脂預(yù)測(cè)問題提出了基于XGBoost 算法的預(yù)測(cè)方法。通過與其他算法的比較可以發(fā)現(xiàn)XGBoost 算法結(jié)果好于其他算法,通過不同數(shù)據(jù)量的測(cè)試可以看出:隨著訓(xùn)練樣本的增加,準(zhǔn)確率有一定程度的提高。通過本研究可以為高血脂癥的預(yù)測(cè)提供強(qiáng)而有力的理論基礎(chǔ)。

猜你喜歡
高血脂癥高血壓模型
一半模型
復(fù)方樺褐孔菌咀嚼片的制備及對(duì)高血脂癥小鼠降血脂作用
全國高血壓日
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何把高血壓“吃”回去?
高血壓,并非一降了之
3D打印中的模型分割與打包
高血脂癥的診治
阿托伐他汀合氨氯地平治療老年高血脂癥52例臨床療效觀察
主站蜘蛛池模板: 四虎国产永久在线观看| 国产成人乱无码视频| 大陆精大陆国产国语精品1024| 五月综合色婷婷| 亚洲成年人网| 一级毛片基地| 欧美天天干| 国产AV无码专区亚洲精品网站| 欧美激情首页| 亚洲国产日韩视频观看| 欧日韩在线不卡视频| www.亚洲一区| 亚洲福利一区二区三区| 成人第一页| 伊人五月丁香综合AⅤ| 天堂在线www网亚洲| 国产精品免费p区| 国产高清免费午夜在线视频| av尤物免费在线观看| 精品国产成人a在线观看| 亚洲男人天堂久久| 国产在线视频自拍| 亚洲精品动漫| 四虎在线高清无码| a毛片基地免费大全| 国产一区免费在线观看| 国产精品原创不卡在线| 91精品福利自产拍在线观看| 成年人福利视频| 亚洲综合亚洲国产尤物| 久久综合成人| 日韩精品一区二区三区大桥未久 | 色一情一乱一伦一区二区三区小说| 亚洲精品无码AⅤ片青青在线观看| 亚洲中文字幕av无码区| 国产91高跟丝袜| 全部免费毛片免费播放| 亚洲无码高清视频在线观看| 欧美无专区| 亚洲AV无码乱码在线观看裸奔| 综合久久五月天| 一本一道波多野结衣av黑人在线| 亚洲天堂网视频| 99视频在线观看免费| 欧美激情网址| 免费高清a毛片| 无码中文字幕精品推荐| 国产精女同一区二区三区久| 亚洲第一黄片大全| 久久99热66这里只有精品一| 中文字幕人妻av一区二区| 色偷偷一区二区三区| 国产精品免费福利久久播放| 毛片免费网址| 亚洲欧美不卡中文字幕| 国产亚洲欧美日韩在线一区二区三区| 精品91视频| 亚洲第一黄色网址| 亚洲成人一区二区三区| 亚洲91在线精品| 久久久91人妻无码精品蜜桃HD| 亚洲欧美自拍中文| 一本视频精品中文字幕| 2021亚洲精品不卡a| 99久久精品国产自免费| 亚洲成肉网| 91麻豆精品国产91久久久久| 香蕉蕉亚亚洲aav综合| 99re经典视频在线| 午夜限制老子影院888| 亚洲第一极品精品无码| 国产女人在线观看| 久久综合五月| 91福利片| 亚洲女同欧美在线| 国产欧美日韩专区发布| 久久国产毛片| 综合久久五月天| 欧美日韩一区二区在线播放| 国产女人水多毛片18| 视频国产精品丝袜第一页| 操操操综合网|