999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost的糖尿病風險預測

2019-03-25 08:13:18蘇天培
科技視界 2019年2期

蘇天培

【摘 要】糖尿病作為一種常見慢性疾病,目前無法根治,但卻能通過科學有效的干預、預防和治療,來降低發病率和提高患者的生活質量。本文以真實脫敏的用戶體檢信息數據為基礎,使用eXtreme Gradient Boosting (XGBoost)算法以及隨機森林模型構建預測模型,以用戶血糖含量為目標變量進行預測。結果表明:在現有數據的基礎上,該模型可以有效預測糖尿病,為學術界和精準醫療提供有力的技術支撐,相比于傳統的方法,精度更高。

【關鍵詞】高潛用戶;XGBoost;模型融合

中圖分類號: R587.1 文獻標識碼: A文章編號: 2095-2457(2019)02-0155-002

0 引言

截至2010年,全球糖尿病患者已達2.85億,我國20歲以上成年人糖尿病患病率為9.7%,總數達9240萬。糖尿病起病隱匿,早期癥狀不明顯,其慢性并發癥嚴重危害人類健康。近年有關預測糖尿病患病風險的研究較多。傳統糖尿病的判定標準為:空腹血糖大于或等于7.0毫摩爾/升,或餐后兩小時血糖大于或等于11.1毫摩爾/升,即可確診[1]。傳統的方法是從大量的糖尿病患者中找出可能導致糖尿病的高危因素,這些因素主要與生活習慣有關,然后通過宣傳來預防糖尿病,然而這些高危因素很可能提取的并不全面,而且無法預測糖尿病的患病概率。

為了更好的、更科學的預測糖尿病,本文提出了一種使用XGBoost算法的糖尿病風險預測模型。模型針對用戶的體檢數據構建預測模型,以血糖含量作為評判標準,最后對模型的結果進行模型融合,計算均方誤差(MSE)作為評分標準,據此預測出用戶患有糖尿病的概率,以此作為參考。

1 數據描述

本文的全部數據來源于阿里提供的數據,包括性別,年齡,體檢日期,天門冬氨酸氨基轉換酶,丙氨酸氨基轉換酶,堿性磷酸酶等共計40項基本數據以及血糖含量。用戶體檢數據可以大概分為用戶信息和用戶當時數據,(1)用戶信息:性別,年齡,體檢時期等,此項所有用戶都有,無缺失值;(2)用戶當時數據,如天門冬氨酸氨基轉換酶等,數據為數值型數據,該數據可能存在缺失值,也可能存在極端值。

對數據的預處理是非常必要的環節。由于原始數據存在缺失值,我們先要做的就是填補空值,由于平均值會受到極端值的影響,因此可以通過中位數進行填充。由于XGBoost僅適用于處理數值型向量,因此處理訓練集和測試集時需要將所有類別型數據轉換為數值型數據,獨熱編碼(one-hot)是常用的轉換方式[2]。本文數據集中的性別數據需要經one-hot編碼后才能進行訓練。

2 XGBoost算法介紹

XGBoost屬于一種迭代決策樹算法,并且是在GBDT算法的基礎上進行改進,但二者皆屬于boosting提升方法。XGBoost不同于GBDT,XGBoost可以支持多線程計算,這是因為特征列排序后以塊的形式存儲在內存中,在迭代中可以重復使用;雖然boosting算法迭代必須串行,但是在每輪迭代時同時對所有特征進行計算,就可以做到并行,因此,實現并行化后在同等條件下比同類算法速度提升1個數量級以上[3]。XGBoost允許特征值為缺失值,此時XGBoost將缺失值分別劃入左子樹或右子樹,計算兩者間哪兒個更準確就把缺失值放入哪兒個子樹,這能大大減少特征的處理時間。XGBoost內部包含大量的CART回歸樹,使用殘差來提升模型,內部的正則化則可以預防過擬合,從而保證模型的魯棒性。XGBoost算法支持自定義損失函數,因此非常靈活。下面是該算法的一些重要推導公式:

3 實驗過程與結果

我們的數據是由阿里提供的數據作為樣本。根據所提供的數據,預測用戶的血糖含量,以此作為目標變量來判斷用戶患有糖尿病的可能性。我們嘗試不同的參數來確定最有參數,并且還將數據帶入隨機森林算法中,將其結果與XGBoost算法的結果、隨機森林與XGBoost的結果的均值做對比,從而選出最合適的預測模型,以均方誤差(MSE)作為評分標準。

初始參數值設為弱分類器個數為300,特征取樣比例0.7,步長0.01,lambda為1,此時隨機森林,XGBoost,兩者均值的結果分別為1.5223,1.4840,1.4759。然后再取弱分類器個數為400時,三者結果為1.5324,1.4404,1.4665,弱分類器個數為500時,三者結果為1.5237,1.4294,1.4660。經比較取弱分類器個數為400,此時特征取樣比例選取0.6,三者結果為1.5182,1.4424,1.4649,特征取樣比例選取0.8,三者結果為1.5259,1.4466,1.4709.經比較選取特征取樣比例為0.7。最后選擇lambda為2時,三者結果為1.5339,1.4355,1.4610。

由實驗結果可以發現,無論何種參數,XGBoost算法總體上都比隨機森林的擬合程度要更高。同時考慮到當弱分類器個數為300時,XGBoost算法明顯欠擬合,弱分類器個數為500時,XGBoost算法開始過擬合。橫向對比特征取樣比例,當比例為0.7時,均方誤差(MSE)最小。最后當lambda正則化參數設為2時,進一步處理了模型過擬合,從而減小了均方誤差。由于隨機森林算法引是基于bagging的,因此泛化性較好[4]。而XGBoost算法是基于boosting的,準確度較高。

模型融合的思想是訓練多個模型,然后按照一定的方法集成一個模型[5]。每個單模型都擁有自己的優勢,而多模型融合相比于單模型,就可以獲得多種單模型的優點,因此會比單模型更準確[6]。而上面的表格已經計算出了不同參數下的隨機森林和XGBoost算法的結果。因此我們把隨機森林和XGBoost的結果相融合起來,則結果既可以獲得較高的精度,也可以有一定的泛化性能,公式如下:

其中n表示模型的個數,Weight表示該模型權重,P表示模型i的預測概率值。由于血糖值為數值型,因此可以采用簡單的平均值作為最后的結果。當然也可以單獨設定單個模型的權重P,此處不再贅述。其中使用的XGBoost參數為:弱分類器個數=400,特征取樣比例0.7,步長0.01,lambda:2。其中使用的隨機森林參數為:弱分類器個數=500,特征取樣比例0.7,步長0.01,lambda:1。最終結果均方誤差(MSE)為:1.4609。以上分析結果說明,采用XGBoost算法和隨機森林作模型融合可以實現預測糖尿病的概率,對于指導行業正常發展有一定的意義。

4 結論

本文基于一種XGBoost算法,使用阿里的數據記錄,根據用戶的信息和體檢數據預測血糖值,把結果與隨機森林算法的結果取平均作模型融合,并用MSE值進行評估。結果顯示此方法得出的結果正確率相對較高,泛化性能很好,對相關行業具有實際的指導意義。

【參考文獻】

[1]王美子,石巖.基于數據挖掘當代醫家治療糖尿病周圍神經病變的組方規律分析[J/OL].中醫藥臨床雜志,2018(12).

[2]黃騫,鄭穎爾,鄧鈺橋.基于XGBoost節假日路網流量預測研究[J].公路,2018,63(12).

[3]賈銳軍,冉祥來,吳俊霖,戴晨斌,祁志民,陳潔.基于XGBoost算法的機場旅客流量預測[J].民航學報,2018,2(06).

[4]杭琦,楊敬輝.機器學習隨機森林算法的應用現狀[J/OL].電子技術與軟件工程,2018(24).

[5]白智遠,溫從威,楊錦浩,陳智,呂品.一種融合歷史均值與提升樹的客流量預測模型[J/OL].計算機技術與發展,2019(04).

[6]王夢芹.基于隨機森林的個人信用評價指標分析[D].安徽大學,2018.

主站蜘蛛池模板: 青青青伊人色综合久久| 精品伊人久久久大香线蕉欧美| 国产成人无码AV在线播放动漫 | 国产成人精品视频一区二区电影 | 亚洲精品国产综合99久久夜夜嗨| 五月天久久婷婷| 91福利国产成人精品导航| 国产精品午夜电影| 亚洲中文字幕精品| 国产一区二区丝袜高跟鞋| 三上悠亚一区二区| 亚洲天堂.com| 干中文字幕| 久久夜色精品国产嚕嚕亚洲av| 精品国产aⅴ一区二区三区| 亚洲欧美精品一中文字幕| 国产毛片片精品天天看视频| 亚洲午夜福利精品无码不卡 | 亚洲浓毛av| 91在线中文| 久久综合九色综合97网| 波多野结衣第一页| 亚洲天堂日韩在线| 亚洲成av人无码综合在线观看| 毛片在线看网站| 国产成熟女人性满足视频| 国产黄在线观看| 一区二区三区精品视频在线观看| 国产成人永久免费视频| 99999久久久久久亚洲| 在线视频亚洲色图| 欧美性猛交一区二区三区| av在线无码浏览| 精品伊人久久久久7777人| 丁香五月激情图片| 国产网友愉拍精品| 久热中文字幕在线观看| 精品第一国产综合精品Aⅴ| 国产麻豆另类AV| 国产成人精品18| 99热这里只有免费国产精品 | 亚洲妓女综合网995久久| 亚洲国产精品一区二区第一页免| 91亚洲免费视频| 国产精品欧美亚洲韩国日本不卡| 手机在线国产精品| 天堂岛国av无码免费无禁网站| 国产日韩欧美成人| 国产精品露脸视频| 欧美a√在线| 91视频区| 国产女人在线观看| 欧美日韩在线亚洲国产人| 嫩草影院在线观看精品视频| 国产理论一区| 欧美日韩另类在线| 青青草一区二区免费精品| 亚洲国产精品日韩专区AV| 国产高清在线观看91精品| 欧美一区二区自偷自拍视频| 中国美女**毛片录像在线| 小13箩利洗澡无码视频免费网站| 欧美在线综合视频| 四虎精品国产AV二区| 美女被操91视频| 在线观看网站国产| 国产特级毛片aaaaaa| 国产亚洲精久久久久久无码AV | 美女被操黄色视频网站| 波多野结衣第一页| 亚洲男人天堂2018| 欧美成人aⅴ| 日日噜噜夜夜狠狠视频| 国产成人h在线观看网站站| 成人va亚洲va欧美天堂| 久久国产精品无码hdav| 国产日本欧美亚洲精品视| 欧美一区中文字幕| 色婷婷久久| 国产成+人+综合+亚洲欧美| 青青青国产视频手机| 精品黑人一区二区三区|