999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于三種回歸器和VotingRegressor優化Adaboost的血糖集成預測*

2021-05-08 07:49:52都承華龔誼承張冬陽
中國衛生統計 2021年2期
關鍵詞:血糖模型

都承華 龔誼承,2△ 張冬陽

【提 要】 目的 透過眾多的醫學特征更準確地預測疾病指標,比如血糖值。方法 利用VotingRegressor優化Adaboost,將三種精度較高的學習器進行兩種集成學習。其中,模型1是基于Adaboost視角集成三種精度較高的學習器(GBDT、KRR和SVR);模型2在模型1的基礎上引入VotingRegressor算法優化Adaboost得到Ada-VotingRegressor模型。結果 以血糖值的預測為算例,模型1的(均方誤差,預測時間)在訓練集和測試集分別為(0.006748,43059.072s)和(0.006826,32.123s);模型2的(均方誤差,預測時間)在訓練集和測試集分別為(0.005256,306.688 s)和(0.005234,1.023 s)。結論 基于VotingRegressor優化Adaboost的模型2具有較高的預測精度和效率。

合理運用一些統計方法對疾病指標進行預測,有利于疾病的預防和控制,對我國人民群眾整體的身體素質水平的提高具有重要貢獻。在國內,糖尿病從十年前開始,一直高居國人十大死因第四位,到近期,因糖尿病誘發相關病變,占總死亡人數約8%,說明糖尿病已長期嚴重威脅國人健康與生命[1-3]。血糖濃度是反映病情狀況的一個重要指標,本文擬采用Adaboost集成方法對血糖濃度進行預測,試圖找到更加簡單、高效的血糖預測方法。

資料與方法

1.資料來源

血糖數據來源于2017年天池精準醫療大賽(人工智能輔助糖尿病遺傳風險預測),由阿里云和青梧桐健康科技有限公司提供。

2.研究方法

(1)預測分析

模型1基于Adaboost視角集成GBDT、KRR和SVR三種精度較高的基礎回歸器(其中KRR、SVR結合GridSearchCV方法進行調參,為了簡潔,將第i個基礎回歸器(basic regressor)簡稱為bri(br1=svr,br2=gbdt,br3=krr);模型2在模型1的基礎上引入可以將不同學習器更好融合的VotingRegressor算法優化Adaboost得到Ada-VotingRegressor模型。兩個模型均采用Adaboost R2回歸算法。

模型1 集成流程:(1)輸入訓練樣本和迭代次數K,初始化樣本權重,分別對基礎回歸器使用初始化權重進行訓練,得到弱學習器G(bri)k(xi)。(2)計算訓練集上最大誤差E(bri)K,計算每個樣本的相對誤差e(bri)ki,弱學習器系數α(bri)k。(3)更新樣本的權重分布D(bri)k,輸出強學習器f(x)。

輸出最終模型:

(2)缺失值處理:先將整個數據集中缺失數據達80%的指標進行剔除,量化定性數據和對數據標準化處理,再將其余的缺失數據由平均值代替。

結 果

1.集成模型1

為了確定最優的迭代次數,我們進行了大量的實驗。表1為基于GBDT、KRR和SVR三種算法的Adaboost集成迭代次數實驗結果。

表1 Adaboost集成迭代次數實驗結果

根據表1可知,隨著迭代次數的增加,模型的訓練集和測試集的MSE慢慢下降,當迭代次數為30 時,無論是訓練集還是測試集MSE均達到最小,而后隨著迭代次數增加,模型的MSE慢慢上升,因此最終選定模型1的迭代次數為30 次。最后我們做出迭代次數為30的模型1在訓練集上和測試集上的預測圖,如圖1所示。

圖1 模型1訓練集和測試集預測圖

圖1中,實線表示血糖的預測值Y*,虛線表示血糖的真實值Y。其中,模型1訓練集的均方誤差為0.006748,擬合時間為43059.072s,測試集的均方誤差為0.006826,模型預測時間為32.123s。

2.集成模型2

為了更加清楚地了解模型2的預測效果,我們依次做出模型2的血糖預測模型、預測值和學習曲線圖。

首先,輸出模型2在訓練集上的學習出的預測模型。

f(x)=0.28785404model(krr)+0.3110837model(svr)+0.40106226model(gbdt)

(1)

接著,做出模型2在訓練集和測試集上的血糖預測圖,如圖2所示。

圖2 模型2訓練集和測試集預測圖

圖2中,實線表示血糖的預測值Y*,虛線表示血糖的真實值Y。其中,模型2訓練集的均方誤差為0.005256,擬合時間為306.688s,測試集的均方誤差為0.005234,模型預測時間為1.023s。

最后,做出SVR、KRR、GBDT和模型2(Ada-VotingRegressor)學習曲線。由于四個模型的均方誤差波動幅度不大,為了更加清楚地對比四個模型的學習曲線,我們將其放在一張圖上,如圖3所示。

圖3 三種基礎回歸器和模型2(Ada-VotingRegressor)的學習曲線圖

從圖3我們可以看出:(1)KRR模型曲線一直處于SVR模型學習曲線和GBDT模型學習曲線的下方;(2)當訓練樣本量小于2500時,GBDT的學習曲線處于SVR學習曲線的下方,當訓練樣本量超過2500時,GBDT的學習曲線處于SVR學習曲線的上方;(3)模型2(Ada-VotingRegressor)的學習曲線一直處于其他三條學習曲線之下。

就SVR和GBDT兩個模型而言,在樣本量為2500前后,學習曲線的上下位置互換,其原因可能有算法和樣本容量兩個因素。經過將訓練集和測試集的樣本劃分調整為6.5∶3.5發現,SVR和GBDT的均方誤差仍然隨著樣本量的變化而波動,因此SVR和GBDT的學習曲線的波動可能是由于算法問題導致。所以仍然在訓練集和測試集劃分比例為7:3時討論問題,此時訓練集處理的數據不僅維度較高,樣本量也較大。SVR算法雖然可以有效解決高維度數據但它更適合于小樣本,所以在樣本量大于1500時,SVR模型的學習曲線下降幅度趨于平緩;而GBDT算法雖然適合的樣本量較大,但不適合處理高維度數據,所以在樣本大于2000時,GBDT的學習曲線呈現上升趨勢,因此達到2500時,SVR和GBDT學習曲線的上下位置互換。

從圖3可以進一步看出,模型2在訓練樣本量大約達到3600時與KRR模型學習曲線相交,因為模型2在樣本量超過3500時呈現略微上升趨勢。具體的原因是:在樣本量超過3500 時,SVR模型和GBDT模型都有上升的趨勢,只有KRR模型仍然呈現下降趨勢;但最終模型融合時,由公式(1)可知,SVR模型和GBDT模型的權重系數相加超過0.7,大于KRR的權重系數,所以上升的總體趨勢大于下降的總體趨勢,使得最終的模型2也呈現上升趨勢。

討 論

為了考察選擇GBDT、KRR、SVR(其中KRR和SVR均采用GridSearchCV方法進行自動調參)三種算法作為基礎回歸器后模型1和模型2集成的預測效果是否有所提高,本文將分別算出GBDT、KRR、SVR三種算法對血糖值的預測精度,具體結果表2所示。

表2 5種模型的均方誤差

由表2可知,選用GBDT、KRR、SVR三種算法作為基礎回歸器進行迭代學習時,最終得到的模型1的精度反而有所降低,沒有單個的GBDT模型、KRR模型、SVR模型精度高,這說明本文之前采用的GBDT模型、KRR模型、SVR模型已是高精度的回歸模型,并不適合直接做 Adaboost集成的基礎回歸器。為了利用Adaboost提升已有的強學習器,本文引入可以將不同學習器更好融合的VotingRegressor模型,得到一個新的集成模型記為Ada-VotingRegressor(模型2)。由表2可知:模型2明顯預測精度高于SVR、KRR、GBDT、模型1,預測時間和擬合時間也較短,模型效率高;由于受模型1和模型2所選基礎回歸器的影響,即SVR算法不適合大樣本數據,GBDT算法不適合高維度數據,使得集成后的模型1和模型2的均方誤差隨著樣本量的波動而變化,最終使得訓練集和測試集之間的誤差分別為萬分之七和萬分之二。

利用天池精準醫療大賽的數據所作的實證分析的結果表明:模型2不僅預測精度高于SVR、KRR、GBDT和模型1,預測時間和擬合時間也較短,模型效率高。在基礎回歸器的選擇上,建議首選基礎回歸器的精度最好不要太高;其次,在同時選用幾個基礎回歸器時最好考慮這幾個回歸器各自的優缺點,使集成模型各方面更完善;最后,取基礎回歸器時要考慮所選回歸器與研究使用的樣本量的大小與維度是否合適。本研究結合了Adaboost的權重更新算法和VotingRegressor加法集成原理對模型進行線性融合,得出的模型2,能夠更準確地預測血糖值,同時該方法同樣適用于其他疾病指標的預測。

在疾病指標值預測問題中,本文采用的是基于Adaboost視角的集成模型,但預測疾病指標值方法還有許多,比如楊光利用決策樹模型建立2型糖尿病預測模型[4],冷菲利用極限梯度增強算法構建模型,研究兩種不同癌癥亞型中mRNA表達量[5];除此之外神經網絡[6-7]、隨機森林[8]、支持向量機[9]等也是常用于預測疾病指標的算法,也可以嘗試利用這些算法作為集成算法的學習器,以優化Adaboost模型,提升模型的預測精度。雖然本文采用的基礎回歸器訓練結果并不是最理想的,但是引入VotingRegressor算法的模型2預測疾病指標的精度有所提高,為糖尿病等疾病的預測和控制提供依據。

猜你喜歡
血糖模型
一半模型
細嚼慢咽,對減肥和控血糖有用么
保健醫苑(2022年6期)2022-07-08 01:26:34
一吃餃子血糖就飆升,怎么辦?
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
慎防這些藥物升高血糖
妊娠期血糖問題:輕視我后果嚴重!
媽媽寶寶(2017年3期)2017-02-21 01:22:30
豬的血糖與健康
3D打印中的模型分割與打包
糖尿病患者每天應該測幾次血糖?
人人健康(2016年13期)2016-07-22 10:34:06
主站蜘蛛池模板: 久久永久视频| 色综合国产| 国产乱子伦手机在线| 91久久偷偷做嫩草影院电| 沈阳少妇高潮在线| 国产午夜福利在线小视频| 色综合热无码热国产| 九九九精品成人免费视频7| 成人免费黄色小视频| 欲色天天综合网| 在线观看视频99| 黄色网在线| 久久精品中文字幕免费| 99久久精品无码专区免费| 欧美在线中文字幕| 成人午夜免费观看| 69国产精品视频免费| 国产精品人成在线播放| 中文字幕在线永久在线视频2020| 国产一区二区精品福利| 免费亚洲成人| 666精品国产精品亚洲| 久草视频中文| 国产精品亚洲一区二区在线观看| 97亚洲色综久久精品| 日本91视频| 国产精品午夜电影| 国产成人久久综合777777麻豆| 啦啦啦网站在线观看a毛片| 一本综合久久| 91精品国产自产91精品资源| 久久永久视频| 国产成人精品高清不卡在线| 日韩成人在线网站| 国产一区二区三区免费| 亚洲永久色| 亚洲中文字幕无码爆乳| 国产成人精品午夜视频'| 2020国产在线视精品在| 亚洲欧美不卡| 亚洲精品第一在线观看视频| 久久夜色精品国产嚕嚕亚洲av| 中文字幕色在线| 亚洲成aⅴ人片在线影院八| 亚洲人成电影在线播放| 一本久道久久综合多人| 亚洲精品色AV无码看| 国产手机在线小视频免费观看 | 亚洲五月激情网| 亚洲精品第一页不卡| 国产亚洲高清视频| 国产屁屁影院| 大乳丰满人妻中文字幕日本| 就去色综合| 日韩欧美综合在线制服| 伊人大杳蕉中文无码| 国模私拍一区二区| 青青草原国产精品啪啪视频| 久久综合伊人77777| 国产网友愉拍精品视频| 刘亦菲一区二区在线观看| 欧日韩在线不卡视频| 久久久久国产一级毛片高清板| 曰AV在线无码| 在线观看国产精品第一区免费| 婷婷午夜影院| 国产人人射| 在线国产综合一区二区三区| 午夜视频日本| 亚洲高清无在码在线无弹窗| 亚洲中文字幕97久久精品少妇| 综合色区亚洲熟妇在线| 日韩精品一区二区三区免费在线观看| 久久人与动人物A级毛片| 人人91人人澡人人妻人人爽| 精品在线免费播放| 中文字幕人妻无码系列第三区| 国产精品页| 久久久久人妻一区精品色奶水 | 91在线播放免费不卡无毒| 国产精品成人AⅤ在线一二三四| 亚洲欧美日韩中文字幕在线一区|