鄭家浩 王愛民 于濱 馮超南 紀俊



摘要: ?針對糖尿病風險預測中數據單一導致預測誤差較大的問題,本研究基于體檢電子病歷數據分析搭建空腹血糖預測模型,探究適合進行空腹血糖預測建模的方法,預測血糖指標及糖尿病的患病風險?;跀祿诰蚧玖鞒蹋M行數據預處理,采用序列后向算法進行特征選擇,使用決策樹、隨機森林、SVM、邏輯回歸及樸素貝葉斯分類5種機器學習算法進行建模預測,并驗證所構建模型的效果。研究結果表明,五種算法的準確率均高于88%,其中SVM準確率最高,達96.7%;敏感度均高于66%,隨機森林敏感度最高,為95.1%;特異度均高于88%,邏輯回歸特異度最高,為97.0%;AUC的值均高于0.8,隨機森林最高為0.942。綜合比較序列后向選擇算法,隨機森林算法更適合搭建糖尿病風險預測模型。該研究對通過電子病歷數據進行空腹血糖預測的準確度更高,具有很高的應用價值。
關鍵詞: ?體檢數據; 空腹血糖; 機器學習算法; 糖尿病風險預測
中圖分類號: TP181; R587.1 文獻標識碼: A
糖尿病是由多種復雜原因導致的終身代謝性疾病,以慢性高血糖為顯著特征[1],根據2019年第九版全球糖尿病地圖顯示,20~79歲的糖尿病成年患者約有4.63億[2]。空腹血糖是糖尿病篩查的指標之一,對空腹血糖的預測可預測患病風險,為醫生對體檢人員身體發展情況提供建設性意見。2015年,ShafiHabibi等人[3]利用決策樹算法對伊朗地區22 398例糖尿病患者的診斷數據進行分析,準確率達71.7%;2018年,López B等人[4]利用隨機森林構建糖尿病預測模型,對677份單核苷酸多態性數據研究,預測模型最佳AUC值達0.89;2018年,肖輝等人[5]使用全國13家三甲醫院的調查報告和體檢數據;2019年,張占林等人[6]針對烏魯木齊市2個社區7個月內35~74歲的6 857條體檢數據進行糖尿病風險預測,結果表明隨機森林算法的預測準確度較高;基于文獻研究發現,糖尿病風險預測模型采用的數據集大多基于西方白種人群建立[78],但研究表明白種人群建立的糖尿病風險預測模型[9]并不適用于其他種族,用戶數據包含生活習慣、病史等個人隱私,收集過程相對困難,且研究數據單一,大多數采用同年的體檢數據預測,誤差較大,此外特征選擇大多根據經驗,忽略了與血糖、糖尿病無直接相關性的數據項對空腹血糖的影響?;诖?,本研究選用某體檢機構連續4年的體檢數據預測空腹血糖,表征糖尿病患病風險。通過序列后向選擇算法篩選日常體檢項目數據得到研究對象,探究更實用的空腹血糖預測模型。該研究對糖尿病預測具有重要意義。
1 資料與方法
1.1 研究對象
本研究采用北京某體檢機構的數據,共108 386名用戶的9 691 699條體檢信息數據,時間范圍為2011年1月至2014年12月,其中連續4年體檢人員有8 788人,經過數據清洗,最終將7 129名體檢者連續4年的體檢數據作為實驗數據集。其中,男性3 876名,年齡為7~79歲,女性3 253名,年齡為10~74歲,男女比例分布如圖1所示,7 129名體檢者年齡分布如圖2所示,體檢者年齡最小為7歲,年齡最大為79歲,平均年齡33歲。
1.2 決策樹
決策樹(decision tree,DT)[10]是一種某項屬性與其值的映射關系,自頂向下遞歸的方式構造形成樹狀結構。決策樹是一種常見機器學習預測算法,使用信息學中信息熵的概念判斷節點的純度構建決策樹。構建決策樹自根節點開始,依次未分類項的數據屬性進行測試,按照算法進行計算,將結果逐層輸出分支,直至到達末端輸出的葉節點,并將葉節點存放的類別作為決策結果。
2 模型設計
本研究實驗過程大致分為數據預處理、數據降維、建立模型和預測[21]四部分,空腹血糖預測模型流程圖如圖3所示。
2.1 數據預處理
實驗數據來自某體檢中心2011年1月至2014年12月間共108 386條體檢者信息。數據預處理包括刪除存在數據錯誤和缺失數據;標準化數據項結果中的非數據型或文本型記錄;刪除個人信息中涉及的隱私信息。體檢數據對數據項進行選擇的標準如下:選擇糖尿病相關聯數據項,如血脂、尿糖、血清高密度脂蛋白膽固醇、脂肪肝、收縮壓、舒張壓等;選擇體檢者參加的常規項目,如血常規項目,尿常規項目等;較少數體檢者的項目,如某類實驗室檢查等不選擇。
數據清洗后獲得7 129名體檢者連續4年的體檢數據。數據集共有139個特征,包括局部特征(每年有45個數據項,共3年),主要是血常規、尿檢、生化、超聲、心電等項目,還包括4個全局特征,即第4年空腹血糖、身高、年齡和性別,其中身高為4年身高數據均值;年齡為第3年的年齡;性別為第3年性別,第4年空腹血糖為目標預測變量。
2.2 數據降維
序列后向選擇(sequential backward selection,SBS)[22]是數據集所含全部特征集O,從特征全集O中刪除一個特征x,使用刪除特征x后的數據集建模,循環此步驟直至得到最優評價函數。
本文特征選擇應用序列后向選擇算法,從全部特征集開始,每次從特征集中去掉按照隨機森林算法得到的特征重要性最低的一個特征,直至剩余兩個特征,尋找所有特征集合所構建模型AUC值最高的特征集,將這個特征集稱為最佳特征子集[22],最佳特征子集所構建模型AUC的值最高為0.919。隨機森林特征重要性如表2所示,前17項為所使用體檢項,包含3年數據項共49項。
2.3 建模
使用決策樹、隨機森林、SVM、樸素貝葉斯分類和邏輯回歸5種學習算法,利用最佳特征子集進行建模。以第4年的空腹血糖為目標預測變量,將值大于7 mmol/L的賦值1,定為陽性;小于等于7 mmol/L賦值0,定為陰性,進行建模預測,預測結果為1,則患糖尿病風險高,反之,風險低。實驗過程中使用R語言4.0.2版本,以及R語言集成的rpart_4.115、randomForest_4.614和e1071_1.73等程序包進行建模,并對模型參數進行調整。
3 結果比較
為充分利用數據,本研究采用10折交叉驗證方法在不同算法上建模。將數據集隨機分成10份,每次取9份作為訓練集,剩余1份作為預測集,循環10次,確保所有數據都用于訓練或預測。采用以上5種算法對數據集進行訓練和驗證,求取每組所得結果的準確率、敏感度、特異度、AUC作為此種算法的評價指標。5種算法預測結果如表3所示。由表3可以看出,AUC值最高的是隨機森林算法,但決策樹算法和邏輯回歸的AUC值也超過0.9;從準確率角度來看,所有算法均高于88%,最高算法為SVM,高達96.7%,最低是樸素貝葉斯分類,為88.5%;從敏感度角度來看,最高算法為隨機森林,高達95.1%,最低是SVM,為66.4%;從特異度角度來看,最高算法為SVM,高達98.7%,最低是樸素貝葉斯,為88.9%。綜合4個指標,隨機森林算法較好。隨機森林算法模型特征重要性如表4所示,其中重要排名前三的體檢項為前3年空腹血糖。表4將每一年的體檢項作為一個數據項進行分析,導致表2的排名有出入。由表4中可以看出,大部分特征的第3年特征的重要性高于其它年,說明最近一年的體檢情況更好的表征現在的身體狀況,對預測未來一年空腹血糖更重要,但不能忽視前兩年體檢數據的影響。
4 結束語
本研究基于連續4年的體檢數據,使用5種學習算法,利用最佳特征子集建立糖尿病風險預測模型,并對模型進行評價和比較。其中,隨機森林所建模型綜合評價最好,準確率為93.4%,更適合搭建以空腹血糖為標準的糖尿病風險預測模型。結合目前國內外研究成果,證明隨機森林算法表現更好。該研究對定期體檢人群身體狀況可以實現精準預測,不僅針對糖尿病患者,也為健康人群未來身體狀況提供參考意見。本研究所用數據均來自某體檢中心,由于地理位置的限制存在一定局限性,未來將結合其它地區數據進行驗證,探究區域間實驗結果的差異。下一步將使用更多的特征選擇算法和建模算法優化糖尿病風險預測模型,并將其用于研究其它體檢指標或慢性病的預測模型。
參考文獻:
[1] 楊傳玲. 糖尿病治療的臨床護理研究[J]. 養生保健指南, 2019(21): 58.
[2] 呂若瑜. 最新版“全球糖尿病地圖”里的中國景象[J]. 江蘇衛生保健, 2020, 265(2): 56.
[3] Habibi S, Ahmadi M, Alizadeh S. Type 2 diabetes mellitus screening and risk factors using decision tree: results of data mining[J]. Global Journal of Health Science, 2015, 7(5): 304308.
[4] TorrentFontbona F, López B. Single nucleotide polymorphism relevance learning with random Forests for type 2 diabetes risk prediction[J]. Artificial Intelligence in Medicine, 2018, 85: 4349.
[5] 肖輝, 郝元濤, 徐曉, 等. 基于隨機森林算法和Logistic回歸模型的糖尿病風險因素研究[J]. 中國數字醫學, 2018, 13(1): 3335.
[6] 張占林, 孫勇, 妥小青, 等. 隨機森林算法對體檢人群糖尿病患病風險的預測價值研究[J]. 中國全科醫學, 2019, 22(9): 10211026.
[7] ?師正坤, 郭佳, Parry M, 等. 中國糖尿病風險評估工具的研究現狀與進展[J]. 中國全科醫學, 2015, 18(20): 23682372.
[8] Schulze M B, Hoffmann K, Boeing H, et al. An accurate risk score based on anthropometric, dietary, and lifestyle factors to predict the development of type 2diabetes[J]. Diabetes Care, 2007, 30(8): 510515.
[9] Chien K, Cai T, Hsu H, et al. A prediction model for type 2 diabetes risk among chinese people[J]. Diabetologia, 2009, 52(3): 443450.
[10] Rokach L, Maimon O. Topdoun induction of decision trees classifiersa survey[J]. IEEE Transactions ?on Systems Man and Cybernetics Part C Applications & Reviews, 2005, 35(4): 476487.
[11] Breiman L. Random Forests[J]. Machine Learning, 2001, 45: 532.
[12] 曹正鳳. 隨機森林算法優化研究[D]. 北京: 首都經濟貿易大學, 2014.
[13] 王曉杰, 孫仁誠, 邵峰晶. 基于隨機森林的用戶對在線課程的放棄預測[J]. 青島大學學報: 工程技術版, 2016, 31(4): 1821.
[14] Hefner J, Spradley M, Anderson B, et al. Ancestry assessment using random forest modeling[J]. J ForensicSci, 2014, 59(3): 583589.
[15] Cossock D, Zhang T. Statistical Analysis of Bayes Optimal Subset Ranking[J]. IEEE Transactions on Information Theory , 2008, 54(11): 51405154.
[16] Liaw A, Wiener M. Classification and regression by random forest[J]. R News, 2002, 2(3): 1822.
[17] 鞠維欣, 趙希梅, 魏賓, 等. 基于深度學習的肝硬化識別[J]. 青島大學學報: 工程技術版, 2018, 31(4): 5460.
[18] Walker S H, Duncan D B. Estimation of the probability of an event as a function of several independent variables[J]. Biometrika, 1967, 54(1/2): 167179.
[19] 冀偉. 基于數據挖掘的2型糖尿病風險預測模型研究[D]. 北京: 北京工業大學, 2019.
[20] Fawcett T. An introduction to ROC analysis[J]. Pattern Recognition Letters, 2006, 27(8): 861874.
[21] 邵峰晶, 于忠清. 數據挖掘原理與算法[M]. 2版. 北京: 中國水利水電出版社, 2003.
[22] 肖文翔. 基于電子病歷分析的糖尿病患病風險數據挖掘方法研究[D]. 青島: 青島大學, 2016.