999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的冠心病住院費用預測研究

2019-12-05 08:35:54夏濤徐輝煌鄭建立
智能計算機與應用 2019年5期
關鍵詞:冠心病

夏濤 徐輝煌 鄭建立

摘 要:冠心病是一種常見的心血管疾病,具有高發病率的特點。因此,冠心病住院費用的預測對于控制醫療費用有著重要意義。本文基于機器學習方法,通過將總的住院費用劃為8個分項費用,以患者特征作為輸入,結合隨機森林與極端梯度提升算法,并使用十折交叉驗證確定最佳的分項費用預測模型。再根據分項費用的預測值進行求和得出總的預測住院費用。總費用預測模型的擬合優度(R2)為0.825,平均絕對百分比誤差(MAPE)為29.16%。以此預測模型測試新的數據集,結果R2為0.769,MAPE為29.13%。結果表明,本文建立的費用預測模型能夠有效地預測冠心病住院費用。

關鍵詞: 冠心病;住院費用;集成學習;隨機森林;極端梯度提升

【Abstract】 Coronary heart disease is a common cardiovascular disease characterized by high morbidity. Therefore, the prediction of hospitalization expenses for coronary heart disease is of great significance for controlling medical expenses. Based on the machine learning method, this paper divides the total hospitalization cost into eight sub-items, takes the patient characteristics as input, combines the Random Forest and extreme gradient boosting algorithm, and uses the ten-fold cross-validation to determine the best sub-cost prediction model. Then, the total predicted hospitalization expenses are obtained by summing the predicted values of different itemized expenses. The total cost prediction model has a goodness of fit (R2) of 0.825 and an average absolute percentage error (MAPE) of 29.16%. Using this predictive model to test the new data set, the result is R2 of 0.769 and MAPE of 29.13%. The results show that the cost prediction model established in this paper can accurately and effectively predict the hospitalization cost of coronary heart disease.

【Key words】 ?coronary heart disease; hospital costs; ensemble learning; Random Forest; extreme gradient boosting

0 引 言

2017年,國務院印發《關于進一步深化基本醫療保險支付方式改革的指導意見》等系列政策文件,針對醫保支付方式提出了明確的指導意見,疾病診斷相關分組[1](Diagnosis-related groups, DRGs)收付費改革在全國多地醫院開展試點。DRGs是以出院患者信息為依據,綜合考慮患者的主要疾病診斷以及治療方式,并結合患者體征如年齡、并發癥和合并癥,將疾病的復雜程度和費用相似的案例分到同一組,從而讓不同強度和復雜程度的醫療服務之間有了客觀對比依據。

隨著老齡化進程的加速,中國冠心病的患病率和死亡率呈現上升趨勢。本文基于DRGs收付費方式,探究如何在冠心病患者入院時根據患者的不同情況如性別、年齡、疾病的嚴重程度、手術與否等來預測出患者的總費用,并將總費用控制在相應的DRGs分組[2]中,由此達到對醫療費用的有效控制。費用預測使醫療成本趨近于合理,從而保證醫療質量,提高醫院競爭力。另外,費用的預測能夠為住院處收取預交金提供數據參考。

近年來,隨著機器學習技術的發展,基于機器學習的疾病醫療費用預測成為研究熱點之一。宋振等人[3]采用人工神經網絡模型來對膽石病患者住院費用因素進行分析,得到住院天數、醫院等級、結石部位、是否手術等對住院費用均有影響。張繼[4]使用決策樹分類算法對婦科腫瘤患者住院費用做了一定的研究,得出婦科惡性腫瘤患者住院費用的影響因素,包括入院診斷、年齡、婚姻、住院天數、入院情況、出院情況、手術方式以及麻醉方式。趙璇[5]采用決策樹算法分析了影響患者醫療費用的因素,得到住院天數、藥品使用規則、衛生材料使用、就診醫院等不同因素會影響冠心病患者費用。郭偉文等人[6]應用灰色GM(1,1)模型預測住院費用,得到人均住院費用模型的平均相對誤差為2.36%。

上述研究通過不同的數據挖掘算法對影響費用的因素進行定量分析,但是沒有對相應的住院總費用加以預測。使用灰色GM(1,1)模型預測住院費用只是基于統計學原理對費用進行粗略的預測,缺乏實用性和參考性。

本文采用機器學習中的集成學習方法建立冠心病住院費用的預測模型。首先采集2017~2019三年的冠心病患者信息以及相應的住院費用數據,對數據進行預處理和特征選擇,將得到的特征作為輸入。其次,使用4種機理不同的機器學習算法對冠心病住院患者治療總費用中占比最大的材料費用進行預測性能比對,并確定最佳回歸器。針對2017~2018兩年的冠心病住院的分項費用建立了8個回歸器,并進行十折交叉驗證。將所有分項費用預測值求和后與實際總費用進行比較,使用擬合優度和平均絕對百分比誤差作為度量指標,由此確定最佳的費用預測模型。最后,應用此模型對2019年的冠心病治療費用進行預測。預測結果穩定,證明了本文方法的實用性和有效性。

1 材料與方法

1.1 數據選取與預處理

本文數據來源于某三甲醫院數據庫,通過文獻閱讀,從醫院信息系統(HIS)數據庫和臨床信息系統(CIS)數據庫中抽取冠心病住院患者信息和費用信息。冠心病患者的信息可以從人口學特征、臨床因素、管理因素、支付方式等因素抽取,費用信息可以從結算日期、每一部分的費用明細等提取。

抽取患者信息和費用信息時,數據會存在異常值、缺失值、錯誤值、重復記錄等問題,需要進行數據預處理,如刪除住院天數小于1天或者大于1年的住院記錄等異常值。處理空值(NULL)則應對缺失值進行補充或刪除該變量[7]。如果該變量缺失值大于總樣本數目的1/3,就刪除該變量;若該變量的缺失值低于樣本的1/3,則根據其他信息對該變量進行相應的補充。通過數據預處理,數據總共有7 200份樣本,將2017~2018年5 800份作為訓練集,2019年1 400份作為測試集。

1.2 特征處理

數據預處理后,需要選取更加精確、有意義的特征作為模型訓練的特征向量。經查閱相關文獻并結合醫院數據庫的有效信息,本文選取的特征見表1。在回歸建模中,分類特征不應直接使用,需要進行獨熱編碼[8]使其特征得以數字化。離散型特征獨熱編碼后,能使得特征向量之間的距離計算更加合理。本文中“護理名稱、疾病種類、醫保代碼、科室名稱”特征都屬于離散特征,應對其進行相應的獨熱編碼。

多類別特征獨熱編碼后映射到高維的特征空間,稀疏性會增多。稀疏特征會影響或誤導學習器,因此,需要通過降維刪掉冗余特征只保留主成分。本文采用SparsePCA[9]進行數據降維,通過機器學習開源庫Sklearn[10]的decomposition.SparsePCA函數來實現。

對疾病種類特征進行獨熱編碼后,SparsePCA函數的n_components(返回的特征數目)設置為4,而科室名稱、護理名稱和醫保代碼的n_comonents設置為3。參數的設置旨在最大程度保留有效信息,減少稀疏分量。經過降維,科室名稱降至3維,護理名稱降至3維,醫保代碼降到3維,疾病種類降到4維。結合性別、年齡、入院情況、患者來源、是否手術、高血壓等級、是否患有高血壓、是否患有糖尿病、是否并發癥以及并發癥的數量,共24維特征構成回歸器的特征輸入。

1.3 基于集成學習的住院費用預測建模

機器學習中處理回歸問題主要分為兩大類。一類是廣義線性回歸算法,另一類是集成學習方法。其中,集成學習使用一系列學習器進行訓練,運用某種規則把各個預測結果通過整合來獲得比單個學習器更好的學習效果。集成學習相比廣義線性回歸優勢在于保證模型的準確度,并可有效防止模型過擬合,具有較高的魯棒性。本文將住院總費用拆分為8種費用類別,包括:檢驗費用、材料費用、治療費用、住院費用、藥品費用、護理費用、手術費用與其他費用。

1.3.1 隨機森林

1.3.3 總住院費用預測建模

本文通過對特征進行處理,將上述24維特征作為回歸器輸入,并使用集成學習方法,結合十折交叉驗證建立總住院費用預測模型。

總的住院費用是由檢驗費用(jyfy)、材料費用(clfy)、藥品費用(ypfy)、治療費用(zlfy)、護理費用(hlfy)、手術費用(ssfy)、住院費用(zytsfy)、其他費用(qtfy)構成。因此,通過對其子項費用進行預測后求和可得到總預測住院費用。

分析可知,材料費用占總住院費用的比重最大,該模型預測精確與否會極大影響總費用模型的性能。因此,在建立材料費用的預測模型時采用Lasso回歸、K近鄰回歸(KNN)、支持向量回歸(SVR)、隨機森林與XGBoost多種機理不同的算法進行比較,擬合優度分別為0.821,0.549,0.659,0.824,0.826,確定XGBoost為材料費用的最佳預測模型。

對于材料費用之外的分項費用,由于其數值所占的比重較低,所建立的不同費用回歸器的預測精度對總費用預測模型的影響較小。子項費用回歸器越簡單,聚合而成的總費用預測框架就越穩定。此外,隨機森林需要調試的超參數少于XGBoost,以此構建的預測模型復雜度比XGBoost低。因此,為保證預測框架的魯棒性,本文運用隨機森林對其它子項費用進行預測建模。

總費用預測模型的流程如圖1所示。在對子項費用建立回歸模型時,采用網格搜索確定各個模型最佳參數,隨機森林模型參數見表2。

材料費用的XGBoost模型最大深度為3,學習率為0.01,集成樹數目為600,最小子節點權重為5,訓練樣本子采樣率為0.8,特征列采樣率為0.8,L2正則化項為1。

2.3 特征權重分析

本文將總費用拆分為8項子費用,在分別建立費用預測模型后,計算出每個模型不同特征的重要性,并取7個特征度最大的預測變量制圖,詳見圖2。

從圖2可知,住院天數特征對治療費用模型、住院費用模型、護理費用模型、其它費用模型以及藥品費用模型影響較大。是否手術特征對材料費用模型、手術費用模型影響較大。這對后續費用控制的研究有一定指導意義。

3 結束語

對冠心病住院費用的控制能減輕患者負擔,降低治療成本,提高醫療質量,因此費用預測具有研究意義。本文基于機器學習中的集成學習方法,根據24維特征輸入構建出不同回歸器,并對冠心病住院患者的分項費用進行預測,確定了結合隨機森林和極端梯度提升的費用預測模型,而且通過擬合優度和平均絕對百分比誤差度量模型的預測性能。

實驗結果顯示,本文構建的費用預測模型能夠有效預測冠心病住院費用。后續工作將采集更多的數據完善模型,進一步優化算法,提升預測性能,并應用到疾病費用預測工具當中。

參考文獻

[1]唐劍, 陳武朝, 王桂榕. 疾病診斷相關分組(DRGs)研究及應用[J].中國病案, 2014, 15(5): 36-39.

[2]楊超. 面向診斷分組的費用預測研究和實現[D]. 成都:電子科技大學, 2017.

[3]宋振, 李長平, 崔壯, 等. 基于人工神經網絡模型的膽石病參保患者住院費用分析[J].中國預防醫學雜志, 2013, 14(1): 31-34.

[4]張繼. 基于數據挖掘技術的婦科腫瘤病人住院費用研究[D]. 鄭州:鄭州大學, 2011.

[5]趙璇. 基于數據挖掘技術的冠心病費用研究[D]. 北京:北京中醫藥大學, 2018.

[6]郭偉文, 梅文華, 郭文燕. 應用灰色GM(1,1)模型預測醫院住院量和住院費用[J].中國病案, 2018, 19(11): 62-66.

[7]李汝慶. 基于數據挖掘技術對精神科病人住院天數的預測[J].電子世界, 2015 (17): 143-145.

[8]梁杰, 陳嘉豪, 張雪芹, 等. 基于獨熱編碼和卷積神經網絡的異常檢測[J].清華大學學報(自然科學版), 2019,59(7):523-529.

[9]ZOU Hui, HASTIE T, TIBSHIRANI R. Sparse principal component analysis[J]. Journal of Computational & Graphical Statistics, 2006, 15(2):265-286.

[10]PEDREGOSA F, VAROQUAUX G, GRAMFORT A, et al. Scikit-learn: Machine learning in Python [J]. Journal of Machine Learning Research, 2012, 12(10): 2825-2830.

[11]BREIMAN L. Random Forests [J]. Machine Learning, 2001, 45(1): 5-32.

[12]王鵬新,齊璇,李俐,等.基于隨機森林回歸的玉米單產估測[J].農業機械學報,2019,50(7):237-245.

[13]CHEN T, GUESTRIN C. XGBoost: A scalable tree Boosting system[C]//ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.San Francisco, CA, USA: ACM, 2016:785-794.

[14]施國良, 景志剛, 范麗偉. 基于Lasso和Xgboost的油價預測研究[J]. 工業技術經濟, 2018, 37(7): 31-37.

猜你喜歡
冠心病
冠心病心絞痛應用中醫辨證治療的效果觀察
基層中醫藥(2022年2期)2022-07-22 07:39:18
ADAMTs-1、 CF6、 CARP在冠心病合并慢性心力衰竭中的意義
女性冠心病診斷與防治的特殊性
保健醫苑(2021年7期)2021-08-13 08:47:48
茶、汁、飲治療冠心病
警惕冠心病
智慧健康(2019年36期)2020-01-14 15:22:58
冠心病痰濁證研究進展
冠心病介入術后并發顱內出血臨床分析
冠心病室性早搏的中醫治療探析
靶向超聲造影劑在冠心病中的應用
中西醫結合治療冠心病心絞痛56例
主站蜘蛛池模板: 午夜日b视频| 一级毛片在线免费看| 97精品久久久大香线焦| 亚洲欧美成人影院| 97国产精品视频自在拍| 亚洲视频三级| 国产屁屁影院| 欧美日韩午夜| 日本久久免费| a网站在线观看| 999精品免费视频| 找国产毛片看| 国产不卡在线看| 亚洲第一色网站| 一级成人a毛片免费播放| 三上悠亚一区二区| 亚洲精品少妇熟女| 一级毛片免费不卡在线| 国产一级毛片yw| 久久综合结合久久狠狠狠97色 | 白丝美女办公室高潮喷水视频| 午夜精品区| 国产凹凸一区在线观看视频| 婷婷丁香在线观看| 亚洲成年网站在线观看| jizz亚洲高清在线观看| 欧美国产日韩在线观看| 精品国产一二三区| 狼友视频一区二区三区| 亚洲第一黄色网址| 国产美女丝袜高潮| 高清无码手机在线观看| 小说区 亚洲 自拍 另类| 欧美午夜在线观看| 日韩av在线直播| 国产乱子伦精品视频| 亚洲精品福利视频| 又猛又黄又爽无遮挡的视频网站| 亚洲精品国产成人7777| 国产免费a级片| 国产精品2| 精品成人一区二区三区电影| 青青草原国产av福利网站| 国产精品久久久久久久久久98| 中文字幕免费视频| 99热这里只有精品国产99| 91精品免费高清在线| 谁有在线观看日韩亚洲最新视频| 色爽网免费视频| 2021国产精品自产拍在线| 日韩a级片视频| 国产伦精品一区二区三区视频优播| 免费欧美一级| 亚洲国产一成久久精品国产成人综合| 久久伊人久久亚洲综合| 尤物亚洲最大AV无码网站| 福利在线一区| 成人福利在线看| 亚洲一级毛片在线观| 国产综合在线观看视频| 亚欧乱色视频网站大全| 丁香婷婷综合激情| 99视频精品全国免费品| 91免费在线看| 久久一本精品久久久ー99| 亚洲系列无码专区偷窥无码| 亚洲 欧美 日韩综合一区| 亚洲国产成人麻豆精品| 99精品视频九九精品| 草草影院国产第一页| 2021亚洲精品不卡a| 成人小视频网| 午夜国产不卡在线观看视频| 91精品综合| 欧美精品成人一区二区在线观看| a国产精品| 日韩高清在线观看不卡一区二区| 日本五区在线不卡精品| 伊人无码视屏| 97国产在线视频| 日韩第一页在线| 国产欧美网站|