成都市第三人民醫院信息部(610031)
郭慧敏 杜 軍△ 黃路非
基于R的Apriori算法在高額住院費用中的應用研究
成都市第三人民醫院信息部(610031)
郭慧敏 杜 軍△黃路非
目的 通過Apriori算法分析高額醫療費用患者相關指標之間的關系,試圖找到影響醫療費用的因素,利用R擴展醫學統計的工作思路。方法 利用R軟件中的arules包對2015年某院出院的高額治療費用患者做關聯規則分析,探索出院科室、住院天數與總費用,出院科室與性別,出院科室與藥費,出院科室與有無手術的關聯規則,并分析其原因。結果 某些科室住院天數越多,費用越高;而某些科室的住院天數與費用沒有太大關系;胸外、心內、神外、ICU、心外五個病區出院的高額費用患者通常為男性;呼吸、ICU、心外、胸外、神外五個病區出院的高額費用患者的藥費一般大于2萬元;心外、胸外、骨科等病區的高額醫療費用的出院患者通常要行手術治療手段。結論 Apriori算法可以挖掘數據間內在的關系,為臨床決策提供一定的理論支持,R語言可以快捷的完成醫學統計工作。
R語言 關聯規則 高額住院費用 數據挖掘
目前新一輪醫療改革正在如火如荼的進行中,各方對醫療改革保持了非常高的關注度;當下,看病難、看病貴成了醫患矛盾的主要集中點[1],而看病貴的一個重要構成就是患者住院期間的醫療費用過高。高額醫療費用患者往往為危急重癥病人,其主要特點為單次花費巨大,消耗大量的醫療資源,這極易給家庭和社會造成沉重負擔,部分患者難以承受巨額費用,導致因病致貧、因病返貧[2]。另外,高額的醫療費用也容易造成醫患關系緊張,這也是滋生醫鬧等現象的主要誘因。面對這樣的境況,嚴控醫療費用不合理的增長成為亟待解決的社會問題[3]。
關聯算法是一種常見的數據挖掘手段,它可以發現一個事物與其他事物之間的關聯和相關性;在我國,該方法在中醫學中的應用非常廣泛[4-5],在醫學其他領域的應用逐漸增加。本文通過整理高額醫療費用患者的病案首頁信息,利用Apriori算法查找符合條件的關聯規則[6],以期分析高額費用患者各個指標之間的相互關系[7],通過關聯規則的關系梳理找到高額費用產生的主要因素[8];同時,開拓傳統病案數據統計的方式,為醫院數據利用提供新的思路和方向[9]。
1.資料來源
首先在院內邀請多名專家,采用德爾菲法,在參考諸多相關文檔的同時,制定本次研究的高額醫療費用的起始標準為10萬元人民幣。按照上述標準,在某院病案數據庫檢索2015年1月~2015年12月住院費用超過10萬的患者信息,共獲得613份符合統計條件的病案信息。根據數據挖掘的需要提取患者的基本信息,包括費別、性別、年齡、婚姻狀況等字段以及患者的住院信息,包括出院科室、住院天數、手術名稱、總費用、藥費等字段;由于在數據分析過程中只能對離散變量進行分析,故需將某些字段進行離散化處理,例如數據挖掘需要用到是否手術字段,但是在原始數據中并未提供該字段,需將獲得數據中存在手術名稱的標記為有手術,而無手術名稱的記為無手術。
2.統計學方法
R語言是專門為統計而設計的語言[10],R語言能夠為不同的統計功能提供多種實現途徑,它是一套開源的數據分析解決方案,其完全免費,對于統計工作者非常友好,而且在全球有一個龐大且活躍的研究型社區維護[11]。本文主要利用R語言中arules包中的apriori()函數進行關聯規則提取,在規則提取過程中,設定最小支持度為0.020且最小置信度為0.500為強關聯規則[12],得到強關聯規則后,篩選出提升度大于1的強關聯規則做分析;其中R的版本為3.3.1,arules包的版本為1.4-1。
1.一般資料描述
在獲得的613條有效數據中,男性379例,女性234例,男女比例為1.62:1;最小年齡為0歲,最大年齡為95歲,平均年齡(60.97±19.08)歲。
2.數據離散化
由于Apriori算法只能對離散變量進行關聯規則分析,因而需要將原始數據按照相應的規則進行離散化處理,具體整理規則見表1。
3.關聯規則結果分析
數據整理后,編寫R程序,共計得到14477條有效的強關聯規則,眾多的強關聯規則難以逐一說明,現挑選具有代表性的規則做大致分析。
根據提取的關聯規則發現,心外病區住院天數為21~30天的患者其費用一般為20萬到30萬,而其住院天數為16天到20天的患者,其總費用一般為10萬到20萬;而骨科病區住院天數在21天以上的患者其費用一般為10萬到20萬,具體結果見表2。在高額費用患者中,胸外病區、心內病區、神外病區、ICU病區、心外病區五個病區男性患者所占比例較大,具體結果見表3。呼吸病區、ICU病區、心外病區、胸外病區、神外病區五個病區出院的高額費用患者的藥費通常為2萬元以上,具體結果見表4。ICU病區、呼吸病區出院的高額費用患者一般不行手術治療;而心外病區、胸外病區、骨科病區出院的高額費用患者通常會進行手術治療,具體結果見表5。
Apriori算法是關聯規則數據挖掘的常用算法,其廣泛應用于商業促銷等領域,但是其產生的候選集通常非常龐大,并且需要重復掃描數據庫,這也是Apriori算法的缺點。有醫學工作者針對以上問題對Apriori算法進行了改進[13],并且取得了非常好的效果。

表1 變量離散化分組表

表2 出院科室、住院天數與總費用的關聯規則分析表

表3 出院科室與性別的關聯規則分析表

表4 出院科室與藥費的關聯規則分析表

表5 出院科室與有無手術的關聯規則分析表
目前由于醫療觀念的改變,加之醫保政策的不斷開放[14],雖然就醫難的困境得到了緩解,但是許多家庭還是難以負擔高額的住院費用,因病而貧、因病返貧的現象不斷發生,而且高額醫療費用的比例不合理,在本研究中平均藥占比為0.28,難以體現醫療護理水平而且還消耗了大量的醫療資源[15]。
本研究數據顯示,高額住院患者的醫療總費用與住院天數有密切的關系。由表2可知,以心外病區為例,隨住院天數的增長其醫療總費用增加;同時部分科室當住院天數達到某一極值后,住院天數不再是影響住院費用的主要因素,如表2中的骨科病區。而根據表3數據顯示某些科室高額費用患者以男性居多,這些科室包括胸外病區、心內病區、神外病區、ICU病區、心外病區,這些病區的患者罹患的疾病以呼吸系統疾病、心腦血管疾病為主,而男性的生活習慣以及其生活壓力極容易引起上述疾病,這也是以上病區出院患者主要為男性的原因。高額住院費用病人其藥費也普遍偏高,一般外科的高額住院費用患者都需要進行手術治療。我們發現,該院的高額治療費用一般分布在ICU、心內、心外、骨科、胸外等重點科室中,而該院上述科室作為優勢臨床科室接診的患者中危急重病人的比例相對其他臨床科室偏高。
本次研究共獲得14477條有效強關聯規則,這說明數據之間存在大量的有用規則。現代統計學面臨的問題不是數據匱乏,而是數據泛濫,如何從紛繁的數據中得到有用的信息將是未來數據統計工作面臨的一個重大課題,這不僅要求具有堅實的衛生統計知識、還要具備非常豐富的專業知識,這也是未來統計學發展的一個重要分支。未來工作中,應向具備專業知識的復合型人才發展,為大數據和知識爆炸打下基礎。
[1]梁子君,吳超,郭洪宇,等.我國暴力傷醫事件成因的政策分析及應對.中國醫院管理,2015,35(11):59-60.
[2]張洪成,崔愛東,晏飛,等.徐州市居民醫?;颊咦≡横t療費用個人負擔水平研究.中國初級衛生保健,2013(7):12-14.
[3]胡洋,張亮,馬敬東,等.醫療費用控制過程中的政府行為研究.中國醫院管理,2007(4):7-8.
[4]王可,趙華碩,張虹,等.兩水平兩分類數據的logistic回歸模型對比研究.中國衛生統計,2014,31(5):856-859.
[5]吳嘉瑞,張冰,楊冰,等.基于關聯規則和復雜系統熵聚類的顏正華教授治療風濕痹癥用藥規律研究.中華中醫藥雜志,2013,28(11),3416.
[6]Agrawal R,Srikant R.Fast Algorithms for Mining Association Rules.Proc.1994 Int.Confeience.Very Large Databases.Santiago,Chile,1994(9):487-499.
[7]鄭晶晶,朱建平.數據挖掘中關聯規則的規范化描述.統計與信息論壇,2006(1):93-96.
[8]羅斌.面向客戶細分的改進關聯規則算法研究.哈爾濱工業大學,2006.
[9]胡瑞娟,李巖芳,何昀.基于關聯規則算法的醫療數據挖掘.長春理工大學學報(自然科學版),2009,32(2):282-284.
[10]張哲,張豪.淺談R語言在生物統計學教學中的應用.教育教學論壇,2013(27):54-55.
[11]Robert I.Kabacoff 著,高濤,肖楠,陳鋼譯.R語言實戰.北京:人民郵電出版社,2013:4-5.
[12]武建虎,賀佳,賀憲民,等.關聯規則及其在肝癌病人資料分析中的應用.中國衛生統計,2002,2(23):34-38.
[13]陳龍,馬利,何文英,等.高血壓住院患者DRGs分組方法研究.中國衛生統計,2015,32(1):110-111.
[14]鄭功成.全面建成覆蓋城鄉居民的社會保障體系——展望“十三五”時期的中國社會保障.中國社會保障,2015(1):36-39.
[15]李士同.成都市基本醫療資源配置問題研究.西南交通大學,2015.
(責任編輯:劉 壯)
△ 通信作者:杜軍