王妮,陳婕卿,劉文艷,陳卉
首都醫科大學 生物醫學工程學院,北京 100069
基于Access的大規模住院病案首頁數據挖掘
王妮,陳婕卿,劉文艷,陳卉
首都醫科大學 生物醫學工程學院,北京 100069
目的探索基于Access數據庫進行大規模住院病案首頁數據挖掘的方法.方法收集某市2002~2013年的住院病案首頁,經過數據清理和疾病編碼轉換,利用Access數據庫的窗體和VBA技術編程,按年度對住院病案首頁數據進行匯總分析.以慢性阻塞性肺疾病(簡稱慢阻肺)為例匯總分析相關住院指標.結果對近600萬條住院病案首頁記錄進行匯總分析總耗時267 s.2002~2013年,該市因慢阻肺住院的患者逐年增加,平均住院天數下降,平均住院費用上升,30 d再住院率尚無明顯變化趨勢.60歲以上慢阻肺患者的住院天數、費用均高于其他年齡段患者.結論時間連續的住院病案首頁數據提供了對單病種患者住院指標進行時間趨勢分析的可能性,其結果可為衛生和醫院主管部門在醫院管理決策、流行病學監測、衛生經濟學等方面提供重要信息.
住院病案首頁;慢性阻塞性肺疾病;醫院管理;數據挖掘
如今是一個數據共享化、智能化的時代,因此出現了爆炸性增長的quot;大數據quot;.大數據的應用首當其沖的就是智慧醫療,具體可應用在臨床診斷、遠程監控、藥品研發、防止醫療詐騙等方面[1].研究表明,大數據即將到達期望膨脹期,能夠在5~10年的時間里達到一個成熟的階段進而穩步發展直至變為實際生產力[2].在醫療衛生領域,目前國內醫院信息化建設不斷完善,經過不斷積累,各種形式的電子化醫療系統產生了體量龐大的醫療大數據,它們成為生成醫學證據的巨大來源.
住院病案首頁是目前標準化程度最高、最易于挖掘、具有很高價值的一類醫療大數據[3-5].對連續多年、覆蓋某一地區所有醫院的住院病案首頁數據進行分析,可以了解該地區某一病種患者住院天數、住院費用、再住院率等的變化趨勢,為衛生和醫院主管部門在醫療衛生資源分配、醫院管理決策、流行病學監測、衛生經濟學等方面提供重要信息.但是,由于存在數據量巨大、疾病編碼復雜且不一致、數據質量參差不齊等問題,在對海量住院病案首頁進行分析時仍然存在很多困難.針對這些問題,我們在Access數據庫中編程實現了數據清理、疾病編碼轉換、住院指標統計,并以慢性阻塞性肺疾病為例進行了統計分析,取得了滿意的效果.
收集某市2002~2013年所有二級及以上醫院的住院病案首頁數據,共約600萬條記錄,按年度存儲在Access數據庫中.提取病案首頁中患者的病案號、性別、出生日期、入院時間、出院時間、住院天數、出院主要診斷、出院其他診斷、住院費用等信息用于本研究.
數據預處理分為數據清理和疾病編碼轉換兩部分.
(1) 數據清理.通過對字段排序,發現異常的年齡值(如gt;150歲)、出生日期(如1878年3月15日)、住院費用(如lt;10元),并剔除相應記錄;利用入院時間和出生日期得到住院時的年齡,利用出院時間和入院時間得到住院天數,如果計算結果與記錄中保存的數據相差較大,則認為該條記錄可靠性差,予以剔除.對由于首位為數字0造成的同一患者病案號不同的情況,補足所有病案號的前置0,減少由此造成的無法識別多次入院的同一患者的問題.
(2)疾病編碼轉換.現在通用的疾病編碼為國際疾病分類(International Classification of Diseases,ICD)編碼,是WHO制定的國際統一的疾病分類方法,它根據疾病的病因、病理、臨床表現和解剖位置等特性,將疾病分門別類,使其成為一個有序的組合,并用編碼的方法來表示的系統,現通用ICD-10疾病編碼[6].由于ICD-10編碼龐大、過于細致,不利于進行病種統計,因此我們采用了目前在國外已有較多應用的臨床分類軟件(Clinical Classifications Software,CCS)編碼體系[7-9].它根據ICD-10編碼將疾病歸為259種,為診斷和手術分類提供了便利.我們在Access中編程實現了ICD-10編碼到CCS編碼的轉換.
在Access中,利用窗體和VBA技術,按年度對住院病案首頁數據進行匯總分析.匯總指標包括因以CCS編碼表示的指定病種D(在本文D表示本研究所選取的示例慢性阻塞性肺疾病)住院的患者人數、平均住院天數、平均住院費用、出院后30 d再住院率.所有指標均按照性別(男和女)、年齡段(0~17、18~35、36~60以及60歲以上)分層計算.計算30 d再住院率時,還區分以病種D為出院主要診斷的再住院、病種D為出院其他診斷的再住院,以及出院主要及其他診斷中均無病種D的再住院這3種情況.
計算30 d再住院率是此次軟件編制過程中的難點.需要提取以病種D為出院主要診斷的患者的病案號,并根據病案號回溯這些患者所有的再住院情況,并判斷與上次因病種D住院的時間間隔是否在30 d以內.
在聯想服務器ThinkServer上運行程序,服務器的基本配置為兩顆Intel? Xeon E5六核(主頻2.4 GHz)CPU、64 GB內存、4塊2 TB硬盤,Windows 8操作系統,Microsoft? Access 2016.
慢阻肺的CCS編碼為127,對應的ICD-10編碼為J40-J44以及J47.以2004年為例,共有316105條記錄,程序運行用時7 s,結果見圖1.

圖1 2004年慢性阻塞性肺病的住院指標統計結果
從2004年的統計結果可以看出,在所有出院主要診斷為慢阻肺的患者中,男性患者明顯多于女性患者(3262:2273),60歲以上患者為4201人次,所占比例最大(76%);平均住院天數為12.8 d,平均住院費用為4761元,出院后30 d內因慢阻肺再次住院的發生率為4.28%.
圖2~5展示了2002~2013年出院主要診斷為慢阻肺的患者的住院人次、平均住院費用、平均住院天數及30 d再住院率的變化趨勢.

圖2 慢性阻塞性肺疾病住院人次的變化趨勢

圖3 慢性阻塞性肺疾病平均住院費用的變化趨勢

圖4 慢性阻塞性肺疾病平均住院天數的變化趨勢

圖5 慢性阻塞性肺疾病30天再住院率的變化趨勢
目前,慢阻肺每年導致死亡的人數超過100萬,已成為我國城市人口的第四大殺手[10].中國慢阻肺患者達4300萬,40歲以上人群的發病率已上升為8.2%,其中男性患病率達12.4%[11-12].隨著人口總數的增加、吸煙人群的擴大以及空氣污染的加重,因慢阻肺住院的患者數逐年增加[13-14].平均住院費用總體呈上升趨勢,從2002年的4096元逐年上升到2013年的9384元,與何權瀛等[15]調查723例慢阻肺患者后報告的8755元(2006年)基本一致.隨著醫療水平的提高,平均住院天數總體呈下降趨勢,從2002年14 d的逐年遞減到2013年的11 d,與關麗嬋等[16]報告的12.04 d(2008~2014年)基本一致.60歲以上患者的平均住院天數與平均住院費用總體來說普遍高于其他年齡段.出院后30 d內因慢阻肺再次住院的患者比例總體呈上升趨勢,特別是在36歲以上的中老年患者中.這些基于大規模住院病案首頁數據的分析結果,既與多數小規模臨床調查結果相一致,又提供了10多年間的變化趨勢,為今后的臨床診療和醫院管理提供了有益的參考.
本研究編制的住院指標統計分析軟件,界面簡潔,結果顯示清晰明了,運行情況良好.對近593萬條記錄進行分析累計運行267 s,基本滿足海量數據分析的速度要求,說明了進行大規模住院病案首頁數據分析的可行性和可操作性.我們將在今后的研究中增加更多的統計分析功能,如提供中文病種名稱下拉列表供用戶選擇,可以保存年度分析結果,直接得到各種分析曲線圖,對時間趨勢進行統計分析等.此外,利用住院病案首頁所能提供的信息(患者基本信息、住院醫療與診斷信息、住院費用信息),對病案首頁數據進行更深入的挖掘,以獲得更多、更有價值的知識,充分發揮住院病案首頁數據在臨床決策、管理決策中的作用.
[1] 高漢松,肖凌,許德瑋,等.基于云計算的醫療大數據挖掘平臺[J].醫學信息學雜志,2013,34(5):7-12.
[2] 張振,周毅,杜守洪,等.醫療大數據及其面臨的機遇與挑戰[J].醫學信息學雜志,2014,35(6):2-8.
[3] 吳良湘.信息化建設對病案首頁數據質量的影響[J].中國病案,2016,17(3):47-49.
[4] 徐寧.病案首頁數據的挖掘與利用[J].醫療裝備,2016,29(5):49-50.
[5] 熊志剛,姚剛.基于病案首頁的醫療大數據挖掘研究[J].中國數字醫學,2016,11(9):11-14.
[6] 董景五.疾病和有關健康問題的國際統計分類(第10次修訂本)(第1卷))[M].第2版.北京:人民衛生出版社,2008.
[7] (AHRQ)Bata Clinical Classifications Software (CCS) for ICD-10-CM/PCS[EB/OL].[2016-11-21].http://www.hcup-us.ahrq.gov/toolssoftware/ccs10/ccs10.jsp.
[8] Alshekhlee A,Horn C,Jung R,et al.In-hospital mortality in acute ischemic stroke treated with hemicraniectomy in US hospitals[J].J Stroke cerebrovasc Dis,2011,20(3):196-201.
[9] Bynum JP,Rabins PV,Weller W,et al.The relationship between a dementia diagnosis,chronic illness,medicare expenditures,and hospital use[J].J Am Geriatr Soc,2004,52(2):187-194.
[10] 慢性阻塞性肺疾病診治指南(2013年修訂版)(一)[J].全科醫學臨床與教育,2013,11(5):484-491.
[11] Zhong N,Wang C,Yai W, et al.Prevalence of chronic obstructive pulmonary disease in China: a large,population-based survey[J].Am J Respir crit care Med,2007,176(8):753-760.
[12] Lopez AD,Mathers CD,Ezzati M,et al.Global Burden of Disease and Risk Factors[M].England:Oxford University Press and the World Bank,2013:70.
[13] 楊柯君.吸煙是quot;慢阻肺quot;最重要的危險因素[J].上海醫藥,2013,34(18):59.
[14] 王情,王蛟男,李湉湉.空氣污染與慢性阻塞性肺疾病的關系研究進展[J].中國醫學前沿雜志(電子版),2016,8(9):9-13.
[15] 何權瀛,周新,謝燦茂,等.慢性阻塞性肺疾病對中國部分城市患者生命質量和經濟負擔的影響[J].中華結核和呼吸雜志,2009,32(4):253-257.
[16] 關麗嬋,金叢凱,陳美珠,等.慢性阻塞性肺疾病患者住院狀況分析[J].現代臨床護理,2015,14(6):4-6.
本文編輯 劉峰
Access-Based Data Mining of Large-Scale Database of Hospital Discharge Data
WANG Ni, CHEN Jieqing, LIU Wenyan, CHEN Hui
School of Biomedical Engineering, Capital Medical University, Beijing 100069, China
ObjectiveTo investigate how to mine a large scale dataset of inpatient discharge data based on Access.MethodsInpatient discharge data in one city from 2002 to 2013 was collected. After the data cleaning and disease recoding, hospitalization measures were analyzed by year using the form and VBA programming in Access. Hospitalizations of chronic obstructive pulmonary disease(COPD) were analyzed as an example.ResultsIt took totally 267 s to analyze the whole dataset with almost 6 million records. From 2002 to 2013, the number of hospitalized patients with COPD increased, and the length of stay decreased with the increment of the charge per stay, while the readmission rate within 30 days had no significant change trend. The hospitalization days and costs of COPD patients aged over 60 years were higher than those of other age groups.ConclusionIt is feasible to analyze the time trends of hospitalization based on inpatient discharge data during a long period of time. The results can provide valuable information for health care and hospital authorities on hospital management decisions, epidemiological surveillance and health economics, etc.
hospital discharge data; chronic obstructive pulmonary disease; hospital management; data mining
TP31;R197
C
10.3969/j.issn.1674-1633.2017.10.033
1674-1633(2017)10-0126-03
2016-11-21
2016-12-08
陳卉,副教授,碩士生導師,主要研究方向為醫療大數據挖掘.
通訊作者郵箱:chenhui@ccmu.edu.cn