郭慶,谷巖
廣州大學 數學與信息科學學院,廣東 廣州 510006
數據挖掘技術在醫院信息系統的統計分析與決策中的應用
郭慶,谷巖
廣州大學 數學與信息科學學院,廣東 廣州 510006
數據倉庫和數據挖掘技術是信息技術領域的新興技術,而如何應用到醫院的信息化建設中是醫院信息系統(HIS)面臨的問題。建立基于HIS的數據倉庫并使用數據挖掘技術,可以將大量源數據有效地轉化為有用的知識信息,并服務于決策過程。本文結合醫院醫療業務提出了系統實現的解決方案,并給出了基于醫院醫療業務數據倉庫的體系結構和邏輯模型,以及基于醫院醫療業務的數據挖掘技術應用方法。
醫院信息系統;數據倉庫;數據挖掘;邏輯模型
基于聯機事務處理(OLTP)的醫院信息系統(HIS)經過多年的使用,累積了大量的歷史信息,其容量呈幾何級數增長,這些信息除了在醫院的日常業務中發揮重要作用之外,它還是醫院的寶貴財富。如何對大量的歷史數據進行深層次地挖掘,通過信息的分類、整理、分析,從中發現醫療業務和經營的內在規律,從而為管理人員的決策提供支持,已成為現代HIS系統的發展目標。因為以病人為中心的HIS系統,除了能協助醫院開展高效的醫療服務之外,還能輔助醫院發現醫療業務和管理中的深層次的、潛在的問題,并通過問題的解決,不斷提高醫院的醫療水平和管理水平,實現技術、信息和人的全面集成,提高醫院整體水平。基于此,本文將在基于數據倉庫的HIS分析與設計的基礎上,研究數據挖掘技術在醫院信息系統的統計分析與決策中的應用。
數據倉庫是面向主題的、集成的、隨時間變化的、非易失性的數據集合,用于支持管理層的決策過程。數據倉庫中的數據不是將業務處理系統中的數據簡單集合,而是對各種源數據進行抽取、篩選、清理、綜合而得到的數據集合。數據倉庫中所存儲的數據不經常進行更新處理,它主要用于查詢和分析[1]。
以主題為導向的數據倉庫是圍繞著醫院的基本實體設計的,如HIS中數據倉庫的設計主題可以醫療業務、病人結構、病人流動狀況、床位占用率、資金流動等情況考慮,它們都是密切聯系的,通過數據倉庫的建立,可以有利于實現數據的關系化、規則化,并可提供動態的、多維的數據統計、分析和查詢。
為了充分利用信息的使用價值,并挖掘有用信息,建立有效的信息框架,進行信息的規范化、標準化是不可或缺的基礎工作。但是,由于HIS是一個綜合管理信息系統,醫療信息的結構復雜、數量龐大、應用繁雜,導致數據規范化的工作難度很大,信息的挖掘技術也非常復雜。因此,HIS一方面應在數據支撐方面,通過對數據的集成,建立數據倉庫,提供數據準備,使HIS具備一定的決策支持能力,至少應是一個功能完備的、數據全面的信息報告系統;另一方面,通過使用合適的數據挖掘技術產品,構造一個實用的決策支持平臺。完整的基于數據倉庫的HIS體系結構見圖1。

圖 1 基于數據倉庫的HIS體系結構
邏輯模型是對業務進行抽象的工具。它采用面向主題的方法來有效組織來源多樣的業務數據,是構建數據倉庫的重要基礎。由于系統的數據是按照決策分析的主題來組織的,每個主題對應一個宏觀的分析領域。因此數據的邏輯模型是多維數據模型,這樣可以用多維分析的方法從多角度、多層次對數據進行統計分析[2]。常見的數據模型有:星形模型、雪花模型、星座模型、雪瀑模型等。
在HIS數據倉庫邏輯模型的設計中,根據醫院的業務特點,我們確定了“醫療業務”、“病人”、“藥物”、“處方”、“床位”、“資金”幾個主題,在這幾個主題中,“醫療業務”主題將其它幾個主題有機聯系在一起,因此確定“醫療業務”是數據倉庫的主題。根據主題集中涉及的數據信息,選擇醫療業務、資金流動、床位占用、病人流動為發生事實,并選定與之相關的醫療業務維、病人維、賬單維、處方維、藥物維、床位維、時間維。HIS數據倉庫邏輯模型結構見圖2。

圖 2 HIS數據倉庫邏輯模型結構
4.1 醫學數據挖掘技術
數據挖掘(Data Mining)是一個多學科交叉領域,它融合了數據庫技術、人工智能、機器學習、統計學、面向對象方法、信息檢索、高性能計算等學科。數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、事先未知的、潛在有用的信息和知識的過程。提取的知識表示為概念、規則、規律、模式等形式[3]。目前主要的數據挖掘方法有統計分析方法、神經網絡、機器學習、遺傳算法、模糊集法、近似推理等。數據挖掘不一定需要建立在數據倉庫的基礎上,但基于數據倉庫的數據挖掘能簡化數據挖掘過程的某些步驟,提高數據挖掘的效率,同時能更好地滿足高層戰略決策的需求。
用于醫學數據挖掘的數據雖然具有一定的特殊性,但仍遵循一般的知識發現過程,用于醫學的數據挖掘不僅能對過去的數據進行查詢和遍歷,并能夠找出過去數據之間的潛在聯系,從中提取輔助決策的關鍵性信息。用于醫學的數據挖掘的步驟[3]如下:
⑴ 確定挖掘目標 理解醫學領域及相關的經驗知識,定義需要解決的問題,從用戶角度確定醫學數據挖掘的目標和結論的評估標準。
⑵ 理解數據 根據數據挖掘的需要,搜索所有與醫院對象有關的內容和外部的數據信息,完成數據的初步收集,對原始數據進行抽樣分析,列出數據屬性。
⑶ 準備數據 由于醫學數據的冗余性和多樣性特征,需要對原始數據進行審核與整理,并針對各種類型的數據采取相應的數據預處理方法,并根據數據挖掘方法的目標和數據的特征,選擇合適的模型,實現數據的轉換。
⑷ 數據挖掘 使用合適的數據挖掘算法完成數據分析,這是醫學知識發現過程中的一個關鍵性步驟。實現數據挖掘的方法包括概念描述、關聯分析、分類與預測、聚類分析、趨勢分析、孤立點分析和偏差分析等。挖掘結果在實際運用中需要反復求證,以檢驗其合理性。
⑸ 結果分析 對發現的知識進行醫學解釋,并與最初的研究目標相比較,其結論對使用者來說必須是可理解的。
⑹ 知識同化及應用 將挖掘結果集成到HIS的實際醫學過程中,并有計劃地實施和控制。
醫學數據挖掘的流程見圖3。

圖 3 基于數據倉庫的HIS中數據挖掘的流程
4.2 HIS中的數據挖掘與統計分析功能
運用數據倉庫和數據挖掘技術,在源數據庫和醫院聯機事務處理(OLTP)系統的基礎上,根據醫院管理要求,HIS中的數據挖掘與統計分析功能主要完成醫院管理、醫療服務、經濟運行等各種統計信息查詢,以便及時了解醫院資源的規劃和配置情況、醫療質量信息及經營狀況,最終為醫院決策提供第一手信息和科學化根據。具體的功能見圖4。

圖 4 HIS中的數據挖掘與統計分析功能結構圖
4.3 HIS中的數據挖掘與統計分析方法
HIS中的數據挖掘與統計分析功能主要完成醫院管理、醫療服務、經濟運行等領域的各種統計和決策信息的生成和查詢,數據倉庫中數據的組織方式為進行這種分析與查詢提供了可能,但僅僅依靠數據倉庫并不能完成一些復雜的分析與查詢,因此,為了完成上述功能,可以采用如下方法:
4.3.1 統計匯總。定期和不定期地對歷史數據進行加工匯總。根據統計需要,統計匯總包括單項統計、復合統計。
⑴ 單項統計 醫院單項統計主要指標已達幾十種,涉及醫療工作數量、工作效率、工作質量、經濟活動等方面。主要包括:醫療工作質量分析指標、醫院工作效率分析指標等。醫院單項統計主要采用描述統計方法,它只對所收集數據某些現象的內容做出統計加工。具體的描述統計主要有:平均數和變異程度、比和率。平均數是描述一組計量資料的集中趨勢,也稱平均水平。在應用中應根據資料的分布特點選擇適當的平均數計算方法。一組計量資料除描述集中趨勢外,還應說明其變異程度,也稱離散趨勢。只有將平均數及變異程度結合才能全面了解資料的分布情況及特點。最常用的變異指標有:方差、標準差和變異系數等。比和率雖然都是由兩個相互關聯的統計量的比值來表示,但比和率是不同質的兩個指標。
⑵ 復合統計 復合統計指標使指標功能得到增強。它可以采用綜合法和平均法。復合指標與單項指標相比,具有以下幾個特點:① 較單項指標更為全面、更加綜合,增強了指標的功能,具有對比分析的作用。如床位利用指數、床位療效指數等。② 部分復合指標可直接用來評價醫院工作,用于不同醫院之間及同一醫院不同時期的綜合比較與分析。如綜合指標數、治愈指數、診斷指數等。
4.3.2 統計分析。實現對資料的多導向、多因素、多層次的統計分析。統計分析包括統計描述和統計推斷兩大部分。統計描述是用統計指標、統計表和統計圖描述資料的分析規律及其數量特征;統計推斷是以概率論為基礎,把數理解析過程作為主要內容的統計方法,它包括總體參數估計和假設檢驗兩個內容。參數估計是用樣本統計量估計總體參數所在范圍;假設檢驗是利用樣本的實際資料來檢驗事先對總體某些數量特征所作的假設是否成立。
醫院要面臨自負盈虧,實現價值補償和價值增值,以取得最佳的經濟效益為保障。醫院社會效益和經濟效益的評價是建立在大量統計信息基礎上的綜合指標評價體系,該體系包括:病人主要疾病療效分析、門診和住院工作量分析、床位和設備利用率分析、病人負擔程度分析、手術情況及手術并發癥發生情況工作分析、醫療服務質量分析、職工業績分析、醫院規模分析、醫療管理分析等。
4.3.3 預測和決策。運用現代數學模型和決策方法,提供多方式的預測和決策。面向醫院的預測和決策模型主要采用時間序列預測法。該法是將歷史數據按時間順序排列,構成時間序列,并以此為依據,推算現象的未來發展狀況和結果。在面向醫院的預測過程中,常用的方法有:利用趨勢推測法進行預測、利用趨勢和季節成分進行預測。利用該方法,可用來預測醫院總收入、門診人次、住院人數等。
4.3.4 數據挖掘。醫院數據倉庫是一個復雜的數據集,它包括電子病歷、醫學影像、病理參數、化驗結果等數據。因此,需要結合醫學信息自身具有的特殊性和復雜性,確定挖掘過程中所需要的技術。
利用聚類分析方法,可以進行醫療費用的分析。采用神經網絡模型可以對出院病例的醫療費用進行統計學分析。利用數據關聯分析方法,可以對HIS中相關信息進行分析、挖掘,對藥物的用量、耐藥性、聯合用藥、療程、預防用藥、用藥途徑及治療效果等指標實行自動監控,從而實時、有效地監測藥物使用情況。利用決策樹分析法可以形成惡意配藥訓練模型,用此模型在線監測醫保人員配藥情況,并將監測結果輸出給醫院藥房配藥人員,使藥房配藥人員能夠及時發現、制止惡意配藥行為的發生。利用CHAID方法,可從病例自動提取診斷規則,以輔助疾病的診斷和研究。采用ARIMA模型、BP神經網絡模型、GM(1,1)模型對某些發病率進行預測分析。利用數據挖掘技術中的聚類和孤立點等分析方法分析醫生用藥的不合理性和其它目的。利用人工神經網絡方法可以完成分類、聚類、關聯規則挖掘等多種數據挖掘任務,從而能夠找出某些藥物與疾病發作的關系。Apriori關聯分析模型可以作為醫生的輔助工具,揭示兩種疾病之間的真正關系,利用該算法還可以對醫院門診病人并發癥的挖掘。基于粗糙集理論的規則產生模型可以自動發現臨床數據庫中的正例和反例知識。利用進化算法從任一初始的群體出發,通過隨機選擇、交叉和變異等過程,使群體進化到搜索空間中越來越好的區域,從而實現對某些癥狀疾病進行診斷和分類。
隨著HIS的不斷完善和醫院信息的不斷積累,如何利用數據挖掘技術構造先進的醫療診斷和管理決策支持系統,這將對提高醫院的醫療水平、充分發揮數字化醫院的效能具有重要的意義。而HIS充分利用數據挖掘技術和統計方法,從醫療數據和經濟數據中挖掘出相關的內在規律,使整個HIS脫離了簡單的查詢、報表和圖形模式,從而對決策支持具有更深層次的作用。
[1] 陳京民,等.數據倉庫與數據挖掘技術[M].北京:電子工業出版社,2002.
[2] 王珊,等.數據倉庫技術與聯機分析處理[M].北京:科學出版社,1998.
[3] 蘇新寧,等.數據倉庫和數據挖掘[M].北京:清華大學出版社,2006.
[4] Lou Agosta.The Essential Guide to Data Warehousing[M].Upper Saddle River:Prentice-Hall,1999.
[5] William A Giovinazzo.Object-Oriented Data Warehousing Design[M].Upper Saddle River:Prentice-Hall,2000.
[6] 周鸞杰,等.數據挖掘可視化技術與醫院管理[J].醫療設備信息,2006(3):23-24.
[7] 吳進軍,等.10種系統疾病住院醫療費用的Logistic分析[J].中國醫院管理,2000(4):31-32.
[8] 趙應征,等.人工神經網絡在藥學研究中的應用進展[J].解放軍藥學學報,2003(6):48-50.
[9] 武森.數據倉庫與數據挖掘[M].北京:冶金工業出版社,2003.
[10] 楊海清.數據挖掘技術在醫院管理中的應用[J].中華醫院管理雜志,2005(7):497-499.
[11] 姜代紅.數據挖掘及其在HIS系統中的應用[J].電腦與信息技術,2004(2):55-57.
Research of Implement Solution of Hospital Information System Based on Data Warehouse
GUO Qing, GU Yan
Mathematics and Information college,Guangzhong University,Guangzhou Guangdong 510006, China
TP311.52;TP274
B
10.3969/j.issn.1674-1633.2010.05.022
1674-1633(2010)05-0064-04
2009-08-14
作者郵箱:gy_guyan@yahoo.com.cn
Abstract: Data warehouse and data mining are new technology in information technology. It is a problem that we must face to how to use this technology to Hospital Information System(HIS). If data warehouse and data mining are used in HIS, a lot of source data can be transformed to useful information and the information can be used in the decision process. This paper presents the implement solution of HIS based on data warehouse, the structure and logic of data warehouse.The application method of data mining based on HIS is also discussed.
Key words: HIS;data warehouse; data mining; logic model