沈旴亮 彭宇竹
數據挖掘(data mining)是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數據挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統計學、數據庫、可視化技術等,高度自動化地分析數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。數據挖掘作為一種新的知識發現手段,自上世紀80年代末產生起,就引起了學術界和產業界的極大重視,許多國家和機構都加入了此類研究,目前它正以強大的生命力在蓬勃發展。其在國際上的典型應用領域包括:商務管理、生產控制、市場分析、工程設計和科學探索等,在這些領域的成功應用,使得國際上掀起了一股空前的“數據淘金潮”。
醫療機構作為一個具有特殊性質的機構,不同于一般企業或者機構,其內部的數據具有多樣性、動態性、冗余性三重特性。醫療機構中的數據類型多種多樣:電子病案中關于人口學特征的數據為文本型;檢驗科中有關病人生理、生化指標為數字型;影像科中如B超、CT、MR、X線等為圖像資料;如心電、肌電、腦電圖等則是信號數據。很多醫學數據如腦電圖、心電圖的檢測數據呈非規則的波形,血壓、心率等數據與時間呈函數關系;許多患者的門診、急診、住院就診與季節、地域有時間序列關系。醫學數據呈指數增長并不意味著與信息呈正比,有大量與診療及管理無關的數據,需要與之相適應的數據整合、特征提取等方法。總之醫院數據的多樣性及特殊性,需要該領域方法學的研究。
目前的醫學數據庫系統可以高效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關系和規則,無法根據現有數據預測未來的發展趨勢。缺乏挖掘數據背后隱藏的知識的手段,導致了“數據豐富,信息貧乏”的現象。根據初步統計,在我國的醫療機構中,龐大的數據量已經遠遠超出了人們的處理能力,僅有不足10%的數據用來分析,結果數據庫中那些極少被訪問的數據檔案逐步形成了“數據墳墓”(data tombs),這就意味著醫院不僅失去了很多有價值的信息,而且浪費了有限的數據存儲空間。
現今,醫院的信息系統正處于高速發展時期,系統中所積累的數據的廣度與深度不斷提高,因此使用數據挖掘技術對海量數據進行開發,提高數據的利用率勢在必行。通過數據挖掘技術可以有效地整合院內各種信息系統,激活醫院現有數據庫,消除醫院內部信息孤島;同時,在使用數據挖掘的過程中,能夠對現有數據庫進行全面系統的梳理,促進信息數據庫的日臻完善。
當前,數據挖掘技術的應用已經可以囊括醫院管理中的各個環節,其主要應用領域歸納為以下4個方面:(1)醫療質量方面:采用同一評價模式、同一評價指標、同一標化方法、同一權重系數、同一分類方法,利用醫院現有各類系統中儲存的大量信息數據,借助數據集成系統,選擇特定的項目指標,開展醫療、護理、醫技、藥劑實時質量跟蹤,實現關鍵數據預警,對指定數據進行查詢、分析、評價、考核。(2)運行效率方面:開展醫院、科室、個人工作效率、經濟效益和科室成本效益評價,分析控制平均住院日、術前占床日影響因素。進行單級設備效益分析,綜合考量設備的成本、折舊、維修等因素,掌握設備的投入產出比,為采購設備的必要性提供可靠的參考依據。通過對收支、財務比率、總資產、固定資產、凈資產的變化進行對比,全面評價醫院運行效率。(3)科研教學方面:通過運用數據挖掘技術,切分整合海量數據,提供技術創新、科學研究、學術發展的有效信息查詢使用支撐。掌握課題、文章的覆蓋面以及各個學科所占比例,發現醫院科研發展中的薄弱環節,促進科研協調發展。全面解析教學過程,統計教學工作中各類問題出現的頻率及產生原因,不斷優化教學方案,提高醫院的教學質量。(4)資源配置方面:實時跟蹤人力資源發展變化,定期開展主要部門單元人員、設施、空間的數量、結構與業務工作開展的匹配評價,分析評價資源配置效能。針對醫院藥品及耗材的使用情況,合理配置庫存數量,減少其所占流動資金比例,提高醫院的資金利用率。
數據挖掘在醫院管理領域的研究與應用剛剛起步,尚處于摸索階段。數據挖掘在醫院管理中的應用有其自身的優勢,因為在醫學上收集到的數據是真實可靠的,可以基本排除其他因素的影響,而且數據存儲的穩定性較強,這些條件對挖掘結果的維護、挖掘質量的提高是非常有益的。因此,利用數據挖掘技術在探求診治疾病的規律,提高醫療服務質量、管理水平方面擁有巨大的潛力,能有力推動醫院信息化研究的規范化進程。作為一個新興技術,隨著數據庫、人工智能等技術的發展日臻完善,隨著理論研究的深入和進一步的實踐摸索,數據挖掘技術必將在質量管理、運行管理、科研管理、資源管理等方面發揮巨大的作用,幫助管理者完善管理醫院的相關措施,為醫院制定競爭策略提供強有力的技術支持,為醫院創造可觀的效益。