戴怡妍
中山大學附屬第一醫院教學科,廣東廣州 510000
在我國目前的經濟活動當中,數據挖掘(Data Mining,DM)已經成為電信、金融以及公共管理等多個領域當中的重要技術支持手段,在臨床醫學當中的應用也隨著時間的推移而逐漸增多,但是卻并未真正應用于醫院管理方面。但是在目前的經濟環境當中,由于信息化發展所帶來的巨大沖擊力,使得醫院信息系統(hospital information system,HIS)在數據資料方面形成了大量的積累。而這些電子化的數據資料通過傳統的統計分析技術無法滿足人們越來越多的需要,傳統的數據庫管理系統也因此逐漸失去了重要的作用。
在上世紀80年代的初期,數據挖掘技術基于數據統計理論以及機器學習開始逐漸形成。數據庫當中的知識發現(knowledge discovery in database,KDD)為數據挖掘技術的另一個名稱,指的是從海量的數據當中將可信、有效、新穎的數據加以提煉,并且將這些能夠被人所理解的信息進行深層次的高級處理,而這些信息通常會隱藏在web、大型數據庫、信息庫以及數據流當中。
數據挖掘技術的分析方法極其豐富,本文當中將列舉五條最為重要以及常用的方法進行具體分析,這些方法將有效應用于醫院管理工作當中。
由于數據庫當中經常會蘊藏著數量較多的細節數據,而通過類描述的分析方法能夠將這些數量較多但是信息較為豐富的相關數據,通過研究類別的劃分而進行匯總。而進行匯總的方法則分為數據區分以及數據特征化,前者指的是將目標分析數據存在的一般特征與對比數據進行比較,后者則指的是以研究的項目作為標準,將符合研究特征的數據進行匯總。
在數據挖掘技術當中,聚類分析指的是將研究的目標數據遵循將類之間的相似性最小化、將類內部的相似性最大化的原則,對所有的數據進行分組。換一種說法,那就是將同一種目標數據之間的距離盡可能的縮小,或者同一類的數據當中相似性盡可能放大,不同類別的數據個體之間則盡可能擴大距離或盡可能縮小相似性。見圖1。
這種分析方法主要是通過對關聯規則的利用,在對數據庫進行操作的細節當中將頻繁出現的模式進行有效抽取,這種分析的目的是在繁雜的數據當中發現將相關聯的信息,并且通過量化之后的數字描述對象之間出現的可行性進行判定與評估。
這種分析方法指的是以時間序列作為分析的標準,將數據當中重復發生并且重復率較高的信息進行篩取,并且通過已經篩選出來的數據對目標值進行分析。這種分析方法內容當中包含了相似度搜索以及趨勢分析等概念。

圖1 聚類分析結構圖
對數據進行分類以后對其進行分析,這種方法的基礎是在訓練數據集當中將分類的模型進行初步篩選,隨后按照模型的整體預測對未分類的對象進行類別的劃分。聚類分析與這種方法本質上的區別在于訓練數據集的數據是否為已知數據,而預測則是按照已知的數據進行連續值函數模型的建立,對空缺或未知的數據值進行預測,因此其中所用到的回歸分析為最常用的數值預測方法之一。
隨著信息化技術在各個領域當中應用后都取得了顯著的成果,各個醫院當中所應用的信息系統當中也蘊含了豐富的臨床以及管理方面的大量數據,例如醫院的人事、財務、設備、藥物、患者的治療信息、社會特征等數據,這些信息不僅將醫院的日常管理細節進行詳盡的記錄,還能夠對醫院進行歷史狀態的描述。在目前我國的大多數醫院當中,在信息處理方面主要是依靠信息系統所帶來的簡單查詢功能等操作性較為有限的功能進行常規事務的處理,只能對工作流程進行有限的簡化,雖然在一定程度上會提高工作效率,但是在實際的應用當中,對于操作性要求較強的事務處理工作將無法滿足進行數據預測等較為高級的數據分析,這將導致醫院在進行大型數據信息處理時依然達不到理想的目的。
與傳統的統計分析相比,數據挖掘技術能夠更好的發現信息量較為豐富的數據,更加側重于應用多種方法對模式進行有效的聯系和匹配,通過一些專用的算法對數據之間所存在的聯系進行描述。而醫院的管理人員則可以通過這些方法將很多有效信息從海量的數據當中篩選出來,從中獲取到自己能夠進行充分利用的數據,并且通過專業技術人員的指導,能夠對這些數據進行深層次分析,將能夠對決策有利用的價值進行選擇。應用數據挖掘技術,能夠利用上文當中提到的多種分析方法,將數據當中存在的聯系進行解釋與分析,并將其轉化為與醫院管理相關的信息。
從另一個角度來說,數據挖掘技術是利用數據進行模型的構建,隨后再通過數據對模型進行分析與驗證,而在模型的建立過程當中則是從無到有、從特殊到一般的歸納與總結過程,因此通過這樣的分析之后,得到的客觀結果則更具有利用價值。在信息系統當中,很大一部分的數據均存在明顯的質量缺陷,這種情況無法避免,但是傳統的統計分析方法將這些無用的數據默認為有用的數據,因此在分析的結果當中將造成決策的誤導。而數據挖掘技術則可以通過預處理的方式,使得數據當中的缺陷進行有效補充,對其中的無用數據進行清理,將有用的數據進行顯著的突出,進而提高數據的真實性與可靠性。同時,數據挖掘技術還能夠在執行系統當中將數據篩選出來,在減少不必要的信息浪費的基礎上,還能夠完成一系列的連接轉換,通過結構的改變以及聚集的處理,從數量繁多、信息龐雜的信息流當中進行分辨、歸類、提取、整理、挖掘,將有用的信息歸納出來,使得醫院管理人員能夠應用在決策當中。
在大多數的醫院管理當中,數據挖掘技術具有一定程度的實用性,其實施的過程可以通過以下流程進行簡單的描述:
按照醫院管理方向、內容以及所要達到的目標進行要求的確立,對管理需求的問題進行準確描述,并將這些問題轉化為需要進行數據挖掘的問題。
參照數據挖掘的相關問題,首先要將目標數據進行確定,并從醫院的數據庫或信息系統當中將適用于挖掘的大量數據進行篩選,并且對數據的質量問題進行初步評估,對于相關的數據進行提取,無關的數據進行清理。
針對任務目標的類別劃分,對于將要采用數據挖掘的分析方法類別進行確定,例如選擇聚類分析,或者是描述,或者是關聯規則等方法,隨后選擇一種最為直接有效的數據挖掘算法,將數學分析的模型通過數據進行建立與完善。
在進行模型評價時,需要通過有效數據對模型進行解釋與結果數據的挖掘,并且要經過多次的測試與評價后,才能夠對信息的可信度及有效性進行判定。在評價當中所采用的數據分析方法將按照數據挖掘的技術選擇而選擇,在通常情況下會使用到可視化的數據挖掘技術。在對模型進行建立、解釋、評價、驗證的過程當中,需要進行多次反復的驗證,一個有效的數據模型并不是一次性就能夠成功的,因此要在數據模型建立后,通過將其他數據進行帶入后,將分析所得到的結果對模型進行評價,如果得到的結果無法令人滿意,則可以通過反饋機制進行再一次的數據挖掘,重新進行上述流程,以得到有效的模型為止。
按照管理人員對于信息以及數據的管理要求,對于數據挖掘后所獲得的知識進行重新組織,并采用簡單易懂的方式呈現給管理人員,進而能夠使其在工作當中充分利用,并能夠敏銳地發現相關知識[5]。
每一位患者在入院就診后,將資料檔案登錄至數據庫當中,將患者的基本資料、病情、檢查結果、確定后的治療方案、治療方法以及恢復情況進行詳細記錄,并由此建立完整的患者資料庫,將每位患者的所有信息制作成列表,方便日后查詢。對患者資料的查詢可通過主治醫師、病情、就診時間、姓名或其他等一系列方法進行查找,而對一個范圍內的患者進行統計的話,也可以通過主治醫師、病情、就診時間或其他條件進行數據統計。這樣做的結果就是將所有的患者診治資料形成具體的數據化,在患者進行復診、復查以及其他需要時,能夠方便快捷地查閱患者以往的就診資料,方便后續治療,同樣方便醫院管理層對整體數據的了解與控制[6]。 見圖 2。

圖2 患者數據庫模型
在對數據挖掘技術進行學習之前,要充分了解機器學習、數據庫原理以及傳統的統計分析方法,在對靜態的數據模型進行建立并完善后,通過對數據庫當中蘊含的大量信息進行分析,并將數據模型進行反復驗證,進而能夠幫助醫院管理人員對醫院信息系統當中的大量電子數據進行歸納與總結,提高數據資源的利用程度與可用性。通過這種方法,能夠對醫院管理工作的強度進行進一步的提高,并加強醫院服務質量,利用科學的方法進行有效的管理。
[1]王新軍,胡曼.數據挖掘技術在壽險業交叉銷售中的應用[J].保險研究,2009(6):90-99.
[2]于長春,賀佳,范思昌,等.數據挖掘技術在醫院管理中的應用[J].第二軍醫大學學報,2012,24(11):1250-1252.
[3]謝邦昌.數據挖掘clementine應用實務[M].北京:機械工業出版社,2008.
[4]朱世俊,鮑玉榮,劉愛民,等.北京地區醫院DRGs付費和臨床路徑應用研究[J].中華醫院管理雜志,2010,24(3):145-147.
[5]王炯,夏宏斌.淺析數據挖掘技術在醫院信息化平臺建設中的應用策略[J].網絡與信息,2011,6(12):128-130.
[6]田霞,徐道芳.數據倉庫和數據挖掘在醫院管理中的應用[J].醫學信息(上旬刊),2011,7(18):283-285.