董銀霜 李宗林 周彬
摘要:數據的增長趨勢隨著互聯網的發展達到TB級,傳統的審計方式不再適用,應用數據挖掘技術不可避免。針對醫院審計,根據當前HIS系統的特點,使用數據挖掘技術和審計實踐結合來分析實際數據。聚類分析中可伸縮期待最大化(SEM)算法用于分析數據特征,查找潛在的規律,并為審計人員的決策提供數據支持。
關鍵詞:HIS系統;數據挖掘;審計實踐;聚類分析;SEM算法
中圖分類號:TP309? ? ? ? 文獻標識碼:A? ? ? ? 文章編號:1009-3044(2018)34-0001-03
1引言
隨著互聯網的快速發展,數據增長呈指數趨勢,傳統的審計方式,很難從TB級數據中獲取隱藏的重要信息。因此,審計人員使用流行的數據挖掘技術來自動分析數據,從而提高效率和準確率。
在審計工作中應用數據挖掘技術,不僅能對被審核數據的歷史信息進行查詢,還能分析其潛在的聯系和規律,找出具有價值的信息。具體來說有兩個層面:(1)從技術角度上說,就是利用機器智性從有噪聲的大量數據中找尋潛在規律的過程。(2)在實踐中,它是指對被審計單位的業務數據進行智能處理,從中找出所需信息,便于審計的實際工作。
醫院信息系統(HIS)是一種使用現有網絡信息技術來存檔和處理醫院的醫療和管理數據的信息系統。近年來,HIS系統已在醫院得到了深入的應用,并積累了大量的原始數據。結合審計人員多年來工作中積累的業務經驗,進一步對數據分析研究。把數據挖掘技術引入HIS系統中用以分析存檔數據,從審計角度找出醫院經營管理上需要進一步完善和規范的各方面,找出問題,促進整改。同時為同類型疾病的治療和防范提供一定的數據支撐,挖掘出關系模型,然后進一步對事件進行合理的分析預測,為醫院的決策提供重要的依據。可以為保障人民群眾的身體健康、為公共醫療衛生事業發展提供數據依據、為社會和諧發展做出貢獻。
2相關工作
數據挖掘技術在將數據倉庫中已經聚合的數據轉換為有用的結果,通過對象選擇、數據準備、挖掘數據、結果分析四個步驟。
2.1業務對象
數據挖掘面對的對象,從數據存儲的格式,包括關系數據庫、面向對象的數據庫、文本數據源、多媒體數據庫、異質數據庫和Internet資源。
本文針對的是HIS系統,對象具體包括掛號、診療、處方、記賬收費、票據管理、藥品進銷存等子系統與醫護工作站、手術室及醫保或新農合結算等子系統。涉及的數據類型眾多、業務流程復雜,具體從以下兩個方面分析:
(1)醫院業務功能模塊:醫院信息系統功能模塊包括標準數據維護、收費(門診/住院)系統、藥物管理系統、門診醫生工作站系統、醫院護理工作站系統等。
(2)HIS系統后臺數據:HIS系統采用客戶端/服務器(C/S)結構。服務器使用Windows操作系統、SQL Server數據庫和相關子系統來存儲共享。本次獲取5個數據庫文件備份,ClinicPathWay,JQ_HISInteFace,JQ_Inh,sHIS,shis_em。
2.2數據準備
(1)確定及選擇數據:為了精準分析數據,審計工作選定了HIS系統的業務數據原始備份(包含多個子系統)和財務數據,關注HIS業務數據分析,并根據需要與其財務A/C集數據進行比較。
(2)數據清理和轉換:以住院數據為例,整理出幾個關鍵的規范數據表,門診數據與此類似。
(3)關鍵數據分析:通過對前述數據整理,在單病種統計中,主要用到以下幾個表:病人基本信息表、費用明細表、出入庫明細表,此外,還有一些公共的字典表,如費別表、科室名稱表等。為便于操作,盡可能在一張數據表里展現。以表1為例。
2.3挖掘數據
選擇Microsoft SQL Server 2008 R2中的Analysis Services進行挖掘,基于OLAP多維數據集信息來創建數據挖掘模型,并使用成員屬性在新維度中查看結果。Analysis services提供了兩種算法:聚類(Clustering)和決策樹(Decision tree)。下述描述與操作均在SQL Server 2008 R2環境下進行。
(1)建立HIS系統數據倉庫:建立數據倉庫是開發有效的決策支持系統的基礎,也是數據分析處理的環境。
(2)確定數據倉庫的主題和形式:基于關系表的存儲方式有兩種模型,醫院通常采用星型模型,相對于雪花模型,這種模型節點交叉點少,查詢速度會更快。以門診掛號為例(星型模型),如圖1所示。
(3)建立維度:一個對象的維度包含大量屬性,新建維度,把成員添加到數據集中(如病種、總費用、項目費、藥費等)。
(4)建立多維數據集:維度建立后,可以基于數據倉庫中的事實表構建多維數據集。多維數據集是在線分析處理(OLAP)中的主要對象,是提供對數據倉庫中數據的快速訪問的技術。
(5)使用聚類分析進行挖掘:聚類是將一組對象劃分為若干類,且每個類中對象的相似度相對更高。與分類不同的是聚類不依靠給定的類別對對象進行劃分。在對HIS系統數據分析時使用“Microsoft聚類分析”。Microsoft Analysis Services提供的聚類算法是可伸縮期待最大化(SEM)算法,這是一種基于EM算法的缺失數據的貝葉斯網絡結構學習算法。該算法使用期望充分的統計因子使得打分函數具有可分解的形式,然后執行局部搜索以試圖找到具有更高分數的網絡結構;然后查找所選網絡結構上獲得最多分數的參數。其基本思想是根據群體密度來創建集群。它的特點是只需掃描一次源數據,并在計算過程中的任何一點提供合理的結果。
3 實驗結果與分析
結合對某婦幼保健院進行實際審計項目,對其HIS系統相關內容進行了研究,重點關注了該醫院婦女、兒童的診療以及新生兒的出生情況,進行了深層次的分析。通過對醫院業務收支、藥品進銷存和門診及出入院人員等數據信息進行分析,了解在收費、診療等方面是否存在任何違規要求,并提出合理建議。盡可能合理地使用資源為大多數人提供醫療保健。
在對該醫院HIS系統進行的實際操作中,建立聚類分析模型時,選擇門診結算單數據表的單據號為主鍵,該結構包括疾病名稱,性別,操作員,訪問日期,項目費,藥費和總費用。在“挖掘模型查看器”中,分類關系圖中可以查看各分類的密度特征。如圖2:
通過上圖,可以非常直觀地根據剖面圖的色彩和大小比例關注某個分類內容的具體情況,如按病種名稱來看,婦科檢查占全部樣本數據的比重為50.6%。關注數據,進一步篩查可能的違規行為,重點關注患者診斷和藥物信息,醫院藥物消費信息和醫院治療藥物監測數據,注意每個時間段的工作強度,以與季節或疾病流行程度的影響而相同的情況核查問題。
結合該醫院業務特點,進一步對住院數據進行分析,查詢得出某一時間段內,正常分娩方式新生兒9276例。剖宮產的新生兒人數為5956人。上述數據反映這一段時間內剖宮產比例為5956/(5956+9276)=39.10%,接近40%。
對分類特征表,根據變量所占概率的大小來看,可以發現性別缺失的概率為56.92%,說明該HIS系統錄入原始數據時未錄入相應基本數據,審計人員可進一步從信息系統審計的角度進行深入分析HIS內的數據及HIS系統本身;從病種名稱來看,婦科檢查占50.61%,比例占第一,基本符合該醫院的主要業務內容,其次為未見異常占11.14%;總費用,藥費和項目費數據表明,項目費占門診費用的大部分,基本符合情況。
對醫院信息系統數據進行描述和可視化,是一種對醫院信息系統數據挖掘的表示。對就診數量通過聚類分析的結果、對項目檢查費用值進行細化,從而在監督各個部門實施的檢查、治療、用藥的合理性時提供參考依據,并能針對不合理的部分進行詳細的分析,進而提高了對醫療過程的管理監控能力。
就診業務中,HIS系統中部分數據缺失的情況可能會影響某些類型內容的準確性和完整性,但仍然可以對現有情況進行總體把握。
4結果與展望
HIS系統數據記錄著各項內容的具體度量值,HIS系統根據數據所做的分析功能也只是由普通的數據統計、常規的報表、不同權限的查詢等功能構成。主要是為了滿足日常信息提取之需,從本質上來講這些查詢操作是直接的,查詢結果是單一確定的,HIS系統的大量數據不能直接提供有利于管理者決策的重要信息,也不能建立有效的指標體系和分析決策方法,因此,對醫院的管理和操作進行了有效的評估。數據挖掘意味著使用算法從數據中提取模式。
通過對歷史數據的分析可以找出某些規律,對病人就診科室、入院時間、病床周轉情況、費用發生等情況進行挖掘后,可以發現某些就診情況受國家政策的調整、季節的變化、年齡分布、職業狀況等情況的多種影響。在充分了解醫院實際業務開展情況,審計工作可以結合數據挖掘結果,提升單一的SQL查詢的固有模式,通過分析和處理源數據庫中的數據,提取了構建數據倉庫的主題,并提出了基于HIS的數據倉庫模型,利用工具進行分析,重點關注數據占比較大的發生情況,對可能存在違反規定的情況進行進一步篩查,注意患者診斷和用藥信息,醫院用藥信息,醫院治療藥物監測數據,注意每一個時間段的工作強度與季節或疾病流行的情況不同。
數據挖掘技術結合審計工作的具體開展,無論在實際操作還是理論研究上都有大量工作要做,為審計工作技術手段的提升奠定了基礎,但仍存在許多問題需要加以改進:
一是改進數據挖掘算法以提高準確率和效率。
二是要更好地利用數據庫中各類原始數據,與HIS系統本身充分結合進行研究,擴展到對醫療專業數據、疾病科研方在進行探索。
三是要進一步將數據挖掘與審計工作進行結合,使挖掘結果為審計關注點指明方向,促進審計工作水平的提升,也為醫院更好地進行決策支持服務,給相關醫務人員分析提供有價值的參考。
隨著科學技術地發展,審計信息化技術的發展也在不斷與時俱進,而且審計信息化技術可以應用到各行各業,審計理論要與數據挖掘技術的充分結合。從審計需求,到理解和分析具體的審計目標,然后建立模型確定算法對數據倉庫進行數據挖掘,是審計信息化技術對大數據分析的必經方式,適當的挖掘算法運用后可以合理地利用人力物力,它可以大大提高審計的質量和效率,也為信息系統審計提供了新的思路和方法。
參考文獻:
[1]李建鵬.基于醫院信息系統的數據挖掘應用[D].華南理工大學,2010.
[2]陳文偉,黃金才,等. 數據倉庫與數據挖掘[M]. 北京:人民郵電出版社,2004.1.
[3]徐潔磐.數據倉庫與決策支持系統[M].北京:科學出版社,2005.
[4]康曉東.基于數據倉庫的數據挖掘技術[M].北京:機械工業出版社,2004.1.
[5]熊才權,程學先,胡恬.基于Analysis Services的OLAP視圖的設計與實現[J].計算機與數字工程,2004(6).
【通聯編輯:王力】