吳佳峰,徐哲,何必仕
杭州電子科技大學 信息與控制研究所,浙江 杭州 310018
某三甲醫院醫療影像信息系統(RIS/PACS)已應用數年,積累了大量影像檢查數據,但如果沒有相應的技術手段對其進行整理、分析就無法直接用于決策分析。本文借助Microsoft SQL Server 2008建立醫療影像信息數據倉庫,圍繞檢查績效關鍵指標,運用微軟提供的功能控件進行數據處理及展示,輔助領導決策。
數據倉庫(Data Warehouse)是面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用于支持管理決策[1],近年來逐步應用到醫療領域[2-3]。
數據倉庫一般采用3層體系結構,見圖1。底層為數據倉庫服務器,中間層為應用層,頂層為前端展現。底層數據倉庫服務器從操作型數據庫或外部數據源提取數據,對數據進行清理、轉換、集成等,并裝入到數據倉庫中。應用層主要對某個特定的主題進行聯機數據訪問、處理和分析,即聯機分析(OLAP)[4]。通過直觀的方式從多個維度、多種數據綜合程度將系統的運營情況展現給決策者,是數據倉庫系統的核心。前端數據展現模塊將數據展現給決策者,為決策者提供輔助分析功能,其工作原理主要是通過對數據進行分類、預測、鉆取、挖掘等處理來產生可透析的各種展示數據,而這些數據可直觀地反映決策者所分析探詢的問題。
數據倉庫一般須借助專業平臺及工具支持,微軟Microsoft SQL Server 2008為數據倉儲、數據分析和報表生成提供了一整套可伸縮的數據平臺[5]。具體包括:為大型數據提供高性能存儲的SQL Server數據庫引擎;進行提取、轉換和加載(ETL)操作的SQL Server 集成服務;用于聯機分析處理和數據挖掘的SQL Server 分析服務。

圖1 數據倉庫結構
數據倉庫中的數據是按分析主題來組織數據的,因此,確定主題是數據倉庫建設的首要任務。根據影像科業務需求[6],分析各科室檢查量、設備使用情況和病人檢查情況等,確定檢查績效主題。對于某三甲醫院決策者關心的醫療影像檢查績效關鍵指標,我們設計醫療影像關鍵指標表(MedicalImageKPI)用于存儲月檢查量、報告陽性率、隨訪率、設備開機率、平均檢查用時、檢查費用等指標數據。所需要的原始數據來自該院RIS/PACS數據庫,對應的數據表主要有“影像檢查表EISStudies”、“檢查結果表EISResults”、“檢查報告表EISReports”、“檢查項目表EISService”等,這些原始數據通過ETL工具加載到數據倉庫中。
多維數據模型采用常規星型模型,由事實表和維表組成。除關鍵指標集外,根據檢查績效主題的應用需求,對設備、費用、用時、質量分別建立星型模型。以設備檢查情況為例,對數據進行初步整理,設計事實表和維表:設備事實表FactService主要包括設備編碼、檢查日期、檢查部門、檢查項目、檢查費用等使用記錄;維度表主要有設備維DimDervice(編碼、名稱、類型、規格、廠商)、時間層次維DimDate(編碼、年、月、日)、科室維DimDepartment(編碼、名稱)。
2.3.1 數據清理
由于多年的數據使用、維護、遷移時缺乏必要的數據校驗,再加上軟件功能模塊是逐步上線以及工作人員錄入數據時的人為失誤,都可能導致數據的缺失、不完整和錯誤。所以為保證數據的質量,要對數據進行必要的清理。數據清理包括填充空缺值、識別孤立點、消除奇異值等。
為了不影響分析效果,我們把明顯錯誤的數據予以刪除,對于重要事實數據的缺失值進行填充。將數據缺失值分為兩類,數值型缺失和非數值型缺失。對于非數值型缺乏的記錄并且非數值型的屬性對于OLAP的維,我們刪除此記錄。對于存在缺失數值的記錄,可根據已有的數據記錄和屬性對應關系填充,如對于檢查費用缺失項,根據其對應的檢查項目,找出已記錄的檢查費用進行填充。而對于檢查時間,可以計算此數據集對應屬性數值的平均值,以平均值填充。
2.3.2 數據集成
一般情況下,決策者既要掌握總體數據,也要了解一定的細節:既要知道各醫療影像科室的各項指標數據,也要找出各項指標的變化趨勢。如院領導要了解醫院的月檢查人次、設備開機率、報告陽性率和月平均檢查用時等一些關鍵指標,就需要對數據進行集成。數據的集成是個復雜而關鍵的工作,既有簡單的數據求和、平均,也有復雜的統計計算。檢查人次和報告陽性量可直接從檢查表累加得到;月檢查時間需要根據登記時間和審核時間計算檢查用時,再求均值得到;設備月開機率由月開機數/設備總量求得。
OLAP分析主要通過對多維組織后的數據進行切片、切塊、聚合、上卷、下鉆、旋轉等分析動作,使決策者能從多種角度,多個側面、多數據綜合查看數據,從而了解數據背后的規律,為決策提供幫助。下面圍繞科室設備檢查量就切片和鉆取兩個動作進行數據展示。
多維數據是由多個維度組成,如果在某一維度上選定一個取值,則多維數據就從n維下降到n-l維,我們稱多維數組的子集(維度1、維度2、…維度i-l、維度i+l、…維度n、度量變量)為多維數組在維度i上的切片。對科室維切片,取放射科和胃腸鏡室,見圖2。我們可以發現兩科室的檢查量都逐年增加,說明醫院的醫療規模在不斷擴大,而胃腸鏡室在2008年以前沒有檢查量,說明醫院在08年前RIS/PACS還沒有覆蓋胃腸鏡室。

圖2 科室維切片
多維數據是具有層次性的,維度的層次實際上反應了數據的綜合程度。維度層次越高,代表的數據綜合程度就越高,細節就越少,數據量也越少;維度層次越低,則代表的數據綜合度越低,細節越充分,數據量越大。數據鉆取就是改變維度層次觀察數據的方法。從較高的維度層次下降到較低維度層次上來觀察多維數據為下鉆,從較低的維度層次上升為較高維度層次上來觀察多維數據為上卷。如圖3是對圖2在時間維度上的鉆取。從圖中可以看出,胃腸鏡室在2~3月份,檢查量有明顯的上升,而3月份的檢查量在各月份中也是最多的,說明在春節期間的暴飲暴食,節后出現腸胃問題的人較平時有明顯的增加。對比分析其他影像科室,發現2月份的檢查量相比其他月份都是最低的,可見春節期間就診人數普遍減少,決策者可利用此分析結果合理安排科室人員調休和設備保養,使醫療資源得到更好利用。

圖3 時間維鉆取
圖表形式的數據展示,一般包括儀表盤、直方圖、趨勢圖、餅圖、散點圖、圓環圖、雷達圖和曲面圖等。這里結合實際介紹儀表盤、趨勢圖和雷達圖等3種應用。
儀表盤主要用于實時顯示監控數據,觀察者能一目了然地了解系統或設備運行狀況,應用最多的就是駕駛儀表盤。我們可以把儀表盤應用于影像科日常管理中,用于顯示待檢人數和待審人數等實時信息。通過從RIS/PACS數據庫中提取病人檢查的登記時間(RegisterTime)、檢查完成時間(ExecuteTime)、報告審核時間(ApproveTime)建立病人檢查時間表(PatientTime),實時顯示當前待檢人數和待審人數。影像檢查儀表盤,見圖4。決策者可從中清楚地了解到科室當前時刻的待檢人數和待審人數,了解科室運行情況。如超過警戒限度,則立即安排人手疏導檢查,以維護良好的檢查秩序。

圖4 影像檢查儀表盤
趨勢圖一般用來顯示一定時間范圍(1 d、1 w或1個月)內所考察指標的變化情況。一般以指標數值為縱軸,以時間值為橫軸繪制圖形。趨勢圖就像不斷改變的記分牌,它的主要用處是確定各種類型問題是否存在重要的時間模式,以輔助決策分析。
根據影像科的業務需求,針對設備使用、檢查量、檢查費用、檢查用時等設計各類趨勢圖。在此,就每日待檢待審情況和全年不同病人類型檢查量進行趨勢圖展示說明。
影像科每天都接待大量的病人,病人就檢時大部分時間用在排隊等候上,如何減少病人無謂的等候時間,提高服務品質,是醫患共同關心的問題。決策者可通過了解病人待檢和報告待審隨時間變化的趨勢圖(圖5),分析檢查和審核高峰期,合理安排工作人員,減少病人等候時間,以提高服務效率。

圖5 待檢待審趨勢圖
不同病人類型檢查量在2011年的變化趨勢,見圖6。從圖中可以了解一年來檢查量的變化情況,體檢病人的檢查在6月份和9月份會出現高峰,門診病人的檢查有冬夏之分,住院和急診全年基本平穩。

圖6 不同病人類型2011年檢查量趨勢圖
“雷達圖”分析法結合多個指標進行直觀、形象的綜合分析與評價。為了院領導能更直觀地了解影像檢查各關鍵指標的變動情形,設計采用雷達圖對醫療影像檢查關鍵指標進行展示,見圖7。決策者通過醫院2010年和2011年11月份關鍵指標的同時顯示,可以進行同期對比,掌握各階段關鍵指標的變化情況,有助于根據醫院實際情況進行持續改進。

圖7 雷達圖
本研究根據某三甲醫院對影像檢查績效分析的需求,利用Microsoft SQL Server 2008建立了面向檢查績效主題的數據倉庫。該數據倉庫的應用,圍繞醫療影像檢查績效開展關鍵指標數據展示研究,利用多維數據模型開展切片、鉆取等OLAP分析,利用儀表盤/趨勢圖/雷達圖等形式對醫療影像檢查關鍵指標進行展示,為決策者提供直觀的圖表數據,以提高醫院管理水平和服務效率。下一步將結合聚類/分類、關聯和決策樹等模型開展數據挖掘研究,以提高對信息的深層利用。
[1] W.H.Inmon.Building the Data Warehouse[M].王志海,林友芳,譯.北京:機械工業出版社,2006.
[2] 郭慶,谷巖.數據挖掘技術在醫院信息系統的統計分析與決策中的應用[J].中國醫療設備,2010,25(5):64-67.
[3] 馮嵩.數據倉庫技術在醫療管理分析系統中的應用研究[D].長沙:中南大學,2007.
[4] Thomsem E,Splfford G,Chase D.Microsoft OLAP Solutions[M].Wiley Computer Publishing,1999.
[5] Jamie MacLennan,ZhaoHui Tang,Bogdan Crivat.Data Mining with SQL Server 2008[M].董艷,程文俊,譯.北京:機械工業出版社,2010.
[6] 戈欣,吳曉芬,許建榮.數據挖掘技術在放射科醫療管理中的潛在作用[J].中國數字醫學,2009,4(1):60-61.
[7] 吳德貽. 數據挖掘技術及其在醫院管理里中的應用[J].中國醫療器械信息,2009,(7):67-71.
[8] 樊敏.數據挖掘在醫院信息系統中的應用探討[J].科技資訊,2009,(27):191.