[收稿日期]2009年9月12日
[作者簡介]陳靜(1970~ ):吉林長春人,碩士,吉林建筑工程學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院,講師。
[摘 要]醫(yī)療數(shù)據(jù)倉庫中的數(shù)據(jù)存儲(chǔ)處理操作的簡單、方便,簡化數(shù)據(jù)傳輸接口及管理數(shù)據(jù)的復(fù)雜性,為醫(yī)療數(shù)據(jù)倉庫在醫(yī)療服務(wù)上發(fā)揮強(qiáng)大作用。本文采用設(shè)計(jì)一種新的數(shù)據(jù)環(huán)境——操作數(shù)據(jù)存儲(chǔ),從而形成DB-ODS-DW的三層體系結(jié)構(gòu)。大大簡化了DW的數(shù)據(jù)傳輸接口及DW管理數(shù)據(jù)的復(fù)雜性。
[關(guān)鍵詞]操作數(shù)據(jù)存儲(chǔ) 數(shù)據(jù)倉庫 數(shù)據(jù)庫
[中圖分類號(hào)]TP [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1009-5489(2009)11-0158-02
醫(yī)院需要功能強(qiáng)大的數(shù)據(jù)倉庫,收集大量的關(guān)于患者的基本信息、診斷信息、治療信息還有藥品信息和醫(yī)務(wù)人員的信息等。這些信息要求能夠?qū)Q策者做出重大決策提供參考和必要的支持。而對(duì)這些信息的存儲(chǔ)、操作處理的速度、準(zhǔn)確就顯得尤為重要。因此,面向主題的數(shù)據(jù)倉庫概念的提出,不但為有效地支持企業(yè)經(jīng)營管理決策提供了一個(gè)全局一致的數(shù)據(jù)環(huán)境,也為歷史數(shù)據(jù)、綜合數(shù)據(jù)的處理提出了一種行之有效的解決方法。數(shù)據(jù)倉庫的主要工作貢獻(xiàn)在于,它明確提出數(shù)據(jù)處理的兩種不同類型,操作型處理和分析型處理,并將兩者在實(shí)現(xiàn)中區(qū)分開來,建立起DB(Data Base)—DW(Data Warehouse)兩層體系結(jié)構(gòu)。
比如一個(gè)主管藥品的副院長可能經(jīng)常要解決這樣的問題:某某藥品是否要進(jìn)貨?那么他首先得清楚該商品的存貨是否充足,還要了解該藥品的近期銷售情況,還需從醫(yī)院的資金的情況出發(fā),比照其他藥品的庫存和銷售情況,等等。也就是說,要根據(jù)這些數(shù)據(jù)的綜合信息才能做出較為合理、可行的決策。如果將這一決策過程放到原有面向應(yīng)用的分散DB系統(tǒng)中去完成,不一定能得到每個(gè)部門的準(zhǔn)確一致信息,而需要進(jìn)行部門間的協(xié)調(diào)配合,工作量會(huì)很大;但將其放在數(shù)據(jù)量巨大的DW中去處理,顯然較費(fèi)時(shí),且涉及到很多不必要的數(shù)據(jù)。
像上述這類問題并不是聯(lián)機(jī)事物處理,又算不上高層決策分析。這類對(duì)企業(yè)進(jìn)行日常管理和控制的決策問題往往是一個(gè)企業(yè)中層的管理者經(jīng)常要解決的、較大量的問題。這種信息處理的多層次要求導(dǎo)致了一種新的數(shù)據(jù)環(huán)境——操作數(shù)據(jù)存儲(chǔ)(Operational Data Store,ODS)的建立。正因?yàn)檫@兩種處理類型之間存在著這么一個(gè)中間層次,才要求在DB-DW兩層體系結(jié)構(gòu)的基礎(chǔ)上再增加一個(gè)新的層次ODS,從而形成DB-ODS-DW的三層體系結(jié)構(gòu)。
一、操作數(shù)據(jù)存儲(chǔ)的定義及特點(diǎn)
ODS是用于支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合,保存在ODS中的數(shù)據(jù)具有四個(gè)基本特點(diǎn):面向主題的、集成的、可變的、數(shù)據(jù)是當(dāng)前或接近當(dāng)前的。
和DW一樣,ODS中的數(shù)據(jù)的組織方式是面向主題的,而且為了滿足支持企業(yè)全局應(yīng)用的需要,ODS中的數(shù)據(jù)在企業(yè)級(jí)上應(yīng)該高度保持一致性,所以必須對(duì)進(jìn)入ODS的數(shù)據(jù)歸根到底是來源于業(yè)已存在的、分散的各個(gè)面向應(yīng)用的操作型環(huán)境,但是ODS是一種區(qū)別于原來面向應(yīng)用的分散DB系統(tǒng)的新的數(shù)據(jù)環(huán)境,面向主題、集成化的特點(diǎn)是這種區(qū)別的集中體現(xiàn)。
同時(shí),ODS中只存放當(dāng)前數(shù)據(jù)或接近當(dāng)前的數(shù)據(jù),而且可以進(jìn)行聯(lián)機(jī)修改,包括增、刪、更新等操作。所謂“當(dāng)前”是指數(shù)據(jù)在存取時(shí)刻是最新的,而接近當(dāng)前則是指存取的數(shù)據(jù)是最近一段時(shí)間之前得到的。雖然DW中的數(shù)據(jù)也是面向主題和集成的,但是一般是不進(jìn)行修改的,所以O(shè)DS與DW的區(qū)別也主要表現(xiàn)在這后兩方面特點(diǎn)。
下面將會(huì)就ODS和DW的聯(lián)系與區(qū)別從不同的方面進(jìn)行剖析。
OLTP數(shù)據(jù)和ODS數(shù)據(jù)區(qū)別主要表現(xiàn)為:
OLTP數(shù)據(jù)是當(dāng)前的,面向應(yīng)用的,數(shù)據(jù)不統(tǒng)一,而ODS數(shù)據(jù)是當(dāng)前的或接近當(dāng)前的,面向主題的,統(tǒng)一集成的。
二、操作數(shù)據(jù)存儲(chǔ)的功能
前邊提到,ODS主要是適應(yīng)企業(yè)級(jí)的全局應(yīng)用的需求而產(chǎn)生的。這種全局應(yīng)用可以大致的分為三類:一類是進(jìn)行企業(yè)級(jí)的聯(lián)機(jī)事物處理,另一類可以稱之為“即時(shí)OLAP”數(shù)據(jù)處理,還有一類應(yīng)用是起到數(shù)據(jù)緩存區(qū)的功能。
1)在ODS上可以實(shí)現(xiàn)企業(yè)級(jí)的OLTP
所謂“企業(yè)級(jí)的OLTP”是指在實(shí)際數(shù)據(jù)處理中,一個(gè)事物同時(shí)涉及多個(gè)部門的數(shù)據(jù)。在操作型DB環(huán)境中,各應(yīng)用所面對(duì)的僅是企業(yè)的某個(gè)部門,這些部門應(yīng)用所處理的是企業(yè)的局部數(shù)據(jù)。并且在原來面向應(yīng)用的分散DB系統(tǒng)中為了獲得快速響應(yīng),每個(gè)面向應(yīng)用的DB中不可能包含整個(gè)企業(yè)的完整的數(shù)據(jù),加上在實(shí)際的DB的構(gòu)建過程中缺乏統(tǒng)一的工程化控制,某個(gè)操作型DB的數(shù)據(jù)組織很少考慮其他DB的特點(diǎn)和需求,因而數(shù)據(jù)缺乏一致性。所以在各個(gè)分散的DB上要進(jìn)行企業(yè)級(jí)的事物處理代價(jià)會(huì)很大,因?yàn)樗紫纫獙?duì)分散在原有系統(tǒng)中的數(shù)據(jù)進(jìn)行集成。而ODS中的數(shù)據(jù)已經(jīng)是面向企業(yè)全局集成的,所以建立于ODS之上的OLTP可以快速地實(shí)現(xiàn)對(duì)企業(yè)中的數(shù)據(jù)全局集中管理。因此ODS的建立克服了原來面向應(yīng)用的數(shù)據(jù)庫組織過于分散的缺點(diǎn)。
2)在ODS上可以實(shí)現(xiàn)即時(shí)OLAP
一般來說,在DW上實(shí)現(xiàn)OLAP是為了進(jìn)行長期趨勢分析,由于DW中的數(shù)據(jù)量十分龐大,所以O(shè)LAP的運(yùn)行時(shí)間較長。在企業(yè)的日常經(jīng)營中,常常要進(jìn)行一些非戰(zhàn)略性的中層決策來實(shí)現(xiàn)對(duì)企業(yè)的日常管理和控制。在很多情況下,這類中層決策并不需要參考太多的歷史數(shù)據(jù),而主要是參考和存取當(dāng)前的和接近當(dāng)前的數(shù)據(jù),并且要求有較快的響應(yīng)速度,我們把這類對(duì)數(shù)據(jù)的即時(shí)分析處理稱為“即時(shí)OLAP(up-to-the-second OLAP)”。由于它不適宜在DW上進(jìn)行,支持這類“即時(shí)OLAP”就成為建立ODS的另一個(gè)目的。由于ODS中的數(shù)據(jù)量遠(yuǎn)較DW小,因此可以迅速獲得決策信息,甚至可能達(dá)到秒級(jí)響應(yīng)。因此,ODS的建立克服了DW系統(tǒng)過于“臃腫”、處理時(shí)間長的缺點(diǎn)。
以上兩類數(shù)據(jù)處理是有明顯的差別的,可分別稱之為“操作型”處理模式和“信息型”處理模式。所謂信息型處理模式就是只是查詢操作的工作模式(非排他型的),而操作型處理模式則指含有更新操作的工作模式(排他型的)。兩種模式在數(shù)據(jù)處理上的差別導(dǎo)致了所需的技術(shù)支持有著很大的差異。在進(jìn)行企業(yè)級(jí)的OLTP時(shí),ODS是一個(gè)操作型的環(huán)境,跟原來面向應(yīng)用的分散的數(shù)據(jù)庫系統(tǒng)一樣,此時(shí)ODS所要求的支持技術(shù)包括事物管理、封鎖管理、死鎖檢查、數(shù)據(jù)恢復(fù)、日志管理以及數(shù)據(jù)存儲(chǔ)管理等復(fù)雜技術(shù)。而在進(jìn)行即時(shí)OLAP時(shí),ODS又是一個(gè)分析型環(huán)境,此時(shí)的數(shù)據(jù)處理顯然要簡單得多,實(shí)際所需的支持技術(shù)也要少得多。
3)數(shù)據(jù)緩存區(qū)的功能
各個(gè)部門的聯(lián)機(jī)事物處理環(huán)境下的數(shù)據(jù)要被抽取、轉(zhuǎn)換、加載到聯(lián)機(jī)分析處理環(huán)境下使其成為滿足分析型數(shù)據(jù)的要求。這種數(shù)據(jù)的加載工作既不能過多的影響聯(lián)機(jī)事物處理的性能,又要滿足聯(lián)機(jī)分析處理對(duì)數(shù)據(jù)的即時(shí)要求,建立一個(gè)操作數(shù)據(jù)存儲(chǔ)區(qū)域就能很好地解決這個(gè)問題。我們可以每天在聯(lián)機(jī)事物處理空閑時(shí)把數(shù)據(jù)從OLTP環(huán)境下按照主題加載到操作數(shù)據(jù)存儲(chǔ)區(qū)域,一定時(shí)間周期后再加載到數(shù)據(jù)倉庫,這樣可以實(shí)現(xiàn)即時(shí)OLAP分析功能,還可以有效地平衡OLTP負(fù)載。
在醫(yī)療數(shù)據(jù)倉庫的設(shè)計(jì)中,我們就可以建立一個(gè)操作數(shù)據(jù)存儲(chǔ)區(qū),每天可以在醫(yī)療管理信息系統(tǒng)相對(duì)空閑的時(shí)機(jī)把數(shù)據(jù)按主題加載到操作數(shù)據(jù)存儲(chǔ)區(qū),在一周里尋求一個(gè)系統(tǒng)相對(duì)空閑時(shí)期把數(shù)據(jù)從操作數(shù)據(jù)存儲(chǔ)區(qū)加載到數(shù)據(jù)倉庫。這樣加載過程就可以分步分階段進(jìn)行,避免了任務(wù)過于集中,有效地平衡了數(shù)據(jù)庫管理信息系統(tǒng)的負(fù)載。
三、三層體系結(jié)構(gòu)
面向主題和集成性使得ODS的數(shù)據(jù)在靜態(tài)特征上很接近DW中的數(shù)據(jù)。但是,在ODS與DW之間仍然有許多基本的、重要的差別。
(1)最大的差別是兩者存放的數(shù)據(jù)內(nèi)容的不同:操作數(shù)據(jù)存儲(chǔ)ODS的內(nèi)容是當(dāng)前或接近當(dāng)前的,細(xì)節(jié)數(shù)據(jù),可聯(lián)機(jī)更新;數(shù)據(jù)倉庫DW的內(nèi)容是歷史數(shù)據(jù),細(xì)節(jié)數(shù)據(jù)和綜合數(shù)據(jù),不可變快照。
(2)DS與DW的數(shù)據(jù)量是不同等級(jí)的,DW中保存大量的歷史數(shù)據(jù),其數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過了ODS的數(shù)據(jù)量。
(3)二者的技術(shù)支持不盡相同。ODS要支持面向記錄的聯(lián)機(jī)更新,又要保證其數(shù)據(jù)與源數(shù)據(jù)庫系統(tǒng)中數(shù)據(jù)的“一致性”,而在DW中,則只需支持裝入和存取。
(4)二者面向的需求不同。ODS的需求有兩個(gè):一是為了滿足企業(yè)進(jìn)行全局應(yīng)用的需要,包括企業(yè)級(jí)OLTP和即時(shí)OLAP;二是向數(shù)據(jù)倉庫提供一致的數(shù)據(jù)環(huán)境以供抽取。DW則主要用于長期趨勢分析或戰(zhàn)略決策。
(5)二者使用者不同。ODS的使用者主要是企業(yè)的中層管理人員,他們應(yīng)用ODS進(jìn)行企業(yè)日常管理和控制;DW的使用者則主要是DSS分析員或企業(yè)高級(jí)決策者。
鑒于ODS的作用,我們可以把醫(yī)療數(shù)據(jù)倉庫設(shè)計(jì)成DB-ODS-DW三層體系結(jié)構(gòu)如圖1。

在DB、ODS、DW三者并存的體系環(huán)境下,引入ODS帶來了許多新的特點(diǎn)或優(yōu)點(diǎn),它可以起到承上啟下的作用。另一方面,DW的數(shù)據(jù)追加通過ODS進(jìn)行可以變得異常簡單,大大簡化了DW的數(shù)據(jù)傳輸接口及DW管理數(shù)據(jù)的復(fù)雜性。
四、結(jié)語
目前一個(gè)優(yōu)秀的醫(yī)療數(shù)據(jù)倉庫的設(shè)計(jì)可以迅速獲得決策信息,而其中的數(shù)據(jù)存儲(chǔ)處理操作簡單,簡化數(shù)據(jù)傳輸接口及管理數(shù)據(jù)的復(fù)雜性,更為醫(yī)療數(shù)據(jù)倉庫錦上添花,發(fā)揮更大作用。
[參考文獻(xiàn)]
[1]谷巖:《基于數(shù)據(jù)倉庫技術(shù)的醫(yī)院信息系統(tǒng)(HIS)的實(shí)現(xiàn)方案研究》,《計(jì)算機(jī)系統(tǒng)應(yīng)用》2005年第7期。
[2]毛琦敏:《數(shù)據(jù)倉庫在醫(yī)院應(yīng)用的研究》,《醫(yī)學(xué)研究生學(xué)報(bào)》2005年第4期。
[3]馮嵩:《數(shù)據(jù)倉庫在醫(yī)院信息決策系統(tǒng)中的應(yīng)用》,《電腦知識(shí)與技術(shù)》2006年第5期。