摘要:分析DW系統和ODS系統的功能定位的不同,闡述DW+ODS模式下所能完成的功能,從業務發展和數據架構變化的角度,說明采用DW+ODS模式的意義。
關鍵詞:數據倉庫(DW) 操作型數據存儲統(ODS) 數據架構
1 概述
許多企業在構建DW(即數據倉庫:Data Warehouse)及其它的數據類應用系統的同時,也在構建ODS(操作型數據存儲系統:Operational Data Store)系統。DW系統和ODS系統的主要組成部件都是ETL(Extraction-Transformation-Loading的縮寫,中文名稱為數據提取、轉換和加載),但二者在功能定位、數據保存周期等方面有顯著的區別。
DW系統是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,通過對數據的深度挖掘和分析,為企業提供分析決策服務。
ODS是數據源系統與包括數據倉庫在內的目標系統之間的數據緩沖層。ODS準實時地從源系統數據獲取數據,經清洗整合后,再提供給目標系統使用。
關于ODS和DW的關系有兩種不同的觀點,一種觀點認為ODS作為DW的一部分而存在,沒有單獨的ODS;另一種觀點認為ODS與DW系統相互獨立,ODS專注于數據整合,DW專注于數據分析,即DW+ODS模式。下面將說明DW和ODS功能的差異、DW+ODS模式所實現的功能,并從業務發展和數據架構變化的角度說明ODS+DW模式的意義。
2 DW與ODS的主要差異
①DW保留的是長期的歷史數據,而ODS保留的是接近于當前的數據。DW保留了數據變化的整個歷史,ODS保留了數據新近的變化,具有準實時性特點。
②DW系統偏重于對數據的挖掘和分析,ODS系統偏重于數據的整合與轉換。
③DW系統的數據結構是基于數據應用的主題而設計,DW所保留的數據可能根據主題的需要進行了大量的整合和加工,而ODS則基于源數據系統和目標系統而設計。
3DW+ODS模式所實現的功能
3.1 解決DW系統供數時效性問題
在只有DW系統的情況下,存在以下問題:一是由于DW系統的數據龐大,數據深度加工需求多,無法準實時地向其它目標系統提供數據,滿足不了其它目標系統對數據的時效性要求;二是DW系統直接從眾多源數據系統采集數據,并且向眾多的目標系統提供數據,還要進行大量的數據清洗和整合加工操作,這樣就加大了DW系統的負擔,使其因應付過多其他需求而削弱海量計算能力,影響了DW系統的核心功能,增加了DW系統的數據加工成本。
3.2 降低整體數據加工成本
構建了獨立的ODS系統后,則可以解決上述問題。通過ODS統一從源數據系統獲取數據,并準實時地提供給目標系統,將DW系統從大量的數據交換工作中解放出來,同時也滿足了目標系統的需要;數據的清洗、整合工作可以在ODS統一完成,DW系統和其它眾多的目標系統可以減少這些方面的重復工作,降供了數據加工的整體成本。
3.3DW+ODS模式可完成復雜應用
當構建了DW和獨立的ODS系統后,將二者各自側重的功能結合,可以完成更多DW單獨不易實現的業務功能,一個分析型應用可能同時依賴ODS和DW。
4從業務發展和數據架構的變化看ODS+DW模式
在企業信息系統建設的初始階段,企業系統以交易系統為主,此時沒有獨立的數據分析系統,數據分析匯總功能附屬于交易系統。這時企業的數據架構的特點是數據保存在交易系統的數據庫中,同一數據既要支撐交易運行,又要滿足管理分析的需要,對同類數據的不同訪問方式引起資源競爭導致系統性能下降,為滿足管理分析的需要,交易系統數據庫中保留了過多的過期數據,也導致性能降低。
隨著分析管理類的應用逐漸增多,為解決上述問題,需要交聯機交易與管理功能分離,構建獨立的歷史數據存儲和分析系統,DW系統就是其中的一種。這些系統從交易系統中批量獲取數據,并進行加工和分析,交易系統不再保留過期數據。此時的數據架構特點為:每一個源系統要服務于多個數據目標系統,而每一個目標系統也要適應于多個源系統數據,即存在多對多的關系,整個系統呈現一種復雜網狀結構。在這樣的數據架構模式下,各管理分析系統獨立地從眾多源系統獲取數據,當源數據系統發生微小變化時,可能引起下游一大片的管理類系統的大規模調整。同時,管理類系統之間也存在數據交換的需要,數據的交叉使用使同一批數據在企業內部存在著冗余的傳輸和加工過程
為解決上述問題,需要將數據的獲取、清洗和整合操作放在一個統一的平臺進行,而靠DW系統顯然無法完成這個任務,因此就需要建一個獨立的ODS平臺。ODS作為中心環節,所有源數據系統的數據都由ODS 統一獲取,ODS并按企業標準將數據進行整合后,統一提供給使用數據的目標系統,當源數據系統發生變更時,只涉及到ODS的變更,眾多的目標系統所受的影響被降到最小程度。DW系統作為目標系統和源數據系統中的一員,成為以ODS為中心的數據網絡的一個結點。些時的數據架構特點為:ODS與各系統間呈現一對多的關系,形成一個清晰的星狀模型。
參考文獻:
[1](美)William H.Inmon 著.王志海等譯.《數據倉庫》.機械工業出版社,2006.
[2]劉智瓊.淺析ODS與EDW關系,《電信科學》.2007年11期.
作者簡介:
張勇(1972-),男,1994年大學畢業,副教授,現主要從事計算機通訊方面研究工作。