胡致涌,張國安
(福建工程學院 計算機與信息科學系,福州 350108)
企業各業務部門前期購置的業務系統中的數據庫是各自分散獨立的,其數據格式和存儲方式也不盡相同,很難實現系統間的信息交換和共享,不便于對業務數據的收集管理和分析評估,也無法滿足跨部門業務整合和信息安全規范等方面的需要。現有的業務系統大致包括企業決策涉及的業務流、資金流、信息流等,因此在這些系統基礎上建立數據中心平臺,是提高企業信息集成管理的重要環節,實現數據的共享轉換和關聯處理對科學決策至關重要。
以分層次原則為基礎進行數據中心平臺的設計。在統一規劃的前提下,不同業務系統的數據具有相對獨立性,重點解決跨部門、跨系統數據共享交換和數據一致性的問題。數據結構設計既具有擴充性,又要保證業務系統的穩定性,建立共同遵守的統一標準和規范,解決系統間信息的互連互通,支持業務開展、橫向的信息交換和宏觀管理的要求。數據中心平臺的邏輯體系架構圖如圖1所示。
從縱向看,中心平臺是一個多層結構,主要分為數據轉換與存儲層、數據獲取層、數據訪問層三大層次。數據轉換與存儲層包括第一次ETL、ODS、第二次ETL、DW和數據倉庫接口;數據獲取層將各業務系統傳送來的數據文件進行預處理和格式檢查,然后分類存放在臨時存儲區中;數據訪問層通過數據倉庫接口使用DW中的數據,向外提供統計報表、OLAP分析、即席查詢、數據挖掘等應用。從系統外部看,應用邏輯層負責提供所有應用,其分布式結構可以由應用服務器(OLAP服務器、統計型報表服務器等)和WEB服務器構成,通過圖形用戶界面(GUI)、Web瀏覽器等多種方式為用戶提供友好的界面訪問。

圖1 數據中心邏輯體系架構圖
從橫向看,中心平臺還包括了系統管理和元數據管理。系統管理則負責整個系統的管理工作,主要有用戶權限管理、系統監視和接口管理。其中,用戶權限管理負責用戶基本信息管理、權限管理、用戶權限分配;系統監測負責日志管理、系統管理任務提示、系統服務進程監測和數據存儲空間的監視;接口管理負責對數據倉庫接口、數據文件接口進行管理。元數據管理主要對各種元數據進行添加、刪除、查詢和修改操作,包括數據源元數據管理、ETL規則管理、ODS元數據管理、數據倉庫元數據管理和應用邏輯元數據管理。
數據獲取的數據源主要是各業務管理系統。數據獲取的方法是多樣化的,通過授權訪問的方式可以實現部門預算編制系統、預算執行系統等的聯機讀取,OA系統可通過系統專用接口抽取數據,其他業務系統的數據如excel表格等可采取FTP方式進行上傳。此外,數據獲取還支持用戶手工錄入數據,包括文件載入和界面錄入。
數據獲取層的模型如圖2所示。用數據獲取模塊來監控源數據的到來,并記錄源數據的采集日志。采集數據時,模塊對源數據文件進行的預處理和格式檢查通過激活數據接口協議實現,將源數據接口文件裝載入接口數據緩沖區。當發現源數據文件有錯誤時,形成錯誤文件的接口狀態報告,并將信息反饋給數據源端。
數據獲取調度管理模塊統一調度整個采集和數據接口的檢查。源數據超過保存期限后,將其轉換為歷史接口數據文件并脫機保存。

圖2 數據獲取層
數據轉換及存儲層負責數據清洗、生成數據倉庫和應用數據、存儲數據倉庫數據和應用數據。在本層中,數據倉庫包括分析型數據庫和操作型數據庫,應用數據包括數據集市和數據挖掘樣本數據。
圖3為數據轉換及存儲層的模型。本層次包括三次ETL過程:從數據緩沖區到操作型數據庫的第一次ETL過程,將經過清潔、集成和輕度的綜合后的數據裝載到ODS數據存儲區,形成明細的單位信息、項目信息、科目信息、業務信息和文檔信息等。從操作型數據庫到分析型數據庫的第二次ETL過程,通過ODS數據存儲區抽取數據,以面向主題方式將數據重新組織、轉換、綜合后裝載到DW數據存儲區中。從倉庫數據到應用數據的第三次ETL過程,包含了從倉庫數據到數據集市和從倉庫數據到數據挖掘樣本數據的ETL過程,從DW抽取數據后,以面向應用方式為管理業務提供數據支持。
本層次的存儲還包括數據倉庫元數據、ETL日志、ETL調度規則、ETL規則和ETL前后置處理程序等。

圖3 數據轉換及存儲層
數據訪問層是用戶通過數據訪問層來獲取數據中心的信息與系統進行對話的界面。該層是一個典型的層次體系結構,由界面層、業務邏輯層和數據層組成,基于J2EE架構的MVC開發模式結構如圖4所示。
1)界面層:主要是Web Portal和知識管理,Web Portal將用戶接入到系統中,由知識管理負責為客戶生成定制化的訪問界面,同時輔助用戶進行決策分析;
2)業務邏輯層:包括統計分析應用(如:統計報表、OLAP、數據挖掘、即席查詢)和KPI、EIS、專題分析等應用邏輯組織;
3)數據層:包括數據挖掘樣本數據、數據集市等。
應用接口是信息訪問的另外一個功能,根據通用接口應用協議制定的規范接收外部應用請求,并按照規范生成接口數據。

圖4 數據訪問層
數據訪問層是用戶獲取分析數據和提取數據過程中包含的知識窗口。本系統提供了多種數據訪問方式,具體數據訪問方式包括:多維分析、預定義報表、即席查詢、數據挖掘和Web查詢等。
數據中心對數據交換與共享機制予以支持,所有參與數據交換與共享的分布式應用系統都被視為交換節點,數據中心為中心節點。其實現的模式如圖5所示。
1)節點必須首先在中心進行注冊,取得節點標識。節點與中心進行數據交換時,中心通過節點標識信息確認消息的來源方(即發送方)和目的地(即接收方);
2)數據中心的數據采集由節點通過數據上傳的方式來實現;
3)數據中心的數據來源于各節點,節點負責維護業務上歸屬本節點的信息數據,成為該數據業務歸屬節點;
4)當節點的數據更新后,通過定時或實時方式將更新數據上傳到數據中心;
5)數據校驗是為了保證數據中心采集的數據與該數據業務歸屬方數據的一致性。中心作為數據校驗的發起方,將校驗數據發送到該數據業務歸屬節點進行數據校驗,校驗結果由節點返回;
6)節點可以在中心訂閱所需數據,當訂閱數據發生更改后,中心將更新數據發送到訂閱節點,從廣義上實現異步方式的數據同步;
7)中心可以通過廣播方式向各節點發送管理類信息;
8)數據中心向各節點提供數據的查詢服務,實現信息共享。

圖5 數據交換與共享機制
本文所設計的數據中心平臺規范了統一的數據標準,通過先進的數據采集轉換技術,以松耦合的方式實現了各業務系統的業務流、資金流與信息流數據有效的采集與共享,形成統一的信息資源體系。數據中心平臺支持OLAP(聯機分析處理),可以把非實時要求的分析查詢功能從各個業務系統中分離出來,從而明顯減輕對業務數據庫的壓力,提高各個業務系統的響應速度和處理性能。
數據中心平臺作為共享數據管理的中心,為聯機分析處理、報表分析、數據挖掘等應用提供了重要的數據支撐的服務。通過數據中心平臺,企業的管理系統可以對各業務系統數據源進行有效整合,形成數據集市,為企業的科學決策提供有力的支持。
[1] 陳啟買, 賀超波, 劉海. 基于OLAP的高校教學協同決策[J].計算機應用, 2009, 29(1): 304-305, 333.
[2] 屈霞, 劉自強, 張小鳴. 基于J2EE/MVC Model2的公共圖書管理系統的研究[J]. 計算機工程與設計, 2009, 20:4651-4653, 4657.
[3] 姚家奕. 數據倉庫與數據挖掘技術原理及應用[M]. 北京: 電子工業出版社, 2009.
[4] 劉明德, 陳湘. 數據挖掘與OLAP理論與實務[M]. 北京:清華大學出版社, 2003.