牛雪飛
(連云港師專,江蘇 連云港 222006)
高校檔案數據倉庫設計
牛雪飛
(連云港師專,江蘇 連云港 222006)
摘要:隨著信息化的進一步發展,高校信息歷史數據達到相當規模,為更方便管理數據,提供決策支持,提出了數據倉庫管理方案,介紹了開發過程中的開源工具,重點分析了數據倉庫中管理平臺的設計。
關鍵詞:信息管理;數據倉庫;ETL
在信息技術高速發展的今天,許多高校都建設了規模不等的信息管理系統,隨著數據的不斷增加,歷史數據累積越來越多,這就需要一種工具來整合各業務領域的應用數據,以充分發揮歷史數據的最大功能。數據倉庫能夠處理大量的數據資源,通過它的集成管理器能夠將發展過程中離散的數據有效集中[1],為解決上述問題提供了技術上的保證。
2.1系統架構
結合高校信息管理的特點,設計了系統方案如下:
(1)數據庫平臺:數據庫平臺選擇SQL SERVER數據庫,WINDOWS為操作平臺,用于存儲系統所有的數據,包括業務數據與元數據。
(2)管理平臺:管理平臺應用程序部署在WINDOWS操作平臺之上,以JBOSS為應用平臺,JAVA為開發工具。
(3)開發平臺:平臺采用MONDIRAN提供OLAP分析服務,JPIVOT提供OLAP展示服務,WEKA提供數據挖掘服務。數據展示以開源的BI工具為主,通過 BIRT來實現豐富的報表展示。ETL以開源的ETL工具KETTLE為主,并配置適應于SQL SERVER數據庫的SQL 腳本做為數據抽取、清洗、轉換與加載的工具。
2.2管理平臺設計
數據倉庫管理平臺是數據倉庫的外圍程序的集合,其中包括元數據管理、數據質量管理、數據采集管理、ETL調度管理、數據倉庫監控、數據安全管理與操作幫助七大子系統。
(1)元數據管理模塊。該模塊是存儲數據封裝、數據敏感度和相關人員隱私信息等相關元數據內容的部分,主要功能是擴充元數據對外服務接口內容,向外部模塊或子系統提供元數據內容和元數據分析服務,為數據封裝和安全管理等數據倉庫管理模塊提供支撐。
元數據獲取層位于整個體系架構的最底層,元數據獲取層抽象概括了元數據獲取的各種途徑。存儲層定義了元數據存儲所遵循的元模型,規范從獲取層得到的各類元數據的屬性要求和存儲格式要求,包括業務元數據、技術元數據和管理元數據。功能層為前端元數據應用提供了基本的功能支撐,主要包括元數據基本功能、元數據分析功能、元數據質量管理、元數據服務接口和元數據權限管理五個部分。在元數據管理模塊功能層的支持下,元數據應用層通過調用功能層的功能,對元數據管理的實際問題提供應用解決方案。
(2)數據質量管理模塊。是數據倉庫管理平臺的技術支撐平臺,主要對數據源接口、數據實體、處理過程、數據應用和業務指標等相關內容的管控機制和處理流程,也包括對數據質量管控和處理的信息總結和知識應用等輔助內容。數據質量管理子系統功能按層次劃分為獲取層、存儲層、功能層和應用層。
獲取層主要實現的是數據質量數據的采集功能,是數據質量功能和應用的基礎。采集的數據范圍有:源系統關鍵數據、源系統接口信息、數據處理過程信息和業務指標數據等。存儲層中存儲的數據質量信息主要包括三個部分:數據質量規則庫、數據質量信息庫和數據質量知識庫。功能層包含了數據質量管理模塊的基礎功能,它為數據質量管理的前端應用提供了基本的功能支撐。應用層為數據質量管理各環節管控和處理提供具體應用解決方案,主要包括源系統變更協同管理、源系統數據質量稽核、數據質量監控知識應用和問題處理知識應用等。
(3)數據采集管理。數據采集管理為數據倉庫數據來源的總入口,包括元數據采集與業務數據采集,其中元數據采集又包括手工數據采集與工具或SQL腳本的數據自動采集,業務數據采集包括業務系統的數據采集與手工報表的錄入與導入。數據采集模塊為數據管理平臺與數據開發平臺提供數據支持。數據采集模塊分為存儲層、功能層和應用層。
數據采集的存儲層主要包括元數據存儲、業務數據存儲,其中業務數據存儲就是開發平臺中數據接口。按操作方式分可以分為手工數據獲取與系統數據獲取。從系統工具中獲取元數據,包括ETL工具與BI工具,主要是獲取ETL工具中的數據抽取業務邏輯與BI工具中的權限與應用元數據。應用層主要包括的數據采集的設置管理功能、數據填報功能、數據導入功能、數據基本規范檢查功能與數據采集功能提醒功能。
(4)ETL調度管理模塊。該模塊為數據的ETL流程提供管理基礎,同時為數據倉庫的監控提供服務接口。主要進行調度設置,設置各腳本執行的先后順序、執行時間、執行周期,以及各腳本之間的依賴關系。記錄腳本執行情況(開始、結束),腳本的出錯記錄等。該模塊分為獲取層、存儲層、功能層和應用層。
(5)數據倉庫監控模塊。該模塊為數據倉庫的運行狀態監控程序,對當前數據倉庫的數據量、數據增量、磁盤容量、磁盤占用量、CPU與內存的使用率、ETL過程的執行時間與執行效率等做實時監控,也包括對監控的信息處理與總結,以及監控信息的知識形成及應用等功能。
(6)數據安全管理模塊。該模塊為數據倉庫的權限控制中心,其包括數據安全與用戶安全兩類,數據安全即對存儲在數據集市中的數據定義行級與列級權限,用戶安全即用戶對數據集市與用戶的訪問權限,數據安全管理是將數據權限與用戶權限結合集中管理的模塊,使數據倉庫的安全管理與BI平臺無關。
(7)操作幫助管理模塊。該模塊為數據倉庫平臺的知識管理模塊,其包括應用操作幫助、業務知識學習、數據來源追蹤等,操作幫助管理模塊需求元數據的接口支持。
2.3集成訪問門戶設計
主要包括WEB、認證、安全、門戶四方面的服務,提供HTTP Web服務、門戶的用戶登錄、用戶認證、門戶Web應用、并提交用戶層請求到中間展示層,對用戶實施安全策略,為用戶管理報表、查詢文檔,提供個性化定制等。
隨著高校信息系統信息資源的不斷豐富,數據倉庫技術在信息管理中的作用會越來越大,它將使高校管理信息系統的信息服務能力、決策支持能力得到進一步增強[3],為高校的信息化管理做出更大的貢獻。
參考文獻:
[1]錢毅.數據倉庫在檔案信息管理中的應用[J].北京檔案,2006(04).
[2]李潔,楊金會.滕振芳數據倉庫及數據挖掘技術在超市中的應用[J].煤炭技術,2012(02).
[3]顧瑞,盧加元.數據倉庫技術在檔案資源整合中的應用[J].蘭臺世界,2012(02).