摘要:數據集成是輔助決策實施的基礎,為輔助決策提供統計分析的數據、素材,是輔助決策系統之源。ETL在數據集成的重要組成部分,是向輔助決策系統提供規范化的數據。通過該系統,企業的管理人員可以直觀的了解企業的經營情況。
關鍵詞:輔助決策;數據集成;ETL
1 企業實施輔助決策系統的重要意義
企業信息化是一個伴隨企業發展與管理變革的過程。在其實施過程中,企業內部管理需求是不斷變化的;信息化建設初期往往缺乏比較嚴謹的總體規劃;并且信息技術日新月異,開發手段出不窮。結果是企業各信息系統之間不能協同工作,不能有效組織和利用企業的信息資源,導致企業信息化處于一種尷尬的局面。主要體現在:
數據信息的共享不夠。各個部門的信息系統積累了大量的基礎數據。但是,由于建設時采用的技術不同、部門之間的業務范疇不同,造成數據以部門為界限分離存儲,數據資源難于被訪問。
現有網絡資源的利用不夠。本企業已經建立了光纖局域網并連接到互聯網,能夠做到數據的快速、實時交換。但由于本企業的總部、下屬各子公司之間存在的職能上的界限以及信息格式的差異,信息系統不能形成數據的充分共享,形成了信息孤島。
信息化應用水平低。信息化建設基本停留在對現有管理和業務的模仿和簡單計算上,多數系統基本上是基礎數據的錄入和管理。數據中蘊藏著的巨大信息資源,尚沒有充分挖掘出來加以利用,信息資源的增值作用還沒有在生產經營過程中充分發揮出來。
因此,急需把這些孤立的以不同方式存儲的數據集成起來,建立數據倉庫,以達到信息及應用的共享。進而實施輔助決策系統,為企業的決策層提供全面、及時、準確的分析和預測。
2 數據集成的作用及過程
2.1 實施輔助決策面對的問題
在信息化建設過程中,受具體業務要求、技術性以及人為因素等因素影響,在系統運行過程中積累了大量采用不同存儲方式的業務數據。主要表現在:
異構性:數據庫服務器采用的操作系統、數據庫管理系統存在差異。
性能要求:各信息系統經過多年運行,積累了大量的數據,數據量都在百萬條以上。采用傳統的數據操作語句導入數據倉庫需要耗費相當長的時間和相當大的帶寬,無法保證輔助決策系統的實施性。
語義不一致:各項應用都是基于自身的應用數據庫,各類數據以應用為需求獨立運行,使得各應用數據庫之間沒有統一的數據標準、編碼標準。
權限問題:數據庫資源歸屬不同的部門,需要在訪問數據源數據基礎上保障原有數據庫的權限不被侵犯,實現對原有數據源訪問權限的隔離和控制。
內容限定:輔助決策系統并不是要重新開發一套大一統的信息系統。而是要在不影響現有系統正常運行的情況下,將需要的數據整合起來放入數據倉庫中去。這是輔助決策項目所要面臨的核心問題。
2.2 數據集成的概念
數據集成是指將不同應用系統、不同數據形式,在原應用系統不做任何改變的條件下,進行數據采集、轉換和存儲的數據整合過程。其目的是運用一定的技術手段將各個獨立系統中的數據按一定規則組織成為一個整體,使得其他系統或者用戶能夠有效的對數據進行訪問。數據集成是企業輔助決策解決方案中最普遍的一種形式。
2.3 數據集成的實施與作用
結合相關理論和本單位實施的實際,筆者認為整個數據集成的過程分為:調研、制定方案、ETL開發三個階段。
調研:在輔助決策項目前期調研的基礎上,考察每個系統的詳細情況。
a.在了解輔助決策項目中的各類分析指標的基礎上,總結實現這些指標所需要的數據,為后續調研提供目標依據。
b.根據總結的內容,向業務人員了解所需數據在哪個業務系統中可以獲得,數據的可靠性能否得到保證。
c.根據用戶提供的情況,向各信息系統開發人員詳細了解所需數據在數據庫中的表結構、所涉及到的代碼表;與分析指標相關的統計方法。復雜的統計方法要索要源程序進行詳細分析。這是分析結果正確性的保證。
d.根據調研的結果和要實現的分析指標,設計數據集成目標表的表結構,也就是在數據倉庫中的存儲結構。
制定方案:本階段的目的是針對前文提到的“實施輔助決策面對的問題”和調研階段的結果,制定出數據集成的實施方法。
a.將數據源的DBMS及其操作系統分類,指定接口的驅動方案。現有的商用ETL工具一般都提供針對不同數據庫、不同操作系統的連接方案。本身不需要項目實施人員進行程序開發,只需要向ETL供應商了解相應的操作方法。
b.整理與項目相關的各個系統的代碼表,對于代碼沖突的情況設計代碼映射方案,避免出現語義混亂。
c.確定數據庫服務器的連接方式。針對用戶職責身份制定完善的數據訪問權限。針對無法進行直接連接數據庫獲取的數據,制定數據交換方案,并驗證實際效果。
d.針對項目實施所涉及到的數據量比較龐大的特點,確定數據抽取的方式、時間和頻率。
ETL開發:本階段是數據集成的核心階段,調研的結果將在這個階段進行展示,制定的方案將在此得到印證。詳細的內容在后文中描述。
3 ETL開發
3.1 ETL的概念
ETL是指從關系型數據庫、桌面文本文件、XML文件等數據源提取出數據(Extract),將得到的數據轉換為統一的格式(Transform),最后將數據加載到目標數據存儲區(load)的過程。
其功能包括:定義數據源;抽取數據;對抽取出的數據進行標準化、格式化,然后集成到一個統一的數據模式中;基于數據庫規則或者事務規則對集成的數據進行清理;將數據加載到數據倉庫中。
現有的商用ETL工具,如Informatic公司的PowerCenter,都具備自動完成ETL的功能。因此數據集成的實施重點實質上就是在ETL工具內進行設置,即ETL開發。這項工作是輔助決策建設過程中最復雜、費時的環節。
3.2 ETL開發
ETL開發一般分為三個方面:抽取設置、轉換設置、加載設置。
抽取設置是指確定數據采集所涉及到的數據源及提取方式。通過不同的數據接口,建立從不同的網絡、操作平臺、數據庫及數據格式和應用到目標數據結構的連接橋梁。確定如何抽取并不件容易,在實施中它需要經過以下的步驟:建立源數據系統的連接;從源數據庫中提取出源表的列表,確定提取的表;根據源表、提取規則利用圖形化工具完成到目標數據結構的連接。轉換設置包括清洗設置和轉換設置功能。清洗即進行設置有效性規則,對于數據項丟失、無效的記錄和重復記錄進行處理。數據轉換則根據數據抽取時獲取的元數據信息和目標數據倉庫中表的元數據信息來對數據項進行轉換,包括數據的合并、匯總、過濾、轉換等。轉換功能保證了數據的正確性、一致性、完整性和可靠性,為后續的工作提供了數據支持。ETL中最復雜的就是這個過程,特別需要項目開發人員和原有業務系統的開發人員的緊密協作。
裝載設置主要是指設置抽取、轉換的時間段和頻率。設置時間段的意義就在于,將處理過程放在各應用系統運行的低潮期,不僅減低帶寬的影響,而且數據的穩定性也有保障。頻率設置的意義在于在這種實時性和資源開銷之間做一個適當的平衡--既能在精度要求的前提下反映企業的生產情況又減少數據交換的次數。
可以相信,經過數據集成后產生的數據構建起數據倉庫進而實施決策分析,能夠使企業信息化達到一個新的高度,能夠使企業的經營有了可靠的依據,能夠讓企業走上一個新臺階。
參考文獻
[1]王寧.一個基于CORBA的異構數據源集成系統的設計[J].軟件學報,1998,9(5):376-382.
[2]黃為民 陳世福.分布式對象構件及其應用[J].計算機應用研究,.
[3]姜寧 王忠 等.空間對象模型用于Web下數據源集成的研究[J].計算機工程與應用.
[4]王寧 王能斌.異構數據源集成系統查詢分解和優化的實現[J].軟件學報.
[5]李冠宇 靳強勇 張俊.一個改進的基于CORBA的異構數據集成系統體系結構[J].交通與計算機.