陳飛+楊秋紅
(1.中國電子科技集團公司第四十一研究所 安徽蚌埠 233006;2.裝甲兵學院 安徽蚌埠 233000)
摘 要:隨著信息化的普及、推廣及建設,更多的信息系統投入使用,一方面提高了工作效率、帶來了經濟社會效益,但另一方面因為信息系統獨立、數據源分布異構等原因形成了越來越多的“信息孤島”現象,為了解決“信息孤島”問題,數據集成成為一種重要的解決方法。數據集成技術目前已成為社會研究和討論的熱點領域,數據集成的好與壞直接影響信息化建設速度。該文首先闡述了數據集成的產生及作用,其次介紹了一種通用的數據集成模型框架,基于此模型框架從數據質量的角度對ETL(Extraction數據抽取、Transformation數據轉換、Loading數據加載)及數據清洗等關鍵技術進行了研究和介紹,對數據集成的普及和推廣有指導意義。
關鍵詞:數據集成 數據倉庫 ETL 數據清洗
中圖分類號:C931 文獻標識碼:A 文章編號:1672-3791(2015)03(b)-0030-01
隨著信息化技術的飛速發展,從一開始的手工流程電子化到人工流程自動化,再到現在的企業管理信息化,越來越多的獨立信息系統造成了“信息孤島”現象。“信息孤島”束縛了企業的發展,制約了企業信息化需求,因此數據集成技術應運而生。
數據集成技術是解決“信息孤島”問題的重要方法。數據集成就是將多個分布的異構數據源,按照一定的規則邏輯或物理地集成到統一的數據集合中,對應用系統提供查詢接口,用戶可以直接查詢利用所需的分布異構數據,而不必去關心底層異構數據的差異。數據集成的好與壞就是看用戶能否以最小的代價,高效地利用這些分布異構數據,滿足企業需求。
1 數據集成模型
該文以一種通用的數據集成模型為基礎進行闡述,該模型展示了從分布異構數據源中抽取、轉換、清洗、加載數據和建立數據倉庫提供數據支撐整個數據集成過程,如圖1所示。
該模型框架中主要包括三個部分:數據源、數據集成、數據利用。
(1)數據源:數據源可以是分布的、異構的數據庫,如Access、XML、SQL Server、Oracle等,它們提供各種信息數據資源供集成利用,是數據集成模型的基礎。
(2)數據集成:該部分是數據集成模型的核心,通過ETL進行數據集成,通過數據清洗保證數據質量,進而建立數據倉庫,為各種應用系統提供數據支撐。
(3)數據利用:數據的價值就是為用戶提供利用,該部分就是通過應用系統實現數據集成過程產生的數據的價值。
2 關鍵技術
如圖1所示,數據集成部分是數據集成模型是否可以發揮作用的關鍵,也是對數據集成質量的重要保證,它包含了數據抽取、數據轉換、數據清洗和數據加載等關鍵技術。下面對這些技術展開重點闡述。
(1)數據抽取。
數據抽取就是將數據倉庫所需的數據從分布的異構數據源中抽取出來。由于各個數據源內的數據的結構、標識、及時性、準確性和可靠性等都可能不同,因此針對每個數據源都需要建立數據抽取流程。抽取流程一般包含抽取分析和抽取規則兩部分。抽取分析需明確抽取數據內容、數據信息、數據格式等;抽取規則需確定抽取數據的順序、方式和時間等。
(2)數據轉換。
數據轉換是ETL中最關鍵的環節,較為復雜。同一類型業務數據會以不同的存儲格式、存儲內容在不同的“信息孤島”中存在,直接抽取的數據在大多數情況下是不能夠滿足數據倉庫的要求,必須對抽取的數據進行數據轉換。數據轉換的依據是數據集成模型定義的數據源和數據倉庫的映射關系,目前采用語義分析和本體領域等技術使得這些映射關系具有智能化和很強的適應性,根據這些映射關系對抽取數據進行合并、拆分及計算等轉換,使抽取數據能夠滿足數據倉庫要求。
(3)數據清洗。
數據清洗的目標就是提高集成數據質量,主要是通過檢測和消除錯誤數據和不一致數據兩個方面來實現,高質量的數據才能提供優質可信的數據支撐,可見數據清洗是非常必要和必須的。數據清洗的對象是數據實例,目前數據清洗的方法主要有設計數據清洗框架和模型、重復記錄的檢測消除算法以及利用專家系統、數據挖掘、本體等相關領域技術等。
3 結語
當前信息化建設已經從數據采集發展到數據管理利用的階段,社會對“信息孤島”進行數據集成、建立數據倉庫提供決策支撐的需求越來越強烈,數據集成已經成為信息化發展的一個必然選擇。該文根據當前信息化的發展現狀和趨勢,介紹了數據集成的必然性和重要性,在數據集成模型的基礎上重點闡述了數據集成中ETL和數據清洗等關鍵技術,對數據集成的普遍應用和推廣存在指導意義。
參考文獻
[1] 陳玉東,姚青.基于商務智能的流程評估系統中ETL的研究[J].計算機工程與設計,2014,35(8):2752-2756.
[2] 郭志愗,周傲英.數據質量和數據清洗研究綜述[J].軟件學報,2002,13(11):2076-2082.
[3] 周濤,陸惠玲.數據挖掘中聚類算法研究進展[J].計算機工程與應用,2012,48(12):100-111.
[4] Jiawei Han,Micheline Kamber,Jian Pei.Data Mining Concepts and Techniques[M].北京:機械工業出版社,2012.