999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談數據集成相關技術

2015-07-02 18:55:21陳飛楊秋紅
科技資訊 2015年8期

陳飛+楊秋紅

(1.中國電子科技集團公司第四十一研究所 安徽蚌埠 233006;2.裝甲兵學院 安徽蚌埠 233000)

摘 要:隨著信息化的普及、推廣及建設,更多的信息系統投入使用,一方面提高了工作效率、帶來了經濟社會效益,但另一方面因為信息系統獨立、數據源分布異構等原因形成了越來越多的“信息孤島”現象,為了解決“信息孤島”問題,數據集成成為一種重要的解決方法。數據集成技術目前已成為社會研究和討論的熱點領域,數據集成的好與壞直接影響信息化建設速度。該文首先闡述了數據集成的產生及作用,其次介紹了一種通用的數據集成模型框架,基于此模型框架從數據質量的角度對ETL(Extraction數據抽取、Transformation數據轉換、Loading數據加載)及數據清洗等關鍵技術進行了研究和介紹,對數據集成的普及和推廣有指導意義。

關鍵詞:數據集成 數據倉庫 ETL 數據清洗

中圖分類號:C931 文獻標識碼:A 文章編號:1672-3791(2015)03(b)-0030-01

隨著信息化技術的飛速發展,從一開始的手工流程電子化到人工流程自動化,再到現在的企業管理信息化,越來越多的獨立信息系統造成了“信息孤島”現象。“信息孤島”束縛了企業的發展,制約了企業信息化需求,因此數據集成技術應運而生。

數據集成技術是解決“信息孤島”問題的重要方法。數據集成就是將多個分布的異構數據源,按照一定的規則邏輯或物理地集成到統一的數據集合中,對應用系統提供查詢接口,用戶可以直接查詢利用所需的分布異構數據,而不必去關心底層異構數據的差異。數據集成的好與壞就是看用戶能否以最小的代價,高效地利用這些分布異構數據,滿足企業需求。

1 數據集成模型

該文以一種通用的數據集成模型為基礎進行闡述,該模型展示了從分布異構數據源中抽取、轉換、清洗、加載數據和建立數據倉庫提供數據支撐整個數據集成過程,如圖1所示。

該模型框架中主要包括三個部分:數據源、數據集成、數據利用。

(1)數據源:數據源可以是分布的、異構的數據庫,如Access、XML、SQL Server、Oracle等,它們提供各種信息數據資源供集成利用,是數據集成模型的基礎。

(2)數據集成:該部分是數據集成模型的核心,通過ETL進行數據集成,通過數據清洗保證數據質量,進而建立數據倉庫,為各種應用系統提供數據支撐。

(3)數據利用:數據的價值就是為用戶提供利用,該部分就是通過應用系統實現數據集成過程產生的數據的價值。

2 關鍵技術

如圖1所示,數據集成部分是數據集成模型是否可以發揮作用的關鍵,也是對數據集成質量的重要保證,它包含了數據抽取、數據轉換、數據清洗和數據加載等關鍵技術。下面對這些技術展開重點闡述。

(1)數據抽取。

數據抽取就是將數據倉庫所需的數據從分布的異構數據源中抽取出來。由于各個數據源內的數據的結構、標識、及時性、準確性和可靠性等都可能不同,因此針對每個數據源都需要建立數據抽取流程。抽取流程一般包含抽取分析和抽取規則兩部分。抽取分析需明確抽取數據內容、數據信息、數據格式等;抽取規則需確定抽取數據的順序、方式和時間等。

(2)數據轉換。

數據轉換是ETL中最關鍵的環節,較為復雜。同一類型業務數據會以不同的存儲格式、存儲內容在不同的“信息孤島”中存在,直接抽取的數據在大多數情況下是不能夠滿足數據倉庫的要求,必須對抽取的數據進行數據轉換。數據轉換的依據是數據集成模型定義的數據源和數據倉庫的映射關系,目前采用語義分析和本體領域等技術使得這些映射關系具有智能化和很強的適應性,根據這些映射關系對抽取數據進行合并、拆分及計算等轉換,使抽取數據能夠滿足數據倉庫要求。

(3)數據清洗。

數據清洗的目標就是提高集成數據質量,主要是通過檢測和消除錯誤數據和不一致數據兩個方面來實現,高質量的數據才能提供優質可信的數據支撐,可見數據清洗是非常必要和必須的。數據清洗的對象是數據實例,目前數據清洗的方法主要有設計數據清洗框架和模型、重復記錄的檢測消除算法以及利用專家系統、數據挖掘、本體等相關領域技術等。

3 結語

當前信息化建設已經從數據采集發展到數據管理利用的階段,社會對“信息孤島”進行數據集成、建立數據倉庫提供決策支撐的需求越來越強烈,數據集成已經成為信息化發展的一個必然選擇。該文根據當前信息化的發展現狀和趨勢,介紹了數據集成的必然性和重要性,在數據集成模型的基礎上重點闡述了數據集成中ETL和數據清洗等關鍵技術,對數據集成的普遍應用和推廣存在指導意義。

參考文獻

[1] 陳玉東,姚青.基于商務智能的流程評估系統中ETL的研究[J].計算機工程與設計,2014,35(8):2752-2756.

[2] 郭志愗,周傲英.數據質量和數據清洗研究綜述[J].軟件學報,2002,13(11):2076-2082.

[3] 周濤,陸惠玲.數據挖掘中聚類算法研究進展[J].計算機工程與應用,2012,48(12):100-111.

[4] Jiawei Han,Micheline Kamber,Jian Pei.Data Mining Concepts and Techniques[M].北京:機械工業出版社,2012.

主站蜘蛛池模板: 国产精品一区二区在线播放| 大陆国产精品视频| 日韩精品一区二区深田咏美| 毛片免费在线视频| 亚洲AV色香蕉一区二区| 久久精品国产999大香线焦| 毛片卡一卡二| 最新加勒比隔壁人妻| 久久精品无码中文字幕| 日本91视频| 亚洲大学生视频在线播放| 亚洲最大看欧美片网站地址| www.91在线播放| 在线观看国产精品日本不卡网| 日韩第一页在线| 欧美精品亚洲日韩a| 亚洲视频免| 国产人免费人成免费视频| 欧美日韩专区| 99九九成人免费视频精品| 亚洲精品国产精品乱码不卞 | 无码国产偷倩在线播放老年人 | a毛片在线免费观看| 久久视精品| 成人在线天堂| 中文字幕 欧美日韩| 一区二区三区成人| 青青草原国产免费av观看| 午夜久久影院| 亚洲黄色激情网站| 国产精品吹潮在线观看中文| 欧美在线免费| 国产91高清视频| 日韩欧美国产三级| 人妻出轨无码中文一区二区| 精品国产Av电影无码久久久| 毛片免费视频| 99久久婷婷国产综合精| 亚洲乱强伦| 五月婷婷欧美| 久久国产高清视频| 国产精品视频白浆免费视频| 国产永久在线观看| 亚洲欧美另类视频| 国模极品一区二区三区| 91精品啪在线观看国产60岁| 成人亚洲视频| 国产网站黄| 国产一级裸网站| 亚洲美女一区二区三区| 一级成人欧美一区在线观看| 熟妇丰满人妻av无码区| 国产成人在线小视频| 亚洲AV色香蕉一区二区| 国产在线自乱拍播放| 一本色道久久88| 亚洲IV视频免费在线光看| 97在线国产视频| 欧美自慰一级看片免费| 91精品国产91久久久久久三级| 在线精品视频成人网| 中字无码精油按摩中出视频| 精品国产成人高清在线| 久久久国产精品免费视频| 最新国语自产精品视频在| 精品成人一区二区三区电影 | 粗大猛烈进出高潮视频无码| 在线观看欧美精品二区| 91探花在线观看国产最新| 国产乱码精品一区二区三区中文 | 黄色一及毛片| 欧洲亚洲一区| 成人av专区精品无码国产| 四虎国产永久在线观看| 97se亚洲综合在线韩国专区福利| 日韩精品一区二区深田咏美| 一本无码在线观看| 国产成人亚洲无吗淙合青草| 国产高清在线丝袜精品一区| 久久精品最新免费国产成人| 日本亚洲欧美在线| 亚洲无码不卡网|