999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

非結構化數據的ETL設計方法探討

2014-04-29 08:27:15劉大滏趙盛
科技創新與應用 2014年14期

劉大滏 趙盛

摘 要:現代信息技術在行業中的應用日益深入,而各系統在開發過程中因其自身的獨立性,在處理相關業務或實現數據管理時,多需要從異構環境下來進行整合。文章結合當前流行的公共倉庫元模型以及ETL技術特點,針對非結構化數據的差異性,探討屬性提取和數據打包的有效方法,為實現非結構化數據的ETL設計奠定基礎。

關鍵詞:非結構化數據;CWM元模型;ETL設計

計算機技術、網絡通信技術在行業應用的不斷深入,諸如各類ERP系統、CRM系統、SCM系統及其他商業應用系統的開發,由于各系統在開發過程中因其獨立性特點,在優化系統應用、改善業務流程等過程中,不得不考慮在異構環境下的數據資源共享問題。異構環境下的數據格式及定義是不一致的,而對于相對封閉的應用系統數據資源來說,如何更有效的提升數據資源的應用效力,提高數據資源的共享水平,結合行業應用差異和不同部門對數據的實際需求,從數據的整合需求上,建立起不同系統下數據倉庫的數據轉換技術即ETL技術,就顯得尤為迫切。

1 ETL技術概述

ETL(Extract-Transform-Load )技術是數據抽取(Extract)、轉換(Transform)、裝載(Load)的過程。從其技術概述來看,Extract是對數據的抽取過程,其作用是從原始數據系統中讀取所需要的數據,是實現數據轉換工作的前提;Transform是按照預先設計規則進行相應轉換的過程,其作用是基于異構的數據資源實現對數據格式及定義的統一;Load是對數據倉庫進行裝載的過程,其作用是對轉換后的數據重新導入到數據倉庫中,以實現對數據資源的有效整合。從國內外ETL技術的發展與應用來看,主要有IBM Data Stag、Informatics Power Center、Oracle 2 ODI,以及國內開發的Bee Load等產品。在中高端應用上以Data Stage和Power Center居多。ETL技術能夠實現對異構數據庫中相關數據的挖掘和統計,并結合數學模型來實現對未來發展進行可靠的預測分析,為行業決策支持系統提供有效的數據服務功能。

2 ETL技術模型分析

從主流的ETL技術應用來看,多以元數據為基礎,也就是說滿足CWM元數據標準的數據模式。CWM是Common Warehouse Meta-model的簡稱,由國際對象管理組織OMG制定的元數據模型標準,其作用主要是為了能夠對異構環境下各數據倉庫中的元數據進行交換和共享。其邏輯結構圖如下所示:

圖1 ETL技術邏輯示意圖

在ETL系統中,借助于元數據采集工具來實現對源數據庫、主題數據庫,及相關數據抽取、轉換、裝載等操作,并依據CWM元模型標準,存儲于元數據庫。其執行過程是通過系統調度模塊來實現對相應元數據的抽取與整合,其元數據主要包括三類:一是技術元數據,如ETL技術對各類源數據庫中的數據類型、數據格式、數據序列名等進行描述,并準確獲得源數據庫與主題數庫之間的變化信息;二是操作元數據,主要包括對業務用戶和數據操作有價值的元數據,如數據質量、更新計劃、訪問模式等;三是業務元數據,主要包括對各業務用戶有用的信息,如數據的所有權及各類業務規則,數據裝載計劃等,其作用能夠為用戶與數據倉庫提供訪問的橋梁。

3 ETL數據分析及設計

從CWM元數據模型對ETL系統的邏輯關系來看,這些元數據具有明確的格式特點、屬性及數據關系,可以通過使用二維表來進行邏輯表達。而對于異構環境下無法用二維邏輯表進行表達的非結構化數據來說,其相對零散的數據堆積,不僅存在大量數據冗余和無效信息,還難以用簡單的結構化描述語言進行準確表達。也就是說,對于非結構化數據,如視頻數據、圖像數據、音頻數據等信息進行管理和提取時,迫切需要從ETL技術設計上來進行優化。在對CWM元數據結構進行分析后,ETL系統設計主要是對存儲在源數據庫中的結構化數據進行抽取、轉換和加載,而對于非結構化數據來說,其元數據屬于技術元數據,只要處理好技術元數據中的非結構化數據的轉換,使其便于使用CWM元數據驅動ETL系統即可。因此,對于非結構化數據系統中的操作元數據和業務元數據,依據常規的數據控制轉換模塊即可完成對源數據庫到主題數據庫的裝載。

對于結構化數據可以根據數據的屬性來建立元數據,而對于非結構化數據,則需要從各種數據的隱藏屬性進行分析,并使其能夠顯現出來。我們從非結構化數據的自有屬性進行觀察,主要有時間屬性、空間屬性、內容屬性、格式屬性、來源屬性、獲取手段屬性及使用屬性等,通過對原有非結構化數據文件進行重新命名分類,如結合某應用需要來建立新的文件名,即單位_科室_總類_分類_具體類型_日期.pdf,就可以很清晰的反映出某數據文件的來源、分類及時間等信息。Adobe公司的PDF數據壓縮包能夠實現對數據壓縮和轉換的功能,既可以節省存儲空間,還能夠實現對數據結構的轉換。其組織結構如下圖2所示:

圖2 Adobe PDF 數據包組織結構

利用Adobe PDF數據包來實現對非結構化數據庫的轉換,可以依照樹形結構來進行顯示,也可以對不同類型的數據文件進行設計,使其滿足對某一非結構化數據進行單獨壓縮,也可以對多個非結構化數據進行全面壓縮,其摘要信息可以存放在info.xml文件。利用非結構化數據的轉換方法,可以從其相關屬性中來判定數據的摘要及內容,還可以利用工具軟件編制數據索引,便于日后對相關數據的快速檢索,從而實現了對非結構化數據的CWM的ETL處理,滿足了非結構化數據的整合和管理目標。

4 結束語

文章通過對非結構化數據源的PDF轉換壓縮的分析,為更好的挖掘非結構化數據的隱藏屬性,提高對非結構化數據源的準確定位,并實現了對非結構化數據的整合和管理,為滿足行業應用提供了有效的解決方案。

參考文獻

[1]萬里鵬.非結構化到結構化數據轉換的研究與實現[D].西南交通大學,2013.

[2]周茂偉,鄧蘇,黃宏斌.基于元數據的ETL工具設計與實現[J].科學技術與工程,2006(21).

[3]馬曉東.地理信息元數據的管理探討[J].測繪技術裝備,2009(02).

[4]梁大鵬,李紅.基于數據倉庫技術的決策支持系統研究設計[J].商場現代化,2011(04).

作者簡介:劉大滏(1976,12-),男,重慶,高級工程師。

趙盛(1978,5-),男,陜西工程師。

主站蜘蛛池模板: 亚洲有无码中文网| 91在线国内在线播放老师| 亚洲AV无码乱码在线观看代蜜桃| 精品欧美一区二区三区在线| 色久综合在线| 日韩av高清无码一区二区三区| 日本一区二区不卡视频| 色国产视频| 免费高清毛片| 国产SUV精品一区二区6| 伊人久久综在合线亚洲91| 国产欧美精品专区一区二区| 欧美福利在线| 毛片网站在线看| 国产成人无码综合亚洲日韩不卡| 美女视频黄频a免费高清不卡| 国产人碰人摸人爱免费视频 | 国产微拍一区二区三区四区| 伊大人香蕉久久网欧美| 免费高清a毛片| 亚洲国产中文精品va在线播放| 国产精品久久久久无码网站| Aⅴ无码专区在线观看| 欧美翘臀一区二区三区| 亚洲男人天堂2020| 亚洲无码视频喷水| 2018日日摸夜夜添狠狠躁| 国产成人精品视频一区二区电影| 无码中字出轨中文人妻中文中| 又爽又黄又无遮挡网站| 凹凸国产熟女精品视频| 日韩精品一区二区三区大桥未久 | 色综合成人| 激情影院内射美女| 国产系列在线| 国产精品lululu在线观看| 久久综合丝袜日本网| 99ri国产在线| 一级一毛片a级毛片| 国产精品熟女亚洲AV麻豆| 欧美五月婷婷| 欧美高清视频一区二区三区| 18禁高潮出水呻吟娇喘蜜芽| 国产内射在线观看| 精品国产网站| 中文成人无码国产亚洲| 九九久久99精品| 婷婷丁香在线观看| 99久久国产自偷自偷免费一区| 不卡无码网| 久久精品国产999大香线焦| 欧美日韩国产综合视频在线观看 | 日本精品一在线观看视频| 欧美、日韩、国产综合一区| 国产色爱av资源综合区| www.91在线播放| 国产黄在线观看| 国产成人精品男人的天堂| 伊人91在线| 国产91av在线| 91小视频在线| 无码在线激情片| 日韩不卡免费视频| 国产乱码精品一区二区三区中文 | 日韩欧美国产综合| 亚瑟天堂久久一区二区影院| 免费av一区二区三区在线| 91久久国产热精品免费| 97se亚洲综合在线韩国专区福利| 久久天天躁狠狠躁夜夜2020一| 美女扒开下面流白浆在线试听| 久久久91人妻无码精品蜜桃HD| 免费啪啪网址| 欧美性天天| 国产欧美精品专区一区二区| 91在线播放免费不卡无毒| 国产精品人莉莉成在线播放| 亚洲性网站| 日韩中文无码av超清| 国产精品分类视频分类一区| 国产在线观看一区精品| 国产精品久久久免费视频|