999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

非結(jié)構(gòu)化數(shù)據(jù)的ETL設(shè)計方法探討

2014-04-29 08:27:15劉大滏趙盛
科技創(chuàng)新與應(yīng)用 2014年14期

劉大滏 趙盛

摘 要:現(xiàn)代信息技術(shù)在行業(yè)中的應(yīng)用日益深入,而各系統(tǒng)在開發(fā)過程中因其自身的獨(dú)立性,在處理相關(guān)業(yè)務(wù)或?qū)崿F(xiàn)數(shù)據(jù)管理時,多需要從異構(gòu)環(huán)境下來進(jìn)行整合。文章結(jié)合當(dāng)前流行的公共倉庫元模型以及ETL技術(shù)特點,針對非結(jié)構(gòu)化數(shù)據(jù)的差異性,探討屬性提取和數(shù)據(jù)打包的有效方法,為實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的ETL設(shè)計奠定基礎(chǔ)。

關(guān)鍵詞:非結(jié)構(gòu)化數(shù)據(jù);CWM元模型;ETL設(shè)計

計算機(jī)技術(shù)、網(wǎng)絡(luò)通信技術(shù)在行業(yè)應(yīng)用的不斷深入,諸如各類ERP系統(tǒng)、CRM系統(tǒng)、SCM系統(tǒng)及其他商業(yè)應(yīng)用系統(tǒng)的開發(fā),由于各系統(tǒng)在開發(fā)過程中因其獨(dú)立性特點,在優(yōu)化系統(tǒng)應(yīng)用、改善業(yè)務(wù)流程等過程中,不得不考慮在異構(gòu)環(huán)境下的數(shù)據(jù)資源共享問題。異構(gòu)環(huán)境下的數(shù)據(jù)格式及定義是不一致的,而對于相對封閉的應(yīng)用系統(tǒng)數(shù)據(jù)資源來說,如何更有效的提升數(shù)據(jù)資源的應(yīng)用效力,提高數(shù)據(jù)資源的共享水平,結(jié)合行業(yè)應(yīng)用差異和不同部門對數(shù)據(jù)的實際需求,從數(shù)據(jù)的整合需求上,建立起不同系統(tǒng)下數(shù)據(jù)倉庫的數(shù)據(jù)轉(zhuǎn)換技術(shù)即ETL技術(shù),就顯得尤為迫切。

1 ETL技術(shù)概述

ETL(Extract-Transform-Load )技術(shù)是數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、裝載(Load)的過程。從其技術(shù)概述來看,Extract是對數(shù)據(jù)的抽取過程,其作用是從原始數(shù)據(jù)系統(tǒng)中讀取所需要的數(shù)據(jù),是實現(xiàn)數(shù)據(jù)轉(zhuǎn)換工作的前提;Transform是按照預(yù)先設(shè)計規(guī)則進(jìn)行相應(yīng)轉(zhuǎn)換的過程,其作用是基于異構(gòu)的數(shù)據(jù)資源實現(xiàn)對數(shù)據(jù)格式及定義的統(tǒng)一;Load是對數(shù)據(jù)倉庫進(jìn)行裝載的過程,其作用是對轉(zhuǎn)換后的數(shù)據(jù)重新導(dǎo)入到數(shù)據(jù)倉庫中,以實現(xiàn)對數(shù)據(jù)資源的有效整合。從國內(nèi)外ETL技術(shù)的發(fā)展與應(yīng)用來看,主要有IBM Data Stag、Informatics Power Center、Oracle 2 ODI,以及國內(nèi)開發(fā)的Bee Load等產(chǎn)品。在中高端應(yīng)用上以Data Stage和Power Center居多。ETL技術(shù)能夠?qū)崿F(xiàn)對異構(gòu)數(shù)據(jù)庫中相關(guān)數(shù)據(jù)的挖掘和統(tǒng)計,并結(jié)合數(shù)學(xué)模型來實現(xiàn)對未來發(fā)展進(jìn)行可靠的預(yù)測分析,為行業(yè)決策支持系統(tǒng)提供有效的數(shù)據(jù)服務(wù)功能。

2 ETL技術(shù)模型分析

從主流的ETL技術(shù)應(yīng)用來看,多以元數(shù)據(jù)為基礎(chǔ),也就是說滿足CWM元數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)模式。CWM是Common Warehouse Meta-model的簡稱,由國際對象管理組織OMG制定的元數(shù)據(jù)模型標(biāo)準(zhǔn),其作用主要是為了能夠?qū)Ξ悩?gòu)環(huán)境下各數(shù)據(jù)倉庫中的元數(shù)據(jù)進(jìn)行交換和共享。其邏輯結(jié)構(gòu)圖如下所示:

圖1 ETL技術(shù)邏輯示意圖

在ETL系統(tǒng)中,借助于元數(shù)據(jù)采集工具來實現(xiàn)對源數(shù)據(jù)庫、主題數(shù)據(jù)庫,及相關(guān)數(shù)據(jù)抽取、轉(zhuǎn)換、裝載等操作,并依據(jù)CWM元模型標(biāo)準(zhǔn),存儲于元數(shù)據(jù)庫。其執(zhí)行過程是通過系統(tǒng)調(diào)度模塊來實現(xiàn)對相應(yīng)元數(shù)據(jù)的抽取與整合,其元數(shù)據(jù)主要包括三類:一是技術(shù)元數(shù)據(jù),如ETL技術(shù)對各類源數(shù)據(jù)庫中的數(shù)據(jù)類型、數(shù)據(jù)格式、數(shù)據(jù)序列名等進(jìn)行描述,并準(zhǔn)確獲得源數(shù)據(jù)庫與主題數(shù)庫之間的變化信息;二是操作元數(shù)據(jù),主要包括對業(yè)務(wù)用戶和數(shù)據(jù)操作有價值的元數(shù)據(jù),如數(shù)據(jù)質(zhì)量、更新計劃、訪問模式等;三是業(yè)務(wù)元數(shù)據(jù),主要包括對各業(yè)務(wù)用戶有用的信息,如數(shù)據(jù)的所有權(quán)及各類業(yè)務(wù)規(guī)則,數(shù)據(jù)裝載計劃等,其作用能夠為用戶與數(shù)據(jù)倉庫提供訪問的橋梁。

3 ETL數(shù)據(jù)分析及設(shè)計

從CWM元數(shù)據(jù)模型對ETL系統(tǒng)的邏輯關(guān)系來看,這些元數(shù)據(jù)具有明確的格式特點、屬性及數(shù)據(jù)關(guān)系,可以通過使用二維表來進(jìn)行邏輯表達(dá)。而對于異構(gòu)環(huán)境下無法用二維邏輯表進(jìn)行表達(dá)的非結(jié)構(gòu)化數(shù)據(jù)來說,其相對零散的數(shù)據(jù)堆積,不僅存在大量數(shù)據(jù)冗余和無效信息,還難以用簡單的結(jié)構(gòu)化描述語言進(jìn)行準(zhǔn)確表達(dá)。也就是說,對于非結(jié)構(gòu)化數(shù)據(jù),如視頻數(shù)據(jù)、圖像數(shù)據(jù)、音頻數(shù)據(jù)等信息進(jìn)行管理和提取時,迫切需要從ETL技術(shù)設(shè)計上來進(jìn)行優(yōu)化。在對CWM元數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析后,ETL系統(tǒng)設(shè)計主要是對存儲在源數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和加載,而對于非結(jié)構(gòu)化數(shù)據(jù)來說,其元數(shù)據(jù)屬于技術(shù)元數(shù)據(jù),只要處理好技術(shù)元數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換,使其便于使用CWM元數(shù)據(jù)驅(qū)動ETL系統(tǒng)即可。因此,對于非結(jié)構(gòu)化數(shù)據(jù)系統(tǒng)中的操作元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù),依據(jù)常規(guī)的數(shù)據(jù)控制轉(zhuǎn)換模塊即可完成對源數(shù)據(jù)庫到主題數(shù)據(jù)庫的裝載。

對于結(jié)構(gòu)化數(shù)據(jù)可以根據(jù)數(shù)據(jù)的屬性來建立元數(shù)據(jù),而對于非結(jié)構(gòu)化數(shù)據(jù),則需要從各種數(shù)據(jù)的隱藏屬性進(jìn)行分析,并使其能夠顯現(xiàn)出來。我們從非結(jié)構(gòu)化數(shù)據(jù)的自有屬性進(jìn)行觀察,主要有時間屬性、空間屬性、內(nèi)容屬性、格式屬性、來源屬性、獲取手段屬性及使用屬性等,通過對原有非結(jié)構(gòu)化數(shù)據(jù)文件進(jìn)行重新命名分類,如結(jié)合某應(yīng)用需要來建立新的文件名,即單位_科室_總類_分類_具體類型_日期.pdf,就可以很清晰的反映出某數(shù)據(jù)文件的來源、分類及時間等信息。Adobe公司的PDF數(shù)據(jù)壓縮包能夠?qū)崿F(xiàn)對數(shù)據(jù)壓縮和轉(zhuǎn)換的功能,既可以節(jié)省存儲空間,還能夠?qū)崿F(xiàn)對數(shù)據(jù)結(jié)構(gòu)的轉(zhuǎn)換。其組織結(jié)構(gòu)如下圖2所示:

圖2 Adobe PDF 數(shù)據(jù)包組織結(jié)構(gòu)

利用Adobe PDF數(shù)據(jù)包來實現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)庫的轉(zhuǎn)換,可以依照樹形結(jié)構(gòu)來進(jìn)行顯示,也可以對不同類型的數(shù)據(jù)文件進(jìn)行設(shè)計,使其滿足對某一非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行單獨(dú)壓縮,也可以對多個非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行全面壓縮,其摘要信息可以存放在info.xml文件。利用非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換方法,可以從其相關(guān)屬性中來判定數(shù)據(jù)的摘要及內(nèi)容,還可以利用工具軟件編制數(shù)據(jù)索引,便于日后對相關(guān)數(shù)據(jù)的快速檢索,從而實現(xiàn)了對非結(jié)構(gòu)化數(shù)據(jù)的CWM的ETL處理,滿足了非結(jié)構(gòu)化數(shù)據(jù)的整合和管理目標(biāo)。

4 結(jié)束語

文章通過對非結(jié)構(gòu)化數(shù)據(jù)源的PDF轉(zhuǎn)換壓縮的分析,為更好的挖掘非結(jié)構(gòu)化數(shù)據(jù)的隱藏屬性,提高對非結(jié)構(gòu)化數(shù)據(jù)源的準(zhǔn)確定位,并實現(xiàn)了對非結(jié)構(gòu)化數(shù)據(jù)的整合和管理,為滿足行業(yè)應(yīng)用提供了有效的解決方案。

參考文獻(xiàn)

[1]萬里鵬.非結(jié)構(gòu)化到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換的研究與實現(xiàn)[D].西南交通大學(xué),2013.

[2]周茂偉,鄧蘇,黃宏斌.基于元數(shù)據(jù)的ETL工具設(shè)計與實現(xiàn)[J].科學(xué)技術(shù)與工程,2006(21).

[3]馬曉東.地理信息元數(shù)據(jù)的管理探討[J].測繪技術(shù)裝備,2009(02).

[4]梁大鵬,李紅.基于數(shù)據(jù)倉庫技術(shù)的決策支持系統(tǒng)研究設(shè)計[J].商場現(xiàn)代化,2011(04).

作者簡介:劉大滏(1976,12-),男,重慶,高級工程師。

趙盛(1978,5-),男,陜西工程師。

主站蜘蛛池模板: 亚洲天堂区| 四虎影视国产精品| 色天天综合久久久久综合片| 久久a级片| 国产裸舞福利在线视频合集| 日韩人妻无码制服丝袜视频| 亚洲精品福利网站| 露脸真实国语乱在线观看| 亚洲电影天堂在线国语对白| 日本福利视频网站| 99久久精品美女高潮喷水| 亚洲专区一区二区在线观看| 久久久久青草线综合超碰| 欧美va亚洲va香蕉在线| 国产国产人成免费视频77777| 欧美综合区自拍亚洲综合天堂| a毛片免费在线观看| 久久中文无码精品| 日韩不卡高清视频| 在线看AV天堂| 欧美成人午夜视频| 好久久免费视频高清| 亚洲天堂2014| 露脸国产精品自产在线播| 99在线观看精品视频| 爱爱影院18禁免费| 国产福利在线免费| 国产真实乱子伦精品视手机观看| 亚洲午夜久久久精品电影院| 亚洲成人精品久久| 天天做天天爱天天爽综合区| 无码日韩人妻精品久久蜜桃| 欧美日本一区二区三区免费| 国精品91人妻无码一区二区三区| 午夜在线不卡| 亚洲va视频| 亚洲第一成网站| 免费三A级毛片视频| 亚洲日韩高清无码| 欧美精品v| 永久成人无码激情视频免费| 亚洲永久免费网站| 国产福利微拍精品一区二区| 色天天综合| 日韩在线中文| 被公侵犯人妻少妇一区二区三区| 欧美在线黄| 日韩精品久久无码中文字幕色欲| 欧美精品另类| 日韩人妻少妇一区二区| 久久精品亚洲中文字幕乱码| 国产福利免费在线观看| 露脸国产精品自产在线播| 99热这里只有精品国产99| 亚洲男人天堂网址| www.亚洲一区| 国产大片黄在线观看| 91无码网站| 欧美亚洲国产精品第一页| 无码综合天天久久综合网| 中文字幕欧美成人免费| 萌白酱国产一区二区| 国产美女免费网站| 在线国产欧美| 国产Av无码精品色午夜| 91久久偷偷做嫩草影院电| 免费无码网站| 欧美成人免费午夜全| 米奇精品一区二区三区| 2020极品精品国产 | 精品国产91爱| 男女男免费视频网站国产| 秘书高跟黑色丝袜国产91在线| 国产亚洲精品97AA片在线播放| 国产97视频在线| 免费在线观看av| 久久精品国产亚洲麻豆| 色欲色欲久久综合网| 欧美一区二区三区香蕉视| 国产又爽又黄无遮挡免费观看 | 免费xxxxx在线观看网站| 日本亚洲最大的色成网站www|