999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于KETTLE的高校多源異構(gòu)數(shù)據(jù)集成研究及實踐

2015-12-15 07:47:00劉充
電子設(shè)計工程 2015年10期
關(guān)鍵詞:數(shù)據(jù)庫作業(yè)信息

劉充

(南京中醫(yī)藥大學 信息技術(shù)學院,江蘇 南京 210023)

基于KETTLE的高校多源異構(gòu)數(shù)據(jù)集成研究及實踐

劉充

(南京中醫(yī)藥大學 信息技術(shù)學院,江蘇 南京 210023)

解決數(shù)字化校園建設(shè)中的多源異構(gòu)數(shù)據(jù)集成問題。利用開源ETL工具KETTLE,對學生考試信息與上網(wǎng)信息的抽取、轉(zhuǎn)換和加載。ETL模型自動生成了以上網(wǎng)行為事實表為中心表,以學生信息、上網(wǎng)信息、時間3個維度表的數(shù)據(jù)倉庫。利用KETTLE能夠快速實現(xiàn)高校多源異構(gòu)數(shù)據(jù)集成,形成高質(zhì)量的分析型數(shù)據(jù),為決策支持服務(wù)。

數(shù)字化校園;異構(gòu)數(shù)據(jù);數(shù)據(jù)集成;KETTLE;ETL

數(shù)字化校園是以網(wǎng)絡(luò)技術(shù)為基礎(chǔ),利用信息技術(shù)實現(xiàn)對教學、科研、管理、生活服務(wù)等信息的收集、處理、整合、存儲、傳輸和應(yīng)用,使數(shù)字資源得到充分優(yōu)化利用的一種虛擬教育環(huán)境[1]。然而,由于高校信息化建設(shè)尚未形成統(tǒng)一的標準,不同廠商的系統(tǒng)互不兼容,不同系統(tǒng)之間無法互聯(lián)互通和數(shù)據(jù)共享,形成一個個“信息孤島”,直接影響學校的日常管理。如何將這些“信息孤島”連通起來,實現(xiàn)高效多源異構(gòu)數(shù)據(jù)集成和共享是數(shù)字化校園建設(shè)的一個關(guān)鍵問題。

數(shù)據(jù)抽取、轉(zhuǎn)換和裝載(Extraction,Transformation, Loading,ETL)是實現(xiàn)異構(gòu)數(shù)據(jù)集成的有效方法[2]。在ETL過程中,數(shù)據(jù)抽取可看作是數(shù)據(jù)的輸入過程,即從多個數(shù)據(jù)源中將數(shù)據(jù)抽取到統(tǒng)一的數(shù)據(jù)存儲中;數(shù)據(jù)轉(zhuǎn)換主要解決數(shù)據(jù)質(zhì)量問題,通過數(shù)據(jù)清洗策略檢測出海量數(shù)據(jù)中存在的數(shù)據(jù)冗余、錯誤及缺失并加以改正,然后使用用戶定義的轉(zhuǎn)換規(guī)則對數(shù)據(jù)進行合并、轉(zhuǎn)換等操作,使得數(shù)據(jù)正確、一致和完整;數(shù)據(jù)裝載可看作是數(shù)據(jù)的輸出過程,即將處理后的數(shù)據(jù)從統(tǒng)一的數(shù)據(jù)存儲裝載到目標數(shù)據(jù)倉庫中[3]。

目前,越來越多廠商致力于ETL工具的研發(fā),如Oracle的Oracle Warehouse Builder(OWB)、Microsoft的Data Transformation Services(DTS)、IBM的Data Stage等,而較常用的開源ETL工具有KETTLE、Talend、Octopus等。本文采用開源ETL工具KETTLE,在分析KETTLE ETL特點的基礎(chǔ)上,嘗試構(gòu)建高效多源異構(gòu)數(shù)據(jù)ETL解決方案,實現(xiàn)異構(gòu)數(shù)據(jù)共享。

1 KETTLE ETL簡介

KETTLE是一款用Java編寫的開源ETL工具,其數(shù)據(jù)集成主要由轉(zhuǎn)換(Transformation)和作業(yè)(Job)兩部分完成,其中“轉(zhuǎn)換”由一系列步驟所組成的邏輯工作網(wǎng)絡(luò),每一個步驟表示對一個或多個數(shù)據(jù)流進行特定的轉(zhuǎn)換操作;而“作業(yè)”基于工作流模型,協(xié)調(diào)數(shù)據(jù)源、執(zhí)行過程和相關(guān)依賴性的ETL活動,其將功能性和實體過程聚合起來,完成對整個工作流的控制。ETL活動是一個四元組A=(ID,I,O,S),ID是活動標示符,I是輸入模式的集合,O是輸出模式的集合,S是一個或多個擴展的關(guān)系代數(shù)表達式,表示每個輸出模式的語義[4-5]。KETTLE的ETL活動可視為一個有向無環(huán)圖(DAG圖),圖的節(jié)點對應(yīng)于一個個作業(yè)或轉(zhuǎn)換步驟(Step),邊代表數(shù)據(jù)供給關(guān)系對應(yīng)于數(shù)據(jù)流節(jié)點連接(Hop)。KETTLE ETL的概念模型如圖1所示。

圖1 KETTLE ETL的概念模型Fig.1 KETTLE ETL conceptual model

2 高校多源異構(gòu)數(shù)據(jù)集成

高校不同信息系統(tǒng)的數(shù)據(jù)存儲形式多樣,如關(guān)系型數(shù)據(jù)庫,電子表格、XML文件、文本文件等。KETTLE通過配置關(guān)系型數(shù)據(jù)庫的連接信息以及獲取半結(jié)構(gòu)化、非機構(gòu)化的文本文件、電子表格等文件的路徑實現(xiàn)對數(shù)據(jù)源的訪問。下面以教務(wù)管理系統(tǒng)中的學生考試信息和上網(wǎng)信息的ETL為例進行說明。

2.1 數(shù)據(jù)源連接

學生考試信息存儲于SQL Server 2008數(shù)據(jù)庫中,上網(wǎng)信息包括上網(wǎng)賬號信息(存儲于MySql數(shù)據(jù)庫中)及網(wǎng)絡(luò)訪問日志存儲于txt文本中。KETTLE提供了JDBC標準接口訪問關(guān)系型數(shù)據(jù)庫。本案例中,通過配置數(shù)據(jù)庫訪問XML文件實現(xiàn)SQL Server 2008、MySql的連接。而在處理于文本文件時,KETTLE將目錄信息轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)表示,轉(zhuǎn)換的數(shù)據(jù)包含文件名、目錄存儲路徑、大小、文件內(nèi)容等列信息,轉(zhuǎn)換成功的結(jié)構(gòu)化數(shù)據(jù)處理與操作關(guān)系型數(shù)據(jù)庫相似。數(shù)據(jù)庫訪問XML文件如下:

2.2 作業(yè)及轉(zhuǎn)換流程設(shè)計

利用KETTLE成功連接3個數(shù)據(jù)源后,設(shè)計作業(yè)流程及轉(zhuǎn)換流程,其中作業(yè)流程是對ETL過程的整體規(guī)劃,協(xié)調(diào)執(zhí)行過程和相關(guān)依賴性的ETL活動;轉(zhuǎn)換流程負責具體實施對源數(shù)據(jù)與目標數(shù)據(jù)的映射關(guān)系操作,經(jīng)過排序、去除重復數(shù)據(jù)等轉(zhuǎn)換操作,最終將數(shù)據(jù)加載至相應(yīng)的維度表與事實表中。

2.2.1 定義作業(yè)流程

本例的作業(yè)流程中包括日期維度、學生信息維度、上網(wǎng)信息維度及上網(wǎng)行為事實4個部分(見圖2)。每個維度定義了具體的轉(zhuǎn)換流程,負責形成相應(yīng)的維度表,而上網(wǎng)行為事實的轉(zhuǎn)換流程負責產(chǎn)生對應(yīng)的事實表。通過作業(yè)流程與轉(zhuǎn)換流程的協(xié)同工作,最終形成星型模式的數(shù)據(jù)倉庫,即由一個大的包含大批數(shù)據(jù)并且不冗余信息的中心表(事實表)和一組小的附屬表(維度表)構(gòu)成,事實表和維度表通過各維度表的關(guān)鍵字連接在一起[6]。

圖2 作業(yè)流程Fig.2 Job process

2.2.2 定義轉(zhuǎn)換流程

1)日期維度

日期維度幾乎是每個數(shù)據(jù)倉庫都必須提供的一個維度,因為每個數(shù)據(jù)倉庫都是時間系列的。事實上,日期通常是數(shù)據(jù)庫進行潛在分類排序的首選維度,這樣做的目的是,使按時間間隔連續(xù)加載的數(shù)據(jù)能夠順次存放到磁盤上的空白存儲區(qū)中[7]。日期維度的轉(zhuǎn)換流程如圖3所示。

圖3 日期維度的轉(zhuǎn)換流程Fig.3 The converting process of time dimension

2)學生信息維度

教務(wù)管理系統(tǒng)中學生信息存儲于多張二維表中,包括院系表、專業(yè)表、班級表、學生表、選課表、成績表等,通過KETTLE從多張表中選擇需要的字段,形成學生信息維度表(如圖4所示)。

圖4 學生信息維度的轉(zhuǎn)換流程Fig.4 The converting process of students’information dimension

3)上網(wǎng)信息維度

上網(wǎng)日志記錄了用戶IP、訪問地址、訪問時間、信息流量等,而上網(wǎng)信息包括學號、分配IP、網(wǎng)絡(luò)連接開始時間、結(jié)束時間和上網(wǎng)費用等。上述異構(gòu)數(shù)據(jù)通過IP和時間進行映射,因為設(shè)計一個轉(zhuǎn)換流程將上述數(shù)據(jù)合并,形成上網(wǎng)信息維度表(如圖5所示)。由于上網(wǎng)日志中存在異常記錄(數(shù)據(jù)丟失、亂碼等),因而設(shè)置專門的過濾策略對源數(shù)據(jù)進行清洗。

4)上網(wǎng)行為事實

從時間維度表、學生信息維度表及上網(wǎng)信息維度表中抽取主鍵信息,形成上網(wǎng)行為事實表(如圖6所示)。

2.3 數(shù)據(jù)倉庫

當運行上述作業(yè)及轉(zhuǎn)換流程時,KETTLE自動完成對異構(gòu)數(shù)據(jù)源ETL操作,建立二維表并插入數(shù)據(jù)。本例中自動生成了以上網(wǎng)行為事實表為中心表,以3個維度表為附屬表的數(shù)據(jù)倉庫(如圖7所示)。

3 結(jié)束語

隨著數(shù)字化校園建設(shè)進程的加快,“信息煙囪”、“信息孤島”等問題越發(fā)嚴峻。為了解決數(shù)字化校園建設(shè)過程中的多源異構(gòu)數(shù)據(jù)集成問題,本文利用開源ETL工具KETTLE,建立了學生考試信息與上網(wǎng)信息的ETL模型,實現(xiàn)了異構(gòu)數(shù)據(jù)的整合,為系統(tǒng)間的數(shù)據(jù)共享,乃至后續(xù)的數(shù)據(jù)分析挖掘(如學生考試成績與上網(wǎng)行為的相關(guān)性)提供了數(shù)據(jù)準備。在高校信息化建設(shè)過程中,可以嘗試應(yīng)用各類ETL工具,解決不同系統(tǒng)之間的數(shù)據(jù)共享、數(shù)據(jù)集成等問題,從而提高數(shù)字化校園的建設(shè)效率,減低建設(shè)成本。

圖5 上網(wǎng)信息維度的轉(zhuǎn)換流程Fig.5 The converting process of network access information dimension

圖6 上網(wǎng)行為事實的轉(zhuǎn)換流程Fig.6 The converting process of network access behavior

圖7 星型數(shù)據(jù)結(jié)構(gòu)圖Fig.7 Star-topology of data structure

[1]王秀娟.高校異構(gòu)數(shù)據(jù)集成模式技術(shù)研究 [J].科技信息:學術(shù)研究,2007(8):175-176.WANG Xiu-jun.Research on campus heterogeneous data integration technology[J].Technology Information:Academic Research,2007(8):175-176.

[2]徐俊剛,裴瑩.數(shù)據(jù)ETL研究綜述[J].計算機科學,2011,38 (4):15-20.XU Jun-gang,PEI Ying.Overview of data extraction transformation and loading[J].Computer science,2011,38(4):15-20.

[3]郭志懋,周傲英.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述 [J].軟件學報,2002,13(11):2076-2082.GUO Zhi-mao,ZHOU Ao-ying.Review of data quality and data cleansing[J].Journal of Software,2002,13(11):2076-2082.

[4]吳遠紅.ETL執(zhí)行過程的優(yōu)化研究[J].計算機科學, 2007,34(1):81-83.WU Yuan-hong.The research of optimizing ETL execution process[J].Computer Science,2007,34(1):81-83.

[5]崔有文,周金海.基于Pentaho的中藥飲片企業(yè)商業(yè)智能研究[J].電子設(shè)計工程,2014,22(7):12-15.CUI You-wen,ZHOU Jin-hai.Research on Chinese medicine enterprise business intelligence based on Pentaho[J].Electronic Design Engineering,2014,22(7):12-15.

[6]王麗珍,周麗華,陳紅梅.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用[M].北京:科學出版社,2009.

[7]Ralph Kimball,Margy Ross.The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling[M].John Wiley&Sons INC;3rd Revised edition,2013.

Research on integration of college multi-source heterogeneous data

LIU Chong
(Institute of Information and Technology,Nanjing University of Chinese Medicine,Nanjing 210023,China)

To solve the integration of college multi-source heterogeneous data.Using the open-source tool,KETTLE,to extract, transfer and load data from the exam system and the network management system.The data warehouse was built,which was consisted of a fact table and three dimension tables including students’information,network information and time table.In this research,we found that multi-source heterogeneous data could be integrated efficiently,and analytical data was prepared for decision support further.

digital campus;heterogeneous data;data integration;KETTLE;ETL

TN919

A

1674-6236(2015)10-0024-03

2014-11-11 稿件編號:201411066

劉 充(1990—),男,江蘇南京人,碩士研究生。研究方向:數(shù)字化校園。

猜你喜歡
數(shù)據(jù)庫作業(yè)信息
快來寫作業(yè)
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
作業(yè)
故事大王(2016年7期)2016-09-22 17:30:08
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(jīng)(2016年6期)2016-02-24 07:41:51
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
我想要自由
三十六計第七計:無中生有
主站蜘蛛池模板: 2018日日摸夜夜添狠狠躁| 国产亚洲欧美日韩在线一区二区三区| 欧美日韩国产精品va| 人人妻人人澡人人爽欧美一区| 亚洲精品无码人妻无码| 亚洲区第一页| JIZZ亚洲国产| 久久精品国产精品一区二区| 亚洲a级在线观看| 欧美天堂在线| 韩国v欧美v亚洲v日本v| 欧美亚洲一二三区 | 日韩在线永久免费播放| 99在线视频网站| 草逼视频国产| 国产成人亚洲综合a∨婷婷| 欧美亚洲另类在线观看| 国产日韩精品欧美一区喷| 色婷婷视频在线| 婷婷亚洲最大| 久久久久久高潮白浆| 精品伊人久久大香线蕉网站| 超清人妻系列无码专区| 日本一本正道综合久久dvd | 日韩 欧美 国产 精品 综合| 亚洲精品无码AⅤ片青青在线观看| 亚洲精品成人片在线观看| 久久99国产视频| 2020最新国产精品视频| AV熟女乱| 丁香综合在线| 免费无码又爽又刺激高| 麻豆精品在线播放| 人妻丰满熟妇αv无码| 9久久伊人精品综合| 久久99国产精品成人欧美| 日韩亚洲综合在线| jizz在线免费播放| 亚洲高清中文字幕在线看不卡| 久青草国产高清在线视频| 伊人精品视频免费在线| 中文字幕在线播放不卡| 中文一区二区视频| 另类欧美日韩| 国产精品浪潮Av| 亚洲一级毛片在线观| 青青草原国产| 在线五月婷婷| 97精品国产高清久久久久蜜芽| 亚洲日本在线免费观看| 97精品国产高清久久久久蜜芽 | 手机看片1024久久精品你懂的| 91视频区| a级毛片一区二区免费视频| 欧美成人影院亚洲综合图| 欧美日韩一区二区在线免费观看| 91口爆吞精国产对白第三集| 99久久国产综合精品2023| 夜夜爽免费视频| 亚洲综合在线网| 成人精品午夜福利在线播放| 无码专区在线观看| 好久久免费视频高清| 夜色爽爽影院18禁妓女影院| 国产欧美精品午夜在线播放| 亚洲国产精品一区二区第一页免 | 免费 国产 无码久久久| 亚洲区欧美区| 一级全黄毛片| 国产精品专区第一页在线观看| 又黄又湿又爽的视频| 久久久噜噜噜| 久久国语对白| 无码福利日韩神码福利片| 日韩欧美综合在线制服| 国产玖玖视频| 91视频首页| 精品久久久无码专区中文字幕| 欧美另类图片视频无弹跳第一页| 亚洲国产成人精品一二区| 久久婷婷五月综合色一区二区| 欧美午夜久久|