999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談高校信息化建設(shè)中的數(shù)據(jù)清洗與數(shù)據(jù)整合問題

2019-07-12 01:18:28陳軍民
魅力中國 2019年9期
關(guān)鍵詞:信息化學(xué)校系統(tǒng)

陳軍民

(江西外語外貿(mào)職業(yè)學(xué)院,江西 南昌 330099)

一、高校信息化建設(shè)的現(xiàn)狀

眾所周知,近幾年高校信息化建設(shè)發(fā)展迅速,業(yè)務(wù)部門根據(jù)各自的業(yè)務(wù)需求建立了很多信息管理系統(tǒng),為業(yè)務(wù)部門的工作提供了很大的便捷,如科研系統(tǒng)、教務(wù)系統(tǒng)、學(xué)工系統(tǒng)等。但這些信息管理系統(tǒng)的數(shù)據(jù)是運行在各自的數(shù)據(jù)庫管理平臺上,有著各自的表格定義、字段定義,和各自的存儲結(jié)構(gòu)。這些信息管理系統(tǒng)形成了一個個的“信息孤島”。

“信息孤島”無法適應(yīng)高校發(fā)展的需要。決策層領(lǐng)導(dǎo)不能及時獲取全校數(shù)據(jù),做出正確的決策;職能部門無法及時掌握本部門員工的科研、教學(xué)、帶班等全面的信息;教師與學(xué)生,也不能通過統(tǒng)一的門戶網(wǎng)站,一鍵登錄查詢自己的各方面信息,或更新自己的信息。

“信息孤島”是高校信息化建設(shè)進一步發(fā)展的瓶頸。現(xiàn)有的信息管理系統(tǒng)數(shù)據(jù)由于運行在各自的數(shù)據(jù)管理平臺上,數(shù)據(jù)存儲結(jié)構(gòu)不同,表格定義、字段定義等也不相同,數(shù)據(jù)不能相互共享,同時由于更新的時間點也不一樣,同一數(shù)據(jù)往往還存在出入,降低了數(shù)據(jù)的信任度。涉及到各部門的數(shù)據(jù),還是需要用傳統(tǒng)的方法,經(jīng)常性地需要重復(fù)收集數(shù)據(jù),按要求制作各種表格,整天忙于這些“雜事”,增加基層班主任、辦公干事等工作人員的工作量,增加學(xué)校的人力成本以致大家都以“表哥表妹”進行互稱調(diào)侃。辦工流程也沒有優(yōu)化,數(shù)據(jù)的審核,提交還是利用傳統(tǒng)方法,需要數(shù)據(jù)錄入口人員簽名,部門蓋章,領(lǐng)導(dǎo)簽字,過程繁瑣,沒有發(fā)揮信息化建設(shè)的應(yīng)有作用。

解決“信息孤島”的唯一途徑就是建立校級層面的,能提供給全校共享的數(shù)據(jù)中心。只有這樣,決策層領(lǐng)導(dǎo)才能通過統(tǒng)一數(shù)據(jù)入口,及時獲取校級層面的統(tǒng)計數(shù)據(jù),做出正確地決策;職業(yè)部門通過統(tǒng)一的數(shù)據(jù)入口查詢本部門員工的完整信息;教師與學(xué)生通過一鍵登錄查看或更新自己的信息。只有這樣,才能保證數(shù)據(jù)的一致性,提高數(shù)據(jù)的信任度,職業(yè)部門的數(shù)據(jù)才能共享,不需要重復(fù)收集數(shù)據(jù),降低了學(xué)校的人力成本。

數(shù)據(jù)中心的建立,應(yīng)基于現(xiàn)有的信息管理系統(tǒng)和其中的數(shù)據(jù)。一方面保護現(xiàn)有信息化建設(shè)的投資,另一方面,充分利用現(xiàn)有的數(shù)據(jù)。調(diào)研學(xué)校現(xiàn)有信息管理系統(tǒng)的數(shù)據(jù)存儲平臺,分析數(shù)據(jù)的存儲結(jié)構(gòu)、表格定義、字段定義,對現(xiàn)有數(shù)據(jù)進行清洗與整合,提供給學(xué)校層面的門戶信息管理系統(tǒng)及后續(xù)可能加入的部門信息管理系統(tǒng)共享數(shù)據(jù)。數(shù)據(jù)中心的建立,還應(yīng)該基于全校的視角,應(yīng)對整個學(xué)校的辦工流程進行優(yōu)化,改變傳統(tǒng)的數(shù)據(jù)收集,處理、分發(fā),審核、簽名等辦公模式,實現(xiàn)“網(wǎng)上辦公”與“無紙化辦公”。

二、數(shù)據(jù)清洗與數(shù)據(jù)整合技術(shù)概述

目前所流行的數(shù)據(jù)清洗與整合的方法是通過數(shù)據(jù)聯(lián)邦技術(shù)進行分布式數(shù)據(jù)訪問,將企事業(yè)單位中各部門業(yè)務(wù)系統(tǒng)需要的數(shù)據(jù)抽取到對業(yè)務(wù)系統(tǒng)更方便、更集中的數(shù)據(jù)端進行統(tǒng)一存儲和管理。分布式數(shù)據(jù)訪問所使用的技術(shù)是企業(yè)信息集成EII(Enterprise Information Integration),數(shù)據(jù)交換使用的則是ETL(Extract Transform Load)技術(shù),ETL是構(gòu)建數(shù)據(jù)倉庫的重要組成部分,EII 是數(shù)據(jù)聯(lián)邦技術(shù)將大量的異構(gòu)數(shù)據(jù)源作為一個單一的、統(tǒng)一的數(shù)據(jù)視圖的方式實時的提供給一個用戶或系統(tǒng)。在目前的高校信息自動化系統(tǒng)建設(shè)的中,ETL和EII技術(shù)通常是放到一起的,這樣才能更好的適應(yīng)高校的信息化建設(shè)數(shù)據(jù)集成要求。

信息化建設(shè)中的數(shù)據(jù)清洗與整合主要是為了實現(xiàn)數(shù)據(jù)共享的目的,建立校級層面共享的數(shù)據(jù)中心,可以用于智能統(tǒng)計決策、業(yè)務(wù)數(shù)據(jù)的管理以及基于數(shù)據(jù)清洗與整合平臺的建設(shè),但是這需要數(shù)據(jù)清洗與整合工具與WebSphereMQ服務(wù)、WebServices服務(wù)等進行對接,這樣才有利于數(shù)據(jù)的共享和實時傳輸。

目前國內(nèi)外已經(jīng)有不少關(guān)于數(shù)據(jù)清洗與整合方面的設(shè)計方案,許多數(shù)據(jù)庫生產(chǎn)廠家也發(fā)布了針對異構(gòu)數(shù)據(jù)清洗與整合的解決方案。如 IBM的 DB2聯(lián) 邦 系 統(tǒng)、Sybase 的 DI(Data Integration)、BEA的DSP(Data Service Platform),SQL Server 的 Integration Services等 都有各自的數(shù)據(jù)集成特點。許多生產(chǎn)數(shù)據(jù)庫管理軟件的供應(yīng)商都提供數(shù)據(jù)抽取工具,這些數(shù)據(jù)清洗與整合工具在一定程度上實現(xiàn)了數(shù)據(jù)的清洗與整合。但這些數(shù)據(jù)清洗與整合工具大多數(shù)都不能實現(xiàn)數(shù)據(jù)集成的自動化,開發(fā)人員還需利用這些集成工具建立相應(yīng)的管理控制程序。

還有其他公司提供的產(chǎn)品,比如IBM公司的WebSphere DataStagel就是一套有比較完善的解決方案的系統(tǒng)。DataStage 提供了圖形框架,可以使用該框架通過可視化圖形界面來設(shè)計和運行用于數(shù)據(jù)清洗與整合的任務(wù),可以從多個不同平臺的數(shù)據(jù)庫中抽取需要的數(shù)據(jù),進行數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換,再加載到各個應(yīng)用系統(tǒng)數(shù)據(jù)庫里面。由于每一步操作都是在可視化圖形界面上進行的,所以使用很廣,做設(shè)計人員的技術(shù)要求不需要太高就可以完成。DataStage支持高度復(fù)雜的數(shù)據(jù)規(guī)則和海量數(shù)據(jù)的清洗與轉(zhuǎn)換,以及大量的預(yù)先構(gòu)建好的數(shù)據(jù)集成任務(wù),如排序、合并、連接、過濾等,以便于高效地訪問用于清洗與轉(zhuǎn)換的關(guān)系數(shù)據(jù)庫。

在數(shù)據(jù)清洗與整合方面,國內(nèi)也有不少研究比較完善的成果,例如康賽信息技術(shù)有限公司的DCI數(shù)據(jù)交換平臺,集數(shù)據(jù)抽取、清洗、轉(zhuǎn)換及加載于一體,通過標(biāo)準(zhǔn)化各個業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù),向數(shù)據(jù)中心/倉庫提供可靠的數(shù)據(jù),實現(xiàn)部門內(nèi)的應(yīng)用和跨部門的應(yīng)用的業(yè)務(wù)數(shù)據(jù)間單向整合、雙向整合和多級數(shù)據(jù)共享,進而為實現(xiàn)商業(yè)智能、數(shù)據(jù)挖掘、應(yīng)用集成、正確決策分析等提供必要的數(shù)據(jù)支撐。除了支持基礎(chǔ)的數(shù)據(jù)清洗整合工作以外,還結(jié)合實際的問題做了大量的擴展,提供了數(shù)據(jù)整合管理系統(tǒng)(DCI-MS)、智能調(diào)度、可視化設(shè)計等輔助系統(tǒng),以支持業(yè)務(wù)化的數(shù)據(jù)監(jiān)控和管理、數(shù)據(jù)源管理、多引擎管理、問題數(shù)據(jù)管理和可視化業(yè)務(wù)建模等。

在數(shù)據(jù)集成的實際應(yīng)用上,某大學(xué)的信息中心在學(xué)校的教育教學(xué)信息化建設(shè)中使用數(shù)據(jù)聯(lián)邦技術(shù)建立了數(shù)據(jù)集成機制,通過數(shù)據(jù)倉庫對各個業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)清洗與整合進行統(tǒng)一的管理和監(jiān)控。數(shù)據(jù)交換平臺會根據(jù)學(xué)校各部門的數(shù)據(jù)存儲結(jié)構(gòu),建立一個共享數(shù)據(jù)中心,將學(xué)?;A(chǔ)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)存儲標(biāo)準(zhǔn)進行有效的管理,再通過有效的機制及時共享到全校各業(yè)務(wù)系統(tǒng)中。對各業(yè)務(wù)系統(tǒng)中數(shù)據(jù)標(biāo)準(zhǔn)不一致的情況,要經(jīng)過數(shù)據(jù)的清洗與轉(zhuǎn)換,達到數(shù)據(jù)中心的規(guī)范要求才能進行數(shù)據(jù)通信,實時的共享給各個需要的業(yè)務(wù)系統(tǒng)里去,徹底解決高校的“信息孤島”問題。

在數(shù)據(jù)清洗與數(shù)據(jù)整合中,有比較成熟的開發(fā)技術(shù)與工具軟件和可借鑒的其它高校的解決方案。但數(shù)據(jù)清洗與數(shù)據(jù)整合是一個系統(tǒng)工程,每個高?,F(xiàn)有的數(shù)據(jù)庫管理平臺不盡相同,面對的辦公流程不盡相同,利用數(shù)據(jù)的辦公流程不盡相同。本項目以江西外語外貿(mào)職業(yè)學(xué)院為例,在現(xiàn)有業(yè)務(wù)部門的數(shù)據(jù)管理系統(tǒng)基礎(chǔ)上,面對學(xué)校的實際問題,研究數(shù)據(jù)清洗與整合的技術(shù)方案與業(yè)務(wù)優(yōu)化問題,開發(fā)適合本校共享的數(shù)據(jù)中心。

三、高校信息化建設(shè)的技術(shù)路線

江西外語外貿(mào)職業(yè)學(xué)院的信息化建設(shè)發(fā)展迅速,現(xiàn)有科研系統(tǒng)、學(xué)工系統(tǒng)、財務(wù)系統(tǒng)、教務(wù)系統(tǒng)、圖書系統(tǒng)等多個信息管理系統(tǒng),但這些信息管理系統(tǒng)的數(shù)據(jù)管理平臺各不相同,有SQL Server,Oracle,MySql等數(shù)據(jù)庫系統(tǒng),表格的定義,字段的含義,字段等各不相同。為了學(xué)校的長遠發(fā)展,迫切需要對現(xiàn)有的數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)進行清洗與整合,建立一個全校能夠共享的數(shù)據(jù)中心。

為了項目的順利實施,須做好一些前期工作,明確研究內(nèi)容,研究目標(biāo),需要解決的關(guān)鍵問題,然后制定技術(shù)路線。

(一)研究內(nèi)容

1.研究學(xué)?,F(xiàn)有業(yè)務(wù)系統(tǒng)平臺的數(shù)據(jù)結(jié)構(gòu)、表格定義、字段含義,字段長度、數(shù)據(jù)類型、數(shù)據(jù)安全機制等;

2.研究抽取現(xiàn)有業(yè)務(wù)平臺數(shù)據(jù),對數(shù)據(jù)進行清洗,對數(shù)據(jù)進行整合與優(yōu)化的技術(shù)方案;

3.結(jié)合學(xué)校各職能部門及師生員工近期問題與未來對數(shù)據(jù)共享的需求,研究學(xué)校共享數(shù)據(jù)中心的數(shù)據(jù)利用方案等。

(二)研究目標(biāo):開發(fā)對現(xiàn)有管理系統(tǒng)平臺的數(shù)據(jù)清洗與整合的軟件實驗性平臺,建立學(xué)校層面的數(shù)據(jù)共享中心,提出符合學(xué)校實際情況的,切實可行的,適應(yīng)學(xué)校近期與未來長遠發(fā)展的信息化建設(shè)的技術(shù)解決方案與數(shù)據(jù)利用方案,徹底解決學(xué)校的“信息孤島”問題。

(三)需解決的關(guān)鍵問題:

擬解決的關(guān)鍵問題的有三個,第一,在保證數(shù)據(jù)隱私的情況下,盡可能獲取更多的樣本數(shù)據(jù);第二是數(shù)據(jù)抽取的訪問速度與并發(fā)控制問題;第三是數(shù)據(jù)利用如何符合職能部門及師生員工近期與未來對數(shù)據(jù)共享的需求。

(四)項目實施技術(shù)路線

下面以江西外語外貿(mào)職業(yè)學(xué)院為例,介紹高校信息化建設(shè)的技術(shù)路線。見圖1。

圖1 建立校級數(shù)據(jù)中心數(shù)據(jù)清洗與數(shù)據(jù)整合技術(shù)路線

四、數(shù)據(jù)清洗與數(shù)據(jù)整合實驗方案

在上述信息化建設(shè)的技術(shù)路線中,最關(guān)鍵的就是開發(fā)小范圍網(wǎng)絡(luò)數(shù)據(jù)清洗整合實驗平臺,開發(fā)實驗平臺應(yīng)按以下四個步驟進行。

對學(xué)校各部門的業(yè)務(wù)系統(tǒng)及日常辦公數(shù)據(jù)進行調(diào)研分析。

確定需要數(shù)據(jù)清洗的具體范圍、確認各系統(tǒng)的業(yè)務(wù)流程、原系統(tǒng)使用數(shù)據(jù)庫平臺及版本,和數(shù)據(jù)存儲格式。推算出需要清洗數(shù)據(jù)量的多少,需要清洗的數(shù)據(jù)業(yè)務(wù)字典表,需要清洗的數(shù)據(jù)關(guān)聯(lián)關(guān)系,需要清洗的數(shù)據(jù)備份腳本等。

抽取各業(yè)務(wù)系統(tǒng)數(shù)據(jù)與日常辦公樣本數(shù)據(jù),對全校數(shù)據(jù)進行統(tǒng)一管理。

抽取各業(yè)務(wù)系統(tǒng)與日常辦樣本數(shù)據(jù)的數(shù)據(jù)庫數(shù)據(jù)與文件數(shù)據(jù),統(tǒng)一各業(yè)務(wù)部門的業(yè)務(wù)標(biāo)識,制定全校統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)字典,對全校的數(shù)據(jù)庫數(shù)據(jù)與文件數(shù)據(jù)進行統(tǒng)一管理。

對現(xiàn)有數(shù)據(jù)進行清洗。這是項目研究的核心任務(wù),為確保項目順利進行,分三個小步驟進行。首先應(yīng)對現(xiàn)有數(shù)據(jù)進行預(yù)清洗,修改錯誤數(shù)據(jù),補齊缺失數(shù)據(jù),拋棄重復(fù)數(shù)據(jù),統(tǒng)一數(shù)據(jù)格式,刪除正態(tài)分布異常數(shù)據(jù),等。然后對數(shù)據(jù)進行建模。數(shù)據(jù)建模采用PowerdeSigner工具,數(shù)據(jù)模型必須真實反應(yīng)學(xué)校現(xiàn)有業(yè)務(wù)關(guān)系,便于開發(fā)人員理解,數(shù)據(jù)結(jié)構(gòu)精簡有效,符合未來高校信息化的發(fā)展,同時兼容未來大數(shù)據(jù)發(fā)展,人臉識別數(shù)據(jù)特殊存儲等。最后進行數(shù)據(jù)清洗。采用Kettle Spoon工具對數(shù)據(jù)進行清洗,并采用oracle數(shù)據(jù)庫對數(shù)據(jù)進行存儲。ETL開源工具如Kettle是一款開源的ETL工具,純JAVA編寫,可以在Window、Linux、Unix上運行,數(shù)據(jù)抽取高效穩(wěn)定。在Kettle Spoon工具中編寫JAVA代碼進行業(yè)務(wù)控制,并調(diào)用Job實現(xiàn)數(shù)據(jù)的實時清洗。在預(yù)算允許的情況下可申請購買第三方數(shù)據(jù)清洗工具及數(shù)據(jù)中心工具對數(shù)據(jù)進行清洗存儲。第四,建設(shè)統(tǒng)一開放靈活的數(shù)據(jù)傳輸接口。

采用企業(yè)總線ESB(開源框架Mule ESB,或付費ORACLE ESB等架構(gòu)進行設(shè)計)作為數(shù)據(jù)傳輸通訊的開放標(biāo)準(zhǔn)接口。為各業(yè)務(wù)系統(tǒng)提供標(biāo)準(zhǔn)業(yè)務(wù)數(shù)據(jù),達到數(shù)據(jù)清洗后保障現(xiàn)有數(shù)據(jù)的有效性及一致性要求。為今后的系統(tǒng)運營數(shù)據(jù)有效性提供良好的支撐。

具體實驗方案見下圖2:

圖2 數(shù)據(jù)清洗與數(shù)據(jù)整合實驗方案

結(jié)束語:信息化建設(shè)是一個系統(tǒng)工程,它不僅是技術(shù)的問題,更是人的問題與管理的問題,且每個單位所面對的情況都各不相同,所以在項目開始之前,必須做好充分的調(diào)研,技術(shù)上的儲備,建立科學(xué)的方案。建立校級數(shù)據(jù)中心可以解決“信息孤島”所產(chǎn)生的問題。其中的核心技術(shù),就是對現(xiàn)有業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進行清洗與整合。

猜你喜歡
信息化學(xué)校系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
月“睹”教育信息化
WJ-700無人機系統(tǒng)
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
幼兒教育信息化策略初探
甘肅教育(2020年18期)2020-10-28 09:06:02
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
學(xué)校推介
留學(xué)生(2016年6期)2016-07-25 17:55:29
奇妙學(xué)校
信息化是醫(yī)改的重要支撐
信息化
江蘇年鑒(2014年0期)2014-03-11 17:09:40
主站蜘蛛池模板: a天堂视频在线| 999精品色在线观看| 国产视频 第一页| 91精品视频播放| 99久久99视频| 亚洲中文字幕无码mv| 五月丁香在线视频| 精品人妻一区无码视频| 国产激情影院| 成人亚洲国产| 四虎国产精品永久在线网址| 韩国v欧美v亚洲v日本v| 婷婷午夜影院| 精品国产www| 国产欧美精品午夜在线播放| 欧洲一区二区三区无码| 一本一道波多野结衣一区二区| 国产成人亚洲无码淙合青草| 亚洲天堂区| 91精品啪在线观看国产91| 亚洲综合专区| 日韩一级毛一欧美一国产| 国产欧美日韩资源在线观看| 99青青青精品视频在线| 香蕉网久久| 欧美精品v| 久久亚洲国产视频| 成人在线视频一区| 91视频首页| 色欲色欲久久综合网| 国产黄色爱视频| 制服丝袜 91视频| 欧美激情视频一区| 亚洲综合精品第一页| 国产欧美日韩综合在线第一| 欧美a级完整在线观看| 国产欧美专区在线观看| 91po国产在线精品免费观看| 精品色综合| 亚洲AV成人一区二区三区AV| 日本成人在线不卡视频| 熟女日韩精品2区| 午夜a级毛片| 1769国产精品免费视频| 999国内精品久久免费视频| 国产精品漂亮美女在线观看| 毛片免费观看视频| 99视频精品在线观看| 自拍偷拍欧美| 亚洲人精品亚洲人成在线| 国产毛片网站| 熟妇无码人妻| 亚洲精品动漫| 色综合手机在线| 国产一级做美女做受视频| 午夜日b视频| 亚欧乱色视频网站大全| 丁香婷婷综合激情| 99热线精品大全在线观看| 亚洲69视频| aaa国产一级毛片| 亚洲无线视频| 四虎影视8848永久精品| 欧美午夜理伦三级在线观看| 日韩欧美一区在线观看| 在线观看无码av五月花| 欧美成人a∨视频免费观看 | 亚洲一区二区三区香蕉| 国产一级α片| 黄色在线不卡| 国产视频a| 日本91视频| 成人精品在线观看| 免费观看无遮挡www的小视频| 大陆精大陆国产国语精品1024| 9啪在线视频| 国产靠逼视频| 午夜福利在线观看成人| 国产SUV精品一区二区| 亚洲永久精品ww47国产| 午夜不卡福利| 毛片久久网站小视频|