張米ZHANG Mi;鐘樂海ZHONG Le-hai;邢偉寅XING Wei-yin
(綿陽職業(yè)技術(shù)學(xué)院,綿陽 621000)
隨著國務(wù)院《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》文件的印發(fā)以及國家大數(shù)據(jù)戰(zhàn)略的實施,高校信息化建設(shè)逐步向智能化、數(shù)據(jù)化方向發(fā)展。同時,伴隨著我國移動互聯(lián)網(wǎng)、云計算技術(shù)的發(fā)展,以及計算機(jī)存儲能力的提升,近年來高校內(nèi)產(chǎn)生的數(shù)據(jù)量也日益增長。目前,將大數(shù)據(jù)運(yùn)用于教學(xué)與科研是一種趨勢,通過對遍布教、學(xué)、研多層面的數(shù)據(jù)進(jìn)行整合,能夠從根本上為教育、科研帶來全方位的提升。但目前存在著數(shù)據(jù)數(shù)據(jù)采集困難、數(shù)據(jù)錯誤、數(shù)據(jù)不規(guī)范、數(shù)據(jù)共享難度大等諸多數(shù)據(jù)質(zhì)量問題。而數(shù)據(jù)治理是保證數(shù)據(jù)質(zhì)量的必需手段,數(shù)據(jù)治理的效果取決于是否建立一個科學(xué)、合理的治理體系。本文從高校大數(shù)據(jù)管理現(xiàn)狀出發(fā),嘗試探索高職院校大數(shù)據(jù)治理體系,為高職院校的數(shù)據(jù)治理提供參考。
目前,各高校為邁入人工智能時代,都積極投身到信息化校園建設(shè)中,努力從數(shù)字化校園向智慧校園轉(zhuǎn)變。然而,在推進(jìn)的過程中,業(yè)務(wù)數(shù)據(jù)單獨管理、數(shù)據(jù)管理標(biāo)準(zhǔn)不一致等,導(dǎo)致“信息孤島”現(xiàn)象嚴(yán)重、數(shù)據(jù)質(zhì)量低、冗余度高、可用性低、共享難等問題。具體表現(xiàn)在:
信息化建設(shè)初期,各業(yè)務(wù)部門為方便內(nèi)部業(yè)務(wù)管理,依據(jù)部門業(yè)務(wù)特征,單獨建立業(yè)務(wù)系統(tǒng)平臺。由于缺乏統(tǒng)一的數(shù)據(jù)管理標(biāo)準(zhǔn)和規(guī)劃,系統(tǒng)平臺間相互獨立,代碼標(biāo)準(zhǔn)、數(shù)據(jù)標(biāo)準(zhǔn)不一致導(dǎo)致信息交換和數(shù)據(jù)資源共享困難,加大了數(shù)據(jù)清洗、整合的難度。
數(shù)據(jù)是金礦,高校擁有高質(zhì)量的數(shù)據(jù),由于數(shù)據(jù)僅僅存儲于數(shù)據(jù)庫中,沒有合理的整合和處理,導(dǎo)致缺少實用的數(shù)據(jù)應(yīng)用與服務(wù)。
高校信息化是全民信息化,信息化發(fā)展需要校內(nèi)各業(yè)務(wù)部門人員的參與,但目前存在信息化水平不高、管理經(jīng)驗缺乏、數(shù)據(jù)監(jiān)管不全面、管理標(biāo)準(zhǔn)缺失等問題。當(dāng)出現(xiàn)突發(fā)問題時,缺乏有效的定位方法,并且無法提前感知風(fēng)險。
IT&Iot數(shù)據(jù)+業(yè)務(wù)系統(tǒng)數(shù)據(jù)+網(wǎng)絡(luò)數(shù)據(jù),構(gòu)成了校園全息數(shù)據(jù),但由于缺乏統(tǒng)一的數(shù)據(jù)管理標(biāo)準(zhǔn)和規(guī)范,導(dǎo)致數(shù)據(jù)質(zhì)量低下、可用性不高,無法清晰的掌控數(shù)據(jù)資產(chǎn)。
實現(xiàn)全校結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)的采集,按照國家標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)的整合,清洗,提升數(shù)據(jù)的質(zhì)量,全面掌握學(xué)校數(shù)據(jù)資產(chǎn)的情況。
數(shù)據(jù)源于業(yè)務(wù),同時也服務(wù)于業(yè)務(wù),建立標(biāo)準(zhǔn)、便捷、易用、透明的數(shù)據(jù)管理方式,提高數(shù)據(jù)服務(wù)在應(yīng)用開發(fā)、使用過程中的效率,最終實現(xiàn)數(shù)據(jù)的業(yè)務(wù)化。
數(shù)據(jù)平臺作為半開放的平臺,高校、企業(yè)、師生共同在該平臺上構(gòu)建上層應(yīng)用服務(wù),打造高校的應(yīng)用服務(wù)生態(tài)圈。最終,為師生提供豐富的應(yīng)用服務(wù)選擇。
圖1為數(shù)據(jù)服務(wù)平臺的總體架構(gòu),按照“理、采、存、管、服、用”的解決方案思路,將數(shù)據(jù)服務(wù)平臺分為數(shù)據(jù)治理、數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用三大模塊。①數(shù)據(jù)治理層主要梳理分析源數(shù)據(jù)模型,制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),構(gòu)建數(shù)據(jù)模型;根據(jù)構(gòu)建的數(shù)據(jù)模型,將源數(shù)據(jù)中的數(shù)據(jù)根制定的數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行采集;采用大數(shù)據(jù)存儲技術(shù)(Hadoop/Clickhouse)和關(guān)系型數(shù)據(jù)存儲技術(shù)(Oracle/Mysql)來存儲過程數(shù)據(jù)和主數(shù)據(jù)。②數(shù)據(jù)管理層主要包括數(shù)據(jù)質(zhì)量、安全、和主數(shù)據(jù)管理三個方面的內(nèi)容。數(shù)據(jù)模型是數(shù)據(jù)治理的根基,治理的目的是服務(wù)和共享,平臺提供基礎(chǔ)數(shù)據(jù)服務(wù),包括數(shù)據(jù)運(yùn)算服務(wù)、數(shù)據(jù)共享服務(wù)和預(yù)警服務(wù)。③數(shù)據(jù)應(yīng)用層主要根據(jù)學(xué)校的實際需求進(jìn)行定制個性化的分析和服務(wù)平臺,如校情大數(shù)據(jù)、智慧教學(xué)大數(shù)據(jù)、智慧學(xué)工大數(shù)據(jù)和個人數(shù)據(jù)中心等。

圖1 數(shù)據(jù)服務(wù)平臺總體架構(gòu)
3.2.1 制定數(shù)據(jù)標(biāo)準(zhǔn)
大數(shù)據(jù)的獲取依賴于自動化的收集機(jī)制以及明確的數(shù)據(jù)來源。高職院校治理大數(shù)據(jù)主要來源于學(xué)校內(nèi)外部的多個主體。內(nèi)部主體包括:學(xué)生數(shù)據(jù)子集,如學(xué)工平臺學(xué)生基礎(chǔ)信息、教務(wù)系統(tǒng)課程學(xué)習(xí)信息、一卡通平臺學(xué)生消費信息、就業(yè)系統(tǒng)學(xué)生就業(yè)創(chuàng)業(yè)信息、圖書管理平臺學(xué)生借閱信息等;教師數(shù)據(jù)子集,如人事系統(tǒng)教師基礎(chǔ)信息,科研平臺教師科研信息,學(xué)工平臺教師工作信息等;以及元數(shù)據(jù)和其他信息。外部主體包括政府、企業(yè)、校友群等,這些數(shù)據(jù)也會包括多個數(shù)據(jù)子集。要實現(xiàn)跨部門、跨系統(tǒng)、跨業(yè)務(wù)的處理,必然要形成統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范。根據(jù)專家調(diào)研結(jié)果,以國家標(biāo)準(zhǔn)、教育部推薦標(biāo)準(zhǔn)和其他學(xué)校數(shù)據(jù)標(biāo)準(zhǔn)作為參考,兼顧標(biāo)準(zhǔn)之間的兼容性、一致性和可擴(kuò)展性,制定了相應(yīng)的數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范。
3.2.2 構(gòu)建數(shù)據(jù)模型
在《中華人民共和國教育行業(yè)標(biāo)準(zhǔn)》的基礎(chǔ)上,根據(jù)學(xué)校的數(shù)據(jù)建設(shè)標(biāo)準(zhǔn)和高校數(shù)據(jù)治理的經(jīng)驗構(gòu)建了14個數(shù)據(jù)子集,并構(gòu)建200多個基礎(chǔ)的數(shù)據(jù)模型用于學(xué)校各類型的數(shù)據(jù)存儲。
高校產(chǎn)生的數(shù)據(jù)量大且種類繁多,為理清數(shù)據(jù)所反映的主題和內(nèi)容,特此引入了主題數(shù)據(jù),即主數(shù)據(jù)。通過主數(shù)據(jù)管理,再次進(jìn)行數(shù)據(jù)整合,把反映主題業(yè)務(wù)真實情況最準(zhǔn)確、最及時的數(shù)據(jù)集成為對某一事件或主題的數(shù)據(jù)指標(biāo)。如在高職院校的專業(yè)發(fā)展中,主數(shù)據(jù)主要表現(xiàn)為學(xué)生基本信息、教師基本信息、院系機(jī)構(gòu)信息、專業(yè)信息、班級信息、課程信息等指標(biāo)。
3.2.3 數(shù)據(jù)采集與清洗
在治理體系中,融合了多源全息數(shù)據(jù),包括校內(nèi)數(shù)據(jù)(業(yè)務(wù)系統(tǒng)數(shù)據(jù),如教務(wù)、學(xué)工、圖書、一卡通等)和校外數(shù)據(jù)(網(wǎng)絡(luò)爬蟲數(shù)據(jù),如互聯(lián)網(wǎng)數(shù)據(jù)),包含了原始結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)。為滿足我們流式實時采集和批量定時采集的需求,具體采集過程如下:
通過學(xué)生上網(wǎng)數(shù)據(jù),獲取日志數(shù)據(jù)、Wi-Fi節(jié)點數(shù)據(jù)、智慧教室物聯(lián)數(shù)據(jù);
通過FLUME,獲取位置數(shù)據(jù)、網(wǎng)絡(luò)行為數(shù)據(jù)、學(xué)生/教師認(rèn)證數(shù)據(jù);
通過外網(wǎng)爬蟲,獲取URL、WEB、站點信息;
通過內(nèi)網(wǎng)爬蟲,獲取校內(nèi)網(wǎng)業(yè)務(wù)數(shù)據(jù)、校內(nèi)網(wǎng)URL、校內(nèi)網(wǎng)WEB;
通過嵌入式Agent,獲取URL、WEB、站點信息;
通過Piwik,獲取網(wǎng)頁軌跡、操作行為、操作路徑;
ETL+可視化數(shù)據(jù)采集工具,獲取實時/非實時業(yè)務(wù)系統(tǒng)數(shù)據(jù)。
將從多源系統(tǒng)中抽取的現(xiàn)存數(shù)據(jù)以及歷史數(shù)據(jù),按照一定的規(guī)則把殘缺數(shù)據(jù)、錯誤數(shù)據(jù)以及重復(fù)數(shù)據(jù)過濾掉。對于過濾掉的數(shù)據(jù),做個備份文件,發(fā)送給業(yè)務(wù)系統(tǒng)部門以便修正錯誤,同時為將來驗證數(shù)據(jù)提供依據(jù),也避免將有用的數(shù)據(jù)過濾掉。
3.2.4 數(shù)據(jù)存儲與校驗
為了確保數(shù)據(jù)的高質(zhì)量,治理體系增加了數(shù)據(jù)校驗組件,數(shù)據(jù)校驗組件會根據(jù)數(shù)據(jù)標(biāo)準(zhǔn),校驗數(shù)據(jù)治理組件傳輸過來的數(shù)據(jù),對不符合要求的數(shù)據(jù),直接丟棄并將結(jié)果反饋給數(shù)據(jù)治理組件,以便數(shù)據(jù)治理組件對其組件進(jìn)行調(diào)整,以滿足校驗規(guī)則的要求。最后將符合校驗規(guī)則的高質(zhì)量數(shù)據(jù)存儲在分布式數(shù)據(jù)庫中。
3.2.5 數(shù)據(jù)應(yīng)用展示
在數(shù)據(jù)治理以及數(shù)據(jù)管理的基礎(chǔ)上,構(gòu)建上層應(yīng)用,如校情大數(shù)據(jù)分析、教學(xué)大數(shù)據(jù)、學(xué)工大數(shù)據(jù)、個人數(shù)據(jù)中心等全場景數(shù)據(jù)應(yīng)用,為學(xué)校的教學(xué)、科研、管理與服務(wù)提供決策支撐。

圖2 校情大數(shù)據(jù)分析應(yīng)用

圖3 學(xué)工大數(shù)據(jù)分析應(yīng)用
通過數(shù)據(jù)治理的實施以及大數(shù)據(jù)中心平臺的建成,為智慧校園的推進(jìn)解決了數(shù)據(jù)孤島、數(shù)據(jù)準(zhǔn)確性以及一致性問題,使信息化建設(shè)的過程事半功倍。目前,高職院校數(shù)據(jù)治理還處于一個初步探索階段,同時數(shù)據(jù)治理本身也是一個需要持續(xù)推進(jìn)、逐步完善、分布迭代的過程,因此,我們也要不斷推進(jìn)數(shù)據(jù)治理過程,以達(dá)到“連續(xù)的、螺旋上升”的數(shù)據(jù)質(zhì)量保證體系,實現(xiàn)大數(shù)據(jù)治理體系與智慧校園建設(shè)的深度融合,為高職院校的教育、科研、管理等工作做出貢獻(xiàn),同時也為師生更好地工作、學(xué)習(xí)提供便利。