袁黎暉


摘 要:隨著數字化校園的建設熱潮,很多高校已搭建起數字化校園系統。同時,隨著統一身份認證系統、公共數據庫和數據交換系統的建立,實現了這些應用系統之間數據交換和共享。高校大數據平采集各業務系統中需要分析利用的業務數據,對數據進行清洗和轉換,構建有效的數據分析指標體系,為學校整體了解、改進各方面工作提供動態、真實、可靠的依據,促進學校各部門協調運作,提高學校管理水平,幫助學校管理部門建立先進的管理模式。
關鍵詞:高校;數字校園;大數據
數字校園建設是高校基礎設施建設的重要組成部分,通過建設數字校園將相對獨立分散的業務系統進行整合和有效的集成,提高信息化水平。數字校園的建設可以提升高校整體的管理水平和綜合實力,消除信息孤島和應用孤島、建立校級統一信息系統;可以實現部門間流程通暢,規范業務流程;可以提高工作效率,管理效率,促進高校各項事業的全面協調發展。
高校中不同程度的存在著數據整合問題,這是高校數字化校園建設需要解決的問題之一,建設高校共享數據中心平臺是解決方案的重要組成部分。大數據作為信息技術發展的新趨勢,已逐漸滲透到各行各業,成為驅動生產業務發展的重要因素。教育部高校“十三五”規劃明確提出要建設“智慧校園”,而這些都離不開數據及大數據相關技術,只有數據的量越大、維度越多,我們才能夠分析出精準的信息。
一、現狀
高校經過信息化系統的建設,將大部份管理流程均從線下轉到了線上,從紙質流程變成了電子流程,從手工記錄變成了自動記錄,提升了管理效率,并使得高校的管理活動更加規范和科學。從教和學的角度來看,網絡和應用系統的建設改善了教學條件,豐富了教學手段,擴展了教學的時間和空間。國內高校數字校園架構通常包括三個部分。
1.網絡接入部分。高校通過電信、移動、網通及其他運營商接入互聯網及教育專網,在校內部署核心交換機、防火墻、IPS、WAF等網絡互聯及安防監控設備,網內用戶可使用有線或無線方式經過身份認證和計費系統接入到校園網,訪問網內外資源。
2.各類應用系統。高校內的應用系統主要包括有教務、學工、招生就業、科研、OA、人力、資產及一卡通等系統,這些系統對應校內各個職能部門的工作職責。
3.數據中心基礎。數據中心包括為全校提供信息化服務的軟硬件設施,主要包括服務器、存儲設備和虛擬化軟件、云平臺、中間件和數據庫等。
為了實現各個系統之間的數據同步和流轉,有部分高校建設了“數據中心平臺”,即“公共數據中心”、“統一信息門戶”和“統一身份認證”,這些平臺將下層的業務管理系統的公共數據部分,如學生數據、人事數據、身份信息等統一抽取出來,建立了中心信息庫,成為各個業務系統同步的一致性基準。
但是,隨著校園規模的擴大和業務的日益繁雜,高校管理人員和系統開發人員發現普遍存在的嚴重弊端:這些信息系統都是按照不同的業務線縱向建設的,各個系統的功能不同,數據分散,基礎數據、公共數據難以同步和共享,對于數據的來源和用途也缺乏規劃,難以集中進行關聯、融合的分析應用,不能滿足高校對數據分析決策的要求。
二、高校的數字校園建設普遍具備下列問題。
1.高校底層應用的“數據孤島”現象嚴重,各系統之間的數據尚未進行標準化和歸一化,導致數據同步和交換存在困難,業務難以實現充分整合。
2.各個業務系統和“三大平臺”支撐的主要都是事務型應用,但是如果要完成數據綜合統計、信息挖掘、相關性分析等工作,現有的數據由于標準不統一,分離在各個業務系統中難以整合,因而難以支持上述分析方面的需求。
3.絕大部分應用系統的底層數據形態都是結構化數據,其生成的數據也是結構化數據,但也存在有大量的非結構化數據(如各種機器設備產生的日志信息)和互聯網上的數據,由于現有軟件體系無法對這些數據有效存儲、組織、管理和分析,無法有效利用。
4.絕大部分應用系統,其數據層架構都是關系型數據管理系統(RDBMS),其運行模式只會保留當前狀態數據和結果數據,大量的歷史數據、過程數據都被丟棄,但這些歷史數據和過程數據恰恰是進行綜合統計分析所需要的最重要的素材。
5.由于數據難以跨部門調動和流轉,導致各個職能部門進行業務分析時,只能利用本部門內部的數據進行單個維度分析,難以實現跨維度、跨部門、橫向關聯的復雜建模和分析。
6.各個職能部門主管,以及校級領導希望了解各種綜合信息時,只能通過逐級上報的報表了解過往信息和局部的、細節性的信息,且時效性較差,難以通過綜合數據分析獲得快速的、總體的綜合信息,難以形成有效決策輔助。
三、 大數據平臺的設計
隨著移動互聯網的不斷發展以及傳感設備在校園內的普及,不僅僅是各個業務系統的數據需要對接,各種半結構化數據(設備產生的日志)和非結構化數據(監控的視頻、照片以及各種文本數據)也在大量產生,這些是傳統的業務系統所處理和承載不了的數據,但是對于信息化服務而言又是非常有價值的。如何有效整合當前這些業務系統的數據、日志數據、流式數據,成為各個高校從信息化向智慧化邁進所需要面對的首要問題。
基于這樣的應用背景,有必要在高校建立基于大數據技術的數據整合、交換、分析平臺,不改變現有校園信息系統建設模式,并最大限度利用現有信息系統等基礎設施,支持校園的智慧化運營,為校園的教育、教學創新提供海量數據分析支持,推動學校信息化由傳統“運營管理型”向“意識服務型”轉化,由傳統的“信息化系統”向“智慧型服務”邁進。
大數據平臺體系結構如圖1所示。
各類管理信息系統中的結構化數據、各類IT設備產生的運行過程數據以及來自于互聯網的信息,在被加載到數據平臺之前,需要經過數據清洗。數據清洗的主要功能包括數據標準管理、元數據管理、數據質量管理、數據資產管理、數據安全管理,目的是將這些數據組合成邏輯上相互關聯的、形態和意義一致的數據集。數據平臺是一個以Hadoop分布式存儲和計算體系為核心的數據存儲和處理平臺,利用HDFS、MapReduce、HBase、Spark、Storm、Elastic、Mahout等Hadoop生態體系中的各種工具實現高效的、分布式的數據存儲和計算處理,從而實現對數據的存儲、分析、挖掘所需要的算法過程。在數據平臺之上,將平臺內部的數據結構、存儲體系、算法模塊進行封裝,屏蔽各種底層細節和差異,將數據按照各個主題進行重新分類,并隨同分析挖掘算法、高性能分布式計算體系以標準API接口的方式向上面的應用層軟件提供服務。而數據管理和數據維護是為了對數據標準的討論和指定,業務流程、數據模型和元數據的梳理,數據質量的檢查分析,錯誤和重復數據的修正,數據同步過程和結果的監測。在數據服務的上層,是最終實現分析和挖掘目標,并進行前端展示的應用層軟件,這些軟件針對特定的主題和目標進行設計,體現用戶希望達成的分析目標,包括可視化應用、統計分析類應用、學生綜合管理、圖書館應用、個人數據服務類,例如學生綜合管理、科研情況分析、綜合校情展示等等。
四、大數據平臺的實現
如前所述,高校各種業務應用是以管理和服務流程為導向進行開發的。業務流程的運轉使得高校沉淀下來大量的業務數據,這些數據反映了各個部門的各種業務過程的詳細信息,特征鮮明,結構穩定,信息結構化程度較高,是目前高校的核心數據資產,也是大數據分析的重要基礎。
這類業務數據的存儲普遍采用傳統的關系型數據庫,比如Oracle、SqlServer等,以單個應用為主題進行設計,比如一卡通、教務、門禁等系統。這些系統中有很多都是關于同一對象的不同活動過程的記錄,例如,各個業務系統都記錄了學生相關的數據。一卡通記錄的學生的消費過程、身份認證記錄,教務系統記錄的是學生的選課記錄、考試成績、學分情況等,財務系統記錄了學生的繳費情況、補助發放金額等。在不同的系統中記錄的維度不一樣。我們可以從單個系統中看到某個對象在某個領域域的活動細節。而大數據項目的目標,則是要將這些數據綜合利用起來,從單維數據變為多維數據,以支持復雜的數據分析與調取。
除了各個管理業務系統中包含的數據,還有很多數據也包含了其他維度的信息,例如,某學生通過校園網連接到互聯網時產生的上網數據,該學生使用手機連接到學校的WIFI時在無線網絡中留下的連接數據等等。互聯網中也有大量的相關數據,如招生信息、招聘信息、輿論信息等等,都與學校的活動息息相關,因此也需要引入這些數據幫助高校進行綜合的數據分析。
為了盤活學校現有的數據源,同時打通、引進入和開發新的數據源,我們需要構建一個綜合的大數據平臺,能夠承載這些數據,同時能夠高效、安全、穩定、可靠的對外提供服務。
大數據平臺在技術層面采用自頂向下分層架構設計,共分為四層:數據應用層、數據能力供給層、數據存儲與計算層、數據獲取層,滿足未來需要具備的完整功能體系,如圖2所示。
1.數據應用層,具有直接與用戶交互的所有功能,是系統的使用界面和視圖,可快速靈活定制,滿足各種校園使用場景和人員的需要,并具備統一門戶和綜合展示功能。
2.數據能力供給層,具有豐富的原子能力和組裝能力,供場景/應用層靈活調用,是大數據基礎平臺的核心的業務數據處理模塊。
3.數據存儲和計算層,實現海量業務數據的集中清洗、存儲、管理,支撐決策層集中掌握校園整體運行情況。
4.數據采集層:具備多業務、多技術接口的數據采集和轉換能力,具備按照應用場景進行業務數據采集,互聯網數據抓取,機器數據采集能力,可分布式部署,具備靈活的擴展能力,是大數據平臺的基礎。
五、 結語
高校信息化被迫要求扮演更加多元的角色,這也為高校的信息化建設提出了更高的挑戰和要求。大數據平臺可以獨立支撐各種校園的智慧化運營應用,為校園的教育、教學創新提供海量數據分析支持,推動學校信息化由傳統運營管理型向服務型轉化。
參考文獻:
[1]郭寶軍.高校教育大數據的分析挖掘與利用[J].電子技術與軟件工程,2018.18.
[2]李娟.基于大數據的高校智慧校園建設研究[J].信息與電腦,2018.19.
[3]張書華,楊卓.大數據對高等教育教學的影響[J].綠色科技,2018.17.
[4]李冰.數據挖掘技術在智慧校園的應用分析[J].信息與電腦,2018.17.
[5]謝慧.基于大數據技術的數字化校園建設應用[J].中國建材科技,2018.09.