趙健 王思奇
(長春財(cái)經(jīng)學(xué)院 吉林省長春市 130122)
歷經(jīng)20 多年的發(fā)展,我國應(yīng)用型本科院校數(shù)據(jù)治理主要經(jīng)歷了數(shù)據(jù)庫治理、數(shù)據(jù)倉治理、數(shù)據(jù)湖治理三個發(fā)展階段。
應(yīng)用型本科院校為了支撐各種業(yè)務(wù)建立了如招生、教學(xué)、醫(yī)務(wù)、選課、上網(wǎng)管理、科研、財(cái)務(wù)管理、圖書管理、設(shè)備管理等覆蓋教育領(lǐng)域方方面面的信息化系統(tǒng)。為了支撐業(yè)務(wù),一所高校往往會使用并維護(hù)若干個操作型數(shù)據(jù)庫,這些數(shù)據(jù)庫保存著日常操作數(shù)據(jù),比如食堂結(jié)賬、圖書管理、學(xué)生成績錄入等,因此也被稱為"面向應(yīng)用型數(shù)據(jù)庫"治理階段。
這一階段,追求快速、可靠和精準(zhǔn),治理的重點(diǎn)是減少數(shù)據(jù)冗余,“事務(wù)”型的操作避免更新異常,通過數(shù)據(jù)庫的管理實(shí)現(xiàn)各種約束和范式要求,進(jìn)而達(dá)到數(shù)據(jù)治理的目標(biāo)。但由于信息系統(tǒng)建設(shè)多以業(yè)務(wù)部門牽頭分別進(jìn)行,缺乏全校統(tǒng)一的系統(tǒng)規(guī)劃和數(shù)據(jù)標(biāo)準(zhǔn),導(dǎo)致很多高校雖然已經(jīng)積累了大量的業(yè)務(wù)數(shù)據(jù),但數(shù)據(jù)質(zhì)量低、數(shù)據(jù)冗余大,數(shù)據(jù)利用率差,存在大量信息孤島,已經(jīng)嚴(yán)重制約高校日常管理和教學(xué)水平的提升。
各種教育業(yè)務(wù)的信息化雖然解答了教育者心中“發(fā)生了什么?”和“什么正在發(fā)生?”的疑問,但是為了更好的教書育人迫切需要將分散于校內(nèi)外部各種結(jié)構(gòu)化數(shù)據(jù)加以整合并依據(jù)某些特定的主題需求,通過報(bào)表、圖表、多維度分析的方式回答“為何會發(fā)生?”這一更深層次的問題。由于之前的建設(shè)中高校教學(xué)、科研、行政、后勤等系統(tǒng)彼此割裂、互不兼容,數(shù)據(jù)融合、不斷整合再造業(yè)務(wù)流程成為這一階段的主題。
這一階段的特征是數(shù)據(jù)集成,以關(guān)系型數(shù)據(jù)庫為基礎(chǔ)的運(yùn)營式系統(tǒng)慢慢向決策支持系統(tǒng)發(fā)展,對多個異構(gòu)的數(shù)據(jù)源進(jìn)行整合,并且利用信息交換,按照主題進(jìn)行了重組,再進(jìn)行必要的轉(zhuǎn)換、清洗等,最后裝載進(jìn)數(shù)據(jù)倉,從而為分散的業(yè)務(wù)系統(tǒng)提供數(shù)據(jù)共享。
在數(shù)據(jù)驅(qū)動教育、變革教學(xué)的“互聯(lián)網(wǎng)+”時代,教育大數(shù)據(jù)已成為教育治理的重要資源。挖掘高校積累的海量數(shù)據(jù)(包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))中的教學(xué)和科研價值、變革教與學(xué)的方式、為師生精準(zhǔn)和個性化教學(xué)提供更多、更好潛在的信息,為教育教學(xué)提供有效的決策支持,促進(jìn)教育教學(xué)的變革與創(chuàng)新,促進(jìn)治理理念從“管理本位”向“服務(wù)本位轉(zhuǎn)變、教育治理體制從“碎片化”向“網(wǎng)格型”轉(zhuǎn)變、治理方式從“基于有限個案”向“基于大數(shù)據(jù)”說話轉(zhuǎn)變、治理模式由“靜態(tài)化”向“動態(tài)化”轉(zhuǎn)變,推進(jìn)教育治理現(xiàn)代化。
這一階段,以數(shù)據(jù)為導(dǎo)向,構(gòu)建了一個“四通八達(dá)”的數(shù)據(jù)湖數(shù)據(jù)流動體系,實(shí)現(xiàn)了對任意來源、任意速度、任意規(guī)模、任意類型數(shù)據(jù)的全量獲取、全量存儲、多模式處理與全生命周期的集中式管理,無論在云上云下,高校內(nèi)部還是外部,借助數(shù)據(jù)湖,各個系統(tǒng)之間不再有壁壘,自由的流進(jìn)流出,并以數(shù)據(jù)庫的體驗(yàn)對外提供能力,更重要的是,這種流動是受監(jiān)管的,數(shù)據(jù)湖完整的記錄了數(shù)據(jù)的流動情況,結(jié)合先進(jìn)的數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)技術(shù),高校能挖掘出很多之前所不具備的數(shù)據(jù)的管理、治理和資產(chǎn)化能力,構(gòu)建更多優(yōu)化的教育教學(xué)運(yùn)行模式。
數(shù)據(jù)中臺來源于企業(yè)的實(shí)踐,其核心思想是聚合、治理跨域數(shù)據(jù),將數(shù)據(jù)封裝抽象成服務(wù),使其成為企業(yè)數(shù)據(jù)資產(chǎn)管理中樞,提供給前臺以業(yè)務(wù)價值。在應(yīng)用型本科院校,教師熟悉教育,但不是所有教師都具備借助計(jì)算機(jī)開展精細(xì)化教育的能力,所以可借鑒企業(yè)數(shù)據(jù)中臺,為高校師生及管理人員開展個性化教育提供技術(shù)支持,讓他們專注于創(chuàng)新,而不擔(dān)心技術(shù)問題。
應(yīng)用型本科院校相較于其他研究型高校,其管理機(jī)制更加靈活,可以利用數(shù)據(jù)中臺將后臺各式各樣的資源轉(zhuǎn)化為前臺易于使用的能力,為應(yīng)用型本科院校持續(xù)創(chuàng)新、特色發(fā)展提供支持。目前,應(yīng)用型本科院校數(shù)據(jù)治理中臺建設(shè)的內(nèi)容主要有:
通過抽象各條教學(xué)業(yè)務(wù)線,將通用的服務(wù)抽象為共性需求,將其固化打造成組件化的能力資源包,如招生、教學(xué)、醫(yī)務(wù)、學(xué)籍、選課、成績、食堂、上網(wǎng)、體育活動、科研、財(cái)務(wù)、安全、薪資、住行、圖書借閱、設(shè)備管理等基礎(chǔ)模塊服務(wù),然后以微服務(wù)接口的形式提供給前臺各教學(xué)部門使用,賦能教師及教學(xué)管理者,為其教育教學(xué)創(chuàng)新拓展提供開箱即用可,威力強(qiáng)大強(qiáng)大的后臺炮火支援。
利用大數(shù)據(jù)技術(shù),構(gòu)建高校數(shù)據(jù)資產(chǎn)庫,為教育教學(xué)提供一致的、高可用性的、可視化的、最具價值的大數(shù)據(jù)服務(wù),為學(xué)情分析、個性化教育、分層教學(xué)、變革教與學(xué)的方法、改進(jìn)教育管理,調(diào)整方向,提供了強(qiáng)大及時的雷達(dá)監(jiān)測能力。
構(gòu)建開放、靈活、可擴(kuò)展的高校統(tǒng)一標(biāo)準(zhǔn)化的技術(shù)平臺,幫助高校解決基礎(chǔ)設(shè)施,分布計(jì)算等底層技術(shù)問題,將高校內(nèi)外部隨需關(guān)聯(lián),自檢系統(tǒng)提供技術(shù)支撐,助力高校數(shù)字化轉(zhuǎn)型落地。
組織中臺扮演戰(zhàn)場的指揮部,戰(zhàn)爭的大腦的角色,承擔(dān)前線指揮和后方調(diào)度的職能,為高校的項(xiàng)目提供教學(xué)管理、質(zhì)量管理、資源調(diào)度等支持。
(1)強(qiáng)化應(yīng)用型本科院校數(shù)據(jù)資產(chǎn)的管理能力。利用數(shù)據(jù)中臺和數(shù)據(jù)湖技術(shù),高??梢詫⒔逃龜?shù)據(jù)持續(xù)沉淀,除了管理原始數(shù)據(jù)外,還能將處理過的過程數(shù)據(jù)和結(jié)果數(shù)據(jù)分類保存,極大的提升埋點(diǎn)數(shù)據(jù)的價值。
(2)增強(qiáng)應(yīng)用型本科院校分析模型化能力。數(shù)據(jù)湖中不僅有原始數(shù)據(jù),還有埋點(diǎn)數(shù)據(jù)的模型(schema)。埋點(diǎn)數(shù)據(jù)與學(xué)生注冊信息、登陸信息、學(xué)習(xí)信息等結(jié)構(gòu)化數(shù)據(jù)關(guān)聯(lián),借助埋點(diǎn)數(shù)據(jù)模型,高??梢愿钊氲睦斫饴顸c(diǎn)數(shù)據(jù)背后所體現(xiàn)的學(xué)習(xí)行為邏輯,幫助高校更好的洞察學(xué)生行為,因材施教。
(3)提高定制化教與學(xué)的能力。借助數(shù)據(jù)中臺提供的數(shù)據(jù)集成和數(shù)據(jù)開發(fā)能力,高校可以定制數(shù)據(jù)處理過程,不斷對原始數(shù)據(jù)進(jìn)行迭代加工,從數(shù)據(jù)中提煉有價值的信息,最終獲得超越原有數(shù)據(jù)分析服務(wù)的價值。
(4)促進(jìn)應(yīng)用型本科院校一體化運(yùn)維的能力。把當(dāng)前系統(tǒng)中各個業(yè)務(wù)的前端應(yīng)用與后端服務(wù)解耦,將重復(fù)、類似的服務(wù)進(jìn)行整合,強(qiáng)調(diào)服務(wù)的通用性和服務(wù)能力的集中管控,很大程度會促進(jìn)其一體化運(yùn)維的能力。
應(yīng)用型本科院大數(shù)據(jù)治理平臺總體結(jié)構(gòu)設(shè)計(jì)包括數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化以及監(jiān)控、調(diào)度、安全、管理等功能模塊,平臺總體架構(gòu)如圖1所示。

圖1:高校大數(shù)據(jù)治理平臺結(jié)構(gòu)圖
平臺由底向上分為三層,分別是各類異構(gòu)數(shù)據(jù)源(數(shù)據(jù)源層)、大數(shù)據(jù)治理層(治理層)和大數(shù)據(jù)專題分析層(分析層)。
4.1.1 異構(gòu)數(shù)據(jù)源層
這一層數(shù)據(jù)主要來源于高校內(nèi)外兩部分。內(nèi)部如招生管理系統(tǒng)數(shù)據(jù)、教學(xué)系統(tǒng)數(shù)據(jù)、選課系統(tǒng)數(shù)據(jù)、教師相關(guān)數(shù)據(jù)與學(xué)生基本數(shù)據(jù)(選課數(shù)據(jù)、考勤數(shù)據(jù))、一卡通數(shù)據(jù)、上網(wǎng)管理系統(tǒng)數(shù)據(jù)、圖書管理系統(tǒng)數(shù)據(jù)、科研系統(tǒng)數(shù)據(jù)、醫(yī)療系統(tǒng)數(shù)據(jù)、設(shè)備管理系統(tǒng)數(shù)據(jù)、財(cái)務(wù)管理系統(tǒng)數(shù)據(jù)等各類信息化系統(tǒng)。外部數(shù)據(jù)主要來源于網(wǎng)絡(luò)上爬取的非結(jié)構(gòu)化數(shù)據(jù),如信息化系統(tǒng)日志、微博、微信、校園等日志或媒體數(shù)據(jù),同時還有其它和高校數(shù)據(jù)分析相關(guān)的各類數(shù)據(jù)。這些異構(gòu)數(shù)據(jù)源是構(gòu)成高校大數(shù)據(jù)分析平臺的數(shù)據(jù)基礎(chǔ)。
4.1.2 大數(shù)據(jù)治理層
這一層的主要功能有系統(tǒng)管理、數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)呈現(xiàn)等。
(1)系統(tǒng)管理:負(fù)責(zé)整個高校大數(shù)據(jù)治理平臺硬件資源管理、開源大數(shù)據(jù)組件管理(部署、狀態(tài)監(jiān)控、升級)、用戶管理、系統(tǒng)安全等。
(2)數(shù)據(jù)采集:為各類異構(gòu)數(shù)據(jù)源提供采集工具、研發(fā)適配接口,從而與校內(nèi)的各系統(tǒng)對接獲取全面的高校數(shù)據(jù)。
(3)數(shù)據(jù)存儲:由Hive、Hbase、MySQL、HDFS 等組件構(gòu)成。其中MySQL 主要用于存儲元數(shù)據(jù)、權(quán)限管理數(shù)據(jù)、用戶數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)等平臺基礎(chǔ)靜態(tài)數(shù)據(jù);HDFS 分布式文件系統(tǒng)存儲半結(jié)構(gòu)化或非結(jié)構(gòu)化的未經(jīng)過ETL 處理的原始數(shù)據(jù);HBase、Hive 是位于HDFS 之上的數(shù)據(jù)倉庫,其主要功能是提供快速查詢、OLAP 支持、SQL 能力。
(4)數(shù)據(jù)處理:主要提供分布式數(shù)據(jù)計(jì)算能力,包括離線計(jì)算、實(shí)時計(jì)算。離線計(jì)算由Hadoop MapReduce、Spark、Kylin 支撐;實(shí)時計(jì)算由SparkStreaming 負(fù)責(zé)。
數(shù)據(jù)分析:是對即席查詢、數(shù)據(jù)報(bào)告、數(shù)據(jù)挖掘、學(xué)校管理等功能及其通用接口/API的封裝,使用插件框架為系統(tǒng)提供高擴(kuò)展性,以滿足新增業(yè)務(wù)功能的分析、查詢、處理及展示需要。
數(shù)據(jù)可視化:使用免費(fèi)商業(yè)工具FineBI 提供的功能實(shí)現(xiàn)高校大數(shù)據(jù)的可視化展示。主要包括各種圖表、智能報(bào)表、用戶畫像、用戶管理界面、數(shù)據(jù)建模界面、數(shù)據(jù)分析界面及平臺管理界面等。
4.1.3 大數(shù)據(jù)分析層
這一層提供基礎(chǔ)的分析框架,封裝高校大數(shù)據(jù)應(yīng)用專題分析包。分析框架是基于主流的Hadoop 實(shí)現(xiàn)的MapReduce 編程模型、Spark 編程模型、Spark SQL/HSQL 模型。定制的專題分析包包括但不限于:教學(xué)管理、學(xué)生畫像、圖書管理、醫(yī)院分析、就業(yè)分析等高校大數(shù)據(jù)專題分析。
整個方案建立在PaaS 基礎(chǔ)上、基于微服務(wù)及中臺思想設(shè)計(jì),力求輕、快、強(qiáng)、簡單、開放五個目標(biāo),可對共享數(shù)據(jù)庫、應(yīng)用系統(tǒng)數(shù)據(jù)庫進(jìn)行融合,進(jìn)行信息資源和數(shù)據(jù)治理,提供快速開發(fā)平臺,基于適合高校的通用模型庫、接口庫、算法庫、組件庫,無代碼快速構(gòu)建高校的微應(yīng)用、數(shù)據(jù)融合應(yīng)用、流程融合應(yīng)用及各類特色功能,并迭代開發(fā)。
業(yè)務(wù)中臺實(shí)現(xiàn)應(yīng)用的統(tǒng)一調(diào)用和管理,開發(fā)者和用戶也可以靈活地將相關(guān)技術(shù)、數(shù)據(jù)、內(nèi)容整合到教學(xué)、學(xué)習(xí)、管理、空間和服務(wù)等智慧場景中?;趯W(xué)生畫像、渠道特征、學(xué)習(xí)傾向、選課動機(jī)等評估,以數(shù)字化標(biāo)簽驅(qū)動,快速搭建學(xué)生與學(xué)習(xí)內(nèi)容產(chǎn)生互動的一切場合場景。在內(nèi)容場激活用戶,提高內(nèi)容的有效性、降低復(fù)雜度,為用戶提供更精準(zhǔn)的知識。在教學(xué)場圍繞學(xué)前中后與學(xué)習(xí)強(qiáng)相關(guān)的場景,對學(xué)生學(xué)習(xí)體驗(yàn)負(fù)責(zé)。
業(yè)務(wù)中臺的內(nèi)容設(shè)計(jì)主要包括:
(1)教學(xué)業(yè)務(wù)中臺:包括裝備、助教、評測、科研等功能,以多樣化教具,多元化內(nèi)容,構(gòu)建教師為中心的教學(xué)平臺,個性化和差異化教學(xué)。
(2)智慧學(xué)習(xí)業(yè)務(wù)中臺:包括在線課堂、AI 助學(xué)、浸入式學(xué)習(xí)、科技素質(zhì)教育等功能,以過程性評價、個性化方案、自主化學(xué)習(xí),構(gòu)建學(xué)習(xí)者為中心的終身學(xué)習(xí)平臺。
(3)智慧管理業(yè)務(wù)中臺:包括智慧校務(wù)、智慧教務(wù)、智慧辦公、智慧決策等功能,以泛在化資源、便捷式操作、個性化匹配,構(gòu)建管理者為中心的數(shù)字化治理平臺。
(4)智慧空間業(yè)務(wù)中臺:包括智慧安防、節(jié)能管控、環(huán)境監(jiān)測等功能,以情景感知,自主適配,打破數(shù)據(jù)孤島,構(gòu)建以人為本的教育空間。
(5)智慧服務(wù)業(yè)務(wù)中臺:包括一碼通行、開放社區(qū)、一站式平臺、個性化助手等功能,以標(biāo)準(zhǔn)化體系,開放式生態(tài),個性化供給,構(gòu)建使用者為中心的服務(wù)平臺。
隨著物聯(lián)網(wǎng)、5G 通信的實(shí)施,一個“萬物互聯(lián)”基于“數(shù)據(jù)驅(qū)動”高校大數(shù)據(jù)治理融合平臺值得進(jìn)一步探索研究。