黃賢明,梁愛南,張漢君,馮兆
(湖南工業大學 計算機學院,湖南 株洲 412007)
隨著大數據、云計算、物聯網以及人工智能技術的快速發展和廣泛應用,高校信息化建設邁入了一個新的階段。教育部在2018年4月發布了《教育信息化2.0 行動計劃》,提出到2022年要基本實現“三全兩高一大”的發展目標,標志教育信息化從1.0 時代進入2.0 時代。該行動計劃提出:要“促進智慧校園建設全面普及”“全面推進各級各類學校智慧校園建設與應用”。2021年3月22日,教育部發布《高等學校數字校園建設規范(試行)》的通知,對高校校園信息化提出了進一步的規范要求。
由于缺少清晰的校園信息化建設總體結構性框架與可視化模型,當前高校信息化建設的目標愿景尚未實現。各學校在校園信息化建設過程中,出現了如下弊端情況:一是數據缺乏統一規范,沒有形成統一數據標準;二是“信息孤島”現象突出,無法實現數據的實時共享;三是缺少統一的身份賬號認證與管理平臺;四是應用系統建設缺乏頂層設計等等。國內高校信息化建設在經歷了一段迷茫期后,在教育信息化2.0背景下急需重新定義,以更智能、更生態、更人本的樣態出現。因此,隨著高校信息化建設進程的進一步推進,當前校園信息化建設有了四個顯著的變化特點:一是碎片化:原有大型信息系統應用場景不斷被碎片化、多樣化、即時化的輕量級微服務解構,校園管理往往需要針對某一個簡單場景快速上線和變換;二是服務化:將原有面向單一部門的管理轉向跨部門的流程服務,實現數據互通、服務流程跨部門推進;三是移動化:掌上校園、移動校園、線上課堂等基于手機端、Web 端的應用廣泛普及對于使用習慣的改變也催生移動化辦公的轉變;四是數據分析化:學校各管理職能部門對于數據的要求,也從原來單純的業務管理轉向數據分析支持決策判斷。
然而,高校在推進“智慧校園”過程中,數據整合管理成為高校普遍存在的困擾,這種情況產生的本質原因往往逃不開“智慧校園”建設中“重應用、輕數據、缺標準”的歷史原因。高校作為數據產生、擁有和使用的主體,面對這些紛繁雜亂、若隱若現、捉摸不定的數據,難以實現關聯、統計、分析、挖掘,無法形成整體視圖,數據的價值得不到充分開發利用,管理水平難以提升,重要決策難以支撐。在這種情況下,“智慧校園”的推進難以獲得明顯的成效。正是因為“智慧校園”這些變化特點,對于數據質量要求越來越高,數據問題日益暴露,數據治理已經成為由“數字校園”邁向“智慧校園”過程中,必須經歷和完成的一項重大工程。
當前各高校在數據治理過程中,普遍感覺到數據治理難度很大,主要是前期在數據管理中存在四大難點:一是數據中心黑盒運行,難以管理。主要表現為數據黑盒運行,狀態不清,出故障難以排查;數據管理技術要求高,操作復雜;接口又多又亂,不知道哪些有用,數據不能復用;標準缺乏全局統一,只能點對點交換;部門之間要數據,溝通周期長,安全難以保障。二是數據維度缺少內容,難堪大任。主要表現為只有主數據、結果數據,缺乏過程數據;只有線上數據,缺乏線下數據;只有結構化數據,忽視了非結構化數據的價值;只考慮數據交換,數據價值未充分利用,師生重復填表。三是數據資源散落各處,難以收集。主要表現為業務系統歸口各部門管理,數據難以獲得;大量線下數據無法流動共享,比如電子表格、紙質文檔等;多個系統多份數據,數據來源缺乏權威;部署在校外的系統,需要數據時還要看廠商臉色、繳納接口費。四是數據質量缺乏保障,難以采信。主要表現為部分系統數據缺失、錯誤、不完整;部分系統數據結構單一,應用功能簡單,難以支持數據統計、數據填報等需求;個別系統數據獨立,與別的系統關聯不強,難以支持復雜的跨部門業務協作;部分系統數據陳舊,難以為部門管理水平的提升提供參考;數據共享不夠,難以為領導決策提供可信數據支撐等。
隨著校園信息化的不斷發展,高校數據呈現更多元化的狀態,傳統的業務系統建設模式已不足以滿足當下院校對于數據深層次挖掘利用的需求。同時在教育信息化2.0背景下,數據的隱私和安全也是需要核心保障的,而對于以上兩點的需求,傳統的主數據(數據中心)建設模式無論是從能夠容納的數據體量以及數據供給的模式均無法滿足需求。
一般來說,數據中臺是指企業利用大數據技術,對內外部海量數據統一進行采集、計算、存儲,并使用統一的數據規范進行管理,數據規范包括數據口徑、數據模型、元數據規范、參考數據標準、主數據標準、業務規則等。
數據中臺的核心是數據應用程序編程接口(Data Application Programming Interface,Data API),起到連接前臺和后臺的作用,通過API 的方式提供數據服務,而不是像以往那樣直接把數據庫給到前臺,讓前臺開發自行使用數據。那么產生DataAPI 的過程,DataAPI 怎樣可以產生得更快,Data API 怎樣可以更加清晰,Data API 的數據質量怎樣可以更好,這些就是需要圍繞數據中臺去構建的能力。
雖然數據中臺有著不同的導向和具體定位,但其最終的目標是一致的,就是以數據資產化為導向進行數據治理,以共享數據服務的方式實現數據共享,通過構建中間平臺,打通業務和數據環節,減少冗余,增加復用,快速響應用戶需求,實現數據驅動業務創新。
數據質量是高校“智慧校園”建設中數據治理的重中之重,只有高質量的數據,才能給學校帶來高效率和高價值。為了進一步提升高校智慧校園的數據服務能力,針對當前存在的數據管理問題,本文以某高校智慧校園為參照,提出教育信息化2.0背景下基于數據中臺的校園數據治理建設模式——數據中臺體系,探索解決數據的“管”“通”“用”三類核心問題,即制定完整的數據發展規劃,樹立基于數據的全生命周期管理理念,建立以數據標準為起點、數據應用為終點、數據閉環治理為保障的數據中臺架構體系,構建統一數據“管”理平臺;在傳統的數據倉庫和數據中心的建設模式上升級底層架構,通過數據治理實現數據的互融互“通”,消除數據孤島,實現數據共享與解耦;通過整合統一底層的數據標準和計算組件,運用數據中臺將數據抽象封裝成服務,形成滿足業務場景需求的數據模型,使數據統一開放使“用”,如圖2所示。

圖2 校園數據中臺體系
該校智慧校園的數據中臺體系架構共分為五層,分別為數據源層、數據采集處理層、數據倉庫平臺層、數據治理輸出層、數據應用層。
2.2.1 數據源層
航運制裁。由于全球約90%的油輪保險公司總部位于西方國家,美國通過獲得歐盟的支持,拒絕為伊朗石油出口服務的油輪提供海運保險,達到從航運上切斷伊朗石油出口的目的。上次歐盟對伊朗的石油禁令中,就有禁止歐盟保險公司對出口至世界各地的伊朗石油進行承保。受此影響,中國船東互保協會于2012年7月停止了對運送伊朗石油的油輪提供損失補償險。
數據源層是高校智慧校園的數據采集層,采集涵蓋高校常見的各類數據,主要包括關系型數據、文本文件、Syslog日志、二進制日志等數據類型的采集和存儲,在物理上形成一個大的數據集。數據來源可以分為校內數據和校外數據兩類,其中校內數據既有來源于校內線上業務如教務、科研、學工、一卡通等信息系統數據,也有來源于線下業務如各業務部門的文本文件、電子表格等數據,還有從相關智能設備上采集到了溫度、濕度、設備運行日志等校園環境監測數據。校外數據主要是相關信息系統對接上級平臺獲取數據以及通過網絡爬蟲獲取的互聯網數據。
2.2.2 數據采集處理層
數據采集處理層負責通過統一數據集成管道對相關數據進行優化處理,它應以需求為驅動,以數據多樣性的全域思想為指導,采集與治理全業務、多終端、多形態的數據,同時構建滿足學校智慧校園建設要求的統一數據標準,以達到解決各類數據在邏輯層面的統一。
2.2.3 數據倉庫平臺層
數據倉庫平臺層是指在前期統一數據采集、存儲的基礎上,建立數據共享中心,通過對數據的集成、計算和管控,提供數據流水線的管理方式,向下承接數據治理的成果,向上提供數據統一的通道,幫助學校各信息系統用戶簡化數據的管理和使用,提高數據使用的效率和安全性,盤活學校數據資產,達到消除數據孤島和數據煙囪的作用。
2.2.4 數據治理輸出層
數據治理輸出層是高校智慧校園數據治理成效關鍵一層,它將構建全域數據標準,集成不同類別的數據,完善數據管理規范制度。通過數據治理,統一數據接口定義與發布,規范用戶權限控制與使用審計,最終形成統一數據開放平臺。
數據應用層是指在統一數據開放平臺的基礎上,通過統一底層的數據標準和計算組件,形成滿足業務場景需求的數據模型,最終實現數據應用共享化、數據訪問移動化和運營監控自動化。
智慧校園的數據中臺體系通過五層模型構建,最終將形成統一數據采集、統一數據存儲、統一數據治理、統一數據開放和統一數據門戶的五位一體院校數據中臺,使得數據治理真正成為一個不斷循環和迭代的良性過程。
所設計的方案將對學校內外的全量數據進行盤點、梳理、采集、清洗和標準化,建立一個標準規范、來源權威穩定、數據高度融合、數據質量可靠的全量數據平臺,實現對數據的全面采集、規范建模、質量提升、安全存儲、可控共享和充分應用。數據治理的主要活動包含采集識別、清洗治理和成果生成與發布。
具體包括設計校級數據標準,全量采集各種管理業務數據、電子表格數據、日志數據等,并對數據質量進行檢核,針對質量問題進行清洗、轉換、去重、補漏、糾錯等操作,再按照標準模型和標準代碼進行統一建模存儲,形成戰略級數據資產,并由大數據平臺進行承載和運營發布。本方案在實施過程中,主要將整個數據治理工作分成三個域來進行,分別是管理域、數據域和知識域,如圖3所示。

圖3 基于數據中臺的校園數據治理方案
2.3.1 管理域
校園數據治理的根源在于數據不規范、各個信息系統數據缺乏統一的頂層設計。因此,在高校數據治理工作中,首要的就是進行數據的頂層設計和數據管理規范的制定。高校數據頂層設計必須由學校信息化職能部門或機構牽頭,協同教務、財務、人事、學工、后勤、一卡通等業務系統部門,對相關信息系統的數據分類、命名、技術架構、邏輯架構、物理架構、管理架構、開發架構和整合流程等進行統一數據標準、統一開放接口、統一數據共享。在此基礎之上,再形成學校的數據標準遵從、數據標準管理、數據生成職責、數據質量保障、數據安全職責、應用開發規范、開發共享規范等系列數據管理規范,從而實現數據產生、運用、共享、傳遞與消亡的生命周期式的系統性管理。
2.3.2 數據域
數據域是高校數據治理的核心內容,按照數據的流向,主要包括三個工作流。一是數據工作流,主要包含數據的識別、采集、集中、質量檢查,成果數據生成入庫,數據共享發布,直至被業務系統使用,生成新的數據,再次被采集,形成良性的閉環。二是標準工作流,在依據國家標準和教育系統行業標準的基礎之上,根據高校實際情況設定學校數據信息標準,再依據標準進行分類建模、生成數倉結構數據,最終形成成果數據的元數據模型。三是質量流,質量流是數據治理中工作量最大的部分,工作的內容就是對各信息系統檢查出來的質量問題進行修正、轉換、糾錯等操作,最終實現數據質量本質性的提升。
2.3.3 知識域
知識域是數據治理過程中對前一階段的進一步梳理和歸結,它包含兩個方面的工作:一是各類標準的輸出,最后形成校級數據標準;二是對數據采集來源、采集接口、供需關系、質量保障原則等等形成的知識沉淀構建成高校數據管理知識庫。
高校數據治理是一項系統工程,涉及各個業務系統歸屬部門,因此必須統籌兼顧、合理規劃、逐步實施。采用數據中臺技術實現數據治理,是從數據全量視域角度出發的一種方式。在實際工作中,數據治理要做好以下幾個步驟:一是摸清家底,要通過業務部門和數據調研,進一步摸清學校數據家底,了解現狀;二是全量采集,要更加廣泛的收集數據,實現數據的全量、全維度、全生命周期;三是標準制定,要依據學校實際情況合理制定、建設校級標準,原則上能采用國家標準和教育行業標準的應盡量采用;四是標準落地,標準不能停留在紙上,應該將標準應用到數據上、應用到對業務系統的數據交換過程中;五是積累與量化成果,通過數據治理,積累治理成果,保證延續性,步步為營,層層推進;六是知識庫建設,通過治理過程,形成數據資產目錄、元數據庫、數倉體系、數據質量原則庫、數據質量報告和數據血緣關系等等;七是制度形成與保障,通過規范和制度建設,理順流程、規范行為、嚴格執行,確保治理成果能夠不斷更新迭代。