余 鵬 李 艷
(1.中南民族大學 現代教育技術中心,湖北武漢 430074;2.中國科學院武漢文獻情報中心 湖北武漢 430071)
“互聯網+”時代的到來,互聯網、社交網絡、物聯網、移動互聯網、云計算等相繼進入人們的日常工作和生活中,并潛移默化地改變著用戶的意識形態。高校信息化被迫要求扮演多元化的角色,對高校的信息化建設提出了更高的要求。《教育信息化“十三五”規劃》[1]明確提出要建設“智慧校園”,高校由“數字校園”逐步邁向“智慧校園”,不斷探索“以數據為核心資產、以數據驅動業務革新”的發展模式已成為我國高校向“雙一流”邁進的必然趨勢。數據的體量越大、維度越多,就越能夠更好地為用戶精準分析和個性化服務提供更多潛在的信息。
在數據挖掘驅動教育、變革教學的“互聯網+”時代,教育領域同樣蘊藏著具有廣泛應用價值的海量數據。探索教育變量之間的相關關系,進行大數據的教育應用,為教育教學提供有效的決策支持服務,促進教育教學的變革與創新,成為十三五期間構建“智慧校園”的新型課題[2]。
在“十二五”至“十三五”期間,我國高校已基本邁入信息化時代。高校在不斷整合業務流程、打破數據孤島、統籌線上管理、享受信息化建設和快速發展帶來豐碩成果的同時,也逐漸面臨著數據標準不統一、數據源頭不清晰、數據流轉不順暢、數據應用不能滿足需求等一系列問題,給教學、科研、管理及服務造成了諸多不便。支撐數據獲取不便,或無從獲取,或從不同渠道獲取數據不一致。在未來“智慧校園”的建設中,高校迫切需要更為便捷的信息化手段支撐教學、科研、管理及服務工作,建立完善的數據服務平臺,實現對數據的安全、規范的采集、存儲、交換及應用,是實現個性化管理服務的基礎。
在上述內在和外在的需求背景下,高校制定統一的數據標準、實現業務系統數據、機器數據及公共數據的高度融合、構建穩定且半開放的數據平臺必需且必要。開展數據治理工作,解決當前數據共享中存在的“數據質量不高、數據流向混亂、共享度不足、歷史數據缺失”問題,實現對高校數據中心的重構,構建數據治理平臺,對高校業務系統數據有序且規范化地進行梳理、采集、清洗、標準化規范存儲和應用,實現學校數據資產的有效管理和數據的深度共享。抽取并整合全校所有業務系統的結構化數據,以及各系統運行日志和互聯網數據等非結構化數據,按主題分類進行數據梳理,用于學校在管理、科研、教學及服務改革等業務層面宏觀的統計、挖掘、預測。同時,深度治理后的數據能夠在教學、科研、管理等多方面全面服務于高校發展,其意義主要體現在:深入促進服務創新和價值創造、有效提升管理和決策水平、提升校園數據質量和數據可信度、提高合規監管和安全風險控制,使高校師生能夠充分享受大數據帶來的個性化及貼心化服務[3]。
(1)數據標準規范化
數據標準是在高校數據平臺框架下,保障高校內、外部使用和交換數據的一致性和準確性,具有行業特點且共同使用的一種規范性約束。數據標準是高校數據平臺數據治理的基礎,亦是數據治理建設中的首要環節。一方面,數據標準為高校數據平臺提供統一的數據標準定義和平臺邏輯模型;另一方面,數據標準是高校數據平臺進行數據治理的依據和根本。數據標準是衡量高校數據平臺數據資產運營和管理的評估依據。如圖1所示,數據標準規范化的管理內容包括:構建基于校情的數據管控制度及數據標準管理組織、制定基于數據流程的規范性文件、實現信息項數據字典標準的規范化定義。
(2)數據管理脈絡化
通過對數據流的梳理,可以看出數據管理的任務是構建元數據進行集中式的管理。在高校數據范圍內,元數據主要描述了各業務系統的數據范圍、數據類別、數據定義、數據表之間的關系以及數據流等信息。數據管理是元數據的創建、存儲、整合以及控制的一整套流程的集合,用以輔助在高校場景內開展各類元數據應用。
通過對元數據的管理,大數據治理達到如下目標:①提供校級數據字典,便于內、外部準確掌握高校的數據概況;②提供全局元數據查詢檢索,便于快速定位元數據;③提供元數據詳細描述,便于快速了解數據組成、數據結構及數據流向;④提供血緣/影響分析功能,便于進行分析判斷、問題定位;⑤提供元數據接口服務,便于其它系統或模塊使用元數據,實現數據交互與共享服務;⑥提供元數據應用,方便終端使用元數據。高校元數據的特點在于邏輯相對趨于集中,即將元數據管理作為統一的發布源,采用集中式的元數據管理模式,提供元數據的集中創建、維護、查詢功能,不斷趨于脈絡化。
(3)數據質量度量化
數據質量深度反映了數據的“適用性”,即數據滿足使用需要的合適程度。數據質量通過完整性、一致性、準確性、及時性、合法性等多類維度進行度量。數據質量的度量化工作旨在定義數據質量標準、建立數據質量審核機制、跟蹤數據質量的全生態過程,為數據平臺提供潔凈、結構清晰的高質量數據,是數據平臺開發數據產品、提供數據服務、發揮大數據價值的必要前提,是高校數據資產管理的關鍵因素。
數據質量度量化的目標是:為高校內、外部用戶提供平臺化的數據質量監控,通過擴充和優化公共規則庫、增強后臺對不同類型數據倉庫和非結構化數據的兼容性,提升用戶使用感受,并提供數據質量應用滿足個性化需求。
(4)數據內容精簡化
業務數據、系統數據、機器數據、日志數據等形成了高校的結構化數據和非結構化數據集合。數據源的多樣性,嚴重制約了數據交換與共享。數據內容的精簡化工作旨在消除重復數據、修正錯誤數據、實現數據的多次清洗、完成基于數據標準的轉化等,以降低數據維護成本。

圖1 數據標準的管理內容

圖2 高校教育大數據建設總體架構
高校大數據建設總體架構可分為三個層次:數據治理層、數據平臺層和數據服務層,如圖2所示。各層的主要功能定義如下:
①底層——數據治理層。該層主要完成統一的標準和規則制定工作,包括抽取以業務數據為主的結構化數據,以文本、音視頻、機器數據為主的半結構化數據及非結構化數據,實現對各類數據的梳理、數據標準制定、元數據管理、數據質量及數據資產梳理、數據安全管理、數據集成服務等,從軟件層面解決學校業務數據、機器數據、公共數據池數據的管理問題,為后續的數據存儲、交換與計算服務提供“干凈、可靠”的數據資源。
②中間層——數據平臺層。基于硬件架構層面構建統一平臺體系,涵蓋傳統的關系型數據庫和當前以 Hadoop為基礎的分布式數據存儲技術,用以支撐高校內、外部多源異構的海量數據存儲、交換與計算。
③頂層——數據服務層。在數據平臺層和數據治理層的基礎之上,構建一套完整的、標準的數據服務體系,滿足多方面的數據供給、展示、管理、決策的需求。
教育大數據平臺架構[4]如圖 3所示。大數據系統基于開源的數據平臺軟件,依賴于數據采集層整合高校各類基礎數據(包含Hadoop、Spark、Cloudera、Sqoop、Flume、ETL等),利用數據存儲層的關系數據庫、非關系型數據庫MongoDB、數據倉庫Hive、列存儲數據庫Hbase、分布式文件系統HDFS等將各類數據歸檔、分類、過濾、存儲,采用Spark、Storm等計算框架實現大數據的分布式計算,將可用數據推送至數據緩沖層,依賴封裝的數據接口實現大數據應用交互服務。構建具備吞吐TB級的數據架構,實現對TB級日志數據進行分布式存儲和并行分析處理(可擴展),將高校的結構化數據和非結構化數據提取至Hadoop的HDFS中,經過數據存儲層、數據計算層、數據緩沖層,通過數據接口“屏蔽”底層,能夠大幅提升數據的可復用度,實現數據服務應用與數據的全解耦,讓數據中心插上海量數據存儲與計算的“翅膀”。
教育大數據治理工作的迫切性和必要性,確立了大數據治理系統在高校數據平臺中的定位。本研究基于“五元管理”(包括數據標準管理、元數據管理、數據質量管理、數據資產管理、數據安全管理),進行了教育大數據治理系統相關功能建設,其功能框架如圖4所示。

圖3 教育大數據平臺架構圖

圖4 高校教育大數據治理的功能框架
(1)數據標準管理
數據范圍涉及高校內、外部數據運營相關的數據,包含業務數據、機器日志數據、外部互聯網數據。以數據標準為基礎的數據治理體系,實現數據的資產化,貫穿整個數據運營的全流程,形成以高校數據平臺為核心的大數據生態圈,服務于高校內、外部的數據使用人員。數據標準的管理目標是實現高校數據的完整性、有效性、一致性、規范性、開放性和共享性管理,進一步提升數據治理水平。
數據標準制定包括數據標準體系和數據標準內容的制定。其中,數據標準體系可分為基礎類數據標準和指標類數據標準,數據標準內容的制定是根據數據標準體系分類的要求制定數據標準的規范,如圖5所示。

圖5 數據標準體系結構圖

圖6 元數據管理功能圖
(2)元數據管理
如圖 6所示,元數據管理主要包含定義元數據模型,利用元數據服務接口動態存儲及管理元數據,實現元數據(技術元數據、業務元數據)的實時獲取。通過對技術元數據的抽取,把相關的字段抽取到相關工具平臺,利用工具清晰查閱表或字段之間的關聯,提供清晰的視圖;通過對業務元數據的維護,確定相關指標與業務流程。依托大數據治理系統便捷地管理高校數據倉庫中的數據,調整業務中的統計指標,并通過技術元數據和業務元數據兩種數據的關聯,輔助數據管理者快捷地查閱詳細的指標定義,全面理解業務并合理使用指標。
(3)數據質量管理
數據質量管理涵蓋從源數據接入數據平臺到應用輸出的全過程。數據質量包含數據質量管理、數據資產評估、數據質量規則庫制定及數據質量績效監控。數據質量的管理對象包括數據平臺中的非/半結構化數據。數據質量管理既是數據平臺接收數據源的“保護墻”,保障所有接收的源數據均符合數據平臺的要求;又是數據平臺數據資產評估的重要組成部分,通過構建數據資產規則庫,為數據資產評估提供輸入。依托數據質量績效監控,由事后監控向事中、事后監控相結合轉化,可在計算執行過程中調用數據質量監控作業,無需等待結果出來再進行監控。
(4)數據資產管理
數據資產管理過程是一個資產全生命周期的管理過程。資產全生命周期管理以數據資產作為管理對象,以資產戰略和資產策略為導向,從系統整體目標出發,統籌考慮資產的規劃、投資、設計、建設、運行、維護、稽核、變更、注銷的全過程,在滿足安全、效能的前提下有效管理、監控數據資產的生產和使用情況,不斷優化數據資產質量,實現數據資產的業務價值。數據資產的功能如圖7所示,具體包括:①注冊管理,完成多種方式(采集器、在線維護、提供自助注冊接口)注冊數據資產、審核及版本控制等;②變更管理,完成注冊數據資產信息的變更、審核與更新;③審計管理,完成數據資產盤點與數據資產訪問記錄的審計;④資產統計分析,完成數據資產的評估,包括數據質量、訪問情況等信息的采集,依據相關信息對數據資產進行綜合評估打分;⑤權限管理,完成與數據安全管理對接,除同步數據安全管理應用對象的信息及權限外,將數據資產訪問的申請信息發送給數據安全管理模塊進行處理;⑥接口管理,實現與元數據管理、數據質量管理、數據安全管理的對接,收集相關基礎數據,用以完成數據資產的注冊、稽核及安全管理。

圖7 數據資產的功能
數據資產的統一管理,可以較好地解決當前數據中心普遍存在的需求分散重復、口徑模糊等問題,實現成果和經驗的共享與積累,便于實現應用和數據之生命周期的自動化管理。明確的數據資產信息,將有效支撐高校內部知識系統和資源管理的建設,為高校技術人員、管理人員更快捷、有序、便利地提供資產使用的方式和途徑,支撐數據分析、開發、運維的自治。
(5)數據安全管理
數據安全管理旨在完善數據體系化的安全策略,建立完整的體系化安全策略措施,全方位地進行安全管控,通過多種手段保障數據平臺數據治理中的數據安全,完成數據“存、管、用”的數據治理安全,做到“事前可管、事中可控、事后可查”:“事前可管”旨在全面分析系統,及時發現存在安全風險的環節設置防線,防患于未然;“事中可控”旨在通過4A、敏感數據管控、隱私信息保護等手段,密切關注操作,確保安全實施;“事后可查”旨在記錄所有訪問痕跡,保留操作日志提供審計。
隨著“智慧校園”的落地生根,高校在全方位提升自身教學、科研、管理、綜合服務水平的同時,圍繞高校快速發展的全過程數據逐漸引起了教育管理者的重視,并用以實現對教育大數據的梳理、采集、清洗、規范化存儲、分析、挖掘、應用。利用數據服務于高校各項工作,也已逐步上升為高校發展的重要戰略之一。教育大數據治理體系的構建,無疑將進一步解決高校數據管理過程中的種種困境,并為優化數據質量、提升數據管理水平,實現學校數據資產的有效管理和數據的深度共享提供必要的基礎條件。通過大數據的深度治理,使教育大數據應用在高校遍地開花,將驅動高校由經驗式的教學模式向數據服務的教育模式轉變、由以管理為中心的管理模式向以用戶服務為主導的需求驅動模式轉變、由拍腦袋的主觀決策模式向數據引導的智慧決策模式轉變[5]。
[1]教育部關于印發《教育信息化“十三五”規劃》的通知[OL].
[2]李艷,呂鵬,李瓏.基于大數據挖掘與決策分析體系的高校圖書館個性化服務研究[J].圖書情報知識,2016,(2):60-68. [3]包冬梅,范穎捷,李鳴.高校圖書館數據治理及其框架[J].圖書情報工作,2015,(18):134-141. [4]胡添翼.夯實數據基礎,構建統一平臺[R]. 湖北武漢: 北京希嘉創智教育科技有限公司,2017:2-9. [5]余鵬,李艷,呂鵬.高等院校大數據挖掘與決策分析體系的應用研究[J].現代教育技術,2016,(8):102-108.