王俊松,朱 辰,邊薈凇,金易琛
(南京信息職業技術學院, 江蘇 南京 210023)
高職院校經過多年的信息化建設,建成了門類眾多的業務系統,這些業務系統的深入應用產生大量業務數據,且數據總量仍然在迅速增長。 但是隨著數據量的增長,也暴露出一些問題。 數據孤島化:由于各業務系統的數據無法互聯互通,隨著業務系統數量增加,數據孤島的數量持續上升,數據的開放共享十分困難。數據質量差:數據中心沒有明確的數據血統,無法保證數據的一致性,因而也無法形成高質量數據,給數據的查詢、使用和分析帶來很大困難。 權屬邊界不清:沒有形成“一數一源”的權威數據,未明確數據的權屬關系。數據安全堪憂:部門間數據流轉往往使用Excel 等傳統方式,無法保證數據的安全性[1]。 未建立成熟的數據授權訪問機制。 開放共享難:由于沒有成熟的數據運營工具,數據的開放共享的技術成本較高,常常依賴于產生數據的業務系統廠商的支持,缺乏主動性。 數據資產不明:無法對數據進行有效管理,難以形成有價值的數據資產,進而無法有效釋放數據價值。
數據中心建設的技術層面要解決數據集成、數據治理和數據應用的全流程的平臺支持。 由于不同數據源帶來的數據類型多、數據標準不統一,同時面向數據的各類操作流程繁多,如何選擇一個高效的處理平臺及系統架構非常重要。 數據中心建設的應用層面要根據高職院校的實際需求,抽象出不同層次不同角色關注的數據應用模型。 如何同時關注不同用戶、不同層次的數據需求,需要分別建設面向基礎數據業務、應用場景和主題場景的數據模型。 數據中心的管理層面解決數據治理背景下校內多部門的協同治理問題。 學校現有的職能部門相對獨立,而大數據應用需要優化現有組織模式,提高溝通和協作的效率,逐漸打破各部門數據和業務相對封閉的狀態,在學校層面進行整體的數字治理系統設計、開發和建設,推動學校治理體系和治理能力現代化。
數據中臺是實現校園大數據應用的核心技術。 數據中臺[2]匯集結構化數據、系統日志數據、物聯網數據以及互聯網數據等,通過建立數據集成、治理與應用的標準化流程,實現跨系統、跨組織邊界的數據高效互通,通過建立業務數據模型并應用各類數據挖掘和人工智能工具,實現海量數據的綜合分析與知識發現,從而為管理者提供輔助決策,為師生及業務部門提供智慧服務。
智慧校園數據源應盡可能多地包含學校內部及外部數據,包括業務系統數據、機器日志數據和互聯網數據等多源異構數據,通過數據集成工具集成到數據中心。 針對結構化、半結構化和非結構化數據等不同類型數據,應用Sqoop、Kettle、Flume 和網絡爬蟲等工具,制定相對應的集成策略。 結構化數據通常選擇Oracle或MySQL;結構化數據的多表關聯和查詢可以用MPP;半結構化數據的實時解析可以用Spark&Hbase 或ELK;互聯網及網站日志數據解析可以用MongoDB 等。數據計算主要包含離線計算服務、實時計算服務和面向海量結構化數據處理的分布式數據庫服務等。
數據治理[3]核心要素包括主數據、元數據和數據質量。 依據對主數據的標準管理,實現主數據的標準化。 通過對元數據的管理實現不同表之間的數據血緣分析以及數據標準建立。 數據質量管理通過對數據的完整性、一致性和關聯性等規則進行數據檢核,形成數據質量報告。 數據服務提供數據資源服務和數據計算服務。 通過數據訪問服務接口的標準化,實現應用和數據分離。 服務層采用微服務架構,將數據資源和數據計算封裝成SOA、RESTful 架構對外提供服務,基于標準化接口實現對數據訪問、數據計算的API 封裝,以便于上層應用的調用,并支持機器學習算法分析功能。數據服務為大數據應用開發和數據分析挖掘提供平臺及服務,平臺依賴于底層分布式批處理框架、分布式流數據實時框架以及機器學習算法庫等相關基礎設施,數據服務功能包含數據開發、數據算法[4]與數據可視化等服務。
數據畫像抽象數據信息全貌,通過整合數據資源發掘數據應用價值,為師生和管理人員提供各類服務和決策支持。 研究數據中臺下的高職院校數據應用體系,將數據畫像分類為基礎大數據、應用大數據和主題大數據3 個層次,如圖1 所示。 分析不同層次管理模式,業務數據互動流程,數據管理規范,明確多層聯動下數據生成、存儲、訪問、使用、更新及消除在內全生命周期內的參與人員、數據流轉過程、數據監管負責機構等直接影響數據使用效果的關鍵節點,從全校宏觀角度出發,逐步細化至核心業務場景,構建數據治理體系,提升數據質量,促進高職院校數字化轉型的開展與實施。

圖1 高校數據畫像系統應用架構
基礎大數據是從各類業務系統中抽取出來,依據制定的數據標準轉換得到的業務領域數據。 當前高職院校的業務系統主要包含教務、教學、學工、人事、科研、就業等領域的管理或服務系統。 基礎大數據建設主要環節是數據標準的建立及數據治理。 依據教育部教育信息化技術標準委員建立的教育行業標準為重要參考,結合學校的實際需求,制定學校級統一的元數據標準、代碼集標準、編碼規則和應用標準。 數據治理是基礎大數據的質量的決定因素,除了上述的基于規則的數據校驗,還需要業務領域人員針對實際應用場景的語義級校驗。 基礎大數據可以實現面向機器端的接口調用,同時也可接收用戶的直接查詢調用,這種情形下的主要開發難點是分級授權。
基礎大數據與業務子系統是一一映射的,而應用大數據則是依賴基礎大數據的相對獨立的各類場景應用,這類應用數量繁多,主要是解決每一個具體的問題。 例如:在迎新業務中用來反映迎新動態大數據;在疫情防控中用來反映師生疫情風險的疫情防控大數據;在網上教學中用來反映師生互動的學生在線學習互動大數據等。 應用大數據為各類場實現精細化管理與服務提供數據支持。
主題大數據聚焦學校重點關注要素,涵蓋學校治理、專業、課程、教師和學生5 個層面,通過數據分析與挖掘實現面向用戶的數據服務與面向治理的決策支持。 學校畫像:以學校核心業績整體把控為目標,自上而下反饋不同層級建設工作的開展實施情況,針對建設項目和實施責任部門實現數據下探和數據定點,對可能存在的風險進行預估和防范。 系統可以實現指標的自動采集,對于執行不理想和存在風險的指標,系統支持自動向管理部門、執行部門進行預警,支持分項目組的多指標預警。 課程畫像:面向教師團隊,提供課程運行、線上教學活動、課程評價等數據,幫助團隊了解課程教學狀況、優勢和不足,明確改進方向。 專業畫像:在學校專業評估數據的基礎上,從招生情況、專業建設和就業情況3 個維度呈現專業發展狀況,助力專業建設的持續改進和布局優化。 教師和學生畫像:由下到上設計統計層、模型層和挖掘層。 其中統計層實現縱向分級下鉆和橫向切片對比。 模型層通過對基本數據建模,構建多維度、可復用的數據中間件。 挖掘層利用數據挖掘算法,對基本數據或中間件進行挖掘分析,例如利用關聯分析算法,挖掘與學生學習成績強關聯的相關因素。
健全的管理體系是實時數據治理的體制機制保障。首先設置學校網絡安全和信息化領導小組作為信息化數據資源管理工作的領導機構,負責學校信息化數據資源建設的統籌工作。 設置專門的信息化主管部門作為領導小組的日常辦事機構,負責組織、協調和推動學校信息化數據資源建設工作,負責制定信息化數據資源建設規劃、標準、規范等實施辦法并監督落實,負責公共數據平臺建設、運行、管理和對外服務。 繼而按照“誰產生、誰負責、誰維護”的原則,各責任部門負責本部門數據資源的統籌規劃、建設和目錄編制,執行學校相關的標準、規范,按要求向公共數據平臺提供權威數據,進行數據全生命周期管理,并對數據質量負責。 各部門負責人為本部門信息化數據資源管理的責任人。 各部門信息化聯絡員具體負責本部門信息化數據資源與學校公共數據平臺對接、數據資源的日常管理、運維等工作。
職業院校大數據應用的技術體系、應用體系和管理體系的成熟度將決定著數據應用的深度和廣度。 在前期的實踐探索中諸多院校已經獲得了階段性成效,很好地發揮了數據的價值,但是在建設過程中存在的協同機制問題和數據治理科學性問題阻礙了數據的進一步應用。 首先,數據治理不僅依賴于數據技術進步和數據應用創新,更需要發揮全校多元主體作用,通過多樣化治理手段構建覆蓋全校各層面的數據治理體系。 應進一步完善數據治理相關的規章制度,為數據治理的“常態化”提供體制機制保障。 其次,無論是數據質量檢測方案的制定,還是協同相關業務部門進行數據質量整改,應探索更具有科學性、可行性和高效性的工作流程,提高數據治理效能,加快釋放數據價值的腳步。
數據治理和大數據應用當前已成為高職信息化建設的主要突破口,2022 年3 月國家智慧教育公共服務平臺正式上線,其中國家職業教育智慧教育平臺將直接集成院校數據中心,形成學校級畫像,平臺的持續推進并充分運用將會帶動職業院校的大數據應用探索與研究,有助于把職業教育規模優勢轉化為教育發展的新優勢,推動職業教育的整體數字化轉型。