季 紅
(天津職業大學網絡安全和信息化辦公室,天津 300400)
隨著高校信息化的建設和發展,數據的問題逐步顯現出來。如何有效地管理和利用數據,成為高校信息化發展的新方向。“十三五”智慧校園建設積累了大量的數據、日志信息,這些數據來源眾多,缺乏統一的建設標準,獨立存儲,缺乏有效的整合,形成了新的“數據孤島”,嚴重阻礙了學校的發展。按照《2020教育信息化和網絡安全工作要點》的工作部署,推動教育數據的有序共享,實現更好的支撐校園服務應用[1]。高校要通過數據的治理與挖掘,提高數據信息價值,從而輔助學校決策,提高信息化管理服務水平。
學校缺乏統一的數據建設標準,缺少頂層規劃,數據信息建設中各自為政,獨立存儲,無法實現數據的共建共享。系統數據在采集和存儲過程中雜亂無章,缺乏有效的管理,不能形成權威數據源,無法形成標準校本數據。
學校雖然建設了數據交換中心,但數據存在嚴重的質量問題,數據來源不唯一,一致性差,固定格式的數據中存在無關字符,數據內容不完整,接口數據流失嚴重。數據中心里的數據沒有進行精細化、全面化的管理,數據冗余較大,臟數據較多,工作效率極低。不能為數據展示分析、綜合利用提供高質量的數據。
學校數據對外開放多采用中間庫的方式,形式單一,共享內容不可控,對數據使用人員技術要求較高。無法做到全校重視,全體參與,負責數據的教師需要頻繁與業務部門對接,重復開發大量數據視圖或中間庫,效率低下。學校管理缺乏數據的深度挖掘和綜合利用,沒有真正地發揮數據價值,無法為各級領導及廣大師生提供校務數據綜合展示的服務。
從學校信息化建設的實際情況出發,以國標、教標以及信息化行業標準為指導,對全校數據資源和數據模型進行頂層規劃設計,形成統一、全面的學校標準,使不同部門建設的應用系統之間數據相互流通共享,實現數據精細化的管理。建立校本數據模型,建立長期的數字資源集成共享機制。
建設數據治理體系,形成數據資源池,構建全校資源主數據、共享數據、歷史數據、數據倉庫,形成學校新舊應用系統的數據交換體系,實現不同部門或單位的業務協同和信息融合[2],并為后續新建系統的無縫對接提供規范與基礎。建設一站式綜合數據服務平臺,提供業務數據的采集、清洗、存儲、服務、監控的全生命周期管理。
利用信息和網絡技術,用數據反映學校教學基本狀態,校務管理的執行情況。進行深入的數據挖掘,進行數據關聯分析,靈活運用聚類、分類等算法,探索或預測導致事件發生的相關性因素[3],為學校不同的用戶群體提供智能的數據檢索服務。為學校搭建學生安全管理、校外媒體監測、網絡日志分析等豐富的校園大數據應用,支撐決策層集中掌握校園整體運行情況,打造大數據時代的智慧校園。
高校數據治理旨在深化學校的數據規范,建立一套符合學校實際需要的數據標準化體系,充分挖掘、共享、分析、利用數據資源,發揮數據價值。數據治理工作從數據質量出發,建立學校數據質量建設和管理準則。將制度落地,通過數據治理系統平臺實現數據的集中采集、動態監控、規則執行和數據任務調度,從而發現數據問題,并形成預警,及時整改,實現數據的實時更新和同步。利用數據分析工具產生有用數據,輔助學校各項工作開展,為學校的智慧校園建設提供數據支撐。數據治理平臺應包括數據標準管理、全量數據中心、數據質量管理、數據共享交換和數據挖掘分析等功能。
首先對學校數據建設情況進行全面梳理,實現數據信息從生產、存儲、流動到使用的全過程進行調研,明確業務流程和數據應用關系,按照規范化的表達方式,展現出學校的業務現狀和未來發展需求的公共基礎數據模型及業務數據模型[4]。建立數據標準管理平臺,為數據治理和大數據分析提供一定的標準規范,以保證信息的高效匯集和交換。進行信息化標準體系建設,厘清數據關系,明確各項數據責任人,全面掌握目前院內業務系統數據現狀,使學院在信息的采集、處理、交換、傳輸的過程中有統一的規范,并且能夠有效指導未來各個業務系統升級和建設工作,切實提高學院的信息化標準水平。
建設學校全量數據中心,覆蓋整個業務域,從業務系統中提取核心數據,通過抽取(extract)、轉換(transform)、加載(load)過程,存儲到全量數據庫中。再進行集中數據的清洗和驗證。依據信息標準規范,對全量數據庫進行配置化備份建設歷史數據庫;通過核驗功能,對數據庫的規范性進行定期校驗,強化數據庫的規范性;最終數據中心以服務的方式把統一的、完整的、準確的、具有權威性的主題數據傳送給學校范圍內需要使用這些數據的操作型應用系統和分析型應用系統[5]。
建成數據質量監控平臺,根據不同類型的數據問題,項目將采取相對應的數據質量檢測和治理方式。對全校的數據進行實時監控,借助數據質量監控工具,形成權威的數據質量報告,推動學校數據質量完善,深度挖掘數據價值。要求實現:(1)完備性,數據擁有所有必須或適當的部分,擁有的是整個成品的全部。完備性的第一條件是存在性,數據必須存在。(2)一致性,同時滿足穩定性和連貫性,必須實現不存在變異或變更。(3)及時性,數據顯示要求及時更新,對于數據處理,及時性與數據的可用性相關,要求在一定程度上在正確的時間有他們需要的數據。(4)有效性,數據對一組業務規則、標準或已定義的數據值域的符合程度。(5)完整性,數據對(由數據模型定義的)數據關系規則的符合程度,這些規則的目的是確保數據對概念進行完備、一致和有效地表示。
構建數據開放共享平臺,實現數據的共享開放。數據開放共享的意義在于把高校的數據服務,像水、電、煤一樣輸送給有需要的業務部門、應用系統、開發者、學生和教工團體。面向校級業務部門、二級學院、廣大師生及個人用戶提供基于權限控制的應用平臺,向各類用戶開放數據集、數據接口和數據應用3類資源。規范部門間的數據交換,將對開放的數據進行集中管理,使學校數據中心成為發布數據唯一的權威來源。
最終通過大數據的分析和挖掘技術,關聯分析學生、老師以及其它幾個層面的深度畫像,清新地展示不同對象的個性化特性,助力教學及管理過程的個性化和特色化。對在校學生個人信息和學生行為信息的關聯進行分析。基于學校的學生素質評價體系,構建每個學生的多個維度的模型,綜合各個維度的情況建立全校學生個人行為畫像和綜合畫像,樹立學校優秀學生的行為畫像,宏觀和微觀展現學生各方面的情況,有利于學生了解自身整體情況以及和優秀學生的差距,有利于學校統籌規劃學生的培養和管理。同時,分析每個學生的素質、技能的發展趨勢和學校排名,剖析綜合素質和專業技能上升和下降的原因,提供學生、班級和學院的目前素質狀況、歷史對比和排名對比的行為畫像分析報告。
通過大數據治理,形成標準化校本數據,以真實的數據進行深度挖掘和數據分析,形成學校人、財、物的綜合展現和動態監控,為領導決策提供數據參考。同時通過多維度的分析,掌握學生學習和生活狀態,記錄成長軌跡;推動個性化的學習和就業,實現精準教學和管理,促進學校的發展。