文 /魏楚元 彭升輝 任彥龍 謝烈虎 孫緒華
在數據時代背景下,高校信息化建設逐步向智能化、大數據挖掘方向發展。在此情況下,智慧校園的概念被提出。智慧校園區別于數字校園的關鍵在“智慧”上。智慧校園建設,主要技術特征體現在云計算、物聯網、大數據、智能化、移動互聯等五個方面。智慧校園建設追隨當前時代技術的進步,這是區別于數字校園時代的代表性技術。云計算作為先進分布式計算技術為智慧校園信息平臺運行計算提供了更強大的環境;物聯網將致力于解決校園環境下物理設備的連接與感知;移動互聯將校園師生帶入到移動終端連接的互聯網世界;智能化使得師生對智慧校園建設易用性、體驗感、先進性提升到更高的期望。而大數據這熱門的概念,從高校管理層到普通師生,期望從數據中找到“黃金”。我們有理由認為,數據價值挖掘與分析支撐辦學決策、服務師生,正是智慧校園建設最重要的“黃金”,也是“智慧”的根本所在。
縱觀高校信息化過去二十年的發展歷程,高校信息化建設從業者一直致力于數據管理工作,期望能消除信息孤島,最大化利用數據價值。在數字校園建設時期和如今智慧校園建設時期,對數據管理的期望都是一致的。而在大數據時代,對數據期望更高,更迫切。在數據管理上,高校面臨的問題一直存在,從體制機制上數據不開放不共享、數據孤島依然嚴重;從數據管理層面,數據不完整、不一致、數據更新不及時等數據質量問題依然突出;數據來源眾多且分散,缺少真正有效的整合;數據從生產到使用,中間流程不清晰,數據融合困難等。如此眾多的問題長期未得到有效解決,形成了“表面上喊數據重要”而事實上“數據價值無從體現”的尷尬局面。實際上,從業界到高校都未找到破解難題的方法。今天大數據概念的火爆,引發了高校管理層對大數據價值的更高期望,師生對大數據的價值也充滿期待。高校信息化從業者急于找到解決現實問題的方法,對數據管理依然迷茫。紛紛提出如下疑問:學校數據管理的水平到底處在什么層次?數據團隊如何建設?數據管理應該制定哪些制度?如何提升數據質量?如何建設數據標準?面對這些問題和疑問,數據治理的方法顯得尤為重要。
本文從分析數據管理能力成熟度模型入手,分析高校在數據治理上的優勢與問題,提出一種高校數據治理的框架,為高校大數據分析提供參考。

圖1 數據管理能力成熟度模型
《數據管理能力成熟度評估模型GB/T 36073-2018》給出了數據管理能力成熟度評估模型以及相應的成熟度等級,定義了數據戰略、數據治理、數據架構、數據應用、數據安全、數據質量、數據標準和數據生存周期等8個能力域,如圖1所示。其中8個能力域又包括29個能力項,如表1所示。
數據管理能力成熟度評價劃分為5個等級:初始級、受管理級、穩健級、量化管理級和優化級,具體包括以下幾個方面。
1.等級一:初始級。組織沒有意識到數據的重要性,數據需求的管理主要是在項目級來體現,沒有統一的數據管理流程,存在大量的數據孤島,經常由于數據的問題導致低下的客戶服務質量、繁重的人工維護工作等。
2.等級二:受管理級。組織已經意識到數據是資產,根據管理策略的要求制定了管理流程,指定了相關人員進行初步的管理,并且識別了與數據管理、應用相關的干系人。
3.等級三:穩健級。數據已經被當作實現組織績效目標的重要資產,在組織層面制定了系列的標準化管理流程以促進數據管理的規范化,數據的管理者可以快速地滿足跨多個業務系統,準確、一致的數據要求,有詳細的數據需求響應處理規范、流程。

表1 DCMM能力域和能力項
4.等級四:量化管理級。數據被認為是獲取競爭優勢的重要資源,組織認識到數據在流程優化、工作效率提升等方面的作用,針對數據管理方面的流程進行全面的優化,針對數據管理的崗位進行關鍵績效指標(Key performance indicator,KPI)的考核,規范和加強數據相關的管理工作,并且根據過程的監控和分析對整體的數據管理制度和流程進行優化。
5.等級五:優化級。數據被認為是組織生存的基礎,相關管理流程能夠實時優化,能夠在行業內進行最佳實踐的分享。
數據管理能力成熟度模型給出了一個組織數據管理、應用能力的評估框架,通過數據能力成熟度模型,組織可以清楚地定義數據當前所處的發展階段以及未來努力的方向。該模型可以作為高校數據治理的一把尺子和一面鏡子。對照該模型,能夠很好地對大學的數據管理能力成熟度進行評估,也能促進高校數據管理能力的持續提升。結合該模型,我們對高校數據治理的現狀給予初步分析。
1.數據戰略。將數據上升為學校戰略層面,在國內高校比較少見。高校信息化普遍領導機構為網絡安全和信息化工作領導小組或者信息化建設領導小組,具體數據職能部門基本上為信息化辦公室或網絡信息中心,承擔信息化建設職能,鮮見有專門的數據戰略或數據職能機構。北京師范大學、西安交通大學等極少數高校專門成立校務數據中心,在數據戰略建立和實施上樹立了標桿。數據作為全校的核心資產,學校層面制定數據戰略并進行全方位推進極為重要。
2.數據治理。數據治理作為一種重要的理論和方法,為數據建設與管理提供了可行的路徑和方法指導。近年來,數據治理被賦予更多關注和重視,對厘清高校數據管理問題具有重要的指導意義。目前很多高校處于數據管理層面而非形成數據治理的組織架構和數據治理的制度。
3.數據架構。高校普遍建設有共享數據中心(主數據管理平臺),各業務系統數據以共享視圖或Web Service接口方式進行共享,形成數據從分布到共享的架構。但是,對元數據的管理,數據共享的深度還不夠,如學籍變異數據準確無誤共享、科研項目中的經費在財務系統與科研系統完全打通等尚未很好實現。
4.數據應用。數據應用的水平局限在業務系統層面,未形成很好的合力,在綜合決策分析上發揮更好的效益。數據雖然在一定程度上共享,但是主數據管理平臺中的數據尚未能形成很好的數據開放共享服務。
5.數據安全。數據安全建設上存在短板和安全隱患,在數據收集、存儲、傳輸和使用過程中缺乏必要的防護措施,使得大量敏感信息、個人信息的安全性無法得到有效保障。在技術層面上,缺乏深度的數據審計機制,數據安全隱私保護、數據庫安全訪問策略等建設隱患較多,亟需加強。
6.數據質量。數據質量是高校數據治理面臨最大的問題,數據質量是數據治理的生命線。數據質量問題普遍存在,不解決這些數據質量問題,高校信息化建設乃至大數據分析將難以達到理想的效果。
7.數據標準。雖然制定有數據標準,但是數據標準的執行力度欠佳,數據標準的管理、更新維護能力欠缺,數據標準在某種程度上形同虛設;業務系統的更替,往往數據標準要適應業務系統,而非業務系統建設時以數據標準為主的現象依然普遍。
8.數據生存周期。數據生存周期對數據運維能力提出了重要挑戰,對歷史數據的保存和管理,保持歷史數據版本及其延續性,具有極為重要的價值。目前普遍缺乏對數據生存周期的科學管理方法和管理手段。
從以上幾個方面來看,高校數據管理水平參差不齊,距離量化管理級和優化級仍然有相當大的差距。數據管理能力成熟度模型的指標和參考項,對高校數據治理具有極為重要的指導價值和參考意義。
數據治理是近幾年來逐步得到重視的數據資產管控方法。數據治理是對數據資產管理和控制的活動集合,包括計劃、監控和執行等。數據治理是對數據資產進行管理的組織行為,涵蓋數據采集、使用到清理的數據全生命周期的政策和流程。數據治理不同于數據管理,數據管理是一種角色和職責,確保在數據治理的指導下提供具有較高數據質量的可靠數據。數據治理則更加全面和深入,強調的是通過治理過程達到良好的數據管理能力成熟度模型中的較高等級,并提升組織的資產回報率。
可以說,數據質量是數據管理中的重要問題之一。提升數據質量,除了通過技術手段,對數據不一致、數據丟失等進行監測和修復,更重要的是要全面通過數據治理手段,切實加強一個組織的數據管理能力建設,促進組織向著數據管理能力成熟度更高級別,有序規范提升數據質量,為數據提供辦學決策發揮價值。
借鑒行業解決方案,結合高校特點,我們設計了高校數據治理技術框架,如圖2所示。
以高校數據治理為例,主要闡述高校數據治理的技術架構和方法。高校數據治理主要包括以下四大模塊:
1.數據源發掘與資產盤點。高校的教育、教學、管理活動構成了一個系統,在系統運行過程中產生了大量的數據,必須對這些數據源進行全面挖掘,找出這些可能存在的數據源的生產單位、管理單位、使用單位、受益單位。有些數據具有一定的隱蔽性、復雜性和綜合性,如需要統計出師生平均在校內體育活動的時間,可能要對運動場、體育館等多個體育運動場館的數據進行采集,有些單位沒有采集數據設備和手段,需要進行補充建設等。資產盤點需要對各系統的數據庫、日志、文件等海量數據進行全面梳理。數據源的發掘、建設,數據資產的全面盤點,是做好高校大數據分析的重要前提。

圖2 高校數據治理技術框架
2.數據集成。數據集成主要是將盤點發現的各個系統的數據進行采集、清洗、交換至構建的中心共享數據庫。結合高校的實際情況,采用兩套技術平臺分別進行處理。對于結構化數據,通常使用ETL構建結構化共享數據中心,將教務、科研、人事、財務、資產等多個重要業務系統的數據交換到共享數據中心;對于非結構化數據,如網絡系統日志、視頻圖像、文本等數據,采用Hadoop/Mapreduce/MongoDB等大數據平臺進行接入。
3.數據治理。數據治理是高校大數據分析的關鍵措施。在學校整體數據戰略的指導下,需要建立數據治理組織機構和人員隊伍,明確數據生產單位、管理單位、使用單位、收益單位的責任、權利和關系,需要強化對數據質量的管理,對全量數據進行血緣分析、影響分析;還有數據模型建立、元數據管理、數據標準管理、數據安全管理等重要的內容。
4.數據應用。通過前面幾個階段的工作,最終是促進數據的應用。數據應用主要包括數據可用性服務和數據價值發掘分析。數據可用性服務包括實現可配置的數據交換規則、數據可用服務接口設計,使得數據共享交換的過程簡單、易操作,提升對數據分析的可操作性;數據價值發掘分析,重點是結合學校核心業務,設計好分業務主題模型和學校綜合校情指數等業務價值模型,通過大數據分析展示價值,支持決策分析。
數據治理的戰略層面,關鍵在于一個高校對數據的重視程度,是否將數據當作核心資產,數據逐漸實現戰略化、資產化;并且大數據思維和應用已經開始逐漸滲透到學校管理層和學校治理范疇內,并且致力于發揮數據對學校治理理念、治理范式、治理內容、治理手段等產生的積極影響。高校數據治理的關鍵在于建立組織有力的管理架構和人員隊伍,以實施、執行學校的數據戰略。
在學校網絡安全和信息化工作領導小組下,建立數據治理工作組,其工作職責包括:全校范圍數據資源的統一規劃;學校數據信息標準、編碼標準、技術規范、管理規范的制定和完善;為學校數據整合、共享、深度分析和綜合應用提供服務保障;為學校各部門的信息化數據管理工作提供指導與業務支撐。數據之類工作組組織機構包括教務、科技、人事、學生工作、研究生、財務、資產等多個業務職能部門和學院,明確各個項目數據主管,建立協作開放合作機制,推動各個業務系統數據開放共享,推進各個業務部門數據源頭的數據采集與數據質量負責制,真正推動數據從生產、交換、共享、使用、價值分析全鏈條數據質量管控,高效完成數據治理工作。
數據治理制度以文件形式明確數據戰略實施下各個業務單位的責任擔當。必須加強信息化數據的統一規劃與管控,建立有效的數據共享、管理與保障體系,保證信息化數據的完整性、規范性和一致性,明確信息化數據的管理和維護責任,保證信息化數據質量,為學校教學、科研、管理以及持續發展提供準確、權威、及時、安全的數據與信息服務。
近年來,大數據已成為國內外專家學者、產業界、各行各業研究的熱點話題,如何充分挖掘和實現大數據的價值,是高等教育領域面臨的新課題。本文主要以數據管理能力成熟度評估模型作為參考,簡要分析了高校數據管理普遍存在的問題,找出了存在的差距和短板。在相關行業的經驗基礎上,提出一個可借鑒的高校數據治理框架,為高校數據治理提供參考。