文/魏楚元
高校數據治理與大數據分析的思考與探索
文/魏楚元
大數據的出現將顛覆傳統的數據管理方式,在數據來源、數據處理方式和數據思維等方面會帶來革命性的變化。高校的大數據分析,第一要務是找準大數據的源頭,并真正把這些大數據收集起來,其次是找處理的平臺,最后才是價值分析。
北京建筑大學從2000年開始建立MIS系統至今十余年,結構化業務數據的治理仍然是大部分高校多年來的重點、難點、痛點和頑疾。雖然處在大數據時代,但高校大數據的采集渠道、具體內涵仍然在探索之中,而結構化數據是清晰可見的,也是最有含金量的,通過數據治理的過程,應該能為大數據時代的數據價值展現做出貢獻。
目前,高校數據治理面臨的嚴峻問題:一是業務系統過于分散。職能部處、教輔部門、學院(部)各自購買或建設業務系統,孤立的業務系統數據標準不一致、代碼標準不一致,客觀上造成了數據的孤島,加大了數據清洗、整合的難度;二是“兩張皮”現象。業務系統使用與Excel管理并舉,更多管理人員習慣于Excel管理。業務系統中的數據不準確、更新不及時,多科室多人頭管理,崗位變動頻繁,數據管理混亂;三是數據質量問題嚴重。數據源頭上的數據質量水平層次不齊,數據質量不高是普遍事實。
此外,數據來源眾多且分散,缺少真正有效整合;數據從生產到使用中間流程不清晰;數據孤島林立,數據之間不能有效交換;數據融合困難,存在壁壘和發展不均衡;數據質量堪憂,數據的完備性、準確性存疑。
高校數據治理工作可分為以下幾步:第一步是發現數據并采集,第二步是數據進行梳理與質量初檢,第三步是數據標準核對與數據補充核準,第四步是數據清洗與整合交換,建立共享數據中心,第五步是數據管理與質量評估、可用服務接口設計,第六步是數據價值模型建立與展示。
數據治理的目標是提升數據質量。實現數據資源在各組織機構部門的共享,以接口方式提供任何可用數據服務。挖掘出數據的價值,可視化展示,支持決策分析。充分發揮信息化作用,用數據價值增強師生對信息化發展的信心與價值認同。
數據治理的幾個關鍵要素包括:組織架構、業務流程、技術平臺與工具、制度與標準規范。
在組織架構上,北京建筑大學設立信息化協調工作組,其中數據共享專業小組負責制定學校的整體數據架構。從管理和技術兩個層面對學校數據資源進行定義,制定全校數據的標準、運維機制、分布策略和共享方法。 數據共享專業小組由黨政辦公室、組織部、研究生院、學生工作部(處)、教務處、招生就業處、科技處、人事處、財務處、資產與后勤管理處和網絡信息中心等單位組成,圍繞學校各業務系統的數據建設、質量分析、運維管理、交換共享、決策分析和數據驗收等開展工作。
在業務流程方面,所有的數據都不是孤立的,從數據生產到數據歸倉,數據的流向一定是業務流程的輸入或輸出,如同經絡與血液。通過全方位的業務梳理,盤點數據資產(如圖1所示)。

圖1 數據資產盤點過程
在技術平臺和工具方面,實現大數據分析平臺與傳統業務數據管理平臺交叉融合。
在制度與標準規范上,明確數據是學校的核心資產,理清每一條數據的責任人。
數據治理的核心目標是數據質量, 數據質量意識是數據治理的生命線。質量意識是一所大學從領導決策層到每一個員工對質量和質量工作的認識和理解的程度,這對質量行為起著極其重要的影響和制約作用。
在數據標準上,學校起草了新版《北京建筑大學管理信息標準》,為推進數據共享和業務系統建設提供數據規范標準,包含教職工、學生、教學、科研、財務、辦公、圖書、一卡通、資產、其他10個數據子集和1個學校基礎情況數據子集。
在數據抽取方面,利用DCI平臺,建立數據抽取轉換業務。設計包含科研、研究生、圖書館、人事、一卡通、教務、辦公、財務、招就、學工10個業務系統共300多個數據抽取轉換業務。并根據需要配置任務執行時間及頻率,通過系統對數據抽取業務實時監控。
在數據質量上,利用數據質量監控平臺,實時監控數據中心集成的數據。對數據質量配置相應監控規則(如完整性、一致性、有效性等),及時發現有問題的數據。針對人事數據進行重點排查,形成數據質量報告,報告中指明了數據缺失、數據異常、數據錯誤等各類問題并附有詳細列表,便于協同人事處對有問題數據進行進一步治理。
通過數據接口服務,向人事考核系統提供教師科研、教學工作量、指導學生等數據,實現數據有效流轉,避免教師重復填寫;向離校系統提供學生財務繳費、欠費數據、圖書借閱、違章、欠款情況,實現業務網上辦理,數據實時呈現,簡化學生離校程序;建立數據抽取轉換定時任務,支撐科研財務系統對接完成。
北建大數據價值模型設計了智慧校園運營多級指標體系以及相應的數據可視化運營大屏,初步實現了智慧北建大數據駕駛艙,包含綜合校情、師資科研、學生成長服務等模型(圖2、3為相關實例)。
綜上,北建大數據治理初見成效,初步建立了《管理信息標準》和共享數據中心。學校注重數據服務接口建設,保證共享數據中心的可用性。在數據治理過程中發現了很多散落的數據,逐步梳理收集歸倉。數據治理過程提升了數據質量,數據的價值模型、價值發現在同步建設和研討中,同時,數據治理還不夠深入,需要不斷迭代優化,需要進一步提升數據質量。

圖2 教學活動透視分析

圖3 近幾個月學生生活消費異常行為分析模型
同時,要做好大數據分析,還需要做好以下幾點:
第一,要在數據源頭采集上下功夫,拓展大數據分析之外的工作,數據采集工作很重要,已有的要采集歸倉,沒有的要實現采集;
第二,加強網絡流量分析、網絡日志分析、圖書文獻資源檢索分析、圖書館門禁分析等;
第三,結構化數據治理與非結構化數據都要重視,更要重視結構化數據分析;
第四,了解學校最關心什么:教師和學生。教師是否在認真教書育人?學生是否在認真學習?所有的管理工作都是為這兩點服務的。大數據分析應該從學校最關心的業務點著手,才會有的放矢。
未來,北建大將建設真正完全交換、可用的全量數據管理中心,數據為流程服務,流程促進數據價值;繼續收集梳理非結構化數據、結構化數據;通過結構化數據+非結構化數據+大數據分析平臺,尋找大數據的價值;建設綜合校情實時分析平臺,為各級各類領導提供決策支持。