朱錦龍 望麗影


摘要:隨著校園信息化建設的不斷推進,高校業務管理系統、智能化應用系統、網絡訪問數據等沉淀了大量數據,由于各系統之間孤立運行,數據不共享,導致高校擁有大量數據資源,但不能在教學、科研、管理等方面發揮應有的價值.對高校大數據進行治理,以數據驅動管理革新、教學革新和學習革新勢在必行.
關鍵詞:高校;大數據;數據治理
中圖分類號:TP391 ?文獻標識碼:A ?文章編號:1673-260X(2019)05-0049-03
1 高校大數據治理概念體系
《Nature》雜志在2008年首次提出“大數據(Big Data)”概念[1],一般指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產[2].當前,高校信息化發展由以無線全面覆蓋和豐富的業務應用系統為代表的數字化校園階段,逐步邁入智慧校園階段.業務應用系統數據、硬件設備數據、互聯網數據、網頁內容數據等大量積累在校園各應用平臺,即高校教育大數據.各應用系統多獨立運行,相互之間沒有打通,導致數據標準不統一,數據的準確性和一致性不高,雖然蘊含著巨大價值,卻不能有效發揮,因此,高校需要對教育大數據按照一定的標準體系進行治理.
IBM從20世紀90年代就開始對數據治理相關概念的研究與探索,國內目前尚處于起步階段,由于研究的切入點和角度不同,學術界還沒有形成統一、標準定義.其中較具代表性概念有以下兩種,國際數據管理協會(The Data Management Associ-ation)認為數據治理是指對數據資產管理行使權力和控制的活動集合[3];國際數據治理研究所(The Data GovernanceInstitute)提出的定義,數據治理是指針對信息相關過程的決策權和職責體系,這些過程遵循“在什么時間和情況下、用什么方式、由誰、對哪些數據、采取哪些行動”的方法來執行[4].大數據環境下高校數據治理,就是以應用為導向,按照規范數據標準和方法,對來源不同渠道數據進行獲取、整理、分析和計算,進而探索教學、科研、管理、服務過程中數據變量之間的關系,并進行大數據的教育應用,為高校教學、管理、服務提供可靠的決策支持,以驅動教學、管理、學習的變革與創新[5].
通過數據治理,對高校原有的平臺數據進行全面治理,提高數據質量,在為學校的各項業務服務提供準確數據支持的同時為數據可視化分析及大數據分析打下基礎.
通過數據治理可以提高信息標準的執行能力,提高共享數據的開放能力,提高數據質量的治理能力,提高歷史數據的積累能力.
2 大數據治理體系構建
2.1 大數據治理管理平臺總體架構
依托數據治理,構建一個符合教育行業標準特性的高校大數據治理管理平臺,如圖1,覆蓋高校數據層面全生命周期的管理.從數據標準、代碼標準,到元數據管理、主數據管理、數據備份管理[6],以及數據共享、交換,直至最終的數據質量保證等.大數據治理平臺將治理后的標準數據發送給校園服務總線(ESB),方便上層提取及師生綜合服務應用.同時,平臺能提高信息標準執行能力,采用機器學習自動化工具和人工干預相結合方式,監控信息標準和代碼標準執行情況,充分發揮標準作用,提升數據質量管理能力,保證數據價值的最大化,提升數據共享集成能力,實現數據的統一標準基礎上相互調用和操作實時共享[7].
2.2 數據標準管理
數據標準管理包含代碼標準、代碼標準查詢、代碼使用范圍檢索、代碼映射關系、代碼使用情況檢查等,幫助高校輕松實現對標準的制定(Draw)、理解(Understand)、應用(Use)、維護(Edit)、分享(Share)、集成(Integration)等功能,同時,監控數據標準的執行情況,逐步優化趨向統一[8].
數據標準管理主要為業務部門進行系統建設時提供數據標準規范指導,業務部門和技術部門之間依據數據標準和代碼標準規范數據的定義和使用,避免數據反復轉換,促進數據統一.以國家標準、教育部2012版教育信息化數據標準、行業標準和學校標準,構建高校信息化代碼標準字典,例如2018年新進教師教工號編碼“XB/JGH-20180 5001”,即2018年5月進校,序號為001教師.代碼標準編制需遵循以下原則:①唯一性,在一個系統編碼中,每個對象只有一個編碼,每個編碼只能代表一個對象;②穩定性,一旦編碼,只要對象的基本屬性不變,編碼一般不變,保持其穩定性;③規范性,一套標準編碼,它的編寫格式、基本結構組成、順序、類型應符合規范,且須統一;④可擴性,編碼結構必須預留足夠的發展空間,以滿足同類對象不斷增加的編碼需求[9];⑤權威性,基礎數據必須遵循誰生產誰負責,數據的生產單位是源數據的增減、變更及維護的權威部門,其他任何單位不得再自行編制;⑥一致性,在執行校內標準時,國家標準、部委行業標準中已有編碼的,須與其保持一致.
2.3 數據治理集成管理
數據治理集成將來源于各個業務系統的不同類型的數據采集出來,通過數據治理平臺,把按照數據標準治理后的數據存儲到校級主數據倉庫,形成校內規范的、唯一的、權威的數據資源.通過治理,打通了各業務系統孤立運行,實現業務系統之間數據交互共享,為上層數據分析和服務應用提供權威數據支撐.同時整個治理過程既實現了數據規范統一,又保留原業務系統數據庫的完整性.
2.3.1 元數據管理
元數據管理主要包括代碼標準管理和數據標準管理,并完成元數據的對象創建、添加、刪除、修改、維護等;另外,把數據庫的元數據對象與相應的數據庫實體進行一致性比對,實現元數據的檢測,通過檢測逐項列出不一致的項目,并給出相應的處理建議.用戶可根據處理建議通過系統自動處理或手工處理,同時避免直接處理或不當處理帶來的麻煩,確保代碼標準、數據標準與數據庫一致.為方便后期跟蹤查詢,系統會標記已經處理問題.統一注冊和規范管理各業務系統元數據資源,有利于數據管理員應用、查找元數據,進而實現校園大數據資產統一管理,增強對數據治理過程的控制力和應用水平.
2.3.2 主數據管理
針對每個主數據表,根據權限分為主數據管理和查詢功能.同時,針對業務部門系統還未建立,但往往本地部分數據(例如EXCEL、DBF等)需要提前共享的情況,相關業務部門被主數據管理授權后,可以先行進行相關數據導入、導出、刪除、修改、查詢等完成數據建設,然后再通過主數據平臺共享到其他應用系統.
2.3.3 數據備份管理
數據備份管理,通過構建主數據倉庫來保留主數據的歷史數據,能重現每天的數據情況,提供了從時間維度進行數據分析的途徑.歷史數據保留采用拉鏈表,歷史拉鏈表的變更跟隨生產數據變動而變動,這樣,在節省存儲空間的同時,又完整保留了歷史數據的變更信息.主數據倉庫結構與主數據保持基本一致,只需要在原有數據模式基礎上增加記錄起效日期(JLQX_RQ)、記錄失效時間(JLSX_RQ)即可,如圖2.例如插入所有數據,起效日期為當前日期,失效日期為9999-12-31,變更記錄的修改,將失效日期修改為當前時間.
2.3.4 數據質量管理
數據質量管理,主要包括數據集成、數據實施、數據規范和源業務系統數據質量等問題的質量管理.為保證數據質量,通過數據檢測工具,按照數據檢測規則,對各系統集成的主數據進行事后檢測,發現存在的問題,以便及時修正.數據檢測規則主要包含以下幾個方面:
(1)“空”檢查規則:提供字段是否為“空”檢查,會對元數據標記為不能為空的字段默認進行檢查.
(2)代碼檢查規則:提供字段取值是否在代碼標準表中檢查,對源數據中有代碼應用的字段默認進行檢查.
(3)唯一性檢查規則:提供字段的唯一性檢查,例如,身份證號是唯一的,如有重復將是錯誤信息.
(4)文本檢查規則:進行單個字段的文本取值是否與定義的文本的長度和格式相一致檢查,或符合預定義的固定編碼規則;文本長度包含單個長度、多個長度、文本組合等,文本格式包括:字母、小寫字母、大寫字母、字母數字、數字、漢字等;預定義的固定編碼如郵編、電話區號、郵箱地址、URL地址等[10].規則管理主要實現增刪改查的操作,根據實際需要可以自定義檢測規則.
數據質量檢測是核心的檢測引擎,根據檢測任務的配置,按照業務檢測項,逐項檢測主數據庫中的數據,并記錄檢測結果,生成檢測日志.數據檢測流程如圖3.
3 結語
高校信息化建設不是將原有的線下業務搬到線上,或者簡單進行計算機化、網絡化,而是借助信息化這種新型生產力,建設服務于教學、科研、管理等應用平臺同時,盡可能地統一建設標準,梳理、優化業務流程;進行數據治理,實現系統間數據互通、共享,提高數據中心庫的數據質量,為上層數據分析和綜合服務提供可靠、權威的基礎數據;進而實現從簡單的“數據集成、業務集成、門戶集成”向“服務集成”模式的轉變.利用數據治理的成果,為師生和管理者提供有針對性的、高品質的服務項目與專題全景視圖[11],提高高校管理效率和決策水平.
參考文獻:
〔1〕Howe D,Costanzo M,et al. Big data:The future of biocuration[J].Nature,2008, 455(7209): 47-50.
〔2〕封博卿,李平,楊連報.基于時空大數據的高速鐵路接觸網鳥巢病害分析[J].中國鐵路,2017(1):6-6.
〔3〕DAMA International.The DAMA Guide to the Data ManagementBody of Knowledge[M].1st ed.New York: Technics Publications, 2009: 37.
〔4〕Data Governance Institute.The DGI Data Governance Framework[R/OL].[2015-08-20].http: //www.datagovernance.com/the-dgi-framework/dgi-framework.pdf.
〔5〕李艷,呂鵬,李瓏.基于大數據挖掘與決策分析體系的高校圖書館個性化服務研究[J].圖書情報知識,2016(2):60-68.
〔6〕趙安新.高校數據融合路徑及其治理框架的探討[J].中國教育信息化,2016(23):75-77.
〔7〕蔡愛民,查良松.GIS數據共享機制研究[J].安徽師范大學學報:自然科學版,2005,28(2):226-229.
〔8〕張俊.新疆師范大學數字化校園研究與規劃[D].吉林大學,2011.
〔9〕孫志明,李文釗,陳亮.軍事裝備信息編碼標準化研究[J].中國科技信息,2009(10):135-136.
〔10〕應國良.商業智能技術在高校信息化管理中的應用[J].中國電化教育,2012(9):140-144.
〔11〕章浩,劉波,鄒恒華等.高校數據治理的探索與實踐[J].電子技術與軟件工程,2017(21):181-183.