鄧小燕

摘 要:本文對高校數據治理現狀進行分析的基礎上提出了高校數據治理的主要內容。并通過構建數據共享平臺的方式將主數據、業務數據和分析數據三類數據進行匯集、開發形成數據資產,從而為高校的領導決策、行政管理和信息系統提供快捷的數據服務。
關鍵詞:高校;數據治理;數據共享
中圖分類號:TP311.13 文獻標識碼:A 文章編號:2095-9052(2020)03-0186-02
隨著互聯網和信息技術的高速發展,全球數據出現了爆發式增長。截至2016年全球的數據體量為16.1ZB,根據國際數據公司(IDC)發布的數據發展白皮書《數據時代2015》中預測,2025年全球的數據量將達到163ZB,將是2016年的10倍[1]。在數據體量高速增長的背景下,云計算、大數據、人工智能等新技術也推動了數據分析、數據融合、數據開放等方面的持續升級,各行各業均增強了對數據管理和數據利用的研究。在如此迅猛的大數據發展背景下,高校作為信息技術發展的前沿陣地,既是大數據技術的利用者,也推動著大數據技術的發展。高校普遍擁有多個信息系統、APP、輕應用等,形成了一個又一個的業務豎井,這些系統擁有大量數據與資源。高校如何利用好校內已有信息系統內的數據資源,為高校的教學、管理提供決策支撐,是順應信息化發展浪潮,推動高校信息化、智能化發展的良好時機。
1 數據治理的高校數據共享模式構架
目前,國內各高?;蚨嗷蛏俣歼M行著大數據的研究和應用,通過數據共享、數據分析、數據挖掘等技術,獲取數據深層次的價值。然而縱觀高校教育信息化的發展現狀,各業務部門在開發或選用各種應用系統時都是單一的追求各自業務的實現,沒有從全局視角進行業務數據流分析,缺乏統一的數據標準和規范,各部門都按照“自產自用”的模式管理自有數據,導致數據全生命周期管理不完整,同一數據多系統管理,數據不一致,數據冗余等問題日益凸顯。因此,對數據進行治理是提升高校數據管理與服務水平的關鍵舉措。高校應建立長期有效的數據治理體系,挖掘數據價值,提升精細化管理水平,增強教學、管理的決策能力。
高校的數據資產可分為主數據、業務數據和分析數據三類[2]。主數據是學校各個信息系統中最核心,被多個系統需要的數據,如教職工基本信息、學生基本信息、組織架構信息等。業務數據描述的是各個業務系統運行中所產生的業務數據,如學工系統的學生考勤、獎評助貸等信息,教務系統的授課信息等。分析數據是對業務數據進行加工、整理和分析后所產生的數據,如教學質量與監測系統里所產生的數據。由于主數據是高校數據資產中最核心、最需要共享的基礎數據,是高校數據治理工作中最為基礎的一環,也是業務數據和分析數據治理的基礎。高校應建立行之有效的主數據管理體系,充分挖掘主數據的價值,持續提升主數據質量,進而充分體現高校數據資產的價值。
2 數據治理的內容
數據治理是一個完整的體系,是一項長期存在的數據管理活動,涉及高校多個層面,是管理制度與信息技術的綜合運用。加強數據治理是高校數據中心建設的一項重要工作。高校數據治理的范疇主要包括主數據、業務數據、分析數據等全量數據。高校需要厘清主數據與業務數據、分析數據之間的關系,落實“一數一源”,將核心實體業務的數據,如師生基本信息、科研、教學、圖書、資產等歸劃到高校主數據管理,從而形成全校范圍內統一、完備、準確的核心業務數據。數據治理是一項管理工作,需要對各業務系統推行統一的信息標準,數據標準,以制度管理為抓手,自上而下的推動數據治理工作,提升源頭數據質量,確保源頭數據的完整性、準確性與及時性。
2.1 制度與組織保證
習近平總書記在“十三五”規劃中建議,實施國家大數據戰略,推進數據資源開放共享。教育部2016年印發了《教育信息化“十三五”規劃》,該規劃要求:制訂出臺教育數據管理辦法,規范數據采集、存儲、處理、使用、共享等全生命周期管理,實現教育基礎數據的有序開放與共享[3]。近幾年來,各高校積極響應國家教育信息化發展規劃,構建各自的信息化體系,但是普遍存在項目先行,制度后補現象,導致數據管理不規范等問題。數據治理工作,作為一項長期持續的工作,需要建立合適的組織架構,首先要獲取高校一把手的支持,由高校首席信息官(CIO)作為數據治理的負責人,設置學校層面的專職數據資產管理員及各個業務系統層面的業務數據資產管理員,規范各層級人員的職責與數據管理辦法,規范數據采集與共享流程,做到“一數一源”,并形成正式的管理制度規范。
2.2 信息標準
數據治理的首要工作就是要制定高校統一的數據標準與規范,為實現各業務系統的信息集成、數據共享和業務協同做好信息化的基礎保障。經調研分析可知,目前很多高校都完成了對學校原有應用系統和新建應用系統之間的集成。但在進行數據集成過程中,常常存在以下問題:由于各應用系統沒有遵循統一的信息編碼標準,從而導致數據不完整;不同系統描述同一業務的數據代碼存在差異,從而導致數據不統一;多個系統記錄相同數據,違反“一數一源”原則,從而導致數據不一致;各部門數據不能協同,不能及時更新數據,從而導致數據不及時。因此,為了消除數據壁壘,實現對數據真正有效整合,確保數據的準確性與完備性,需要制定一個統一的數據標準,包括元數據定義規范、業務數據集規范、代碼和編碼規則規范。為了便于業務集成及數據交換,各高校應以《CELTS-33 高等學校管理信息標準》為范本,結合學校自身特點裁剪符合學校發展的信息標準。
2.3 數據質量
數據質量管理包含對數據的絕對質量管理、過程質量管理和使用質量管理。絕對質量即數據的真實性、完備性、自治性是數據本身應具有的屬性。過程質量即使用質量、存儲質量和傳輸質量,數據的使用質量是指數據被正確的使用。再正確的數據,如果被錯誤的使用,就不可能得出正確的結論。數據質量是影響信息系統運行與數據共享的關鍵因素。因此,信息系統數據質量管理是非常重要的一項工作,各高校應強化全面數據尤其是主數據質量管理的理念,把這一理念滲透到數據生命周期的全過程。制定合適的數據質量管理體系,及時全面的發現數據治理過程中遇到的問題并加以分析,從而推進數據質量的持續提升。數據質量的改進和提高,須從源頭開始,以管理為抓手,對各類數據的質量進行全方位、全過程的監控,分析原因,探索科學有效的監測方法和治理措施。
3 建設數據共享平臺
數據治理的最終目的是實現數據融合,為把原本分散異構的信息系統數據資源進行有效整合,靈活實現不同信息系統間的信息交換、信息共享與業務協同,使用統一的標準和口徑為其它應用系統提供數據共享服務,高校需要建立一個先進技術標準和規范,以構建數據資產體系、數據資產價值為核心的數據共享平臺。數據共享平臺實現了數據與業務的分離,快速實現跨系統、跨平臺、跨數據庫之間基于不同傳輸協議的數據交換和信息共享,為校內各信息系統和管理決策支持提供良好的數據環境。
數據共享平臺需要具備數據匯集、數據開發、數據資產、數據服務[4]四個核心管理能力,實現數據的一次采集,多系統共享,為高校的各個業務系統提供快捷、準確、規范、完整的數據服務。(如圖1所示)
3.1 數據匯集
數據共享平臺本身是不產生數據的,所有數據均來源于各個信息系統、網絡、運行日志等,通過平臺的采集工具將異構系統和數據庫及平臺文件等集中抽取至高校中心數據庫,作為后續加工、分析、利用的基礎。
圖1 數據共享平臺總體架構圖
3.2 數據開發
數據匯集所采集到的數據都是未經開發,各業務系統的原生數據。數據開發類似于工廠里商品的加工生產過程,對數據進行深挖細掘,將數據加工成對業務有價值的形式,是一個將沒有價值的數據轉變為有價值的數據資產的過程。
3.3 數據資產
數據資產管理是將經過開發的各類數據進行整理上架的過程,通過數據可視化界面對高校的主數據、業務數據、分析數據等進行分類,形成數據資產。建立資產目錄,標識元數據,評估數據質量,對數據的全生命數據周期進行統一管理。
3.4 數據服務
數據服務是將數據資產轉換為數據服務的能力,是數據的出口,可以有效解決數據交換“最后一公里”問題,以API接口的形式提供數據服務,可以快速實現校內各個層次、不同信息系統的數據應用需要。
四、結語
本文對高校數據治理的現狀進行分析的基礎上提出了高校應該加強對數據的治理工作,以管理為抓手,落實“一數一源”,狠抓數據質量。通過數據共享平臺的方式將主數據、業務數據和分析數據三類數據進行加工、開發形成條目清晰的數據資產體系,為高校的領導決策、行政管理和信息系統提供快捷的數據服務。數據治理工作,技術是手段,管理才是原動力,數據治理的成效與數據價值的開發程度如何,需要一支專業、穩定的校內技術團隊和相應的管理制度、經濟作為保障。
參考文獻:
[1]王兆君,王鉞,曹朝輝.主數據驅動的數據治理:原理、技術與實踐[M].清華大學出版社,2019:3.
[2]許曉東,彭嫻,周可.美國通用教育數據標準對我國高等教育數據治理的啟示[J].高等工程教育研究,2019(1):103-108.
[3]中華人民共和國教育部公報.教育部關于印發《教育信息化“十三五”規劃》的通知[Z].教技〔2016〕2號.
[4]付登坡,等.數據中臺:讓數據用起來[M].機械工業出版社,2020:53-57.
(責任編輯:李凌峰)