徐江 趙佳釤 李坤倫

摘要:高校業務系統復雜,數據交互頻繁,因此統一的數據標準和數據規范是系統建設的基礎。基于此,本文介紹高校數據治理的解決方案,通過數據采集、標準制定、數據共享、數據管理等模塊實現高校數據的規范化管理,增強高校信息化建設能力。
關鍵詞:數據治理;大數據技術;數據共享;數據標準
中圖分類號:TP311.13 ? ?文獻標識碼:A ? ?文章編號:1007-9416(2020)06-0000-00
0 引言
隨著大數據技術的飛速發展,各行業都利用大數據分析取得了矚目的成果,研究學者[1]們通過對大量交通場景數據分析,研發出能夠自動識別路況的無人駕駛汽車;醫學專家[2]通過對大量患者細胞分析,研究出能夠準備識別癌變細胞的算法。而在高校中,大數據的作用體現在數據的集成、共享是否符合一定的規范,對校內數據的管理是否便捷,大多數高校仍然保持著傳統的數據維護模式,需要數據時直接與負責單位溝通,編寫的獨立的odi實現數據交互,這不僅會導致數據質量不高,數據源單位模糊,更重要的是難以構建數據共享的規范,在后期運維中難度增加。因此基于大數據技術的高校治理是刻不容緩的。
1 數據治理體系結構
為解決高校傳統的數據共享中存在的“數據質量差、數據流向混亂、數據源頭模糊、數據冗余”等問題,我們對學校的數據中心重新建構,搭建數據治理平臺,對校內的各業務系統數據進行梳理、采集、清洗、標準化規范存儲和應用,實現學校數據資產的有效管理和數據的深度共享。以教學、管理、科研、人事和財務等核心業務為中心,深入分析各系統的運行情況,旨在實現各業務系統的高效配合,實現各類源數據從采集、清洗、存儲、分析等過程的完整性,適應數據治理的需求。數據治理體系的結構如圖1所示。
2 數據治理實現
高效數據治理類似于圖書館的建設過程,具有鮮明的階段性,主要可以分為七個階段:需求調研、軟件部署、標準確認、集成及標準化、數據管理配置、試運行、項目驗收。其中需求調研、標準確認和集成及標準化是最關鍵的環節。
2.1 需求調研
數據治理的目標就是更好的為各業務部門服務,而掌握用戶的需求是治理工作的前提。我們線下走訪了校內各單位,如人事處、科技處、教務處等,聽取了各單位對于使用校內數據時存在的困難和需求,并根據各單位填寫的數據需求表了解了各單位當前的數據使用情況。
2.2 標準確認
高校數據標準的制定初期,主要以教育部《高等學校管理信息標準》(CELTS-33)和本校歷史遺存的數據標準作為參考,并通過實際分析建立最初的標準1.0版本。
在數據標準1.0版本基礎上,通過一對一的方式反復與相關數據源單位溝通確認,根據各單位反饋的意見完善數據標準,至此能夠將各單位產生的所有數據以及需求的數據囊括到標準中。同時為了增加標準的豐富性,結合學校實際業務情況,對學校以往工作中的通知公告、職稱評審、年度考核和績效考核等文件中的數據需求分析,對數據標準再次修訂和完善。
在此基礎上需要召開專家評審會,對數據標準進行評審論證,并針對專家提出的關鍵問題進行再次修訂和完善,最終還需在校級會議上進行標準審議,得到最終的數據標準。高校數據標準大致包括“學生類數據”、“教學類數據”、“科研項目類數據”、“外事數據類”、“財務類數據”、“人事類數據”等數據子集,對校內各數據源單位的每項數據的標準格式和權威源做了明確定義,形成了涵蓋學校教學、科研、管理、服務等核心業務的數據標準體系,為學校信息系統建設提供了統一規范,為數據共享應用奠定了良好基礎。
2.3 集成及標準化
在前述中已經確認了各單位所維護的信息系統和離線存儲數據,通過建立中間數據庫ods、共享數據庫udw實現各業務系統數據的采集、清洗和共享數據庫建立。
3 數據治理成果
高校數據治理中實現了離線采集工具EXDATA、數據共享平臺、數據治理工具等主要的三個工具。(1)數據治理工具為高校數據治理工作提供了可靠、便捷的工具支持。可以進行標準管理、數據管理、接口管理、數據質量分析等任務,全面管理數據情況。數據治理工具幫助高校梳理數據源頭、理清數據流向、分析數據關系、管理數據模型、數據治理分析、展示數據資產、提供數據接口。以更加有效的方式發掘和利用高校大數據資產,實現數據分析各決策,推進校內數據的規范管理。(2)數據共享平臺實現了對校內各業務系統數據的抽取、傳輸、整合,構建符合校內數據標準的數據平臺,并通過發布api的方式向第三方開發者提供接口,方便不同用戶對數據的管理和使用。同時此平臺還具備對接日志數據及互聯網數據的能力,通過API的方式對外提供數據發布,以便第三方開發者使用。此平臺采用BS架構,軟件服務器采用 Linux操作系統和 MySQL 數據庫,支持window 和 Mac OS 下 IE, chrome, Safari 等主流瀏覽器操作,性能有良,可進行大批量數據交換。(3)Exdata數據填報工具針對業務部門離線存儲的數據,實現線上錄入采集到共享數據平臺,保證數據平臺完整性。
4 展望
高校數據治理是一場持久戰,是一項長期工作,不僅需要信息管理人員對數據進行的采集、清洗、糾錯以及按需共享,更需要各業務部門在數據供給時的共同協作,嚴格控制數據源的正確性。只有當數據源頭保證數據準確,覆蓋范圍廣,數據共享平臺才能更加完善。在未來數據治理工作的持續進行中,希望各業務部門能夠與學校信息中心共同協作,促進高校數據治理更加高效、便捷。
參考文獻
[1] 張美芳,王羽,鄭碧琪,等.人工智能在汽車自動駕駛中的應用[J].汽車工業研究,2019(3):2-7.
[2] 程年,俞晨,寧靜艷.基于深度學習網絡的乳腺癌圖片分類研究[J].軟件導刊,2019(8):26-28.
收稿日期:2020-05-15
作者簡介:徐江(1993—),男,陜西咸陽人,碩士研究生,研究方向:交通信息工程及控制。