葛佳歡 楊淑峰 徐歡歡



摘要:隨著信息化的不斷發展,數據作為人工智能和大數據的核心要素,將對教育領域發展帶來深刻影響,如何使用和管理數據成為已成為當前學校信息化建設的重點和難點。文章以臺州科技職業學院為例,探索如何在數字化改革背景下深化校園數據治理,力求營造校園數據治理生態,推動學校各領域的數字化改革工作。
關鍵詞:數字化改革;數據治理;數據目錄
中圖法分類號:TP311文獻標識碼:A
Exploration of deepening campus data governance underbackground of digital reform
—Taking 'Taizhou Vocational College of Science& Technology as an example
GE Jiahuan,YANGShufeng,XUHuanhuan
(Taizhou Vocational College of Science&.Technology,Taizhou,Zhejiang 318020,China)
Abstract:With the continuous development of informatization, data , as the core element of artificialintelligence and big data , will have a profound impact on the development of the education field.Howto use and manage data has become a key difficulty in the current school informatization construction.Taking Taizhou Vocational College of Science&.Technology as an example,this paper explores how todeepen campus data governance in the context of digital reform , striving to create a campus datagovernanceecosystem,and promoting digital reform in various fields of the school.
Key words: digital reform,data governance,data directory
1 引言
2021年3月15日,教育部發布的《教育部關于加強新時代教育管理信息化工作的通知》提道,推動教育決策由經驗驅動向數據驅動轉變,提高教育數據管理水平。隨后,浙江省也印發《浙江省教育領域數字化改革工作方案》《2021年浙江省教育領域數字化改革工作要點》的通知,指出數據是現代教育體系建設過程中的重要生產要素和核心驅動力。由此可見,數據在學校的信息化發展過程中占據了越來越重要的地位。隨著數據容量的快速積累、數據質量和運算能力的不斷提高,如何使用和管理數據已成為教育領域的一個重要課題[1]。
2 存在的問題
目前,大部分高職院校在“十三五”期間已初步完成了“數字化校園平臺”建設,建立了基礎數據庫,數據的容量也越來越大。隨著業務數據的不斷積累,學校對數據管理的要求越來越高,相應的弊端也逐漸顯現。以臺州科技職業學院為例,目前數據管理主要存在四個問題。
2.1 數據缺乏統一標準
學校擁有眾多信息管理系統,各個系統數據標準不統一,各自為政,“信息孤島”仍然存在,沒有形成定義明確、格式統一、職責明確的數據標準。部門之間存在數據重復、數據混亂現象,導致跨部門數據交換共享困難。比如,“在校生統計”分為“在籍(包括休學、參軍)”“在校(真正在學校上學的學生,還可能包括成教學生)”“在籍在校”幾種類型,各個部門關注的重點不一樣,就會形成不同的定義,最后統計的數據相互之間就會有出入,造成數據不統一。
2.2 數據質量不高
前期信息系統建設普遍存在“重功能輕數據”的情況,缺少整體數據標準規劃,無校核機制,導致問題數據不斷積累,數據統計不準確,影響各項報表準確性,許多預期需求無法實現,對學校上層的決策和分析也帶來不同程度的影響。
2.3 數據存在安全隱患
數據安全管理工作機制不完善,部分信息系統數據授權管理不嚴,缺乏管控,可能造成數據濫用和隱私數據泄露情況。部分師生缺乏數據安全責任意識,對安全隱患不夠重視,系統賬號弱密碼、亂授權和系統操作、數據填報不認真現象比較普遍。學校部分網絡建設與運維服務采用外包形式,由于承包商的技術水平和責任意識參差不齊[2],并不能完全保障數據安全。
2.4 數據管理責任不明確
因缺乏數據全生命周期管理,出現數據質量問題時無法溯源。并且,由于數據交換技術復雜,業務人員難以進行數據交換管理操作,無法實現數據“誰產生、誰維護、誰負責”。
3 數字化改革背景下深化校園數據治理思路
以數字化改革為抓手,全面推進學校治理體系和治理能力的現代化建設,提升校園整體“智治”水平,成為高職院校推動“雙高”建設的一個重點目標,其中推動校園數據治理是實現該目標的一個重要途徑。本文以我校當前的數據治理環境為基礎,探索在數字化改革背景下深化校園數據治理的一種思路。
3.1 數據確權
數據確權是大數據應用和數據產業發展必須解決的核心問題之一,它針對不同來源的數據,以法律形式明確其產權歸屬,推動數據整合,加速數據共享和流通,從而激活龐大的數據資產價值和創新應用,使數據產業得以迅速發展[3]。數據確權可以解決我校的數據管理責任不明確,無法精確溯源的問題。對學校各個業務系統的數據進行摸底排查,并對學校的部門組織架構、管理機制、數據管理現狀進行針對性調研了解,確定權威數據來源,建立標準統一、職責明確、結構清晰的校園數據目錄,確保數據歸屬責任明確。
數據目錄是數據共享和實現數據前后臺聯通、業務與數據管理聯動的載體。對于我校而言,以目錄的形式,將數據按照業務屬性或部門歸屬,劃分到各個目錄中,可以按照目錄對數據進行統計、監測和溯源,包括資產內容、資產質量等,如圖1所示。比如,按照部門劃分,可以分為人事處(教師發展中心)、信息中心(圖書館)、計劃財務處、學生處(學生工作部、武裝部)、后勤管理處等部門。
3.2 元數據血緣關系梳理
元數據是描述數據的數據,如數據庫的配置、表編目信息等[4]。元數據的血緣關系描述的是一種層次結構,即目標數據來源于哪些源數據,又生成了哪些子數據。血緣關系的梳理可以為學校數據的合規性提供驗證手段,幫助業務部門與 IT 支撐部門實現信息共享、提升協調工作效率。對學校各業務部門進行實地的走訪調研,以明確數據來源。調研的內容主要包括:(1)各業務部門數據現狀。了解業務部門內部數據的生產過程、數據存放的形式等;(2)數據來源。確定本部門、其他部門產生的權威數據以及交叉維護的數據;(3)數據字典。是否有數據字典,信息是否正確完整,電子格式或紙質文檔;(4)數據交換與共享。對外提供數據面臨的問題、使用其他業務部門數據面臨的問題;(5)研究數據質量問題。討論現階段發現的數據質量問題,分析原因,討論處理方式;(6)數據分析需求。本部門的數據分析需求及其他部門對本部門數據的分析需求;(7)可用的數據標準資源。現有系統哪些代碼、元數據可以采集引用為校級標準;(8)數據質量問題。當前已經明確有哪些數據問題,數據質量檢測規則、管理流程和制度。
最后,根據調研結果,確定數據血緣關系表。
3.3 元數據治理
元數據治理是對數據進行采集、清洗及轉換,并生成標準化數據倉庫的過程,也是數據治理的核心步驟。對全校的所有數據進行采集,采集的數據對象包括業務系統數據庫中的數據,重要的線下文件中的數據,來自于網絡系統的日志數據、來自于各物聯網系統的物聯網數據和來自互聯網的外部數據等。采集完成后,進行數據質量檢查,繼而通過結構化數據清洗、轉換的手段進行數據質量的提升,并生成標準化數據倉庫。
3.3.1 數據采集
數據采集可以通過批量采集或者已有數據導入的方式進行,通過 MySQL 數據庫進行存儲。對采集后的原始數據進行識別理解,從中挑選出有效的數據。數據識別完成后,通過配置 ETL 接口的方式,將原始數據采集為目標數據。
3.3.2 數據質量檢查
數據質量是保證數據應用效果的基礎。數據質量檢查是數據治理中的重要一環,是通過數據反哺業務,發揮數據價值的基石,也是大數據建設的重要前提。設定質量檢查規則,包括但不限于對產品對數據資產數據空置率、填充率、合規性、總量、用戶量、數據重復率、數據格式驗證、數據一致性通用數據質量規則進行自定義配置。通過數據質量檢查,可以獲得干凈、清晰、完整的數據。系統從數據使用的角度監控數據資產的質量,并以可視化報告的形式反映質量問題,輔助學校不斷地提升數據質量。
3.3.3 數據清洗轉換
數據清洗轉換可以解決數據中存在的大部分結構性問題和小部分內容性問題,從而提升數據質量,主要是對原始數據中存在的明顯錯誤進行識別和處理,包括遺漏值處理、噪音數據處理、不一致數據處理等內容。針對遺漏值處理,可以采取人工處理或者自動處理的方法,當發現一個記錄的屬性值有遺漏時,通過查找原始的記錄,或者請業務專家手工填補所缺失的數值,以及通過已有的程序自動處理。噪音數據主要是指錯誤數據和重復數據,可分為內噪聲數據和外噪聲數據。針對噪音數據處理,可根據整體數據的數據分布來辨識,并進行適當處理。
3.3.4 標準化數據倉庫
標準化數據倉庫用來支持全校的流程服務、數據調用、交換共享、大數據分析、精準管理、科學決策等事務。對采集的結構化數據提供標準化存儲服務。確保數據的組織方式和存儲結構符合學校的校級數據標準相關要求。整個數據倉庫的建設都依照數據標準進行建模分類和格式規范,生成相應的數據倉庫表結構,通過采集學校的各種有價值數據,按照質量要求進行清洗治理,按照數據標準的格式進行建模,利用大數據基礎技術架構進行存儲,從而形成標準化數據倉庫。圖2為數據治理核心內容。
3.4 數據安全
數據安全管理是指通過技術手段,對數據的安全進行定級,保證數據資產使用過程的安全。數據安全是數據共享、開放的前提,也是數據管理的底線。針對我校數據管理存在的安全威脅,按照數據安全相關法律政策的要求和高校實際的業務場景,通過評估數據安全風險、制定數據安全管理制度規范,對數據進行安全分級分類,根據不同安全等級,對數據定制不同的申請審批和使用策略,全方位地保證數據的安全,建立體系化的數據保障措施,為充分發揮數據價值提供安全可靠的環境,從而保證數據被合法合規、安全地采集、傳輸、存儲和使用。圖3為數據安全測試界面。
4 結束語
目前,相關部門高度重視數字化改革工作,明確提出要建設網絡強國、數字中國,國家“十四五”規劃專門設置“加快數字化發展建設數字中國”章節,并對加快建設數字經濟、數字社會、數字政府,營造良好數字生態作出明確部署。數字化改革也是浙江省近年來的熱點和重點工作,相關部門對其高度重視,多次召開數字化改革工作推進會。在數字化時代,深化數據治理,對于支撐高校教學、科研和管理,推動學校數字化改革系統迭代、整體提升都起到至關重要的作用。本文提出的深化校園數據治理的解決思路,可以將分散、無序的“碎片化”數據轉換成有效的資產,實現從無序到關聯、從靜態到動態、從隱性到顯性,從數據到價值的轉換。同時,可以加快推動數據的開放與共享,打破“數據孤島”,提升數據質量,真正助推學校打造特色鮮明的高水平高職院校。
參考文獻:
[1]梁正,吳培熠.數據治理的研究現狀及未來展望[ J].陜西師范大學學報(哲學社會科學版).2021,50(2):65?71.
[2]呂庚.新時期下職業院校數字化校園安全隱患及應對策略[J].現代職業教育.2019(36):44?45.
[3]杜振華,茶洪旺.數據確權是大數據應用的核心[ J].重慶社會科學,2016(8):21.
[4]程世豪.面向元數據血緣關系的映射技術及實現[ D].成都:西南財經大學,2020.
作者簡介:
葛佳歡(1987—),碩士,研究方向:信息技術。