萬楚
(上海立信會計金融學院信息技術中心,上海 201620)
在教育領域,數據作為一種新型的生產要素和戰略資源,其重要作用日益凸顯。它不僅可以反映教育現狀和趨勢,還可以支持教育決策和創新,促進教育質量和效率的提升。高校作為數據密集型的組織,其數據龐雜多樣,涉及教學、科研、管理、服務等方方面面,如何有效地管理和利用這些數據,是高校信息化建設和教育管理面臨的重要課題。隨著校園信息化建設愈加完善,數據治理也成了建設智慧校園階段亟需解決的重要問題。
由于學校數據涉及全校師生和眾多業務部門,需要依據數據的生命周期,統籌規劃,分階段實施。在數據治理實踐中不能一味貪大求全,首先應該從核心系統、核心需求、核心數據入手,在汲取先進經驗的基礎上,分階段地推進與完善[1]。
數據資產管理與服務平臺是數據治理與應用的重要基礎平臺,本文依據數據的生命周期,對校園數據資產管理與服務平臺進行統籌設計,以實現數據資源互聯互通和數據價值最大化。
近些年,隨著高校信息化進程的推進,高校對數據治理的認識得到了普遍提升,數據治理已經作為信息化建設的重點任務之一,被納入學校發展規劃。目前而言,高校數據治理存在的問題可以歸納為以下幾方面。
1)數據安全問題
2020年6月,《中華人民共和國數據安全法》正式實施。教育數據多樣龐雜,涉及教學、科研、行政管理方方面面,需要全面的數據安全保護。但是,由于高校數據來源復雜、數據存儲方式多樣、數據傳輸途徑繁多等原因,導致高校數據的安全性難以得到保障。雖然建立了較為完善的數據安全管理機制,依然需要通過技術手段加強數據的保密、備份和恢復機制,確保高校數據安全可靠。
2)數據質量問題
教育數據質量問題也是一個需要重視的問題。由于數據涉及多個部門和領域,因此可能存在數據錯誤、數據重復、數據不一致、數據不完整、數據格式不匹配等問題。這些問題有可能嚴重影響高校決策和管理的準確性和有效性[2]。高校應該在建立完善的數據質量管理機制的基礎上,加強數據采集、整合和清洗工作,提高數據質量和準確性。
3)數據共享問題
數據共享問題是當前亟需解決的問題之一。由于數據來源眾多、管理部門繁雜,導致校內各部門之間數據共享不暢,也不利于實現跨校間的數據共享。高校應該建立完善的數據共享機制,加強內部部門之間和跨校間的數據共享,提高數據的利用效率和價值[3]。
4)數據分析問題
由于高校數據規模龐大,涉及多個領域和部門,因此需要進行全面的數據分析工作。但是,由于高校缺乏專業的數據分析人員和分析工具,導致高校數據分析工作難以進行。高校應該加強對專業人才的引進和培養,建立專業的數據分析團隊和分析工具,提升高校數據分析能力。
總之,高校數據治理是一個系統性工程,在實踐中需要不斷地完善和優化。高校應該統籌規劃,加強對數據安全、質量、共享和分析等方面的管理和控制,推動高校信息化建設向縱深發展。通過積極引進或自主開發適合自身需求的數據治理工具,如:數據共享平臺、數據質量平臺、數據安全平臺等,實現數據治理的技術支撐,從而提高數據治理的效率和水平。利用數據治理成果支撐各項校園業務活動和決策,如評估教學質量、統計科研成果、優化資源配置、應對風險預警等,從而實現數據治理與業務融合、數據資源向價值轉化,進而提升數據治理的應用價值和社會效益[4]。
數據生命周期是指數據從產生到最終消亡的整個過程。這個過程包括采集、存儲、處理、分析和應用。在數據的生命周期中,我們需要關注數據的質量、安全和合規性。首先,數據的采集需要保證數據的準確性和完整性,避免數據的重復和錯誤。其次,數據的存儲需要保證數據的安全性和可靠性,避免數據的泄漏和損壞。再次,數據的處理需要保證數據的一致性和可追溯性,避免數據的篡改和誤用。最后,數據的分析和應用需要保證數據的合法性和合規性,遵守相關法律法規和行業標準。在數據生命周期管理中,我們需要遵循相關法律法規和道德規范,制定相應的策略和措施,建立完善的管理體系,加強對數據的監控和審計,來保證數據質量和安全,提高數據的價值和效益。
依據數據生命周期,通過使用數據管理工具、構建數據中心平臺、搭建數據服務流程,以及建設配套的組織架構管理制度和相關規則等一系列數據治理手段,完成以下功能:
1)落實數據交換模塊,完成數據采集、轉換、清洗;
2)落實數據質量管理模塊,管理并明確數據來源,完成數據質量問題糾正;
3)落實數據展示模塊,完成可視化呈現數據質量及治理情況;
4)落實數據標準管理模塊,統一代碼標準、存儲標準、治理標準、業務標準,消除二義性,統一全域數據資產,形成基礎信息標準集;
5)落實安全和運維保障模塊,采用權限管理、運行監控、HTTPS協議,與學校認證接口集成,日志記錄訪問行為等,實現身份鑒別、訪問控制、行為審計等;
6)統一數據開發平臺,構建出一個以數據為核心的大數據資產管理與服務平臺,包含主數據交換平臺、數據中心平臺等,對數據安全分級,統一數據服務管道,提高數據服務質量[4],平臺框架如圖1所示。
該平臺的框架主要由業務系統、數據源、數據治理、應用服務構成,按照數據生命周期,完成數據采集、數據集成與共享、數據應用。實現以用戶為中心,以教工、教學、科研、資產、學生等業務數據為基礎的數據質量管理、數據標準管理、元數據管理、數據權限管理、主數據管理、數據共享。對數據標準、數據生產、數據存儲、數據加工與共享等過程進行統一管理和維護[5],具體包括以下三個方面:
①數據采集
依據基礎信息標準集,通過圖像識別、語音識別、自然語言處理等AI 技術自動化采集各種半結構化和非結構化數據,如文本、圖像、音視頻等,從各業務部門落實數據采集,將線上和線下數據源數據規范處理后統一匯聚到數據中心平臺,形成原始數據層,原始數據層的數據結構、數據間的邏輯關系、組織方式上都與業務系統保持一致,如實反映了各個系統接口過來的數據以及主要數據的變化過程。
②數據集成與共享
數據倉庫是校園數據存儲中心,是為了學校業務管理決策提供數據支撐而構建的集成化數據環境,它不產生數據,也不消耗數據。在現有數據中心平臺基礎上,重新設計數據庫實例,重構數據表,根據需要處理的數據層次,對數據精細化管理,將數據劃分為全量數據層、主題數據層和應用數據層。
在全量數據層,主要對原始數據層數據輕度匯總,利用ETL等工具對數據抽取、清洗、轉換、交換、標準化,通過數據建模,對數據進行多模型處理。落實學校基礎數據庫,用于實現數據共享、分析和挖掘等,基礎數據庫包含基礎數據,而非所有數據;基礎數據庫同各業務系統之間通過中間庫連接,而不直接交換數據。
在主題數據層,按照一定的業務邏輯對各類數據有序加工和高度聚合,梳理和挖掘學生、教師、課程、項目等數據對象的全部屬性,設計對象數據寬表,增加寬表數據索引,完善寬表,以提高數據查詢相應效率。一張寬表對應多張全量層數據表,通過數據集成、數據轉換、數據交換等方式定時更新全量層數據到對象寬表。當全量層數據無法滿足寬表屬性要求時,及時通過數據填報平臺采集和補錄。主題層數據可以生成畫像表和主題表。
在應用數據層,對治理后的數據進行信息封裝、計算建模、隱私加密、授權管理等,再根據數據應用服務的需求,從寬表獲取數據,建立符合應用需求的對應簡表,通過API、DB等統一的標準開放接口,給申請數據的各數據應用服務。
通過數據標準中樞對各層數據校驗其編碼的合規性和安全性,輸出校驗預警狀態和標記數據迭代版本。例如,在全量數據層校驗教工號、學號、專業代碼、課程代碼等基礎數據編碼規則,編碼是數據倉庫數據關聯的依據。在主題數據層校驗數據合規性(如證件號異常、數據沖突等)。在應用數據層負責校驗數據安全性(如權限控制、數據脫敏處理、數據開放申請等,提供數據開放申請流程,保證數據安全可控)。
同時,對數據進行冷熱度、數據血緣和影響性分析。依據數據的使用頻次和業務需求,對數據分層存儲,下線長期閑置或無調度需求的數據,釋放其存儲空間。分析數據血緣和影響性,通過梳理系統、表、視圖、存儲過程、ETL、程序代碼、字段等之間的關系,分析數據變化對其他業務和數據影響的程度和范圍。可以用來定位復雜邏輯處理后的數據質量問題,評估數據價值和數據質量,進一步評估數據修改的必要性和可行性,便于制定應對措施。
③數據服務
基于關聯數據、分析數據、展示數據的大數據治理的數據服務和應用系統具有原型搭建快、表單填寫快、通知覆蓋快、迭代優化快的特點。學校搭建了一系列方便師生教學與校園管理的創新應用與服務。
構建師生數據服務,從全域數據庫調取師生基礎信息,支持校內人員相關報表查詢,教師可以查看人事、教學、科研、財務、辦公、資產、消費等信息;學生可以查看課表、成績、消費、實習、就業、獎助學金等信息;支持智能填報,便于在線申請修改與提交績效,有效解決大量重復填報和不同應用系統之間數據不一致的問題;通過形成師生個人數字畫像,記錄其成長軌跡,為學生管理、教師培養提供多角度分析和經驗指導。
構建管理數據服務,在數字校園里快速搭建臨時人員管理等多個典型應用;支持學校管理人員查看各種業務相關辦公數據,為管理者提供科學決策和精細管理服務,支持管理者辦公服務、統計服務、決策服務、人財物管理等。如構建基于一卡通數據的疑似不在校學生模型,提供學生不在校預警;對學生學習情況分析,建立數據關聯的模型和數據預警指標。對學生學業和心理狀況預警,便于輔導員及管理人員及時管理、開展學生工作,進一步滿足師生個性化需求。
本文僅僅介紹了數據治理的基礎性工作,包括提升數據質量,管控數據資產,為校園信息化發展提供必要的數據基礎。研究仍有許多不足之處,比如可以繼續完善業務系統,豐富數據源頭,除了從傳統的教務、人事等系統采集結構化數據,還可充分利用系統日志數據、物聯網生物識別等各種智能行為感知數據,甚至獲取空間交互、定位等非結構化數據,打造多維數據生產中心,建設感知型智慧校園[6-7]。
隨著科學技術的發展,未來可嘗試融入云計算、大數據、人工智能等先進技術,進一步提高數據采集、分析和可視化能力,充分挖掘數據價值,釋放數據潛能,實現智慧教學、科研、管理等服務。例如:利用區塊鏈技術的去中心化、不可篡改、可追溯性,提供多主體、多流程的數據治理;利用基于語義模型、分類聚類算法的人工智能技術,管理與整合元數據,對主數據進行自動審核校驗、查重合并等;利用知識圖譜等新數據庫技術進行數據建模;利用機器學習算法對數據標準優化評估;利用深度學習、監督學習、回歸模型等AI技術清洗數據,評估數據質量;對數據分級分類、監控訪問,識別敏感數據,從而預測數據風險。