文/武漢大學人事部 楊芳 袁園(通訊作者)
我國高校信息化經過30 多年的發展歷程,經歷網絡設施建設、應用系統建設和數字校園集成等階段,隨著信息技術的不斷發展和應用創新,正從數字校園逐漸轉型成為智慧校園[1]。高校在信息化發展過程中,通過信息系統的建設使用,逐漸沉淀和積累了各類數據資源。這些數據資源是實現高效管理、優質服務和科學決策的重要基礎,是支撐高校可持續發展的重要資產。而高校普遍在數據的質量、共享、應用、安全等方面存在不足和短板,影響數據效能的充分發揮。準確把握數據管理的現狀問題,制定科學合理的數據治理策略,對高校信息化管理者具有重要的現實指導意義。
本文在與業務人員面對面訪談、查閱相關參考文獻的基礎上,深入分析高校信息化發展現狀,將高校數據管理方面存在的問題歸納為以下幾類:
(一)數據來源復雜多變。近年來,我國高等教育信息化的水平持續提升,面向教學、科研、管理、服務的各類業務系統紛紛出現。與此同時,信息填報與業務辦理越來越普遍和頻繁,甚至出現多頭采集、重復填報數據等現象,占用了教職工和學生大量的時間和精力。數據來源途徑復雜而分散,數據從生成到利用的路徑不清晰。以教學科研成果數據為例,各類績效考核、職稱評審、項目申報都是重要的依據,但普遍存在不同業務系統重復錄入的現象,產生數據重復、冗余、不一致等問題,在后繼的共享應用中,沒有形成清晰的來源。尤其在部分系統的新舊更替中,數據的來源與去向頻繁變動,對高校數據管理帶來了很多潛在的問題。
(二)數據標準缺乏控制。高校信息化建設中缺少頂層設計,數據標準滯后于系統建設的問題普遍存在。首先是規劃、制定、優化數據標準的能力較為欠缺,其次,雖然制定了數據標準,但執行、落實的力度不夠,甚至在某種程度上形同虛設。業務系統的更替,往往數據標準要適應業務系統,而非業務系統建設時以數據標準為主的現象依然普遍[2]。學校各部門購置或者建設業務系統時,往往采用符合本部門業務需求的數據標準。例如,人事資源管理系統可能采用人力資源管理領域的通用標準,而科研管理系統可能采用科研管理領域的通用標準,不同管理領域的差異導致業務系統數據格式不統一。由于數據的格式、內容不固定,導致其在不同系統的不一致,在轉換格式后才能相互對接,甚至造成了部分舍棄,影響了數據的共享和整合。
(三)數據質量難以保障。數據來源和標準的不足,也對數據質量造成了直接的影響。由于各部門業務系統相互獨立,對數據質量的要求也存在差異。很多業務系統在建設的過程中注重實現系統的功能,忽略數據質量的控制,在錄入或導入數據時缺乏必備性、標準性、規范性的約束,數據缺失、格式混亂、數值錯誤、準確率低等質量問題較為普遍。管理人員不足、缺少信息化能力等原因,也可能成為影響數據質量的因素。除了數據缺失、不符合格式等明顯錯誤,還有很多是因為數據錄入造成的隱性錯誤,這些問題通過技術手段難以發現,需要人工校對才能確認并糾正,需要占用大量的人力和時間。
(四)數據共享交換不暢。高校很多的業務系統之間存在一定的依賴關系,需要數據的共享,暢通的數據交換對可靠的數據共享起著重要的作用。因一些崗位的人員變動頻繁,更新也不及時,對下游的共享帶來了不便。常見的數據共享交換有數據庫交換、文件傳輸交換、API接口交換等方式。數據庫交換方式在業務系統數量較少、數據庫類型一致時易于實現,但在業務系統數量多、數據庫異構時,存在讀寫性能瓶頸與兼容性適配的局限。文件傳輸方式基于數據的導入導出,適合異構數據庫之間的共享,但效率較低,難以滿足實效性的需求。API接口交換在實時性、異構性上均有優勢,但技術實現較為復雜,需要不同應用廠商的配合。在數據共享交換上,高校往往選擇技術實現較為簡單、支持不同類型數據庫的方式。基于傳統ETL(抽取、轉換、加載)的數據庫交換目前在高校應用中仍然比較常見,該方式在定時(如每天一次)模式下相對穩定。若想實現實時模式的ETL,因為數據傳輸量大大增加,需采用觸發器方式來實現,對數據庫的讀寫性能造成較大負擔,甚至導致數據庫服務的異常,進而造成數據共享的中斷。因為這些原因,數據共享交換的滯后性、不穩定性,造成了不同業務系統之間數據更新不通暢,在校園日常生活中較為常見,比如更換校園卡后第二天才能在門禁設備上正常使用、欠費繳清后不能立即辦理相關手續等。
數據治理是指將數據作為資產而開展的一系列組織行為,貫穿數據管理的全生命周期。數據治理需要結合技術與管理的手段,形成標準化與持續改善的機制,實現提升數據質量、保障數據可用性的主要目標,具體內容包括組織架構、政策制度、技術工具、數據標準、流程規范、監督及考核等方面[3]。基于問題導向的原則,制定適合高校實際的數據治理策略,明確數據來源與部門責任,制定并落實數據標準,建立用戶反饋與糾錯機制,促進數據質量提升,優化數據共享交換,更加充分發揮數據效能,總體框架如圖1所示。

圖1 基于問題導向的高校數據治理總體框架
因此,需要以問題為導向,針對性的解決數據管理中面臨的主要問題與挑戰,制定數據治理的具體策略。
(一)落實“一數一源”機制。“一數一源”指的是高校信息化所需的每一條基礎數據有且只有一個對數據的真實性和準確性負責的業務部門,對相關數據資產的唯一性、一致性和可用性負責。在明確數據源責任單位的基礎上,構建數據資源的共享與保障體系,保障數據質量和利用效率。通常可根據數據業務屬性和部門業務職責,確定各類數據產生的歸屬部門為數據源單位。各數據源部門落實“一數一源”的機制要求,負責相關數據的采集、處理和質量管理,保障數據的準確性、完整性、及時性,避免對同一數據重復采集、多頭管理。
良性的數據循環機制的建立是十分有必要的,高校的人事、教務、學工等系統是數據采集的主要源頭,要在數據源頭補足短板,已有的要全量歸集,沒有的要及時補充。建設全校統一的共享數據庫基礎平臺,已經建立數據標準、確定數據源頭的業務數據,應采取適當工具抽取并存儲到共享數據庫中,不能通過工具抽取的線下數據可通過填報工具錄入或文件導入。采集范圍可隨著數據責任、數據標準的推廣和落實,逐步擴展到各業務部門和業務系統。歷史數據應該采取有效的存檔機制,記錄數據變更的過程。
(二)有效推行數據標準。標準被定義為“用來判斷其他事物質量的好東西”或“由權威建立和確定。作為衡量數量、重量、范圍、價值或質量的規則”。數據標準是指保障數據定義和使用的一致性、準確性和完整性的規范性約束,是對數據的命名、數據類型、長度、業務含義、統計口徑、歸屬部門等,定義統一的規范,保證各業務部門、各業務系統對數據的統一理解、對數據定義和使用的一致性。數據規范體系的建設是數據治理目標實現的保障,有助于數據在不同業務部門、系統的共享、交互和應用。在高校數據治理實踐中,應參考國家和教育部頒發的數據標準,結合自身實際編制數據標準,包括數據定義、數據格式以及數據應用標準,以及數據定義與應用規則,建立標準化的代碼標準、元數據模型,實現數據標準的唯一性、實時性和擴展性。代碼標準是各業務系統相應字段需要參照的規范定義,通常有機構代碼、學科代碼、課程代碼等[4]。在建立數據標準的過程中,收集、整理相關信息形成規范知識庫,例如通用型及業務型數據字典,數據間的邏輯關系,數據的轉換規則和數據的流轉路徑,表結構定義、字段注釋和屬性等,用于治理后的數據共享交換、糾錯修正等。
數據標準的制定應遵循唯一、可擴展、簡單、規范、易用的原則。高校數據治理涉及的業務數據種類多、數量大,將這些數據全部納入標準體系需要耗費巨大的人力物力,難以在較短的時間內實現。建議對與基礎信息相關、共享率高、使用頻次高的字段優先建立標準。在推行數據標準的過程中,必定會遇到很多困難,例如一些老舊系統無法改造或者改造成本過高。需結合實際情況,采取差異性的推行策略。對目前的業務系統,首先分析和整理其中存在不符合標準的問題,評估與整改相關的投入成本、潛在風險、時間周期等因素,制定科學合理的整改方案。易于整改的應該立即整改,一時難以整改的可通過邏輯轉換方式實現與標準的兼容,即將更換淘汰的老舊系統可暫不整改,在替代系統中推行數據標準。對新建立的業務系統,可統一要求執行數據標準,作為系統規劃、實施、驗收的組成部分,上線前進行數據標準評估,不合格要求的整改后再上線。
(三)加強數據質量控制。實現有效的質量控制是數據治理的主要目標,數據質量是檢驗數據治理成效的核心指標。在落實數據責任的基礎上,伴隨數據規范的建設,建立數據質量相關制度,規范數據采集、處理、存儲、使用等環節的質量控制要求,完善數據質量的評估、糾錯機制,保障數據準確、真實、完整和規范。實現數據過程可視化和質量可視化管理,便于管理者實時掌握數據質量的整體情況,及時發現數據質量面臨的各類問題,促進數據質量的不斷提升。
數據質量評估是分析數據綜合特征、量化數據質量的過程。在高校數據治理的實踐中,通常將數據質量和規則維度相結合,根據已經定好的數據標準以及業務特性對數據質量配置相應的監控規則,及時發現有問題的數據并針對問題數據進行重點排查,形成數據質量報告,指明數據缺失、異常、錯誤等各類問題并提供詳細列表,便于協同相關部門對問題數據進行處理。
數據質量的提升離不開長期的投入,需要形成持續監測和錯誤反饋的機制,及時將數據質量問題反饋給數據源部門處理,建立數據修改審核機制,向師生用戶開放數據修改申請服務,經數據源部門審核后及時修改完善。可以從以下幾個方面對數據質量問題進行反饋和跟進:通過事先定義好的規則、時間,自動完成數據質量檢查,對數據存在的問題及時反饋給數據源部門;面向業務部門提供全生命周期的數據管理工具,包括數據的規范標準、檢索查詢、質量檢查和異常監測等功能;建立師生個人數據中心,對師生開放其個人相關的數據,對不正確、不完整的數據進行有針對性的數據糾錯、補錄,啟動反饋機制,通知數據源單位及時數據審核和更新。
(四)優化數據共享交換。高效數據治理的最終目的是實現數據資源在全校范圍內高效率流轉和高水平共享。數據共享交換是實現整個學校的系統集成、解決信息孤島和信息共享問題的重要手段。通過數據共享交換,實現跨業務系統的數據集成、共享與協同。優化數據供需系統的流程環節,完善數據供需的溝通渠道和協調機制,充分發揮數據共享交換平臺的數據通道作用,消除數據共享交換的斷點、堵點,實現數據“找得著、拿得到、用得上”。
近年來,不同數據源之間通過API 接口進行數據的共享交換成為主流。實現高性能、高可靠、開放性強的數據采集、集成和共享交換平臺,有效整合校內各類數據資源,提供開放的應用接入能力,打通不同業務數據共享,實現數據資源的一體化管理和科學治理,成為高校數據共享交換平臺建設的主要目標。平臺需兼容常見的結構化數據源,提供豐富的數據集成能力,支持對數據共享交換任務的配置和調度,實現自動化、定時化、可視化的數據共享。
高校數據治理要取得實際成效,需要有效解決數據管理上存在的主要問題,形成數據產生、維護、應用、收益的良性循環。按照“誰產生數據,誰負責管理”的原則,推動業務部門充分參與數據治理,加強跨部門協同,不斷完善質量反饋與監督機制,健全數據質量提升體系,逐步推進不同層次和不同維度的數據共享,為師生提供更優質的信息化服務,以信息化促進學校治理體系與治理能力的現代化。