鄒凌君 李偉斌 張利峰
關鍵詞:數據治理;PDCA;數據質量;數據標準;優化
1 引言
經過多年信息化建設,高校已經建設了實現各項業務的系統和服務應用,搭建了數據共享交換平臺,但是對數據層面的建設還很薄弱,在數據的采集、存儲、管理等方面還存在一些需解決的共性問題。
1)數據標準不統一。在數字化校園建設初期,學校建設了多個業務系統如人事管理、科研管理、學生管理系統等。這些業務系統在建設時多從自身的業務需求出發,缺乏統一的數據標準和規范。
2)數據質量參差不齊。業務系統的數據庫中存儲著未經審核的“不權威”的數據,還存在著數據不完整、不準確、重要數據項缺失等現象。另外多源異構的數據源在集成過程中,也會產生許多質量問題。無法為后續數據分析提供有效數據支撐。
3)數據權屬不清。由于缺乏頂層設計,各業務部門使用的數據存在重疊,以致多個業務系統同時具備數據源頭的管理與操作權限。數據權威源頭不清晰。
4)數據的生命周期管理缺失。各業務系統的數據從產生、清洗、存儲、管理、應用到歸檔等整個流程不完整。業務系統缺乏科學的數據生命周期管理規范。
本文結合戴明環(PDCA) 循環理論基礎,將全面質量管理體系和數據治理重點工作相結合,協同計劃階段、實施階段、檢查階段和處理階段等相互促進的過程,提出了高校數據治理的優化路徑,為高校數據治理建設提供思路和借鑒。
2 數據治理概述及研究現狀
2.1 相關概念
由于研究角度的多樣性,學者們從不同的研究視角定義數據治理。國際著名數據治理專家桑尼爾·索雷斯認為數據治理是“協調多個職能部門的目標來制定與大數據相關的數據優化、隱私保護與數據變現的政策”[1]。Fernandes等認為數據治理是集中人、過程和信息技術的數據管護過程或方法,能夠確保組織數據資產得到合理的使用[2]。國際數據管理協會( DAMA)提出,數據治理是對數據資產管理和控制的活動集合,包括計劃、監控和執行等[3]。劉金松基于概念合成理論視角,利用教育數據的廣泛分散性,將多元化利益群體納入治理過程中,多方協同參與推進高等教育的善治。結合學者的相關研究和學校建設實踐可以看出,高校數據治理是圍繞學校數據資產全生命周期開展的各項活動。數據治理的開展需要從認識上重構數據思維,認識數據價值;從制度上加強頂層設計,設計業務流程、劃分數據權責;從技術上搭建平臺,強化治理的深度和廣度,將數據治理落到實處。通過制度、理念、技術的結合,通過多元主體協同參與實現高校數據治理的成功。
2.2 高校數據治理的研究動態
當前,有關數據治理的研究成果比較豐碩,許多學者圍繞數據質量、數據管理、體制機制等從不同的層面和角度進行了研究和總結。安小米[4]等從方法論概念入手,結合戴明環(PDCA) 的理論基礎,對當前大數據治理體系構建方法進行了修正補充,提出了更具通用性的大數據治理體系構建方法論框架。余鵬等[5]在探究了高教數據治理必要性的基礎上,提出了高教大數據治理三層次模型,構建了一套完整的數據生態治理體系參考架構。董曉輝[6]等基于高教大數據實踐困境,采用西方組織管理學中的權變理論,提出數據治理框架的設計既要從組織的全局出發,又要結合特定的組織環境和變化的現實情境不斷調整以適應組織戰略目標。南旭光[7]提出了從培養理念認知、加強平臺建設、完善制度設計、優化決策路徑、整合人力資源等方面實現高等教育循數治理。周煒[8]從數據生命周期的角度提出了高等學校數據治理框架,構建了實施數據治理的四要素模型。
數據治理已成為當前的研究熱點,這些研究為高校進行數據治理提供了豐富的理論基礎和實踐經驗[9]。
3 高校數據治理優化路徑
3.1 PDCA 循環理論與數據治理
PDCA循環理論(俗稱戴明環)由美國治理管理專家戴明在休哈特的構想基礎上進行挖掘并完善的一種科學工作程序,起初應用于企業質量管理,現逐漸被其他管理領域所采納。PDCA循環理論是質量管理的依據,它將治理管理分為四個階段,即計劃階段(Plan) 、實施階段(Do) 、檢查階段(Check) 、處理階段(Action) 。
高校的數據治理工作是一項迭代循環、不斷修正的過程。因而在治理過程中,結合PDCA循環理論,將數據治理過程分成計劃、實施、檢查、處理的四個階段,從機制上確保對治理過程中的每一環節實行動態的質量監控管理,推動數據質量持續提升。該數據治理的PDCA管理模型如圖1所示。
在計劃階段,從宏觀的視角定義數據質量的需求和數據治理目標,分析數據治理過程中涉及的治理目標、治理主體、治理客體、治理方式等要素,構建數據治理框架,制定數據治理全過程的相關制度和行為規范,明確數據權屬關系,充分考慮利益相關者的權益,構建相互促進的良性互動的生態系統。在實施階段,圍繞計劃階段制定的工作計劃,開展具體的數據治理工作。采集業務系統的數據,進行清洗、交換、治理等。定義數據質量規則,根據規則進行數據質量評估和治理。采用整體治理與局部治理結合、系統治理和碎片化治理相結合方式,協同多元主體共同開展數據治理工作。檢查階段,對實施階段的成果進行分析和檢查,生成數據質量報告。對質量問題進行個別和整體分析。處理階段主要是根據檢查結果,逐一排查數據問題,由相關系統或人員進行處理。總結經驗,將未解決的問題轉入下一個PDCA循環。
3.2 高校數據治理實踐優化路徑
3.2.1 計劃階段
1)健全數據治理組織架構和制度體系。依據信息化建設中的職能,構建校級數據治理組織架構,如表1所示。數據治理委員會是學校數據治理的領導機構,從頂層對數據治理進行統籌決策和規劃布局。信息化建設領導小組負責對學校信息化建設進行長期規劃和重大問題決策。全校各職能部門負責實施管理范圍內的數據治理。信息化部門是學校信息系統數據資產的統籌管理部門,負責全校信息系統數據管理的總體規劃和技術平臺支撐,制定學校的信息化管理制度等工作。老師和學生是信息活動的參與者、實踐者,也是數據的生產者和使用者。
圍繞數據的生命周期,建立完善的數據管理制度是一項至關重要的工作。通過制定數據采集、運維管理、數據存儲、數據質量、數據申請、數據共享、數據安全等方面的制度體系,建立數據治理制度體系。如數據的收集和利用制度,制定了數據在采集、開發和利用等過程中的規范;數據的權屬及邊界規范,明確了數據的歸屬和權責。制度體系的建立從宏觀和微觀層面形成科學的治理秩序,確保了數據治理的各項工作有章可循。
2)制定校本數據標準。數據標準是高校智慧校園建設的重要基石,為全校的業務系統提供統一的數據理解和坐標。信息化部門和業務部門一起參照國家標準、教育部標準,制定一套符合學校實際情況的校級數據標準,首先要明確和理清數據的來源和權責,真正落實“一數一源”,在此基礎上,梳理各業務系統的數據標準。此外,制定代碼標準、編碼標準、安全標準、質量標準和管理標準。規范好的數據標準以教學、科研、服務為核心,形成了人事管理、教務管理、學工管理、科研管理等主題的數據標準集。
3.2.2 實施階段
1)構建多元主體協同的數據資源管理架構。數據治理的主要任務是綜合管理學校數據資產,實現數據資源的標準化定義和管理。由于數據資源的分散性要求,多元化利益群體需要參與到數據治理的過程中。為此基于不同的視角構建一個如圖2所示的多元主體協同參與的數據資源管理架構。
信息化部門以學校需求為驅動,采集全業務、多形態、多終端的數據,進行有效的存儲和管理,采用批流一體的數據集成方式,實現閉環的數據集成管理。對采集后的全量數據進行清洗、治理,進行業務域劃分。數據資源管理層主要面向于信息化部門和業務部門。信息化部門對全域數據進行標準管理、質量管理、安全管理等。業務部門對應于數據資產的梳理、一數一源權責認領、數據資源申請和審核等需求。在數據資源服務層,結合師生信息化需求,構建業務流程和上層應用,通過集中化的數據呈現和分析,提供對學校的整體洞察和感知。多元主體的參與使數據資源管理體系化、流程化,提高了數據服務效率,降低數據使用難度和管理成本。
2)開展以信息化部門為主導的整體性數據治理。提高數據質量是數據治理的重要環節。數據質量的問題分為結構性問題和內容性問題。結構性問題主要指代碼標準不一致、數據內容不規范等。內容性問題主要指數據缺失、數值有誤等。由信息化部門根據數據的完整性、準確性、正確性、一致性、唯一性和及時性等質量維度來描述和量化數據的質量,定義數據質量檢測規則,結合數據質量維度和具體業務需求,檢測數據和業務規則的符合度。通過設定具體的數據字段質量檢測規則對全域數據進行集中質量檢測,將分析結果進行可視化呈現,明確問題所在。
3)開展以業務部門為輔助的局部化數據治理。業務系統根據數據標準對業務數據進行規范。由于早期的業務系統在建設時數據標準缺失,系統中存在很多非標數據。若此標準是業務系統必須的,且短期內難以改正,可以通過建立對照表的方式,將數據同步到數據中心,這樣數據中心存儲的數據是符合學校標準的數據。數據中心再將標準數據共享給其他業務系統。隨著業務系統不斷地升級和迭代,各個業務系統會逐步使用新的數據標準,達到最終統一的目的。除此之外,業務系統應根據數據標準要求將不規范的數據按照學校標準進行轉換、修正,逐步將學校數據標準落實到位。
3.2.3 檢查階段
檢查階段是對實施階段發現的問題分析評估。由信息化部門和業務部門進行針對性的檢查,可采用案例驗證法對治理體系進行評估,通過可視化的方式將數據問題以《部門數據質量報告》形式呈現,讓質量治理變得清晰、簡單。通過系統和人工方式對數據進行檢驗,是主動式地提升數據質量的關鍵環節,可以發現普遍的數據結構性問題,顯著提升數據質量。
另一方面,通過營造數據治理文化氛圍,創建多元主體參與的數據治理生態體系,發揮教師和學生的數據治理主體成員作用。如面向教師、學生、領導提供集成統一的數據綜合服務中心,展示全面綜合的數據。老師和學生可以查看個人的基本信息、學習情況、財務信息、科研信息等。數據綜合服務中心提供數據糾錯、數據反饋和綜合校情分析等服務。師生根據平臺中展示的個人數據,可以反饋平臺中不準確、不完善的問題。發現數據質量的內容性問題。
3.2.4 處理階段
這一階段是根據檢查階段的結果進行分析處理,追根溯源,探究成因,及時分類處理,并結合實際情況提出科學的解決方案或形成標準的解決流程。若是數據源頭問題,督促部門信息員進行修正,若是在數據流轉、轉換的過程中發生的故障,由信息化部門檢查轉換機制和規則,并做好后續跟蹤和檢測工作。通過技術手段和制度規范解決問題,為下一個數據治理循環推進提供借鑒參考。
4 總結
數據治理工作不是一蹴而就的事情,是需通過制度、理念、技術的結合,全校多元力量共同參與的一項長期工作。需要自頂向下的頂層設計、健全的數據管理機制、完善的管理運行機制。本文將數據治理和PDCA理論相結合,形成具有生命力、可不斷迭代優化的高校數據生態,實現數據串聯下的,多元主體參與的數據鏈管理閉環,讓數據治理為校務治理提供更好的支撐,為學校業務管理、教學創新跨越式發展提供信息化深度支撐,進一步推動學校的信息化建設。