關鍵詞:業務驅動;數據治理;數據質量;信息化管理
中圖法分類號:TP311 文獻標識碼:A
1引言
教育部在2018年4月印發《教育信息化2.0行動計劃》指出,教學應用系統應當涵蓋全體教師、學習應用系統應當涵蓋全體適齡學生,數字信息化校園建設包括提高整個學校師生數字信息素養,建設“互聯網+教育”整體框架,實現教育專用資源相互教育共享資源的轉變、提升教師及學生的數字信息應用能力。同時,近兩年也是大數據應用發展的高峰時期,高校大數據的發展離不開信息技術的高水平發展。首先因為軟件系統年代有所差異,每個時期所使用的計算機語言不同,新老系統之間存在不同的接口標準,導致業務系統之間的數據存在于異構數據環境中。多系統數據不流通而形成“數據孤島”,導致各個業務系統之間數據獨立且人員重復信息交互。基于此,本文針對業務驅動下的高校數據治理架構建設與研究,以及新的需求與挑戰,探索大數據下校園數據治理新的模式與架構。
2數據治理基本理論
2.1數據治理基本概念
在數據治理的基本含義方面,由于其側重方向不同,現有的定義是不同的。兩大組織DAMA(國際數據管理協會)和DGI(國際數據治理研究所)給出了權威定義:數據治理是對數據資產管理進行控制和治理的合集。
2.2數據管理與數據治理的關系
近年來,國內外專家學者提出,應當由原本的數據管理升級為數據治理。從原本的數據管理轉變為數據治理,將簡單地處理個別數據,進步到處理整體數據,從整體考慮局部問題,實質是一種個體轉變。
數據管理、數據治理是相近且相似的2個詞。從某個角度看,這2個詞僅僅是程度有所差別,但如果將它們剖析來看,2個詞其實是2種層次的表現,數據治理是數據管理高度集中的一種表現,是最重要的支柱之一。隨著時間的推移,數據量呈現指數級增長,然而單靠MySQL或者Oracle作為數據庫基礎,應用數據庫管理軟件進行管理,是煩瑣且復雜的。同時,非結構化數據與結構化數據呈現同樣的重要意義。因此,合理地使用數據與管理數據變得尤為重要。
2.3數據質量管理
數據質量管理是數據管理核心問題之一。有別于信息質量,數據質量是確保數據符合運行、研究、規劃過程中匹配其用途的結果,而信息質量是屬于信息系統內部的數據本身質量的好壞問題。數據質量是數據質量管理的核心要素。數據質量主要依靠數據庫系統去實現對數據的把控,但是高校中的業務系統往往因為時間、開發工具、接口等因素,無法實現對數據質量標準的統一。
3高校數據治理問題分析
3.1信息化隊伍完整性與高校自身屬性
高校信息化的發展離不開信息化專業人員的共同努力,然而許多高校對于信息化工作仍然是被動推進,就連領導小組可能都未成立,即使有領導小組也可能有隊伍不夠健全或者沒有年輕骨干成員的加入的情況,這使得數據治理的推進異常困難[3]。每個學校之間因為屬性差異所帶來的管理方式、經費分配、專業方向、自身屬性等都是影響信息化工作的重要因素,需要探索一條符合自身發展的信息化道路,以保證信息技術團隊的完整性,進而穩步推進高校數據治理工作。
3.2數據源重復性
數據在整個信息化內部處于重要地位,但以目前高校存在的通病來說,教務系統與學工系統同樣具備學生基礎數據,如需要學生數據時,我們通過數據交換進入需要的系統,使得源頭與目的都很混亂,導致后續維護數據時也帶來數據查找的難度。在高校后期發展中,由于當時只為了解決問題,而不考慮后期的維護工作,因此,帶來了嚴重的后果。
3.3數據標準類型
數據字段是數據標準的重要元素。在數據同步的過程中,2個數據字段中的標準是要明確統一的,因為建立數據庫時,每個系統數據后臺的數值是單獨定義的,需要經2個系統的管理員逐一進行比對,才能實現數據交換,每進行1次新的數據流作業,就需要重復進行如此操作,這對于管理人員的工作量是成倍增加的。基于此,高校應該建立公共代碼庫,構建編碼規則。
3.4系統獨立,數據閉塞
由業務驅動數據構建整個校園信息化,早期的信息化僅僅是為了實現業務功能,而不考慮后續發展的建設,底層結構復雜,數據在各個系統中存儲的方式多種多樣,業務系統之間的數據流轉離不開數據交換與數據共享,現階段2個系統之間只是建立了簡單的數據交換,并沒有達成數據統一共享,而是利用前置機實現標準接口的多業務數據流通,進而實現共享交換。
3.5數據質量低、數據融合難、數據不規范
許多高校在信息化建設中遺留了大量問題,主要表現為數據質量低、數據融合難、數據不規范。數據質量低主要表現為質量參差不齊,含有冗余數據。數據融合難主要表現為不同數據之間的傳遞需要通過提前制定好的作業流程完成,如新的數據需要融合,需制定新的作業流程,定時定點更新數據。數據不規范主要表現在不同的字段表格其所屬的內部屬性與名稱不同,須按照相應的規定做一些調整與匹配。
3.6數據管理權限混亂
高校內部的業務系統是由各個業務部門自行管理的,但有一些特殊部門不具備系統管理能力,一般會托管給圖書信息等相關技術部門管理,這就造成權限相對不均衡,當需要調整數據、業務時,數據的權限就顯得尤為重要。數據權限所監管的主要有數據修改、備份、傳遞、共享等權限,權限所管轄的數據安全問題是最主要的問題。
3.7數據統計分析能力薄弱
高校內部對于數據統計僅僅是將數據計數作為最后結果來呈現,并不具備數據分析的能力,無法經過一些簡單的計算與思考得出一些有意義的結果。數據僅僅成為統計的結果,并不具備任何意義。
4高校數據治理架構建設與案例分析
4.1數據治理架構建設
4.1.1 DAMA框架與DGI框架
DAMA框架誕生較早,主要以數據管理為重點,依靠數據治理協調處理數據管理的多個功能與多要素之間的問題。早期的多個功能可以解決當下許多問題,但隨著時間的推移,功能并不能解決后續全部問題,而是需要有更多更具體的方式去實現未來數據治理的需求。
與DAMA相比,DGI框架是從整體出發。管理與治理是2種不同的概念,可以理解為管理與治理是并駕齊驅的2種方式,不存在上級與下級的概念。
4.1.2模型層次(數據治理層、數據平臺層、數據服務層)
數據治理層、數據平臺層、數據服務層依次分別為底層、中間層、頂層。數據治理層的主要工作是處理結構化數據(標準數據庫數據,主要有文字字符等形式)和非結構化數據(主要有音頻、視頻、圖片等形式)。選擇數據庫之間統一的標準,執行元數據管理,處理好數據質量、數據資產、數據服務等流程,為后續數據治理提供基礎性服務。
數據平臺層對數據的存儲方式起到決定性作用。不同的數據存儲方式,為前端用戶調取數據產生不一樣的體驗。數據服務層作為頂層應用,最終是作為展示端與操作端面對用戶。其主要有2個作用:展示端作為數據業務流向端,讓用戶明白數據走向:操作端作為管理員操作端,使管理員能自主選擇數據組成系統需求數據。
4.1.3數據管理五元素
高校信息化建設日新月異,針對層出不窮的多業務系統,提出數據標準管理、元數據管理、數據質量管理、數據資產管理、數據安全管理五元素理論,進而對信息化數據治理建設制定統一標準,以及進行權限管理。
數據標準管理:主要是為了各個業務系統數據能夠匹配操作數據的規范,防止出現數據前后操作不一致或者數據字符前后不一致等情況。
元數據管理:主要是為了規范接口以及存儲管理,利用數據工具,使前后數據統一標準,并生成數據流向道路,形成數據流向表單。
數據質量管理:主要依靠數據庫系統實現對數據的把控,但是高校的業務系統往往因為時間、開發工具、接口等因素,無法實現對數據質量標準的統一。
數據資產管理:是對整個數據資產生命周期的管理過程。把數據作為資產對象進行管理,對數據進行有效的規劃、建設、運維,并在數據安全管理的基礎上進行調控。
對于數據安全管理:建立符合安全體系的安全策略,做到系統與系統之間相關權限的完全隔離,從而避免對不相關人員開放一定的權限。
4.1.4建設實踐路徑
數據治理需要分4個階段進行:第1階段要確定數據治理的對象(主要為各個業務系統內部存儲數據),明確分析對象所在的范圍,所覆蓋的業務情況;第2階段是數據業務梳理,需要各個業務部門配合,提供相應系統的資產情況,對數據的產生、儲存、應用等進行管控:第3階段是建立規范體系,按照相應數據標準以及學校真實情況,制定《數據治理管理辦法》《數據信息標準規范》等管理辦法,同時針對規范體系內的質量與告警信息及時上傳,做到數據安全第一;第4階段是建設系統前端系統與后臺系統。前端系統包含大屏業務流系統,數據需求用戶系統。后端系統包含數據管理員系統、底層數據業務流程系統、數據交換系統、公共數據系統,將這幾個系統串聯起來,組成1個完整的數據交換系統,并在此基礎上進行數據治理。
4.2數據治理案例分析
案例分析——以浙江財經大學東方學院為例,對數據治理的過程進行闡述。
(1)首先組建數據治理領導小組,明確劃分與制定普通用戶、管理員、系統管理員相關制度,嚴格規范其數據采集、整理、推送、保存等一系列操作,使得整個數據治理基礎具有一致性。
(2)平臺部署規范化是指嚴格按照計算機系統搭建步驟進行,通過軟件系統做壓力測試以及模擬實際應用環境,建設一套具有前端與后臺的控制系統,以滿足用戶和管理員對系統的使用、運維、管理要求。
(3)數據標準統一,首先要統一不同種類的數據,如姓名、生日、性別等,均需用不同形式的數據加以區分,制定標準數據表格,為后續的數據做好基礎性鋪墊。數據字段應針對不同數據類型進行逐一匹配,確保前后作業流的一致性。在數據導入過程中,應保持數據分片的連貫性,如出現中斷操作,應通過冗余出錯,考慮前后比對,進行數據恢復。
(4)建立核心數據引擎,依靠數據引擎,在后續的日常生活中,加快數據計算,利用數據創造出更多的價值。為保障后續做數據流轉,提高數據傳輸的穩定性以及數據流向的明確性,建立作業流向系統,明確每1條數據走向,確保數據清晰可查。
5結束語
本文主要對高校在進行數據治理時面臨的相關問題進行闡述,同時以案例分析的形式給出相應的解決方案,主要通過建立相關制度與規范,從邏輯與物理上對人員與權限進行約束,以保證系統安全穩定運行。以2大組織給予的數據治理解決方案為指導,搭建數據治理整體框架,指引項目有序進行。最后,提出幾點建議:應當加強對制度規范的建設,安排數據安全的運行維護,穩定有序地存放數據,做到有章可循,有權可查,確保數據有序運轉,完善數據質量監控和績效考核制度,以不斷提升數據質量。
作者簡介:
金濤(1994—),本科,助理實驗師,研究方向:大數據技術。