姚洪
(蘇州科技大學 天平學院,江蘇 蘇州215009)
隨著信息化的發展,教育信息化2.0 的提出,信息化越來越得到高校單位高層的重視,而數據作為最重要的數字資產,如何高效的管理和治理數據,是當下信息化發展的一個重要課題。隨著華為數據中臺概念的提出,高校單位開始意識數據的治理的重要性,數據即是資產,也是財富,對數據的存儲和分析是是高效的利用數據的基礎,高校的利用數據可以高效的實現事務的發展。
本文針對大數據在高校的應用,提出了一套基于數據中臺的數據治理系統,利用數據中臺實現業務數據的流轉,數據流向的梳理,數據質量的清洗,數據提供的能力。結合用戶的實現的業務需求,定制化符合用戶要求的數據流,數據質量和數據能力與實際事務流程的實現點對點的融合,進而實現事務的線上辦事等各種應用系統的建設。利用數據治理最大限度的挖掘數據的隱含價值,幫助用戶通過數據梳理業務,更好科學進行發展。
數據治理類型可分為應對型治理和主動型治理。應對型數據治理指的是通過客戶關系管理(CRM)等“前臺”應用程序,以及企業資源規劃(ERP)等“后臺”應用程序授權主數據(比如客戶、供應商、產品等)[4]。
數據治理可以更有效地將數據價值轉化為實際業務價值。而當前數據的“井噴”狀態仍在持續,機器學習、AI(人工智能)等一類對數據質量高依賴的技術也非常的火熱,全球數字化轉型浪潮也在有條不紊的全面推進中,殼及數據治理勢在必行且在未來也將會持續在數字戰略計劃里占據核心地位[5]。而現有的基于數據治理相關理論基礎可明確本文要設計和實現的數據治理系統的目標及預期效果。
數據中臺是一個相對性概念,是對于數據后臺和數據前臺,將數據分為三層,數據后臺是各分散業務數據,這些數據存儲在各業務系統里,不具有數據提供能力和數據服務能力;而數據前臺是提供給用戶的已經治理的有效數據;數據中臺是鏈接數據后臺和數據前后,將無質量的后臺數據匯集在一起,形成大數據,通過數據治理,梳理出有效的數據來。
數據中臺是數據三層結構中的中間層,主要功能是負責據匯集,數據治理和數據能力三方面,為應用服務提供個性化數據服務能力。

圖1 數據治理系統操作流程圖
在大數據時代,本課題考慮采用最新的數據中臺建設思想來解決數據中臺建設過程中可能會出現的問題,實現智能數據的構建、管理和應用,為智慧應用的深度建設奠定基礎。
基于數據中臺的數據治理系統以全業務散分數據為基礎,將數據進梳理,通過元數據對數據進顆粒度度量,用于進數據驅動。
數據治理系統可以分為以下幾個模塊:數據管理、數據質量管理、數據監測查詢這個四部分,這四部分以元數據為驅動,以業務需求的動力,以數據能力為目的。
元數據管理實現數據源的梳理,數據引流,數據模型的建模,元數據屬性模型的建模等。
主數據管理實現數據的分類,數據的編編輯等。
數據質量管理實現數據的規制管理,質量校驗,數據的血緣關系的梳理及數據共享與交換等。
數據監控實現數據的異常行為分析,全文檢索等。
圖1 給出了數據治理系統的操作流程圖,當用戶新增數據治理操作時可按照該操作流程進行,其中數據治理信息管理部分負責數據治理操作的基本信息的管理。數據的管理與操作以及系統的操作等過程均會受到監測,以便及時發現并解決異常問題。
在創建數據表時數據庫管理人員已給每個屬性加以說明,但在數據分析階段獲取的結果可能與原先的說明不吻合,所以需要為每個應用在數據分析階段的屬性配置提供新的注釋和說明,功能流程圖如圖2 所示。

圖2 屬性配置功能流程圖
在屬性配置環節僅是給每一屬性添加了前端呈現的相關說明,但對varchar 類型屬性來說,為方便存儲并節省空間,所以會選擇數值類型的數字進行存儲,而數值型數據并不能用作直觀的數據分析,所以利用編碼設置功能來實現原先存儲數值型數據的轉換,功能流程圖如圖3 所示。

圖3 編碼設置功能流程圖
系統獲取數據源的相關元數據信息時會一次性完成信息的獲取,但就用戶而言,難以理解直接呈現的數據信息,因此需要在前端部分分為數據預覽與單源元數據管理兩部分。元數據可分為技術元數據、業務元數據與過程元數據三類,系統自動采集計算這三類數據后展示在Web 頁面,如圖4 所示。

圖4 元數據信息頁面呈現
本文針對大數據在高校的應用,提出了一套基于數據中臺的數據治理系統,以全業務散分數據為基礎,將數據進梳理,通過元數據對數據進顆粒度度量,用于進數據驅動,利用數據中臺實現業務數據的流轉,數據流向的梳理,數據質量的清洗,數據提供的能力。數據治理要貼合業務需求,才有意義,因此數據治理是一個定制化數據服務,拋開業務談數據治理是沒有意義,本文只是高校數據治理研究的冰山一角。