孫文凱 張孝臨 姜山紅 張 軍 孫祎楠
1.遼寧科技大學計算機與軟件工程學院 遼寧 鞍山 114000
2.鞍鋼集團礦業有限公司 遼寧 鞍山 114000
作為數字經濟的核心生產要素,數據正成為經濟轉型和發展的新引擎,以及社會治理的有效工具。隨著5G、寬帶業務、網格化運營的發展,涉及的數據量也在不斷上升。伴隨數據量的增多,企業面對的問題和調整以隨之增加。
我們在面對大量數據時,數據質量問題、數據使用問題和數據安全問題都是值得關注也是經常遇到的三個問題。伴隨著數據平臺及數據日益復雜,數據也存在著開發投入大數據價值密度低,冗余數據增多,運維困難等問題。
我們在面對大量數據時,數據質量問題、數據使用問題和數據安全問題都是值得關注也是經常遇到的三個問題。伴隨著數據平臺及數據日益復雜,數據也存在著開發投入大數據價值密度低,冗余數據增多,運維困難等問題。
在整個數據治理過程中,我們認為數據治理是和數據資產是融合的,每一個治理方案都有一套單獨的治理體系。我們預期的數據治理模式是和數據生成過程是融合的,不應該是一套孤立的體系。數據治理同生產,最好做到的是事前治理,事中治理。是同數據生產是貫穿的,盡量避免事后補救治理[1]。
首先對企業元數據進行采集。在數據采集方便數據管理,針對不同格式的數據做了分類的模型,模型對應數據庫中各種表結構。可以采用多種方式進行針對數據進行采集。可以通過數據庫導入。在使用數據庫導入,手動選好數據庫,選好表,也可以自擬規則進行篩選。另外我們希望的是系統可以進行自動導入,我們可以寫好定時任務,在規定時間點進行數據反向工程導入,同時檢測數據表是否發生過改動當檢測到數據改動,我們同樣將數據版本體現到數據庫上。同時我們還可以對導入的元數據進行更深層次的管理,可以對數據進行脫敏標記,是否選擇加密,是否定期清理和備份等等。
將采集的元數據形成資產目錄。根據不企業不同模式,形成不同的目錄類型。在管理者界面中方便管理和查看數據。
將資產信息根據資產目錄進行導入,進一步完善資產業務信息。我們將最后形成的數據統一放入信息中心,在信息中心我們可以查看到各種各樣的數據,同樣可以選擇對應的庫進行直接或者間接檢索數據,并含有多種檢索方式,提供用戶去檢索。
維護完成會形成資產數據知識庫,形成知識庫就方便用戶查閱,用戶資產申請。在形成數據庫在宏觀上會形成數據地圖。在用戶數據申請的過程中也會設計數據安全方面的問題,對數據進行脫敏處理,添加數據水印的能力做一個貫穿。[2]
針對數據安全方面,我們針對不同數據進行定義不同等級,打上安全級別標簽。在數據保護過程中同樣給出一定的安全存儲建議。同時也標記訪問和導出建議,以保證數據安全性。相對數據敏感度低的數據,部分數據需要明文還是密文加密處理等等。[3]
除此之外,我們還定義了敏感信息數據規則,像電話號身份證等等規則,自由度很高也可以自定義規則手寫正則表達式的方式去形成最終的過濾規則。
制定數據標準體系,在治理中主要分為兩條鏈路,一個是層量,另一個是增量。層量的方式是一種被動的方式進行治理維護。增量就是對數據進行強管控的方式,我們要做的就是管好增量,把層量在特定時間內進行處置。
針對標準體系建模,目前標準主要分為一下幾種標準。主要有字段標準,詞根標準,分層分域標準,前后綴標準,術語標準,指標標準,維度標準。這些標準針對數據治理都有著不同的作用。字段標準為例,在創建表數據時,我們使用這些標準來針對數據庫進行命名,而不是根據自己一套標準去修改的命名格式。使用這種方式對數據進行整合的時候有以下幾個優點,在收集身份信息的時候使用相同的標準方便對數據進行整合,方便數據進行管理和關聯性的處理。同時,使用同一套標準也能方便大家理解數據所代表含義。通過標準能讓大家形成一套相同的數據語言,方便管理人員還開發人員針對數據整合和管理交流,都是可以規避交流困難的障礙,減少數據歧義。同時我們管理者也可以根據自己規定一套數據標準體系進行規劃數據。
數據標準稽核,在數據發布之前的一種檢查機制,任務上線前,提供標準化的檢查機制。分為以下幾個部分對數據進行打分,表命名規范,字段命名規范,在任務發布是否存在大表掃描等等不合規的情況,臨時表有沒有清理的檢查,在事前進行一個強管控的檢查在數據治理前進行檢查動作。[4]
數據稽核規則配置,更多的是從數據質量進行保障,系統提供很多提供規則,像數據是否關聯,數據表是否一致,表和表之間,文件和文件之間是否有一致性。規范性稽查,查看數據是否非空,是否超長方面進行稽查。波動性稽查,主要是查看趨勢的波動,準確性稽查等等。在一定稽核中可以使用規定的稽核腳本模板進行對數據進行稽核,另一種方式就是使用自寫腳本片段的方式進行稽核,去拼接稽核體系。
數據質量稽核,我們可以對數據質量進行檢查,我們可以創建,可以添加具體某一張表,去選擇目標模式,最終選擇規則上的指定,最終形成檢查的邏輯,會根據需要進行執行。可以使用周期性的方式,也可以使用一次性的方式。更多的稽核工具需要結合ETL工具進行貫穿。ETL的方式就是使用稽核過程和數據調度的過程進行融合。
數據質量問題預警,我們將稽核的結果問題進行統計列表,將出現問題的稽核數據列表發送給稽核數據責任人的手中,形成數據處理的閉環。
我們在數據治理的過程中,表和模型都是有聲明周期,我們通過識別數據使用的情況,我們創建了一套數據熱度分析的體系。
數據熱度信息采集,主要從數據庫執行日志的視角進行采集信息,數據庫平臺獲取數據庫操作日志,通過日志獲取表使用情況。如果單單依靠數據表的情況是遠遠不夠的,另外也可以使用數據庫瀏覽的熱度,瀏覽權重,數字化起源依賴進行評估。便依此針對數據熱度進行打分,評估出來的數據熱度高的數據我們需要做的就是保障。相反,熱度低的數據是否考慮做數據下線的處理。在熱度處理的時候也考慮數據血緣的關系,部分數據可能在用戶使用占比較少,但是在維護整個數據關系發揮著巨大的作用,我們便以此對表進行加權處理。這樣在數據處理會有著更加客觀的治理體系和能力,方便運維人員參考和指導意義。[5]
我們通過熱源分析,可以找到數據熱度分布圖,找到數據熱度主要分布的數據庫。找到拓撲分部還有數據趨勢的分析。可以將數據熱度詳情的方式進行導出。
在解決礦山數據時,根據礦山數據源特點,礦山數據在治理過程中會面臨著治理困難,冗余度高等缺點,在導入系統的時候會重新生成一份心得模型表,來協助礦山數據治理。[6]
通過導入的數據,創建資產虛擬目錄,方便礦山系統管理者維護信息資產。導入完礦山數據后,會形成數據知識庫。安流程進行導入和治理數據。[7]
在導入完快閃數據后我們便可以根據礦山數據制定特定的數據標準管理體系。建立相對于的數據模型,建立好的數據模型,便可以針對礦山老數據平臺進行在平臺的虛擬重構。重新定義表結構,重新定義表名稱和落地標準。這樣對數據庫再次進行操作便可以開啟稽核,準許符合稽核規則標準的數據,過濾不合規則的危險數據。[8]當出現稽核預警危險時,將問題提交給礦山數據管理人員,這樣便可以針對礦山數據進行重構處理,對后期礦山數據維護起來更加方便。在礦山數據上線數據治理中臺時,我們便可以根據血緣分析標簽,針對血緣對數據進行標簽化處理,評估數據熱度。形成一個綜合數據熱度圖,我們便可以參照這一熱度圖進行數據處理,熱數據我們便加權維護處理,相對冷數據我們便可以進行推薦下線處理。這樣高熱的數據得以維護,地熱的數據也可以減少數據庫冗余,優化數據庫結構。
在了解大數據治理中臺體系中,了解到了大數據治理平臺管理方法。數據治理在近年來是個火熱的詞,他的出現實現了老數據的管理和維護變得運籌帷幄。
在大數據平臺階段,用戶對數據信息的需求持續上升,用戶范疇從數據信息部門拓展到全企業,數據治理無法再僅僅面向數據信息部門了,需用變為面向全企業用戶的辦公環境,需用以全企業用戶為中心,從給用戶提供服務的角度,管控好數據信息的同時為用戶提供自助式獲得大數據的能力,幫助企業實現數字化轉型。
在以往數據模型包括礦山數據在內的老數據模型,都存在這治理困難,維護困難等等問題,我們逐漸的將老的數據去架構到新的數據治理中臺體系中,老的數據冗余度高的數據便可以變得容易維護,可操作,降冗余,減輕服務器負擔,提升管理者管理數據困難程度。
在以往數據中都是靠著主外鍵關系來確定各個表之間的關系網,有了數據治理中臺我們便可以通過這一中臺通過界面化可視化的方式去進一步了解和理解礦山數據表各個數據分部和聯系關系。
現階段各領域都開始了大數據平臺的搭建,期望運用大數據的能力,來實現數字化轉型。大數據平臺的搭建實際上還是數據信息的搭建,傳統型數據平臺遇到的全部難題大數據平臺都會有可能遇到,鑒于數據信息量級的發生變化,大數據平臺必定還會出現新的難題。
大數據時代,企業急需建立以用戶為中心的自服務大數據治理,信息梳理、數據管控、連接用戶、智能化是實現自服務大數據治理的四個主要階段,掌握一系列關鍵技術和技術原則,是實現自服務大數據治理的重要基礎。