徐國慶
【摘 ?要】數據要素對提升企業價值具有重要意義,但數據質量、標準、安全、基礎數據和元數據缺失、思想認識不統一等問題在很大程度上限制了數據紅利的發揮,需要通過數據治理,采取對歷史臟數據進行清洗、統一規則流程和數據標準、加強數據安全管理、加強基礎數據和元數據管理、通過集團一體化統一實施等措施加以解決。論文在對上述內容進行分析的基礎上提出,在宏觀層面還要促進國家法規與行業規范的互補,打造良性循環的數據生態,實施數據生命周期全流程管理和分類治理,綜合提升數據治理環境,助力數據治理提升數據應用價值。
【關鍵詞】數據治理;數據應用價值;數據質量
【中圖分類號】F49 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻標志碼】A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文章編號】1673-1069(2023)01-0042-03
1 引言
鑒于近年來中國數字經濟的快速發展,黨中央、國務院把大數據的戰略地位提升至國家級。國家通過將數據與土地、勞動力、資本、技術并列為生產要素,希望在更深層次上促進數據資源的開發利用。深入挖掘數據要素應用價值,提升企業運行效率,實現精準決策,提高營銷針對性,創新商業模式,對企業而言意義重大。但數據要發揮作用,現階段存在的障礙也不少,數據質量問題、標準問題、安全問題、基礎數據和元數據缺失問題、思想認識不統一問題等在很大程度上限制了數據紅利的發揮,需要通過數據治理來解決上述問題,幫助企業實現價值創造。
2 目前數據應用存在的問題
大數據技術的發展和信息化的普及,使企業能夠積累大量的數據。然而,數據量大并不代表數據價值高,也不代表數據能夠直接被使用,直接能為企業帶來價值。數據質量問題、數據標準不一致問題、數據安全問題、基礎數據和元數據管理缺失問題、集團內共享思想不統一問題等情況的存在,直接影響數據分析的有效性。
2.1 數據質量問題
一些企業由于歷史原因,數據庫多,平臺多,孤立應用多,同時數據多頭錄入,錄入不及時、數據錄入錯誤或者遺漏,功能重復開發,信息與業務融合不緊密等,造成了數據來源多且雜,相互邏輯關系亂,數據分布離散性高,數據形態各異,結構不一致,錯誤和遺漏嚴重,導致數據應用難、技術共享難、業務協調難、安全無保障等問題。同時,數據質量管理規則不明甚至缺失,沒有包含標準、組織、流程、質量、安全、技術等多個層面的數據治理方案框架,缺乏整體的數據質量管控體系。
2.2 數據標準不一致問題
標準化是現代社會流水化生產、分工協作的基礎,是反復實踐之后得出的最有效率的生產組織方式。數據形成標準化后,數據價值更容易實現。但不同的系統,由于管理視角和需求深度的不同,導致數據指標的選擇不同。而每個指標的統計范圍不一樣,所選擇的口徑也不一樣,導致指標的信息含義也不一樣,最終造成系統間數據標準不一致,因此難以實現跨系統的共享和復用。同樣的問題還存在于企業內各部門之間,或者集團內各企業之間,因為數據標準不統一,造成數據應用過程中準確性、一致性欠缺。這種情況在分支機構層級多、業務板塊多元化、跨行業范圍廣、前后產業鏈長的集團更為普遍。由于集團內各企業的信息系統是分別建設,系統建設所處階段不同,建設水平不一,行業規范和監管要求不同,內部需求不一致,各子公司、各部門數據管理能力參差不齊,加上缺乏統一規劃、統一規范、統一管理,各自建設,最終造成數據標準不統一。
2.3 數據安全問題
數據安全方面,隨著企業數據開放和各類共享平臺的搭建,企業與外界進行數據交互的機會變多,使企業面臨的數據安全風險也加大。從數據完整生命周期來看,數據在各個環節,如采集、存儲、傳輸、匯總、加工、交換、刪除等都面臨不同程度的安全隱患,來自外部的攻擊,內部的泄密,軟硬件故障,工作疏忽或人為惡意造成數據丟失或損壞,都是隱患來源。
2.4 基礎數據、元數據管理缺失問題
基礎數據又稱“公共數據”,是指在各個系統中被重復共享、反復使用的數據。
基礎數據主要包括客戶、供應商、產品、項目、員工、組織、科目等數據,是企業信息化管理的基礎。如果在各信息系統中對基礎數據的統一管理缺失,會直接影響工作效率和數據分析結果的質量。元數據是“描述其他數據的數據”,它能解釋數據意味著什么,來源于哪里,哪些部門可以由哪種方式訪問這些數據等,可以看作是數據的“索引”。通過對元數據的規范管理,實現各類數據的快速檢索、血緣分析和數據地圖展示。元數據管理的缺失,將造成即使發現錯誤數據,也難以進行溯源管理和責任認定。
2.5 集團內數據共享思想認識不統一問題
集團內不同子公司擁有不同的利益結構和訴求,以及嚴格的外部監管要求和內部商業秘密保密制度,互相之間數據協同的顧慮較多,都希望數據只進不出,本機構的底層敏感豐富數據不敢開放。內部子公司之間的利益關系阻礙了集團層面數據治理工作的落實。
3 數據治理的相應措施
要解決上述數據應用問題,需要對企業現有數據管理情況進行自我檢查,系統掌握數據治理環境現狀,包括目前的管理組織、制度和流程、數據分類、編碼方式、安全標準、交換標準等。在此基礎上,重點檢查數據質量管理現狀,包括數據邏輯一致性、結構完整性、應用合規性、處置及時性、使用有效性、存儲冗余程度等。檢查摸底完成后,對企業業務進行梳理,圍繞市場熱點、業務痛點、流程堵點,對歷史臟數據進行清洗,統一規則流程和數據標準,加強數據安全管理,加強基礎數據管理、元數據管理,通過集團一體化統一實施,分步驟、分階段、分層次、分場景逐步開展數據治理。
3.1 對歷史數據進行數據清洗
數據清洗是處理臟數據的過程,如數據的字段格式錯誤及邏輯錯誤、字段冗余或缺失、數據邏輯不一致或信息異常等情況。數據清洗要清晰掌握原有質量標準、情況和實際業務對數據的質量需求,重點在于設定數據排查規則,發現異常與錯誤,識別錯誤數據產生的原因和存在形式,選擇合適的清洗方案,對錯誤數據依次執行清洗規則,然后評估清洗、修正效果,最后將干凈數據替換至原數據庫。另外還要制定規則,規范后續數據錄入,特別是線下手工采集的數據,保證新產生數據的及時性、準確性、完整性和規范性。
3.2 統一設計數據標準、制度、流程和規則
數據標準主要包括數據命名規則、字段結構確定,以及數據編碼定義和取值含義規則。數據標準作為數據質量控制的準則、數據模型搭建的參考、信息系統設計的依據,在編制、落地過程中需要注意梳理各類制度章程和國家標準,將相關規范具象到標準中,結合企業應用價值主張落地實施。
以國家標準、行業標準作為參考,重點對企業業務和數據進行調研和分析,結合數據標準、需求和現狀,基于企業實際情況,從業務、技術、管理3個角度出發建立標準。通常,根據業務特點確定數據編碼、命名、字段含義、分類、分級標準;根據技術屬性確定數據類型、格式,以及字段結構長度;從管理角度確定數據來源、使用規范和管理標準化。
在系統建設頂層規劃時,提前考慮系統間的集成關系,以及數據的共享需求、執行標準和相關制度安排,與企業的戰略目標、業務流程緊密聯系,從而更好地支撐功能實現。其他系統流轉過來的數據,需要經過重新采集、清洗和加工才能使用。
3.3 加強數據安全管理
嚴格權限管理,對重要數據進行備份,對加密、修改、刪除等高危動作進行身份認證,確保數據訪問和操作安全;建立適應數據全生命周期管理的安全管理體系,根據各個環節的風險點和風險程度,執行分類分級防護要求,確保覆蓋采集、存儲、傳輸、使用、刪除、銷毀等全流程;建立統一的數據資產監控系統從多個維度進行監控,數據加密與脫敏、水印與防泄露、數據溯源等防護技術與防護工具聯動,數據每一步操作都留下印記,便于回溯審視數據治理路徑,打造安全防御體系;聘請專業機構對集團數據安全進行評估,制定分類分級管理措施,選擇合適的數據安全等級保護方案,提升在數據邊界確定、數據使用管控、訪問權限等級控制、數據運行安全監測、數據例行處置安全評估、應急響應與處置等方面的風險防控能力。另外還要明確外部數據權屬問題,確保數據使用合規,有效避免獲取和使用中的法律風險。
3.4 加強基礎數據、元數據管理
需要企業在業務層面統一數據底層標準,進行基礎數據、元數據管理。基礎數據管理確保核心數據“一點產生,多點使用”,為將來有業務協同奠定基礎;通過元數據管理,重點解決系統之間數據交互問題,保證交互順暢。建立數據資產管理目錄,使其由系統后臺的“黑箱子”,轉化為前臺界面可查、可看的“數據字典”,為數據系統互相調用、共享流通、提升效能打下基礎。
3.5 集團層面達成共識實施自上而下的一體化工程
集團內部數據資源龐大,數據結構復雜。不同公司的源系統改造存在很大困難,數據梳理、數據編碼重構及映射等方面的系統改造影響面非常廣。各子公司涉及的行業領域范圍不同,每個行業的監管和運營對數據治理有差異化的需求,因此對集團數據管控方案的普適性要求較高。
強化集團范圍的數據共享,需要作為“一把手”工程來抓,提高整個集團的思想認識,打破機構和業務間的數據孤島,防止系統分散建設。集團層面統一規劃基礎數據編碼規則和應用集成接口,打造統一的基礎數據管理平臺,在該平臺對各種數據實施集中管控。規范集團內部數據交換,統一規則,對接口、文件名、內容方面統一標準,提高數據共享效率,保障數據交換工作順利進行。
4 數據治理提升數據價值未來發展路徑展望
從更宏觀、更長遠的角度看,通過數據治理提升數據應用價值,需要通過國家法規與行業規范的互補共同優化數據治理環境,打造良性循環的數據生態,實施數據全生命周期管理和分類治理,綜合提升數據治理環境,助力數據治理提升數據應用價值。
4.1 國家法規與行業規范互補,共同優化數據治理環境
近年來,國家不斷出臺數據合規方面的法律法規,已經建立了包括《網絡安全法》《數據安全法》等在內的法規體系。金融業特別是銀行業作為信息、數據較為集中的行業,監管機構銀保監會以及人民銀行也發布了金融機構數據治理、金融數據安全分級和個人金融信息保護方面的指引與指南,引導金融行業數據治理規范。
國家法規作為底線標準,具有強制力,在數據治理方面雖有具體規定,但必然不會過多干預,因為數據治理問題是企業為了實現自身商業價值而開展的活動,本質是企業自身發展的驅動力、自己的競爭力,因此國家法規不宜強制干涉。數據治理的規則,更多的是自愿性的標準以及國際認證標準等,不具有法律約束力、強制力,而是通過有關標準來引導企業實施有效的數據治理并通過相關的商業認證,在一定范圍內對企業數據治理水平提供一種公示的效應,這就需要行業規范來補充。
4.2 打造良性循環的數據生態
數據行業生態方面,可以探索數據的內部市場化交易平臺;對于需要的外部數據,進行集團統一采購;內部交易或對外統一采購后制定交易和結算規則,供數據使用部門、數據提供部門模擬定價和核算,促進資源的有效利用,激發參與主體的共享數據熱情。
執行層面上,盤點、梳理現有的系統、流程、數據資源,厘清各方需求,摸清數據真實狀況;各相關部門一起,從整合需求、頂層規劃設計入手,制定數據標準,完善規則內容,積累數據庫資源,實現業務與數據的貫通;定計劃或定期分析數據質量問題,綜合評估分析,找出問題原因,對癥下藥制定解決方案。企業還可以發揮數據和應用場景結合的優勢,促進數字技術與業務經營的深度融合,以應用為目標、需求為方向、平臺為承載、技術為保障、數據為中心,分步實施,突出重點,先行保障急用項目,以用促建,整合數據庫,集成各子系統,最終打造完整的數據生態系統,形成良性循環。
4.3 實施數據全生命周期管理和分類治理
搭建綜合管理平臺,將基礎數據和元數據管理、數據標準、數據質量管理都包括在內,涵蓋數據采集、傳輸、存儲、管理、應用、處置等全部環節,實施數據全生命周期管理。
數據類型包含基礎數據、交易數據(事務)、元數據、參考數據、統計分析數據(指標)等。對數據應分類治理,因為不同類型的數據,治理的關注點、方法、效果都不同。數據量大,但不是簡單堆積就能產生價值,還要考慮價值密度,并選用合適的分析模型,用技術手段進行挖掘分析,才能洞察有意義的信息,實現數據價值,因此需要從應用的角度出發,結合數據使用周期或頻率、數據分類重要性、信息精準性、數據安全等級、行業監管要求等,在產品設計、客戶畫像、風險預警、作業流程等維度進行評估,對數據進行重要性分類管理,對應確定安全、存儲、應用方面的策略。
【參考文獻】
【1】韋葦,任錦鸞,李文姬.基于國際比較的數據治理體系及優化策略[J].科技智囊,2022(07):1-7.
【2】張莉,卞靖.數字經濟背景下的數據治理策略探析[J].宏觀經濟管理,2022(02):35-41.
【3】馮曉娜,雷會鋒,王璐.基于數據中臺視角的企業數字化轉型探析[J].航空財會,2021,3(01):41-44.