仝姍 陳大海 王駿驥



[摘 要]江蘇省市場監管部門體制“三合一”改革后,監管工作在面臨巨大挑戰的同時,也迎來了難得的機遇。高質量、可信賴的數據資產在精準監管中的作用日漸凸顯,已成為智慧市場監管的核心驅動力。本文從數據標準、元數據、基礎數據、數據模型、數據質量五要素展開分析,以優化數據治理流程,構建完善的數據治理體系,提升數據質量。
[關鍵詞]市場監管;數據治理體系;數據質量
doi:10.3969/j.issn.1673 - 0194.2021.04.088
[中圖分類號]D63;TP391[文獻標識碼]A[文章編號]1673-0194(2021)04-0-04
0 ? ? 引 言
江蘇省市場監管部門體制“三合一”改革后,在整合信息化系統、促進業務融合方面進行了有益嘗試,并取得初步成效。機構改革后的市場監管工作面臨監管主體眾多、監管事項增多、監管責任加重、監管壓力增大的挑戰,急需以數據驅動業務協同創新,通過大數據分析等技術手段實現科學決策和精準監管。
江蘇省市場監管原業務部門已自建規模不等的數據倉庫或數據中心,實現了一定程度的數據服務。但是由于缺少數據標準和相應處理流程,導致數據描述不全、數據結構各異等問題,從而限制了部門間業務協同,聯合監管效能無法發揮,數據價值很難做到深層挖掘。
1 ? ? 數據治理體系構建
數據治理是市場監管數據管理的重要組成部分。數據治理體系通過數據標準錄入使數據治理有據可依,采集元數據構建數據模型,其基礎數據則可以確保數據治理的一致性,避免出現歧義及理解偏差。各模塊協同,打造完整的數據治理流程,實現了數據治理全過程可視化。
1.1 ? 體系架構
本文通過對數據標準、元數據、基礎數據、數據模型、數據質量的管理,打造全視角的數據質量治理體系,逐步解決數據底數不清、標準缺失、數值不準等共性問題,實現數據標準化,確保數據品質。數據治理體系架構如圖1。
1.2 ? 數據標準管理
數據標準管理是數據治理體系建設中的重要環節,通過數據標準可以有效規范系統建設時對業務的統一理解,增強業務部門、技術部門對數據定義與使用的一致性,減少數據轉換,提升數據效能,優化數據服務。
本文通過建設統一的數據標準管理功能模塊實現數據標準的集中管理,為系統建設人員和應用人員提供便捷的數據標準獲取途徑,促進數據標準規范的落地實施。數據標準管理模塊的功能,包括數據標準文檔管理、數據標準用語管理、數據標準業務代碼管理、數據標準模型管理和數據標準指標體系管理。
1.3 ? 元數據管理
元數據管理是數據治理體系的核心組成部分,貫穿于體系的創建、維護和使用的各環節之中,元數據管理可明確數據方向、統一數據口徑、梳理數據關系、管理模型變更,是數據建設和數據資產高效管理的有力保障。
本文以元數據為核心驅動,嘗試構建完整的數據管理和數據服務模塊,統一對江蘇省市場監管數據元進行管理。元數據管理實現數據生產、服務全鏈路信息的集中管理和展示,同時也為作業管控、質量管理提供數據標準。元數據是以標準方式表達的數據元,數據元是數據的基本單元,將若干具有相關性的數據元按一定次序排列,即組成元數據。元數據管理包括元數據服務和元數據分析。
1.4 ? 基礎數據管理
基礎數據管理包括基礎數據的生成服務和版本維護。
存儲于業務系統中的數據,通常采用抽取、轉換、裝載(Extract-Transform-Load,ETL)的方式進行導入,生成基礎數據。數據抽取調度管理的方式如下:元數據管理模塊對元數據的自動獲取提供持續穩定的調度支持,能夠按預設的調度策略觸發相應的元數據自動采集過程,并滿足元數據采集在時效性和獲取時機等方面的需要。例如,在數據處理程序更新后8小時內觸發相應的元數據自動獲取過程;也可以在每星期一00:30觸發數據庫元數據的自動采集過程,由守護進程Cron來處理周期任務,定時任務語句如下:30 0 * * MON /home/dataman/work/job.sh。
基礎數據版本管理對基礎數據的變化進行記錄和管理,如企業類型新建視為第一版,之后每次修改新增一個版本,版本號按照規則自動增加。可以通過對比查看每次的變更記錄,并且支持隨時恢復到某次變更的版本。
1.5 ? 數據模型管理
數據模型管理包含構建模型設計、模型優化、模型監控的可視化管理體系,提供對模型實體、屬性、關系的設計,模型的標準化管理及模型一致性監控。該管理體系完整記錄數據治理模型建設的全過程,為數據的開發、部署、融合等各個階段提供基礎支撐。數據模型管理功能模塊包括基礎模型管理、邏輯建模和物理建模。
1.6 ? 數據質量管理
數據質量管理是數據治理工作的基礎。建立基于全局視角的閉環數據質量管理模塊,可以確保共享開放、研究分析和應用服務數據的品質,實現數據資產價值最大化。數據質量管理可實現稽核規則管理、稽核任務管理以及數據質量分析功能。
1.6.1 ? 稽核規則管理
為了高效開展對數據治理各關鍵環節的檢查工作,應規劃建設稽核規則管理模塊,統一配置質量檢查規則。系統在對數據進行檢查前,通過訪問稽核規則管理模塊來讀取質量檢查規則。稽核規則支持編輯、修改和刪除。
1.6.2 ? 稽核任務管理
數據質量管理模塊根據需求或規則生成所有稽核任務,提供偵測和前置條件觸發兩種方式啟動稽核任務流程。
稽核任務管理將稽核流程與數據加工流程相結合,支持稽核任務定時、嵌入、手工調度,實現流程調度多樣化。當稽核出影響后續加工的關鍵問題時,數據加工流程自動停止,待問題處理完畢后流程會繼續執行。
數據質量管理模塊對稽核調度任務具有啟動、停止、定時和并發數設置的功能,支持稽核任務的執行狀態查詢,支持查看圖形化的工作流監控界面。
1.6.3 ? 數據質量分析
對數據質量問題的有效管理,是數據治理工作成功的關鍵。數據質量分析提供對數據采集、處理、應用等環節質量稽核結果的綜合分析,是一個集中展示數據質量狀況的窗口。
數據質量分析支持對問題數據的檢索,重點關注稽核對象問題數據,提供對問題數據數量變化的趨勢分析、對問題數據不同稽核類別的數據分布分析以及對問題數據的整體分析功能。
2 ? ? 數據治理流程分析
數據治理從完整性、準確性、一致性、及時性、穩定性、規范性六方面完成對數據質量的評價,并完成閉環治理,實現數據的統一規范和統一管理。
數據治理需要數據標準、元數據、基礎數據、數據模型、數據質量管理各要素協同完成治理過程,數據治理協同流程如圖2所示。
數據標準發布是數據治理的第一步,數據標準包括文檔、用語、業務代碼、模型、指標體系等。數據模型提供邏輯建模、物理建模及模型管理功能,數據建模過程中引入數據標準,實現標準落地。元數據服務和管理是數據治理的核心部分,原始數據通過加工轉換形成目標數據,目標數據校驗結果自動生成數據質量元數據。基礎數據實現版本管理功能,并提供數據訪問接口,供數據集成系統調用。數據質量管理提供數據質量問題的全流程跟蹤、記錄功能,以保證數據質量問題能夠得到有效分析、準確分發、及時解決,最終提升數據質量。
3 ? ? 實踐和成果
筆者通過分析數據治理要素,完成了數據治理體系的構建,并應用于江蘇省市場監管數據管理服務。截至2020年7月下旬,共處理數據280余億條,數據總量高達2 181 GB。
江蘇省市場監管數據治理體系,堅持標準先行,錄入正式發布國標、省標及相關行業標準,并將數據標準系統化。部分數據標準見表1。
江蘇省市場監管數據治理采用專項治理和日常巡查結合的方式實現。
專項治理指集中一段時間就某類數據質量問題進行集中整治,按需抽取檢測規則,展示問題數據的占比情況和各地區的問題數據量,并生成分析報告和各地市問題數據的詳細清單。本文對某信息化系統歸集的數據進行專項治理,制定5項稽核規則,共檢測出問題數據36萬余條,詳情見圖3。
日常巡查指完成資產盤點之后,對于業務上不符合稽核判斷規則的數據項進行檢測,并發布檢測報告。體系支持自動設定任務,完成對數據的巡查,支持稽核規則配置、周期性任務規劃等。圖4為江蘇省市場監管某次日常數據巡查結果。
4 ? ? 結 語
2019年11月,國家市場監督管理總局辦公廳發布《市場主體登記數據質量建設實施方案》,明確指出要以數據質量建設為契機,進一步加強全系統市場主體數據監測,全面規范業務流程和數據標準,完善數據質量管理制度,形成提升數據質量的長效機制,為市場監管改革提供堅實的數據基礎和支撐服務。
《市場主體登記數據質量建設實施方案》說明數據質量建設的主要任務是建立數據質量評價標準、開展數據質量監測、建立完善數據質量糾錯機制及加強數據質量管理制度建設。各地市場監管部門在數據質量建設工作中,要將數據質量建設工作落到實處。只有抓好數據質量,才能真正提高市場監管信息化建設和應用水平。
主要參考文獻
[1]盧樂天,陽夢華,鄧櫻文.政府數據治理體系研究[J].電信工程技術與標準化,2019(1):29-33.
[2]司莉,曾粵亮,機構科研數據知識庫聯盟數據治理框架研究[J].圖書館論壇,2018(8):61-67.
[3]張國寶,卞藝杰.一種面向閉環的數據治理平臺與方法設計[J].計算機技術與發展,2019(8):156-160.
[4]司曉.數據要素市場呼喚數據治理新規則[J].圖書與情報,2020(3):7-8.
[5]李倩,劉冰潔,趙彥云.大數據環境下的統計元數據建設[J].統計與信息論壇,2020(3):14-20.
[6]顧嘉琪,袁莉.基于公眾需求的政府數據開放服務質量提升研究[J].情報雜志,2020(6):196-202
[7]ALRUITHE M, BENKHELIFA E. Cloud Data Governance Maturity Model[C]//2017 8th IEEE International Conference on Software Engineering and Service Science. Beijing:IEEE, 2017:517-520.
[8]陳艷,高原.電網企業數據治理成效評估及應用前景研究[J].現代經濟信息,2019(13):66.
[9]農發行總行信息科技部課題組.提升數據質量的方法和路徑[J].農業發展與金融,2019(5):81-84.