路勁
(云南電網公司信息中心,昆明 650051)
數據(Information Data):是指信息系統在應用過程中通過采集、分類、錄入、儲存、統計分析、統計檢驗等產生的定量和定性的數據。數據質量指滿足某種定義和規則要求指標的數據,通常從以下五個方面對數據質量進行約束:
數據規范性:數據的定義和取值是否滿足相關規范要求,如數據類型、數據精度、字符長度、數據格式、取值范圍、唯一性、編碼等方面是否滿足規范要求
數據準確性:數據值是否真實反映業務情況,或數據是否被準確記錄。
數據完整性:業務所需的關鍵數據項是否在系統中有定義,關鍵數據項是否被采集。
數據及時性:數據是否在規定的期限內獲取、錄入、更新、加工、刪除。
數據一致性:不同系統或同一系統內不同表單的相同數據項取值是否一致,關聯數據之間的邏輯關系是否正確和完整。
圖1 數據質量提升過程
如圖1 所示,數據質量提升過程通常包括五個主要環節:制定規則、校驗分析、問題量化、數據整治、總結分析,形成一個閉環過程。在實際運作過程中,數據質量提升往往遵循一個螺旋上升的過程,通過階段性的分析整治提升,逐步推進整體數據質量。
數據作為一種特殊而極其重要的資源,與物理資源相比具有其獨特的性質:
1)數據有生命周期:計劃、獲取、存儲、共享、維護、應用、消亡等不同階段,各生命周期階段對數據質量可能存在不同維度的約束指標要求。
2)數據的不穩定性:數據容易受到外界環境動態變換的影響,諸如企業戰略調整、生產經營目標的變更、管理制度的改革、工作流程的變化等都可能導致數據的變化,而數據的變化意味著數據質量的約束指標也可能需要隨之改變。
3)數據的增長性:隨著業務活動的開展,大量的新數據會被產生,對于新產生的數據,其數據質量是缺乏評估的,需要動態的對新生數據進行評估確認,以保證其合規性。
一方面,數據的上述變化特性,決定了數據質量的治理需隨數據的變化而變化;另一方面,數據質量提升的過程本身也是一個周期性調整的過程。因此,在數據質量校驗實施過程中,如何確保校驗規則的動態可調整將是至關重要的。
問題數據的追蹤與定位,是整個數據質量提升過程中的關鍵所在。作為問題分析與整治的前提條件,如何有效按照數據質量約束條件有效識別出不合規的問題數據,是數據質量提升需要解決的首要問題。
2.1.1 支持校驗規則動態配置
為了確保數據質量切實有效提升,數據質量管理平臺必須滿足數據動態治理這一基本要求。數據質量管理平臺借助校驗規則庫的思想,實現數據校驗的動態調整。在數據質量管理平臺中,校驗規則項作為最基本的數據質量約束指標,統一存放于校驗規則庫中。用戶可以根據實際的數據校驗需求,新增校驗規則項添加至校驗規則庫中,或是對已有的校驗規則項進行修改調整。每次執行數據校驗時,從校驗規則庫中按需選取規則組成校驗模型,通過執行引擎對校驗模型的調度執行,實現一個批次校驗規則對數據的校驗。通過對校驗執行前規則項的維護調整,達到按需動態校驗的目的。
2.1.2 松散耦合的非侵入式掃描
數據質量管理平臺的定位,在于協助各業務系統識別出其內部的問題數據。在數據質量管理平臺對各業務系統數據進行校驗的過程中,不可避免的會與各業務系統產生交互。為了降低數據質量管理平臺和各業務系統的耦合性,數據質量管理平臺將采用非侵入式的掃描方式來執行數據校驗。在執行數據校驗掃描時,數據質量管理平臺不需要在目標系統中植入任何程序,通過標準協議實現對目標系統數據源的直連,進而開展數據校驗掃描。通過使用標準訪問協議,降低對目標系統的依賴性,提高數據質量管理平臺的通用性。
圖2 數據質量管理平臺技術架構
支持自定義規則的動態配置,能夠以松散耦合、非侵入式的方式,實現對任意業務系統數據源的校驗掃描,是數據質量管理平臺最大的技術特點。在設計上,數據質量管理平臺主要由數據層、功能組件、連接適配器、應用界面四部分組成。
數據層主要由規則庫、缺陷池、連接源等數據組成。規則庫是動態校驗的基礎保障,規則在實現上體現為SQL 查詢語句模板,數據校驗的業務規則通過SQL 語句的查詢條件體現。缺陷池存儲掃描出來的問題數據詳細信息,為問題數據整治提供參考依據。連接源存儲了供連接適配器使用的標準協議訪問參數。
功能組件主要由報表管理、數據源管理、規則管理、執行管理、調度引擎組成。報表管理負責根據掃描出的問題數據記錄項生成統計報表,以便用戶對數據質量進行宏觀決策。數據源管理、規則管理提供了對數據層中的連接源和規則庫進行維護的功能。執行管理可以將一批規則組合為一個數據校驗模型,并通過指定數據源構成一個校驗任務。調度引擎是功能組件中的核心部分,它通過解析執行管理設置的任務信息,按照任務設定完成目標系統數據源的數據掃描,并將問題數據寫入缺陷池中。
連接適配器是實現松散耦合的非侵入式掃描的關鍵所在。數據質量管理平臺通過連接適配器,建立與目標系統數據庫的直接連接。在此基礎上,調度引擎根據任務信息中存儲的數據校驗模型,執行對應的校驗規則SQL 語句,從而找出業務系統中的問題數據。
圖3 數據質量管理平臺使用流程
數據質量管理平臺的典型應用場景主要由準備階段和使用階段構成。在準備階段中,需要完成數據校驗基礎信息的錄入。首先,通過數據源管理功能,完成目標系統數據庫連接參數的設置;其次,通過規則管理功能,將需要校驗的業務規則編制為對應的SQL 模板,存入規則庫中。
在使用階段,首先通過執行管理對本次掃描任務進行配置,確定連接適配器使用的數據源數據源,選擇需要使用的校驗規則組成數據校驗模型。在完成任務的設置之后,即可開始 執行校驗。校驗完成后,校驗出的問題數據會被存入數據質量管理平臺的缺陷池中,同時數據質量管理平臺會根據缺陷池信息生成數據質量報表,供用戶分析決策使用。
綜上所述,針對業務數據動態變化的特性,以動態校驗技術為核心,搭建了數據質量管理平臺。借助該平臺,用戶可以使用自定義的校驗規則,以松散耦合的非侵入式方式實現對業務系統數據的校驗掃描,有效識別出問題數據,為業務數據整改及數據質量有效提升奠定基礎。
[1]陳勇成,趙傳征、廣西電網公司營銷基礎數據質量評價管理系統設計分析、《廣西電業》、2012.4 (總第144 期)、P29-P32
[2]楊璽,譚健聰,張俊、數據質量管理在電力安全生產信息系統中的應用、《電子世界》、2013 (22),P234-P235
[3]盧紹年、淺析企業信息化建設與數據質量、《廣西電業》、2013.3 (總第155 期)、P88-P89
[4]鄭芒英、數據質量管理平臺的研究及應用、《寧波職業技術學院學報》、2013.1 (第17 卷第1 期)、P105-P107