

【摘要】企業的數據質量與業務績效之間存在著直接聯系,高質量的數據是提高企業精細化管理水平、推動管理提升的重要支撐。本文重點研究數據質量應該包含哪些方面的內容,以及通過什么樣的步驟或方法對數據質量進行管理和監控,并以電力安全生產設備數據為基礎,講述如何通過信息系統提升生產設備數據的質量。
【關鍵詞】數據質量;業務績效;信息系統;現狀
1.數據質量背景
南方電網公司2012年工作會議明確提出要“著力提高精細化管理水平”,扎實開展“管理提升年”活動,推進公司整體管理水平的提升。隨著公司信息化建設的不斷深入,對數據信息的需求量越來越大、要求越來越高,數據質量的高低直接影響和決定著業務數據、統計信息的有用性及其價值,直接關系到公司的經濟效益、社會效益以及公司管理和發展的順利進行,因此迫切需要開展數據質量專項工程,切實落實“突出抓好數據質量”的要求,深化應用信息化手段,推動管理提升和管理精細化。
2.數據質量現狀
經過多年信息化建設,公司在數據質量管理方面取得了一定的成效,整體數據質量得到了一定提升。但是在傳統管理模式下,還存在諸如缺乏統一管理、數據源不唯一、責任不明確、缺乏企業資源統一建模以及數據標準執行不到位等問題。以安全生產設備為例,問題主要如下:
(1)缺乏統一管理:目前設備涵蓋了變電、輸電、配電網,變電和輸電設備的管理主要在主網生產或資產系統中集中管理,而配網設備則是在營配一體化或配網生產系統中,管理源頭不統一。
(2)數據源不唯一:主網生產系統、資產系統、營配一體化系統、配網生產系統由不同的廠家在不同時期建設,數據要求不統一,導致數據源不統一。
(3)責任不明確:設備數據的建立橫跨了工程、物資、生產、財務等多個部門,涉及的業務部門多、數據復雜、信息量大,數據未進行很好的職責劃分,導致業務部門在數據信息的錄入和管理上缺乏指導及考核,數據的質量不高,管理混亂。
(4)缺乏統一建模:由于系統建設的周期不一致,對設備的數據的應用范圍要求也不一致,未形成統一的設備模型,導致同類設備,在元數據模型上存在差異,影響到數據分析及數據質量。
3.數據質量概述
數據質量也就是信息質量,不良的數據將產生不準確的信息和較差的業務績效。在系統建設的不同階段,對數據質量的關注點也有所不同。早期對數據質量的關注點主要是提高數據準確性,隨著系統功能和定位的不斷延伸,關注的重點逐步由數據準確性擴展至完整性、一致性、及時性等方面,這些內容也屬于數據質量的范疇。
數據質量好不好,首先需要考慮數據質量六大基本要素是否滿足,所謂六大基本要素是指:
完整性:主要包括實體不缺失、屬性不缺失、記錄不缺失和字段值不缺失四個方面;
(1)唯一性:指主鍵唯一和候選鍵唯一兩個方面;
(2)一致性:指統一數據來源、統一存儲和統一數據口徑;
(3)精確度:指計量誤差、度量單位等方面的精確程度;
(4)合法性:主要包括格式、類型、域值和業務規則的有效性;
(5)及時性:指數據刷新、修改和提取等操作的及時性和快速性。
4.影響因素分析
如圖1所示,影響數據質量的因素主要來源于四方面:信息因素、技術因素、流程因素和管理因素。
4.1 信息因素
由于對數據本身的描述理解及其度量標準的偏差而造成的數據質量問題,產生這部分數據質量問題的原因主要有:
(1)元數據描述及理解錯誤、數據度量的各種性質得不到保證和變化頻度不恰當等。
(2)元數據描述及理解錯誤中的相關元數據主要包括業務描述、業務規則、業務術語、業務指標口徑等。
(3)數據度量和變化頻度提供了衡量數據質量好壞的手段。數據度量主要包括完整性、唯一性、一致性、準確性、合法性。變化頻度主要包括業務系統數據的變化周期和實體數據的刷新周期。
4.2 技術因素
主要是指由于具體數據處理的各技術環節的異常造成的數據質量問題,它產生的直接原因是技術實現上的某種缺陷。數據質量問題的產生環節主要包括數據創建、數據獲取、數據傳輸、數據裝載、數據使用、數據維護等方面的內容。
4.3 流程因素
由于系統作業流程和人工操作流程設置不當造成的數據質量問題,主要來源于系統數據的創建流程、傳遞流程、裝載流程、使用流程、維護流程和稽核流程等各環節:
(1)創建流程質量問題主要指操作員數據錄入時缺乏審核流程;
(2)傳遞流程質量問題主要指通信流程溝通不暢;
(3)裝載流程質量問題主要指清洗流程缺乏/不當、調度流程邏輯錯誤、數據加載流程邏輯錯誤及數據轉換流程邏輯錯誤;
(4)使用流程質量問題主要指數據使用流程缺乏流程管理;
(5)維護流程質量問題主要指缺乏變更維護流程、缺乏錯誤數據維護流程、缺乏數據測試流程以及對人工后臺調整數據沒有嚴格的流程監控;
(6)稽核流程質量問題主要指缺乏數據錯誤反饋流程。
4.4 管理因素
由于人員素質及管理機制方面的原因造成的數據質量問題。如人員培訓、人員管理、培訓或者獎懲措施不當導致的管理缺失或者管理缺陷。
5.數據質量管理過程
數據質量管理(Data Quality Manage-ment),是指對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發的各類數據質量問題,進行識別、度量、監控、預警等一系列管理活動,并通過改善和提高組織的管理水平使得數據質量獲得進一步提高。數據質量管理是循環管理過程,其終極目標是通過可靠的數據提升數據在使用中的價值,并最終為企業贏得經濟效益。
5.1 數據質量管理方法
數據質量管理借鑒六西格瑪管理方法,以事實為驅動,講信息和數據質量提高周期分為評估、認知、行動三個階段,每個階段開展相應的具體數據質量管理活動。如圖2所示:
(1)定義和商定問題、時機和目標,以指導整個數據質量管理的工作。
(2)收集、匯總、分析有關形式和信息環境。設計設計捕獲和評估的方案。
(3)按照數據質量維度對數據質量進行評估。
(4)使用各種技術評估劣質數據對業務產生的影響。
(5)確定影響數據質量的真實原因,并區分這些原因的影響的數據質量的級別。
(6)最終確定行動的建議,為數據質量改善制定方案,包括數據級和組織級的。
(7)建立數據錯誤預防方案,并改正當前數據問題。
(8)通過改進組織管理流程,最大限度控制由管理上的缺陷造成的數據質量問題。
(9)對數據和管理實施監控,維護已改善的效果。
(10)溝通貫穿管理始終,循環的評估組織管理流程,以確保數據質量改善的成果得到有效保持。
5.2 數據質量分析流程
在明確評估方法后,需要對數據開展分析工作,評估對業務的影響,主要通過以下5個步驟:
(1)識別需要審查的數據集合;
(2)按照業務用途對數據集歸類;
(3)利用分析工具對數據集進行經驗分析;
(4)列出所有潛在的異常之處;
(5)對于顯現出的數據缺陷,提交給數據專家進行處理并評估潛在的業務影響;
本質上,對數據集進行統計分析是為了評估:
(1)生成記錄的比例;
(2)數據值產生的每個屬性的數量;
(3)經常發生的值;
(4)潛在的極端值;
(5)同一個表內列之間的關系;
(6)表與表之間的關系;
5.2.1 數據質量規范定義
根據分析的結果,建立數據質量規范,對數據質量管控要求進行明確的約束,需要體現的內容包括:
(1)可測量性:規范要具有可測量性,在不同的業務范圍內,可以進行計量;
(2)業務相關性:要與業務期望相匹配;
(3)可接受性:數據的質量維度表達了業務的需求,對質量維度的測量提供了一個數據質量水平,應設定一個符合業務需求的質量水平基準,當低于這個基準時,應及時處理;
(4)責任分工:當數據質量不符合業務期望時,按照預定義的職責,應該有人對此負責采取處理措施;
(5)可控制性:恰當的數據質量測量維度應表達業務控制的要求,換句話說,當數據質量進入不良的范圍時,應觸發數據改進流程;
(6)跟蹤性:持續跟蹤數據的改善過程。
5.2.2 數據質量業務規則定義
在數據質量管控要求范圍內,參考數據質量維度,對數據集的每個數據項進行業務規則的定義:
(1)值范圍檢查:錄入的數值在枚舉值范圍內,如郵政編碼;
(2)定義一致性:在全流程中,保證數據的定義被一致性的理解;
(3)范圍規則:數據的屬性值應確保在一定范圍內(時間的、數字的、預定義的);
(4)格式符合度:為數據制定要遵循的模式,如電話號碼模式;
(5)匹配性檢查:某些數據屬性值必須與其他域內的某個值相匹配,如市與省之間的關系;
(6)值和記錄的完整性:不存在遺漏的屬性值;
(7)準確性確認:比較錄入和輸出的數據值,確認其準確性;
(8)唯一性確認:錄入的數據必須唯一;
(9)時間線確認:標識數據的可用和可訪問時間特征。
5.3 數據質量控制
數據的質量改進絕非一朝一夕的事情,而是一個持續的過程。在明確了數據質量的規則之后,需要制定一個數據問題整改提升的流程,通過不斷的改進流程,持續不斷地排除錯誤、對數據進行整合和標準化,最后達到流程的自動化,從而降低數據質量計劃的總體開銷。
數據質量控制還需要選擇和實施數據質量策略。目前的策略類型有兩種:在輸入數據時提高數據質量的方法稱為“上游”方法,而從系統提取數據的應用程序(如數據倉庫)中改善數據質量的方法是“下游”方法。事后制定流程優化持續改進即為“下游”方法,事前的數據錄入(“上游”方法)的質量預控更為重要。
上游策略研究當前應用程序的邏輯、數據和流程,解決檢查過程中發現的異常情況。此策略可能涉及到更改應用程序邏輯、添加更好的表驗證、改善與數據輸入相關的流程,它致力于數據的高準確性。
6.生產域設備數據質量看板
安全生產管理信息系統的核心主數據為設備,設備數據質量的好壞直接影響到整個生產管理信息系統的業務應用。故以生產設備數據作為數據質量看板的數據集,參考數據質量的核心要素和管理方法,對生產管理信息系統設備數據進行質量管控,促進生產業務的應用。
6.1 規則定義
以南方電網公司設備信息分類與編碼標準為基礎,按設備分類進行設備數據質量規則的定義,作為數據質量校驗、評估的依據。根據標準中的分類、基本信息和技術參數規范,選取必填的重要屬性,劃定屬性的數據類型、長度、業務規則、字段類型、編碼,并從完整性、規范性、唯一性等方面進行約束。
6.2 數據質量評估
在安全生產管理信息系統中按設備類別固化設備數據質量規則,形成數據質量規則庫,選定由下至上的數據質量評估方法,以數據質量規則為標準,對每類設備的每個數據進行檢查和校驗,挑出不符合規則的設備數據,形成問題數據記錄。結合數據質量管理目標,按數據問題類型、不符合規則項等維度統計異常數據量,導出統計數據,形成數據質量報告。
安全生產管理信息系統將設備按邏輯及物理方式劃分為功能位置、設備及部件三種類型,根據數據質量規則,自動對設備進行檢查和校驗,分別統計出功能位置的錯誤設備數據量、錯誤率,設備及部件按照變電一次、繼保、輸電、通信、自動化等專業進行匯總統計錯誤設備數據量、錯誤率,并能按照統計數量進行挖掘查看明細設備,能清楚知道設備屬性,因為什么原因產生錯誤,并能與業務規則進行比較查看,供各專業人員分析及糾錯。
6.3 質量改善
以數據質量看板中檢查發現的設備數據質量問題記錄為依據,分析認定為異常數據,則在安全生產管理信息系統中直接發起設備變更的管理流程,按數據質量的要求調整錯誤的設備信息。在問題記錄全部處理完畢后,再次執行數據質量規則的檢查與校驗,驗證錯誤數據是否得到糾正,形成PDCA的閉環管理,持續提升設備數據質量。
7.總結
數據質量作為影響決策正確性的基礎元素,已經成為南方電網公司一體化大潮下最具競爭力的工具之一。可靠的數據是企業最具價值的資產,在數據質量管理上所投入的資金和時間,將會在現在和未來得到高額的回報。目前在生產域設備數據看板上探索研究了數據質量管理的方法、規則,后續需要借鑒此經驗,在整個企業內部,建立科學有效的數據質量管理系統,對組織的數據質量實施全程、全域和全員管理,將數據質量管理以制度化、規范化的方式落實到數據生成、傳遞和使用的各個過程、方面和人員之中。
參考文獻
[1]南網生產域數據質量整治方案(部門發文).
[2]南方電網公司數據質量專項工程工作方案.
[3]數據中心數據接口單元-生產管理分冊.
[4]南方電網公司生產域數據質量規則.
[5]南方電網公司設備信息分類與編碼標準.