荀 華,韓荀杰,張 森
(1.內蒙古電力科學研究院,內蒙古呼和浩特010020;2.杭州電子科技大學,浙江 杭州 310018;3.紫光軟件系統有限公司,陜西西安 710000)
隨著生產管理系統建設的不斷深入,輸變電設備臺賬數據以及運行數據越來越多,由于人員誤操作、系統誤發、參數設置等原因導致的業務數據質量問題也越來越嚴重[1,2],主要表現在屬性缺失、數據不完整、數據處理不及時、數據不規范、數據重復、數據屬性不一致等,這些數據質量問題直接影響后續業務操作和決策,尤其是在數據表之間存在依賴關系的情況下,影響范圍更廣。傳統電力行業應用的生產管理信息系統錄入缺乏規范性管理,且在實際運行場景中經常出現數據錄入錯誤、缺失以及數據屬性不一致等問題[3]。如果其中一張數據表出現異常,由于缺乏有效的數據質量檢查手段,設備故障時就可能無法追蹤溯源發現故障原因,不同部門間可能造成數據沖突,業務決策也將出現偏差。
針對上述電力數據質量問題,電力系統的研究人員和學者已經提出了一些有效的數據質量分析方法和系統。在數據質量檢測方面,文獻[4,5]都針對多數據源提出了電網數據檢測和校核方法,文獻[6]通過獲取電能質量數據來檢測服務數據的一致性和性能;在數據質量評價方面,文獻[7-9]針對電網數據分別提出了自動化、多維度和綜合的質量評價方法和系統,多角度評價數據質量。上述方法已經能夠解決一些特定電力業務的數據質量問題,但是缺乏一定的擴展性,考慮到電力業務數據特點和行業數據規范,基于規則的數據質量管理和評估[10,11]能夠靈活、高效地通過權重配比實現數據質量管理和自定義評估分析。
本文提出一種基于規則的電力數據質量檢查方法,根據該方法設計并實現了面向電力業務的數據指標檢查系統,發現數據存在的問題,修正問題數據,提高數據質量。該系統針對電力生產管理信息系統數據建立面向特定業務需求的數據質量檢查規則,采用規則權重配置方式綜合評估數據檢查任務,實現對業務數據的質量檢驗,標記數據存在的質量問題,分規則對比多個數據表通過率,并進行可視化展示,即時生成質檢評估報告,實現電力業務數據的全方位質量把控。
電力數據指標檢查系統主要面向各類變壓器參數、斷路器參數、線路缺陷記錄數據、試驗記錄數據、檢修記錄數據以及線路臺賬信息等數據。
數據完整性和正確性是判斷數據可用價值最重要的指標,所以數據質量檢查主要從數據完整性和正確性兩大維度對電力業務數據進行質量評估:
1)數據完整性:該指標用于表征數據表記錄的完整性校驗,主要包括“字段數值不能為空”。
2)數據正確性:該指標用于表征數據表記錄的正確性校驗,主要包括“字段數值以特定字符結尾”,“字段數值小于500 kV”,“字段1數值為220 kV時,字段2數值以特定字符結尾”等規則類型。
一個質量檢查規則即一個評分標準,可以校驗單字段,也可以校驗多字段邏輯關系。特別的,檢查范圍可以采用過濾條件來篩選部分數據進行校。
基于質檢規則評估電力數據質量主要通過配置規則權重進行綜合評分計算,考慮到電力數據表中不同的字段對電力業務運行影響程度不同,不同數據表下不同字段相關的規則權重配置不同。
當數據檢查任務處于執行成功狀態時,具體得分計算如式(1)所示:

式中,N(N≥0)表示當前任務包含的規則總數,一項數據檢查任務中可以包含m(m≥0)張數據表,每張數據表對應n(n≥0)條規則,即 ;si表示單個規則得分,計算如式(2)所示:

式中,D(D>0)表示該規則檢查的數據總條數;Dpass(Dpass≥0)表示通過該規則的數據條數;
wi表示單個規則對應的權重,規則權重配置主要分為三種,如式(3)所示:

根據帶權重等級的質檢規則計算獲取的評分更能反應真實電力數據的可用度和價值性。
系統整體架構設計主要分為三層:數據層,服務層和展示層。數據層存儲電力數據,經過服務層獲取檢查結果并計算評分,最后提供給前端展示層進行可視化展示,具體技術架構如圖1所示:

圖1 系統整體技術架構
系統功能模塊設計也分為三層,數據層主要存儲業務數據和質檢結果數據,為服務層提供數據支持,經過服務層處理和分析后,將結果傳輸至展示層進行展示。其中,服務層是平臺最核心的功能層,主要包括:公共數據管理、方案管理、任務及調度管理和結果及評價管理,具體如圖2所示。

圖2 系統功能模塊
1)數據層
數據層的主要功能是存儲導入的數據和經過檢查的結果數據,是整個系統的基礎功能層。
a.公共數據:系統外部導入的基于行業標準用語、業內標準用語制定的碼表集合,是行業數據標準規范。
b.方案數據:用戶創建的方案信息,包括方案名稱和描述、方案下的數據模型信息、質檢規則信息、模型關系信息以及上傳的質檢報告等。
c.待檢數據:用戶根據數據模型導入的待檢查的數據。
d.質檢結果數據:對導入的數據執行質檢任務操作后生成帶標記的結果數據。
2)服務層
服務層的主要功能是從數據層獲取數據,解析數據,根據質檢規則檢查數據,發現問題并標記,最后保存異常數據,進行統計計算后生成檢測報告,包括規則通過率、異常數據明細和數據對比。
a.公共數據管理
公共數據主要用于質量檢查規則的標準性和規范性檢查。在質檢規則制定時,可以引用公共數據的枚舉集合或者碼表記錄的內在邏輯關系進行制定,使得檢查規則有標準和規范可依。
b.方案管理
方案管理包括數據模型,質檢規則,模型關系,質檢報告四個子模塊。
數據模型:指待測數據的表結構,是數據導入的基礎。通常將數據評價標準一致的多張數據表放在同一個方案中,即一個方案中可以包含多個數據模型。
質檢規則:一個質檢規則即一個評分標準,可以單個字段校驗,也可以多個字段邏輯關系校驗。
模型關系:數據模型關系的體現是數據依賴,主要功能是為推導問題數據影響范圍提供依據。
質檢報告:是對任務輸出結果的樣式進行定義的過程,主要功能是依據用戶上傳的模板生成報告。
c.任務及調度管理
該模塊提供對質檢任務的綜合管理,是在方案模板建立基礎上,用戶創建一個任務進行數據抽取和執行檢查的過程。
數據抽取:針對數據模型的物理表,將數據導入到數據庫中,導入可以覆蓋導入也可以追加導入。
任務執行:根據創建的質檢規則進行數據篩查和計算的過程,執行結束后會生成質檢結果和評分。
d.結果及評價管理
結果及評價管理是將任務分析結果以多種形式進行打包,主要包括結果評分、質檢報告、結果對比和影響分析。
3)展示層
展示層的主要功能是獲取服務層結果及評價信息并進行可視化。
系統數據庫采用MySQL數據庫,數據表邏輯結構如圖3所示:
數據表之間以主鍵ID互相關聯。其中,方案表(project)、模型表(model)、字段表(model_field)、模型關系表(relation)、規則表(rule)、規則權重表(rule_weight)和任務表(task)都是通過用戶創建而生成的記錄表;任務執行記錄表(task_run_log)記錄的是任務執行信息;用戶表(user)記錄用戶信息。

圖3 數據庫邏輯結構
本系統作為一個電力業務應用系統,在平臺管理、實時數據庫等基礎應用服務的基礎山,實現了數據指標檢查、質量校驗、異常數據標記、質量評估和可視化展示等功能,為電力企業生產管理信息系統數據構建了全方位的質量把控應用。
系統部署方案如圖4所示:

圖4 系統部署方案
數據指標檢查系統可通過反向代理服務來訪問。靜態文件服務部署靜態資源文件,應用服務主要服務數據質量檢查服務,任務調度服務器主要用來管理任務執行,應用數據庫服務器即數據指標檢查服務數據庫、存儲方案及任務數據,計算服務器是用于執行數據指標檢查任務的計算服務器。
系統執行數據指標檢查流程主要分為三大部分:方案管理,任務調度和結果與評價。具體如圖5所示:

圖5 數據指標檢查系統流程
方案是數據指標檢查的基礎,首先創建檢查方案、模型和對應字段,對于存在依賴關系的模型添加模型關系標識,根據業務或者公共數據標準創建質檢規則,測試規則是否正確構建,定義規則的等級權重。
然后,創建檢查任務,導入與模型字段對應的數據表,執行任務即可獲取結果數據,對于執行失敗的任務,原因可能是數據格式不匹配或對應規則不正確,此時,需要刪除任務重新創建。
獲取結果數據后,根據第二章所述質檢評估方法進行計算和統計獲取綜合評分和各個規則通過率,對于一個方案下存在多個任務的情況,可以將多次任務結果進行可視化對比展示,最終生成質檢報告,便于導出。
系統以某地區電力公司變壓器參數表為例,對該數據指標檢查系統進行測試。該電力公司變壓器有干式變壓器、SF6變壓器和油浸式主變壓器三種,其中干式變壓器參數表有69個字段,SF6變壓器有85個字段,油浸式主變壓器有80個字段。根據系統流程,數據指標檢查步驟如下:
1)創建變壓器參數檢查方案。
該方案下包含三個模型:干式變壓器參數表、SF6變壓器參數表和油浸式主變壓器參數表,創建規則如表1所示:

表1 變壓器參數表質檢規則(部分)
根據電力業務需求,創建干式變壓器參數表質檢規則79條,SF6變壓器參數表質檢規則95條,油浸式主變壓器參數表質檢規則82條。
2)根據方案創建并執行變壓器參數檢查任務。
導入與模型相同表結構的數據,干式變壓器參數表有155條記錄,69個字段;SF6變壓器參數表有155條記錄,85個字段;油浸式主變壓器參數表有155條記錄,80個字段。
根據數據質量評估方法,變壓器參數檢查任務規則權重之和計算如式(4):

式中,N(N=n1+n2+n3)表示方案下規則總數;
n1(n1=79)表示干式變壓器參數表規則條數;
n2(n2=95)表示SF6變壓器參數表規則條數;
n3(n3=82)表示油浸式主變壓器參數表規則條數。
變壓器參數檢查任務綜合得分Score計算如式(5):

綜上,變壓器參數檢查任務綜合得分Score=97.5,即三張數據表綜合通過率為97.5%。特別說明:得分可以只選擇部分規則進行計算。
3)根據任務執行結果進行可視化并生成報告。
可視化展示除了綜合評分還包括單條質檢規則的通過率查看和質檢報告查看,分別如圖6、圖7所示:

圖6 變壓器參數檢查任務-評分界面

圖7 變壓器參數檢查任務-質量評估報告
電力數據質量不僅影響電力運維人員的工作效率,也直接影響電力系統業務安全運行。為了解決現有生產管理信息系統記錄數據的缺失、不一致等質量問題導致的人工核查成本高和部門間數據沖突等情況,本文設計并開發實現了一種基于規則的電力數據指標檢查系統,根據具體電力業務建立質量檢測規則體系,從完整性和正確性兩個角度高效并量化地檢查數據,解決電力數據質量檢查難題,快速地將缺失數據和不一致數據精準地標記出來,并在數據可信度和數據影響范圍方面給出量化評分和可視化展現。實際應用表明,該系統為電力企業提供了高效、高質量的數據指標檢查服務,實現了對電力數據的規范化梳理和整治。未來該系統還將針對電力業務數據擴展統計分析和修復推薦等功能。