魏嘉瑋
摘要:電網設備臺帳數據是電網生產運營分析必不可少的一部分,而且數據質量水平直接影響了數據分析結果的準確度和對策的合理性。現以廣東電網有限責任公司中山供電局的設備臺賬數據質量為例來研究,通過總結分析設備臺帳數據的質量現狀,探究影響數據質量準確性的技術、管理等原因,比較不同的檢查方法并重點分析基于數據分析的檢查方法,利用數據挖掘技術對文本信息進行文本矯正。并提出能針對具體的數據質量來改善管理措施和技術措施,為提升信息系統數據質量提供了支撐。
關鍵詞:數據質量現狀;準確性;檢查方法;文本矯正
中圖分類號:TP311.13文獻標識碼:A 文章編號:1674-098X(2017)12(a)-0000-00
雖然每年網、省公司都會投資大量的資金人力來提升數據質量,但是目前的數據準確性依舊不夠。因為目前數據質量提升的手段相對比較單一,并且都是通過已經制定好的檢查系統的規則或者算法來進行檢查,而這種制定好的規則更多是針對填寫的規范性或者結構性問題來篩選,比如判斷必填項是否填寫、參數范圍是否在枚舉范圍內等,這種檢查規則并不能檢查出數據準確性問題,另外檢查規則的涉及范圍十分有限,所以數據質量的提升達不到理想效果。
一、設備臺帳數據質量現狀
近幾年來,信息系統不斷完善提高,但還是存在數據缺失,數據質量準確性低下等問題。目前廣東電網有限責任公司中山供電局設備臺賬數據質量的主要問題是數據準確性差,數據不完整,包括部分設備臺賬缺少數據,設備參數不準確及設備類別不準確等問題。設備參數不準確包括饋線長度不合理、生產廠家不合理,設備型號不準確,變壓器額定電流不準確等;設備類別不準確具體包括開關類型不準確,配變類別不準確等問題。這些問題會影響賬、卡、物的一致,比如不能有效支持業務應用,不能滿足數據分析應用要求,同時不能有效支持基于臺賬數據質量的分析應用,不能很好地發揮數據價值。
二、設備臺帳數據質量的檢查方法
2.1傳統檢查方法
傳統的檢查方法就是基于已設定的規則檢查,由業務專家梳理規則,系統固化規則,主要是檢查必填項的填寫和枚舉值的參數范圍。
傳統檢查方法很難檢查出數據準確性問題,比如某些字段的篩選要求不夠嚴謹,規則檢測的數據基本全部通過,但實際有效的數據仍存在數據精準度不高等問題。如主變容量,按照規則只要填下下面任何一個都算正確,但實際上,不同電壓等級變壓器取值會有區別,如500kV變壓器容量不可能只有800kV,110kV變壓器容量也不會是1000000kV。另外桿塔檔距要求是大于0的數字就行,但實際上還是有一個合理范圍,與桿塔高度等都有關系。
2.2.基于數據分析的檢查方法
這一種檢查方法是采用數據挖掘技術,根據數據的分布特點,建立數據分析模型,進行數據質量的自識別,重點發現數據的準確性問題。由于主配網設備臺賬涉及三千多個設備類別,共計五千多個技術參數,無法對每一個參數單獨建立分析模型。本方案總體思路是開發一套數據質量治理組建,針對數值型參數采用離群點檢測組件,對于文本型參數采用文本矯正組件。
2.2.1桿塔呼稱高、全高分析
2.2.1.1截尾方法
從上圖可以明顯看出,圖中存在幾個異常點,這些點與多數值比較極大,采用截尾方法處理,按照從小到大排序,截取99%以內的數據,剩下1%的數據為疑似可能值,將數據標記。
2.2.1.2基于密度的聚類
根據業務知識可知呼稱高和全高存在一定的相關性,可能存在呼稱高和全高在一定均在正常范圍內,而呼稱高和全高差距較大。利用基于密度的聚類實現異常點的檢測。
3.文本矯正的樣例分析
文本矯正主要是利用數據挖掘技術,建立標準庫,通過文本挖掘計算矯正文本和標準庫中的文本信息的相似度,進一步矯正文本信息,規范文本信息的填寫。如設備生產廠家、型號等字段可采用此種方法進行檢測,具體見樣例分析中的文本矯正。
3.1 設備廠家文本矯正整體思路
① 首先建立標準廠家庫,標準廠家庫主要從數據庫中提取和業務人員整理。
② 對歷史廠家字段(或新輸入廠家字段),利用文本挖掘手段在標準廠家庫中匹配搜索。
③ 將標準中廠家名稱推薦給用戶。
3.2樣例說明
四、提高設備臺賬數據質量的建議和措施
由分析現有的數據質量現狀得出,提出以同時加強管理和技術手段的方式來保證數據的準確性。具體措施如下:
4.1建立設備臺賬管理制度
按月設定業務管理部門的數據考核標準,完善登記使用系統,提高使用者的責任心,確保每個部門都能執行設備臺賬管理制度。建立數據審核管理制度,記錄每一個有問題的數據,具體到時間、人員、缺陷問題描述等。定期檢查數據的消缺率和及時率,做到時刻監督。并且要對已經發現和處理的數據質量問題進行總結歸類,比如數據質量的監控點設置、參考解決方案、實際解決方案、解決結果反饋等。并且為了跟進信息的發展和提高業務人員的水平,完善信息系統的功能結構,有必要對相關業務人員展開系統的培訓。
4.2規范系統使用過程
有關部分要切合實際,制定可行的信息系統使用規范,在信息系統中實現數據的錄入、分析、整理和匯總,真正提高數據的準確性。充分利用現有的信息資源,組建專門的培訓隊伍,培訓系統的操作方法以及注意事項。比如組建以信息技術為主導的審查人員,形成一套數據審查規范,確保審查人員經過專門的培訓并合理分配到每個業務部門,加強業務部門的操作規范。
4.3完善業務模型,優化系統設計
為了及時更新完善業務模型,需要對系統的設計進行優化。比如在業務部門設立專門的電話聯絡人員,及時更新用戶和信息系統程序員之間的聯系,電話聯絡人員可以對業務模型和數據范圍進行監督,必要時候可以提供技術上的幫助。
4.4完善數據質量檢測規則
為了有效應對不同類型數據,要提取相關的有效數據并結合數據挖掘技術來對不同的數據驚醒分析匯總,并且建立系統的檢測方法和制定完善的檢測規則。
4.5對歷史問題進行數據清理
為了對歷史數據進行有效的清理,應建立專門的清理組織,制定系統的工作方案,有序地進行歷史數據的清理。由上級管理部門組織,各個業務部門共同參與配合,對資產設備進行統一的盤點并和數據目錄進行核對。核對結束之后檢查整理并及時更新設備臺賬,保證數據的準確性和完整度。
五、總結:
通過以上分析得出,提高設備臺賬數據質量準確性的具體措施。不僅對整個電網行業如何進行數據質量的提高和信息系統的完善有了較強的意識,同時也對企業合理利用數據系統開展業務分析,對企業決策起到參考作用。
參考文獻:
[1]楊浩,徐暉,蕭展輝等。廣東電網公司生產信息系統使用化評價研究[J]。廣東電力,2010,23(4):29-34
[2]陳孟婕。數據質量管理與數據清洗技術的研究與應用[D].北京:北京郵電大學,2013
[3]黨芳芳。電網企業業務數據質量管控技術的研究[D].北京:華北電力大學,2014