黃緒勇,劉文波,王裴劼,陳達
(1.云南電網有限責任公司電力科學研究院,昆明650217;2.昆明能訊科技有限責任公司,昆明650217)
在線監測系統數據特性分析
黃緒勇1,劉文波2,王裴劼2,陳達2
(1.云南電網有限責任公司電力科學研究院,昆明650217;2.昆明能訊科技有限責任公司,昆明650217)
以云南地區變電站數據為例,從數據的角度充分分析和總結了設備監測數據的現狀及存在的問題,并分別對數據缺失、均值特性、數據變化趨勢加以分析,從中發現隱含的趨勢和規律,提出適當的有效應對措施和解決方案。
在線監測數據;采集現狀;數據缺失值;均值特性;分布趨勢分析
設備在線監測數據,主要用于實時監測、觀察和記錄各設備運行指標的變化,多集中于電網系統中的一次主設備、二次設備一類大型設備的監測。開發設備數據特點分析的系統功能應用研究,具有非常重要的實踐意義,為推動數據分析領域在電網系統工程應用方面的進展提供經驗[1]。
近年來研究智能電網大數據分析應用領域取得了較為豐碩研究成果,涉及電網故障診斷[2-3]、電網調度控制[4]、數據整合[5]、設備狀態監測[6]等應用。事實上,針對智能電網大數據分析、數理統計分析的理論研究和應用是一個長期而復雜的工作。相關技術仍在快速發展中且未進入穩定期[7]。
文中基于統計分析原理和實際工程經驗,提出基于云南電網現有技術監督數據分析中心變電設備的在線監測數據,統計和分析設備監測數據(以變壓器為例)的數據采集現狀、缺失值分析、均值特點和數據分布趨勢,探索監測數據特點的規律應用,為提高數據質量和決策水平提供有益的經驗。
本文數據特點分析的數據來源于云南電網技術監督平臺變電在線監測系統的原始數據庫,用于分析的是8個云南省地級市縣供電局的17個110 kV及以上等級變壓器的全部油色譜數據。
本文通過對部分設備65 500多條非空現場數據的觀察分析,總結得出現場技術監督中心實際采集到的監測數據現狀,描述如下:
1)從局部視角看,數據缺失、冗余比例大,采集到的現場數據集基本是片段式,數據的完整比例較小,有效分析數據量少。以分析數據集為例,各監測設備變量在以 “天”為采集頻率上傳至數據中心的實際非空數據占理想數據的比例都≤68.9%,刪除非空數據集中冗余數據后真正剩下的有效數據比例都縮小至≤29.1%,即最多一組數據的變量記錄為63條,數據跨度僅包含1月至3月。由此,超過一半比例的缺失數據是現有電網系統推動數據分析應用的難題。
2)從整體視角看,電網系統整體運行穩定且時間持久,除規劃拆除的監測設備外,各監測點持續積累的數據量龐大,監測對象較為固定,以年為單位的數據總集已能足夠反映設備運行的發展趨勢,且若能在已有的有效數據集上適當的應用數據分析技術 (包括缺失補全),那么從數據角度來實現客觀評估和考察系統運行、設備狀態等應用將有望得到突破。
3)從數據本身視角看,按設備各變量分組的監測數據集,在同類單個設備之間監測變量的數據集間距較為明顯,但組內數值的波動卻較為集中,滿足聚類分布情況。聚類中心差距較明顯。但仍存在少部分數據集有交疊,聚類中心相距較近的情況,則需按實際數據情況而論。
4)從數據視角看組內數據集,在運行狀態穩定的情況下,單位監測時間點的監測變量數據分布較為規律,近似服從正態分布。數據的正態分布圖如下:

圖1 氧化碳、乙烯數據的正態分布圖
文中分析的數據采集范圍只是一段時間內的,但表現出的數據現狀同樣適用于整體數據的現狀分析。
2.1 缺失值分析
2.1.1 數據缺失現狀
現場各監測點采集上傳到數據中心的原始數據存在著一定比例的缺失情況[9~12],從具體分析實例來看,只有不到一半比例的監測時間點是非空數據,其他時刻都為變量的空缺數據。造成監測時間數據空缺的原因是多方面的,主要有以下幾種情況:
1)可能由于通信網絡不穩定、數據上傳路徑出現短時中斷、故障、長期掉線等網絡信號問題;
2)可能因外界環境刺激或硬件本身所引起的監測設備、通信設備、傳輸信道故障或掉電;
3)數據處理系統的數據管理技術或人為操作不當等原因。
針對上述現狀,文中提出通過缺失分析理論,對不同場景下的缺失數據采用不同的處理策略,最大限度地補全和修正三種缺失數據。原始數據經過缺失值分析處理后,更新得到的數據集雖然仍存在數據空缺,但較好地解決了有效數據段內的缺失問題,填補并修正了有效數據段內的空缺及零值,有效提高了數據的完整性和準確性,更大程度地保留了現場監測數據的真實性。
2.1.2 缺失處理
文中為較好的還原真實的現場監測數據,結合工作中實際經驗,提出不同場景下的不同缺失數據的處理方法。根據統計學已有文獻 [10],可知三種缺失數據中,冗余數據是最好處理的一種數據形式,可采用指定檢查每條記錄重新信息的簡單方式,直接刪除每條數據記錄的冗余項,并重新覆蓋數據集;而對空數據和零值數據,則可先對數據出現的情況進行分類討論,再根據不同情況采取不同的缺失處理方法,從而更好的補全數據的缺失。本文以數據現狀研究的樣本為例,將數據缺失情況分為如下幾類:
1)對出現數據 “空”或 “零值”缺失的且持續時間周期超過一個月的缺失情況,系統將不予缺失補全處理,直接輸出變量數據的缺失分析結論:“為網絡持續中斷、監測終端損壞或掉電出現的不可恢復缺失”。
2)按就近有效數據值進行分段分組,對出現數據 “空”或 “零值”缺失比例小于一半的各段數據對象,分別采用鄰近點均值、線性插值、曲線擬合的方法進行缺失數據的補全或修改,通過檢驗比較缺失處理前后三種方法對原始數據統計量的變化大小,最終選用變化最小的方法處理該段數據的缺失,將補全和修改后的數據集更新替代原始數據集。
在上述缺失處理策略中,我們考慮對空缺量太多的數據段采取放棄補全的方式,是由于數據處理中心已存儲了多年積累的龐大數據量,盡管數據采集情況不穩定,但利用統計的原理探索和還原監測數據本身的特征規律還是非常可行的。
2.2 均值分析
在數理統計學原理中,若變量數據服從正態分布,可通過求取數據集合的均值來表征該數據變量在集合中的集中趨勢,求取標準值來度量該數據集合的離散程度,即表征變量數據的穩定程度。由上節設備監測數據的現狀分析可知,以電網主設備為監測對象的監測變量數據都近似服從正態分布,那么可考慮適當的應用正態分布中的統計學定理,為設備數據和設備狀態分析提供參考。
文中結合電網數據本身特性,結合工程實際中的應用需求,提出如下均值分析功能包括:
1)分類統計分析時間段內不同種類單個設備各監測變量數據集合的均值、標準值。
2)利用切比雪夫定理,判斷分析當前時刻設備數據的異常狀態,以此給電網人員提供設備狀態的觀察提示。
3)對比分析多個同類設備同一時間段或多個時段同一臺設備的數據穩定程度,作為觀察設備運行狀態的輔助參考。
2.3 數據分布分析與趨勢分析
通過數據統計圖不僅可以直接、客觀地觀察各監測變量數據的變化走勢,還能伴隨輸出變量數據的回歸分析結論,其分析結果可幫助電網人員掌握數據分布、分析趨勢走向,并提供一定的數據預測功能,為監測數據的進一步利用做好鋪墊。常利用散點圖和時間序列圖這兩種統計分析工具,利用散點圖可統計不同類型單個設備各監測變量數據在不同運行狀態下 (正常、缺陷)的數值取值范圍,利用時間序列圖可比較同一設備不同時段或不同設備同一時段監測變量的曲線變化,還可求取對應曲線的回歸方程。為降低計算復雜度,求得較好擬合效果的曲線回歸方程,系統采用基于最小二乘法的自動分段曲線擬合方法[8],選取直線形式、指數形式、三次曲線這三種典型回歸方程類型,分段擬合數據集。擬合分析過程如下:
1)利用三種擬合函數擬合選取時段的所有數據,計算數據點擬合值與實測值的誤差均值。
2)比較各時間點誤差與,若兩者差的數據個數在3個以上則進行分段,否則不分段。
3)從分段點處到最后一個數據,重復上述步驟。最終,依次求得各分段數據的回歸方程組。
對比同一等級的不同設備各監測變量均值、標準差,可知同一設備變量值的集中程度與另一設備相比具有相同的大小趨勢。對照相同時間內這兩臺設備登記缺陷發生總次數,發現缺陷發生頻率多的設備相應的變量標準差都較大,由此基本可推斷,利用設備變量數據集的標準差來衡量比較不同設備運行的穩定程度,為設備狀態監控提供參考。同理,根據切比定理判斷變量狀態的理論同樣能滿足實踐應用需求。
4)數據分布分析與趨勢分析:以均值分析的數據為例,電網人員可通過數據分布分析與趨勢分析把握設備變量的數據分布情況與變化趨勢,預測當前設備在未來一段時間內可能的變量值。本文通過利用基于最小二乘法的自動分段多項式曲線擬合方法[8]對各監測項數據進行趨勢擬合,計算得到分析時段內監測項數據的擬合方程組,幫助用戶更準確的把握監測數據過去和未來的變化走勢,同時也能在一定程度上通過觀察趨勢評估設備的運行狀況。另外,單個監測項所有數據的概率分布情況也能為設備監測、變量監測提供重要評判依據。
在智能電網大數據應用的大背景下,本文提出對監測類設備數據的現狀與特征進行分析,不僅有助于幫助電網人員真實的掌握現有電網數據的情況,還為電網數據化應用的工程實現提供參考依據。針對現有系統中的數據特征現狀,采用的幾種分析應用手段能在一定程度上提高設備的安全風險防控、輔助狀態決策提供幫助,為進一步探索智能電網大數據應用提供研究基礎。
[1] 張東霞,苗新,劉麗平,等.智能電網大數據技術發展研究 [J].中國電機工程學報,2015,35(1):2-11.
[2] 康建東,李偉,張雋,等.基于數據挖掘的電網故障診斷研究 [J].電子測試,2014,(23):112-112.
[3] 聶倩雯,高瑋.基于關聯規則數據挖掘技術的電網故障診斷 [J].電力系統保護與控制,2009,19(23):78-82.
[4] 雯閆湖,狄方春,袁榮昌,等.電網智能調度中的大數據及應用場景研究 [J].電力信息與通信技術,2014,44 (10):78-81.
[5] 李芳,陳勇,張松樹,等.大電網統一數據庫建設相關技術研究[J].電網技術,2013,27(2):66-70.
[6] 羅毅,李昱龍.基于在線監測系統的輸電線路覆冰數據統計與分析 [J].電網技術,2012,38(11):3000-3007.
[7] 曹飛.斷路器在線監測數據分析的研究與應用 [D].浙江:浙江大學.2008.
[8] 劉霞,王運峰.基于最小二乘法的自動分段多項式曲線擬合方法研究 [J].科學技術與工程,2014,14(3):55 -58.
[9] 劉曉華,曾慶輝.佛山電網電能質量在線監測系統的數據分析與應用 [J].數字通信世界,2012(1):60-63.
[10] 馮麗紅.調查數據缺失值常用插補方法比較的實證分析[D].河北經貿大學,2014.
[11] 武松,潘發明.SPSS統計分析大全 [M].北京:清華大學出版社.2013:185-234.[收稿日期:2015-10-12.
Research on Analysis of Equipments Data Characteristics Based on On-line Monitoring System
HUANG Xuyong1,LIU Wenbo2,WANG Peijie2,CHEN Da2
(1.Yunnan Electric Power Research Institute,Yunnan Power Grid Co.,Ltd.,Kunming 650217,China;2.Kunming Enersun Technology Co.Ltd.,Kunming,650217,China)
By using Yunnan region substation data,and analysis the collection status,missing values,data average characteristics and data distribution trend of all equipment monitoring data individually.Then the hidden tendency and rules are discovered which may explore appropriate responses and solutions and lay the foundation of equipment operation research by field data.
online monitoring data;collection status;missing values;mean characteristics;distribution trend analysis;
TM76
B
1006-7345(2015)06-0009-04
黃緒勇 (1974),男,博士,高級工程師,云南電網有限責任公司電力科學研究院,從事電力系統及其自動化分析方面研究工作,(email)15504024@qq.com。
劉文波 (1988),女,碩士,工程師,昆明能訊科技有限責任公司,從事智能電網系統設計、設備運行分析研究工作 (email)liuwenbo@enersun.com.cn。
王裴劼 (1984),男,博士,高級工程師,昆明能訊科技有限責任公司,從事智能電網技術、無線通信技術及通信系統性能分析方面 (e-mail)wangpeijie@enersun.com.cn。