秦佳峰,周 超,林 穎,白德盟,鄭文杰
(國網山東省電力公司電力科學研究院,山東 濟南 250003)
隨著電力系統信息化程度的提高,電網的運行和監測數據均呈指數級增長[1-3]。巨量的數據為智能調度和決策提供了信息基礎,但也對數據處理手段提出了更高的要求[4-6]。變壓器作為電網中的重要一環,其運行數據對后續的設備狀態評估至關重要,但是由于設備故障、通信故障、操作失誤等原因,實際取得的運行數據往往存在缺失的情況,從而降低后續數據挖掘算法的性能。因此,修復缺失的變壓器運行數據對提升智能電網的運行效率,提高電網系統的可靠性和自愈能力至關重要。
關于電力系統缺失數據的修復,目前已有多種方法[7-9]。張曉星等[7]基于聚類的思想計算電力負荷曲線的特征函數,利用該特征函數修復缺失數據,但這種方法對數據的日曲線相似度要求很高。嚴英杰等[8]將輸變電設備狀態數據看成時間序列,用差分整合移動平均自回歸模型(Autoregressive Integrated Moving Average,ARIMA)擬合并迭代檢驗的方法修復缺失數據,但這種方法利用的信息較少,且不適合連續缺失的情況。劉沅昆等[9]提出了一種基于Pearson 相關系數的歷史數據挖掘恢復方法,但這種方法本質上是在做線性回歸,很難刻畫出數據的實際波動情況。
通過分析真實的變壓器運行數據,希望找到一種缺失數據修復方法,不僅能利用不同日曲線之間的相似性,并且適用不同的缺失點分布情況。函數型主成分分析(Functional Principal Component Analysis,FPCA)作為一種高維特征提取方法,能夠通過對同一觀測對象的重復測量,在低維函數空間上表示出數據最主要的波動情況[10-11],能夠很好地擬合出數據波動的整體趨勢。小波變換作為信號處理的常用方法,能夠通過對函數的多尺度細分,聚焦函數的局部細節,提取出其中的有效信息[12]。
因此,結合FPCA和小波變換處理函數型數據的優勢,提出了一種變壓器缺失數據修復方法。該方法能夠自動提取數據波動的特征,并使恢復所得的數據在局部上更符合實際情形[13]。
具體到變壓器的運行數據修復,考慮其中一類運行數據,可以將第i天內變壓器的該類運行數據視為一個觀測對象Yi,傳感器在第j個觀測點對應的時間點tj測得的數值Yij為該時刻的觀測值,記第i天的觀測點數量為ni。由于同一個變壓器在連續的幾天內運行數據的波動趨勢有一定的相似性,因此可以將N天的數據Yij,1 ≤i≤N,1 ≤j≤ni視為一組縱向數據進行分析。首先,利用FPCA 方法估計函數型數據的低頻部分Xi(t)。根據Karhunen-Loève 表示[14],Xi(t)可表示為

式中:μ(t)為均值函數;φk(t)為協方差曲面的特征函數,即主成分;αik為Xi(t)在主成分上的得分。
利用FPCA方法分別估計均值函數μ(t)、特征函數φk(t)、系數αik。由于通過FPCA方法估計的Xi(t)忽略了數據高頻部分的信息,利用小波刻畫函數數據細節的能力,通過對殘差函數ξi(t)做小波變換,提取出其中高頻部分的信息。因此整體模型可以改寫為

關于殘差函數ξi(t)的處理將在下文敘述。同時,將第i天的第j個測量時間點tj記為Tij,將觀測值Yi(tj)記為Yij。
采用加權最小二乘的方法估計均值函數μ(t)。對某一固定的時間點t,假設β0(t)和β1(t)為兩個參數,其中β0(t)為均值函數μ(t)的估計,β1(t)為線性修正函數的斜率,因此Yij-β1(t-Tij)即為t時刻Yij對應的修正值。取高斯核函數為權重值,因此,可通過求解如下極小化問題得到對均值函數μ(t)的估計為

式中:β0、β1為關于時間t的參數函數;hμ是帶寬,為了使算法有更強的自適應性,采用廣義交叉檢驗的方法選擇帶寬;k(·)是高斯核函數,其表達式為

通過求解式(3)中的極小化問題,得到對均值函數μ(t)的估計為

對協方差曲面的估計同樣可以采用加權最小二乘的方法。與估計均值函數μ(t)一樣,對某一組固定的時間點(s,t),β0(s,t),β11(s,t)和β12(s,t)都是待估計的參數,其中β0(s,t)為對協方差曲面G(s,t)的估計,β11(s,t)和β12(s,t)分別為兩個方向上線性修正函數的斜率。
首先估計在s≠t時的協方差曲面,可以通過求解如下極小化問題得到,即為

式中:hG為帶寬,可通過廣義交叉檢驗的方法選擇帶寬;k2(·,·)為一個二元高斯核函數。k2(·,·)和Gi(Tij,Til)的表達式分別為:

通過求解式(6)中的極小化問題,得到在s≠t時協方差曲面的估計為

當s=t時,由于協方差曲面在垂直對角線方向上的形狀更接近于二次曲線[15],在垂直對角線方向上用二次函數修正,而在對角線方向上仍采用線性函數修正,將坐標軸順時針旋轉45°,即為

結合式(9)和式(11),可得對協方差曲面的估計(s,t)。
主成分是協方差曲面的特征函數,因此可以通過求解式(13)的積分方程得到對特征函數的估計。

具體的,通過將協方差曲面離散化,得到K組特征值和特征函數1 ≤k≤K,需要選取其中最重要的k個主成分。為此,定義方差解釋比(Fraction of Variance Explained,FVE)為

給定一個閾值θ,選擇前k個最大的特征值和對應的特征函數,使得AFVE(k)≥θ,完成對主成分的選取。
最后用條件期望來估計主成分得分αik,記

其中δjl在j=l時為1,j≠l時為0,Γ為t的定義域為

該函數能夠較好地近似函數型數據的整體波動趨勢,但是在局部細節方面存在過于平滑的現象,因此需要分析真實值與估計函數做差得到的殘差函數ξi(t),通過用小波變換提取其中的高頻有效信息,得到更為精確的估計。
假設殘差函數ξi(t)是一個包含噪聲的一維信號,即ξi(t)可以表示為

式中:?i(t)為真實信號;ei(t)為噪聲。將ξi(t)看成是一個閉區間上的有界連續函數,因此可進一步假設ξi(t)是平方可積的,根據離散小波變換的理論[16],ξi(t)展開為

式中:Φ(t)和ψ(t)分別為尺度函數和小波基函數;cj0(k)和dj(k)分別為對應尺度下的系數。
由于實際應用中,得到的ξi(t)是一列離散的采樣點,根據采樣定理,尺度無法無限細分下去,因此具體計算中將ξi(t)展開為

式中:j0=0;j1為分解層數。
由于小波基、分解層數和閾值方案的選擇會對去噪效果產生影響,對不同類型的數據可能需要選擇不同的參數進行去噪,隨機選取真實數據點中的10%作為測試集,根據不同參數組合在測試集上的表現選擇最優的去噪方案。
可供 選擇的 小波基[17-19]包 括db1-8、sym2-6、coif1-4,分解層數為1~8,閾值方案包括閾值選取規則和小于閾值小波系數的處理方法兩個部分。
2.2.1 閾值選取規則
閾值選取規則主要包括四種方式:
1)無偏風險估計閾值(rigrsure),算法為:

b)若Aeta<Acrit,則λheur=λsqt;若Aeta≥Acrit,則λheur=min{λrigr,λsqt}。
4)極大極小閾值(minimax)為

2.2.2 小于閾值小波系數的處理方法
小于閾值小波系數的處理方法主要包括兩種:
1)硬閾值處理為

2)軟閾值處理為

變壓器運行數據缺失點修復方案主要包括三個部分,首先用FPCA方法得到觀測對象的初次估計函數;然后估計殘差函數,并用交叉驗證的方法找到最優的小波去噪方案,得到對殘差函數的估計;最后將殘差函數的估計作為修正函數,與FPCA初次估計函數結合,得到觀測對象在整個定義域中的估計值,用該估計值完成缺失點的修復。
以變壓器第i天內某一類運行數據作為一個觀測對象Yi,考慮連續n天內同一變電站的同一類數據,其中1 ≤d≤n。將第d天的觀測對象Yd的真實觀測值集合記為Sd={Yd1,Yd2,···,Ydnd},nd為連續觀測n天中的第d天,計算第d天的估計函數,包括9個步驟。
步驟1)隨機選取其中10%的點作為測試集,記Ud={Ydt1,Ydt2,···,Ydtp},p=[0.1×nd],其 余90% 的點作為訓練集,記為Vd={Ydtp+1,Ydtp+2,···,Ydtnd}。以第d天的訓練集Vd,以及除第d天外所有的真實測量值作為訓練集,用FPCA 方法建模,其中t的單位為分鐘,考慮到實際情況,所有可能的觀測點都是整數分鐘。
步驟3)由式(6),得到s≠t時的協方差曲面的估計函數,再由式(11),得到s=t時協方差曲面的估計函數,從而得到整個協方差曲面的估計函數(s,t)。
步驟4)根據式(13),通過將協方差曲面離散化的方法,得到K組特征函數和對應的特征值的估計選取前k個最大的特征值及其對應的特征函數,使得式(14)定義的AFVE(k)大于給定的閾值θ。得到k個主成分的估計
步驟5)根據式(16),估計出觀測對象Yd在主成分(t)上的得分。綜合步驟1)—步驟5),得到對觀測對象Yd的初次估計函數,即低頻部分的估計為

步驟6)估計殘差函數(t)。為方便敘述,將前述Sd中的觀測時間點記為,同理,記,tdnd}。當t∈時,則殘差函數為當t?時,補充定義td0=1,td(nd+1)=1440,則必存在p,使得t∈(tdp,td(p+1))。定義則當Agap較小時,可用移動平均來估計該點的殘差函數的值,當Agap較大時,對殘差函數的估計意義不大,反而可能造成最終估計的錯誤,因此直接置為零。綜上,對殘差函數(t)的估計為

步驟7)利用MATLAB軟件中的小波工具箱對殘差函數進行小波變換,并選擇最優的去噪方案。
首先選定一個去噪方案,用wden 函數進行小波去噪。該函數的四個參數“wname”、“n”、“tptr”、“sorh”分別對應于小波基、分解層數、閾值選取規則以及軟硬閾值。最后一個參數“scal”表示定義的閾值是否需要重新調整,默認為“one”,即不用重新調整。輸入去噪方案對應的參數以及信號(t)之后,就可得到去噪后的殘差函數(t)。

選取不同的去噪方案,重復步驟7),記錄最小的RRMSEi及對應的去噪方案。
步驟8)將訓練集擴充為整個觀測集,重復步驟1)—步驟5),更新初次估計函數(t),再更新對殘差函數(t)的估計。即用重復步驟6),得到更新后的殘差函數為


這樣就完成了對觀測對象Yd的修復。
以某220 kV 主變壓器某月的高壓側-I 數據為例,對本文所提缺失點修復方法進行測試。考慮到實際應用中既存在零散的隨機缺失點,又存在連續缺失的情況,因此分別對這兩種情況做了測試。
首先考慮缺失點零散分布的情況。以該月前十天的數據為例進行分析,1 日實際獲取了997 個觀測點,隨機選取其中100 個點作為測試集,假設這些觀測點缺失,以此為參照,評價修復效果。
經過步驟1)—步驟5)后,得到的初次估計函數如圖1 所示。真實測量值及其變化趨勢用黑點及黑色虛線連接,假設缺失的100 個點用藍色星狀點表示,初次估計函數用紅色實線表示。

圖1 初次估計函數
可以看到,初次估計函數已經能夠較好地擬合真實觀測值,但是在局部細節上還有欠缺。在步驟1)—步驟5)的基礎上,繼續實施步驟6)—9)后,得到的最終估計函數如圖2 所示。黑點和藍色星狀點的含義同圖1,紅色實線表示最終估計函數。

圖2 最終估計函數
結果表明,在對初次估計函數加上修正函數之后,最終估計函數能夠很好地擬合真實測量值。以測試集上的RRMSEd作為指標,將這種方法同三次樣條插值方法進行對比。重復進行了10 次實驗,每次的測試集都是隨機選取,對比兩種方法的均方根誤差(Root Mean Squard Error,RMSE)如表1所示。

表1 高壓側-I上的RMSE對比
結果顯示,經本文方法得出的估計函數在測試集上的RMSE 要明顯小于三次樣條插值法的RMSE,10次實驗平均能夠使RMSE下降21.3%,本文的缺失點修復方法更加穩定可靠。
當缺失點為大塊的連續缺失時,普通的插值方法已經沒法給出一個合理的估計,反而會添加錯誤數據。因此仍然以該月1 日至10 日的數據作為一組進行分析,假設第700~799 個觀測值缺失,利用所述的方法,對該段的缺失值進行恢復。恢復的結果如圖3所示。

圖3 連續缺失時的恢復曲線
為了檢驗在所考慮數據集上的整體效果,測試該方法應用于其他11 類數據上的效果,同高壓側-I的做法一樣,隨機選取100 個真實觀測值作為測試集,重復實驗10 次,分別計算本文方法和三次樣條方法在測試集上的平均RMSE,結果如表2 所示。測試結果顯示,本文方法在不同類型的變壓器運行數據恢復上均有較好的表現。對三次樣條差值方法有很大程度的提高。除高壓側-Q與中壓側-Q外,RMSE下降的百分比均超過15%。

表2 12類數據上的RMSE對比
利用FPCA 對數字信號整體特征的提取能力和小波變換對局部信息的提取能力,對變壓器運行數據的缺失數據修復這一實際問題,提出了基于FPCA和小波變換的變壓器運行數據缺失數據修復方法。
使用FPCA 方法能夠實現對需修復數據集的初次估計函數;并利用交叉驗證方法找到最優的小波去噪方案,得到對殘差函數的估計;通過將殘差函數的估計作為修正函數,與FPCA 初次估計函數結合,完成缺失點的修復。
該方法能夠根據少量歷史數據自動尋找數據的波動特征,并在此基礎上對局部細節進行優化,從而完成對缺失數據的恢復。該方法對缺失點是連續分布還是離散分布沒有要求,具有適用性廣、恢復精度高的特點。