陳俊,龍東,楊舟,韋杏秋
(廣西電網有限責任公司電力科學研究院,南寧530023)
電能計量的智能化、系統化、模塊化是電力系統計量技術發展的趨勢[1]。由于電能計量設備本身的故障異常[2]、傳輸信號不穩定等原因,造成計量自動化終端采集回來的電量計量數據缺失等問題,影響后續電能量數據在計量實際業務的分析、應用。文獻[3-6]分別介紹了均值替代、空間自回歸、多項式插補、線性插值等通常的數據缺失值處理方法,但當電能量數據不平穩或者缺失偏態情況嚴重時,通常處理方法的預測誤差變得不可控,缺值處理效果欠佳。黃喻[7]、董芳英[8]、蘇連成[9]等在地理、基因、材料等領域擴展應用了局部加權回歸散點平滑法(Locally Weighted Scatter Plot Smoothing,LOWESS)進行數據缺失處理,并且得到了較好的結果,但現有的LOWESS回歸模型其準確性受限于給定的窗口和多項式的階數。Jae[10]提出了一種啟發式方法,通過交叉檢驗技術來選擇最優的LOWESS窗口,對比分析模型與固定窗口的LOWESS模型在微陣列基因數據分析中的表現。因此,本文提出一種基于預測誤差最小化的組合優化LOWESS回歸的電能量缺失數據插補處理方法,通過對比固定窗口和階數在非平穩的電能量數據上的預測效果,研究參數優化LOWESS模型的準確性、適應性以及相對優勢性。本文提出的組合優化LOWESS模型為電能量數據缺失值處理的自動化、高準確率提供了解決方案。
非參數回歸具有開放式的探索變量關系,擬合曲線能較好描述變量之間的關系以及能擬合復雜的數據的特點。因此,非參數回歸比參數回歸擬合更加靈活,能更有效地減少參數回歸模型可能存在的模型偏差。LOWESS是非參數回歸模型中的局部多項式模型的一個擴充,其形式是非參數回歸模型的穩健—M估計。穩健性反映的是這一種性質:當真實模型與假定的理論模型有一定的偏離時,仍能維持較好的統計性質。LOWESS模型首先需要對數據進行局部多項式估計,則應用于電能量數據缺失處理的LOWESS模型一元非參數回歸模型為:

式中yi是實際的電能量數據;m(xi)是模型預測值;ui是隨機誤差項,i=1,2,3,…n。ui的數學期望為0。假設m(xi)在計量自動化終端采集回來的電能量數據x0附近有p+1階導數,則在x0的某一鄰域有:

組合優化局部加權多項式擬合模型中設有加權誤差平均和滿足:

其中,wi是擬合模型的權重函數,滿足如下條件:

其中 Δ[i](vj)*=|xi-xj|/|xq-xj|,且有 i,j=1,2,…,n,q=[hn],[hm]表示缺失電能量數據的寬度h和個數n的乘積。
由公式(1)則得到m(xi)的估計值為^m(xi),其誤差為:

其穩健權數為

利用穩健權數δi對模型進行局部多項式估計,可以得到新的誤差ci。重復以上過程,直至達到初始設置的次數,則可以得到穩健估計值。利用wi替代公式(4)中的wi,并根據公式(3)應用誤差最小化規則,多次計算逼近后得到實際電能量數據的插補值。
為了構建準確的電能量缺失數據自動處理的方法,需要對所有歷史數據進行遍歷,當識別到空值時將下標保存進集合中,設集合T的大小為h。對電能量缺失數據集合進行預測的過程進一步包括以下步驟(見圖1)。

圖1 缺失數據自動處理流程Fig.1 Missing data process flow
步驟一:初始化迭代最大步驟f,迭代窗寬步長l;
步驟二:重復進行組合優化局部加權多項式擬合回歸模型預測,對于每次回歸,應用預測誤差最小化規則判別此次的預測值和加權誤差是否加入結果集S={(t1,ei)},然后根據窗寬步長按風險最小化規則更新窗寬d和擬合階數p,并將中間計算值存入結果集 S={(ti,ei)};
步驟三:將結果集和權函數相乘,然后加和得到最終預測值;所述最終預測值滿足:

式中 s,j=1,2,…,h,z,kj是權函數,z等于結果集的數量,且有:

其中 j=1,2,…,z,z等于結果集的數量;
步驟四:經驗風險最小化原則判別原則為,若ei小于S中所有的誤差,則保存ti和ei入集合S;若ei大于預測值對應的誤差,則不保存,所述窗寬更新和擬合階數更新條件為:若ei<ei-1,則d=d+l,否則,d=d-1,n=n+1。
若最大步驟f設定為10,所述迭代終止條件為局部加權多項式擬合回歸中的最后n項加權誤差的差值在-0.1~+0.1內波動。則其窗寬步長為l=d/10,其中d為初始化局部加權多項式擬合回歸的窗寬。
隨機選取驗證數據,本次是來自某供電局編號為0202I1B032****在2014年的輸入有功電能量數據,具體數據如表1所示,表1中的記錄時間為電表采集時間,寫入時間為數據插入數據庫時間,輸入有功為終端采集回來的電表計量的電能值。所采用的缺失值是用隨機無重復抽樣的方法進行抽取,抽取的缺失值比例占總數據集的比例為10%。

表1 有功電能量數據Tab.1 Active power electricity data
由于在用電過程中,用戶在一段時間內的用電行為總是類似的,如夏天的時候,制冷設備的使用等。因此,可以考慮使用一段時間內的數據進行本時間內的預測,同時考慮到用電規律的時間差距效應,離缺失值越遠的數據,從邏輯上來說,離預測點越遠的數據對預測點的影響越小。因此關鍵的問題在于如何選取一個合適的寬度,使得該寬度以外的值對預測點的影響為0。通過LOWESS回歸來自適應數據以達到精確插值的效果。
假設電能量的缺失數據分別為602及594,初始化寬度d=20,p=1,迭代最大步驟設定為10。迭代終止條件為組合優化LOWESS回歸中的最后n項加權誤差的差值在+0.1~-0.1波動,則迭代過程及模型計算結果如表2所示。
利用本文提出的參數組合優化LOWESS回歸,采用上述的迭代計算,可以得到所有數據的預測值和實際值的對比(見圖2、圖3)。由圖2可以看出,參數組合優化LOWESS回歸的電能量缺失值處理的預測能力較為準確,與實際情況偏離不大;而圖3中,展示了缺失比例在0%~50%的模型的預測電能和實際電能平均差值的曲線圖,則說明參數優化LOWESS回歸的電能量缺失值在數據集的高比例缺失下表現良好。

圖2 預測值和缺失值對比圖Fig.2 Comparison of predictive and missing data curve

圖3 不同缺失比例的平均誤差Fig.3 Mean error at different missing proportions
對于窗寬比起階數對預測后模型的估計偏差影響更大。因此以窗寬為自變量,研究不同固定參數和參數優化LOWESS模型在預測集上的累計誤差。以步長為0.1,窗寬在0.1~0.5的LOWESS模型和組合優化后的LOWESS模型的累計泛化誤差變化(見圖4);由圖4中可以發現,組合優化的LOWESS算法的累計誤差要小于窗寬為0.1~0.5的LOWESS模型,因此,從一個較長的時間來看,組合優化的LOWESS模型較之固定參數LOWESS模型造成的偏差會更小,得到的結果更加精確。

圖4 固定參數與組合優化LOWESS的累計誤差變化Fig.4 Accumulative error of fixed and optimized parameters LOWESS method

表2 迭代計算過程及預計結果Tab.2 Iterations calculation flow and prediction results
電能量數據缺失數據自動插補是電能計量系統智能化的不可缺少的部分。針對實際電能量數據的統計分布特性,考慮到通常的均值替代等方法對電能量數據缺失的處理效果欠佳,LOWESS模型的估計偏差受限于其給定的窗寬和擬合階數的特性,本文提出一種基于預測誤差最小化的參數組合優化LOWESS回歸模型的缺失數據自動處理方法,通過對比固定窗口和階數在非平穩的電能量數據上的預測效果,研究參數優化LOWESS模型在模型準確性、適應性以及相對優勢性三個方面,得出如下結論:
(1)參數組合優化LOWESS模型能適應電能量數據不同數據分布、不同缺失比例等情況,在預測過程表現良好,預測準確率高;
(2)對于數據集上缺失比例在0~50%的范圍內,模型表現良好,缺失比例增大時,模型的泛化誤差沒有顯著性的增長;
(3)參數組合優化LOWESS模型相比起寬度比例在0.1:0.5的LOWESS模型在實際數據集上的表現更好,其累計誤差均低于固定參數的LOWESS模型。