李志強, 王凡凱, 劉曙元
(北京華電天仁控制技術有限公司,北京 100039)
隨著我國電力體制改革的深入,部分區域在調頻市場中,除常規發電單元外,第三方輔助服務提供者被鼓勵參與到市場中來[1]。多樣化主體促進了輔助服務市場化發展,同時市場主體對于報價等輔助決策的需求也日益增長。
目前改革處于前期階段,競價規則與政策隨著市場化發展和運行結果反饋不斷更新。因此針對某市場價格進行預測研究時,會發現該競價規則下的市場運行時間較短,難以獲取足夠的數據量。一般以小時為單位的短期預測至少需要預測日前三周的歷史數據,最好可提供歷史三個月數據量。
另外調頻出清價格受需求和氣象等多種因素的影響,以大數據為基礎的機器學習手段成為主流方法。然而針對受多種因素影響的目標而言,單一算法的泛化能力較弱,采用多種算法組合應用的方式可提升預測精度。
排序價格(Y排序)與報價(Y報價)的關系表達式為:
Y排序=Y報價/P
(1)
P=k/kmax
(2)
式中:P為發電單元歸一化后的綜合調頻性能指標;k為歸一化前的綜合調頻性能;kmax為所屬調頻資源分布區所有發電單元的指標最大值。
電價本身具有一定的波動性,而市場的出清方式將會加劇波動特性。如廣東調頻市場是根據調頻里程排序價格進行順序出清的,由式(2)可知分母P小于1,會導致排序價格波動性增強。因此如何準確預測價格的波動趨勢是提升預測準確性的重點。
綜上本文提出基于mixup數據增強和HHT(Hilbert-Huang transform)的電價組合預測方法,可改善數據量少和數據波動性大對于預測結果的影響,提高準確率。
mixup是由Zhang等人2018年提出的一種基于鄰域風險最小化原則的數據增強方法[2],用于圖像分類及語音識別領域,文末對mixup是否能在回歸預測領域發揮作用提出了期望。本文將對此進行驗證。方法見式(3)。
(xn,yn)=λ(xi,yi)+(1-λ)(xj,yj)
(3)
式中:(xn,yn)為構建的新訓練數據組;(xi,yi)和(xj,yj)為在原始訓練集中任意抽取的兩組不同數據。λ~Beta(α,β),mixup方法應用時,β=α,α∈[0,+∞],超參數α越大模型的泛化能力越強。
HHT可同時在時間和頻率上表示信號的能量強度。具體方法如下:
(1) 對出清價格進行EMD(empirical mode decomposition)分解。得到多個IMF(intrinsic mode function)分量和余項[3],將價格序列分解為不同特征波動的疊加。
EMD分解流程如圖1所示。

圖1 EMD分解流程
原始信號y′(t)經過EMD分解得到:
(4)
式中:IMFi為第i個IMF分量;RESn為余項。
(2) 對各分量進行Hilbert變換[4],計算瞬時頻率掌握頻譜變化的規律。

(5)
從而y′的解析信號z(t)為:
(6)

各分量的瞬時頻率f為[5]:
(7)

(1) 梳理交易平臺發布的信息,收集對應時段的氣象數據,共N天的數據量。將出清價格記作目標項y,其他每一項記作一個特征項x。
(2) 將各特征項x分別與目標項y通過式(8)進行相關性指標r計算。當結果|r|>0.2時,標記該特征項為有效。
(8)
式中:Cov(x,y)為x與y的協方差;Var[x]為x的方差;Var[y]為y的方差。
(1) 文本數據數值化得到數據集Data1。如02∶00數值化為2。截取Data1中前N-1日的數據記作原始訓練集Data2。
(2) 采用mixup方法對Data2進行擴充得到數據集Data3。將Data1銜接于Data3之后得到擴充后的數據集Data4。
(3) 對Data4各特征項以及目標項通過式(9)分別進行歸一化得到數據集Data5。
(9)
式中:z′為某一數據項歸一化后的數據;z為歸一化前的數據。
(4) 將Data5最后24組數據,即第N日歸一化后的數據作為測試集Data5_1,其余數據作為新訓練集Data5_2。
對Data5的出清價格進行HHT分析,針對頻率值較高的高頻分量,單一的預測方法往往效果不佳,選擇集成算法模型;針對波動較小的低頻分量采用神經網絡算法模型。
(1) 用Data5_2對各分量進行單獨訓練,保存訓練過程模型。
① 對高頻分量采用以決策樹為弱學習器的GradientBoostingRegressor算法,它串行生成多個弱學習器,可以使得模型損失往負梯度的方向減少。另外決策樹學習器本身不穩定,單顆樹的方差較大,而在集成學習中,弱學習器間方差越大其泛化性能越好則集成學習模型的泛化性能就越好。
GradientBoostingRegressor算法訓練流程如圖2所示。

圖2 GradientBoostingRegressor訓練流程
② 神經網絡算法較多文獻描述,這里不予重復。
(2) 將Data5_2中的特征項輸入各過程模型進行預測,當評價指標滿足要求時結束訓練,否則修改超參數繼續訓練。
(1) 向訓練好的各分量模型輸入測試集Data5_1中的特征項,獲得輸出結果并反歸一化得到Yi(i為模型數量)。
(2) 累加各項預測結果得到出清價格預測值Y[6]。
(3) 計算模型評價指標,對預測結果進行評價作為市場主體參與報價的參考。
(1) 收集數據并進行相關性計算,得到與出清價格有關的有效特征項:時段、系統調頻需求、溫度和濕度四類特征項。
(2) 取α=0.5,通過mixup方法進行出清價格數據增強得到數據如圖3所示,其中后360個數據為原始數據。

圖3 數據增強后的出清價格數據
由引言對mixup方法的分析可知出清價格與時間的相關性會受到影響,這一點由圖3可看出,但本文在特征選取時已將時段數據作為其中一項,因此可避免此類影響。
(3) 對出清價格進行HHT分析,得到各分量及其瞬時頻率如圖4、圖5所示。
由圖4~圖5可知:IMF1~IMF3頻率值較高,均值大于0.05。采用GradientBoostingRegressor算法;瞬時頻率均值小于0.05的低頻分量IMF4~IMF7和余項RESn采用神經網絡算法。

圖4 EMD分解結果

圖5 各分量瞬時頻率
為證明GradientBoostingRegressor算法的優越性,選擇KNeighbordRegressor、ExtraTreesRegressor算法,對IMF1進行擬合,并預測未來24小時時段的出清價格高頻分量,結果如圖6所示。

圖6 IMF1預測結果
采用平均絕對誤差MAE、均方誤差MSE對模型進行評價。值越小說明誤差越小,預測效果越好[7]。對比結果如表1所示。

表1 預測對比
分析圖6和表1,針對本文設置的特征項與預測目標項,GradientBoostingRegressor的預測效果相對較好。
(4) 訓練模型并預測。為對比mixup與HHT融合的方法是否具有優越性,本文建立另外兩類模型。
① 采用原始出清價格數據,使用GradientBoostingRegressor算法模型進行價格預測。
② 采用原始出清價格數據,但該模型將對數據進行HHT分解分析,并同本文前述方法針對高低頻IMF分量進行單獨預測并累加得到預測結果。
三種方法對未來24個時段出清價格預測得到的結果,如圖7所示。

圖7 出清價格預測結果
定義新指標回歸預測平均準確率MA(mean accuracy):
(10)
Ei=|y預測值-y實際值|/y實際值
(11)
對比結果見表2。

表2 電價預測對比
由表2可知,盡管經過HHT分解后的組合預測方法較單一模型相比已提升35.48%準確率,但采用mixup數據擴充和HHT分解后的模型與HHT方法相比,可進一步提升準確率1.89%。
本文提出的基于mixup和HHT的出清電價組合預測方法,可改善由于電力市場改革過程中交易系統運行數據量少、競價規則計算方式引起的數據波動性增加和單一預測方法準確性低等對于預測結果的影響,從而提升預測準確率。