邵 臻,楊善林,高 飛,王曉佳
(1.合肥工業大學管理學院,安徽 合肥 230009;2.過程優化與智能決策教育部重點實驗室,安徽 合肥 230009)
?
基于可變區間權重的中期用電量半參數預測模型
邵 臻1,2,楊善林1,2,高 飛1,2,王曉佳1,2
(1.合肥工業大學管理學院,安徽 合肥 230009;2.過程優化與智能決策教育部重點實驗室,安徽 合肥 230009)
由于數據變化規律的多樣性,中期電力負荷的波動有著不同于短期、長期負荷的特點。基于電力系統復雜性的研究視角,重點討論了中期負荷預測過程中模型的不確定性、參數的時變特性以及負荷波動的周期性規律。根據中期負荷的數據特性,建立了基于非參數修勻的半參數模型,定義了函數區間的劃分粒度以及模型權重的求解方法,提出了基于可變區間權重的動態預測方法,給出了基于經驗模態分解和波動能量分析的噪聲序列提取、檢驗方法。試驗研究結果表明,氣候因素對用電消耗的影響最大,經濟因素次之;從選取的指標來看,不同時期的影響因素對于模型的解釋能力是時變的;所提方法能夠對電力負荷進行精確的多粒度、多維度分析,進而掌握其局部變化規律,可有效用于電力系統中期負荷預測。
半參數模型;可變區間權重;動態預測;集合經驗模態分解;中期負荷預測
電力負荷預測是智能電網運行管理與建設發展的基礎,也是長期以來的熱點問題。負荷預測的準確性在很大程度上取決于對負荷波動性的準確把握。中期負荷由于受到外界諸多復雜因素的影響(氣候因素,經濟因素等),其變動呈現出較強的非線性、非平穩特性,這也為其精確預測帶來了很大困難。中期負荷預測對于合理安排水庫調度、電煤計劃等至關重要,中期序列所具有的年度波動特性和月度波動特性共同構成了其空間網狀關系[1],各月度序列處于此空間網狀縱橫發展趨勢的交叉點上。因此,建模時需要兼顧縱橫兩種發展趨勢。
目前負荷預測的方法主要可歸結為三類:統計分析(Regression Analysis)、人工神經網絡(Artificial Neural Network)、時間序列(Time Series)。眾多學者圍繞三個方向進行研究并取得了大量成果,McSharry等[2]提出可以準確掌握高峰用電需求變動趨勢的概率預報模型,并深入研究了氣候、節假日等因素對于高峰用電需求的影響。王曉佳等[3]提出了基于背景值重構的改進灰色預測模型,給出了一種解決小樣本預測問題的方法。史會峰等[4]基于貝葉斯神經網絡預測方法,將氣象因素的作用納入短期負荷預測研究中。Hippert等[5]較為全面的評估了人工神經網絡在負荷預測中的運用性能,并驗證了其優越性。張宜陽等[6]提出了基于混沌理論進行相空間重構的EMD預測方法,達到了平穩化處理的效果。李瑾等[7]提出基于模擬退火優化的支持向量機并應用于中長期負荷預測。邰能靈等[8]提出了基于小波變換的短期負荷預測方法,通過小波變換將各序列分量分別投影到不同的尺度進行預測。從已有的文獻來看,負荷預測的研究更多的集中于短期或長期預測,傳統研究方法側重于將負荷需求的波動歸結于電力系統內生的不穩定性。中期負荷預測需要我們兼顧縱橫兩種發展趨勢,既需要考慮負荷需求波動的系統內生性,也不能忽略電力系統作為復雜系統的非線性作用機制及其外部的隨機擾動因素。
半參數回歸模型[9-10](Semi-parameter Regression Model)是近年來發展起來的一種重要的統計分析方法,它引入了非參數,克服了傳統偏差函數模型的局限性,使得數學模型與客觀實際更為接近,是一種比較理想的數據處理方法。Engle等[11]在研究氣候因素對電價需求的作用時,提出運用半參數回歸模型發掘溫度與電價之間的非線性關系。Charytoniuk等[12]提出以非參數回歸進行短期負荷預測,并以概率密度分布的形式挖掘負荷及其影響因素的關系。Baccini等[13]基于季節性和長期趨勢的混雜效應,運用半參數理論研究了空氣污染對人體健康的短期影響。Fan Shu和Hyndman[14]將半參數可加模型引入短期電力負荷預測中,研究了溫度等外源性變量與短期負荷之間的關系,同時給出了相應的點預測、分布預測。
基于上述分析,本文從中長期負荷的數據特征入手探索經濟因素、氣候因素等影響因素對其波動的內在影響,結合半參數模型、可變區間權重思想提出模型、參數時變的動態預測方法。一方面,考慮影響因素以及預測模型的時變特性,根據不同時間區間分別建模,基于可變區間的思想對模型權重進行動態調整。另一方面,對原始序列進行平穩化處理,對特征序列、噪聲序列分別建模。最后通過實例研究證明了本文提出方法的有效性。
參數回歸模型理論成熟易于操作,但參數回歸函數形式過于固定,難以準確反映復雜曲線的變化規律。同時,參數回歸模型需要進行分布的預先設定,在數據分布情況未知或者數據被“嚴重污染”時,參數回歸模型難以有效推斷。非參數回歸模型的回歸函數其形式隨意性很強,適合于精確擬合復雜曲線。若存在某些解釋變量對響應變量的影響較為顯著時,非參數回歸模型由于沒有充分利用其有效信息,模型的解釋能力將會顯著下降。為了克服上述不足,Stone[15]提出了半參數回歸模型,通過參數部分的調整從而把握函數趨勢走向;通過非參數部分的局部調整與參數部分的共同作用,可以在精確擬合數據的同時進行外推預測。
2.1 模型描述
中期負荷具有兩種時間維度的變化發展趨勢:從年度視角來看,隨著國民經濟不斷發展,中期負荷呈現出持續增長的趨勢;從月度視角來看,由于受到季節交替的影響,中期負荷呈現出周期性的變化趨勢,上述趨勢的共同作用決定了中期負荷影響因素的復雜性與不確定性。
鑒于參數模型的設定與實際情況的偏差是影響參數估計精度的主要因素之一,而中期負荷的波動特性十分復雜難以精確表達。本文提出一種將半參數模型非參數主部“參數化”的研究思路,將時間序列分析與統計推斷結合,對于非參數誤差時間序列項我們作進一步處理,以“重近輕遠”原理進行非參數序列修勻。考慮如下的半參數模型:
(1)

(2)

2.2 基于可變區間的權值更新動態預測
根據微元法的思想,對于任意的曲線都可以用一段直線近似逼近,逼近范圍愈小對曲線擬合程度愈高。可變區間權重方法基于“微元”以直線代替曲線的思路,通過調整區間長度得到對應的區間權重。從整體來看,中期負荷具有較強的周期性波動規律,然而不同的時間粒度下其波動影響因素卻不盡相同,因此需要動態考慮樣本內各區間的差異性。
本文基于樣本的實際波動周期進行區間劃分,并結合各個區間的不同影響因素構建對應的區間函數。對于各區間函數,基于可變區間的思想進行權值動態更新,最后進行循環預測,具體步驟如下:
步驟1:確定樣本數據的實際波動周期t;
步驟2:對樣本區間進行劃分。對于定義在[a,b]上的函數f(x),根據周期將函數f(x)等距劃分為m段閉區間,其中m=1,2,…,(b-a+1)/t,相應的曲線被分割為m段記為f1(x),f2(x),…,fm(x)。函數f(x)覆蓋的區域面積等于子函數fm(x)所對應的面積之和;

(3)

步驟4:對各區間模型分配權重:
(4)
式中,Fm(x)為第m段區間函數的面積;
步驟5:由步驟2-4,得到可變區間半參數模型Y=w×y,其中w=(ω1, …,ωm),y=(f1(x), …,fm(x))′;
2.3 模型參數估計

半參數回歸模型的估計方法已較為成熟,常見的有核函數估計、樣條估計、局部線性估計等,為排除隨機誤差項產生的干擾,同時保證數值解的光滑性及唯一性,本文引入罰函數法。考慮極小化條件:
(5)

定義n×n矩陣A(λ),它依賴于{tj}和λ,且滿足:
Wahba等提出,當σ2未知時,λ的估計可以取作下式的極小化解:
并把這個估計稱作廣義交叉核實(Generalized Cross-Validation, GCV)估計。當λ→0時,g(t)趨近于觀測量的三次樣條內插。當λ→∞時,g(t)趨近于觀測量的線形回歸。可證明懲罰最小二乘原理的懲罰項可以表達為:
最終可以得到迭代求解方程,更詳盡的估計和求解過程可參閱Green[17]和Heckman[16]。
針對中期負荷的非平穩特性,為了剔除噪聲干擾并解析各影響因素與負荷波動的聯系,本文基于集合經驗模態分解(EEMD)算法進行多尺度平穩化分解,將信號逐級分解,產生一系列具有不同特征尺度的序列,集合經驗模態分解算法的步驟可參見Huang等[18]。
鑒于集合經驗模態分解在樣條插值過程中不能完全達到上下包絡均值為零的要求,信號的兩端會發生大幅度的端點飛翼,導致分解后得到虛假的固有模態函數分量[19]。為了更好的辨識噪聲序列,本文運用相關性分析、波動能量檢驗法構建相應的波動規律性檢驗統計量,用于描述序列與原始序列樣本間的相似性,提取真實的序列特征分量。
信號的波動能量即信號的幅度平方和,一般用方差或標準差來表示其波動幅度,則兩信號的波動差異統計量為:
(6)

4.1 影響因子選取
影響電力負荷消耗的因素很多,例如經濟增長水平、經濟發展階段、氣候變化等,然而上述任何一個因素都不足以代表負荷的整體波動趨勢。同時在影響因素的實際選取中,也很難找到能夠有效概括以上影響因素信息的單一指標。
通過大量相關資料的搜集,本文選取了廣東省某市社會消費品零售總額、批發零售業商品銷售總額、商品進出口總值、規模以上工業總產值、消費品價格指數、工業品出廠價格指數、月平均溫度、月降水量等10項指標。運用因子分析從以上指標中提取出3個“影響因子”,最后進行單位根檢驗,以驗證是否滿足建模條件。

表1 負荷影響因子
三個因子所包含的原始變量的信息量如表2所示,從表中可以看到,三個因子的原始信息的累計貢獻率達到了89.618%,能夠有效概括原始變量的有效信息。

表2 因子方差分布表
4.2 實驗及討論
本文選取廣東省某市2006年至2011年的歷史
全社會用電量資料進行驗證。從圖1可見,原始序列的波動大致呈現出一種春節期間達到低谷,夏至期間達到高峰的波動趨勢。考慮到實際經濟周期以及重大節假日等因素的影響,本文采用了與以往將公歷1月作為預測起點不同的做法,以農歷春節所處月份為起點,即對2010年2月至2011年1月,共計12個月的全社會用電量做出預測以驗證本文方法的有效性。同時,根據樣本的實際周期將歷史數據等跨度劃分為四個區間。最后,根據特征數據、噪聲數據的不同特性分別預測。
負荷序列的集合經驗模態分解結果如圖1所示,分解后得到4個頻率分量和1個趨勢分量,包含了負荷數據從高到低不同頻率段的成分,各分量統計特征如表3所示。

表3 各分量統計特征分析
通過平均周期T、平均振幅A、相關性分析和波動能量檢驗可以分析各分量的統計特征。從表3來看,各分量的波動逐級遞減,IMF1的周期略小于3個月,IMF2的周期約為1年,上述分量具有較典型的季度、年度波動規律;IMF3、IMF4、 REST分量則表現出長周期的特性,在長期均值附近變動。從相關性來看,IMF3、IMF4與原始序列有差異性較大,IMF2、REST與原始序列差異較小,能夠反映原始序列波動趨勢,因此對IMF1、IMF2、REST分量重構得到特征序列R以表征原始序列的有效信息,特征分量R的統計特征由表3可見。

圖1 不同時間尺度的序列分量
IMF3、IMF4的波動能量檢驗值均小于檢驗閥值D,判定為虛假分量。將虛假分量IMF3、IMF4作為噪聲序列表征原始序列的隨機波動。鑒于ARIMA模型對數據的隨機波動規律有較好的描述能力,本文以ARIMA模型對相應的噪聲序列進行建模,運用序列的自相關函數的拖尾性和截尾性識別模型主要參數,并基于AIC準則和BIC準則對模型的階數和適用性進行判定。

圖2 第一區間樣本內擬合對比

圖3 第二區間樣本內擬合對比

圖4 第三區間樣本內擬合對比

圖5 第四區間樣本內擬合對比
為了說明本文方法的計算流程,下面以2010年2月的樣本預測為例進行說明。將2006年2月至2010年1月共計48個特征分量樣本等距劃分為4個區間。為有效對比各因素的作用,對同一區間內模型設置相同參數。經過檢驗,特征分量與3個影響因素在5%的置信水平不存在單位根,滿足建模條件。圖2至圖5給出了各區間基于不同影響因素建模的樣本內擬合對比圖。4組試驗中半參數模型對樣本的擬合值與真實值都非常接近,說明了本文模型的可行性。
由圖2可見第一區間基于市場、經濟、氣候因素建模的半參數模型擬合情況。通過對比發現,該階段氣候因素的建模效果顯著優于其他因素,同樣的情況還發生在第二區間;圖4中氣候因素對于該區間序列的波動驅動力不足,經濟因素在這一時段起到了主導作用;圖5中基于市場、經濟和氣候因素的擬合誤差非常接近。綜合以上分析,基于氣候因素的半參數模型在4個不同區間均取得了良好的估計效果,經濟因素表現次之,市場因素在樣本的估計過程中則表現不夠理想。
接下來根據可變區間權重方法對負荷進行動態預測。經過不同時間窗口的重復實驗,基于GCV選取各區間光滑參數分別為λ=(0.14,0.19,0.15,0.13);選取影響因素分別為t3、t2、t2、t1。由式(2)可得到各個區間估計函數,由式(3)、(4)計算各區間權重w=(0.2087,0.2441,0.2685,0.2787)。最后根據2.2節方法進行循環預測得到12步預測結果。本文選用SARIMA模型、SVM模型(選取相關性最高的4個外界影響因素指標)進行對比實驗,基于AIC、BIC準則確定SARIMA模型的結構,基于K-fold交叉驗證法確定SVM的最優參數c、g,最終的預測結果如表4所示。

表4 不同模型預測結果比較
由表4可知,三種模型在預測時均表現出較高的精度,其中本文模型和SVM模型的預測精度均顯著高于SARIMA模型。但SARIMA、SVM模型沒有考慮影響因素的動態作用,對周期性負荷轉折點波動趨勢的把握明顯不足,預測穩定性也相對較差。本文模型基于不同時間尺度綜合考慮了長期趨勢變動、季節變動、氣候變化等因素,因此取得了更精確的預測效果。
本文提出了一種半參數動態預測方法,該方法提高了半參數模型用于中期負荷預測的可靠性以及多維度分析效能。實例驗證結果表明,本文模型對于中期負荷預測的準確度高于SARIMA模型、SVM模型。在實際運用時,建模區間的劃分與影響因素的選取對預測精度有較大影響;如何合理的把握相應的尺度,以及如何合理地選擇影響因子從而刻畫序列的波動趨勢,這些問題都值得進一步的探討。
[1] 康重慶,夏清,張伯明.電力系統負荷預測研究綜述與發展方向的探討[J].電力系統自動化,2004,28(17):1-11.
[2] McSharry P E, Bouwman S, Bloemhof G. Probabilistic forecast of the magnitude and timing of peak electricity demand[J]. IEEE Transactions on Power Systems, 2005,20(2):1166-1172.
[3] 王曉佳,楊善林.基于組合差值的GM(1,1)模型預測方法的改進與應用[J].中國管理科學,2012,20(2):129-134.
[4] 史會峰,牛東曉,盧艷霞.基于貝葉斯神經網絡短期負荷預測模型[J].中國管理科學,2012,20(4):118-124.
[5] Hippert H S,Pedreira C E,Souza R C.Neural networks for short-term load forecasting: a review and evaluation[J]. IEEE Transactions on Power Systems,2001,16(1):44-55.
[6] 張宜陽,盧繼平,孟洋洋,等.基于經驗模式分解和混沌相空間重構的風電功率短期預測[J].電力系統自動化,2012,36(5):24-28.
[7] 李瑾,劉金朋,王建軍.采用支持向量機和模擬退火算法的中長期負荷預測方法[J].中國電機工程學報,2011,31(16):63-66.
[8] 邰能靈,侯志儉,李濤,等.基于小波分析的電力系統短期負荷預測方法[J].中國電機工程學報,2003,23(1):45-50.
[9] Ruppert D, Wand M P, Carroll R J.Semiparametric regression[M].Cambridge:Cambridge University Press,2003.
[10] Hamilton J D. Time series analysis[M].Princeton:Priceton University Press,1994.
[11] Engle R F, Granger C W J, Rice J. Semi-parametric estimates of the relation between weather and electricity sales[J].Journal of the American Statistical Association,1986,81(394):310-320.
[12] Charytoniuk W, Chen M S, Van Olinda P. Nonparametric regression based short-term load forecasting[J]. IEEE Transac-tions on Power Systems,1998,13(3):725-730.
[13] Baccini M, Biggeri A, Lagazio C. Parametric and semi-parametric approaches in the analysis of short-term effects of air pollution on health[J].Computational Statistics & Data Analysis,2007,51(9):4324-4336.
[14] Fan Shu, Hyndman R J.Short-term load forecasting based on a semi-parametric additive model[J]. IEEE Transac-tions on Power Systems,2012,27(1):134-141.
[15] Stone C J.Consistent nonparametric regression[J].Applied Statistical Society 1977,5(4):595-635.
[16] Heckman N E. Spline smoothing in partial linear models[J].Journal of the Royal Statistical Society, Series B,1986,48(2):244-258.
[17] Green P J.On Use of the EM for penalized likelihood estimation[J].Journal of the Royal Statistical Society, Series B(Methodological),1990,52(3):443-452.
[18] Huang N E,Shen Zheng,Long S R.The empirical mode decomposition and the Hilbert spectrum for nonlinear and nonstationary time series analysis[J].Proceedings of the Royal Society A, 1998,454(1971):903-995.
[19] Wu Zhaohua, Huang N E. Ensemble empirical mode decomposition: A noise-assisted data analysis method[J]. Advances in Adaptive Data Analysis,2009,1(1):1-41.
Mid-term load Forecasting Semi-Parametric Model Based on Time-variant Interval Weights
SHAO Zhen1,2,YANG Shan-lin1,2,GAO Fei1,2,WANG Xiao-jia1,2
(1.School of Management, Hefei University of Technology, Hefei 230009, China;2. Key Laboratory of Process Optimization and Intelligent Decision-making, Ministry of Education,Hefei 230009, China)
Due to the diversity of data variation, the fluctuations characteristic of the medium-term power load is different from short-term and long-term power load. Based on the view of electric power system complexity, the mid-term power load forecasting problem is discussed, including the forecasting model uncertainty, parameter time-varying characteristics and the periodic law of load fluctuation. According to the features of mid-term power load, a semi-parametric model based on nonparametric smoothing is built, and the division of the function interval is defined. After that, a new dynamic prediction method is put forward based on variable interval. Combined with the ensemble empirical mode decomposition algorithm and wave energy test, the noise sequence analysis and separation method is presented. The study shows that, climatic factor have the greatest impact on the electricity consumption, while economic factor has less impact on it. In different forecast periods, the explanatory of factors to the forecasting model varies over time. As the proposed semi-parametric model can be used for accurate multi-dimensional and multi-granularity analysis of electricity load, then grasp the variation, it can be efficiently used for mid-term load forecasting.
semi-parametric model; time-variant interval weights; dynamic prediction; EEMD; mid-term electricity consumption prediction
2013-04-05;
2013-09-17
國家“863”高技術研究發展計劃項目(2011AA05A116);國家自然科學基金資助項目(71131002,71071045,71202047)
邵臻(1986-),男(漢族),江蘇泗洪人,合肥工業大學管理學院,博士研究生,研究方向:預測、決策科學與技術.
1003-207(2015)03-0123-07
10.16381/j.cnki.issn1003-207x.2015.03.015
F426
A