劉科學,周辛南,陳雪敏,劉 巖,燕鵬飛,劉 梅
(1.國網冀北電力有限公司,河北 石家莊 050000;2.國網冀北電力有限公司計量中心,河北 石家莊050000;3.華北電力大學,北京 102206;4.北京清軟創新科技股份有限公司,北京 100085)
分布式電源具有清潔高效、就地平衡等諸多優點,是我國未來電網發展的方向。在客觀資源條件、政策推動的共同作用下,我國各地區分布式電源都呈現高速發展。分布式電源能夠在配電網終端自由安裝,從而實現用戶的自發自用,其剩余電量可以返送至配電網,實現能源的高效消納和利用。隨著以風電和光伏為代表的分布式電源迅速發展,給配電網的智能化發展帶來了新的機遇和挑戰。配電網潮流方式的變化對配網運行可靠性提出了更高的要求。文獻[1]從頂層設計角度剖析了分布式發電、微網與智能配電網的發展與挑戰。研究結果顯示,分布式電源能夠充分地消納當地的分布式能源,但須注意接入的比例。當接入規模過大時,會給電網安全穩定造成較大的不利影響。當較大規模的分布式電源接入電網后,一旦系統發生短路,會使短路后的電流進一步增大,導致電壓波動和線路過載,危及設備安全,給包括母線和斷路器等常規設備的選型和制造帶來了更多技術難題。另外,由于分布式電源負荷功率多變,會給電能質量帶來一定不利的影響,配網無功功率須要經常調節,給調控運行造成了更多困難。文獻[2]分析了美國、日本等發達國家在分布式電源方面的進展,并提出了幾種經典分布式電源控制方法。歐美部分地區在分布式電源滲透率達到30%的情況下,會對配電網的凈負荷產生巨大影響。分布式電源發電往往與當地的天氣條件息息相關,氣象的頻繁變化無疑對配電網的負荷形態產生較大影響,也對配電網調度與運營商的策略制定帶來挑戰。文獻[3]提出了一種基于需求相關性分組預測的主動配電網分布式電源規劃方法,將發電成本、線路損耗和儲能運行壽命納為目標函數,建立了多目標優化模型。綜上所述,考慮分布式電源規模化接入對配電網產生影響的情況下,對區域電網電量進行精準預測有利于電網進行合理的規劃和調控,降低電網運行成本,提高系統的性能。
目前,國內外專家學者對電量預測已做了大量的研究。從時間尺度上,電量預測可以分為短期、中期和長期預測。從預測方法上,有傳統和人工智能兩大類。傳統類預測方法有統計法、時間序列法和回歸分析法[4]~[7]。文獻[4]提出了一種基于離散傅里葉變換的灰色預測方法,采用離散傅里葉變換將電量負荷序列分解為各種頻率分量,再對其進行組合重構。對低頻分量采用灰色模型預測,對高頻分量加以單獨處理,并進行合并作為最終預測結果。文獻[5]提出了基于小波分析的月度電量預測方法。通過小波變化提取出電量時域和頻域的信息,對提取出的月售電量序列的增長特性子序列和平穩波動子序列分別進行預測,將兩種子序列預測結構進行小波重構,獲得最終預測結果。文獻[6]提出了K-L信息量法和ARIMA誤差修正的月度電量預測方法。通過相關性分析對影響電量的特征進行回歸建模,計算擬合誤差并構建新的非平穩序列,結合ARIMA模型對序列進行修正。人工智能類預測方法有傳統機器學習、神經網絡及組合法[8]~[12]。文獻[8]將Lasso回歸、隨機森林、集成學習、支持向量機等多種機器學習以綜合加權的方式組合在一起,對月度售電量進行預測。文獻[9]提出了基于改進鳥群進化算法的極限學習機模型,對分布式電源中的分布式光伏出力進行了有效預測。文獻[10]提出了一種基于深度學習的風力發電功率預測方法,能夠對未來時段的風電功率進行精準預測。文獻[12]提出了一種面向電力系統的連續多日高峰負荷預測方法,將樹模型通過串行與并行方法有效結合,并使用了粒子群算法搜索模型超參數。上述文獻主要是針對分布式電源或者電力負荷進行預測,忽略了分布式電源規模化發展背景下電量的變化趨勢。
隨著我國對分布式能源的需求越來越大,配電網中接入分布式電源的比例也越來越高,因此大范圍的能源配置和優化調度不可避免。分布式電源的規模化接入使用戶的用電形態產生了較大變化,這種接入方式帶來的波動性與隨機性對日電量預測產生了較大影響。日電量的準確預測是保證系統穩定與市場交易的重中之重,不僅為調度提供重要的數據參考,也是電力市場交易模式下供需雙方的重要依據[13]~[16]。本文結合多維度的關鍵外部數據,提出了一種采用Adaboost集成學習框架;以LLSVM為基學習器,提升模型的預測能力與泛化效果;對分布式電源規模化接入后的區域電網日電量進行有效預測。本文針對分布式電源規模化接入的工作日、節假日的電量情況,使用冀北電網實際數據,驗證了所提算法的有效性。
并網發電的分布式電源中,有一部分具有可調度特性,運行管理人員可以對該部分分布式電源進行合理管控。這種類型的分布式電源對區域電網的沖擊較小。然而,分布式電源中的絕大部分屬于不可調度電源,這種電源以分布式光伏與分布式風電為代表。該類型分布式電源的功率輸出具有不確定性和隨機性的特點。分布式光伏與分布式風電的隨機性如圖1所示。

圖1 分布式電源的隨機性與波動性Fig.1 Energy form of distributed generation
從圖1中可見,分布式光伏在中午時段出力最大,夜晚時段出力接近于零;分布式風電的不確定性更為突出,輸出功率的峰值往往出現在夜晚時段,其功率曲線波動較大。另外,分布式電源還具有即插即用以及局部消納的特性,大量分布式電源并網產生的能量在配電網局部消納,這種能量消耗形式改變了負荷變化趨勢,無疑對區域電網的日電量產生影響。
本研究以冀北公司的配電網為例,圖2所示為分布式電源規模化接入后區域電網形態。隨著接入配電網中分布式電源的容量逐漸增大,傳統的日電量預測方法并沒有計及規模化分布式電源接入對其造成的影響,現有日電量預測的方法往往也只考慮需求側變化對其產生的影響。為了更深入分析日電量曲線形態,本文對相關影響因素進行綜合考慮,在考慮其他因素的基礎上,分析分布式電源規模化接入對電量預測精度的影響。

圖2 分布式電源規模化接入的區域電網Fig.2 Regional power grid interconnected with large-scale renewable energy
分布式電源出力具有不確定性和隨機性特性,因此地區電網電量變化規律會受到分布式電源規模化接入的影響。同時,負荷側的歷史電量表征地區用戶的用電行為特征,未來電量趨勢的變化與歷史電量特性有著密切的聯系。另外,地區的天氣因素以及節假日用電特征都會對地區電量產生影響。由于天氣因素中的溫度、風速、光照條件、露點等具有波動性和隨機性,因此氣象環境的變化是影響分布式電源出力和電量預測的重要因素。節假日信息特征對區域電網日電量變化趨勢也有著較大的影響,節假日和工作日電量的變換規律截然不同。工作日電網日電量曲線呈周期性變化,模式較為單一,而節假日日電量曲線變化規律不太明顯,具有時間和事件觸發的隨機波動性。
最小二乘支持向量機 (Least Squares SVM,LSSVM)最早是由Suykens J A K等人提出的,它在 支 持 向 量 機(Support Vector Machine,SVM)的基礎上利用最小二乘線性系統構造損失函數,使計算過程大為簡化。LLSVM采用結構風險最小化準則,在小樣本電量預測中具有較好的泛化能力和預測效果。假設一個n維向量的樣本集(x1,y1)…(xl,yl),有l個 樣 本 數,通 過 非 線 性 映 射φ(x)將包含歷史電量數據、分布式電源出力特征、天氣特征以及節假日特征等樣本數據,從原空 間Rn轉 換 到 特 征 空 間 φ(x)=[φ(x1),φ(x2),…,φ(xl)],并在這個高維度空間中進行最優決策函數的構造。

式中:w為權重向量;T表示轉置;b為偏差量。
根據風險結構最小化準則,原LSSVM優化問題可進一步轉化:

式中:L為損失函數;c為懲罰因子;ei為第i個樣本的預測偏差;e為所有樣本的預測值與目標值的總誤差;yi為樣本目標值。
此時,可利用常規的拉格朗日乘子法求解優化問題。

定 義 核 函 數K(xi,yj)=φ(xi)φ(yj),其 中K(xi,yj)表示滿足Mercer條件的對稱函數。

AdaBoost算法是一種集成學習技術框架,針對同一個訓練集訓練不同的基學習器,然后把這些基學習器集合起來,構成一個更強的最終學習器。LLSVM-Adaboost電量預測模型結構如圖3所示。以LLSVM為基學習器,通過Adaboost集成算法串行訓練多個LLSVM基學習器,并調整樣本分布和每個基學習器的權重系數。對于訓練過程中預測誤差大于設定閾值的樣本,增加其權重,反之降低其權重;最后,對每個基學習器的預測結果進行加權整合,得到最終的預測結果。

圖3 LLSVM-AdaBoost電量預測模型結構圖Fig.3 Structure diagram of LLSVM-Adaboost electric quantity prediction model
假 設 有n個 觀 測 數 據D={(x1,y1),(x2,y2),…,(xn,yn)},包 括 電 量 歷 史 數 據、分 布 式 電 源 歷 史出力數據、氣象數據以及節假日信息。給定LLSVM為基礎學習器模型的情況下使用Adaboost算法,在算法起始階段,賦予所有觀測數據相同的權重值1/n,基學習器的數目設定為T。對于電量預測問題,首先確定Adaboost集成算法的基學習器,并設置基學習器數量為T,對訓練數據集的權重進行初始化。使用帶有初始權重分布的訓練集,訓練第一個基學習器LLSVM,計算訓練集在基學習器f1上的預測誤差率 ε1。根據預測誤差率表現來更新訓練樣本的權重W,使基學習器f1預測誤差率較高的樣本點權重變高。在基學習器f2中,這些預測誤差率較高的點能夠受到更多的重視,然后基于調整權值后的訓練集來訓練基學習器f2。如此重復進行,直到基學習器數達到事先設定的數目T,最終將這T個基學習器通過集合策略進行整合,得到最終的強學習器。
LLSVM-Adaboost的算法流程描述如下。
(1)輸入
輸 入 訓 練 集D={(x1,y1),(x2,y2),…,(xn,yn)}、基學習器 ΓLLSVM、訓練輪數T、…;數據權值初始化:W1=(w11,…,w1i,…,w1n),w1i=1/n,i=1,2,…,n。
(2)過程
for t=1,2,…,T do
①使用帶有權值分布Wt的訓練集訓練基學習 器:ft=ΓLLSVM(D,Wt)。
②計算訓練集在ft(x)上的線性預測誤差率:

其中,Zt是歸一因子,使樣本集的權重和為1:Zt=
(3)輸出
最 終 預 測 器:f(x)=ht*(x)
其 中,ht*(x)是 所 有ln(1/αt),t=1,2,…,T的 中 位 數對應序號t*對應的基學習器。
上述流程中,D為訓練集;n為樣本數量;T為基學習器的數目;W為樣本權重值;Wt為第t個基學習器的樣本權重;ft為第t個基學習器;ft(xi)為第i樣本在第t個基學習器上的預測值;yi為第i樣本的實際電量值;εt為第t個基學習器的預測誤差率;eti為在第t個基學習器中第i樣本的相對預測誤差;αt為第t個基學習器的系數,
采用冀北電網管轄的分布式電源發電量數據,對日電量預測算法進行驗證。由于該轄區內分布式電源滲透率較高,且分布式電源所帶來的功率變化較大,因此可以較好地判斷算法預測的準確性。采用冀北電網2017年1月-2018年12月的全部電量數據作為訓練數據,采用2019年的數據作為測試數據。
輸入數據包含負荷側電量歷史數據、分布式電源發電量歷史數據、天氣數據、經濟數據等。負荷側電量歷史數據選取預測日前一天的電量數據。分布式電源發電量歷史數據選取預測日前一天的數據。天氣因素中包含環境溫度、濕度、風速、露點、天氣類型等,選取預測日當天對電量影響較大的天氣因素。通過日歷信息來提取節假日因素特征,用1表示工作日,用0表示節假日,并采用獨熱編碼,將離散數據連續化。如果節假日特征中有兩類信息,將類別1編碼為01,將類別2編碼為10。表1為模型的輸入數據類型及變量特征。
本文通過建立LLSVM-Adaboost集成學習模型來實現區域電網日電量的預測,在建立模型之前須要對超參數進行初步的篩選。首先確定基學習器LLSVM的超參數設置,而核函數的選取及參數設置對LLSVM模型的預測性能至關重要。常見的核函數有線性核函數、多項式核函數、徑向基(RBF)核函數和sigmoid核函數。為了簡化模型,減少模型訓練時間,適應日電量預測的需要,選用性能較好的RBF核函數。RBF核函數用于LLSVM中須考慮懲罰系數c和核函數帶寬 σ兩個參數。懲罰系數c取值越大,擬合非線性的能力越強,對誤差項的懲罰程度也越大,可能會導致模型過擬合。核函數帶寬σ越小,支持向量越小;σ越大,支持向量越大。支持向量的個數影響訓練和預測的速度。確定集成學習框架Adaboost模型的超參數中,基學習器類型、基學習器的最大迭代次數和學習率是影響Adaboost模型性能最為重要的3個超參數。本文已將LLSVM作為基學習器,LLSVM通過非線性變換實現了低維輸入向量到高維特征空間的映射,對具有非線性和隨機波動性的電量序列數據具有較為出色的預測效果。基學習器的最大迭代次數和學習率的設定會影響到模型的訓練效果。最大迭代次數值越大,模型的復雜度越高,越容易出現過擬合現象;最大迭代次數值越小,越容易欠擬合。Adaboost中的學習率為梯度收斂速度,該值過大,容易錯過最優值;該值過小,則收斂速度很慢。最大迭代次數和學習率之間存在著一種權衡關系,須對二者的數值進行合理的設置。采用網格搜索法對上述重要的超參數進行尋優,是一種窮舉搜索方法,將各個參數可能的取值進行排列組合,列出所有可能的組合結果,生成矩陣;然后將各個組合用于LLSVM-Adaboost訓練,并使用交叉驗證對各組合的表現進行評估;最后篩選出使LLSVM-Adaboost預測模型性能最佳的超參數組合(表2)。

表2 LLSVM-Adaboost電量預測模型的超參數設定Table2 Hyperparameter setting of LLSVM-Adaboost electric quantity prediction model

續表2
為了對結果進行分析,本文采用的誤差指標包含平均相對誤差 (MAPE)和均方根誤差(RMSE):

式中:n為樣本數量;ai和bi分別為i時刻的實際電量值和預測電量值。
首先展示典型日的預測結果。往往在每年的夏季迎來高峰負荷,該場景的預測電量對電力系統的規劃、交易最具有參考意義,將顯示全年的極端運行狀況。為了驗證本文所提模型在地區電網日電量預測中所表現出的有效性和優越性,使用了長短期記憶神經網絡(Long Short-Term Memory,LSTM)和LSSVM算法作為對比,3種模型均采用相同的輸入數據。為了體現3種模型對比的公平性,每個模型在訓練過程中都經過參數尋優,并以最優的模型進行日電量預測。圖4給出了3種模型的夏季典型日的電量預測曲線。

圖4 3種模型夏季典型日的電量預測效果圖Fig.4 The electric quantity prediction effect of the three models on a typical day in summer
從夏季典型日的預測曲線可以直觀看出,LSSVM-Adaboost算法的預測曲線與真實值最為貼合,且波動不大,曲線較為平滑,具有良好的預測效果。具體的日預測誤差統計結果如表3所示。

表3 日預測誤差統計Table3 Statistical table of daily forecast error
從表3中的日預測誤差統計結果可以看出,LSSVM-Adaboost算法的預測精度比另外兩種算法有較大的提升,這在一定程度上表明本文預測算法的有效性。由于一天的預測結果存在偶然性,本文同時計算了2020年1-10月的預測結果,均以日為單位,統計RMSE超過1kW和MAPE超過2%的天數,以驗證模型的預測穩定性。統計結果如表4所示。

表4 年度預測誤差統計Table4 Statistical table of year forecast error
從2020年的預測結果可以看出,在綜合預測指標下,LSSVM-Adaboost算法仍具有較大的優勢。通過LSTM算法和LSSVM算法預測結果的對比,能夠較為直觀地顯現出基于Adaboost集成學習的核函數向量學習機具有更為出色的性能表現。從預測誤差指標超標特性來看,在1-10月共274d里,LSSVM-Adaboost的預測穩定性優勢明顯,其RSME和MAPE超標占比只有5.1%和3.3%。LSSVM的RSME和MAPE指標分別為39.8%和17.5%;LSTM的兩項指標分別為57.3%和67.2%。與該兩種算法相比,LSSVM-Adaboost的最大誤差MAPE分別降低了14.2%和63.9%。這說明LSSVM-Adaboost算法在長時間的預測尺度內具有良好的穩定性。
為了更加全面地說明預測結果的穩定性,統計2020年誤差分布結果如圖5所示。

圖5 誤差分布曲線Fig.5 Error distribution curves
從誤差分布的角度來看,LSSVM-Adaboost的誤差分布更加靠近中心零點,呈現中間高,兩側低的分布規律。這說明本文的預測方法具有較高的穩定性,而且預測精度較高。LSTM和LSSVM的曲線形狀類似,說明其預測穩定性也較好,但是曲線分布較寬,說明預測精度不如本文所提出的模型。LLSVM模型的誤差分布曲線不規律,最大誤差偏大,預測穩定性較差。
為了進一步研究分布式電源接入電網對電量預測的影響,設置了兩種不同預測場景,分別是考慮分布式電源接入數據和不考慮分布式電源接入數據的電量預測場景,構建了兩種不同的電量預測模型。采用兩種電量預測模型進行電量預測對比,來具體刻畫分布式電源并網接入對地區日電量預測的影響。表5給出了考慮分布式電源和不考慮分布式電源預測場景下,分布式電源出力對地區電量預測的影響。從表5中的數據可見,在考慮分布式電源接入數據的情況下,本文所提模型對地區日電量預測的精度更高。這說明分布式電源接入電網對地區日電量預測會產生一定的影響。

表5 考慮和不考慮分布式電源接入預測場景下,LLSVM-Adaboost模型對地區電量預測的效果Table5 Effects of PSO-Informer model on regional electric quantity prediction under different permeability prediction scenarios
本文提出了一種針對分布式電源規模化接入區域電網的日電量預測方法,分析了分布式光伏與分布式風電所帶來的隨機性與波動性。本研究基于日電量、全用戶的大數據分析方法,結合分布式電源出力、氣象、環境等關鍵外部數據,建立符合冀北電網實際的電力市場量化分析模式,找出影響電量波動的關鍵要素,量化影響程度,確定影響未來電力市場走勢。預測模型采用LSSVM為基礎預測模型,并使用Adaboost算法對基學習模型LLSVM進行集成學習。算例驗證結果表明,本文所提出的模型預測性能優越,對于預測區域電網日電量具有良好的使用效果。