易善軍,王漢軍,向 勇,田長翼,高大禹,陳志奎
(1.國網(wǎng)內(nèi)蒙古東部電力有限公司,呼和浩特 010010;2.中國科學(xué)院 沈陽計算技術(shù)研究所有限公司,沈陽 110168;3.大連理工大學(xué) 軟件學(xué)院,遼寧 大連 116620)
電力行業(yè)中隨著化石燃料的不斷消耗,其造成的環(huán)境污染越來越嚴(yán)重,世界各國的火力發(fā)電比例逐漸下降。風(fēng)能、太陽能、潮汐能等清潔能源受到關(guān)注,其中風(fēng)能具有資源豐富、轉(zhuǎn)換技術(shù)相對簡單等優(yōu)點,風(fēng)力發(fā)電被很多國家納入重點考慮[1]。中國擁有極為豐富的風(fēng)力資源,絕大多數(shù)地區(qū)的平均風(fēng)速都在3 m/s以上,尤其是東北、西北、西南高原和沿海島嶼,平均風(fēng)速更大,風(fēng)力發(fā)電潛力巨大。但風(fēng)力發(fā)電由于風(fēng)量不穩(wěn)定、不可控,存在波動性、隨機性,使其發(fā)展受到很大程度的制約[2]。風(fēng)功率的短時預(yù)測可以幫助電網(wǎng)進行發(fā)電情況的全面監(jiān)控、并及時做出計劃調(diào)整,提高電力系統(tǒng)的可靠性。同時,精確的短時風(fēng)功率預(yù)測可以提高風(fēng)能利用率、解決風(fēng)儲系統(tǒng)的過充或過放問題。
目前,風(fēng)電場的短時風(fēng)功率預(yù)測已受到研究者們的關(guān)注,存在大量相關(guān)研究。現(xiàn)存研究采用的方法整體可以分為三類:1)物理方法;2)統(tǒng)計學(xué)方法;3)人工智能方法。采用物理方法是指在預(yù)測過程中結(jié)合天氣、氣壓、障礙物等環(huán)境信息對風(fēng)功率進行預(yù)測。數(shù)字天氣預(yù)測[3](NWP, numerical weather prediction)作為物理方法的核心模型已經(jīng)將所選區(qū)域地形等復(fù)雜因素考慮進去。一些研究者[4]提出引入風(fēng)速和風(fēng)向作為參考變量,結(jié)合聚類方法的風(fēng)功率預(yù)測模型。然而,由于復(fù)雜的計算因素與環(huán)境限制,物理方法的應(yīng)用受到極大的限制。統(tǒng)計學(xué)方法是通過數(shù)學(xué)函數(shù)構(gòu)造歷史數(shù)據(jù)與輸出值之間的映射關(guān)系。自回歸模型、自回歸滑動平均模型、整合滑動平均自回歸模型都被用于學(xué)習(xí)風(fēng)功率時間序列的統(tǒng)計學(xué)規(guī)則[5-7]。同時,支持向量機[8](SVMs,support vector machines)、時間序列分析方法[9-10]也應(yīng)用到風(fēng)功率預(yù)測。統(tǒng)計學(xué)方法通過線性化假設(shè),在狀態(tài)穩(wěn)定的情況下會給出有競爭力的預(yù)測結(jié)果。但風(fēng)功率序列具有隨機和間歇特性,使得其數(shù)據(jù)十分復(fù)雜,這些淺層模型不能很好的提取相應(yīng)的非線性特征[11],因此該類方法仍有提升空間。
由于傳統(tǒng)方法難以從風(fēng)功率數(shù)據(jù)中提取出深度特征[12],隨著人工智能技術(shù)的不斷發(fā)展,為了充分挖掘風(fēng)功率歷史數(shù)據(jù)信息,深度學(xué)習(xí)方法被認(rèn)為是有效的特征學(xué)習(xí)方法[13],越來越多的相關(guān)人工智能算法被應(yīng)用到風(fēng)功率預(yù)測領(lǐng)域。其中包括棧式自編碼機(SAE,stacked autoencoder)和反向傳播方法相結(jié)合的預(yù)測模型[14],人工神經(jīng)網(wǎng)絡(luò)(ANN, artificial neural networks)也被用來預(yù)測風(fēng)功率時間序列中會出現(xiàn)的下一個波動[15]等。而循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs, recurrent neural networks),由于它的循環(huán)設(shè)計能夠從序列中學(xué)習(xí)到高度非線性動態(tài)時間信息,在自然處理領(lǐng)域表現(xiàn)突出,并被應(yīng)用于很多其他時間序列任務(wù)中去[16-17]。為了促使RNN在各領(lǐng)域有較好的表現(xiàn),大量研究被提出,其中包括一個非常流行的RNN變體,即LSTM[18]。但是,若將LSTM直接應(yīng)用于風(fēng)功率預(yù)測任務(wù),其從整個時間序列中學(xué)習(xí)復(fù)雜的時間和空間模式的能力有限。如沿著時間軸,由于梯度消失模型學(xué)習(xí)很容易失去長時的依賴關(guān)系[19]。提出基于集成多尺度LSTM的短時風(fēng)功率預(yù)測模型,通過不同長度時間序列分別構(gòu)建預(yù)測模型,再融合預(yù)測結(jié)果,一定程度上緩解由于時間序列過長LSTM失去信息依賴關(guān)系的問題,同時保留長時間序列數(shù)據(jù)中豐富的時序信息和短時間序列中受噪聲干擾較少的時序信息,通過LSTM單元構(gòu)建的深度網(wǎng)絡(luò)充分挖掘時間序列中數(shù)據(jù)間隱含的依賴關(guān)系,得到更好的短時風(fēng)功率預(yù)測結(jié)果。研究以搜集到的中國東北地區(qū)風(fēng)功率數(shù)據(jù)為實驗數(shù)據(jù)集,驗證所提方法有效性。
所提模型采用LSTM從風(fēng)功率時間序列數(shù)據(jù)本身進行信息挖掘,構(gòu)造不同尺度數(shù)據(jù)集進行同一時間點的數(shù)據(jù)預(yù)測,通過集成學(xué)習(xí)整合不同預(yù)測結(jié)果,得到更加接近真實值的最終結(jié)果。整體框架如圖1所示。

圖1 整體框架圖
長短期記憶網(wǎng)絡(luò)發(fā)表于 1997 年,是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種,面對長期依賴問題具有很好的解決能力。循環(huán)神經(jīng)網(wǎng)絡(luò)與其他網(wǎng)絡(luò)的不同之處在于其隱含層存在自連接,能夠通過將輸出送到輸出端的同時,也送入下一個時間步驟的隱含層。因此它能夠持續(xù)保存信息,根據(jù)之前狀態(tài)推出之后狀態(tài)。所有循環(huán)神經(jīng)網(wǎng)絡(luò)都以一個重復(fù)模塊鏈的形式存在,LSTM同樣擁有這一重復(fù)模塊,但其不是一個單一的神經(jīng)網(wǎng)絡(luò)層,而是由4部分以一個特殊的方式連接起來的。具體結(jié)構(gòu)如圖2所示。

圖2 LSTM網(wǎng)絡(luò)結(jié)構(gòu)圖
在LSTM中,x=[x1,x2,x3,…,xt],T為時間步長,xt為在時刻t的輸入,h=[h1,h2,h3,…,hT],ht為在時刻t相應(yīng)的輸出,c=[c1,c2,c3,…,cT],ct為在時刻t記憶細胞相應(yīng)的狀態(tài)。細胞狀態(tài)是LSTM的記憶單元,里邊包含了之前網(wǎng)絡(luò)中的所有信息。
第一步需要決定從之前的網(wǎng)絡(luò)中忘掉哪些信息,具體通過遺忘門來實現(xiàn),稱之為遺忘階段。通過讀取ht-1和xt,采用sigmoid函數(shù),決定細胞狀態(tài)上一時刻的信息被遺忘的比例。計算公式如下
ft=σ(Wf·[ht-1,xt]+bf),
(1)
式中:Wf,bf分別為該階段的權(quán)重矩陣、偏置向量,σ為sigmoid函數(shù)。
it=σ(Wi·[ht-1,xt]+bi),
(2)
(3)
(4)
式中:Wi,bi分別為sigmoid層的權(quán)重矩陣、偏置向量;Wc,bc分別為tanh層的權(quán)重矩陣、偏置向量;tanh為雙曲正切函數(shù)。
最后為輸出階段,通過輸出門實現(xiàn)。通過sigmoid函數(shù)計算細胞狀態(tài)ct輸出的信息的比例,然后與經(jīng)過激活的細胞狀態(tài)相乘,得到最終輸出結(jié)果。
ot=σ(Wo·[ht-1,xt]+bo),
(5)
ht=ot*tanh(ct)。
(6)
現(xiàn)有短時風(fēng)功率預(yù)測方法大多關(guān)注單個長度下的預(yù)測結(jié)果,信息有限,通過集成多個尺度時間序列擴充信息容量,是提高預(yù)測準(zhǔn)確度的一種方法,這一方法可采用裝袋算法(Bagging)的思想。
裝袋算法是是機器學(xué)習(xí)領(lǐng)域的一種團體學(xué)習(xí)算法,它可以通過結(jié)合其他分類、回歸算法,對準(zhǔn)確率、穩(wěn)定性進行提高的同時,降低結(jié)果的方差,避免過擬合的發(fā)生,采用這種策略的技術(shù)也被稱為集成方法(ensemble learning)。其主要思想是分別對幾個不同的模型進行訓(xùn)練,所有模型會對測試樣本進行相應(yīng)的輸出,再通過取平均值、取多數(shù)投票的方法得到最終的結(jié)果。同樣采用訓(xùn)練多個模型的策略,通過選取不同尺度的時間序列形成不同數(shù)據(jù)集,通過訓(xùn)練多個LSTM網(wǎng)絡(luò)對結(jié)果進行預(yù)測。因不同尺度風(fēng)功率數(shù)據(jù)對預(yù)測的不同時間長度的風(fēng)功率結(jié)果影響不同,所以針對不同模型賦予不同權(quán)重,最終進行模型集成,獲得預(yù)測結(jié)果。具體實現(xiàn)過程如算法描述。
基于多尺度LSTM的集成算法:
Input: 已搜集的東北地區(qū)風(fēng)功率數(shù)據(jù)。
Step1: 確定具體預(yù)測時長,確定預(yù)測所需的不同尺度數(shù)據(jù),分別從全體數(shù)據(jù)中進行抽取,形成實驗所需訓(xùn)練集和驗證集。
Step2: 從訓(xùn)練集中通過抽樣構(gòu)造出大小相同,樣本組成尺度不同的訓(xùn)練子集。
Step3: 使用不同訓(xùn)練子集分別訓(xùn)練LSTM模型,形成多個不同模型。
Step4: 不同尺度數(shù)據(jù)訓(xùn)練模型對驗證集進行預(yù)測,分別得到預(yù)測結(jié)果。
Step5: 根據(jù)加權(quán)投票的法則,從不同尺度訓(xùn)練模型的預(yù)測結(jié)果得到最終的預(yù)測結(jié)果P。
Output:樣本預(yù)測結(jié)果P。
由于平均絕對誤差(MAE,mean absolute error)和均方根誤差(RMSE,root mean squared error)可以反映預(yù)測值與真實值之間的距離。用MAE, RMSE 來評估預(yù)測性能。公式如下
(7)
(8)
采用搜集到的東北地區(qū)2019年上半年的風(fēng)功率數(shù)據(jù)作為實驗數(shù)據(jù)對模型性能進行驗證。共包含2019年1月1日至2019年6月31日的181 d數(shù)據(jù),每15 min進行一次數(shù)據(jù)采樣,每天共有96個數(shù)據(jù)點。部分?jǐn)?shù)據(jù)分布情況如圖3所示。

圖3 部分風(fēng)功率數(shù)據(jù)分布情況
本模型設(shè)計針對短時風(fēng)功率預(yù)測的情況,所以主要進行了2 h風(fēng)功率預(yù)測和4 h風(fēng)功率預(yù)測相關(guān)實驗。具體實驗結(jié)果如表1、表2所示。

表1 4 h風(fēng)功率預(yù)測MAE和RMSE結(jié)果

表2 2 h風(fēng)功率預(yù)測MAE和RMSE結(jié)果
表1,表2分別為對4 h風(fēng)功率情況、2 h風(fēng)功率情況進行預(yù)測得到的實驗結(jié)果。前4組模型分別為采用需預(yù)測數(shù)據(jù)的前2 h、5 h、10 h和20 h數(shù)據(jù)進行模型學(xué)習(xí),而后進行結(jié)果預(yù)測。后4組模型分別是集成2 h、5 h;5 h、10 h;5 h、20 h和5 h、10 h、20 h的預(yù)測結(jié)果,進行最終結(jié)果預(yù)測。從表中可以看出通過集成前5 h和20 h的風(fēng)功率預(yù)測結(jié)果進行預(yù)測會得到最小的平均絕對誤差和均方根誤差,即達到最好的預(yù)測效果。圖4、圖5分別為預(yù)測2 h和4 h情況下風(fēng)功率真實值和預(yù)測值的分布情況。

圖4 預(yù)測4 h真實值與預(yù)測值分布情況

圖5 預(yù)測2 h真實值與預(yù)測值分布情況
實驗過程中分別選取預(yù)測前的2 h,5 h,10 h和20 h的數(shù)據(jù)作為不同尺度數(shù)據(jù)進行預(yù)測基模型的建立。再進行不同尺度的模型集成,最后得到效果最好的預(yù)測模型。從實驗結(jié)果中可以看出集成模型和單一基模型相比預(yù)測效果更好,但并不是集成的模型越多,得到的實驗結(jié)果越好。如表1,表2所示,不同時長的3個基模型的集成實驗結(jié)果要低于集成5 h、20 h的2個基模型后得到的實驗結(jié)果。同時,從實驗結(jié)果中看預(yù)測時長的選取和預(yù)測的準(zhǔn)確程度并不成正比,即選取被預(yù)測時間之前的越長時間的數(shù)據(jù)進行短時風(fēng)功率預(yù)測并沒有得到越好的結(jié)果,如選取5 h時長的數(shù)據(jù)預(yù)測效果好于選取10 h時長的數(shù)據(jù)預(yù)測結(jié)果,前20 h的數(shù)據(jù)預(yù)測結(jié)果表現(xiàn)優(yōu)異。原因可能是5 h的時長數(shù)據(jù)具有較少的噪音干擾,而10 h數(shù)據(jù)包含噪聲干擾較多,包含時間序列信息也有限,導(dǎo)致實驗結(jié)果表現(xiàn)不佳,而20 h時間序列數(shù)據(jù)包含信息較豐富,彌補了噪音的影響。
實驗結(jié)果表明,由5 h、20 h的2個基預(yù)測模型集成得到最好的預(yù)測結(jié)果。可以看出預(yù)測前的不同尺度數(shù)據(jù)中包含著對預(yù)測結(jié)果有影響的不同信息。充分挖掘和利用不同尺度時間數(shù)據(jù)能有效提高預(yù)測結(jié)果,對風(fēng)功率情況有更加精確的把控。從實驗結(jié)果還可以看出,所提模型對2 h風(fēng)功率的預(yù)測結(jié)果要好于對4 h風(fēng)功率的預(yù)測結(jié)果。原因可能是時間序列中包含的信息針對較近的風(fēng)功率情況可以更好地反映出來。
針對因自然界中風(fēng)力不穩(wěn)定、環(huán)境變化快等因素導(dǎo)致的風(fēng)功率存在波動大、難以預(yù)測的問題,提出了基于集成多尺度LSTM的短時風(fēng)功率預(yù)測模型,通過挖掘被預(yù)測數(shù)據(jù)前不同尺度數(shù)據(jù)信息,得到更好的預(yù)測結(jié)果。主要集成不同尺度數(shù)據(jù)訓(xùn)練的LSTM基預(yù)測模型,對2 h和4 h情況下風(fēng)功率數(shù)據(jù)進行預(yù)測。實驗結(jié)果表明集成策略在提高預(yù)測精度上起到一定效果,并且在集成被預(yù)測數(shù)據(jù)的前5 h數(shù)據(jù)和前20 h數(shù)據(jù)的基預(yù)測模型的情況下會得到較好的預(yù)測結(jié)果。
所提模型融合了不同尺度數(shù)據(jù)的內(nèi)在信息,得到較好的實驗結(jié)果,對電網(wǎng)更好的利用風(fēng)能提供了一種預(yù)測方案。在未來的研究中希望可以通過更多地更復(fù)雜的模型結(jié)構(gòu)探索數(shù)據(jù)內(nèi)在信息,盡可能提高預(yù)測精度。