易靈芝,王仕通,易 芳,鄧 棟,易志敏,姜 鵬
1.湘潭大學 自動化與電子信息學院,湖南省多能源協同控制技術工程研究中心,湖南 湘潭411105
2.湖南省風電裝備與能源變換協同創新中心,湖南 湘潭411105
3.湘電風能有限公司,湖南 湘潭411105
風力發電作為風能利用的主要形式,因其環??沙掷m、成本低和規模效益顯著的特點[1],廣泛地分布在世界各地。但與傳統發電如火力發電的方式相比,風速較強的波動性和隨機性為電力系統帶來了巨大的挑戰,例如因風電短時間大范圍的波動導致的風電功率爬坡事件[2]。這種情況會導致電力系統短時間內失去大量電源,打破原有的平衡,可能引起電力系統的崩潰。目前對風電功率爬坡的研究主要集中在預測方面,通過對未來一段時間的風電功率變化進行預測,為之后的風電爬坡研究提供基礎[3],而風速的預測正是風電功率預測的基礎。此外,較強的風速波動也容易導致風電機組自身出現事故,例如軸承和葉片斷裂。因此準確的風速預測一方面可以保護風電機組,另一方面能夠在保護電力系統的同時幫助電力部門制定完善的發電調度計劃。
目前,對風速預測的研究可分為長期預測、短期預測和超短期預測[4]。超短期預測可以對未來數分鐘的風速值進行精確預測,可用于對風電機組的保護、控制和電力調度[5]。常見的超短期風速預測建模方法有時間序列法、卡爾曼濾波法、人工智能方法等。時間序列預測法如自回歸移動平均法(Auto-Regressive and Moving Average,ARMA)[6]、自回歸差分移動平均法(Auto-Regressive Integrated Moving Average,ARIMA)[7],利用序列自身數據即可建立較高精度的預測模型,但存在低階模型預測精度偏低、高階模型參數估計難度偏大等缺點。人工智能方法如人工神經網絡(Artificial Neural Network,ANN),雖然可以處理復雜問題,但是網絡的結構很難確定[8-9]。而支持向量機(Support Vector Machine,SVM)[10]和極限學習機(Extreme Learning Machine,ELM)[11]等雖然有良好的自學習和自適應能力和較強的非線性映射能力和并行處理能力,但過于依靠參數的整定。如今隨著深度學習的迅速發展,與淺層神經網絡相比,深層神經網絡能夠在同等情況下挖掘到更多的信息。目前,越來越多的學者將目光投向組合預測模型。
針對風速的特點,本文提出將集合經驗模態分解風速數據分解為多個內涵模態(Intrinsic Mode Function,IMF)和殘差分量;隨后由樣本熵(Sample Entropy,SE)進行歸類;引入改進鯨魚算法對長短期記憶網絡無監督地搜尋適合的參數;提出組合預測模型。
本文使用數據均為我國湖南某風電場的實測數據,與多個預測方法進行比較,本文算法在超短期風速預測精度方面具有優越性。
利用數據對神經網絡進行訓練獲得預測模型時,往往由于數據間難以被挖掘的聯系以及龐大的數據量,使得模型的精度受到影響。為了挖掘數據間隱藏的關系,需要使數據變得利于模型預測。經驗模態分解(Empirical Mode Decomposition,EMD)算法是一種對非線性非平穩信號進行平穩化處理的方法[12]。復雜的非線性信號可以通過EMD 分解算法分解成一系列的平滑IMF 分量。在分解的IMF分量中,包括了原信號的不同尺度的波動和趨勢的局部特征信息,這在一定程度上有利于解析出信號的真實物理意義。然而EMD 在分解過程中,出現的模態混疊現象使IMF的物理意義有所缺失,造成預測模型對分解分量適應性的下降。針對EMD存在的問題,在2008 年出現了集合經驗模態分解(Ensemble Empirical Mode Decomposition,EEMD)算法。利用噪聲輔助信號處理的方法在原始信號中增加白噪聲,EEMD通過對多次分解的IMF疊加求平均,解決了模態混合的現象。其具體實現步驟見文獻[13]。樣本熵(SE)是由Richman 等在2000 年提出的一種時間序列復雜度測試方法,主要用于定量地描述系統的復雜度和規則度。與近似熵相比,樣本熵具有不計算自我匹配度和對數據缺失的包容度高的優點,因此可以克服近似熵計算的偏差,計算速度更快。其具體實現的步驟見文獻[14]。m為樣本熵的重構維數,一般選擇1 或2。而r表示閾值的大小,一般取值在(0.10~0.25)Estd(Estd為原始數據的標準差)時計算得到的樣本熵具有較合適的統計特征。故在本研究中m=2,r=0.2Estd。
循環神經網絡(Recurrent Neural Networks,RNN)是一種具有反饋結構的神經網絡,其輸入不僅和當前的輸入和網絡權值有關,而且也和之前的網絡輸入有關。RNN 構建的網絡會對歷史時刻的信息進行記憶,并將記憶留下的信息應用到當前神經元的輸入計算中。但循環神經網絡學習長期依賴問題時會出現梯度消失或梯度爆炸等問題,導致模型無法訓練[8]。Hochreutener等人提出長短期記憶神經網絡(Long Short-Term Memory,LSTM)來克服這一問題[15],實現信息在網絡上的長期流動。
LSTM 神經元內部結構如圖1 所示,為了建立時間連接,LSTM在整個循環周期內定義和維護一個內部記憶單元狀態——細胞狀態Ct。單元狀態C相當于一個儲存器,它利用少量的線性交互保證信息流傳過程中的完整性。然后通過遺忘門、輸入門、輸出門三個門結構來更新、維護、刪除細胞狀態內的信息,具體計算過程如下:

圖1 LSTM結構圖Fig.1 Structure diagram of LSTM

其中,xt是t時刻的輸入向量,Ct、Ct-1分別表示當前時刻和下一時刻輸入的狀態,ht-1表示當前網絡的輸入值和上一時刻的輸出值,ht表示當前時刻的輸出值,表示輸入的候選狀態,ft、it、ot分別為遺忘門、輸入門、輸出門的運算結果;Wf、Wi、Wc、Wo為權重矩陣,bf、bi、bc、bo為偏置向量。反向傳播過程中,δ、tanh 分別表示sigmoid 和雙曲正切函數。根據以上公式進行前向計算,即可得到系統的輸出。
LSTM 解決了RNN 梯度反傳由于逐步縮減而產生的梯度消失問題,但其參數的確定仍然通過BPPT算法才能夠實現,并且BPPT算法仍然存在計算復雜度較高以及陷入局部最優等缺陷。鯨魚優化算法(Whale Optimization Algorithm,WOA)是Mirjalili 等學者在2016 年根據座頭鯨狩獵行為提出的一種新型啟發式優化算法[16],具有原理簡單,可以繞過局部最優的優點。WOA算法主要包括三個步驟:
步驟1包圍。
座頭鯨在狩獵時要包圍獵物,下面的數學模型被用來描述這種行為:

其中,t表示當前的迭代次數,A和C是系數向量,D為當前鯨魚位置與最佳鯨魚位置逼近的迭代距離。X′(t)表示目前為止最好的鯨魚位置向量,X(t)表示當前鯨魚的位置向量,A和C的計算如式(3):

其中,r1和r2是(0,1)中的隨機數,a為收斂因子,且a∈(0,2)。a可由式(4)來表示:

其中,Tmax表示最大迭代次數。
步驟2狩獵。
座頭鯨以收縮包圍機制或螺旋泡泡網攻擊的方式更新位置,該行為的數學模型可以表示為式(5):

其中,l和p分別為(-1,1) 和(0,1) 之間的隨機數;Dp表示獵物與鯨魚之間的距離;b為對數螺旋系數,螺線的形狀會隨著b的取值發生改變。座頭鯨捕獵時會以p的概率選擇以上兩種捕獵方式中的一種。
步驟3捕食。
座頭鯨在探索過程中隨機尋找獵物,并根據隨機選擇的搜索代理而不是最佳搜索代理更新位置。當A≥1時,隨機選擇一個搜索代理,以該隨機選擇的鯨魚位置向量來更新其他鯨魚的位置,搜索其他更適合的獵物,借此增強算法的全局搜索能力。

式(6)中,Xrand為隨機選擇的鯨魚位置向量。
全局搜索和局部搜索這兩種搜索類型存在于每一個群智能算法中。前者能力強,可以保證種群的多樣性,而后者則與算法對局部搜索的精準度正相關。原始鯨魚算法的收斂因子a隨著迭代次數從2線性遞減到0,但算法在不斷收斂的過程中并不是線性的,收斂因子a線性遞減策略不能完全體現出實際的優化搜索過程,故本文提出一種新的非線性收斂方式:

其中,e 是自然對數的底數,t是當前迭代的次數,Lmax是最大迭代次數。
如圖2所示,相較于WOA算法,IWOA的斜率進行非線性變化能更好反映搜索過程。

圖2 WOA與IWOA收斂因子效果對比Fig.2 Comparison of convergence factors between WOA and IWOA
由于LSTM在時序預測中的表現較好,改進的鯨魚算法具有較強的全局搜索能力。本文將IWOA與LSTM結合以無監督方式獲取合適的模型參數。本文方法將LSTM 網絡的迭代次數epoch 和隱藏層神經元個數N作為IWOA算法的決策變量,通過適應度值的對比確定輸出最優。具體優化流程圖如圖3所示,改進鯨魚優化算法通過區分適應度函數大小來區分每個個體的優勢。適應度函數是否合適與算法的收斂速度和能否找到最優解直接相關。本文將鯨魚優化算法的適應度函數設置為:

圖3 IWOA算法參數尋優結構Fig.3 Parameter optimization structure using IWOA algorithm

其中,Y′為LSTM 模型的輸出值,Y為訓練樣本X對應的標簽值,l為當前迭代次數。
基于EEMD 與樣本熵對數據的預處理以及IWOA算法無監督搜索LSTM模型參數,本文搭建了EEMDSEILSTM 組合預測模型。整體流程如圖4 所示。該方法首先通過EEMD對風速數據集進行分解,使波動的數據變得平滑以便于預測;為了簡化計算,根據樣本熵對數據進行篩選;采用EEMDSE-ILSTM 依次對每個子數據進行預測;最后將每個預測值組合以得到最終的預測結果。

圖4 整體流程圖Fig.4 Overall flow chart
本文選用2018年湖南某風場風機數據采集系統提供的全年實時風速數據。原始數據的采樣步距為5 min,選擇3月份風速數據共計2 400個點進行預測。利用滑窗預測方法對5 min風速提前一步進行預測。
由于風速采集器的故障、數據遺漏等問題,風速數據存在異常值和缺失值,從而影響模型的預測精度,需要對缺失值和異常值進行相關處理。本文將異常值與缺失值均視為缺失值進行處理,并采用多重插補法[16]對缺失值進行填充。此外,由于風速的數據波動較大,對預測的準確度和速度都會產生不良的影響。故本文采用min-mix 標準化方法對分解后得到的分量進行歸一化處理。對分子加1處理以防止歸一化后的數據出現0,干擾模型預測。

其中,xnorm表示歸一化后的值;xmin和xmax分別表示數據集中的最小、最大值。
當預測風速點較多或時間步長較長時,LSTM網絡會存在累計誤差,導致模型預測誤差變大。本文采用迭代法對輸入樣本進行更新,設置時間步長為Step=1,預測長度為Length,每次訓練數據量為t,結束后模型僅針對t +1 位置的風速進行預測。將最新的預測數據回添至數據集末端;之后將數據集往后滑動一個窗口,Step=Step +1,繼續迭代循環直至Step >Length。
EEMD參數主要有兩種設置,分別為隨機白噪聲標準差Nstd和添加噪聲次數K。設置合理的參數有助于提高模型的預測精度。為此本實驗設置了多組不同的EEMD 參數進行了預測對比。表1 為不同EEMD 參數代表的預測模型運行10次后的RMSE與MAPE的結果,所用數據集分別為3 月份和5 月份的風速數據集。由表1 可以看出,當Nstd為0.01,K為80 時預測模型的平均誤差在所有預測模型中基本為最小,只有在3月份時其RMSE最大值稍微大于Nstd為0.05,K為50時的預測模型,但其在3 月份的RMSE 平均值小于Nstd為0.05,K為50 時的預測模型。因此Nstd為0.01,K為80 時模型表現更穩定。經過上述分析,后續實驗中統一設置Nstd為0.01,K為80。

表1 不同EEMD參數設置下模型誤差對比Table 1 Comparison of model errors under different EEMD parameter settings
利用數據對神經網絡進行訓練得到預測模型時,往往由于數據間難以被挖掘的聯系以及龐大的數據量,使得模型的精度受到影響。為了挖掘數據間隱藏的關系,需要使數據變得利于模型的預測。利用EEMD 對預處理后的風速數據進行分解,并將其從高頻到低頻逐級分解為7 個IMF 分量以及1 個殘差信號,分解后的結果如圖5 所示。對比于原始信號,分解后的信號更加平滑。由于EEMD分解后的IMF分量較多,如果直接利用ILSTM對每一個分量都進行預測,那么會增大計算規模。本文采用樣本熵理論,對EEMD分解得到的所有分量進行復雜性評估,得到的結果如圖6所示。由于IMF3和IMF4的熵值僅相差0.024 4,選擇將二者合并。同時為了驗證EEMD分解和樣本熵技術的優點,本文選擇不同的分解技術對原始數據進行分解,并對提前一步預測的效果進行對比,結果如表2所示。

表2 不同分解技術的提前一步預測效果對比Table 2 Comparison of one-step-ahead prediction effect among different decomposition techniques

圖5 EEMD分解結果Fig.5 Result of EEMD decomposition

圖6 樣本熵的值Fag.6 Value of sample entropy
由表2 可以看出,與IWOA-LSTM 相比,利用分解方法分解數據后再使用模型進行預測得到的誤差更低,說明利用分解方法進行數據預處理與優化算法搜尋參數可以提高預測性能;與EMD-ILSTM 和EEMDILSTM相比,本文方法誤差較小,說明利用EEMD與樣本熵結合的數據預處理可以進一步提高模型性能,降低誤差。
為了驗證本文所提出的EEMDSE-ILSTM組合模型在超短期風速預測的優越性,實驗中分別與支持向量機(SVM)、隨機森林(Random Forest,RF)、極限學習機(ELM)進行對比。為避免因偶然因素造成的誤差,每個實驗重復10次,并對最大、最小和平均值進行記錄。
每種算法的MAPE 和RMSE 箱型圖如圖7、圖8 所示,可以看出本文方法在10 次實驗中均表現出較低的預測誤差,并且圖中可以直觀地展示出本文方法預測效果相比于其他方法有明顯的優勢。說明本文方法在具有較高精度的同時具有較好的穩定性。從表3可知,在對數據集數據進行測試時,在處理同樣的數據時,與其他優化算法相比,本文提出的組合算法誤差的平均值、最大值、最小值均比其他方法小,說明本文方法具有較高的預測精度。

圖7 3月份不同預測方法的RMSE箱型圖對比Fig.7 Comparison of RMSE box diagram of different prediction methods in March

圖8 3月份不同預測方法的MAPE箱型圖對比Fig.8 Comparison of MAPE box diagram of different prediction methods in March

表3 不同預測方法下3月份MARE和RMSE值比較Table 3 Comparison of MAPE and RMSE values under different prediction methods
由圖9可知,本文提出的模型在預測風速數據時的極大極小值點擬合效果較其他方法更好,并且預測趨勢相比較于其他方法更趨近于實際曲線,故其穩定度較高,通過本文方法模擬出的曲線具有更加準確的風速趨勢走向。為了驗證IWOA對LSTM的優化效果,本文選擇不同月份的風速數據,與經典的粒子群算法(Particle Swarm Optimization,PSO)、灰狼算法(Grey Wolf Optimizer,GWO)[17]、原始鯨魚優化算法(WOA)對LSTM 優化進行對比,實驗結果如表4所示。由表4可以看出,本文對LSTM 的改進相比于其他改進方法都具有更低的誤差,表明本文對LSTM的改進可以有效降低預測誤差且具有較好的穩定性。通過EEMD 和樣本熵對數據預處理以及IWOA 算法無監督式搜尋算法參數能夠有效地提高模型可靠性。

圖9 不同預測方法預測趨勢對比Fig.9 Comparison of prediction trends with different prediction methods

表4 不同優化方法下RMSE與MAPE箱型圖對比Table 4 Comparison of RMSE and MAPE under different optimization methods
本文針對風電場的超短期風速預測提出一種時序分解集成模型,采用湖南某風電場提供的實測風速數據進行預測,得出如下結論:
(1)對數據集進行分解組合能夠有效降低風速數據波動帶來的影響。
(2)通過改進WOA 算法的收斂因子,平衡了WOA算法的全局搜索能力和局部搜索能力;實現了對組合模型的無監督參數調優,有效解決了LSTM網絡中參數選擇困難這一問題;利用鯨魚算法優化LSTM參數可以搜尋較為合適的參數,降低了模型的預測誤差。
(3)通過與其他模型對比,本文方法具有較高的預測精度以及魯棒性,說明本文方法是切實可行的。