葛濱
基于重要度分析的數據預處理方法及風機有功功率預測研究
葛濱
(河北工業大學 人工智能與數據科學學院,天津 300401)
以風力發電機的有功功率預測為研究對象,在考慮了功率損耗及環境因素的情況下選取17組參數指標作為輸入,以功率負荷等級為分類指標,采用隨機森林分類算法進行參數屬性的重要度分析,根據權重系數的閾值設定構建功率預測的樣本數據庫。基于集成學習Bagging算法的思想,分別選擇支持向量機(Support Vector Machine,SVM)、極限學習機(Extreme Learning Machine,ELM)和隨機森林回歸算法為基學習器。提出了一種基于遺傳算法的動態加權的集成學習策略,構建基于集成算法的有功功率預測模型。分別根據正常功率和限功率樣本數據庫,進行集成算法模型的實例驗證和性能分析比較。
風電;隨機森林;基學習器;集成學習算法
風能作為無污染的可再生能源,被廣泛應用于發電領域。實現風電機組發電功率的準確預測,對提高風電機組的并網發電效率和促進電力系統平穩安全運行都具有非常重要的現實意義。
中國在許多重要的風電技術上還處于探索和積累階段,但近些年在新增和累計裝機容量上已保持了高水平發展。目前中國有中國電力科學院在2008年推出的首個自主研發預測系統WPFS Ver1.0、國網南瑞研發的WPFS系統和由華北電力大學開發的SWPPS系統。雖然國內外對風電功率預測的研究工作已較為成熟,但參考現有方法預測輸入仍為以風速為主的少數因素,缺乏對多維輸入因素的研究。
本文基于隨機森林算法對參數屬性進行重要度分析,選取SCADA中的重要輸入參數,提出利用集成學習算法構建風電功率預測模型,該模型速度快、泛化能力強、收斂速度快、準確度高,并通過實驗數據驗證了該預測方法的可 靠性。
常見的計算方法有兩種,一種是平均不純度的減少(mean decrease impurity),常用Gini、entropy、information gain測量,現在sklearn中用的就是這種方法;另一種是平均準確率的減少(mean decrease accuracy),常用袋外誤差率去衡量。


在式(1)中,表示有個類別;表示節點中類列所占的比例,即隨便從節點中隨機抽取兩個樣本,其類別標記不一致的概率。特征j在節點的重要性,即節點分支前后的Gini指數變化量。

式(2)中:l和r分別為分枝后兩個新節點的Gini指數。
平均準確率的減少即對每個特征加噪,看對結果的準確率的影響。影響小說明此特征不重要,反之重要。具體步驟如下:①對于隨機森林中的每一棵決策樹,使用相應的OOB(袋外數據)數據來計算它的袋外數據誤差,記為1。②隨機地對袋外數據OOB所有樣本的特征X加入噪聲干擾(即隨機的改變樣本在特征X處的值),再次計算它的袋外數據誤差,記為2。③假設隨機森林中有棵樹,那么對于特征X的重要性計算如公式(3)所示。若給某個特征隨機加入噪聲之后袋外的準確率大幅度降低,則說明這個特征對分類結果影響大,重要程度較高。
Σ(2-1)/(3)
集成學習模型的構建通??梢苑譃閮蓚€步驟:個體模型生成與模型融合。
本文選用SVM、ELM和RF作為個體學習模型。對于SVM模型,利用SVM+GA的形式,通過GA算法對SVM懲罰參數和徑向基核函數的參數進行尋優求解,利用得到的最優參數完成SVM模型的訓練。ELM和RF模型利用與SVM相同的數據完成回歸模型的訓練,并對三種模型的訓練結果進行分析,總結各個模型的優缺點,為集成策略的選擇提供前提。
本文利用基于PSO動態加權融合的方式。首先從驗證集集合中選取與測試集相似的若干樣本,將其作為個體模型的輸入,根據輸出結果,評估個體模型在這些數據上的預測誤差。預測輸出值公式為:

式(4)中:out為預測值集成后輸出的向量;為參加訓練的個體模型數;i為權值;i為每給個預測結果。
將這些數據的真實功率與預測功率作為PSO算法的一個輸入,將真實功率與預測功率的均方差誤差作為PSO目標函數。目標函數為:

式(5)中:為預測個數;out_i為第個數據的預測值輸出;i為實際功率值。
基于PSO算法可以很方便地找到一組各個模型間的融合加權系數。假設得到的動態加權系數為,則可以利用對各個模型的預測結果經動態加權集成,得到最終結果。
本論文選用河北某風電集控中心在2019-03—2019-12 SCADA系統采集的824組歷史數據,進行初步預處理后保留803組數據。利用隨機森林算法對全部樣本進行功率分類預測誤差分析,得到最終分類預測分析結果準確率為89%。此時利用隨機森林算法根據公式(3)對17種輸入參數進行基于平均準確率減少的重要性評估。
根據影響預測結果的重要因素風機運行狀態,將全部樣本分為限功率和正常功率兩組,重復上述數據處理流程,決策樹迭代次數分別達到20次和40次時函數收斂,分類預測準確率為95%和98%。預測準確率較全部樣本分析時得到顯著提高。根據樣本參數屬性重要度數據及權重,樣本取權重大于0.05的參數作為最終輸入因素。構建正常功率預測決策表,如表1所示。
表1 正常功率預測決策表
屬性類別實時風速風輪轉速風向與軸夾角實際扭矩空氣密度線圈電流 權系數0.270.2660.1330.120.080.05
將414個正常功率樣本數據隨機分成兩部份,選取300個作為訓練樣本數據并完成SVM、EML和RF基礎學習器的訓練,剩余114個作為檢測樣本數據完成對算法模型的驗證。首先對SVM模型進行訓練,本文利用GA算法對SVM分類器進行最優求解。在實驗中,設置GA算法的最大迭代次數為150,種群最大數量為40。利用尋找到的最優參數對SVM進行訓練,設置為3.002 8,gamma為0.138 38。通過對比誤差量,表明訓練模型在訓練集上實現了很好的訓練。訓練樣本平均誤差為3.51%,檢測樣本為5.95%,極差相差較大,訓練樣本集為17.238%,檢測樣本集為13.549%,表明模型對奇異值的抗干擾能力較弱,但算法整體預測效果較好。
ELM和RF模型驗證流程同上。ELM在訓練集上平均方法的相對誤差為0.7%,在檢測集為1.3%。極差在訓練與檢測分別為4.2%和8.2%。通過對比可以發現模型在訓練集上的結果表現較好,但在檢測集上較差,說明網絡模型泛化能力較差。使用隨機森林模型對數據進行訓練,設置子節點數為5,最大深度為200,基尼系數設為0.938 8。訓練集與檢測集的回歸誤差值均在100以內。訓練集的相對誤差在 [﹣0.1,0.1],驗證集在[﹣0.05,0.1],表明模型在訓練集與驗證集上的表現相差不大。平均誤差在訓練集和檢測集上分別為3.812%和4.256%,極差分別為16.024%和15.894%。也證明模型在訓練接與驗證集上都能得到較好的檢測效果。通過對比SVM+GA和極限學習機模型可以發現,隨機森林的平均相對誤差大于SVM和ELM,但是極差小于SVM和ELM,整體預測效果較弱,但是對奇異值的抗干擾能力較強。
集成學習算法模型:本文將SVM、ELM和BF進行集成使用,使得模型可以自適應地針對多種數據作出更加準確的回歸。集成學習模型檢測集上訓練測試結果如圖1所示,訓練樣本的誤差在20之內,相對誤差字在0.005以內,遠小于單獨使用當個學習器的誤差。在檢測集上,誤差值也在20之內,相對誤差也0.005以內,表明集成學習算法無論是在訓練集還是檢測集上,都具有更小的誤差。
集成學習模型在訓練集和檢測集上的絕對誤差與相對誤差的最大值、最小值、平均值、標準差和極差如表2所示,訓練集的平均相對誤差為0.49%,檢測集為0.194。在訓練集上的極差為4.55%,檢測集為4.277 7%。無論是平均誤差、極差、標準方差都遠小于單獨使用三種學習器,表明了集成學習算法具有最好預測能力。在其他三種模型中,平均誤差最小的是SVM,其次為極限學習機,最差的是隨機森林,但隨機森林具有最小的極差。集成學習集合了三種模型的優勢,既能降低平均誤差,又能避免極差大導致奇異值造成的干擾。
集成學習模型在正常功率的預測回歸上取得了很好的效果,同樣在限功率的回歸預測中,也取得了很大的成功,誤差和相對誤差都很小。訓練集和檢測集的表現沒有很大差別,說明模型具有很好的泛化性。
集成學習模型在限功率訓練集上平均值的相對誤差為0.1451%,檢測集為0.227%,極差訓練集為7.81%,檢測集為6.363%??梢园l現模型不僅在訓練集上取得了很好的效果,在檢測集上表現也比較出色,這證明了集成學習模型具有良好的魯棒性。

圖1 集成學習檢測樣本測試結果
表2 集成學習綜合輸出結果
集成學習算法 訓練檢測 絕對誤差相對誤差/(%)絕對誤差相對誤差/(%) 最小值﹣15.371.244﹣13.181.246 最大值15.633.30719.383.031 平均值﹣0.057 630.490 50.334 40.194 7 標準方差6.1220.639 76.2860.706 6 極差314.5532.564.277
本文針對風電場SCADA歷史數據的數據特性,利用隨機森林算法對樣本數據進行分類預測,以提高分類預測準確率。同時利用平均準確率減少的重要性評估對輸入參數的屬性重要度進行計算,對輸入因素實現降維的同時得出各重要因素的權重值并給出決策表。然后利用SVM、ELM和RF組成集成模型,運用正常功率數據進行實驗對比,SVM的平均誤差最小但極差較大,RF的平均準確率較低但極差小,可避免奇異點的影響,ELM介于兩者之間。本文構建的集成學習算法綜合了三種學習器的優點,精度遠遠優于單獨使用每個學習模型。最后,將模型應用于限功率數據集進行檢測,也取得了很好的效果,也證明了本文提出的集成學習模型具有很好的泛化性和適應性。
[1]錢政,裴巖,曹利宵,等.風電功率預測方法綜述[J].高電壓技術,2016,42(4):1047-1060.
[2]薛禹勝,雷興,薛峰,等.關于風電不確定性對電力系統影響的評述[J].中國電機工程學報,2014,34(29):5029-5040.
[3]劉強,胡志強,周宇,等.基于CEEMD和隨機森林算法的短期風電功率預測[J].智慧電力,2019(6):71-76.
[4]LIU H,MI X,LI Y.Smart multi-step deep learning model for wind speed forecasting based on variational mode decomposition,singular spectrum analysis,LSTM network and ELM[J].Energy Conversion & Management,2018(159):54-64.
[5]李軍,閆佳佳.基于KELM-AdaBoost方法的短期風電功率預測(英文)[J].控制工程,2019(3):492-501.
[6]劉愛國,薛云濤,胡江鷺,等.基于GA優化SVM的風電功率的超短期預測[J].電力系統保護與控制,2015(2):90-95.
[7]WU W Z,CHEN K J,QIAO Y,et al.Probabilistic short-term wind power forecasting based on deep neural networks[J].IEEE Probabilistic Methods Applied to Power Systems,2016(12):1-7.
[8]南曉強.風功率預測技術水平分析及改進措施研究[J].山西電力,2019,214(1):3-7.
[9]朱喬木,李弘毅,王子琪,等.基于長短期記憶網絡的風電場發電功率超短期預測[J].電網技術,2017,41(12):3797-3802.
TM614
A
10.15913/j.cnki.kjycx.2020.14.003
2095-6835(2020)14-0010-03
葛濱(1993—),男,碩士研究生,研究方向為感知互聯與協同計算。
〔編輯:王霞〕