北京市市政工程設計研究總院有限公司 陶廷偉
集成學習可理解為一種分布式機器學習框架,其主要作用在于整合多個學習器,完成相應學習任務,在實際運用時需預先打造一組基學習器。之后,依托結合策略實現學習器輸出結果的融合。通常基學習器大多依靠訓練集訓練決策樹等機器學習算法,相較于傳統的單一學習器來說預測性能更加突出。常見的集成學習理論主要包括:boosting。是指對弱學習器性能實現增強的算法,該算法的優勢在于基學習器件性能能夠相互影響,產生極強的依賴效果,能依照基學習器誤差賦予相應權重;bagging 方法。是指借助并行形式完成基學習器的構建,利用引入隨機特征選擇方式,強化機學習器的多樣性,保證模型的泛化功能。
為了更好地實現光伏發電功率的預測,筆者認為需要以上述集成學習理論為依托打造預測模型,借助多種參數反映光伏發電系統的實際工作情況,具體公式為:S(t)={Idc(t),Vdc(t),T(t),Iac(t),Vac(t),P(t),E(t)},其中:Idc(t),Vdc(t),Iac(t),Vac(t)分別表示直流電流、直流電壓、交流電流、交流電壓,而T(t),P(t)分別表示組件溫度和發電功率,至于E(t)則用于表示累計發電量。
在充分考慮光伏發電特性的基礎上,將連續時刻下的光伏系統工作狀態S(t),S(t-1)作為樣本特征,依靠大量數據參數將下一時刻的發電功率P(t+1)設計為目標值,此時訓練樣本可采用下述公式進行表示:sampie(t)={[t,S(t),S(t-1),P(t+1)]}。至于預測模型則主要表現為:P(t+1)=model(t,S(t),S(t-1))。
對于集成學習來說,主要依靠融合多個學習器來滿足預測目標。其應用要點更多地表現為基學習器的構建以及融合,前者大多采用隨機子空間法,通過預先從原始訓練集中采集樣本,抽取樣本特征,獲取初級訓練集,憑借基學習器訓練達到基學習器生成的目的。該方法能夠從樣本擾動等方面推動機學習器多樣性的大幅度強化,從而保證模型預測性能,滿足實際需求,之后借助選擇性集成篩選性能優良的基學習器。
在應用Stacking 支持向量機模型時還要注意,應優先采用K 均值聚類算法進行訓練集的聚類分析,并劃分為多個子樣本集,通過輸入篩選獲得相應的次級訓練集,并將每條樣本特征值設計為基學習器的輸出值,從而使用次級訓練集完成各類別語言學習器的訓練。
在數據處理方面,主要任務在于解決不同參數單位差異性造成的影響,具體的處理方式如下:(xi-xmin)/(xmax-xmin),式中:分別表示輸入數據以及處理后的數據,xmin、xmax分別表示輸入的最大值、最小值。至于在模型評價指標的設置上,則依靠百分比誤差mape以及均方根誤差rmse兩種指標來實現模型的性能預測,具體方法為:
式中:xmodel,i,xactual,i分別表示預測值以及實測值,n表示常數,i表示樣本集序列。
為進一步驗證上述光伏發電功率預測模型的可行性與適用性,本文以自身所在城市的光伏發電站作為研究對象,并采用2019年5~7月以及2020年5~7月的數據進行預測模型的訓練,進一步考察該模型在2021年6月不同氣象條件下的具體表現。借助實驗法,確定K 均值聚類數,并選取基學習器數量的1/3,實現集成處理。根據研究顯示,在晴天條件下光伏發電功率不會產生較強波動,Stacking 支持向量機模型所生成的預測曲線基本與實測值保持一致。但在發電站開始發電以及結束發電時會存在較高的預測偏差。而在雨天環境下,光伏發電功率本身會出現多個尖峰,此時會進一步加大預測難度。
根據Stacking 支持向量機模型的預測結果顯示,發電功率的變化趨勢均被準確掌握。即便在上午、傍晚等波動較為嚴重的時間,Stacking 支持向量機模型仍能保持極佳的預測效果。而在多云氣候條件下,對于光伏發電影響的主要因素表現為光照,在受風力、云層位置的影響下光伏發電功率的波動較為強烈。此時Stacking 支持向量機模型仍能具備極佳的預測精確性,準確判斷多云天氣的發電功率的變化趨勢。具體的預測結果如表1所示。

表1 不同氣象條件下預測模型的百分比誤差mape 以及均方根誤差rmse
根據上述數據可知,Stacking 支持向量機模型的預測性能較為突出,相較于傳統的K 均值聚類支持向量機模型來說,能夠更好的應對氣象環境波動造成的影響,在雨天下更具有預測優勢。
上述章節中主要探究了在加入光伏系統參數后,實現光伏發電功率預測精確性的增強,驗證了Stacking 支持向量機模型的預測效果。但要注意,Stacking 支持向量機模型需要根據季節特性克服惡劣天氣造成的影響,因此在實際應用時無形增加了模型訓練量,也對工作人員的專業能力提出了更高的要求,且模型使用不夠便捷,更多的依靠光伏發電特性的設計樣本特征,因此無法進行較長時間范圍的預測。
為解決此類問題,本文提出基于長短期記憶網絡的光伏發電功率預測模型,其中長短期記憶網絡可以理解為一種時間遞歸神經網絡,更適合運用在預測時間序列領域,且在語音識別等方向已取得一定應用成果。通過在此模型上加入注意力機制達到模擬生物視覺注意力的目的,從而自動關注重要參數,幫助預測模型,依托發電功率、時間序列,為下一時刻發電功率進行準確評估[1]。
根據實際調查顯示,以往采用的神經網絡模型各層節點無有效連接,更多的表現為層與層之間的全連接,此類結構經常會出現時序數據預測精確性達不到預期標準的問題。究其原因在于,時序數據與原始數據存在聯系,而神經網絡則難以有效記憶之前參數。至于循環神經網絡,雖然能夠在時序數據分析過程中具備良好的適應效果,且隱藏神經元存在連接,可以將之前信息記憶并輸出,但在實際應用時則難以有效學習數據內的長期依賴特征,且在訓練過程中也經常會出現梯度爆炸的不足之處。為此,我國學者提出了長短期記憶網絡,其本質上屬于一種時間循環神經網絡,可憑借傳遞算法結合錯誤修改每次權重。在設置過程中,誤差能夠隨著倒回計算,直至數值被過濾掉,以此使循環神經網絡正確處理時序信息[2]。
相較于傳統的基于機器學習的光伏發電功率預測,基于長短期記憶網絡的光伏發電功率預測模型添加了注意力機制,通過打造生物視覺系統,使人體能夠將精力放在相關數據信息上,以此最大程度提高觀察效率。注意力機制本質上屬于一種模擬大腦注意力的網絡架構,能夠在特定時刻進行注意力的合理分配,以此減少計算資源占用。將其運用在深度神經網絡中,能夠更好的篩選輸入向量內的相關特征,降低其他特征造成的不良影響,保證模型的泛化性能最大化。
在實際應用過程中,通常將長短期網絡記憶的隱藏輸出向量作為輸入,之后尋找特征向量,分配注意力權重,具體公式表現如下[3]:ei=tanh(Whhi+其中:Wh、bh、ai分別表示權值矩陣、偏置項及權重參數,hi表示特征量,ei表示注意力機制,t為輸出向量子集個數。
在模型構建方面,需要依照光伏發電站的相關數據參數,充分考慮相關學者的研究結果,將光伏發電功率時間序列作為主要輸入,搭配組件溫度時間序列,從而實現下一時刻的發電功率預測。對于輸入中包含的大量參數信息,需要進行分類型的特征提取。將前者輸入長短期記憶網絡,憑借注意力機制進行隱藏輸出的持續關注,并對隱層輸出的各個元素賦予差異性注意力權重。而在后者的處理方面則與前者基本保持一致,之后將注意力權重展開成一維向量,借助全連接層預測發電功率。過程中要注意,模型訓練階段需充分考慮網絡前向傳播的真實訓練輸出值,并將其結合實際功率值完成平方損失函數的推演,通過適當優化網絡架構降低平方損失值,直至返歸一化處理后獲得實際預測結果[4]。
在數據處理方面基本與Stacking 支持向量機的光伏發電功率預測保持相同,主要目的在于解決不同參數之間單位差異造成的影響,控制好數量級大小。同時還要利用滑窗法獲得訓練樣本,設置樣本特征值,從而為下一時刻的實際功率值設計訓練目標,并同樣采用絕對百分比誤差來評價模型的實際預測性能。
為進一步驗證上述模型的適用性以及可行性,同樣選取筆者所在城市的光伏發電站作為研究對象,收集2019、2020年信息以及2021年1~9月的數據完成模型訓練,并將2021年10月至次年9月的信息設為訓練集,進一步考察長短期網絡記憶模型在不同季節下、不同時間區間內的預測效果,與上述章節中的Stacking 支持向量機光伏發電功率預測模型進行比對。其中基準模型可進一步描述成,采用兩個長短期網絡記憶層實現發電功率的時間序列特征提取,并將其拉成一維后,與組件溫度時間序列合并輸出預測結果。根據預測結果顯示,基于長短期網絡記憶和注意力機制的光伏發電功率預測模型能夠在30min 時段做出精準預測,60min 時間段同樣具備極佳的預測效果,預測值與實際值誤差極小[5]。
在信息化時代背景下大數據技術的應用愈發廣泛,該技術的迅速興起也為大規模數據處理提供助力,通過將其與機器學習深度結合,能夠進一步挖掘數據背后的價值意義。大數據技術的應用尚處于摸索階段,因此本文在進行分析時主要以hadoop大數據處理平臺作為研究對象,搭建試驗群,以此存儲光伏發電數據,實現光伏發電信息的建模預測。hadoop 本質上屬于一種分布式大數據處理框架,能夠具備負載均衡、任務調度等功能,可直接部署在廉價的集群上實現文件的切分處理,保留多個文件備份,具有極高的容錯性。在實際應用時需要結合決策樹、梯度提升算法以及隨機森林,分別完成回歸任務、殘差訓練以及基學習器集成。
根據實際研究發現,相較于上述兩種方法來說,基于大數據技術的光伏發電預測同樣能夠準確預測光伏發電功率,具有極高的應用潛力。同時,為保證光伏發電預測模型的準確應用,還需要相關技術人員加強對先進技術手段的學習與使用,明確相關算法的優劣,結合實際情況進行科學運用,具備一定的信息化素養,能夠有效應對突發狀況,降低人為操作干擾,更多的依靠系統程序的自動計算模擬,保證參數錄入準確。總結算法應用規律,持續開發循環控制單元、相似日選擇等一系列機器學習的光伏發電功率預測,適當結合信息化手段、人工智能,迎合適當發展潮流,并注重預測時間段的延長,從而滿足實際需要[6]。