999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合注意力機制與深度強化學習的超短期光伏功率預測

2023-05-24 03:19:22丁正凱傅啟明陳建平吳宏杰方能煒
計算機應用 2023年5期
關鍵詞:深度機制動作

丁正凱,傅啟明*,陳建平,陸 悠,吳宏杰,方能煒,邢 鑌

(1.蘇州科技大學 電子與信息工程學院,江蘇 蘇州 215009;2.江蘇省建筑智慧節能重點實驗室(蘇州科技大學),江蘇 蘇州 215009;3.蘇州科技大學 建筑與城市規劃學院,江蘇 蘇州 215009;4.重慶工業大數據創新中心有限公司,重慶 400707)

0 引言

太陽能作為最受歡迎的可再生能源之一,具有無污染、價格低、易獲取和無運輸等特點[1]。隨著全球“碳達峰和碳中和”目標的提出,清潔能源得到進一步重視,其中太陽能便是備受關注的能源。太陽能發電主要是光伏(PhotoVoltaic,PV)發電,它能為世界提供清潔能源,在經濟社會發展過程中減少對化石燃料的依賴,因此,光伏發電在全球范圍內快速增長。太陽能雖然來源廣泛,但它極易受光照隨機性和晝夜周期性的影響,所以光伏發電系統發電具有不穩定性和不可控性。以上問題均可能會在電力系統的運行、調度和規劃中造成嚴重的混亂,因此,需要對光伏發電功率進行精準預測。而精確度高的光伏功率預測同樣會提高光伏電能的有效利用率以及電網運轉效率,為減少經濟損失提供幫助。

光伏預測研究可以通過不同的預測方法實現,包括物理方法、統計方法和深度學習。物理預測方法通常不需要歷史數據,而是依賴地理信息、精確的氣象數據和完整的光伏電池物理模型信息[2];然而由于地理數據分辨率低,很難得到準確的光伏組件的物理模型以及操作參數,導致物理預測方法的精確度不高。統計方法通過建立一種映射關系,使用歷史數據來預測未來的功率[3];但由于光伏功率的波動性大,導致統計方法的泛化能力不強。近年來,深度學習由于有足夠的特征提取和轉換能力,得到了大量研究者的關注。文獻[4]中提出了一種基于人工神經網絡的太陽能功率預測模型,并選擇氣象數據作為模型的輸入,但模型精度較低。光伏發電功率的預測屬于時間序列預測的范疇,因此文獻[5]中提出了使用基于長短時記憶(Long Short-Term Memory,LSTM)網絡的深度學習方法捕捉太陽輻照度行為,利用日前天氣預報數據作為預測輸入;然后,利用物理理論建立了輻照度與光伏功率之間的數學模型,實現了間接預測。為進一步提高預測精度,文獻[6]中提出Attention-LSTM 模型預測超短期光伏功率,利用注意力(attention)機制通過對LSTM 的輸入特征賦予合理的權重來提高準確率;而且文獻[7]中同樣利用Attention-LSTM 模型預測短期風力發電功率。文獻[8]中使用模態分解來分解序列,然后利用LSTM 預測光伏系統短期發電量。文獻[9]中則利用多個深度學習模型預測多個結果,然后利用強化學習(Reinforcement Learning,RL)尋找多個預測模型的最優權重,以此來預測光伏功率值(并未直接使用強化學習預測光伏功率值)。雖然深度學習在光伏功率預測方面取得了大量的研究成果,但受光伏功率波動性以及復雜天氣因素等的影響,上述模型仍具有一定的預測誤差,得到準確預測結果以及泛化能力強的模型仍然非常困難。

深度強化學習(Deep Reinforcement Learning,DRL)作為深度學習和強化學習交叉的一個領域,它整合了深度學習的非線性擬合能力以及強化學習的決策能力,同樣活躍在人工智能領域。DRL 在游戲[10]、機器人[11]以及其他控制決策領域得到了大量的研究及應用。在PV 領域,最近的一些研究工作已經開發了基于DRL 的模型應用于PV 系統的優化控制,并取得良好的性能。文獻[12]中利用DRL 方法調度光伏電池儲能系統容量,能夠在連續動作空間確定具體的充電/放電量,以此確保系統的安全和經濟運行。文獻[13]提出的基于DRL 的光伏系統控制方法能夠在部分陰影條件下獲取PV 系統的最大功率點,使PV 系統高效運行,獲得最大化效益。綜上所述,DRL 技術已經應用于PV 系統決策控制領域,但在光伏功率預測領域的研究還不多。

針對上述問題,本文提出兩種基于attention 機制的DRL模型——基于attention 機制的深度確定性策略梯度(Attention mechanism based Deep Deterministic Policy Gradient,ADDPG)模型和基于attention 機制的循環確定性策略梯度(Attention mechanism based Recurrent Deterministic Policy Gradient,ARDPG)模型來預測光伏功率,將光伏功率預測問題建模成強化學習問題,即將預測問題轉化為決策問題。本文系統地研究了DRL 算法在光伏功率預測中的潛力,對ADDPG 和ARDPG 模型和其他深度學習模型進行了詳細的比較與分析,驗證了DRL 在PV 預測領域的可行性與可靠性。

1 相關研究

1.1 強化學習

強化學習(RL)[14]是一種通過與環境互動進行的試錯學習,目標是使agent 在環境互動中獲得最大的累積獎勵。RL問題可以建模為馬爾可夫決策過程(Markov Decision Process,MDP),如圖1 所示。MDP 是五元組

圖1 MDP示意圖Fig.1 Schematic diagram of MDP

1)S代表狀態空間。st∈S表示智能體(agent)在時刻t的狀態。

2)A代表示動作空間。at∈A表示智能體在時刻t選取的動作。

3)r:S×A→R表示獎賞函數。

4)p1表示狀態的初始分布。

5)P:S×A×S→[0,1]表示狀態遷移概率分布函數。

經典強化學習算法如Q 學習便是將Q值存入Q 表中,但當環境過于復雜,導致空間維度過大時,經典算法便很難處理這類問題。深度強化學習(DRL)的提出,能夠一定程度上解決以上問題。

1.2 深度確定性策略梯度

Lillicrap 等[15]提出了基于Actor-Critic 框架的策略梯度DRL 算法——深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG),主要用于解決連續動作空間的問題。

在強化學習中,策略梯度(Policy Gradient,PG)被用來處理連續動作空間問題,PG 直接參數化策略πθ(a|s)(θ∈Rn),則目標函數變為J(πθ)=E[G1|πθ]。Sutton 等[16]提出了如下的隨機策略梯度定理:

在隨機問題中,由于狀態空間和動作空間的整合,隨機策略梯度(Stochastic Policy Gradient,SPG)可能需要更多的樣本,這也增加了計算成本。Silver 等[17]提出了確定性策略梯度(Deterministic Policy Gradient,DPG)算法,使用確定性策 略μθ:S→A(θ∈Rn),目標函 數變為J(μθ)=E[G1|μθ]。確定性策略梯度理論如下:

在DDPG 中,Actor 網絡用于評估狀態s下選擇的動作,Critic 網 絡用于評估Q(s,a)。DDPG中有一對Actor網絡和Critic 網絡,如圖2 所示。在線Actor 網絡和目標Actor 網絡分別被定義為μ(s|θμ)和μ(s|θμ'),在線Critic 網絡和目標Critic網絡分別由Q(s,a|θQ)和Q(s,a|θQ')表示,其中θμ、θμ'、θQ以及θQ'都是網絡參數。如圖2 所示,agent 觀察到當前狀態s,通過在線Actor 網絡執行動作a,動作a繼而影響環境,從而agent 觀察到下一個狀態s'以及從環境中根據獎賞函數得到獎賞r,從而得到經驗樣本(s,a,r,s'),再將樣本存儲到經驗池中。當經驗池達到了一定的容量,agent 便開始學習。在線Actor 網絡則根據在線Critic 網絡輸出的Q值,繼而使用確定性策略梯度定理來更新網絡參數,并不斷接近最優策略來作出最優的動作,目標函數為J(θμ)=E[Q(s,μ(s|θμ)|θQ) ],它的梯度如下:

圖2 DDPG模型Fig.2 DDPG model

Critic 網絡是用來評估Q值的神經網絡,用yi=r(s,a) +Q(s',μ(s'|θμ')|θQ')定義在線Critic 網絡的目標,yi通過獎賞以及目標Critic 網絡輸出的Q值得出。在線Critic 網絡使用以下梯度更新:

目標Actor 網絡和目標Critic 網絡的參數都采用軟更新方法來保證算法的穩定性,如下所示:

其中:τ是一個遠小于1 的正數。

1.3 循環確定性策略梯度

在傳統的DDPG 方法中,多層感知器(Multi-Layer Perceptron,MLP)由多層全連接層組成,用于Actor 網絡和Critic 網絡。但簡單的全連接層都是前向傳播,并沒有記憶的功能,為改善這一問題,將Actor 網絡全連接層替換為LSTM 網 絡。LSTM 網 絡[18]是一種 改進的 循環神 經網絡(Recurrent Neural Network,RNN)。由于梯度消失和梯度爆炸的問題,傳統RNN 的學習能力仍然有限,實際效果往往不理想。LSTM 在對有價值信息進行相對長時間記憶的優勢使它在時間序列預測中得到廣泛應用。LSTM 的改進在于引入三個門的概念,結構如圖3 所示。LSTM 模型含有3 個輸入,分別是當前時刻輸入樣本xt、上一時刻的短期記憶信息ht-1以及上一時刻的長期記憶信息Ct-1;結構內部有3 個門來控制記憶信息與當前信息的遺留與舍棄,分別為遺忘門ft、輸入門it和輸出門Ot:

圖3 LSTM模型結構Fig.3 LSTM model structure

其中:w、b為控制門的權重矩陣與偏置向量;σ為Sigmoid 激活函數。由式(6)計算得到3 個控制門的輸出后,可以進一步計算得到長期記憶信息Ct、短期記憶信息ht與單元最終輸出qt:

其中:tanh()為雙曲正切函數;*為Hadamard 積。

循環確定性策略梯度(Recurrent Deterministic Policy Gradient,RDPG)的Actor 網絡由全連接層替換為LSTM 網絡,增加了記憶功能,但LSTM 的模型參數遠大于全連接層的參數,會導致訓練時間過長。RDPG 與DDPG 唯一不同的地方在于Actor 網絡的全連接網絡替換為LSTM 網絡,具體模型結構可參考圖2。

1.4 attention機制

attention 機制[19]模擬人類大腦如何處理信息,提高了神經網絡處理信息的能力。它的本質在于學習出一個對輸入特征的權重分布,再把這個權重分布施加在原來的特征上,使任務主要關注一些重點特征,忽略不重要特征,提高任務效率。在輸入的序列后加入attention 網絡,設輸入序列向量為E=[e1,e2,…,et],則attention 機制的計算公式如下:

其中:W是權重矩陣,與輸入序列E作矩陣運算再經過Softmax 激活函數,最后和輸入序列相乘得出新序列E'。

attention 機制能突出重要影響的特征,減小無用的特征影響,使模型作出更優的選擇,提高預測的準確度。

1.5 基于attention機制的DRL

在預測領域中,深度學習憑借強大的非線性能力以及特征提取能力表現出不錯的性能。DDPG 和RDPG 作為深度學習和強化學習的結合體,同時具有這兩者的優勢。將預測問題建模為一個MDP 問題,即將預測問題轉化為決策問題,便可通過DRL 來求解最優問題。DRL 不需要樣本標簽,而且是動態學習的過程。DRL 能夠在一個未知的環境中,通過與環境的不斷交互學習到其中的關鍵信息,作出最有利的決策。在光伏功率預測問題中,可以將已有的歷史數據建模為一個環境,DRL 便可以在該環境中進行訓練,在觀察到一個未知狀態后,DRL agent 能夠利用所學到的經驗知識作出準確的預測。

DDPG 和DRPG 模型都采用Actor-Critic 架構,其中Actor網絡通過觀察當前狀態來執行動作,Critic 網絡則評估當前狀態-動作的價值函數,Critic 網絡通過更新近似最優的狀態-動作價值函數來指導Actor 網絡執行動作,同樣Actor 網絡執行更優的動作使Critic 網絡學到更加準確的狀態-動作價值函數,Actor 網絡與Critic 網絡互相影響與指導,最終來作出最優的選擇。

在PV 預測問題中,輸入量通常為前幾個時刻的歷史功率數據以及當前的天氣數據,其中存在對下一時刻功率影響較大的量,同樣也會存在影響較小的量。傳統DDPG 和RDPG 中的Actor 網絡由全連接網絡和LSTM 網絡構成,它們很容易忽略其中的關鍵信息,從而導致預測精度下降。文獻[6,8]的研究工作說明,attention 機制能夠提高模型的光伏功率預測精度,因此,本文考慮將attention 機制加入DDPG 和RDPG 中的Actor 網絡中,Actor 網絡利用attention 機制捕捉狀態中的重要信息,幫助Actor 網絡作出最優的動作預測,即給出最準確的光伏功率預測值。

2 光伏功率預測模型建模

傳統的深度學習模型如卷積神經網絡(Convolutional Neural Network,CNN)和LSTM 雖然有很強的非線性擬合能力,但它們還是缺乏DRL 的決策能力,易受功率隨機波動性影響,對于某些時刻不能作出準確的光伏功率預測,導致精度下降。而將attention 機制加入DRL,使得DRL agent 能夠從當前觀察的狀態中捕捉到影響光伏功率的關鍵因素,從而作出準確的光伏功率預測。

本章將詳細介紹基于attention 機制的DRL 的模型——ADDPG 和ARDPG。圖4 是本文的研究框架。首先,從案例光伏系統收集功率數據,分辨率為5 min。此外,還引入了影響光伏功率的一些相關的氣象數據,以提高預測精度和穩健性。然后,建立數據集,對數據進行預處理。最后輸入ADDPG 和ARDPG 模型進行預測。

圖4 本文研究框架Fig.4 Research framework of this paper

2.1 數據預處理

數據預處理過程主要包括兩個任務,即異常值檢測和數據標準化。模型開發前應移除數據中的異常值,因為這些異常值和低質量的數據會對模型產生負面影響,因此剔除明顯不符合實際情況的值后,用線性插值法來完成代替。在數據標準化方面,采用如式(9)的最大最小值歸一化,目的是使每個輸入特征處于相似的尺度上,有助于在應用預測技術時通過Adam 算法找到全局最優。

其中:X為樣本值,Xmin為樣本中的最小值,Xmax為樣本中的最大值,Xnorm即為歸一化后的值。

2.2 MDP建模

使用強化學習解決問題,需要先將本次預測問題建模成MDP。在本次研究中,所有的模型預測都是單步預測,即使用前1 h 內的所有功率數據以及當前時刻的氣候數據作為輸入,輸出即為當前時刻的預測功率。狀態、動作和獎賞定義如下:

1)狀態空間。狀態空間如表1 所示。agent 在每個時間步上所 觀察到 的狀態 向量為[WSt,TEt,RHt,GHRt,DHRt,WDt,RGTt,RDTt,APt-1,APt-2,…,APt-13],包括當前時刻的天氣和氣候狀況及前1 h 內的功率數據,以此來預測當前時刻的功率輸出。狀態空間由每個時間步的狀態組成。

表1 狀態空間Tab.1 State space

2)動作空間。動作空間由0 到22.2 的連續功率值組成(該范圍根據歷史數據設定)。在訓練過程中,agent 根據觀察到的狀態輸出[0,22.2]中的功率值,輸出值即為功率預測值。

3)獎賞函數。獎勵函數設置如下:

其中:APt表示時間步t的實際功率值;at表示agent 在時間步t執行的動作即預測功率值。如果輸出動作接近實際輸出功率,則獎勵將接近于零,否則獎勵會變小。

2.3 算法實施

一旦光伏功率預測問題轉化為決策問題,就可以應用DRL 技術來解決?;赼ttention 機制的DRL 的預測模型的訓練框圖如圖5 所示。在模型中,都是使用前1 h 內的所有功率數據以及當前時刻的氣候數據來預測當前時刻的功率。首先將歷史光伏數據以及氣象數據建立成一個供DRL agent學習的環境;然后agent 觀察到當前狀態s,通過在線Actor 網絡執行動作a即光伏功率預測值,動作a繼而影響環境,從而使agent 觀察到下一個狀態s'以及從環境中根據獎賞函數得到的獎賞r,得到經驗樣本(s,a,r,s')后存儲到經驗池中。在線Critic 網絡從經驗池中隨機選取一小批樣本利用式(4)更新網絡參數,從而逼近最優的Q值;目標Critic 網絡則通過式(5)軟更新網絡參數。在線Actor 網絡根據在線Critic 網絡輸出的Q值,利用確定性策略梯度即式(3)來更新網絡參數;目標Actor 網絡則同樣通過式(5)軟更新網絡參數。最終Actor網絡能夠觀察當前狀態并作出最優的動作,即最準確的光伏功率預測。

圖5 基于attention機制的DRL的訓練框圖Fig.5 Training block diagram of DRL based on attention mechanism

2.3.1 ADDPG

圖6 的attention 網絡由一個全連接層以及Softmax 激活函數組成。首先,輸入向量經過第一個全連接層,然后經過Softmax 激活函數得出輸入向量中各個分量的權重Wi,再與輸入向量作乘法得出新的向量。ADDPG 中的Actor 網絡使用attention 網絡代替全連接層,結構如圖7 所示。使用attention 網絡結構來代替圖中虛線框中的結構,輸入向量為觀察到的狀態st,經過attention 網絡對狀態中的各個分量施以不同的權重以捕捉其中重要的信息,從attention 網絡輸出經過一個全連接層再經過Sigmoid 激活函數得出功率預測值。接著便可使用ADDPG 進行光伏功率預測。

圖6 Attention網絡結構Fig.6 Attention network structure

首先根據式(9)將訓練數據歸一化,使數據都變換到相似的尺度上。然后,根據算法1 訓練模型,詳細訓練過程描述如下:首先,隨機初始化在線Critic 網絡和在線Actor 網絡,并將它們的參數復制給相關的目標Critic 網絡和目標Actor網絡;經驗池D初始化為空集。對于每一次迭代,狀態都會初始化為s0;在每一個時間步長上,動作at基于在線Actor 網絡選取并在其中添加噪聲Nt來增強算法的探索性能,然后從環境中觀察到下一個狀態st+1,并根據式(8)從環境中得到獎賞rt;將經驗樣本(st,at,rt,st+1)存儲到經驗池D中供算法訓練;當經驗池D中收集到足夠多的樣本后,便會從中隨機選取一小批樣本來更新在線Critic 網絡和在線Actor 網絡的網絡參數。其中,在線Critic 網絡的損失函數L是目標Q值yi和當前Q 值Q(si,ai|θQ)的均方誤差;在線Actor 網絡則利用采樣的確定性策略梯度來更新網絡參數。最后,目標Critic 網絡和目標Actor 網絡的參數都通過軟更新即式(5)以保證算法訓練的穩定性。

算法1 用于光伏功率預測的ADDPG 算法。

2.3.2 ARDPG

ARDPG 的Actor 網絡使用attention 網絡來代替LSTM 層后面的全連接層,詳細結構如圖8 所示。輸入觀察到的狀態st經過LSTM 層,使用attention 網絡結構來代替圖中虛線框中的結構即全連接層,再經過Sigmoid 激活函數得出功率預測值。通過attention 機制,LSTM 網絡能夠篩選出更具有價值的信息,以此來提高預測精度。綜上所述,attention 網絡能夠捕捉到狀態之間的依賴關系,并且能夠給出各個分量的權重以及降低功率的非穩定性,以此來作出準確的預測。

圖8 ARDPG的Actor網絡結構Fig.8 Network structure of Actor in ARDPG

然后便可使用ARDPG 來進行光伏功率預測。與ADDPG 類似,同樣將訓練數據根據式(9)歸一化,將數據都變換到相似的尺度上;然后,便可根據算法1 來進行訓練模型。ADDPG 和ARDPG 的唯一區別在ARDPG 在Actor 網絡中使用LSTM 網絡,其余的訓練方式和ADDPG 都相同。

3 實驗與結果分析

本文選用1B DKASC、Alice Springs 光伏系統數據[21],選取2016 年4 月1 日至2016 年6 月1 日的數據進行實驗。

原始數據的分辨率為5 min,由于光伏組件在早上和晚上的功率輸出明顯較低,即大部分時間為0 或接近0。因此,只考慮在6:55~18:30 的功率,數據被標準化,去掉離群值,使用插值算法根據上下時刻信息對缺失值進行填充。圖9顯示了案例數據中連續幾天的歷史數據??梢钥闯?,中午時的功率最大,上午和下午的功率相對較小,而晚上趨于0。下載的數據主要包括當前有功功率、風速、天氣溫度攝氏度、天氣相對濕度、水平面總輻射、水平面漫射輻射、風向等。數據集被分成兩部分,比例為8∶2,分別用于模型訓練和測試。

圖9 部分光伏數據Fig.9 Partial PV data

3.1 參數設置

通過不斷的參數調整、組合與尋優,DDPG、RDPG、ADDPG 和ARDPG 的參數設置如下:學習率α為0.001,由于更加關注當前的獎賞,所以折扣因子γ設為0.1,τ為0.005,DDPG 網絡的隱藏層為2 個全連接網絡,分別有64 個神經元和32 個神經元,RDPG 的LSTM 為50 個神經元,attention 網絡的神經元為21 個,優化算法均為Adam,經驗池大小均為10 000,采樣大小均為64,強化學習里的超參數為常用參數設置。

基于相同的輸入變量,本文基于圖4 的框架還開發了基于CNN、LSTM、BP 神經網 絡(Back Propagation Neural Network,BPNN)、DDPG、RDPG、CNN+attention 和LSTM+attention 的預測模型。LSTM、CNN 和BPNN 的參數設置如下:LSTM 網絡有50 個神經元;CNN 有30 個過濾器,卷積核的尺寸為2×2,步長為2;BPNN 為2 個全連接網絡,分別有64 個神經元和32 個神經元,深度學習模型的學習率、優化算法都與DRL 模型相同。

3.2 評估指標

本文使用均方根誤差(Root Mean Square Error,RMSE)、平均絕對誤差(Mean Absolute Error,MAE)和決定系數(R2)評估所提出模型的預測精度。MAE 用絕對誤差表示實際值和預測值之間的平均偏差,而RMSE 表示實際值和預測值殘差的標準偏差。MAE 和RMSE 都是與尺度相關的指數,并在其原始尺度中描述預測誤差,值越小代表模型預測越精確?;貧w模型中通常使用R2來評估回歸模型的預測值和實際值之間的擬合度,值越接近1 代表模型越精確。上述指標的計算公式如下:

其中:zi是時間點i的實際值;pi是時間點i的預測值;表示N個實際光伏功率值的平均值;N表示樣本數。

3.3 對比分析

3.3.1 ADDPG、ARDPG與DDPG、RDPG的比較

光伏功率數據和氣象數據都是連續數據,這4 個模型都能夠處理連續問題,它們的獎賞如圖10 所示。可以看出在前10 個episode 內ADDPG 的獎賞還在上升階段但最終會收斂,其他三個模型的獎賞在前10 個episode 內都幾乎已經趨于穩定,最終ADDPG 的獎賞略高于對比模型;ADDPG 和ARDPG 的獎賞都要比未加入attention 機制的DDPG 和RDPG的獎賞要高。這表明attention 機制能夠提高模型的性能。在開始的幾個episode 內獎賞都很低,這是由于前期存儲經驗池隨機選取,一旦開始學習,這4 個模型很快便能學到數據的關鍵知識,并能根據當前觀察到的狀態來選取最優動作,即功率預測值,以得到最大的獎賞,從而作出準確的預測。

圖10 四個模型的獎賞圖Fig.10 Reward diagram for 4 models

圖11 顯示了單步預測中9 個模型(包括CNN、LSTM、BPNN、DDPG、RDPG、CNN+attention、LSTM+attention、ADDPG和ARDPG)的預測結果。其中:實線表示理想擬合線,表示預測值與真實值相等;兩條虛線代表±20%的誤差線,表明預測值比真實值大20%或小20%;橫軸是真實光伏功率值,縱軸為光伏功率預測值。可以觀察到,ADDPG 和ARDPG 的預測的準確性比DDPG 和RDPG 都要高,在±20%的誤差線外的預測點都有所減少。從圖11(a)、(b)對比可以看到,更多的預測點從偏離理想擬合線到集中到理想擬合線的附近。從圖11(c)、(d)可以看到,RDPG 模型預測值更多地偏向+20%的誤差線即預測值偏高,ARDPG 模型能夠有效緩解這種情況,將預測值集中到理想擬合線附近。但RDPG 模型與DDPG 相比并沒有顯示出優勢,這一結果與預期不符,這可能是由于單步超前光伏功率預測并不復雜,DDPG 模型足以捕獲序列之間的關系。ADDPG 模型與ARDPG 模型的性能并沒有明顯的差距。由于ADDPG 與ARDPG 的Actor 網絡利用attention 機制對觀察到的狀態向量進行合理的權重分配,提高了對歷史光伏功率數據以及天氣數據的敏感度,強化了特征提取能力,因此預測的準確性更高。

圖11 九個模型的預測結果Fig.11 Prediction results of nine models

3.3.2 ADDPG和ARDPG與深度學習方法比較

圖11(e)~(i)顯示了單步預測中深度學習模型預測結果,從中可以觀察到,ADDPG 和ARDPG 模型明顯優于深度學習模型,這表明基于attention 的深度強化學習方法可以產生比深度學習方法更具前景的結果。

ADDPG 和ARDPG 模型預測的準確性相比深度學習方法均有明顯提升,在±20%的誤差線外的預測點減少很多。對比圖11(b)、(d)和圖11(e)~(i)可以看到,更多的預測點從偏離理想擬合線到集中到理想擬合線的附近。從圖11(b)、(d)和(f)可以看到,LSTM+attention 模型的預測點在開始的前一段時間內超過+20%的誤差線較多,ADDPG 和ARDPG 能夠很好地預測在理想擬合線附近,在后一段中LSTM+attention 模型預測的結果偏向于-20%的誤差線,即比ADDPG 和ARDPG 預測結果偏低。其次,LSTM 略差于DDPG模型,LSTM 本身便具有很好的記憶功能,能夠較好地處理時間序列。CNN 和BPNN 都是前向神經網絡,不具有記憶功能,處理時間序列能力比LSTM 要略差,因此比以上兩個方法的性能要差。

從圖11(e)、(g)中可以看到,原始的LSTM 和CNN 模型預測的結果都偏向+20%誤差線,即預測偏高;在原始模型中加入attention 機制,從圖11(f)、(h)可以直觀看到,attention機制有效減少了偏高的預測點,尤其是CNN 模型,原始CNN模型更多地偏離誤差線之外,attention 機制使其預測結果很大一部分都落入誤差線范圍以內,提高了預測精度。LSTM+attention 模型則同樣利用attention 機制將經過LSTM 層輸出的量進行權重分配,從關注全局到關注重點,快速得到有效的信息,從而提高預測精度。CNN+attention 模型同樣篩選出重要信息、忽略無關信息,模型性能得到有效提升。在圖11(i)中,BPNN 的預測結果很大一部分預測偏高。

使用3.2 節的三個評估指標來評估上述模型對測試數據的預測精度,并統計它們的訓練時間(所有的計算都在Python 3.7 以及Pytorch 平臺上執行),結果如表2 所示。

表2 測試數據的預測精度和訓練時間對比Tab.2 Comparison of prediction accuracy and training time of test data

在MAE 和RMSE 的評估指標下:ADDPG 模型比DDPG降低了26.59%、24.24%;ARDPG 模型比RDPG 分別降低了31.12%、31.34%。在R2的評估指標下,ADDPG 模型比DDPG 提高了1.990%;ARDPG 模型比RDPG 提高了3.751%??梢钥闯?,ADDPG 和ARDPG 比其他模型的預測精度都要高;而且無論是DRL 還是深度學習模型,加入attention 機制都能夠更好地提升原始模型的預測精度。

DRL 的訓練時間都要長于深度學習方法,其中BPNN 的訓練時間最短,這是因為BPNN 結構最簡單,僅由兩層全連接層組成;所有模型中,RDPG 的時間成本最高,這是因為LSTM 的復雜結構使訓練時間變長。同樣可以看出各個模型加入attention 機制都可以略微減少訓練時間,因為attention機制能使網絡訓練更有效率。

4 結語

本文針對超短期光伏功率預測,提出了基于attention 機制的深度強化學習(DRL)模型:ADDPG 和ARDPG,將光伏預測問題建模為MDP,再利用DRL 求解MDP。與三種常見的深度學習模型LSTM、CNN 和BPNN,加入attention 機制的深度學習模型以及未加入attention 機制的DRL 模型相比,ADDPG 和ARDPG 在RMSE、MAE 和R2上均取得了 最優結果;ADDPG 和ARDPG 在單步預測方面也都優于對比模型,驗證了它們的有效性;不足之處在于ARDPG 的計算時間成本高。實驗結果同時表明,在原始模型中加入attention 機制可以提高模型的性能,DRL 模型的光伏預測性能顯著優于深度學習模型。未來將深入研究以提高多步預測的準確性,提出更具泛化能力的預測方案。

猜你喜歡
深度機制動作
深度理解一元一次方程
深度觀察
深度觀察
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
深度觀察
動作描寫要具體
畫動作
動作描寫不可少
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
非同一般的吃飯動作
主站蜘蛛池模板: 欧美日韩动态图| 国内精品视频| 欧美日韩国产高清一区二区三区| 无套av在线| 国产尤物在线播放| 国产无码高清视频不卡| 亚洲成av人无码综合在线观看| 天天躁狠狠躁| 91亚洲精品国产自在现线| 久久久精品国产SM调教网站| 呦女亚洲一区精品| a级毛片一区二区免费视频| 啦啦啦网站在线观看a毛片| 日韩欧美高清视频| 超薄丝袜足j国产在线视频| 波多野结衣二区| 91精品视频网站| 91丨九色丨首页在线播放 | 永久免费av网站可以直接看的| 国产精品精品视频| 亚洲 日韩 激情 无码 中出| 99这里精品| 91无码网站| 国产成人精彩在线视频50| 欧美亚洲国产视频| 国产三级国产精品国产普男人| 园内精品自拍视频在线播放| 中文字幕首页系列人妻| 99九九成人免费视频精品| 国产午夜人做人免费视频中文| 久久鸭综合久久国产| 亚洲一级无毛片无码在线免费视频| 玖玖免费视频在线观看| 色悠久久久| 伊人久综合| 自偷自拍三级全三级视频| 免费视频在线2021入口| 免费啪啪网址| 国产精品无码久久久久AV| 亚洲国内精品自在自线官| 国产亚洲精品va在线| 波多野结衣在线一区二区| www.精品国产| 免费毛片在线| 亚洲国产成人综合精品2020 | 久久精品这里只有国产中文精品| 国产视频你懂得| 亚洲无码久久久久| 国产欧美性爱网| 毛片手机在线看| 色哟哟国产成人精品| 91无码网站| lhav亚洲精品| 国产一级毛片网站| 四虎成人精品在永久免费| 九九九久久国产精品| 国产av剧情无码精品色午夜| 97精品久久久大香线焦| 久久人与动人物A级毛片| 国产免费怡红院视频| 99re视频在线| 国产美女在线观看| 色噜噜久久| 不卡无码网| 国产肉感大码AV无码| 国产麻豆精品久久一二三| 第一页亚洲| 被公侵犯人妻少妇一区二区三区| 日韩小视频在线观看| 欧美国产日韩一区二区三区精品影视| 欧美国产成人在线| 女人18毛片一级毛片在线 | 婷五月综合| 国产午夜精品一区二区三| 99精品视频在线观看免费播放| 亚洲精品成人7777在线观看| 亚洲天堂啪啪| 亚洲色图另类| 国产亚洲成AⅤ人片在线观看| 高清不卡毛片| 欧美人与动牲交a欧美精品| 亚洲永久色|