999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

真實交通數據下的實時電動汽車智能充電策略*

2023-05-12 02:26:06朱敬華
計算機與數字工程 2023年1期
關鍵詞:成本用戶策略

楊 悅 潘 剛 朱敬華

(1.黑龍江大學計算機科學與技術學院 哈爾濱 150000)(2.黑龍江大學數據科學與技術學院 哈爾濱 150000)

1 引言

全球經濟的快速發展,消耗了大量的能源,并且排放了大量的污染氣體,使得環境問題越來越嚴重。汽車尾氣排放已成為全球變暖和空氣污染的主要原因。國家大力倡導使用清潔能源降低環境污染,因此EV 越來越多[1~4]。但交通擁堵,電量不足,和用戶充電體驗感較差等問題也隨之而來,亟需解決[5]。鑒于此,EV 的充電調度優化問題引起人們的重視,如何幫助EV選擇最佳的充電站,降低交通擁堵,減少排隊的時間,“去哪里充電”“什么時候充電”需要解決,但是目前這方面的研究并不充分。

充電調度策略的本質是在多種不確定因素條件下,對EV進行充電調度,獲得最優的充電策略[6~7]。文獻[8]使用蟻群算法來解決EV充電調度問題,但是使用這種方法具有局限性,并且收斂速度較慢。文獻[9]使用兩層遺傳算法解決EV智能充電問題,但其不能解決大規模計算量問題。文獻[10]從EV充電需求的角度進行分析,并從EV、交通網絡、充電站等方面提出了一種優化充電路徑的方法,但其沒有考慮交通條件的隨機性。文獻[11]提出一種基于云邊緣協作的EV 充放電調度方法,以保護用戶的隱私。但沒有考慮EV充放電期間對電池的損耗,沒有獲得更公平的充放電管理策略。

隨著AlphaZero 的成功,在決策問題上DRL 表現出巨大的潛力,更多的研究人員使用基于DRL的方法來解決EV的充電調度問題。文獻[12]提出了考慮交通條件的隨機性、用戶的通勤行為和有效的定價過程的DRL 的實時調度方法,但沒有考慮天氣變化的隨機性,不能保證電量需求得到滿足。文獻[13]提出一種用于網約車調度的供需感知DRL 模型,采用具有演員家-評論家(Actor-Critic)網絡結構來學習最優的網約車調度策略。文獻[14]提出一種基于DRL 的EV 充電導航方法,并利用其近似求出模型的最佳解,獲得充電策略,但沒有考慮到多輛EV之間的相互影響,如排隊情況、交通擁堵等。

本文針對交通狀況、天氣變化、EV 到達時間的隨機性以及電價不確定性因素,采用基于無模型的DRL方法,在明確EV充電過程的狀態空間、動作空間后,設計了一種混合整數優化目標函數。由于隨機變化的場景導致系統維度很高,并且所設計的混合整數優化目標屬于NP 難問題,本文通過設計一種基于DRL 的SAC 算法,保證了用戶的充電需求。同時,由于電價的不確定性,通過基于注意力機制的GRU(Gated Recurrent Unit)深度網絡來實時預測電價,從而引導EV進行有效的充電任務,進一步為用戶節省充電成本。本文的主要貢獻包括三個方面:

1)由于隨機變化的道路交通狀況和電價信息,設計一種充電調度模型,該模型實現了用戶的充電成本、電池退化成本、時間代價以及期望充電誤差最小化;

2)利用基于注意力機制的GRU網絡進行實時電價預測,以引導EV選擇電價低時進行充電任務,實現較低的用戶充電成本,電價預測結果表明使用基于注意力機制的GRU 網絡要優于單獨使用GRU或LSTM(long short-term memory)預測方法;

3)由于隨機變化的交通狀態導致系統維度很高,并且所設計的混合整數優化目標屬于NP 難問題,提出了一種基于DRL 的SAC 算法來求解最優充電策略。實驗表明,在相同場景下所提出方法的實驗效果要優于其他DRL算法,并且該方法顯著地降低了用戶的充電費用,改善了用戶的充電體驗。

2 系統模型

表1 常用符號

本節詳細介紹提出的EV充電調度模型。由于能源價格具有波動性,根據EV自身需求,用戶選擇在合適的時間段進行充電任務,從而使得EV 的成本最小化,這里的成本包括EV充電成本、電池退化成本以及用戶期望誤差成本。另外,由于道路交通流量的變化性和充電站排隊充電的不確定性,在滿足EV 充電需求的同時,盡量使用戶在充電任務過程中花費較少的時間。系統架構圖如圖1 所示,首先,根據電價的歷史信息,使用基于注意力機制的GRU 網絡來提取歷史電價數據特征,從而實現高準確度的未來24h 電價預測。然后,使用基于DRL的SAC 方法,通過交通狀況、天氣情況、電價、充電站狀況來確定EV的最優充電策略。整個過程的目標函數表示為

圖1 系統架構圖

2.1 充電成本

當EV 選擇充電站進行充電任務后,即會產生一定的充電成本,表示為

其中,Δt1表示EV 充電時間,表示電池容量,xij是二進制變量,值為0表示第i輛EV 不選擇充電站j,反之則選擇。

2.2 電池退化成本

EV在行駛過程和充電期間的電池退化成本[15~16]的表達式為

2.3 行駛時間

EV在發出充電請求時,系統會給EV規劃最佳的行駛至充電站路徑,EV 的行駛時間受到道路交通網絡變化的影響,其行駛時間表示為

由于道路的通行速度受很多外部因素影響,本文考慮天氣環境因素,不同的天氣狀況對道路的影響程度是不同的,具體將在第3 節的方法設計部分詳細闡述。

2.4 排隊等待時間

EV行駛至充電站時,如果前面有其他EV正在進行充電,那么就需要在該充電站進行排隊等候充電,它的排隊等待時間表示為

其中,φj,t表示充電站j 的充電效率,Δtsamp表示采樣時間。

2.5 用戶期望誤差成本

用戶在充電任務之前有一個預期的充電電量,在實際到達充電站時,與實際充電電量的差通過誤差系數轉化成用戶期望誤差成本,表示為

其中,ω表示期望誤差成本系數,其測量單位為元/kWh2。

2.6 約束條件

2.6.1 充電/放電功率約束

第i輛EV 在t時刻的充放電功率Pi,t不應該超出充放電功率的最大值,它表示為

2.6.2 充放電狀態約束

第i 輛EV 在t 時刻的充放電狀態只能有一種,當EV 狀態為充電狀態時,放電功率值為0,反之,充電功率值為0,它表示為

其中,Ai,t表示第i輛EV在t時刻的一個動作,大于0,代表充電行為;小于0,代表放電行為。

2.6.3 充電站選擇約束

第i輛EV在選擇充電站充電過程中,只能選擇區域內一個充電站作為選擇對象,它表示為

其中,xij{0,1}。

2.6.4 充電電量約束

第i輛EV在t時刻充電電量不應該超出充電站的剩余電量,表示為

2.6.5 EV剩余電量約束

綜上,將EV充電調度描述為優化問題如下:

其中,K1,K2,K3,K4,K5是設定的權重值,分別表示每個組成部分對整體的重要程度。

3 智能充電策略

本節針對第2 節的優化問題提出求解方法,由于優化問題(12)具有高維度、多約束的性質,因此屬于NP 難問題[17]。在使用傳統方法求解時,很難在短時間內獲得精確解,所以提出一種基于DRL的人工智能算法來逼近模型的最優解,它可以自適應地學習最優策略,不需要任何不確定性的先驗知識。由于DRL 基于MDP,本文首先將式(12)的優化問題轉化為MDP形式。

3.1 系統狀態

考慮到時變的交通條件和天氣狀況因素對系統狀態產生影響,本文將一天24h 作為一個循環周期,系統狀態st描述為以下形式:

其中,Wt表示天氣質量情況,它是一個四維數據,通常寫成如下:

這里,第一個分量表示溫度,第二個分量表示濕度,第三個分量表示有無霧霾,第四個分量表示空氣質量指數。

3.2 系統動作

智能體根據當前系統狀態st做出合適的動作at,表示為

3.3 系統獎勵

本文優化問題(12)的目標是最小化EV充電成本和電池退化成本以及最大化用戶的滿意度。智能體在做出一個動作后,系統會根據當前環境狀態信息給予智能體一定的即時獎勵Rimm(st,at),然后更新系統狀態。表示如下:

在經過時間T 后,系統將會收到一個總的獎勵值:

其中,γ[0 ,1] 是折扣系數,它平衡了即時獎勵和未來獎勵之間的重要性。

3.4 實時電價預測

由于電價以周期性的方式波動,并具有時序特征,因此從歷史的電價信息推斷未來的價格趨是合理的。GRU 比LSTM 網絡的結構更加簡單,參數也更少,因此降低了模型的訓練時間成本。但GRU在提取電價特征時不能靈活區分電價的高低,而注意力機制提供了一種關注重要信息的方法,可以從眾多電價信息中,更注重選擇電價低時去充電來降低充電成本。

GRU 結構如圖2(a)所示,圖中Rt和Zt分別表示重置門和更新門,以實現對歷史電價信息的加強與遺忘。具體公式表述如下:

其中,WR,UR,WZ,UZ,Wh,Uh為權重矩陣;σ()· ,tanh()· 為激活函數;*表示矩陣中對應元素依次相乘。

圖2 GRU結構圖

其中,VT,We,w1為權重系數;b,b1為偏置量;f表示softmax函數。

3.5 基于SAC的充電調度算法

由于隨機變化的情況導致系統維度很高,并且電動汽車的充電任務是一種連續性動作,所以設計了一種基于DRL 的SAC 算法,來尋找最佳充電策略。SAC 算法本身是一種基于off-policy 的智能學習算法[18],它解決了主流的on-policy 算法(如PPO算法[19])所存在的采樣效率低的問題。同時,SAC算法也解決了基于off-policy算法(如DDPG算法[20])的收斂效果差,對超參數敏感的問題。此外,雖然PPO 算法和DDPG 算法可以解決連續動作空間,但它們面臨著高估的問題。具有最大熵目標的SAC算法可以提供樣本高效的學習和穩定性,可用于解決本文所考慮的EV連續充電調度的復雜場景。

圖3 為SAC 網絡結構圖,首先,EV 充電環境等信息通過輸入Actor 網絡映射生成充電動作,利用參數化的DNN 來近似策略πξ( )at|st,根據當前的EV 充電環境狀態st選擇并執行充電動作at,得到獎勵rt、下一個狀態st+1和系統結束標志done,接著將元組(st,at,rt,st+1,done)存儲在經驗重放池中。Critic 網絡負責估計狀態價值和狀態-動作的價值,為了區分不同樣本之間的相關性,Critic從經驗重放池中隨機抽取少量樣本,分別訓練狀態價值V函數和狀態動作價值Q函數,產生的損失函數L(?)和L(δ)進行反向傳播,使用隨機梯度下降方法更新DNN 參數,并用V?(st)和Qδ(st,at)更新Ac?tor 的參數。在本文中,電動汽車作為智能體,它通過環境的狀態(電價,電量,道路交通流量等)輸入,Actor 網絡會給出相應的動作輸出,電動汽車執行這個動作后,系統會反饋給電動汽車一個回報值,通過這個反饋來判斷當前的策略是好還是壞,經過不斷地訓練學習更新網絡參數,最終Actor 網絡的參數即為最優的策略網絡參數,電動汽車輸入狀態變量,智能體就會反饋給電動汽車一個最優的充電策略,即去哪個充電站進行充電任務。細節見算法1。

圖3 SAC網絡結構圖

對于標準的強化學習,目標是最大獎勵的期望。而對于SAC,采用了最大熵框架來提高魯棒性。最大熵目標為

其中,?(π(?|st))=-logπ(?|st)是熵項,用于控制最優策略的隨機性;ρπ是由策略π生成的狀態-動作的分布;β為溫度參數,用來評價熵項的重要程度。

最大熵的學習通過策略迭代進行改進,包括策略評估和策略提升,通過不斷重復這兩階段,智能體最終會在策略迭代中找到最優策略。SAC 使用神經網絡對Q函數和策略函數進行近似,使用軟策略迭代,將策略評估與策略提升的模式變為交替對上述兩個近似網絡進行梯度更新。在策略評估階段,soft state value函數由最小化殘差訓練:

其中,?為soft state value函數的參數,δ為soft Q函數參數,ξ為策略函數的參數。

Soft Q函數通過最小化Bellman殘差訓練:

其中,q(st,at)=r(st,at)+γEst+1~p[V?ˉ(st+1)]。

在策略提升階段,策略網絡的參數通過最小化KL散度期望來訓練:

算法1 基于SAC的充電調度算法

輸入:交通狀況,天氣情況,電價,充電站狀況;

輸出:選擇的充電站編號,充電電量。

1. 初始化:訓練迭代次數episode,訓練時間步數t,目標平滑系數t,空經驗重放池D,Q 函數參數δ1,δ2,策略參數ξ,V函數參數?;

2.設置目標參數?tar??;

3.for episode=1,2,……do

4. for t=0,1,2,……do

5. 從環境中獲取狀態st;

6. 將st輸入策略網絡,選擇動作at~πξ(·|st) ;

7. 執行動作at,得到獎勵rt,進入下一個狀態st+1,并判斷st+1是否為最終狀態;

8. 將元組(st,at,rt,st+1,done)存入D;

9. end for

10. for t=0,1,2,…do

11. 從D中隨機抽取一小批樣本;

12. 對Q函數和V函數計算目標:

13. 通過式(27)由梯度下降更新參數?;

14. 通過式(28)由梯度下降更新參數δ;

15. 通過式(30)由梯度上升更新參數ξ;16. 更新目標價值網絡:

17. end for

18.end for

4 實驗及結果分析

在這一部分,評估所提出的SAC 算法性能,并驗證了實驗的有效性。

4.1 實驗設置

本文所考慮的是兩條相交的并且為十字型的道路結構,充電站分別安裝在每條道路的一側,電動汽車處于十字型道路的路口。數據集來源于百度API 和文獻[14],具體參數設置如表2 所示。在訓練過程中,使用了三種類型網絡,分別為soft state value、soft Q 以及策略網絡,其中,soft state val?ue 網絡輸入層特征維度為25,輸出層特征維度為1,兩個隱藏層特征維度為256,激活函數使用Re?lu。Soft Q 網絡輸入層特征維度為29,輸出層特征維度為1,兩個隱藏層特征維度為256,激活函數使用Relu。策略網絡輸入層特征維度為25,輸出層特征維度為4,兩個隱藏層特征維度為256,激活函數使用Tanh(x)。SAC 算法采用的是off-policy 進行學習,所以設置一個大小為105的經驗重放池用于存儲訓練數據,隨機從中抽取小批量樣本進行學習,經過1200 輪的訓練得到最終模型。所有的實驗是在一臺具有4核英特爾處理器,8GB 顯卡的終端上運行的。

表2 數據實驗信息

4.2 性能分析

4.2.1 電價預測

首先收集歷史的電價數據,然后使用基于注意力機制的GRU 網絡對其進行預測,結果如圖4 所示。在相同的網絡參數下,也進行了單獨使用LSTM 和GRU 網絡進行預測的結果,從圖4 可以明顯看出,使用基于注意力機制的GRU 網絡進行電價預測曲線與真實值曲線的擬合程度更高,所以其效果要優于其它兩種算法。

圖4 不同算法的電價預測結果圖

圖5 表示的是使用基于注意力機制的GRU 網絡進行電價預測時的訓練過程損失圖,分別進行了在不同學習率下的試驗,從圖5 可以看出,當學習率為{10-3,10-4,10-5}時,訓練過程的損失值隨著訓練輪數的增加而不斷減小。

圖5 基于注意力機制的GRU網絡的訓練過程損失圖

4.2.2 學習率影響

本小節評估了不同學習率對所提出的SAC 算法性能的影響。如圖6,學習率的設置有{10-3,10-5,10-6}。學習率為{10-3}的獎勵前期逐漸增大,在100 至200 輪間有減小趨勢,在400 輪后上升至最大值并趨于穩定。學習率為{10-5}的獎勵一直呈上升趨勢,在300 輪后達到最大值并趨于穩定。學習率為{10-6}的獎勵一直上升,在900 輪后趨于穩定。綜合來看,學習率為{10-5}的獎勵要優于其他學習率的獎勵。

圖6 SAC算法在不同學習率下的標準化累積獎勵圖

4.2.3 對比算法結果

在相同環境設置下,評估了SAC算法與PPO算法的對比結果。如圖7,SAC 算法的獎勵隨著訓練輪數的增加而不斷增加,最終在300 輪后趨于穩定;PPO 算法獎勵總體來看呈上升趨勢,但是最終穩定后的獎勵要小于SAC 算法的獎勵,因此,本文提出的基于SAC 算法的充電調度策略具有有效性和優越性。

圖7 SAC算法與PPO算法的對比圖

4.2.4 優化目標的結果

本文的目標函數是最小化EV 充電成本、電池退化成本、行駛時間、排隊等待時間以及用戶期望誤差成本。充電成本、電池退化成本以及用戶期望誤差成本結果如圖8 所示,圓形曲線表示的是網絡模型中隱藏層維度為64 維時的目標函數優化圖像,方形曲線則表示的是隱藏層維度為256 維時的目標函數優化圖像,二者隨著訓練輪數的增加都呈現了逐漸減小的趨勢。隨著訓練輪數的增加,EV充電成本從一開始的1050逐漸下降到100左右,且從300 輪后趨于穩定;電池退化成本從一開始的200 逐漸下降到20 左右,且從400 輪后趨于穩定;用戶期望誤差成本從一開始的19000 逐漸下降到800左右,且從350輪后趨于穩定。

圖8 充電成本、電池退化成本和用戶期望誤差成本的訓練結果圖

用戶在計劃EV 充電時,都是期望能夠快速到達最近的充電站且避免排隊等候,本實驗中,EV的行駛時間和排隊等待時間如圖9 所示,隨著訓練輪數的增大,二者的值都是從一開始的較大值不斷減小至最小值,且趨于穩定。

圖9 行駛時間和排隊等待時間的訓練結果圖

5 結語

本文考慮了道路交通狀況和天氣變化的隨機性所帶來的影響,將EV 充電調度問題描述為MDP,提出了一種基于DRL 的SAC 算法,既保證了用戶的實時充電需求,又確定了該實時調度問題的最優策略。由于電價的不確定性,通過基于注意力機制的GRU 深度網絡來提取電價特征,從而引導EV 進行有效的充電任務,實現較少的充電成本。實驗表明,提出的基于注意力機制的GRU 網絡的方法比單獨使用GRU 或LSTM 的方法進行電價預測的效果好;在滿足用戶對電量的需求和降低充電成本方面,基于SAC的充電調度策略優于PPO。

未來研究更復雜的道路狀況和節假日人流密集的情況,嘗試采用多智能體DRL 方法進一步學習更優的調度策略。

猜你喜歡
成本用戶策略
2021年最新酒駕成本清單
河南電力(2021年5期)2021-05-29 02:10:00
例談未知角三角函數值的求解策略
我說你做講策略
溫子仁,你還是適合拍小成本
電影(2018年12期)2018-12-23 02:18:48
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
Passage Four
主站蜘蛛池模板: 亚洲国产成人无码AV在线影院L| 四虎国产在线观看| 亚洲国产无码有码| 婷婷六月激情综合一区| 思思热精品在线8| 一级看片免费视频| 亚洲无码91视频| 国产欧美成人不卡视频| 亚洲日本中文字幕乱码中文| 91国内在线观看| 亚洲最新地址| 国产一区二区三区精品久久呦| 99视频在线免费| 宅男噜噜噜66国产在线观看| 亚洲国产精品久久久久秋霞影院| 国产网站免费观看| 欧美成人一区午夜福利在线| 国内毛片视频| 国产人免费人成免费视频| 国产资源免费观看| 国产精品亚欧美一区二区| 福利片91| 日韩天堂视频| 99久久亚洲精品影院| 久久无码免费束人妻| lhav亚洲精品| 男人的天堂久久精品激情| 国产毛片片精品天天看视频| 午夜视频日本| 色偷偷一区二区三区| 国产好痛疼轻点好爽的视频| 国产白浆在线| 欧美午夜网站| 综合色区亚洲熟妇在线| 国产91在线|日本| 热re99久久精品国99热| 成人午夜免费视频| 美女被躁出白浆视频播放| 国产主播一区二区三区| 国产美女一级毛片| 精品无码国产自产野外拍在线| 国产日韩欧美中文| 日韩毛片免费| 2020最新国产精品视频| 日韩小视频网站hq| 国产精品蜜芽在线观看| 99一级毛片| 久久99蜜桃精品久久久久小说| 成人午夜天| 欧美一区二区啪啪| 成人蜜桃网| 国产精品第| 国产福利免费视频| 少妇精品网站| 欧美区一区| 亚洲国产日韩欧美在线| 亚洲中文字幕手机在线第一页| 亚洲午夜福利在线| 99九九成人免费视频精品| 天天综合网亚洲网站| 国产swag在线观看| 日本少妇又色又爽又高潮| 国产在线98福利播放视频免费 | 国产区精品高清在线观看| 香蕉eeww99国产在线观看| 国产99久久亚洲综合精品西瓜tv| 欧美视频在线播放观看免费福利资源| 69精品在线观看| 九九线精品视频在线观看| 高清不卡一区二区三区香蕉| 欧美不卡在线视频| 狠狠亚洲婷婷综合色香| 欧美性天天| 青草午夜精品视频在线观看| 久久婷婷色综合老司机| 亚洲香蕉伊综合在人在线| 九色视频在线免费观看| 亚洲国产成人综合精品2020| 欧美国产在线精品17p| 久久国产精品无码hdav| 99视频全部免费| 国产呦精品一区二区三区网站|