基于深度強化學習的電動汽車協調充電算法

2022-05-06 01:08:30張子霖

網絡安全與數據管理 2022年4期

張子霖

(中國科學技術大學自動化系，安徽合肥 230026)

0 引言

電動汽車作為一種新型的分布式移動資源，已成為智能電網發展的重要組成部分[1]，越來越多的研究人員開始關注電動汽車在電網中的社會價值。但電動汽車的日益普及也不可避免地給用戶和電網帶來了一系列的問題和挑戰。例如，大量電動汽車的不協調充電，將導致電網承受不可預測的負荷。因此，如何設計多輛電動汽車在整個工作過程中的協調充電策略，以降低能源成本，保證用戶對電動汽車荷電狀態的滿意度，并將對配電網的影響降到最低，是亟需解決的問題。

近年來，為了解決電動汽車的協調充電問題，出現了許多分布式調度方法。例如，為了最大限度地提高電動汽車用戶的便利性，開發了一種分散的基于交替方向乘法器的優化算法[2]。為使電動汽車充電成本最小化，使用電動汽車充電概率模型建立了一個嚴格凸分散系統形式的多人博弈[3]。但上述研究只關注了單一的目標，這在實際應用中往往是受限制的。針對多目標的協調充電問題，通過多智能體自私協同優化的方案，除了實現用戶利益以外，也保證避免變壓器過載[4]，但它沒有充分考慮狀態空間泛化和值函數逼近的影響，導致擬合性能較差，計算開銷也不理想。針對該問題，文獻[5]考慮采用基于機器學習的方法，其以收斂速度快、計算效率高而被廣泛應用于大規模數據的高維問題中。

事實上，基于強化學習的數據驅動方法作為機器學習的一個重要分支，已經廣泛應用于能源領域，特別是電動汽車充電問題[6-8]。這是因為基于強化學習的方法可以在缺乏明確的數學模型的情況下模擬順序決策問題，并進一步獲得對環境的精確響應[9]。具體來說，通過建立具有可擴展狀態表示的馬爾可夫決策過程，以直接決策聯合控制整個電動汽車集合[6]。此外，文獻[7]考慮到電價的隨機性和電動汽車的通勤行為，提出了一種結合電價預測的深度強化學習解決方案來優化實時調度。但以上兩種基于強化學習的方法是集中實現的，顯然不可能處理大規模動態數據的在線計算。針對電動汽車協調充電的分布式強化學習方法，文獻[8]引入了一種分散的基于市場的方法，使多輛電動汽車能夠積極參與電力市場。但其中采用的Q-learning 是基于表格的方法，隨著問題規模的擴大，會受到維數災難的影響。因此，有必要尋求一種分布式強化學習算法，在保證問題規模可擴展和計算開銷可接受的前提下，解決多目標的電動汽車協調充電問題。

基于上述研究，本文提出了一種基于深度強化學習的電動汽車協調充電分布式算法，重點關注降低用戶的充電成本，確保日常行駛中足夠的電池荷電狀態，并且避免變壓器過載。

1 問題描述

考慮一個居民區，當地的配電網連接到一定數目的家庭，每家都有一輛私人使用的電動汽車。在本文研究的協調充電問題中，所有參與信息交互的電動汽車之間存在通信鏈路，從而形成一個全連通的集合 B={1，2，…，N}。整個時間周期為 G={1，2，…，T}，即時間間隔為 1 h。在時間步 t∈G，電動汽車 n ∈B 獲取本地狀態信息(即電動汽車的位置和電池荷電狀態)和電價信息，同時接收變壓器的負載信息和相鄰電動汽車的狀態信息。然后每輛電動汽車根據上述信息進行局部決策，執行充電或不充電的具體行為。

為了電動汽車用戶和電網方的利益，本文研究的電動汽車協調充電問題的目標是找尋最優的充電策略，減少電動汽車的充電總成本，確保足夠的電池荷電狀態，并避免變壓器過載。需要注意的是，用戶的通勤行為是不確定的，無法精確建模，因此可將電動汽車的充電行為看成一個隨機過程。由于當前的信息足以預測未來的狀態，故上述隨機過程獨立于歷史，符合馬爾可夫特性。基于以上討論，將本文研究的多目標協調充電問題表示成一個包含五元素(S，A，P，R，γ)的馬爾可夫決策過程，以描述不確定性。其中 S 是狀態空間，A 是所有可行的行為，P 是狀態轉移概率，R 是獎勵函數，γ 是折扣因子。各元素的詳細介紹如下：

在本文研究的多智能體系統中，參數化的策略函數為：

其中 P 為通過參數 θ 將狀態 S 映射到行為 A 上的概率分布函數。最后，根據在Sk狀態下執行 Ak后的期望回報來評估充電調度的質量：

其中 Qπθ(St，At)表示真實的行為值函數。接下來需要在狀態轉移概率 P(S′|S，A)未知的情況下，求解上述馬爾可夫決策過程。考慮到不能通過直接求解貝爾曼方程的方式來獲得最優解，而無模型的深度強化學習算法可以保證智能體在與環境進行多次交互后獲得最優策略，故本文開發了一個深度強化學習算法來求解所制定的馬爾可夫決策過程問題。

2 策略方法

本節提出了一種基于神經網絡模型的深度強化學習算法，來解決馬爾可夫決策過程形式下的多目標電動汽車協調充電問題，其中利用通信神經網絡(Communication Neural Network，CommNet)模型實現多輛電動汽車上的分布式計算。在后續討論和分析中，智能體指的是電動汽車，環境指的是與電動汽車交互的住宅充電場景，并設定T=24。

CommNet 是一種神經網絡模型，常與多智能體強化學習結合使用。它可以促成多個智能體之間的合作，使它們根據各自的可觀察狀態采取行動之前進行信息交互。本文利用CommNet 來幫助連接到局部電網的電動汽車學習協調充電策略，以實現設定的多個目標。在調度過程中，每層網絡的所有電動汽車向公共的通信信道發送本地狀態信息，同時接收來自其他電動汽車的平均狀態信息，即所有電動汽車通過訪問此廣播通信結構共享狀態信息，然后將處理后的信息作為下一層網絡的輸入。

CommNet 的具體結構如圖 1 所示。首先，輸入所有電動汽車的狀態，通過 T1和T2兩個通信步驟映射到各自的行為。在每個通信步驟中，模塊m=0，1，2 傳播隱藏狀態向量并在公共信道上廣播由取平均值得到的通信向量然后輸出向量這兩個向量的具體計算如下：

圖1 CommNet 結構

其中 Hm和 Cm為對應的系數矩陣。將上述公式合并，可以得到：

3 深度強化學習框架

在機器學習和模式識別中，有許多經典的方法可用于函數逼近[10]。這里采用 Q 網絡，它本質上是一個由三個稠密層組成的神經網絡。 Q 網絡的輸入層完全連接到隱藏層，這層的輸出值為：

其中 g 為修正后的線性激活函數，W1、B1分別為權重矩陣和偏置向量。類似地，隱藏層完全連接到輸出層，輸出值為最終近似到的行為值函數：

其中 W2、B2分別為權重矩陣和偏置向量。

本文利用critic 網絡估計行為值函數：

同時，actor 網絡根據critic 部分獲得的值指導策略函數的參數更新。整個算法的網絡結構如圖2 所示。

圖2 完整的算法網絡圖

值得注意的是，本算法在迭代過程中運用了兩個關鍵技術，一個是用于提高算法穩定性的目標網絡，即引入目標 actor 網絡和目標 critic 網絡來固定參數，并生成與標簽數據等價的目標值。另一個關鍵技術是經驗回放，以存儲采樣的方式打破數據之間的相關性，避免連續一段時間內同一方向的梯度下降，從而保證算法的收斂性[11-12]。

完整的基于CommNet 的深度強化學習算法的偽代碼如下：

4 試驗驗證

本節給出了仿真結果，以驗證所提出的基于CommNet 的深度強化學習算法的性能。代碼基于Python 和 TensorFlow。

4.1 仿真環境設置

通過調查上海市的私家電動汽車用戶在不同時刻的出行情況，模擬狀態向量中的電動汽車位置變量。每輛電動汽車每天平均行駛40 km。

假設研究的每個家庭都有一輛電動汽車。電動汽車的電池容量為30 kW·h，平均能源消耗量為0.15 kW·h/km，電動汽車平均充電率為10 kW·h/h[13-14]。

在實現所提出的基于CommNet 的深度強化學習算法時，為了穩定學習階段，使用Xavier 初始化器初始化由全連接層組成的 CommNet 的權值。另外，隱藏層節點數和通信信道節點數均設置為128。在 critic 網絡中，輸入單元數等于狀態向量、特征向量與行為向量的維數之和，輸出單元數等于電動汽車的總數量。在訓練過程中，折扣因子設置為0.99，critic 網絡和 actor 網絡的學習率設置為 0.1，批量采樣對的數目設為 8，迭代次數設為 2 000。在 CPU 為i3-8100 的計算機上，訓練過程大約在 1 250 次迭代后收斂，訓練時間為10 s 左右。

4.2 性能評估

4.2.1 多目標協調充電

首先評估包含3 輛電動汽車的小規模多智能體系統的性能。在某住宅的局部電網覆蓋下，變壓器為附近的 3 戶家庭提供 30 kW·h 的電力。假設仿真的每個階段都在一天內進行，時間間隔為1 h。

圖3 顯示了總獎勵值隨迭代次數的收斂情況。從中可看出獎勵值在1 500 次迭代左右開始收斂。下面驗證本文提出的方法分別針對用戶和電網的相關目標的實現效果。

圖3 所有電動汽車的總獎勵值

一方面，對于用戶，圖 4(a)～圖 4(c)依次顯示了在算法達到收斂后的某一天內，每輛電動汽車觀察到的實時電價和電動汽車位置，以及各自的行為決策曲線。從圖中可以看出，如果電動汽車到達目的地時正處于谷時電價時段，且有足夠的停車時長使荷電狀態充至較飽和狀態，則用戶的充電意愿較強烈，如圖 4(b)中 1～4 時、圖 4(c)中 3～5 時顯示的情況；反之，若電動汽車在區域的停駐時間較短，且正處于峰時電價時段，考慮到用戶充電成本和停車時長的敏感程度，此時用戶的充電概率相對較低，如圖4(a)中 14～16 時、圖 4(b)中 16～18 時的情況。

圖4 各電動汽車的位置、電價與充電行為

另一方面，對于電網，圖 5(a)～5(c)依次顯示了在算法達到收斂后的某一天內，每輛電動汽車接收到的變壓器負載以及各自的行為決策曲線。如果變壓器離滿載還有足夠的空間，則用戶的充電意愿較強烈，如圖 5(a)中 11 ～14 時、圖 5(c)中 13 ～18 時的情況；反之，若變壓器負載較高，那么此時用戶的充電概率相對較低，如圖 5(b)中 4 ～7 時、圖 5(c)中19～21 時顯示的情況。

圖5 各電動汽車的變壓器負載與充電行為

為了表明所提方法的優勢，將其與Q-learning進行對比，結果如圖6 所示。可以看出，后者的總獎勵值收斂速度比CommNet 方法慢很多，而且整體值也偏低。

圖6 CommNet 和 Q-learning 的獎勵值收斂對比

通過以上討論，可以充分說明本文提出的基于DRL 的分布式算法是解決帶有多個目標的協調電動汽車充電問題的有效方法。

4.2.2 系統可擴展性

為了驗證所提方法的可擴展性，將電動汽車的數量從 3 輛線性擴展到 30 輛。圖 7 顯示了隨著電動汽車數量的增加，算法收斂所需的迭代次數。可以明顯看出迭代次數呈現線性增長而非指數增長趨勢，說明了該算法在處理大規模多智能體系統時的有效性。

圖7 電動汽車數量與算法收斂所需的迭代次數

接下來將基于CommNet 的分布式方法與以下兩種集中式基準方法做比較，進一步說明將CommNet網絡作為策略方案的性能優勢。

隨機策略：在該模型中，每輛電動汽車有50%的概率不考慮系統狀態，即其他電動汽車的狀態，進行充電動作。

貪婪策略：它是最具代表性的一種傳統策略，每個狀態有ε 的概率進行探索(即隨機選取充或不充)，而剩下的 1-ε 的概率則進行開發(選取當前狀態下效用值較大的那個動作)[15]。

對于上述三種算法，在相同的駕駛模式下，設置相同的目標，模擬了2 000 次的電動汽車協調充電訓練來定義平均性能。為此，評估了在 3 輛、10 輛和30 輛電動汽車的情況下，不同方法對獎勵值收斂情況的影響，結果分別如圖 8(a)～8(c)所示。可以看出，在三條曲線中，貪婪策略對應的曲線在訓練初期波動較大，最終發散，未能收斂。而隨機策略的訓練曲線緩慢衰減，且對應的獎勵值遠小于CommNet方法下的獎勵值。以上結果表明，基于 CommNet 的算法在收斂穩定性方面比其他兩種集中式基準方法更加突出。此外，隨著電動汽車數目的不斷增多，所提算法的獎勵值能在線性迭代次數內達到收斂。

圖8 不同數量電動汽車下三種策略的獎勵值收斂情況

綜上所述，本文提出的基于CommNet 的深度強化學習方法最終學習到了能達到預定多目標的充電策略，并取得了更好的性能。因此，它能有效地應用于多電動汽車協調充電系統，對電動汽車的動態充電數據進行實時處理。

5 結論

本文針對包含多目標的多電動汽車協調充電問題，提出了一種分布式的多智能體深度強化學習方法。該方法的主要創新之處在于：首先，分別從用戶和電網角度考慮，同時實現多個目標；其次，調度策略采用分布式方法，利用多輛電動汽車的局部信息，借助策略網絡進行分布式計算以達成全局目標。通過數據密集仿真的性能評估，驗證了所提算法的有效性和可擴展性。在未來，這項工作可以沿著不同的路線進一步擴展。