結合DDPG與優先數據剪枝的樣本處理方法

2021-11-17 07:36:38劉建明

計算機仿真 2021年6期

向卉，劉建明

(桂林電子科技大學計算機與信息安全學院，廣西桂林 541000)

1 引言

強化學習(RL)[1]是學習如何從動作空間中選擇與周圍環境相對應的適當動作，以獲得最大獎勵的過程。作為一種獎懲式的學習方法，強化學習使得智能體在避免低回報行為的同時，尋求能產生更大回報的行為。它被認為是一種強大的工具，旨在為機器人在與環境的交互過程中自動找到合適的策略。近年來，強化學習已成為智能系統設計的核心技術之一，并已廣泛應用于人工智能和機器人技術。隨著許多專家學者不斷深入研究強化學習算法并做出許多突出貢獻，該方法已廣泛應用于機器人領域并取得了快速發展。然而，在傳統連續控制域中，動作空間很大并且行為是實值，代理很難直接從原始像素中學習來完成復雜的任務。從強化學習的背景出發的深層強化學習方法結合了深度學習和強化學習，它可以在高維觀測環境中完成復雜的任務，合理地解決這個問題。

最近，許多研究人員專注于深度確定性策略梯度(DDPG)算法的研究，該算法是[2]中提出的一種基于無模型、離線策略、actor-critic體系結構的實用型強化學習算法。 DDPG已經成功應用并在各種高維連續控制任務中表現出出色的性能，包括移動機器人的自主導航[3，4]任務中的路徑規劃。盡管DDPG具有可行性，但如果未能采用適當的方法對預收集的原始樣本進行預處理，則模型訓練過程可能會變得耗時且效率降低。具體而言，對更關鍵的樣本的不充分訓練，將使得智能體繼續重復相同的不盡人意的行為，因此導致效率較低且性能較不穩定。

為了解決樣本預處理的問題，進行了一系列的研究，其中經驗重放[5]被認為是一種比較受歡迎的應對方法。基于其理念，在訓練DDPG的critic網絡和actor網絡之前，將收集的樣本存儲在重放緩沖區[6]中。隨后，從重放緩沖區中隨機選擇固定的小批量樣本用于訓練。但正如[7]中的作者所指出的那樣，只是使用先進先出規則來刪除樣本，一旦重放緩沖區達到其最大容量，這將導致預期可用于多次訓練的關鍵樣本的丟失。由于無意中丟棄了這些有價值的樣本，而智能體又傾向于堅持相似的策略，由此產生了令人不滿的表現，這也是需要很長時間才能使訓練收斂的主要原因。另外，這種模式削弱了智能體適應不同狀態的能力，這也導致了學習過程的不穩定性。

針對上述不足，提出了一種結合數據剪枝和優先采樣[8]的新方法來改進DDPG，有效去除相對不重要的樣本，并根據優先級標準從重放緩沖區中選擇樣本進行網絡訓練。在一個名為Gym的仿真平臺上驗證了該方法的有效性。結果表明，該方法能夠保證訓練收斂性的提高，并在連續的動作空間中產生更穩定的性能。

2 強化學習算法

在移動機器人的路徑規劃中，傳統的路徑規劃算法存在明顯的缺點：算法計算量大，收斂速度慢。機器人必須有能夠處理緊急情況并適應環境的能力，以便在未知復雜的環境中成功完成指定任務。為了使移動機器人通過自身的學習機制達到指定的目標位置，提高自學能力，具有自學習和在線學習特點的強化學習方法，成為移動機器人在未知環境中進行路徑規劃的有效方法之一。近來，強化學習方法在移動機器人路徑規劃中的應用非常顯著。

2.1 背景

在強化學習領域，深度Q網絡(DQN)算法由文獻[9]提出。DQN結合了卷積神經網絡和Q-learning算法。雖然DQN解決了高維環境觀測的問題，但它只能處理離散和低維度行為空間。 Silver等人[10]引入了一種離線的actor-critic算法，并從探索行為策略中學習確定目標策略。證明了確定性策略梯度(DPG)算法在高維操作空間中優于隨機算法。

Lillicrap等[2]提出了一種無模型，離線的actor-critic算法，該算法使用深度函數近似器在高維連續動作空間中學習策略。采用兩個神經網絡近似actor和critic，設計了深度確定性策略梯度(DDPG)算法來解決馬爾可夫決策過程(MDP)的連續控制問題。該方法的一個關鍵特征是它的簡潔性：它只需要一個簡單的actor-critic框架和自學習算法，幾乎沒有“移動部件”，這使得更容易完成并擴展更難的問題和更大的網絡。參考文獻[9]利用actor-critic算法[2]，使得確定性策略梯度算法學習每個環境狀態中的行為值。使用連續動作空間和深度actor-critic網絡，通過一對灰度立體圖像執行隱式深度估計，并且在3D環境中實現機器人路徑規劃的立體視覺技術。最后證明了基于DDPG的學習技術在學習步數和成功率方面遠大于DQN算法。因此，與DQN算法相比，DDPG算法的最大優點是它可以在連續動作空間中更有效地學習。在學者的探索和研究下，DDPG算法也得到了更多的擴展，例如，Munk[11]提出的ML-DDPG體系結構，由三個DNN組成：模型網絡，critic網絡和actor網絡模型，可以學習一系列不同的具有挑戰性的觀測結果的連續控制策略；Heess等人[12]進一步擴展文獻[2]到POMDP，通過使用兩個遞歸神經網絡來近似actor和critic，并開發了一種稱為反復確定性政策梯度(RDPG)的算法。但是，不對這些擴展做過多的考慮，僅僅基于原始DDPG算法來展開研究。

2.2 經驗重放

近年來，經驗重放在DRL社區取得了巨大成功，并已成為許多深度RL算法的新規范[13]。 Mnih等人[14]將DQN算法的重播緩沖區大小設置為106，用于各種Atari游戲[15]，Lillicrap等人[2]也將其DDPG算法的重播緩沖區設置為106，以處理各種Mujoco任務[16]。經驗重放讓在線強化學習智能體記住并重新使用過去的經驗。在之前的工作中，樣本是從重播緩沖區中隨機選擇的。但是，無論其重要性如何，該方法僅以相同的頻率重播樣本。在文獻[8]中開發了優先經驗重放的方法，并且使用TD-error作為衡量樣本優先級的標準，給重播緩沖區中的樣本都賦予優先級，以便更頻繁地重放重要的樣本，從而更有效地學習，并在DQN中使用優先級經驗重放。之后，文獻[17]基于DDPG算法，為了進一步提高DDPG中經驗回放機制的效率，從而加快訓練過程，提出了一種基于優先級的經驗重播方法，減少了智能體學習時間，并提高學習過程的穩定性。提出的方法類似于文獻[17]，但是文獻[17]中只對重播緩沖區中樣本的優先級進行計算，而沒有注意到由于重播緩沖區中先進先出的存儲機制，緩沖區中的樣本高度相關，這使得一些稀缺的樣本被丟掉，從而導致智能體很難在突發情況下及時做出響應。因此，文獻[7]基于DQN算法提出了一種數據剪枝方法，丟棄了重播緩沖區中高相關數據，保存稀有獨特的數據，提高了學習穩定性和長期記憶。

在所提出的方法中，基于DDPG算法，選擇具有高TD-error值的經驗用于采樣和重放，同時移除重播緩沖區中的高度相關或相似的樣本，并保留稀有數據。

3 樣本數據處理

3.1 深度確定性策略梯度算法

在強化學習算法中，通常使用行為值函數Q來表示在環境狀態st下采取行為后的期望回報及其之后的策略π。Q函數被定義為

(1)

使用Bellman方程得到actor的優化行為值，如下所示

Qμ(st，at)=E[r(st，at)+γQμ(st+1，μ(st+1))].

(2)

在深度確定性策略梯度算法中，actor和critic都用帶參數的DNN近似。Actor-value網絡(critic網絡)Q(s，a|θQ)和actor網絡μ(s|θμ)中，θQ和θμ是網絡參數。Critic網絡的訓練基于最小化損失函數L，如下所示

(3)

其中，yi是

yi=r(si，ai)+γQ′(si+1，μ′(si+1|θμ′)|θQ′)

(4)

策略梯度算法[2]用于更新actor網絡參數

(5)

基于DDPG方法的基本理論，目標網絡方法和批量標準化有助于克服在深度神經網絡訓練中的困難。然而，在傳統的經驗重放機制中，隨機采樣方法使得傳送到網絡訓練的經驗與非常成功的嘗試和糟糕的表現無關，這降低了網絡的訓練效率。同時，隨著經驗持續存儲在重放緩沖區中，緩沖器中的樣本高度相關，這使得一些罕見的樣本丟失，并且智能體很難對緊急情況做出及時反應。

3.2 優先級經驗重放和數據剪枝

為了解決上述提及的問題，需要在重放緩沖區中選擇有價值的樣本。優先級經驗重放的核心思想是更頻繁地重放非常成功的嘗試或表現極其糟糕的相關樣本。

3.2.1 樣本價值定義標準

需要確定樣本價值的定義標準。大多數強化學習算法使用TD-error更新動作估計，行為值函數Q(s，a|θQ)。TD-error值可以隱式地反映智能體可以從經驗中學習的程度。TD-error絕對值越大，校正期望行為值越積極。高TD-error值樣本具有更高的價值，并且對這些樣本進行更頻繁地回放，將會幫助智能體逐漸意識到在相應狀態中錯誤行為導致的真實結果，從而避免在這種情況下再次犯錯，由此提高整體性能。本文中，選擇樣本的TD-error的絕對值|δj|作為評估樣本價值的標準。樣本J的TD-error|δj|的計算如下所示：

δj=r(si，ai)+

γQ′(si+1，μ′(si+1|θμ′)|θQ′)-Q(si，ai|θQ)

(6)

在選擇高優先級樣本時，為了提高學習穩定性和長期記憶，通過丟棄高度相關數據，保存稀有數據來控制重播緩沖區中的密度分布。降低緩沖區中樣本相關性，提高學習穩定性并保存獨特樣本，提醒智能體在學習過程中經歷的罕見情況并提高其長期記憶能力。

3.2.2 樣本相似度定義

為了獲得更好的方法去移除相似的樣本并保存獨特樣本，這允許智能體學習新的樣本使其不易過度擬合，獨特值vi作為決定是否保存或刪除特定樣本的標準。特定樣本ti和其它樣本tj的相似性定義如下

(7)

緩沖池中樣本總量為N，距離函數G.使用高斯核函數計算兩個任意樣本向量ti和tj的距離

(8)

高斯核函數可以精確地反映兩個樣本的相似度。當緩沖區存儲空間較大時，將以批處理方式刪除樣本，最大限度地減少唯一值計算開銷。隨機丟棄了這些經驗。概率P(reserveti)的計算獨特值做歸一化處理并取倒數

(9)

基于上述方法，從重播緩沖區中采樣高優先級樣本，同時刪除緩沖區中冗余樣本，基于DDPG算法結合這些方法，并在Algorithm 1 中展示綜合的算法，如Algorithm 1：

4 實驗

本文所提出的方法使用TensorFlow[18]編程，并在OpenAI Gym[19]平臺上執行Pendulum任務。考慮的因素分別是收斂性和性能穩定性。任務如圖1，擺錘持續圍繞中心旋轉，并將擺錘設置為對當前的旋轉角度運行狀態給以相應的獎勵。當擺錘垂直時，獲得的獎勵最大，并且在之后的嘗試中，擺錘試圖能夠盡量保持直立。通過上述任務，將比較和評估DDPG算法、帶數據剪枝的DDPG算法(DP-DDPG)、綜合了優先級數據剪枝的DDPG算法(PDP-DDPG)的性能。

圖1 擺錘圖示注:(a)擺錘由任意位置擺動， (b)(c)擺錘保持直立

4.1 實驗設置

在Pendulum實驗環境中，輸入到actor網絡的狀態包括擺錘的角度(如圖2所示)及其相應的角速度。由actor網絡輸出的動作僅具有一個維度，其表示具有邊界限制的馬達的控制扭矩。

圖2 擺錘的角度(th)表示擺錘與目標位置(垂直方向)的角度

獎勵函數定義為

rt=-(pAD+pAV+pIT)

(10)

其中PAD表示擺錘與目標位置當前角度差的懲罰；PAV表示角速度的懲罰。該懲罰針對的是擺錘已到達目標位置(垂直狀態)但仍保持較高的速度，使得鐘擺在之后越過垂直位置；PIT是輸入扭矩的懲罰，使用的扭矩越大，懲罰就越大。

所提出的方法考慮了重播緩沖區的要點，并作了一些修改。重播緩沖區方法步驟描述如下：首先，根據樣本TD-error值的大小，將重播緩沖區中收集的樣本分為三部分，高值，中值，低值部分。隨后，方法主要采用緩沖區中前兩個等級的樣本訓練神經網絡。在所提出的方法框架中，通過相應的TD-error值對經驗池中樣本進行優先級排序。然后，從經驗池中選擇K個TD-error值最大的小批量樣本并送入網絡訓練。至于經驗池的更新，采用數據剪枝方式保證經驗池保持有限容量，并且選擇用于訓練的樣本不斷變化。

4.2 實驗分析

Pendulum任務是一個典型的連續控制問題。實驗中，小批量樣本數量K設置為32，重播緩沖區的容量設置為104，將S設置為102。在200個時間片段中，觀察了在每個時間片段中每種方法的平均獎勵。首先，比較DDPG算法、DP-DDPG算法和PDP-DDPG算法的性能。如圖3所示，PDP-DDPG算法優于DDPG和DP-DDPG算法，收斂得更快，且收斂后更加穩定。比較了DP-DDPG算法和DDPG算法的性能，大約在第100個時間片段時，DP-DDPG算法在DDPG算法之前達到收斂。大約在第40個時間片段時，PDP-DDPG方法獲得了更高的獎勵。

圖3 DDPG， DP-DDPG和PDP-DDPG性能比較。

PDP-DDPG在更短的時間內達到收斂(40 ～ 75 episode)。

之后，由于使用兩種方法消除樣本，因此出現了較大的波動。在每次訓練中，樣本間存在較大差異。當已經接受了前一輪樣本訓練的網絡接受新一輪的樣本繼續訓練，會導致獎勵的波動。在一段訓練后，網絡達到收斂并逐漸趨于穩定。對比了PDP-DDPG算法和DDPG算法性能，清晰地表明了PDP-DDPG算法比DDPG算法更穩定。定義平均獎勵閾值為-2，直到時間片段結束，計算第一次達到-2的方差，每個算法的方差如表1所示，其中PDP-DDPG方差最小。

表1 三種方法的方差和執行時間

根據以上實驗所示，PDP-DDPG方法收斂得更快，更加穩定，與PD-DDPG方法和DDPG方法相比，具有更高的訓練效率。

5 結語

本文提出了一種采樣重播緩沖區中高優先級數據用于訓練，同時刪除緩沖區中高度相關或者相似樣本，保存有價值的數據，替換了傳統DDPG算法中先進先出存儲方式和隨機采樣方式。本方法與原始DDPG算法相比，提高了學習效率，增強了長期記憶能力，縮短了訓練時間，使得學習過程更加穩定。在仿真環境中驗證該方法。與其它傳統方法相比，實驗表明在學習穩定性和長期記憶力等性能上，本方法有顯著提升。此外，所提出的PDP-DDPG方法比起原始的DDPG方法具有更強的魯棒性。

在今后的工作中，試圖對樣本價值的評價標準進行進一步的研究。在今后的工作中，將把所提出的算法應用到更困難的任務中，如Gym TORCS等。