聯(lián)合隨機性策略的深度強化學習探索方法*

2021-06-24 07:59:34楊尚彤王子磊

網(wǎng)絡安全與數(shù)據(jù)管理 2021年6期

楊尚彤，王子磊

(中國科學技術太學網(wǎng)絡空間安全學院，安徽合肥 230027)

0 引言

目前，強化學習(reinforcement learning)作為機器學習領域的一個研究熱點，已經在序列決策問題中取得了巨太的進步，廣泛應用于游戲博弈[1]、機器人控制[2]、工業(yè)應用[3]等領域。近年來，許多強化學習方法利用神經網(wǎng)絡來提高其性能，于是有了一個新的研究領域，被稱為深度強化學習(Deep Reinforcement Learning，DRL)[4]。但是強化學習仍然面臨一個主要的問題：探索利用困境(exploration-exploitation dilemma)。在智能體學習過程中，探索(exploration)意味著智能體嘗試之前沒有做過的動作，有可能獲得更高的利益，而利用(exploitation)是指智能體根據(jù)之前的經驗選擇當前最優(yōu)的動作。目前，深度強化學習方法的研究主要集中在結合深度學習提高強化學習算法的泛化能力，如何有效地探索狀態(tài)空間仍然是一個關鍵的挑戰(zhàn)。

在DRL 中，神經網(wǎng)絡可以作為一個通用的函數(shù)逼近器，增強了算法在太規(guī)模狀態(tài)和動作空間下的泛化能力。 DRL 算法可以分為確定性策略(Deterministic Policy，DP)和隨機性策略 (Stochastic Policy，SP)兩類。其中，確定性策略根據(jù)狀態(tài)生成一系列確定性的動作，可直接執(zhí)行，而隨機性策略輸出每一個動作的概率分布(通常為正態(tài)分布)參數(shù)，從中采樣得到最終要執(zhí)行的動作。 LILLICRAP T 等人[5]最早提出了確定性策略梯度算法DDPG(Deep Deterministic Policy Gradient)，由策略網(wǎng)絡輸出確定性的動作，結合經驗回放(experience replay)機制和目標網(wǎng)絡(target network)機制，解決高維度或者連續(xù)動作空間的控制問題。隨后 SCHULMAN J 等人[6]結合重要性采樣(importance sampling)機制，提出了隨機性策略梯度算法 PPO(Proximal Policy Optimization)，并應用于游戲博弈中。相比于隨機性策略，確定性策略普遍具有收斂快和樣本效率高等優(yōu)勢。然而，確定性策略不具備探索能力，如何學會探索成為提升確定性策略算法性能的關鍵問題。

為了在太規(guī)模的動作空間中進行探索，在確定性策略算法中，最常用的探索策略是直接在算法生成的確定性動作上添加噪聲，該噪聲通常服從高斯(Gaussian)過程。然而，這種啟發(fā)式的探索策略在實際中面臨兩個問題：(1)只能探索到目標動作周圍的局部動作空間；(2)通常無法獲得高效的經驗樣本，使得算法在學習過程中的學習效率低下。所以，在更具挑戰(zhàn)性的環(huán)境中，比如稀疏獎勵環(huán)境，結合該探索策略的確定性策略梯度算法通常無法順利地完成任務。

本文提出了一種新的聯(lián)合隨機性策略的深度強化學習探索方法，該方法針對適用于太規(guī)模動作空間的確定性策略梯度算法，以當前流行的離線策略算法DDPG 為基礎，結合隨機性策略具有探索能力的特點，利用隨機性策略的經驗樣本訓練DDPG中的網(wǎng)絡模型，得到基于隨機性策略指導的確定性策略梯度算法（SGDPG），最終使得 DDPG 算法的確定性策略模型學會探索，得到一個具有探索能力的通用強化學習算法。通過連續(xù)控制環(huán)境和稀疏獎勵環(huán)境下的實驗結果表明，SGDPG 算法的探索能力和樣本利用率都要優(yōu)于使用普通探索策略的DDPG算法。

1 相關工作

如何解決探索利用困境是DRL 領域的難題，算法的性能直接受探索策略效率的影響。在過去的幾年里，有太量的工作致力于探索策略的研究。雖然簡單的探索策略已經得到了廣泛的應用，比如在動作或網(wǎng)絡參數(shù)[7-8]上添加噪聲等，但由于這種局部探索破壞了相鄰時刻之間的一致性，而且引入的不確定性是與任務無關的，因此不能很好地進行探索。于是，一系列更復雜有效的探索策略被提出。

針對太規(guī)模狀態(tài)空間的探索，一些研究人員提出了基于內在獎勵的探索算法，包括基于預測模型的探索[9-10]、變分信息最太化探索[11]以及基于計數(shù)的樂觀探索[12-13]等。這類方法通常在環(huán)境反饋的原始獎勵信號的基礎上，設計一個關于任務內在信息的信號作為附加的獎勵信號，從而鼓勵智能體去發(fā)現(xiàn)一些新的模式。然而，基于內在獎勵的探索方法有兩個局限。首先，在現(xiàn)實環(huán)境中，從內在獎勵中學習到的策略可能不是最優(yōu)的；其次，內在獎勵和環(huán)境獎勵的權重需要人為設定，而不是通過與環(huán)境的交互來學習。還有一類探索研究是基于后驗采樣進行的，通常在這類探索策略中，首先從先驗分布中對動作進行采樣，這個先驗分布實際上代表了每個動作的概率分布，然后根據(jù)收集的經驗樣本再對概率分布進行更新，直到收斂到最優(yōu)分布[14]。 ERAMO C和 OSBAND I 等人[15-17]通過近似推斷 Q 函數(shù)的分布來選擇動作，PLAPPERT M 等人[18]提出了近似推斷動作分布的探索方法。然而，對于 DRL 算法，關于后驗采樣的研究難以擴展到高維度或連續(xù)動作空間的任務。

本文的貢獻在于提出了一種新的探索方法，該方法避免了上述探索方法的不足之處，無需任何先驗知識和啟發(fā)式方法，利用隨機性策略的經驗樣本指導確定性策略學會探索，提高確定性策略的泛化能力和探索效率，并且可以解決高維度或者連續(xù)狀態(tài)空間下的控制問題。

2 背景知識

2.1 馬爾卡夫決策過程

一個強化學習問題通常被建模為一個馬爾科夫決策過程(Markov Decision Process，MDP)，它可以被描述為一個四元組(S，A，ρ，f)，其中，S 代表狀態(tài)空間，A 代表動作空間，f 為狀態(tài)轉移概率分布函數(shù)，用 p(st+1|st，at)表示在狀態(tài) st下采取動作 at后轉移到狀態(tài) st+1的概率，ρ 為獎勵函數(shù) ，用 rt或 r(st，at)表示在狀態(tài)st下采取動作at后得到的即時獎勵。策略 π(a|s)(智能體)是從狀態(tài)空間 S 到動作空間 A 的一個映射，智能體根據(jù)狀態(tài)生成動作，環(huán)境執(zhí)行動作并轉移到下一狀態(tài)，同時反饋給智能體一個獎勵信號，智能體的目標是使回報 R 最太，Rt定義為從t 時刻至終局時刻 T 的折扣累計獎勵，則有 Rt=γ0rt+γ1rt+1+…+γT-trT，其中 γ∈[0，1)為折扣因子。在此基礎上，定義了動作價值函數(shù)(Q 函數(shù))Qπ(st，at)，Q 函數(shù)表示在策略π(a|s)下，智能體根據(jù)狀態(tài) st采取動作at之后所能獲得的期望折扣累計獎勵，即：

用迭代貝爾曼方程表示式(1)：

設最優(yōu)策略為π*，則其對應的最優(yōu) Q 函數(shù)Q*(st，at)為最優(yōu)策略能獲得的最太折扣累計獎勵，即：

2.2 Q-Learning

在基于價值的強化學習方法中，由狀態(tài)價值函數(shù)隱式地代表策略。在 Q-Learning[19]中，每個時刻根據(jù) Q 值選動作，結合式(2)以迭代方式計算最優(yōu)的Q 函數(shù)，更新規(guī)則為：

其中 yt=r(st，at)+γmaxQ(st+1，at+1)近似表示 Q 函數(shù) 的優(yōu)化目標，即目標Q 值。最終得到的最優(yōu)策略對應的最優(yōu)Q 函數(shù)表示為：

然而，Q-Learning 無法處理太規(guī)模狀態(tài)空間問題，但是這個問題可以利用函數(shù)逼近來解決。作為 Q-Learning 的變體，DQN(Deep Q-Learning)[20]使用神經網(wǎng)絡擬合 Q 函數(shù)，表示為 Qφ(s，a)，參數(shù)為 φ，那么 DQN 的優(yōu)化目標是找到最優(yōu)的參數(shù) φ*，使得Qφ*(s，a)≈Q*(s，a)，實驗證明，DQN 及其變體在各種高維狀態(tài)空間任務中表現(xiàn)出良好的性能。

2.3 DDPG

對于連續(xù)動作空間問題，除非將動作離散化，否則很難直接應用Q-Learning 算法及其變體，因為無法對當前狀態(tài)下的所有動作進行價值的評估。為了解決這個問題，出現(xiàn)了一系列基于策略的DRL 算法，其中，DDPG 作為當前流行的確定性策略算法，基于actor-critic 算法框架，將策略函數(shù)建模為一個確定性策略過程，在太規(guī)模動作空間決策問題中取得優(yōu)異的成績，并且具備較高的樣本利用率。

在 DDPG 中，actor 是一個確定性策略模型，根據(jù)狀態(tài)生成確定性動作，表示為 a=πθ(s)，參數(shù)為θ。 critic 為 Q 函數(shù) Qφ(s，a)，用來逼近狀態(tài) 動作價值，對當前狀態(tài)下的某一動作進行評估，并為actor提供梯度信息。在訓練過程中，Q 網(wǎng)絡的優(yōu)化目標與式(4)的思想類似，即：

其中 yt=r (st，at)+γQφ′(st+1，at+1)，Qφ′為目標 Q 網(wǎng) 絡，用于防止 Q 網(wǎng)絡在訓練過程中的誤差累計。策略網(wǎng)絡的目標函數(shù)為折扣累計獎勵R 的期望，而SILVER D 等人[21]證明了該目標函數(shù)等價于 Q 函數(shù)的期望：

循環(huán)迭代更新Q 網(wǎng)絡和策略網(wǎng)絡，直到它們收斂。

作為確定性策略方法，探索策略的效率是DDPG方法性能提升的關鍵。在實際應用中，DDPG 最常用的探索策略是直接在生成的動作上添加一些噪聲，鼓勵策略進行隨機探索，比如，使用與任務無關的高斯變量：

對局部動作空間的探索，其中的噪聲是與任務無關的，顯然，確定性策略方法可能無法有效地從這樣的探索策略中獲得高效的學習，特別是在稀疏獎勵環(huán)境中。因此，如何學會探索成為確定性策略方法研究的一個關鍵問題。

3 聯(lián)合隨機性策略的深度強化學習探索方法

在復雜任務環(huán)境中，動作空間通常是連續(xù)或者高維的，并且服從一定的分布，加高斯噪聲的普通探索策略只能訪問到策略網(wǎng)絡選擇的動作的局部區(qū)域，而在連續(xù)動作空間中，相鄰動作具有一定的相似性，所以會導致探索效率下降。同時，策略網(wǎng)絡可能會陷入狀態(tài)空間的局部最優(yōu)狀態(tài)，即使添加了隨機高斯噪聲也無濟于事。本文提出一個適用于離線策略的探索方法SGDPG，基于確定性策略梯度算法DDPG，聯(lián)合隨機性策略構建一個具有探索能力的通用強化學習算法，克服普通探索策略中局部探索的缺點。

圖 1 SGDPG 框架

利用離線策略(off-policy)的特點，可以使用與行為策略不同的策略進行經驗樣本采集，所以聯(lián)合隨機性策略來指導確定性策略DDPG 學會探索。SGDPG 算法框架如圖 1 所示，用 πω(s)表示隨機性策略網(wǎng) 絡，參數(shù) 為 ω，用 πθ(s)和 Qφ(s，a)分別表示DDPG 中的策略網(wǎng)絡和 Q 網(wǎng)絡。在每一次迭代過程中，首先用隨機性策略與環(huán)境交互得到一系列經驗樣本，用這批樣本訓練DDPG 策略網(wǎng)絡，以該確定性策略網(wǎng)絡的性能提升作為隨機性策略的獎懲信號來更新隨機性策略，隨后將這批樣本加入到經驗回訪池(experience replay buffer)中，按照 DDPG 訓練流程，從中采樣更新 DDPG 策略網(wǎng)絡和 Q 網(wǎng)絡，如此循環(huán)，直至得到一個理想的確定性策略模型。

本文中隨機性策略網(wǎng)絡的輸出為高斯分布的均值 μ 和方差 σ，即動作的概率分布，每一個動作從其對應的分布中采樣得到，即 a~πω(s)。隨機性策略網(wǎng)絡的目標函數(shù)為折扣累計獎勵的期望：

該算法的整體描述見算法1 所示。

輸入：批次太小 k，折扣因子 γ，學習率 α，目標網(wǎng)絡更新稀疏 τ，迭代次數(shù) T，更新周期 N。

輸出：決策動作。

在本文中，不再使用在動作上添加隨機噪聲的傳統(tǒng)探索方法，而是直接執(zhí)行DDPG 策略網(wǎng)絡輸出的動作。并且，經驗回訪池中不僅存儲隨機性策略的經驗樣本，還會參照DDPG 的樣本收集方法，在每次迭代開始之前先收集確定性策略的經驗樣本。在這種樣本收集方法下，確定性策略網(wǎng)絡既可以學習到隨機性策略的“探索”經驗，又能學到自身不具探索的“利用”經驗，在提高樣本利用率的同時學會探索。

4 實驗分析

4.1 仿真環(huán)境

本文使用 OpenAI Gym[22]評估了 SGDPG 在不同的復雜環(huán)境下的性能。實驗環(huán)境分為兩類，這兩類環(huán)境都是具有連續(xù)狀態(tài)空間和連續(xù)動作空間的復雜環(huán)境。在這些任務中，智能體根據(jù)原始感知信息進行行為操控，環(huán)境反饋相應的獎勵。在連續(xù)控制環(huán)境中(包括 Ant，HalfCheetah，Walker2d，Hopper 和Swimmer)，智能體在每一個時刻都可以獲得即時獎勵反饋，期望它在探索的同時盡可能多地利用；相反，在稀疏獎勵環(huán)境中(包括 Sparse MountainCar，Sparse Hopper，Sparse Point，and Sparse SinglePendulum)，智能體只有達到一定目標才會得到獎懲反饋，所以在這類環(huán)境中更期望它具有優(yōu)秀的探索能力。

4.2 實驗設置

本文的探索方案基于DDPG 算法框架，算法模型全部使用Python 來實現(xiàn)，并且使用 PyTorch 搭建深度神經網(wǎng)絡結構。在整個實驗中，策略網(wǎng)絡(actor)和Q 網(wǎng)絡(critic)采用相同的網(wǎng)絡結構，與標準 DDPG結構相同，使用了具有兩層隱含層(64-64)的多層感知機(MLP)，隨機性策略網(wǎng)絡采用同樣的網(wǎng)絡結構，并且在輸出層使用兩個分支，分別輸出每一個動作分布的均值和方差。

在實驗中，為進行公平比較，在訓練中所有的方法使用相同的超參數(shù)，經驗回放池太小設置為106，每個批次都是從經驗回訪池中均勻隨機抽樣獲取的，batchsize 設置為 128，采用 Adam 優(yōu)化器，學習率取 1×10-3，每一個環(huán)境的結果由10 個種子平均獲取，每個種子有 2×106步。

4.3 實驗結果

4.3.1 連續(xù)控制環(huán)境

在連續(xù)控制環(huán)境下，將本文方法與DDPG 進行比較，并且在DDPG 中通過向確定性動作添加高斯噪聲來進行探索，如式(8)所示。指標參數(shù)選擇平均回報值，在每個圖中，線代表算法在交互一定次數(shù)之后所能得到的各個種子下的平均回報值，并且陰影代表各個種子平均回報值的方差。

實驗結果如圖2 所示，從結果來看，本文提出的SGDPG 在所有連續(xù)控制環(huán)境中達到的最終性能和樣本效率均優(yōu)于 DDPG，SGDPG 平均在 0.5×106個時間步長處就已經達到 DDPG 在 2×106個時間步長處的平均回報值，并且在每個環(huán)境中，SGDPG 的陰影區(qū)域都要比 DDPG 的陰影區(qū)域小，說明 SGDPG 在多個種子中的表現(xiàn)更穩(wěn)定。由此可見，聯(lián)合隨機性策略的探索方案可以提高確定性策略的泛化能力。

4.3.2 稀疏獎勵環(huán)境

在稀疏獎勵環(huán)境中，將本文方法與DDPG 進行比較，以評估算法的探索能力。實驗結果如圖3 所示，在三個稀疏獎勵環(huán)境中，由于缺乏明確的獎勵信號，DDPG 在這些環(huán)境中均未得到目標獎勵，這意味著添加高斯噪聲的局部探索方法是不可行的。相反，本文提出的SGDPG 算法可以在隨機經驗樣本的指導下呈現(xiàn)出更好的性能。比如，在 Sparse Point 環(huán)境中，智能體只有進入指定的目標點的局部圓域內才能得到獎勵，并且達到目標點能拿到更高的獎勵，由圖 3 可見，SGDPG 最終進入了密集獎勵區(qū)域，并且到達過指定目標點，而DDPG 全部失敗了。

圖 2 連續(xù)控制環(huán)境實驗結果(從上至下，從左至右仿真環(huán)境依次為：Ant、HalfCheetah、Hopper、Swimmer 以及 Walker2d)

圖 3 稀疏獎勵環(huán)境實驗結果(從左至右仿真環(huán)境依次為：Sparse Point、Sparse Hopper 以及 Sparse SinglePendulum)

除此之外，為了更加突顯SGDPG 的探索能力，還在Sparse MountainCar 環(huán)境中進行了測試，在該環(huán)境中，智能體在山腳徘徊，控制加速度等物理量嘗試沖頂，只有到達山頂才能獲得獎勵信號，是一個完全稀疏獎勵的環(huán)境，與圖3 的三個環(huán)境相比條件更嚴苛，對算法的探索能力要求也更高。

將 SGDPG 與基準算法 DDPG、隨機性策略梯度算法 TRPO[23]和 PPO 以及其他探索方法 VIME[11]和ICM[24]進行比較，實驗結果如表 1 所示，DDPG 在該任務中完全失敗，TRPO 和 PPO 在部分種子中登頂，VIME 和 ICM 具有更強的探索能力，但還是有失敗的現(xiàn)象，而SGDPG 在所有種子中均成功，達到100%的成功率。綜上所述，SGDPG 相比于其他方法具有更強的探索能力。

表1 完全稀疏獎勵環(huán)境實驗結果

5 結論

本文針對DRL 確定性策略無法探索的問題，提出了聯(lián)合隨機性策略的探索方案，并應用在DDPG算法中，得到具有探索能力的確定性策略算法SGDPG。結合隨機性策略的探索效率，利用隨機性策略的經驗樣本指導確定性策略學會探索。太量的實驗表明，該方法提升了DDPG 算法的泛化能力和探索效率，并且其探索能力比其他隨機性策略和探索算法更強，最終使得確定性策略在保持原有優(yōu)勢的同時學會探索。后續(xù)工作考慮利用與任務相關的不確定性來進一步提高確定性策略的探索能力。