模型化強化學習研究綜述*

2020-06-11 01:03:00趙婷婷韓雅杰任德華陳亞瑞

計算機與生活 2020年6期

趙婷婷，孔樂，韓雅杰，任德華，陳亞瑞

天津科技大學人工智能學院，天津300467

1 引言

深度強化學習（deep reinforcement learning，DRL）作為機器學習領域重要研究方向之一，是將深度學習的智能感知能力與強化學習的決策能力相結合，直接通過對高維感知輸入的學習最終實現智能體的自主行為控制[1]，描述的是智能體為實現任務而連續作出決策控制的過程。DRL已經在無人駕駛[2-3]、智能交通系統[4]、機器人系統[5-6]、游戲[7]等領域取得了突破性進展，被認為是最有希望實現通用人工智能這個目標的研究領域之一。

深度強化學習具有一定的自主學習能力[8]，無需給定先驗知識，只需與環境進行不斷交互獲得經驗指數，最終找到適合當前狀態的最優動作選擇策略，取得整個決策過程的最大累積獎賞[9]，基本框架如圖1 所示（因為深度強化學習與強化學習兩者本質相同，本綜述將交替使用深度強化學習與強化學習）。根據智能體所交互環境信息的利用方法，強化學習可分為無模型強化學習（model-free reinforcement learning）和模型化強化學習（model-based reinforcement learning）兩大類[10]。

Fig.1 Framework of reinforcement learning圖1 強化學習基本框架

無模型強化學習方法是智能體通過不斷探索環境，不斷試錯，學習得到最優策略的方法[9]。為了達到預期的學習效果，無模型強化學習方法需要與環境進行大量的交互才能保證智能體的充分學習。無模型方法通常需要大量訓練樣本及訓練時間，例如MuJoCo[11]根據任務的不同需要10 萬以上的學習步數[12]；Deepmind 團隊提出的學習酷跑的策略，需要64個GPU 學習100 h 以上[13]；DeepMind 提出的RainbowDQN 需要1 800 萬幀Atari 游戲界面或大約83 h游戲視頻對模型訓練學習，而人類掌握游戲所用時間遠遠少于此算法[14]。然而，在實際物理場景中，收集充分的學習樣本不僅需要花費大量時間與財力，甚至可能損壞智能系統。故而樣本利用率及學習效率成為無模型強化學習在實際應用中的重要瓶頸問題。

模型化強化學習方法首先需要對環境建模，得到環境模型后，此類方法無需與真實環境交互，可直接利用學得的環境模型生成所需訓練樣本進行策略學習，從而在一定程度上緩解樣本利用率低及學習效率低的問題。另外，如果所學得的環境模型足夠精確，智能體就可根據該模型在其從未訪問過的區域進行策略搜索。然而，學得的環境模型與真實環境間往往存在模型誤差，難以保證算法的最優解漸近收斂[10]。因此，如何獲得精準的環境模型是模型化強化學習領域的研究重點，這也是本文將要探討的主要內容。

2 強化學習背景知識

2.1 馬爾可夫決策過程

強化學習任務通常建模為馬爾可夫決策過程（Markov decision process，MDP）描述(S,A,PT,PI,r,γ)[9]，其中S表示智能體的狀態空間；A表示智能體的可選動作空間，狀態S和動作A均可以是離散空間，也可以是連續空間，這取決于具體應用問題；PT(s′|s,a)表示當前狀態st下執行動作at后，轉移到下一狀態st+1的狀態轉移概率密度函數；PI(s)表示選擇初始狀態s1的概率；r(st,at,st+1)表示當前狀態st執行動作at后轉移到下一狀態st+1的瞬時獎賞；γ(0 ＜γ＜1)表示未來獎賞折扣因子。

如圖2 是MDP 動態過程：首先，某智能體（agent）從初始狀態概率分布p(s1)中隨機選擇狀態s1后，依據當前策略π選擇動作a1，然后智能體根據狀態轉移密度函數p(s2|s1,a1)從狀態s1隨機轉移到s2，獲得此次狀態轉移的瞬時獎賞r(s1,a1,s2)。此過程重復T次，可得到一條路徑，T為時間步長。

Fig.2 Markov decision process圖2 馬爾可夫決策過程

強化學習的目標是找到最優策略π*，從而最大化期望累積回報。

其中，累積期望回報表示為Jπ:=∫p(h)R(h)dh，p(h)=表示路徑的概率密度函數，p(st+1|st,at)表示當前狀態st執行動作at到達下一狀態st+1的概率；累積回報，其中γ是折扣因子，通常0 ＜γ＜1，折扣因子γ決定了回報的時間尺度。

2.2 模型化強化學習和無模型強化學習

根據智能體與環境交互模式的不同，強化學習可分為模型化強化學習與無模型強化學習，二者的區別主要是智能體是否已知或需要計算環境動態模型，即狀態轉移密度函數P(st+1|st,at)[15-16]，如圖3所示。

Fig.3 Two types of reinforcement learning圖3 兩種強化學習模式

無模型強化學習中，智能體直接與真實環境交互獲得數據進行策略學習。此類方法不需要擬合環境模型，也不存在模型誤差，因而實現簡單，應用廣泛；然而無模型強化學習方法學到的策略只針對特定問題，一次只能學習一項具體任務，當任務更換時需重新收集大量樣本進行學習[17]；此外進行策略學習時，智能體需要訓練學習大量樣本才可能取得良好的性能表現，這會降低樣本利用率[17]，造成資源浪費。重復使用樣本（importance sampling）可以提高樣本利用率，但樣本重復使用技術需要提前設定學習樣本的使用方式，若樣本利用不當，會造成學習目標方差大、收斂慢的問題[15]。近年，隨著硬件計算能力的提升，一定程度上弱化了樣本利用率低的問題，但并沒有從根本上解決樣本利用率低的問題。

模型化強化學習方法首先利用智能體與環境交互獲得的數據學習環境模型，然后收集所得模型產生的訓練樣本，最后使用強化學習算法優化動作選擇策略，完成任務。整個過程不涉及提前設計樣本使用模式的問題[18]。此外，相比無模型強化學習中智能體必須與真實環境交互才能得到其他未知狀態值的情況，模型化強化學習中，環境模型一旦擬合，智能體就無需再與真實環境交互，可直接利用學到的模型預測未來狀態，極大提高數據利用率。另外，環境模型通常包含外界環境模型與系統自身模型，如果能夠得到一個精準的環境模型，便意味著智能體得到了一個較好的描述自身系統的模型，當外界環境變化時，系統自身的模型通常是不變的，因此只需要簡單學習，環境模型便可適應新的外部環境，使智能體可以利用學到的模型快速進行推理。因此，模型化強化學習中學得的環境模型易于在不同任務及環境間進行遷移，具有較強的泛化能力[17,19]。

綜上，如果環境模型能被準確建模，模型化強化學習將具有以上所述所有優勢。然而，面對復雜的狀態、動作空間，在有限可用樣本的情況下，準確估計環境模型是極具挑戰的。本文將以如何學習環境模型為核心內容，介紹并分析現有模型化強化學習方法。

3 模型化強化學習方法

Abbeel 等指出在確定性環境下，模型化強化學習無需精確的環境估計模型就可完成任務[20]。然而，實際應用中面臨的環境往往是復雜的、動態的，因而對環境建模得到的狀態轉移模型與真實環境間存在模型誤差，此時使用不準確的環境模型產生的數據進行策略學習還會產生更大的誤差，從而帶來雙模誤差。為減小模型誤差，提高模型準確性，相關研究提出了很多解決辦法，如Dyna模型化強化學習框架[21]、學習控制的概率推理方法[22]、基于最小二乘條件密度估計方法的模型化策略搜索算法[15]、嵌入控制方法[23]、基于神經網絡動力學和無模型微調的模型化深度強化學習方法[24]、世界模型[25]等。本章將圍繞上述相關研究進行討論，分別從它們的主要思想、具體流程、方法優缺點進行詳細綜述。

3.1 Dyna 算法框架

Dyna 算法框架是將模型化強化學習和無模型強化學習結合，既從模型中學習，也從與環境交互的經歷中學習，從而更新價值函數或策略函數的一類方法[21]。Dyna 算法框架并不是一個具體的強化學習算法，而是一類算法框架。

在Dyna 算法框架中，訓練是在兩個步驟之間迭代進行的：首先，使用當前策略，從與環境的交互中收集數據；然后，利用收集到的數據學習動態模型；其次，用所學的環境動態模型生成數據；最后，使用生成數據對策略進行更新。具體實現流程如算法1 所示。

算法1Dyna算法

輸入：隨機決策行為數據。

輸出：算法得到的策略以及相應的獎勵函數、狀態轉移模型。

步驟1初始化價值函數或策略函數，獎勵模型r(st,at,st+1)和狀態轉移模型P(st+1|st,at)；

步驟2依據當前策略選擇動作a，更新價值函數或策略函數，更新狀態轉移模型P(st+1|st,at)和獎勵模型r(st,at,st+1)；

步驟2.1隨機選擇狀態s和動作a，并依據狀態轉移模型P(st+1|st,at) 得到st+1，基于模型r(st,at,st+1)得到瞬時獎勵r；

步驟2.2更新價值函數或策略函數。

算法1 中步驟2 可使用經典Q-Learning 系列的價值函數[26]、基于Actor-Critic 的策略函數[27]進行策略選擇。基于Dyna 框架的模型化強化學習方法是該領域的主流方法，具體算法包括經典的學習控制的概率推理方法[22]及基于最小二乘條件密度估計方法的模型化策略參數探索方法[15]，下面詳細介紹這兩個算法。

3.1.1 學習控制的概率推理方法

模型化強化學習最大的問題是對環境建模時會產生模型誤差。業界就如何減小模型誤差，提高模型準確性展開了大量研究。學習控制的概率推理方法（probabilistic inference for learning control，PILCO）是該領域最經典的方法之一[15,28]，其主要思想是將環境中的狀態轉移模型建模為高斯過程（Gaussian process，GP）[29]，即以狀態-動作對作為輸入，輸出是關于下一狀態的概率分布。基于GP 的狀態轉移概率模型不僅可以捕捉到狀態轉移的不確定性，還將模型不確定性集成到了長期規劃和決策中[30]。PILCO算法的具體流程如算法2 所示。

算法2PILCO 算法

輸入：隨機決策行為數據。

輸出：算法得到的策略以及相應狀態轉移模型。

步驟1隨機收集樣本數據并初始化策略參數ρ；

步驟2使用收集的樣本，通過無參數的GP 學習狀態轉移模型；

步驟3使用當前策略π與上述模型交互，通過確定性近似推理評估累積期望回報J(ρ)；

步驟4基于解析梯度的策略提升；

步驟5更新策略π，π*←π(ρ*)。

在隨機收集樣本后，通過無參數的GP 表示環境動態模型：

其中，st、at分別表示t時刻的狀態和動作，μt+1=st+Ef[Δt]為均值，Σt=varf[Δt]為方差。

隨后基于學到的環境動態模型將模型偏差納入策略評估中，通過確定性近似推理評估累積期望回報J(ρ)：

其中，c(xt)表示人為指定的獎勵函數，T表示路徑長度。

最后通過可解析的策略梯度進行策略搜索并更新提升策略參數ρ。

PILCO 算法在機器人控制等復雜的實際問題中得到了廣泛的應用[30]，也有相關研究針對PILCO 存在的問題提出了改進算法，如可實現多任務策略搜索的PILCO 算法[31]，以及面對復雜的高維度狀態空間的深度PILCO 算法[32]。上述基于PILCO 的改進算法在不同方面改進了其性能，但此類方法假設條件狀態轉移概率密度函數為高斯分布，狀態-動作聯合概率密度函數為高斯分布，且獎賞函數須為指定的指數形式以保證策略估計及策略梯度能夠解析地計算，這極大程度地限制了PILCO 算法在實際問題中的應用。

3.1.2 基于最小二乘條件密度估計方法的模型化策略搜索算法

針對PILCO 算法存在的根本問題，Tangkaratt 等提出了基于最小二乘條件密度估計的模型化策略搜索算法（model-based policy gradients with parameterbased exploration by least-squares conditional density estimation，Mb-PGPE-LSCDE）[15]。該算法首先使用最小二乘條件密度估計方法（least-squares conditional density estimation，LSCDE）[18]學習狀態轉移模型，再利用基于參數探索的策略梯度算法（policy gradient with parameter-based exploration，PGPE）[33]進行策略學習。學習流程如算法3 所示。

算法3基于最小二乘條件密度估計的模型化策略搜索算法

輸入：隨機決策行為數據。

輸出：算法得到的策略以及相應狀態轉移模型。

步驟1智能體與環境交互，隨機收集轉移樣本；

步驟2利用收集的樣本對環境建模得到狀態轉移模型；

步驟3初始化當前策略π和策略參數ρ；

步驟4將學到的狀態轉移模型和當前策略交替使用，生成足夠的樣本序列。

智能體首先與環境交互進行隨機采樣，并使用采樣得到的樣本，通過LSCDE 方法對環境建模得到：

其中，φ(st,at,st+1)是基向量，α是M維參數向量，最小化下列平方誤差就可得到最優參數α。

在得到穩定狀態轉移模型后，將該模型與當前策略交替使用生成足夠的樣本序列，并使用PGPE 方法進行策略搜索，更新策略參數：

式中，ε＞0 表示學習率，J(ρ)表示含參累積期望回報。

LSCDE 是一種非參擬合方法，相對比基于GP 的模型化方法，其最大的優勢在于能擬合任意條件概率密度函數。此外，利用LSCDE 算法學到的狀態轉移模型易于生成樣本；能夠直接處理多維度的輸入-輸出問題[15]；對異常值很魯棒；可以通過求解線性方程得到解析解；能夠以非參最優速率收斂到真實條件概率密度函數[18]。基于LSCDE 的模型化策略搜索方法在采樣預算有限的情況下具有很好的性能，極大提高了樣本利用率，但難以處理高維度問題。

3.2 基于神經網絡動力學和無模型微調的模型化深度強化學習方法

目前，神經網絡已在眾領域取得巨大成功[34]，與此同時研究者也在探索利用神經網絡解決模型化強化學習中復雜、高維任務的方法[19]。其中，Nagabandi等人提出基于神經網絡動力學和無模型微調的模型化深度強化學習方法（neural network dynamics for model-based deep reinforcement learning with modelfree fine-tuning，MBMF）[24]，該算法只需收集機器人與環境幾分鐘的交互數據就可找到最優策略，完成任務。

MBMF 方法將神經網絡和模型預測控制方法（model predictive control，MPC）[35]結合，利用神經網絡捕捉學習有效步態的動力學模型，所得模型可用于不同的軌跡跟蹤任務，還可以用所得模型生成樣本初始化智能體，使用無模型強化學習對初始步態微調，獲得高任務獎勵。

算法4MBMF 方法

輸入：隨機決策行為數據。

輸出：算法得到的策略以及神經網絡動力學模型。

步驟1建立神經網絡動力學模型f，擬合狀態變化與當前狀態和動作的非線性關系；

步驟2使用梯度下降方法更新模型f；

步驟3定義模型化的控制器（controller）預測動作序列A(H)；

步驟4選擇對應于最高累積獎賞的序列A*，執行動作序列中的第一個動作；

步驟5重復步驟3、步驟4 直到序列最終狀態，并更新神經網絡動力學模型（步驟2）。

算法4 表示的是僅使用模型化強化學習方法（model-based，MB）的學習過程。具體過程如下：

首先，建立神經網絡動力學模型（狀態轉移模型）：

其中，st、at分別為t時刻智能體的狀態和采取的動作，st+1表示t+1 時刻智能體狀態，fθ(st,at)表示參數為θ的神經網絡動力學模型，用于捕捉在執行某動作a的相鄰狀態間的變化。

其次，更新模型參數θ，損失函數為：

然后，使用任務獎賞函數和習得的動力學模型建立的模型化的控制器預測動作序列A(H)：其中，每個時間步t均隨機生成K個動作候選序列,H為序列長度。

盡管強化學習中模型化方法比無模型方法學習特定任務的策略時更具樣本效率和靈活性，但若存在模型偏差，其性能通常比無模型強化學習方法差。因此文章結合兩者優勢，又提出了一種簡單且高效的MBMF 方法[24]。具體地，首先使用上述模型化方法中的控制器生成樣本序列作為“專家知識”初始化無模型強化學習方法的策略參數，然后使用無模型方法——信任區域策略優化（trust region policy optimization，TRPO）[36]方法微調策略參數進行策略搜索。

3.3 嵌入控制方法

嵌入控制方法（embed to control:a locally linear latent dynamics model for control from raw images，E2C）是一種面向高維圖像流的隨機最優控制（stochastic optimal control，SOC）系統[23]。為解決原始圖像作為輸入帶來的維度過高問題，E2C 方法將高維非線性系統的最優控制問題轉化為低維隱空間中的局部線性問題，使得最優控制能夠快速、簡便地進行。

如圖4 所示[23]，E2C 模型將高維、非線性的原始像素圖像st作為系統輸入，經變分自編碼器（variational autoencoder，VAE）[37]的編碼器（encoder）部分，將系統輸入映射到低維隱空間中，隨后在隱空間中將動態環境約束為局部線性模型，并計算KL 散度（Kullback-Leibler divergence）[38]進行模型更新。在模型穩定收斂后，E2C 模型可直接根據當前狀態st和動作at，預測下一狀態st+1。

Fig.4 Information flow in E2C model圖4 E2C 方法信息流

算法5E2C 方法

輸入：隨機決策行為數據。

輸出：算法得到的策略以及相應狀態轉移模型。

步驟1利用VAE 將收集到的當前狀態st映射到隱空間，得到隱狀態zt；

步驟2在當前隱空間根據隱狀態zt建立線性狀態轉移模型htrans；

步驟3對所得狀態轉移模型htrans更新訓練，直至收斂；

步驟4將SOC 和狀態轉移模型htrans聯合使用，獲得最優控制。

算法5 為E2C 模型化強化學習方法具體流程。由于原始圖像是高維的，很難直接處理，因此文章提出首先通過變分自編碼器將高維圖像輸入數據st映射為低維隱空間中的zt：

其中，zt是st的低維隱表征，m是高維圖像st到低維向量zt的映射函數，ω為系統噪聲。

為得到局部線性模型的概率生成模型，此方法直接在隱表征z中令潛在表征線性化：

其中：

其中，htrans(zt)表示參數是ψ輸入是zt的三層神經網絡，vec表示向量化，WA、WB、Wo表示權重矩陣，bA、bB、bo表示偏差矩陣。

隨后訓練更新模型：利用得到的隱空間狀態轉移模型htrans和當前隱狀態zt以及當前動作at預測隱空間中的下一狀態；并使用上述VAE 對下一狀態st+1編碼得到zt+1，求與zt+1′間的KL 散度，微調線性狀態轉移模型htrans。

在模型穩定收斂后，將SOC 和狀態轉移模型htrans聯合使用，獲得最優控制。

E2C 方法不僅支持圖像序列的長期預測，而且在解決復雜控制的相關任務有很大優勢。與E2C 方法思想相比，Assael 所提出的基于深度動態卷積網絡的策略學習方法[39]同樣使用VAE 從圖像中提取控制的隱空間表示，并在此基礎上學習非線性模型。不同的是后者使用PCA（principal components analysis）進行預處理[40]，然而預處理后的數據在隱空間中不能保證長期預測不發散，也不能保證數據的線性，最終實驗結果并不理想。

然而當系統動力學中存在噪聲時，用于嵌入的編碼器通常具有較大的近似誤差，魯棒的局部線性可控嵌入方法（robust locally-linear controllable embedding，RCE）[41]提出嵌入后驗的變分近似方法，最終使得RCE 方法性能優于E2C 模型。

3.4 世界模型

世界模型（world models）是為通用強化學習環境所構建的神經網絡生成模型，它可以在無監督的情況下快速學習到低維隱空間下的環境狀態表示，甚至能夠將智能體在學得的世界模型中訓練，并將其策略遷移至真實環境[25]。世界模型框架如圖5所示[25]，模型包含三個主要部分：將原始觀測圖像映射到低維隱空間中的視覺組件（V）；用于在低維潛在空間對未來狀態的預測的記憶組件部分（M）；基于視覺組件和記憶組件的輸出決定智能體所采取動作的控制組件（C）。

Fig.5 Flow diagram of world models圖5 世界模型數據流

t時刻，智能體首先與真實環境交互觀測得到高維原始圖像，在V 部分利用VAE 得到原始圖像的潛在編碼zt，因此此部分的主要任務是狀態的抽象、低維表示。隨后在M 部分根據當前狀態的潛在編碼zt和采取動作at，使用基于混合密度網絡的遞歸型神經網絡（mixture density network combined with a recurrent neural networks，MDN-RNN）[42]預測下一狀態的潛在編碼zt+1，其中RNN（recurrent neural networks）[43]學習潛在空間的狀態轉移概率密度函數p(zt+1|at,zt,ht)，ht表示RNN 的隱藏狀態。在智能體與環境的交互過程中，C 部分實現當前狀態的潛在編碼zt和系統自身的隱藏狀態ht到動作的映射：

其中，Wc和bc分別表示權重矩陣和偏差向量。

算法6 的訓練過程中，將大規模神經網絡置于V部分和M 部分，利用無監督的學習方式分開訓練學習智能體的環境模型；將C 模型設計為一個小型神經網絡，使用協方差矩陣自適應進化策略（covariance matrix adaptation evolution strategy，CMA-ES）最大化累積獎勵，對控制器進行優化[44]。

算法6世界模型方法

輸入：隨機決策行為數據。

輸出：算法得到的策略以及狀態轉移模型。

步驟1隨機收集數據；

步驟2訓練VAE(V)部分，將原始輸入映射到維度較小的隱空間中；

步驟3訓練MDN-RNN（M）部分，得到轉移模型P(zt+1|at,zt,ht)；

步驟4訓練C選取下一步的行動，at=Wc[zt,ht]+bc；

步驟5使用協方差自適應調整的進化策略（CMAES）最大化獎賞，更新參數Wc、bc。

世界模型摒棄了傳統深度強化學習的端到端的學習方式，采用對各個組件分開訓練的模式進行學習，從而極大地加快學習速率。它針對不同任務能夠取得較好結果，且易于復現，方法整體性能穩定。但使用VAE 作為V 模型壓縮空間維度并將其訓練為獨立模型有其局限性，這是由于編碼器可能編碼與任務無關的部分觀測結果。另外，受限于硬件存儲能力，難以存儲所有數據信息，會產生諸如災難性遺忘之類的問題。

4 總結及展望

深度強化學習通過端到端的學習方式實現從輸入到輸出的直接控制，使強化學習能夠擴展到以前難以處理的具有高維狀態和動作空間的決策問題。它為整個社會實現真正智能化提供了有力的技術支撐，在機器人控制、游戲、自然語言處理、自動駕駛等領域取得了令人矚目的成就，成為當前備受關注的研究領域。深度強化學習的成功依賴于大量的數據樣本、計算資源及良好的學習算法，而獲得大量的學習樣本恰恰是DRL 在實際應用中的瓶頸問題。鑒于模型化強化學習在樣本利用率方面的優勢，本文對其展開了詳細的綜述、分析及展望。

對模型化強化學習而言，其核心的問題是如何提高環境模型預測的準確率。近年，生成模型，如變分自編碼器[37]及對抗生成網絡[45]，在數據生成方面取得了令人矚目的成果，如何將成熟的概率生成模型更好地應用到模型化強化學習領域，進行精準的環境狀態轉移的預測是重要的研究方向。深度強化學習往往面對的是高維度、復雜的狀態空間，針對此應用場景，樣本利用率及維度災難問題是該領域在實際中的瓶頸問題[15]。因此，如何在高維狀態空間的低維表示空間預測狀態轉移模型是模型化強化學習能在實際中得以廣泛應用的重要探索方向[25]。此外，現有深度強化學習方法面對給定的任務可以在訓練環境中表現極好，但是往往不能泛化至環境中看似微小的變化，因此如何學習能夠自適應的環境模型是模型化強化學習在實現通用人工智能過程中的重要課題。影響狀態轉移的因素包括智能體對于自身行動所引發的環境變化的內部隱狀態的變化及外部環境的變化，智能體在學習環境的狀態轉移函數時，應該同時學習自身系統的內部隱狀態變化[25]，從而在面對新環境時，能更快、更有效地將所學的環境模型適應到新的環境中。

模型化強化學習算法和無模型強化學習算法各有優缺點，將兩種算法聯合使用可以綜合兩者的優點，這將成為未來深度強化學習發展的熱點，從而讓深度強化學習算法更實用。未來工作的一個重要方向是將模型化方法和無模型方法更緊密、更高效地集成在一起，以便進一步提高樣本效率，學習最優策略。另外，模型化強化學習與控制理論聯系緊密，未來二者可互相借鑒成果，互相促進共同發展。