元強化學習綜述

2023-01-01 00:00:00趙春宇賴俊

計算機應用研究 2023年1期

摘要：強化學習在游戲對弈、系統控制等領域內表現出良好的性能，如何使用少量樣本快速學習新任務是強化學習中亟需解決的問題。目前有效的解決方法是將元學習應用在強化學習中，由此所產生的元強化學習日益成為強化學習領域中的研究熱點。為了幫助后續研究人員快速并全面了解元強化學習領域，根據近年來的元強化學習文獻對研究方法進行梳理，將其歸納成基于循環網絡的元強化學習、基于上下文的元強化學習、基于梯度的元強化學習、基于分層的元強化學習和離線元強化學習，對五種類型的研究方法進行對比分析，簡要闡述了元強化學習的基本理論和面臨的挑戰，最后基于當前研究現狀討論了元強化學習的未來發展前景。

關鍵詞：元強化學習；強化學習；元學習

中圖分類號：TP181文獻標志碼：A

文章編號：1001-3695（2023）01-001-0001-10

doi：10.19734/j.issn.10013695.2022.06.0295

Survey on meta reinforcement learning

Zhao Chunyu，Lai Jun

（College of Command amp; Control Engineering，Army Engineering University of PLA，Nanjing 210007，China）

Abstract：Although reinforcement learning shows good performance in game playing，system control and other fields，how to use a small number of samples to learn new tasks quickly is an urgent problem to be solved in reinforcement learning.At present，applying meta learning to reinforcement learning has been one of the most effective solutions，and the generated meta reinforcement learning has increasingly become a research hotspot in the field of reinforcement learning.To help researchers understand the field of meta reinforcement learning quickly，this paper sorted out the algorithms according to the literatures of meta reinforcement learning in recent years，summarized them into CNNbased metaRL，contextbased metaRL，gradientbased metaRL，hierarchicalbased metaRL and offline metaRL and compared five types of algorithms.In addition，it briefly described the basic theories and challenges of meta reinforcement learning.Finally，this paper also discussed the future development of meta reinforcement learning based on the current research status.

Key words：meta reinforcement learning；reinforcement learning； meta learning

強化學習（reinforcement learning，RL）［1］是人工智能領域中一類特定的機器學習問題，具體是指智能體在和環境的交互過程中進行學習，找到最優策略以實現累積獎勵最大化。隨著深度學習（deep learning，DL）［2］技術的發展，深度強化學習（deep reinforcement learning，DRL）［3］將強化學習和深度學習融合，極大地促進了強化學習的進一步發展。近年來，深度強化學習在游戲對弈、系統控制、導航系統、推薦系統等領域取得了可觀的進展而且成功解決了領域內各種復雜任務，但是傳統深度強化學習存在樣本復雜度高、樣本利用率低、訓練時間長、每次在解決新任務時都是從零開始學習、任務或者環境的變化會導致訓練好的模型失效、模型泛化能力差等局限性［4］。

為解決深度強化學習目前存在的問題，研究人員在深度強化學習中引入元學習［5～7］，提出元強化學習算法（meta reinforcement learning，Meta RL），從一組相關任務中學習有用的元知識，智能體獲得學會學習的能力從而提高在新任務上的學習速度，降低樣本復雜度。近年來，元強化學習領域產生了大量的研究成果，解決了高動態決策任務以及小樣本學習中的一系列關鍵性問題［8］。

1元強化學習基本理論

1.1強化學習

給定一個馬爾可夫決策過程（Markov decision process，MDP），以元組〈S，A，P，R，γ〉表示，其中，S表示狀態空間，A表示動作空間，P：S×A×S→［0，1］表示狀態轉移概率，R：S×A×S→Euclid Math TwoRAp表示回報函數，γ∈［0，1］表示折扣因子。在強化學習中，智能體觀察環境并根據觀測情況在狀態st選擇動作at，在執行動作后以一定的概率P到達下一狀態st+1并獲得獎勵r，根據所得反饋對行為策略π進行調整［9］。強化學習關注連續行動所獲得的累積獎勵，以學習最優策略來最大化未來累積獎勵為目標。由于整體獎勵的估計值具有不確定性，使用折扣因子γ對其估計，則t時刻的預期累積獎勵可表述為

R（t）=E［rt+1+γrt+2+γ2rt+3+…］=E［∑∞k=0γkrt+k+1］（1）

1.2深度強化學習

傳統強化學習中存在學習速度慢、難以適用于高維空間以及泛化性差等諸多問題，因此，深度強化學習利用深度神經網絡作為函數逼近器對值函數和策略進行近似來解決上述問題。深度強化學習主要分為三類［10］：a）基于值函數的深度強化學習方法使用深度神經網絡對值函數進行逼近，其代表算法為DQN［11］、nature DQN［12］、double DQN［13］等；b）基于策略的深度強化學習算法使用深度神經網絡擬合策略函數，其代表算法為DDPG［14］、TRPO［15］、A3C［16］以及PPO［17］等；c）基于搜索與監督的深度強化學習。

目前深度強化學習算法在各種任務上表現出優越的性能，但是其時間成本和數據成本極高，其不足主要表現在：a）樣本效率低，深度強化學習算法要求大量數據樣本作為訓練支撐，而且樣本數據往往表現出樣本復雜度高的特性，例如，Atari［18］游戲中智能體需要83 h才能達到人類水平，MuJoCo［19］基準測試中通常需要10～1 000萬的學習步驟才能完成學習，DeepMind［20］的跑酷機器人需要6 400 h的訓練時間； b）泛化能力不足，深度強化學習算法利用網絡不斷擬合僅保證了該算法在訓練環境中的性能，但是其面臨新任務時都必須要從頭開始學習，即使可以進行參數的微調也很難解決新任務，除此之外，屢次從頭學習從零訓練更是耗費了大量不必要的時間和數據成本；c）弱歸納偏置，深度強化學習受神經網絡結構本身限制，表現出弱歸納偏置性，而且神經網絡中有大量的參數待估計，極大提高了訓練成本。

1.3元學習

元學習［5～7］，即學習如何學習（learn to learn），旨在借助先前的經驗知識來學習如何學習，利用學習所得的先前經驗提高未來的學習表現，使其在未來學習中減少樣本數量的需求[21]。其中，在自適應過程中習得的先前經驗稱為元知識，元知識在未來學習過程中提供指導。元學習的目標是在學習任務數據集上訓練一個模型，使模型避免在面臨新任務或新環境時從零開始，可以僅需少量數據快速適應新任務。目前元學習已經在強化學習、小樣本學習、無監督學習等領域中取得可觀成效，有效提高了樣本效率和計算效率[22]。

2元強化學習

目前大量研究工作都圍繞著降低時間和數據成本，使用少量數據在短時間內適應新環境或解決新任務來展開。在實際問題中，許多任務具有相似的內部結構，若智能體可以對任務的相似信息進行總結，在面臨新任務時通過利用先前經驗識別出新任務的相似結構并將其解決，可大大減少訓練時間和數據量，有效避免強化學習面臨的新任務從頭學習、重新訓練的弊端，也在一定程度上緩解了深度強化學習存在的問題。

目前研究方法均以智能體達到或者超過人類水平為目標。人類本身具有一定的學習能力，可以學會解決問題的技能，在面對新任務時可以參考過往積累的經驗和知識，使用學到的技能迅速解決新任務。為此，研究人員考慮給智能體賦予一個“大腦”，令其能夠像人類一樣解決未知任務，模擬生物大腦中的學習。研究人員受此啟發，將元學習應用于強化學習中，將元學習學會如何學習的能力和強化學習結合，在學習過程中學習強化學習算法，提出了元強化學習［23］，從先前任務中提前預存有用的共享經驗和知識來指導后續學習，進一步增強泛化能力和學習效率，達到使用少量樣本快速解決新任務的目標。

傳統強化學習算法專注于學習某個任務，而元強化學習算法關注學習本身，即學習如何利用之前在相關任務上積累的經驗快速學習新任務。在元強化學習中，智能體在一組相關任務中通過反復適應訓練任務來學習適應策略，以期將學到的適應過程推廣到新任務中，快速適應新環境或者新任務，換言之，它可以利用先前學到的任務之間的共享知識學習相關任務的通用學習規則。元強化學習基本框架如圖1所示，分為內外兩個循環。在內循環階段，智能體利用外循環所提供的元知識進行強化學習，對元知識質量進行評估后反饋給外循環；在外循環階段，從相關任務中學習元知識，根據來自內循環的反饋對元知識進行調整。外循環使用從相關任務中積累的元知識對內循環進行指導，使內循環可以快速調整以適應新任務

元強化學習解決一個相關任務分布，即一系列問題核心結構相同且任務目標一致的任務。給定一個任務分布p（T），對應一組馬爾可夫決策過程（MDPs），每個任務Ti對應一個馬爾可夫決策過程（MDP）并以元組〈ρ0（s0），ρ（st+1|st，at），r（st，at）〉表示，其中ρ0（s0）表示初始狀態分布，ρ（st+1|st，at）表示轉移概率，r（st，at）表示獎勵函數。智能體在訓練任務集中訓練并且積累元知識，在測試任務集中進行測試，以實現期望累計獎勵最大化為目標，若使用H表示每回合的長度，則優化目標表述為

R=arg max E［∑Ti～p（T）∑Ht=1γt-1r（st，at）］（2）

3元強化學習的關鍵問題及挑戰

元強化學習在強化學習的基礎上結合元學習，在一定程度上提高了適應能力和學習速度，其性能相比于強化學習有了很大提升，但是隨之也產生了新的挑戰和問題。

a）元知識質量無法保證。元強化學習的關鍵問題在于如何合理利用先前經驗中的知識，以生成可以幫助智能體快速適應的元知識，提高智能體學習速率和泛化能力。當前元知識多以相關任務先前經驗、相關任務的共性知識、參數的初始化條件設置等形式表示，然而元知識的合理性以及表現形式仍然有待討論，即元知識是否能夠精準地代表從訓練任務中學到的歸納偏置信息，歸納偏置信息是否有效且最優。元知識若偏離訓練任務，則會造成時間成本的提高；若過于契合訓練任務，則會造成過擬合現象，影響泛化能力。不僅如此，元知識還受數據噪聲影響，存在魯棒性差的問題。

b）計算復雜度高［24］。由于部分算法中使用了二階梯度和復雜網絡結構，加重了強化學習中計算復雜度高和算法復雜性強的問題，而且元強化學習本身的內外循環結構同樣也造成了昂貴計算成本［22］，所以降低計算復雜度和優化內循環流程也是目前元強化學習的一個關鍵挑戰。

c）探索能力有限。開發探索能力以提高算法性能是強化學習中的一個關鍵研究問題，目前元強化學習方法普遍存在探索能力有限、缺少合理的推斷任務不確定性的機制、難以獲取結構化策略等問題，無法實現全局探索和結構化探索，有限的探索能力導致元強化學習的泛化性有限，這使得開發有效的探索策略成為目前需要解決的挑戰之一。

d）評估標準不成熟［24］。現有元強化學習基準中的訓練集和測試集中的任務相似度過高，不足以對元強化學習的性能進行評價。影響元強化學習性能的因素較多，參數設置、探索策略、參數優化方法、元知識形式等都會影響其性能，現階段沒有成熟的評估標準，無法嚴謹地對研究方法的性能進行度量。

e）泛化能力低。元強化學習過于依賴特定的環境條件，使得難以進行廣泛推廣，嚴格的預設條件和現實環境的復雜場景導致了實用性差、落地難問題，而且稀疏獎勵環境同樣也會致使算法不能很好地適應。除此之外，不合適的元知識也會造成過擬合的問題，絕大多數算法嚴重依賴同策經驗，限制了樣本效率。

4元強化學習研究方法

為解決上述挑戰，近年來研究人員從不同角度對元強化學習展開研究，隨之產生了大量元強化學習算法文獻。對現有元強化學習算法進行總結歸納，按照元學習方式將其大致分為基于循環網絡的元強化學習、基于上下文的元強化學習、基于梯度的元強化學習、基于分層的元強化學習和離線元強化學習，并闡述各種研究成果的優缺點，對比各類算法的優勢和局限性。

4.1基于循環網絡的元強化學習

基于循環神經網絡（recurrent neural network，RNN）的元強化學習算法利用RNN學習元知識，學習到的先前經驗以網絡參數的形式表示并存儲在網絡上，訓練好的網絡模型可以借助網絡存儲的知識快速適應新任務。以RNN為元學習器的模型預測動作時，除了要輸入當前觀察結果，還要將先前時間步的獎勵和動作等歷史信息作為輔助輸入。RNN結構使智能體得以學習到歷史相關策略，在與環境交互中保留歷史記憶，因此在面臨新任務或者新環境時，基于循環神經網絡的元強化學習算法借助RNN存儲的歷史經驗記憶來提取元知識，通過合理利用先前經驗中的知識迅速適應并優化策略，提高學習和適應速率，在一定程度上解決了元知識質量低和適應速度慢的問題。基于RNN的元強化學習算法對比匯總如表1所示。

Wang等人［25］將RNN拓展到強化學習中，提出深度元強化學習（deep metareinforcement learning）算法，該算法在一組相關任務中采用A2C/A3C［16］訓練LSTM［26］，且在RNN輸入時附加歷史信息（前一時間步的動作和獎勵），訓練得到的網絡權重使網絡具有快速適應不同任務的能力，以此指導智能體解決新任務；同時他們還提出元強化學習算法模擬大腦中的學習過程［27］，即多巴胺驅動的突觸可塑性的外環作用于內環，以前額葉皮層（PFC）為中心的循環網絡實現內環學習。Duan等人［28］將智能體的學習過程作為學習目標，提出一種稱為RL2的元強化學習算法，對RNN的權重進行編碼，RNN接收歷史信息同時保留各片段間隱藏狀態，使智能體能夠在隱藏狀態中學習，還使用了TRPO［15］優化策略，提高了算法性能，使其擴展到高維狀態空間。為了提升RL2的探索能力，Stadie等人［29］對RL2進一步優化提出ERL2元強化學習算法，在探索階段和利用階段中同時采樣，前者所得獎勵用于梯度更新，后者所得獎勵設為0使RNN考慮抽樣分布對最終獎勵的影響，得到了更大的未來累計回報。Clavera等人［30］將基于模型的強化學習算法和元學習結合，提出學習在線適應的元學習方法，其主要思想是提前訓練一個模型，優化模型參數并學習更新規則，使該模型具有使用少量樣本適應新任務的能力，然后進一步與模型預測控制（MPC）［31］相結合，根據最新經驗和更新規則實時調整模型，該方法最終可得到一個在線快速適應的全局模型，足以應對未知情形和意外擾動。Clavera等人［30］將其拓展至RNN模型，提出RBAC（recurrencebased adaptive control），以LSTM為模型實現在線自適應，學習更新規則。另外，Santoro等人［32］利用外部存儲模塊記憶可用信息，提出了帶有記憶增強網絡（memoryaugmented neural network，MANN）的元學習算法，為元學習的研究提供了啟發式模型。Andrychowicz等人［33］借助LSTM網絡結構將優化算法轉換為學習問題，以LSTMOptimizer代替SGD、Adam等傳統優化器，用網絡學到的更新規則取代人工設計的更新規則，使之靈活地拓展到相關任務中。與LSTMOptimizer類似，Ravi等人［34］提出基于LSTM的元學習器模型，將任務內短期知識和跨任務長期知識整合共享元知識，使用LSTM元學習器控制參數的初始化和參數更新進行學習，該方法優于自然基線且在小樣本學習中極具競爭力。

4.2基于上下文的元強化學習

基于上下文的元強化學習使用上下文（context）來估計隱藏的任務嵌入實現快速適應。上下文在文獻［36］中已經被證明是一個性能優越的結構，基礎的強化學習算法（如TD3［37］）與上下文相結合后性能可以達到最先進的元強化學習算法的水平。為解決元知識質量和泛化能力低的問題，上下文作為一種從先前經驗中獲得的元知識，提供相關任務的特征信息，通過將經驗聚合成隱藏表征實現快速適應，合理利用了先前經驗并提高了學習速度和泛化能力。除此之外，為解決探索能力有限的問題，該類元強化學習方法在應用上下文的基礎上還通過解耦探索和利用、改進探索目標等方法，實現了對探索策略的優化。基于上下文的元強化學習算法［38～55］對比匯總如表2所示。

4.2.1隱式超參數

該類方法中，上下文由過去的經驗聚合而成，以策略隱藏狀態的形式提供任務的特征信息。Mishra等人［38］結合時序卷積（temporal convolution）和軟注意力機制［39］（soft attention）提出了簡單神經注意力學習器（simple neural attentive learning，SNAIL）。使用時序卷積將過去的經驗聚合成上下文，通過軟注意力機制在上下文中查詢并選擇特定信息。其中，SNAIL的基礎結構由時序卷積層和因果注意層相結合，上下文使用因果注意力機制，經過在多階段使用注意力，SNAIL可從先前積累的經驗中學習如何選擇特定信息，以此提供任務相關的特征信息。SNAIL相比于傳統RNN結構更容易訓練且更有效地實現，經實驗證明SNAIL在多臂老虎機、表格式MDPs等強化學習任務中都有極強的性能。

4.2.2顯式上下文

該類方法中，上下文作為明確的策略輸入來提供任務關鍵信息，常以軌跡或者轉移元組（transitions）的形式表示。

針對元強化學習算法缺乏推斷任務不確定性機制的問題，Rakelly等人［40］將上下文作為明確的策略輸入，提出概率嵌入型演員評論家元強化學習算法（probabilistic embeddings for actor critic RL，PEARL），該算法將異策強化學習與概率隱含上下文相結合，分離任務推斷和智能體學習，提高了元訓練效率和快速適應速度。其中，異策強化學習采用軟演員評論家算法（soft actorcritic，SAC）［41］，借助策略的熵來增大累計折扣回報；上下文用概率隱變量表示，概率隱含上下文通過攤銷變分推斷方法［42～44］進行計算，推斷當前任務存在的不同可能情況，使智能體可以結構化探索從而作出更準確的判斷。算法在元訓練期間使用概率編碼器對訓練任務的顯著特征進行編碼并將采集到的數據整合到上下文變量上，在元測試期間對上下文變量進行后驗采樣實現有效探索和快速適應。在六個元學習實驗中，PEARL的元訓練樣本效率增強了20～100倍，漸進性能顯著提高。Mendonca等人［35］發現，PEARL不能很好地適應測試分布以外的任務，基于此，他們提出了模式識別和經驗重標記元RL算法（model identification and experience relabeling，MIER），從任務分布中識別特定任務并對下一狀態進行經驗重新標記，學習動力學和獎勵模型以及上下文變量使之快速適應分布之外的新任務。Packer等人［45］在PEARL的基礎上結合后經驗重標記法（hind experience reply，HER）［46］提出了后見任務重標記元強化學習算法（hindsight task relabelling，HTR），用已知完成的任務所得信息對未知任務的相應信息進行后經驗重標記，為在稀疏獎勵環境中學習策略提供了解決方法。在此算法中，訓練任務收集的數據可以作為偽專家數據指導元訓練，使智能體可以通過學習更容易完成的已知任務進行策略的學習，后見任務重標記的過程是將未知任務中的不成功經驗替換成已知任務的后經驗，也就是說，在已完成任務T′∈Ttrain的條件下，將待完成任務的轉移元組［st，at，r（st，at，T）］重標記成［st，at，r（st，at，T′）］。經實驗證明，HTR克服了稀疏獎勵環境中學習策略的困難，且其生成的策略與使用固定獎勵信號一樣具有最優性。Wang等人［47］研究REARL發現其忽略了探索行為且存在元過渡擬合問題，提出名為CASTER的元強化學習算法，將元強化學習問題劃分成探索任務、推斷任務、完成任務，在變分期望最大化（EM）公式中引入探索策略進行概率推理，采用好奇心驅動的探索策略執行高效任務探索，使用上下文感知編碼器進行任務推斷，有效優化了探索行為，在一定程度上解決了元過渡擬合問題。Zintgraf等人［48］分析了MAML的過擬合問題，提出一種可替代MAML的算法——CAVIA（fast context adaptation via metalearning），將策略參數分成上下文參數和其他跨任務共享模型參數，靈活地選擇兩部分參數規模，改善了MAML過擬合問題并提高了并行性。通過對元訓練期間回放緩沖區中的數據進行回收利用，Fakoor等人［36］提出了一種稱為MQL（metaQlearning）的異策元強化學習算法，使用傾向估計技術從元訓練回放緩沖區中回收數據，使用上下文提供任務動態方面關鍵順序信息，在最大化元訓練任務的平均獎勵上使用異策更新。經驗證，MQL所得累計獎勵更大、策略更易推廣、收斂速度更快，上下文的引入提高了異策元強化學習算法同其他元強化學習算法的競爭力。

將元學習應用于逆強化學習（IRL）［49］中也可以很好地促進自動學習獎勵函數，Yu等人［50］將基于上下文的元強化學習（PEARL）［40］、深層隱變量生成模型［44］和最大熵逆強化學習［51，52］整合到一個框架中，稱之為概率嵌入的元逆強化學習算法（metainverse reinforcement learning with probabilistic context variables，PEMIRL），其有效地自動學習具有魯棒性的獎勵函數且在多個連續控制任務上表現出高可擴展性。

為解決探索—利用局部最優問題，Liu等人［53］提出了一種稱為解耦探索和利用的元強化學習算法（decoupling exploration and exploitation in metareinforcement learning，DREAM），通過任務編碼器提取與任務相關的信息，構建可識別任務關鍵信息的利用對象和僅恢復對應任務信息的探索對象。在學習利用策略過程中，提取任務關鍵信息并采用最小化信息瓶頸［42］（information bottleneck）剔除任務無關信息；在學習探索策略時，算法恢復包含相同任務關鍵信息的軌跡并最大化相關信息函數，進一步優化探索策略。因此，學習利用策略的過程不再依賴探索中收集的信息，學習探索策略的過程也獨立于利用策略，實現了探索和利用的解耦，解決了局部最優問題，在不舍棄最優性的情況下實現了很好的折中。Zhang等人［54］將學習探索的問題重新建模，設計一個由empowerment驅動的探索目標，學習獨立的上下文感知探索和利用策略，提出了有效降低不確定性探索的元RL算法（metaRL with efficient uncertainty reduction exploration，MetaCURE），促進了有效探索并在稀疏獎勵任務中實現了性能的提升。

4.2.3提升上下文質量

上下文質量的優劣影響該類方法的性能，該類方法考慮提高上下文的質量來提高算法性能。Fu等人［55］分析現有基于上下文的元強化學習算法，發現其上下文普遍存在噪聲，主要在于上下文編碼器的訓練策略存在問題，而且探索忽略了關鍵信息的收集，致使收集的軌跡信息不足以生成反映任務特征的上下文，為此提出對比學習增強的基于上下文的元RL（comparative learning augmented context based metaRL，CCM），通過對比學習改進上下文編碼器，其次訓練探索策略以收集有效信息，極大提高了上下文的質量，提升了該類算法的性能。

4.3基于梯度的元強化學習算法

為解決泛化能力低和學習速率慢的問題，梯度下降法作為常用的優化方法被應用于元強化學習中，按更新目標可將基于梯度的元強化學習算法分為三類，分別是更新可微超參數實現在線調整超參數、更新策略參數以學習初始化模型參數、更新損失函數以尋找策略梯度規則，經梯度下降優化后，在解決新任務時可以僅通過少數步驟的梯度變換實現快速適應新任務，提高了通用性，節省了時間成本。另外，在本類算法中，同樣也對探索問題進行了解決，通過添加探索項、設計獨立探索策略等方法增添智能體的探索潛力和激發探索新狀態的能力。基于梯度的元強化學習算法［56～76］對比匯總如表3所示。

4.3.1更新超參數

超參數的設置在強化學習中是至關重要的，為避免手動選擇超參數，超參數可用梯度下降法實現在線自動調參。

Schweighofer等人［56］拓展實值單元（SRV）［57］提出了可以動態調整超參數的元強化學習算法，經驗證，該算法具有穩定性和通用性，自適應能力強并且可以成功地在實驗環境中找到最優超參數。Kobayashi等人［58］進一步引入時序查分誤差來調整超參數，使算法可以實時地根據環境變化動態調整折扣系數γ和學習率α，提高了算法的適應能力和學習速度。Xu等人［59］提出元梯度強化學習，通過自動調整回報函數中的超參數（即折扣因子γ和自舉參數λ）使返回函數可以適應隨時間動態變化的學習環境，實現在線調整超參數來最大化回報函數，在57個Atari游戲中證明了該算法的有效性。Baydin等人［60］介紹了超梯度下降（hypergradient descent，HD）方法，通過將其應用于SGD、Adam等基礎梯度下降算法中動態調整學習率α，實現了對學習率的在線優化，減少了調整初始學習率所需的時間和數據量。

4.3.2更新策略參數

以MAML為代表的元強化學習算法利用梯度下降法更新策略參數，學習初始化模型參數并在新任務中通過梯度下降進行微調來適應新任務。

Finn等人［61］提出了模型無關元學習方法（modelagnostic metalearning，MAML），MAML在梯度下降過程中找到對任務變化敏感的模型參數，學習初始化模型中的初始參數。該方法與強化學習結合，對初始模型參數θ顯式地訓練，計算損失梯度并根據梯度下降更新參數，在新任務中參數僅經過幾步梯度下降更新便可以達到接近新任務目標參數的效果。

假設模型是f，α和β代表學習步長，算法首先采樣任務Ti～p（T），計算樣本損失的梯度為θLTi（fθ），其中LTi（fθ）=-Ext，at～fθ［∑Ht=1Ri（xt，at）］。然后采用梯度下降更新參數θ′i=θ-αθLTi（fθ）；待采樣的任務全部完成后，利用訓練過程中采樣的軌跡和計算所得損失進一步更新參數θ為

θ←θ-βθ∑Ti～p（T）LTi（fθ′i）（3）

對MAML進一步簡化，Nichol等人［62］提出了基于一階梯度的元學習方法（on firstorder metalearning，Reptile），與MAML類似，Reptile學習模型參數的初始化，使用相應的梯度下降進行更新使模型達到最大性能。但是Reptile放棄了二階微分以及對訓練和測試的劃分，在每個任務完成訓練后借助參數的差進行參數更新。相較于MAML，Reptile算法簡單、計算復雜性低、計算開銷低、內存占用低，且與MAML性能相當。近年來，Fallah等人［63］對MAML的策略梯度公式進行改進，對目標函數進行無偏估計，提出了基于隨機梯度的元強化學習算法（stochastic gradientbased method for metaRL，SGMRL），實現了一階平穩性且其性能優于MAML。針對現有元強化學習中常忽視信度分配（credit assignment）從而造成樣本效率低下等問題，Rothfuss等人［64］對MAML和EMAML的元學習公式進行分析，通過結合近端策略優化和低方差曲率（low variance curvature，LVC）提出了近端元策略搜索（proximal metapolicy search，ProMP）。其中，目標函數在基于梯度的元學習公式結構上結合了PPO的Clipped方法以及KL懲罰項，使之僅產生低方差策略梯度估計，從而控制適應前后策略的差距，解決了信度分配混亂并優化了元策略估計，產生高效的預適應策略行為。為了解決元訓練期間需要巨大樣本數量的問題，Mendonca等人［65］在MAML內引入有監督的模仿學習，提出引導元策略搜索算法（guide meta policy search，GMPS）將元訓練分成單獨解決元訓練任務和利用元任務所得進行元學習兩部分，前者提供監督信息，后者使用所得專家策略優化MAML目標函數，提高了訓練的穩定性和樣本效率，大幅度減少了樣本需求量。Song等人［66］將進化策略（ES）［67］應用于MAML中，提出稱為ESMAML的算法以解決原始MAML中估計二階導數困難的問題，改進了MAML中的元學習訓練過程和自適應效率，降低了算法難度。

元強化學習通過探索來收集與任務有關的信息，探索的目的是嘗試各種動作并收集過程中產生的可用信息，一個好的探索策略僅收集有效數據，擯棄任務無關數據，探索策略的優劣決定了算法性能的優劣，鑒于目前元強化學習算法有限的探索能力和獲取結構化策略的能力，研究人員也從優化探索的角度對算法作出改進，以此來提高樣本效率和訓練速度。Stadie等人［29］以MAML為基礎，在目標函數中添加一個探索項，提出EMAML元強化學習算法，根據自適應過程中產生的期望獎勵優化任務采樣分布，以獲得可快速找到良好任務采樣分布的策略。該探索項為未來期望獎勵提供最大數據量的有用信息，為策略提供了更多的探索機會。Li等人［68］提出一種稱為MURAL的元強化學習算法，使用MAML進行元訓練，額外提供一組成功完成的任務案例，采用條件歸一化最大似然（CNML）［69］分布來訓練一個不確性感知分類器，激勵智能體探索新狀態并指導智能體學習。該算法額外添加成功經驗為算法提供直接的有效探索信息，避免了與任務無關的探索。Gurumurthy等人［70］為任務分布設計獨立的探索策略，使用自我監督網絡進行調整，提出了模型無關元探索方法（modelagnostic metaexploration，MAME），提高了探索策略的靈活性和高效的內循環更新，為策略的更新提供了更高的穩定性和漸進性能。為了實現高效的探索，擺脫各時間步獨立添加噪聲的弊端，Gupta等人［71］通過引入與時間相關的結構性噪聲，提出了一種元學習探索策略的元強化學習算法（model agnostic exploration with structured noise，MAESN），從先前經驗中學習隨機化探索策略。該算法以MAML為基礎，使用先前經驗對策略進行初始化，從先驗任務中學習潛在探索空間并從中采樣具有時間一致性的隱變量，該隱變量提供了結構化和時間相關的隨機性，最終得到具有隨機性且優于隨機噪聲的探索策略。經過在輪式機器人和四腳步行器運動等模擬任務上的測評證明了MAESN可以忽略無用信息進而高效學習到好的探索策略，并且能夠快速適應需要大量探索的新任務。Xu等人［72］提出使用元策略梯度學習探索的元強化學習算法，在DDPD中引入元學習算法并用元策略梯度優化探索策略，通過訓練獨立的探索策略實現了全局探索。算法構建了一個教師—學生框架（teacherstudent），以教師策略作為探索策略、學生策略作為行為策略，用行為策略所得回報的差值計算元獎勵，憑元獎勵的元梯度策略更新探索策略，實現自適應的學習探索策略，優化后的探索策略可以收集到更有效的信息，提高了樣本效率。

4.3.3學習損失函數

相比于MAML直接元學習策略，元學習損失函數以尋找策略更新規則實現更好的泛化。Houthooft等人［73］提出一種稱為EPG（evolved policy gradients）的元強化學習算法，以學習損失函數為目標，尋找策略更新規則。該算法將歷史信息隱式編碼成一個可微的損失函數并使用進化策略作為優化器調整損失參數，損失函數通過SGD訓練策略參數以實現損失函數最小化，使智能體可以憑借損失函數快速學習新任務。經實證，EPG所得的損失可以激發學習潛力并引導智能體學習，該算法的泛化性和訓練速度也強于其他學習策略的元強化學習策略。與EPG元學習目標函數類似，Kirsch等人［74］提出MetaGenRL，將多個智能體的經驗整合成目標函數的參數，利用價值函數和二階梯度元學習神經目標函數以尋找策略更新規則，大大提高了采樣效率和通用性。除此之外，Bechtle等人［75］也從學習損失函數的角度提出了名為ML3（metalearning via learning loss）的反向傳播學習自適應損失函數的元學習框架，并將其應用于強化學習中，通過梯度下降方法學習元損失函數的參數以實現高效優化。ML3的關鍵在于學習元損失函數中的參數，在內循環中，模型使用學到的損失函數進行梯度下降優化，在外循環中通過最小化內循環優化對象產生的任務損失進一步優化元損失函數。元損失與標準損失相比更具通用性和靈活性，且其訓練中的優化速度更快。

除了如EPG、ML3和MetaGenRL中所執行的尋找策略更新規則外，Oh等人［76］通過添加額外預測更新規則的功能，在強化學習中構建一個元學習框架——學習型策略梯度（learned policy gradient，LPG）來元學習自己的引導機制。其中，更新規則由元參數η參數化得到，框架在與環境交互的過程中發現更新規則，從交互產生的數據中發現RL算法以預測更新規則，更新規則和預測矢量由LPG輸出并經梯度上升后用于更新智能體參數θ，然后計算元梯度更新LPG中的元參數η，實現期望獎勵最大化。在評估過程中，LPG具有良好的通用性并有效防止過擬合，可很好地推廣到Atari游戲中，經訓練的智能體可以學習自己的更新規則并達到超越人類的水平。

4.4基于分層的元強化學習算法

分層的思想本質在于將難以解決的主任務分解成不同層次上可有效解決的子任務，通過加快子任務的求解速度以加快對整體任務的解決速度。針對元知識的生成方法問題，基于分層的元強化學習算法使用分層思想對網絡進行分層以應對要解決的一系列相關問題，底層網絡在相關任務上學習并將從各任務中所學的知識向上傳遞給高層網絡，高層網絡學習傳遞上來的先前經驗，整合任務間的共享知識得到元知識，完成任務的快速適應。基于分層的元強化學習算法［77～85］對比匯總如表4所示。

Munkhdalai等人［77］首先提出元網絡（MetaNet）模型，該模型包含基學習器、元學習器和外部存儲，具體而言，元網絡利用損失梯度作為元信息，基學習器分析任務并向元學習器提供高階元信息，元學習器通過快速參數化來泛化歸納偏置并更新底層神經網絡的參數。在Omniglot和miniImageNet中的表現證明了MetaNet的泛化能力和快速學習能力。Frans等人［78］提出用于元學習共享分層結構的方法（meta learning shared hierarchies，MLSH），采用雙層策略結構，共享信息用一組子策略模型表示，其中，主策略選擇要激活的子策略，活動子策略根據輸出選擇動作。該方法通過與任務分布進行交互來學習共享的子策略，在處理新任務時可以憑借子策略僅更新主策略快速適應新任務，經過在網格世界導航等環境中證明了該方法的有效性和魯棒性，并且子策略可以成功轉移到稀疏獎勵任務中。Vezhnevets等人［79］通過研究FRL［80］提出了稱為FuN（FeUdal network）的兩層完全可微神經網絡，其中高層管理者模塊計算隱狀態表示并設定子目標，低層工作者模塊根據所設目標生成對應動作，該結構在長期信度分配或記憶的任務上取得了優越的性能。受強化學習中的AC算法啟發，Sung等人［81］提出一種學習metacritic網絡的元學習算法，metacritic網絡由核心元價值網絡和任務行為編碼器組成，AC算法作為訓練方法在多個任務訓練該網絡。在面臨新任務時，僅需針對任務構建行動網絡即可，共享的metacritic網絡提供可轉移的知識指導快速學習，對任務之間的不同關聯性具有魯棒性。同時，Levy等人［82］提出分層演員—評論家算法（hierarchical actorcritic，HAC），通過將任務分解成不同時間尺度的簡單子問題，智能體在不同層次上學習子目標策略來解決在連續狀態和動作空間的任務，加快了學習速度。為提高網絡的調整策略能力，BenIwhiwhu等人［83］將神經調節（neuromodulation）［84］引入策略網絡，通過在元強化學習中建立神經調節策略網絡為不同任務提供豐富的動態表示，極大提高了算法的靈活性和通用性。實驗通過在CAVIA和PEARL中引入神經調節后，算法相比于之前有了更好的結果和動態表征。Fu等人［85］提出了新的分層元強化學習算法，稱其為元目標生成的分層強化學習（meta goalgeneration for hierarchical RL，MGHRL），以PEARL和HAC為基礎構建了雙層結構。頂層網絡元學習目標生成，底層網絡學習策略，根據先前經驗學習子目標生成的高級元策略，有效解決了在廣泛分布任務上的低效學習。

4.5離線元強化學習

離線元強化學習（offline metaRL，OMRL）的研究在近幾年也取得了相關進展，離線元強化學習的提出主要是為了解決元強化學習中落地難、實用性差的問題，通過利用大量預先收集的靜態數據或離線數據集進行預訓練，降低環境影響。與標準元強化學習不同，離線元強化學習在元訓練期間無須與環境交互產生數據，消除了元訓練期間的不安全探索行為和高成本的數據采集行為。離線元強化學習算法［86～90］對比匯總如表5所示。

Li等人［86］提出了第一個端到端且無模型的離線元強化學習算法——基于上下文的完全離線AC元強化學習算法（fullyoffline contextbased actorcritic metaRL，FOCAL）。FOCAL以PEARL為基礎，在AC框架中結合行為正則化從靜態數據中學習，同時在任務信息空間中引入負指數距離度量，設計確定性上下文編碼器學習距離度量進行任務推斷。該算法具有高效的任務推斷和計算效率，提高了采樣效率和快速適應的速度。Dorfman等人［87］研究離線強化學習（offline RL）問題，實現在離線數據中學習最優探索策略，將VariBAD［88］拓展至異策強化學習，提出了貝葉斯離線元強化學習算法（Bayesoptimal offline metaRL，BORel），顯著提高了原始VariBAD的采樣速率，并且可以在離散和連續控制任務中從離線數據中學習有效的探索策略。Luo等人［89］將安全探索視為離線元問題，將安全強化學習（safeRL）轉換為離線元強化學習，提出了安全適應元學習（offline metaRL for safe adaptation，MESA），在訓練期間利用完全離線數據學習安全探索，利用學習到的風險度量保證智能體在新環境中安全學習并快速適應。Mitchell等人［90］提出一種稱為MACAW（meta actorcritic with advantage weighting）的離線元強化學習算法，結合基于梯度的元學習和基于值的異策強化學習算法，在元訓練中使用有監督的回歸目標學習值函數和策略函數中的參數初始化。該方法實現了完全離線的元強化學習，僅憑借先前任務的累積數據快速適應新任務，無須與環境進行交互，其性能優于基線算法。

4.6各類方法的分析和對比

將上述五類元強化學習算法進行總結，分析了各類算法的優勢和局限性并對其進行對比，結果如表6所示。

基于循環網絡的元強化學習算法使用帶有記憶功能的RNN，將歷史狀態、動作和獎勵信息作為輔助輸入來預測下一時刻動作，同時將經驗以網絡參數形式保存在RNN中。然而該類方法獲取隨機策略和結構化策略的能力有限，限制了探索能力，且由于不易在新任務上對網絡進行微調以適應新任務，存在收斂不穩定的問題。基于上下文的元強化學習算法利用上下文來學習與當前狀態和歷史軌跡相關的策略，通過將經驗聚合成隱藏表征實現快速適應，上下文一般以軌跡或轉移元組的形式表示，提供任務關鍵信息，可隱式地聚合到策略隱藏狀態中也可作為顯式的策略輸入，提高了樣本效率和適應效率，但目前算法中的上下文質量普遍不高，且由于其依賴由過去經驗所得的隱藏表征，當新舊任務差別過大時，算法很難適應，泛化能力有限。對于一些基于記憶的任務，任務依賴歷史信息無法通過上下文進行任務推斷。基于梯度的元強化學習算法采用梯度下降法對參數進行優化，學習更新超參數、策略函數和損失函數，在新任務上可以僅經過少數梯度下降步驟對模型進行微調，使其有效適應分布外的任務，具有靈活性和可擴展性，泛化能力強；但是存在計算復雜度高且計算規模大的問題，二階梯度的使用更是加劇了這一弊端，計算耗費時間長，難以應用于大規模問題。基于分層的元強化學習使用分層思想對模塊進行靈活劃分，不同的相關任務由底層模塊解決并將學到的各任務知識傳遞給高層模塊，高層模塊學習下層傳遞的信息作為元知識，提高了獲取元知識和解決新任務的速度，同時也在一定程度上解決了在神經網絡中如何使用少量訓練數據快速適應新任務的挑戰。然而此類方法受神經網絡本身的缺點影響，存在參數多、魯棒性低、所需數據樣本多等問題，且網絡模型一般較大，模型復雜。離線元強化學習算法將元學習與離線強化學習結合，利用預先收集的大量靜態數據或固定的數據集進行訓練，并使用來自新任務的少量數據進行微調進而快速適應新任務。該類算法未利用與環境交互中產生的數據，規避了高成本的收集數據行為和危險的探索行為，但是由于不與環境進行交互，該類算法無法通過探索來檢驗行為的正確性；除此之外，該類算法僅依賴靜態數據集，數據集的質量和規模直接影響到訓練效果，目前沒有足夠的能力確保數據集的質量，甚至無法收集到足夠多的數據；訓練策略和行為策略不一致導致的分布偏離也會影響該類算法的收斂性。

除了上述方法之外，研究人員還將元學習應用于貝葉斯強化學習、無監督強化學習等，通過貝葉斯優化尋求最優策略或使用無監督方法完成訓練。文獻［88］提出變分貝葉斯自適應深度強化學習算法（variables Bayes adaptive deep RL，VariBAD），將貝葉斯強化學習、近似變分推斷和元學習結合，使智能體在新環境中可根據任務不確定性進行結構化在線探索，以學習平衡探索和利用的最優策略。Zintgraf等人［91］提出超狀態探索元學習方法（hyperstate exploration，HyperX），通過添加兩項新的探索獎勵并在近似的超狀態空間中探索，元學習貝葉斯優化探索策略，保證了充分且有效的元探索。Gupta等人［92］基于MAML提出了無監督元強化學習（unsupervised metaRL）算法，在自動生成的任務分配中進行元學習，避免了手動設計元訓練任務，提高了學習速度，在基準任務上與有監督元RL方法具有競爭力。Jabri等人［93］結合課程學習提出稱為CARML（curricula for unsupervised metareinforcement learning）的元強化學習算法，將無監督數據映射到隱藏空間中并通過無監督交互訓練策略，實現了元強化學習算法中歸納無監督、自適應的任務分布，避免手動定義訓練任務分布。

為了評估元強化學習有效性，現有算法通常采用MuJoCo［19］進行模擬，在視覺迷宮任務、任務參數變化的連續控制域、機器人操縱等問題對算法的學習速度、任務完成率、收斂性能等進行評估。由于當前基準存在任務分布狹窄、相似度過高、任務簡單等問題，不能很好地度量算法有效性。近年來，研究人員針對評估基準存在的不足，對評估任務的內容和范圍進行豐富，Yu等人［94］提出一個稱為MetaWorld的基準，包括50個獨立任務的機械臂操作物體，擴大任務分布的范圍；Cobbe等人［95］設計了名為CoinRun的新環境用來評估算法的泛化性；Wang等人［96］介紹了新基準Alchemy，包含Unity中實現的3D視頻游戲，結構具有豐富性和透明性。

5元強化學習研究展望

自元強化學習面世以來，其表現出的高效學習能力和強大泛化性能吸引了大量研究人員對其進行研究，元強化學習的主要優勢在于“學會學習”的能力，可以僅憑少量樣本快速學習新任務，極大提升了泛化能力和學習速度。

目前元強化學習仍具有巨大發展潛力，計算復雜度、元知識質量、評估基準、數據利用率等方面都有待提升，這些現存問題造成了泛化性不足、學習時間長、學習效果一般的研究瓶頸［24］。為解決當前研究面臨的難題，未來可通過提高元學習目標函數的學習能力、優化探索和訓練過程、增強評估基準完善度和實用性可能，達到提高學習速度、推廣能力和學習效果的目標，具體描述如圖2所示。

5.1提高元學習的學習能力

元強化學習依靠所學的元知識完成快速適應，元知識的質量關乎其學習能力，如何學習好任務嵌入是后續研究工作的一個重點，可以通過研究對比學習等自省方法以及綜合多種環境和智能體的經驗獲取噪聲低且通用性強的元知識，以此來提高元學習的學習能力。基于分層的元強化學習可以通過設計新的網絡分層結構規劃不同模塊來提取有效元知識，然而其難點在于隨著網絡結構的不斷分層，其架構也趨于復雜，雖然可以得到有效元知識，但所花費的時間和計算代價遠超于元知識所得效益，需在未來研究中采用合理的方法平衡兩者效益。

元強化學習的目標是使用少量樣本快速學習新任務，海量數據的需求一直是強化學習被詬病的一個缺點，而且元知識受數據噪聲影響，魯棒性較低，無法提供精確的任務信息。要想快速適應數據樣本很少的情況，必須充分利用所有可用資源，MQL通過簡單重用元訓練期間存儲在回放緩沖區中的數據實現了優越的算法性能。傾向估計技術和經驗重標記法（HER）在前面章節的算法中已經被證明是擴充適應過程數據量的有效技術，除此之外，文獻［97］所提出的元混合（MetaMix）和通道洗牌（channel shuffle）元學習方法也擴充了可用數據集，產生了更多靈活可用的數據。未來的元強化學習算法研究中完全可以結合上述技術充分利用可用數據，提高數據利用效率，進一步提升多任務場景下的泛化能力等性能［98］。

5.2優化探索和訓練過程

在前文介紹的元強化學習方法中，部分研究人員以優化探索為動機提出各種新穎的方法。探索是一個收集數據的過程，好的探索策略僅收集與任務有關的有效信息，目前的研究中并未實現完全探索，況且探索和利用困境一直是待解決的難題之一。基于上述現存問題，未來的研究可以著手在策略參數和神經網絡權重中引入結構化噪聲對探索策略進行優化、學習傳達長期目標的內在回報來元學習合理的探索策略、設計有效的額外探索項添加到目標函數來增加探索新狀態的可能、使用變分推斷和概率上下文等技術設計高效的任務推斷機制推斷任務不確定性來實現結構化探索、開發自省方法分析損失函數提高探索能力等方面優化探索過程。此外，解耦探索和利用過程是解決探索和利用困境的有效方法，文獻［53］利用這一思想很好地解決了局部最優問題；文獻［70］表示未來工作將聚焦于在算法中使用獨立的探索和利用策略或者設計獨立的探索目標來有效平衡探索和利用，提高算法性能，解決局部最優問題。

在訓練過程中內循環對每個任務的評估過程花費巨大計算成本，而且二階梯度的計算復雜度非常高，如何避免二階梯度或優化評估過程降低計算復雜度是需要繼續深入研究解決的問題。

5.3增強評估標準完善度和實用性可能

現有元強化學習算法基于各種特定前提假設，對實際應用場景的設置條件要求較高，如相關任務之間差距不能過大、新任務要與訓練任務在核心問題上具有一致性、密集獎勵環境等，然而現實世界往往環境復雜度高、生成數據成本昂貴，存在意外的擾動或未知情況直接導致訓練好的策略或者模型失效。如何逐步放松這些條件限制、增強模型穩定性、解決元強化學習落地難問題并將其推廣到實際應用及復雜場景中是一個很重要的研究方向［99］，研究思路如圖3所示。

近期新興的離線元強化學習作為一大研究熱點，極大提升了元強化學習落地可能，離線元強化學習不依賴實際環境，規避了高成本的數據收集行為和不安全的與環境交互行為。后續工作可設計度量方法修正訓練策略和行為策略的分布偏差，開發新的高質量離線數據庫保證訓練數據的可靠性。但是其有一研究難點有待解決，即如何規避因不進行實時探索所帶來的通用性低的問題。另外，文獻［93］為本文解決算法落地問題提供了新思路，人工選擇相關任務這一舉措人為地決定了所選任務之間的相關性程度，限制了元強化學習落地能力。因此上述環境限制條件中的任務相關性問題完全可以采用無監督方法實現自動生成任務分布，拓展訓練任務空間。就訓練環境與新環境差距過大導致算法不能適應現實環境的問題，未來可利用課程學習方法對模擬環境的參數設置進行動態調整，逐步縮小訓練環境和現實場景的新環境所訓練的模型之間的差距。最后，作為驗證算法有效性的評估基準目前仍不完善，雖然算法在現有基準表現出優越性能，但是基準中的訓練任務和測試任務相似度過高，任務簡單且分布范圍小，不足以評估元強化學習的有效性。因此為元強化學習構建任務復雜度高且任務多樣性高的評估基準也是后續工作的重點。

參考文獻：

［1］閆友彪，陳元琰.機器學習的主要策略綜述［J］.計算機應用研究，2004，21（7）：410.（Yan Youbiao，Chen Yuanyan.A survey on machine learning and its main strategy［J］.Application Research of Computers，2004，21（7）：410.）

［2］LeCun Y，Bengio Y，Hinton G.Deep learning［J］.Nature，2015，521（7553）：436444.

［3］Henderson P，Islam R，Bachman P，et al.Deep reinforcement learning that matters［C］//Proc of the 32nd AAAI Conference on Artificial Intelligence.Pola Alto，CA：AAAI Press，2018：32073214.

［4］趙星宇，丁世飛.深度強化學習研究綜述［J］.計算機科學，2018，45（7）：16.（Zhao Xingyu，Ding Shifei.Research on deep reinforcement learning［J］.Computer Science，2018，45（7）：1-6.）

［5］Bengio Y，Bengio S，Cloutier J.Learning a synaptic learning rule［C］//Proc of International Joint Conference on Neural Networks.Piscataway，NJ ：IEEE Press，1991：231-245.

［6］Schmidhuber J R.Evolutionary principles in selfreferential learning.On learning how to learn：the metametahook［D］.München，Germany：Technische Universitat Munchen，1987.

［7］Thrun S，Pratt L.Learning to learn［M］.New York：Springer，2012：156189.

［8］曹雷.基于深度強化學習的智能博弈對抗關鍵技術［J］.指揮信息系統與技術，2019，10（5）：17.（Cao Lei.Key technologies of intelligent game confrontation based on deep reinforcement learning［J］.Command Information System and Technology，2019，10（5）：17.）

［9］高陽，陳世福，陸鑫.強化學習研究綜述［J］.自動化學報，2004，30（1）：86100.（Gao Yang，Chen Shifu，Lu Xin.Research on reinforcement learning technology：a review［J］.Acta Automatica Sinica，2004，30（1）：86100.）

［10］劉全，翟建偉，章宗長，等.深度強化學習綜述［J］.計算機學報，2018，41（1）：1-27.（Liu Quan，Zhai Jianwei，Zhang Zongchang，et al.A survey on deep reinforcement learning［J］.Chinese Journal of Computers，2018，41（1）：1-27.）

［11］Mnih V，Kavukcuoglu K，Silver D，et al.Playing Atari with deep reinforcement learning［EB/OL］.（20131219）［2022-06-01］.https：//arxiv.org/pdf/1312.5602.pdf.

［12］Mnih V，Kavukcuoglu K，Silver D，et al.Humanlevel control through deep reinforcement learning［J］.Nature，2015，518（7540）：529-533.

［13］Van Hasselt H，Guez A，Silver D.Deep reinforcement learning with double Qlearning［C］//Proc of the 30th AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2016：2094-2100.

［14］Lillicrap T P，Hunt J J，Pritzel A，et al.Continuous control with deep reinforcement learning［EB/OL］.（2016-02-29）［20220601］.https：//arxiv.org/pdf/1509.02971v5.pdf.

［15］Schulman J，Levine S，Abbeel P，et al.Trust region policy optimization［C］//Proc of the 32nd International Conference on Machine Learning.New York：ACM Press，2015：18891897.

［16］Mnih V，Badia A P，Mirza M，et al.Asynchronous methods for deep reinforcement learning［C］//Proc of the 33rd International Conference on Machine Learning.New York：ACM Press，2016：19281937.

［17］Schulman J，Wolski F，Dhariwal P，et al.Proximal policy optimization algorithms［EB/OL］.（2017-07-20）［2022-06-01］.https：//arxiv.org/pdf/1707.06347v1.pdf.

［18］Bellemare M G，Naddaf Y，Veness J，et al.The arcade learning environment：an evaluation platform for general agents［J］.Journal of Artificial Intelligence Research，2013，47：253-279.

［19］Todorov E，Erez T，Tassa Y.MuJoCo：a physics engine for modelbased control［C］//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway，NJ：IEEE Press，2012：5026-5033.

［20］Heess N，Dhruva T B，Sriram S，et al.Emergence of locomotion behaviours in rich environments［EB/OL］.（2017-0710）［2022-06-01］.https：//arxiv.org/pdf/1707.02286v2.pdf.

［21］李凡長，劉洋，吳鵬翔，等.元學習研究綜述［J］.計算機學報，2021，44（2）：422-446.（Li Fanchang，Liu Yang，Wu Pengxiang，et al.A survey on recent advances in metalearning［J］.Chinese Journal of Computers，2021，44（2）：422-446.）

［22］朱應釗李嫚.元學習研究綜述［J］.電信科學，2021，37（1）：22-31.（Zhu Yingzhao，Li Man.Review on metalearning［J］.Telecommunications Science，2021，37（1）：22-31.）

［23］馬騁乾，謝偉，孫偉杰.強化學習研究綜述［J］.指揮控制與仿真，2018，40（6）：6872.（Ma Chengqian，Xie Wei，Sun Weijie.Research on reinforcement learning technology：a review［J］.Command Control amp; Simulation，2018，40（6）：6872.）

［24］譚曉陽，張哲.元強化學習綜述［J］.南京航空航天大學學報，2021，53（5）：653-663.（Tan Xiaoyang，Zhang Zhe.Review on meta reinforcement learning［J］.Journal of Nanjing University of Aeronautics amp; Astronautics，2021，53（5）：653-663.）

［25］Wang J X，KurthNelson Z，Tirumala D，et al.Learning to reinforcement learn［EB/OL］.（2017-01-23）［2022-06-01］.https：//arxiv.org/pdf/1611.05763.pdf.

［26］Hochreiter S，Schmidhuber J.Long shortterm memory［J］.Neural Computation，1997，9（8）：17351780.

［27］Wang J X，KurthNelson Z，Kumaran D，et al.Prefrontal cortex as a metareinforcement learning system［J］.Nature Neuroscience，2018，21（5）：860-868.

［28］Duan Yan，Schulman J，Chen Xi，et al.RL2：fast reinforcement learning via slow reinforcement learning［C］//Proc of the 6th International Conference on Learning Representations.2017.

［29］Stadie B C，Yang Ge，Houthooft R，et al.Some considerations on learning to explore via metareinforcement learning［C］//Proc of the 7th International Conference on Learning Representations.2018.

［30］Clavera I，Nagabandi A，Fearing R S，et al.Learning to adapt：metalearning for modelbased control［EB/OL］.（2019-02-27）［2022-06-01］.https：//arxiv.org/pdf/1803.11347v1.pdf.

［31］Buchan A D，Haldane D，Fearing R S.Automatic identification of dynamic piecewise affine models for a running robot［C］//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway，NJ：IEEE Press，2013：5600-5607.

［32］Santoro A，Bartunov S，Botvinick M，et al.Metalearning with memoryaugmented neural networks［C］//Proc of the 33rd International Conference on Machine Learning.2016：18421850.

［33］Andrychowicz M，Denil M，Gomez S，et al.Learning to learn by gradient descent by gradient descent［C］//Proc of the 30th International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2016：3988-3996.

［34］Ravi S，Larochelle H.Optimization as a model for fewshot learning［C］//Proc of the 5th International Conference on Learning Representations.2017：428-589.

［35］Mendonca R，Geng Xinyang，Finn C，et al.Metareinforcement learning robust to distributional shift via model identification and experience relabeling［EB/OL］.（20200615）［20220601］.https：//arxiv.org/pdf/2006.07178.pdf.

［36］Fakoor R，Chaudhari P，Soatto S，et al.MetaQlearning［EB/OL］.（2019-09-30）［2022-06-01］.https：//arxiv.org/pdf/1910.00125v1.pdf.

［37］Fujimoto S，Hoof H，Meger D.Addressing function approximation error in actorcritic methods［C］//Proc of the 35th International Conference on Machine Learning.2018：15871596.

［38］Mishra N，Rohaninejad M，Chen Xi，et al.A simple neural attentive metalearner［EB/OL］.（2018-02-25）［2022-06-01］.https：//arxiv.org/pdf/1707.03141.pdf.

［39］Vaswani A，Shazeer N，Parmar N，et al.Attention is all you need［C］//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2017：6000-6010.

［40］Rakelly K，Zhou A，Quillen D，et al.Efficient offpolicy metareinforcement learning via probabilistic context variables［C］//Proc of the 36th International Conference on Machine Learning.2019：5331-5340.

［41］Haarnoja T，Zhou A，Abbeel P，et al.Soft actorcritic：offpolicy maximum entropy deep reinforcement learning with a stochastic actor［C］//Proc of the 35th International Conference on Machine Learning.2018：18611870.

［42］Alemi A A，Fischer I，Dillon J V，et al.Deep variational information bottleneck［C］//Proc of the 5th International Conference on Learning Representations.2017.

［43］Rezende D J，Mohamed S，Wierstra D.Stochastic backpropagation and approximate inference in deep generative models［C］//Proc of the 31st International Conference on Machine Learning.2014：12781286.

［44］Kingma D P，Welling M.Autoencoding variational Bayes［EB/OL］.（201312-27）［2022-06-01］.https：//arxiv.org/pdf/1312.6114v4.pdf.

［45］Packer C，Abbeel P，Gonzalez J E.Hindsight task relabelling：experience replay for sparse reward metaRL［C］//Proc of the 34th International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2021：2466-2477.

［46］Andrychowicz M，Wolski F，Ray A，et al.Hindsight experience replay［C］//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2017：5048-5058.

［47］Wang Haozhe，Zhou Jiale，He Xuming.Learning contextaware task reasoning for efficient metareinforcement learning［C］//Proc of the 19th International Conference on Autonomous Agents and Multiagnents Systems.2000：14401448.

［48］Zintgraf L，Shiarli K，Kurin V，et al.Fast context adaptation via metalearning［C］//Proc of the 36th International Conference on Machine Learning.2019：76937702.

［49］Ng A Y，Russell S J.Algorithms for inverse reinforcement learning［C］//Proc of the 7th International Conference on Machine Learning.2000：663-670.

［50］Yu Lantao，Yu Tianhe，Finn C，et al.Metainverse reinforcement learning with probabilistic context variables［C］//Proc of the 33rd International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2019：1174911760.

［51］Ziebart B D.Modeling purposeful adaptive behavior with the principle of maximum causal entropy［M］.Pittsburgh，PA：Carnegie Mellon University，2010.

［52］Ziebart B D，Maas A L，Bagnell J A，et al.Maximum entropy inverse reinforcement learning［C］//Proc of the 23rd National Conference on Artificial Intelligence.Pola Alto，CA：AAAI Press，2008：14331438.

［53］Liu E Z，Raghunathan A，Liang P，et al.Decoupling exploration and exploitation for metareinforcement learning without sacrifices［C］//Proc of the 38th International Conference on Machine Learning.2021：6925-6935.

［54］Zhang Jin，Wang Jianhao，Hu Hao，et al.MetaCURE：meta reinforcement learning with empowermentdriven exploration［C］//Proc of the 38th International Conference on Machine Learning.2021：1260012610.

［55］Fu Haotian，Tang Hongyao，Hao Jianye，et al.Towards effective context for metareinforcement learning：an approach based on contrastive learning［C］//Proc of the 34th AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2021：74577465.

［56］Schweighofer N，Doya K.Metalearning in reinforcement learning［J］.Neural Networks，2003，16（1）：5-9.

［57］Gullapalli V.A stochastic reinforcement learning algorithm for learning realvalued functions［J］.Neural Networks，1990，3（6）：671-692.

［58］Kobayashi K，Mizoue H，Kuremoto T，et al.A metalearning method based on temporal difference error［C］//Proc of the 16th International Conference on Neural Information Processing.Berlin：Spring，2009：530-537.

［59］Xu Zhongwen，Van Hasselt H P，Silver D.Metagradient reinforcement learning［C］//Proc of the 32nd International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2018：2402-2413.

［60］Baydin A G，Cornish R，Rubio D M，et al.Online learning rate adaptation with hypergradient descent［EB/OL］.（2018-02-26）［2022-06-01］.https：//arxiv.org/pdf/1703.04782.pdf.

［61］Finn C，Abbeel P，Levine S.Modelagnostic metalearning for fast adaptation of deep networks［C］//Proc of the 34th International Conference on Machine Learning.2017：11261135.

［62］Nichol A，Achiam J，Schulman J.On firstorder metalearning algorithms［EB/OL］.（201810-22）［2022-06-01］.https：//arxiv.org/pdf/1803.02999.pdf.

［63］Fallah A，Georgiev K，Mokhtari A，et al.On the convergence theory of debiased modelagnostic metareinforcement learning［C］//Proc of the 35th International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2021：3069-3107.

［64］Rothfuss J，Lee D，Clavera I，et al.ProMP：proximal metapolicy search［EB/OL］.（20181016）［2022-06-01］.https：//arxiv.org/pdf/1810.06784.pdf.

［65］Mendonca R，Gupta A，Kralev R，et al.Guided metapolicy search［C］//Proc of the 33rd International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2019：9656-9667.

［66］Song Xingyou，Gao Wenbo，Yang Yuxiang，et al.ESMAML：simple Hessianfree meta learning［EB/OL］.（2020-07-07）［2022-06-01］.https：//arxiv.org/pdf/1910.01215.pdf.

［67］Wierstra D，Schaul T，Glasmachers T，et al.Natural evolution strategies［J］.Journal of Machine Learning Research，2014，15（1）：949-980.

［68］Li K，Gupta A，Reddy A，et al.MURAL：metalearning uncertaintyaware rewards for outcomedriven reinforcement learning［C］//Proc of the 38th International Conference on Machine Learning.2021：6346-6356.

［69］Yaniv F，Meir F.Universal batch learning with logloss［C］//Proc of IEEE International Symposium on Information Theory.Piscataway，NJ：IEEE Press，2018：21-25.

［70］Gurumurthy S，Kumar S，Sycara K.MAME：modelagnostic metaexploration［C］//Proc of the 3rd Conference on Robot Learning.2019：910-922.

［71］Gupta A，Mendonca R，Liu Y，et al.Metareinforcement learning of structured exploration strategies［C］//Proc of the 32nd International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2018：5307-5316.

［72］Xu Tianbing，Liu Qiang，Zhao Liang， et al.Learning to explore with metapolicy gradient［C］//Proc of the 35th International Conference on Machine Learning.2018：5463-5472.

［73］Houthooft R，Chen R Y，Isola P，et al.Evolved policy gradients［C］//Proc of the 32nd International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2018：5405-5414.

［74］Kirsch L，Van Steenkiste S，Schmidhuber J R.Improving generalization in meta reinforcement learning using learned objectives［EB/OL］.（201910-09）［2022-06-01］.https：//arxiv.org/pdf/1910.04098.pdf.

［75］Bechtle S，Molchanov A，Chebotar Y，et al.Meta learning via learned loss［C］//Proc of the 25th International Conference on Pattern Recognition.Piscataway，NJ：IEEE Press，2021：4161-4168.

［76］Oh J，Hessel M，Czarnecki W M，et al.Discovering reinforcement learning algorithms［EB/OL］.（2020-0717）［2022-06-01］.https：//arxiv.org/pdf/2007.08794.pdf.

［77］Munkhdalai T，Yu H.Meta networks［C］//Proc of the 34th International Conference on Machine Learning.2017：2554-2563.

［78］Frans K，Ho J，Chen Xi，et al.Meta learning shared hierarchies［EB/OL］.（201710-26）［2022-06-01］.https：//arxiv.org/pdf/1710.09767v1.pdf.

［79］Vezhnevets A S，Osindero S，Schaul T，et al.Feudal networks for hierarchical reinforcement learning［C］//Proc of the 34th International Conference on Machine Learning.2017：3540-3549.

［80］Dayan P，Hinton G E.Feudal reinforcement learning［C］//Proc of the 5th International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，1992：271-278.

［81］Sung F，Zhang Li，Xiang Tao，et al.Learning to learn：metacritic networks for sample efficient learning［EB/OL］.（2017-06-29）［2022-06-01］.https：//arxiv.org/pdf/1706.09529.pdf.

［82］Levy A，Platt R，Saenko K.Hierarchical actorcritic［EB/OL］.（201712-04）［2022-06-01］.https：//arxiv.org/pdf/1712.00948v3.pdf.

［83］BenIwhiwhu E，Dick J，Ketz N A，et al.Context metareinforcement learning via neuromodulation［J］.Neural Networks，2022，152（8）：7079.

［84］Doya K.Metalearning and neuromodulation［J］.Neural Networks，2002，15（46）：495-506.

［85］Fu Haotian，Tang Hongyao，Hao Jianye，et al.MGHRL：meta goalgeneration for hierarchical reinforcement learning［C］//Proc of the 2nd International Conference on Distributed Artificial Intelligence.Cham：Springer，2020：29-39.

［86］Li Lanqing，Yang Rui，Luo Dijun.FOCAL：efficient fullyoffline metareinforcement learning via distance metric learning and behavior regularization［EB/OL］.（202010-02）［2022-06-01］.https：//arxiv.org/pdf/2010.01112.pdf.

［87］Dorfman R，Shenfeld I，Tamar A.Offline meta reinforcement learningidentifiability challenges and effective data collection strategies［C］//Proc of the 35th International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2021，34：4607 4618.

［88］Zintgraf L，Shiarlis K，Igl M，et al.VariBAD：a very good method for Bayesadaptive deep RL via meta learning［EB/OL］.（201910-26）［2022-06-01］.https：//arxiv.org/pdf/1910.08348.pdf.

［89］Luo M，Balakrishna A，Thananjeyan B，et al.MESA：offline metaRL for safe adaptation and fault tolerance［EB/OL］.（202112-07）［2022-06-01］.https：//arxiv.org/pdf/2112.03575v1.pdf.

［90］Mitchell E，Rafailov R，Peng Xuebin，et al.Offline metareinforcement learning with advantage weighting［C］//Proc of the 38th International Conference on Machine Learning.2021：77807791.

［91］Zintgraf L M，Feng L，Lu Cong，et al.Exploration in approximate hyperstate space for meta reinforcement learning［C］//Proc of the 38th International Conference on Machine Learning.2021：1299113001.

［92］Gupta A，Eysenbach B，Finn C，et al.Unsupervised metalearning for reinforcement learning［EB/OL］.（2018-0612）［2022-06-01］.https：//arxiv.org/pdf/1806.04640.pdf.

［93］Jabri A，Hsu K，Gupta A，et al.Unsupervised curricula for visual metareinforcement learning［C］//Proc of the 33rd International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2019：1051910531.

［94］Yu Tianhe，Quillen D，He Zhanpeng，et al.MetaWorld：a benchmark and evaluation for multitask and meta reinforcement learning［C］//Proc of the 4th Conference on Robot Learning.2020.

［95］Cobbe K，Klimov O，Hesse C，et al.Quantifying generalization in reinforcement learning［C］//Proc of the 36th International Conference on Machine Learning.2019：12821289.

［96］Wang J X，King M，Porcel N，et al.Alchemy：a benchmark and analysis toolkit for metareinforcement learning agents［C］//Proc of the 35th Conference on Neural Information Processing Systems Track on Datasets and Benchmarks.2021.

［97］Yao Huaxiu，Huang Longkai，Zhang Linjun，et al.Improving generalization in metalearning via task augmentation［C］//Proc of the 38th International Conference on Machine Learning.2021：1188711897.

［98］楊思明，單征，丁煜，等.深度強化學習研究綜述［J］.計算機工程，2021，47（12）：19-29.（Yang Siming，Shan Zheng，Ding Yu，et al.Survey of research on deep reinforcement learning［J］.Computer Engineering，2021，47（12）：19-29.）

［99］李茹楊，彭慧民，李仁剛，等.強化學習算法與應用綜述［J］.計算機系統應用，2020，29（12）：13-25.（Li Ruyang，Peng Huimin，Li Rengang，et al.Overview on algorithms and applications for reinforcement learning［J］.Computer Systems amp; Applications，2020，29（12）：13-25.）

收稿日期：2022-06-06；修回日期：2022-08-11基金項目：國家自然科學基金資助項目

作者簡介：趙春宇（2000-），女，山東日照人，碩士研究生，主要研究方向為深度強化學習、元強化學習；賴俊（1979-），男（通信作者），四川成都人，副教授，碩導，主要研究方向為人工智能、計算機仿真（2568754202@qq.com）．

計算機應用研究2023年1期

計算機應用研究的其它文章: 基于IMPSiamCAR孿生網絡無人機目標跟蹤算法; 基于三分量自主意識UAV路面遙感圖像拼接算法; 小波系數指導的全色銳化網絡; 基于光流的視頻缺陷檢測及修復方法; PointPCA:一種三維空間點云的特征提取算法; FuseNet：應用于移動端的輕量型圖像識別網絡