999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于課程學習的深度強化學習研究綜述

2022-11-25 02:56:00林澤陽陳希亮
計算機技術與發展 2022年11期
關鍵詞:深度智能方法

林澤陽,賴 俊,陳希亮

(陸軍工程大學 指揮控制工程學院,江蘇 南京 210007)

0 引 言

強化學習(Reinforcement Learning,RL)作為機器學習分支之一,在人工智能領域具有重要地位[1]:智能體在環境中通過“交互-試錯”獲取正/負獎勵值,調整自身的動作策略,從而生成總獎勵值最大的動作策略模型[2]。

傳統強化學習方法在有限狀態空間和動作空間的任務中能夠取得較好的收斂效果[3],但復雜空間狀態任務往往具有很大的狀態空間和連續的動作空間,尤其當輸入數據為圖像和聲音時,傳統強化學習很難處理,會出現維度爆炸問題[4-5]。解決上述問題的一個方法,就是將強化學習和深度神經網絡(Deep Neural Network,DNN)結合,用多層神經網絡來顯式表示強化學習中的值函數和策略函數[6]。

深度強化學習(Deep Reinforcement Learning,DRL)將深度學習的感知能力和強化學習的決策能力相結合[7],近年來在人工智能領域迅猛發展,例如Atari游戲[8-9]、復雜機器人動作控制[10-11],以及圍棋AlphaGo智能的應用[12]等,2015年機器學習領域著名專家Hinton、Bengio、Lecun在《Nature》上發表的深度學習綜述一文將深度強化學習作為深度學習的重要發展方向[13]。

盡管在過去三十年間取得很大進步,但由于標準強化學習智能體的初始設定都是隨機策略,在簡單環境中通過隨機探索和試錯,能夠達成較好的訓練效果[14]。但在復雜環境中由于狀態空間的復雜性、獎勵信號的稀疏性,強化學習從環境中獲取樣本的成本不斷提高,學習時間過長,從而影響了智能體的有效探索[15]。

解決上述問題的一個有效途徑,就是將課程學習(Curriculum Learning,CL)和深度強化學習相結合[16]。2009年,以機器學習領軍人物Bengio為首的科研團隊在國際頂級機器學習會議ICML上首次提出課程學習的概念[17],引起機器學習領域的巨大轟動。課程學習借鑒人類從簡單到復雜的學習思想,首先在任務集中篩選出部分簡單任務進行學習以產生訓練課程,而后在剩余的復雜任務中利用訓練課程進行學習,最后在整個訓練集中進行訓練。將課程學習和深度強化學習相結合,可以有以下兩個方面的作用[18]:(1)可以加快訓練模型的收斂速度,避免訓練初期對于復雜任務投入過多訓練時間;(2)提高模型的泛化能力,增強對復雜任務的學習能力。

該文首先對課程學習進行簡要描述,從四個角度對深度強化學習中的課程學習進行了分類整理,之后對近三年的基于課程學習的深度強化學習新算法進行了總結分析,最后討論了基于課程學習的深度強化學習的發展前景和挑戰。

1 基于課程學習的深度強化學習

課程學習的目標是自動設計和選擇完整序列的任務(即課程)M1,M2,…,Mt對智能體進行訓練,從而提高對目標任務的學習速度或性能[19],課程學習流程如圖1所示。

課程馬爾可夫決策過程(Curriculum Markov Decision Process,CMDP)[20]是一個6元組(S,A,p,r,Δs0,Sf),其中S是狀態空間集,A是動作空間集,p(s'|s,a)代表智能體在狀態s時采取動作a后轉移到狀態s'的概率,r(s,a,s')代表在狀態s采取動作a到達狀態s'所獲得的即時獎勵,Δs0代表初始狀態分布,Sf代表最終狀態集。

常見的課程創建方法有以下兩種[21]:(1)在線創建課程,根據智能體對給定頂點樣本的學習進度動態添加邊;(2)離線創建課程,在訓練前生成圖,并根據與不同頂點相關聯的樣本的屬性選擇邊。課程設計流程如圖2所示。

課程學習方法可認為包括三部分[22]:任務生成、排序和遷移學習。任務生成是創建一組好的中間任務的過程,從中獲取經驗樣本。排序研究了如何在一組經驗樣本上創建部分排序D,也就是說,如何生成課程圖的邊。遷移學習主要研究如何將知識從一個或多個源任務直接轉移到目標任務。為了評價源任務遷移到目標任務的性能優劣[23-24],有以下指標可以量化。(1)學習速度提升。即智能體在遷移知識的前提下能夠以多快的速度學習到最優策略,從而在目標任務上實現預期的性能值GO≥δ,其中δ是總任務期望的性能閾值。(2)初始性能提升。通過從源任務進行遷移,觀察智能體在學習過程中對目標任務的初始性能提升來衡量遷移效果。(3)漸近性能提升。通過比較智能體在使用遷移與不使用遷移時目標任務收斂后的最終性能來衡量遷移效果。

2 深度強化學習中的課程學習研究進展

對于強化學習智能體來說,自主學習一項復雜任務需要很長的時間。在深度強化學習中應用課程學習,可以通過利用一個或多個源任務的知識來加速或改善復雜目標任務的學習[25]。

Felipe等人提出了新方法[26]:(1)將目標任務劃分為簡單任務;(2)在盡量小的專家經驗支持下,根據面向對象的任務描述自動生成課程;(3)使用生成的課程來跨任務重用知識。實驗表明在人工指定和生成子任務方面都取得了更好的性能。

為了提高多智能體的學習性能,Jayesh等人應用前饋神經網絡(Feedforward Neural Network,FNN)完成協同控制任務[27],包括離散和連續動作任務,Daphna等人提出了推斷課程(Inference Curriculum,IC)的方法[28],從另一個網絡遷移學習的方式,接受不同任務的訓練。為了解決從稀疏和延遲獎勵中學習的局限性問題,Atsushi提出了一種基于漸進式神經網絡(Progressive Neural Network,PNN)的課程學習方法[29],帶參數的模塊被附加上預先確定的參數,該策略比單組參數的效果更好。

2.1 基于網絡優化的課程學習

傳統課程學習對于小規模的多智能體強化學習性能提升明顯,但在大規模多智能體環境中,由于環境和智能體之間的復雜動態以及狀態-動作空間的維度爆炸,這仍然具有挑戰性,所以如何更好地學習和產生更有效的任務課程是課程學習的研究重點。

王維塤等人設計了一種新的動態多智能體課程學習(Dynamic Multi-agent Curriculum Learning,DyMA-CL)來解決大規模智能體學習的問題[30],從一個小規模的多智能體場景開始學習,逐步增加智能體的數量。網絡設計里有三種遷移機制:緩存復用(Buffer Reuse,BR)、基于KL散度的課程蒸餾(Curriculum Distillation,CD)和模型重載(Model Reload,MR)。

DyAN的網絡結構如圖3所示,由于不同課程間智能體數量以及觀測維度變化,緩存復用和基于KL散度的課程蒸餾機制不能直接用于DyMA-CL框架中,王維塤等人提供了一個語義映射函數φ(·),將語義信息從每個智能體的觀察值中抽取出來,從而找出不同狀態空間之間的映射關系。

傳統的課程學習主要是針對單一類型智能體和固定的動作空間進行設計,Wu等人引入主從智能體的概念[31],采用異步策略共享感知網絡,在不同的動作空間內同時訓練多個智能體。

主從智能體以異步方式同時學習相應的控制策略,以不同的頻率運行,其中主智能體占用一半的線程,從智能體共享其余的一半線程。

2.2 基于多智能體合作的課程學習

不同的多智能體合作控制問題需要智能體在實現各自目標的同時為全局目標的成功做出貢獻。這種多目標多智能體的設置給目前針對單一的全局獎勵設置的算法帶來兩個問題[32]:(1)需要高效的學習探索,既要實現智能體的個體目標,又要為其他智能體的成功而進行合作;(2)不同智能體的行動和目標之間相互作用的信度分配。

為解決這兩個問題,Yang等人推導出一種基于多目標多智能體的梯度策略算法[33],并采用信度分配函數進行局部信度分配,使用一個增強函數來連接價值函數和策略函數。多目標多智能體的梯度策略如圖4所示。

階段1:作者在N=1和隨機目標采樣的誘導式MDP中訓練了一個演員π1(a|o,g)和一個評論家Q1(s1,a,g),與完整的多智能體環境相比,這種方法使用的樣本數量要少得多。

L(θQC)=

(1)

?θJ(π)=

在多智能體游戲中,隨著智能體數量的增加,環境的復雜性會呈指數級增長,所以在大規模智能體的前提下學習好的策略尤其具有挑戰性。為解決這一挑戰,Long等人引入了進化種群課程(Evolutionary Population Curriculum,EPC)[34],使用種群進化的方法來解決整個課程中的一個客觀錯位問題[35]:早期訓練的規模較小智能體模型,未必是應用到后期大規模智能體訓練的最佳模型。Long等人在訓練的各個階段維護多個智能體集,對各個智能體集進行混合匹配和微調,篩選出最佳適應性的智能體集進入下個階段。種群不變Q函數如圖5所示。

如圖5所示,左半部分中,作者利用注意力機制組合來自不同觀察動作編碼器fi的嵌入,右半部分是fi的詳細說明,作者還利用注意力模塊將M個不同的實體組合到一個觀察值中。

在強化學習中,以往的任務排序方法都以減少模型訓練時間并達到給定性能水平為目標進行探索。Francesco等人定義了一個通用的任務排序優化框架[36],并評估了常用的元啟發式搜索方法在多個任務上的性能。

給定一個評估指標P:C≤L×M→,它為一個特定的最終任務評估課程,考慮找到一個最優課程C的問題,如下:

P(c*,mf)≥P(c,mf)?c∈C≤L

(3)

2.3 基于能力評估的課程學習

與其他自監督的強化學習方法(如內在驅動方法)相比,多智能體的競爭可能會隨著環境復雜性的提高而更加激烈,并導致智能體產生類似于人類技能的行為[37]。Bowen等人提出一種以遷移和微調作為定量評估目標能力的方法[38],并且在一組特定領域的智力測驗中將捉迷藏智能體和內在驅動與隨機初始化基準值進行了比較。

在復雜的任務中,比如那些組合行動空間大的任務,隨機探索的效率太低,當前的學習進展比較緩慢。Gregory等人使用一個漸進增長的動作空間的課程來加速學習[39],智能體可以通過最初限制其動作空間來設置內部課程。Gregory的方法使用非策略強化學習來同時估計多個動作空間的最優值函數,并有效地將數據、值函數估計和狀態表示從受限的動作空間遷移到完整的任務。

(4)

因為每個動作空間都是較大動作空間的嚴格子集,因此在最壞的情況下,智能體總是可以退回到使用更受限制的動作空間的策略。

課程學習方法通常依靠啟發式方法來估計訓練實例的難度和模型的學習能力[40]。John P等人提出了基于能力評估的課程學習動態數據選擇(Dynamic Data Selection for Curriculum Learning via Ability Estimation,DDaCLAE)策略[41],該策略在每個訓練階段根據模型在該階段的能力評估動態選擇最佳訓練實例。

算法 1:DDaCLAE

輸入:數據(X,Y),模型φ,難度D,num_epochs

輸出:訓練好的模型φ

1: forein num_epochs do

5: train(φ,Xe,Ye)

6: end for

11:end procedure

DDaCLAE的訓練過程見算法1,John P等人使用評分函數估計模型能力,使用完整的訓練集而不是更新模型參數來獲取響應數據。John P等人發現,在GLUE分類任務上,使用學習困難參數的模型優于基于啟發式的課程學習模型。

2.4 基于功能函數的課程學習

通過課程來訓練智能體以提高智能體的性能和學習速度,Andrea等人提出了一種基于任務復雜度的自動課程生成方法[42],引入了不同的進程函數,包括基于智能體性能的自主在線任務進程。與其他基于任務的課程學習方法不同,這種方法的進階函數決定了智能體在每個中間任務上應該訓練多長時間。通過在網格世界[43]和復雜模擬導航領域[44]中與兩種最先進的課程學習算法的性能進行對比分析,證明了自動課程生成方法的優點和廣泛的適用性。

傳統課程學習的數值方法只提供了最初的啟發式解決方案,幾乎不能保證它們的質量。Francesco等人定義了一個新的灰盒函數[45],該函數包含一個合適的調度問題,可以有效地用來重構課程學習問題。

通過引入灰盒函數ψ:n×n→R,可以用參數(u,p)來計算課程c,并返回遺憾值Pr(c)。利用灰盒函數ψ,問題可以重新表示為:

(5)

(7)

(8)

3 算法分析與總結

強化學習是處理序列決策任務的流行范式[46],盡管在過去的三十年中取得了許多進步,但在許多領域的學習仍然需要與環境進行大量的交互,導致模型的訓練時間過長,收斂速度過慢。為了解決這個問題,課程學習被用于強化學習,這樣在一個任務中獲得的經驗可以在開始學習下一個更難的任務時加以利用。然而,盡管課程學習理論、算法和應用研究在國內外已普遍開展,并且也已經取得了較多的研究成果[47-48],但仍然有許多問題還亟待解決。

3.1 強化學習中的課程學習算法理論分析與對比

在算法和理論方面,傳統課程學習對于小規模的多智能體強化學習性能提升明顯,但在大規模多智能體環境中,由于環境和智能體之間的復雜動態以及狀態-行動空間的爆炸,因此在實際問題的解決上進展不大[49]。得益于深度神經網絡的數據處理能力,使用深度神經網絡表示回報函數,避免了特征提取工作,當前基于課程學習的深度強化學習算法在實驗場景中應用于StarCraft[50]、grid-world[51]、hide-and-seek[52]、Sokoban[53]等經典強化學習問題的解決。隨著課程學習技術的發展,算法在智能決策[54]、困難編隊下的合作導航[55]、在SUMO交通模擬器中協商多車輛變道[56]以及在Checkers環境下的戰略合作[57]等領域也取得了一定的成功。

該綜述分四個角度對目前強化學習中的課程學習方法進行分類并介紹,希望能夠為相關研究人員提供一點幫助。為方便了解和對比,該文分析、對比了這幾類方法的優缺點,并歸納在表1中。

表1 基于課程學習的深度強化學習算法匯總

(1)基于網絡優化的課程學習。解決大規模問題的方法是從小型多智能體場景開始學習,逐步增加智能體的數量,最終學習目標任務。使用多種傳輸機制以加速課程學習過程,課程設計是影響課程遷移成績的關鍵因素。如何選擇合適的課程(包括如何決定每個任務的訓練步長,如何選擇合適的學習模型重新加載等)是至關重要的。如何自動生成多智能體課程可能是目前尚存在的主要局限性,這將在今后的工作中進一步研究[58]。

(2)基于多智能體合作的課程學習。是根據全局目標和個體目標之間的關系進行學習探索,使用信度分配[33]、種群進化課程[34]、任務排序框架[36],通過函數增強方案來連接價值和策略函數的階段,在具有高維狀態空間的多目標多智能體環境中執行高挑戰性任務性能較好,缺點是沖突較為頻繁、更高的方差和無法維持合作解決方案[59],目前難以推廣到非齊次系統或沒有已知目標分配的設置的工作。

(3)基于能力評估的課程學習。通過限制其最初行動空間來設置內部課程,使用非策略強化學習同時估計多個行動空間的最優值函數,建立技能、表述和有意義的經驗數據集,從而避免從頭開始學習,加快學習效率。缺點是集群對每個狀態都會改變[60],這可能會干擾泛化,因為沒有一致的語義。

(4)基于功能函數的課程學習。通過設定級數函數和映射函數來為智能體量身定制在線課程,通過高斯過程定義智能體函數,學習策略在單位之間共享,以鼓勵合作行為。使用神經網絡作為函數逼近器來估計動作-價值函數,并提出一個獎勵函數來幫助單位平衡它們的移動和攻擊。缺點是只提供最初的啟發式解決方案[61],而且質量不能得到保證。

3.2 基于課程學習的深度強化學習研究方向

通過對最新課程學習算法理論的研究分析,本節對當前基于課程學習的深度強化學習存在的開放性問題和可能的研究方向進行討論。

(1)自動創建任務課程。

任務創建是課程學習方法的重要組成部分,任務質量會影響課程的生成質量,任務數量會影響課程排序算法的搜索空間和效率。現有課程學習中的任務大多由人工創建,減少任務創建過程中的人工輸入量是未來工作的重要發展方向[62]。

(2)遷移不同類型知識。

課程任務之間,知識必須從一個任務遷移到另一個任務。目前大部分研究中,知識遷移的類型是固定的。例如,Narvekar等人在任務之間遷移價值函數[63],而Svetlik等人遷移成型獎勵[64]。這種知識遷移類型的局限性在于,不同的任務對于知識類型的需求可能是不同的,因此可以從不同任務中分別提取知識進行組合。例如,從一個任務中提取一個選項,從另一個任務中提取模型,從而達成更好的學習效果。

(3)課程重用的成本分攤。

當前課程學習方法的另一個局限性是,生成課程的時間可能比直接學習目標任務的時間更長。原因在于,課程通常是為每個智能體和目標任務獨立學習的。因此,分攤成本的一種方法是學習一門課程來訓練多個不同的智能體[65],或解決多個不同的目標任務。

4 結束語

該文對基于課程學習的深度強化學習進行了回顧,由淺入深地對課程學習進行了分析,介紹了課程學習的概念理論、經典算法、研究進展和發展展望等,從基于網絡優化的課程學習、基于多智能體合作的課程學習、基于能力評估的課程學習、基于功能函數的課程學習四個角度對強化學習中的課程學習進行了分類梳理、對比分析,最后對基于課程學習的深度強化學習的未來展望進行簡要分析。

根據當前深度強化學習中存在的狀態空間復雜、維數災難、學習時間長等問題,課程學習會是未來的一個發展方向。課程學習算法可以將目標任務分解成多個子任務,結合大多數的強化學習算法,使用多種傳輸機制以加速強化學習進程,大大提高了學習探索效率和通用性。最后,目前課程算法在大規模多智能體場景的研究進展緩慢,其主要原因在于多智能體場景的復雜性。然而大規模多智能體場景更加貼近現實,優質的課程學習算法能夠在很大程度上提高學習探索的效率。因此,相信課程學習算法會成為深度強化學習的熱門方向,加快深度強化學習的發展速度。

猜你喜歡
深度智能方法
深度理解一元一次方程
深度觀察
深度觀察
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
深度觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 无码日韩人妻精品久久蜜桃| 国产毛片久久国产| 天天综合色网| 黄色一及毛片| 2020国产免费久久精品99| 一本色道久久88| 亚洲精品第五页| 亚洲第一成年网| 国产精品99r8在线观看| 亚洲色图欧美视频| 亚洲精品福利视频| 久久久久青草线综合超碰| 午夜天堂视频| 亚洲视频无码| 亚洲大学生视频在线播放| 亚洲精品成人片在线观看 | 亚洲综合狠狠| 在线免费a视频| 国产午夜精品一区二区三区软件| 中文国产成人精品久久| 在线无码av一区二区三区| 一级毛片免费不卡在线| 天天操天天噜| a亚洲天堂| 毛片a级毛片免费观看免下载| 国产另类视频| 婷婷99视频精品全部在线观看| 福利片91| 午夜国产理论| 亚洲伊人电影| 扒开粉嫩的小缝隙喷白浆视频| 日韩精品免费一线在线观看| 亚洲精品色AV无码看| 国产在线观看第二页| 午夜视频在线观看免费网站| 国产精品香蕉在线观看不卡| 亚洲人成亚洲精品| 欧美.成人.综合在线| 中文字幕 欧美日韩| 国产v欧美v日韩v综合精品| 四虎成人精品| 99热这里只有精品免费| 热伊人99re久久精品最新地| 国产肉感大码AV无码| 99草精品视频| 99热这里只有免费国产精品 | 国产精品免费电影| 国产欧美专区在线观看| 中文字幕va| 国产在线精品美女观看| 有专无码视频| 国产99精品久久| 高清久久精品亚洲日韩Av| 欧美午夜久久| 久久精品无码国产一区二区三区| 综合久久五月天| 国产真实自在自线免费精品| 欧美亚洲国产日韩电影在线| 在线视频97| 精品人妻AV区| 中文字幕在线看| 三级欧美在线| 香蕉久久永久视频| 国产一在线观看| 亚洲bt欧美bt精品| 一级毛片在线播放| 国产成人综合久久| 亚洲日本韩在线观看| 四虎成人精品在永久免费| 国产免费怡红院视频| 91日本在线观看亚洲精品| 日韩免费毛片| 中国一级毛片免费观看| 在线观看无码a∨| 黄色污网站在线观看| 国产性生大片免费观看性欧美| 538精品在线观看| 精品人妻系列无码专区久久| 国产在线八区| 国内熟女少妇一线天| 色综合成人| 国产国产人成免费视频77777|