999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于元強化學習的無人機自主避障與目標追蹤

2022-06-28 11:55:48江未來吳俊王耀南
湖南大學學報(自然科學版) 2022年6期
關鍵詞:深度動作

江未來,吳俊?,王耀南

(1.湖南大學電氣與信息工程學院,湖南長沙 410082;2.湖南大學機器人視覺感知與控制技術國家工程研究中心,湖南長沙 410082)

隨著衛(wèi)星導航、信號傳輸、電氣儲能等相關技術的進步,無人機的應用領域在不斷擴大,如森林防火、電力巡檢、物流運輸?shù)?這些任務的基本前提均為無人機目標追蹤,只有追上目標或到達指定地點才可以繼續(xù)執(zhí)行任務.無人機執(zhí)行目標追蹤任務時不可避免地會遇到障礙物,例如房屋、樹木、電線等.如何讓無人機安全自主地避開障礙物并實現(xiàn)目標追蹤是無人機領域一大研究熱點.

傳統(tǒng)避障算法有蟻群算法[1]、最短路徑制導向量場[2]和貝葉斯推理等.這些算法都是將避障問題轉(zhuǎn)換為優(yōu)化問題,通過求解優(yōu)化模型而得到最終的無人機飛行軌跡.但是這些方法由于存在迭代時間長、泛化能力弱、智能化水平低等缺點,無法適用于環(huán)境多變或環(huán)境未知下的避障問題.隨著人工智能技術發(fā)展,深度強化學習逐漸被運用于求解無人機自主避障與目標追蹤問題.文獻[3-5]基于深度Q網(wǎng)絡(Deep Q Net,DQN)[6]算法完成無人機離散動作空間下路徑規(guī)劃.文獻[7-8]采用深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)[9]算法實現(xiàn)無人機連續(xù)動作空間下目標追蹤的自主決策.

雖然上述算法均取得了一定的成果,但是傳統(tǒng)深度強化學習算法訓練速度慢,且只能應對單一環(huán)境下的任務,而當障礙物環(huán)境或目標運動軌跡改變時,智能體往往需要重新進行大量探索和訓練.因此如何提升深度強化學習算法面對復雜動態(tài)任務時的收斂速度和適應性成為強化學習領域的一大熱點和難點.

近年來,有學者將元學習與深度強化學習相結合,提出了元強化學習概念.元學習主張讓機器學習如何學習,人類之所以比機器更智能是因為當遇到一個新任務時,人類知道怎么在短時間內(nèi)得出執(zhí)行任務的要領.Finn 等[10]提出與模型無關的元學習(Model-Agnostic Meta-Learning,MAML),可適用于任何采用梯度下降更新方法的機器學習算法.Wang等[11]首次將長短期記憶網(wǎng)絡與強化學習結合,使得神經(jīng)網(wǎng)絡具有能夠獨立訓練任務的能力.Xu 等[12]提出在深度強化學習神經(jīng)網(wǎng)絡中添加嵌入層對上下文潛在變量進行元訓練以提高分布式數(shù)據(jù)挖掘的效率.然而,發(fā)揮元強化學習可根據(jù)新任務自主適應的優(yōu)勢,用以解決復雜動態(tài)環(huán)境下的無人機自主避障與目標追蹤問題鮮有報道.

綜上,為解決傳統(tǒng)深度強化學習在求解無人機自主避障與目標追蹤任務時收斂特性差、環(huán)境適應性弱的問題,本文提出了一種元深度確定性策略梯度(Meta-Deep Deterministic Policy Gradient,Meta-DDPG)算法.將元學習算法MAML 與深度強化學習算法DDPG 相結合,在預訓練過程中設計內(nèi)外部元參數(shù)更新規(guī)則,獲取可以適應多種任務的元初始參數(shù).此外,構造基本元任務集運用于Meta-DDPG 算法預訓練階段.最后仿真結果表明,采用基本元任務集使得工程應用更加高效,Meta-DDPG 算法與DDPG算法相比具有更優(yōu)的收斂特性與環(huán)境適應性,并且元學習方法和基本元任務集對確定性策略強化學習算法具有較高的通用性.

1 問題描述

1.1 無人機運動模型

本文重點討論無人機在執(zhí)行自主避障與目標追蹤任務時的決策問題,故將無人機視為二維空間下的運動模型,使用水平與垂直方向的加速度來控制無人機的運動,如圖1所示[13].圖中,(xt,yt)為無人機t時刻的位置坐標為無人機通過GPS 等設備獲取目標t時刻的位置坐標為無人機利用避障傳感器感知環(huán)境的最大歐氏距離;vt為無人機t時刻的飛行速度為目標t時刻的運動速度;dt為無人機t時刻與目標之間的歐氏距離為無人機t時刻與障礙物之間的直線距離;vx|t、vy|t分別表示t時刻無人機水平與垂直方向上的飛行速度.

圖1 無人機的運動學模型Fig.1 Kinematic model of UAV

考慮到實際情況中無人機速度不能瞬間變化,故無人機運動方程可表示為

式中:nt為無人機t時刻的加速度大小;α為加速度方向與水平線的夾角.

1.2 無人機自主避障與目標追蹤任務建模

為了更好地描述無人機自主避障與目標追蹤任務,將其定義為馬爾可夫決策過程(Markov decision process,MDP).MDP由狀態(tài)空間S、動作空間A、狀態(tài)轉(zhuǎn)移概率P、獎勵函數(shù)R和折扣因子γ組成,并以元組表示為(S,A,P,R,γ).在該任務中狀態(tài)空間S為無人機的本體狀態(tài)與傳感器采集的環(huán)境信息;動作空間A為無人機采取的追蹤動作;狀態(tài)轉(zhuǎn)移概率P[st+1|st,at]為狀態(tài)st下執(zhí)行動作at轉(zhuǎn)移到st+1的概率;獎勵函數(shù)R為在狀態(tài)st下采取動作at,無人機可以獲得的即時獎勵,即R(st,at);折扣因子γ為未來獎勵對當前狀態(tài)的影響因素.在此定義動作值函數(shù)的貝爾曼方程為

式中:π表示智能體所采取的動作序列,稱為策略;

Qπ(s,a)表示在狀態(tài)s處,采取動作a后,所得到的折扣累計獎勵的期望.根據(jù)Qπ(s,a)值大小可評估策略π的優(yōu)劣.

1.2.1 狀態(tài)空間S

狀態(tài)空間S為智能體自身狀態(tài)和環(huán)境信息的集合.在該任務中設狀態(tài)空間S由無人機所在位置坐標(xt,yt)、目標所在位置坐標無人機與目標之間的歐氏距離dt、傳感器范圍內(nèi)無人機與障礙物的歐氏距離和無人機的速度vt共7個數(shù)據(jù)組成,并對數(shù)據(jù)進行歸一化.

最終狀態(tài)空間S記作

1.2.2 動作空間A

動作空間A為智能體可執(zhí)行的動作.由于無人機速度不能瞬間變化,所以動作空間由加速度大小n和加速度方向與水平線的夾角α組成,同樣進行歸一化為

式中,nmax為無人機最大加速度.

所以動作空間A記作

深度強化學習算法最終目標是獲得最優(yōu)策略π,即在任意狀態(tài)s下所執(zhí)行的動作a.

1.2.3 獎勵函數(shù)R

獎勵函數(shù)的設定對深度強化學習的訓練結果至關重要,不同的獎勵函數(shù)對模型收斂特性影響都不同.此任務中,若采用稀疏獎勵,也即只在無人機追蹤成功或失敗后才反饋獎勵,會造成收斂速度緩慢的問題.因此本文設置連續(xù)獎勵函數(shù)為

式中:r1為追蹤獎勵;r2為避障獎勵;r3為距離獎勵;r為總獎勵;d為無人機感知范圍內(nèi)障礙物的歐氏距離;d為無人機與目標之間的歐氏距離.

2 DDPG算法

DDPG 是一種處理連續(xù)狀態(tài)空間和動作空間問題的確定性策略強化學習算法.傳統(tǒng)演員-評論家(Actor-Critic,AC)算法中演員網(wǎng)絡與評論家網(wǎng)絡在訓練時往往不穩(wěn)定.DDPG 算法針對此問題,分別構建了一對結構完全相同的評估(Eval)神經(jīng)網(wǎng)絡和目標(Target)神經(jīng)網(wǎng)絡.其中Eval神經(jīng)網(wǎng)絡用于訓練更新網(wǎng)絡參數(shù),Target神經(jīng)網(wǎng)絡采用軟更新的方式來跟隨Eval神經(jīng)網(wǎng)絡參數(shù),保證訓練過程的穩(wěn)定性.

對于演員Eval 網(wǎng)絡,可訓練參數(shù)為θ,輸入為狀態(tài)s,輸出為動作a.演員Eval神經(jīng)網(wǎng)絡損失函數(shù)為

式中:Qπθ(s,a)為在狀態(tài)s處根據(jù)策略πθ得到的動作值函數(shù).采用梯度下降法,使盡可能最大化.

對于評論家Eval 網(wǎng)絡,可訓練的參數(shù)為w,輸入為狀態(tài)s和動作a,輸出為動作值利用時間差分誤差(TD-error)對神經(jīng)網(wǎng)絡進行訓練,評論家Eval神經(jīng)網(wǎng)絡損失函數(shù)為

式中:r(s,a)為在狀態(tài)s處采取動作a可獲得的即時獎勵;為評論家Target 神經(jīng)網(wǎng)絡給出的下一個時刻的行為值;w′為評論家Target神經(jīng)網(wǎng)絡參數(shù);θ′為演員Target神經(jīng)網(wǎng)絡參數(shù);s′為下一時刻的狀態(tài);πθ′(s′)為演員Target 神經(jīng)網(wǎng)絡輸出的動作;Q(s,πθ(s);w)為評論家Eval 神經(jīng)網(wǎng)絡給出的當前時刻行為值;w為評論家Eval 神經(jīng)網(wǎng)絡參數(shù);s和πθ(s) 為當前時刻狀態(tài)與動作;γ為折扣因子;為TD-error.

Target 神經(jīng)網(wǎng)絡采用式(14)周期性地進行軟更新,其中τ是常數(shù).

3 MAML

元學習使智能體具有學會學習的能力[14].元學習的重點在于如何在模型中引入先驗知識,并在訓練過程中優(yōu)化外部記憶,從而在訓練新任務時更快更準確地學習.MAML 與其他深度學習算法不同之處在于其不是尋找完成某個任務的最優(yōu)參數(shù),而是通過訓練一系列與任務相關的元任務來尋找使模型在面對新任務時快速達到最優(yōu)的初始參數(shù)η.η具有對新任務學習域分布的敏感特性,在面臨新任務時可使訓練模型內(nèi)部的某些特征更容易地在多種任務之間相互轉(zhuǎn)換,經(jīng)過幾步更新后即可獲得最優(yōu)的模型網(wǎng)絡參數(shù).MAML 梯度下降過程如圖2 所示.圖中,η表示經(jīng)過MAML 預訓練后得到的初始化參數(shù);L1,L2,L3分別表示新任務的損失函數(shù);?表示梯度算子表示在新任務下的最優(yōu)更新方向.

圖2 MAML梯度下降過程Fig.2 MAML gradient descent process

4 元強化學習

在深度強化學習的訓練過程中,神經(jīng)網(wǎng)絡的不確定性往往會導致算法收斂特性較差,且訓練的結果是一個僅適應當前任務和環(huán)境的策略.針對深度強化學習實施過程中存在的上述問題,本文在DDPG算法中引入MAML,提出一種元強化學習算法——Meta-DDPG 算法.其基本思想是設計一種內(nèi)外部元參數(shù)更新規(guī)則以獲得一組元初始參數(shù),提高模型面對不同任務的收斂速度和環(huán)境適應性.

4.1 基本元任務集

環(huán)境適應性是指模型面對一個新任務環(huán)境時經(jīng)過少量訓練便可獲取正確策略的能力.元強化學習需要利用元任務集獲得先驗知識而提升模型的環(huán)境適應性,大部分元強化學習中的元任務集與實際任務場景相似[15-16].若把多種不同的復雜測試環(huán)境作為求解無人機自主避障與目標追蹤問題的元任務集,使用Meta-DDPG 算法進行預訓練將花費大量時間,降低工程效率.為此,根據(jù)MAML 中元任務的定義,將一個復雜多變的整體任務分解為多個只完成單一子任務目標的基本元任務,并將它們構成基本元任務集T={T1,T2,…,Tj},其中Tj為第j個基本元任務,同時為T中的每個基本元任務創(chuàng)建經(jīng)驗回放池Meta-DDPG 算法預訓練過程中,智能體依次對T內(nèi)每個基本元任務進行訓練得到能夠適應每個子任務的策略,最終獲得學習整體任務的元初始參數(shù).

在無人機自主避障與目標追蹤任務中,基本元任務集中包含無人機追蹤與無人機避障兩個基本元任務,如圖3 所示.在Meta-DDPG 算法預訓練中,首先學習無人機在無障礙物環(huán)境下靜態(tài)目標追蹤策略,然后學習無人機在簡單障礙物環(huán)境下的自主避障策略,最終獲得一個可以適應自主避障和目標追蹤新任務的元初始參數(shù).由于基本元任務都較為簡單,只需要較少幕數(shù)便可獲取其中的先驗知識,提高了預訓練的效率.

圖3 基本元任務集構造Fig.3 The construction of the basic meta-task sets

4.2 Meta-DDPG算法

Meta-DDPG 算法分為預訓練和整體任務訓練兩部分.在預訓練中,設計一種內(nèi)外部元參數(shù)更新規(guī)則,內(nèi)部網(wǎng)絡訓練和外部元參數(shù)更新以一定的頻率交替進行.內(nèi)部網(wǎng)絡依次學習各個基本元任務獲得不同的內(nèi)部參數(shù),外部元參數(shù)更新通過優(yōu)化不同的參數(shù)獲得一個環(huán)境適應性較強的元初始參數(shù).在整體任務訓練中,對于不同測試環(huán)境下無人機自主避障與目標追蹤,Meta-DDPG 算法僅通過少量訓練幕數(shù)就能快速收斂,獲取正確動作策略.

Meta-DDPG 預訓練中內(nèi)部參數(shù)更新可描述為依次對每個基本元任務的訓練過程,利用Meta-DDPG中Eval 神經(jīng)網(wǎng)絡與Target 神經(jīng)網(wǎng)絡配合不斷更新獲得適用于基本元任務的神經(jīng)網(wǎng)絡內(nèi)部參數(shù).對于外部元參數(shù)更新,可描述為對基本元任務集的神經(jīng)網(wǎng)絡參數(shù)二次梯度優(yōu)化過程.外部周期性地對元參數(shù)進行更新,更新規(guī)則為

式中:θmeta為演員Target神經(jīng)網(wǎng)絡的外部元參數(shù);wmeta為評論家Target 神經(jīng)網(wǎng)絡的外部元參數(shù);n為完成訓練的基本元任務數(shù)量;τ為常數(shù),控制元參數(shù)更新的速度為元任務Tj訓練過程中的演員Target 神經(jīng)網(wǎng)絡參數(shù)為元任務Tj訓練過程中的評論家Tar?get神經(jīng)網(wǎng)絡參數(shù).預訓練結束后,θmeta和wmeta即為元初始參數(shù).Meta-DDPG網(wǎng)絡結構如圖4所示.

圖4 Meta-DDPG算法結構圖Fig.4 Meta-DDPG algorithm structure diagram

以基本元任務Tj為例,當Meta-DDPG 網(wǎng)絡內(nèi)部更新一定步數(shù)后外部元參數(shù)也進行更新.在每個基本元任務交替過程中,將外部元參數(shù)賦值給內(nèi)部參數(shù)作為下一個基本元任務Tj+1的初始參數(shù),直至遍歷完基本元任務集后獲得整體任務的元初始參數(shù).預訓練流程如算法1所示.

算法1 Meta-DDPG中預訓練算法Algorithm.1 Pre-training algorithm of META-DDPG

通過以上算法可獲得無人機自主避障與目標追蹤任務的元初始參數(shù)θmcta、wmcta.訓練整體任務時利用此參數(shù)初始化,模型可充分利用先驗知識,僅需少量迭代便可收斂并獲得完成任務的策略.后續(xù)對整體任務的訓練過程與DDPG 算法相同,在此不再贅述.另需指出的是,本文所提出的Meta-DDPG 算法面對新任務時不必重復預訓練,只需使用元初始參數(shù)進行網(wǎng)絡初始化.

5 仿真結果與分析

使用Meta-DDPG 算法求解無人機自主避障與目標追蹤任務.設定追蹤場景為600 m×600 m 的二維正方形領域,場景中存在多個障礙物,并且當目標感知無人機靠近時會產(chǎn)生逃逸動作.無人機可利用GPS 等設備獲取目標位置且通過傳感器獲取與障礙物的距離.當無人機自主避開障礙物并追蹤到目標視為任務成功;當無人機撞上障礙物、無人機或目標離開正方形領域兩種情況視為任務失敗.

5.1 實驗參數(shù)

設無人機與障礙物之間最大直線距離dmax=850m;無人機加速度大小n∈[-3 m/s2,3 m/s2];無人機最大飛行速度vmax=20 m/s,最小飛行速度vmin=5 m/s;無人機避障傳感器最大測量范圍dmax=50 m;預訓練網(wǎng)絡超參數(shù)τ=0.1,折扣因子γ=0.9;各元任務預訓練幕數(shù)episode_meta=100;整體任務訓練幕數(shù)episode=500;經(jīng)驗回放池容量為1 000;探索步數(shù)為1 000 步;演員深度神經(jīng)網(wǎng)絡學習率lractor=0.000 1;評論家深度神經(jīng)網(wǎng)絡學習率lrcritic=0.000 5;外部元參數(shù)更新頻率meta_update_freq=10;采樣經(jīng)驗數(shù)量N=32.

5.2 深度神經(jīng)網(wǎng)絡結構

根據(jù)式(5)知狀態(tài)空間S包含7 個參數(shù),故演員深度神經(jīng)網(wǎng)絡為7維輸入;由式(7)動作空間A包含2個參數(shù),故為2 維輸出.評論家深度神經(jīng)網(wǎng)絡輸入為當前狀態(tài)與演員深度神經(jīng)網(wǎng)絡輸出的動作,故為9維輸入;輸出為行為值Q(s,a),故為1 維輸出.由上可設演員和評論家深度神經(jīng)網(wǎng)絡結構分別為7×256×256×256×2和9×256×256×256×1.

演員深度神經(jīng)網(wǎng)絡中,輸出動作均歸一化至[-1,1],輸出層使用Tanh 激活函數(shù),其余層均使用Relu激活函數(shù).評論家深度神經(jīng)網(wǎng)絡中,輸出層為線性激活函數(shù)以確保行為值Q(s,a)正常輸出,其余層也均使用Relu激活函數(shù).

5.3 實驗結果

5.3.1 基本元任務集預訓練效果驗證

構造基本元任務集,將無人機自主避障與目標追蹤任務分解為無人機追蹤與無人機避障兩個基本元任務并分別構建經(jīng)驗回放池,如圖3 所示.作為對比,將圖5 中兩個復雜測試環(huán)境下動態(tài)目標追蹤任務作為復雜元任務集.使用Meta-DDPG 算法,對兩種元任務集各進行共200 幕預訓練.整體任務為圖6(a)中測試環(huán)境(1)下的無人機自主避障與目標追蹤.

圖5 復雜元任務集Fig.5 The complex meta-task sets

利用平均獎勵值的收斂特性來衡量網(wǎng)絡的預訓練效果.如圖6(b)所示,可知在每個元任務訓練100幕的情況下,當采用基本元任務集時可以更充分地利用先驗知識獲得適應整體任務的元初始參數(shù).平均獎勵值的上升速度與收斂特性都優(yōu)于復雜元任務集.Meta-DDPG 算法整體任務測試結果如圖6(a)所示.

圖6 Meta-DDPG在測試環(huán)境(1)中實驗結果Fig.6 Experimental results of Meta-DDPG in the testing environment(1)

5.3.2 Meta-DDPG收斂特性驗證

使用5.3.1 節(jié)中預訓練獲得的元初始參數(shù),在圖7(a)測試環(huán)境(2)中進行500 幕訓練后測試.為了更好地體現(xiàn)Meta-DDPG 在收斂速度上的優(yōu)勢,使用不經(jīng)預訓練的DDPG 算法與之比較.利用平均獎勵值的收斂特性和Tensorboard 中演員Eval 神經(jīng)網(wǎng)絡的Loss值來衡量算法的性能,仿真曲線分別如圖7(b)、圖7(c)所示.

由圖7(b)可知,使用Meta-DDPG 算法時,平均獎勵值在訓練伊始就迅速上升,且經(jīng)過150 幕訓練后逐漸達到收斂.由圖7(c)知元初始參數(shù)可使演員Eval網(wǎng)絡Loss值迅速下降,并在訓練120幕后在一個較低的范圍內(nèi)波動.使用Meta-DDPG 訓練500 幕所得模型進行測試,測試結果如圖7(a)所示,由圖知無人機可自主繞過障礙物并準確地追上逃逸的目標.而DDPG 算法由于先驗知識缺失、探索效率低、經(jīng)驗樣本質(zhì)量差等原因,在較短的訓練幕數(shù)與較少的經(jīng)驗池容量下陷入錯誤的局部最優(yōu),無法得到完成此任務的策略.圖7(b)可知平均獎勵曲線無法正確地收斂,平均獎勵始終小于0.圖7(c)可知DDPG 無法通過訓練使演員Eval網(wǎng)絡Loss函數(shù)梯度下降,loss值始終大于0.

圖7 Meta-DDPG在測試環(huán)境(2)中實驗結果Fig.7 Experimental results of Meta-DDPG in the testing environment(2)

5.3.3 Meta-DDPG環(huán)境適應性驗證

為了突出Meta-DDPG 算法的環(huán)境適應性,在如圖8(a)所示障礙物大小不同、目標運動軌跡不同的測試環(huán)境(3)中,使用與5.3.2 節(jié)相同的元初始參數(shù)進行訓練與測試.作為對比,使用能夠在測試環(huán)境(1)中完成任務的DDPG 算法模型進行訓練.由圖8(b)可知,Meta-DDPG 算法的平均獎勵在訓練伊始就快速上升,150 幕后相對穩(wěn)定,環(huán)境適應性較強.而DDPG 算法的平均獎勵值在350 幕才開始上升,且在500 幕內(nèi)尚未收斂.Meta-DDPG 算法整體任務測試結果如圖8(a)所示.

圖8 Meta-DDPG在測試環(huán)境(3)中實驗結果Fig.8 Experimental results of Meta-DDPG in the testing environment(3)

5.3.4 元學習方法與基本元任務集通用性驗證

為了體現(xiàn)元學習方法和基本元任務集對確定性策略強化學習算法的通用性,將其運用于與DDPG算法同為確定性策略的雙延遲深度確定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)[17]算法,構造Meta-TD3 算法.使用圖3 的基本元任務集預訓練,并在測試環(huán)境(2)-(3)中對其收斂特性和環(huán)境適應性進行仿真驗證,仿真結果見圖9.

圖9 元學習方法與基本元任務集通用性實驗結果Fig.9 Experimental results of generality of the meta learning and the basic meta-task sets

由圖9(a)可知,Meta-TD3算法與Meta-DDPG算法結果類似,均可在較短訓練幕數(shù)與較小經(jīng)驗池容量下充分利用元初始參數(shù)內(nèi)的先驗知識,平均獎勵曲線在250 幕后逐漸收斂.而TD3 算法在此情況下同樣陷入錯誤的局部最優(yōu),無法正確收斂且平均獎勵始終小于0.由圖9(b)可知Meta-TD3 算法面對新測試環(huán)境時可在300 幕后逐漸達到收斂,具有較高的環(huán)境適應性.以上表明元學習方法和基本元任務集對確定性策略強化學習算法具有較好的通用性,且元強化學習方法能夠有效地解決傳統(tǒng)深度強化學習算法中存在的收斂特性差、面對新任務泛化能力弱的問題.

6 結論

本文對無人機自主避障與目標追蹤任務進行建模,將深度強化學習算法DDPG與元學習算法MAML結合,并設計一種內(nèi)外部元參數(shù)更新規(guī)則,提出元強化學習算法Meta-DDPG.該算法能夠有效地解決傳統(tǒng)深度強化學習存在的收斂特性差、面對新任務泛化能力弱的問題.此外,構建基本元任務集以提升工程應用時預訓練的效率.仿真結果表明,在求解無人機自主避障與目標追蹤任務時,不論是對于該無人機任務訓練的收斂特性,還是面對不同任務的環(huán)境適應性,Meta-DDPG 算法與DDPG 算法對比都有著顯著的提高.同時,使用基本元任務集進行預訓練時,比傳統(tǒng)元任務集更為高效.且元學習方法和基本元任務集對于確定性策略強化學習算法具有較好的通用性.

猜你喜歡
深度動作
下一個動作
深度理解一元一次方程
深度觀察
深度觀察
深度觀察
深度觀察
動作描寫要具體
畫動作
讓動作“活”起來
動作描寫不可少
主站蜘蛛池模板: 国产精品密蕾丝视频| 91在线精品免费免费播放| 亚洲欧美在线综合图区| 国产精品欧美在线观看| 国产永久无码观看在线| 久久精品无码国产一区二区三区 | 亚洲视频免| 中文字幕天无码久久精品视频免费 | 国产a v无码专区亚洲av| 扒开粉嫩的小缝隙喷白浆视频| 亚洲第一视频区| 精品国产自在现线看久久| 尤物视频一区| 国产精品亚欧美一区二区三区| 中文字幕亚洲专区第19页| 99久久无色码中文字幕| 免费激情网址| 91丝袜在线观看| 日韩一区二区三免费高清| 国产美女无遮挡免费视频网站| 999国产精品永久免费视频精品久久| 被公侵犯人妻少妇一区二区三区| 91福利在线观看视频| 欧美精品成人| 国产91特黄特色A级毛片| 久久免费视频播放| 欧美三级视频在线播放| 亚洲高清资源| 亚洲国产天堂久久综合| 国产成人精品在线1区| 九色在线观看视频| 国产91九色在线播放| a毛片免费观看| 在线亚洲天堂| 精品视频在线观看你懂的一区| 永久天堂网Av| 免费国产小视频在线观看| 色偷偷男人的天堂亚洲av| 欧洲欧美人成免费全部视频| a亚洲天堂| 综合社区亚洲熟妇p| 毛片一级在线| 91网在线| 久久a级片| 天堂中文在线资源| 亚洲国产高清精品线久久| 亚洲天堂伊人| 亚洲人成成无码网WWW| 成人无码区免费视频网站蜜臀| 国产高潮流白浆视频| 亚洲国产成人麻豆精品| 天天激情综合| 97se亚洲综合在线天天| 色综合五月| 日本久久网站| 尤物特级无码毛片免费| 国产熟睡乱子伦视频网站| 国产美女91视频| 亚洲中文字幕在线一区播放| 国产精品第三页在线看| 亚洲清纯自偷自拍另类专区| 99久久精品免费视频| 成人在线观看不卡| 青草视频久久| av在线人妻熟妇| 国产一区二区免费播放| 99999久久久久久亚洲| 少妇精品网站| 99999久久久久久亚洲| 91无码网站| 国产精品高清国产三级囯产AV| 国产伦片中文免费观看| 国产精品香蕉在线观看不卡| 午夜精品福利影院| 欧美综合区自拍亚洲综合绿色| 中文无码影院| 午夜不卡视频| 午夜无码一区二区三区| 天天综合色网| 欧美中文一区| 亚洲无码高清一区| 国产成人1024精品|