999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合LSTM的深度強化學習視覺導航

2022-01-23 03:42:56劉紫燕梁水波孫昊堃
無線電工程 2022年1期
關鍵詞:智能策略模型

袁 浩,劉紫燕,梁 靜,梁水波,孫昊堃

(貴州大學 大數據與信息工程學院,貴州 貴陽 550025)

0 引言

視覺導航作為機器人和機器視覺的研究基礎[1],已有諸多相關研究成果。傳統的機器人導航需要事先完成環境建圖,在對環境有了解的情況下才能較為精準地導航,大致需要經過3個步驟:同步定位和建圖(SLAM)[2]、路徑規劃[3]和運動控制,但無法滿足要求實時性或緊急狀況下的機器人導航,這對無人機[4]和航天[5]的實時導航控制造成了諸多不便。

為了解決上述問題,即實現在無地圖狀況下的導航,Zhu等人[6]首次將深度強化學習(Deep Reinforcement Learning,DRL)應用到視覺導航領域,提出了一個完整的視覺導航架構,該框架使機器人僅僅依靠圖像輸入就可導航到目的地,極大地推動了機器人視覺導航研究的發展。該框架的局限在于當前觀察的和目標必須處于同一個場景下,而且策略網絡已經在此場景下得到了很好的訓練。在跨場景的導航過程中,模型的性能有明顯下降。文獻[7]在Zhu等人工作的基礎上將LSTM加在策略生成層之前,以保存最近所走的路徑,但穩定性較差。文獻[8]用可變通用后繼特征逼近器(Variational Universal Successor Features Approximator,VUSFA)解決相當復雜的視覺導航,此框架很容易適應處理導航以外的其他任務。文獻[9]提出了一種混合異步通用后繼表示(Hybrid Asynchronous Universal Successor Representations,HAUSR)的方法,將它與異步優勢演員-評論家算法(Asynchronous Advantage Actor-Critic,A3C)結合從而提升模型在新場景下的適應能力,但是對于長時間及跨場景的導航任務,導航的性能會有所下降。

本文在Zhu等人提出的目標驅動視覺導航框架上改進,提出了一種基于長短時記憶網絡(Long Short-Term Memory,LSTM)和后繼表征的視覺導航網絡模型,使智能體可以跨場景導航(各個場景下的性能不會有較大差異)并具有一定軌跡意識,即結合已有的軌跡在選擇動作時能夠有意識地躲避場景中的障礙物,提升在多個場景下的導航性能。

1 相關原理

1.1 LSTM

循環神經網絡(Recurrent Neural Network,RNN)是一種允許信息持續存在的神經網絡[10],依靠已有的知識預測未知的信息,其結構如圖1所示。

圖1 RNN原理Fig.1 Schematic diagram of RNN

RNN主要分為輸入層、隱藏層和輸出層。圖1中,輸入Xt為字或詞的特征向量,U為輸入層到隱藏層的參數矩陣,At為隱藏層的向量,V為隱藏層到輸出層的參數矩陣,Yt為輸出向量,W為每個時間點的權重矩陣。RNN之所以可以解決序列問題,是因為它可以記住每一時刻的信息,每一時刻的隱藏層不僅由該時刻的輸入層決定,還由上一時刻的隱藏層決定,輸出Yt和隱藏層向量At的更新公式為:

Yt=g(V·At),

(1)

At=f(U·Xt+W·At-1),

(2)

式中,g和f為激活函數。

RNN中的一部分信息會被循環使用,但RNN的主要問題在于無法保存很多時間步之前的信息,當某個信息經歷一定的時間后可能無法利用它進行預測或判斷新的信息,這種問題稱為“長依賴”。

LSTM是一種改進RNN[11],通過增加“遺忘門”以避免“長依賴”問題,方法是在產生當前時刻輸出時,通過一個狀態參量來實現遺忘功能。LSTM網絡可以長時間記憶信息,不僅可以從單個數據點提取信息,還可以從整個數據系列中提取信息,主要分為遺忘門、輸入門和輸出門3種。其結構如圖2所示。

圖2 LSTM原理Fig.2 Schematic diagram of LSTM

門控單元:

(3)

(4)

(5)

存儲單元:

(6)

(7)

輸出狀態:

ht=ot·tanh(ct),

(8)

式中,W,U表示輸入量Xt,ht-1的權值;b為偏置向量,用以調和門控激活函數的輸入水平;ct和ht是2個記憶向量;Wf,bf,Wi,bi,Wo,bo可以通過訓練獲得。∑(·)一般取Sigmoid函數,激活函數Softmax取tanh(·),即:

(9)

(10)

1.2 深度強化學習

強化學習(Reinforcement Learning,RL)的基本原理是利用智能體(Agent)與環境交互以產生新的數據,再利用新的數據進行策略的迭代學習,從而改善自身的決策。通過迭代學習,智能體學到最優策略[12]。智能體根據每個時刻的環境狀態信息來學習,可以用馬爾科夫決策過程(Markov Decision Process,MDP)來表示。智能體基于當前狀態s,選擇以策略π為指導的行為,期望其未來折現獎勵R最大:

(11)

式中,γ∈[0,1]為折扣因子。通過設置較大的γ值,鼓勵模型更加關注未來的回報。如果γ下降,模型的訓練將更關注當前行動。

DRL模型定義轉換元組為,其中s表示機器人當前的狀態,a表示它的動作,r表示獎勵,s′表示通過轉換實現的下一個狀態。

轉移概率P(st+1|s,a)表示從狀態s選擇動作a轉移到狀態s′的轉移概率,對于任何目標g,定義偽獎勵函數rg(st,at,st+1)和偽折扣因子γg(s),對于任意的策略π(at|st),其通用值函數為:

(12)

通過讓策略不斷學習,使智能體在每集(Episode)中得到的未來折扣獎勵最大化[13]。

2 視覺導航方法

目標驅動視覺導航智能體的目的是學習一個隨機策略[14]π(st,gt),其中st是當前狀態,gt是目標狀態。策略的輸出π是動作的概率分布。智能體的目標是通過最少的步數導航到目標位置。經過訓練,智能體能夠在新的場景下導航,從而驗證模型的泛化能力[15]。

2.1 基于DRL的視覺導航模型

如前文所述,基于DRL的視覺導航框架最早由Zhu提出,該框架融合了DRL模型和Actor-Critic算法來解決以往DRL算法泛化性差的問題,智能體可以與環境交互,在此環境中收集更多有用的樣本[16]。目標驅動的視覺導航網絡模型如圖3所示,采用4張連續歷史幀描述智能體的動作,再用預訓練的ResNet50網絡分別進行特征提取,投影到特征空間后,把2個孿生層的輸出特征串聯起來得到融合特征,最后輸入到特定的場景得到對應的策略和Q值。

圖3 目標驅動的視覺導航網絡框架Fig.3 Target-driven visual navigation network framework

2.2 融合LSTM的視覺導航網絡

在特定的當前場景中需要采取的動作不僅取決于當前狀態,還取決于走過的路徑。Zhu等人提出的目標驅動視覺導航模型未將之前的狀態作為參考,故本文將狀態表征與LSTM相結合實現長期路徑感知目標驅動導航,融合LSTM的改進強化學習網絡如圖4所示。

圖4 改進的融合LSTM的視覺導航網絡Fig.4 Improved visual navigation network with LSTM integrated

該網絡由圖像輸入、共享孿生網絡、策略生成網絡以及狀態表征與獎勵預測網絡4部分組成。圖像輸入是智能體當前觀察到的及目標所在地的RGB圖像,經由共享孿生網絡提取特征并投影到特征空間判斷2幅圖像的空間位置關系后,輸入有LSTM的策略生成網絡,使用A3C算法,最終輸出四維的策略分布和單一的值函數。

2.2.1 共享孿生網絡

共享孿生網絡由圖4中ResNet50和全連接層構成[17],當前觀察的圖像和目標圖像分別對應共享孿生網絡的兩端。首先將輸入的RGB圖像(84×84×3)投影到特征空間產生2 048維特征,經ResNet50和全連接層后產生512維特征。共享孿生網絡的參數在所有場景中的目標之間共享以確保模型的泛化性。

2.2.2 策略生成網絡

策略生成網絡由特征融合層、全連接層和LSTM層組成,S1,S2,S3和S4分別為4個特征融合層,由S2引出一路經過全連接層和LSTM后與S4的結果融合,最終輸出策略π和對應的Q值。由于使用了A3C算法,智能體可以在多個線程下同時訓練,并將訓練結果用于更新模型參數,輸入的當前狀態和目標狀態的圖像會被以融合特征的方式輸入LSTM作為“記憶”來保存,在應對相似的場景或任務時能夠更好地做出動作決策。

2.2.3 狀態表征與獎勵預測網絡

對于視覺導航來說,當場景更換時,需要智能體基于對其他任務的經驗來選擇動作。通用后繼表征(Universal Successor Representations,USR)用于表示可轉移的知識[18],通過獲得一個通用價值函數,并以此來獲得最優的策略,其獎勵函數rg近似表示為[19]:

rg≈φ(st,at,st+1;θφ)Τω(gt;θω)≈φ(st+1;θφ)Τω(gt;θω),

(13)

即將獎勵函數rg近似地表示為狀態st+1的編碼和目標gt編碼的乘積形式,其中,θφ和θω是網絡訓練的參數。于是,可以將通用價值函數改寫為:

ω(gt;θω)=ψπ(st,gt;θψ)Τω(gt;θω)。

(14)

而狀態st所對應的USR為ψπ(st,gt),這樣對于任何目標gt,都可以根據式(14)計算它的值函數,從而為其設計最優策略,USR使得知識可以在目標之間轉移,從而增強模型的泛化能力[9]。狀態表征和獎勵預測網絡如圖5所示。

圖5 獎勵預測與狀態表征網絡Fig.5 Reward prediction and state representation network

2.2.4 動作空間

在3D環境AI2-THOR中,每個場景被劃分為0.5 m×0.5 m的網格,類似于一個網格世界環境。智能體有4個離散的動作:向前移動0.5 m、向后移動0.5 m、左轉和右轉,采用恒定的步長(0.5 m)和轉角(90°)。為了模擬現實世界系統動力學中的不確定性,在每個位置的步長和轉彎上添加高斯噪聲。

2.2.5 獎勵設置

設置獎勵函數如式(15)所示,如果智能體到達指定目標,則給予10的正獎勵,如果智能體發生碰撞,則給予0.1的負獎勵;如果在行進狀態,則給予0.01的負獎勵,以刺激智能體不斷探索:

(15)

3 實驗結果及分析

3.1 實驗環境

實驗環境為Ubuntu16.04,GPU為NVIDIA2080Ti,深度學習框架為TensorFlow,采用的DRL算法為A3C,學習過程中使用8線程A3C算法進行參數優化,采用Adam優化器,學習率從[10-4,5×10-3]區間內按對數均勻分布取樣,折扣因子γ=0.99。仿真環境AI2-THOR由120張逼真的平面圖組成,如圖6所示,包含4種不同的房間布局:廚房、客廳、臥室和浴室,每種布局有30張平面圖。將每個場景類型的前20個房間作為訓練集,其余10個房間作為評估。在100個線程下同步訓練,每個線程下都對不同的目標學習,訓練一個模型需要100萬個訓練幀,從仿真環境中的20個室內場景隨機抽取導航的起點和終點進行訓練。

圖6 AI2-THOR仿真環境Fig.6 AI2-THOR simulation environment

3.2 對比模型和評價指標

基線(Baseline):Zhu等人提出的視覺導航模型,這是目標驅動的視覺導航領域最早提出的模型。LSTM-Nav[7]:在Zhu等人基礎上在特征融合層之后,最終的策略輸出前添加LSTM網絡。HAUSR:提出了一種通用異步后繼特征表示方法,與A3C算法結合,使得模型有更好的泛化能力。

本文評價指標為平均軌跡長度(Average Trajectory Length,ATL)、平均獎勵(Average Reward,AR)和平均碰撞率(Average Collision,AC)。在4種房間類型共20個場景中評估,每個場景下共100集(Episode),計算方法為:

(16)

(17)

(18)

式中,tli,ri,ci分別是每集(Episode)導航的路徑長度、獎勵和碰撞次數。

3.3 實驗結果與分析

為了驗證改進模型的正確性和有效性,在AI2-THOR的浴室_02、臥室_04、廚房_02和客廳_08的部分場景下訓練,結果如圖7~圖9所示,平均軌跡長度單位為步數,訓練幀數單位為百萬。

圖7 Baseline在4個場景下的平均軌跡Fig.7 Average trajectory of baseline in four scenarios

圖8 LSTM-Nav在4個場景下的平均軌跡Fig.8 Average trajectory of LSTM-Nav in four scenarios

圖9 本文模型在4個場景下的平均軌跡長度Fig.9 Average trajectory length of the proposed model in four scenarios

從模型訓練的收斂速度來看,Baseline收斂速度最快,改進模型收斂速度介于Baseline和LSTM-Nav之間,LSTM-Nav的收斂速度最慢。

從平均軌跡長度來看,Baseline除了浴室_02場景以外,在其他3個場景下最終收斂到的平均軌跡長度效果較差,而LSTM-Nav除了廚房_02之外,其余3個場景下收斂的平均軌跡長度均好于Baseline,而本文提出的模型相較于Baseline和LSTM-Nav的指標都要更好一些,在4個場景下的平均軌跡長度均收斂到一個較好的水平。

相較于Baseline,在收斂速度慢兩百萬時間步的情況下,改進模型在所有場景下的平均軌跡長度能夠收斂到一個很低的水平,尤其是在除了浴室_02外其余3個場景下,最終的平均軌跡長度遠遠小于Baseline的結果,平均軌跡長度減少約50%;對比LSTM-Nav,除了廚房_02場景外(LSTM-Nav在此場景下泛化能力較差),平均軌跡長度減少約30%。

除此之外,本文在測試集上進行了模型的泛化性測試,在其他20個場景下測試,將文獻[7]中的HAUSR(Hybrid Asynchronous Universal Successor Representations)模型的方法加入作為對比,各模型的平均軌跡長度測試結果如表1所示。

表1 不同模型的平均軌跡長度對比

表1中,除了在臥室_04下和LSTM-Nav效果接近以外,其余每個場景下改進模型都優于其他3個模型,相較于baseline提升約8%,相較于LSTM-Nav提升約5%,因為LSTM-Nav在廚房_02場景下泛化能力較差,所以不將其計算在內,相較于HAUSR提升約6%,可以看到改進模型和HAUSR在臥室_04和廚房_02場景下的性能較為接近,但在其他2個場景下的性能好于HAUSR,由此可以看出改進模型有較好的泛化能力。由于LSTM-Nav在某些場景下泛化能力較弱,所以在比較平均獎勵和平均碰撞率時選擇用性能更好的HAUSR代替。其次,在4個場景下對3個模型的平均獎勵進行測試,結果如表2所示。

表2 不同模型的平均獎勵對比

表2中,Baseline和HAUSR只有在臥室_04場景下相差0.01,模型比其他2個模型有較小提升,雖然這與獎勵設置有關,但在一定程度上也能反映改進模型的性能。最后,對不同模型在多個場景下的碰撞率進行測試,結果如表3所示。

表3 不同模型的平均碰撞率對比

表3中,HAUSR相比Baseline在廚房_02和客廳_08場景下有較大提升,減少約為40%。同樣,改進模型相比較HAUSR在廚房_02和客廳_08場景下也有較為明顯的提升,證明改進模型良好的性能。

4 結束語

本文在已有的基于DRL視覺導航模型的基礎上做出改進,提出了一種新的視覺導航模型,該模型結合了LSTM和USR,能夠有效地利用智能體以往的路徑信息并對接下來要采取的動作做出有效預測,在AI2-THOR仿真環境下的實驗結果表明,本文的方法相較于其他方法具有一定提升,在仿真環境下有較好的導航效果。未來的工作將考慮將視覺信息和語義等信息融合后實施跨模態的導航,智能化的視覺導航要想真正應用到實際機器人上,需要進一步提升模型在實際場景中的泛化能力,人機交互也是未來研究的一個重要方向。

猜你喜歡
智能策略模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
例談未知角三角函數值的求解策略
我說你做講策略
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
主站蜘蛛池模板: 91破解版在线亚洲| 91国内在线观看| 亚洲综合极品香蕉久久网| 黄色国产在线| 精品国产自在在线在线观看| 国产极品美女在线| 2022国产91精品久久久久久| 成人一级免费视频| 不卡网亚洲无码| 97超爽成人免费视频在线播放| AV不卡无码免费一区二区三区| 国产性猛交XXXX免费看| 制服无码网站| 日韩黄色精品| 婷婷亚洲视频| 国禁国产you女视频网站| 成人年鲁鲁在线观看视频| 热99re99首页精品亚洲五月天| 欧美在线综合视频| 毛片大全免费观看| 日韩高清中文字幕| 全部免费特黄特色大片视频| 99久久国产自偷自偷免费一区| 制服丝袜亚洲| 久久窝窝国产精品午夜看片| 国产在线观看成人91| 91精品日韩人妻无码久久| 久久激情影院| 久久国产精品77777| 成人韩免费网站| 欧美a在线视频| 97se亚洲| 亚洲开心婷婷中文字幕| 成年人视频一区二区| 精品91在线| 欧美自慰一级看片免费| 伊人久综合| 亚洲精品视频免费| 欧美日韩在线观看一区二区三区| 在线观看亚洲国产| 日韩欧美国产三级| 精品一区二区三区中文字幕| 91蜜芽尤物福利在线观看| 国产网站免费看| 夜夜拍夜夜爽| 日韩精品成人网页视频在线| 999国产精品| 麻豆精品在线播放| 91成人在线观看| 国产精品不卡片视频免费观看| 青青青草国产| 秋霞一区二区三区| 午夜高清国产拍精品| 2021最新国产精品网站| 伊人久久精品亚洲午夜| 国产亚洲精久久久久久久91| 久久国产香蕉| 91人人妻人人做人人爽男同| 热久久这里是精品6免费观看| 一级毛片免费观看久| 国产精品美女免费视频大全| 国产主播福利在线观看| 色婷婷成人| 国产永久免费视频m3u8| 亚洲日本www| 免费激情网址| 九九这里只有精品视频| 国产精品女主播| 日韩精品一区二区深田咏美| 免费国产无遮挡又黄又爽| 国产AV无码专区亚洲A∨毛片| vvvv98国产成人综合青青| 色欲色欲久久综合网| aⅴ免费在线观看| 日韩精品亚洲人旧成在线| 国产成人AV男人的天堂| 在线免费观看a视频| www亚洲精品| 91黄视频在线观看| 亚洲手机在线| 老熟妇喷水一区二区三区| 亚洲男人天堂网址|