999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DDPG的飛行器智能避障仿真應(yīng)用研究

2021-07-02 01:57:06張仕充時(shí)宏偉
現(xiàn)代計(jì)算機(jī) 2021年13期
關(guān)鍵詞:動(dòng)作智能環(huán)境

張仕充,時(shí)宏偉

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

0 引言

飛行器的智能避障指的是在存在障礙物的三維空間環(huán)境中,從出發(fā)點(diǎn)自主避開多個(gè)障礙物體順利達(dá)到目標(biāo)位置的過程。飛行器具有智能避障的能力在無人機(jī)導(dǎo)航、農(nóng)業(yè)無人機(jī)作業(yè)、無人機(jī)救援、民航二次雷達(dá)監(jiān)視以及戰(zhàn)場態(tài)勢感知決策等場景下具有十分重要的應(yīng)用意義。

目前,在類似的避障路徑規(guī)劃問題中,已經(jīng)有多種解決算法,例如遺傳算法[1]、蟻群算法[2]等啟發(fā)式算法。但是這些算法存在觀察維度低、局部收斂、動(dòng)作選擇空間離散化以及計(jì)算量太大等問題,很難運(yùn)用在飛行器的智能避障場景下。而強(qiáng)化學(xué)習(xí)[3]作為機(jī)器學(xué)習(xí)的一個(gè)熱門研究領(lǐng)域,其基本思想是通過智能體與環(huán)境進(jìn)行交互,從環(huán)境中獲取一定的獎(jiǎng)賞值,通過最大化地累計(jì)獎(jiǎng)賞值并進(jìn)行學(xué)習(xí),從而找到物體到達(dá)目標(biāo)地點(diǎn)的最優(yōu)策略。其基本過程如圖1所示。飛行器的態(tài)勢處于一個(gè)連續(xù)變化空間中,并且其在三維空間中進(jìn)行動(dòng)作選擇的空間也是一個(gè)連續(xù)空間。傳統(tǒng)的基于值函數(shù)的Q-learning[4]和SARSA的強(qiáng)化學(xué)習(xí)方法解決連續(xù)變化空間的問題是通過將狀態(tài)動(dòng)作值離散映射到一個(gè)Q表中,而連續(xù)動(dòng)作空間和狀態(tài)空間使用Q表進(jìn)行存取是一種非常耗內(nèi)存并且低效的一種方式。為了改進(jìn)使用Q表的缺點(diǎn),相關(guān)研究提出了Deep Q Network(DQN)算法[5],該算法使用神經(jīng)網(wǎng)絡(luò)來對(duì)狀態(tài)值進(jìn)行擬合,代替Q表,提高了狀態(tài)動(dòng)作空間映射效率且大大減少存儲(chǔ)占用空間。與前文提到的啟發(fā)式算法類似,DQN算法雖然效率更高,但是在面對(duì)高維觀察空間里,同樣只能處理離散和低維的動(dòng)作空間。在飛行器避障等需要連續(xù)動(dòng)作控制的任務(wù)下,確定性策略梯度(De?terministic Policy Gradient,DPG)能夠很好地解決連續(xù)動(dòng)作輸出的場景[6],本文結(jié)合DQN算法和DPG算法,使用基于演員-評(píng)論家算法[7](actor-critic)的深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法[8]應(yīng)用于飛行器自主避障場景并對(duì)其進(jìn)行仿真實(shí)驗(yàn)。結(jié)果表明該算法能夠較好地學(xué)習(xí)連續(xù)動(dòng)作空間的策略,進(jìn)而為飛行器智能避障等連續(xù)動(dòng)作控制場景提供一定的指導(dǎo)性意義。

圖1 強(qiáng)化學(xué)習(xí)基本過程

1 算法原理

在強(qiáng)化學(xué)習(xí)過程中,智能體和環(huán)境在各個(gè)時(shí)刻進(jìn)行交互,在每個(gè)時(shí)刻t,智能體會(huì)感知到環(huán)境觀測xt,執(zhí)行一個(gè)動(dòng)作at以及環(huán)境獎(jiǎng)勵(lì)rt,環(huán)境被完全觀察到時(shí),st=xt。

一個(gè)智能體的行為被定義為策略π,該策略會(huì)把狀態(tài)映射到動(dòng)作空間的一個(gè)概率分布上π:S→P(A)。在強(qiáng)化學(xué)習(xí)概念中,算法模型使用狀態(tài)空間S,動(dòng)作空間A=RN,初始的狀態(tài)分布p(s1),狀態(tài)轉(zhuǎn)移概率p(st+1|st,at)以及獎(jiǎng)勵(lì)函數(shù)r(st,at)來進(jìn)行一個(gè)馬爾可夫決策過程建模。將行為策略π應(yīng)用于馬爾可夫過程來定義一個(gè)馬爾可夫鏈,用Eπ表示該馬爾科夫鏈的期望值。狀態(tài)的總回報(bào)定義為:

學(xué)習(xí)過程的回報(bào)取決于策略π。強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一種策略,該策略可以使初始狀態(tài)Eπ[R1]的期望獎(jiǎng)勵(lì)最大化。

智能體所獲得的累積回報(bào)用狀態(tài)動(dòng)作值函數(shù)Qπ(公式2)表示。動(dòng)作狀態(tài)值函數(shù)表示在當(dāng)前狀態(tài)s下執(zhí)行動(dòng)作a,并且一直遵循策略π到回合結(jié)束,在整個(gè)過程中智能體所獲得的累積回報(bào)。

傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法中使用Bellman迭代方程求解動(dòng)作狀態(tài)值函數(shù):

如果目標(biāo)策略是確定的,用函數(shù)μ:S←A表示,進(jìn)一步將上述方程轉(zhuǎn)化為:

期望僅僅取決于環(huán)境,這就意味著能夠通過不同行為策略μ'產(chǎn)生的狀態(tài)值轉(zhuǎn)換樣本來學(xué)習(xí)Qμ。

Q-learning作為一個(gè)常用的離線算法[4],它使用貪婪策略(greedy policy):μ(s)=arg maxaQ(s,a),使用由θQ參數(shù)化的函數(shù)逼近器,并通過最小化損耗來對(duì)其進(jìn)行優(yōu)化:

如果直接將Q-learning用于連續(xù)的動(dòng)作空間是不現(xiàn)實(shí)的,因?yàn)樵谶B續(xù)的動(dòng)作空間找到貪婪策略需要在每一個(gè)時(shí)間步進(jìn)行優(yōu)化,對(duì)于大型的、無限的動(dòng)作空間,優(yōu)化太慢且實(shí)用性不高。

確定性策略梯度算法(Deterministic Policy Gradi?ent,DPG)維護(hù)一個(gè)參數(shù)化動(dòng)作函數(shù)μ(s|θμ),該函數(shù)通過將狀態(tài)確定性地映射到特定動(dòng)作來指定當(dāng)前策略[6]。在DPG的基礎(chǔ)上,結(jié)合使用actor-critic方法,其中,critic使用Bellman方程學(xué)習(xí),actor網(wǎng)絡(luò)參數(shù)則通過將鏈?zhǔn)揭?guī)則應(yīng)用于公式(4)來更新:

引入非線性函數(shù)逼近器(神經(jīng)網(wǎng)絡(luò))的缺點(diǎn)是收斂性不能得到保證,同時(shí),這樣的逼近器為學(xué)習(xí)和生成大規(guī)模的狀態(tài)空間是有必要的。DDPG允許神經(jīng)網(wǎng)絡(luò)來在線學(xué)習(xí)大規(guī)模的狀態(tài)和動(dòng)作空間。將神經(jīng)網(wǎng)絡(luò)用于強(qiáng)化學(xué)習(xí)的一個(gè)挑戰(zhàn)是大多數(shù)優(yōu)化算法都假設(shè)樣本是獨(dú)立同分布(Independently and Identically Distributed,IID)的,然而當(dāng)訓(xùn)練樣本來自于環(huán)境中的連續(xù)過程時(shí),不能保證樣本具有獨(dú)立同分布的性質(zhì)。

DDPG通過使用經(jīng)驗(yàn)重放機(jī)制(replay buffer)來解決這些問題。經(jīng)驗(yàn)池是一個(gè)固定大小且有限的內(nèi)存R。根據(jù)探索策略(exploration policy),狀態(tài)轉(zhuǎn)換樣本采樣于環(huán)境和經(jīng)驗(yàn)池。當(dāng)經(jīng)驗(yàn)池填滿的時(shí)候?qū)?huì)拋棄掉最早存入的樣本。DDPG是一種離線(off-policy)算法,允許算法能夠從一系列不相關(guān)狀態(tài)轉(zhuǎn)換樣本中學(xué)習(xí)。

在很多環(huán)境中,算法直接用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)Q-learn?ing被證明是不穩(wěn)定的[9]。因?yàn)檎诟碌木W(wǎng)絡(luò)Q(s,a|θQ)也被用于計(jì)算目標(biāo)值yt(見公式6),Q的更新容易不收斂。DDPG算法的解決方式是修改actor-critic和使用軟更新(soft target updates)。DDPG算法模型分別創(chuàng)建了一個(gè)actor和critic網(wǎng)絡(luò)的副本(Q'(s,a|θQ')和μ'(s|θμ'))。用副本網(wǎng)絡(luò)計(jì)算目標(biāo)值,這些目標(biāo)網(wǎng)絡(luò)的權(quán)重參數(shù)通過跟蹤學(xué)習(xí)網(wǎng)絡(luò)延遲更新:

θ'←τθ+(1 -τ)θ',τ?1。通過這種方式,目標(biāo)值的改變速度被限制得較慢,由此提高了學(xué)習(xí)穩(wěn)定性,使學(xué)習(xí)動(dòng)作值函數(shù)的相對(duì)不穩(wěn)定的問題更接近于監(jiān)督學(xué)習(xí)。DDPG算法的完整描述[8]。

DDPG算法描述:

2 模擬仿真實(shí)驗(yàn)

2.1 狀態(tài)空間設(shè)計(jì)

狀態(tài)空間(state observation)在強(qiáng)化學(xué)習(xí)算法中主要是對(duì)現(xiàn)實(shí)狀態(tài)環(huán)境進(jìn)行描述。在飛行器避障過程中,基本的狀態(tài)則包括飛行器的經(jīng)緯度坐標(biāo)和高度(lng,lat,hei ght)以及速度(velocity)。實(shí)驗(yàn)中,速度是矢量,此處可以分解成三維坐標(biāo)上的分速度:(velocitylng,velocity lat,velocity height)。

在仿真實(shí)驗(yàn)中,將經(jīng)緯度坐標(biāo)和高度等信息采用三維坐標(biāo)系表示,將可變環(huán)境觀測描述為:

state=[lng,lat,height,velocitylng,velocity lat,velocity height]

以上的觀測為可變環(huán)境狀態(tài),除此之外,還有障礙物的屬性,即高度和經(jīng)緯度坐標(biāo),對(duì)于障礙物信息的狀態(tài)觀測信息,屬于不可變的環(huán)境信息。在實(shí)驗(yàn)中,障礙物信息硬編碼在交互環(huán)境中,在交互過程中,根據(jù)飛行器的狀態(tài)給與獎(jiǎng)勵(lì)或懲罰。

2.2 決策空間設(shè)計(jì)

決策空間(action space)指的是智能體做能夠采取的動(dòng)作空間。在飛行器的避障過程中,主要是飛行器的狀態(tài)改變。因此決策行為就是改變飛行器的運(yùn)動(dòng)速度,結(jié)合狀態(tài)空間的做法,在智能體做決策時(shí),主要改變的三維立體坐標(biāo)分速度的變化量,通過這個(gè)變化量使得環(huán)境的狀態(tài)(飛行器的實(shí)時(shí)狀態(tài))被改變。單步動(dòng)作表示為:

2.3 環(huán)境交互規(guī)則

環(huán)境是智能體交互的空間,智能體通過與環(huán)境交互來得到獎(jiǎng)賞值,從而影響智能體的動(dòng)作。在環(huán)境中,主要的部分是定義飛行器如何獲得獎(jiǎng)懲的方式以及初始化環(huán)境狀態(tài)。通過定義和編寫step函數(shù)來實(shí)現(xiàn)智能體的每一步動(dòng)作來獲得獎(jiǎng)懲值并且改變環(huán)境的狀態(tài)。在實(shí)現(xiàn)中,將動(dòng)作傳入后,計(jì)算新的環(huán)境狀態(tài),根據(jù)該環(huán)境狀態(tài)來計(jì)算獎(jiǎng)勵(lì)值的大小:如果智能體已經(jīng)達(dá)到目標(biāo)位置,則給與較大獎(jiǎng)勵(lì)值,回合結(jié)束;如果智能進(jìn)去障礙物區(qū)域,則給予較大的懲罰值(負(fù)的獎(jiǎng)勵(lì)值),回合結(jié)束。除了以上兩種情況,為了讓每一步智能體都有所獎(jiǎng)勵(lì),交互環(huán)境根據(jù)智能體位置和目標(biāo)點(diǎn)的相對(duì)距離來進(jìn)行獎(jiǎng)勵(lì)值的計(jì)算。假設(shè)獎(jiǎng)勵(lì)值是越大越好,交互環(huán)境根據(jù)飛行器位置與目標(biāo)點(diǎn)的相對(duì)距離的相反數(shù)給獎(jiǎng)勵(lì)值,流程如圖2所示。

圖2 環(huán)境交互規(guī)則流程

環(huán)境狀態(tài)的更新方法如公式(8)、公式(9),飛行器新的速度等于原速度與速度變化量相加。新的坐標(biāo)等于原坐標(biāo)與單位時(shí)間速度相加。

在飛行器的每一步運(yùn)行中所得的獎(jiǎng)勵(lì)值計(jì)算方法如式(10)-式(11):

O表示出發(fā)點(diǎn)位置,L表示飛行器當(dāng)前位置,G表示目標(biāo)點(diǎn)。負(fù)值獎(jiǎng)勵(lì)表示距離目標(biāo)位置越近,獎(jiǎng)勵(lì)越大;e表示碰撞障礙物之后獎(jiǎng)勵(lì)值的懲罰項(xiàng),為常數(shù)。

2.4 實(shí)驗(yàn)

本文的應(yīng)用背景設(shè)定為在三維空間中,飛行器從起始點(diǎn)自主達(dá)到目標(biāo)點(diǎn)范圍。在空間中存在多個(gè)障礙物體,當(dāng)飛行器與障礙物體接觸時(shí)任務(wù)失敗。算法的訓(xùn)練目標(biāo)是不斷調(diào)整飛行器的運(yùn)動(dòng)屬性,使得飛行器全程均能避過障礙體區(qū)域,到達(dá)目標(biāo)點(diǎn)范圍,即可完成任務(wù)設(shè)定的目標(biāo)。初始化場景如圖3所示,紅色點(diǎn)為出發(fā)點(diǎn),綠色點(diǎn)為目標(biāo)點(diǎn),其他深色長方體為障礙物,他們均在同一直線上。

圖3 初始化場景設(shè)定

由算法(表1)實(shí)現(xiàn)的DDPG網(wǎng)絡(luò)模型結(jié)構(gòu)圖如圖4所示,其中actor、critic、target_actor、target_critic網(wǎng)絡(luò)為三層全連接網(wǎng)絡(luò),隱藏層均使用ReLU激活函數(shù),網(wǎng)絡(luò)的經(jīng)驗(yàn)重放池容量為10000,獎(jiǎng)勵(lì)折扣系數(shù)為0.99,優(yōu)化器為Adam,學(xué)習(xí)率(learning rate)為0.01,單次訓(xùn)練樣本數(shù)(batch size)為32。

圖4 DDPG網(wǎng)絡(luò)模型結(jié)構(gòu)

2.5 仿真結(jié)果分析

仿真實(shí)驗(yàn)通過DDPG算法與同樣是基于連續(xù)動(dòng)作空間選擇的傳統(tǒng)DPG算法進(jìn)行對(duì)比,兩種算法均在同一交互環(huán)境中運(yùn)行。圖5所示為傳統(tǒng)DPG算法的回合累積獎(jiǎng)勵(lì)變化曲線,圖6所示為DDPG算法的回合累積獎(jiǎng)勵(lì)變化曲線。縱坐標(biāo)表示從單個(gè)回合開始到結(jié)束的回合累積獎(jiǎng)勵(lì)值,橫坐標(biāo)表示回合序號(hào)。每個(gè)回合運(yùn)行步數(shù)為1800步,單步獎(jiǎng)勵(lì)根據(jù)公式(11)計(jì)算得出,由于初始狀態(tài)的出發(fā)點(diǎn)并不在目標(biāo)點(diǎn),兩點(diǎn)之間存在初始距離,所以每回合累積獎(jiǎng)勵(lì)不會(huì)為0。

圖5 傳統(tǒng)DPG算法回合累積獎(jiǎng)勵(lì)

圖6 DDPG算法回合累積獎(jiǎng)勵(lì)

從回合累積折扣獎(jiǎng)勵(lì)看來,傳統(tǒng)DPG算法的回合累積獎(jiǎng)勵(lì)在240回合之前不太穩(wěn)定,之后穩(wěn)定在-13800左右;DDPG算法在經(jīng)過170回合后的回合累積獎(jiǎng)勵(lì)趨于一個(gè)平穩(wěn)值,在-4000左右,由此一直穩(wěn)定到所有回合結(jié)束。根據(jù)公式(11)定義的單步獎(jiǎng)勵(lì)所積累的回合獎(jiǎng)勵(lì)也從側(cè)面反映了規(guī)劃路徑距離和最佳路徑(起始點(diǎn)到目標(biāo)點(diǎn)直線距離)之間的差距。從圖5、圖6可以看出,傳統(tǒng)DPG算法在240回合之后累積獎(jiǎng)勵(lì)絕對(duì)值比DDPG算法在170回合之后累積獎(jiǎng)勵(lì)絕對(duì)值大。這也體現(xiàn)出傳統(tǒng)DPG算法規(guī)劃的路徑與理想最佳路徑之間的最終差距比DDPG算法所規(guī)劃路徑的較大。

DPG算法第300回合結(jié)束生成的路徑如圖7所示,因?yàn)閱蝹€(gè)回合步數(shù)限制,在單個(gè)回合結(jié)束之后沒有到達(dá)目標(biāo)點(diǎn)位置。DDPG算法在300回合時(shí)生成的規(guī)劃路徑如圖8所示。從出發(fā)點(diǎn)幾乎直線達(dá)到目標(biāo)點(diǎn),由于三維圖像的視角因素,該路線經(jīng)過最低障礙物上方,其余障礙物下方達(dá)到目標(biāo)點(diǎn)位置,并不是直線。觸碰到障礙物體時(shí)會(huì)導(dǎo)致回合結(jié)束,不會(huì)產(chǎn)生到達(dá)目標(biāo)點(diǎn)的完整路徑。在這兩種生成的路徑規(guī)劃圖中,均有一定的走向目標(biāo)地點(diǎn)的運(yùn)動(dòng)趨勢。但是DDPG得益與Q'網(wǎng)絡(luò)和μ'網(wǎng)絡(luò)的糾正效果以及經(jīng)驗(yàn)重放單元,收斂性較為凸出,網(wǎng)絡(luò)整體學(xué)習(xí)效果較高,DDPG算法比傳統(tǒng)的DPG算法在相同的飛行器避障環(huán)境下路徑的生成效果較優(yōu)秀,而且所需要訓(xùn)練的回合數(shù)較少,所以在飛行器智能避障的連續(xù)動(dòng)作控制場景中,DDPG算法具有一定的應(yīng)用指導(dǎo)價(jià)值。

圖7 傳統(tǒng)DPG規(guī)劃路徑

圖8 DDPG規(guī)劃路徑

3 結(jié)語

人工智能的主要目標(biāo)之一就是利用未經(jīng)處理的高維傳感數(shù)據(jù)來解決復(fù)雜的任務(wù)。強(qiáng)化學(xué)習(xí)算法DQN的提出,使得機(jī)器的智能程度在某些游戲上能夠達(dá)到或超越人類的游戲水平。但是DQN主要處理離散低維動(dòng)作空間。而現(xiàn)實(shí)生活場景中,存在了各種各樣的連續(xù)控制問題和需求。通過DQN結(jié)合用于連續(xù)動(dòng)作選擇的DPG算法,DDPG吸收這兩種算法各自的優(yōu)勢。相比較傳統(tǒng)的DPG算法,在連續(xù)動(dòng)作控制上,產(chǎn)生了更好的效果。本文基于DDPG的強(qiáng)化學(xué)習(xí)算法,實(shí)現(xiàn)飛行器在空間多障礙體環(huán)境中進(jìn)行智能避障,到達(dá)目標(biāo)地點(diǎn)。飛行器的飛行控制的動(dòng)作選擇是一個(gè)連續(xù)的動(dòng)作空間,該場景和DDPG算法適用場景一致,通過仿真模擬研究,實(shí)驗(yàn)效果較明顯。

猜你喜歡
動(dòng)作智能環(huán)境
長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
孕期遠(yuǎn)離容易致畸的環(huán)境
環(huán)境
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
動(dòng)作描寫要具體
畫動(dòng)作
主站蜘蛛池模板: 欧美第一页在线| 欧美视频在线观看第一页| 2019年国产精品自拍不卡| 亚洲免费黄色网| 免费看a毛片| 国产视频a| 国产精品极品美女自在线网站| 欧美激情伊人| 国产成人亚洲欧美激情| 久久久久国产精品免费免费不卡| 欧美中文字幕无线码视频| 激情综合婷婷丁香五月尤物| 国产欧美视频一区二区三区| 亚洲欧美日韩中文字幕在线一区| 国产成人精品一区二区免费看京| 亚洲美女高潮久久久久久久| 伊人91在线| 国产最新无码专区在线| 九色在线观看视频| 国产精品人人做人人爽人人添| 亚洲天堂网2014| 日韩东京热无码人妻| 午夜精品一区二区蜜桃| 日韩无码视频网站| 久久精品国产亚洲AV忘忧草18| 97国内精品久久久久不卡| v天堂中文在线| 看你懂的巨臀中文字幕一区二区 | 国产在线八区| 99re精彩视频| 国产欧美综合在线观看第七页| 欧美中文字幕一区| 免费一级全黄少妇性色生活片| 丝袜美女被出水视频一区| 欧美在线观看不卡| 97亚洲色综久久精品| 亚洲国产亚综合在线区| 中文字幕在线日本| 国产麻豆永久视频| 国产丝袜无码一区二区视频| 国产日韩欧美精品区性色| AV不卡无码免费一区二区三区| 色婷婷亚洲综合五月| 国产精品自在自线免费观看| 午夜a级毛片| 色综合热无码热国产| a毛片在线播放| 久久无码免费束人妻| 国产毛片片精品天天看视频| 在线免费亚洲无码视频| 国产特级毛片aaaaaa| 国产精品久久久久婷婷五月| 亚洲中文字幕国产av| 亚洲欧美综合在线观看| 国产精品无码AV片在线观看播放| 老司机精品99在线播放| www.狠狠| 亚洲中文在线看视频一区| 亚洲第一区精品日韩在线播放| 中文字幕无码制服中字| 亚洲电影天堂在线国语对白| 一区二区三区在线不卡免费| 国产成人精品男人的天堂下载| 婷婷久久综合九色综合88| 亚国产欧美在线人成| 国产真实乱人视频| 美女视频黄频a免费高清不卡| 久久99国产视频| 另类综合视频| 亚洲看片网| 国产精品久久久久久久久久98| 东京热高清无码精品| 一级一级一片免费| 少妇高潮惨叫久久久久久| 国产一级二级在线观看| 国产91丝袜| 欧美性爱精品一区二区三区| 国产精品丝袜在线| a级毛片免费网站| 日韩亚洲综合在线| 免费AV在线播放观看18禁强制| 欧美区一区|