999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進強化學習的無人機規避決策控制算法

2022-07-08 08:03:58TajmihirIslamTeethi卞志昂
探測與控制學報 2022年3期
關鍵詞:動作智能

Tajmihir Islam Teethi,盧 虎,閔 歡,卞志昂

(空軍工程大學信息與導航學院,陜西 西安 710077)

0 引言

無人機自主飛行、自主導航是提高無人系統智能化水平的重要基礎。在與真實世界的交互過程中,避障是無人機應當具有的最基本的功能之一。目前,很多無人機廠商,如中國的大疆、法國的PARROT等公司也都將自主避障能力作為其無人機產品的一項重要技術指標。當前,無人機的自主避障主要是通過機載傳感器獲取障礙物的距離、位置、速度等有效信息,再根據障礙物信息自主規劃出合理的路徑,從而保證其在運行的過程中避開障礙[1-2]。

傳統的無人機自主避障技術主要由障礙感知與避障規劃兩大功能模塊組成。障礙感知是指無人機通過機載傳感器實時獲取周邊障礙物的信息。避障所常用的傳感器主要包括超聲波傳感器、激光雷達、雙目視覺傳感器等。SLAM(simultaneous localization and mapping)技術可以為避障提供更加豐富全面的地圖環境信息,因此在近幾年的研究中,SLAM技術被廣泛應用于移動機器人自主導航避障[3-4]。但基于SLAM的避障方法仍需要手動調試大量的構圖模型參數以達到良好的建圖效果和可靠的路徑規劃,且在一架無人機上調試好的一套構圖參數,由于平臺、傳感器載荷等的性能差異并不完全適用于另一架無人機。

當前,人工智能正在飛速發展,基于強化學習的避障方法通過訓練深度神經網絡進行端到端動作決策,使得無人機避障無須“額外”的建圖過程,取而代之的是一種即時自主的行為,并且避免了復雜的建模和大量的參數調整,而且因其不需要建圖的特性,此類基于學習的避障方法也能更好地適應于未知無圖的應用場景[5-6]。

1 強化學習的馬爾可夫決策表示

強化學習作為機器學習的一大分支[7],其基本思想是,智能體在完成某項任務時,通過動作與環境進行交互,環境在動作的作用下會返回新的狀態和獎勵值,獎勵值越高說明該動作越好,反之則說明該動作應該被舍棄,經過數次迭代之后,智能體最終會學到完成某項任務的最優策略。強化學習基本的原理框架如圖1所示。

圖1 強化學習基本原理框架Fig.1 The principle framework of reinforcement learning

圖2 馬爾可夫決策過程示例Fig.2 An example of Markov decision process

在強化學習中,從初始狀態S1到終止狀態的序列過程S1,S2,…,ST,被稱為一個片段,一個片段的累積獎勵定義為式(1),式中,rτ為智能體在τ時刻從環境獲得的即時獎勵值,T為智能體達到終止狀態時的時刻

(1)

除此之外,強化學習還在馬爾可夫決策過程的基礎上,定義了智能體的策略π(a|s),策略π表示的是智能體在狀態s下的動作的概率分布,其定義為:

π(a|s)=P[At=a|St=s]。

(2)

強化學習的目的就是通過不斷試錯來改善智能體的策略π(a|s),以最大化其獲得的累積獎勵,因此引入了值函數來評價某個策略獲得的累積獎勵。一般來說值函數分為兩種:狀態值函數(V函數)和狀態動作值函數(Q函數)。V函數的定義是,從狀態s開始,使用策略π得到的期望獎勵值,其定義式

Vπ(s)=E[Gt|St=s]。

(3)

Q函數的定義為,從狀態s開始,執行動作a,然后使用策略π得到的期望獎勵值,其定義式

Qπ(s,a)=Ε[Gt|St=s,At=a,π]。

(4)

最終得到V函數的貝爾曼期望方程

Vπ(s)=E[rt+γVπ(St+1)|St=s]。

(5)

貝爾曼期望方程將V函數的求取分為了兩部分,一部分是當前的即時獎勵rt,另一部分是后繼狀態St+1的V值。同理,也可以推導出Q函數的貝爾曼期望方程

Qπ(s,a)=E[rt+γQπ(St+1,At+1)|St=s,At=a,π]。

(6)

定義最優值函數為所有策略中最大的值函數,即

V*(s)=maxπVπ(s),

(7)

Q*(s,a)=maxπQπ(s,a)。

(8)

2 基于改進強化學習的無人機規避決策控制算法

2.1 無人機視覺避障的馬爾可夫決策模型

無人機視覺避障的強化學習問題可以表述為無人機通過視覺傳感器與環境交互的馬爾可夫決策過程:無人機獲取當前時刻t的視覺圖像st,根據策略π(a|s)執行動作at,觀測環境反饋的獎勵值rt,然后轉移到后繼狀態st+1,其中t∈(0,T],at∈A,A為智能體的動作集,T為每個交互片段的終止時刻。

Qπ(st,at)=E[Gt|st,at,π]。

(9)

根據貝爾曼期望方程,當前Q值可以進一步通過當前獎勵和后繼狀態的Q值求出:

Qπ(st,at)=E[rt+γQπ(st+1,at+1)|st,at,π]。

(10)

智能體的動作決策依據是每個動作的最優Q值:

Q*(st,at)=maxπQπ(st,at)=maxπE[Gt|st,at,π]。

(11)

因此,將Q函數的貝爾曼期望方程進一步轉化為貝爾曼最優方程的形式,即當前的最優Q值可以通過當前獎勵和后繼狀態的最優Q值中的最大值求出:

(12)

在求得每個狀態動作對(st,at)的最優Q值之后,智能體便可以在不同的輸入狀態下進行最優動作決策,從而生成最優策略π*(a|s),其決策的核心思想是貪婪思想,即選擇輸入狀態下最大的最優Q值所對應的動作作為最優動作:

(13)

2.2 深度Q網絡的改進方法

在強化學習問題中,狀態是智能體選擇動作的重要依據,狀態的設置可以是智能體對環境的觀測,也可以是智能體的自身狀態。在無人機避障過程中,無人機需要感知與障礙物之間的距離,因此選擇無人機視覺傳感器采集的深度圖作為無人機的狀態。

為了能使無人機更好地做出合理的決策,設計無人機的狀態為連續抓取深度圖組成的深度圖堆,如圖3所示。這樣設計的好處在于使狀態中既包含了深度信息又隱含了無人機的運動信息,考慮到無人機運行時的實時性,最終決定以連續抓取4幀深度圖來組成一個深度圖堆。

圖3 無人機狀態空間設置Fig.3 State space configuration of drone

動作空間是無人機能夠執行的具體動作,為了使網絡經過訓練能得到更加可靠的避障策略,需要以無人機能及時規避障礙為目標,合理地設計無人機的動作空間。本文所設計的離散動作空間如圖4所示,分為前進和轉向兩大動作組。前進動作組控制無人機的前進速度,其中包含快速前進和慢速前進2個動作:v∈(4,2)m/s。轉向動作組控制無人機偏航角速率,其包含快速左轉、左轉、停止轉向、右轉、快速右轉5個動作:yawrate∈(π/6,π/12,0,-π/12,-π/6)rad/s。動作空間總共包含7個動作,通過前進動作和轉向動作的組合共能生成10種動作指令,基本包含了無人機常見的機動方式。

圖4 無人機離散動作空間Fig.4 Discrete action space of drone

為了提高訓練過程的穩定性和學習效率,本節結合double Q-learning[10]和dueling network[11]方法,設計了用于無人機視覺避障的D3QN(dueling double DQN)網絡,如圖5所示。

圖5 無人機視覺避障D3QN網絡結構Fig.5 D3QN network structure for drone visual obstacle avoidance

本文所設計的D3QN網絡的輸入是連續4幀的深度圖,尺寸為160×128×4,經過3層卷積神經網絡提取特征后,按照dueling network分為兩個數據流,再通過兩層全連接層,網絡的最終輸出是動作空間內各個動作的Q值。網絡的損失函數為:

(14)

網絡規避訓練算法如下:

1:初始化在線網絡權重參數θ,初始化目標網絡權重參數θ-=θ;

2:初始化記憶回放單元D;

3:For episode=1,Mdo;

4:讀取初始狀態st;

5:Fort=1,Tdo;

6:計算當前狀態下所有動作的Q值Q(st,a,θ),a∈A;

7:根據小概率ε選擇隨機動作at∈A,否則選擇動作at=argmaxa∈AQ(st,a,θ);

8:無人機執行動作a,觀測獎勵值和后繼狀態rt和后繼狀態st+1;

9:將五元組{st,at,rt,st+1,reset}存入D,reset用于判斷st+1是否終止狀態;

10:狀態轉移st=st+1;

11:從記憶回放單元隨機采樣n個樣本數據{st,at,rt,st+1,reset}i,i=1,…,n;

12:計算YtDDQN=

14:每C步更新目標網絡參數θ-=θ。

3 實驗驗證與分析

3.1 仿真平臺搭建

為了驗證本文所提出的視覺自主避障算法的可行性與有效性,在AirSim仿真平臺[12]上開展了無人機避障仿真實驗。

無人機視覺自主避障的訓練環境,為40 m×40 m×30 m的方盒世界,如圖6所示,其全局坐標系位于方盒的中心,無人機的初始位置設置于坐標系的原點,然后在其中布置了三種不同形狀的障礙物,在訓練環境中以算法訓練無人機感知障礙、規避障礙的能力。隨后搭建了如圖7所示的泛化測試環境,測試場景1在訓練環境的基礎上,對原來的3個柱形障礙物進行了移動,測試場景2則是在方盒世界中加入了更多的障礙物。

圖6 無人機避障訓練環境 Fig.6 UAV obstacle avoidance training environment

圖7 泛化測試場景Fig.7 Generalization test scenario

為了測試基于D3QN的無人機導航避障算法能力,搭建了如圖8所示的未知測試場景:無人機按照從初始位置→目標位置的路徑執行多航點任務,導航途中面臨多個障礙物,以模擬復雜城市低空復雜場景。

圖8 未知測試場景Fig.8 Unknown test scenario

3.2 網絡性能對比

首先,為了分析所設計的D3QN網絡的優勢,分別采用了D3QN、DDQN、DQN三種不同網絡在訓練環境中進行訓練,網絡訓練的硬件條件為CPU:2.70 GHz×8,GPU:RTX2080ti 11 GB,三種網絡訓練的總片段數均設置為1 000,每次從記憶回放單元采樣32個樣本數據進行梯度下降,訓練過程中的獎勵值曲線如圖9所示。

可以看出,D3QN模型最先開始收斂(約600片段),DDQN和DQN收斂較慢(約800片段),D3QN的訓練速度相比DDQN和DQN提升了約25%,并且平均每個片段的累積獎勵高于DDQN和DQN模型;DDQN相比于DQN,兩者的收斂速度相差不大,但DDQN的平均獎勵水平高于DQN。這可能是由于D3QN和DDQN模型都運用了Double Q-learning,改善了DQN的過估計問題,給予智能體更多的探索機會,使其能夠獲得更高的獎勵值。綜合對比來看,D3QN模型的訓練效率最高,達到了預期的改進效果。

圖9 不同網絡訓練獎勵曲線對比Fig.9 Comparison of reward curves for different network training

3.3 規避決策控制算法泛化測試

為了進一步測試訓練好的D3QN網絡的泛化性能,接下來分別在泛化測試場景1和2中加載D3QN網絡模型,并運行算法進行實際飛行測試,簡明起見僅給出場景1的飛行過程中記錄的運動軌跡以及無人機的轉向控制動作,如圖10所示。

圖10 泛化測試結果Fig.10 Generalization test results

在場景1的泛化測試中,無人機沒有事先對環境構建全局地圖,由記錄的運行軌跡可以看出,無人機在未知的新環境下也能進行無碰撞的自主飛行,通過學習得到的規避決策能力具有較好的自適應性,在圖10(b)記錄的轉向控制動作中雖然出現了較多的跳變現象,但是其不影響整體的避障性能。

綜上可以看出,本文算法訓練出的避障策略,對環境的改變具有較好的自適應能力,訓練后的D3QN網絡也表現出了較好的泛化性能。

3.4 導航避障算法測試

為了進一步測試把規避決策應用到具體任務中的表現性能,在搭建的圖8的未知測試場景中對算法進行了測試,測試結果如圖11所示。

從仿真測試結果可以看出,無人機在執行航點導航任務的過程中,能夠判斷出前方是否存在障礙,并能做出合理決策,及時進行規避,在避開障礙之后繼續朝著設置的航點飛行。

圖11 飛行軌跡(多航點任務)導航避障算法測試飛行軌跡Fig.11 Flight trajectory (multi-waypoint task) navigation obstacle avoidance algorithm test flight trajectory

相比于基于地圖和規劃的避障方法,基于學習的避障方法直接根據圖像作出相應決策,其優勢在于不依賴地圖,能較好地適用于未知無圖的環境。但是在建圖良好的情況下,基于地圖和規劃的避障方法可以依據規劃好的路徑,控制無人機以盡可能快的速度飛行,其動作連續,控制更加精準,最大運行速度可達10 m/s。而在本章的仿真實驗中,考慮到圖像處理、網絡計算量以及動作空間的離散性,無人機自主飛行的最大速度為4 m/s。

4 結論

無人機規避決策的導航控制問題是無人機的核心技術之一,論文研究成果有助于進一步完善無人機智能化、集群化的相關算法與技術,提升無人機中低空飛行的導航控制性能。但本文提出的基于改進強化學習的無人機視覺避障算法,仍有較大性能提升空間。如文中提出的D3QN網絡只能輸出離散動作空間,且只適用于旋翼無人機,為了進一步提升避障控制的精準程度以及算法的通用性,還應當研究旋翼無人機和固定翼無人機飛行控制的共性與區別,設置維度更大的動作空間來組合形成不同的運動模式,或是改用基于策略梯度的深度強化學習算法學習連續化的避障策略;其次是所提避障算法從仿真到真實環境的泛化問題,在仿真器中訓練無人機避障時,仿真器所提供的深度圖過于理想,不存在任何噪聲,實踐中應對其進行加噪聲處理,從而使仿真器提供的環境更加逼近真實環境。上述問題都有待進一步的深入研究、技術拓展并逐步完善。

猜你喜歡
動作智能
下一個動作
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
動作描寫要具體
畫動作
讓動作“活”起來
主站蜘蛛池模板: 99热这里只有精品免费国产| 思思热精品在线8| 国产视频大全| 58av国产精品| 亚洲不卡网| 欧美日韩一区二区在线免费观看| 2020亚洲精品无码| 特级aaaaaaaaa毛片免费视频| 日本久久免费| 一级高清毛片免费a级高清毛片| 国产免费羞羞视频| 亚洲AV成人一区国产精品| 亚洲美女一区| 成人综合网址| 国产日韩丝袜一二三区| 无码国产伊人| 亚洲欧美另类视频| 国产真实乱子伦视频播放| 青青青伊人色综合久久| 国产伦片中文免费观看| 亚洲高清中文字幕在线看不卡| 久久精品人人做人人| 日韩在线永久免费播放| 国产精品久久精品| 欧美亚洲另类在线观看| 高清码无在线看| 国产精品妖精视频| 亚洲国产精品无码AV| 无码人妻热线精品视频| 亚洲国产成人麻豆精品| 伊在人亞洲香蕉精品區| 国产精品亚洲va在线观看| 欧美自慰一级看片免费| 国产福利影院在线观看| 亚洲综合九九| 亚洲日本中文综合在线| 日韩天堂网| 少妇人妻无码首页| 日本手机在线视频| 亚州AV秘 一区二区三区| 久久久久无码精品| 永久免费无码成人网站| 国产微拍一区二区三区四区| 亚洲另类色| 在线无码九区| 妇女自拍偷自拍亚洲精品| 无码人中文字幕| 成人免费黄色小视频| 婷婷色丁香综合激情| 99这里只有精品免费视频| 久草中文网| 亚洲精品欧美重口| 国产亚洲欧美日本一二三本道| 精品第一国产综合精品Aⅴ| 国产精品白浆无码流出在线看| 亚洲欧美国产视频| 国产女同自拍视频| 久久久久青草线综合超碰| 美女毛片在线| 久久性妇女精品免费| 一级看片免费视频| 日韩小视频在线观看| 黄色网页在线播放| 国产一级一级毛片永久| www亚洲精品| 日韩经典精品无码一区二区| 亚洲美女高潮久久久久久久| 国产丝袜丝视频在线观看| 日韩高清欧美| 日韩在线播放中文字幕| 亚洲无码高清一区二区| 中文字幕日韩丝袜一区| 亚洲天堂网视频| 亚洲综合欧美在线一区在线播放| 日本中文字幕久久网站| 国产区成人精品视频| 国产精品三级av及在线观看| 欧洲熟妇精品视频| 精品欧美一区二区三区久久久| 成人国产精品网站在线看| 亚洲国产91人成在线| 久996视频精品免费观看|