
中圖分類號(hào):V249 文獻(xiàn)標(biāo)志碼:A
Abstract:In order to achieve the autonomous exploration of complex 3D unstructured environment by fixed-wing UAV,a flight path planning solution is proposed to explore 3D environment by flying in 2D space. An autonomous exploration method is proposed,which takes local terrain information as input and is based on Proximal Policy Optimization (PPO).3D unstructured terrain environment is constructed based on Berlin noise.A mathematical model of reinforcement learning is designed,which takes the elevation information (local terrain) in the field of view of the UAV as the state and the continuous yaw angle as the action. The fixed-wing UAV was able to efficiently explore unstructured environments with minimal local information under flight dynamics constraints. The experimental results show that the method has stronger exploration power and generalization performance in terms of total reward,exploration rate,path length,and other indicators of map exploration compared to using only 2D occupancy information.
Key words: fixed-wing UAV; autonomous exploration; complex 3D unstructured environment;proximal policy optimization;perlin noise
0 引言
無人機(jī)在城市街道、工業(yè)園區(qū)等結(jié)構(gòu)化環(huán)境中的研究與應(yīng)用相對(duì)成熟,而在礦區(qū)、森林、荒漠、災(zāi)害現(xiàn)場(chǎng)等缺乏明確邊界、規(guī)則的非結(jié)構(gòu)化環(huán)境(unstructuredenvironment)中的研究與應(yīng)用尚顯不足[1-3],固定翼無人機(jī)應(yīng)用于非結(jié)構(gòu)化環(huán)境探索的相關(guān)研究更是鮮見.非結(jié)構(gòu)化環(huán)境中場(chǎng)景元素的分布和特征具有高度的不確定性和隨機(jī)性,信息不完全,難以通過傳統(tǒng)方法進(jìn)行全面建模和分析.無人機(jī)在缺失先驗(yàn)地圖信息的條件下進(jìn)行探索會(huì)遇到不確定性大、決策時(shí)間長、探索速率慢和魯棒性差等問題4],難以保證探索的效率與完整性.
目前,自主探索算法領(lǐng)域主流的傳統(tǒng)算法包括基于邊界檢測(cè)的自主探索算法、基于隨機(jī)采樣的自主探索算法、基于信息理論的自主探索算法等[5].但傳統(tǒng)算法大都缺乏對(duì)先前不存在的經(jīng)驗(yàn)或策略的探索能力,容易陷人局部最優(yōu)的困境,在策略執(zhí)行過程中,部分求解環(huán)節(jié)依賴與空間維度和空間離散數(shù)成正比的直接搜索,計(jì)算資源開銷大,亟待更加高效的方法.基于深度強(qiáng)化學(xué)習(xí)的自主探索算法因其強(qiáng)大的高維度信息感知、理解、處理能力,且不需要依賴環(huán)境模型,受到了越來越多學(xué)者的關(guān)注[7-11],更多的研究人員將深度強(qiáng)化學(xué)習(xí)與無人機(jī)系統(tǒng)相結(jié)合來處理未知環(huán)境下的決策問題.
Bouhamed等[12]提出了一種使用深度確定性策略梯度算法(DDPG)的自主無人機(jī)路徑規(guī)劃框架,訓(xùn)練無人機(jī)在給定的模擬三維城市區(qū)域內(nèi)到達(dá)移動(dòng)或靜態(tài)目標(biāo).Peake等[13]特別注重?zé)o人機(jī)在未知環(huán)境中搜索興趣區(qū)域,針對(duì)探索建圖、導(dǎo)航的雙任務(wù)各自設(shè)計(jì)了獨(dú)立模型,使用地圖分割技術(shù)將分解后的環(huán)境地圖作為網(wǎng)絡(luò)的輸人,并將算法搭載在物理機(jī)上進(jìn)行了消融實(shí)驗(yàn).Li等[14]在自主探索框架的基礎(chǔ)上,提出了一種以構(gòu)建地圖作為輸入的自主探索決策算法,設(shè)計(jì)了用于環(huán)境探索的獎(jiǎng)勵(lì)函數(shù)和新的動(dòng)作空間來緩解由于機(jī)器人誤差導(dǎo)致在實(shí)體機(jī)器人控制上遷移性能差的問題.
本文針對(duì)復(fù)雜三維非結(jié)構(gòu)化環(huán)境下的固定翼無人機(jī)自主探索問題,提出了一套可行的解決方案:將處于定高模式開展探索的無人機(jī)視場(chǎng)下方環(huán)境的局部地形信息作為網(wǎng)絡(luò)輸入,結(jié)合深度強(qiáng)化學(xué)習(xí)方法,訓(xùn)練出能在有限的步數(shù)下最大限度探索覆蓋未知區(qū)域智能體.采用了柏林噪聲自主構(gòu)建了高復(fù)雜度的三維非結(jié)構(gòu)化地形環(huán)境,在固定高度對(duì)地圖模型進(jìn)行切片截取,將觀測(cè)到的環(huán)境高程信息添加到布爾型切片地圖中,設(shè)計(jì)了以無人機(jī)視場(chǎng)內(nèi)高程信息作為狀態(tài)、連續(xù)的偏航角作為動(dòng)作的強(qiáng)化學(xué)習(xí)模型.在二維切片地圖的基礎(chǔ)上融合了三維高程信息,保有豐富環(huán)境細(xì)節(jié)的同時(shí)又不提高計(jì)算復(fù)雜度,相較于二維環(huán)境不全面的狀態(tài)觀測(cè)具有更好的探索效果,同時(shí)因?yàn)椴扇×硕S的動(dòng)作空間,在動(dòng)作空間復(fù)雜度和訓(xùn)練難度層面上相較于三維環(huán)境又更具優(yōu)勢(shì).
1三維環(huán)境構(gòu)建與飛行初始點(diǎn)篩選
本文采用了具有良好平滑性的柏林噪聲[15]來生成三維非結(jié)構(gòu)化隨機(jī)環(huán)境的數(shù)字高程圖[16],幫助智能體適應(yīng)真實(shí)世界特性,并創(chuàng)建相應(yīng)的布爾型切片地圖,完成對(duì)初始飛行點(diǎn)隊(duì)列的篩選.
1.1復(fù)雜三維非結(jié)構(gòu)化環(huán)境設(shè)計(jì)實(shí)現(xiàn)
柏林噪聲算法會(huì)先在覆蓋全圖的晶格矩形網(wǎng)格的晶格點(diǎn)上隨機(jī)初始化一個(gè)梯度向量,假定晶格內(nèi)的一個(gè)待計(jì)算像素點(diǎn)為 P ,該點(diǎn)所屬的四個(gè)晶格點(diǎn)分別記作
(如圖1(a)所示),其梯度向量記為 (grado,gradl,grad2 ,grad3 〉.接下來計(jì)算出 P 點(diǎn)分別距離四個(gè)晶格點(diǎn)的偏移向量 ?delta?,delta?1,delta?2,delta?3? (如圖1(b)所示),再根據(jù)公式(1)計(jì)算出每個(gè)晶格點(diǎn)的梯度向量與偏移向量的點(diǎn)積并求累和,經(jīng)過平滑函數(shù)處理后最終獲得 P 點(diǎn)的隨機(jī)噪聲值.重復(fù)上述步驟,依次計(jì)算完晶格內(nèi)的所有點(diǎn)即可得到完整的噪聲圖(如圖1(c)所示).其中, f(?) 具體展開為公式(2)所示:

圖1柏林噪聲生成過程

初始的柏林噪聲圖四周的邊界是開放的,本文在噪聲圖的四周添加了一層厚度適中、值等同于噪聲圖中最大值的電子邊界(如圖2(a)所示),從而構(gòu)建了一個(gè)封閉的飛行空域,確保智能體在該區(qū)域內(nèi)進(jìn)行自主探索.同時(shí)為了消除電子邊界與原地圖連接處的不連續(xù)性,再對(duì)添加電子邊界后的探索地圖使用適配于地圖規(guī)模的均值卷積核進(jìn)行卷積平滑處理(如圖2(b)所示),減少對(duì)智能體探索策略的學(xué)習(xí)造成影響.
圖2地圖預(yù)處理

為了便于后續(xù)數(shù)據(jù)處理,對(duì)卷積平滑后的隨機(jī)地圖進(jìn)行歸一化處理,將原本的地圖高程的值域范圍映射到[0,1]內(nèi).采用8位二進(jìn)制整型變量存儲(chǔ)地圖上單個(gè)數(shù)據(jù)點(diǎn)的高程數(shù)據(jù),一共可以均勻量化出256級(jí)高程值,減輕了無人機(jī)機(jī)載電腦的存儲(chǔ)負(fù)擔(dān),本文中垂直分辨率設(shè)置為1米,可記錄海拔變化范圍在 0~255 米的高程地圖.真實(shí)無人機(jī)受限于動(dòng)力供給與通信范圍,最大飛行高度和航程有限,因此后續(xù)的研究會(huì)采用固定的步數(shù)來對(duì)模型進(jìn)行訓(xùn)練與測(cè)試.
1.2飛行初始點(diǎn)篩選
本文所設(shè)計(jì)地圖相較于真實(shí)世界的數(shù)字高程模型(DEM)而言具有更高的障礙物密度和復(fù)雜度,訓(xùn)練難度也會(huì)更大.為了避免模型在訓(xùn)練過程中出現(xiàn)生成在山體內(nèi)部等違背物理?xiàng)l件的隨機(jī)初始飛行點(diǎn),需要在二維切片地圖上對(duì)初始飛行點(diǎn)隊(duì)列進(jìn)行篩選.二維切片地圖是三維地圖在垂直維度上水平方向的簡(jiǎn)略表示,有利于無人機(jī)提高對(duì)其飛行平面上的地理特征感知與學(xué)習(xí)能力,切片地圖生成的具體流程如圖3所示.
圖3切片地圖生成流程

截取與起始飛行點(diǎn)處于同一海拔高度的三維高程模型水平面,將該平面數(shù)據(jù)映射到二維平面上形成二維柵格地圖,再進(jìn)行閾值分割,制作成布爾型的切片地圖.閾值分割后的地圖中值為。的點(diǎn)即為備選的初始飛行點(diǎn),并通過障礙物檢測(cè)篩選可行初始飛行點(diǎn).
障礙物檢測(cè)的具體方法如下:設(shè)定初始生成半徑 Rinit ,在切片地圖中以待檢測(cè)的備選點(diǎn)為幾何中心,向四周截取邊長長度為 2Rinit 的正方形矩陣記作 Ainit ,并與具有相同維度的掩碼矩陣 Amask 進(jìn)行點(diǎn)乘運(yùn)算,其中 Amask 內(nèi)元素取值滿足公式(3),i,j 分別是該點(diǎn)的橫縱坐標(biāo),公式(4)中 xi,j?yi,j 分別是該點(diǎn)距中心候選點(diǎn)的橫向距離和縱向距離.

Ri,j=(xi,j-Rinit)2+(yi,j-Rinit)2
根據(jù) Ainit?Amask 的結(jié)果中的最大值判斷該候選點(diǎn)是否為可行初始點(diǎn).若最大值不大于0則說明該候選點(diǎn)附近較為空曠,適合作為起始飛行點(diǎn),并將其添加到可行初始點(diǎn)的備選隊(duì)列中;反之,則說明該點(diǎn)附近存在障礙物,不適合作為起始飛行點(diǎn).
可行初始點(diǎn)與不可行初始點(diǎn)的示意圖如圖4所示,圓環(huán)內(nèi)圓為無人機(jī)可能觀察到的視野范圍,半徑為 RFOV ,整個(gè)外圓內(nèi)的部分是初始生成點(diǎn)的障礙物檢測(cè)范圍,半徑為 Rinit ,本文中默認(rèn) RFOVlt; Rinit .為確保初始飛行點(diǎn)分布的均勻性,采用隨機(jī)抽樣方法從隊(duì)列中選取100個(gè)備選點(diǎn)作為訓(xùn)練的固定初始點(diǎn).
圖4可行初始點(diǎn)與不可行初始點(diǎn)示意圖

2部分可觀測(cè)環(huán)境自主探索數(shù)學(xué)模型
本章的主要研究內(nèi)容是基于固定翼無人機(jī)飛行動(dòng)力學(xué)約束,通過狀態(tài)空間設(shè)計(jì)、動(dòng)作空間設(shè)計(jì)、獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)和算法設(shè)計(jì)建立一個(gè)含約束的無人機(jī)自主探索的部分可觀測(cè)馬爾可夫決策過程(POMDP)模型.
2.1無人機(jī)飛行動(dòng)力學(xué)約束建模
固定翼無人機(jī)的飛行動(dòng)力學(xué)模型及飛行動(dòng)力學(xué)約束比多旋翼無人機(jī)更為復(fù)雜,為了不失一般性,本文采用固定翼無人機(jī)作為飛行動(dòng)力學(xué)約束建模的參考對(duì)象.以固定翼無人機(jī)飛行動(dòng)力學(xué)模型[7為基礎(chǔ),僅考慮無人機(jī)在固定高度飛行時(shí)的簡(jiǎn)化飛行動(dòng)力學(xué)約束,推導(dǎo)最小轉(zhuǎn)彎半徑、最大航向半角等無人機(jī)參數(shù).假定無人機(jī)以固定航速VUAV 飛行,則其最小轉(zhuǎn)彎半徑 Rmin 為公式(5)所示:

式(5)中: g 為重力加速度, ny 無人機(jī)最大允許正常過載系數(shù).將其代人公式(6)可得到最大航向半角 Ψ ,其中無人機(jī)運(yùn)動(dòng)步長 λ 如公式(7)所示:

λ=VUAV×dt
無人機(jī)自主探索規(guī)劃后的下一步的位置和方向的更新如公式(8)所示:

式(8)中:
分別為無人機(jī)在當(dāng)前時(shí)刻的位置與下一時(shí)刻的位置, φu…φu' 分別為無人機(jī)在當(dāng)前時(shí)刻的方向與下一時(shí)刻的方向.
2.2 狀態(tài)空間設(shè)計(jì)
本文的狀態(tài)空間是由無人機(jī)與周圍環(huán)境互動(dòng)時(shí)機(jī)載傳感器觀測(cè)到的環(huán)境信息組成的,以無人機(jī)執(zhí)行探索任務(wù)的封閉區(qū)域的總和為全局地圖.無人機(jī)無法在將未知地圖轉(zhuǎn)化為已知地圖的探索過程中觀測(cè)到全局探索地圖信息,只能通過機(jī)載傳感器獲得在當(dāng)前時(shí)間步 χt 下所處位置視角朝向內(nèi)的局部化地形環(huán)境的高程信息,并將觀測(cè)到的部分且有限的局部地圖作為狀態(tài) st :
客觀世界的狀態(tài)信息在經(jīng)過無人機(jī)傳感器后會(huì)產(chǎn)生非線性畸變,形成扇形的觀測(cè)視野.在本文所提的方法中,無人機(jī)被視作是一個(gè)質(zhì)點(diǎn),仿真系統(tǒng)會(huì)實(shí)時(shí)記錄無人機(jī)當(dāng)前的位置與航向角,截取扇形視場(chǎng)內(nèi)柵格地圖數(shù)據(jù)信息作為局部觀測(cè)地圖.隨著無人機(jī)的運(yùn)動(dòng)不斷刷新捕獲的視場(chǎng)環(huán)境并使用光線投射法進(jìn)行預(yù)處理,將扇形視野恢復(fù)成 40× 40分辨率的矩形局部地圖后批量存儲(chǔ)到數(shù)據(jù)緩沖區(qū),最終作為網(wǎng)絡(luò)模型的狀態(tài)輸入.
無人機(jī)觀測(cè)的局部地圖和畸變校正后的局部地圖如圖5所示.在圖5中,可行區(qū)域的顏色由紫漸變?yōu)榫G色代表著該處環(huán)境海拔的升高;紅色邊線是從無人機(jī)扇形視場(chǎng)頂點(diǎn)所發(fā)出射線與障礙物相交后形成的,代表著在當(dāng)前高度切片下無人機(jī)觀測(cè)到的可行域與山體的邊界;未知區(qū)域則是超過無人機(jī)當(dāng)前海拔高度未被觀測(cè)到的地形.無人機(jī)根據(jù)局部地圖能夠獲取到環(huán)境高程數(shù)據(jù)及其變化趨勢(shì)、與邊界的距離、未知區(qū)域分布等信息,依照學(xué)習(xí)到的自主探索策略完成對(duì)未知環(huán)境的探索覆蓋.
圖5無人機(jī)觀測(cè)局部地圖(即狀態(tài))

2.3 動(dòng)作空間設(shè)計(jì)
對(duì)無人機(jī)的相對(duì)航向角進(jìn)行動(dòng)作空間設(shè)計(jì),可以建立離散動(dòng)作空間和連續(xù)動(dòng)作空間:離散動(dòng)作空間是將最大航向角范圍均勻等分成有限份離散的轉(zhuǎn)向角度,不同的動(dòng)作序號(hào)分別對(duì)應(yīng)著不同的轉(zhuǎn)向角度;連續(xù)動(dòng)作空間則是將無人機(jī)最大航向角范圍[-ψ,ψ] 通過tanh激活函數(shù)映射到[—1,1」上.在實(shí)際應(yīng)用中,離散動(dòng)作空間的動(dòng)作選擇的數(shù)量有限,因此計(jì)算效率較高,學(xué)習(xí)過程更加快速,但在復(fù)雜任務(wù)的執(zhí)行上可能會(huì)遇到性能瓶頸.連續(xù)動(dòng)作空間雖然會(huì)增加學(xué)習(xí)的復(fù)雜性,但能夠更真實(shí)地模擬現(xiàn)實(shí)世界中的動(dòng)作,適配于無人機(jī)飛行控制等需要精細(xì)控制的場(chǎng)景,也能幫助智能體更好地應(yīng)對(duì)復(fù)雜環(huán)境帶來的挑戰(zhàn),因此本文采用連續(xù)動(dòng)作空間建模.
2.4獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)
探索過程中,無人機(jī)智能體將根據(jù)視野范圍內(nèi)的環(huán)境信息快速準(zhǔn)確地進(jìn)行安全無碰撞的航跡規(guī)劃,避免與障礙物相撞,在確保自身具備持續(xù)探索能力的前提下開展后續(xù)探索.基于這一思想本文設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)如下:

獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)分為兩個(gè)部分,分別用以提升無人機(jī)的生存能力和探索能力.在生存能力獎(jiǎng)勵(lì)邏輯部分,采用了碰撞懲罰機(jī)制來引導(dǎo)無人機(jī)學(xué)習(xí)自主避障策略,提高續(xù)航能力.當(dāng)無人機(jī)與障礙物發(fā)生碰撞時(shí),獎(jiǎng)勵(lì)系統(tǒng)立即給予一個(gè)較大的負(fù)獎(jiǎng)勵(lì)值-1000 ,旨在強(qiáng)調(diào)避免碰撞的重要性,并且一旦發(fā)生碰撞就會(huì)直接結(jié)束該回合的探索.
在探索能力獎(jiǎng)勵(lì)邏輯部分,無人機(jī)每一步的獎(jiǎng)勵(lì)值由新探索到的未知區(qū)域面積決定,用于激勵(lì)積極無人機(jī)探索未知區(qū)域.具體來說,獎(jiǎng)勵(lì)值re 為單步新探索到的未知區(qū)域的面積乘以折扣系數(shù)后計(jì)算得出,其值大小一般在幾十左右,以反映探索新區(qū)域的價(jià)值,若該步并未探索到新的未知區(qū)域則獎(jiǎng)勵(lì)值就為0,從而鼓勵(lì)無人機(jī)不斷尋找并探索新的區(qū)域,避免陷入僅在已知區(qū)域內(nèi)活動(dòng)的局部最優(yōu).
2.5 算法設(shè)計(jì)
三維非結(jié)構(gòu)化環(huán)境具有更高的空間維度和更復(fù)雜的環(huán)境狀態(tài),為了提高智能體應(yīng)對(duì)復(fù)雜地形的能力和探索效率,本文采用適用于精細(xì)控制任務(wù)與高維狀態(tài)空間的PPO算法,搭建的強(qiáng)化學(xué)習(xí)框架整體流程如圖6所示.
圖6 PPO算法流程

強(qiáng)化學(xué)習(xí)環(huán)境交互部分運(yùn)用的是強(qiáng)化學(xué)習(xí)的經(jīng)典框架,智能體結(jié)合當(dāng)前獲得的狀態(tài)信息依據(jù)自身策略在環(huán)境中做出動(dòng)作,環(huán)境更新智能體到下一狀態(tài)并反饋即時(shí)獎(jiǎng)勵(lì)給智能體.無人機(jī)的探索軌跡由具有最新策略的Actor去采集,到達(dá)預(yù)設(shè)的更新步數(shù)后開始更新網(wǎng)絡(luò)參數(shù).Critic網(wǎng)絡(luò)的更新會(huì)根據(jù)目標(biāo)值和預(yù)測(cè)值計(jì)算優(yōu)勢(shì)函數(shù),并使用最小均方誤差作為損失函數(shù)對(duì)網(wǎng)絡(luò)權(quán)重參數(shù)進(jìn)行反向傳播更新.Actor網(wǎng)絡(luò)則需要新、舊網(wǎng)絡(luò)輸出各自對(duì)于當(dāng)前狀態(tài)的動(dòng)作概率分布,其中動(dòng)作概率分布的標(biāo)準(zhǔn)差會(huì)隨著訓(xùn)練輪次的增加而線性衰減至預(yù)設(shè)值,再依照PPO-Clip的目標(biāo)函數(shù)來對(duì)網(wǎng)絡(luò)進(jìn)行更新.
PPO-Clip的目標(biāo)函數(shù)為:
LPPO-Clip(θ)=Eτ~πθ[min(surr1,surr2)]


式(10)中: θ 代表網(wǎng)絡(luò)的權(quán)重參數(shù), τ 為根據(jù)當(dāng)前策略探索 πθ 得到的軌跡,surr1與 surr2 是兩個(gè)替代函數(shù).
式(11)、(12)中: πθold 是先前的策略,
at )是狀態(tài) st 下采取動(dòng)作 at 的優(yōu)勢(shì)函數(shù), ρt 為重要性采樣:

裁剪函數(shù) clip(ρt(θ),1-ε,1+ε) 會(huì)將 ρt(θ) 幅度截?cái)嘣?[1-ε,1+ε] 范圍中,以此保證新舊策略的相似.為了進(jìn)一步提高模型的收斂性能,本文在模型中應(yīng)用了網(wǎng)絡(luò)正交初始化、策略熵、狀態(tài)標(biāo)準(zhǔn)化等Trick進(jìn)行改進(jìn).
從局部觀測(cè)到值函數(shù)和策略函數(shù)復(fù)雜的映射關(guān)系通過深度神經(jīng)網(wǎng)絡(luò)進(jìn)行擬合.本文Actor和Critic網(wǎng)絡(luò)采用了輕量化的網(wǎng)絡(luò)結(jié)構(gòu),先使用三層級(jí)聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入圖片尺寸為 40×40 、顏色通道數(shù)為1的局部地圖特征信息進(jìn)行提取,再通過兩層全連接層完成動(dòng)作與狀態(tài)價(jià)值的輸出.決策網(wǎng)絡(luò)的結(jié)構(gòu)如圖7所示.
圖7決策網(wǎng)絡(luò)結(jié)構(gòu)

3仿真實(shí)驗(yàn)及結(jié)果分析
本文進(jìn)行實(shí)驗(yàn)的物理設(shè)備是搭載了32GBRAM的IntelCorei9-12900KFCPU的計(jì)算機(jī),顯卡為GeForceRTX3090,操作系統(tǒng)為Ubuntu20.04,Python版本3.10,訓(xùn)練采用Pytorch框架.
3.1實(shí)驗(yàn)設(shè)置與參數(shù)配置
本文用于訓(xùn)練與測(cè)試的三維非結(jié)構(gòu)化環(huán)境采用柏林噪聲生成,并通過添加電子邊界、卷積平滑、歸一化等方式對(duì)地圖進(jìn)行了預(yù)處理.以固定翼無人機(jī)作為飛行動(dòng)力學(xué)約束建模的參考對(duì)象,構(gòu)建實(shí)驗(yàn)環(huán)境物理運(yùn)行規(guī)則,并將航向角作為智能體的動(dòng)作輸出.
在仿真實(shí)驗(yàn)中,無人機(jī)均進(jìn)行定高且勻速的飛行,訓(xùn)練地圖為 1 000×1 000 分辨率的封閉非結(jié)構(gòu)化地圖.為了研究高程信息對(duì)智能體策略的影響,本文同步對(duì)比了三維環(huán)境和二維切片環(huán)境下訓(xùn)練出來的智能體的表現(xiàn).
PPO算法的訓(xùn)練參數(shù)如表1所示,二維切片模型、三維模型和三維縮放模型所采用的模型結(jié)構(gòu)與超參數(shù)大小均相同,區(qū)別僅在于輸入的狀態(tài)是否包含環(huán)境高程信息.隨著訓(xùn)練輪次的增加,動(dòng)作分布的標(biāo)準(zhǔn)差逐漸從1降低到0.1后固定不變,智能體選擇動(dòng)作的隨機(jī)性也趨于穩(wěn)定.
表1訓(xùn)練參數(shù)設(shè)置

訓(xùn)練時(shí)無人機(jī)首先會(huì)隨機(jī)初始化在備選的飛行點(diǎn)之一,其初始朝向也是隨機(jī)的,在初始化的同時(shí)會(huì)獲得視野半徑內(nèi)的環(huán)境信息.每輪次訓(xùn)練的時(shí)間采樣步長為1000步,當(dāng)無人機(jī)探索步數(shù)達(dá)到1000步時(shí)將結(jié)束該回合的探索,若在達(dá)到1000步前無人機(jī)與障礙物相撞則會(huì)導(dǎo)致提前結(jié)束探索.
3.2 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)開展后需要通過不同的性能指標(biāo)來對(duì)模型表現(xiàn)進(jìn)行評(píng)價(jià),本文針對(duì)強(qiáng)化學(xué)習(xí)訓(xùn)練結(jié)果、模型測(cè)試等方面設(shè)置以下評(píng)價(jià)指標(biāo):
(1)探索總獎(jiǎng)勵(lì) Riotal .智能體在每步的探索過程中與環(huán)境交互會(huì)產(chǎn)生獎(jiǎng)勵(lì)反饋,累積幕內(nèi)所有步所獲獎(jiǎng)勵(lì)之和作為該幕的探索總獎(jiǎng)勵(lì).探索總獎(jiǎng)勵(lì)的數(shù)值大小直接映射了無人機(jī)在地圖探索任務(wù)中的覆蓋深度,而其動(dòng)態(tài)變化的獎(jiǎng)勵(lì)曲線則直觀揭示了模型在學(xué)習(xí)過程中的演進(jìn)軌跡與性能提升.
(2)探索率 Se .即探索面積比,代表了在每幕結(jié)束時(shí)無人機(jī)已探明的地圖面積占全局地圖中所有可探索面積的百分比值,計(jì)算方式如式(14)所示:

式(14)中: Sexplore 表示已探索的地圖面積,由探索狀態(tài)地圖計(jì)算獲得, Stotal 為指定海拔下全局理論可供探索的面積,由全局地圖計(jì)算獲得.
(3)路徑長度 L .本文中無人機(jī)采取恒定飛行速度,無人機(jī)飛行路徑長度正比于探索步數(shù),將探索步數(shù)做為路徑長度衡量單位,路徑長度越長代表無人探索行為持續(xù)越久,因撞到障礙物而結(jié)束探索的情況越少.
(4)探索效率 Ee .采用無人機(jī)在單位路徑長度下探索面積的大小進(jìn)行定義,表征了無人機(jī)的探索地圖未知區(qū)域的能力,表達(dá)式如下:

3.3訓(xùn)練結(jié)果與分析
二維切片模型、三維模型和三維縮放模型均采用同一隨機(jī)種子下生成的非結(jié)構(gòu)化地圖,未知區(qū)域歸一化后的值為0.600,邊界值為1.000.二維切片模型和三維模型無人機(jī)起始點(diǎn)飛行高度歸一化后的高度閾值為0.550,即無人機(jī)僅能獲取 0~0.550 的地圖高程數(shù)據(jù).三維縮放模型是在三維模型的基礎(chǔ)上對(duì)無人機(jī)獲取到的高程數(shù)據(jù)進(jìn)行縮放處理得到的,本文三維縮放模型將 0~0.550 的數(shù)據(jù)線性壓縮至 0~0.200 的范圍內(nèi)再交由網(wǎng)絡(luò)訓(xùn)練,用于觀察模型性能的改變.在面對(duì)高維的訓(xùn)練數(shù)據(jù)時(shí),強(qiáng)化學(xué)習(xí)訓(xùn)練過程并不平穩(wěn),為了減少獎(jiǎng)勵(lì)曲線抖動(dòng)對(duì)趨勢(shì)觀察的影響,采用了指數(shù)滑動(dòng)平均(EMA)來對(duì)曲線進(jìn)行平滑處理,同時(shí)為了減少訓(xùn)練過程中的偶然性帶來的影響,獎(jiǎng)勵(lì)曲線圖均采取10次獨(dú)立實(shí)驗(yàn)后的均值來進(jìn)行繪制,總獎(jiǎng)勵(lì)曲線圖如圖8所示.
圖8訓(xùn)練總探索獎(jiǎng)勵(lì)對(duì)比結(jié)果

每組實(shí)驗(yàn)訓(xùn)練的總步數(shù)為 2×107 步,獨(dú)立運(yùn)行需8個(gè)小時(shí).圖中藍(lán)線代表二維切片模型(PPO-2D)在訓(xùn)練過程中的總獎(jiǎng)勵(lì)曲線,綠線代表三維模型(PPO-3D)在訓(xùn)練過程中的總獎(jiǎng)勵(lì)曲線,紅線代表三維縮放模型(PPO-3DZoom)在訓(xùn)練過程中的總獎(jiǎng)勵(lì)曲線,各獎(jiǎng)勵(lì)曲線上下的陰影部分代表著曲線在對(duì)應(yīng)step下的標(biāo)準(zhǔn)差,三種模型的獎(jiǎng)勵(lì)曲線在 7×106 步附近交匯.
三維模型相較于二維切片模型具有更多的高程信息可以用于決策,到達(dá)交匯點(diǎn)前三維縮放模型獎(jiǎng)勵(lì)的增長速度最快.在 7×106 步后的訓(xùn)練過程中,智能體已經(jīng)能通過具有高程信息的復(fù)雜狀態(tài)做出更有利于獎(jiǎng)勵(lì)獲取的決策,因此三維模型的獎(jiǎng)勵(lì)值依次高于三維縮放模型和二維切片模型.此外,在訓(xùn)練的中后期三維模型相較于二維切片模型和三維縮放模型具有更高的標(biāo)準(zhǔn)差,這表明高程信息為模型增添了探索高額獎(jiǎng)勵(lì)的潛力,但也加大了模型性能表現(xiàn)的波動(dòng).高程信息的引入使得三維模型與三維縮放模型在最終收斂獎(jiǎng)勵(lì)值、獎(jiǎng)勵(lì)收斂速度等方面的不同程度上優(yōu)于二維模型.
3.4測(cè)試結(jié)果與分析
選取訓(xùn)練過程中各類別下性能最優(yōu)的模型在同一個(gè)訓(xùn)練地圖模型中分別獨(dú)立測(cè)試50次,測(cè)試模式下單幕最大探索步數(shù)設(shè)置為10000步,訓(xùn)練地圖的全局地圖與測(cè)試過程中各模型的探索面積最大的探索地圖如圖9所示.二維探索地圖中淺灰色圓點(diǎn)為起點(diǎn),黑色圓點(diǎn)為終點(diǎn),三維探索地圖中紫色圓點(diǎn)為起點(diǎn),紅色圓點(diǎn)為終點(diǎn).
圖9訓(xùn)練地圖下不同模型測(cè)試效果圖
圖10 不同地圖探索率對(duì)比圖

根據(jù)測(cè)試數(shù)據(jù),二維切片模型、三維模型、三維縮放模型已探索面積占全局地圖可探索面積的最大探索率分別為 76.38%.77.18%.78.76% .實(shí)驗(yàn)結(jié)果表明,三維模型和三維縮放模型在探索步數(shù)固定的情況下比二維模型具有更高的探索上限.在二維模型探索地圖中,部分地形下無人機(jī)探索軌跡的重合度較高,對(duì)于已探明的區(qū)域仍會(huì)重復(fù)上一次探索的路徑.三維模型和三維縮放模型的軌跡的重復(fù)性較低,不容易陷入局部最優(yōu).
為了驗(yàn)證模型的泛化性能,將三種模型各自分別置入三個(gè)不同隨機(jī)種子下生成的測(cè)試地圖進(jìn)行測(cè)試,同樣設(shè)置單幕最大探索步數(shù)為10000步獨(dú)立測(cè)試50次.記錄測(cè)試過程中完整探索的數(shù)據(jù),與在同個(gè)訓(xùn)練地圖上的表現(xiàn)進(jìn)行對(duì)比,訓(xùn)練地圖和測(cè)試地圖上的探索率對(duì)比圖如圖10所示.
各模型均在訓(xùn)練地圖上獲得了超過了 50% 的地圖探索率,其中二維切片模型、三維模型、三維縮放模型探索率分別為 56.64%.57.33% 59.08% .三維模型和三維縮放模型相較于二維切片模型在訓(xùn)練地圖上的測(cè)試結(jié)果分別提高了0.69和2.44個(gè)百分點(diǎn).在三個(gè)測(cè)試地圖上,二維切片模型、三維模型、三維縮放模型的平均探索率分別為 29.29%.51.43%.39.75% ,三維模型和三維縮放模型相較于二維切片模型在測(cè)試地圖上的探索率分別提高了22.14和10.46個(gè)百分點(diǎn).三維模型和三維縮放模型在測(cè)試地圖中的探索率均高于二維切片模型,可見引入了高程信息后的模型性能獲得了提高,在執(zhí)行探索步長較長的任務(wù)時(shí),三維模型和三維縮放模型的優(yōu)勢(shì)更為顯著.
路徑長度對(duì)比圖如圖11所示.各模型在訓(xùn)練地圖上的路徑長度更長,二維切片模型、三維模型、三維縮放模型的路徑長度分別為9150.56、8827.40、9717.20.結(jié)合探索率對(duì)比圖中的數(shù)據(jù)來看,在保持較高探索率的前提下,三維模型的探索效率高于二維切片模型.在三個(gè)測(cè)試地圖上,二維切片模型、三維模型、三維縮放模型的平均路徑長度分別為5475.50、6842.46、7604.73,三維模型和三維縮放模型的路徑長度相較于二維切片模型的路徑長度在測(cè)試地圖上的測(cè)試結(jié)果分別增長了1366.93和2129.20.
3.5 真實(shí)地形檢驗(yàn)
為了檢驗(yàn)?zāi)P驮诂F(xiàn)實(shí)世界中的可行性,使用真實(shí)地形的DEM文件進(jìn)行實(shí)驗(yàn)驗(yàn)證.測(cè)試地貌取自云南省曲靖市羅平縣南盤江流域附近的山地地形,地理位置范圍為北緯24.53度到北緯24.65度,東經(jīng)104.39度到東經(jīng)104.51度,DEM數(shù)據(jù)信息源自地理空間數(shù)據(jù)云,采用的是GDEMV330M分辨率數(shù)字高程數(shù)據(jù),山地的數(shù)字三維景觀以及本文模型在其中的探測(cè)情況如圖12所示.

與訓(xùn)練時(shí)構(gòu)造的復(fù)雜地形相比,真實(shí)山地地形結(jié)構(gòu)上相對(duì)簡(jiǎn)單,但山體整體存在一定坡度,因此進(jìn)行切片截取后聯(lián)通的可飛行區(qū)域總面積較小,檢驗(yàn)時(shí)相應(yīng)適當(dāng)減小了單幕最大探索步數(shù).測(cè)試結(jié)果表明,本文所提模型在3000步內(nèi)就能完成對(duì)可行域 76.48% 的探索覆蓋,可見模型具有良好的泛化性能與實(shí)用性,移植到真機(jī)后將有助于解決現(xiàn)實(shí)場(chǎng)景中的復(fù)雜問題.
4結(jié)論
針對(duì)固定翼無人機(jī)在復(fù)雜三維非結(jié)構(gòu)化環(huán)境下的自主探索問題,為了提高無人機(jī)在未知環(huán)境的探索率和探索效率,本文提出了一種面向三維非結(jié)構(gòu)環(huán)境自主探索的強(qiáng)化學(xué)習(xí)無人機(jī)航跡規(guī)劃方法,并使用柏林噪聲自主構(gòu)建了高復(fù)雜度的三維非結(jié)構(gòu)化地形環(huán)境用于訓(xùn)練與測(cè)試.
實(shí)驗(yàn)結(jié)果表明,與不具備高程信息處理能力的二維切片模型相比,本文所提的三維模型和對(duì)高程值進(jìn)行縮放的三維縮放模型在測(cè)試地圖上的探索率上分別提升了 22.14% 和 10.46% ,探索路徑長度分別增長了1366.93和2129.20.
因此,本文所提模型提高了無人機(jī)在復(fù)雜三維非結(jié)構(gòu)化環(huán)境進(jìn)行自主探索的探索力和魯棒性,其泛化性和探索效率也比二維切片模型更強(qiáng),并通過了真實(shí)環(huán)境地形的測(cè)試實(shí)驗(yàn),在當(dāng)今人工智能技術(shù)快速發(fā)展的時(shí)代具有廣闊的應(yīng)用前景.
參考文獻(xiàn)
[1]WangNan,Li Xiang,ZhangKanghua,etal.A survey on path planning for autonomous ground vehicles in unstructuredenvironments[J].Machines,2024,12(1):31.
[2].Ginerica Cosmin,Zaha Mihai,F(xiàn)loroian Laura,et al.A Vision dynamics learning approach to robotic navigation in unstructured environments[J].Robotics,2024,13(1):15.
[3]Tadic Snezana,KrsticMladen,VeljovicMilos,etal.Riskanalysis of theuse of drones in city logisticsJ.Mathematics,2024,12(8):1250.
[4]安城安,周思達(dá).基于改進(jìn)多智能體PPO的多無人機(jī)協(xié)同 探索方法[J].電光與控制,2024,31(1):51-56.
[5]王樂,齊堯,何濱兵,等.機(jī)器人自主探索算法綜述 [J].計(jì)算機(jī)應(yīng)用,2023,43(S1):314-322.
[6]李波,黃晶益,萬開方,等.基于深度強(qiáng)化學(xué)習(xí)的無人機(jī) 系統(tǒng)應(yīng)用研究綜述[J].戰(zhàn)術(shù)導(dǎo)彈技術(shù),2023(1):58-68.
[7]ZhangLijuan,Peng Jiabin,Yi Weiguo,etal.A state-decomposition DDPG algorithm for UAV autonomous navigation in 3-D complex environments[J].IEEE Internet of ThingsJournal,2023,11(6):10 778-10 790.
[8]Liu X,Tan Y.Feudal latent space exploration for coordinated multi-agent reinforcementlearning[J].IEEE Transactions on Neural Networks and Learning Systems,2023, 34(10):7 775-7 783.
[9]Hao J,Yang T,Tang H,et al.Exploration in deep reinforcement learning:From single-agent to multiagent domain[J]. IEEE Transactions on Neural Networks and Learning Systems,2024,35(7):8 762-8 782.
[10]盧錦澎,梁宏斌.基于深度Q網(wǎng)絡(luò)的機(jī)器人路徑規(guī)劃研 究綜述[J].傳感器與微系統(tǒng),2024,43(6):1-5.
[11]馬海杰,薛安虎.基于深度注意力Q網(wǎng)絡(luò)的機(jī)器人路徑 規(guī)劃研究[J].傳感器與微系統(tǒng),2024,43(12):66-70,75.
[12]Bouhamed Omar,GhazzaiHakim,BesbesHichem,etal. AutonomousUAV navigation:A DDPG-based deepreinforcement learning approach[C]//2o2o IEEE International Symposium on circuits and systems (ISCAS).Seville,Spain:IEEE,2020:1-5.
[13]Peake Ashley,Mc Calmon Joe,Zhang Yixin,etal.Deep reinforcement learning for adaptive exploration of unknown environments[C]// 2o21 International Conference on Unmanned Aircraft Systems (ICUAS).Athens, Greece:IEEE,2021:265-274.
[14]Li Haoran,ZhangQichao,Zhao Dongbin.Deepreinforcement learning-based automatic exploration for navigation in un known environment[J].IEEE Transactions on Neural NetworksandLearning Systems,2019,31(6):2 064-2076.
[15]Perlin Ken.An image synthesizer[J].ACM Siggraph ComputerGraphics,1985,19(3):287-296.
[16]黃書嶠,伍錫如,黃國明.基于動(dòng)態(tài)視場(chǎng)的深度啟發(fā)改進(jìn) 3維 A*"算法[J].機(jī)器人,2024,46(5):513-523.
[17]唐嘉寧,楊昕,周思達(dá),等.未知環(huán)境下改進(jìn)DDQN的 無人機(jī)探索航跡規(guī)劃研究[J].電光與控制,2023,30(4): 23-27,33.