999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于課程式雙重DQN的水下無人航行器路徑規劃

2022-08-04 09:28:02王瑩瑩周佳加管鳳旭
實驗室研究與探索 2022年3期
關鍵詞:規劃環境課程

王瑩瑩, 周佳加, 高 峰, 管鳳旭

(哈爾濱工程大學 智能科學與工程學院, 哈爾濱 150001)

0 引 言

水下無人航行器(Unmanned Underwater Vehicle, UUV)的工作環境中存在著大量的干擾因素,如海岸、大小島嶼、海上漂浮物、暗礁、來往船只、風浪流等[1]。為了保證UUV在復雜工作環境下的安全性,自主路徑規劃能力就顯得非常重要。但是,受到路徑規劃智能技術的發展限制,自主路徑規劃難以適應于動態、復雜的環境[2]。這導致UUV的避碰系統無法滿足實際環境下的工作需要。

對于UUV來說,路徑規劃是最重要的自主航海技術之一,路徑規劃的目的是避免與靜態或運動障礙物相撞以確保安全。典型的運動規劃方法包括:智能優化方法[3]、啟發式搜索方法[4]、模糊邏輯方法[5]、神經網絡方法[6]、人工勢場法等。智能優化算法適合解決類似路徑規劃的復雜優化問題。遺傳算法[7],模擬退火算法是具有代表性的智能優化算法。Singh等[8]提出了一種A*方法,設計了圓形邊界包圍無人水面艇(Unmanned Surface Vehicle, USV),以此生成最佳航路點的安全距離約束,從而解決了USV在海上環境中的運動規劃問題。Oral等[9]提出了一種新的增量搜索算法,該算法擴展了D*算法,提出的增量搜索算法可以在多個目標的條件下優化路徑質量。Sun等[10]針對模糊邊界選擇的主觀性,所產生的路徑不能保證是最優的問題,比較了兩種優化方法來進行模糊集的優化,在水下三維環境下生成了最優的3D路徑。Solari等[11]基于掃描聲吶的聲特征,研究了人工勢場方法在水下無人航行器避障中的應用。在不同環境下進行了模擬測試,證明了該方法在水下無人航行器的避障系統中的可行性。Li等[12]針對特征值較小區域的地形匹配精度低的問題,提出了一種自主水下航行器最優路徑規劃方法。該方法引入了由反向傳播神經網絡計算的聯合判據和模糊判據,并通過仿真實驗證明了可行性。

隨著UUV所擔負的科研、軍事任務日益復雜,從而對UUV的運動規劃能力也提出更高的要求[13],多層級決策融合、提升智能水平成為UUV運動規劃技術的重要發展趨勢和研究方向[14]。近年來,強化學習算法常常與深度神經網絡相結合來解決序列決策問題。深度強化學習算法[15]已被用于解決復雜和不確定環境中的許多任務。深度強化學習在解決路徑規劃和實時避障問題上具有很強的潛力。

1 課程式強化學習理論基礎

1.1 強化學習

強化學習是基于“行為”的學習過程,它是通過學習系統與環境的直接交互進行的。強化學習系統的響應采用標量獎勵或回報來評估,以表明其對環境的響應是否適當,然后系統根據這個標量進行自我調整,從而提高未來的性能。

如圖1所示,強化學習問題常用智能體—環境來研究,在本文中,智能體就是UUV。

圖1 智能體—環境系統示意圖

在時刻t,從狀態St=s和動作At=a跳轉到下一狀態St+1=s′和獎勵Rt+1=r的過程中,獎勵Rt+1和下一狀態St+1僅僅依賴于當前的狀態St和動作At,而不依賴于更早的狀態和動作。這樣的性質稱之為馬爾可夫性。這意味著當前狀態包含了可能對未來產生影響的所有信息。強化學習的核心概念是獎勵,強化學習的目標是最大化長期的獎勵。回報Gt可以定義為未來獎勵的和:Gt=Rt+1+Rt+2+…+RT。

1.2 課程式學習

課程式學習主要思想是模仿人類學習的特點,主張讓模型先從容易的樣本開始學習,并逐漸進階到復雜的樣本和任務。在訓練過程中,對樣本進行權重動態分配,課程初始階段簡易樣本居多,課程末尾階段樣本難度增加。課程式學習對于機器學習有如下兩個層面的幫助:① 在達到相同的模型性能條件下,課程式學習可以有效加速機器學習模型的訓練,減少訓練迭代步數。② 可以使模型獲得更好的泛化性能,即能讓模型訓練到更好的局部最優值狀態。先用簡單的知識訓練對模型的提高會有幫助,并且簡單的知識學得越好,則對模型最終的泛化性能越有利。

1.3 目標網絡與經驗回放

目標網絡是在原有的神經網絡之外再搭建一份結構完全相同的網絡,原神經網絡稱為評估網絡。具有雙網絡結構的Q學習算法稱為雙重深度Q學習網絡(Double Deep Q Network, Double DQN)算法。

經驗回放是一種讓經驗的概率分布變得穩定的技術,它能提高訓練的穩定性。經驗回放主要有“存儲”和“采樣回放”兩大關鍵步驟。存儲是指將軌跡以(St,At,Rt+1,St+1)等形式儲存起來;采樣回放是指使用某種規則從存儲的(St,At,Rt+1,St+1)中隨機取出一條或多條經驗。經驗回放有以下好處:在訓練Q網絡時,可以消除數據的關聯,使得數據更像是獨立同分布的。這樣可以減少參數更新的方差,加快收斂。

2 UUV路徑規劃模型設計

2.1 環境狀態模型

(1)

式中,(xob0,yob0)為障礙物初始位置;(xobt,yobt)為t時刻障礙物位置;mod(t,tback)是取余函數,得到的是t整除tback之后的余數。用上述方法可以表示環境中的障礙物信息,然而這些信息UUV是不知道的,它只能憑借聲吶的返回值來確定某個方向上障礙物和船體的距離來做實時避障規劃。

水下環境信息感知手段采用多波束前視聲吶,由換能器陣列經過相控發射與信號接收,同一層的 91 條波束與UUV保持相同的相對縱傾,對應于 91個相對航向。前視聲吶探測信息表現為極坐標形式,包括障礙物與 UUV 的相對航向、相對縱傾和相對距離。為了適用于路徑規劃和提高計算效率,將聲吶探測數據簡化為:前向100°的扇形區域每隔10°劃分一個區域,一共發射11條波束,離散化處理后聲吶探測的返回值d={d0,d1,…,d10},其中di表示探測范圍內障礙物和UUV的相對距離。

除了考慮障礙物信息以外,全局規劃需要考慮UUV與目標點的相對關系,在實際操作中,關于目標點的位置是提前已知的,而UUV的布放位置也是已知的,因此,可以在初始化階段就算出目標點和UUV的相對位置關系:

(2)

式中:(xo,yo)為目標點位置;(xt,yt)為t時刻UUV的位置;α是在以UUV當前位置為原點的坐標系中,目標點所在的角度。UUV當前偏航角為ψ,則可以推出UUV航行方向和當前位置與目標點位置連線的角度差αe=α-ψ。由圖2可見,在UUV航行速度為定值的情況下,αe越接近于0,航行速度在目標點相對連線上分量越大,速度越快。

圖2 UUV與目標點的相對關系

αe可以很好地體現在全局規劃中的環境信息,且在UUV采取行為之后,可以根據上一時刻的狀態和采取的行動計算下一時刻的αe并更新,然后作為下一時刻環境狀態的一部分輸入到神經網絡。把αe和聲吶信息d={d0,d1,…,d10}結合起來,可以作為雙重Q網絡中路徑規劃的輸入信息。環境狀態可以表示為一組12維的向量:s=[d0,d1,…,d10,αe]。

2.2 行為動作和獎勵函數模型

考慮到航行器操縱機構對于運動控制的限制,結合實時規劃的快速性,將行為動作設計為:左轉(15°,30°),前行,右轉(15°,30°)這5種情況。仿真過程中每秒交互一次,選取的角度變化量在(-30°,30°)的區間內,符合航行器的可實現操縱效果。這5個行為動作是雙重深度Q網絡的輸出,決定了UUV接下來的航行方向和速度。

獎勵函數包括實時獎勵函數和延時獎勵函數。在全局路徑規劃中,實時獎勵分為正獎勵和負獎勵:當αe具有一個相對小的角度時給予正獎勵,期望UUV能夠快速地沿著起始點和目標點直線最短距離行駛,設置一個正獎勵用來鼓勵航行器不要偏航。實時負獎勵是關于時間的,UUV航行時間越長,代表繞了遠路,負獎勵會對這種行為給予懲罰。延時獎勵函數為到達目標點,到達目標點是全局路徑規劃的核心任務,所以設置了較大的獎勵值。為了避免程序無窮盡的運行下去,設置了999作為一個回合內交互的最大步數,超過這個次數之后,環境自動初始化進行下一回合的訓練。獎勵函數的設計決定了UUV對目標任務的理解和學習能力,在UUV局部路徑規劃中設計了如下的獎勵函數:

(3)

式中,d為船體和障礙物的距離。

圖3所示為根據當前的環境狀態信息判斷UUV行為價值的流程圖,其中,導致回合結束的狀態有交互次數>999,到達目標點,發生碰撞3種。其他3種狀態不會導致回合結束,所以在給出當前交互獎勵值后進入下一時刻交互。

圖3 交互結果判斷流程圖

3 路徑規劃仿真實驗及結果

UUV的路徑規劃學習課程如下:

步驟1全局路徑規劃:不設置障礙物,僅考慮趨向目標體運動。

步驟2在全局規劃的路徑中加入單個靜態障礙物,UUV探索其他行為以期避開障礙物到達目標點。

步驟3增加靜態障礙物的個數到5,設置復雜地圖環境對決策網絡進行訓練。

步驟4設置2個不同移動方向、速度的動態障礙物,3個靜態障礙物,訓練UUV的障礙物特征提取能力和綜合避障能力。

3.1 全局路徑規劃訓練過程及結果

使用的仿真平臺是Gym,實現了UUV與環境接口中的環境部分。使用Keras庫來搭建雙重DQN。深度強化學習中,環境狀態維數等于輸入神經元個數,設置為12;行為動作個數等于輸出神經元個數,設置為5。激活函數為ReLU,優化器為Adam。

全局路徑規劃中,環境的初始化信息包括:UUV初始位置(xt,yt)、UUV初始偏航角ψ、進而求出UUV起始航行方向與目標點的相對夾角αe、聲吶探測值d={d0,d1,…,d10}。為了訓練結果的泛化,UUV初始位置和UUV初始偏航角會設置一個合理的區間,每次初始化會在區間內隨機選取值。水下訓練環境的大小:長300 m,寬200 m;航行器的大小:長10 m,寬4 m;可被判定為到達目標點的范圍:設置半徑為8 m;仿真過程中每秒交互一次,UUV恒定速度為2 m/s。

圖4所示為UUV在全局規劃中的回合獎勵變化圖,共訓練了1 400回合。起始階段并沒有學習到趨向于目標點運動,在訓練環境中隨機選取行為進行交互,獎勵值很低。訓練1 000次后,UUV找到了最優路徑,獎勵值可以穩定在最高點20左右。

3.2 靜態障礙物避碰訓練過程及結果

如圖5所示,增加了障礙物個數后,學習難度明顯加大,在前1 000回合獎勵值波動明顯,并不穩定。在1 500回合后尋找到最優路徑,獎勵值穩定在20。UUV成功找到最優路徑并到達目標點,證明了在復雜障礙物環境下,經過訓練的UUV依然能做出快速且有效的避障路徑規劃。

(a) 訓練200次

(a) 單靜態障礙物訓練結果

3.3 動態障礙物避碰訓練過程及結果

圖6所示是在動態障礙物環境下的訓練結果。圖7所示是動態障礙物環境下的回合獎勵變化圖,其最優路徑與直接趨向于目標體運動的路徑接近,可以長期得到在-10°≤αe≤10°情況下的0.1正獎勵。所以雖然環境更復雜,但是獎勵值較高,趨近穩定后最優回合獎勵大于20。

(a) 遭遇動態障礙物

圖7 動態障礙物訓練回合獎勵變化

4 結 語

針對雙重DQN算法在復雜規劃任務中學習效率低的問題,提出的課程式雙重DQN加快了雙重DQN在復雜規劃任務中的學習速度。在全局路徑規劃中,對訓練樣本進行權重動態分配,將路徑規劃任務由簡到繁分解為全局路徑規劃,靜態、動態障礙物的實時避碰。利用神經網絡在靜態障礙物、動態障礙物環境完成仿真訓練。仿真實驗結果表明,課程式學習在訓練過程中有顯著的引導作用,并驗證了課程式雙重DQN算法的有效性。

猜你喜歡
規劃環境課程
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
數字圖像處理課程混合式教學改革與探索
軟件設計與開發實踐課程探索與實踐
計算機教育(2020年5期)2020-07-24 08:53:38
孕期遠離容易致畸的環境
為什么要學習HAA課程?
環境
規劃引領把握未來
快遞業十三五規劃發布
商周刊(2017年5期)2017-08-22 03:35:26
多管齊下落實規劃
中國衛生(2016年2期)2016-11-12 13:22:16
主站蜘蛛池模板: 国产精品视频a| 婷婷午夜天| 久久精品无码专区免费| 91麻豆精品视频| 农村乱人伦一区二区| 婷婷色中文网| 欧美国产日本高清不卡| 狠狠色婷婷丁香综合久久韩国| a级毛片免费在线观看| 久久9966精品国产免费| 丰满人妻一区二区三区视频| 欧美精品啪啪一区二区三区| 国产精品浪潮Av| 亚洲一区无码在线| 亚洲娇小与黑人巨大交| 性69交片免费看| 亚洲无线一二三四区男男| 人妻无码AⅤ中文字| 美女扒开下面流白浆在线试听| 高清无码手机在线观看| 亚洲愉拍一区二区精品| 国产成人在线小视频| 欧美一区二区精品久久久| 国产乱人免费视频| 国产麻豆va精品视频| 国产综合精品日本亚洲777| 综合色天天| 精品国产香蕉伊思人在线| 免费在线a视频| 91在线精品麻豆欧美在线| 欧美午夜在线视频| 亚洲男人的天堂在线观看| www.99在线观看| 欧美日韩国产在线人| 日本一区二区三区精品国产| 91色在线观看| 麻豆精品久久久久久久99蜜桃| 国产精品久久久精品三级| 国产第三区| 亚洲欧美日韩另类| 67194亚洲无码| 欧美区一区二区三| a毛片在线| 中国丰满人妻无码束缚啪啪| 中文字幕 91| 无码国产偷倩在线播放老年人| 在线播放精品一区二区啪视频| 99热这里只有精品2| 日本一区高清| 精品一区二区三区视频免费观看| 中文字幕在线免费看| 不卡无码网| 日韩视频免费| 国产天天射| 亚洲另类国产欧美一区二区| 国产va在线观看免费| 亚洲无码91视频| 国产中文在线亚洲精品官网| 成人午夜免费观看| 亚洲日本www| 亚洲视频三级| 91久久夜色精品| 亚洲 欧美 日韩综合一区| 久久精品国产亚洲麻豆| 国产美女无遮挡免费视频网站 | 国产一区二区三区在线观看免费| 色婷婷电影网| 国产成人无码久久久久毛片| 国产剧情国内精品原创| 高清欧美性猛交XXXX黑人猛交| 日本精品一在线观看视频| 精品国产乱码久久久久久一区二区| 精品久久久久久久久久久| 噜噜噜久久| 毛片久久网站小视频| a欧美在线| 女高中生自慰污污网站| 国产无人区一区二区三区| 亚洲无码视频一区二区三区| 欧美日韩国产一级| 亚洲精品天堂在线观看| 波多野结衣在线se|