999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多任務約束條件下基于強化學習的水面無人艇路徑規劃算法

2020-01-14 02:30:38封佳祥江坤頤袁志豪
艦船科學技術 2019年12期
關鍵詞:規劃環境

封佳祥,江坤頤,周 彬,袁志豪

(哈爾濱工程大學水下機器人技術重點實驗室,黑龍江 哈爾濱 150001)

0 引 言

水面無人艇在海洋科研、海洋開發和軍事領域具有極其廣泛的應用前景,已經成為國內外智能化裝備的研究方向之一。環境感知與路徑規劃是無人艇完成任務的重要部分,也是無人艇執行任務的基礎。無人艇依據環境感知信息自主完成路徑規劃的能力,體現了無人艇的智能水平。

隨著人工智能領域的發展,強化學習在路徑規劃領域得到了應用。M.C.Su 等[1]提出將強化學習加入路徑規劃的理論。G.Tan 等[2]提出基于 Dijkstra 算法的強化學習路徑規劃的理論。T.L.Lee 等[3]提出未知環境下移動機器人的模糊運動規劃方法。Z.Hong 等[4]提出基于分層強化學習的路徑規劃的方法。Y.Song 等[5]提出一種有效的移動機器人Q 學習方法。強化學習在機器人路徑規劃中的的應用已經有較多的研究,而在無人艇領域的研究較少,并且當前對于無人艇路徑規劃的研究,大都是以尋找最短的無碰路徑,而對無人艇執行任務過程中,任務約束條件下的路徑規劃研究幾乎沒有。

針對海上環境的特點,本文提出一種利用灰色預測輔助區域建議神經網絡的水面目標檢測方法,快速準確地獲得海上無人艇的任務環境信息。以Maritime RobotX Chanllenge 比賽中的任務為背景,提出一種多任務約束條件下基于強化學習的路徑規劃算法。依據任務條件,以獲得的任務感知信息為輸入,通過強化學習訓練,使無人艇能夠在隨機起始狀態下,尋找到完成任務的最優路徑,并通過仿真試驗和實船試驗對其進行驗證。

1 強化學習

強化學習是一種基于環境交互的學習算法,強化學習的過程如圖1 所示。強化學習可以簡單描述為:智能體處于某個環境中,通過感知系統感知到當前的環境狀態,并在該環境狀態下采取某個動作,作用于該環境狀態,當前的環境狀態按照某種概率轉移到另一個狀態,同時環境也會根據潛在的獎賞函數反饋給機器一個獎賞值。強化學習的目的就是使智能體獲得的累計獎賞值最大。

圖 1 強化學習示意圖Fig.1 Schematic diagram of reinforcement learning

Q_learning 是一種行之有效的強化學習方法。Q_learing 算法通過訓練得到Q-table,Q-table 代表了智能體學到的知識。探索環境(environment)之前,Q-table 會給出相同的任意設定值(大多數情況下是0)。隨著對環境的持續探索,這個 Q-table 會通過迭代地使用動態規劃方程更新來給出越來越好的近似。

Q-table 的遞歸方程形式如下:

式中:r(s, a)為在s 狀態下采取a 行動所得到的獎賞值;s′為s 狀態后的下一個狀態;?為學習率,代表學習知識的程度,?∈[0,1];γ 為折扣率,代表考慮未來報酬的程度,γ∈[0,1]如果γ 越接近于0,智能體更趨向于僅僅考慮即時獎勵;如果γ 更接近于1,智能體將以更大的權重考慮未來的獎勵,更愿意將獎勵延遲。

2 多任務約束條件下基于強化學習的水面無人艇路徑規劃算法

2.1 任務約束條件

本文水面無人艇執行的任務以Maritime RobotX Chanllenge 國際水面無人艇比賽中的基礎過門任務和避障任務為背景。

基礎過門任務描述如圖2 所示。無人艇必須依靠導航和感知信息全自主無碰撞通過2 組紅綠浮標(圖中深淺)表示。其中紅色浮標和綠色浮標的距離約為10 m,兩組紅綠浮標間的距離約為30 m。該任務的約束條件為無人艇能夠從開始門進入,從結束門出去,且不能夠碰撞浮標,不能夠從2 組紅綠浮標間穿過。

圖 2 基礎過門任務示意圖Fig.2 Schematic diagram of task of entrance and exit gates

避障任務描述如圖3 所示。無人艇必須依靠導航的感知設備自主穿過障礙物區域,且不能夠碰撞任何障礙物。障礙物的直徑約為1 m。該任務的約束條件為無人艇能夠以最短路徑穿過障礙物區域,并且不能夠碰任何障礙物。

圖 3 避障任務示意圖Fig.3 Schematic diagram of task of avoid obstacles

本文將2 種任務融合在一起,在基礎過門任務的紅綠浮標外側布置障礙物,無人艇從起點出發,穿過障礙物區域,并且完成基礎過門任務。

2.2 環境建模

在執行路徑規劃算法之前,首先需要將水面無人艇周圍的環境信息表示出來。由任務描述可知,要完任務水面無人艇必須能夠準確分辨出浮標和障礙物,并且能夠得到浮標顏色及浮標和障礙物的準確位置。為了在有風浪流等干擾因素的復雜環境下快速準確得到水面目標信息,本文提出一種利用灰色預測輔助區域建議神經網絡的水面目標檢測方法。在得到任務信息及目標信息后,采用柵格法表示環境。

2.2.1 利用灰色預測輔助區域建議神經網絡的水面目標檢測方法

利用灰色預測進行區域建議,提升神經網絡檢測連續視頻幀中水面目標的速度和準確率,具體流程如圖4 所示。

圖 4 算法流程圖Fig.4 Algorithm flow chart

水面目標多出現在樣本圖片中的水天線附近,且連續視頻幀間同一水面目標在視頻幀中的位置存在內在聯系。本文提出的方法利用這一特點,使用灰色預測與海天線檢測布置錨點和候選框,輔助Faster RCNN 網絡識別水面目標,提升水面目標識別的快速性和準確性。

利用經典的Faster RCNN 方法識別水面目標,并記錄下目標識別框中心點在視頻幀中的像素坐標(u, v),設置采樣時間間隔t=0.2 s,采樣幀數為5 幀。

利用初始目標幀中的采樣信息建立灰色預測模型,其初始元素序列數據為其中分別為第k 幀采樣幀中目標識別框的中心點橫坐標u;對 X(0)做 一次累加生成得到序列其 中,令為的緊鄰均值生成序列,其 中建 立G M(1,1)的灰微分方程模型為,其中a 為發展系數,b 為灰色作用量。灰微分方程的最小二乘估計參數列滿足,其中:

建立灰色微分方程的白化方程,求其解并做累減還原可得最終預測結果如下:

即為灰色預測得到的下一視頻幀中水面目標識別框的中心點橫坐標。

對計算得到的灰色預測模型相對殘差 ε(k)進行檢驗。

改進經典Faster RCNN 神經網絡結構,利用灰色預測的結果進行區域建議。改進后的Faster RCNN 網絡結構如圖5 所示。首先使用海天線檢測獲取視頻幀中海天線的位置,隨后在海天線上、灰色預測獲取的水面目標橫坐標附近按照高斯分布布置錨點,在每個錨點處仍然選用3 種大小與3 種長寬比的共9 種候選框,將這些候選框輸入區域建議網絡(Region Proposal Network,RPN),使得區域建議更加精確。另一方面,得益于精確的區域建議和較單一的背景特征,精簡特征提取網絡層數,使用VGG13 網絡代替VGG16網絡,提升網絡運行速度。隨后進行池化,目標分類與邊界框回歸操作,獲取最終的檢測結果。

判斷是否檢測到目標。若檢測到目標,則利用新息對灰色模型進行實時更新,防止模型預測結果隨時間發散,然后利用新模型重新進行預測和檢測。若沒有檢測到目標,說明水面目標可能已經離開視野或預測不準確,此時應停止本次檢測過程,將新息作為目標初始幀,重新開始下一個檢測過程。

圖 5 改進Faster RCNN 算法網絡結構圖Fig.5 Improved Faster RCNN algorithm network structure diagram

2.2.2 環境模型

依據得到的任務信息和感知信息建立環境模型,本文建立多任務環境模型。由于無人艇在航行過程中自身位置是連續狀態的空間,而連續性的高維狀態空間會使強化學習算法難以收斂,需要將無人艇環境狀態空間離散化。在Maritime RobotX Chanllenge 水面無人艇比賽中,水面無人艇任務區域一般為40 m*40 m,該區域一般在無人艇的感知范圍之內,考慮到無人艇的航行性能,并且使狀態空間盡量合理,本文將任務區域劃分為40*40 的柵格區域。

圖 6 多任務環境模型Fig.6 Environment Model of multi-task

以得到的門的浮標位置為中心建立柵格環境模型,如圖6 所示。圖中深灰淺灰柵格表示感知信息檢測到的門浮標位置,上邊的門為入口門,下邊的門為出口門。黑色柵格表示障礙物區域,黃色柵格為無人艇起始位置。

2.3 基于任務分解獎賞函數的Q_learning 算法

依據水面無人艇所要執行的不同任務設計不同的獎賞函數,能夠有效提高強化學習算法的收斂速度。面對多任務約束條件下的水面無人艇路徑規劃,獎賞函數的設計決定了其能否快速收斂到最優解。為提高多任務約束條件下Q_learning 算法的收斂速度,本文設計了任務分解獎賞函數。

2.3.1 任務分解獎賞函數的設計

依據任務的優先級,對無人艇所要執行的任務進行優先級劃分,避障任務始終處于任務第1 位。將水面無人艇路徑規劃的獎賞函數表示為各個分任務獎賞函數的加權和,如下式:

其中:R 表示總的獎賞函數;Ri(i=1, 2, ···, n)表示分任務的獎賞函數;n 表示無人艇可以執行任務的數量;ωi(i=1,2,…,n)表示分任務獎賞函數的權值,ωi∈[0,1],ωi值越大表示任務優先級越高,需要優先考慮該任務的獎賞函數,通常無人艇周圍有障礙物時,優先將避障任務權值調整為最大。

針對本文中水面無人艇要執行的任務,設計如下的獎賞函數:

式中:R 為總的獎賞函數, R0(St,at)與 R1(St,at)分別表示避障任務約束中St狀態下采取at行動的獎賞值和基礎過門任務約束中St狀態下采取at行動的獎賞值。r0為碰到障礙物的獎賞值,r0=-5;r1為沒有碰到障礙物的獎賞值,r1=0。DL,DR,D′L,D′R為環境感知信息的輸入值,分別表示入口左邊浮標狀態值,入口門右邊浮標狀態值,出口門左邊浮標狀態值,出口門右邊浮標狀態值;N 為環境模型大小,N=40;St+1為St狀態下采取at行動后的狀態;r2為到達目標區域的最終報酬值,r2=10;r3為門中心區域狀態的報酬值,r3=2;r4和r5為撞到門浮標和從門側面穿過的報酬值,r4=-5,r5=-5;r6為可以自由航行的區域,r6=0。ω0為避碰任務獎賞函數的權重,ω1為避碰任務獎賞函數的權重,初始時ω0=1,ω1=0,隨著無人艇穿過障礙物區域,ω0逐漸減小,ω1逐漸增加。

依據任務對獎賞函數進行分解,通過對不同任務獎賞函數權重的分配,使無人艇在訓練過程中,能夠根據當前執行的任務選擇該任務的獎賞函數,從而使其能夠得到最優的獎賞值。

2.3.2 策略選擇

動作的選取策略需要考慮“探索”與“利用”平衡問題,“探索”即智能體對為止環境的探索,“利用”即智能體選擇當前最優策略。初始訓練時,由于智能體對環境一無所知,應該以較大“探索”概率進行環境探索;當訓練一段時間后,智能體對環境有了一定的了解,應該以較大的“利用”概率選擇最優策略。

本文采用經典的?-貪心策略,? 值表示“探索”概率,即在訓練過程中隨機選擇動作的概率。1-? 表示“利用”概率,即在訓練過程中選擇最優動作的概率。由于在訓練前期,智能體對環境信息一無所知,需要以較大概率進行“探索”,而在訓練一段時間后,智能體對環境信息有了一定的了解后,可以依據之前的訓練情況選擇最優動作。因此,本文中? 的值隨著訓練次數線性遞減,即

式中:n 為訓練總次數;t 為當前訓練次數。

3 試驗

3.1 仿真試驗

基于Windows 操作系統,在VS2012 開發環境下編寫多任務約束條件下基于強化學習的水面無人艇路徑規劃算法。仿真試驗的參數設置如下:學習率α=0.9,折扣率γ=0.8,總的訓練次數為10 000 次。仿真試驗動作的選取策略為?-貪心策略,? 初始值設為1,確保在初始時無人艇有較大隨機探索概率;隨著訓練次數的增加線性遞減,即每訓練一次? 值減少0.000 1,確保在多次訓練后采取回報值較大的動作。

圖7 為水面無人艇單個任務的仿真結果。通過強化學習的訓練之后,無人艇能夠自主規劃出完成任務的路徑。經過多次試驗,訓練的時間約為100 ms,能夠滿足無人艇航行過程中實時在線訓練的要求,并且能夠較好地規劃出完成任務的路徑。

圖 7 水面無人艇單個任務路徑規劃仿真結果Fig.7 Simulation results of single task path planning for USV

圖 8 多任務約束條件下基于強化學習的無人艇路徑規劃仿真結果Fig.8 Simulation results of path planning of USV based on reinforcement learning under multi-tasking constraints

圖8 為多任務約束條件下基于強化學習的水面無人艇路徑規劃結果。經過強化學習訓練,水面無人艇能夠安全穿越障礙區,并且完成基礎過門任務。

圖 9 累積獎賞值隨訓練次數的變化曲線Fig.9 Curve of cumulative reward value with training times

圖9 為強化學習訓練過程中每次訓練的累計獎賞。在訓練過程中,無人艇碰撞或者違反任務規則會得到一個負的獎賞,當無人艇沿任務規則航行會得到一個正的獎賞,當無人艇到達目標區域會得到一個更大的正獎賞。

可以看出,基于任務分解獎賞函數的Q_learning 算法能夠很好地收斂。在訓練前期無人艇處于探索時期,會經常發生碰撞或違反任務規則,所以開始的時候累計獎賞大多為負值。隨著訓練的不斷進行,無人艇能夠利用之前訓練的“知識”選擇獎賞較好的動作,獎賞值逐漸增大最終收斂到一定范圍。

圖 10 基于任務分解獎賞函數的Q_lea rning 算法與經典Q_learning 算法成功率對比圖Fig.10 Comparison chart of success rate of Q_learning algorithm and classic Q_learning algorithm based on task decomposition reward function

圖 11 基于任務分解獎賞函數的Q_lea rning 算法與經典Q_learning 算法成功率對比圖Fig.11 Comparison chart of Convergence of Q_learning algorithm and classic Q_learning algorithm based on task decomposition reward function

圖10 與圖11 分別對比了基于任務分解獎賞函數的Q_learning 算法和經典Q_learning 算法的成功率和收斂性。可以看出,基于任務分解獎賞函數的Q_learning 算法能夠有效提高訓練過程中尋找路徑的成功率,并且能夠快速收斂到最優解。由于采用?-貪心策略會有一定概率隨機選擇動作,因此圖中會有許多“毛刺”。

通過仿真試驗可以看出,在多任務的約束條件下,基于任務分解獎賞函數的Q_learning 算法能夠加快訓練收斂速度,從而節省訓練時間,保證水面無人艇路徑規劃的實時性。通過強化學習訓練,水面無人艇能夠較好規劃出完成任務的路徑。

3.2 實物試驗

3.2.1 無人艇試驗平臺搭建

無人艇硬件系統結構如圖12 所示。導航設備主要有:GPS 和電子羅盤(TCM);感知設備主要有:激光雷達和攝像頭;艇上有2 臺工控機,分別用來執行規劃控制算法和感知系統中的算法。感知工控機與規劃控制工控機之間的通信采用網絡通信(TCP/IP 協議)。

圖 12 無人艇硬件系統結構Fig.12 Hardware system structure of USV

3.2.2 無人艇軟件系統結構

無人艇軟件系統結構如圖13 所示。

任務規劃匯總來自各個模塊的數據,依據當前艇的狀態及任務信息,決定完成任務的最佳策略。任務規劃器將導航和感知信息匯總分析后,將信息傳送到環境建模模塊完成任務執行的環境建模。路徑規劃器依據當前的環境模型,基于強化學習尋找最優路徑,完成任務執行的任務路徑規劃。

3.2.3 試驗結果分析

本文提出的方法在2018Maritime RobotX Chanllenge 中得到了成功應用并取得了預期效果。在試驗中,無人艇首先采用利用灰色預測輔助區域建議神經網絡的水面目標檢測方法得到任務區域中入口門浮標的位置和顏色,之后,由任務規劃器依據感知信息完成當前要執行任務的決策,并計算出出口門的位置,同時完成任務環境建模,最后,基于強化學習完成執行任務的路徑規劃。

在基礎過門任務與避障任務的執行中,使用與仿真試驗相同的參數,無人艇能夠完成基于強化學習的在線學習,并成功規劃出完成任務的最優路徑,無人艇執行任務過程如圖13 所示。經過試驗驗證本文提出的任務約束條件下基于強化學習的水面無人艇路徑規劃方法能夠滿足實際要求。

圖 13 無人艇軟件系統結構圖Fig.13 Software system structure of USV

4 結 語

本文提出一種利用灰色預測輔助區域建議神經網絡的水面目標檢測方法和一種多任務約束條件下基于強化學習的水面無人艇路徑規劃算法。采用灰色預測進行區域建議,提升神經網絡檢測連續視頻幀中水面目標的速度和準確率,提高了獲得水面任務環境信息的準確性,利用感知系統得到的環境信息完成環境建模,并基于強化學習在線訓練,完成任務約束條件下的無人艇路徑規劃。以Maritime RobotX Chanllenge 中的基礎過門任務為背景,通過仿真試驗,驗證了在任務約束條件下,采用強化學習進行路徑規劃的可行性,并通過實物試驗,驗證了這2 種算法能夠滿足實際要求。

猜你喜歡
規劃環境
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
發揮人大在五年規劃編制中的積極作用
孕期遠離容易致畸的環境
不能改變環境,那就改變心境
環境
孕期遠離容易致畸的環境
規劃引領把握未來
快遞業十三五規劃發布
商周刊(2017年5期)2017-08-22 03:35:26
多管齊下落實規劃
中國衛生(2016年2期)2016-11-12 13:22:16
主站蜘蛛池模板: 中文字幕乱码中文乱码51精品| 手机在线免费不卡一区二| 国产亚洲精品在天天在线麻豆| 精品无码国产自产野外拍在线| 欧美日本在线播放| 亚洲日产2021三区在线| 国产在线观看一区二区三区| 福利在线不卡| 欧美亚洲国产精品久久蜜芽| 无码久看视频| 在线观看亚洲天堂| 日韩第九页| 国产午夜精品一区二区三区软件| 超薄丝袜足j国产在线视频| 亚洲精品午夜天堂网页| 欧美午夜视频在线| 伊人五月丁香综合AⅤ| 亚洲精品波多野结衣| 黄色三级网站免费| 97影院午夜在线观看视频| 欧美在线国产| 亚洲精品欧美重口| www.亚洲一区二区三区| 婷婷综合色| 午夜不卡视频| 国产视频只有无码精品| 97精品久久久大香线焦| 日韩欧美中文| 欧美日韩午夜视频在线观看| 久久国产精品电影| 毛片在线播放网址| 日韩欧美综合在线制服| 国产精品主播| 高清不卡一区二区三区香蕉| 亚洲成人黄色网址| 精品自拍视频在线观看| 在线观看精品国产入口| 国产亚洲精| 少妇极品熟妇人妻专区视频| 97久久超碰极品视觉盛宴| 日韩在线1| 欧美国产三级| 色综合日本| 国产成人91精品| 国产欧美日韩va另类在线播放| 无码'专区第一页| 国产乱子伦手机在线| 日韩成人在线一区二区| 老司国产精品视频91| 日韩在线欧美在线| 欧美视频在线第一页| 毛片一级在线| 丝袜亚洲综合| 国产精品无码AV片在线观看播放| 91精品人妻一区二区| 亚洲日韩精品无码专区| 国产青青操| 在线观看国产精美视频| 国产精品亚洲va在线观看| 国产精品黄色片| 亚洲动漫h| 精品人妻无码区在线视频| 精品久久久久久成人AV| 亚洲一区二区三区国产精品 | 天天躁夜夜躁狠狠躁躁88| 一级毛片免费高清视频| 91精品免费高清在线| 国产成人精品亚洲77美色| 92午夜福利影院一区二区三区| 亚洲欧美在线综合一区二区三区 | 国产精品久久自在自线观看| 国产偷国产偷在线高清| 欧美性猛交一区二区三区| 97免费在线观看视频| 亚洲精品在线91| 日韩美毛片| 国产国语一级毛片| 亚洲天堂日本| 精品无码一区二区三区在线视频| 国产精品露脸视频| 欧美国产菊爆免费观看| 欧美精品色视频|