999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于PPO 的AUV 網箱巡檢方法*

2023-05-12 02:25:56顏承昊林遠山
計算機與數字工程 2023年1期
關鍵詞:控制策略策略模型

顏承昊 林遠山 李 然 于 紅 王 芳

(大連海洋大學信息工程學院 大連 116000)

1 引言

隨著海洋牧場的發展,深海養殖規模越來越大,深水網箱養殖已成為一種重要的養殖模式[1]。在網箱養殖過程中,存在網衣破損[2]、魚類生長狀態監控[3]等問題,因此十分有必要對網箱開展定期巡檢。

目前,養殖網箱的監測方法主要有:

1)人工潛水法。該方法由潛水員潛入水下對網箱及養殖魚類生長狀態進行查看。水下壓強較大,會對人體心肺等器官造成傷害。

2)定點監測法。該方法在水下安裝攝像頭等定點傳感器,以實現對網箱的觀測[4~7]。定點傳感器長時間處于水下環境,容易被海水腐蝕以及海生物附著,維護成本高。若需維護維修,需要人工潛水拆卸取回,將面臨人工成本高、安全性低等問題。在AUV 巡檢法中,AUV 無需長時間持續在水下運行,即檢即收。這樣降低了故障率,減少維護成本。

3)ROV 巡檢法。該方法通過遙控ROV 執行巡檢任務[8]。ROV 為有纜設備,需要母船支持且需要工作人員長時間的監控屏幕[9~12],人力物力成代價較高。

4)AUV巡檢法。使用AUV對網箱自主巡檢[13],該類方法主要基于慣性導航系統(INS)、全球定位系統(GPS)、多普勒速度儀(DVL)等多傳感器集成[14~18]實現AUV 的導航。這些傳感器要么受限于水下信號衰減的約束,要么本身成本較高,難以大規模推廣應用。

側掃聲吶工作頻率通常為幾十千赫到幾百千赫。在水下環境中,作用距離一般為300m以上,相較于攝像頭等傳感器,信號衰減相對較弱,適合作為水下環境獲取信息的傳感器。在水下難以得到機器人的精確動力學模型。深度強化學習無需建立動力學模型,通過與環境的交互以試錯方式完成策略的學習,適合應用于水下機器人的控制。

基于以上,本文將網箱巡檢問題建模成馬爾可夫決策過程,利用深度強化學習算法PPO訓練得到網箱巡檢控制策略。該方法根據側掃聲吶的感知信息和機器人的速度信息生成觀測狀態,以神經網絡構建控制策略。在獎勵函數設計方面考慮了路徑長度、航向、距離等因素,設計了多約束獎勵函數。基于gym、ros、uuv_simulator 搭建了一個水下網箱養殖仿真環境。在該環境下的仿真結果表明,在學習到的策略的控制下,AUV 能夠實現網箱的自主繞行巡檢,軌跡穩定平滑,驗證了本文方法的有效性。

2 巡檢任務描述

圖1 所示為養殖網箱模型,網箱巡檢指的是通過控制AUV 環繞網箱運行。AUV 可搭載攝像頭、水質檢測儀等傳感器實現對網箱的監測。使用側掃聲吶作為控制AUV 運動的感知器,由于網箱具有空隙,導致感知數據不能真實反應水下機器人與網箱的關系。為簡化問題,本文做以下兩個假設:

圖1 網箱結構模型

1)假設側掃聲吶不受任何噪聲干擾。

2)假設網箱上有環形帶,使得聲吶所獲取的原始數據皆是關于AUV與網箱關系的有效信息。

3 網箱巡檢問題的MDP形式化定義

本節給出網箱巡檢任務的馬爾可夫決策過程(Markov Decision Process,MDP)形式化表示,包括狀態表示、動作表示、獎勵函數設計和策略網絡設計。網箱巡檢任務即尋找一個累計獎勵函數最大化的策略。

3.1 狀態表示

側掃聲吶的側掃范圍為180°,每間隔1°記錄一個感知數據,即側掃聲吶感知的原始數據為一個180 維數據。但原始數據極為單一,不利于機器人學到有效控制策略。狀態信息被設計為一個四元組(min,abs,v,ω),其中min 為180 維數據中最小值,該數值能夠反映出機器人與網箱的距離信息;abs為中軸線左10°、右10°數值差的絕對值,該絕對值能夠反映出機器人與網箱之間的方向關系,選取中軸線的左右角度各為10°,因為在以往實驗中發現這個角度中的聲吶在規定的距離范圍內,始終覆蓋網箱;v 為機器人當前的線速度;ω為機器人當前的角速度。

3.2 動作表示

本文采用連續動作來驅動機器人運動。AUV的控制動作由線速度v 和角速度ω構成,連續動作空間為

作用是為了防止機器人過快或過慢以及瞬間航向偏轉過大。

3.3 獎勵函數設計

獎勵函數會直接影響動作的選擇。本文獎勵函數的設計基于以下因素考慮:機器人的巡檢路徑最短、機器人與網箱的距離保持在一定范圍、機器人與網箱的夾角保持在一定范圍。針對上述因素,本文設計了多約束獎勵函數,如式(1)和(2)所示。

當AUV在有效范圍內時:

當AUV超出有效范圍時:

式(1)中,w為權重,控制各獎勵的比例。rforward為對AUV持續前進的獎勵,其值為線速度v;rdirection為對AUV 航向偏離的懲罰,其值為負abs。當abs 值為0 時,機器人航向與網箱圓周平行。當abs 值不為0 時,表示機器人航向偏離網箱。因此采用負abs作為對偏離懲罰;roffset為對AUV與網箱距離的懲罰,AUV 與網箱距離存在一個理想距離,當二者距離小于或大于理想距離時,對其進行懲罰。具體地,以二者實際距離與理想距離的差值的負絕對值作為懲罰;roff為對AUV 脫離有效范圍的懲罰,取值為一個負常數。

3.4 策略網絡設計

本文中,將提取組合后的數組數據作為神經網絡的輸入,因此并不需要卷積神經網絡,所以為減少網絡計算量,縮短訓練時間,文中使用多層感知機神經網絡作為策略網絡。神經網絡圖如圖2 所示,其結構為輸入層1 個神經元;2 個隱藏層,每個隱藏層64個神經元;輸出層2個神經元。輸出層為value值和策略。

圖2 策略網絡圖

4 策略網絡訓練方法

網箱巡檢策略學習算法偽代碼如圖3 所示。在每個輪次中,首先初始化策略參數、價值函數參數、裁剪參數。然后開始迭代訓練。使用當前策略控制AUV 運行,得到聲吶的原始感知數據后,對其計算、提取、組合得到輸入觀測狀態;每輪迭代中執行T 個批次采樣,每步交互后獲得經驗數據,其中s't為t時刻AUV 的觀測狀態,at為使用當前策略πθ執行的動作,rt為所執行動作依照多約束獎勵函數獲得的當前獎勵,v(st)為狀態價值,dt表示回合是否結束的標志。采集到的經驗數據存入經驗緩沖池中。最后調用優化算法學習得到最優策略πθ。

算法基于PPO的網箱巡檢

輸入:初始化策略參數θ0,價值函數φ0,裁剪參數?,優化輪次Κ,批次采樣步數Τ,訓練迭代次數Ν

輸出:最優策略πθ

1 forn=0,1,2,…,Νdo

2 初始化環境:得到st

3 對st進行計算、提取、組合:

4 fort=0,1,2,…,Τdo

6st+1,rt,dt← Εnv(at)

8 計算優勢估計Αt

9 end for

10 forκ=0,1,2,…,Κdo

11 通過優化損失函數更新策略參數θ、價值函數參數φ:

13 end for

14 end for

5 實驗

5.1 仿真環境搭建

基于gym、ros、uuv_simulator 搭建了一個水下網箱養殖環境。該環境包含水體模型、網箱模型和機器人模型。其中水體模型包含海床、海面、水三個部分,機器人搭載側掃聲吶,側掃聲吶置于機器人側面,如圖3所示。

圖3 水下養殖網箱環境場景

5.2 實驗結果與分析

實驗中,機器人距離網箱有效范圍設為[5.5,7.5],當超出這個范圍就結束回合并重置機器人到初始位置。機器人與網箱的理想位置設為6.5。獎勵函數中設置權重w1=w2=w3=w4=1,裁剪參數?設為0.2,批次采樣步數Τ設為1024,輪次Κ設為10。

平均回合獎勵如圖4 所示。隨著回合次數增加,平均獎勵呈增大趨勢。這說明,機器人學習過程中策略得到不斷優化。

圖4 平均回合獎勵

回合長度如圖5所示。在100回合時回合長度呈增加趨勢,隨后下跌,最后在140 回合時,機器人學習到了有效的控制策略。該策略可完成網箱巡檢任務,運行軌跡穩定平滑,由Rviz 繪制的運行軌跡如圖6所示。

圖5 回合長度

圖6 測試案例AUV軌跡

5.3 網箱空隙對仿真的影響

在上述實驗的基礎上,再次進行完善,去掉了網箱的環形帶,對網箱進行加密處理,使其更接近魚網的密度,如圖7所示。

圖7 具有空隙的網箱模型

平均回合獎勵如圖8 所示。隨著回合次數增加,平均獎勵在170回合之前呈上升趨勢,在170回合時達到峰值。這說明,機器人學習過程中策略得到不斷優化。

圖8 平均回合獎勵

回合長度如圖9所示。在170回合時回合長度呈增加趨勢,隨后下跌,最后在170 回合時,機器人學習到了有效的控制策略。該策略可完成網箱巡檢任務,運行軌跡穩定平滑,由Rviz 繪制的運行軌跡如圖10所示。

圖9 回合長度

實驗結果顯示,在具有空隙的情況時,聲吶獲取的感知數據會有輕微誤差,對原始數據中的誤差值進行平均數替換后,機器人可以得到有效的控制策略。

6 結語

本文針對水下養殖網箱的巡檢問題開展了研究。提出以聲吶作為傳感器,利用深度強化學習算法PPO 解決網箱巡檢問題的思路。根據聲吶的原始感知數據和機器人的速度信息組合生成觀測狀態。策略網絡采用多層感知機模型,獎勵函數的設計綜合考慮了路徑長度、偏移、距離等因素。仿真實驗表明本文方法的有效性,能夠學到有效的控制策略,完成網箱巡檢任務。

猜你喜歡
控制策略策略模型
一半模型
考慮虛擬慣性的VSC-MTDC改進下垂控制策略
能源工程(2020年6期)2021-01-26 00:55:22
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
例談未知角三角函數值的求解策略
我說你做講策略
工程造價控制策略
山東冶金(2019年3期)2019-07-10 00:54:04
現代企業會計的內部控制策略探討
消費導刊(2018年10期)2018-08-20 02:57:02
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
3D打印中的模型分割與打包
主站蜘蛛池模板: 精品视频一区在线观看| 国内精品久久久久鸭| 亚洲AV成人一区国产精品| 国产一区二区丝袜高跟鞋| 国产精鲁鲁网在线视频| 国产精品无码一二三视频| 国产欧美性爱网| 国产精品手机在线观看你懂的| 扒开粉嫩的小缝隙喷白浆视频| 亚洲首页国产精品丝袜| 一本大道香蕉高清久久| av在线无码浏览| 国产精品七七在线播放| 国产在线一区二区视频| 亚洲人成影视在线观看| 日韩精品专区免费无码aⅴ| 国产亚洲美日韩AV中文字幕无码成人 | 无码免费视频| 日韩精品无码免费一区二区三区 | 欧美天天干| 中国一级特黄视频| 色噜噜中文网| 午夜天堂视频| 一级爆乳无码av| 国产激情无码一区二区免费| 国产女人爽到高潮的免费视频 | 欧美日韩一区二区三区四区在线观看| 亚洲成人精品| 无码日韩视频| 中文成人无码国产亚洲| 97国产成人无码精品久久久| 91在线国内在线播放老师| 91麻豆久久久| 欧美区一区| 亚洲伊人久久精品影院| 在线毛片网站| 色婷婷天天综合在线| 成人无码区免费视频网站蜜臀| 99久久精品国产麻豆婷婷| 青草国产在线视频| 久久综合国产乱子免费| 亚洲成av人无码综合在线观看| 亚洲无码精彩视频在线观看| 欧美日韩国产在线播放| 狼友视频一区二区三区| 日韩专区欧美| 一区二区三区四区日韩| 欧美国产菊爆免费观看| 亚洲成人播放| 成人精品在线观看| 不卡国产视频第一页| 亚洲动漫h| 中文无码精品A∨在线观看不卡| www.91在线播放| 国产高清色视频免费看的网址| 国产第一页屁屁影院| 九色综合视频网| 91www在线观看| 中文字幕久久亚洲一区| 亚洲 日韩 激情 无码 中出| 国产日韩久久久久无码精品| 国产小视频a在线观看| jizz国产在线| 99这里精品| 经典三级久久| jizz国产在线| 国产高潮视频在线观看| 波多野结衣亚洲一区| 欧美怡红院视频一区二区三区| 国产毛片网站| a亚洲视频| 99在线视频网站| 天堂在线www网亚洲| 日韩天堂视频| 国产成人精品综合| 首页亚洲国产丝袜长腿综合| 少妇露出福利视频| 亚洲综合色吧| A级毛片无码久久精品免费| 91青青视频| 国产在线观看91精品| 玖玖精品在线|