999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于視覺的AUV自主水下管線跟蹤方法

2021-05-09 02:53:19王昊顏承昊任俊麗邵思揚
現代信息科技 2021年20期

王昊 顏承昊 任俊麗 邵思揚

摘? 要:對海下管線的檢測是保證其正常運行的必要環節。文章針對海下管道巡檢問題,提出一種結合狀態表示學習和深度強化學習的方法,使水下機器人能夠基于圖像進行管線跟蹤。利用無監督表征學習方法提取海底管線圖像特征,結合任務情況設計了動作、狀態空間和獎勵函數,通過SAC算法學習一個穩健的跟蹤控制策略。最后搭建仿真環境進行試驗,證明了所提出方法的有效性和泛化性。

關鍵詞:AUV;海底管線跟蹤;狀態表示學習;深度強化學習

中圖分類號:TP242? ? ? ? ? ? ? ? ?文獻標識碼:A文章編號:2096-4706(2021)20-0016-05

Vision-based AUV Autonomous Underwater Pipeline Tracking Method

WANG Hao, YAN Chenghao, REN Junli, SHAO Siyang

(School of Information Engineering, Dalian Ocean University, Dalian 116023, China)

Abstract: The detection of subsea pipelines is a necessary link to ensure its normal operation. For the subsea pipeline inspection problem, this paper proposes a method combining state representation learning and deep reinforcement learning, so that the underwater robot can track the pipeline based on image. The unsupervised representation learning method is used to extract the image features of submarine pipelines. Combined with the task situation, the action, state space and reward function are designed. A robust tracking control strategy is learned through SAC algorithm. Finally, a simulation environment is built to test the effectiveness and generalization of the proposed method.

Keywords: AUV; subsea pipeline tracking; state representation learning; deep reinforcement learning

0? 引? 言

海底管道、線纜是各國之間實現石油、天然氣等資源運輸的重要手段。作為海底基礎設施,海底管線在國際信息傳輸、海上資源開發、海島開發等領域發揮著重要作用。海底管線一般距離長,影響范圍大[1]。近年來,隨著海洋資源的不斷開發和海底管線的持續建設,海底管線的數量和安裝深度也在不斷增加[2]。海底管線長期運行于復雜的海底環境中,受海水沖刷、壓力等因素影響,容易形成疲勞損傷導致破裂、泄露[3-5],海底管線的穩定性極大地保證了其在整個運營周期內的安全和經濟效益。因此,定期對海底管線進行監測和檢查是一個必不可少的環節,而監測過程中的層層障礙使其成為一項極具挑戰性的任務。

當前,我國海底管線主要鋪設于水下200~300米這一區間,導致一般的人工潛水檢測無法實現[6],通常采用遙控水下機器人(Remote Operated Vehicle, ROV)和自主水下機器人(Autonomous Underwater Vehicle, AUV)進行作業[7-9]。ROV通過臍帶纜進行通信實現控制和數據傳輸,AUV無須線纜即可通信,因此ROV在一定程度上受線纜長度和操作員經驗水平的限制,而AUV可自主跟蹤檢測管線。考慮到實際應用中深海中的環境復雜,AUV的精確動力學模型很難獲得,因此AUV的定位和導航是公認的難題,如何利用有限的感知數據信息實現管線跟蹤是研究的重點和難點。深度強化學習(Deep Reinforcement Learning, DRL)是深度學習(Deep Learning, DL)和強化學習(Reinforcement Learning, RL)的結合,深度強化學習作為當前先進的人工智能技術已廣泛應用于機器人的控制任務中[10,12]。相較于傳統的基于模型的方法,深度強化學習方法因其與環境交互進行自主學習的特性,無須建立精確的動力學模型。此外狀態表示學習(State Representation Learning, SRL)作為學習高維數據特征的有效方法,其與深度強化學習的結合改善了無模型強化學習低采樣效率的缺陷[13],使得深度強化學習的方法能夠靈活應對海下環境復雜、充滿未知變數的管線自主跟蹤任務。

綜上,本文采用狀態表示學習和深度強化學習相結合的SRL-DRL方法,使用AUV搭載的攝像頭所拍攝的圖像作為狀態感知數據,通過變分自編碼器(Variational Auto-Encoder, VAE)將高維、連續的像素狀態觀測編碼壓縮成低維矢量,有效減少計算量,最終利用強化學習算法學習低維狀態矢量和動作之間的映射,實現管線自主跟蹤控制。最后通過兩個實驗案例驗證所使用方法的有效性和泛化性,實驗結果表明,所使用方法所需的傳感器少、效率高、成本低、適應性強。

1? AUV管線跟蹤方法

1.1? 狀態表示學習和深度強化學習

深度強化學習是深度學習與強化學習的結合,深度強化學習無須像監督學習一樣事先對訓練數據進行標記,而是通過讓智能體與復雜、未知的環境進行交互,并引入獎勵信號不斷糾正引導智能體從環境中學習最佳策略,深度強化學習的最終目標是使累計獎勵最大化。強化學習基本模型如圖1所示。

近年來,深度強化學習已經在諸多領域取得了令人矚目的成就。DQN(Deep Q Network)算法第一次將卷積神經網絡與強化學習算法Q-learning相結合,并在諸多Atari游戲中達到了與人類相當的水平。但其只適用于離散的動作空間,而現實的機器人控制中大多采用連續的動作空間。

狀態表示學習是特征學習的一個特殊案例,狀態表示學習的目標是將觀測數據轉化為壓縮的狀態向量,其中包含最具代表性的特征組,讓壓縮的狀態可以滿足有效的策略學習。例如,水下機器人傳感器(如相機)提供了高維的數據,而機器人的狀態(如方向、角度、距離等)可能包含在一個更低維的空間中。這種低維狀態剔除了原始高維數據的不相關特征,能夠極大地提高機器人完成任務的效率,這對于真實環境中的機器人實驗是至關重要的。

1.2? Soft Actor-Critic算法

SAC(Soft Actor-Critic)[14]算法是目前最先進的深度強化學習算法之一,且被廣泛應用于機器人控制任務中。

SAC是一種基于最大熵無模型的離策略(off-policy)深度強化學習算法,解決了無模型深度強化學習中高樣本復雜性和脆弱收斂性的問題。SAC算法基于最大熵強化學習框架,最大熵策略增強算法的探索性和魯棒性。訓練的目的不僅是使預期獎勵最大化,也是使策略的熵最大化,從而使得策略在完成目標的同時保持盡可能大的隨機性。SAC目標函數為:

其中,π為策略,H(π(·|st))為熵,α為溫度系數,控制策略的隨機程度以及熵在總獎勵中的比例。主要目的是使策略隨機化,分散動作概率分布,增強智能體的探索性。

本文使用VAE和SAC,將DRL和SRL結合起來,將高維的圖像觀測數據降維成包含關鍵特征的狀態向量,然后通過將狀態向量映射到動作,確保自主管線跟蹤任務的實現。

1.3? 狀態空間

管線跟蹤任務主要是控制AUV跟蹤海底管線,并借助搭載的攝像機拍攝管道的狀態。考慮到實際深海環境下一些常用于陸地定位導航的傳感器受限,無法正常使用,AUV的精確位置亦無法獲得。攝像機拍攝是用于獲取狀態信息的一種方便且廉價的方式,尤其是能夠在復雜、非結構化的環境中獲得機器人的基礎狀態。因此本文中只采用攝像頭,并將其所拍攝的圖像作為感知數據進行跟蹤控制策略的學習。

盡管深度神經網絡使強化學習從高維觀測數據中學習一個策略成為可能,但目前強化學習算法依然面臨著采樣效率低等問題。另外像素數據是連續的、高維的,需要大量訓練數據,直接使用圖像進行學習所需時間久,對設備要求高。因此本文中使用VAE作為特征提取器,將攝像機拍攝的圖像壓縮到一個較低維的空間,并保留了相關特征,利用VAE進行特征提取的過程如圖2所示。首先將所拍攝的原始RGB圖像下采樣縮放至64×64大小,然后利用VAE將3×64×64(3為通道數)的圖像編碼至1×10的隱空間,之后將低維的狀態向量作為輸入,利用深度強化學習算法進行學習。

1.4? 動作空間

深度強化學習算法SAC能夠輸出連續動作以驅動機器人。在現實環境中,采用連續的動作空間比離散固定的動作空間更加符合AUV的特性,因此,我們采用連續動作空間設計。AUV的動作可表示為:

其中,v為AUV在Surge自由度上的線速度,ω為AUV在Yaw自由度上的角速度,線速度的區間為(0,0.5)m/s,角速度的區間為(-0.4,0.4)rad/s。為簡化起見,我們假設AUV定深航行,只考慮平面上的運動,AUV和自由度如圖3所示。

1.5? 獎勵函數

深度強化學習中通過獎勵來指導策略學習,獎勵函數影響智能體對動作的選擇,獎勵用于評估智能體所執行動作的好壞,正確的動作能夠得到正向的獎勵,反之,錯誤或不好的動作就會得到負向的獎勵。在管線跟蹤任務檢查中,應保證管道處于AUV所搭載攝像機的可視范圍之內,AUV沿管線路徑持續前進跟蹤并拍攝,因此我們希望AUV不脫離管線路徑,且自始至終都要盡量將管線保持在攝像機中心圖像的中心位置。另外,AUV通過其機身電池倉中的電池供電,節省能源也是需要加以考慮的關鍵因素之一,因此AUV還應當盡可能快地完成跟蹤任務。結合上述情況,設計的獎勵函數為:

2? 實驗

由于強化學習需要不斷交互進行學習,在實際的水下環境中進行實驗不但成本高,而且危險性也高,因此本文中的實驗選擇在模擬器中完成。我們在UUV Simulator[15]中的海洋環境中構建了管線場景,使用的AUV為該平臺提供的“RexROV2”,管線場景如圖4所示。

如前文所述,我們利用SRL和DRL相結合的SRL-DRL方法,首先,VAE將圖像編碼壓縮至更容易學習的低維度的潛空間中,提取出魯棒性關鍵特征。然后將低維的狀態向量作為深度強化學習的輸入,學習有效的跟蹤控制策略。

在實驗中,我們事先以遙控的方式通過鍵盤控制AUV沿管道前進,并盡可能覆蓋訓練過程中可能出現的狀態,整個手動控制的過程由攝像機錄制成視頻,然后從所采集的視頻中提取圖像幀。為了降低圖片的相似度,提取過程中每兩張圖像之間間隔5幀。最終采集的圖像為8 000張,其中700張作為測試集,其余的圖像作為訓練集。在VAE的預訓練中,通過隨機翻轉和隨機縮放裁剪來增強數據,然后下采樣縮放至64×64大小。模型由一個編碼器和一個解碼器構成,編碼器中使用卷積神經網絡,由四層卷積層和兩層全連接層構成,最終編碼為向量z,本文輸出的z向量大小為10。解碼器與編碼器相反,由一個全連接層開始,將向量z調整為編碼器最后一層卷積層的大小,隨后通過四層反卷積將向量z重構為原始輸入的大小,模型訓練中使用MSE損失函數來優化VAE,損失值反映了圖像重構的效果。訓練以64張圖像為一個小批次,學習率為0.001。對模型進行500輪的訓練,最終選擇損失最小的模型。最終訓練完成的最佳模型的重構效果如圖5所示。

在管線跟蹤任務中,SAC的狀態輸入為經過VAE編碼的低維隱向量。按照上節中的動作空間、獎勵函數設計,AUV的初始位置位于管線的起始段,整個仿真實驗共1 000 000時間步。

平均回合獎勵描述了在一個回合的時間步內,智能體的平均累積即時獎勵。平均回合獎勵通常隨著訓練時間的增加而增加,但根據任務難易程度的不同也會有一些小的起伏波動。如圖6所示,平均獎勵隨著訓練時間步的增加而增加,在開始的前50 000時間步內,AUV不斷試錯嘗試保持在管線路徑上,在50 000~300 000時間步內,累計獎勵不斷增加,在600 000時間步左右達到最大值,這表明智能體學習到一個控制策略,能夠輸出正確的動作。

圖7顯示了訓練過程中,平均回合長度隨時間的變化曲線。回合長度為回合內AUV在不偏離管線路徑的情況下累計航行的時間,反映了AUV在單回合內的航行長度。在前50 000步內,平均回合長度小于200,這一時期智能體的學習是隨機的,而在300 000時間步的迭代后,回合長度不斷增加,這和獎勵值保持一致,表明AUV學習到有效的策略,能夠在更長的時間內不偏離管線路徑,保持跟蹤拍攝。

為了驗證訓練所學策略的有效性和泛化性,設計了兩個測試實驗,兩個實驗場景中所使用的管線都不同于訓練場景,其中一個場景中包含一個有6個不同角度拐角的管道,另一個為更細一些的彎曲線纜,測試場景如圖8所示。

測試使用訓練之后固定參數的模型,在兩個測試案例中AUV均能夠順利且高效地完成管線跟蹤任務。順利體現在AUV能夠全程跟蹤覆蓋管線而不偏離,高效體現在AUV總是能夠以較為平滑和相對較短的路線完成跟蹤任務。表明在訓練環境中習得的控制策略能夠完成管線跟蹤任務,具有很好的泛化性。兩個測試案例的AUV軌跡通過Rviz可視化軟件繪制,如圖9所示。

3? 結? 論

本文將狀態表示學習與深度強化學習相結合,用于實現海下管線跟蹤任務。結合實際情況設計了動作空間、狀態空間和獎勵函數,以確保AUV在跟蹤拍攝過程中能夠保持在管線上方,并且加速訓練過程,減少不必要的運動,以減少能源消耗,獲得更好的檢查監測畫面。與傳統深度強化學習方法相比,本文結合使用的自監督狀態表征學習方法只使用了少量的樣本進行訓練,VAE的預處理提高了樣本效率,促使深度強化學習算法以更少的樣本、更快的速度學習。同時該方法對于設備性能的要求較低,能夠應對真實場景下AUV算力較低、能源有限的條件限制。最后搭建仿真環境進行仿真試驗,最終驗證了所使用方法的有效性和泛化性。

參考文獻:

[1] 黃潘陽,來向華,胡濤駿,等.海底電纜管道廊道規劃初步構想 [J].海洋開發與管理,2020,37(3):8-11.

[2] ZHAO X H,WANG X,Du Z S. Research on Detection Method for the Leakage of Underwater Pipeline by YOLOv3 [C]//2020 IEEE International Conference on Mechatronics and Automation (ICMA).Beijing:IEEE,2020:637-642.

[3] 董紹華,段宇航,孫偉棟,等.中國海底管道完整性評價技術發展現狀及展望 [J].油氣儲運,2020,39(12):1331-1336.

[4] 王文龍,熊指南.聲學探測技術在海底石油管線鋪設后調查中的應用 [J].海洋科學,2021,45(7):110-120.

[5] 丁安.聲納圖像水下管線檢測與跟蹤技術研究 [D].鎮江:江蘇科技大學,2019.

[6] 陳浩.水下巡線機器人管線識別與運動控制算法研究 [D].青島:中國石油大學(華東),2018.

[7] 韓銀鋒.基于機器視覺的ROV水下管線自動跟蹤方法 [J].計算機測量與控制,2015,23(2):539-541.

[8] 黃子明,賀繼林.面向水下管網的視覺檢測系統研究 [J].電子測量與儀器學報,2021,35(6):79-87.

[9] 黃明泉.水下機器人ROV在海底管線檢測中的應用 [J].海洋地質前沿,2012,28(2):52-57.

[10] 閆皎潔,張鍥石,胡希平.基于強化學習的路徑規劃技術綜述 [J].計算機工程,2021,47(10):16-25.

[11] 李茹楊,彭慧民,李仁剛,等.強化學習算法與應用綜述 [J].計算機系統應用,2020,29(12):13-25.

[12] 孫玉山,王力鋒,吳菁,等.智能水下機器人路徑規劃方法綜述 [J].艦船科學技術,2020,42(7):1-7.

[13] GUPTA A,KHWAJA A S,ANPALAGAN A,et al. Policy-Gradient and Actor-Critic Based State Representation Learning for Safe Driving of Autonomous Vehicles [J].Sensors,2020,20(21):5991.

[14] HAARNOJA T,ZHOU A,ABBEEL P,et al. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor [C]//International conference on machine learning. Stockholm:PMLR,2018:1861-1870.

[15] MANH?ES M M M,SCHERER S A,VOSS M,et al. UUV simulator: A gazebo-based package for underwater intervention and multi-robot simulation [C]//OCEANS 2016 MTS/IEEE Monterey.Monterey:IEEE,2016:1-8.

作者簡介:王昊(1996—),男,漢族,安徽桐城人,碩士研究生在讀,研究方向:水下機器人、強化學習;

顏承昊(1998—),男,漢族,遼寧大連人,碩士研究生在讀,研究方向:水下機器人、強化學習。

任俊麗(1996—),女,漢族,河南商丘人,碩士研究生在讀,研究方向:計算機視覺;

邵思揚(1997-),女,漢族,遼寧本溪人,碩士研究生在讀,研究方向:水下機器人、強化學習。

主站蜘蛛池模板: 美女扒开下面流白浆在线试听 | 另类综合视频| 91精品国产自产在线老师啪l| 97综合久久| 91网红精品在线观看| 国产在线一区视频| 色一情一乱一伦一区二区三区小说 | 国产一在线| 亚洲欧美在线综合一区二区三区| 中文成人在线| 97国产在线观看| 精品视频福利| 麻豆精品国产自产在线| 成人福利在线视频免费观看| 69综合网| 亚洲成a∧人片在线观看无码| 久久美女精品| 天堂在线www网亚洲| 国产成人亚洲无码淙合青草| 国产精品一区二区在线播放| 无码aaa视频| 97成人在线观看| 色欲国产一区二区日韩欧美| 免费在线一区| 久久天天躁狠狠躁夜夜躁| 精品国产一二三区| 国产三级视频网站| 国产尹人香蕉综合在线电影| 国产亚洲欧美另类一区二区| 91九色最新地址| 国产成人三级在线观看视频| 999精品视频在线| 91在线播放国产| 91口爆吞精国产对白第三集| 免费看一级毛片波多结衣| 国产日本欧美亚洲精品视| 国产在线观看一区二区三区| 国产成人免费| 亚洲区一区| 欧美精品另类| 天天视频在线91频| 国产91特黄特色A级毛片| 国产小视频a在线观看| 免费一级毛片完整版在线看| 国产欧美另类| 国产激情无码一区二区免费| 日韩在线视频网站| 日本欧美中文字幕精品亚洲| 久青草国产高清在线视频| 国产91丝袜在线播放动漫 | 亚洲国产日韩欧美在线| 99九九成人免费视频精品| 亚洲福利片无码最新在线播放| 精品国产www| 欧美日韩久久综合| 中国一级毛片免费观看| 精品国产美女福到在线不卡f| 日韩 欧美 小说 综合网 另类| 就去吻亚洲精品国产欧美| 国产香蕉国产精品偷在线观看| 午夜日b视频| 在线观看91精品国产剧情免费| 不卡无码网| 成人午夜视频免费看欧美| 香港一级毛片免费看| 国内精品视频| 欧美亚洲激情| 欧美成人aⅴ| 国产精品va| 亚洲αv毛片| 亚洲香蕉在线| 国产一区二区精品福利| 国内嫩模私拍精品视频| 免费国产高清视频| 久久婷婷色综合老司机| 亚洲精品福利视频| 国产欧美又粗又猛又爽老| 青青草91视频| 国产精品va免费视频| 中文无码精品A∨在线观看不卡 | 超清无码熟妇人妻AV在线绿巨人| 亚洲资源站av无码网址|