999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進DDPG算法的船舶航跡跟隨控制系統*

2021-11-03 07:02:52余凡蔣曉明張浩曹立超周勇劉曉光
自動化與信息工程 2021年5期
關鍵詞:船舶動作智能

余凡 蔣曉明 張浩 曹立超 周勇 劉曉光 

基于改進DDPG算法的船舶航跡跟隨控制系統*

余凡 蔣曉明 張浩 曹立超 周勇 劉曉光

(廣東省科學院智能制造研究所,廣東 廣州 510070)

鑒于船舶在航行時受到風、浪和流等不確定因素干擾,傳統的船舶航跡控制方法難以在不確定環境且控制系統處于多輸入、多輸出的條件下精確建模,導致船舶容易偏離預設航跡,影響船舶行駛的安全性。為降低船舶偏航,實現船舶航跡的精準控制,將深度確定性策略梯度(DDPG)算法引入到控制系統。首先,分析船舶的運動學,詳細介紹DDPG算法的基本原理并對算法進行改進;然后,在Matlab/Simulink中搭建船舶航跡跟隨控制系統并進行仿真實驗。實驗結果表明,該系統穩定性好,能對外部干擾迅速做出響應,對船舶航跡控制具有一定的參考價值。

DDPG算法;航跡跟隨;船舶控制系統

0 引言

在經濟全球化的影響下,船舶行業的貿易占據了重要地位。隨著船舶運動控制技術的不斷完善,船舶行業朝著大型化、專業化、數字化和貨物種類多樣化方向發展。船舶相關技術的研究得到廣泛關注,其中研究重點之一就是船舶運動控制自動化水平的提高[1]。船舶運動控制分為手動控制和自動控制[2-4],手動控制對操作者的經驗要求較高,不利于船舶在環境多變的海洋上航行,目前已形成自動控制代替手動控制的趨勢。自動控制實現了航向和航跡保持[5]、航速控制[6-7]等功能,在提高船舶運動控制智能化[8-9]的同時,可以減少偏航次數、航向偏差;并在保證經濟效益的同時,提高船舶和船員的安全性[10]。

船舶運動控制的核心問題是如何不斷地改進控制策略,以保證在有干擾的環境下及船舶本身存在動態特性改變的情況下,仍能滿足航運性能指標要求。由于船舶在航行中會受到風、浪和流的影響,且船舶控制系統為多輸入多輸出的動力學系統,在氣候、水文、航道等不確定的外部因素和負載、動力等內部因素的影響下,無法建立準確的數學模型。采用端到端強化學習的方式[11],不需要復雜的控制器,黑箱控制即可處理連續狀態空間并輸出連續的動作,可解決船舶控制模型難以精確建模的問題[12]。

本文在傳統的船舶航跡跟隨控制系統中引入深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法,并把船舶航跡跟隨控制系統建模成馬爾可夫決策過程;改進DDPG算法,離線學習訓練船舶航跡跟隨控制系統;在Matlab/Simulink中搭建船舶航跡跟隨控制系統并進行仿真實驗,驗證DDPG算法的有效性。

1 船舶航跡跟隨控制系統設計

圖1 船舶航跡保持方式

船舶航行時,船舶航跡跟隨控制系統會產生大量參數整定和復雜計算等問題,系統魯棒性較差。為保證船舶航跡跟隨的實時性,本文采用間接式航跡保持控制方式,并將DDPG算法引入控制系統,如圖2所示。

圖2 間接式航跡保持控制系統框圖

2 船舶運動學分析

船舶航行時具有6個自由度,其中前進、橫漂和起伏為3個平移自由度;轉艏、橫搖和縱搖為3個轉動自由度。慣性坐標系與附體坐標系平面示意圖如圖3所示。

圖3 慣性坐標系與附體坐標系平面示意圖

由圖3可知,船舶在2個坐標系間的運動學關系可表示為

3 DDPG算法

3.1 馬爾可夫決策過程

強化學習中智能體的動作取決于環境信息的反饋,同時受回報值的影響,朝回報最大化的方向尋找當前環境下智能體能達到預期效果的動作。其中,智能體是學習及實施決策的機器,與智能體相互作用的其他對象都被稱為環境(即船舶)。智能體需具備學習能力且能夠在某種程度上感知環境狀態,并采取動作影響環境狀態,如圖4所示。

圖4 馬爾可夫決策過程的智能體-船舶交互

圖4中智能體的動作可以是任何決策,而狀態則是船舶的位置、速度、外界干擾等反饋信息。在智能體與船舶進行信息交互前,不需要確定控制模型中具體參數值,可通過離線學習的方式收斂到最優值。

對函數的動作函數進行加和,即可得到價值函數:

由于使用學習在狀態量較大或連續任務中,會遇到維度災難問題,本文在強化學習中利用價值函數近似的方法可以解決該問題。本文引入Deep Q Network(DQN)的概念,其基于Q_learning算法,加入價值函數近似于神經網絡,采用目標網絡和經驗回放的方法進行網絡訓練,并從歷史數據中隨機采樣,以最小化樣本之間的相關性。

在強化學習算法中,智能體的策略用神經網絡表示。在此引入執行器和評價器2個概念。其中,執行器表示在基于策略函數的學習算法中,以狀態為輸入,以動作為輸出,對神經網絡進行訓練。此時的神經網絡不僅代表智能體的策略,也稱為執行器,其參數用來表示,如圖5所示。策略函數算法雖然能夠處理連續的動作空間,但會出現測量噪聲大,不能收斂的情況。

圖5 基于策略函數的學習

評價器在基于價值函數的學習算法中,以狀態和當前狀態下的動作為輸入,由神經網絡返回狀態動作對的價值,此時的神經網絡被稱為評價器,其參數用表示,如圖6所示。

圖6 基于價值函數的學習

3.2 改進DQN算法

由圖6可知,神經網絡輸出的是價值,并不能用來表示策略,將執行器和評價器合并成一個算法,即執行器-評價器算法,如圖7所示。

圖7 執行器-評價器算法

執行器-評價器算法中的執行器能夠處理連續動作空間,評價器只需根據當前狀態和執行器輸出的動作來預測對應的價值,進而將此價值與環境所返回的獎勵進行比較;得到的誤差用來評判當前狀態下采取動作時,環境中的獎勵是否高于預測的價值。此誤差也用于對評價器和執行器進行反饋,使2個神經網絡自我更新,調整執行器輸出的動作。因此,執行器-評價器算法能夠處理連續的狀態和動作空間,并能在環境返回獎勵方差較大時加快學習速度。

針對以上SOC估算的影響因素,本課題組進行了鋰離子電池SOC估算的相應實驗。實驗以兩組鋰離子電池組為研究對象,每組電池組用3片鋰離子電池串聯而成,單體電池型號為INCMP58145155N-I,額定電壓為3.7 V,額定容量10 Ah。具體的實驗過程為將兩組電池組每天先進行從10%~70%的深度放電,記錄回跳電壓,并擱置2 h,待電壓恢復后,再進行 0.2 C 完全放電。每當放電深度設置的一個實驗周期結束,改變放電倍率重復實驗。并且分別置兩組電池于高溫和低溫環境下,以觀測環境溫度對電池剩余容量的影響。實驗采用蓄電池綜合參數自動測試設備,型號為BTS-M 300 A/12 V。

3.3 DDPG算法在控制系統中的應用

DDPG算法是一個基于神經網絡函數近似器并且可以在高維的、連續動作空間中學習策略的無模型、執行器-評價器離軌策略算法。其中,神經網絡函數近似器是通過對DDPG算法所使用的非線性函數近似器進行修改得到的。DDPG算法將actor-critic方法和DQN相結合。在每個批次的學習中,需要分別對評價器和執行器進行更新。

評價器更新考慮到Q_learning是一個無策略算法,

DDPG算法的整體流程如圖8所示。

圖8 DDPG算法流程圖

4 控制系統仿真實驗

為驗證本系統的可行性,在Matlab/Simulink中搭建船舶航跡跟隨控制系統,并采用常規小型船作為控制對象。為保證仿真效果更接近實際環境,在仿真環境中加入低頻和高頻干擾,模擬風、浪和流對船舶產生的影響;并設定操作舵的最小時間間隔為3 ~5 s,與實際船舶航行時自動舵的調整間隔保持一致。基于DDPG算法的船舶航跡控制效果如圖9所示。

由圖9可以看出,本文提出的基于DDPG算法的船舶航跡跟隨控制系統能夠達到較好的軌跡跟蹤效果,且控制效果穩定,具有良好的魯棒性。

圖9 航跡控制效果

5 結論

本文針對船舶航行時,容易偏離規劃的航跡路線,航跡跟蹤效果較差等問題,提出一種基于DDPG算法的船舶航跡跟隨控制系統。首先,對船舶的運動學進行分析,并給出強化學習算法的推導過程;然后,在Matlab/Simulink搭建船舶航跡跟隨控制系統,完成船舶航跡跟蹤的仿真實驗。從實驗結果可以看出,該控制系統穩定性好,能對外部干擾迅速做出響應。

[1] 張顯庫.船舶控制系統[M].大連:大連海事大學出版社,2010.

[2] 侯志強.單片機船舶導航自動控制系統[J].艦船科學技術,2021,43(4):106-108.

[3] 韓春生,劉劍,汝福興,等.基于PID算法的船舶航跡自動控制[J].自動化技術與應用,2012,31(4):9-12.

[4] 馮哲,張燕菲.基于PID算法的船舶航跡自動控制方法[J].艦船科學技術,2018,40(12):34-36.

[5] 祝亢,黃珍,王緒明.基于深度強化學習的智能船舶航跡跟蹤控制[J].中國艦船研究,2021,16(1):105-113.

[6] 儲琴,夏東青.PID控制在船舶自動定位中的應用[J].艦船科學技術,2020,42(18):88-90.

[7] 張曉蘭,王欽若,時麗麗.動力定位船舶縱向運動的反步法控制器設計[J].自動化與信息工程,2011,32(5):1-4.

[8] 劉建圻,曾碧,鄭秀璋,等.基于S3C2440的嵌入式導航平臺的設計與實現[J].自動化與信息工程,2008,29(2):1-3,13.

[9] 鄒木春,曾應堅.基于機器視覺的船舶升沉檢測方法[J].自動化與信息工程,2010,31(3):37-39.

[10] 潘為剛,肖海榮,周風余,等.小型船舶自動操舵控制系統的研制[J].船海工程,2009,38(1):68-70.

[11] Richard S Sutton, Andrew G Barto. Reinforcement learing: an introduction[M]. MIT Press, Bradford Books, 1998.

[12] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[J]. Computer Ence, 2015.

Ship Track Following Control System Based on Improved DDPG Algorithm

Yu Fan Jiang Xiaoming Zhang Hao Cao Lichao Zhou Yong Liu Xiaoguang

(Institute of Intelligent Manufacturing, GDAS, Guangzhou 510070, China)

Since the ship is disturbed by uncertain factors such as wind, wave and current, the traditional ship track control method is difficult to accurately model in the uncertain environment and the control system is in the condition of multi input and multi output, which leads to the ship easy to deviate from the preset track and affects the safety of ship driving. In order to reduce ship yaw and realize accurate control of ship track, depth deterministic strategy gradient (DDPG) algorithm is introduced into the control system. Firstly, the kinematics of ship is analyzed, the basic principle of DDPG algorithm is introduced in detail, and the algorithm is improved. Then, the ship track following control system is built in Matlab/Simulink and the simulation experiment is carried out. The experimental results show that the system has good stability, can respond quickly to external interference, and has a certain reference value for ship track control.

DDPG algorithm; track following; ship control system

余凡,男,1996年生,碩士,助理工程師,主要研究方向:機電一體化。E-mail: f.yu@giim.ac.cn

蔣曉明,男,1973年生,博士,研究員,主要研究方向:電力電子、數控技術與自動化。E-mail: xm.jiang@giim.ac.cn

張浩,男,1993年生,碩士,助理工程師,主要研究方向:機器人與自動化。E-mail: h.zhang@giim.ac.cn

曹立超,男,1990年生,碩士,工程師,主要研究方向:機器人設計與自動化。E-mail: lc.cao@giim.ac.cn

周勇,男,1991年生,碩士,工程師,主要研究方向:計算機視覺。E-mail: y.zhou@giim.ac.cn

劉曉光,男,1980年生,碩士,副研究員,主要研究方向:機器人焊接技術。E-mail: xg.liu@giim.ac.cn

基金項目:廣東省海洋經濟專項項目(GDNRC[2021]024)

U664.82

A

1674-2605(2021)05-0004-06

10.3969/j.issn.1674-2605.2021.05.004

猜你喜歡
船舶動作智能
計算流體力學在船舶操縱運動仿真中的應用
《船舶》2022 年度征訂啟事
船舶(2021年4期)2021-09-07 17:32:22
船舶!請加速
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
動作描寫要具體
畫動作
動作描寫不可少
主站蜘蛛池模板: 亚洲成在人线av品善网好看| 激情综合网激情综合| 久久综合色88| 1024国产在线| 国产1区2区在线观看| 青青青国产在线播放| AV不卡无码免费一区二区三区| 99在线观看国产| 国产亚洲欧美在线中文bt天堂| 欧美午夜网| 一本一道波多野结衣av黑人在线| 欧美午夜一区| 亚洲欧美综合另类图片小说区| 日韩最新中文字幕| 全色黄大色大片免费久久老太| 亚洲第一视频免费在线| 男人天堂亚洲天堂| 久久亚洲国产视频| 国内精品一区二区在线观看| 成人免费视频一区| 在线观看免费国产| 国产精品色婷婷在线观看| 波多野结衣的av一区二区三区| 国产精品伦视频观看免费| 中文字幕日韩欧美| 亚洲αv毛片| 午夜福利在线观看入口| 欧美一道本| 亚洲乱伦视频| 国产欧美精品专区一区二区| 亚洲精品国产成人7777| 国产高清在线丝袜精品一区| 国产一区二区精品福利| 欧美午夜在线视频| 国产精品午夜电影| 刘亦菲一区二区在线观看| 91免费国产高清观看| 99re热精品视频中文字幕不卡| aa级毛片毛片免费观看久| 国产网友愉拍精品视频| 伊人久久精品无码麻豆精品| 日本在线免费网站| 永久天堂网Av| 欧美精品在线观看视频| 国产精品19p| 干中文字幕| 色综合日本| 98超碰在线观看| a在线亚洲男人的天堂试看| 国产精品冒白浆免费视频| 一本大道香蕉高清久久| 国产噜噜噜视频在线观看| 在线无码九区| 日韩在线永久免费播放| 欧美a在线| 日本人真淫视频一区二区三区| 免费人成网站在线高清| 丝袜久久剧情精品国产| 中文字幕第4页| 色网站在线视频| 亚洲青涩在线| 国产免费怡红院视频| 99草精品视频| 国产美女精品一区二区| 久久婷婷六月| 永久免费无码日韩视频| 免费激情网址| 99精品伊人久久久大香线蕉| 中文字幕啪啪| 国产视频 第一页| 最新亚洲人成无码网站欣赏网| 99精品视频播放| 婷婷激情亚洲| 91免费国产高清观看| 欧美在线免费| 最近最新中文字幕在线第一页| 日本不卡视频在线| 精品黑人一区二区三区| 久草视频中文| 呦女亚洲一区精品| 午夜影院a级片| 日韩国产精品无码一区二区三区|