郭可建,林曉波,郝程鵬,侯朝煥
(1.中國科學院大學 集成電路學院,北京,100049;2.中國科學院 聲學研究所,北京,100190)
基于神經網絡狀態估計器的高速AUV強化學習控制
郭可建1,2,林曉波2,郝程鵬2,侯朝煥2
(1.中國科學院大學 集成電路學院,北京,100049;2.中國科學院 聲學研究所,北京,100190)
隨著海洋研究與開發的日益擴大,高速自主水下航行器(AUV)作為重要的無人水下工作平臺受到廣泛關注。然而由于其模型具有多輸入多輸出、強耦合欠驅動以及強非線性特性,因此依賴精確模型的傳統控制方法在實際應用中常受到限制。針對此問題,文中提出一種不依賴精確模型的強化學習位姿控制器,該控制器通過姿態環和位置環的配合不僅可以實現高速AUV的快速姿態穩定,還可以更快地完成下潛到指定深度的動作;同時,為了降低獲取用于訓練強化學習控制器數據的成本,結合神經網絡技術提出了一種改進的高速AUV狀態估計器,該估計器可以在已知當前時刻AUV的狀態以及所受控制量的情況下估計出下一時刻的狀態,從而為強化學習控制方法提供大量的訓練數據。仿真實驗結果表明,估計器達到了較高的估計精度,基于神經網絡狀態估計器訓練得到的強化學習控制器可以完成原AUV的平穩快速控制,從而驗證了所提方法的可行性及有效性。
自主水下航行器;強化學習;神經網絡;狀態估計
近年來,隨著海洋開發活動的日益頻繁,自主水下航行器(autonomous undersea vehicle,AUV)以其功能豐富、性價比高和便捷性等優點成為重要的水下工作平臺,并在水下搜索、海洋搜救、海洋環境數據搜集以及海洋資源開發等領域發揮著越來越重要的作用[1-2]。
由于應用場景的不斷擴展以及任務對性能要求的提高,AUV的運行速度不斷提升,這給AUV的控制以及狀態的估計帶來一定困難。典型AUV是一個多輸入多輸出、欠驅動強耦合的不確定非線性系統,因而如何對其進行高機動控制一直是研究的難點。傳統AUV一般根據機理模型設計控制器,如反步(back-stepping)控制方法[3-4]、比例-積分-微分(proportion itegral differential,PID)控制方法[5-6]、線性二次型調節器(linear quadratic regulator,LQR)控制方法[7-8]等;同時根據系統的擾動、不確定特性設計相應的補償策略,如魯棒控制方法[9]、自適應控制方法[10-11]等。上述方法在系統的機理模型較為精確時可取得高精度的控制性能,然而AUV是一個強耦合的非線性系統,對其進行精確建模十分困難。相比于典型的低速AUV,高速AUV具有機動性強(高水流航速帶來更強的舵效)的顯著優點,但也存在控制方面的困難:首先,建模和參數辨識更困難(高速的水動力環境模擬較為困難),需要不依賴精確模型的控制算法;其次,高速AUV一般不安裝多普勒測速儀(Doppler velocity log,DVL)等測量水流速度的傳感器(外置突出的傳感器會影響機體的光滑表面),因此一般需要高性能的狀態估計器來估計當前的航速;最后,高速AUV需要經常工作在陌生的海域,對其外部干擾進行提前建模也是不現實的。考慮到上述問題,需要研究不依賴精確模型的控制方法,并通過實時經驗數據抵抗未建模的干擾。
在不依賴精確模型的控制方法中,強化學習控制方法是一個很好的選擇。首先,強化學習方法可以在不建立模型的情況下獲得性能最優的控制器。強化學習控制器是通過AUV與海洋環境的交互進行學習獲得的,具體言之,即通過AUV控制器的控制輸出以及AUV的運動狀態數據進行自主學習,從而在不需要模型的情況下,按照預定要求自主獲得最優的控制性能。同時,強化學習的控制相較于傳統的反饋控制更加迅捷,由于強化學習的控制是通過訓練得到的控制策略來實現的,因此其控制器在面對某一狀態時,會直接按照既有的控制策略生成相應的符合預定要求的控制量,因此其控制不是一個嘗試性的慢調節過程。此外,強化學習追求的是最優的綜合性能。在實際情況下,除了追求任意環境下良好的自主控制性能,還可能會對AUV的續航力、容錯控制等綜合性能提出要求,強化學習可以通過對獎勵函數的合理設置,自主學習到最優的控制策略,以實現對控制效果、續航力、容錯等性能的最優兼顧,從而獲得最優的綜合性能。目前已經提出的眾多強化學習算法主要分為值迭代(value iteration,VI)[12],策略迭代(policy iteration,PI)[13-14]及動作器-評價器(actor-critic,AC)[15-18]3種類型。文獻[19]提出一種改進的VI類算法——Q-learning算法,該算法可以同時進行單障礙物和多障礙物下的避障控制;文獻[20]通過將容錯控制轉化成最優控制器求解問題,利用PI求解HJB(Hamilton-Jacobi-Bellman)方程,進行AUV推進器故障以及海流擾動下的容錯跟蹤控制,仿真實驗證明了提出方法的有效性;文獻[21]結合滑??刂?sliding-mode control,SMC)和深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法(AC類),提出了SMC-DDPG算法,用以進行不同速度的AUV控制,仿真結果表明,該算法可以實現穩定、高精度的控制,且可以快速收斂。
強化學習控制方法雖然可以解決AUV的未建模干擾和非線性控制問題,但需要大量的經驗數據進行訓練,而AUV實時運行采集的經驗數據十分有限,這限制了強化學習在AUV上的應用。為解決這一問題,必須研究AUV的狀態估計技術。AUV的狀態估計是指根據AUV當前時刻的狀態和當前時刻的控制輸入預測下個時刻的狀態。AUV的狀態估計器通過仿真運行給強化學習控制算法提供充足的訓練數據。
傳統的狀態預測方法通?;贏UV的動態模型,因此,部分研究致力于通過建立更精確的AUV動態模型來提升狀態估計精度[22-23]。文獻[24]提出了一種基于線性離散時間觀測卡爾曼濾波器的識別方法來進行AUV的狀態估計。然而,由于AUV的運動模型是非線性的,因此線性的估計方法通常只能工作在很小的范圍內,為解決這一問題,研究人員提出了一系列非線性的狀態估計方法,包括采用基于動態模型的狀態估計器以提升估計性能,通過流體動力學計算獲取更為精確的流體動力學因數從而構建性能更優的狀態估計器等方法[25-26]。然而,以上非線性的估計方法仍依賴精確的AUV動態模型,大大限制了其在實際情況下的應用。
隨著機器學習技術的快速發展,無模型的狀態估計方法得以實現。文獻[27]提出了一種線性回歸方法用以估計AUV的速度、角速度以及運動半徑,并在實際估計預測實驗中取得了良好的效果。但是線性回歸方法很難學習更為復雜的AUV運動學特性,因此,基于神經網絡的非線性方法在實際情況下得到了更為廣泛的應用。文獻[28]提出了一種單層神經網絡的控制器,該控制器通過預測AUV所受的力及力矩進行控制,并取得了優于傳統控制器的控制性能。文獻[29]提出了一種多層的神經網絡控制器,能夠對AUV動態特性以及所受干擾進行估計,通過跟蹤性能實驗證明,跟蹤誤差得到了有效抑制。
目前針對高速AUV的狀態估計方法較少,由于運動學特性上的差異,直接將普通的狀態估計器應用在高速AUV上會造成實際應用中的性能損失。為了解決這一問題,文中提出一種基于神經網絡的狀態估計器和與之適配的強化學習控制方法。構建和訓練神經網絡狀態估計器的方法包括:1)間接估計;2)控制量的非線性變換;3)訓練數據的歸一化;4)雙網絡結構。同時,為了評估狀態估計器的估計精度,文中提出2種指標:1)統計性能指標(statistics performance index,SPI),用以表征估計器輸出的狀態估計值與真實值之間的誤差情況;2)趨勢性能指標(tendency performance index,TPI)用以表征估計器對AUV運動學特性的學習情況。在以上估計器構建完成后,在AC結構之下,結合文獻[30]以及DDPG算法提出一種改進的雙環補償控制器。該控制器包括姿態環和位置環2個強化學習網絡,姿態環負責輸出控制量進行AUV姿態角度的快速調整和跟蹤,位置環主要根據目標位置給出最優的參考姿態角度,雙環合作進行高速AUV的控制。仿真實驗驗證了所構建的訓練神經網絡狀態估計器和基于強化學習的雙環補償控制方法的可行性及有效性。
高速AUV通常是指運行速度超過30kn的長條形AUV[31],由于水下環境惡劣加之AUV的高速運動,使得AUV模型變得更為復雜。為了描述AUV的運動,分別引入了大地坐標系和體坐標系,如圖1所示。

圖1 AUV運動坐標系Fig.1 Motion coordinate system of the AUV
其中,大地坐標系固結于大地某處,體坐標系通常固結于AUV的浮心Ob,其坐標[x0,y0,z0]代表AUV的浮心Ob相對于大地坐標系的位置,而其姿態角,即橫滾角φ、俯仰角θ以及偏航角ψ是通過兩坐標系之間的轉動角度來表征的?;谝陨献鴺讼到⒌腁UV的運動模型如式(1)~(10)所示[32-33]。


式中:v=[vx,vy,vz]和ω=[ωx,ωy,ωz]分別為AUV的速度和角速度在體坐標系的分量;為無量綱的角速度;xc,yc,zc分別為AUV的質心在體坐標系上的分量;α和β分別為攻角和側滑角;δe,δr,δd分別為水平舵角、垂直舵角和差分舵角;T為AUV所受的額定推力;m和G分別為質量和重力;?G為負浮力;ρ為水的密度;S和L分別為AUV最大橫截面積和長度;Jxx,Jyy,Jzz分別為AUV在體坐標系3個軸向所受的轉動慣量;?Mxp為失衡力矩。此外,,CxS以及λ11,λ22,λ33,λ44,λ55,λ66,λ26,λ35為與流體動力相關的參數;和為與流體動力矩相關的參數。
由以上運動方程可見,AUV的運動模型中存在著大量的流體動力參數,這造成了對AUV進行精確建模時大量的資源消耗。文中擬在不基于機理進行建模的情況下,建立一個“黑盒”模型的方程,即

該方程可以在輸入某一時刻的狀態s(t)和控制量a(t)時,估計出下一時刻的狀態s(t+1),文中稱其為狀態估計器。其中,AUV的狀態如下:所受控制量主要指a(t)=[δe(t),δr(t),δd(t),T]。
為了評價狀態估計器的估計精度,提出SPI和TPI兩種指標。
1)SPI
SPI指標是根據各個被估計狀態項的估計值與標簽值之間的相對誤差得到的統計結果提出的。統計對象是與標簽值的相對誤差大于所設門限的估計器的輸出值,該輸出值被稱為離群值。SPI的計算如式(12)所示,當只針對某狀態進行統計時即為該狀態的單項SPI,當對所有被估計狀態進行統計時即為總體SPI。二者對比可以反映估計精度的均衡性。

式中:M為狀態項數(當只針對某一狀態計算時,M=1);N為從測試集中抽取的用于測試的數據量;siE為估計方程輸出的對下一時刻狀態的估計值;siL為對應被估計狀態項的標簽值;th為相對誤差門限。
根據SPI可以得出目前估計方程輸出的估計值與真值之間的誤差情況。
2)TPI
為了反映狀態估計器對原AUV運動模型運動學特性的學習情況,分別讓狀態估計器和原模型在同一初始狀態下對AUV進行控制,并計算其在一定時間內各個狀態控制曲線的時間平均誤差,進而得出
式中:T為控制時間;M為狀態項數;sEi基于狀態估計方程的控制曲線;sMi為基于模型的控制曲線,同時為了避免各個狀態之間數量級之差的影響,對各狀態的控制誤差進行了相應的歸一化處理。
最后,該估計器訓練完成后可以產生數據供給強化學習控制器進行訓練。由于AUV控制中位置和姿態的響應時間差距較大,因此可將位置和姿態分成2個部分構造雙環補償控制器。該控制器具有位置環和姿態環2個強化學習網絡,其中,位置環主要結合位置信息輸出參考姿態αref(t),姿態環主要負責輸出控制量u(t)追蹤參考姿態,雙環合作進行高速AUV的控制。訓練最優強化學習控制器的過程即為最優化性能指標的過程。該基于強化學習的雙環補償控制網絡的性能指標為

式中:V代表的價值函數即為該強化學習控制器的長期性能指標;ra和rp分別為姿態環和位置環的獎勵函數。當得到最優價值函數V?時,即為獲得最高的姿態環獎勵和位置環獎勵,此時該強化學習控制器的2個網絡分別輸出最優的控制量u?和最優的參考姿態。
由于AUV運動模型本身的復雜性,在建立高精度的狀態估計器時,傳統方法往往難以勝任,而機器學習(machine learning,ML)技術的發展為解決這一問題提供了新的方案。由于AUV模型的強耦合以及非線性特性,擬采用具有無限逼近能力的神經網絡進行這一狀態估計器的回歸訓練。為了在盡量少的數據需求下訓練得到高精度的神經網絡狀態估計器,提出以下改進方案。
1)通過?s(t)間接估計s(t+1)
直接估計是指輸入某一時刻的狀態s(t)和控制量a(t),由神經網絡輸出下一時刻的狀態s(t+1),然而這種估計方法存在搜索空間過大的不足,即在2個不同狀態之下輸入同一控制量a(t),在運動特性上是相似的,但是其各自的輸出卻可能存在較大的差距,這在一定程度上增大了神經網絡學習的負擔,因而文中采用間接估計的方法,即神經網絡的估計結果是狀態的增量?s(t),此時,對下一時刻的狀態估計可以表示為s(t+1)=s(t)+?s(t)。仿真實驗證明,這一改進降低了神經網絡學習的負擔,顯著提升了估計精度。
2)控制量的非線性變換
高速AUV在運行中,機體所受的流體動力和流體動力矩與速度矢量的模的二次方v2呈線性關系。此外,由第1章中AUV的運動模型可知,參數v2作為控制量的非線性變換因子對AUV狀態的變化會產生較大的影響。因此,為了提升神經網絡的訓練效率,對輸入特征中的控制量進行類似的非線性變換,即,其中。仿真實驗表明,該非線性變換在一定程度上提升了神經網絡估計器的估計精度。
3)訓練數據的歸一化
由于用于訓練神經網絡估計器的數據在數量級上有著較大的差距,如AUV的位置和速度在數量級上遠大于其他狀態(如姿態角和角速度),因此,若不對數據進行歸一化處理則可能造成訓練過程中數量級較小的狀態被忽略,進而影響估計器的估計精度。為了提高訓練的效率,對神經網絡的輸入和輸出數據同時進行了歸一化。
4)雙網絡結構
為了能在使用簡單的全連接網絡的同時高效率地訓練神經網絡狀態估計器,提出雙網絡結構構建估計器,即以姿態網絡對AUV的深度y0,姿態角,以及角速度ωx,ωy,ωz進行回歸訓練,如圖2所示;以速度網絡對速度vx,vy,vz進行回歸訓練,如圖3所示。

圖2 估計器姿態網絡Fig.2 The attitude network of estimator

圖3 估計器速度網絡Fig.3 The velocity network of estimator
由于2個網絡在結構和所使用的激活函數上基本相同,因此訓練的復雜度并未明顯增加,其計算公式如式(15)所示,對于姿態網絡,其輸出,而對于速度網絡,其輸出。

同時,其梯度的反向傳播公式

式中:zL為標簽值,?z=z?zL;J為損失函數;⊙為哈達瑪積。
在完成基于神經網絡的AUV狀態估計器后,設計了基于上述估計器的強化學習控制器。
在AUV的控制過程中,由于位置環和姿態環的控制響應時間明顯不同,因此針對位置和姿態分別設計了一個強化學習控制器,采用了強化學習中經典的DDPG,如圖4所示結構。
當賦予AUV的狀態初值s(k+1)之后,右側的位置環結合當前時刻AUV的位置(包括在s(k)中)以及預定到達的位置輸出參考姿態ref(k)(即后文的αd),左側的姿態環結合AUV當前的姿態(包括在s(k)中),學習控制舵角,輸出控制量a(k)=[δe(k),δr(k),δd(k),T(k)],將當前時刻的狀態s(k)以及控制量a(k)輸入狀態估計器(即圖中的AUV,它在實際訓練中可被狀態估計器代替),可得下一時刻的狀態s(k+1),如此循環將相應的狀態項以及獲得的獎勵值保存進姿態經驗池和位置經驗池,即可進行強化學習控制器的訓練,最終,右側的位置環經過學習能夠輸出最優的參考姿態,左側的姿態環能夠快速穩定地對參考狀態進行跟蹤,雙環合作即可實現對AUV的快速控制。
由于二者學習目標不同,因此分別對位置環和姿態環進行獎勵函數的設計。由于AUV既需要快速的姿態調整,又需要保持平穩,因此姿態環的獎勵函數同時對姿態角、角速度以及控制量進行了約束,其獎勵函數

式中:α=[φ,θ,ψ]T為AUV當前時刻的姿態角;為參考姿態角;為AUV的角速度;為AUV所受控制量;分別為對各個狀態以及控制量的權值;ca為常數。
對于位置網絡,其獎勵函數


圖4 雙環強化學習控制器結構圖Fig.4 Structure of the double-loop controller with reinforcement learning
為了驗證提出的基于神經網絡的AUV狀態估計器和配套的強化學習控制器的有效性,進行了一系列仿真實驗。首先,對基于前文提出的方法訓練得到的神經網絡狀態估計器的性能進行評估;然后,基于該狀態估計器產生的數據,對提出的強化學習雙環補償控制器進行訓練,并對其控制性能進行測試。
由于暫時無法獲取真實的AUV航行數據,結合某533mm口徑高速AUV的相關參數建立參考模型,用以驗證提出的構建和訓練神經網絡狀態估計器方法的可行性并分析其性能表現。參考模型的相關參數如表1所示。

表1 高速AUV參考模型參數Table 1 Parameters of the reference model of the high speed AUV
基于以上參數所建立模型產生的數據可以被看作AUV航行時傳感器記錄的數據,此后的神經網絡狀態估計器的訓練以及性能評價工作都建立在數據集[s(t),a(t),s(t+1)]的基礎之上。該數據集是在隨機初始化的狀態下,由參考模型運行產生的。
為了盡量保持網絡結構簡單且易于實現和訓練,雙網絡結構的神經網絡狀態估計器采用全連接網絡,且隱藏層都為4層,隱藏層中的神經元數為256個,采用Relu作為激活函數,輸入層和輸出層的激活函數為tanh函數,訓練過程中采用Adam優化器,學習率lr設置在[10?7,10?5],隨訓練代數逐漸降低以提升訓練的穩定性,神經網絡的搭建以及訓練均基于Tensorflow平臺。
通過前文所述方法及參數訓練得到神經網絡狀態估計器后,從測試集中隨機抽取1 000組數據進行估計器的估計精度測試,并計算各個狀態的SPI以及總體的SPI,相對誤差門限th設置為0.1。最終統計結果表明,估計器除了對速度vx進行估計時SPI高于0.1,其余各個狀態項的SPI幾乎都在0.05左右,同時總體SPI也在0.05以下,說明估計器總體的估計性能較均衡,且間接說明了估計值與真實值之間的相對誤差低于0.1,實現了較高的估計精度。
為了評估神經網絡狀態估計器對參考模型的運動學特性的學習情況,在同一初始狀態下,分別基于狀態估計器和參考模型進行AUV的控制,得到各個狀態的控制曲線如圖5~圖7所示。

圖5 基于原模型和估計器的姿態控制曲線Fig.5 The attitude control curves of the original model and the estimator
由以上結果對比可見,神經網絡估計器基本可以實現與參考模型同等水平的控制,從TPI上看,圖5所示情況下的TPI為0.11,而與參考模型控制曲線相對誤差為5%時計算得到的TPI為0.14,因此,當總體上估計器輸出的估計值與實際值的相對誤差低于0.1時,估計器與參考模型控制的相對誤差將低于5%,可以認為估計器基本學習到了參考模型的運動學特性。具體的基于SPI以及TPI的性能分析及結論參考文獻[34]。

圖6 基于原模型和估計器的角速度控制曲線Fig.6 The angular speed control curves of the original model and the estimator

圖7 基于原模型和估計器的速度控制曲線Fig.7 The velocity control curves of the original model and the estimator
文中結合估計器以及基于強化學習的雙環補償控制器進行了高速AUV的姿態和深度的控制測試。控制的目標是以隨機姿態入水后迅速下潛到水下30m并保持姿態平穩,經過仿真測試,將姿態環的獎勵函數參數設置為ca=1,wα=[12,1,30]T,wω=[0.02,0.001,0.001]T,wδ=[0,0,0.001,0]T,將位置環的獎勵函數參數設置為cp=1,wp=[0,1,0]T。
將估計器作為參考模型,進行姿態環以及位置環的訓練。訓練400輪后得到獎勵值曲線如圖8所示,通過獎勵值曲線可以發現,姿態環和位置環的訓練過程收斂迅速,均可在100輪左右達到穩定。

圖8 控制器在訓練過程中所獲獎勵值Fig.8 The reward values during the training process of the controller
此后用訓練好的補償控制器進行運動控制,得到運動過程中的速度曲線和姿態曲線如圖9和圖10所示。由圖9結果可見,AUV的運行速度最終達到了26m/s(約52kn),這已屬于高速AUV的范疇。由圖10可見,在強化學習控制器的控制之下,AUV的橫滾角和偏航角可在2s內恢復至0°,機身快速穩定,俯仰角也可在2.5s內實現對參考俯仰角的跟蹤。因此,此時的雙環補償控制器已達到了較好的姿態控制效果。此外,由圖11可見,基于補償控制器進行的深度控制可以在10s左右到達目標深度,而基于PID進行深度控制時,需要近17s才能到達目標深度,說明位置環為姿態環提供了更優的參考姿態,使得AUV在雙環補償控制器下快速達到目標深度。這進一步證明了文中使用的強化學習雙環補償控制器的優越性。

圖9 AUV運行速度曲線Fig.9 The velocity curves during the AUV running

圖10 雙環補償控制器下的AUV姿態控制曲線Fig.10 The attitude curves of the AUV controlled by the double-loop complementary controller

圖11 基于雙環補償控制器與PID控制器的AUV深度控制曲線Fig.11 The depth curves of the AUV controlled by the double-loop complementary controller and the PID controller
文中針對高速AUV的控制問題,提出了一種基于強化學習的雙環補償控制器,并構造基于神經網絡的高速AUV狀態估計器為其提供訓練數據。其中,針對神經網絡狀態估計器的構建以及訓練方法提出的改進技術包括:1)通過?s(t)間接估計s(t+1);2)控制量的非線性變換;3)訓練數據的歸一化;4)雙網絡結構。同時,基于強化學習的雙環補償控制器,通過姿態環和位置環的協作,可以在保證姿態平穩控制的基礎上實現AUV的快速下潛。隨后設計仿真實驗,通過估計器運行產生的數據訓練得到的強化學習控制器進行高速AUV的姿態及深度控制。仿真結果表明,基于估計器數據訓練得到的控制器不僅使得以隨機姿態入水的AUV能夠迅速調整姿態達到平穩,并且能夠快速下潛至預定深度。這驗證了采用狀態估計器配合文中的強化學習控制器進行訓練具有可行性及有效性。文中尚未針對強化學習控制器的魯棒性進行進一步的改進與探究,這將留待后續進一步完善。
[1]杜度.基于RBF神經網絡參數自整定的AUV深度控制[J].水下無人系統學報,2019,27(3):284-289.
Du Du.Parameters Self-Tuning for Depth Control of AUV Based on RBF Neural Network[J].Journal of Unmanned Undersea System,2019,27(3):284-289.
[2]李鑫,黃茹楠,丁寧.輸入受限的自主水下航行器自適應反演控制[J].水下無人系統學報,2019,27(6):624-628.
Li Xin,Huang Ru-nan,Ding Ning.Adaptive Backstepping Control of Autonomous Undersea Vehicle with Input Limitation[J].Journal of Unmanned Undersea System,2019,27(6):624-628.
[3]Chen W,Wei Y,Zeng J.Back-stepping Control of Underactuated AUV’s Depth based on Nonlinear Disturbance Observer[C]//2015 34th Chinese Control Conference(CCC).Hangzhou,China:IEEE,2015:6061-6065.
[4]Wang H J,Chen Z Y,Jia H M,et al.NN-Backstepping for Diving Control of an Underactuated AUV[C]//2011 Oceans’11 MTS/IEEE KONA.Waikoloa,HI,USA:IEEE,2011:1-6.
[5]Hu B,Tian H,Qian J,et al.A Fuzzy-PID Method to Improve the Depth Control of AUV[C]//2013 IEEE International Conference on Mechatronics and Automation.Takamatsu,Japan:IEEE,2013:1528-1533.
[6]Liu W,Ding X,Wan J,et al.An Effective Motion Control Based on 2-DOF PID and ELM for AUV[C]//2018 OCEANS 2018 MTS/IEEE Charleston.Charleston,SC,USA:IEEE,2018:1-4.
[7]呂建國,王育才,崔昊.基于LQR方法的水下航行器熱動力推進系統控制研究[J].彈箭與制導學報,2007,27(1):174-176.
Lü Jian-guo,Wang Yu-cai,Cui Hao.Research of Control for Propulsion System of Thermal Power Underwater Vehicle Based on LQR[J].Journal of Projectiles,Rockets,Missiles,and Guidance,2007,27(1):174-176.
[8]Lakhwani D A,Adhyaru D M.Performance Comparison of PD,PI and LQR controller of Autonomous under water vehicle[C]//2013 Nirma University International Conference on Engineering(NUiCONE).Ahmedabad,India:IEEE,2013:1-6.
[9]趙旭,龔時華,楊進.基于LMI的無人水下航行器干擾補償控制[J].水下無人系統學報,2020,28(3):271-277.
Zhao Xu,Gong Shi-hua,Yang Jin.Disturbance Compensation Control for Unmanned Undersea Vehicle Based on LMI[J].Journal of Unmanned Undersea System,2020,28(3):271-277.
[10]Makavita C D,Nguyen H D,Jayasinghe S G,et al.Predictor-Based Model Reference Adaptive Control of an Unmanned Underwater Vehicle[C]//2016 14th International Conference on Control,Automation,Robotics and Vision.Phuket,Thailand:IEEE,2016:1-7.
[11]Nayak N,Das P,Das S R.Heading Plane Control of an Autonomous Underwater Vehicle:A Novel Fuzzy and Model Reference Adaptive Control Approach[C]//2020 Third International Conference on Advances in Electronics,Computers and Communications(ICAECC).Bengaluru,India:IEEE,2020:1-5.
[12]Riedmiller M.Neural Fitted Q Iteration-First Experiences with a Data Efficient Neural Reinforcement Learning method[C]//2005 Machine Learning:ECML 2005.Oporto,Portugal:ECML,2005:317-328.
[13]Parr R,Russell S.Reinforcement Learning with Hierarchies of Machines[C]//1997 11th Annual Conference on Neural Information Processing Systems(NIPS).Denver,CO:Massachusetts Institute of Technology Press,1998:1043-1049.
[14]Xu X,Hu D,Lu X.Kernel-based Least Squares Policy Iteration for Reinforcement Learning[J].IEEE Transactions on Neural Networks,2007,18(4):973-992.
[15]Barto A G,Sutton R S,Anderson C W.Neuronlike Adaptive Elements That Can Solve Difficult Learning Control-Problems[J].IEEE Transactions on Systems Man and Cybernetics,1983,13(5):834-846.
[16]Konda V R,Tsitsiklis J N.Actor-Critic Algorithms[C]//Advances in Neural Information Processing Systems 12.Cambridge:Mit Press,2000:1008-1014.
[17]Peters J,Vijayakumar S,Schaal S.Natural Actor-Critic[J].Neurocomputing 2008,71(7-9):1180-1190.
[18]Vamvoudakis K G,Lewis F L.Online Actor Critic Algorithm to Solve the Continuous-Time Infinite Horizon Optimal Control Problem[C]//2009 International Joint Conference on Neural Networks.New York:IEEE,2009:58-65.
[19]Bhopale P,Kazif,Singh N.Reinforcement Learning Based Obstacle Avoidance for Autonomous Underwater Vehicle[J].Journal of Marine Science and Application,2019,18(2):228-238.
[20]Che G F,Yu Z.Neural-Network Estimators Based Fault-Tolerant Tracking Control for AUV via ADP with Rudders Faults and Ocean Current Disturbance[J].Neurocomputing,2020,411:442-454.
[21]Wang D,Shen Y,Sha W,et al.Adaptive DDPG Design-Based Sliding-Mode Control for Autonomous Underwater Vehicles at Different Speeds[C]//2019 IEEE Underwater Technology(UT).Kaohsiung,Taiwan:IEEE,2019:1-5.
[22]Wang S,Su Y M,Wang Z L,et al.Numerical and Experimental Analysis of Transverse Static Stability Loss of Planning Craft Sailing at High Forward Speed[J].Engineering Applications of Computational Fluid Mechanics,2014,8(1):44-54.
[23]Wang S X,Sun X J,Wang Y H,et al.Dynamic Modeling and Motion Simulation for a Winged Hybrid-Driven Underwater Glider[J].China Ocean Engineering,2011,25(1):97-112.
[24]Tiano A,Sutton R,Lozowicki A,et al.Observer Kalman Filter Identification of An Autonomous Underwater Vehicle[J].Control Engineering Practice,2007,15(6):727-739.
[25]Dantas J L D,Barros E D A.Numerical Analysis of Control Surface Effects on AUV Manoeuvrability[J].Applied Ocean Research,2013,42:168-181.
[26]Martin S C,Whitcomb L L.Preliminary Experiments in Comparative Experimental Identification of Six Degree-Of-Freedom Coupled Dynamic Plant Models for Underwater Robot Vehicles[C]//2013 IEEE International Conference on Robotics and Automation.Karlsruhe,Germany:IEEE,2013:2962-2969.
[27]Zheng X W,Wang W,Xiong M L,et al.Online State Estimation of a Fin-Actuated Underwater Robot Using Artificial Lateral Line System[J].IEEE Transactions on Robotics,2020,36(2):472-487.
[28]Jagannathan S,Galan G.One-Layer Neural-Network Controller with Preprocessed Inputs for Autonomous Underwater Vehicles[J].IEEE Transactions on Vehicular Technology,2003,52(5):1342-1355.
[29]Duan K R,Fong S,Chen C L P.Multilayer Neural Networks-Based Control of Underwater Vehicles with Uncertain Dynamics And Disturbances[J].Nonlinear Dynamics,2020,100(4):3555-3573.
[30]Lin X B,Yu Y,Sun C Y.Supplementary Reinforcement Learning Controller Designed for Quadrotor UAVs[J].IEEE Access,2019,7:26422-26431.
[31]王超,胡志強,衣瑞文,等.高速水下機器人通氣空化減阻技術的水洞實驗研究[J].機器人,2018,40(6):779-785.
Wang Chao,Hu Zhi-qiang,Yi Rui-wen,et al.Water Tunnel Experiment Research of Ventilated Cavitation Drag Reduction Technology for a High Speed AUV[J].Robot,2018,40(6):779-785.
[32]嚴衛生,徐德民,李俊,等.遠程自主水下航行器建模研究[J].西北工業大學學報,2004,22(4):500-504.
Yan Wei-sheng,Xu De-min,Li Jun,et al.A New Method for Modeling Long Distance Autonomous Underwater Vehicle(AUV)[J].Journal of Northwestern Polytechnical University,2004,22(4):500-504.
[33]Willy C J.Attitude Control of An Underwater Vehicle Subjected to Waves[D].Massachusetts Ave,Cambridge:Massachusetts Institute of Technology,1994.
[34]Guo K J,Lin X B,Hao C P,et al.An Improved State Estimator for High-Speed AUV with NN[C]//2021 40th Chinese Control Conference.Shanghai,China:IEEE,2021.
Reinforcement-Learning Control for the High-Speed AUV Based on the Neural-Network State Estimator
GUO Ke-jian1,2,LIN Xiao-bo2,HAO Cheng-peng2,HOU Chao-huan2
(1.School of Integrated Circuits,University of Chinese Academy of Sciences,Beijing 100049,China;2.China Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190,China)
With the development of ocean research and exploitation,high-speed autonomous undersea vehicle(AUV)has attracted increasing attention as important unmanned underwater platforms.However,the high-speed AUV model is multiinput-multi-output(MIMO),strong-coupling,underactuated,and strongly nonlinear;therefore,the traditional control method that relies on the exact model is often limited in practical applications.To address these problems,a position-attitude controller based on reinforcement learning(RL)that does not rely on an exact model is proposed.The RL controller can not only regulate the attitude of the AUV but also the driver,as it reaches the target depth faster with the aid of the attitude and position loops.An improved state estimator of a high-speed AUV is designed based on a neural network(NN)to decrease the cost of collecting data,which is employed to train the RL controller.The improved state estimator can estimate the state at the next time instant according to the current state of the high-speed AUV and the control input.The simulation results demonstrate that the NN-state-estimator can estimate the state of a high-speed AUV with high precision,and the RL controller trained by the estimator achieves fast and steady performance,which verifies the feasibility and effectiveness of the proposed method..
autonomous undersea vehicle;reinforcement learning;neural network;state estimation
U674.941;U661
A
2096-3920(2022)02-0147-10
10.11993/j.issn.2096-3920.2022.02.002
郭可建,林曉波,郝程鵬,等.基于神經網絡狀態估計器的高速AUV強化學習控制[J].水下無人系統學報,2022,30(2):147-156.
2021-06-22;
修回日期:2021-08-03.
國家自然科學基金項目資助(61971412).
郭可建(1997-),男,碩士,主要研究方向為高速水下航行器控制.
(責任編輯:楊力軍)