999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

弱通信下無人潛航器事件觸發一致性協同控制

2025-03-20 00:00:00趙萬兵夏元清戴荔張元
系統工程與電子技術 2025年2期

摘 要:針對水下無人潛航器(unmanned underwater vehicle, UUV)集群在弱通信條件下的一致性協同控制問題,考慮水下群間通信存在的高延時、低帶寬、需具有隱蔽性等弱通信特點,設計基于強化學習的事件觸發智能一致性協同控制架構,以實現UUV集群在弱通信條件下的有效協同。首先,設計一個事件觸發分布式觀測器,該觀測器利用領導者與鄰居的動態交互信息,來估計弱通信條件下UUV所需的跟蹤參考信號。隨后,采用強化學習方法直接從系統交互中學習最優控制策略。最后,通過仿真結果驗證了所提方法的有效性。

關鍵詞: 弱通信; 事件觸發; 一致性協同控制; 強化學習

中圖分類號: TP 13

文獻標志碼: ADOI:10.12305/j.issn.1001 506X.2025.02.25

Event triggered consensus cooperative control of unmanned underwater

vehicle under adverse communication condition

ZHAO Wanbing, XIA Yuanqing*, DAI Li, ZHANG Yuan

(School of Automation, Beijing Institute of Technology, Beijing 100081, China)

Abstract:Aiming at the problem of consensus collaborative control of unmanned underwater vehicle (UUV) clusters under adverse communication conditions, considering the adverse communication characteristics of high latency, low bandwidth, and the need for stealth in underwater inter cluster communication, a reinforcement learning based event triggered intelligent consensus collaborative control architecture is designed to achieve effective collaboration of UUV clusters under adverse communication conditions. Firstly, an event triggered distributed observer is devised which utilizes dynamic interaction information between leaders and neighbors to estimate the tracking reference signal required for UUVs under adverse communication conditions. Subsequently, reinforcement learning methods are used to directly learn the optimal control strategy from system interactions. Finally, the effectiveness of the proposed method is validated through simulation results.

Keywords:adverse communication condition; event triggered; consensus cooperative control; reinforce ment learning

0 引 言

相比于傳統有人單兵作戰,無人集群協同作戰具有成本低、規模高、響應快等降維打擊優勢,成為各軍事強國爭先搶占的新一輪戰略制高點。

然而,與刀光劍影的水上無人集群作戰不同,暗潮洶涌的水下無人集群作戰具有其自身難點。首先,受復雜海洋環境影響,傳統電磁波通信無法在水下實現,聲波通信雖然被廣泛采用,但其存在延時長、不可靠、帶寬低等問題1。另外,考慮到實際水下作戰中,隱蔽性是無人潛航器(unmanned underwater vehicle, UUV)威懾力的重要抓手2,集群間的通信被嚴格限制。因此,受到客觀惡劣環境和實際水下作戰隱蔽性需求雙重影響,UUV間協同具有嚴重的弱通信特點3。如何在弱通信條件影響下實現UUV集群有效協同成為亟待解決的問題。

近年來,研究學者提出很多針對UUV協同控制的方法4-6。Li等7研究具有簡化動態模型的UUV協同控制問題。Li等8研究基于自適應神經網絡的控制方法,用于簡化UUV系統分布式編隊協同控制任務。Yang等9將UUV動態模型解耦,并設計典型的內外環控制方案,以實現具有恒定通信延遲的多個UUV的編隊協同控制。Yan等10考慮UUV之間的有界通信延遲,將非線性UUV模型轉換為二階線性模型,以設計協調控制器。Suryendu 等11為具有有界時變通信延遲的UUV設計領導者-跟隨者協同控制器。Liu等12為受任意大通信延遲影響的多智能體系統設計分布式觀測器。然而,上述工作依賴于UUV之間的連續時間通信,這對有限通信帶寬的UUV來說是不適用的。

事件觸發協同控制被證明是一種解決有限通信帶寬問題的有效方法,該方法可以通過僅在設計的觸發條件下更新通信信號來減少UUV的通信資源需求13-14。Xu等15研究UUV的事件觸發分布式一致性控制,并設計模糊跟蹤控制器以實現UUV的形成。Meng等16研究一種基于滑模控制方法的事件觸發控制方案,以實現無領導的UUV編隊協同控制。Yan等17利用位置/速度狀態為多個UUV設計一種分布式事件觸發協同控制方法。然而,上述事件觸發協同控制方案并未考慮UUV之間的時變通信延遲。此外,上述工作的控制器設計依賴于UUV的動態模型,這對于存在未知動態的UUV來說是具有挑戰性的。

為了解決UUV的未知動態問題,一些研究學者利用強化學習方法,通過僅使用系統環境交互數據來學習UUV的最優控制策略18。Wu等19設計一種無模型強化學習算法,用于實現具有未知動態模型的UUV的深度控制。Cui等20引入神經網絡來近似使用強化學習方法的控制策略,以實現UUV的軌跡跟蹤。Cao等21使用積分強化學習方法獲得一種考慮模型不確定性影響的UUV通信感知形成控制器。Wang等22通過使用強化學習方法求解哈密頓-雅可比-貝爾曼(Hamilton Jacobi Bellman, HJB)方程,實現UUV的分布式最優協同跟蹤控制。然而,上述研究僅考慮單個UUV的控制任務,或在協同任務中并未考慮弱通信影響。

針對上述難點,本文提出一種事件觸發的UUV一致性協同控制方法,該方法考慮了水下弱通信以及未知動態對協同控制性能的影響。為了解決水下弱通信問題,首先構建了一個事件觸發的分布式觀測器,利用群間共享的延遲信息觀測每個UUV的跟蹤參考點。然后,基于強化學習方法學習到了最優控制策略,實現多UUV的姿態一致性協同控制。本文對所提協同控制器的穩定性以及所提事件觸發函數的芝諾行為進行分析,主要貢獻如下。

首先,本文考慮實際UUV集群協同面臨的弱通信特點,結合可用的領導者動態和集群間局部交互信息,設計事件觸發的分布式觀測器,實現UUV集群對于領導者狀態的實時估計,通過理論分析保證所設計的分布式觀測器的收斂性。其次,本文考慮到UUV在水下動態環境中受到高非線性與強耦合性影響,傳統最優控制方法無法通過理論推導獲得其解析解。本文設計強化學習方法獲得逼近的最優控制策略。最后,本文考慮到UUV在實際水下環境中會受到未知動態影響,控制策略應能夠隨著動態變化進行自適應調整。通過設計一種非策略強化學習方法,利用原有穩態控制量數據與分布式觀測器輸出數據,迭代更新并自適應地學習最優控制策略,提升控制策略的自適應性。

1 問題描述

1.1 通信拓撲描述

在本文的協同控制任務中,UUV之間的信息流通過一個通信圖G=(V,E)進行描述,其中V={vi|i=1,2,…,N}和EV×V分別表示節點和邊的集合。定義鄰接矩陣A=[aij]∈RN×N,如果節點i和節點j之間存在邊,則aijgt;0,否則aij=0。令Ni={vj|(vi,vj)∈E}表示節點i的鄰居集合。定義Φ={1,2,…,N}。從節點i到節點j的路徑可以描述為一系列的邊(vlm,vlm+1),其中m=1,2,…,k。如果集群中存在信息流,從領導者可聯通所有節點的路徑,那么可以說通信圖G存在生成樹,其中領導者為根節點。定義LG=D-A,其中D=diag(di,d2,…,dN),di=∑Nj=0aij。

1.2 UUV姿態動力學模型

本文設定UUV系統的浮力中心與其重心重合。令EB={eBx,eBy,eBz}表示UUV的機體固定坐標系,其中eBx,eBy,eBz分別表示機體固定坐標系的x軸、y軸和z軸。定義vi=[ωxi,ωyi,ωzi]T∈R3為UUV在EB中的角速度,而ξi=[i,θi,i]T∈R3是UUV的姿態歐拉角。其中,i為滾轉角,θi為俯仰角,i為偏航角。則UUV姿態運動學模型23可表述為

ξ·i=Ti(ξi)vi(1)

式中:Ti(ξi)表示坐標轉換矩陣24。根據文獻[9],UUV姿態動力學模型可表述為

Miv·i+Ci(vi)vi+Di(vi)vi=τi(2)

式中:Mi∈R3×3為慣性矩陣25;Ci(vi)∈R3×3表示非線性科里奧利力和離心力矩陣25;Di(vi)∈R3×3表示水動力阻尼矩陣25;τi∈R3表示扭矩輸入。Mi和Di(vi)可表述為

Di(vi)=-diag{βωxi,βωyi,βωzi}

Mi=diag{Ixi,Iyi,Izi}(3)

式中:Ixi,Iyi,Izi為慣性矩陣;βωxi,βωyi,βωzi表示水動力阻尼系數。Ci(vi)可表述為

Ci(vi)=CRi(vi)+CAi(vi),

CRi(vi)=

0Iziωzi-Iyiωyi

-Iziωzi0Ixiωxi

Iyiωyi-Ixiωxi0;

CAi(vi)=0-βω·ziωziβω·yiωyi

βω·ziωzi0-βω·xiωxi

-βω·yiωyiβω·xiωxi0(4)

式中:βω·xi,βω·yi,βω·zi表示文獻[25]中提到的流體動力學相關參數。

從式(1)~式(4)可知,UUV是一個高度非線性和耦合的系統,具有多個系統參數。此外,由于復雜的水下環境,難以獲得準確的UUV系統參數。因此,為了實現期望的協同控制,為UUV系統設計基于模型的最優控制器具有挑戰性。

1.3 一致性控制問題描述

本文的目標是設計一個事件觸發的一致性協同控制器,以實現UUV在時變通信延遲、帶寬受限和未知動態下的姿態一致性協同。定義UUV集群需要跟蹤的領導者動態為

r·Θ0=SΘ0rΘ0(5)

式中:rΘ0=[ξT0,ξ·T0]∈R6表示領導者狀態且SΘ0∈R6×6表示領導者動態矩陣。本文所采用的領導者動態模型是一般協同控制研究中普遍采用的線性動態模型26,能夠生成的典型軌跡有振蕩軌跡(如本文仿真中所示)、勻速/加速直線運動軌跡、指數增長/衰減運動軌跡等。

假設 1 在UUV集群的實際水下協同任務中,通信拓撲圖中至少存在一棵生成樹,連接著領導者和所有后續的UUV,其中領導者是根節點。

假設1是實現多智能體系統分布式協同的常見條件27。本文的目標是設計一種自適應事件觸發控制方案,利用局部交互信息,保證每個UUV跟蹤領導者狀態,以實現在弱通信影響下、具有完全非線性動力學的UUV的分布式一致性協同控制。

本文通過設計強化學習策略和分布式觀測器,以解決水下UUV在非線性動態、未知動態和弱通信條件下的一致性協同控制問題。本文將一致性協同問題分解為領導者狀態估計問題和參考軌跡的跟蹤控制問題。通過鄰居間數據交互進行領導者狀態估計,然后利用領導者狀態信息和UUV自身狀態信息設計控制器。

2 協同控制器設計

本文針對領導者狀態估計問題,通過設計事件驅動分布式觀測器,從而在弱通信條件影響下,利用鄰居間交互的延時信息,對領導者狀態進行估計。之后,本文利用估計出來的領導者狀態信息,設計基于強化學習的最優控制器,達到對領導者狀態的跟蹤,最終實現UUV集群的一致性協同控制。圖1所示為UUV控制器的設計框架。

2.1 事件觸發分布式觀測器設計

定義rΘi=[ξrTi,ξ·rTi]T∈R6為觀測器狀態量。令εΘi∈R6為局部觀測誤差且滿足εΘi=∑Nj=0aij(rΘj-rΘi)。類似于文獻[28],本文假設集群擬跟蹤的領導者動態矩陣SΘ0沒有具有負實部的特征值。本文的事件觸發分布式觀測器設計如下:

r·Θi=SΘirΘi+μiε′Θi, μ·i=ε′TΘiε′Θi(6)

式中:μi為觀測器設計參數且滿足μi>0;ε′Θi∈R6表示εΘi的觀測值且滿足ε′Θi=∑Nj=0aij(r′Θj-r′Θi);r′Θi為參考信號rΘi的觀測值且滿足

r′Θj(t)=eSΘ0(t-tk′Θj)rΘj(tkΘj), t∈[tkΘi,tk+1Θi)(7)

式中:tkΘj表示UUV i在tkΘi時刻接收到的UUV j最新信息的時間。類似于文獻[12],本文考慮在UUV i與UUV j之間存在任意大的時變通信延遲τ~ij,滿足tkΘj=tkΘi-τ~ij(j∈Ni)且tkΘi=tkΘi,其中觸發時間tkΘi的觸發函數設計為

fΘi=r~′Θi2-1i(ε′Θi2+βΘie-αΘit)(8)

式中:r~′Θi=r′Θi-rΘi;αΘi,βΘigt;0,即βΘi為正實數;i=μi+∑Nj=1aijμj。μj為第j個UUV的觀測器設計參數。從式(8)可以看到,通過提高αΘi并降低βΘi,可以減少βΘie-αΘit閾值,從而提高對觀測誤差r~′Θi的精度要求,使得事件觸發函數的通信觸發頻率相應提高。

正如文獻[29]所述,每個UUV在信息發送時可以進行時間戳標記,這意味著通信延遲τ~ij可以從UUV之間的時間戳信息中獲取。本文通過利用領導動態和通信延遲信息,在式(6)~式(8)中設計一個事件觸發的觀測器,預測鄰近信息并主動補償通信延遲帶來的影響。

定理 1 定義估計誤差r~Θi=rΘi-rΘ0。設定假設1成立,利用式(6)設計的分布式觀測器,可得到以下性質。

性質 1 估計誤差r~Θi逼近于0。即limt→∞r~Θi(t)=0。

性質 2 事件觸發函數式(8)不存在芝諾行為。

證明

(1) 證明limt→∞r~Θi(t)=0

由r~′Θi與ε′Θi的定義可知:

ε′Θ=-(LGI6)(r~Θ+r~′Θ)(9)

式中:ε′Θ=[ε′TΘ1,ε′TΘ2,…,ε′TΘN]T;r~Θ=[r~TΘ1,r~TΘ2,…,r~TΘN]T;r~′Θ=[r~′TΘ1,r~′TΘ2,…,r~′TΘN]T;表示克羅內克積。從式(9)可得

r~Θ=-(L-1GI6)ε′Θ-r~′Θ(10)

定義如下李雅普諾夫函數:

VΘ=12r~TΘ(LGI6)r~Θ(11)

由式(6)可知:

r~·Θi=r·Θi-r·Θ0=SΘ0rΘi+μiε′Θi-SΘ0rΘ0=

SΘ0r~Θi+μiε′Θi(12)

由以上可得

r~·Θ=(INSΘ0)r~Θ+(μI6)ε′Θ(13)

式中:μ=diag{μ1,μ2,…,μN}。由式(11)和式(13)可得

V·Θ=r~TΘ(LGI6)r~·Θ=

r~TΘ(LGSΘ0)r~Θ+r~TΘ(LGμI6)ε′Θ(14)

由式(10)和式(14)可知

V·Θ=r~′TΘ(INSΘ0)ε′Θ+r~′TΘ(LGSΘ0)r~′Θ+

ε′TΘ(L-1GSΘ0)ε′Θ+ε′TΘ(INSΘ0)r~′Θ-

r~′TΘ(LGμI6)ε′Θ-ε′TΘ(μI6)ε′Θ(15)

值得注意的是

-r~′TΘ(LGμI6)ε′Θ≤14∑Ni=1μiε′Θi2+

2d-max∑Ni=1∑Nj=1aijμir~′Θj2+

2d-2max∑Ni=1μir~′Θi2(16)

式中:d-maxmaxi∈N(d-i)≥1。考慮到aij=aji,i,j∈N,可得

∑Ni=1∑Nj=1aijμir~′Θj2=∑Ni=1∑Nj=1aijμjr~′Θi2(17)

由式(16)和式(17)可得

-r~′TΘ(LGμI6)ε′Θ≤

14∑Ni=1μiε′Θi2+2d-2max∑Ni=1ir~′Θi2(18)

基于楊氏不等式30,可得

r~′TΘ(INSΘ0)ε′Θ≤12λθ1r~′Θ2+12λθ1ε′Θ2(19)

式中:λθ1=σ2max(INSΘ0)。從式(15)、式(16)和式(19)可得

V·Θ≤(λθ1+λθ2)r~′Θ2+(λθ1+λθ3)ε′Θ2-

34∑Ni=1μiε′Θi2+2d-2max∑Ni=1ir~′Θi2(20)

式中:λθ2=σ2max(LGSΘ0);λθ3=σ2max(L-1GSΘ0)。

由觸發函數式(8)可得

V·Θ≤∑Ni=1(λθ1+λθ2+2d-2maxi)i(ε′Θi2+βΘie-αΘit)+

∑Ni=1λθ1+λθ3-34μiε′Θi2=

∑Ni=1λθ1+λθ2i+2d-2max+λθ1+λθ3-34μiε′Θi2+

∑Ni=1λθ1+λθ2i+2d-2maxβΘie-αΘit(21)

μi≥4λθ1+4λθ23i+83d-2max+43λθ1+43λθ3+43

λα=mini∈N(αΘi)

λβ=maxi∈N(λθ1+λθ2+2d-2max)βΘi(22)

由式(21)和式(22)可得

V·Θ≤-∑Ni=1ε′Θi2+λβNe-λαt(23)

令WΘ=VΘ+1λαλβNe-λαt。由式(23)可得

W·Θ≤-∑Ni=1ε′Θi2≤0(24)

由WΘ的定義和式(24)可知,估計誤差r~Θi逼近于0,即limt→∞r~Θi(t)=0。

(2) 證明事件觸發函數式(8)無芝諾行為

由以上可知,r~Θi和ε′Θi將逼近于0。注意到r~′Θi滿足r~·′Θi=SΘ0r~′Θi-μiε′Θi,可得r~·′Θi有界且滿足

D+r~′Θi2≤r~·′Θi2≤σ-Θi(25)

式中:σ-Θigt;0表示上界。由式(25)可得

r~′Θi(tk+1Θi)2-r~′Θi(tk+Θi)2tk+1Θi-tk+Θi≤σ-Θi(26)

r~′Θi(tk+1Θi)2≤σ-Θi(tk+1Θi-tk+Θi)(27)

由事件觸發函數式(8)可知:

r~′Θi(tk+1Θi)2≥1i(ε′Θi(tk+1Θi)2+βΘie-αΘitk+1Θi)(28)

由式(27)和式(28)可得

tk+1Θi-tk+Θi≥(ε′Θi(tk+1Θi)2+βΘie-αΘitk+1Θi)σ-Θiigt;0 (29)

由式(29)可知,事件觸發函數式(8)不存在芝諾行為。證畢

2.2 最優控制器設計

設計控制量ui,使得τi=T-1i(ξi)ui,則UUV動態模型式(2)可轉換為

x·i=Fixi+Biui(30)

式中:xi=[ξTi,ξ·Ti]T∈R6;Bi=[03×3,M-1i]T;Fi=03×3I3

03×3fξi,fξi=fTi+fvi,fTi=T-i(ξi)T-1i(ξi),且fvi=Ti(ξi)M-1i(Ci(vi)T-1i(ξi)+Di(vi)T-1i(ξi))。由式(6)和式(30)可得

X·i=F-iXi+B-iui+Tiε′Θi(31)

式中:Xi=[xTi,rTΘi];F-i=diag(Fi,SΘ0);B-i=[BTi,03×6]T;Ti=[03×6,μiI6]T。定義UUV跟蹤誤差eΘi=ξi-ξri。為實現最優控制,定義性能函數如下:

VΘi=∫∞t(eTΘiQieΘi+ui2)dτ(32)

式中:Qigt;0。根據傳統最優控制理論31,可得最優控制策略ui為

ui=-B-TiΔVΘi2(33)

式中:ΔVΘi=VΘi/Xi。VΘi為以下方程的解:

eTΘiQieΘi-(ΔVΘi)TB-iB-TiΔVΘi4+

(ΔVΘi)T(F-iXi+Tiε′Θi)=0(34)

由式(33)和式(34)可知,傳統最優控制理論完全依賴于模型推導。然而,精確的動力學模型對處于復雜動態環境中的UUV來說是無法獲得的。

本文為解決上述問題,基于強化學習,提出一種數據驅動的最優控制策略智能學習算法。

2.3 基于強化學習的最優控制策略學習方法

首先,構建神經網絡,以逼近性能函數和控制策略:

V^nΘi(Xi)=Wnvivi(Xi)

u^ni(Xi)=Wnuiui(Xi),i∈Φ(35)

式中:vi(Xi)∈Rl1,ui(Xi)∈Rl2表示激勵函數;Wnvi∈R1×l1,Wnui∈R3×l2表示第n次迭代中的神經網絡權重,l1,l2表示神經網絡個數。

針對UUV系統(式(31)),引入穩態控制器u0i以采集學習數據,則系統動力學方程變為

X·i=F-iXi+B-i(u0i-Wnuiui+Wnuiui)+Tiε′Θi(36)

由式(33)、式(34)和式(36)可得

Wnvi·vi=-eTΘiQieΘi-TuiWnTuiWnuiui-

2TuiW(n+1)Tui(u0i-Wnuiui)(37)

通過對式(37)兩端積分,可得貝爾曼方程:

Wnvi(vi(t+T)-vi(t))=

t+Tt(-eTΘiQieΘi-TuiWnTuiWnuiui)dτ-

t+Tt2TuiW(n+1)Tui(u0i-Wnuiui)dτ(38)

與式(34)相比,式(38)中不包含系統動態模型,因此可構建強化學習方法,利用數據學習最優控制策略,步驟如算法1所示。

算法 1 UUV強化學習控制策略學習框架

步驟 1 (生成系統數據)將初始穩態控制量u0i和隨機探索策略u0ei應用到UUV中,收集系統狀態數據Xi(t)和控制量數據ui(t)。

步驟 2 (利用系統數據)利用第一步產生的系統數據,求解貝爾曼方程(式(38)),獲得Wnvi和Wn+1ui。

步驟 3 (更新控制策略)更新控制策略Wnui=Wn+1ui,并重復步驟2,直至參數收斂。

利用以上得到的迭代學習框架,式(35)中的神經網絡將迭代逼近最優控制策略(式(33)),該算法逼近性可參考文獻[32]。在實際應用中,神經網絡V^nΘi(Xi)和u^ni(Xi)與實際最優策略V*Θi(Xi)和u*i(Xi)的關系如下:

V*Θi(Xi)=V^nΘi(Xi)+σi(Xi)

u*i(Xi)=u^ni(Xi)+εi(Xi),i∈Φ(39)

式中:σi(Xi)表示V^nΘi(Xi)對V*Θi(Xi)的逼近誤差;εi(Xi)表示u^ni(Xi)對u*i(Xi)的逼近誤差。正如文獻[33]所述,采用神經網絡逼近最優控制策略(式(33))會存在一定的逼近誤差,然而當采用足夠多的神經網絡激勵函數時,該逼近誤差可變得任意小。因此,存在0lt;ηilt;1和0lt;γilt;1,使得

ηiu^ni(Xi)≥εi(Xi)

γiV^nΘi(Xi)≥σi(Xi)(40)

下面將給出利用本文設計的強化學習控制策略學習框架得到的控制策略u^ni(Xi)的穩定性定理。

定理 2 采用本文UUV強化學習控制策略學習框架迭代學習出的控制量u^ni(Xi)可保證UUV控制系統的穩定性。

證明 由式(39)可知,與控制器u^ni(Xi)相對應的性能函數V^ni(Xi)導數滿足

V^·nΘi(Xi)=V·*Θi(Xi)-σ·i(Xi)(41)

其中性能函數VΘi滿足:

V·Θi=ΔVΘiX·i=

ΔVTΘi(F-iXi+B-iu^ni+Tiε′Θi)(42)

將式(34)代入式(42),可得

V·Θi=-eTΘiQieΘi-ΔVTΘiB-iB-TiΔVΘi4-

ΔVTΘiB-iεi(Xi)=

-eTΘiQieΘi-(u^ni(Xi))Tu^ni(Xi)+

εTi(Xi)εi(Xi)(43)

由式(40)可得

(u^ni(Xi))Tu^ni(Xi)gt;εTi(Xi)εi(Xi)(44)

因此,由式(40)、式(41)、式(43)、式(44)可得

(1±γi)V^·nΘi(Xi)≤-eTΘiQieΘi(45)

由式(45)可知,利用本文UUV強化學習控制策略學習框架迭代學習出的控制量為u^ni(Xi),UUV穩定性能夠得到保證。證畢

3 仿真實驗

為驗證本文所提事件驅動協同控制方法的有效性,基于文獻[25]中的系統參數,本節構建由4個UUV協同組成的仿真系統,其中UUV系統參數設置如下:βωxi=-0.8,βωyi=-0.9,βωzi=-0.4,βω·xi=-200,βω·yi=-350,βω·zi=-500,Ixi=203 Nm· s2,Iyi=587 Nm· s2,Izi=687 Nm· s2。領導者動態設置為SΘ0=[-c6,4,-c6,5,-c6,6,c6,1,c6,2,c6,3],cm,n表示第n個元素為1且其他元素為0的m×1維列向量。領導者和各UUV的初始狀態設置為ξ0=[40°,-20°,10°]T,ξ1=[20°,5°,15°]T,ξ2=[20°,10°,5°]T,ξ3=[-20°,5°,-15°]T,ξ4=[20°,-10°,5°]T,ξ·i=03×1" °/s。時間延時τ滿足當時間t∈[0,5)時,τ=|sin(0.1t)|;當t∈[5,∞)時,τ=|5 cos(0.1 t)|。通信拓撲結構設置為w10=w21=w32=w41=1。分布式觀測器式(6)的初始參數設置為αΘi=0.1βΘi=1.1。為了探索環境并采集系統數據,將比例-微分(proportion differentiation, PD)控制器和一個正弦控制信號一起應用到UUV系統中,其中PD控制器的結構為

uPDi=KiEi(46)

式中:Ei∈R6表示跟蹤誤差,Ei=[eTΘi,e·TΘi]T;Ki∈R3×6表示PD控制參數。仿真中,Ki的取值為

Ki=

-10000-7000

0-10000-700

00-10000-70

(47)

另外,正弦控制信號的結構為

u0ei=100∑100m=1sin(mt)(48)

式中:m為隨機生成。

采集完系統數據后,利用本文提出的強化學習算法進行數據學習,學習參數設置為Qi=50I3且T=0.1 s,神經網絡設置為多個多項式累積和。神經網絡權重逼近效果如圖2所示。

從圖2中可以看到,利用本文強化學習算法可成功實現控制策略神經網絡權重的學習與收斂。將學習收斂的控制策略應用到UUV集群中,UUV集群姿態一致性協同軌跡圖如圖3所示。UUV集群姿態跟蹤誤差圖如圖4所示。UUV之間的通信觸發時間如圖5所示。從圖3~圖5可以看到,利用本文所提事件觸發控制框架,可實現UUV集群在非線性、未知系統參數、有限通信帶寬和時變通信延遲影響下的姿態一致性協同控制任務。但是,從圖4可以看到,UUV跟蹤誤差仍有較大誤差,這是由于集群間信息未及時更新造成。本文將分布式觀測器參數αΘi從0.1提升到1.0,將βΘi從1.1降低到0.05,從而降低事件觸發函數(式(8))中誤差的可接受閾值,UUV集群協同結果如圖6~圖8所示。通過對比圖3~圖5與圖6~圖8可以看到,調整事件觸發函數參數,可提升UUV集群協同控制性能,但最高通信間隔從1.5 s降為1 s。因此,在實際UUV集群事件觸發一致性協同控制中,需通過調節事件觸發參數,權衡通信頻率和協同性能。

4 結 論

本文針對UUV集群在水下弱通信和動態環境影響下的協同控制問題,提出一種基于強化學習的事件觸發一致性協同控制方案。主要研究內容如下:① 事件觸發機制的構建。為應對水下通信的帶寬和延遲限制,設計一種事件觸發分布式觀測器,以有效處理通信延遲和有限帶寬等問題,減少集群間數據傳輸量。② 強化學習方法的應用。利用強化學習技術,設計一種數據驅動的最優控制策略學習方法,該方法能夠在高非線性、強耦合性和不確定性動態環境下動態學習最優控制策略,提高了控制的自適應性。③ 穩定性分析與芝諾行為排除。對所提協同控制器進行穩定性分析,并通過數學證明排除觸發函數的芝諾行為,確保系統的穩定性和可靠性。④ 仿真實驗的驗證。通過仿真實驗,驗證了所提控制方案的有效性,結果表明本文方案能夠實現UUV集群在復雜水下環境中的有效協同控制。

參考文獻

[1]閆敬, 關新平, 羅小元, 等. 水下信息物理系統探測-通信-控制一體化: 挑戰與進展[J]. 控制理論與應用, 2022, 39(11): 1996-2008.

YAN J, GUAN X P, LUO X Y, et al. Integration of detection, communication, and control in underwater information physical systems: challenges and progress[J]. Control Theory and App lications, 2022, 39(11): 1996-2008.

[2]曾斌, 張鴻強, 李厚樸. 針對無人潛航器的反潛策略研究[J]. 系統工程與電子技術, 2022, 44(10): 3174-3181.

ZENG B, ZHANG H Q, LI H P. Research on anti submarine strategy for unmanned underwater vehicles[J]. Systems Engineering and Electronics, 2022, 44(10): 3174-3181.

[3]韓東, 賀寅, 陳立軍, 等. 水下通信技術及其難點[J]. 科技創新與應用, 2021(1): 155-159.

HAN D, HE Y, CHEN L J, et al. Underwater communication technology and its challenges[J]. Science and Technology Innovation and Application, 2021(1): 155-159.

[4]胡橋, 趙振軼, 馮豪博, 等. AUV智能集群協同任務研究進展[J]. 水下無人系統學報, 2023, 31(2): 189-200.

HU Q, ZHAO Z Y, FENG H B, et al. Research progress on collaborative missions of AUV intelligent swarms[J]. Journal of Underwater Unmanned Systems, 2023, 31(2): 189-200.

[5]LIANG H T, CAO H, FU Y F. Decentralized adaptive flocking control algorithm with avoiding collision and preserving connectivity for crowded UUV swarm with uncertainties and input satu ration[J]. Ocean Engineering, 2021, 237: 109545.

[6]WEI W, WANG J J, FANG Z R, et al. 3U: joint design of UAV USV UUV networks for cooperative target hunting[J]. IEEE Trans.on Vehicular Technology, 2023, 72(3): 4085-4090.

[7]LI H P, XIE P, YAN W S. Receding horizon formation tracking control of constrained underactuated autonomous underwater vehi cles[J]. IEEE Trans.on Industrial Electronics, 2017, 64(6): 5004-5013.

[8]LI X, ZHU D Q. An adaptive SOM neural network method for distributed formation control of a group of AUVs[J]. IEEE Trans.on Industrial Electronics, 2018, 65(10): 8260-8270.

[9]YANG H Z, WANG C F, ZHANG F M. A decoupled controller design approach for formation control of autonomous underwater vehicles with time delays[J]. IET Control Theory amp; Applications, 2013, 7(15): 1950-1958.

[10]YAN Z P, YANG Z W, YUE L D, et al. Discrete time coordinated control of leader following multiple AUVs under switch ing topologies and communication delays[J]. Ocean Engineering, 2019, 172: 361-372.

[11]SURYENDU C, SUBUDHI B. Formation control of multiple autonomous underwater vehicles under communication delays[J]. IEEE Trans.on Circuits and Systems II: Express Briefs, 2020, 67(12): 3182-3186.

[12]LIU K X, LU J H, LIN Z L. Design of distributed observers in the presence of arbitrarily large communication delays[J]. IEEE Trans.on Neural Networks and Learning Systems, 2018, 29(9): 4447-4461.

[13]SU B, WANG H B, WANG Y L. Dynamic event triggered formation control for AUVs with fixed time integral sliding mode distur bance observer[J]. Ocean Engineering, 2021, 240: 109893.

[14]SHI Y, XIE W, ZHANG G Q, et al. Event triggered saturation tolerant control for autonomous underwater vehicles with quantitative transient behaviors[J]. IEEE Trans.on Vehicular Technology, 2023, 72(8): 9857-9867.

[15]XU Y Y, LI T S, TONG S C. Event triggered adaptive fuzzy bipartite consensus control of multiple autonomous underwater vehicles[J]. IET Control Theory amp; Applications, 2020, 14(20): 3632-3642.

[16]MENG C C, ZHANG W, DU X. Finite time extended state observer based collision free leaderless formation control of multiple AUVs via event triggered control[J]. Ocean Engineering, 2023, 268: 113605.

[17]YAN Z P, ZHANG C, ZHANG M Y, et al. Distributed event triggered formation control for multi AUV system via asynchronous periodic sampling control approach[J]. Ocean Engineering, 2022, 256: 111561.

[18]許雅筑, 武輝, 游科友, 等. 強化學習方法在自主水下機器人控制任務中的應用[J]. 中國科學(信息科學), 2020, 50(12): 1798-1816.

XU Y Z, WU H, YOU K Y, et al. A selected review of reinforcement learning based control for autonomous underwater vehicles[J]. Science in China (Information Sciences), 2020, 50(12): 1798-1816.

[19]WU H, SONG S J, YOU K Y, et al. Depth control of model free AUVs via reinforcement learning[J]. IEEE Trans.on Systems, Man, and Cybernetics: Systems, 2019, 49(12): 2499-2510.

[20]CUI R X, YANG C G, LI Y, et al. Adaptive neural network control of AUVs with control input nonlinearities using reinforcement learning[J]. IEEE Trans.on Systems, Man, and Cybernetics: Systems, 2017, 47(6): 1019-1029.

[21]CAO W Q, YAN J, YANG X, et al. Communication aware formation control of AUVs with model uncertainty and fading channel via integral reinforcement learning[J]. IEEE/CAA Journal of Automatica Sinica, 2023, 10(1): 159-176.

[22]WANG Z K, ZHANG L J. Distributed optimal formation tracking control based on reinforcement learning for underactuated AUVs with asymmetric constraints[J]. Ocean Engineering, 2023, 280: 114491.

[23]ZHAO W B, XIA Y Q, ZHAI D H, et al. Adaptive event tri ggered coordination control of unknown autonomous underwater vehicles under communication link faults[J]. Automatica, 2023, 158: 111277.

[24]HOU S P, CHEAH C C. Can a simple control scheme work for a formation control of multiple autonomous underwater vehicles?[J]. IEEE Trans.on Control Systems Technology, 2011, 19(5): 1090-1101.

[25]LIU H, WANG Y H, LEWIS F L. Robust distributed formation controller design for a group of unmanned underwater vehicles[J]. IEEE Trans.on Systems, Man, and Cybernetics: Systems, 2021, 51(2): 1215-1223.

[26]CAI H, HUANG J. The leader following consensus for multiple uncertain euler lagrange systems with an adaptive distributed observer[J]. IEEE Trans.on Automatic Control, 2016, 61(10): 3152-3157.

[27]MU B X, ZHANG K W, SHI Y. Integral sliding mode flight controller design for a quadrotor and the application in a heterogeneous multi agent system[J]. IEEE Trans.on Industrial Electronics, 2017, 64(12): 9389-9398.

[28]HU W F, LIU L, FENG G. Cooperative output regulation of linear multi agent systems by intermittent communication: a unified framework of time and event triggering strategies[J]. IEEE Trans.on Automatic Control, 2018, 63(2): 548-555.

[29]ZHANG W, ZENG J, YAN Z P, et al. Leader following consensus of discrete time multi AUV recovery system with time varying delay[J]. Ocean Engineering, 2021, 219: 108258.

[30]QIAN Y Y, LIU L, FENG G. Distributed dynamic event triggered control for cooperative output regulation of linear multi agent systems[J]. IEEE Trans.on Cybernetics, 2020, 50(7): 3023-3032.

[31]MODARES H, LEWIS F L, NAGHIBI SISTANI M. Integral reinforcement learning and experience replay for adaptive optimal control of partially unknown constrained input continuous time systems[J]. Automatica, 2014, 50(1): 193-202.

[32]ZHAO W B, LIU H, LEWIS F L. Robust formation control for cooperative underactuated quadrotors via reinforcement learning[J]. IEEE Trans.on Neural Networks and Learning Systems, 2021, 32(10): 4577-4587.

[33]MODARES H, LEWIS F L, KANG W, et al. Optimal synchronization of heterogeneous nonlinear systems with unknown dynamics[J]. IEEE Trans.on Automatic Control, 2018, 63(1): 117-131.

作者簡介

趙萬兵(1993—),男,副教授,博士,主要研究方向為多智能體智能協同控制、事件驅動控制、魯棒容錯控制。

夏元清(1971—),男,教授,博士,主要研究方向為無人移動平臺協同控制、空天地海一體化網絡環境下多運動體系統跨越協同控制與智能決策、云控制與決策。

戴 荔(1988—),女,教授,博士,主要研究方向為多智能體控制理論與應用、模型預測控制理論及應用。

張 元(1993—),男,副教授,博士,主要研究方向為網絡化系統分析與優化、數據驅動理論及其應用。

主站蜘蛛池模板: 日本人又色又爽的视频| 亚洲第一成年网| 色天堂无毒不卡| 国产成人乱无码视频| 精品夜恋影院亚洲欧洲| 狠狠亚洲婷婷综合色香| 91视频区| 二级毛片免费观看全程| 2021国产精品自产拍在线观看| 国产一二三区在线| 手机成人午夜在线视频| 激情综合网址| 女人18毛片久久| 天天婬欲婬香婬色婬视频播放| 久久精品国产91久久综合麻豆自制| 波多野结衣中文字幕久久| 欧美黑人欧美精品刺激| 国产一二三区视频| 国产麻豆精品手机在线观看| 99久久亚洲综合精品TS| 久久无码高潮喷水| 青青网在线国产| 成年人福利视频| 欧美成人在线免费| 国产精品毛片一区| 国产精品自在在线午夜区app| 国产真实二区一区在线亚洲| 大学生久久香蕉国产线观看| 国产又爽又黄无遮挡免费观看| 亚洲综合九九| 国产综合日韩另类一区二区| 999国内精品久久免费视频| 亚洲综合片| 日韩精品亚洲一区中文字幕| 熟女成人国产精品视频| 波多野结衣视频网站| 色哟哟国产成人精品| 免费看a级毛片| 欧美三级视频网站| 亚洲无码熟妇人妻AV在线| 99re免费视频| 五月婷婷丁香综合| 国产极品美女在线播放| 99热精品久久| 人妻少妇久久久久久97人妻| 国产新AV天堂| 国产精品吹潮在线观看中文| 久久这里只有精品23| 亚洲水蜜桃久久综合网站| 四虎影院国产| 国产成人精品一区二区不卡| 天堂网国产| 亚洲成aⅴ人片在线影院八| 成人福利在线看| 国产00高中生在线播放| 国产一级在线播放| 茄子视频毛片免费观看| 天天躁狠狠躁| 亚洲经典在线中文字幕| 亚洲视频三级| 久久国产高潮流白浆免费观看| 国产精品久久久久久久久久久久| 欧美亚洲日韩中文| 色成人综合| 欧美高清国产| 国产香蕉在线视频| 久久无码av三级| 一区二区三区国产精品视频| 免费看久久精品99| 免费无遮挡AV| 激情影院内射美女| 国产成人一级| 午夜精品影院| 无码久看视频| 亚洲综合极品香蕉久久网| 成人福利视频网| 国产精品区视频中文字幕| 亚洲精品视频在线观看视频| 欧美啪啪网| 欧美在线综合视频| 国产精品欧美激情| 麻豆精品在线视频|