摘要:針對(duì)離散多智能體系統(tǒng)輸出調(diào)節(jié),提出了一種基于Q學(xué)習(xí)的最優(yōu)控制策略。對(duì)于傳統(tǒng)多智能體系統(tǒng)的輸出調(diào)節(jié),獲取系統(tǒng)的精確動(dòng)力學(xué)模型并依此求得其HJB方程的解為主要障礙。該策略通過(guò)智能體之間的局部通信,在不依賴(lài)系統(tǒng)動(dòng)態(tài)模型的前提下實(shí)現(xiàn)了對(duì)每個(gè)智能體輸出的全局最優(yōu)控制。為實(shí)現(xiàn)對(duì)系統(tǒng)響應(yīng)速率的優(yōu)化,提出了一種新的有限時(shí)間局部誤差公式,不僅保證了算法原有的全局最優(yōu)性能,而且將輸出同步時(shí)間縮短了近50%,并對(duì)所提算法的穩(wěn)定性進(jìn)行了分析。仿真結(jié)果表明,該策略在避免建立復(fù)雜系統(tǒng)模型和求解離散HJB方程的前提下實(shí)現(xiàn)了對(duì)系統(tǒng)的最優(yōu)控制,采用更新后的有限時(shí)間局部誤差公式有效縮短了收斂時(shí)間。
關(guān)鍵詞:離散多智能體系統(tǒng);Q學(xué)習(xí);協(xié)同輸出調(diào)節(jié);快速收斂
中圖分類(lèi)號(hào):TP183文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2023)01-033-0204-05
doi:10.19734/j.issn.1001-3695.2022.05.0227
Cooperative output regulation of finite time Q-learning for discrete multi-agents
Tang Jingyuan,Wei Wenjun
(School of Automation amp; Electrical Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China)
Abstract:This paper proposed an optimal control strategy based on Q-learning for output regulation of discrete multi-agent systems.For the output regulation of the traditional multi-agent system,obtaining the exact dynamics model of the system and solving the HJB equation based on this is the main obstacle.The strategy achieved global optimal control of each agent′s output without relying on the dynamic model of the system through local communication between agents.In order to optimize the system response rate,this paper proposed a new finite time local error formula,which not only ensures the original global optimal performance of the algorithm,but also reduced the output synchronization time by nearly 50%.It analyzed the stability of the proposed algorithm.The simulation results show that this strategy achieves the optimal control of the system without building the complex system model and solving the discrete HJB equation,and the updated finite time local error formula can effectively shorten the convergence time.
Key words:discrete multi-agent system;Q-learning;cooperative output regulation;fast convergence
0引言
多智能體系統(tǒng)(MAS)是由多個(gè)智能體組成的計(jì)算機(jī)系統(tǒng),這些智能體在同一環(huán)境下通過(guò)本地通信或傳感器網(wǎng)絡(luò)相互作用,可以完成過(guò)去單一智能體無(wú)法完成的復(fù)雜任務(wù)。多智能體輸出調(diào)節(jié)是指MAS中的每個(gè)智能體漸近跟蹤參考輸入信號(hào)并趨于穩(wěn)定的過(guò)程[1]。如果將外部參考信號(hào)視為領(lǐng)導(dǎo)者,則輸出調(diào)節(jié)問(wèn)題轉(zhuǎn)換為共識(shí)控制問(wèn)題。在MAS輸出調(diào)節(jié)中,如果考慮對(duì)值函數(shù)優(yōu)化,需要得到系統(tǒng)的Hamilton-Jacobi-Bellman(HJB)方程的解,這就要求系統(tǒng)具有精確的動(dòng)力學(xué)模型。在現(xiàn)實(shí)世界中許多系統(tǒng)的精確動(dòng)態(tài)模型很難得到。因此,設(shè)計(jì)一個(gè)不依賴(lài)系統(tǒng)模型信息的協(xié)同輸出調(diào)節(jié)方案顯得尤為必要。
在MAS的協(xié)同輸出調(diào)節(jié)研究中,Liu[2]提出將輸出調(diào)節(jié)轉(zhuǎn)換為自適應(yīng)穩(wěn)定化問(wèn)題,以保證在控制方向未知的情況下多智能體的全局穩(wěn)定性。在此基礎(chǔ)上,Shi等人[3]引入了神經(jīng)網(wǎng)絡(luò)函數(shù)逼近優(yōu)化控制器的方法,文獻(xiàn)[4]中又引入了利用線(xiàn)性矩陣不等式求解離散一致問(wèn)題的方法。Zhang等人[5]提出投影參數(shù)估計(jì)法解決了非線(xiàn)性逆模型中未知參數(shù)的問(wèn)題。文獻(xiàn)[6]中利用智能體之間的實(shí)時(shí)狀態(tài)誤差來(lái)更新增益矩陣的耦合權(quán)值,從而解決了協(xié)同輸出調(diào)節(jié)問(wèn)題。文獻(xiàn)[7]設(shè)計(jì)了未知輸入觀測(cè)器來(lái)解決帶有隨機(jī)噪聲MAS的輸出一致性問(wèn)題。然而,上述文獻(xiàn)所解決的問(wèn)題需要依賴(lài)于準(zhǔn)確的系統(tǒng)動(dòng)態(tài)模型,而現(xiàn)實(shí)生活中許多系統(tǒng)的動(dòng)態(tài)模型難以獲得。文獻(xiàn)[8]通過(guò)改進(jìn)控制器實(shí)現(xiàn)對(duì)智能體狀態(tài)的一致性控制,從而達(dá)到輸出調(diào)節(jié)的目的。文獻(xiàn)[9]以自適應(yīng)策略完成了分布式輸出調(diào)節(jié),且無(wú)須要求獲取系統(tǒng)的全局信息。Li等人[10]開(kāi)發(fā)了一種投影方法來(lái)逼近系統(tǒng)模型的未知參數(shù),并實(shí)現(xiàn)了MAS包絡(luò)控制。文獻(xiàn)[11~13]采用線(xiàn)性二次型調(diào)節(jié)器(LQR)的設(shè)計(jì)方法解決了單輸入離散時(shí)間MAS的一致性問(wèn)題,證明了LQR的最大調(diào)節(jié)一致性區(qū)域就是LQR的最大增益裕度,并提出了一種完全無(wú)模型的輸出調(diào)節(jié)算法。但上述算法的收斂時(shí)間一般都很長(zhǎng)。在實(shí)際應(yīng)用中,系統(tǒng)往往需要在盡可能短的時(shí)間內(nèi)實(shí)現(xiàn)與外部參考信號(hào)的輸出同步。如果能夠縮短收斂時(shí)間,且在不需要模型的情況下實(shí)現(xiàn)輸出調(diào)節(jié),則系統(tǒng)性能將顯著提高。
在多目標(biāo)系統(tǒng)的研究中,常采用多種基于強(qiáng)化學(xué)習(xí)的算法來(lái)獲得對(duì)多目標(biāo)系統(tǒng)的最優(yōu)控制。其中,將離軌策略下的時(shí)序差分控制定義為Q-learning算法。該算法以最優(yōu)價(jià)值Q函數(shù)的直接近似值作為學(xué)習(xí)目標(biāo),在學(xué)習(xí)過(guò)程中僅使用動(dòng)作價(jià)值函數(shù)本身。因此,運(yùn)用Q-learning算法解決MAS輸出調(diào)節(jié)問(wèn)題,整個(gè)學(xué)習(xí)過(guò)程依靠數(shù)據(jù)迭代,而與動(dòng)力學(xué)模型無(wú)關(guān)。文獻(xiàn)[14,15]采用ADP處理最優(yōu)鎮(zhèn)定,實(shí)現(xiàn)自適應(yīng)動(dòng)態(tài)最優(yōu)控制。為了獲得迭代控制律,實(shí)現(xiàn)MAS的最優(yōu)跟蹤控制,文獻(xiàn)[16]提供了一種兩階段策略迭代方法。與上述強(qiáng)化學(xué)習(xí)算法相比,Q-learning算法在文獻(xiàn)[17,18]中具有無(wú)模型學(xué)習(xí)的優(yōu)點(diǎn)。然而,Q-learning算法在解決MAS的一致性問(wèn)題上研究較少。在對(duì)未知智能體模型要求較低的情況下,該方法可以在有限時(shí)間內(nèi)提供最優(yōu)控制。
基于上述考慮,針對(duì)MAS協(xié)同輸出調(diào)節(jié)優(yōu)化問(wèn)題,給出了有限時(shí)間解的Q-learning方法。該算法綜合了共識(shí)控制、最優(yōu)控制和博弈論等方法,利用系統(tǒng)數(shù)據(jù)通過(guò)策略迭代來(lái)確定各智能體的最優(yōu)控制律。整個(gè)控制過(guò)程不依賴(lài)于動(dòng)態(tài)模型。引入Q-learning算法,將已定義智能體的值函數(shù)作為Q函數(shù)重寫(xiě)到Bellman方程中,在系統(tǒng)模型不確定的情況下,通過(guò)策略迭代最小化Q函數(shù)值,建立最優(yōu)控制規(guī)則,成功地解決了離散HJB方程求解問(wèn)題。根據(jù)有限時(shí)間穩(wěn)定性引理,設(shè)計(jì)了一種新的局部誤差計(jì)算公式,有效地減少了跟隨者與領(lǐng)導(dǎo)者同步的時(shí)間。與之前的研究相比,本文的主要內(nèi)容如下:
a)不依賴(lài)完整的系統(tǒng)動(dòng)力學(xué)模型,給出了基于Q-learning的Bellman方程,并驗(yàn)證了其解對(duì)實(shí)現(xiàn)離散MAS協(xié)同輸出調(diào)節(jié)的有效性。
b)針對(duì)離散MAS的輸出調(diào)節(jié)問(wèn)題,提出了一種基于數(shù)據(jù)迭代的Q-learning算法。通過(guò)智能體之間的局部通信,實(shí)現(xiàn)了對(duì)系統(tǒng)輸出的全局最優(yōu)控制。
c)更新有限時(shí)間局部誤差公式,在大幅縮短系統(tǒng)收斂速度的同時(shí),保證系統(tǒng)始終處于可容許控制狀態(tài),進(jìn)行了穩(wěn)定性證明。
1圖論
考慮由N個(gè)智能體組成的系統(tǒng),它的有向拓?fù)溆扇亟M合G={V,ε,A}表示,V={v1,v2,…,vN}表示N個(gè)頂點(diǎn)的非空有限集,ε=V*V表示一個(gè)邊集。A為圖G的鄰接矩陣,i,j表示系統(tǒng)中第i,j個(gè)智能體。如果節(jié)點(diǎn)i、j相連,此時(shí)鄰接系數(shù)aijgt;0,節(jié)點(diǎn)i可以從節(jié)點(diǎn)j獲取位置信息。當(dāng)aij=0時(shí),節(jié)點(diǎn)間不相連。如果(Vi,Vj)∈ε且(Vj,Vi)∈ε,圖G是無(wú)向圖,否則圖G為有向圖。
2問(wèn)題描述
本文研究了具有單個(gè)虛擬領(lǐng)導(dǎo)者和N個(gè)跟隨者的離散時(shí)間MAS,智能體i的動(dòng)力學(xué)方程如下:
xi(k+1)=Axi(k)+Bui(k)i=1,2,…,N(1)
其中:x0(k)∈Rn,xi(k)∈Rn分別表示虛擬領(lǐng)導(dǎo)者及智能體i的狀態(tài),ui(k)∈Rm為智能體i的控制輸入。系統(tǒng)矩陣A∈Rn×n,B∈Rn×m未知。目標(biāo)是僅利用自身及其鄰接智能體的實(shí)時(shí)狀態(tài)信息,通過(guò)策略迭代確保各跟隨者狀態(tài)在有限時(shí)間內(nèi)收斂到領(lǐng)導(dǎo)者軌跡并趨于穩(wěn)定。定義單個(gè)體的局部誤差為
εi(k)=∑j∈Niaij(xj(k)-xi(k))+bi(x0(k)-xi(k))(2)
其中:bi為智能體i與領(lǐng)導(dǎo)者之間的加權(quán)收益。如果直接連接,即可以直接從領(lǐng)導(dǎo)者獲取狀態(tài)信息bigt;0,否則bi=0,系統(tǒng)的全局誤差矢量由式(2)得到:
ε(k)=[εT1(k)εT2(k)…εTN(k)]T∈RnN
如果系統(tǒng)的全局誤差收斂到足夠小,系統(tǒng)的同步誤差也將迅速減小。即當(dāng)k→∞時(shí)‖ε(k)‖→0,所有智能體狀態(tài)與領(lǐng)導(dǎo)者同步。
3算法設(shè)計(jì)
本章通過(guò)設(shè)計(jì)狀態(tài)反饋預(yù)測(cè)控制器證明閉環(huán)MAS在有限時(shí)間內(nèi)的穩(wěn)定性。基于有限時(shí)間穩(wěn)定性原理,設(shè)計(jì)了新的分布式有限時(shí)間局部誤差公式,同時(shí)定義了值函數(shù)和智能體納什均衡的分布式協(xié)議,利用Q-learning算法實(shí)現(xiàn)了有限時(shí)間內(nèi)MAS的最優(yōu)輸出調(diào)節(jié)。
3.1有限時(shí)間狀態(tài)反饋預(yù)測(cè)控制器
定義1[19,20]當(dāng)離散時(shí)間系統(tǒng):(k+1)=A(k)可以在有限時(shí)間內(nèi)(β1,β2,R,N)中達(dá)到穩(wěn)定,如果(0)TR(0)≤β1,則(k)TR(k)≤β2,k∈{1,2,3,…,N},其中0≤β1lt;β2,Rgt;0且N是正整數(shù)。如果系統(tǒng)(1)的閉環(huán)系統(tǒng)是有限時(shí)間穩(wěn)定的,則系統(tǒng)能夠?qū)崿F(xiàn)y(k)到r(k)的有限時(shí)間跟蹤。
引理1[21]給出一個(gè)形式為:W=w1w2
wT2w3的對(duì)稱(chēng)分塊矩陣,存在以下等價(jià)條件:a)Wlt;0;b)w1lt;0,w3-wT2w-11w2lt;0;c)w3lt;0,w1-w2w-13wT2lt;0。
引理2[22]存在矩陣L,Hgt;0的維數(shù)給定,則有-LTH-1L≤-LT-L+H。令狀態(tài)反饋控制器形如:
(k)=K(k)(3)
控制輸入式(3)確定時(shí),參數(shù)矩陣待定,存在如下閉環(huán)系統(tǒng)使系統(tǒng)式(1)能夠在有限時(shí)間內(nèi)趨于穩(wěn)定:
(k+1)=(+K)(k)(4)
定理1給定矩陣(β1,β2,R,N)和ρgt;1,如果分別存在矩陣P、G、K則有
ρ(-sym(G)+P-1)*
(+K)G-P-1lt;0(5a)
ρNλmax()β1≤β2λmin()(5b)
其中:P為正定矩陣,G為逆矩陣,那么閉環(huán)系統(tǒng)式(1)對(duì)于(β1,β2,R,N)是有限時(shí)間穩(wěn)定的,其中=R-1/2PR-1/2。
證明設(shè)Lyapunov函數(shù)V(k)=(k)TP(k),由式(1)可得
V(k+1)-ρV(k)=(k+1)TP(k+1)-ρ(k)TP(k)=
(k)T[Θ(k)TPΘ(k)-ρP](k)
其中:Θ(k)=+K。將引理2應(yīng)用于(5a),分別左乘、右乘可逆矩陣diag{G-T,I},得
-ρP*
Θ(k)-P-1lt;0(6)
根據(jù)引理1,式(6)等價(jià)于:
Θ(k)TPΘ(k)-ρPlt;0(7)
式(7)左乘(k)T,右乘(k)可得:
V(k+1)lt;ρV(k)(8)
重復(fù)式(8)得到:
V(k)lt;ρkV(0)(9)
則V(0)=(0)TP(0)lt;λmax()(0)TR(0),根據(jù)初始值的假設(shè),可以得到:
V(0)lt;λmax()β1(10)
考慮到ρgt;1,由式(9)(10)可分別導(dǎo)出:
V(k)lt;ρkV(0)lt;ρkλmax()β1≤ρNλmax()β1
λmin()(k)TR(k)lt;V(k)lt;ρNλmax()β1
(k)TR(k)lt;ρNλmax()β1λmin(),k∈{1,2,3,…,N}。根據(jù)式(5b),(k)TR(k)lt;β2,k∈{1,2,3,…,N}。由定義1,閉環(huán)系統(tǒng)是關(guān)于有限時(shí)間穩(wěn)定性的。為了獲得更快的收斂速度和更好的系統(tǒng)瞬態(tài)特性,由文獻(xiàn)[23]中的有限時(shí)間控制方法,進(jìn)一步改進(jìn)智能體的局部誤差公式(2),如下所示。
εi(k)=α1[∑j∈Niaijsig(xj(k)-xi(k))σ+bisig(x0(k)-xi(k))σ]+
α2[∑j∈Niaij(xj(k)-xi(k))+bi(x0(k)-xi(k))](11)
其中:sig(x)σ=|x|σsgn(x)、sgn(·)為符號(hào)函數(shù),0lt;σlt;1;α1、α2是兩個(gè)待確定的參數(shù)。
3.2基于納什均衡的最優(yōu)MAS協(xié)議
定義單個(gè)智能體i的性能函數(shù)為
Ji(εi(k),ui(k),uj(k))=∑∞k=0γkUi(εi(k),ui(k),uj(k))(12)
智能體i的效用函數(shù)Ui定義為
Ui(εi(k),ui(k),uj(k))=εTi(k)Qiiεi(k)+uTi(k)Riiui(k)+
∑j∈NiuTj(k)Rijuj(k)(13)
其中:Qii≥0∈Rn×n,Rii≥0∈Rm×m,Rij≥0∈Rm×m均為加權(quán)正定矩陣,折現(xiàn)因子γ∈(0,1]。智能體的值函數(shù)定義為
Vi(i(k))=∑∞l=kγl-kUi(εi(l),ui(l),uj(l))(14)
其中:i(k)=[εi(k)Tεj1(k)Tεj2(k)T…εjp(k)T]T∈Rn×(p+1)。
p是直接與i相鄰的智能體的個(gè)數(shù)。在MAS中,式(12)用于評(píng)價(jià)單個(gè)智能體的性能指標(biāo),值函數(shù)式(14)用于收集智能體的狀態(tài)信息。
定義2[24]如果滿(mǎn)足控制策略下系統(tǒng)中的智能體能達(dá)到穩(wěn)態(tài),且滿(mǎn)足式(12)中有界性能指標(biāo)函數(shù),則控制策略定義為允許控制策略。
如果系統(tǒng)中每個(gè)智能體都滿(mǎn)足容許控制律,則值函數(shù)式(14)重寫(xiě)為Bellman方程如下:
Vi(i(k))=Ui(εi(k),ui(k),uj(k))+γVi(i(k+1)(15)
引理3在滿(mǎn)足容許控制律的前提下,將智能體i的值函數(shù)式(14)改寫(xiě)為二次型形式:
Vi(i(k))=εTi(k)Pεi(k)(16)
證明由式(13)(14)導(dǎo)出:
Vi(i(k))=∑∞l=kγl-kUi(εi(l),ui(l),uj(l))=
∑∞l=kγl-k(εTi(l)Qiiεi(l)+Ti(l)Rii(l))(17)
其中:i(l)=[ui(l)Tuj1(l)Tuj2(l)T…ujp(l)T]T為智能體i的對(duì)角矩陣,它包含Rii和它的所有鄰接Rij。令控制律i(k)=-Kiεi(k)。進(jìn)一步推導(dǎo)式(17)為
Vi(i(k))=∑∞l=kγl-k(εTi(l)Qiiεi(l)+Ti(l)Rii(l))=
∑∞l=0γlεTi(l+k)(Qii+KTRiK)εi(l+k)(18)
根據(jù)式(2),定義智能體i的動(dòng)態(tài)局部誤差公式:
εi(k+1)=∑j∈Niaij(xj(k+1)-xi(k+1))+
bi(x0(k+1)-xi(k+1))(19)
將式(19)的系統(tǒng)的動(dòng)態(tài)局部誤差改寫(xiě)為
εi(k+1)=Aεi(k)-(di+bi)Biui(k)+∑j∈NiaijBjuj(k)=
Aεi(k)+Bi(k)(20)
同樣將控制律i(k)=-Kiεi(k)代入式(20):
εi(k+1)=(A-BKi)εi(k)(21)
將式(21)代入式(18):
Vi(i(k))=εTi(k)Pεi(k)(22)
其中:P=∑∞l=0γl((A-BKi)T)l(Qii+KTiRiKi)(A-BKi)l,證畢。
通過(guò)求解離散耦合HJB方程,智能體i的值函數(shù)可以根據(jù)Bellman優(yōu)化原理得到最優(yōu)值:
Vi(i(k))=minui(k)(Ui(εi(k),ui(k),uj(k))+γVi(i(k+1))(23)
令Vi(i(k))/ui(k)=0,得到最優(yōu)控制律ui(k):
ui(k)=arg minui(k)(Ui(εi(k),ui(k),uj(k))+γVi(i(k+1))(24)
定義3[25]若包含N個(gè)控制律的序列有如下形式:
Vi=Vi(u1,u2,…,ui,…,uN)≤Vi(u1,u2,…,ui,…,uN)
由這N個(gè)智能體共同描述全局納什均衡解。
各智能體的耦合離散HJB方程由定義2可得:
V*i(i(k))=Ui(εi(k),u*i(k),u*j(k))+γV(*i(k+1))(25)
3.3有限時(shí)間MAS輸出調(diào)節(jié)的Q-learning算法
由于現(xiàn)實(shí)生活中絕大多數(shù)MAS的數(shù)學(xué)模型是未知的,運(yùn)用以往基于模型的控制方法就很難實(shí)現(xiàn)對(duì)系統(tǒng)的輸出調(diào)節(jié)。盡管已有通過(guò)系統(tǒng)信息來(lái)擬定其數(shù)學(xué)模型,或是引入近似殘差的方法進(jìn)行系統(tǒng)結(jié)構(gòu)識(shí)別,但這些以近似的方式模擬出的數(shù)學(xué)模型在實(shí)際控制過(guò)程中的有效性無(wú)法保證。因此,提出一種基于Q-learning的無(wú)模型控制算法,能夠不使用系統(tǒng)動(dòng)力學(xué)相關(guān)知識(shí),僅通過(guò)系統(tǒng)自身數(shù)據(jù)進(jìn)行迭代,更新最優(yōu)控制律,解決MAS輸出調(diào)節(jié)問(wèn)題。基于Bellman方程,系統(tǒng)中每個(gè)智能體的Q函數(shù)定義如下:
Qi(i(k),ui(k))=Ui(εi(k),ui(k),uj(k))+γVi(i(k+1))(26)
式(26)同時(shí)收集了智能體i自身及其所有鄰接智能體的狀態(tài)信息和控制律。將式(15)(26)合為
Qi(i(k),ui(k))=Vi(i(k))(27)
由式(16)(17)進(jìn)一步推導(dǎo):
Qi(i(k),ui(k))=εTi(k)Qiiεi(k)+Ti(k)Rii(k)+
γεTi(k)Pεi(k)(28)
根據(jù)式(12)(14),Q函數(shù)表示為局部向量i(k)的二次形式:
Qi(i(k),ui(k))=i(k)
ui(k)THii(k)ui(k)=ZTi(k)HiZi(k)(29)
其中:Zi(k)=[Ti(k)uTi(k)]T∈Rn(p+1)+m,Hi=HTi,矩陣Hi為
Hi=HiiHiui
HuiiHuiui=
Hi(εikεik)Hi(εikεj1k)…Hi(εikεjpk)Hi(εikuik)
Hi(εj1kεik)Hi(εj1kεj1k)…Hi(εj1kεjpk)Hi(εj1kuik)
Hi(εjpkεik)Hi(εj1kεj1k)…Hi(εjpkεjpk)Hi(εjpkuik)
Hi(uikεik)Hi(uikεj1k)…Hi(uikεjpk)Hi(uikuik)
通過(guò)求解方程:
Qiui(k)=2Hi[ui(k)ui(k)]ui(k)+2Hi[ui(k)εi(k)]εi(k)+
∑j∈Ni2Hi[ui(k)εj(k)]εj(k)=0(30)
得到最小化目標(biāo)Q函數(shù)的線(xiàn)性控制律:
ui(k)=-H-1i[ui(k)ui(k)](Hi[ui(k)εi(k)]εi(k)+
∑j∈NiHi[ui(k)εj(k)]εj(k))=Lii(k)(31)
i是Hi的最后一行中不包含Hi[ui(k)ui(k)]的行向量。
即:i=[Hi[ui(k)εi(k)]Hi[ui(k)εji(k)]…Hi[ui(k)εjp(k)]],j1,j2,…,jp∈Ni。Li=-H-1i[ui(k)ui(k)]i是反饋控制增益矩陣。結(jié)合式(26)(27),Q函數(shù)進(jìn)一步改寫(xiě)為
Qi(i(k),ui(k))=Ui(εi(k),ui(k),uj(k))+γQi(i(k+1),ui(k+1))(32)
將式(29)代入式(32)得:
ZTi(k)HiZi(k)=εTi(k)Qiiεi(k)+Ti(k)Rii(k)+
γZTi(k+1)HiZi(k+1)(33)
其中:Zi(k+1)=[Ti(k+1)uTi(k+1)]T,ui(k+1)=Lii(k+1)。
由式(31)(32)可知,Q函數(shù)的Bellman方程在不依賴(lài)任何系統(tǒng)動(dòng)力學(xué)模型的情況下,隨系統(tǒng)軌跡中各智能體的數(shù)據(jù)矩陣Zi(k),Zi(k+1)進(jìn)行策略評(píng)估和策略更新,直至控制最優(yōu)。
3.4Q-learning算法的穩(wěn)定性分析
假設(shè)1在通信有向圖G中存在一棵生成樹(shù)。
定理3在假設(shè)1下,Vi(i(k))和ui(k)將分別由式(25)和(24)求得。那么每個(gè)智能體i的鄰接局部跟蹤誤差i(k)是穩(wěn)定的,即當(dāng)k→∞,那么i(k)→0,所有智能體都與虛擬領(lǐng)導(dǎo)者的輸出同步。
證明由式(25)可知:
V*i(i(k))-γV(*i(k+1))=Ui(εi(k),u*i(k),u*j(k))(34)
定義每個(gè)智能體i的鄰域局部跟蹤誤差i(k)的插值函數(shù)為
Δ[γkVi(i(k))]=γk+1V(i(k+1))-γkVi(i(k))(35)
由式(55)(56)可知:
Δ[γkV*i(i(k))]=-γkUi(εi(k),u*i(k),u*j(k))≤0(36)
式(36)表明,當(dāng)k→∞,i(k)→0,i=1,2,…,N每個(gè)智能體i及其鄰居的局部誤差i(k)漸近穩(wěn)定,證畢。
4仿真算例
本章通過(guò)一個(gè)數(shù)值算例驗(yàn)證了算法的有效性,與文獻(xiàn)[26]中已有研究的局部誤差收斂圖進(jìn)行比較,驗(yàn)證了局部誤差公式更新后智能體狀態(tài)收斂的快速性。假設(shè)由五個(gè)智能體組成的通信拓?fù)渚W(wǎng)絡(luò)如圖1所示。
設(shè)系統(tǒng)矩陣為
A=0.986-0.049
0.0490.986B=0.80.200.9
每個(gè)智能體的初始狀態(tài)矩陣隨機(jī)給定為
x0(0)=13-5x1(0)=217x2(0)=175
x3(0)=1010x4(0)=15-3
設(shè)式(14)中各權(quán)重矩陣及折扣因子:
Q00=Q11=Q22=Q33=Q44=I2×2,R=110111011
γ=0.81,α1=0.24,α2=0.32,σ=0.95即α1gt;0,0lt;σlt;1滿(mǎn)足引理1中的收斂條件。在[0,0.1]中隨機(jī)選取各智能體Hi(0)的初始元素;通過(guò)初始矩陣Hi(0),由算法1計(jì)算各智能體的初始控制律ui(0)。
算法1MAS的有限時(shí)間輸出調(diào)節(jié)Q-learning算法
輸入:最大迭代次數(shù)N。
輸出:各智能體i的最優(yōu)控制率uri(k)。
a)k←1,r←0。初始化{u0i},{H0i}
b)策略迭代 更新Hri。
ZTi(k)HriZi(k)=εTi(k)Qiiεi(k)+(ri(k))T(k)Riri(k)+
γZTi(k+1)HriZi(k+1)(37)
c)策略更新 更新uri。
ur+1i(k)=-(Hri[ui(k)ui(k)])-1Hri[ui(k)εi(k)]εi(k)-
∑j∈Ni(Hri[ui(k)ui(k)])-1Hri[ui(k)εj(k)]εj(k)(38)
d)如果rlt;N,則k←k+1,r←r+1,返回步驟b)。
e)如果r=N,結(jié)束。
文獻(xiàn)[26]中局部誤差式(2)與本文中改進(jìn)后的局部誤差式(11)下各智能體的一致性誤差動(dòng)態(tài)曲線(xiàn)分別如圖2~5所示。
在文獻(xiàn)[26]局部誤差公式控制下,智能體之間的一致性誤差在約600次迭代后逐漸收斂到0。
通過(guò)本文所提出Q-learning算法的改進(jìn)局部誤差式(11),在相同的初始條件下,智能體間的一致性誤差在迭代約300次后逐漸收斂到0。改進(jìn)后的有限時(shí)間局部誤差公式有效地減少了約50%的迭代次數(shù),收斂速度顯著提高。
改進(jìn)后局部誤差式(11)下各智能體的狀態(tài)變化曲線(xiàn)如圖6、7所示。從圖中可以看出,在300次迭代之前,跟隨者智能體無(wú)法達(dá)到與領(lǐng)導(dǎo)者智能體相同的狀態(tài)。經(jīng)策略迭代,控制律ui(k)不斷更新,智能體的狀態(tài)信息逐漸趨于統(tǒng)一,達(dá)到輸出調(diào)節(jié)的目的。圖8以三維形式展示MAS智能體的狀態(tài)變化過(guò)程,Q-learning算法在有限時(shí)間內(nèi)實(shí)現(xiàn)了輸出調(diào)節(jié)。
5結(jié)束語(yǔ)
本文利用LQR的設(shè)計(jì)方法,采用基于Q學(xué)習(xí)的有限時(shí)間最優(yōu)控制算法研究具有未知模型的離散多智能體系統(tǒng)的輸出調(diào)節(jié)問(wèn)題。該算法在全局最優(yōu)的條件下,基于Bellman最優(yōu)性原理推導(dǎo)出Q函數(shù),不依賴(lài)于系統(tǒng)的動(dòng)力學(xué)模型,以各智能體的實(shí)時(shí)坐標(biāo)數(shù)據(jù)作為局部通信的信息,通過(guò)策略迭代得到使Q函數(shù)值最小的分布式最優(yōu)控制律。其次,通過(guò)設(shè)計(jì)一種新的有限時(shí)間局部誤差公式,與已有文獻(xiàn)進(jìn)行對(duì)比,輸出調(diào)節(jié)同步時(shí)間減少了約50%,大幅縮短了收斂時(shí)間,提高了系統(tǒng)的響應(yīng)速率。數(shù)值仿真結(jié)果驗(yàn)證了算法的可靠性。在之后的工作中,將致力于對(duì)高階及異構(gòu)等情況下的離散MAS進(jìn)行基于Q學(xué)習(xí)的最優(yōu)控制研究。
參考文獻(xiàn):
[1]Dong Yi,Huang Jie.Cooperative global output regulation for a class of nonlinear multi-agent systems[J].IEEE Trans on Automatic Control,2014,59(5):1348-1354.
[2]Liu Lu.Adaptive cooperative output regulation for a class of nonlinear multi-agent systems[J].IEEE Trans on Automatic Control,2015,60(6):1677-1682.
[3]Shi Peng,Shen Qikun.Cooperative control of multi-agent systems with unknown state-dependent controlling effects[J].IEEE Trans on Automation Science amp; Engineering,2015,12(3):827-834.
[4]Mahmoud M S,Khan G D.LMI consensus condition for discrete-time multi-agent systems[J].IEEE/CAA Journal of Automatica Sinica,2018,5(2):509-513.
[5]Zhang Xinghong,Ma Hongbin,Zhang Chao.Decentralised adaptive synchronisation of a class of discrete-time and nonlinearly parametrised coupled multi-agent systems[J].International Journal of Control,2019,94(2):461-475.
[6]Wei Qinglai,Wang Xin,Zhong Xiangnan,et al.Consensus control of leader-following multi-agent systems in directed topology with heterogeneous disturbances[J].IEEE/CAA Journal of Automatica Sinica,2021,8(2):423-431.
[7]相國(guó)梁,郭勝輝.基于未知輸入觀測(cè)器的多智能體一致性控制[J].控制理論與應(yīng)用,2022,39(4):682-690.(Xiang Guoliang,Guo Shenghui.Consensus control for multi-agent based on unknown input observer[J].Control Theory amp; Applications,2022,39(4):682-690.)
[8]Wang Xiaoli,Hong Yiguang,Huang Jie,et al.A distributed control approach to a robust output regulation problem for multi-agent linear systems[J].IEEE Trans on Automatic Control,2010,55(12):2891-2895.
[9]劉娟,張皓,王祝萍.基于自觸發(fā)的異構(gòu)多智能體協(xié)同輸出調(diào)節(jié)[J].自動(dòng)化學(xué)報(bào),2019,45(10):1893-1902.(Liu Juan,Zhang Hao,Wang Zhuping.Cooperative output regulation of heterogeneous multi-agent systems by self-triggered[J].Acta Automatica Sinica,2019,45(10):1893-1902.)
[10]Li Nannan,Ma Hongbin,Du Changkun,et al.Distributed adaptive containment control for a class of discrete-time nonlinear multi-agent systems with uncertainties[J].International Journal of Control,2021,94(8):2186-2199.
[11]Kiumarsi B,Lewis F L.Output synchronization of heterogeneous discrete-time systems:a model-free optimal approach[J].Automatica A Journal of IFAC the International Federation of Automatic Control,2017,84:86-94.
[12]Mu Chaoxu,Zhao Qian,Sun Changyin.Optimal model-free output synchronization of heterogeneous multi-agent systems under switching topologies[J].IEEE Trans on Industrial Electronics,2020,67(12):10951-10964.
[13]Feng Tao,Zhang Jilie,Tong Yin,et al.Q-learning algorithm in solving consensusability problem of discrete-time multi-agent systems[J].Automatica,2021,128:article ID 109576.
[14]Mu Chaoxu,Sun Changyin,Song Aiguo,et al.Iterative GDHP-based approximate optimal tracking control for a class of discrete-time nonlinear systems[J].Neurocomputing,2016,214:775-784.
[15]Mu Chaoxu,Wang Ding,He Haibo.Novel iterative neural dynamic programming for data-based approximate optimal control design[J].Automatica,2017,81:240-252.
[16]Peng Zhinan,Zhao Yiyi,Hu Jiangping,et al.Data-driven optimal tracking control of discrete-time multi-agent systems with two-stage policy iteration algorithm[J].Information Sciences,2019,481:189-202.
[17]Jang B,Kim M,Harerimana G,et al.Q-learning algorithms:a comprehensive classification and applications[J].IEEE Access,2019,7:133653-133667.
[18]Xiao Zhenfei,Li Jinna,Li Ping.Output feedback H∞ control for linear discrete-time multi-player systems with multi-source disturbances using off-policy Q-learning[J].IEEE Access,2020,8:208938-208951.
[19]Li Meiqing,Sun Liying,Yang Renming.Finite-time H∞ control for a class of discrete-time nonlinear singular systems[J].Journal of the Franklin Institute-Engineering and Applied Mathematics,2018,355(13):5384-5393.
[20]Zong Guangdeng,Wang Ruihua,Zheng Weixing,et al.Finite-time H∞ control for discrete-time switched nonlinear systems with time delay[J].International Journal of Robust and Nonlinear Control,2015,25(6):914-936.
[21]Zhou Lan,She Jinhua,Zhou Shaowu.Robust H∞ control of an observerbased repetitive-control system[J].Journal of the Franklin Institute,2018,355(12):4952-4969.
[22]Li Li,Liao Fucheng.Robust preview control for a class of uncertain discrete-time systems with time-varying delay[J].ISA Transactions,2018,73:11-21.
[23]Su Youfeng,Huang Jie.Cooperative output regulation of linear multiagent systems[J].IEEE Trans on Automatic Control,2012,57(4):1062-1066.
[24]Zhang Huaguang,He Jiang,Luo Yanhong,et al.Data-driven optimal consensus control for discrete-time multi-agent systems with unknown dynamics using reinforcement learning method[J].IEEE Trans on Industrial Electronics,2017,64(5):4091-4100.
[25]Abouheaf M I,Lewis F L,Mahmoud M S,et al.Discrete-time dynamic graphical games:model-free reinforcement learning solution[J].Control Theory Technology,2015,13(1):55-69.
[26]Mu Chaoxu,Zhao Qian,Gao Zhongke,et al.Q-learning solution for optimal consensus control of discrete-time multiagent systems using reinforcement learning[J].Journal of the Franklin Institute,2019,356(13):6946-6967.
收稿日期:2022-05-09;修回日期:2022-06-24基金項(xiàng)目:光電技術(shù)與智能控制教育部重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題(KFKT2020-11)
作者簡(jiǎn)介:唐靜遠(yuǎn)(1998-),男,湖北襄陽(yáng)人,碩士研究生,主要研究方向?yàn)殡x散多智能體輸出調(diào)節(jié)及最優(yōu)控制(919681406@qq.com);魏文軍(1970-),男,甘肅蘭州人,教授,碩導(dǎo),博士,主要研究方向?yàn)槎嘀悄荏w協(xié)同輸出調(diào)節(jié)、設(shè)備故障智能診斷和監(jiān)測(cè).