任凱龍,薛斌強
(青島大學自動化學院,山東 青島 266071)
多智能體網絡控制系統是通過多個智能體子系統控制及通信的相互作用,來部署共享網絡進行數據交換的大規模回路系統,多智能體系統具有一定的網絡計算能力和控制水平,可以自主地通過對智能體子系統的狀態和通信進行分析,從而對整個系統或者單個子系統做出控制決策,提升智能體之間的協作能力。因此,多智能體系統也在航天器系統[1]、智能體網絡編隊[2]、同步發電機多智能體系統[3]等諸多領域被廣泛運用。根據多智能體系統的拓撲結構分類可以將其分為集中式和分布式。其中,集中式類似于領導與被領導者的關系:由一個控制器負責處理所有的通信信息和決策信息。集中式的拓撲結構雖然具備較為良好的穩定性和協調能力,但對網絡計算能力和網絡復雜性要求較高,并且當負責決策的控制器出現問題時,容易引發整個多智能體系統的安全隱患[4]。因此近年來,分布式的拓撲結構逐漸成為了學者們的研究熱點[5-7],在分布式的拓撲結構中,智能體之間沒有管理與被管理的關系,每個智能體都有自己的控制目標,具備集中式沒有的靈活性和自治性,同時大大降低了所需的網絡計算能力,但分布式拓撲結構的缺點是可控性較差[8]。
在分布式多智能體系統的研究中,文獻[9]提出了一種模型預測控制方法,利用多智能體之間的信息來解決控制問題,但該文獻中考慮了多智能體系統之間的約束和耦合關系。基于這一缺陷,文獻[10]引入子系統與相鄰子系統之間局部狀態的誤差最小最大函數,給出了具有終端代價和終端控制器等各種約束條件的DMPC 算法。但該類型的分布式預測控制算法需要對每個子系統求解局部優化問題導致控制器的在線計算量較大[11]。針對DMPC 的缺點,該文在DMPC 算法的基礎上引入優先級調度機制,避免了在采樣時刻對每個子系統的性能優化,從而既保留了DMPC 處理多約束、多變量、不確定性問題的能力,又降低了控制器的在線計算量。
該文多智能體系統中的單個智能體考慮以下離散時間線性系統:
其中,xi(k|k)∈Xc,ui(k|k)∈Uc,Xc∈Rn,Uc∈Rm,xi(k|k)為智能體i在k時刻的狀態信息,ui(k|k)為智能體i在k時刻的輸入信息,Xc、Uc分別為包含任意時刻狀態和控制輸入的可行凸集。
為了分析上述多智能體系統的穩定性,給出如下引理:
引理[12]:對于系統標稱模型1,在反饋率κi的作用下,集合Ξi(εi) 為控制不變集,則存在常數a∈[0,1],使得集合Ξi(aεi)也為控制不變集。
傳統的分布式模型預測控制算法需要每個子系統都對優化問題進行計算求解。在優化求解過程中,往往由于子系統之間交互信息的復雜性和優化變量的多維數特點,使得智能體之間的通信變得繁重,從而導致智能體之間有可能出現Zeno 現象。
針對上述離散時間線性系統,單個智能體的代價函數描述如下:
在DPC 多智能體系統中,每個智能體都有自己獨立的控制器,每個控制器都在采樣時刻解決相應的優化問題,并在解決優化問題之后發送至相鄰的智能體。不同于傳統的分布式拓撲結構,該文設計了基于優先級的分布式拓撲結構,以省去具有冗余信息的分布式預測控制優化問題,只有當子系統滿足優先級條件時才進行信息交互,并進行優化計算。因此在傳統分布式預測控制的基礎上,該文引入優先級調度的分布式預測控制方法來減少子系統之間信息交互的次數,提高了通信網絡的利用率。
多智能體系統采用分布式拓撲結構,使得每個智能體只需要單獨求解自身的優化問題,然后將求出的優化控制序列傳輸給耦合智能體。近年來學者們的研究表明,分布式拓撲結構比集中式拓撲結構對通信資源的利用率更少,且具備更好的容錯性[15]。但是隨著分布式拓撲結構的日益成熟,對多智能體系統網絡通信資源的合理分配成為一個難點。基于此,在分布式拓撲結構的基礎上,引入優先級概念,為每個智能體分配不同的優先級。優先級算法與傳統周期性調度算法相比,每個智能體提前分配到合理的固定優先級。由于具有較高優先級的智能體不考慮和較低優先級智能體的耦合關系,也就是說系統能根據智能體間的優先級來決定智能體之間是否需要通信,大大減小了整個多智能體系統的通信壓力。
以智能體i低于智能體j的優先級為例,智能體i的預測控制性能指標函數為:
在基于優先級的分布式事件觸發模型預測算法中,子系統優先級的分配成為上述優化算法的關鍵所在。在不同的優先級組合中,最優的優先級算法除了具有比傳統事件觸發算法低的事件觸發率,同時也應該兼顧多智能體系統的性能指標,因此,該文將多智能體系統的最小性能指標即作為子系統優先級的分配準則,進而將該最佳優先級排序用于上述分布式事件觸發預測控制算法。
由上述算法分析給出PB-TDPC 算法的具體步驟如下:
Step1:根據優先級分配準則得到多智能體系統中每個智能體的優先級,這樣如果在k時刻智能體i和智能體j探測到對方時,進行優先級比較;
Step2:若智能體i的優先級低于j,跳轉至step3。反之,則智能體i不進行優化求解,并采用k-1時刻求出的k時刻預測控制量進行計算;
Step3:若智能體i的優先級低于智能體j的優先級,則智能體i在k時刻求解帶有耦合信息的優化問題;
Step4:在k+1 時刻重復step1。
對于多智能體i的控制系統,假設子系統在k時刻解決優化問題并與鄰近智能體進行信息交互,獲得控制序列為ui(k+l|k) 及對應的狀態軌跡xi(k+l|k),該文選取系統性能指標函數構造李雅普諾夫函數,則考慮k+1 時刻和k時刻的李雅普諾夫函數之差,以智能體i為例證明系統的穩定性。
假設[16]:存在常數β、α1i、α2i、εi和矩陣Pi,其中,常數滿足0 <α1i<α2i<1,εi>0 。矩陣Pi為子系統i終端項的懲罰權矩陣,且可以通過求解一個黎卡提方程Pi=得出。
由ISS 穩定定理可推出,若系統滿足:
則ΔJi(k+1)≤0,系統ISS 穩定。
該文采用四個智能體組成的控制系統對PDPC算法進行仿真,單個智能體的系統選取如下:
部分參數選取如下:α1i=0.7,α2i=0.9,εi=1,權重矩陣設定為Qi=I2×2,Ri=0.1,Qij=I2×2,時間步長T=30,仿真結果如圖1~4 所示。

圖1 四個智能體的狀態值x1
如圖1~4 所示,其中圖1 和圖2 為四個智能體的狀態值曲線,圖3 為智能體的輸入值曲線,從圖中可以看出智能體系統的狀態和輸入最終都得到收斂。圖4 為基于優先級的分布式多智能體系統的信息交互時刻圖,圖4 給出了分配了最優優先級(P1)、可行優先級(P2)、未分配優先級(P3)和傳統分布式多智能體系統(P4)的觸發率柱狀圖,其中可以看出傳統分布式多智能體系統的觸發率為1,而被分配了最優優先級的多智能體系統相較于未分配優先級的多智能體系統,事件觸發率得到了明顯降低,有效地節省了計算資源。

圖2 四個智能體的狀態值x2

圖3 四個智能體的輸入值u

圖4 不同優先級分配的信息交換率對比
該文對分布式模型拓撲結構的多智能體系統進行了研究,設計了基于優先級分配的分布式模型預測控制算法。由于該算法降低了各智能體之間的信息交互次數[17-18],從而降低了網絡控制系統的通信壓力,并提高了網絡資源的利用率。其次,利用狀態-輸入穩定性定理證明了該控制算法的穩定性。最后,通過Matlab 對多智能體系統進行了仿真實驗,實驗結果表明,該算法能夠有效降低子系統之間的信息交互。下一步將針對非線性多智能體系統領域開展降低在線計算量的研究。