李 麗 任翔毅 李治辰 耿 清
隨著計算機科學技術、人工智能技術和網絡控制技術的飛速發展,多智能體系統(multi-agent systems,MASs)引起了廣泛的關注,已應用于智能電網[1-3]、智能交通[4]、自動駕駛[5]、傳感器網絡[6]等領域,一致性問題是MASs 的基本問題[7-13],該問題旨在通過與鄰居交換信息來使所有智能體達成一致.大量的MASs 通過無線網絡交換信息,不可避免地受到噪音信號的干擾.擾動的存在會影響系統的性能,甚至嚴重破壞系統的穩定性.擴張狀態觀測器作為自抗擾控制器的核心,可用于同時估計狀態和擾動.然而,在考慮網絡延遲的情況下,如何較精確地估計系統狀態和擾動需要進一步研究.
在MASs 中,隨著智能體結構的變化和規模的增加,數據的實時處理和計算的速度需要得到嚴格的保障,使用傳統分析方法很難處理這樣的實時大數據和計算.同時,控制系統中的海量數據將增加網絡的通信負擔和系統的計算負擔,一個高效的帶寬分配方案就變得尤為重要.此外,由于數據是通過網絡傳輸的,網絡時延對MASs 的影響至關重要,需要設計相應的控制策略以主動補償網絡時延.因此,在大規模的云控制系統中,合理分配帶寬以充分利用通信資源非常重要,這有助于提高效率,減少不必要的資源浪費;另一方面,如何補償MASs 存在的網絡時延和受到的擾動也是一個關鍵問題.
基于以上分析,研究了一種考慮網絡時延和未知擾動的MASs 的帶寬分配和預測云控制方案.本文的貢獻總結如下:
1)對于具有未知擾動的MASs,提出了一種基于預測的擴張狀態觀測器,以估計每個智能體受到的擾動并設計控制器進行補償.
2)Stackelberg 博弈方法用于解決MASs 的帶寬分配問題,該問題包含預測云控制器之間的非合作博弈和智能體之間的演化博弈.
3)提出了一種預測云控制方案,以補償受帶寬分配影響的網絡時延和擾動.并給出了保證MASs 穩定性和一致性的充分條件.
在大規模的MASs 中,合理分配帶寬以充分利用通信資源非常重要,這有助于提高效率,減少不必要的浪費.基于預測云控制的MASs 結構如圖1 所示,其中包含兩個云控制器和多個智能體,它們之間通過無線網絡進行信息交互.

圖1 基于預測云控制的MASs 基本框架Fig.1 The basic framework of MASs based on cloud predictive control
從圖1 可見,整個預測云控制系統將云計算和MASs 相結合.每個組中的智能體的實時數據通過網絡發送到兩個云端上的控制器,根據網絡化預測控制方法對數據進行處理后,將生成控制序列并通過網絡發送回每個智能體.然后,智能體從所有可用的控制預測序列中選擇當前時刻的最新控制預測,并將其應用于智能體的執行器端.根據智能體的應用場景,可以將它們分為不同的組.組中的智能體根據自己的意愿選擇其中一個預測云控制器進行連接.
考慮由N 個智能體組成的具有未知外部擾動的一般線性MASs.每個智能體可以被描述為
假設云控制系統的云計算中心設在智慧園區內部,與智能體相距不超過100 km.云控制系統的總時延主要由計算時延和傳輸時延兩部分組成,傳輸時延又分為數據的發送時延和信號在載體中的傳播時延.其中,由于云控制系統的特點,可以將需要巨大算力的計算任務分解成簡單的原子任務并行計算,計算時延極低,不會影響對系統分析的結果,因此,本文不考慮計算時延;又因為云計算中心與智能體相距不超過100 km,以光信號為例,光信號在光纖中的傳播速度是2.0*108m/s,100 km 的距離對應1 ms的雙向傳播時延,0.5 ms 的單向傳播時延,實際工業生產中系統信號的傳播時延更是遠小于這個理論最大值,對所研究的云控制系統影響很小,在研究時可以忽略處理,因此,本文不考慮信號的傳播時延.基于以上假設和分析,本文對MASs 間的網絡時延僅考慮智能體i 和預測云控制器l 之間的數據發送時延,不考慮計算時延和信號在載體中的傳播時延.它們之間的發送時延可以通過下式計算得到
對于式(1),給出如下定義和假設.
定義1.對于具有外部擾動和帶寬分配方案的MASs,如果滿足下列條件,則說明預測云控制方案下的MASs 有界穩定,且可以實現輸出一致性:
條件(1)表明每個智能體是有界穩定的,條件(2)表明所有智能體是輸出一致的.
假設1.所有智能體的外部擾動滿足以下條件:
對于系統(3),為了估計系統狀態和受到的擾動,設計了如下觀測器:
MASs 的帶寬分配問題被建模為Stackelberg 博弈模型,其中,預測云控制器是博弈的領導者,而智能體是博弈的跟隨者.對于預測云控制器,它們相互競爭,并權衡它們愿意分配的帶寬大小和它們要收取的價格.智能體的主要目的是最大程度地發揮其效用,并確定要連接到的云控制器.
1.3.1 智能體之間的演化博弈
智能體之間使用演化博弈方法來確定要連接到哪個預測云控制器.多個智能體可能會連接到同一個預測云控制器,這可能會降低預測云控制器的效用,從而會提高價格以實現其更高的效用.因此,智能體可以更改其連接并切換到另一個預測云控制器.此過程可以重復很多次,直到同一組中的所有智能體都達到相同的效用為止.最初,智能體根據其應用場景分為不同的組,并且同一組中的智能體可以連接到不同的預測云控制器.每個組中的智能體僅需知道同一組中其他智能體的決策即可.
假定為連接到同一個預測云控制器的智能體分配了相同的帶寬,并收取了相同的價格.將連接到云控制器l 的組g 中的智能體的效用定義為
當達到演化平衡時,組g 中每個智能體的效用等于該組的平均效用.因此,式(7)可以轉化為
經過計算,演化平衡可以表示為
1.3.2 云控制器之間的非合作博弈
隨著智能體的演化,每個預測云控制器將調整其策略以實現更高的效用或利潤.考慮到待分配的帶寬是固定的,價格是唯一的策略.集群服務器l 和l'之間的競爭可以表示為一種非合作博弈.預測云控制器l 的效用可以表示為
其中,σ>0 是對整體效用的每單位價格的等效滿意度;φl是預測云控制器l 的單位帶寬成本;bm是智能體所需要的最大帶寬;υ 是與定義參數.
將式(10)代入到預測云控制器l 的效用函數,可以得到
利用Lambert-W 函數,預測云控制器l 的最優價格可以被重寫為
針對上文中產生的網絡時延,提出了一種基于云計算的預測云控制方案.預測云控制器使用直到時間t 的可用信息來生成預測控制序列,然后將預測控制序列打包并通過網絡將其發送回智能體.智能體從所有可用的預測控制序列中選擇最新時刻的預測控制數據,并將其應用到執行器.這樣,網絡時延將得到有效補償.
通過使用式(14)和式(16),可以按以下方式獲得擾動估計的預測:
將由階躍信號r0表示的參考輸入應用于智能體1.為了使輸出跟蹤期望的參考輸入,引入了一組動態變量
第i 個智能體的預測云控制輸入設計如下:
通過式(14)進行迭代計算,擴張狀態估計如下所示:
定義狀態和擾動估計誤差為
結合式(1)和式(23),估計誤差可以描述為:
定理1.如果選擇合適的觀測器增益Li和控制器增益Hi使得Asc和Ae是舒爾穩定的,那么對于任意有界擾動di,在所提出的預測云控制方案下具有帶寬分配的MASs 的有界穩定性和一致性可以實現.其中,
證明:利用式(16)進行迭代計算,可得到擴張狀態預測:
對式(1)進行迭代計算可以得到
換句話說,存在
結合式(25)~式(27),有
由式(18)可得
由式(29)和式(30)可得
將式(21)給出的預測云控制輸入改寫為
定義:
結合式(28)和式(32)有
定義了這些矩陣
根據式(19)、式(20)和式(32)可以得到
此外,由式(24)可以清晰地看到
因此,結合式(33)~式(35),具有預測云控制方案的MASs 可表示為以下形式:
那么由式(19)和式(20)可以得到
對于圖1 中基于預測云控制的MASs,以58 個智能體和兩個預測云控制器1、2 為例,智能體最初被分為兩個組,組中智能體的數量分別為23 個和35個,其中,組1 中連接預測云控制器1 的智能體有11個,其余連接預測云控制器2,組2 中連接預測云控制器1 的智能體有15 個,其余連接預測云控制器2.通過Stackelberg 博弈方法研究了MASs 的帶寬分配問題.
通信信道的參數如下:
非合作博弈中預測云控制器1 和2 的最佳響應如圖2 所示.圖2 表明了預測云控制器的最佳定價策略,可以清晰地看出在非合作博弈中預測云控制器1 和2 的效用都是遞增的.在圖2 中,存在一組納什均衡解(1.76,1.55),這是非合作博弈的唯一解.

圖2 云控制器的最佳定價策略Fig.2 Optimal pricing strategy for cloud controllers
最初,智能體在演化博弈中被分為兩個組.復制動態軌跡如圖3 所示,根據等式,初始智能體連接預測云控制器的比例由變為.根據式(5),智能體的效用如圖4 所示.由圖3 和圖4 可知,演化博弈存在演化平衡,并且是穩定的.

圖3 每組中選擇云控制器1 的智能體比例Fig.3 Agent selection ratio of cloud controller 1 in each group

圖4 智能體的效用Fig.4 The utility of agents
針對4.1 節中所提出的問題,為了簡化分析,以從中取出的3 個智能體構成的MASs 為例,說明MASs 的預測云控制方案的性能.在博弈達到平衡后,智能體1 和2 連接到預測云控制器1,而智能體3 連接到預測云控制器2,權重系數aij=1.3 種具有不同動力學的智能體的系統矩陣及參數如下:
控制策略(21)的增益Hi和Gi可以根據文獻[17]中的特征分配法和定理1 得到,使矩陣Asc穩定的一個增益矩陣的可行解是
對于離散時間系統,為了使觀測器的狀態具有良好的收斂速度,觀測器的極點應該位于一個理想的區域,該區域通常靠近坐標原點.因此,通過極點配置的方法3 個智能體的觀測器增益矩陣被設計為
圖5 描述了3 個智能體在隨機常值擾動下的估計誤差,可以表明該擴張狀態觀測器對擾動下的MASs 具有較好的估計效果.所有智能體的輸出軌跡曲線展示在圖6~圖9 中,其中,圖6 是系統在無擾動的情況下智能體的輸出軌跡,其他是系統在有擾動情況下的輸出軌跡.可見在有無擾動的兩種情況下,MASs 的穩定性和一致性性能非常相似,注意到預測云控制方案可以積極補償由帶寬分配產生的網絡時延和擾動帶來的影響.圖7~圖9 分別表示了智能體在隨機常值擾動.余弦擾動和指數擾動下的輸出軌跡,可見3 個智能體的輸出不但可以在有界范圍內達到一致,而且可以跟蹤給定的參考輸入信號.

圖5 擾動為隨機常數時MASs 的估計誤差Fig.5 Estimation error of MASs when the disturbance is a random constant

圖6 無擾動下MASs 的輸出軌跡Fig.6 The output trajectory of MASs without disturbance

圖8 余弦擾動下MASs 的輸出軌跡Fig.8 The output trajectory of MASs with cosine disturbance

圖9 指數擾動下MASs 的輸出軌跡Fig.9 The output trajectory of MASs with exponential perturbation
本文研究了具有網絡時延和未知擾動的多智能體系統的帶寬分配和預測云控制策略.在同時存在網絡時延和未知擾動時,對云計算環境中多智能體系統的帶寬進行合理分配,并通過預測云控制方案主動補償受帶寬分配影響的網絡時延和擾動.與傳統方法相比,預測云控制系統為大數據的存儲和處理以及控制器的設計和優化帶來了便利.