倪媛,楊浩,姜斌
南京航空航天大學 自動化學院,南京 210016
受自然界中生物集群行為的啟發(fā),蜂群無人機將大量低成本小型無人機整合形成一個整體,通過信息共享和分工合作執(zhí)行復雜任務活動,如集群作戰(zhàn)[1]、城市救援[2]、環(huán)境勘測[3]、防災減災[4]等,具有局部通信、分布式控制、動態(tài)自組織的特點。特別是對于大規(guī)模蜂群無人機,分簇結(jié)構(gòu)有利于明確任務分工,實現(xiàn)組隊協(xié)作,同時也能夠減少網(wǎng)絡管理開銷、降低節(jié)點間干擾、提高網(wǎng)絡容量[5]。
蜂群無人機的任務分配是蜂群應用的核心技術(shù),旨在根據(jù)不同的蜂群任務類型、無人機數(shù)量、任務載荷情況等,對目標任務進行預先設定與統(tǒng)籌管理,進而優(yōu)化蜂群無人機的應用效能。目前實現(xiàn)任務分配的方法主要為基于邏輯的自上而下式的規(guī)劃,其數(shù)學模型復雜,對無人機數(shù)量敏感[6]。文獻[7]介紹了兩類離散化粒子群算法模型,可用于求解集群高維復雜離散優(yōu)化問題;文獻[8-9]均構(gòu)建了混合整數(shù)線性規(guī)劃模型,并對粒子群算法加以改進,從而加快粒子收斂速度,使任務分配模型適應大規(guī)模集群的需求。而基于集群智能涌現(xiàn)的自下而上式的任務規(guī)劃,則是由無人機個體根據(jù)簡單局部規(guī)則收集處理外界信息并與其他個體交互,更新自身狀態(tài),從而涌現(xiàn)出復雜有序的集體行為[10],對于無人機數(shù)量龐大、信息不完全、高動態(tài)調(diào)整等環(huán)境下的群決策要求有著更強的適應性。
演化博弈論是生物進化與博弈論的有機結(jié)合,在描述解釋蜂群行為的形成和演化方面有著重要意義。借助這一工具可以清楚地展現(xiàn)群體中個體的交互狀態(tài)以及每個策略的演化趨勢,進而確定系統(tǒng)可以到達的穩(wěn)定狀態(tài)。基于對穩(wěn)定狀態(tài)的研究可以得到影響任務分配的因素并提煉出相關(guān)的促進機制。因而,演化博弈論為解決任務分配問題提供了強有力的理論框架。文獻[11]研究了基于演化博弈的多智能體系統(tǒng)的任務自組織分配;文獻[12-13]同樣采用演化博弈論這一工具研究了多機器人系統(tǒng)中的任務分配問題。
另一方面,故障會導致不期望的系統(tǒng)行為出現(xiàn),互聯(lián)網(wǎng)絡系統(tǒng)的故障既會發(fā)生在單個智能體內(nèi)部,也會出現(xiàn)在智能體之間的耦合機制[14-18],文獻[19]對該領(lǐng)域的研究進行了系統(tǒng)性的梳理和總結(jié)。現(xiàn)有的容錯控制方法和技術(shù)大多對物理層面的故障進行補償和修復,例如執(zhí)行器、傳感器等部位。
對于交互密切、存在大量協(xié)作關(guān)系、且個體成本較低的蜂群無人機,筆者認為相比較物理層故障,對群性能影響更大的是決策層面的故障。在對抗場景下,敵方運用電子戰(zhàn)設備能夠降低我方無線電電子設備的效能,削弱我方獲取信息的能力,實施信息對抗以進行誘騙和干擾[20],可能導致通訊指揮失靈、雷達迷盲、火炮和導彈武器失控等后果,這類故障屬于意圖明確的惡意故障,作用于決策層面而非物理機體。在基于博弈的任務場景中,文獻[21]認為敵方可以直接影響我方某些個體的決策規(guī)則,進而改變?nèi)后w行為;文獻[22-23]研究了網(wǎng)絡信息系統(tǒng)的安全問題,其中故障被認為是一類致力于破壞納什均衡穩(wěn)定性的攻擊。目前,對于這類決策層面的故障和惡意攻擊,已有部分研究對其進行檢測和估計。文獻[24]針對網(wǎng)絡物理系統(tǒng)中的故障和外部攻擊設計了集中式和分布式攻擊檢測與識別監(jiān)視器。文獻[25]從控制理論的角度概述了工業(yè)網(wǎng)絡物理系統(tǒng)中安全控制和攻擊檢測的研究進展。文獻[26]采用故障傳播有向圖及一致性理論,對蜂群無人機故障機理進行了研究。然而,針對決策層故障的容錯博弈控制研究成果鮮有報道。
本文針對大規(guī)模分簇蜂群無人機的任務分配問題,考慮對抗場景下某些無人機由于受到敵方攻擊或操控,決策規(guī)則遭到篡改進而導致群決策行為偏差的決策故障。首先,結(jié)合蜂群無人機分簇管理的結(jié)構(gòu)特點,運用復制子動態(tài)這一演化博弈的典型方程對蜂群無人機和故障建模;然后,為補償故障導致的群決策行為的偏差,對故障發(fā)生前后的均衡點的局部漸近穩(wěn)定性及其吸引域進行分析,提出自容錯條件和基于激勵的簇間協(xié)同容錯博弈控制方法。
考慮蜂群無人機的分簇結(jié)構(gòu),將其分為p≥2個簇進行管理,從各簇中重復且隨機地選取兩個無人機進行雙人博弈。簇的交互關(guān)系采用文獻[27]中的有向圖G1?(P,E)表示,其中P?{1,2,…,p}為組成蜂群的所有無人機簇的集合,E為邊集,頂點集對應于各個簇。〈w,v〉∈E,v,w∈P為由頂點w指向頂點v的邊,表示簇v可以獲得與簇w博弈而產(chǎn)生的收益。Nv?{w|〈w,v〉∈E}為簇v的鄰居集合。Lv?{l|〈v,l〉∈E}為以簇v為鄰居的簇l的集合。為保證蜂群無人機簇內(nèi)的交互性以及簇間的互聯(lián)性,要求任意v∈P均滿足v∈Nv、v∈Lv且Nv-{v} ≠ ?。
考慮蜂群無人機規(guī)模龐大,而無人機個體通信資源有限,為了合理利用資源并減小通信干擾,對于任意簇v,僅有簇v的鄰居w∈Nv和以簇v為鄰居的簇l∈Lv-{v}與其建立通信鏈路。因而可以采用無向圖G2?(P,E),Ε?{(w,v)|w∈Nv∪Lv,v,w∈P}表示蜂群無人機的通信拓撲。
蜂群無人機的任務分配問題研究如何將合適的任務分配給合適的無人機以實現(xiàn)理想的分工收益。基于文獻[11]中三策略任務分配博弈模型,針對蜂群無人機的分簇結(jié)構(gòu),將決策模型推廣到n元任務集合以及分簇網(wǎng)絡結(jié)構(gòu)的情形。現(xiàn)對n個任務進行分配,蜂群的任務集合S?{1,2,…,n},簇v的任務集合Sv?S。在演化矩陣博弈的理論框架下,博弈參與者的策略即無人機執(zhí)行某項任務的決策是實現(xiàn)任務分配的核心,而博弈模型中的支付矩陣作為自主決策模塊中的決策規(guī)則,決定了蜂群無人機的任務分配狀態(tài)。在博弈過程中,無人機個體可以獲得與其選擇任務相對應的收益和協(xié)同收益。定義無人機獨立執(zhí)行任務i的收益為bi>0,協(xié)同收益dij≥0,后者代表執(zhí)行任務i的無人機與執(zhí)行任務j的無人機協(xié)作時獲得的額外收益。以搶險救災的應用背景為例,一方面,無人機通過偵察險情、運送物資、建立通信網(wǎng)絡等行為獲得任務回報,與此同時也需付出時間物力成本消耗,該差值構(gòu)成了任務收益;另一方面,執(zhí)行偵察任務與執(zhí)行應急救援任務的無人機交互時,存在傳遞信息等合作行為,而即使是對于執(zhí)行同一任務的無人機,往往合作的效益也大于“單打獨斗”,有時還會存在分攤成本的情況。根據(jù)以上描述,〈w,v〉∈E對應的支付矩陣記為π[w,v]?B[w,v]+D[w,v],其中π[w,v]、B[w,v]和D[w,v]均為n階方陣。
6)Θ為混合策略組合構(gòu)成的空間,Θ?×v∈PΔv;
8) intΘ為混合策略組合構(gòu)成的空間內(nèi)部,intΘ?×v∈PintΔv;
基于以上定義和符號,蜂群無人機的任務分配動態(tài)可以用多群體復制子動態(tài)方程描述:
(1)
定義1意味著當蜂群的初始任務分配狀態(tài)位于吸引域Ω內(nèi)時,其任務分工會自發(fā)向x*演化。若能到達x*這一局部漸近穩(wěn)定的任務分配狀態(tài),那么在無外力干擾時,雖然無人機個體的決策行為仍然會不斷更新調(diào)整,但宏觀的群決策行為已經(jīng)達到平衡,趨于不變。
給定李雅普諾夫函數(shù)分析x*的漸近穩(wěn)定性:
(2)
沿系統(tǒng)式(1)的任務分配動態(tài)軌跡的李雅普諾夫函數(shù)式(2)的導數(shù)為
(3)
(4)
π[wm,vk]=FvkB[w,v]+FvkD[w,v]Fwm=
π[w,v]+H[wm,vk]
(5)
假設2保證了無人機個體在故障發(fā)生后,仍有收益未遭削弱的可執(zhí)行任務存在。否則,無論向該無人機分配何種任務,蜂群的整體效益都會受到影響。
由故障模型式(4)和式(5)可知,當蜂群中部分簇內(nèi)的部分無人機發(fā)生決策層面的故障時,蜂群無人機的決策能力會因此而受限。對于發(fā)生故障的無人機而言,在進行決策時,需要避免執(zhí)行收益遭到削弱的任務,若選擇執(zhí)行此類任務,不僅蜂群的整體效益會受損,健康的無人機也可能受到故障影響,以致蜂群任務分配狀態(tài)偏離期望的均衡點。
由于故障導致某些任務的收益被削弱,所以為了保證蜂群整體效益,容錯控制的目的是使無人機選擇收益未被削弱的任務執(zhí)行,且蜂群任務分配的狀態(tài)回到期望的均衡點處。
先對蜂群無人機的自容錯性能進行分析,進一步在無法自容錯的情形下提出基于激勵的簇間協(xié)同容錯博弈控制方法。
在故障式(4)和式(5)的影響下,系統(tǒng)式(1)變?yōu)?/p>
(6)
(7)
在故障式(4)和式(5)的影響下,李雅普諾夫函數(shù)的導數(shù)式(3)變?yōu)?/p>
(8)
將式(5)代入式(8),可得
(9)
命題1如果對于系統(tǒng)式(6)和式(7),滿足條件:
2) ?v∈Pf,k∈Qv+{0},xvk(0)∈intΔv。
證明:
(10)
定義ξ(t,x(0))為蜂群初始狀態(tài)為x(0)時t時刻蜂群的任務分配狀態(tài)。式(10)沿著蜂群任務分配動態(tài)軌跡的時間導數(shù)在任何點x=ξ[t,x(0)](xvk∈intΔv)處為
(11)
證畢
1)x*∈Ωf?Ω;
證明:
證畢
定理1提出了系統(tǒng)式(6)和式(7)自容錯的充分條件,若不滿足定理1所述條件,系統(tǒng)難以自容錯。2.2節(jié)將研究在系統(tǒng)無法自容錯的情況下,如何設計分布式簇間協(xié)同容錯博弈控制方法。
倘若系統(tǒng)無法自容錯,為消除惡意故障造成的群決策偏差行為,提出新穎的分布式簇間協(xié)同容錯博弈控制方法。由于無人機個體僅通過簡單的局部規(guī)則進行決策,因而發(fā)生故障后本能地傾向于最大化自身利益,這種自私和利己的特點可能會破壞任務分工這一特殊的合作形式,進而犧牲蜂群整體效益。因而鄰居可以應用數(shù)據(jù)鏈的信息傳遞及機載傳感器的探測,通過多源信息融合完成對故障簇的任務分配的狀態(tài)感知,利用通信網(wǎng)絡的架構(gòu)針對性地向故障簇內(nèi)執(zhí)行不同任務的無人機傳遞激勵信號。將該信號引入故障簇無人機的自主決策模塊實現(xiàn)決策規(guī)則的改變,以鼓勵無人機參與分工合作,從而克服無人機個體的利己性。除此以外,以故障簇為鄰居的簇群也應根據(jù)故障簇的狀態(tài)及所受激勵,及時地向自身決策模塊提供補償信號,以免受到故障簇的影響。基本框架如圖1所示。
圖1 簇間協(xié)同容錯博弈控制框架Fig.1 Framework of cooperative fault tolerant game control method between clusters
具體的,由于蜂群無人機的規(guī)模龐大,由其通信拓撲可得,只有發(fā)生故障的簇v∈Pf的鄰居w∈Nv和以故障簇為鄰居的簇l∈Lv-{v}能夠獲得其信息并采取相應的措施進行協(xié)同容錯控制。因此蜂群無人機中各簇獲取信息,處理故障的能力是有限的。
考慮故障情形?v∈Pf,{Nv∪Lv-{v}}∩Pf=?,并基于該情形提出分布式簇間協(xié)同容錯博弈控制方法。容錯控制律的設計僅在簇集Nv∪Lv,v∈Pf中進行,即僅在故障簇的鄰居與以故障簇為鄰居的簇集中實現(xiàn)容錯控制。
(12)
相應地,?v∈Pf,系統(tǒng)式(6)變?yōu)?/p>
(13)
(14)
相應地,對于l∈Lv-{v},v∈Pf,系統(tǒng)式(6)變?yōu)?/p>
(15)
而對于其他簇,系統(tǒng)式(6)不變。
考慮系統(tǒng)式(6)、式(7)、式(13)和式(15)在激勵式(12)和補償式(14)的作用下,李雅普諾夫函數(shù)的導數(shù)式(9)變?yōu)?/p>
(16)
式中:
(17)
(18)
(19)
(20)
(21)
(22)
(23)
(24)
(25)
推論1如果對于系統(tǒng)式(6)、式(7)、式(13)、 式(15),滿足:
1)cv>ζv,v∈Pf;
2)xvk(0)∈intΔv,v∈Pf,k∈Qv+{0}。
那么當蜂群的初始分配狀態(tài)位于吸引域Ω內(nèi)時,存在時間T1(x(0),cv),簇v中收益遭削弱的任務會在時間T1(x(0),cv)內(nèi)完全演化消失。
證明:
證畢
1)x*∈Ωf∩Ω;
證明:
對于v∈Pf,需要考慮以下兩種情況:
情況1Lv-{v} ≠ ?。
當t∈[T1(x(0),cv),∞)時,由條件2)和推論1可得Φf=Φc2=0。琴生不等式為
(26)
情況2Lv-{v}=?。
故障簇v的狀態(tài)并不會對蜂群內(nèi)除自身外的其他簇造成影響,因而可以將該簇從蜂群中劃分出來單獨考慮,僅要求其本身回到原有的任務分配均衡點即可。
根據(jù)系統(tǒng)式(13),給定李雅普諾夫函數(shù)分析xv*的漸近穩(wěn)定性:
(27)
沿系統(tǒng)式(13)的任務分配動態(tài)軌跡的李雅普諾夫函數(shù)式(27)的導數(shù)為
(28)
證畢
基于定理2及其證明,在設計簇間協(xié)同容錯博弈控制律,針對故障簇v構(gòu)造激勵矩陣(12)中的可變參數(shù)cv及補償矩陣(14)中的可變參數(shù)rv時,需要滿足指標:
指標1)保證了蜂群無人機任務分配狀態(tài)中收益受削弱的任務能夠演化消失,指標2)則在簇集Nv∪Lv內(nèi)實現(xiàn)了簇間協(xié)同容錯控制。根據(jù)定理2相關(guān)證明,蜂群無人機的群決策行為仍能回到期望的均衡點處。
給出一個蜂群無人機的故障示例及相應的容錯控制思路。
示例1圖2是由3個簇組成的蜂群無人機,不同的形狀對應于執(zhí)行不同的任務。如圖2所示,簇2發(fā)生一類故障,因而簇2可以看作由兩個異質(zhì)的子簇構(gòu)成(分別用黑白兩種顏色表示):P2={20,21}。若故障可以自容錯,那么無需采取任何措施;若故障無法自容錯,則需構(gòu)造激勵矩陣C20、C21及補償矩陣R2。
圖2 一個蜂群無人機的故障示例Fig.2 An example of a UAV swarm with faults
對組織結(jié)構(gòu)如圖2的蜂群無人機進行數(shù)值仿真,分別對定理1、2加以驗證,鄰接矩陣為
(29)
簇2中發(fā)生故障的無人機占整體蜂群的比例為α21=0.1。
首先,設定2個簇的任務集合以及對應的任務收益與協(xié)作收益如下:S1={2,3},S2={1,3},S3={2,4};b1=5,d11=0,d12=3,d13=1,d14=0;b2=4,d21=3,d22=0,d23=2,d24=3;b3=5,d31=1,d32=2,d33=1,d34=1;b4=3,d41=1,d42=5,d43=0,d44=4。
由系統(tǒng)式(1)可以得到示例1系統(tǒng)漸近穩(wěn)定的均衡點,即原蜂群系統(tǒng)穩(wěn)定的任務分配狀態(tài)(見圖3(a))為
(30)
修改3個簇的任務集合以及對應的任務收益與協(xié)作收益如下:S1={1,2,3},S2={4,5},S3={3,4};b1=6,d11=4,d12=10,d13=0,d14=6,d15=5;b2=3,d21=4,d22=7,d23=12,d24=9,d25=8;b3=3,d31=6,d32=10,d33=7,d34=9,d35=8;b4=6,d43=2,d44=4,d45=6;b5=7,d53=6,d54=4,d55=0。
由系統(tǒng)式(1)可以得到不同初始狀態(tài)下示例1系統(tǒng)有兩個漸近穩(wěn)定的均衡點(見圖4(a)和圖4(b)),其中期望的任務分配均衡點為
圖4 任務分配動態(tài)軌跡(協(xié)同容錯)Fig.4 Trajectory of task allocation dynamics (cooperatively accommodated)
(31)
由式(31)的均衡點可知,在無故障情形下,期望的穩(wěn)定任務分配狀態(tài)如下:簇1中執(zhí)行各任務的無人機均占比1/3,簇2中執(zhí)行任務4的無人機占比1/2,簇3中執(zhí)行任務3的無人機占比1/4。
針對惡意故障下大規(guī)模分簇蜂群無人機任務分配的群決策偏差行為,建立了自容錯條件,設計了簇間協(xié)同容錯博弈控制方法。該方法同樣適用于其他類似的蜂群系統(tǒng),如機器人、智能車輛等。對于故障導致某些任務收益增加的情形,可以考慮如何利用故障的影響使得蜂群在原有的任務分配均衡點處表現(xiàn)更優(yōu),這是一個更為復雜且值得深入研究的問題。
未來的工作將研究在故障情況下發(fā)現(xiàn)和鎮(zhèn)定其他可替代的平衡狀態(tài),這對嚴重破壞博弈均衡的故障具有重要的工程意義。