通信拒止環境下的導彈集群多目標分配與決策方法*

2023-01-04 07:55:38丘騰海胡佳斌蒲志強易建強

航天控制 2022年6期

丘騰海胡佳斌蒲志強易建強

1. 中國科學院自動化研究所，北京 100190 2. 重慶大學-辛辛那提大學聯合學院，重慶 400044

0 引言

隨著戰場信息化和體系化能力的提升，作戰模式由單一攻防作戰擴展到多對多的集群協同對抗與博弈。美軍率先提出多導彈協同作戰的概念，通過導彈集群協同能夠有效提高攻防能力[1]。其中，多目標分配和決策直接決定了作戰體系的攻防性能，是協同對抗與博弈的關鍵技術之一[2]。

在實際戰場環境中，導彈、無人機等無人集群系統面臨通信拒止等復雜環境。由于缺乏基礎通信設施及存在干擾，無人集群系統在任務執行過程中可能會失去與指控中心或集群間的通信，難以獲得指控中心的實時控制信息[3]。因此，具備自主、智能、協同完成任務的能力是集群協同作戰的關鍵。

目前，針對不同的作戰場景國內外研究人員提出了不同的目標分配方法，按照架構主要分為集中式和分布式[4]。集中式架構比較典型方法是將目標分配問題轉換為數學規劃問題，進而利用枚舉法、分支定界法或整數規劃來求解[5-7]。然而，這類方法隨著個體數量的增加，尋優空間會急劇上升，計算耗時呈指數級增長。另外，智能優化方法由于其具有的靈活性和自適應性等特點，在復雜目標分配和決策中具有較大優勢，如粒子群算法(PSO)通過單個粒子運動和整體最優位置記憶和學習[8]，在搜索空間中朝最優方向運動，與遺傳算法相比[9]，具有更高的計算效率，但容易陷入局部最優，全局搜索能力較弱[10]。此外，具有自學習能力的強化學習方法通過構建仿真環境訓練得到最優分配解，但訓練難度較大，耗時較長，很難用于高動態復雜環境戰場場景下的目標分配[11-12]。復雜的拒止作戰環境對決策的實時性和最優性提出較高的需求，集中式分配方法普遍存在計算效率、自主性和多次決策性等不足。相比于集中式架構，分布式架構結構靈活，可擴展性和魯棒性強，能夠用于多節點動態變化的環境[13]。分布式方法主要有組合拍賣、合同網協議等市場算法和完全分布式的智能算法。合同網協議將參與方分為發布者和競標者，通過招標、投標、中標和確認等步驟完成整個目標競拍分配。經典的拍賣算法包括一致性包算法(Consensus Based Bundle Algorithm，CBBA)，遵循價高者得的原則，將目標分配給出價最高的競拍者[14]。但市場算法更多針對一個導彈對一個目標的分配優化，無法處理多個導彈同時打擊一個目標的分配問題[15]。然而，在實際作戰環境中，受復雜環境、作戰意圖和目標防御能力等影響，導彈打擊目標時存在突防成功率的問題，為保證打擊任務成功率，需要考慮多個導彈打擊一個目標的優化分配方案。而且，通信拒止環境中的通信拓撲網絡結構存在動態復雜不確定性，現有方法無法有效解決實時在線的多個導彈打擊一個目標的分配和決策問題。

因此，本文針對通信拒止環境中多導彈多目標的集群對抗目標分配與決策問題開展研究，通過構建導彈集群與目標的攻防性能指標，提出擴展的一致性拍賣 (Advanced Consensus Based Auction Algorithm, ACBAA)目標分配模型，引入考慮通信拒止環境中的先驗知識，設計集群行為規則模型，計算多個導彈打擊多個目標的分配方案和導彈集群的運動方案，通過仿真實驗驗證了所設計算法和模型的有效性。本文貢獻主要有兩點： 1)針對通信拒止環境下的集群對抗多目標分配問題，提出了ACBAA多導彈對一個目標的分配算法； 2)建立了通信拒止環境下的集群運動決策模型。

1 基于ACBAA算法的目標分配方法

在通信拒止環境下，導彈與地面指揮站基本無法通信，導彈之間無法實時傳輸大量感知、控制等數據，僅能以較低頻率廣播少量觀測信息。然而，廣播通信不可靠，通常以能正常通信的導彈個數反映環境的通信拒止程度。70%以上的導彈之間無法正常通信稱為強拒止，40%～70%的導彈之間無法正常通信稱為中拒止，40%以下的導彈之間無法正常通信稱為低拒止。在不同程度拒止環境下，每一時刻能夠正常通信的導彈個數不同，且一旦建立通信連接，通信拓撲圖可保持Δt時刻，之后將重新建立新的通信拓撲。CBAA算法主要考慮一對一的目標分配，在多導彈共同選擇同一目標的場景時具有局限性。本文提出了ACBAA算法，旨在解決通信拒止環境下的導彈多目標分配問題。

1.1 攻防性能指標

本文以拒止環境下多個導彈協同打擊目標為背景，基于文獻[12]構建的性能指標，對導彈攻擊性能進行評估，包括由彈目相對角度指標、相對距離指標和相對速度指標組成的攻擊性能指標，以及考慮突防概率的毀傷性能指標等。導彈發射前，在競拍階段考慮目標收益值和自身消耗的關系，當分配的目標收益值小于自身價值損耗，則可以終止目標選擇。而在導彈發射過程中，由于其不可取消的特點，其自身消耗已成為固定成本。本文將攻擊性能指標和毀傷性能指標相結合，作為綜合效費性能指標，對目標分配方案進行評估。綜合效費性能指標如下：

(1)

1.2 關鍵算法要素

在ACBAA算法中，首先明確定義導彈i目標分配信息的關鍵要素：

1)時間戳列表si

時間戳列表si?{si1,…,sij,…,siNM}，是目標分配沖突消解階段的重要指標，用于記錄導彈i獲得其他鄰居導彈分配信息的更新時刻，表征導彈從其他導彈獲得信息的新舊程度。式中sij表示導彈i獲取到導彈j最新信息的時刻，通過有限范圍的通信傳輸共享。對每個導彈來說，導彈自身最新消息的更新時間大于等于其他導彈得知該導彈最新消息的時間，即：

sii≥sji,j∈?

(2)

2)獲勝導彈列表Zi

獲勝導彈列表Zi?{Zi1,Zi2,…,ZiNM}，用于記錄鄰居導彈投標的目標編號，式中Zij=k表示導彈i獲取到的導彈j在第sij時刻投標的目標編號是k。當導彈i獲知到導彈j沒有投標目標時，Zij=100。

3)獲勝投標列表Yi

獲勝投標列表Yi?{Yi1,Yi2,…,YiNT}，用于記錄導彈i視角下各目標的投標對象導彈編號，列表中的值與列表Zi中的值一一對應，即Yik=j表示在導彈i視角下目標k的投標對象導彈編號為j，且與時間戳列表si一致。當導彈i獲知到目標k沒有投標目標時，Yik=100。

4)分配列表xi

分配列表xi?{xi1,xi2,…,xiNT}，用于記錄導彈i到目標的投標策略，當xik=1時表示導彈i對目標k進行投標，當xik=0時表示導彈i不對目標k進行投標。

5)優勢度列表Si

優勢度列表Si?{Si1,Si2,…,SiNT}是基于攻擊性能指標構建的，用于記錄導彈i對各目標的優勢，Sik為導彈i對目標k的量化攻擊優勢度。

6)總收益列表Ci

總收益列表Ci?{Ci1,…,Cik,…,CiNT}用于記錄導彈i對目標的綜合收益，包括攻擊性能和毀傷性能，其中Cik表示導彈i對目標k的收益，其值為攻擊性能與毀傷性能加權求和，即

(3)

1.3 算法模型求解

ACBAA算法主要分為2個階段: 一致性階段和拍賣階段，拍賣階段依賴于一致性階段提供的其他導彈的最新消息進行投標。在一致性階段，導彈通過通信拓撲網絡傳遞競標信息，并根據一致性法則，消除目標分配沖突。在拍賣階段，導彈判斷自身是否已分配目標，若未分配，則按照一定規則進行競標，為自身分配目標。

下面以某一輪競拍中，第i枚導彈的第t次迭代為例，詳細介紹ACBAA算法中的一致性階段和拍賣階段。

1)一致性階段

導彈i通過時間戳列表si來確定接收到的其他導彈的最新信息。每當導彈i與導彈l建立通信連接，除獲取導彈l自身的信息外，還可通過導彈l更新導彈k的最新信息, 對導彈i的時間戳列表和其他信息進行替換。若導彈l關于導彈k的時間戳大于導彈i關于導彈k的時間戳，說明導彈l獲取的導彈k的信息新鮮度更高，則進行如下更新：

(4)

(5)

導彈i對可通信范圍內的所有導彈完成信息交互，對自身時間戳列表si、獲勝導彈列表Zi、自身獲勝投標值列表Yi進行更新。

假設導彈i當前的自身競選目標為m，即Zii=m。如果自身競選目標的競標對象導彈沒有發生改變，即Yim(t-1)=Yim(t)，則導彈i的競選目標不發生改變。反之，若Yim(t-1)≠Yim(t)，則導彈i退出當前競選目標，即：

xim(t)=0,sii(t)=當前時刻,Zii(t)=100

2)拍賣階段

(6)

(7)

式中，Pik為不考慮其他導彈對目標k的打擊時，導彈i對目標k的命中概率，PYik[j]表示導彈i獲取的目標k的競選導彈j的命中概率。為避免競選沖突，該過程僅選用綜合收益大于導彈i的導彈，即采用所有滿足Cjk>Cik,j∈Yik的導彈j對于目標k的命中概率。

于是，導彈i從中選擇競爭收益最大的目標k*：

(8)

(9)

xik*(t)=1,sii(t)=當前時刻,Zii(t)=k*

(10)

上述一致性和拍賣過程不斷迭代，直到所有導彈的獲勝導彈列表均不再發生變化，視為本輪競拍結束，得到本輪目標分配方案及相應的總收益。ACBAA算法的流程如圖1所示。

圖1 ACBAA算法流程圖

此外，針對不同通信拒止等級條件下導彈集群的動態通信拓撲交互特征，為增強基于ACBAA的分配能力，設計通信拒止環境下的導彈集群協同交互規則：

1)在導彈感知范圍和通信范圍內，導彈可更新其他導彈對于目標的收益；

2)若導彈j在導彈i的感知范圍，但不在通信連通范圍內，則假定導彈j的分配結果與上一輪相同，對于各目標的收益則采用最新的數據；

3)若導彈j不在導彈i的感知范圍和通信連通范圍內，則導彈j在本輪目標分配過程中，導彈j對于各目標的收益和分配的目標與上一輪相同。

2 基于SACO的集群運動決策方法

根據目標分配方案，導彈朝各自所分配的目標運動，本文借鑒自然界鳥群、魚群等群居性生物的集群協同機動方法，在有限感知和機動能力條件下，基于經典生物集群行為規則“避撞-結隊-聚集”(Separation Alignment Cohesion，SAC)[16]，引入導彈的攻擊行為(Offense)，建立導彈運動行為規則SACO，以及通信拒止環境下的導彈集群協同交互規則，使導彈集群涌現出宏觀的作戰行為。

1)避撞(Separation)

(11)

2)結隊(Alignment)

(12)

3)聚集(Cohesion)

(13)

式中，ga(dij)為引力函數。

4)攻擊(Offense)

(14)

式中，κo>0為攻擊導航力控制增益，xb為所分配目標的位置。

根據所設計的SACO行為規則，計算單個導彈運動決策控制量如下：

(15)

3 仿真校驗

為驗證本文所提方法的有效性，分別設計了針對基于ACBAA目標分配和SACO集群運動決策的實驗，在配置酷睿i7-8750H@2.20GHz CPU和 Python3.8的計算機上進行仿真驗證。

3.1 基于ACBAA算法的目標分配仿真

假定導彈數對目標數以15對10為例，驗證ACBAA算法的有效性。仿真實驗中導彈和目標的初始態勢如表1和表2所示。其中，X、Y、Z分別為地面坐標下的三維坐標，單位為km，V為導彈飛行速度，單位m/s；γ為導彈速度傾斜角，為導彈速度方向與水平面的夾角(向上為正，向下為負)，γ∈[-π/2,π/2]，單位rad；ψ為導彈速度方位角，為飛機速度矢量在水平投影與正北的夾角，ψ∈[-π,π]，單位是rad。考慮到導彈實際性能的限制，V的范圍為Ma6～10，過載的范圍為[-10, 10]。

表1 導彈初始態勢表

表2 目標初始態勢表

在綜合攻擊優勢度評估中，距離優勢模型中的R0=30km，過載優勢模型中的n0=8，各項的加權系數分別為：kθ=0.2,kσ=0.2,kr=0.2,kn=0.4。

在目標威脅建模中，設置式中的Vt0=10m/s，加權系數為kΓ=0.6,kv=0.4。導彈探測感知范圍為100km，通信距離為200km。

根據所得到的優勢度拒止，在無通信拒止環境下，基于CBAA算法和ACBAA算法得到目標分配方案如圖2和圖3所示，可以看出基于CBAA算法的目標結果會出現部分導彈未分配目標的情況，分配收益為10.51，這是由于CBAA算法本身是一對一的目標分配方式。而采用本文所設計的ACBAA算法，可以實現多目標分配的結果，分配收益為12.18，提高了最終的分配收益。

圖2 CBAA算法無拒止環境下目標分配

圖3 ACBAA算法無拒止環境下目標分配

導彈間的通信連通強度可利用通信拓撲圖G的拉普拉斯矩陣第二小特征值λ2表示[17-18]，當該值越大，拓撲圖的連通強度越大，當該值為0時表示該圖不連通。根據該值可以得到在不同通信拒止情況下，導彈連通情況。圖4為在不同拒止程度環境下，每個拒止等級條件下重復100次不同連通情況的平均連通值，由該圖可知，當拒止程度達到85%時，出現導彈間通信完全不連通的情況。

圖4 不同通信拒止程度下導彈間的連通情況

為進一步說明算法的有效性，本文基于CBAA算法和ACBAA算法在不同通信拒止程度下分配所花費時間和平均收益如圖5所示。圖5(a)表明，ACBAA算法進行目標分配所需時間普遍小于CBAA算法。圖5(b)表明，在中低通信拒止環境下，ACBAA算法的目標分配結果平均收益多于CBAA算法的目標分配結果平均收益，這驗證了ACBAA算法的有效性。在90%以上的導彈無法通信的強通信拒止環境下，導彈間的協同很難完成，CBAA和ACBAA算法在競拍時都會傾向選擇各自最大收益的目標，缺乏一致性消除沖突的階段，因此最終目標分配的結果也會傾向一致，分配收益幾乎沒有差別。

圖5 不同拒止程度下目標分配的平均運算時間和收益

此外，在不同通信拒止程度下進行蒙特卡羅仿真實驗，在同樣參數配置條件下，基于ACBAA算法連續仿真100次實驗，目標分配收益分布如圖6所示。由圖6可以看出，無拒止環境(0%)和弱拒止環境下(≤40%)，由于各導彈間的通信連通情況較好，拒止程度對ACBAA算法的影響較小，均能獲得比較高的分配收益；在強拒止環境下(≥70%)，ACBAA算法結果受到的影響較大，得到的目標分配收益比較?。辉谕耆苤箺l件下(100%)，分配收益結果為9.37，相較于無拒止環境分配結果，其收益衰減不到30%，證明ACBAA算法在拒止環境下運行的有效性。

圖6 不同拒止等級環境下目標分配收益

3.2 基于SACO規則的集群運動仿真實驗

集群運動模型中的系統參數設置為斥力范圍lr=50，引力范圍la=50，斥力Cr= 100，引力Ca= 100，速度協同力控制增益κv=0.4，攻擊導航力控制增益κo=80，阻尼ξ=0.000035，最大加速度amax=10g，感知范圍為100km。仿真實驗時間間隔為2s，總循環次數2000。圖7展示了在不同拒止環境下導彈的運行軌跡圖，驗證了ACBAA算法在不同拒止環境基于SACO規則的集群運動的可行性。

圖7 不同拒止程度下導彈的運動軌跡

圖8展示了在不同拒止環境下，導彈從起始點到目標的分配收益變化圖。由圖可以看出在弱拒止環境和無拒止環境下，先驗知識對基于SACO規則的集群運動收益沒有產生明顯的影響，但在強拒止環境下，先驗知識和感知范圍可以對集群運動過程的收益產生顯著的影響，使收益更加穩定。

圖8 在不同拒止環境下的導彈的收益變化

4 結論

針對通信拒止復雜環境下的導彈集群多目標分配問題，提出一種分布式的ACBAA多目標分配和決策方法。通過一致性和拍賣階段，優化目標分配方案，并建立通信拒止環境下的通信先驗知識和集群行為規則模型，支持不同通信拒止等級環境下的導彈集群運動。仿真結果表明，本文設計的方法能夠實現不同通信拒止等級條件下的目標分配決策，具有較好的優化性能，其計算效率相對于其他方法具有更明顯的優勢。