劉翔 呂麗紅 費立剛 劉佳玥
摘要:針對空間目標監視任務具有環境復雜性、目標動態隨機性以及任務高度機動性等特點,建立了一種能夠體現監視資源設備個體智能和群體智能的多智能體(Multi-Agent)任務資源調度模型,為了能夠快速、準確求解任務資源調度決策方案,通過在基本粒子群算法結合多智能體間的相互引導,分析了基于多智能體模型的粒子群算法。仿真結果表明,針對隨機設定的任務要求,所提算法可以計算得到合理有效的調度分配方案。
關鍵詞:空間監視;粒子群算法;多智能體系統;資源調度
中圖分類號:TP273文獻標志碼:A文章編號:1008-1739(2023)05-46-6

空間目標監視具有環境復雜性、資源高度動態性、目標動態隨機性、任務高度機動性等特點。如何將有限的資源進行科學合理的分配,達到充分、合理利用資源和最大化滿足監視需求,已成為目前亟待解決的問題。由于低軌星座低軌目標監視資源所監視目標具有高速運動及空間廣域分布、多探測目標全球隨機出現且時空跨度大等原因,通常少量的低軌目標監視資源不可能完成對目標的全程跟蹤。系統需要較多低軌目標監視資源之間的彼此協同[1]、相互接力才能完成對多目標的全程持續跟蹤,而解決跟蹤交接問題的關鍵是低軌目標監視資源調度技術。
用于空間監視的主要監視子系統(光學、雷達)本身已經是一個較為復雜的系統設備,在當前技術發展過程中個體設備已經具備了系統內的資源分配與調度的智能處理。本文提出基于多智能體(Multi-Agent)的資源調度技術,對用于滿足低軌目標綜合監視所需的多種監視設備(智能體)進行調度建模,設計智能體之間的通信協商機制,構建基于多智能體的低軌目標監視任務調度系統結構模型,用于提升在個體智能基礎上進行協同調度的群體智能優化。
目前,國外在資源管理調度領域的研究已經較為成熟,主要分為2類方法:一類是靜態預先指派方法,主要針對資源和目標有一方靜止的情況[2];另一類是動態實時調度方法,主要針對資源和目標均為運動的情況[3]。常用的資源調度方法包括基于規劃論的方法[4]、基于信息論的方法[5]、基于協方差控制的方法以及各種基于人工智能理論的方法[6]等。這些方法的研究側重點各不相同,規劃論方法側重于構建低軌目標監視資源調度的規劃數學模型;控制論和信息論的方法側重于優化量化的目標函數;人工智能理論的方法側重于求解低軌目標監視資源調度的智能化模型。
空間目標監視任務通常具有一定程度的可預測性。因為根據動力學可以粗略地預測目標的飛行軌跡,依據星座中各衛星的星歷,可預測監視對目標的可視時間窗口,這些數據為低軌目標監視任務的調度和空間低軌目標監視資源的分配提供決策依據。同時,低軌目標監視任務的執行過程也面臨諸多動態和不確定因素,當這些動態和不確定性因素的影響超過一定界限時,通常需要對低軌目標監視任務進行動態重調度。
本文在引入人工智能領域多智能體技術的同時,在基本粒子群進化算法[7]的基礎上,結合多智能體之間的合作和競爭機制,提出一種多智能體粒子群算法來求解空間目標調度決策問題,以此來提高調度決策方案的求解效率。
智能體(Agent)的概念是從分布式人工智能技術發展起來的。多Agent系統是指由多個具有自主性、交互性、反應性的高度自治的Agent組成的系統,它是為了解決單個Agent不能解決的復雜問題,由多個Agent協調合作形成的問題求解網絡[8]。在任務調度系統中應用多智能體技術,主要是針對不確定的和不斷變化的系統環境下比較復雜的調度問題,特別是那些短期的、敏捷性要求較高的動態調度問題。基于多智能體的調度系統通過在一系列分散的自治Agent間進行協調和合作來解決問題,具有自治、分布、動態等一些自然特性,可以滿足復雜的和動態的系統任務調度的需要。基于多智能體的面向任務的空間目標資源調度模型整體設計如圖1所示。該模型主要包括資源Agent、任務Agent、調度Agent以及通信Agent。該模型工作流程為:地基或天基監視系統探測到可疑目標向任務獲取Agent發送信息,任務獲取Agent整合收到的信息形成監視任務并將任務發送給任務管理Agent。任務管理Agent通過任務分解Agent將針對可疑目標的監視任務分解成多個不同層級的子任務Agent。調度Agent綜合考慮各層級子任務Agent的任務需求、資源Agent的工作狀態和工作適應度以及歷史調度經驗等多重因素選擇合適的調度算法計算出當前任務的最優調度方案,并通過通信Agent傳遞給相應的資源Agent完成任務。

1.1資源Agent
資源Agent實際上是目標監視任務的最終完成者,主要建立電磁籬笆、大口徑望遠鏡、精密跟蹤雷達、相控陣雷達和陣列望遠鏡這5種監視資源的資源Agent。資源Agent是通過將監視資源進行軟件封裝并模塊化處理后的框架模型。資源Agent結構圖如圖2所示,主要包括管理模塊、信息處理模塊以及通信模塊。管理模塊登記、更新以及儲存監視資源的各類信息,主要負責儲存監視資源完成任務需要的條件以及監視資源能夠進行的各種操作和所能夠完成的任務。信息處理模塊負責與外部Agent進行信息交互并處理本Agent的任務執行,調度Agent分配任務后由信息處理模塊從監視資源庫中找出能夠完成任務的監視資源與之匹配,并將該任務進行指派。通信模塊負責與外部Agent進行通信。

1.2任務Agent
任務Agent負責管理任務的生成、分解以及執行,并隨著任務的產生和完成而自動生成和消除。任務Agent結構如圖3所示,主要包括任務獲取Agent、多任務管理模塊、任務分解模塊以及任務發布Agent。監視任務由任務獲取Agent生成,當多個任務被同時發布時,由多任務管理模塊按照任務優先級、資源Agent使用情況和任務難易度綜合考慮后排序;任務分解Agent按照分解策略和分解經驗將任務分解為多個不同層次的子任務;任務發布Agent按照預先設定的規則發布任務。

1.3任務分配與調度Agent
調度Agent負責調用相應的調度模型以及算法對每個子任務進行合理的規劃和調度,使之滿足預定目標要求,并將優化后的調度序列信息和資源分配方案信息反饋給任務Agent和資源Agent,由資源Agent執行相應的子任務。調度Agent還實現對任務執行過程的監控,如果出現新目標和資源故障等突發的動態事件,進行任務重調度,重新制定調度方案,或者尋求替代資源Agent,或者與其他資源Agent協商完成任務。調度Agent結構如圖4所示。

2.1多智能體粒子的表示方法
空間目標監視系統運行需要完成任務計劃和傳感器監視中心根據編目需求,為傳感器生成觀測目標的清單及觀測頻度等要求,并給出觀測優先級。傳感器調度是指傳感器為完成觀測任務而進行的資源調度,隨著空間目標數的增加、跟蹤更小目標需求的出現,軌道編目的規模也越來越大,進而加重了空間監視網的負擔。
資源調度為了監視設備更好地完成空間目標監視中心分配的任務和日常監視任務進行傳感器空域、時間、功率等資源的優化分配和使用。由于用于空間監視資源有限、空間目標眾多,監視資源分配調度是指在符合監視任務分配原則和性能約束條件下,根據任務目標的空間位置和目標屬性合理地分配監視資源,以使空間監視資源使用效率達到最大,總體的觀測收益最大。

對目標的監視資源調度方案可以描述為:對于給定的監視設備,以及監視任務,尋找一個合適的任務目標分配方案,使監視資源的總體觀測收益最大。在算法中粒子進化時涉及到粒子位置和速度,位置體現了粒子所代表的解在解空間的位置,適應度函數用該向量來評估粒子的優劣,是評估解質量的基礎[9]。
對于多智能體協作的粒子來說,一個問題的解由協作智能體的解共同組合而成,則粒子的位置也是由各個智能體的位置組合而成。定義第個設備的第個狀態對目標在時段的任務剖面為一個粒子的位置,1部設備在2個可控觀測狀態中選擇合適狀態,同時在3個可觀測時段對目標實現的任務分配綜合構建為粒子群。通過粒子群的進化處理實現對任務分配與調度的優化。
定義變量表示第個設備的第個狀態對目標在時段的監視能力,監視能力可以看作是雷達對目標在一定檢測狀態下的檢測綜合能力。檢測的綜合能力不僅與雷達設備狀態有關,還與監測環境以及目標屬性有關。
2.2目標決策函數的建立
決策的主要目標是使各設備承擔的監視任務基本均等,并且盡可能處于較低功率狀態以節省能源,同時要實現對視場內目標的監視任務盡可能地全部完成,從而實現監視任務效益最大化。

2.3約束條件
①一個設備一個狀態在某一個時段只能監視一個目標。
②當周邊設備發現目標后可以提升當前設備的一個檢測狀態。
③各個設備的總負擔基本相同。
④當前設備的狀態與目標的環境關聯因子的綜合應滿足探測要求。
2.4粒子群算法流程
本文將多智能體技術與粒子群優化算法相結合用于空間目標監視的任務調度分析。
粒子群優化(Particle Swarm Optimization,PSO)是一種仿生優化算法,具有原理明確、算法結構簡單易實現、性能穩定且參數少的特點。PSO的基本原理是模擬鳥群的覓食過程。該方法將鳥群中個體也就是“粒子”的位置作為尋找最優位置過程的解。而“粒子”位置的更新即“速度”通過綜合考慮群體中最優粒子位置和個體最優粒子位置而獲得。因此,該算法通過粒子在解空間按照位置和速度來追隨最優的粒子進行搜索從而找到最優解。
監視設備智能體在任務分配過程中能夠通過交互和粒子群進化策略實現群體的智能進化從而實現對智能體個體智能體現的同時實現群體智能[10]。智能體能夠充分利用粒子群算法的信息共享和記憶保存機制,不斷從其自身經驗和鄰域智能體獲取知識,并以此來指導自身下一步的進化,使算法具有良好的自適應搜索能力和魯棒性,能夠完成在具有不確定性的復雜空間中搜索得到全局最優解的任務。算法流程如下:
①參數初始化,包括粒子個數、算法迭代次數、粒子的初始位置、初始速度、初始群體中的最優位置。
②將初代粒子代入式(1)計算當前粒子的目標函數值即適應度值。

步驟⑥達到結束條件或迭代次數,結束程序執行;否則返回步驟②繼續循環。本文算法設置了結束條件以避免陷入局部最優解。
為了驗證本文所建立的空間監視調度模型以及多智能體粒子群優化算法的可行性,設計一種典型的空間目標監視需求進行仿真實驗。為簡化分析,做以下假定:用于監視的雷達共有4部,每部雷達可實現的9個觀測狀態(以等效發射功率因子=(-4,-3,-2,-1,0,1,2,3,4)代替,每部雷達有8個有效觀測時段;需監測的空間目標有8個(隨機分配在8個時段),在仿真中設置了9個等級來區分目標的反射強度。目標關聯因子簡化為(-4,-3,-2,-1,0,1,2,3,4),隨機設置各目標對雷達的關聯因子。采用多智能體粒子群算法求解目標調度決策方案,將初始粒子規模數設定為50,迭代次數400。
假定簡化的目標與監視雷達資源的關聯因子關系數據如表1所示,表示目標相對雷達檢測的信號反射等效相對強度數據。

假定被監視目標相對各雷達出現的可檢測時段如表2所示,在仿真中設置了8個可檢測時段。

針對上述目標與雷達狀況,采用多智能體粒子群算法求解目標決策方案,多智能體種群規模設為50,迭代次數為80,則計算所得到的最優粒子編碼如表3所示,適應度函數收斂曲線如圖5所示。

由表3可以看出,設置的8個目標均有雷達可以觀測,并且在同時段單個雷達只針對1個目標完成觀測。該結果符合表1和表2中的目標觀測設計要求。經過粒子群優化的目標分配調度方案符合空間目標監視所提出的約束條件,可以在各監視設備任務均衡的前提下,實現總能耗達到最小,同時兼顧雷達觀測目標的時段分配要求。說明本文方法能夠求解得到合理、有效的目標監視任務調度與分配方案。

本文針對復雜的空間目標監視任務,建立了一種能夠體現監視資源設備個體智能和群體智能的多智能體任務資源調度模型,為了能夠快速、準確求解任務資源調度決策方案,通過在基本粒子群算法結合多智能體間的相互引導,分析了基于多智能體模型的粒子群算法。仿真結果表明,針對隨機設定的任務要求,本文方法能夠得到合理、有效的空間目標任務分配調度決策方案,并且具有良好的實時性。
參考文獻
[1]陸震.美國空間態勢感知能力的過去和現狀[J].兵器裝備工程學報,2016,37(1):1-8.
[2]宋宇鯤,韋龍龍,張多利.多核系統靜態任務調度的啟發式算法[J].電子測量與儀器學報,2018,32(5):134-141.
[3]莊樹峰.跟蹤與數據中繼衛星系統資源調度技術研究[D].哈爾濱:哈爾濱工業大學,2017.
[4] CHHETRI A S,MORRELL D,PAPANDREOU-UPPAPPOLA A. SOn the Use of Binary Programming for Sensor Scheduling[J].IEEE Transactions on Signal Processing: A Publication of the IEEE Signal Processing Society,2007,55(6):2826-2839.
[5]張耀中,姚康佳,郭操.基于HMM和信息熵的分布式傳感器協同任務規劃研究[J].電光與控制, 2018,25(12):5-10.
[6] LOPEZ J M M,HERRERO J G,RODRIGUEZ F J J,et al. Cooperative Management of a Net of Intelligent Surveillance Agent Sensors[J].Internation Journal of Intelligent Systems. 2003,18(3):279-307.
[7]潘軍軍,馮柯,李煥良,等.改進多目標粒子群算法的火箭雷彈彈道求解方法[J].火力與指揮控制,2018,43(2):157-161.
[8]劉聞,王曉路,昇汪宏,等.基于Agent的低軌預警衛星星座探測仿真分析[J].系統仿真學報,2019,31(11):2413-2421.
[9]劉昊,宋敬峰,陳超.基于進化粒子群算法的聯合火力打擊任務規劃方法[J].艦船電子工程,2020,40(4):21-26.
[10]付躍文,王元誠,陳珍,等.基于多智能體粒子群的協同空戰目標決策研究[J].系統仿真學報,2018,30(11):4151-4157.