集群航天器魯棒自適應快速任務分配

2023-09-22 12:44:20張潤德蔡偉偉楊樂平范大偉

宇航學報 2023年8期

關鍵詞：優化

張潤德，蔡偉偉，楊樂平，范大偉

(國防科技大學空天科學學院，長沙 410073)

0 引言

隨著網絡技術的飛速發展和空間任務的日趨復雜,航天領域發展逐漸呈現出從單一、大型航天器到分布式空間系統的新趨勢[1-2]。集群航天器以其靈活性、魯棒性、自適應性等優點受到學者們的廣泛關注[3]。集群航天器任務分配可表示為多約束條件下的離散空間組合優化問題,其目的在于建立航天器和任務之間的映射關系,以保證每個航天器在對應的時間窗口內執行特定的活動[4]。受通信能力、任務需求、機載存儲能力、計算能力和軌道特性等諸多因素限制,集群航天器快速任務分配仍是一項極具挑戰的工作。

根據控制框架的不同,集群航天器任務分配方法可分為集中式和分布式兩大類。集中式任務分配主要包括最優化方法和啟發式算法,其中以群智能算法、遺傳算法、模擬退火等為代表的智能算法應用最為廣泛[5]。分布式結構類似于自然界中生物種群,各航天器間通過信息交互協同完成各項任務。典型的分布式任務分配模型包括多智能體理論、分布式約束和類市場機制等[6]。類市場機制通過航天器間通信協商解決分配沖突,主要包括合同網法[7]和拍賣算法[8],其區別在于拍賣算法中每個航天器都是系統中的投標人,而合同網中接到任務的航天器會充當局部拍賣商的角色,主持競拍程序[9]。Bertsekas[10]借鑒拍賣過程中根據參與者競價決定商品歸屬的思路,率先提出了拍賣算法,并將其拓展至最短路徑問題和任務分配問題。Zavlanos等[11]考慮去掉共享存儲中心,在缺乏全局信息的情況下提出了完全分布式拍賣算法。但在智能體數大于任務數的場景中,同一任務可能被分配給多個智能體,導致任務分配失敗。

燃料消耗是集群任務分配中一項關鍵指標,可通過相對運動軌跡規劃進行數值求解,主要思路包括“優化+離散”的間接法和“離散+優化”的直接法[12]。間接法先基于變分法推導最優控制的一階必要條件,再求解哈密頓邊值問題獲得最優控制序列,但非線性動力學模型和集群重構中各種復雜約束限制了間接法的應用范圍。直接法通過離散狀態或控制空間,將最優控制問題轉化為非線性規劃問題,利用數值優化算法進行求解,主要包括偽譜法[13]、凸優化[14-15]等算法,其中文獻[16]表明序列凸優化的計算效率高于偽譜法,展現出其在在線規劃中巨大潛力。但在集群航天器協同觀測任務中,航天器終端邊界條件不固定,即使是計算效率較高的凸優化算法也將消耗巨大的計算資源。針對航天器進入自然繞飛軌道問題,文獻[17]基于凸松弛和線性投影技術提出一種混合凸優化算法,但該算法單次求解耗時約15～20 s,難以滿足集群航天器自主快速任務分配的需求。

為提高燃料指標求解效率,Edelbaum[18]基于軌道根數推導了絕對坐標系下近圓軌道間連續推力轉移所需特征速度的解析解,眾多學者在此基礎上考慮J2項攝動、共面小偏心率軌道轉移和轉移圈數等因素提出了一系列改進方法[19-21]。Edelbaum法適用于大范圍連續推力轉移軌跡的燃料預測,且通常基于多圈轉移假設[22],難以直接應用于小范圍、固定轉移時間的相對運動軌跡規劃問題。隨著人工智能技術的飛速發展,越來越多的學者嘗試利用機器學習和神經網絡等技術解決航天領域的難題,在動力學建模、最優控制和任務設計等領域取得良好的應用[23-24]。朱閱訸等[25]分別利用分類和回歸多層感知機預測轉移軌跡的可行性和最優燃料消耗。Viavattene等[26]針對近地小行星交會任務,利用人工神經網絡快速預測星際小推力轉移的時間和燃料消耗,將神經網絡的輸出用于樹搜索算法以確定可行的小行星交會序列,仿真結果表明計算效率可提升兩個數量級。Li等[22,27]針對行星際多目標任務規劃問題,利用深度神經網絡預測小推力轉移軌跡的最優轉移時間和燃料消耗,仿真表明預測值的平均相對誤差小于0.5%。現有文獻中利用深度神經網絡預測轉移軌跡時間和燃料消耗指標研究多集中于大范圍、小推力的行星間轉移,對航天器相對運動軌跡預測研究較少。

針對航天器集群協同觀測任務分配問題,本文提出一種基于深度神經網絡和魯棒自適應拍賣算法的快速任務分配策略。為快速求解航天器到達各觀測點所消耗的燃料,本文利用深度神經網絡直接預測轉移軌跡的燃料消耗,以替代計算耗時的相對運動軌跡規劃環節。為拓展拍賣算法的應用范圍,通過構造虛擬收益矩陣和虛擬分配向量使其適用于航天器數與任務數不一致的分配問題。根據航天器集與任務集的不匹配度自適應調整報價增量,以提高算法的收斂速度。此外,考慮到分配過程中通信失聯、航天器故障等不確定因素,通過在線調整故障衛星的收益和報價矩陣,使得拍賣算法能快速進行任務重分配,從而提升算法魯棒性。

首先,在相對運動框架下描述集群航天器協同觀測任務,對觀測收益、燃料消耗和任務分配問題進行數學建模。其次,設計深度神經網絡預測轉移軌跡的燃料消耗,利用凸優化算法生成訓練數據,針對不同結構的神經網絡進行訓練和優化,并對比其性能。再次,提出一種改進的魯棒自適應拍賣算法,以提高任務分配的計算效率和精度。最后,通過數值仿真驗證魯棒自適應拍賣算法的性能。

1 問題描述

航天器相對運動通常在如圖1所示的Hill坐標系中表示,坐標系原點位于目標航天器質心處,x軸與目標航天器地心矢徑rt方向一致,y軸在軌道面內與x軸垂直,并指向運動方向,z軸由右手法則確定。

圖1 Hill坐標系示意圖Fig.1 Diagram of Hill coordinate

當觀測航天器初始相對狀態中長期項為零時,觀測航天器可圍繞目標航天器進行閉環周期性繞飛,且不需額外消耗燃料。繞飛軌跡在軌道面內投影為2∶1的橢圓,航天器的相對運動狀態x(t)可由一組繞飛軌道參數[b,c,yc,φ,ψ]進行表示[28]。

(1)

式中:n為目標航天器的平均軌道角速度;b為繞飛軌跡在軌道面內投影橢圓的半短軸;c為繞飛軌跡在z軸方向的最大值;yc為繞飛中心在y軸方向的偏移量;φ和ψ分別為軌道面內和面外相位角。

相較于遠距離觀測和地面觀測,航天器抵近觀測可獲得更加精細的目標特征數據。利用多航天器協同觀測可有效提升任務時效性,尤其是針對高軌航天器。單個航天器對地球同步軌道目標繞飛觀測一周耗時約24小時,觀測效率較低。利用多航天器協同觀測,再將多個航天器的觀測信息融合,可有效縮短所需觀測時間。

集群航天器協同觀測任務如圖2所示。初始時刻,集群航天器在己方航天器周圍進行伴飛。任務開始后,需從伴飛集群中選擇部分或全部航天器進入目標航天器的繞飛軌道,對目標執行協同觀測任務。首先,需要優化觀測點的相對狀態。受光照條件影響,每個觀測點對應的觀測收益不同,集群中各航天器轉移至不同觀測點所需消耗的燃料也不相同。其次,綜合考慮觀測收益和燃料消耗,確定集群中各航天器前往各觀測點的實際收益。最后,求解任務分配序列為集群內各航天器分配任務,使得集群整體收益最大。

圖2 協同觀測任務示意圖Fig.2 Diagram of cooperative observation mission

由式(1)可知,φ決定航天器在繞飛軌跡上的相對位置。假設集群航天器在繞飛軌道等相位分布,定義首個觀測點的面內相位角為φ1,則第j個航天器的面內相位角為

(2)

式中:0≤φ1<2π/Nt,Nt為觀測點個數,可根據觀測航天器數量、繞飛軌道周期、任務時間和觀測角度等參數提前設定。因此,當繞飛軌跡構型確定后,給定相位角φ1,即可確定所有觀測點的相對狀態。

集群航天器執行協同觀測任務時,需同時考慮觀測收益和轉移軌跡的燃料消耗。當航天器相機視場內出現強烈光源時,電荷耦合器件會發生浮散現象,導致成像不清晰。因此,觀測航天器進行成像觀測時,需滿足光照角約束。

(3)

式中:rct和rcs分別表示地球慣性坐標系下觀測航天器指向目標航天器和太陽的矢量。若θ小于預設的θmin,表示此時成像質量無法滿足要求。此外,當目標航天器進入地球陰影區時,觀測航天器也無法對其成像。因此,航天器i在觀測點j的觀測收益可表示為

(4)

式中:tobs表示觀測時長。當θ(t)≥θmin且目標航天器不處于地球陰影區時,oij(t)=1。否則,oij(t)=0。

航天器i機動至觀測點j消耗的燃料最優軌跡優化問題可表示如下:

(5)

式中:i,k=1,2,…,Ns且i≠k,j=1,2,…,Nt。xi(t)和ui(t)分別表示集群中第i個航天器的相對狀態和控制量,Ns為集群中航天器個數,xj表示第j個觀測點的相對狀態。動力學模型采用經典的Clohessy-Wiltshire方程,矩陣A和B的具體表達式參見文獻[29]。Tmax為推進器最大推力值。xi(t0)=xi0和xi(tf)=xj表示航天器i的初始狀態和終端狀態分別為xi0和xj,C=[I3×303×3],Rcol為兩航天器間最小容許距離。

任務指派的決策變量c∈Ns×Nt,cij∈{0,1},其中cij=1表示第i個航天器部署在第j個觀測點。否則,cij=0。為使得每個觀測點只有一個航天器,且每個航天器至多只前往一個觀測點,任務分配模型可表示如下:

(6)

式中:J=ω1O-ω2F。Jij表示航天器i執行任務j的實際收益等于觀測收益減去燃料消耗,ω1和ω2為對應的收益系數。

綜上所述,集群航天器協同觀測任務分配主要包括優化相位角φ1、計算收益矩陣和任務指派三部分。如圖3所示,相位角φ1決定所有觀測點的相對狀態,為相對運動軌跡規劃提供終端邊界條件。收益矩陣J為任務指派提供分配指標,任務指派確定的決策向量c最終決定集群航天器的總收益。

圖3 集群航天器任務分配流程圖Fig.3 Flow chart of task assignment for spacecraft swarm

2 基于深度神經網絡的燃料消耗預測

航天器相對運動燃料最優軌跡規劃問題可轉化為非線性最優控制問題,并利用凸優化等數值優化算法進行求解。但隨著集群規模增大,任務分配的計算量急劇增加,以至于現有計算條件難以滿足在線規劃的需求。為提高計算效率,本文利用深度神經網絡直接預測航天器相對運動的燃料消耗,從而替代數值優化過程。

深度神經網絡包含一個輸入層、一個輸出層和多個隱藏層,輸入層和輸出層的維度分別與輸入和輸入數據維度一致,每個隱藏層包含多個神經元。本文選用初始和終端繞飛軌道特征參數[b0,c0,φ0,ψ0,bf,cf,φf,ψf]作為神經網絡的輸入,最優控制對應的燃料消耗矩陣F為輸出,如圖4所示。

圖4 深度神經網絡示意圖Fig.4 The diagram of deep neural network

2.1 數據生成與預處理

實際任務中航天器的尺寸遠小于集群構形尺寸,衛星間發生碰撞的概率通常較小。為提高迭代效率,在任務分配階段可先不考慮避碰約束,然后再評估最優分配方案是否會發生碰撞,若發生碰撞可利用文獻[15]中基于序列凸優化和模型預測控制的閉環制導策略進行在線調整。因此,在離散化和解耦的基礎上可將集群重構軌跡規劃問題轉化為如下凸優化問題:

(7)

式中:i=1,2,…,Ns,j=1,2,…,Nt,k=0,1,…,Nd-1,Nd為離散步數。xi(k)和ui(k)分別表示行航天器i第k步的相對狀態和相對控制向量,Ad和Bd可由離散形式的相對運動方程推導而得。

假設目標航天器位于地球同步軌道,集群航天器從10 km外的伴飛軌道轉移至相對坐標原點的繞飛軌道,集群航天器最大推力加速度為0.98 m/s2,飛行時長為800 s,繞飛軌道的各參數服從均勻分布,取值范圍如表1所示。

表1 繞飛軌道參數取值范圍Table 1 Value ranges of fly-by orbit parameters

在各參數的取值范圍內隨機生成繞飛軌道參數,構造相對運動初始和終端邊界條件,再利用凸優化算法求解上述凸優化問題,得到對應的燃料消耗指標F。仿真共生成15萬組數據,并按照8∶1∶1的比例構建訓練集、驗證集和測試集。

由于各參數間的數量級相差較大,采用最大-最小歸一化方法對繞飛軌道參數和燃料消耗指標進行歸一化處理。最大-最小歸一化方法是深度學習數據預處理中常用的一種方法,可將樣本轉化為[0,1]區間內無量綱的純數值,便于不同單位或量級的參數能夠進行比較和加權,進而提升神經網絡的收斂速度和精度,其定義如下:

(8)

式中:p為原始數據,pmax和pmin分別表示原始數據的最大值和最小值,p′為歸一化之后的數據。

2.2 神經網絡訓練與優化

選用全連接神經網絡,隱藏層的之間的激活函數為Relu函數。神經網絡優化目標為訓練樣本與預測值之間的均方差。

(9)

神經網絡規模主要取決于隱藏層的層數和神經元數目。網絡規模過大會導致結構復雜、訓練時間增長,甚至出現過擬合現象。網絡規模過小難以擬合輸入和輸出之間的映射關系,無法滿足訓練精度。本文對比了不同結構的神經網絡對訓練結果的影響,神經網絡的測試結果如表2所示。

表2 不同網絡的相對誤差對比Table 2 Comparison of relative errors of different networks

神經網絡“3×20”表示該網絡隱藏層數和隱藏層神經元數分別為3和20。由表2可知,神經網絡的預測誤差服從正態分布,且誤差的均值接近零。第1-4組仿真中隱藏層的神經元數不變,隨著隱藏層層數增加,相對誤差的標準差先減小而后基本保持不變,其中7層和9層網絡預測精度相近。對比第5-8組仿真中的7層神經網絡,隨著隱藏層神經元數增加,相對誤差標準差先逐漸減小而后增大。對比第9-12組仿真,預測結果的相對誤差標準差同樣呈現先減小后增大的規律。表2中神經網絡“7×140”和“9×120”的預測精度相近,網絡訓練時間分別為1.8和2小時。綜合考慮訓練精度和訓練效率,本文選用神經網絡“7×140”用于后續仿真中預測轉移軌跡的燃料消耗,該網絡預測相對誤差的3σ區間為[-3.78%, 3.68%],即相對誤差位于該區間的概率為99.73%。實際任務中可利用地面控制站的計算資源生成樣本并訓練神經網絡,僅將訓練后的神經網絡參數上傳至觀測航天器上,避免占用寶貴的在軌計算資源。

為驗證深度神經網絡的適應性,利用上述針對地球同步軌道航天器設計的神經網絡“7×140”分別預測低軌、中軌和高軌航天器相對運動的燃料消耗,其中每個軌道隨機生成100個任務場景,神經網絡“7×140”預測值相較于凸優化精確解的相對誤差的均值和標準差如表3所示。仿真結果表明,在地球同步軌道上下100 km處,神經網絡“7×140”的預測精度與該網絡對地球同步軌道目標的預測精度相近。但當軌道高度與地球同步軌道相距較大時,其預測誤差較大,可信度較低,需利用對應的軌道仿真數據重新訓練神經網絡。

表3 不同軌道處燃料消耗預測相對誤差Table 3 Relative errors of predicted fuel consumption at different orbits

3 魯棒自適應拍賣算法

拍賣算法借鑒了人類社會中的競拍流程,各航天器根據當前狀態計算任務收益,通過與鄰居通信了解對方的競價信息并調整自身的任務報價,最終選擇凈收益最大的任務。

由于分配問題中任務數與航天器數可能不相等,本文通過構造虛擬收益矩陣和虛擬分配方案,將原問題轉化為任務數與航天器數一致的分配問題,以便于應用分布式拍賣的算法。對航天器i執行如下步驟:

1)集群內每個航天器根據當前狀態和觀測點狀態,分布式計算觀測收益、燃料消耗,并構造收益矩陣J∈Ns×Nt,其中Jij表示航天器i執行任務j的收益。若Ns≠Nt,則通過補零的策略將J展為虛擬收益方陣Ns×Ns。

3)航天器i通過星間通信獲取上一輪中所有鄰居Ni(k)對任務j的最高報價p(k+1)及對應的最高出價者b(k+1)。

4)如果航天器i對目標任務的上輪報價小于等于此輪報價,且目標任務的最高出價者不是航天器i,則將凈收益最高的任務分配給航天器i,同時在上輪報價的基礎上增加γi,其中γi表示航天器i執行所有任務的最大凈收益和第二凈收益之差再加上增量ε。

(10)

3.1 ε自適應調整策略

增量ε會影響拍賣算法計算效率和精度,通過定義任務集和航天器集之間的不匹配度,可使得ε在迭代過程中可根據不匹配度自適應調整。

初始時刻航天器對所有任務報價均為零,所有航天器都傾向于執行收益最大的任務,而其他任務沒有航天器執行,此時任務集與航天器集的匹配度較低。在迭代過程中,航天器不斷提升自身報價,并根據凈收益調整分配目標,最終實現任務與航天器一一匹配。定義如下指標M表征航天器集與任務集之間的不匹配程度

(11)

式中:

(12)

由式(11)和(12)可知,M∈[0,Nt]。若執行所有任務的航天器數量均不等于1,即M=Nt,ε可取較大值以快速提高任務報價,增加航天器集與任務集間的匹配程度。隨著不匹配度M值的減小,ε值可逐漸減小,使得算法收斂精度更高。因此,為實現增量ε隨不匹配度M自適應調整,定義如下線性變化關系

(13)

式中:εmin和εmax為設定的最小和最大增量。

3.2 魯棒自適應拍賣算法

在實際任務中,考慮到航天器發生故障失去任務能力、通信失聯等不確定因素,需要針對不確定情況下任務分配展開研究。集中式分配方法根據已知全局信息為集群中所有航天器分配任務,若發生不確定事件,則需在初次分配結束后根據更新的狀態信息重新分配。分布式分配方法在優化過程中每個航天器需要反復獲取其他航天器的報價信息以調整自身報價,若某個航天器發生故障或通信失聯,可以直接調整其收益和報價信息進行魯棒規劃。

定義通信矩陣G∈Ns×Nt,若在第k迭代中航天器i能接收到航天器j的報價信息,則Gij(k)=1。若航天器i無法接收到航天器j的報價信息,或收到航天器j的故障信息,則Gij(k)=0。假設航天器間采用雙向通信,則Gij(k)=Gji(k)。

假設集群中所有航天器i在第k輪迭代中都無法接收到航天器j的報價信息,或僅收到航天器j發出的故障信息,則認為航天器j失效,無法繼續執行任務,其中i,j=1,2,…,Ns且i≠j。由于航天器j已失去任務能力,令其執行所有任務的收益均為零,即

(14)

在前k-1輪迭代中,其他航天器已經分配到相應的任務,為避免失效航天器j對其他航天器任務分配結果的干擾,將其第k-1輪報價置零,即

pj(k-1)=0

(15)

通過將失效航天器的收益和報價信息置零,可降低失效航天器的后續分配過程中的競爭力。若任務數小于航天器數,則失效航天器將無法分配到實際任務。若任務數等于航天器數,則失效航天器只能分配到收益較低的任務,從而使得整個集群收益最大。完整的魯棒自適應拍賣算法流程如圖5所示。

圖5 魯棒自適應拍賣算法流程圖Fig.5 Flow chart of robust adaptive auction algorithm

4 仿真校驗

為驗證魯棒自適應拍賣算法性能,在給定觀測點的場景下,針對不同規模的分配問題和不同ε值進行數值仿真。此外,針對集群航天器協同觀測任務分配問題展開仿真,并與凸優化和遺傳算法進行對比。

4.1 魯棒自適應拍賣算法性能驗證

假設仿真開始時間為2022年6月16日0時0分0秒,目標航天器在地球慣性坐標系下的初始位置和速度分別為rt=[37 097.59, 20 029.27,46.28]Tkm和vt=[-1.46, 2.70, 0.11]Tkm/s。初始繞飛軌道參數為b0=1 000 m,c0=900 m,yc0=10 km,ψ0=-π/6,首星面內相位角為π/10,其他衛星呈等相位分布。目標繞飛軌道參數為bf=1 000 m,cf=800 m,ycf=0 m,ψf=π/4。繞飛時長為24小時,觀測收益系數ω1=1/864,燃料消耗系數ω2=1。集群航天器最大推力加速度為0.98 m/s2,轉移時間為800 s。由于集群航天器間相對距離較近,假設所有航天器均能雙向通信。在分布式迭代中過程,通信拓撲中鄰居信息、收益矩陣、價格矩陣、報價增量和當前分配矩陣是每個航天器算法模塊的輸入,航天器根據輸入信息調整任務報價,獲得收益最高的任務,并將報價信息傳遞至通信拓撲中,進入下一輪迭代,直至算法收斂[9]。仿真計算機處理器主頻和內存分別為3.0 GHz和16 GB。為排除非線性優化算法和燃料預測方法的影響,令首個觀測點面內相位角為0,其他觀測點在繞飛軌道上等相位排列,利用深度神經網絡預測轉移軌跡的燃料消耗。

首先,在航天器與觀測點數目相等的任務場景中驗證拍賣算法、遺傳算法和蟻群算法的計算性能,參數設置如表4所示,其中優化終止條件取值20表示收益值連續20代不變則認為算法收斂。仿真中遺傳算法的優化終止條件設為20、50和100,分別用GA20、GA50和GA100表示。

由圖6(a)可知,拍賣算法和遺傳算法的計算耗時均小于1 s,優于蟻群算法。圖6(b)表示遺傳算法和蟻群算法相較于拍賣算法的總收益差值,遺傳算法和蟻群算法的總收益值均低于拍賣算法,且總收益差值隨問題規模增加而整體呈現放大趨勢。此外,隨著優化終止條件取值增大,遺傳算法的計算精度逐漸提高,計算效率逐漸降低。在當前仿真條件下,拍賣算法的計算效率和精度均優于遺傳算法和蟻群算法。由于GA100的計算精度最接近拍賣算法,后續仿真中遺傳算法的優化終止條件設為100代。此外,由于種群初始化和進化操作是基于概率隨機確定的,所以遺傳算法和蟻群算法每次的計算結果略有不同。對于魯棒自適應拍賣算法而言,當ε取值范圍固定,每次計算結果一致。

圖6 不同算法的性能對比Fig.6 Performance comparison of different algorithms

其次,為驗證ε自適應調整策略的性能,在不同規模的任務場景中展開仿真,在各個場景中觀測點數與航天器數目一致。傳統拍賣算法的ε值分別取0.01、0.05、0.1,魯棒自適應拍賣的εmin=0.01,εmax=0.1,仿真結果如圖7所示。為便于對比,圖7(b)中縱軸代表拍賣算法的總收益值與遺傳算法的差值,遺傳算法的參數設置與表4中GA100一致。

圖7 拍賣算法取不同ε值的性能對比Fig.7 Performance comparison for auction algorithm with different ε

由圖7(a)和可知,隨著分配問題規模變大,拍賣算法和遺傳算法所需的計算時間都逐漸增加。基于ε自適應調整策略的魯棒自適應拍賣算法所需計算時間約為ε=0.01對應的拍賣算法一半。隨著ε的減小,拍賣算法的總收益逐漸增加。魯棒自適應拍賣的總收益與ε=0.01時的拍賣算法的總收益極為接近。綜上所述,ε∈[0.01, 0.1]的魯棒自適應拍賣計算精度與傳統拍賣算法ε=0.01相近,但計算耗時僅為其一半。

最后,針對集群任務分配過程可能存在航天器故障、通信失聯等不確定情況展開仿真。假設航天器個數和任務數均為100個,在拍賣算法的迭代過程中,隨機確定發生故障的航天器的編號和迭代輪數,采用任務重規劃和魯棒自適應拍賣進行任務再分配。任務重規劃的思路是在發生故障后,根據更新的航天器信息重新采用分布式拍賣算法進行任務分配。魯棒自適應拍賣則是在原有的報價信息基礎上,將故障航天器的收益和報價信息置零,繼續規劃,仿真結果如表5所示。

表5 不確定條件下拍賣算法的分配結果Table 5 Task assignment results of auction algorithm under uncertainty

表5中第一行數據表示第34號航天器在第511輪迭代中出現故障,集群中其他衛星根據更新的信息重新分配任務需迭代11 964輪,則總迭代次數為12 475。若采用魯棒自適應拍賣算法則只需迭代11 941次,兩種分配方法的收益誤差為0.009。由表5可知,不確定情況下兩種任務重分配方法都能成功完成任務分配,且分配結果的任務總收益基本一致。由于魯棒自適應拍賣能利用已有的分配信息,及時調整收益矩陣和報價信息,其總迭代次數在所有算例中均小于任務重分配策略。此外,若故障發生較早,則兩種方法的迭代輪數相近,若故障發生較遲,則魯棒自適應拍賣算法的迭代輪數遠小于任務重分配策略。

4.2 在線任務分配方法驗證

針對航天器集群協同觀測任務分配問題,本節設計兩組不同規模的算例以驗證基于深度神經網絡和魯棒自適應拍賣算法的快速任務分配方法的性能。

首先,從包含6個航天器的集群中選擇4個航天器執行協同觀測任務。相位角φ1優化采用序列二次規劃方法,航天器轉移燃料消耗分別采用凸優化和深度神經網絡進行計算,任務分配基于遺傳算法和魯棒自適應拍賣算法。由于非線性優化算法的計算結果受初值影響較大,仿真中每個算例重復計算10次,取收益最高的一組解作為最優解,并統計10次仿真的平均計算時間,仿真結果如表6所示。

表6 不同方法的任務分配結果Table 6 Task assignment results of different methods

表6中CVX和DNN分別表示利用凸優化和深度神經網絡求解轉移軌跡的最優燃料消耗。φ1表示目標繞飛軌道上首個觀測點的面內相位角,指派方案中[0,1,2,3,4,0]代表航天器1和6不機動,航天器2至5分別轉移到觀測點1至觀測點4。

基于凸優化和深度神經網絡的方案總收益分別為274.31和273.51,相對誤差小于0.3%。圖8中展示了前兩個算例中各航天器乘以收益系數后的觀測受益、燃料消耗和實際收益。航天器1和6未執行任務,對應的收益值始終為零,航天器2至5的觀測收益、燃料消耗和實際收益基本一致,再次證明基于深度神經網絡的燃料預測方法的可靠性。

圖8 集群中各航天器的收益值Fig.8 Performance for each spacecraft in swarm

對比表6中前兩種方法的計算時間可知,基于凸優化的方案在優化連續變量φ1過程中需多次調用底層的凸優化算法求解轉移軌跡,因此計算效率較低,CVX-GA方案耗時1 962.33 s,而DNN-GA方案直接利用深度神經網絡預測燃料消耗,僅耗時1.47 s,計算效率提升約兩個數量級。對比CVX-GA和CVX-DA方法的仿真結果可知,CVX-DA方案將凸優化求解最優轉移軌跡的計算過程分散到集群內各個航天器上,其仿真耗時僅為CVX-GA方案的1/6。同理,對比DNN-GA和DNN-DA方法的計算結果可知,DNN-DA方案的計算效率明顯優于DNN-GA方案。綜上所述,基于深度神經網絡和魯棒自適應拍賣算法的在線分配方法能在保證計算精度的同時,將計算效率提升約兩個數量級。

為進一步驗證基于深度神經網絡的分配方案在不同集群重構問題中的性能,假設集群航天器的規模和觀測點數為10至100個。由于基于凸優化的CVX-GA和CVX-DA方案耗時過長(大于24小時),表7中僅展示DNN-GA和DNN-DA方案的仿真結果。

表7 不同規模集群任務分配結果Table 7 Task assignment results of swarm with different sizes

由表7可知,隨著集群航天器規模增大,任務分配的平均計算時間也逐步增加。由于采用分布式框架,DNN-DA的計算效率比DNN-GA提高了約一個數量級,兩者的總收益相近。值得強調的是,基于凸優化的CVX-GA和CVX-DA方法在當前計算配置下難以求解上述算例,而DNN-DA解決包含100個航天器的大規模集群的任務分配問題僅耗時8.72 s,為在線求解集群航天器任務分配問題提供新思路。

5 結論

針對集群航天器協同觀測任務分配問題,本文提出了一種基于深度神經網絡和魯棒自適應拍賣算法的快速任務分配策略。深度神經網絡可用于預測航天器相對運動轉移軌跡的最優燃料消耗,數值仿真表明神經網絡預測的相對誤差小于4%。魯棒自適應拍賣算法適用于任務數與航天器數不一致的分配問題,且能有效應對通信失聯、航天器故障等不確定情況。基于深度神經網絡和魯棒自適應拍賣算法的在線任務分配方法可在保持計算精度的同時,將計算效率提升約兩個數量級。未來工作將進一步考慮通信代價對分布式任務分配算法的影響。