劉 源, 李玉玲, 郝 勇, 周俊峰
(哈爾濱工程大學自動化學院, 黑龍江 哈爾濱 150001)
本文應用協同進化算法解決兩航天器的三維空間追逃問題,這是一個對抗雙方的對策組合問題,此對策組合中存在納什均衡。航天器追逃是一個復雜的過程,對抗雙方需根據對方的實時信息進行自主決策,不斷調整運動軌跡來實現逃避或追擊。文獻[1]通過目標視線法解決了一種航天器追逃問題,并通過線性反饋和一個二次目標方程,生成有效解決線性二次問題的最優反饋方法,但誤差會隨二次積分而累積。文獻[2]采用一種半直接法的數值求解方法,通過此方法解決了共面軌道的追逃問題及三維空間兩戰斗機對抗問題,此方法求解得到的數值精度受近似初值的影響。微分對策在空間飛行器追逃問題的研究中應用廣泛,對納什均衡點的研究成為微分對策的熱點研究方向。文獻[3]基于微分對策理論研究了兩航天器在固定時間下的追逃問題的最優控制策略及數值求解方法,但此方法需解24維非線性微分方程組,計算較復雜。
協同進化算法是基于協同進化論基礎上提出的一種新的進化算法。協同進化思想基于博弈論的觀點,采用相互對立的種群表示對抗雙方,進化過程中種群之間互相交換信息,并根據對方種群提供的信息向最優化各自的支付函數方向進化。協同進化算法最早由Hillis[4]提出,算法以捕食—獵物協同進化關系為模型,使算法的智能搜索能力增強。文獻[5]提出協同進化增廣Lagrangian方法將對策雙方的個體轉換成近似零和矩陣后再求解鞍點。協同進化算法在生產制造、工業設計、目標識別和生命科學等領域應用廣泛。近年來,協同進化算法在航空航天領域引起關注。文獻[6]基于協同進化算法解決了衛星編隊自主重構問題,并得出Pareto最優解的求解方法。文獻[7]提出多中心合作協同進化規劃算法,解決了“分治—合作”策略的多衛星中心協同規劃問題。目前,采用協同進化算法解決空間追逃問題的研究較少,尚未得到廣泛的應用。與傳統遺傳算法相比,協同近化算法具有較強的自主搜索能力和漸進學習能力,并且算法的魯棒性強。由于協同進化算法的編碼特性,其對控制量編碼時得到的是離散型數據,因此,可采用B樣條基函數對控制量進行擬合。B樣條曲線是在貝塞爾曲線的基礎上改進而來的,可以對多種形式的函數變量進行逼近,具有很好的通用性和簡潔性。
本文研究在近地圓軌道附近的兩航天器在連續小推力作用下的追逃問題,并且對抗雙方的初始運動狀態為已知,對抗時間固定。根據納什均衡[8-10]理論的基本思想,以二者終端的相對距離作為支付條件,建立航天器在參考軌道中的動力學模型,利用協同進化算法規劃出對抗雙方的最佳追逃策略組合,為航天器追逃問題提供一種較為有效的解決方法。
在追捕器和逃逸器附近的圓軌道上選取一動點,以該動點為坐標原點建立如圖1所示的動坐標系。圖1中O為參考坐標系原點,X軸在地心和O點的連線上,Y軸沿軌道運動方向,Z軸與X軸、Y軸構成右手系,P表示追捕器,E表示逃逸器。兩航天器的空間位置如圖1所示。

圖1 航天器空間追逃參考坐標系
空間追逃問題是在嚴謹數學模型下的沖突對抗問題,屬于博弈論范疇[11-13],其最優策略求解的關鍵在于納什均衡點的計算。本文將求解三維空間中兩航天器最優追逃策略問題轉化為利用協同進化算法求解納什均衡點[14-15]的問題。
在相對軌道參考坐標系中,航天器單位質量控制力ui在o-xy平面內的投影與x軸夾角為α(-π<α≤π),單位質量控制力ui與o-xy平面夾角為β(-π/2<β≤π/2),如圖2所示。

圖2 單位質量控制力在參考軌道中投影
那么航天器單位質量控制力ui在參考坐標系三軸分量為
(1)
式中,(fix,fiy,fiz)為航天器相對參考坐標系的單位質量軌道控制力在參考坐標系上的投影;i為P或E。由式(1)可知,通過調整俯仰控制角α和偏航控制角β,即可改變航天器三軸控制力,進而實現軌道機動。
在二體引力作用下,當追捕器和逃逸器運行在近似圓軌道,并且兩航天器的相對距離相比參考軌道長半軸為小量時,兩航天器在相對參考坐標系中的運動可由C-W方程描述[16],本文的研究對象符合C-W方程的適用條件。
(2)
式中,ω為參考軌道的平均軌道角速度;(xi,yi,zi)為航天器在參考軌道坐標系中位置分量。
將式(2)表示成狀態空間表達式,即
(3)
式中
(4)
(5)
(7)
當航天器初始狀態為已知時,式(3)的解析解為
(8)
其中
(9)
Φ(t,t0)為系統的狀態轉移矩陣,其具體形式[17]為
(10)
式中,τ=t-t0。當ui(t)為常數ui0時,可計算出
(11)
故式(8)可進一步表示為
xi(t)=Φ(t,t0)xi(t0)+Ψ(t,t0)ui0
(12)
由式(12)可知,若已知航天器初始狀態xi(t0)及控制力ui0,即可求得航天器任意時刻在相對參考軌道的運動狀態。

xis(tn)=Φ(tn,t0)xis(t0)+EUi+Ψ(tn,tn-1)uin
(13)
其中
(14)
(15)
利用追逃雙方在參考軌道中的末段相對距離設計支付函數,即
(16)
協同進化算法求解空間追逃問題框架如圖3所示。

圖3 協同進化算法求解空間追逃問題框架
追逃雙方以vi為輸入信號,其中vi=[αi,βi]T,其中i為P或E。協同進化算法以α、β為編碼對象。假設固定對策時間為Ts,那么在時間區間[T(k-1)/n,Tk/n](k=1,2,…,n)內對抗雙方的輸入信號為vik,其中,n為離散化步長,則兩航天器的進化算法編碼可表示為(vi1,vi2,…,vin)。采用隨機生成方式產生追逃雙方的初始種群分別為IP和IE,種群規模為N。
利用B樣條基函數對控制量α、β進行逼近擬合。在[T(k-1)/n,Tk/n]控制量可描述為(Q+n)個B樣條基函數在各時間區間上相加的形式,即
(17)
式中,ak表示基函數系數;Q表示基函數的階次;Bk(t)是節點序列k的Q階B樣條基函數,則第k個P階B樣條基函數,可通過德布爾-考克斯迭代計算公式進行描述,即
(18)
利用B樣條基函數將協同進化算法編碼得到的離散量進行逼近擬合,得到對抗雙方俯仰控制角α和偏航控制角β的時間歷程,進而根據式(1)及式(13)得到對抗雙方的相對位置。
兩航天器在對抗過程中,可以通過星載的傳感器獲取自己的狀態,可以利用地面雷達或高軌的衛星監測網及數據鏈來獲得對方狀態信息。本文的研究是假設對抗雙方是理性的,會根據對方當前狀態采取對其自身最有利的控制策略,然后參與博弈的成員最終會達到納什均衡狀態,理性對手的假設是博弈理論成立的基礎。適應值共享[18-20]是維持種群多樣性的有效方法,可實現在Pareto集合中實現均勻采樣,避免算法落入局部最優。
設xej為逃逸種群中的個體j,xpw為追捕種群中的個體w,那么兩個體的末段相對距離為
djw=d(xej,xpw)
(19)
定義共享函數為
(20)
式中,a為常數;σshare為小生境半徑,由期望的個體之間最小分離程度估計出來。種群中個體j的小生境數sj由種群中全部個體的共享函數之和得到,即
(21)
那么逃逸種群中個體j的共享適應度為
(22)
追捕種群中個體k的共享適應度為
(23)
3.3.1選擇算子
選擇算子采用具有隨機采樣特征的輪盤賭選擇,其基本思想是根據每個個體適應值在種群中所占的比例來確定該個體被選中的概率,可確保每個個體都有生存下來的機會,避免算法出現早熟現象。
3.3.2協同交叉算子
種群中個體x=(x1,x2,…,xn)和個體y=(y1,y2,…,yn)的差異度為
(24)
式中,n為個體長度。那么當兩個體的差異度D(x,y)>u時(u為[0,1]隨機數),采用單點交叉方式產生新的個體。
當兩個體的差異度D(x,y)

圖4 兩點交叉運算
3.3.3變異算子
變異算子采用有向變異方法,假設梯度方向由d近似表示,那么變異后的子代個體可為
x′=x+rd
(25)
式中,r為非負隨機數。近似梯度d的第m個元素計算方法為
(26)
式中,Δxm為小實數。采用有向變異方法增加種群多樣性的同時,能夠使種群中的個體朝有益方向進化,避免變異產生劣勢個體,增強算法的收斂性。
3.3.4協作算子


(27)


(28)
IP和IE為兩個獨立進化的種群,在不同的決策空間進行搜索。通過協作算子,使兩個種群可相互交換信息,根據對方提供的信息來決策本種群的進化方向,實現兩個種群的協同進化。
為避免隨機因素影響導致優勢解丟失,在協同進化過程中采用精英保留機制,在每一代進化過程中,將父代中u個個體和此父代產生的子代中的λ個個體合并得到新的群體,并在此群體中挑選優勢個體組成下一代父種群[21-22]。操作方法如圖5所示。

圖5 精英保留機制示意圖
步驟1對追逃問題進行編碼設計,產生追逃雙方的初始種群。
步驟2計算種群中每個個體的共享適應度。
(1) 追捕種群的個體分別在逃逸種群中隨機選取10個個體與之對抗,累計適應度;
(2) 將追捕種群的個體按照適應值由大到小排序,選中10個最優個體。逃逸種群中的每個個體分別與選中的這10個追捕種群的最優個體對抗,累計適應。
算法采取此對抗方式,可減小算法計算冗余度,并且能夠保證每個個體至少參與10次對抗,保留種群的多樣性。
步驟3判斷是否滿足算法終止條件。若滿足,則執行步驟5;否則執行步驟4。
步驟4分別對追、逃種群進行選擇、交叉、變異、協同操作,得到新的種群。返回步驟2。
步驟5輸出追、逃種群的最優個體。
步驟6解碼計算,得到最優追逃策略。
算例1追逃雙方初始位置在異面軌道情況下,追捕器和逃逸器的最大加速度分別為aP=0.017g和aE=0.013g,其中,g≈9.8×10-3km/s2,對策時間為900 s,仿真步長為10,算法進化代數為500,種群規模為250,交叉概率為0.5,變異概率為0.05。參考軌道參數如表1所示。對抗雙方相對參考軌道的初始運動狀態如表2所示。由協同進化算法得到的最優追逃路徑如圖6和圖7所示。追逃雙方加速度在參考軌道中三軸分量隨步長變化關系如表3所示。

表1 參考軌道參數

表2 異面軌道追逃雙方初始運動狀態參數

圖6 對抗時間為900 s時異面軌道兩航天器最優追逃路徑

圖7 對抗時間為900 s時異面軌道追逃雙方運動軌跡在 參考軌道隨時間變化曲線
由圖6和圖7可知,本文采用的協同進化算法迭代收斂。當兩航天器初始位置為異面軌道,對抗時間固定為900 s時,本文所采用的協同進化算法能夠規劃出兩航天器的最優追逃路徑,并且在追捕器具有相對優勢時,最終能夠捕捉逃逸器。
對策時間為500 s時,由協同進化算法得到的最優追逃路徑如圖8和圖9所示。

表3 對抗時間為900 s時異面軌道追逃雙方加速度在參考軌道中的三軸分量所占比例變化

圖8 對抗時間為500 s時異面軌道兩航天器最優追逃路徑


圖9 對抗時間為500 s時異面軌道追逃雙方運動軌跡在參考 軌道隨時間變化曲線
由圖8和圖9可知,當追蹤器由于對抗時間不足,未能捕捉到逃逸器時,對抗雙方隨對抗時間變化仍呈現出追逃效果。
為研究追蹤器相對優勢大小對追逃效果的影響,在表2中其他參數不變的基礎上將追蹤器的初始相對速度縮小為(11.2,11.67,10.38)(單位m/s)在對策時間為900 s時,其最優追逃路徑如圖10和圖11所示。對比圖6和圖7可知,在對策時間及初始邊界條件相同的條件下,當追蹤器的相對優勢縮小時,追蹤器將難以捕獲逃逸器。

圖10 對抗時間為900 s時異面軌道兩航天器最優追逃路徑 (追蹤器的相對優勢縮小)

圖11 對抗時間為900 s時異面軌道追逃雙方運動軌跡在參考軌道隨時間變化曲線(追蹤器的相對優勢縮小)
算例2追逃雙方初始位置在共面軌道時,追捕器和逃逸器的最大加速度分別為aP=0.023g和aE=0.015g,其中,g=9.8×10-3km/s2,對策時間為900 s,仿真步長為10,算法進化代數為500,種群規模為250,交叉概率為0.5,變異概率為0.05。參考軌道參數如表1所示。對抗雙方相對參考軌道的初始運動狀態如表4所示。由協同進化算法得到的最優追逃路徑如圖12和圖13所示。追逃雙方加速度在參考軌道中三軸分量所占比例隨步長變化關系如表5所示。

表4 共面軌道追逃雙方初始運動狀態參數

表5 對抗時間為900 s時共面軌道追逃雙方加速度在參考軌道中的三軸分量所占比例變化

圖12 對抗時間為900 s時共面軌道兩航天器最優追逃路徑


圖13 對抗時間為900 s時共面軌道追逃雙方運動軌跡在 參考軌道隨時間變化曲線
由圖12和圖13可見,算法在算例2的迭代仍然收斂,結果表明,對策在900 s時,追蹤器能夠捕獲逃逸器。且追逃雙方在Z軸上的軌跡一致,說明追逃雙方在初始位置在共面軌道條件下最優追逃策略為發生在共面軌道。
對策時間為500,由協同進化算法得到的最優追逃路徑如圖14和圖15所示。由圖14和圖15可知,追蹤器由于對抗時間不足,未能捕捉到逃逸器,但對抗雙方隨對抗時間變化仍呈現出追逃效果,且追逃雙方在Z軸上的軌跡一致,這與算例2結論一致。

圖14 對抗時間為500 s時共面軌道兩航天器最優追逃路徑

圖15 對抗時間為500 s時共面軌道追逃雙方運動軌跡在 參考軌道隨時間變化曲線
算例3基于算例1的邊界條件,對抗時間為900 s時,采用微分對策方法解決航天器追逃問題得到的仿真結果如圖16所示。對抗時間為500 s時,采用微分對策方法解決航天器追逃問題得到的仿真結果如圖17所示。規劃耗時如表6所示。

圖17 對抗時間為500 s時共面軌道追逃雙方運動軌跡在參考軌道隨時間變化曲線(微分對策法)

Table 6 Co-evolutionary and differential strategy time consuming s
當對抗時間足以使追蹤器捕獲逃逸器時,存在多種最優對抗策略。但對抗時間不足時,采用本文所提出的方法與采用微分對策方法得到的最優追逃軌跡趨勢大致相同,證明本文算法搜索到的追逃策略為最優策略。
采用微分對策方法能夠規劃出航天器追逃路徑,且在對抗時間相同的條件下,使用本文方法與微分對策方法,航天器所消耗的能量相同。但微分對策方法需求解24維非線性微分方程組,且對策模型中含有非線性時變項,計算較復雜。而本文所采用的協同進化算法結構簡單,適應性強,可在本文所研究的內容基礎上,面向多航天追逃的策略求解問題進行下一步研究。
基于協同進化算法及納什均衡思想解決了一類航天器三維空間追逃問題。所提方法對于追逃雙方初始位置為異面軌道或共面軌道均能規劃出最優控制策略及相應的追逃軌跡,并得到兩航天器在追逃過程中的三軸控制量。仿真算例還表明,兩航天器的初始軌道為共面軌道時,追逃雙方在追逃過程中的最優控制策略仍發生在共面軌道上。與微分對策方法相比,本文算法結構簡單,規劃耗時短,且具有較好的魯棒性。
參考文獻:
[1] RAIVIO T, EHTAMO H. Visual aircraft identification as a pursuit-evasion game[J]. Journal of Guidance, 2000, 23(4):701-708.
[2] LUO Y Z,LEI Y J,TANG G J.Optimal multi-objective nonlinear impulsive rendezvous[J].Journal of Guidance,Control,and Dynamics,2007,30(4):994-1002.
[3] 張秋華, 孫松濤, 諶穎, 等. 時間固定兩航天器追逃策略及數值求解[J]. 宇航學報, 2014,35(5):537-544.
ZHANG Q H, SUN S T, CHEN Y, et al. Strategy and numerical solution of pursuit-evasion with fixed duration for two spacecraft[J]. Journal of Astronautics, 2014,35(5):537-544.
[4] HORIE K, CONWAY B A. Optimal fighter pursuit-evasion maneuvers found via two-sided optimization[J].Journal of Guidance, 2006,29(1): 105-112.
[5] TANK M J, SUN B C. Coevolutionary augmented Lagrangian methods for constrained optimization[J]. IEEE Trans.on Evolutionary Computation,2000,4(2):114-124.
[6] CETIN B, BIKDASH M, HADASH F Y. Hybrid nixed-logical liner programming algorithm for collision-free optimal path planning[J].IET Control Theory and Applications, 2007,1(2):522-531.
[7] GLUBOS A, CROWFORD J, LOHN J. A comparison of techniques for scheduling earth observing satellites[C]∥Proc.of the 16th Conference on Innovative Applications of Artificial Intelligence,2004:121-128.
[8] RATNOO A, SHIMA T. Guidance strategies against defended aerial targets[J]. Journal of Guidance, Control, and Dynamics, 2012, 35(4):1059-1064.
[9] MATTHEW B, SIMON L, ELIZABETH A. Path planning for improved visibility using a probabilistic road map[J]. IEEE Trans.on Robotics, 2010, 26(1): 195-200.
[10] PONTANI M, CONWAY B A. Numerical solution of the three-dimensional orbital pursuit-evasion game[J]. Journal of Guidance, 2009, 32(2):474-487.
[11] GUTMAN S, GOLDAM O, RUBINSKY S. Guaranteed miss distance in guidance systems with bounded controls and bounded noise[J]. Journal of Guidance, Control, and Dynamics, 2012,35(3):816-823.
[12] TAN K C, YANG Y J, GOH C K. Distributed cooperative coevolutionary algorithm for multiobjective optimization[J]. IEEE Trans.on Evolutionary Computation,2006,10(5):527-549.
[13] LI Q H, YANG S D, RUAN Y L. Improving optimization for genetic algorithms based on level set[J]. Journal of Computer Research and Development, 2006,43(9):1624-1629.
[14] SHIMA T. Optimal cooperative pursuit and evasion strategies against a homing missile[J]. Journal of Guidance, Control, and Dynamics, 2012,34(2): 414-424.
[15] YOU S H, LEE Y H, LEE W J. Parameter estimations of a storm surge model using a genetic algorithm[J]. Natural Ha-zards, 2012,60(3):1157-1165.
[16] 鄧泓, 仲惟超, 孫兆偉, 等. 基于遺傳算法的衛星攻擊路徑規劃方法研究[J]. 宇航學報, 2008, 30,(4): 1587-1592.
DENG H, ZHONG W C, SUN Z W, et al. Method research of satellite attacking path planning based on genetic algorithm[J]. Journal of Astronautics, 2008, 30(4): 1587-1592.
[17] 何定銀. 攔截衛星末段機動軌道規劃研究[D]. 哈爾濱: 哈爾濱工業大學, 2013:13-17.
HE D Y. Research on planning of terminal maneuver orbit for the intercepting satellite[D]. Harbin: Harbin Institute of Technology, 2013:13-17.
[18] SONG X M, ZHAN C S, XIA J. Integration of a statistical emulator approach with the SCE-UA method for parameter optimization of a hydrological model[J]. Chinese Science Bulletin, 2012, 57(26):3397-3403.
[19] LEUNG C S, LAM P M, SITU W C. A graphics processing unit accelerated genetic algorithm for affine invariant matching of broken contours[J]. Journal of Signal Processing Systems, 2012, 66(2):105-111.
[20] SHAN H B, ZHOU S H, SUN Z H. Research on assembly sequence planning based on genetic simulated annealing algorithm and ant colony optimization algorithm[J]. Assembly Automation, 2009,29(3):249-256.
[21] HILIS W D. Coevolving parasites improve simulated evolution as an optimization procedure[J]. Artificial Life II, 1992,43(5):313-324.
[22] 徐定杰,劉明凱,沈峰,等.基于自適應遺傳算法的DGPS整周模糊度快速解算[J].航空學報, 2013,34(2):371-377.
XU D J, LIU M K, SHEN F, et al. Fast DGPS integer ambiguity resolution using adaptive genetic algorithm[J]. Acta Aeronautica et Astronautica Sinica, 2013,34(2):371-377.