王 坤, 段欣然, 陳 征,2,*, 黎 軍,2
(1. 浙江大學航空航天學院, 浙江 杭州 310027; 2. 浣江實驗室, 浙江 諸暨 311800)
各類目標的逃逸和防御能力不斷提升,導致某些情況下導彈需以特定時間擊中目標才能實現有效毀傷。例如,在攻擊配備近程防御武器系統的目標時,多彈以期望時間同時抵達目標被認為是飽和其防御能力的一種有效方式[1-2]。另外,在攻擊或攔截具有逃逸或躲避能力的時敏目標時,導彈需在特定時間窗口抵近目標。制導律作為導引和控制導彈飛向目標的核心算法,直接決定其抵近目標的時間。為此,在過去的幾十年里,國內外學者對時間約束下的制導律進行了廣泛的研究。
Jeon等[3]在文獻中提出了一種能夠控制攻擊時間的制導算法(impact time control guidance, ITCG);該算法在比例導引(proportional navigation, PN)的基礎上增加了一個偏置項,并通過剩余飛行時間的估計值和期望值之間的偏差來調整偏置項的大小,進而控制攻擊時間。文獻[4]基于PN的解析解將ITCG進行擴展,使得其可用于運動目標的攔截問題。文獻[5]設計了一種具有時變導引系數的PN方法,實現了多彈攻擊時間的協調控制。文獻[6]基于最優誤差動力學方法,將制導律設計視為有限時域內的攻擊時間誤差調節問題,根據攻擊時間誤差設計了反饋指令,通過施瓦茲不等式求解線性二次型最優控制問題,實現了對于攻擊時間的控制。文獻[7]將最優誤差動力學方法推廣于導彈速度變化條件下的時間控制問題。文獻[8]基于PN提出了一種虛擬領導者方案來控制攻擊時間。文獻[9]基于剩余飛行時間的顯式表達式提出了一種導引系數時變的時間控制算法,進一步提升了剩余飛行時間估計值的精度,且該算法適用于導彈速度變化和三維場景。
除了上述基于PN的時間約束制導方法外,還有一些方法也被用于攻擊時間的控制問題,如滑模控制技術[10-15]、李亞普諾夫穩定性理論[16]、彈道成型方法[17-18]、矢量制導[19]、前置角跟蹤方法[20]、二次規劃[21]等。這些方法適用于約束條件更為復雜的場景,如具有攻擊角度和/或視場角約束的場景[22-25]。然而,這些方法一般不考慮性能指標的最優性,可能導致導彈在飛行過程中動能損失過大[26],進而影響攻擊效果。此外,其中一些方法依賴于對剩余飛行時間的估計,在小角度假設不成立的條件下存在時間約束難以精確滿足、制導精度低等問題[27-28]。
實時在線求解攻擊時間和導彈動力學等非線性約束下的最優控制問題是克服上述不足的一種有效方法,且該方法一般被稱為非線性最優制導(nonlinear optimal guidance, NOG)[29]。在非線性約束條件下,最優控制問題的實時在線求解是彈道力學與制導領域的公認難題。因此,國內外學者一般在各種簡化或線性化基礎上建立最優控制問題的解析解或半解析解。例如,Chen等[27]提出了一種參數化方法,使得可通過求解非線性方程來確定NOG。Merkulov等[28]應用二階泰勒展開多項式近似導彈的非線性運動學方程,得到了攻擊時間約束下NOG的半解析解。Guelman等[30]圍繞目標運動軌跡可預測情況下的攔截問題,將相關NOG問題轉換為求解三維非線性方程組的問題。一般來講,通過求解非線性方程零點而生成最優制導指令時,存在收斂時間長、甚至不收斂的問題,尚不能從理論上確保在線生成最優解的收斂性和穩定性[31]。此外,也有學者嘗試用優化方法解決 NOG問題。例如,Liu等[32]通過將非線性最優控制問題轉化為二階錐規劃問題,利用內點法求解NOG。由于NOG問題所對應的非線性規劃問題可能存在多個局部最優解,利用優化方法也不能確保制導指令的最優性,如本文數值仿真部分(第3.1節)所示。
為了解決實時在線生成NOG指令的問題,Wang等[26]通過引入文獻[33]所建立的哈密爾頓軌跡參數化方法,對具有攻擊時間約束的NOG問題進行了參數化處理,保證通過簡單數值積分即可生成飛行狀態到制導指令的單一、最優映射關系的數據。根據通用近似定理[34],具有單一、最優特征的數據集能夠從理論上確保前饋神經網絡近似飛行狀態到最優制導指令映射關系的收斂性和準確性,最終利用前饋神經網絡實現了最優制導指令的實時在線生成。但是,文獻[26]未考慮過載約束。實際上,對于無動力導彈,其側向過載常因結構和氣動因素而受到一定約束。不考慮過載約束而設計最優制導律,可能導致制導指令的不穩定[35]。為此,本文在文獻[26]的基礎上,進一步對過載約束下的NOG指令實時在線生成問題展開研究。
一些學者已經對過載約束下的制導律進行了研究。Rusnak等[36]在線性化條件下推導出了輸入受限時最優制導律的顯式解。Hexner等[37]采用線性二次隨機高斯最優控制理論推導了過載限制下的最優制導律。其他過載限制下的制導律設計方法包括動態面控制[38]、滑模控制[39]等。然而,針對過載和攻擊時間等約束下的NOG(overload-and impact time-constrained NOG, OTNOG)問題的相關研究還較為鮮見。
為了解決過載和攻擊時間約束下的最優制導指令在線生成問題,本文首先將制導問題構建為具有輸入和時間約束的非線性最優控制問題,并采用龐特里亞金極大值原理(Pontryagin’s maximum principle, PMP)推導出最優軌跡的必要條件,并引入飽和函數消除了最優制導律中的輸入約束。在此基礎上,本文基于文獻[33]提出的哈密爾頓軌跡參數化方法積分生成最優軌跡,從而建立飛行狀態到最優制導指令映射關系的數據集。根據通用近似定理[34],利用前饋神經網絡對上述數據集中的狀態-最優制導指令之間的映射關系進行了近似,實現了過載和時間約束下的NOG指令的毫秒量級在線生成。最后,通過數值仿真驗證了本文所提方法的有效性。

(1)
式中:t為時間;“·”表示關于時間的導數。

圖1 導彈和目標的幾何關系Fig.1 Interception geometry for the missile and target
令
σ=λ-θ+π
則式(1)在極坐標系中可寫為
(2)
對于式(1)的動態系統,最小化控制能量為
(3)
考慮如下輸入(導彈側向過載n)飽和約束:
|n|≤nm
式中:nm>0為過載上限,且側向過載與側向加速度滿足如下關系:
式中:g為重力加速度,取值為9.81 m/s2。為方便處理,將側向過載約束轉換為側向加速度約束,即
|u|≤um
(4)
式中:um=g·nm。另外,導彈初始條件為
x(0)=x0,y(0)=y0,θ(0)=θ0
(5)
終端條件為
x(tf)=0,y(tf)=0
(6)
式中:終端時間(期望攻擊時間)tf為固定值。
令px,py,pθ分別表示x,y,θ所對應的協態變量。根據PMP[40],哈密爾頓函數可表示為
則協態方程為
(7)
最優控制律為
(8)
由于末端速度方向角自由,則有如下橫截條件:
pθ(tf)=0
(9)
根據式(7),可得常數px和py。考慮終端邊界條件式(6)和式(9),并對式中的第3個等式進行積分,可得
pθ(t)=V(pxy(t)-pyx(t)),t∈[0,tf]
(10)
定義如下飽和函數:
sat(z,ε,η,δ)=
(11)
式中:z是函數輸入;ε是已知下限;η是已知上限;δ是保證飽和函數處處可導的光滑因子。因此,式(8)中的最優控制律可寫為
(12)
對于足夠小的δ>0,式(8)可由式(12)無限逼近,詳細證明參見文獻[41]中的引理2。
如果(x(t),y(t),θ(t))在區間t∈[0,tf]滿足式(7)~式(10)中的必要性條件,則將其稱為一條哈密爾頓軌跡[33]。根據文獻[42],上述必要不充分條件尚不能保證哈密爾頓軌跡的最優性。利用引理1,將建立最優軌跡需滿足的附加最優性條件。

(13)
則在[0,tf]內的哈密爾頓軌跡(x(·),y(·),θ(·))不是最優軌跡。該引理的證明詳見文獻[26]。下文將利用PMP和引理1中的最優性條件建立哈密爾頓軌跡的參數化微分方程組。
對于任意給定協態變量px,py,令
定義常數β∈[-π,π],使其滿足:
px=αcosβ,py=αsinβ
(14)
則可將式(10)改寫為
pθ(t)=Vα[y(t)cosβ-x(t)sinβ]
(15)
定義如下參數化微分方程組:
(16)
式中:(X,Y)∈R2,且Θ∈[0,2π]。對于t∈[0,tf],定義(X(t,α,β),Y(t,α,β),Θ(t,α,β))∈R2×[0,2π]為參數化微分方程組的解,且令其初始狀態為(0,0,0)。顯然,對任意α>0和β∈[-π,π],有
(X(0,α,β),Y(0,α,β),Θ(0,α,β))=(0,0,0)
易知對于t∈[0,tf],結合式(13)所得到的(X(t,α,β),Y(t,α,β),Θ(t,α,β))均滿足最優軌跡的最優性條件。


得益于引理1和第2.2節中建立的參數化微分方程組,導彈在tgo∈(0,tf]時的狀態可表示為(X(tgo,α,β),Y(tgo,α,β),Θ(tgo,α,β))。令f:[-π,π]×R×(0,tf]→R表示狀態與最優制導指令之間的映射關系,即
由圖1的幾何關系和最優軌跡的最優性條件可知f可由式(17)建立:
(17)
根據文獻[26]中的引理3,為了生成最優軌跡簇,只需考慮σc在半開區間(0,π]的取值。定義:
(18)
為通過參數化微分方程組進行積分而得到的狀態-最優制導指令映射關系f的數據集。
對于給定時間間隔t∈(0,tf]和(α,β),在區間(0,tf]對參數化微分方程組進行積分后可得到一條最優軌跡,對其進行離散即可獲得狀態與最優制導指令之間映射關系的一組數據集Fp。定義一個空集D,對(α,β)進行遍歷,將獲得的Fp插入到D,即可獲得供前饋神經網絡近似的數據集D。

對于特定導彈,其速度和過載約束已知。設導彈的飛行速度為250 m/s,過載約束為±5。則方程中的參數化系統可由δ,(α,β),tf來表示。設tf=40,δ=5,α在[0,10]以0.05 s為間隔均勻取值,β在[-π,π]以0.03 s為間隔均勻取值。根據上述參數取值情況,對方程中的參數化系統進行數值積分,共可得到40 401條最優軌跡。從每條最優軌跡中以間隔0.1 s均勻離散得到Fp,然后將其插入到訓練數據集D中。
利用全連接前饋神經網絡近似D中包含的映射關系f。將D以70/15/15的比例拆分為訓練/驗證/測試集。將傳遞給神經網絡的輸入和輸出均通過減去平均值、除以標準差的方式進行歸一化。選擇Sigmoid函數作為激活函數,隱含層設為3層,每層包含30個神經元。輸出層使用線性函數。將訓練的損失函數設為神經網絡的預測值與D中的真實值之間的均方誤差(mean square error, MSE)。訓練完成后,訓練、驗證和測試集的MSE均降至2.115 1×10-7。為了便于表達,將上述由哈密爾頓軌跡參數化和神經網絡相結合得到的NOG生成方法稱為OTNOG。下文將對OTNOG的實時性和最優性進行仿真驗證。
為了驗證實時性,在基于ARM Cortex-A7內核、主頻為528 MHz的工業級CPU上對NOG指令的生成時間進行了測試,單次運行時間為0.60 ms,滿足各型制導飛行器對在線生成制導指令的實時性需求。下面將通過與優化方法對比而驗證OTNOG的最優性。
考慮3枚導彈對一固定目標進行協同打擊的場景,將每枚導彈的初始位置和速度方向角取值列于表1中,設置期望攻擊時間為40 s。

表1 導彈初始條件
在OTNOG導引下的飛行軌跡如圖2(a)中綠色虛線所示。圖2中,Mi(i=1,2,3)表示第i枚導彈初始位置,T表示目標位置。為展示協同打擊效果,PN(導引系數為3)導引的導彈飛行軌跡如圖2(a)中紅色點畫線所示;成熟的最優控制求解軟件GPOPS[43]在求解第2枚導彈的打擊問題時不收斂,未能得到飛行軌跡。為了進一步對比,采用間接法中的打靶法進行求解,得到的軌跡如圖2(a)中的藍色實線所示。

圖2 實時生成最優制導指令仿真結果Fig.2 Simulation results for generating the optimal guidance command in real time
從圖2(a)可以看出,與PN相比,OTNOG由于需要滿足打擊時間約束而產生了更為彎曲的飛行軌跡,尤其是第2枚導彈。具體而言,第1枚導彈在PN導引下需要30.119 6 s抵達目標位置,第2枚導彈需要29.298 2 s,第3枚導彈需要38.112 0 s,而OTNOG導引下的3枚導彈均在40 s命中目標。對于第1枚和第2枚導彈,OTNOG和打靶法所得到的飛行軌跡幾乎重合,而對于第3枚導彈,OTNOG和打靶法得到了截然不同的飛行軌跡。需要強調的是,即使打靶法能夠得到最優軌跡(如圖2(a)所示,打靶法和OTNOG都得到了第1枚和第2枚導彈的最優軌跡),但是打靶法較為耗時,不能滿足實時性的要求。相比而言, OTNOG不僅能夠滿足實時性要求,還可保證最優性。
另外,OTNOG和打靶法所給出的制導指令和前置角變化曲線如圖2(b)和圖2(c)所示。令飛行過程中所消耗的控制能量為
(19)
則OTNOG和打靶法對應的控制能量如表2所示。從圖2(b)可以看出,OTNOG和打靶法針對第1枚和第2枚導彈所給出的制導指令基本吻合,打擊過程消耗的控制能量也非常接近。而對于第3枚導彈,OTNOG和打靶法所得到的制導指令存在較大區別,且OTNOG所得到的控制能量小于打靶法的控制能量。從圖2(c)可以看出,對于第3枚導彈,打靶法所對應的前置角σ在3.13 s時達到了0°;根據引理1可知,基于優化方法的打靶法所得到的軌跡并不是一條最優軌跡。另外,打靶法所需的平均計算時間為1.89 s。

表2 OTNOG和打靶法對應的控制能量
考慮導彈和目標的初始位置分別為(0,0)m和(2 500,0)m,導彈的初始速度方向角為70°,期望攻擊時間為35 s。利用變系數PN(varying gain PN, VGPN)制導律[9]、非奇異終端滑模(nonsingular terminal sliding mode, NSM)制導[10]等典型制導方法進行對比驗證。
本文將VGPN導引系數設置為3,其他參數與文獻[9]保持一致,仿真結果如圖3中的藍色實線所示。當NSM的參數與文獻[10]相同時,無法計算出可行解。為此,將文獻[10]中NSM的導引系數從3調整為2后,得到了一個可行解,仿真結果如圖3中的綠色點畫線所示。相比于VGPN和NSM,OTNOG無需制導律參數設置,仿真結果如圖3中的紅色虛線所示。

圖3 不同制導律的仿真結果Fig.3 Simulation results of different guidance laws
具體而言,圖3(a)為不同制導律對應的飛行軌跡,圖3(b)為不同制導律對應的制導指令。顯然,由VGPN和NSM在導彈發射后產生的制導指令均達到飽和狀態,導致前置角快速增加,如圖3(c)所示。值得注意的是,VGPN和NSM均需對剩余飛行時間進行估計,因此需要主動式導引頭實時提供彈目距離,以作為制導律的輸入;相比而言,OTNOG所需的剩余飛行時間則由期望攻擊時間簡單地減去當前時間而得到。為方便比較,將攻擊過程中的彈目距離變化曲線在圖3(d)中進行展示。從圖3(d)中可以看出,VGPN和NSM導引下的導彈在發射一段時間后快速遠離目標。產生上述現象的主要原因是VGPN和NSM的制導指令與剩余飛行時間估計值有關,當剩余飛行時間估計值與真實值誤差較大時,會產生較大過載以減小誤差。相比之下,OTNOG在導彈發射一段時間后所給出的制導指令未達到飽和,所對應的前置角和彈目距離均緩慢增加。
在控制能量方面,從圖3(b)可以看出,VGPN在導彈發射后前期的制導指令較大,整個攻擊過程中的控制能量為2.195 2×104m2·s-3;對于NSM,其制導指令在相當長的一段時間內處于飽和狀態,導致其所消耗的控制能量較高,達到了2.661 0×104m2·s-3,而且由于將PN系數調整至2,其末端制導指令無法收斂至零。相比之下,OTNOG所產生的控制能量為1.702 7×104m2·s-3,與由GPOPS[43]得出的最優解1.702 0×104m2·s-3非常接近,且末端制導指令收斂至零。
本文建立的OTNOG的輸入僅包含視線角變換速率、前置角和期望攻擊時間。因此,其也可用于移動目標攻擊的場景。
3.3.1 勻速移動目標


圖4 導彈和勻速移動目標的軌跡Fig.4 Trajectories of the missile and constant-moving target

圖5 攻擊勻速移動目標的制導指令Fig.5 Guidance command profile against the constant-moving target
圖4為導彈和目標的飛行軌跡和運動軌跡,由圖4可以看出導彈成功命中目標,由目標運動導致的攻擊時間與期望時間的偏差為0.015 6 s。導彈的制導指令如圖5所示,由圖5可以看出制導指令在攻擊前期較為平滑,隨后達到飽和狀態,當彈目距離較小時,OTNOG產生的制導指令出現了一定程度的波動,這是因為導彈與目標較為接近時,兩者之間的前置角突然增加,導致制導指令波動。另外,OTNOG所產生的最大制導指令為48.949 3 m/s2,表明未破壞過載約束,且消耗的控制能量相對較小,僅為1.757 8×104m2·s-3。
3.3.2 機動目標
基于案例1的方法,利用OTNOG對速度為15 m/s、過載機動為2cos(0.2t)m/s2的目標進行攻擊。設目標初始位置為(0,0)m,初始速度方向角為180°;導彈從(2 000,0)m的初始位置發射,初始速度方向角為90°,期望攻擊時間為40 s。與案例1一致,OTNOG在剩余飛行時間達到0.2 s后切換為PN。
圖6為導彈和目標的軌跡,從圖6可以看出導彈的飛行軌跡為了滿足較大的攻擊時間約束而呈現出了較為彎曲的趨勢;導彈最終以0.018 1 s的攻擊時間誤差命中目標。OTNOG在導引導彈過程中所生成的制導指令如圖7所示,從圖7可以看出,制導指令在攻擊末端出現了多次波動。這是因為當導彈接近機動目標時,兩者之間的相對方位關系迅速變化,導致OTNOG產生的制導指令快速變化。此外,由于期望攻擊時間較長,在整個攻擊過程中,OTNOG所產生的制導指令未出現飽和,且消耗的控制能量較小,僅為1.516 1×104m2·s-3。

圖6 導彈和機動目標的軌跡Fig.6 Trajectories of the missile and maneuvering target

圖7 攻擊機動目標的制導指令Fig.7 Guidance command profile against the maneuvering target
本文圍繞過載、攻擊時間、非線性運動學等非線性約束條件下最優制導指令在線生成問題,提出了基于哈密爾頓軌跡參數化方法生成狀態-最優制導指令的數據集,并基于前饋神經網絡近似數據集中的映射關系,實現了毫秒量級在線生成過載和時間約束下的NOG指令。主要結論如下:
(1) 基于PMP建立了哈密爾頓軌跡的必要條件,并使用飽和函數消除了必要條件中的輸入約束。
(2) 結合飛行軌跡的最優性條件,建立了最優飛行軌跡的參數化微分方程,使得通過數值積分即可獲得飛行狀態到最優制導指令之間映射關系的數據集。
(3) 利用前饋神經網絡對映射關系進行了近似,實現了NOG指令的毫秒量級在線生成。
(4) 數值仿真表明,本文所提出的最優制導律在線生成方法一方面能夠在線生成制導指令,另一方面也可以保證制導指令的最優性。
(5) 所提出的制導律生成方法僅需被動式導引頭提供的信息,無需對剩余飛行時間進行估計,利于工程實現,且適用于慢速移動目標的攻擊場景。在未來研究中將進一步考慮其他約束,如攻擊角度、視場角等約束。