胥 彪, 李 翔, 李 爽,*, 張金鵬
(1. 南京航空航天大學航天學院, 江蘇 南京 210016; 2. 中國空空導彈研究院, 河南 洛陽 471009;3. 航空制導武器航空科技重點實驗室, 河南 洛陽 471009)
火星作為地球的鄰近行星,在很多方面都與地球相似,已經成為人類進行深空探測的重要目標天體。火星大氣層非常稀薄,具有很大的不確定性,時常出現狂風、沙塵等天氣。在探測器進入、下降與著陸過程中,大氣進入段歷時最久,工作條件最惡劣,飛行狀態變化快,對減速性能的要求極高。
目前大氣進入制導方法一般分為參考軌跡制導和預測校正制導[1]。參考軌跡制導方法首先按照要求設計好離線參考剖面(如阻力加速度剖面),然后根據實時跟蹤誤差設計制導律來在線跟蹤這條軌跡。該方法易于實現,但制導性能受進入過程中各種不確定性的影響較大。預測校正制導方法是在飛行過程中不斷預測終端狀態,然后根據與期望終端狀態的偏差校正控制量,具有較高的落點精度,并且對進入的初始條件不敏感。但其計算復雜度較高,需要較強的計算機性能以提高計算速度,在線制導的實時性難以保證。文獻[2]比較了這兩種方法,并從仿真研究中得出參考軌跡制導方案更適合火星大氣進入段制導任務的結論。
近年來參考軌跡制導方法取得了許多研究進展。PID控制律已成功運用到了阿波羅飛船和航天飛機的再入制導[3],但其基于一些線性假設條件,且增益系數的整定比較麻煩。文獻[4]使用反饋線性化的思想,利用狀態反饋項來抵消阻力動力學的非線性。然而,在存在較大模型誤差以及出現控制飽和現象時,其軌跡跟蹤的性能很不理想。在此基礎上,有些學者提出利用滑模狀態觀測器估計模型誤差來提高控制精度[5],但是由于滑模本身的特點,得到的控制量存在抖動,對滾轉角執行機構帶來較大挑戰。模型參考自適應方法也被用于火星大氣進入制導[6],跟蹤性能有所提高,但控制輸入仍存在抖動現象。文獻[7]采用了自抗擾控制方法進行跟蹤,輸入相對平滑,能夠獲得較高的跟蹤精度。但是以上跟蹤方法都未考慮實際存在的控制量約束,大都存在控制飽和的問題,不可避免地會導致在線跟蹤的效果變差。
模型預測控制(model predictive control, MPC)方法是目前應用于工業過程中最常見的先進控制技術之一,近年來也被應用到了大氣進入制導問題,能夠很好地解決跟蹤參考軌跡時存在的控制飽和問題。針對大氣進入段復雜的非線性模型,文獻[8]通過線性化預測模型,設計了基于約束預測控制的軌跡跟蹤方法,但這種模型失配的影響會造成精度下降。文獻[9]提出了一種火星大氣復合進入軌跡跟蹤策略,將約束多模型預測控制和干擾觀測器結合,提高了著陸精度。基于非線性預測控制(nonlinear MPC, NMPC)算法[10],文獻[11-12]設計了基于阻力跟蹤的火星大氣進入段NMPC制導律,能夠在滿足控制約束的條件下實現安全著陸。但其采用泰勒級數展開對未來輸出進行近似預測,在模型不確定性較大情況下預測精度不高,會降低制導精度。文獻[13]綜合考慮了控制量約束和高度約束,基于局部線性化的NMPC和狀態觀測器提出了一種新的制導方案,不對模型進行簡化,直接利用數值優化算法在線求解復雜非線性規劃(nonlinear programming, NLP)問題的NMPC方法可以避免采用線性模型或近似預測造成的模型失配影響,具有更高的精度,但大大增加了計算的復雜度,會導致控制系統的指令延遲。
神經網絡(neural network,NN)[14]是模仿大腦神經網絡結構和功能而建立的算法,在航天器制導方面得到了廣泛應用,如針對傳統預測校正制導方法中高精度制導與快速實時解算之間的矛盾,文獻[15]提出了一種基于最優制導模板的神經網絡預測制導方法,提高了綜合性能。文獻[16]結合數值預測校正制導算法和神經網絡的優點,設計了進入制導的神經網絡在線預測器。近年來,由于計算機技術的迅速發展以及在多層神經網絡訓練方面取得的大量研究成果[17],一些學者對神經網絡,尤其是深度神經網絡(deep NN,DNN)在控制領域應用的興趣在不斷提高。盡管DNN特別適用于如圖像識別、語音識別等感知相關的問題[18],但最近一些研究證明一些控制問題也能充分利用DNN的優勢[19-20]。文獻[21]以非線性肢體模型為研究基礎,證明了由自動編碼器堆疊而成的深度神經網絡能夠學習最優控制和狀態的對應關系。文獻[22]通過訓練深度神經網絡來近似表示4種不同飛行器在精確著陸場景中最優控制量,證明了利用DNN實現實時最優控制的可行性。
考慮到大氣進入段復雜的非線性模型,利用NMPC方法設計的制導系統需要數值求解相當復雜的優化問題,收斂到最優解的速度較慢,而且每個制導周期的預測輸出要通過對預測模型的非線性微分方程組進行數值積分得到。這些計算較為耗時,使其直接應用于在線制導比較困難。而具有強大特征學習能力的DNN利用深層非線性網絡結構,能夠實現復雜關系的逼近,具有快速尋找優化解的能力。因此,結合NMPC與DNN各自的優勢設計制導方法是一種可行的思路。
本文針對火星大氣進入參考軌跡制導問題,首先考慮模型不確定性對NMPC系統預測精度的影響,提出了一種提高系統魯棒性的預測模型優化方法,并采用變預測時域策略改善系統性能。然后以改進的NMPC系統為制導模板,通過訓練深度神經網絡來實現火星智能進入制導。最后通過仿真驗證了所設計方法的有效性。
火星大氣進入段的動力學方程表示為

(1)

(2)

(3)
(4)
(5)
式中:μ=4.279 2×1013m3/s2為火星引力常數;m=2 802 kg為探測器質量;S=15.9 m2為探測器參考面積;CD和CL分別為氣動阻力系數和升力系數,升阻比小于0.25。大氣密度模型如下:
(6)
式中:ρ為高度h=r-r0處的大氣密度;火星半徑r0=3 396.2 km;hp為火星高度參數,取9 354 m;ρ0為火星表面的標準大氣密度,取0.015 8 kg/m3。
進入制導包括互相解耦的縱向制導和橫向制導,兩個通道均是將滾轉角作為唯一的控制變量。縱向制導通過調整滾轉角的大小來改變探測器升力在縱向平面的分量,影響縱程大小;橫向制導則是通過改變滾轉角的符號來改變探測器的航向,減小橫程偏差。而由運動學分析可知,以能量作為自變量時,探測器的縱程由阻力加速度確定,因此軌跡跟蹤制導方法通常對阻力加速度進行跟蹤。
2.1.1 NMPC系統基本框架
首先將探測器的縱向制導模型表示為如下所示的離散形式的動力學方程:
(7)

(8)
模型預測控制是一種基于模型的閉環優化控制策略,包括預測模型、滾動優化和反饋校正3個部分[23]。其主要思想是利用預測模型預測系統的未來狀態量和輸出值,基于有限時域在線反復優化的思想,在每一個采樣時刻在線求解帶有約束的二次規劃或非線性規劃問題,即相當于求解開環最優控制問題。每一次求解都能得到一個控制序列,但是只將第一個控制量作用于系統。然后更新系統實時狀態并重復上述過程,依次滾動向前進行,最終實現閉環最優控制。
由于執行機構的限制和工程要求,探測器滾轉角的調整范圍限制在10°~80°,因此縱向制導動力學模型的控制輸入存在約束,給控制系統設計帶來一定困難。而MPC的顯著優勢就是可在線處理控制量和狀態量約束,可以很好地改善滾轉角控制飽和的現象,同時也可以對飛行路徑進行約束。對于本文研究的大氣進入制導問題,NMPC制導系統框圖如圖1所示。

圖1 非線性模型預測控制系統框圖Fig.1 Block diagram of nonlinear model predictive control system
在當前時刻k,有導航系統測量得到的探測器飛行狀態值x(k),構建如下形式的帶約束的非線性規劃問題:
(9)
定義要優化的目標函數為
(10)
優化過程需要滿足以下約束條件:
cos(σmax)≤u(k+i|k)≤cos(σmin), 0≤i≤Nc-1
(11)
(12)

(13)
yc(k+i|k)≤yc max, 0≤i≤Np
(14)

Nc和Np分別是控制時域和預測時域,通常Nc≤Np。優化問題的獨立變量Uk是從k時刻起控制時域內所有時刻的控制量組成的控制序列:
Uk[uk,uk+1, …,uk+Nc-1]T
(15)
而控制時域之外的控制量大小全部等于控制時域內最后時刻優化得到的控制量,即
u(k+i|k)=u(k+Nc-1|k),Nc≤i≤Np-1
(16)


(17)

預測值yp(k+i|k)和yc(k+i|k)通過求解下面預測模型的方程得到:
(18)
式中:x(k)為當前k時刻測得的探測器實際飛行狀態量,作為預測模型開始進行預測的初始狀態;xp(k+i|k)為k時刻對k+i時刻狀態量的預測值。
在每一個優化時刻增加對預測誤差的校正環節,提高控制系統克服不確定性的能力。定義k時刻預測輸出與實際輸出之間的誤差為

(19)
式中:yp(k|k-1)為k-1時刻對k時刻輸出的預測值。以對e(k)加權的方式修正未來輸出的預測:

(20)

最后利用優化算法求解由式(9)和式(11)~式(14)構成的NLP問題,只將得到的優化序列的第一個最優解作用于系統,即當前k時刻的最優控制量為
(21)
由于求解出的最優控制量只包含了滾轉角的大小信息,還需要通過橫向制導確定滾轉角的符號,得到最終的滾轉角指令σ(k)。到下一時刻,根據探測器的實際飛行狀態,進行對未來輸出的預測和校正,重復對上述NLP問題的求解,滾動向前優化,實現閉環最優控制。
2.1.2 預測模型修正方法
由于在實際大氣進入過程中存在較大的氣動系數和大氣密度模型誤差,而預測模型式(18)沒有考慮這些誤差,因此計算得到的預測輸出值誤差較大,會降低校正環節的作用效果,使NMPC方法的魯棒性變差。故本文從產生預測誤差的源頭出發,提出了一種基于誤差信息估計的預測模型修正方法。首先通過設計一階衰減記憶濾波器來獲取誤差估計信息。由式(2)、式(4)、式(5)和式(8)可知,氣動系數和大氣密度誤差僅通過改變阻力加速度和升力加速度的大小對系統的輸出和路徑約束輸出產生影響,因此將實際的阻力加速度和升力加速度與預測模型式(18)計算得到的相應量的比值作為濾波器的狀態,即
(22)
式中:L(k)表示k時刻實際的升力加速度;Dp(k|k-1)和Lp(k|k-1)分別表示k-1時刻預測模型式(18)對k時刻阻力加速度和升力加速度的預測值;z*(k)為濾波器的當前狀態量。則一階衰減記憶濾波器如下所示:
z(k)=z(k-1)+(1-ε)(z*(k)-z(k-1))
(23)
式中:z(k-1)表示濾波器上一時刻的狀態量;0<ε<1為增益系數。為了減小模型不確定性的影響,可適當取較大的增益系數以增強濾波器的過去狀態量對當前輸出值z(k)的修正作用,這里取ε=0.9。濾波器初始值z(0)取1。將濾波器的輸出z(k)作為預測模型式(18)的修正因子,對阻力加速度和升力加速度的進行實時修正,即

(24)

(25)

2.1.3 變預測時域策略
對大氣進入制導問題分析可知,進入初始段的大氣密度很小,末段探測器的速度較小。由式(4)可知,這兩個階段的阻力加速度都很小,模型誤差等不確定因素對阻力加速度跟蹤效果的影響不大。因此進入初始段和末段的預測時域Np可選取較小值,減小輸出預測的計算量;而在探測器中間段飛行狀態變化較快,阻力加速度較大,因此跟蹤誤差的變化比較劇烈,應選取較大的Np以提高系統的魯棒性。故這里采用變預測時域策略,以實際輸出與期望輸出之間誤差變化率的大小作為判斷依據,合理選擇不同飛行階段預測時域的大小,提高NMPC制導系統的性能。
k時刻的預測時域Np通過下式確定:
(26)
式中:k1(k)和k2(k)分別為實際阻力加速度和其一階導數與期望值之間誤差的變化率;λ1和λ2為適當的變化率閾值;預測時域N1 通過上述兩種方法對NMPC系統進行改進,表1為NMPC制導系統的設計參數。 表1 NMPC制導系統參數 采用序列二次規劃(sequence quadratic program, SQP)和粒子群優化(particle swarm optimization,PSO)算法相結合的混合算法求解NLP問題[24]。PSO算法在迭代初期有著較強的全局優化能力,能夠在控制量的約束范圍內快速收斂到一個接近全局最優解的位置,然后SQP算法將其作為優化的初始值并在該位置附近搜索,從而收斂到全局最優解。這種混合優化算法很大程度上避免了SQP算法容易產生局部最優解的問題,可以更快、更準確地找到最優解。 本文橫向制導采用設置漏斗邊界的方法[25]。通過滾轉角翻轉,調整航向角方向,將橫程限制在漏斗邊界內,使得到達進入段終端位置時的橫程誤差盡可能小。 雖然設計的NMPC制導系統能實現高精度制導,但仍然存在一些缺陷:在每一個制導周期都需要通過數值優化算法求解一個復雜的NLP問題,耗費較長時間才能迭代得到最優解;由于利用預測模型計算預測輸出時要對動力學方程進行數值積分,當預測時域較大時,會帶來較大的計算負擔。這些問題會造成控制指令具有較大的延遲輸出。為了克服這些缺陷,提高指令計算速度,本文利用深度神經網絡學習NMPC系統的輸入輸出特性并作為制導指令生成器,實現智能進入制導。方法流程圖如圖2所示,包括樣本數據生成、網絡離線訓練和在線智能制導3個步驟。 圖2 智能制導方法流程圖Fig.2 Flow chart of intelligent guidance method 2.2.1 樣本數據生成 以上一節中設計的NMPC制導系統為制導模板,生成樣本數據。數據生成的過程如下: 步驟 1設置標稱進入條件I=[x0,CL,CD,ρ]T,包括初始狀態x0(高度、速度、經緯度、航跡角和航向角),氣動系數CL和CD以及大氣密度ρ; 步驟 2引入誤差項pl=[Δx0,ΔCL,ΔCD,Δρ]T,其中l=1,2,…,m,m為跟蹤軌跡條數。則系統的實際進入條件為dl=I+pl; 為保證訓練精度并充分發揮深層網絡揭示數據內在特征的能力,這里選取m=3 000,因此樣本集Q包含了大約6×107個“狀態量-最優控制量”的數組對。最后將樣本集Q隨機劃分為訓練集Q1和測試集Q2,比例設置為90%和10%。 2.2.2 網絡離線訓練 DNN是指隱含層個數大于1的深層神經網絡,其隱含層個數和每層神經元的個數對網絡的特性有很大的影響,因此本文考慮不同結構網絡的性能。同時為了對比,也對只有一個隱含層的淺層網絡進行了訓練。雖然單隱含層的神經網絡只要神經元的數目足夠大,就能夠擬合任意精度的非線性函數,但是其對于復雜問題的學習能力有限,而且易于過度擬合,泛化能力較差。與之相比,深層神經網絡通過增加隱含層個數,使網絡的復雜度以指數級別提高,學習數據特征的能力更強,也具有更強的泛化能力。此外,神經元的激活函數也是影響網絡性能的重要因素之一。因此隱含層和輸出層分別采用了不同的激活函數進行訓練。對于隱含層,線性修正單元(rectified linear unit, ReLU)函數相比于經典的sigmoid函數,除了計算量小、便于優化外,其不會發生飽和的特性能夠很好地解決后者在訓練深層神經網絡時出現的梯度消失問題,并且降低發生過擬合的概率。故本文將ReLU函數與具有較快收斂速度的雙曲正切S型函數tansig進行比較。對于輸出層,采用線性傳遞函數purelin和函數tansig兩種。 第j層的第i個神經元的輸出如下所示: fij=G(wijfi-1+bij) (27) 式中:wij為權值向量,bij為該神經元對應的閾值,fi-1為上一層神經元的全部輸出,G為激活函數。 訓練過程就是通過誤差信息的反向傳播不斷調整網絡的權值和閾值,使式(28)所示的均方誤差函數最小。 (28) 網絡的訓練算法采用具有動量的隨機梯度下降法(stochastic gradient descent, SGD)[26],相比于傳統SGD算法,可以獲得更快的收斂速度并減少擾動。設置學習率η=0.001和動量因子μ=0.9,按照如下形式進行權值更新: (29) 另外,本文采用l2正則化和dropout兩種深度學習中的常用技術來避免DNN容易出現模型過擬合即泛化能力差的問題[27-28]。l2正則化方法就是在目標函數中引入額外的信息來懲罰過大的權重參數,也稱作權重衰減。加上l2正則項的損失函數可以表示為 (30) 式中:λ為權值衰減系數,控制正則項的大小。 dropout是指在DNN訓練過程中按照一定的概率將部分神經元暫時從網絡中丟棄(激活函數輸出為0),減弱神經元節點間的聯合適應性,尤其在數據量較大時能有效緩解過擬合的發生,增強網絡泛化能力。設置節點的丟棄率為0.5。 利用歸一化后的訓練集Q1對不同結構的DNN進行訓練。使用Xavier初始化方法[29]隨機設置初始權值,能夠避免訓練深層網絡時,后面層激活函數的輸出值趨于0的問題,更有利于提高模型性能和收斂速度。權值wij服從如下的均勻分布: (31) 式中:ni和ni+1分別表示前一層和后一層神經元的個數,當神經元激活函數為ReLU函數時,β=12;激活函數為tansig函數時,β=6。網絡訓練的目標誤差設定為1×10-6,最大迭代次數設定為5 000。當損失函數的值收斂到設定的誤差范圍或達到訓練的最大迭代次數時,即完成網絡模型的訓練。利用測試集Q2中的數據對網絡性能進行測試,通過多次實驗,得到對樣本特征學習效果相對更好的網絡結構,保存其相應的網絡參數,用于在線制導。 雖然文獻[16]基于預測校正制導方法設計的神經網絡制導器取得了不錯的效果,但其局限性在于只利用較少的樣本數據和傳統的單層神經網絡進行離線訓練,對復雜非線性特征的表示能力有限,泛化能力也受到一定制約。針對這一關鍵問題,本文基于NMPC模板得到的海量樣本數據,采用深度神經網絡來增強對非線性特征的學習能力,提升網絡精度的同時能夠避免過擬合現象,保證網絡良好的泛化能力,使其在訓練集外也具有可靠性能,提高神經網絡制導方法實際應用的可行性。在下一節中進行相應的仿真驗證。 仿真的初始條件、進入段終端參數以及參考軌跡的設計方法參考文獻[30],具體數據如表2和表3所示。生成樣本數據時設置的各項誤差分布范圍和形式如表4所示,包括初始狀態誤差、氣動系數以及大氣密度誤差,并將實際進入條件的分布范圍記為A。 表2 初始狀態參數 表3 終端狀態參數 表4 誤差參數 本節首先通過對不同結構的網絡進行訓練,進行深層與淺層網絡對非線性關系學習效果的對比,并分析了激活函數、網絡層數和神經元個數對DNN性能的影響。然后對網絡的泛化能力進行了分析,最后通過與其他方法進行仿真對比,說明本文提出的制導方法的優勢。 利用訓練集Q1訓練不同結構的網絡,然后通過測試集Q2對網絡進行測試,通過訓練均方誤差Etrain和測試均方誤差Etest進行網絡性能的評估。表5為深度神經網絡(4個隱含層、每層32個神經元)在不同隱含層-輸出層激活函數下的網絡訓練效果對比。 由表5結果可知,ReLU函數作為隱含層激活函數時的Etrain和Etest均明顯小于tansig函數,說明ReLU函數確實更有利于DNN的訓練。同時可以得到輸出層為purelin時網絡能取得更好的性能,因此下面進行DNN訓練時均采用Relu-purelin結構的激活函數。 表5 不同激活函數的DNN訓練效果 表6為不同層數和神經元個數網絡的訓練效果對比,其中層數指隱含層和輸出層個數之和,神經元數為各隱含層的神經元個數。 表6 不同層數和神經元個數的網絡訓練效果 從表6可以看出,雖然淺層網絡(一個隱含層和一個輸出層)采用了足夠多的神經元個數來提高擬合能力,但Etrain和Etest的減小并不明顯,訓練效果的提升較小,說明淺層網絡對復雜特征的學習能力有限;在網絡參數個數大致相同的情況下,深層網絡的性能總是優于淺層網絡,而且隨著深度的增加,Etrain和Etest也基本上保持逐漸減小的趨勢,這表明增大網絡深度可以獲得更強的非線性關系學習能力,也體現了采用深度神經網絡來獲得更佳學習效果的必要性。綜合考慮網絡復雜度和性能,這里選用具有5層16個神經元的DNN結構學習NMPC系統狀態-控制量之間的非線性關系。 為了驗證訓練好的深度神經網絡作為滾轉角控制量生成器用于進入制導的有效性,首先將其與采用自抗擾控制(active disturbance rejection control, ADRC)理論設計跟蹤制導律的方法[7]進行了對比,從樣本集中隨機選取一組實際誤差條件,單次仿真結果如圖3~圖6所示。 圖3 滾轉角曲線Fig.3 Bank angle curve 圖3和圖4分別為滾轉角變化曲線和漏斗邊界,在橫向制導作用下,滾轉角符號進行了若干次改變,使得探測器保持在漏斗區間內飛行,保證了橫程誤差盡可能小。阻力加速度變化曲線如圖5所示,相比ADRC方法,DNN方法對參考阻力加速度的跟蹤效果更好。圖6為經緯度變化曲線,由結果可看出,兩種方法終端位置距離目標點的誤差均小于5 km,其中ADRC方法的誤差為3.49 km,而DNN方法僅為1.35 km,制導精度明顯更高。 圖4 漏斗邊界Fig.4 Funnel boundary 圖5 阻力加速度曲線Fig.5 Drag acceleration curve 圖6 經緯度曲線Fig.6 Latitude and longitude curve 然后從制導精度和計算耗時兩個方面考慮,通過多次仿真驗證本文方法相比ADRC和NMPC方法的優勢。使用不同方法進行500次蒙特卡羅打靶仿真的結果如圖7所示,仿真結果統計如表7所示。 表7 仿真結果 圖7 蒙特卡羅仿真結果Fig.7 Results of Monte Carlo simulation 3種方法終端位置誤差在5 km范圍內的概率都達到了90%以上,能夠滿足基本的精度要求。但相比于ADRC方法,DNN和NMPC方法的平均誤差明顯更小,誤差在3 km范圍內的概率也更高,能更好地滿足高精度制導需求。DNN的制導精度雖然略低于NMPC方法,但相差很小,這表明訓練好的深度神經網絡很好地逼近了NMPC制導系統的特性。 表7中統計了仿真一次的平均計算時間(仿真運行環境為Windows 10,處理器為Intel Core i7-9750H 2.60 GHz)。由于每個制導周期都要通過數值優化算法求解NLP問題以及進行積分預測,NMPC方法指令計算的平均耗時最長。與NMPC方法相比,ADRC方法和DNN方法因為計算復雜度低,平均耗時與NMPC相比減少了兩個數量級,能夠快速在線解算指令。這說明DNN除了具備強大的非線性特性學習能力外,與NMPC制導方法相比,其主要優點是計算速度快。雖然訓練過程比較耗時,但DNN一旦訓練完成,網絡在極短的時間內就能計算出控制量,實現實時制導。 考慮到實際火星大氣過程的進入初始狀態和模型誤差等進入條件肯定存在與樣本集不一致的情況,這就需要分析本文DNN的泛化能力。 為了更全面地對網絡性能進行分析,本文考慮了實際進入條件的隨機誤差按照范圍A分布和實際誤差大小超出范圍A的兩種情況。 (1) 隨機誤差按照范圍A分布。用于在線制導的DNN是基于樣本數據事先離線訓練好的,然而實際進入條件通常是按照范圍A分布的隨機情況。因此,按范圍A隨機生成500組誤差并進行仿真,同時為更全面地說明DNN制導的性能,也與其他方法進行了對比,結果如表8所示,統計數據為終端位置誤差小于5 km的概率。 表8 在范圍A之內的仿真結果 (2) 隨機誤差大小超出范圍A。盡管生成樣本集時設定的范圍A基本能夠覆蓋所有的誤差情況,但由于火星大氣環境存在較大的不確定性,實際進入過程的各類誤差仍有可能超出該范圍。所以,有必要進一步對實際進入條件在范圍A之外時DNN制導方法的適應性進行分析。 為了分析不同誤差情況下DNN的性能,將誤差分為初始狀態誤差和模型誤差兩類,即令誤差項pl=[Δx0,ΔCL,ΔCD,Δρ]T=[Δx0,Δmc]T。設置不同的誤差分布形式,如下式所示: (32) 式中:A1為只考慮某一項初始狀態誤差超出范圍A的情況;A2為只考慮某一項模型誤差超出范圍A的情況;A3為考慮這兩種情況同時出現;Pe為超出原誤差范圍的百分比,這里Pe的取值為30%。在各誤差情況下分別進行500次仿真,結果如表9所示,統計數據為終端位置誤差小于5 km的概率。 表9 在范圍A之外的仿真結果 由上述結果可知,實際進入條件在按照范圍A隨機選取的情況下,DNN仍然可以根據飛行狀態自主生成最優控制指令,準確地將探測器導引到目標位置,誤差小于5 km的概率達到了98.2%。從表9可以看出,當實際誤差超出范圍A時,制導精度雖然有所下降,但3種誤差形式下的DNN也都能保持相對較高的性能。其中A2情況下DNN的制導精度最高,而在A1和A3情況下精度下降相對明顯,盡管終端位置誤差小于5 km的概率也都能在90%以上,但制導精度與NMPC方法的差距較大,相比ADRC方法的性能優勢也有所降低。本節的仿真結果充分表明了當實際進入條件在生成樣本集的誤差范圍內隨機分布時,DNN能夠近似得到最優解,一定程度上說明DNN通過深層次的非線性網絡結構成功學習了NMPC系統的特征,體現出了良好的泛化能力。但DNN在不確定擾動的大小超出一定范圍尤其是初始狀態誤差較大時,很難保持與NMPC方法相似的性能,和傳統方法相比也已不具有明顯的優越性,這也是本文方法的局限性所在。雖然可以通過增大樣本覆蓋區域進行改善,但無疑提高了網絡訓練的難度和時間代價。 綜合以上分析可知,本文提出的DNN制導方法不僅很好地兼顧了制導精度和計算耗時兩個方面的需求,實現高精度制導的同時具有很快的指令計算速度,而且能夠較好地適應實際進入條件存在各類不確定誤差的情況,一定程度上保證了其用于在線精確制導的可行性。雖然由于網絡訓練本身的局限性,在誤差過大的情況下該方法的性能優勢會有所下降,但仍然能夠滿足制導精度需求。 本文針對火星大氣進入在線精確制導問題,提出了一種以非線性模型預測控制系統為制導模板,利用深度神經網絡實現智能在線制導的策略。首先通過提出的基于誤差信息估計的預測模型修正方法和變預測時域策略,對NMPC系統進行改進,增強了系統對模型誤差的魯棒性,改善了系統性能。然后利用DNN學習NMPC制導系統的特性,在每一個制導周期代替數值優化求解復雜NLP問題以及積分求解預測輸出的過程,很大程度上克服了NMPC方法求解復雜度高的缺點,減小了指令解算時間。最后,對不同結構網絡的學習性能進行了比較,并通過對DNN泛化能力的分析進一步驗證了方法的可行性,同時指出了局限性。仿真結果驗證了DNN方法相比其它方法在制導精度和計算速度上的優勢,表明本文提出的方法能夠實現探測器大氣進入段高精度在線智能制導。
2.2 基于NMPC的深度神經網絡制導






3 仿真結果及分析



3.1 網絡結構的影響


3.2 不同制導方法的比較







3.3 網絡泛化能力的分析


4 結 論