惠俊鵬,汪韌,郭繼峰
1.哈爾濱工業大學 航天學院,哈爾濱 150006
2.中國航天科技創新研究院,北京 100176
高速飛行器因臨近空間的復雜不確定性,滑翔段制導技術的研究面臨諸多挑戰[1]。隨著臨近空間飛行任務的多樣化,飛行器不僅需要滿足一般的過程約束和終端約束等要求,還需要滿足規避禁飛區的要求。禁飛區指飛行器飛行過程中不允許通過的位置區域,例如地緣政治禁止通過的區域等。禁飛區繞飛制導技術的研究主要分為2 類:一是離線軌跡規劃;文獻[2-4]基于優化理論,將飛行器禁飛區繞飛問題轉化為軌跡優化問題,可實現全局軌跡的優化求解以及最優繞飛策略的生成。文獻[5]提出一種基于改進稀疏A*算法的禁飛區繞飛軌跡規劃方法,該方法基于最小轉彎半徑約束進行節點拓展,有效提高了搜索效率,能夠成功完成繞飛軌跡規劃。二是在線禁飛區繞飛制導,趙江[6]、Liang[7]和Zhang[8]等提出了一種考慮禁飛區規避的預測校正制導方法,縱向制導采用落點誤差預測與指令校正相結合的方式更新傾側角的幅值,側向制導設計了一種傾側角反轉邏輯的切換機制,利用航向角誤差走廊和航向角導向區域控制飛行器的側向運動。趙亮博等[9]開展了基于虛擬目標導引的高速飛行器禁飛區規避制導方法研究,結合Dubins 曲線軌跡規劃方法與比例導引方法實時跟蹤虛擬目標,實現飛行器對禁飛區的規避制導。章吉力等[10-11]對禁飛區影響下的空天飛機可達區域計算方法進行了研究,從極限繞飛軌跡與禁飛區的切點出發,提出繞過禁飛區后的可達區域計算方法,并研究一種考慮禁飛區規避的分段預測校正制導方法。文獻[12-13]提出了一種基于虛擬多觸角探測的航路點規劃機動制導策略,通過飛行器最大轉彎軌跡計算速度-剩余地面距離-航向角約束,并采取雙模式多觸角探測反饋的方法進行機動制導策略的設計,可有效地解決機動制導過程中的多約束問題。文獻[14]提出基于人工勢場的側向制導方法,適用于處理航路點約束和禁飛區約束問題。Yu 等[15]設計了一個復雜但嚴格的框架,獲得擬平衡滑翔條件下禁飛區繞飛的解析制導指令,并通過仿真驗證了該方法可處理多個禁飛區的繞飛任務。
近年來,隨著人工智能的快速發展,強化學習技術大量應用于解決智能體的決策問題[16],具有代表性的強化學習算法有深度Q 網絡(Deep Q Network,DQN)[17]、深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)[18]、軟動作-評價(Soft Actor-Critic,SAC)[19]和近端策略優化(Proximal Policy Optimization,PPO)[20]。強化學習技術在制導控制領域的應用尚處于初步階段。文獻[21-27]研究了基于DDPG、DQN 和PPO 等算法的智能制導技術,在縱向制導中計算傾側角幅值,抽象橫向制導傾側角反轉邏輯為馬爾可夫決策問題,使得飛行器初步具備了自主決策能力。在姿態控制方面,文獻[28-31]在傳統控制的基礎上,進一步利用強化學習算法實現了從飛行器位置、速度和姿態角等信息到控制量的端到端飛行控制。
傳統高速飛行器禁飛區繞飛方法存在2 方面的不足:一是優化類方法存在迭代計算量大、收斂速度慢等問題,難以滿足在線應用的實時性要求;二是預測校正制導方法在縱向制導中僅以中末交班點信息校正傾側角的幅值,未綜合考慮禁飛區的位置信息和中末交班點信息,在橫向制導中需要基于人工經驗設計飛行走廊參數,對于突現的禁飛區適應能力差,影響高速飛行器在不確定飛行環境中完成任務的成功率。
針對高速飛行器禁飛區繞飛問題,通過智能技術的賦能,提升高速飛行器對不確定禁飛區繞飛的適應能力。具體問題為:
1)參數設置
飛行器的再入初始點參數和禁飛區的位置參數在合理的范圍內隨機設置,中末交班點的位置固定,目的是希望以隨機的再入初始點為起滑點,成功繞飛隨機位置的禁飛區,且能精確到達固定的中末交班點。
2)飛行器的飛行軌跡可分為如下3段:
第1 段,飛行器從再入初始點開始并不清楚前方是否有禁飛區,在尚未發現禁飛區時,以中末交班點為滑翔段目標點,基于預測校正制導方法實時解算制導指令;第2 段,當飛行器與禁飛區中心點的距離小于禁飛區半徑的2.5 倍時,飛行器探測到前方有禁飛區,開始實施機動繞飛,該段采用智能制導方法,以飛行器相對禁飛區和中末交班點的狀態信息為輸入變量,利用訓練的智能制導模型實時輸出繞飛時的制導指令;第3 段,當飛行器與中末交班點的距離小于禁飛區中心點與中末交班點的距離時,認為禁飛區繞飛結束,繞飛結束后繼續采用預測校正制導方法控制飛行器精確到達中末交班點。
本文的立意主要體現在以下2 個方面:
1)提出“預測校正制導—基于監督學習預訓練傾側角制導模型—基于強化學習進一步升級傾側角制導模型”逐級遞進的禁飛區繞飛智能制導研究框架。首先,設置高速飛行器合適的初始點和禁飛區的參數范圍,基于傳統預測校正制導方法,生成大量的禁飛區繞飛樣本軌跡;其次,利用監督學習方法和生成的樣本軌跡對傾側角制導模型進行預訓練,其目的是通過領域知識引導繞飛策略的搜索,使得基于監督學習方法訓練出的制導模型對禁飛區的繞飛效果最大程度逼近基于預測校正制導的繞飛效果。
2)在監督學習的基礎上,進一步利用強化學習技術在智能決策方面的天然優勢,擺脫傳統預測校正制導方法對傾側角解空間的約束,通過飛行器與環境大量交互“試錯”,并借鑒人類基于反饋來調整學習策略的思想,設置有效的獎勵(反饋)引導,利用強化學習中PPO 算法進一步升級禁飛區繞飛傾側角制導模型。一方面利用智能技術充分挖掘高升阻比飛行器強大的橫向機動能力,在不同傾側角下其橫向機動距離可以從幾百公里跨越到上千公里,利用智能制導模型將傾側角的幅值和符號一并輸出,具有更大的探索空間,期望產生更優的繞飛策略;另一方面受飛行器的能量約束,在繞飛時需綜合考慮禁飛區約束和滑翔終端約束,確保繞飛后具備足夠的能量精確到達中末交班點,從而滿足未來飛行器智能決策系統對不確定場景的適應性需求。
圍繞基于強化學習的禁飛區繞飛智能制導技術開展研究,第1 節建立了高速飛行器的動力學模型;第2 節研究了禁飛區繞飛智能制導模型的設計;第3 節深入研究基于監督學習的禁飛區繞飛傾側角制導模型的訓練;第4 節在第3 節研究的基礎上,進一步深入研究基于強化學習的禁飛區繞飛傾側角制導模型的升級訓練;第5 節給出仿真、對比與結果分析;第6 節為結論。
高速飛行器三自由度動力學方程為
式中:r為地心距;θ和?分別表示飛行器的經緯度;V為飛行速度;γ和ψ分別表示飛行器的航跡角和航向角;σ表示傾側角;m為飛行器的質量;g為重力加速度;L和D分別表示飛行器受到的升力和阻力[32]。
高速飛行器在飛行過程中需滿足多種約束條件,主要包括:
1)硬約束條件
硬約束條件是指飛行器飛行過程中需要滿足的熱流率、過載和動壓等約束條件,其表達式為
2)中末交班點約束條件
中末交班點約束是指滑翔段和末制導段的交班點滿足高度、速度、經緯度等約束,可表示為
式中:tf、rf、Vf、θf和?f分別表示中末交班點的時刻、地心距、速度、經度和緯度,tf不固定,rf、Vf、θf和?f是預先設置的。
3)禁飛區約束條件
一般采用無限高的圓柱模型來描述禁飛區約束,再入飛行軌跡不能與該圓柱相交。禁飛區約束可建模為
式中:R0為地球半徑;θNFZ、?NFZ和rNFZ分別表示禁飛區中心的經度、緯度和半徑。
本文借鑒Alpha Go[33]的思想,將監督學習技術和強化學習技術融合應用于禁飛區繞飛制導中,主要包括3 個步驟,如圖1 所示。

圖1 高速飛行器禁飛區繞飛智能制導研究框架Fig.1 Research framework of intelligent guidance of re‐entry vehicles for avoiding no-fly zone
步驟1預測校正制導
設置飛行器再入初始點和禁飛區的參數范圍,基于傳統預測校正制導方法,生成大量的繞飛樣本軌跡。
步驟2監督學習
建立禁飛區繞飛傾側角智能制導模型,利用監督學習中帶有動量的隨機梯度下降(Stochas‐tic Gradient Descent with Momentum,SGDM)算法[34]和步驟1 產生的繞飛樣本軌跡,訓練傾側角智能制導模型。
步驟3強化學習
在步驟2 基于監督學習訓練出的禁飛區繞飛傾側角智能制導模型的基礎上,利用強化學習在智能決策方面的優勢,在禁飛區約束、終端約束、過程約束下通過飛行器與環境進行大量交互,并借鑒人類基于反饋來調整學習策略的思想,設置有效的獎勵(反饋),利用強化學習中PPO 算法[20]進一步訓練禁飛區繞飛傾側角制導模型,實現飛行器基于實時的狀態信息在線決策禁飛區繞飛所需的傾側角幅值和符號指令。該方法一方面充分挖掘高升阻比飛行器強大的橫向機動能力,另一方面受飛行器的能量約束,確保繞飛后具備足夠的能量精確到達中末交班點。
禁飛區繞飛示意圖如圖2 所示。其中,C是高速飛行器的當前位置;T為中末交班點的位置;Z為禁飛區的中心;M為C點與禁飛區切線的交點。過C點作禁飛區的切線CM和CN,CM與北向的夾角為ψM。

圖2 禁飛區繞飛示意圖Fig.2 Diagram of avoiding no-fly zone
禁飛區繞飛傾側角智能制導模型如圖3 所示,其中制導模型的輸入為飛行器的狀態向量,定義狀態向量為

圖3 基于LSTM 的禁飛區繞飛傾側角制導模型Fig.3 Bank angle guidance model avoiding no-fly zone based on LSTM
式中:Δr=r?rf表示t時刻的地心距與中末交班點地心距的差;ΔV=V?Vf表示t時刻的速度與中末交班點速度的差;Ltogo表示t時刻飛行器距離中末交班點的剩余航程:
s(t)的后2 個變量(ψMCV,ψTCZ)為飛行器相對禁飛區的狀態變量。由圖2 可以看出,在禁飛區繞飛時需要考慮:
1)判斷從哪一側規避禁飛區,ψTCZ=ψT?ψZ表示CT與北向的夾角ψT與CZ與北向的夾角ψZ的差。當ψTCZ<0 時,從禁飛區左側繞飛;當ψTCZ>0 時,從禁飛區右側繞飛。
2)判斷速度V的方向是否指向禁飛區,ψMCV=ψM?ψ表示CM與北向的夾角ψM與飛行器航向角ψ的差。當飛行器速度方向指向禁飛區外側時,ψMCV>0;當飛行器速度方向指向禁飛區時,ψMCV<0。
禁飛區繞飛傾側角制導模型的隱層為長短期記憶網絡(Long Short-Term Memory,LSTM)模型[35],隱層的節點數為64 個,隱層到輸出層是全連接,輸出為傾側角σ。
從智能決策的角度來說,飛行器繞飛決策屬于典型的序貫決策問題,每一時刻決策傾側角時不僅取決于飛行器當前時刻的狀態,還與上一時刻的傾側角有關。因而在決策傾側角時需要考慮相鄰時刻間的狀態關系,而這也恰好是LSTM 所具有的獨特優勢,是解決序貫決策的經典模型,因而選擇基于LSTM 構建禁飛區繞飛傾側角制導模型。
基于LSTM 模型輸出禁飛區繞飛的傾側角需滿足再入過程的硬約束條件。文獻[32]將再入過程的硬約束條件轉化為對傾側角幅值的約束:
式中:CL和CD分別為升力系數和阻力系數;S為特征面積;分別為熱流率、過載和動壓約束下飛行器傾側角的上界。在基于LSTM 模型輸出禁飛區繞飛傾側角幅值的基礎上,進一步利用式(7)對傾側角進行限制,使其滿足硬約束條件。
訓練過程分為2 步:一是禁飛區繞飛訓練樣本的生成;二是禁飛區繞飛傾側角制導模型的訓練。
選取美國通用航空飛行器CAV-H 為研究對象,基于預測校正制導方法產生禁飛區繞飛的樣本數據。參數設置如下[36]:
1)飛行器參數
質量m=907.20 kg,特征面積S=0.483 9 m2,過程約束中最大允許熱流率,最大允許過載nmax=3g,最大允許動壓qmax=100 kPa。
2)中末交班點參數
高度hf=23 km,經度θf=50°,緯度?f=0°,速度。
3)攻角剖面
4)飛行器再入初始點和禁飛區的狀態參數設置如表1 所示。

表1 飛行器再入初始點和禁飛區的參數Table 1 Parameters of initial state and no?fly zone of flight vehicle
在上述參數范圍內隨機設置飛行器的再入初始點和禁飛區參數,在預測校正制導下可以獲得大量的繞飛軌跡數據。在打靶試驗后,總計生成2 048 條飛行軌跡,從禁飛區左側和從右側規避的飛行軌跡各1 024 條。符合中末交班點約束和禁飛區約束的飛行軌跡共1 309 條,其中從左側規避彈道623 條,從右側規避彈道686 條,如圖4 所示。從1 309 條飛行軌跡數據中,隨機抽取1 200 條飛行軌跡數據組成樣本集,其中840 條飛行軌跡用作監督學習時的訓練集,180 條飛行軌跡用作驗證集,剩下的180條飛行軌跡用作測試集。

圖4 通用航空飛行器H 從左右兩側規避禁飛區的繞飛軌跡Fig.4 Subsatellite track formed by common aero vehicle-H avoiding no-fly zone from left and right side
需要說明的是,圖4 中的每條飛行軌跡分為3 段,其中第1、3 段在圖中用虛線表示,中間第2 段用實線表示。第1 段為尚未發現禁飛區時以中末交班點為目標點的飛行軌跡;當飛行器與禁飛區中心點的距離小于禁飛區半徑的2.5 倍時,認為飛行器探測到前方的禁飛區,開始繞飛,即用實線表示的第2 段繞飛軌跡;當飛行器與中末交班點距離,小于禁飛區中心點與中末交班點距離時,認為禁飛區繞飛結束,進入虛線表示的第3 段飛行軌跡。在訓練時截取第2 段禁飛區繞飛的樣本數據訓練傾側角智能制導模型。
將840 條訓練飛行軌跡數據輸入圖3 基于LSTM 的禁飛區繞飛傾側角制導模型中,基于監督學習的思想,選取均方根誤差(Root Mean Square Error,RMSE)作為評價指標,其定義為
式中:N表示軌跡的數目;R表示每一條軌跡的樣本點數。
訓練結果如圖5 所示,可以看出,均方根誤差隨著訓練迭代次數的增加逐漸減小且趨于收斂。

圖5 均方根誤差隨迭代次數的變化曲線Fig.5 RMSE-epoch variation curve
在第3 節基于監督學習的禁飛區繞飛傾側角制導模型訓練的基礎上,進一步將強化學習技術應用于禁飛區繞飛制導中,在禁飛區約束、中末交班點約束和硬約束條件下通過飛行器與環境進行大量交互,在“試錯”的過程中設置有效的獎勵(反饋),并利用PPO 算法訓練傾側角制導模型,進一步提升對不確定禁飛區的適應性。
基于強化學習研究飛行器禁飛區繞飛制導律,需首先利用馬爾科夫決策過程對禁飛區繞飛制導問題進行建模,主要包括3 部分:禁飛區繞飛時的狀態空間、繞飛決策的動作空間和繞飛獎勵的設計。
1)禁飛區繞飛時的狀態空間
飛行器的狀態空間如式(5)所示,即s(t)=[Δr,ΔV,ψ,Ltogo,ψMCV,ψTCZ]T。
2)禁飛區繞飛時的動作空間
飛行器的動作空間A為傾側角σ,包括傾側角的幅值和符號:
3)禁飛區繞飛時的獎勵設計
獎勵根據任務需求進行設計,以引導飛行器在對禁飛區繞飛的同時,具備良好的能量和交班管理。獎勵的設計包括過程獎勵和終端獎勵。除了終端獎勵,設計過程獎勵的目的是避免出現稀疏獎勵問題,稀疏獎勵容易使訓練難以收斂。
過程獎勵分為2 部分:
1)利用傳統的預測校正制導引導禁飛區繞飛時的策略搜索,即強化學習算法的“利用”(Ex‐ploit)性質;同時需增加飛行器與環境交互過程中的探索性,期望其能夠探索出比傳統制導方法更優、適應范圍更廣的智能制導方法,即強化學習算法的“探索”(Explore)性質。該獎勵定義為
式中:kcomd>0 為常數;σtra為當前狀態下預測校正制導給出的傾側角指令;σt為智能制導模型探索出的傾側角指令。通過設計有效的Δσ域,以提供飛行器傾側角指令合理的探索空間。
2)在繞飛過程中需要引導飛行器持續飛向中末交班點,該獎勵定義為
式中:kgoto>0 為常數;dexit為判定禁飛區繞飛結束時的條件距離;dt為當前剩余航程,飛行器越接近繞飛結束點,該項獎勵越大。
終端獎勵分為2 部分:
1)負責對不合理情況進行當前局終止,并給出終局獎勵ravoid。不合理情況的判斷條件為
式中:cavoid為條件判斷符,用于判斷是否出現不合理情況,取布爾值0 或1,滿足條件取1,觸發結束當前局條件;Et表示飛行器的能量,其表達式為,EJB為中末交班點能量,Et 式中:aavoid>0 為常數。 2)飛行器精確到達中末交班點的獎勵rJB,其定義為 以CAV-H 為研究對象,參數設置見3.1 節,比較3 種不同制導方法對禁飛區的繞飛效果:①預測校正制導方法;②第3 節基于監督學習中SGDM 算法訓練禁飛區繞飛傾側角制導模型的方法(圖中記為“LSTM 模型+SGDM 算法”);③第4 節中基于強化學習中PPO 算法訓練禁飛區繞飛傾側角制導模型的方法(記為“LSTM 模型+PPO 算法”),對比結果如圖6~圖10 所示。 圖6 橫向繞飛軌跡對比Fig.6 Comparison of horizontal trajectory for avoiding no-fly zone 圖7 高度-速度對比Fig.7 Comparison of height-velocity 圖8 傾側角-時間對比Fig.8 Comparison of bank angle-time 圖9 航跡角-時間對比Fig.9 Comparison of flight path angle-time 圖10 航向角-時間對比Fig.10 Comparison of heading angle-time 由圖6~圖10 可以看出,“預測校正制導”與“LSTM 模型+SGDM 算法”2 種制導方式下的禁飛區繞飛的軌跡基本重合,這是由于利用監督學習訓練傾側角制導模型時,選取的禁飛區繞飛樣本軌跡是基于預測校正制導方法產生,該訓練過程可理解為對預測校正制導的擬合過程。由圖6 可以看出,該方法雖然能成功繞飛禁飛區,但由于對禁飛區規避機動過大而導致能量損失過多,在繞飛后無法精確到達中末交班點。“LSTM模型+PPO 算法”制導下的繞飛軌跡明顯不同于預測校正制導下的飛行軌跡,在過程獎勵和終端獎勵的引導下,探索出比傳統制導方法更優的智能制導方法,不僅能夠實現對禁飛區的成功繞飛,且在繞飛后精確到達中末交班點。 為驗證“LSTM 模型+PPO 算法”制導方法的魯棒性和對參數偏差的適應性,對飛行器再入初始狀態、氣動參數進行拉偏仿真分析。 在如表2 所示的再入初始狀態擾動和氣動偏差的條件下,基于“LSTM 模型+PPO 算法”制導方法進行729 組的Monte Carlo 仿真,落點經緯度的散布圖如圖11 所示,可以看出中末交班點的經緯度均勻分布在θf=50°、?f=0°周圍,且最大落點偏差控制在±0.1°的范圍內。 表2 飛行器再入初始狀態和氣動參數偏差Table 2 Initial state error and aerodynamic parameter perturbation 圖11 初始狀態和氣動參數擾動下落點經緯度的散布圖Fig.11 Scatter of longitude and latitude of setting point under initial state error and aerodynamic param‐eter perturbation 為進一步對比傳統預測校正制導與“LSTM模型+PPO 算法”制導方法對禁飛區的繞飛效果,對比結果如圖12 所示,每個格子代表不同的起始點經度、緯度、速度和高度,其中經度變化范圍為[4.8°,5.2°],緯度變化范圍為[?0.2°,0.2°],步長為0.05°;高度變化范圍為[48,50] km;速度變化范圍為[5 550,5 600] km/s。可以看出,在初始參數擾動情況下,“LSTM 模型+PPO 算法”制導方法相比于預測校正制導具有更高的繞飛成功率,其原因在于基于LSTM 的智能制導模型具有天然的泛化能力,因而對于參數的偏差具有更強的魯棒性。 圖12 預測校正制導與“LSTM 模型+PPO 算法”制導方法對比Fig.12 Comparison of predictor-corrector guidance and “LSTM model+PPO algorithm” guidance method 進一步分析“LSTM 模型+PPO 算法”制導方法在實時性方面的性能。在Monte Carlo 仿真中,基于“LSTM 模型+PPO 算法”制導方法完成一次禁飛區繞飛時傾側角指令解算的平均時長為3.61 s,其具體分布如圖13 所示,其中基于LSTM 模型生成傾側角的時長為2.26 s,龍格庫塔RK-4 積分時長為1.23 s。 圖13 計算實時性對比分析Fig.13 Comparison of computing time analysis 與之對比,在Monte Carlo 仿真中,基于預測校正制導方法完成一次禁飛區繞飛時傾側角指令解算的平均時長為18.49 s,其中縱向制導的平均時長為17.18 s,橫向制導過程占其中的1.23 s。這是因為在縱向制導中,對動力學方程進行積分的預測過程和基于割線法求解傾側角的校正過程計算量較大,占用的時間較長。而基于LSTM 模型的禁飛區繞飛傾側角指令的解算沒有“預測”環節和“積分”環節,大大減少了計算量,提高了計算速度。因而,在實時性方面,基于“LSTM 模型+PPO 算法”制導方法相比于傳統預測校正制導具有明顯的優勢。 針對傳統基于優化類方法解決禁飛區繞飛存在計算量大、難以收斂的問題,基于預測校正的制導方法在縱向制導中僅以中末交班點信息校正傾側角的幅值,未綜合考慮禁飛區的位置信息和中末交班點信息,在橫向制導中需要基于人工經驗設計飛行走廊參數,對于突現的禁飛區適應能力差。利用強化學習技術在智能決策方面的天然優勢,通過飛行器與環境大量交互“試錯”,并借鑒人類基于反饋來調整學習策略的思想,基于有效的獎勵(反饋)引導和強化學習中PPO 算法訓練禁飛區繞飛傾側角制導模型。該智能制導模型將傾側角的幅值和符號一并輸出,能夠充分挖掘高升阻比飛行器強大的橫向機動能力,以產生更優的繞飛策略。同時本文在繞飛時綜合考慮禁飛區約束和再入終端約束,確保繞飛后具備足夠的能量精確到達中末交班點。 盡管基于強化學習的智能制導技術能夠充分挖掘飛行器的寬域飛行優勢,且具備非線性映射能力和實時性方面的天然優勢,但目前的智能制導技術存在難以回避的缺點:一是基于強化學習的智能制導技術本質上還是純數據驅動的模式,需要飛行器與環境交互產生大量樣本數據來訓練神經網絡模型,但在航天領域,真實的飛行數據往往難以獲取,只能在仿真環境下獲取,存在仿真環境與實際飛行環境不一致的問題;二是目前的人工智能仍然處于計算智能階段,神經網絡模型只能在訓練樣本數據集覆蓋的范圍內有效,依然不具備較強的泛化能力,實際飛行中若出現數據集范圍外的情況,神經網絡的性能將難以保證。智能制導技術與傳統制導技術不是簡單的替代關系,傳統制導技術可以在關鍵點上吸納人工智能技術在記憶、推理、擬合等方面的優勢,2 種技術的交叉融合是飛行器制導控制的熱門研究方向。5 仿真與分析
5.1 不同制導方法對比分析





5.2 Monte Carlo 仿真分析



5.3 實時性分析

6 結論