基于深度強化學習的空戰機動決策試驗

2023-06-27 11:35:12章勝周攀何揚黃江濤劉剛唐驥罡賈懷智杜昕

航空學報 2023年10期

章勝，周攀，何揚，黃江濤，，劉剛，唐驥罡，賈懷智，杜昕

1.中國空氣動力研究與發展中心空天技術研究所，綿陽 621000

2.中國空氣動力研究與發展中心，綿陽 621000

3.西北工業大學航空學院，西安 710000

空戰智能決策將極大改變未來戰爭的形態與模式，對戰爭發展有著顛覆性的影響，隨著人工智能技術的快速進步，智能為王的空戰時代已然呼之欲出［1］。空戰智能決策模擬作戰飛行員在各種空戰態勢下對飛行器操縱的決策，它是智能作戰飛行器的“靈魂”和“大腦”。具有自主決策能力的飛行器在反應速度上完勝人類，同時不用考慮飛行中人類的生理極限，其超算能力能更加準確地預測戰斗的發展以取得對抗的主動權，但是飛行器空戰對抗問題十分復雜，具有高動態、強實時的特征與更大規模的解空間，這給空戰智能決策實現帶來了巨大的挑戰［2］。根據交戰范圍，空戰可劃分為近距空戰、中距空戰和遠距空戰。雖然隨著空基武器的發展，空戰戰場已從近距拓展到中遠距，但是近距空戰不僅沒有被忽視，而且相關技術得到了迅猛發展［3］，研究表明：由于隱身以及電子對抗技術的進步，未來仍有25%～40%的空戰會在近距離展開，因此近距空戰研究仍具有重要的現實意義［4］。近距空戰中，飛行器需要做大量戰術機動以規避敵機并構成武器發射條件，因此機動決策是近距空戰決策的基礎，也是近距空戰智能決策研究中需要解決的關鍵問題［5］。

國內外學者針對近距空戰機動智能決策開展了大量研究，相關研究可以追溯到20世紀60年代美國航空航天局（National Aeronautics and Space Administration，NASA）蘭利研究中心的自適應機動邏輯（Adaptive Maneuvering Logic，AML）系統［6］。傳統的空戰機動決策方法一般可以分為基于博弈理論的方法［7］、基于優化理論的方法［8］和基于專家系統的方法［9］。在歷經專家機動邏輯、自動規則生成與規則演進階段后，空戰機動智能決策取得了長足的進步與發展［2］。2016年6月，美國辛辛那提大學與空軍研究實驗室發展了基于模糊樹的“Alpha空戰”系統，該系統在模擬空戰中成功擊敗了擁有豐富經驗的退役美國空軍上校基恩·李［10］。隨著深度學習的興起，目前人工智能（Artificial Intelligence，AI）已經邁入深度學習時代，基于深度強化學習的智能決策研究取得了實質性進展［11-12］，在2020年8月美國國防高級研究計劃局（Defense Advanced Research Projects Agency，DARPA）舉辦的“AlphaDogfight”人機空戰對抗賽中，蒼鷺公司設計的基于深度強化學習的空戰智能決策機以5∶0的比分完勝人類飛行員，引起了全球各國的密切關注［13-14］。國內學者也開展了基于深度強化學習的空戰機動智能決策研究，將包括啟發式強化學習［15］、Q網絡強化學習［16］、深度確定性策略梯度（Deep Deterministic Policy Gradient，DDPG）算法［17］、多智能體近端策略優化（Multi-agent Proximal Policy Optimization MAPPO）算法［18］、極大極小深度Q網絡（Minimax Deep Q Network，Minimax DQN）算法［19］、雙延遲深度確定性策略梯度（Twin Delayed Deep Deterministic Policy Gradient，TD3）算法［20］、多智能體TD3（Multi-agent TD3，MATD3）算法［21］在內的各種先進強化學習方法應用于空戰決策背景問題并進行了數值仿真驗證，其中文獻［20］基于人機對抗仿真平臺開展了模擬空戰，仿真結果表明智能決策機能夠在近距空戰過程中壓制人類“飛行員”。

在算法研究蓬勃開展的同時，以美國為代表的西方國家還大力推進空戰智能決策算法的落地應用。在空戰演進（Air Combat Evolution，ACE）項目的支持下，蒼鷺公司正在開展將AI系統整合到L-39“信天翁”噴氣式飛機的研究，據報道目前已進行了70多次飛行試驗［22］。此外，美國空軍提出了天空博格人（Skyborg）AI空中對抗實驗驗證平臺項目，大力推進從軟件算法到硬件實現相關技術的發展。相較于空戰智能決策算法的研究，目前國內在空戰決策工程實現方面的研究相對較少，許多智能決策研究工作主要通過仿真進行驗證，而在軟硬件實現及飛行試驗方面的工作鮮有報告。未來空戰是智能為王的時代［23］，智能決策需要處理復雜的態勢信息并迅速實現空戰觀察-判斷-決策-行動（Observation-Orientation-Decision-Action，OODA）環的閉環，其中存在的巨大計算量對相應的軟硬件體系架構提出了特殊的要求。因此，發展滿足智能決策需求的軟硬件架構、將先進的理論算法研究與可靠的工程技術實現相結合，解決工程應用中的安全性、可靠性、遷移性等問題，是推進空戰智能決策技術落地應用中十分重要的工作。

本文針對雙機近距空戰機動決策問題，開展機動智能決策的模型設計、算法實現、硬件開發與飛行試驗研究。為了提高飛行器空戰機動決策的可靠性，提出一種便于工程應用的飛行器近距空戰智能機動決策實現方法，通過結合成熟的飛行控制技術，發展出基于航跡導引指令的空戰機動決策與控制方案。為滿足空戰智能決策中深度神經網絡巨大的計算量要求，設計一種將機動智能決策與飛行自動控制分離的硬件架構，以實現真實對抗環境下的在線智能決策計算。最后，開展將智能無人機與人類“飛行員”遙控無人機進行對抗的飛行試驗。

1 雙機近距空戰對抗數學模型

1.1 飛機質心運動動力學模型

首先定義飛機機體坐標系b與地面坐標系g［24］，如圖1所示，體系b與飛機固連，原點ob位于飛機質心，obxb軸在飛機對稱面內并指向機頭，obyb軸垂直于飛機對稱面指向機身右方，obzb軸在飛機對稱面內指向機身下方。地面坐標系g采用北東地坐標系，其原點og位于地面某點，ogxg軸位于水平面，指向正北方向，ogyg軸指向正東方向，ogzg軸沿豎直方向，指向地心。由于地面坐標系ogzg軸指向朝下，飛行器的高度為h=-z。飛機在地面系中的位置矢量為r=[xy-h]T，x、y分別為飛行器在地面坐標系的橫坐標與縱坐標；速度矢量為v。

圖1 飛行器在地面坐標系下的位置與速度Fig.1 Aircraft’s position and velocity in ground coordinate frame

飛行器質心運動學方程為

飛機質心動力學方程為

式中：v=[VcosγcosχVcosγsinχ-Vsinγ]T；V為速度幅值；χ為航跡方位角；γ為航跡傾角；F為飛機上受到的所有外力，包括氣動力、發動機推力與地球重力；m為飛機質量，通過運動學方程，動力學方程又可以寫為

由于飛行器推力一般沿著機體系的x軸方向，在假設飛行器側滑角為零的前提下，V、χ、γ的微分方程分別為

式中：α為迎角；μ為速度滾轉角為發動機油門；T為發動機推力；Tmax為發動機最大推力，其一般為高度與馬赫數的函數；D、L分別為飛機受到的阻力與升力；g為重力加速度。

飛機氣動力模型為

式中：S為飛機參考面積為動壓；ρ為大氣密度，為高度h的函數；CD、CL分別為飛行器的阻力系數與升力系數，不考慮舵面偏角與側滑角的影響，其均為迎角的函數，可以寫為CD=CD(α)、CL=CL(α)。

綜上，飛行器航跡運動模型中，狀態量可取為X=[xyhVγχ]T，控制量可取為U=[αημ]T。

1.2 雙機空戰對抗態勢評估

雙機近距空戰場景如圖2所示，紅藍雙方飛行器在視距范圍內進行對抗，其中紅機的位置矢量表示為rR，速度矢量表示為vR，藍機的位置矢量表示為rB，速度矢量表示為vB，以紅機為參考，從紅機指向藍機的位置矢量為rRB=rB-rR，藍機相對于紅機的速度矢量為vRB=vB-vR?？諔鹬?，飛行器將綜合敵我雙方狀態信息，通過機動獲取有利態勢，達到目標鎖定與武器發射條件，實現有效消滅對方、同時保存自身的作戰目的。

圖2 雙機近距空戰對抗場景示意圖Fig.2 Schematic diagram of one-to-one fighters’close-range air combat scene

近距空戰中影響空戰態勢的因素包括2個方面：一是飛機靜態性能因素，如飛機本體性能、機載設備性能；二是基于空間位置、速度關系的動態因素，包括角度、速度、高度、距離4個方面［25］。針對動態因素進行評估，通過考慮雙方的位置與速度，建立自身相對于對方的攻擊角度優勢評估函數、速度優勢評估函數、高度優勢評估函數、距離優勢評估函數，從而實現對態勢的量化描述。下面以紅機為例，給出紅機相對于藍機的態勢優勢評估函數。

1）角度優勢評估函數

如圖2所示，基于紅藍雙方的位置、速度信息，定義紅機的攻擊角φattR為

式中：VR=‖‖vR為紅機的速度幅值。定義藍機的逃逸角φescB為

式中：VB=‖vB‖為藍機的速度幅值。根據紅機的攻擊角與藍機的逃逸角，紅機的角度優勢評估函數定義為

顯然，當紅機對藍機處于理想尾追狀態時fφ=1，反之fφ=0。

2）速度優勢評估函數

速度優勢主要基于雙方的速度幅值進行定義，紅機的速度優勢評估函數公式［26］為

式中：Vopt為紅機的最佳空戰速度。

3）高度優勢評估函數

高度優勢評估函數［20］為

式中：評估函數?的計算公式［26］為

式中：hR、hB分別為紅機和藍機的高度；hopt為最佳空戰高度。調整評估量Δfh為

式中：γR為紅機的航跡傾角；Vopt為最佳空戰速度；h0為一個常值參數。之所以引入Δfh是因為研究發現當對抗雙方高度較低時，飛行器有較大概率在敵機的誘導下墜地，因此引入該項來評價飛機在高度過低時自主糾正高度對態勢的影響［20］。當飛機高度較大時，Δfh較小，對高度優勢評估函數fh影響較??；當飛機高度較小時，Δfh較大，此時高度評估函數對高度變化比較敏感，飛機增加高度可以獲得更大的優勢，避免墜地。4）距離優勢評估函數距離優勢評估函數為

式中：‖rRB‖為雙機之間的距離；dopt為紅機的最佳空戰距離；d0為一個常值參數。

綜合上述4個評估函數，最終的態勢優勢評估函數為

式中：ωφ、ωV、ωh、ωd分別為角度優勢、速度優勢、高度優勢、距離優勢評估函數對應的權重參數。

2 空戰機動深度強化學習決策機設計

決策機設計是飛行器近距空戰機動決策飛行試驗的基礎。如圖3所示方案，在針對具體飛行器建模構建仿真平臺形成虛擬交互環境的基礎上，綜合強化學習的探索與利用、優先經驗回放等機制，首先開展近距空戰機動深度強化學習決策機設計，并通過數值仿真驗證決策機的性能；然后進一步針對工程實現發展可行的空戰機動決策及控制架構，進行相應的飛行硬件實現與機載算法開發；最后開展雙機近距空戰對抗飛行演示試驗，驗證智能決策技術。本節介紹深度強化學習智能決策機的具體設計。

圖3 飛行器近距空戰機動決策飛行試驗研究方案Fig.3 Research scheme for the flight test of maneuver decision-making in aircraft close-range air combat

深度強化學習結合了強化學習的決策能力與深度學習的特征提取能力［27］，是實現AI的重要途徑，AlphaGo之父Silver［28］甚至提出“AI=強化學習+深度學習”。深度強化學習與空戰問題的交叉融合，為空戰智能決策的實現提供了新的途徑。空戰中，飛行器將在機載雷達等傳感器設備與后端指揮控制系統的信息支援下展開作戰，為簡化問題，本文假設對抗時飛行器可以通過本體及支援信息系統獲得對方的航跡運動信息，包括位置信息與速度信息。結合飛行器自身的狀態數據，雙機空戰機動智能決策問題中的狀態信息可設定為確定維數的矢量，由于“全連接”前饋型多隱層深度神經網絡適合于該類輸入下決策機的建模，因此本文采用該種神經網絡模型進行建模。訓練方面，綜合目前解決“連續狀態、連續動作”類型問題的主流深度強化學習算法，本文選擇TD3方法進行智能決策機的訓練，它采用Actor-Critic架構，具有良好的數據利用效率與收斂性［29］。

針對Defender 180模型飛機（見圖4）開展研究，飛機質量為m=2.8 kg，翼展為180 cm，參考面積為S=0.456 m2，最大推力為Tmax=13.2 N，飛機氣動力模型采用計算流體動力學（Computational Fluid Dynamics，CFD）數值軟件進行計算，圖5給出了相關結果，圖中方格點代表CFD計算的狀態點。

圖4 Defender 180模型飛機Fig.4 Defender 180 model aircraft

圖5 Defender 180飛機氣動力模型Fig.5 Aerodynamic model of Defender 180 aircraft

神經網絡決策機的特征輸入量選擇中，理論上能完全表征敵我狀態的數據都可以用作神經網絡的輸入，但在實踐中特征量的具體選取對決策機的訓練效率以及后續應用影響很大。參考文獻［20］，輸入量包括對抗雙方的相對位置rRB、相對速度vRB等信息。雖然rRB、vRB采用機體視角下的描述更易于強化學習的定解與收斂，但對工程實現而言，采用地面系下描述的rRB、vRB可以避免工程實現中將位速信息轉化為體系下的描述時引入的誤差，具有更好的實用性能。

采用Pytorch進行智能決策機建模，Actor神經網絡模型包含7層，其中輸出層有3個輸出單元，代表飛行器質心運動模型的3個控制量：迎角α、油門η、速度滾轉角μ，模型中5個隱藏層的單元數均取為256，采用ReLU（Recified Linear Unit）激活函數，輸出層為Tanh激活函數。由于動作價值函數更為復雜，Critic網絡模型為11層結構，除輸入層與輸出層外，還有9個隱藏層，隱藏層單元數均取為256，激活函數為ReLu函數，輸出層為線性輸出。

飛行器空戰的目的是消滅對方、保存自身，其本質上是零和博弈問題，理論上只有對抗結束后才能給出最終的確切獎勵，但是由于動態對抗態勢對飛行器空戰博弈十分重要，本文利用獎勵重塑技術［20］，通過將態勢評估函數值作為獎勵引導飛行器占據對抗優勢，從而避免稀疏獎勵帶來的訓練難以收斂的問題，因此，獎勵函數構造為

根據具體研究對象以及近距空戰中不同優勢評估函數的重要程度，獎勵計算中相關參數的取值如表1所示。

表1 態勢評估函數中的參數取值Table 1 Value of parameters in situation assessment function

雙機近距空戰機動決策機訓練中，紅藍雙方飛機均為Defender 180，紅機（智能體）的初始位置坐標為rR=[00hR]T，其中hR服從［10，200］m區間的均勻分布，速度指向正東，藍機（敵方）在以紅機為中心的立方體空間位置區域中隨機出現，速度方向及大小隨機。決策機訓練中一個周期（episode）長度為1 000 ΔT，其中ΔT=0.1 s。在一個周期結束后對Critic網絡與Actor網絡參數同時進行訓練，mini-batch大小取為N=128，為提升訓練效率，訓練中采用了基于價值的優先經驗樣本回訪技術［30］，利用Adam優化方法更新參數，Critic網絡、Actor網絡的學習率分別取為2×10-4、1×10-4。圖6給出了訓練過程中智能體的獎勵曲線，從圖中可以看到，隨著訓練次數的增加，智能體的平均獎勵穩步上升，當訓練輪數達到20 990次時，智能體的平均獎勵達到峰值，隨后趨于穩定。

圖6 空戰機動智能決策機訓練曲線Fig.6 Training profile of intelligent decision-making machine for air combat maneuver

為驗證訓練得到的智能決策機的性能，將其與由專家系統驅動的藍機進行三自由度空戰對抗仿真［31］，紅藍雙方從相同高度、相同速度、距離200 m相向飛行開始，圖7給出三維空間中紅藍雙機對抗的場景，從圖中可以看到雙方為奪取態勢優勢進行了纏斗，藍機希望通過轉彎機動，擺脫紅機的追逐，而紅機則利用更強的決策能力，在對抗中占據對抗優勢，將藍機置于自身的有效攻擊范圍之內。圖8給出了雙方對抗過程中的態勢評估函數，可以看到紅機在對抗期間的大部分時間內占據了對抗優勢，說明智能決策機的設計是有效的。

圖7 紅藍雙機近距空戰對抗仿真空間三維航跡Fig.7 Simulated 3D trajectories of close-range air combat between red and blue aircraft

圖8 紅藍雙機近距空戰對抗仿真態勢評估結果Fig.8 Simulated situation assessment results for closerange air combat between red and blue aircraft

3 空戰機動決策實現

從虛擬仿真到真實飛行的遷移是智能空戰中需要解決的關鍵問題［2］。由于虛擬仿真環境相對于真實物理環境始終存在誤差，導致在虛擬仿真環境中習得的最優策略難以直接應用于真實物理環境，因此，發展可靠的機動決策及控制實現框架對智能空戰工程實踐十分重要。第2節設計的決策機處理特征輸入后最終輸出的是迎角等指令信息，而迎角指令的準確性依賴于氣動模型的準確性，同時飛行中如果直接對迎角進行控制，則需要昂貴的迎角傳感器提供迎角信息。尤其需要指出的是，不同的決策機可能給出不同的決策指令，如不同于本文神經網絡決策機給出的是迎角、油門和速度滾轉角決策指令，專家系統可能給出的是標準機動動作模板［31］，這會導致不同決策系統間無法兼容，而系統架構實現的靈活性與通用性也是工程應用中關注的重點之一。

為了消除由于實際對象與理論模型間誤差引起的決策品質降低，提高機動控制的可靠性，本文發展了基于航跡導引指令的機動實現方案，具體將迎角等指令轉換為航跡指令后再利用通用控制系統進行跟蹤。圖9給出了飛行器近距空戰機動決策及控制系統架構，其中包括3個層次：在確定近距空戰對抗任務后，無人機將根據近距空戰機動決策機，綜合敵我雙方狀態信息，通過一定的決策模型或算法，輸出飛行器機動的航跡導引指令；而后無人機跟蹤控制器將實現決策機給出的航跡指令，通過一定的控制方法進行解算，輸出氣動舵面與發動機油門控制指令；無人機接收控制指令進行機動，奪取對抗態勢優勢。

圖9 飛行器近距空戰機動決策及控制系統架構Fig.9 Decision-making and control system architecture for close-range air combat maneuver of aircraft

1）機動航跡導引指令計算

不同的決策系統可能給出不同的決策指令，但無論何種動作決策，其目的仍然是飛行器達到有利的對抗態勢，而態勢優勢體現在良好的位置與速度優勢，因此，空戰機動的核心與關鍵是在空間中取得占優的位速。為了提高機動動作實現的可靠性以及控制實現的通用性，消除諸如氣動模型誤差帶來的不利影響，在第2節強化學習決策機給出的決策指令Uc=[αcηcμc]T中，將迎角指令αc與油門指令ηc轉換為航跡高度指令hc與速度幅值指令Vc，具體通過數值積分計算為

式中：Δt為積分步長分別為當前t時刻紅機的速度幅值、航跡傾角、高度分別為預測的紅機下一步時刻t+Δt的速度幅值、航跡傾角、高度。通過式（19）～式（21），決策機最終給出的機動航跡導引指令為

2）導引指令跟蹤控制

針對機動航跡導引指令，采用成熟的比例-積分-微分（Proportional-Integral-Derivative，PID）控制律進行跟蹤［32］，得到相應的氣動舵面與發動機油門控制指令。

對于高度指令hc，通過升降舵δe進行調節，控制律為

式中：q為飛行器俯仰角速度；θ為俯仰角；θc為俯仰角指令；kq、kθ分別為俯仰角速度與俯仰角誤差的比例控制增益，俯仰角指令θc計算為

式中：Vz為飛行器縱向速度；kh、kVz分別為高度控制與速度控制的比例增益；kih為高度控制的積分增益。

對于速度指令Vc，通過油門η進行控制，控制律為

式中：V為飛行器速度幅值；kpV、kiV分別為速度誤差比例項與速度誤差積分項的控制增益。

在側滑角β很小的情況下，飛行器的滾轉角?與速度滾轉角μ差別很小。因此，對于速度滾轉角指令μc，采用直接對滾轉角?進行控制的方式實現，取滾轉角指令為?c=μc，通過副翼δa進行控制，飛行器滾轉角控制律為

式中：p為飛行器滾轉角速度；kp、kp?分別為滾轉角速度和滾轉角誤差的比例控制增益；ki?為滾轉角誤差的積分控制增益。

此外，將方向舵δr用于偏航速率阻尼、側滑消除與協調轉彎，其控制律形式為

式中：r為飛行器偏航角速度；kr、kβ、kr?分別為偏航角速度誤差、側滑角、滾轉角的比例控制增益；rc為通過配合滾轉角實現協調轉彎求得的指令偏航角速度。由于目前飛機中沒有安裝側滑角傳感器，因此控制增益kβ置為0。

4 飛行硬件及機載算法實現

針對飛行試驗，將設計的決策機及控制器進行工程實現。飛行器近距空戰對抗飛行試驗方案如圖10所示，試驗中，紅機為智能無人機，采用本文發展的方法進行機動決策，藍機由人類“飛行員”進行遙控操縱，雙方在視距范圍內進行對抗，飛行器狀態通過地面站進行監控。決策算法工程實現包括硬件方案及軟件架構的確定，其中的重點是進行決策機軟硬件的開發、調試，解決深度神經網絡的在線實時決策計算問題與將Python決策機模型“翻譯”為控制計算機硬件支持的程序格式問題。

圖10 飛行器雙機近距空戰對抗飛行試驗方案Fig.10 Flight test scheme for one-to-one close-range air combat

4.1 硬件方案

由于深度神經網絡決策模型涉及到大量的循環計算，對計算資源消耗很大，傳統飛控計算機的性能可能無法滿足要求。同時，為了增強智能決策機功能實現的靈活性，對紅機采用”飛控計算機+外置決策計算機”的雙硬件方案，如圖11所示，其中飛控計算機使用PixHawk雷迅V5+飛控硬件，決策機采用NVIDIA Jexton TX2嵌入式計算機。飛控計算機控制頻率為100 Hz，決策計算機決策頻率為25 Hz，兩者之間通過串口進行通信。此外，全球定位系統（Global Positioning System，GPS）及羅盤模塊安裝在飛行器頂部前端，通過控制器局域網絡（Controller Area Network，CAN）總線與飛控連接。雷迅P900數傳天線安裝在飛行器頂部，通過串口與飛控連接通信。對于人類“飛行員”遙控的藍機，它采用PixHawk雷迅V5+飛控硬件，其余設備與紅機一致。

圖11 智能無人機的航電硬件架構Fig.11 Avionics hardware architecture for intelligent unmanned aircraft

試驗中，為了使紅機能實時獲得藍機的航跡數據，藍機通過雷迅P900數傳不斷向紅機發送自己的位置與速度信息，頻率為25 Hz。紅機數傳天線接收到相關信息后，先發送到飛控計算機，然后再由飛控計算機轉發到決策計算機，決策計算機計算得到機動航跡導引指令，最后再回傳給飛控計算機。通過性能優化，該過程的數據傳輸時延小于14 ms。飛控計算機收到航跡導引指令后，通過飛行控制律實現相應指令，輸出脈沖寬度調制（Pulse Width Modulation，PWM）信號格式的油門與舵偏控制指令，驅動無人機進行機動飛行。

4.2 算法架構

智能無人機的軟件架構如圖12所示，首先基于飛控等硬件設計驅動層，包括通信接口、外設、傳感器等硬件驅動。在驅動層之上是設備抽象層，按功能劃分為傳感器、任務設備、動力和舵機、遙控遙測等類別，它將硬件設備進行抽象封裝，為上層算法調用提供接口。飛行算法庫封裝和實現上層應用需要的算法，包括導航算法、控制算法。應用層針對近距空戰機動任務，針對決策模型給出的機動航跡導引指令，通過航跡跟蹤控制實現機動飛行，奪取對抗優勢。

圖12 智能無人機的飛行軟件架構Fig.12 Flight software architecture for intelligent unmanned aircraft

對于決策機模型，使用C語言搭建與Python模型完全一致的神經網絡框架，建立網絡節點、前向計算、參數讀取賦值、釋放內存等函數，將Python決策機模型參數保存為.txt文件，然后用其對C語言神經網絡模型的參數進行賦值。對于飛行器GPS傳感器得到的經度、緯度、高度數據，將其轉換為當地北東地坐標下的坐標數據，進而得到紅藍飛行器雙方的相對位置rRB，利用GPS傳感器給出的北東地速度數據，可以直接得到紅藍雙機的相對速度vRB信息。將C程序在Linux環境下編譯，生成excute文件執行，對于本文開發的深度神經網絡決策機模型，一次決策計算耗時僅1 ms，滿足在線應用需求。

5 飛行試驗

空戰對抗飛行試驗中，紅機代表AI智能體，藍機代表人類“飛行員”。飛機起飛后，從大約36.5 s開始進行試驗，如圖13所示，在對抗初始階段，紅機與藍機距離較遠，雙方均選擇相向而行，迅速減小雙方距離；當距離縮短后，對抗雙方為形成有效攻擊條件，分別進行協調轉彎，智能機首先取得了對敵的有利攻擊態勢，此時人類“飛行員”為擺脫智能機的攻擊范圍，進行了俯沖機動和水平轉彎，智能機針對敵機動作進行相應機動，為奪取態勢優勢，兩機進行了類剪刀機動的動作，紅機始終保持了對藍機的追擊態勢，試驗期間（大約［36.5， 122］s）人類“飛行員”總體處于劣勢。

圖13 紅藍雙機近距空戰對抗試驗場景Fig.13 Snapshots of red and blue aircraft in closerange air combat flight test

圖14～圖16給出了試驗結果曲線，其中圖14給出了試驗期間紅藍雙機的高度曲線，從圖中可以看到，在空戰對抗試驗大約85.5 s的時間段中，紅方總體上占據了高度優勢。圖15給出了對抗期間紅藍雙機的態勢曲線，初始階段藍機稍占優勢，但紅機迅速進行了調整，奪得了對抗優勢，試驗中紅機總體處于優勢，它能夠迅速做出有利于己方的動作決策，通過機動占據對抗優勢。圖16給出了對抗過程中紅機決策機給出的機動航跡導引指令與飛行器的實際狀態曲線，包括高度指令跟蹤曲線（見圖16（a））、速度指令跟蹤曲線（見圖16（b））、滾轉角指令跟蹤曲線（見圖16（c）），注意其中滾轉角指令限幅60°，從圖中可以看到，一方面空戰機動航跡導引決策指令光滑，連續性良好，另一方面，飛行控制律工作可靠，較好地實現了決策機給出的航跡導引指令。試驗結果說明提出的決策及控制架構具有較好的性能。

圖14 近距空戰對抗試驗中紅藍雙機的高度曲線Fig.14 Height profiles of red and blue aircraft in closerange air combat flight test

圖15 近距空戰對抗試驗中雙方的態勢評估結果Fig.15 Situation assessment results of red and blue aircraft in close-range air combat flight test

圖16 紅機航跡導引指令與實際飛行狀態曲線Fig.16 Curves of trajectory guidance commands and actual flight states of red aircraft

6 結論

針對雙機近距空戰機動智能決策問題，進行了深度強化學習決策機的設計及其遷移實現研究，并進一步開展了智能無人機與人類“飛行員”對抗的飛行試驗，主要結論如下：

1）發展了一種便于工程應用的近距空戰機動智能決策及控制實現方法，研究結果表明基于本文提出的方法，智能無人機能夠迅速作出有利于己方的動作決策，在對抗中通過機動快速占據態勢優勢。

2）相較于直接實現迎角等決策指令的控制方案，采用變換航跡導引指令的控制方案具有較高的可靠性與通用性，同時在工程實現方面具有一定的靈活性，可以支持具有相似功能的不同算法運行。

3）本文工作驗證了基于深度神經網絡的近距空戰機動決策技術及軟硬件實現方案的可行性，為空戰智能決策技術的工程實現提供了良好參考。但目前試驗采用的神經網絡決策機是離線習得，還不具備自適應學習能力，為了提高決策機的效能，未來將開展決策機在線自演進學習的研究工作。