999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度Q網絡的近距空戰智能機動決策研究

2023-07-20 01:25:37張婷玉孫明瑋王永帥陳增強
航空兵器 2023年3期

張婷玉 孫明瑋 王永帥 陳增強

摘要:針對近距空戰對抗中無人機機動決策問題, 本文基于深度Q網絡(DQN)算法的框架, 對強化學習獎勵函數設計以及超參數的選擇問題進行了研究。 對于強化學習中的稀疏獎勵問題, 采用綜合角度、 距離、 高度和速度等空戰因素的輔助獎勵, 能夠精確描述空戰任務, 正確引導智能體的學習方向。 同時, 針對應用強化學習超參數選擇問題, 探究了學習率、 網絡節點數和網絡層數對決策系統的影響, 并給出較好的參數選擇范圍, 為后續研究參數選擇提供參考。 空戰場景的仿真結果表明, 通過訓練智能體能夠在不同空戰態勢下學習到較優的機動策略, 但對強化學習超參數較敏感。

關鍵詞:空戰; 自主機動決策; 深度強化學習; DQN; 獎勵函數; 智能機動; 參數選擇

中圖分類號:? TJ76; V212.13文獻標識碼:A文章編號: 1673-5048(2023)03-0041-08

DOI: 10.12132/ISSN.1673-5048.2022.0251

0引言

伴隨著現代戰爭的信息化和智能化, 空戰戰場上使用無人機的趨勢日益明顯, 無人作戰飛機(Unmanned Combat Aerial Vehicle, UCAV)逐漸成為未來空戰的主力武器[1-2]。 目前UCAV大多采用地面人員遙控的作戰模式, 很難適用于復雜多變的空戰環境。 因此, 提升UCAV的智能化水平是打贏未來空戰的軍事需求[3]。 飛行器自主機動決策技術是提高空戰自主能力與智能化水平的關鍵技術, 能夠準確感知空戰環境并生成合理機動決策的自主機動決策方法是各國軍事技術的研究重點[4]。

現有的空戰決策方法分為兩類: 一類是非學習策略, 另外一類是自學習策略。 非學習策略的求解過程主要采用優化理論, 包括專家系統[5-6]、 微分對策[7-8]、 矩陣博弈[9-10]等方法。 而自學習空戰決策方法的核心是用智能算法對空戰決策過程建模, 并根據訓練產生的經驗對決策模型參數進行優化。 典型的自學習策略算法包括遺傳算法[11]、 動態規劃算法[12]和強化學習算法等。 丁林靜等人采用動態模糊Q學習模型, 提出了基于強化學習的無人機空戰機動決策方法[13], 但由于空戰問題的復雜性, 使傳統強化學習算法無法解決連續狀態空間問題, 會存在維度限制問題。

近年來, 深度強化學習在多種決策問題中均有一定突破, 為解決空戰對抗中飛行器機動決策問題提供了新思路。 目前, 深度強化學習在空戰對抗中的運用主要有基于值函數的Q學習方法和基于策略搜索的Actor-Critic方法。 張強等人提出一種基于Q-network強化學習的超視距空戰機動決策方法[14]。 Zhang等應用DQN(Deep Q-Network)算法研究了二維平面的空戰機動決策問題, 針對DQN算法初始隨機探索效率低的缺點, 提出利用專家知識提高探索效率, 加快訓練時間[15]。 Yang等基于DDPG(Deep Deterministic Policy Gradient)算法構建空戰決策系統, 針對DDPG算法缺少空戰先驗知識、 導致數據利用率低的問題, 提出向經驗池加入已有機動決策系統的樣本數據, 加快算法收斂速度[16]。 吳宜珈等通過改進PPO(Proximal Policy Optimization)算法, 優化策略選擇過程, 提高決策效率[17]。 上述文獻主要關注對深度強化學習算法的改進, 對于適用于一對一空戰的獎勵函數以及強化學習超參數選擇問題沒有過多研究。 在深度強化學習方法應用過程中, 超參數的整定以及超參數的調整是否會帶來性能的影響, 是一個值得研究的問題。

本文針對三維空間中無人機一對一近距對抗問題開展研究, 采用強化學習框架對空戰問題進行建模; 針對強化學習的稀疏獎勵問題, 考慮加入能夠準確描述空戰任務的輔助獎勵, 設計一對一空戰的機動決策獎勵, 提出了基于DQN算法的自主機動決策方法; 針對深度強化學習超參數選取問題, 探究超參數對決策系統的影響, 并設置空戰場景進行仿真, 驗證機動決策方法的有效性。

1空戰機動決策問題描述及建模

1.1近距空戰問題描述

空戰問題可用OODA環描述, 即完成空戰的觀察(Observe)、 判斷(Orient)、 決策(Decide)和執行(Action)回路(簡稱OODA回路)。 結合OODA回路描述, 自主空戰被定義為在瞬息萬變的復雜戰場環境中感知并認知戰場態勢和目標意圖, 對武器和機動動作快速做出最優的決策策略, 并控制飛機精確執行機動指令。 空戰決策是自主空戰的核心。 本文所研究的空戰場景為近距一對一空戰, 如圖1所示。

一對一空戰機動決策的目的是在雙方交戰過程中, 使我方盡量處于空戰態勢的優勢地位, 即盡可能讓敵方進入我方的武器攻擊區域, 同時避免自身落入敵方的武器攻擊區域。 典型的武器攻擊區域是攻擊機的前方一定距離和角度的錐形范圍。

1.2UCAV運動學模型

飛行器的運動學模型是空戰機動決策模型的基礎, 本文研究的重點是機動策略, 不考慮姿態等, 故將飛行器看作三維空間中的一個質點, 采用三自由度質點模型。

基于動力學基本定理, 飛行器在慣性坐標系下的三自由度質點運動模型為[18]

式中: v為飛行器的速度; x, y, z為飛行器質心在慣性坐標系中的坐標值; γ, ψ, μ為飛行器的俯仰角、 航向角和滾轉角; nx為切向過載, 表示飛行器在速度方向上受到的推力與自身重力的比值; nz為法向過載, 提供飛行器所需的升力[18]。 本文所選取飛行器機動模型的控制量為nx, nz, μ。

2基于DQN的機動決策方法

2.1系統框架

深度Q網絡(Deep Q-Network, DQN)是將傳統強化學習方法Q-learning與深度神經網絡相結合的一種算法。 DQN用深度神經網絡代替Q表, 解決了Q表存儲限制問題; 引入目標網絡來計算目標Q值, 采用暫時參數凍結的方法切斷Q網絡更新時的相關性, 有效避免了Q估計值不收斂的問題。 DQN算法的框架如圖2所示。

空戰格斗的機動決策是一個序貫決策過程, 強化學習正是一種求解序貫決策問題的優化方法,故將機動決策問題建模為連續狀態空間和離散動作空間的強化學習問題。 強化學習算法為無人機進行動作選擇, 我機與目標機的狀態形成空戰環境的描述, 當前空戰態勢的評估結果返回強化學習算法中。 決策系統的框架如圖3所示。

2.2UCAV的強化學習環境構建

2.2.1狀態空間

本文選擇空戰態勢信息作為狀態變量, 它將為無人作戰飛機機動決策提供必要的信息支撐。 空戰態勢信息的幾何關系如圖4所示。

狀態變量包括我機與目標機距離R、 我機與目標機的距離變化率R·、 我機方位角φU、 我機進入角qU、 兩機的速度方向的夾角χ、 兩機的飛行高度差Δh以及兩機的飛行速度差Δv。 除態勢信息外, 還引入我機的當前飛行高度zU和飛行速度vU作為狀態變量。 因此, 本文設計的系統狀態空間向量為

2.2.2動作空間

飛行器的機動過程可視作一些基本機動動作的組合[19], 因此本文選擇由美國NASA提出的“基本機動動作庫”作為動作空間[20], 其包括7個基本操縱方式: 定常飛行、 加速、 減速、 左轉、 右轉、 向上拉起和向下俯沖。 飛行器可通過連續多步的基本動作選擇,從而組合出不同戰術動作。

飛行器機動動作的控制量為切向過載nx、 法向過載nz和滾轉角μ, 考慮飛行器結構特性對過載的限制, 本文切向過載的取值范圍為nx∈[-2,2], 法向過載的取值范圍為nz∈[-4,4], 滾轉角的取值范圍為μ∈[-π/3, π/3][21]。 實際每次執行機動動作過程中均采用最大過載, 機動動作所對應的控制指令如表1所示[21]。

2.2.3獎勵函數

忽略武器攻擊誤差等因素, 設定當兩機距離R小于武器攻擊范圍Rw, 方位角小于武器最大攻擊角度φw且進入角小于qw時達到目標狀態, 可獲得最終獎勵rfinal:

為了避免飛行器在飛行過程中失速、 飛行過低或過高、 遠離目標或與目標發生碰撞, 本文設置來自于環境的懲罰函數re:

綜合建立的強化學習環境、 神經網絡結構及探索策略, 本文提出基于深度Q學習的機動決策算法, 算法1描述了基于深度Q學習的機動決策算法過程。

算法1: 基于深度Q學習的飛行器機動決策過程。

輸入: 狀態空間S, 動作空間A, 初始神經網絡, 訓練參數。

輸出: Q網絡參數。

1: 初始化經驗回放緩沖區D, 容量為N。

2: 初始化在線Q網絡及隨機權重θ。

3: 初始化目標Q網絡, θ-=θ。

4: 初始化ε=1。

5: for episode = 1, 2, do:

6: 初始化狀態雙方飛行器的狀態, 獲取當前態勢。

7: if episode為N的倍數then。

8: 進行評估, 評估時ε=0。

9: endif

10: for step = 1, 2, …, T do。

11: 以ε的概率從7個基本動作中隨機選擇一個動作, 否則, 選

擇動作at=argmaxaQ(st, a, θ)。

12: 執行動作at, 得到獎勵rt, 進入下一狀態st+1。

13: 將[st, at, rt, st+1]存儲到D中; 判斷該空戰回合是否結

束。

14: end for

15: 從D中隨機抽取一批樣本[sj, aj, ?rj,? sj+1]。

16: 定義amax=argmaxa′Q(sj+1, a′, θ)。

17: 令yj=rj, 達到目標狀態rj+γQ(sj+1, aj, θ-), 未達目標狀態

18: 根據目標函數(yj-Q(sj, aj, θ-))2, 使用梯度下降法更新

權重θ。

19: 每隔C輪, 更新目標Q網絡, θ-←θ。

20: 逐步減小ε的值, 直至εmin。

21: end for

3仿真與分析

3.1強化學習超參數探究

在目標飛行器進行勻速直線運動且雙方初始相向飛行的場景下, 探究強化學習超參數對機動決策的影響。

3.1.1學習率

學習率決定目標函數能否收斂以及何時收斂。 本文在網絡結構不變且三個隱藏層均為64個節點的情況下, 探究學習率對機動決策系統的影響。 由于計算機性能限制, 訓練耗費時間較長, 僅選擇三組對照, 所設置的三個實驗組的學習率分別是0.01、 0.001以及0.000 1。

各學習率學習曲線如圖7所示, 橫坐標為訓練次數, 縱坐標為用30回合計算平均值進行平滑后的累計獎勵值。 結果表明, 學習曲線整體均呈上升趨勢, 學習率影響收斂速度。 當α=0.01時, 在訓練次數大于700次后獎勵值下降成為負值; 當α=0.000 1時, 未出現收斂趨勢, 且獎

勵值為負值, 說明智能體尚未探索出較好的機動策略; 當α=0.001時, 獎勵值隨訓練次數增加逐步提高, 且有收斂趨勢。 可見, 學習率過低會延長訓練時間, 學習率過高可能會達到局部最優結果或發散。 因此, 針對飛行器機動決策問題, 學習率設置為0.001較為合理。

3.1.2神經網絡節點

在深度神經網絡輸入層及輸出層結構不變且均為3個隱藏層的情況下, 探究節點數對決策系統性能的影響。

一般情況, 神經網絡節點數設置為2的N次方, 另外在深度學習中, 設置倍數關系的節點數才會有區別。 因此, 三個實驗組的隱藏層節點數分別是[32, 64, 32]、 [64, 128, 64]和[128, 256, 128]。

三個實驗組的學習曲線如圖8所示。 實驗結果表明, 節點數將會影響收斂速度或者是否收斂, 同時神經網絡寬度越大也會耗費更長的訓練時間。 學習曲線均有收斂趨勢, 第二組收斂速度更快。 強化學習的訓練數據比監督學習穩定性低, 無法劃分出訓練集與測試集來避免過擬合, 因此深度強化學習無需用過寬的網絡, 避免參數過度冗余導致過擬合。 用深度強化學習解決空戰中飛行器的機動決策問題時, 節點數可選擇64或128。

3.1.3神經網絡層數

在深度神經網絡的輸入層及輸出層結構不變且每個隱藏層均為64個節點的情況下, 探究神經網絡層數對機動決策系統的影響。 設計三個實驗組的隱藏層數分別是3層、 4層和5層。 三個實驗組的學習曲線如圖9所示。

由圖9可知, 3層隱藏層的神經網絡有收斂趨勢,? 4層和5層的神經網絡則沒有明顯的收斂趨勢, 可能出現過擬合情況。 由仿真可知, 隱藏層數對決策系統收斂性影響較大。 因此, 解決空戰機動決策問題時, 可使用有3層隱藏層的深度神經網絡。

3.2仿真結果與討論

目標機進行勻速直線運動的場景下, 設置目標飛行器一直采取定常飛行的機動動作, 對我方無人機進行強化學習訓練。 我機分別以均勢和劣勢的初始狀態進行機動。 均勢初始狀態指雙方相互朝向對方, 劣勢初始狀態指目標機從后方追趕我機。 初始狀態設置如表2所示。

首先設置雙方相對飛行, 初始態勢為均勢。 記錄每個回合對戰訓練的飛行數據, 通過Matlab繪圖可視化交戰雙方的飛行軌跡, 可更加直觀地展示機動決策結果。

經過訓練, 智能體能夠探索出針對當前初始態勢較好的機動策略, 軌跡如圖10所示。 初始時雙方為相向飛行, 我方飛行器在目標向我方靠近時采取拉升高度的機動動作, 主動脫離目標機的武器攻擊區域; 而后通過筋斗動作調轉方向, 朝向目標機飛行; 降低高度接近目標機, 調整機頭方向, 進入優勢攻擊位置。

在初始態勢為劣勢的情況下, 智能體經過訓練后選擇的飛行策略如圖11所示。 初始時, 目標機位于我機后方, 我方無人機初始處于劣勢, 且飛行高度低于目標機, 我方通過機動決策首先拉升高度以脫離目標機武器攻擊范圍的同時, 獲得重力勢能優勢; 而后進行“筋斗”翻轉繞至目標后方, 從而轉變了空戰態勢, 使我機處于優勢攻擊角度; 再降低高度接近目標, 使得目標機進入我方的武器攻擊范圍, 成功鎖定目標機, 該機動決策符合空戰中真實的無人機格斗戰略。

在目標機進行盤旋機動的場景下, 設置目標機始終采取向右水平盤旋機動動作, 雙方的初始狀態與直線飛行均勢初始場景的設置相同。

圖12展示了部分回合的雙方飛行軌跡。 在訓練前期, 智能體處于隨機探索階段, 可能會飛出限定高度或者失速等, 環境會給予較大的懲罰, 通過與環境的不斷交互, 智能體能夠逐漸探索出獲得獎勵值較高的決策策略。 圖12(a)中智能體一直采取定常飛行的策略, 獲得累計回報較低, 在后續訓練中智能體嘗試抬升高度并調轉機頭方向等動作, 如圖12(b)~(d)所示, 有逐步向目標方向飛行的趨勢, 能夠探索出較為合理的飛行策略, 但效果尚不理想。

以上3個情景的仿真表明: 無人機的動作選擇策略在經訓練后能夠依據態勢輸出較為合理的連續動作控制量, 對不同的情景及初始態勢決策效果有所不同, 但均具有適應性, 具備一定空戰能力。 由表1和仿真結果可知, 采用確定的控制指令對飛行器進行訓練能保證基本任務完成, 而難以在復雜場景中取得明顯優勢。 為提升復雜飛行場景下該算法的優越性, 后續將考慮采用連續動作空間, 豐富機動動作的控制指令。

同時, 通過采取同一實驗場景的超參數取值, 對不同場景進行測試, 由圖10~12可以看出, 該超參數取值的訓練結果在目標機勻速直線飛行的場景中更具飛行優勢。 結果表明, 強化學習超參數選擇較為合理且具有一定的適應能力, 能適用于多種飛行場景, 一定程度上能夠解決超參數整定繁冗問題。 此外, 超參數對不同場景的適應能力問題, 仍值得進一步探索。

4結論

本文針對三維空間中的一對一空戰機動決策問題進行了研究, 將機動決策問題建模為連續狀態空間以及離散動作空間的強化學習問題, 設計獎勵函數并提出了基于深度Q網絡的機動決策方法。 仿真結果表明, 該方法能夠在簡單場景下探索出較合理的機動策略, 但對學習率等強化學習超參數較敏感。

未來工作及改進方向有: (1)構建目標機的機動決策系統, 使其也具備自主決策能力, 更加符合真實空戰場景; (2)機動決策系統的動作空間可采用更加符合真實飛行員操縱動作的連續動作空間。

參考文獻:

[1] 姜進晶, 汪民樂, 姜斌. 無人機作戰運用研究[J]. 飛航導彈, 2019(1): 41-44.

Jiang Jinjing, Wang Minle, Jiang Bin. Research on UAV Combat Application [J]. Aerodynamic Missile Journal, 2019(1): 41-44.(in Chinese)

[2] 范晉祥, 陳晶華. 未來空戰新概念及其實現挑戰[J]. 航空兵器, 2020, 27(2): 15-24.

Fan Jinxiang, Chen Jinghua. New Concepts of Future Air Warfare and the Challenges for Its Realization[J]. Aero Weaponry, 2020, 27(2): 15-24.(in Chinese)

[3] 鮮勇, 李揚. 人工智能技術對未來空戰武器的變革與展望[J]. 航空兵器, 2019, 26(5): 26-31.

Xian Yong, Li Yang. Revolution and Prospect of Artificial Intelligence Technology for Air Combat Weapons in the Future[J]. Aero Weaponry, 2019, 26(5): 26-31.(in Chinese)

[4] 孫智孝, 楊晟琦, 樸海音, 等. 未來智能空戰發展綜述[J]. 航空學報, 2021, 42(8): 525799.

Sun Zhixiao, Yang Shengqi, Piao Haiyin, et al. A Survey of Air Combat Artificial Intelligence[J]. Acta Aeronautica et Astronautica Sinica, 2021, 42(8): 525799.(in Chinese)

[5] Goldsmith T E, Schvaneveldt R W. Representing and Training Expertise in Air Combat Maneuvering[R]. Las Cruces: New Mexico State University, 1987:1-55.

[6] Burgin G H, Sidor L B. Rule-Based Air Combat Simulation[R]. Washington D C: NASA, 1988.

[7] Othling W L. Application of Differential Game Theory to Pursuit-Evasion Problems of Two Aircraft: DS/MC/67-1[R]. Ohio: Air Force Institute, 1970.

[8] Miles S, Williamson-Noble D. Toward a Differential Game Solution to a Practical Two Aircraft Pursuit-Evasion Problem in Three-Dimensional Space: GA/MC/71-5[R]. Ohio: Air Force Institute, 1970.

[9] Austin F, Carbone G, Falco M, et al. Game Theory for Automated Maneuvering during Air-to-Air Combat[J]. Journal of Guidance, Control, and Dynamics, 1990, 13(6): 1143-1149.

[10] 鄧可, 彭宣淇, 周德云. 基于矩陣對策與遺傳算法的無人機空戰決策[J]. 火力與指揮控制, 2019, 44(12): 61-66.

Deng Ke, Peng Xuanqi, Zhou Deyun. Study on Air Combat Decision Method of UAV Based on Matrix Game and Genetic Algorithm[J]. Fire Control & Command Control, 2019, 44(12): 61-66.(in Chinese)

[11] Kaneshige J, Krishnakumar K. Artificial Immune System Approach for Air Combat Maneuvering[C]∥ Intelligent Computing: Theory and Applications V, 2007, 6560: 68-79.

[12] McGrew J S, How J P, Williams B, et al. Air-Combat Strategy Using Approximate Dynamic Programming[J]. Journal of Gui ̄dance, Control, and Dynamics, 2010, 33(5): 1641-1654.

[13] 丁林靜, 楊啟明. 基于強化學習的無人機空戰機動決策[J]. 航空電子技術, 2018, 49(2): 29-35.

Ding Linjing, Yang Qiming. Research on Air Combat Maneuver Decision of UAVs Based on Reinforcement Learning[J]. Avionics Technology, 2018, 49(2): 29-35.(in Chinese)

[14] 張強, 楊任農, 俞利新, 等. 基于Q-Network強化學習的超視距空戰機動決策[J]. 空軍工程大學學報: 自然科學版, 2018, 19(6): 8-14.

Zhang Qiang, Yang Rennong, Yu Lixin, et al. BVR Air Combat Maneuvering Decision by Using Q-Network Reinforcement Learning[J]. Journal of Air Force Engineering University: Natural Science Edition, 2018, 19(6): 8-14.(in Chinese)

[15] Zhang X B, Liu G Q, Yang C J, et al. Research on Air Combat Maneuver Decision-Making Method Based on Reinforcement Learning[J]. Electronics, 2018, 7(11): 279.

[16] Yang Q M, Zhu Y, Zhang J D, et al. UAV Air Combat Autonomous Maneuver Decision Based on DDPG Algorithm[C]∥ IEEE 15th International Conference on Control and Automation, 2019: 37-42.

[17] 吳宜珈, 賴俊, 陳希亮, 等. 強化學習算法在超視距空戰輔助決策上的應用研究[J]. 航空兵器, 2021, 28(2): 55-61.

Wu Yijia, Lai Jun, Chen Xiliang, et al. Research on the Application of Reinforcement Learning Algorithm in Decision Support of Beyond-Visual-Range Air Combat[J]. Aero Weaponry, 2021, 28(2): 55-61.(in Chinese)

[18] 吳昭欣. 基于深度強化學習的飛行器自主機動決策方法研究[D]. 成都: 四川大學, 2021.

Wu Zhaoxin. Research on Autonomous Maneuvering Decision Method for Aircraft Based on Deep Reinforcement Learning[D]. Chengdu: Sichuan University, 2021. (in Chinese)

[19] Yang Q M, Zhang J D, Shi G Q, et al. Maneuver Decision of UAV in Short-Range Air Combat Based on Deep Reinforcement Learning[J]. IEEE Access, 2019,8: 363-378.

[20] Austin F, Carbone G, Falco M, et al. Automated Maneuvering Decisions for Air-to-Air Combat[C]∥ Guidance, Navigation and Control Conference, AIAA, 1987: 2393.

[21] 董肖杰, 余敏建, 宋帥. 空戰機動動作庫及控制算法設計研究[C]∥第五屆中國指揮控制大會論文集, 2017: 188-193.

Dong Xiaojie, Yu Minjian, Song Shuai. Research on the Design of Air Combat Maneuver Library and Control Arithmetic of Movements[C]∥ Proceedings of the 5th China Command and Control Conference, 2017: 188-193.(in Chinese)

[22] 李永豐, 史靜平, 章衛國, 等. 深度強化學習的無人作戰飛機空戰機動決策[J]. 哈爾濱工業大學學報, 2021, 53(12): 33-41.

Li Yongfeng, Shi Jingping, Zhang Weiguo, et al. Maneuver Decision of UCAV in Air Combat Based on Deep Reinforcement Learning[J]. Journal of Harbin Institute of Technology, 2021, 53(12): 33-41.(in Chinese)

Research on Intelligent Maneuvering Decision-Making in Close Air Combat Based on Deep Q Network

Zhang Tingyu1,? Sun Mingwei2, Wang Yongshuai1, Chen Zengqiang1

(1. College of Artificial Intelligence, Nankai University, Tianjin 300350, China; 2. Key Laboratory of Intelligent Robotics of Tianjin, Tianjin 300350, China)

Abstract: Aiming at the problem of UCAV maneuvering decision-making in close air combat, the design of reinforcement learning reward function and the selection of hyper-parameters are studied based on the framework of deep Q network algorithm. For the sparse reward problem in reinforcement learning, an auxiliary reward function that considers angle, range, altitude and speed factors is used to describe the air combat mission accurately and guide the learning direction of the agent correctly. Meanwhile, aiming at the problem of applying reinforcement learning hyper-parameter selection, the influence of learning rate, the number of network nodes and network layers on the decision-making system is explored, and a good range of parameter selection is given, which provides a reference for the following research on parameter selection. The simulation results show that the trained agent can learn the optimal maneuver strategy in different air combat situations, but it is sensitive to reinforcement learning hyper-parameters.

Key words: ?air combat; autonomous maneuvering decision-making; deep reinforcement learning; DQN; reward function; intelligent maneuver; parameter selection

收稿日期: 2022-11-22

基金項目: 國家自然科學基金項目(62073177; 61973175)

作者簡介: 張婷玉(2000-), 女, 河北衡水人, 碩士研究生。

*通信作者: 孫明瑋(1972-), 男, 北京人, 教授。

主站蜘蛛池模板: 99久久精品免费看国产电影| 国产成人毛片| 国产免费a级片| 亚洲精品成人福利在线电影| 亚洲AV无码乱码在线观看裸奔| 亚洲综合狠狠| 91国内视频在线观看| 成人国产精品一级毛片天堂| 亚洲AV无码乱码在线观看裸奔 | 欧美日韩成人在线观看| 九九久久精品免费观看| 国产拍在线| 国产区91| 国产一级毛片网站| 欧美国产日韩在线观看| 国产免费久久精品99re不卡| 中文字幕1区2区| 无码啪啪精品天堂浪潮av| 国产精品永久在线| 手机在线看片不卡中文字幕| 亚洲无限乱码一二三四区| 亚洲第一天堂无码专区| 欧美自慰一级看片免费| 亚洲欧美日本国产综合在线| 国产情侣一区二区三区| 日韩欧美国产中文| 免费啪啪网址| 国产精品无码久久久久久| 亚洲男人的天堂在线观看| 亚洲人成在线精品| 色综合天天综合| 欧美日韩高清在线| 欧美一区精品| www.91在线播放| 深夜福利视频一区二区| 女同久久精品国产99国| 国产在线自揄拍揄视频网站| 四虎永久在线精品影院| 在线无码九区| 99久久国产精品无码| 亚洲精品国产日韩无码AV永久免费网 | av在线5g无码天天| 国产人在线成免费视频| 日本午夜影院| 久久香蕉国产线看观看精品蕉| 色呦呦手机在线精品| 欧美成人免费午夜全| 国产在线小视频| 国产96在线 | 欧美成人在线免费| igao国产精品| 无码啪啪精品天堂浪潮av| 日韩精品亚洲精品第一页| 亚洲二三区| 欧美一级高清片久久99| 欧美高清国产| 亚洲国内精品自在自线官| 久久国产V一级毛多内射| 精品久久高清| 国产精品免费久久久久影院无码| 五月天久久婷婷| 欧美精品伊人久久| 亚洲欧美日韩久久精品| 综合人妻久久一区二区精品| 国产最新无码专区在线| 国产精品视频导航| 国产精品不卡片视频免费观看| 精品一区二区无码av| 久久77777| 91日本在线观看亚洲精品| 尤物在线观看乱码| 久久综合亚洲色一区二区三区| 97在线观看视频免费| 97在线碰| 国产v欧美v日韩v综合精品| 国产精品毛片一区| 99热这里只有精品免费国产| 免费高清毛片| 欧美黄网站免费观看| 欧洲亚洲欧美国产日本高清| 亚洲大尺度在线| 国产精品亚洲欧美日韩久久|