999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的多無人機空戰機動策略研究

2024-07-07 00:00:00雷毅飛王露禾賀泊茗胡勁徐釗呂明偉徐港
航空科學技術 2024年3期

摘 要:面對敵方空中力量的來襲,具有自主協同、靈活機動能力的無人機是參與空中作戰的重要力量。面向多無人機協同高制勝率的對抗作戰任務需求,并根據空戰目標數量劃分,重點對多無人機對單目標協同空戰機動策略和多無人機對多目標協同空戰機動策略展開研究。本文主要分析了空戰過程中的關鍵戰場要素,基于多機機動特性,建立無人機運動模型。根據無人機火控特點,分析無人機狀態變化規律,建立無人機對敵攻擊模型和動態對抗模型;針對多無人機對單目標自主協同空戰問題,提出基于專家規則和強化學習相結合的多機自主機動策略。仿真結果表明,所提算法可以完成態勢實時變化的多機對單目標空戰任務。在作戰雙方數量相同的前提下,若敵方不具備智能機動行為,我方制勝率為 100%;即使雙方采用相同的策略,如果我方數量多于敵方數量,我方仍有大的勝率,體現了協同策略的有效性。

關鍵詞:空戰策略; 強化學習; 自主機動; 多機協同; 態勢評估

中圖分類號:V32 文獻標識碼:A DOI:10.19452/j.issn1007-5453.2024.03.013

基金項目: 國家自然科學基金(61803309);航空科學基金(2019ZA053008,20185553034);陜西省重點研發計劃項目(2020ZDLGY06-02);中國博士后科學基金(2018M633574)

隨著作戰方式的進步,作戰規模也在擴大,導致人力資源成本不斷增加。減少人員傷亡是未來軍事行動的關鍵目標之一,而“非接觸”作戰將成為實現該目標的主要手段。無人機(UAV)具有成本低、機動性高、隱蔽性強和不需要飛行員實時控制等優勢。這些優勢使得無人機廣泛應用于各個領域,并越來越廣泛地代替有人駕駛飛機用于執行偵察[1]、監控、目標打擊[2-3]等軍事任務,是“非接觸”作戰裝備的典型代表[4-5]。因為單架無人機執行任務和作戰能力存在局限性,所以無人機的集群化和智能化作戰成為近年來的研究熱點。

人工智能(AI)技術在軍事領域被廣泛應用,在感知、理解、推理、判斷等環節,敵我雙方都將投入大量資源進行競爭。使用人機混合智能的優勢可以使思考速度更快、預判更精確,并有效爭奪作戰的主控權。

世界上以美、俄為首的軍事強國認為,未來戰爭將更智能化,并且國家間的軍備競賽將變成智能化軍備競賽。人工智能技術是一項具有顛覆性影響的技術,能夠改變作戰規則[6]。這些國家提前策劃并推出了各種政策和研究項目,以將人工智能技術的最新發展用于軍事領域。這些努力旨在為未來戰爭模式中的偵察、教育、訓練、威脅評估、水雷戰、情報分析和指揮控制等方面提供引領性規劃,從而贏得智能化戰爭主動權[7]。美國通過海軍研究實驗室(NRL)和國防預研局(DARPA)等機構致力于研究多無人機集群的最新技術,意在利用這項技術推進軍事發展并確保國防實力領先于全球。俄羅斯正在大量投入資源,以確保與美國在人工智能相關的軍事應用領域競爭的平衡,特別是在智能無人機技術方面。在此背景下,俄羅斯積極開展活動,以提高其軍事人工智能水平,特別是結合無人機、導彈等武器系統,縮小差距并增強自身競爭力。我國無人機技術雖然起步較晚,但目前發展迅速,尤其是在智能多無人機技術方面取得了顯著進展。沈林成團隊是我國國內較早開展多無人機自主控制的研究團隊,該團隊認為多無人機自主控制主要有兩種方法,分別為自上而下的分層遞階方法及自下至上的分布式自組織方法。一種主要研究集中式規劃算法解決無人機協同控制問題,另一種則研究個體對環境的動態反應和行為規則的方法來進行協調。對于分層遞階自主控制方法,該團隊研究無人機自主控制的理論和方法,系統地覆蓋了各個階段,包括目標狀態估計、協同任務分配、協同航跡規劃和編隊軌跡優化等,并研究了該技術在實際中的典型應用。符小衛及其團隊[8-9]使用威脅聯網數學模型,開發出了多個多無人機控制方案,如無人機突防軌跡在線規劃、無人機集群協同欺騙干擾控制等。黃長強等[10-13]全面地研究了多無人機協同技術,遵循感知、評價、決策的過程,并重點研究了無人機集群的協同控制,其中包含多類型目標的搜索和決策、多目標任務分配、有人—無人戰術協同,以及協同攻擊技術等內容。此外,還有其他大量研究人員對多無人機自主控制方法開展了研究,如王玥總結了微型無人機(MAV)協同控制策略中常用的優化方法,并重點研究了與之有關的規劃方法以及評價方法。吳坤等[14]提出了一種基于混沌灰狼優化和幾何規劃的離線航路規劃方法,用于協調多個無人機在飽和攻擊任務中的航線規劃。陳宇恒等[15]提出基于改進貪心算法的無人機集群任務分配算法,優化飛行時間和距離,驗證了其在任務場景上的有效性。中國電子科技集團有限公司(CETC)在2016年和2017年分別完成了67架和119架固定翼無人機集群飛行試驗,打破了無人機集群飛行數量的紀錄。試驗成功演示了無人機集群智能起飛、集群自主飛行、感知與規避障礙等技術。

綜上所述,基于多無人機作戰環境復雜、決策變量維度高、任務目標多變、建模構造困難等原因,人工控制方法難以滿足作戰的實時性要求。針對以上問題,本文分析空戰過程中的關鍵戰場要素,基于多機機動特性,建立無人機運動模型。根據無人機火控特點,分析無人機狀態變化規律,建立無人機對敵攻擊模型和動態對抗模型;針對多無人機對單目標自主協同空戰問題,提出基于專家規則和強化學習相結合的多機自主機動策略。

1 多無人機協同空戰數學建模

1.1 無人機運動學模型建立

1.1.1 常用坐標系及其轉換關系

為了設計無人機的控制律并對作戰過程進行數值仿真和試驗驗證,需要建立運動方程來描述作戰過程中無人機與敵機的相對運動。為此,下面給出本文用到的坐標系以及坐標系之間的轉換關系。

由式(19)可知,當敵機在無人機的攻擊半徑內,且滿足角度攻擊條件時,無人機對目標可以做出攻擊,并且選擇角度優勢最大的敵機作為攻擊目標。

3 仿真分析

3.1 參數設置

本文算法設計過程中所涉及的參數及數值見表2。在空戰仿真過程中,決策周期T設置為1s,一集包含600個決策步數,如果滿足任意一方無人機全部戰損,則該輪訓練結束。

3.2 結果分析

(1)神經網絡訓練結果

圖5中從上到下的三種曲線分別展示的是w1為分段函數,定值w1=20,正比于距離的連續函數三種情況下訓練過程中平均獎勵的變化趨勢。獎勵越大說明空戰過程無人機的整體決策越優。該圖的橫軸表示訓練的步數,縱軸表示的是平均獎勵變化。當網絡收斂后,基于分段函數的強化學習算法的獎勵均值最高,說明學習效果最好。基于連續函數獎勵反饋的強化學習算法的平均獎勵為負值,說明無人機沒有學到自主對抗策略。

(2)多機對單目標空戰仿真驗證

如圖6(a)所示,我方無人機數量為4,多機自主機動到達終點,該過程中每架無人機與目標點的距離以及每架無人機與最鄰近無人機直接的距離如圖6(b)所示。無人機的位置和速度隨機初始化,可以看出多機在飛向目標點的過程中也在相互靠近,因為有分離規則的約束,機間距離大于閾值5,機間防撞成立。因為沒有進行時間約束,故第一架無人機到達終點后,最后一架無人機距終點200個距離單位。

同理,如圖7所示,目標分別做直線運動和曲線運動,我方無人機隨機初始化位置和速度方向。直線追蹤場景中,我方每架無人機首先通過傳感器獲知友機的位置和速度信息,然后判斷是否需要進行“分離”,可以看出無人機初始位置在符合巡航條件的情況下不斷探測敵機位置并向其靠近,敵我距離不斷縮小,機間最小距離如圖8所示,由于有“分離”策略的約束,機間距離大于閾值5,保證無人機不會發生碰撞;每架無人機的滯后角如圖8所示,可以看出無人機是從敵機后方對目標發動進攻的,最終無人機以16° 的角度偏差將目標擊毀。同理,分析曲線追蹤的結果如圖9所示,多機從敵機前側進行攔截,滯后角為鈍角,最終無人機以175°的角度偏差將目標擊毀,機間最小距離也均大于閾值。該組試驗證明,專家規則的設計是可行的。但是,因為機間沒有時間約束,所以無人機先后到達目標點的差距較大。

圖10展示的是兩架無人機對單目標自由空戰的結果,我方勝利。作戰雙方都具備智能策略,但是我方無人機數量多于敵方。作戰開始,雙方距離較遠,在無人機探測范圍內無法感知對方的狀態,雙方根據巡航策略都向著對方基地靠近。然后在120s左右相遇,進行空中纏斗??諔疬^程中,我方 UAV1在第 320s 被敵方擊落,隨后UAV0 在第330s戰勝敵方。圖11給出了100次仿真試驗的試驗結果。

4 結束語

本文圍繞多無人機對單目標協同機動策略和多無人機對多目標協同機動策略展開研究,主要結論如下:

(1)針對多機空戰對抗場景,建立無人機的運動控制模型,使用加速度作為無人機的控制律。根據無人機空戰任務需求,建立多機對單目標的空戰任務模型。

(2)針對多無人機空戰對抗任務,提出基于專家規則和深度強化學習相結合的無人機機動策略,解決多無人機智能自主協同空戰難題。設計深度強化學習算法,在獎勵函數設計方面,創新性地使用基于比例因子自適應調整的獎勵函數設計方法,解決了傳統強化學習方法獎勵稀疏且延遲帶來的弊端。最后結合專家知識,設計多機協同作戰規則,實現強化學習自主機動算法在大規模高動態變化場景下的應用。

參考文獻

[1]Sun Long, Chang Pei, Jiang Huanhuan, et al. Research on intelligent target recognition technology for integrated reconnaissance/strike UAV[C]. Global Intelligence Industry Conference (GIIC 2018), 2018: 282-288.

[2]Nolin P C. Unmanned aerial vehicles: Opportunities and challenges for the alliance[R]. NATO Parliamentary Assembly, 2012.

[3]羅德林,張海洋,謝榮增,等. 基于多 agent系統的大規模無人機集群對抗[J]. 控制理論與應用,2015,32(11): 1498-1504. Luo Delin, Zhang Haiyang, Xie Rongzeng, et al. Large-scale unmanned aerial vehicle swarm confrontation based on multiagent system[J] Control Theory Applications, 2015, 32(11): 1498-1504.(in Chinese)

[4]Li Yue, Qiu Xiaohui, Liu Xiaodong, et al. Deep reinforcement learning and its application in autonomous fitting optimization for attack areas of UCAVs[J]. Journal of Systems Engineering and Electronics, 2020, 31(4): 734-742.

[5]Hu Dongyuan, Yang Rennong, Zuo Jialiang, et al. Application of deep reinforcement learning in maneuver planning of beyond-visual-range air combat[J]. IEEE Access, 2021, 9: 32282-32297.

[6]Otto R P. Small unmanned aircraft systems (SUAS) flight plan: 2016-2036. Bridging the gap between tactical and strategic[R]. Political Science, 2016.

[7]Theraulaz G, Bonabeau E. A brief history of stigmergy[J]. Artificial Life, 1999, 5(2): 97-116.

[8]符小衛,高曉光. 一種無人機路徑規劃算法研究[J]. 系統仿真學報,2004,16(1): 20-21. Fu Xiaowei, Gao Xiaoguang. A study on unmanned aerial vehicle path planning algorithm[J]. Journal of System Simulation,2004, 16(1): 20-21.(in Chinese)

[9]Xiao Qinkun, Gao Xiaoguang, Fu Xiaowei, et al. New local path replanning algorithm for unmanned combat air vehicle[C]. 2006 6th World Congress on Intelligent Control and Automa‐tion, 2006: 4033-4037.

[10]Wang Yuan, He Lei, Huang Changqiang. Adaptive timevarying formation tracking control of unmanned aerial vehicles with quantized input[J]. ISA Transactions, 2019, 85: 76-83.

[11]Zhang Hongpeng, Huang Changqiang. Maneuver decisionmaking of deep learning for UCAV thorough azimuth angles[J]. IEEE Access, 2020, 8: 12976-12987.

[12]Han Bo, Huang Hanqiao, Lei Lei, et al. An improved IMM algorithm based on ST-SRCKF for maneuvering target tracking[J]. IEEE Access, 2019, 7: 57795-57804.

[13]Huang hangqiang, Dong Kangsheng, Huang Hanqiao, et al. Autonomous air combat maneuver decision using bayesian inference and moving horizon optimization[J]. Journal of Systems Engineering and Electronics, 2018, 29(1): 86-97.

[14]吳坤,池沛,王英勛.基于混沌灰狼優化的多無人機協同航路規劃[J].航空科學技術,2022,33(10):82-95. Wu Kun, Chi Pei, Wang Yingxun. Multi-UAV cooperative route planning based on chaotic grey wolf optimization[J]. Aeronautical Science Technology, 2022, 33(10): 82-95. (in Chinese)

[15]陳宇恒,陳進朝,陳雪聰.基于改進貪心算法的無人機集群協同任務分配[J].航空科學技術,2022,33(4):13-18. Chen Yuheng, Chen Jinzhao, Chen Xuecong. UAV swarm cooperative task assignment based on improved greedy algorithm[J]. Aeronautical Science Technology, 2022,33(4): 13-18.(in Chinese)

[16]Andersen R A, Snyder L H, Li C S, et al. Coordinate transformations in the representation of spatial information[J]. Current Opinion in Neurobiology, 1993, 3(2): 171-176.

[17]Fu Qiang, Fan Chengli, Song Yafei, et al. Alpha C2 an intelligent air defense commander independent of human decision-making[J]. IEEE Access, 2020, 8: 87504-87516.

Research on Multi-UAV Air Combat Maneuver Strategy Based on Deep Reinforcement Learning

Lei Yifei1, Wang Luhe1, He Boming1, Hu Jinwen1, Xu Zhao1, Lyu Mingwei2, Xu Gang2

1. Northwestern Polytechnical University, Xi’an 710129,China

2. AVIC Shenyang Aircraft Design and Research Institute, Shenyang 110034,China

Abstract: In face of the incoming attack of enemy air power, UAVs with autonomous coordination and flexible maneuvering capability are an important force to participate in air combat. Facing the demand of confrontation combat mission with high winning rate of multi-UAV coordination, and based on the number of air combat targets, we focus on the research of multi-UAV to single-target coordinated air combat maneuver strategy and multi-UAV to multi-target coordinated air combat maneuver strategy. This paper mainly analyzes the key battlefield elements in the process of air combat, and establishes the UAV motion model based on the characteristics of multi-machine maneuver. According to the fire control characteristics of UAV, analyze the change rule of UAV state, establish UAV attack model and dynamic confrontation model against the enemy; for the problem of multi-UAV to single-target autonomous coordinated aerial combat, put forward multi-autonomous maneuver strategy based on the combination of expert rules and reinforcement learning. The simulation results show that the proposed algorithm can accomplish the task of multiaircraft aerial combat against single target with real-time change of situation. Under the premise of the same number of combatants, if the enemy does not have intelligent maneuvering behavior, our victory rate is 100%. Even if both sides use the same strategy, if our number is more than the enemy, we still have a large victory rate. This demonstrates the effectiveness of the coordinated strategy.

Key Words: air combat strategy; reinforcement learning; autonomous mobility; multiple machine collaboration; situation assessment

主站蜘蛛池模板: 一级毛片中文字幕| 国产成人免费手机在线观看视频 | 99久久亚洲综合精品TS| 国产精彩视频在线观看| 精品无码国产一区二区三区AV| 26uuu国产精品视频| 又爽又黄又无遮挡网站| 72种姿势欧美久久久久大黄蕉| 欧美日本在线观看| 92精品国产自产在线观看| 国产精品久线在线观看| 久久久成年黄色视频| 四虎精品黑人视频| 亚洲国产综合精品一区| 宅男噜噜噜66国产在线观看| 亚洲欧美在线综合图区| 亚洲 成人国产| 青青草原国产精品啪啪视频| 波多野结衣视频一区二区| 久久频这里精品99香蕉久网址| 久久男人资源站| 亚洲视频二| 国产精品片在线观看手机版| 亚洲日韩精品伊甸| 欧美在线导航| 亚洲综合18p| 亚洲成人精品| 久久精品人人做人人爽97| 无码一区二区三区视频在线播放| lhav亚洲精品| 亚洲欧美精品一中文字幕| www欧美在线观看| 国产原创自拍不卡第一页| 国产不卡网| 99热国产在线精品99| 精品国产一区91在线| 亚洲一级毛片在线观| 国产精品香蕉| 成人夜夜嗨| 26uuu国产精品视频| 色欲国产一区二区日韩欧美| 欧美亚洲国产一区| 欧美在线中文字幕| 久综合日韩| 91最新精品视频发布页| 亚洲国产综合精品一区| 99re在线免费视频| 永久成人无码激情视频免费| 国产一二视频| 国产精品va| 亚洲天堂在线免费| 精品一區二區久久久久久久網站| 麻豆国产精品| 98精品全国免费观看视频| 青青青视频免费一区二区| 成人一级免费视频| 一级在线毛片| 欧美日韩在线亚洲国产人| 无码精品国产dvd在线观看9久| 日韩在线播放中文字幕| 日本手机在线视频| 91色在线观看| 国产导航在线| 久久a级片| 国产网站黄| 一区二区三区四区精品视频| 成年女人a毛片免费视频| 成人国产精品网站在线看| 亚洲国产成人自拍| 丁香六月激情综合| 99久久亚洲综合精品TS| 国产成人精品在线| 成人综合久久综合| 国内自拍久第一页| 中文字幕永久在线观看| 精久久久久无码区中文字幕| 国产美女一级毛片| 无码福利日韩神码福利片| 国产小视频免费| 国产欧美高清| 人妖无码第一页| 国产性精品|