999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于生成對抗近端策略優化的機動策略優化算法

2023-07-13 11:28:24付宇鵬鄧向陽朱子強張立民
海軍航空大學學報 2023年3期
關鍵詞:策略模型

付宇鵬,鄧向陽,2,朱子強,高 陽,張立民

(1.海軍航空大學,山東 煙臺 264001;2.清華大學,北京100084)

0 引言

自20 世紀50 年代以來,空戰智能博弈一直是軍事研究的重點之一。在諸多空戰機動策略、姿態控制優化方法研究中,基于人工智能技術的算法取得了長足進步[1-5]。隨著計算機硬件算力的提升和算法的進步,深度強化學習(DRL)技術以其優秀的逼近能力成為近年來的研究熱點,其在面對復雜狀態空間問題時仍能獲得高水平策略模型。

傳統強化學習算法效率和效果與任務的獎勵函數設計密切關聯,但空戰博弈態勢復雜,且六自由度(6-dof)飛機模型具有高階非線性的特點,因而在訓練初期,智能體很難獲得正向獎勵,致使算法難收斂。模仿學習技術則直接利用專家經驗數據生成策略,在自動駕駛、無人機導航控制、機器人等領域被廣泛應用[6-9],主要分為行為克隆[10]、逆強化學習[11]、對抗模仿學習[12]3 類算法。但這些算法中,智能體依靠示例數據學習策略,對于空戰博弈這類目標不明確的環境表現不佳。因此,將模仿學習和強化學習相結合的算法成為這類環境中生成智能體策略的研究熱點[5,13-15]。

本文基于強化學習、模仿學習技術在飛行控制、智能博弈等方面的研究[2,4-5],針對傳統強化學習算法在生成空戰機動策略時存在收斂效率低、專家經驗利用不足的問題,提出了生成對抗式近端策略優化算法(GA-PPO)。在傳統PPO 算法的策略-價值網絡(Actor-Critic)框架基礎上,增加判別器(Discriminator)網絡,用來判斷輸入狀態-動作是否屬于當前策略或專家策略,在策略訓練時約束當前策略向專家策略方向更新。

1 研究背景

1.1 近端策略優化算法

強化學習算法包括基于價值、基于策略和二者結合的Actor-Critic 方法。本文以Actor-Critic 方法為基礎。Actor網絡即策略網絡,記為πθ( )st,其中,st表示t時刻狀態,θ表示策略網絡參數,策略網絡輸出動作at~πθ(st);Critic 網絡即價值網絡,記為Vφ(st),φ表示價值網絡參數,價值網絡用來估計當前策略的回報Rt,表示為:

式(1)中:E(?)為數學期望;γ為折扣系數,確保馬爾科夫決策過程能夠收斂;r為獎勵函數,通常在實際環境中根據專家經驗設計。強化學習算法目標是使回合回報最大化。在諸多算法中,TRPO[16]、PPO[17]等算法穩定性高,收斂效率高,成為了典型的基線算法。

以PPO2 算法為例,其采用優勢函數Aθ來表示策略優劣,以減小方差,提高算法穩定性。Aθ定義為:

實際實現時,定義A?t來估計Aθ,采用使用較為廣泛的廣義優勢估計(GAE)方法[18],定義為:

其中,δt=rt+γV(st+1)-V(st),參數λ用來平衡方差和偏差。

此外,算法中利用重要性采樣方法(important sampling)直接剪裁舊策略與新策略的概率幅度,記為ct(θ)=πθ(at|st)/πθ,old(at|st)。因此,得到PPO2 算法的損失函數表示為式(4)~(6)。

1.2 生成對抗模仿學習算法

生成對抗模仿學習(GAⅠL)算法啟發于最大熵逆強化學習(ⅠRL)和生成對抗網絡(GAN)。在on-policy算法(如TRPO、PPO等算法)框架基礎上,設計判別器Dω(st,at),用來判斷輸入的采樣數據是生成于專家策略還是當前策略。GAⅠL 算法目標,可理解為匹配當前策略分布與專家策略分布,使判別器無法區分當前策略和專家策略,其損失函數定義為:

式(7)(8)表示在GAⅠL算法中:首先,對當前策略πθ和專家策略πE采樣,更新判別器參數ω′←ω;而后,以最大化判別器輸出更新策略網絡參數θ,此處可將Dω′(s,a)類比于強化學習算法中的狀態-動作價值函數Q(s,a)。

由于GAⅠL 算法依靠專家數據生成策略,當該數據集包含的策略非最優,或無法達到目標時,生成策略性能將無法保證。因此,本文將強化學習環境探索優勢與模仿學習的策略約束優勢相結合,提出生成對抗式近端策略優化算法。

2 GA-PPO算法

GA-PPO算法框圖見圖1。模型包含價值網絡、策略網絡和判別器網絡,部署時只保留策略網絡;經驗池包含示例經驗池和回合經驗池,示例數據池中的軌跡數據三元組()由人機對抗和基于規則模型的機機對抗產生。回合經驗池中存儲當前策略與環境交互所產生的軌跡四元組(st、at、st+1、rt),每回合訓練結束后,回合經驗池清空。圖中包括3 類數據流:環境交互數據流,當前策略與環境交互,生成軌跡數據存入回合經驗池;DA網絡更新數據流,回合結束后,根據式(7),利用梯度下降方法更新判別器網絡參數,而后,根據式(8)更新策略網絡參數,從而約束當前策略分布向專家策略收斂;AC網絡更新數據流,與PPO算法流程相同,根據式(8)更新AC網絡。

圖1 GA-PPO算法框圖Fig.1 Framework of GA-PPO algorithm

為提高算法收斂速度和穩定性,采用分布式并行計算方式,設置n個分布式rollout worker 和1 個中心learner。Rollout workers與環境交互,存儲回合軌跡數據;回合結束后,計算各自策略梯度并回傳learner 進行梯度累加,更新網絡參數后,廣播給各rollout worker,采集新一輪數據。

算法流程如圖2 所示。首先,建立示例經驗池DE={τ1,τ2,...,τn} ,其中τn表示第n條飛行軌跡,即τn=。初始化各網絡參數和算法超參數。每回合結束后,采樣DE和,計算策略梯度和,由learner累加梯度并更新網絡參數,最終,輸出最優策略網絡參數θ*。

圖2 GA-PPO算法流程Fig.2 Flow of GA-PPO algorithm

3 實驗仿真環境設計

實驗仿真環境采用OpenAⅠgym 平臺框架,飛機空氣動力學模型采用JSBSim開源平臺的F-16飛機模型,其內部包含基本增穩系統。飛機在高空飛行過程中,機動動作由控制升降舵、副翼、方向舵和油門完成,因此,策略網絡輸出為舵面偏轉角度和油門開度at={δel,δai,δru,δth}。

對抗過程中,紅方由策略網絡控制,藍方由基于PⅠD 控制器的簡單規則模型控制。為簡化實驗復雜度,雙方態勢全透明,設計狀態向量st為:

式(9)中:ψ、θ、φ為飛機自身姿態角;θ?為俯仰角速度;φ?為當前滾轉角;h為自身當前高度;V、ΔV、ΔX分別為NED 坐標系下的紅方和藍方的速度矢量、速度差矢量和相對位置矢量;αATA為方位角;αAA為目標進入角。st均歸一化處理。

為保證算法收斂,一般設計較為稠密的獎勵函數。本文主要考慮角度優勢、能量優勢和滿足發射條件等方面,因此,設計獎勵函數rt為:

式(10)中,η代表權重。此外,還應考慮飛機穩定飛行和保證在指定空域飛行的限制條件,因此,引入邊界懲罰項,避免飛機誘導墜地等錯誤決策出現。

4 系統仿真

仿真中,紅藍雙方初始高度1~9 km,初始相對水平距離±10 km,初始速度150~300 m/s,初始任意姿態,仿真步長20 ms,每回合5 min。算法中超參數設計如表1所示。DAC網絡結構均采用全連接結構,其中隱藏層激活函數均為ReLu 函數,策略網絡輸出層激活函數為tanh 函數,判別器網絡輸出激活函數為sigmoid函數。損失函數采用Adam方法更新梯度[19]。

表1 GA-PPO算法參數設置Tab.1 Parameters of GA-PPO algorithm

圖3 給出了回報函數的仿真結果。仿真中,首先利用示例數據對策略模型進行行為克隆預訓練,避免智能體在訓練初始階段不收斂。實驗中,對比了PPO算法、PPO-SⅠL[20]算法和本文的GA-PPO 算法。GAPPO-1中αθ為常數,GA-PPO-2表示αθ隨仿真回合增加逐漸降低,即訓練初期通過模仿學習提高智能體訓練效率,訓練后期通過強化學習提高其環境的探索能力。結果顯示,GA-PPO 算法的收斂效率和最終回報要高于PPO 算法和PPO-SⅠL 算法。在約200 回合前,GA-PPO 算法需要訓練判別器,因而回報函數略有波動,而后快速升高。GA-PPO-1 算法在訓練中始終存在示例約束,因而波動較GA-PPO-2更小。

圖3 回報函數仿真曲線Fig.3 Simulation curve of return function

圖4 給出了價值函數的仿真曲線,即價值網絡輸出均值仿真,表示約10 s仿真步長的策略價值。為了提高比較的準確性,價值網絡輸入均為示例數據采樣。結果表明,GA-PPO 算法較PPO-SⅠL 算法收斂速度更快,原因在于智能體狀態空間探索的概率分布更接近示例數據,因而價值網絡更新方向更穩定。

圖4 價值函數仿真曲線Fig.4 Simulation curve of value function

圖5 給出了根據公式(7)得到的判別器目標函數仿真曲線。該函數接近2 ln( 0.5) =-1.38,說明當前策略接近示例策略,即判別器無法區分當前策略和示例策略。GA-PPO-2 中,αθ逐漸減小,因而訓練中強化學習算法的更新比重逐漸增加。盡管回報仍逐漸增加,但當前策略與示例策略分布偏差略有增加。結果說明,可以通過調節式(8)和式(5)中的αθ的比例來影響策略分布,選擇智能體探索環境或模擬專家策略。

圖5 判別器目標函數仿真曲線Fig.5 Simulation curve of D-object funtion of discrimination

圖6給出了紅藍雙方均使用GA-PPO生成策略的對抗態勢圖。紅藍雙方初始態勢均勢,高度5 km,速度200 m/s,相向飛行。

圖6 空戰博弈態勢圖Fig.6 Diagram of air combat play

圖6 a)中,紅方使用GA-PPO-1生成模型,藍方使用GA-PPO-2 生成模型。10 s 時,雙機對頭有進入雙環戰趨勢,而后雙方相向飛行處于均勢,20 s時紅方選擇半滾倒轉機動迅速調轉機頭指向藍方,藍方處于劣勢,爬升急轉脫離未果,紅方始終保持后半球優勢;圖6 b)中,紅藍雙方均使用GA-PPO-1生成模型自博弈,雙機交會后進入剪刀機動,均未能率先脫離,在雙方使用相同策略下和初始均勢開局情況下,最終收斂于納什均衡點,與直觀態勢理解相一致。

5 結論

本文提出了1種基于GA-PPO的空戰機動決策生成算法,能夠利用示例數據約束策略優化方向,提高算法收斂效率。同時,結合強化學習環境探索能力,優化當前策略。結果表明,基于GA-PPO 算法的策略模型具有較高智能性,較符合專家經驗。

但算法仍存在一些問題:一方面,利用強化學習技術探索環境能力受限于獎勵函數,對空戰態勢評估函數準確性、引導性、稠密性要求較高;另一方面,示例數據的多峰或非最優性問題未得到根本的解決。此外在模型實際部署模擬器進行人機對抗時,應考慮對手變化帶來的遷移問題,在未來工作中需要進一步優化。

猜你喜歡
策略模型
一半模型
基于“選—練—評”一體化的二輪復習策略
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 鲁鲁鲁爽爽爽在线视频观看| 91丨九色丨首页在线播放| 久久频这里精品99香蕉久网址| 日本在线欧美在线| 无码精油按摩潮喷在线播放| 91久久性奴调教国产免费| 国产精鲁鲁网在线视频| 国产办公室秘书无码精品| 女同国产精品一区二区| 91无码网站| 亚洲欧美国产五月天综合| 久久综合色视频| 欧美在线国产| 中文字幕色站| 久久精品91麻豆| 国产精品妖精视频| 精品国产污污免费网站| 国产玖玖玖精品视频| 免费又黄又爽又猛大片午夜| 九九热精品视频在线| 国产在线自乱拍播放| 日韩精品一区二区三区免费在线观看| 亚洲国产欧洲精品路线久久| 天堂岛国av无码免费无禁网站| 日韩色图区| 特级欧美视频aaaaaa| 欧美精品成人| 爱做久久久久久| 久久久久夜色精品波多野结衣| 日韩不卡高清视频| 国产精品亚洲片在线va| 国产在线麻豆波多野结衣| 亚洲女同一区二区| 亚洲国产系列| 亚洲高清无码久久久| 青青青国产在线播放| 国产一线在线| 精品一区国产精品| 色综合狠狠操| 亚洲日本韩在线观看| 狠狠做深爱婷婷综合一区| 97久久人人超碰国产精品| 中文无码日韩精品| 亚洲AⅤ永久无码精品毛片| 成年人福利视频| 欧美在线网| 欧美在线中文字幕| 亚洲中文字幕97久久精品少妇| 欧美成人精品高清在线下载| 久久综合国产乱子免费| 国产精品自在在线午夜区app| 国产第二十一页| 中文字幕啪啪| 国产成人啪视频一区二区三区| 免费国产高清视频| 免费观看国产小粉嫩喷水| 欧美中文字幕无线码视频| 亚洲第一色视频| 日韩免费毛片视频| 欧美亚洲国产日韩电影在线| 人妻丰满熟妇AV无码区| 亚洲水蜜桃久久综合网站| 免费国产小视频在线观看| 欧美成人手机在线观看网址| 9966国产精品视频| 欧美午夜视频在线| 日韩a级片视频| 亚洲欧洲日本在线| 国产精品永久免费嫩草研究院 | 91麻豆国产视频| 伊人久久婷婷五月综合97色| 亚洲aⅴ天堂| 福利在线不卡一区| 在线国产欧美| 日本一区高清| 2021精品国产自在现线看| 精品国产91爱| 婷婷综合色| 久久精品这里只有精99品| 日本在线亚洲| 国产一区二区三区在线观看视频| www精品久久|