999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進雙延遲深度確定性策略梯度法的無人機反追擊機動決策

2021-09-23 13:25:26郭萬春解武杰董文瀚
空軍工程大學學報 2021年4期
關鍵詞:經驗動作策略

郭萬春, 解武杰, 尹 暉, 董文瀚

(1.空軍工程大學航空工程學院, 西安, 710038; 2.空軍工程大學教研保障中心, 西安, 710051)

近年來,各種控制理論和方法研究為自主空戰決策提供了解決方案。文獻[1]利用差分博弈論,將空戰模型建模為一個確定的、完全信息的追逃博弈模型。文獻[2]研究了一種實時自主一對一的近似動態規劃空戰方法。文獻[3]采用了一種基于可達性的方法來解決追逃博弈問題。此外,還有多級影響圖法[4]、滾動時域法[5]和基于統計學原理的方法[6]等。由于現實環境的不確定性以及真實測試昂貴、耗時和危險等原因,這些探索大多停留在理論研究階段,難以付諸工程實踐和實戰。

深度強化學習(deep reinforcement learning,DRL)正成為利用AI解決決策問題的主流研究方向[7-10]。文獻[11]采用了深度Q學習(deep Q-learning network,DQN)的方法控制無人機的速度和轉角,然而DQN對次優動作高估的狀態動作值超過最優動作的動作值時將無法找到最優動作,并且它只能處理離散的、低維的動作空間,這與大多實際情境不符。文獻[12]使用異步的優勢行動者評論家算法(asynchronous advantage actor-critic,A3C)訓練無人機進行空戰,利用多線程的方法,同時在多個線程里分別與環境進行交互學習,避免了DQN中出現的經驗回放相關性過強的問題,但是訓練出的無人機空戰性能有待提高。文獻[13]假定對戰的兩架飛機速度恒定,使用深度確定性策略梯度算法(deep deterministic policy gradient, DDPG)訓練了無人機,雖然取得了良好的訓練效果,但是訓練出的追擊策略較為單一,并且沒有考慮飛機的火力打擊區域,僅僅以兩機間的距離在某一范圍內作為成功打擊目標的準則。

本文討論自主空戰中深度強化學習在無人機反追擊的應用。考慮非對稱性的追逃博弈問題,具有扇形火力打擊區域的兩架無人機進行追擊/反追擊的空中對抗,攻擊(以下標注為ATTACK)無人機采用純追蹤法(pure pursuit)打擊目標,目的是訓練速度不大于ATTACK無人機的智能(以下標注為RL)無人機擺脫其追擊并進行反制。

1 問題描述

無人機自主機動反追擊使用參數化動作空間馬爾科夫決策過程[14]的形式化框架,由一個五元組構成:。RL無人機通過與環境交互學習狀態到動作的映射關系以此獲得最大累計期望回報。假設這是一個理想模型,環境的動態特性P(·|(s,a))=1是確定的,即不存在風等對無人機飛行有干擾的因素。時間步為t時觀測到的無人機狀態st∈S。RL無人機從可用的行動集合A中選用行動at∈A,環境在at的作用下,轉換至新狀態st+1,在進行狀態轉移到下一個新狀態的同時產生獎勵r(st,at)。RL無人機根據新觀測到的狀態st+1,再做出新的決策,采取行為at+1,依次反復進行直至達到環境的終止狀態。γ∈[0,1]為未來回報折扣因子,RL無人機旨在尋找一個策略π使得其從任意初始狀態s0出發在達到終止狀態時獲得最大的累計獎勵:

(1)

根據文獻[15],無人機反追擊模型可描述為:

(3)

設ATTACK無人機和RL無人機的偏航角分別為α和β,則其位置信息分別為XATTACK=(x1,y1,α),XRL=(x2,y2,β)。

根據文獻[11],ATTACK無人機對RL無人機進行火力打擊的示意圖如圖1所示。

圖1 火力打擊示意圖

ATTACK無人機進行火力打擊的規則為純追蹤法:其速度方向將時刻指向RL無人機,試圖將RL無人機追擊在自己的打擊范圍內,該策略在文獻[16]中被證明是十分有效的追擊手段。根據最優追逃策略[17],設ATTACK無人機相鄰兩次時間步長內的偏航角變化量φATT滿足:

(3)

2 無人機反追擊Markov決策過程建模

2.1 無人機飛行狀態空間

由于兩架無人機在同一高度上進行追擊與反追擊的空中對抗,記位置信息為D=(x1,y1,α,x2,y2,β),在每個時間步長的開始,以ATTACK無人機的位置和偏航角為基準,將原有的坐標系逆時針旋轉α角,使新坐標系的原點位于ATTACK無人機處,并且x軸方向與ATTACK無人機的偏航角重合。在新坐標系下,得出RL無人機的位置滿足以下關系:

(4)

(5)

β′=β-α

(6)

新坐標系下無人機的相對位置信息為:

D′=(0,0,0,(x2-x1)cosα+(y2-y1)sinα,

(x2-x1)sinα-(y2-y1)cosα,β-α)

(7)

值得注意的是,這個新坐標系是隨著ATTACK無人機的位置和偏航角實時變化的,由于ATTACK無人機也在做機動,所以每一時間步的原點和坐標的橫縱軸方向,在真實物理空間上是不一樣的,引入這個坐標系只是為了描述它們的相對位置。相對位置信息的6維向量有3維始終為0,因此通過相對坐標系可以進一步將無人機的飛行狀態空間壓縮一倍。構造新的觀測狀態為:

s=((x2-x1)cosα+(y2-y1)sinα,

(x2-x1)sinα-(y2-y1)cosα,β-α,Nz)

(8)

2.2 無人機飛行動作空間與終止獎勵函數

在每個時間步的開始,無人機從其動作空間允許的速度和轉向過載向環境提供一個動作,給定的動作會立即更新當前的速度和偏航角,在剩余的時間步長中保持不變。其中ATTACK無人機采用純追蹤法的策略,保持一個恒定的速度,可以選擇從一個連續范圍的轉彎角度,使用純追蹤法可以讓ATTACK無人機穩步拉近與對手的距離并接近對手使其置于火力打擊范圍。RL無人機使用強化學習算法,它的動作空間包含速度和轉向過載值,定義為:

A={v,Na}

(9)

兩種無人機機動能力數據見表1。

表1 機動能力數據

定義反追擊成功時的回報,即:

(10)

3 基于深度強化學習的無人機反追擊算法

值函數過估計的問題既在DQN中存在,也存在于“行動者-評論家”網絡。在DQN中采用的雙重深度Q學習[17](double deep Q-learning network,DDQN)方法可以一定程度上降低過估計的誤差,但在“行動者—評論家”網絡中使用類似DDQN的方法是無效的,因此本文采用雙延遲深度確定性策略梯度算法TD3來解決值函數過估計的問題;為了提高訓練前期的效率和訓練后期的穩定收斂,將經驗回放區進行重構并改進傳統的隨機抽樣策略。

3.1 無人機反追擊算法框架

經驗回放區重構將成功經驗和失敗經驗分為兩個經驗回放區。如果RL無人機反追擊任務滿足式(10)中r(s,a)=1,則被認為是暫時的成功經驗儲存在成功經驗回放區中,記為Rs;相反,滿足r(s,a)=0,則將失敗經驗儲存在失敗經驗回放區中,記為Rf。由于RL的獎勵過程中存在著時間延遲,所以存儲在Rs中的一些即將達到失敗前的經驗也與失敗有關。因此,可以把這些經驗從Rs以ηf的比例提取出來。具體來說,對每一個時間步,如果是成功經驗,將被直接儲存在Rs中;如果是失敗經驗,將存放至Rf,同時以ηf的比例從Rs中提取出上述的失敗經驗。

改進傳統的隨機采樣策略:更新時,行動者和評論家同時從Rs以ξs比例以及從Rf抽取(1-ξs)的樣本來進行優化。其中,考慮訓練前期的效率和訓練后期局部最優的制衡,ξs應隨著訓練總迭代次數M衰減:

(11)

經驗回放區重構的TD3方法見圖2。

圖2 經驗回放區重構的TD3方法框架圖

傳統TD3使用經驗回放區解決訓練數據間的相關性,在環境中探索得到的樣本數據,以狀態轉換序列為單元存放于回放區中,當記憶庫滿時,則刪掉舊的樣本數據,保證回放庫中的容量不變。每次更新時,行動者和評論家都會從中隨機的抽取一部分樣本進行優化,來減少一些不穩定性。但是,隨機采樣會導致訓練效率低,收斂性能差。本文提出的經驗回放區重構可以一定程度上解決這一問題。

從重構經驗回放區采樣得到一個小批量的訓練數據,TD3通過梯度上升/下降算法更新當前網絡的參數。然后再通過優化的滑動平均方法更新目標網絡的參數,使得目標網絡參數緩慢變化,以此提高學習的穩定性。

3.2 基于改進TD3的無人機反追擊決策算法

TD3采用行動者-評論家框架,包含6個神經網絡,見表2。

表2 TD3中的神經網絡

擬合策略函數的策略網絡πφ,參數為φ,輸入為當前狀態st,輸出無人機的動作:

at=πφ(st|φ)

(12)

策略網絡圖見圖3,網絡參數見表3。

圖3 策略網絡

表3 策略網絡的參數

網絡參數通過確定性策略網絡梯度定理更新:

(13)

目標策略網絡πφ′的參數為φ′,輸入為下一狀態,輸出下一狀態的動作:

at+1=πφ′(st+1|φ′)

(14)

擬合狀態動作值函數的Q1網絡Qθ1和Q2網絡Qθ2,參數分別為θ1和θ2,輸入為當前狀態st和實際執行的動作at,輸出為狀態動作值即Q1值和Q2值:

Qi=Qθi(st,at|θi)

(15)

Q1網絡還輸出狀態動作值函數對動作的梯度?aQθ1(st,at|θ1)用于式(13)的參數更新。

狀態動作值網絡見圖4,網絡參數見表4。

圖4 狀態動作值網絡

表4 狀態動作值網絡的參數

(16)

TD3在兩個目標Q網絡中選擇較小的Q值,防止DDPG中評論家網絡對動作Q值過估計的問題:

Q′=min{Q1′,Q2′}

(17)

對于Q1網絡和Q2網絡,定義損失函數:

(18)

通過損失函數的反向傳播算法更新得到Q1網絡和Q2網絡的參數。其中y表示時序差分(temporal-difference,TD)目標值:

(19)

(20)

Q1網絡和Q2網絡的TD誤差分別為:

TDerrori=y-Qθi(st,at|θi)

(21)

對評論家更新2次后,行動家再進行更新,策略網絡πφ、Q1網絡和Q2網絡的參數通過滑動平均分別得到目標策略πφ′網絡和目標Q1網絡和Q2網絡的參數:

(22)

無人機反追擊決策算法訓練流程如下:

初始化經驗回放庫Rf、Rs、策略網絡πφ、Q1網絡和Q2網絡,并將它們的參數復制給目標策略網絡πφ'和目標Q1網絡和目標Q2網絡。For episode = 1,2,…,M: a←πθμ(s)+ε,其中ε~N(0,σ),給行為添加噪聲; 獲取無人機飛行仿真環境的初始狀態。 For t = 1,2,…,T: 根據當前策略和探索噪聲,獲得行為a; 執行行為a,獲得回報r(s,a)和下一個狀態s';

狀態轉換序列存儲于回放記憶庫Rf、Rs中; Rf、Rs中分別以ξs和(1-ξs)的比例抽取N個狀態轉換序列,作為策略網絡和Qi網絡的訓練數據; 根據式(20)計算 a; 根據式(19)計算時序差分值y; 根據式(18)更新Q1網絡和Q2網絡參數; IFt mod 2: 根據式(13)計算樣本策略梯度,更新策略網絡; 根據式(22)更新目標策略網絡和目標Q1網絡和Q2網絡。 End if End forEnd for輸出最優策略網絡參數以及最優策略。

4 仿真驗證與分析

設置訓練集為M=10 000,隨機初始化兩架無人機初始位置與姿態信息。其中ATTACK無人機的初始位置在原點,偏航角在[0,2π]內均勻分布;RL無人機的初始位置是以原點為中心的橫縱坐標x、y變量呈正態分布的隨機分布,其中x、y方向標準差均為0.5 km。這樣的隨機初始化可以做到讓RL無人機在一個時間步長后擺脫追擊并進行反制,實際上加快了收斂速度。超參數設置見表5。

表5 超參數

分別使用面向連續動作空間的確定性策略方法TD3算法和DDPG算法進行訓練,每100次訓練記錄當前100次訓練的勝率。訓練效果見圖5。

圖5 訓練效果對比圖

可以看出,與基準DDPG算法相比,本文方法的勝率約高出10%左右。改進后的TD3算法雖然在訓練的后期與傳統的TD3算法能達到的勝率相差不大,但是由于經驗回放區的重構,新的采樣策略代替原始的隨機采樣策略,使得在訓練伊始可以更多學習到任務成功經驗序列,使改進后的TD3算法在訓練前期的收斂速度較快,波動也較弱。

算法訓練完成后,對訓練集進行大量仿真測試,在訓練集中進行4 000次對抗,每次包括100個時間步長,該時間步之內未能分出勝負則為平局。仿真表明,RL無人機成功實施反追擊的次數為3 761次,成功率為94.025%,達到了預定目的。與TD3算法和DDPG算法的對比見表6。

表6 測試效果對比表

可以看到,改進后的TD3算法勝率略高于TD3算法,明顯高于DDPG算法,但是由于整個算法當中比DDPG多了兩個神經網絡的參數,所以從決策時間來看,決策時間均略長于DDPG 算法。

在測試集中,RL無人機使用本文訓練好的策略進行反追擊的勝率也很難低于93%。圖6~10展示了測試集中具有代表性的雙機軌跡,從中可以觀察到典型的RL反追擊策略。圖6~9顯示了RL無人機為了獲勝所采用的最常見的策略,圖10展示了RL平局時的大部分場景。

圖6 軌跡1

圖7 軌跡2

圖8 軌跡3

圖9 軌跡4

圖10 軌跡5

如圖6所示,RL無人機通過在被追擊的早期改變速度同時調整轉向過載值來做出長期決策:一開始加速是防止在前期就被擊中,隨后進行減速和轉彎機動,誘騙對手也進行轉彎大機動,從而拉開與對手的距離,再之后采用的策略類似于圖7。

如圖7所示,RL無人機在ATTACK無人機前面先進行轉彎機動,隨即降低速度,由于ATTACK無人機按照純追蹤法以不小于RL無人機的恒定速度向其方向移動,最終,ATTACK無人機最終被鎖定在RL無人機的前方的火力打擊區域內。

如圖8所示,RL無人機通過調整速度和轉向過載圍繞ATTACK無人機軌跡兩側蜿蜒的方式進行機動,逐漸縮小與對手的距離,最后同樣采用類似圖7的策略,使ATTACK無人機飛行至自己的前方,被鎖定在自己的火力打擊范圍內。

如圖9所示,RL無人機還可以學習到的策略是機會性的,不需要做過多的機動即可以在較短的時間步長內取得對抗的勝利而非依靠上述提及的策略。根據一些合適的初始條件,RL無人機基本不調整轉向過載地徑直飛行,只是在前期需要采用類似于圖6的策略調整速度防止前期被攻擊。

如圖10所示,還可以學到一種在規定時間步長內平局的策略,即RL無人機誘導ATTACK無人機一起做圓周運動,以此讓ATTACK無人機的扇形火力區域無法攻擊自己。

5 結論

本文針對無人機近距空戰的自主機動反追擊問題,提出經驗回放區重構TD3算法。該方法將經驗回放區重構為成功、失敗兩個經驗回放區,取代傳統的隨機采樣使用基于成功、失敗經驗區的采樣策略。仿真結果表明,RL無人機學到的策略在訓練集上兼顧了訓練前期的學習效率與訓練后期的穩定收斂,在測試集上展示了較好的性能。

本文研究基于無人機的狀態全局可觀測這一假設條件,而真實空戰環境下,受我機感知范圍限制,敵機位置等態勢信息并不能時刻被精確獲取。針對不完全信息博弈條件進行空戰決策研究,更具挑戰性和實用性,將是本文下一步研究的重點。

猜你喜歡
經驗動作策略
2021年第20期“最值得推廣的經驗”評選
黨課參考(2021年20期)2021-11-04 09:39:46
例談未知角三角函數值的求解策略
我說你做講策略
經驗
2018年第20期“最值得推廣的經驗”評選
黨課參考(2018年20期)2018-11-09 08:52:36
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
動作描寫不可少
非同一般的吃飯動作
主站蜘蛛池模板: 国产区精品高清在线观看| 久久综合丝袜长腿丝袜| 亚洲成人高清在线观看| 自偷自拍三级全三级视频 | 亚洲人成在线免费观看| 超碰色了色| 亚洲欧美另类视频| 日韩无码黄色网站| 欧洲免费精品视频在线| 国产丝袜第一页| 免费中文字幕一级毛片| 2021最新国产精品网站| 全色黄大色大片免费久久老太| 色婷婷狠狠干| 日韩福利视频导航| 试看120秒男女啪啪免费| 蜜臀av性久久久久蜜臀aⅴ麻豆| 69av在线| 日韩无码视频专区| 91青青在线视频| 久久大香伊蕉在人线观看热2| 99re经典视频在线| 激情午夜婷婷| 国产精品观看视频免费完整版| 人妻21p大胆| 国产毛片一区| 久久综合婷婷| 久青草免费视频| 免费A级毛片无码无遮挡| 国产打屁股免费区网站| 亚洲最新在线| 在线亚洲小视频| 正在播放久久| 久久99这里精品8国产| 日韩精品高清自在线| 91国语视频| 波多野结衣国产精品| 国产青青草视频| 欧美成人a∨视频免费观看| 中文字幕自拍偷拍| 精品午夜国产福利观看| 香蕉eeww99国产精选播放| 亚洲第一区在线| 99久久99视频| 久久不卡国产精品无码| 在线国产毛片手机小视频| 国产99在线| 99无码中文字幕视频| 中文成人在线视频| 久久亚洲高清国产| 欧美成人午夜影院| 不卡无码h在线观看| 伊人久久婷婷五月综合97色| 福利国产微拍广场一区视频在线| 久久综合婷婷| 亚洲床戏一区| 国产午夜无码片在线观看网站 | 91久久夜色精品国产网站| 久久天天躁狠狠躁夜夜躁| 国产精品美女自慰喷水| 中国国产A一级毛片| 国产欧美亚洲精品第3页在线| 国产又色又刺激高潮免费看| 精品人妻系列无码专区久久| 国产精品美女自慰喷水| аⅴ资源中文在线天堂| 国产精品成人第一区| 麻豆国产精品| 成人一区专区在线观看| 亚洲无限乱码| 国产对白刺激真实精品91| 一级爆乳无码av| 亚洲国产清纯| 欧美日韩国产成人在线观看| 成人国产精品一级毛片天堂| 乱码国产乱码精品精在线播放 | 伊人色在线视频| 激情爆乳一区二区| 亚洲精品天堂在线观看| www.国产福利| 国产亚洲现在一区二区中文| 在线精品亚洲一区二区古装|