999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的帶落角約束的制導律研究

2023-02-24 08:50:40康冰冰魏曉晴
航空兵器 2023年6期
關鍵詞:動作策略

康冰冰, 姜 濤, 曹 建, 魏曉晴

(海軍航空大學, 山東 煙臺 264001)

0 引 言

毀傷目標首先考慮的因素是武器彈藥能否命中目標或者脫靶量是否在一定的毀傷范圍內。 與非制導武器相比, 制導武器極大的提高了命中目標的精度, 保證了毀傷效果。 制導律是制導武器提高命中精度的核心之一, 制導律一般通過最優控制、 李雅普諾夫穩定性理論、 滑模控制等算法[1]設計, 最常用的制導律是比例導引律及其偏置形式[2]。

在實際作戰中, 彈目交會情形和目標易損特性等也極大的影響作戰使用效率, 如攻擊混凝土結構、 鋼制結構等堅硬目標時, 彈著角過小容易發生跳彈; 攻擊艦船、 建筑物等目標時, 導彈以一定的方向攻擊目標的易損部位, 可以增加毀傷效果。 因此, 針對特定目標, 尤其是地面、 海面目標, 制導武器以一定的角度攻擊目標, 可以達到更好毀傷效果。

針對固定目標, 文獻[3]利用計算幾何學設計了制導律, 調整終點碰撞線, 導彈能以指定落角攻擊目標, 通過調整軌跡長度控制導彈飛行時間; 文獻[4]利用直線飛行的虛擬領彈建立幾何關系, 采用最優控制使跟蹤彈飛行軌跡與虛擬領彈同步, 實現了特定落角攻擊目標; 文獻[5]利用最優控制推導帶落角約束的偏置比例制導律; 文獻[6]推導了三維協同制導律, 制導過程分為協同、 比例導引兩個階段, 基于此研究了導彈以不同的落角攻擊目標的協同制導律[7]; 文獻[8]利用李雅普諾夫穩定性定理, 設計制導誤差并進行收斂設計, 實現了具有固定落角的協同制導; 文獻[9]以比例制導律為基礎設計了具有固定落角約束的制導律, 且收斂時間固定。

針對具有約束的制導問題, 傳統的設計方法一般計算比較復雜, 有的還需要做一些近似處理。 近年來, 隨著人工智能的發展, 智能算法開始進入武器領域, 文獻[10]綜述了智能航跡規劃算法, 對強化學習、 神經網絡、 深度學習等算法進行了分析; 文獻[11]利用深度神經網絡預測導彈撞擊目標的時間, 實現導彈協同攻擊固定目標; 文獻[12]針對機動目標采用DDPG設計了制導律, 與比例制導律、 改進的比例制導律相比, 脫靶量更小, 攔截效果更好; 文獻[13]采用Q-learning、 EBDQN設計了導航比具有自適應特性的末制導律, 與傳統方法相比, 脫靶量更小, 更加穩定; 文獻[14]設計了DQN與神經網絡結合的制導律, 與DQN制導律相比, 脫靶量更小; 文獻[15]設計了基于TD3算法的制導律, 制導律的泛化特性較好; 文獻[16]設計了基于TRPO的強化學習制導律, 與比例制導律相比, 具有更好的攔截效果; 文獻[17]設計了基于蒙特卡洛和Q-learning的兩種強化學習的導航比, 與傳統比例制導律相比, 具有更好的攔截效果; 文獻[18]基于分層強化學習算法研究了空戰決策, 結果表明訓練的模型能有效提高輔助決策效率; 文獻[19]利用DDPG算法構建了制導、 控制一體化框架, 算法直接輸出舵偏量, 該算法的能耗更低。

比例制導律及其變型是應用廣泛的制導律, 當彈目交會狀態有一定約束時, 尤其是目標存在一定的速度時, 傳統制導律能否適應復雜的戰場環境值得分析。 由于強化學習在制導律設計上展現出了獨特的優勢, 受此啟發, 本文采用強化學習算法, 針對具有落角約束的制導問題展開研究, 并與傳統的最優制導律(擴展比例制導律)對比分析, 驗證了強化學習制導律的有效性和對戰場環境的適應性。

1 問題描述

圖1 彈目幾何關系Fig.1 The geometry of the missile and its target

彈目幾何關系可以用下式表示:

(1)

(2)

(3)

ζ=η-θ

(4)

整理式(2)~(4)得

(5)

2 最優制導律

最優制導律(Optimal Guidance Law, OPL)是傳統成熟的制導律, 設初始彈目距離l=l0, 終端彈目交會時彈目距離接近0, 令lF=0, 終端落角約束為θF。

在以上約束條件下, 性能指標函數設定為

(6)

式中:n≥0。

根據最優制導律的求解方法得到加速度[2]:

(7)

式(7)是擴展比例制導律的形式, 考慮到空面導彈的過載限制, 本文令加速度滿足-90≤aM≤90。

3 強化學習制導律

3.1 強化學習

在機器學習中, 各種學習算法通常需要批量的輸入數據和對應的輸出數據或標簽數據, 這些數據集還應滿足獨立同分布。 通過對數據的訓練, 機器學習尋得數據的內在規律, 訓練好的模型可以對一個輸入數據進行輸出預測, 并且預測值與觀測值一致或預測誤差很小。 但是在一些情況下, 數據是序列的, 不滿足獨立同分布。 例如導彈制導問題, 前一時刻與后一時刻的制導飛行數據間有強相關關系, 需要連續的制導飛行數據才能確定制導律的好壞, 一個特定時刻的加速度值無法做出正確的判斷。 這就是強化學習要解決的問題。

強化學習基本原理如圖2所示, 智能體是做出決策的機器, 智能體感知環境狀態st計算出相應決策動作at, 動作at作用于環境產生了獎勵r, 環境進入下一個狀態st+1, 智能體根據新的狀態做下一個決策。 依照一定的算法, 可以計算出使累計獎勵最大的決策動作序列, 這就是強化學習的思想。

圖2 強化學習Fig.2 Reinforcement learning

強化學習的核心是馬爾科夫決策過程, 馬爾科夫決策過程可由一個五元組[S,A,P,r,γ]表示。S為由狀態構成的集合, 狀態可以是離散的, 也可以是連續的;A為由動作構成的集合, 動作集合可以是有限的, 也可以是無限的;r為獎勵函數, 通常表示為r(s,a),r的值由狀態s及動作a共同確定, 考慮到動作a影響狀態s, 在某些情況下r也可表示為r(s);P(s′|s,a)為狀態轉移的概率函數, 即在狀態s下采取動作a進入下一個狀態s′的概率;γ為折扣參數, 通常是介于0到1之間的數。

為了判斷智能體決策的優劣, 將t時刻以后的獎勵相加得到Gt, 并稱為回報:

(8)

考慮到馬爾科夫決策過程可能處于無限循環, 折扣參數γ<1可以避免回報無限的大。rt是現時刻得到的獎勵值, 而t+1時刻以后的獎勵rt+i是對未來的估計值, 存在一定的不確定性。 降低折扣參數可以提高現時刻獎勵的重要程度, 同時降低未來時刻的不確定性。

這樣智能體以最大化回報的期望為目標, 以當前狀態為輸入, 輸出一個動作。 智能體選擇動作的規則或者函數稱為策略π, 可表示為

π(a|s)=P(At=a|St=s)

(9)

式中:P為概率函數, 表示智能體根據輸入狀態s輸出動作a的概率。 如果P是在輸入狀態s輸出動作集A的概率分布, 則這個策略是隨機性策略, 策略根據概率采樣輸出一個動作a; 如果在輸入狀態s下輸出一個確定的動作, 即輸出該動作的概率,P=1, 則這個策略就是確定性策略。

判斷策略的好壞是通過貝爾曼期望方程實現的:

Qπ(s,a)=γ∑P(s′|s,a)∑π(a′|s′)·

Qπ(s′,a′)+r(s,a)

(10)

Vπ(s)=∑π(a|s)r(s,a)+∑π(a|s)·

(γ∑P(s′|s,a)Vπ(s′))

(11)

式中:Qπ(s,a)為策略π下的動作價值函數;Vπ(s)為策略π下的狀態價值函數。

3.2 深度確定性策略梯度(DDPG)算法

DDPG算法是可以處理連續動作空間的離線學習策略。 DDPG算法框架如圖3所示, 策略網絡和評價網絡均使用神經網絡結構。 策略網絡用于擬合狀態s與動作a的函數關系a(s), 策略網絡在動作價值的評判下, 通過訓練尋找最優策略。 估計網絡用來擬合狀態s、 動作a與獎勵r的函數關系r(s,a), 通過離線的數據進行訓練。 策略網絡、 評價網絡和環境構成了一個完整的馬爾可夫決策過程。 估計策略網絡和目標策略網絡具有相同的神經網絡結構, 神經網絡參數分別為σ和σ′。 估計評價網絡和目標評價網絡具有相同的神經網絡結構, 神經網絡參數分別為ω和ω′。 采用兩套相同評價網絡和策略網絡是為了防止神經網絡參數變化過于劇烈, 解決神經網絡訓練不穩定的問題。 估計網絡實時更新參數ω和σ, 目標網絡按照下式軟更新參數ω′和σ′:

圖3 DDPG算法Fig.3 DDPG algorithm

ω′=τω+(1-τ)ω′

(12)

σ′=τσ+(1-τ)σ′

(13)

式中: 0<τ≤1。

估計評價網絡按照下式, 最小化目標損失更新網絡參數ω:

(14)

估計策略網絡采用鏈式法則最大化Qw梯度策略更新估計策略網絡參數σ:

(15)

式中:ai=μσ(si)。

DDPG算法具體流程如下:

(1) 用隨機參數初始化估計策略網絡和評價網絡;

(2) 復制估計網絡參數至目標網絡并初始化;

(3) 隨機初始狀態s1和噪聲, 利用估計網絡循環計算并與環境交互, 保存得到的st,at,rt,st+1至經驗池;

(4) 獲得足夠的樣本后, 采樣N個數據組si,ai,ri,si+1;

(5) 采用式(14)最小化目標函數L, 并更新估計策略網絡的參數σ;

(6) 采用式(15), 通過梯度上升方法最大化Qw, 并更新估計評價網絡的參數ω;

(7) 采用式(12)~(13)軟更新目標策略網絡參數σ′和目標評價網絡參數ω′;

(8) 用更新后的估計網絡繼續采樣、 保存, 重復步驟4~7。 訓練過程中, 按照一定的規則逐漸降低噪聲直至為0。

3.3 制導律訓練模型

(16)

以上獎勵函數的目的是將彈目視線角θ收斂到θF, 并使導彈沿彈目視線(彈目視線θF)飛行。 此時, 導彈可能飛向目標, 也可能遠離目標, 因此當導彈遠離目標時進行懲罰。 只要能保證導彈沿彈目視線角為θF的彈目視線飛向目標, 導彈能夠命中目標。

式(1)~(4)構成環境, 在初始條件下DDPG算法與環境交互。

動作a是加速度, 考慮空面導彈的過載限制, 令動作滿足-90≤a≤90。

為了保證訓練模型的泛化能力, 末制導初始時刻導彈M在服從中心為(-5 000 m, 5 000 m), 方差為500的正態分布的隨機位置; 導彈速度vM=300 m/s; 終端落角θF為服從均勻分布[-1.4,-0.3]的隨機位置; 彈道傾角η為服從以0為中心, 方差為0.2的正態分布的隨機位置。 在不同初始條件下對模型訓練, 得到穩定的強化學習制導律。

4 仿真分析

為分析強化學習制導律的特性, 設置3種不同初始條件進行分析, 如圖4~8所示。

圖4 加速度變化情況Fig.4 Acceleration changes

圖5 彈目距離變化情況Fig.5 Change in distance of missile and target

圖6 導彈位置變化情況Fig.6 Change in missile position

初始條件1: 導彈位置(-5 000 m, 5 000 m), 終端落角為-1.1, 彈道傾為0, 最優制導律式(7)中n=1。

初始條件2: 導彈位置(-5 000 m, 4 500 m), 終端落角為-0.8, 彈道傾為0.1, 最優制導律式(7)中n=0。

初始條件3: 導彈位置(-4 000 m, 4 500 m), 終端落角為-1.0, 彈道傾為0.2, 最優制導律式(7)中n=2。

從圖中可以看出, 在3種不同初始條件下, 強化學習制導律均能以期望的落角命中目標, 且加速度在允許范圍內, 彈道平滑。 本文訓練的模型泛化能力較好, 能夠滿足制導要求。

通過對比可以發現: 最優制導律在末制導初始時刻加速度值較大, 尤其是圖4(c)中以最大過載飛行時間較長; 在制導末時刻加速度的絕對值會有一個增大, 尤其是圖4(a)中加速度的絕對值急劇增加。 強化學習制導律在末制導初始時刻所需的加速度較小, 在制導末時刻加速度接近0, 加速度變化比較平緩。 從圖7中可以看出, 與最優制導律相比, 強化學習制導律收斂到固定攻擊角度的速度更快。 從圖8中可以看出, 與最優制導律相比, 強化學習制導律能夠使速度更快的指向LOS方向。

圖7 彈目視線角變化情況Fig.7 Change in line of sight angle of missile and target

圖8 導彈方向誤差角變化情況Fig.8 Change in missile direction error angle

為分析目標為低速面目標時的制導律特性, 令動目標勻速直線運動, 以目標速度為15 m/s, 速度方向服從均勻分布[-π,π]為條件, 在訓練好的固定目標強化學習制導律的基礎上繼續進行訓練, 得到了穩定的強化學習制導律。

設定初始條件4: 導彈位置(-5 000 m,5 000 m), 終端落角為-1.0, 彈道傾為0.2, 目標速度方向為1, 最優制導律式(7)中n=2。

強化學習制導律和最優制導律均能命中目標, 如圖9所示。 運動的目標使彈目視線一直在變化, 這致使制導律需要不斷的調整導彈的飛行方向, 修正制導誤差有一定的滯后性。 從仿真結果圖9(c)中可以看出, 最優制導律的終端落角為-0.92, 終端落角的誤差為0.08; 強化學習制導律的終端落角為-0.97, 終端落角的誤差為0.03。 強化學習制導律在應對運動目標的多約束制導問題上具有更好的效果, 能更好適應變化的戰場環境。

圖9 初始條件4Fig.9 Condition 4

5 結 論

針對空面導彈以一定的落角攻擊面目標的問題, 本文采用DDPG算法進行了制導律設計并進行訓練。 DDPG制導律仿真結果表明: 模型的泛化能力較好, 能以期望的落角命中目標, 且加速度在允許范圍內, 彈道平滑, 在不同初始條件下均能夠滿足制導要求。 DDPG制導律比最優制導律有更快的收斂速度、 更好的加速度特性。 針對低速移動目標, DDPG制導律的終端落角誤差比最優制導律小, 能更好的適應制導過程中的變化的戰場環境。

猜你喜歡
動作策略
基于“選—練—評”一體化的二輪復習策略
下一個動作
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
讓動作“活”起來
動作描寫不可少
主站蜘蛛池模板: 又粗又硬又大又爽免费视频播放| 激情无码字幕综合| 亚洲第一中文字幕| 亚洲欧美日本国产综合在线| 亚洲成人网在线播放| 97久久免费视频| 九色视频线上播放| 国产欧美日韩在线一区| 91网红精品在线观看| 国产成人无码播放| 中文国产成人精品久久| 99精品国产电影| 最新国产网站| 女同国产精品一区二区| 亚洲最大福利网站| 日韩黄色在线| 久久综合亚洲鲁鲁九月天| 国产免费人成视频网| 九九久久精品免费观看| 久久综合九九亚洲一区| 亚洲一区二区三区国产精华液| 色婷婷啪啪| 久久99国产乱子伦精品免| 欧美在线视频不卡| 国产午夜人做人免费视频| 成年片色大黄全免费网站久久| 无码 在线 在线| 国产亚洲视频在线观看| 天天躁夜夜躁狠狠躁图片| 欧美国产综合视频| 久久免费观看视频| 狠狠干综合| 久久婷婷六月| 国产精品密蕾丝视频| 无码有码中文字幕| 免费无遮挡AV| 99热国产这里只有精品9九 | 19国产精品麻豆免费观看| 91美女在线| 国产成人无码综合亚洲日韩不卡| 久久久久人妻精品一区三寸蜜桃| 久久久久久尹人网香蕉| 日韩123欧美字幕| 欧美日韩精品一区二区视频| 在线国产91| 中文字幕无码中文字幕有码在线| 国产手机在线ΑⅤ片无码观看| 久久毛片免费基地| 国产丝袜第一页| 亚洲日韩精品无码专区97| 免费中文字幕一级毛片| 精品国产毛片| 国产成人亚洲无码淙合青草| 亚洲精品爱草草视频在线| 亚洲第一视频区| 夜夜操天天摸| 69国产精品视频免费| 免费一级大毛片a一观看不卡| 亚洲国产精品成人久久综合影院| 欧美日韩中文字幕二区三区| 久久精品视频亚洲| 亚洲综合色婷婷| 日韩无码真实干出血视频| 成年人视频一区二区| 国产精品白浆在线播放| 一级毛片在线播放免费| 无遮挡国产高潮视频免费观看| 在线日韩日本国产亚洲| 久久精品aⅴ无码中文字幕| 在线免费观看AV| 国产成人h在线观看网站站| 国产成人免费| 中文无码伦av中文字幕| 亚洲男女在线| 国产在线麻豆波多野结衣| 日韩第九页| 九色视频线上播放| 麻豆精品久久久久久久99蜜桃| 日韩第九页| 日韩精品成人网页视频在线| 国产成人AV综合久久| 99这里只有精品在线|