999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DRL 與微分對策的無人機空戰決策研究*

2021-06-26 03:59:06李曉婷趙彥東張亞星
火力與指揮控制 2021年5期
關鍵詞:動作對策

楊 霄,李曉婷,趙彥東,張亞星

(1.北方自動控制技術研究所,太原 030006;2.中國科學院自動化研究所融合創新中心,北京 100190)

0 引言

現代無人機空戰朝著信息化、綜合化、智能化方向發展,實時提供的戰場信息爆炸性增加,決策過程和決策復雜程度日益增加。無人機戰術自主決策能力較弱,為了更好地處理分布式多源情報信息,完成空戰對抗時戰術自主決策,對智能化的無人機空戰對抗自主決策系統的需求日益突出,亟需研究新技術,以使無人機空戰對抗決策變得更加“智能化、自主化”[1]。

空戰決策(Air Combat Decision,ACD)一直是研究熱點。由于空戰過程中敵我雙方態勢動態變化,且有很多難以確定的其他因素,使得空戰決策研究困難重重。左家亮等[2]針對空戰決策序列的實時動態性,提出了基于啟發式強化學習的空戰機動智能決策方法;鄧可等[3]針對無人機空戰決策的實時性,提出遺傳算法與矩陣對策法相結合的混合決策算法;王曉光等[4]針對無人機空戰格斗,將微分對策與機器博弈論結合,使空戰決策更合理、智能。

無人機空戰對抗是一個實時的博弈過程,博弈時,敵我雙方通過采用自己的策略達到利益的最大化或者懲罰最小化。本文提出結合微分對策的深度強化學習方法,有效提高無人機空戰決策對于實時性的要求,實現快速決策。

1 無人機空戰態勢建模

無人機作戰作為一種未來的新作戰模式,目前還處于研究狀態,本文重點考慮戰術決策過程。本文敵我雙方的無人機均采用固定翼、帶有彈載荷的無人機,考慮到無人機空戰主要對抗要素,主要對無人機、無人機機載雷達探測范圍、機載導彈殺傷范圍進行建模。

假設我方無人機(紅方)與敵方無人機(藍方)空戰對抗處于一個三維的戰場環境,初始狀態設定為紅藍方無人機的自身狀態信息、相對位置、速度關系等,即輸入向量為S=(qr,qb,d,β,Δh,ΔV2,V2,h)。如圖1 所示,qr為偏離角,qb為脫離角,d 為相對距離,Δh 為紅藍雙方無人機的高度差,ΔV2為紅藍雙方無人機速度的平方差,V2為紅方無人機速度的平方,h 為紅方無人機的飛行高度[5]。

飛行方程為:

圖1 無人機模型

式中,x,y,h 分別表示大地坐標系下的坐標,表示雙方無人機的空間位置為航向角,表示無人機飛行方向與x 軸的夾角;為航跡傾斜角,反應無人機爬升或是下降。

選取普通脈沖雷達作為無人機的機載雷達,并對其建模,其最大探測距離給定如下:

式中,σ 為雷達散射截面,Pt為探測概率,其余參數為確定值,建模如圖2 所示。

圖2 雷達探測范圍模型

選取某型典型導彈,考慮機載導彈的攻擊區近界AB、攻擊區遠界CD、攻擊區側界AD、CB 以及進入角q,機載導彈攻擊范圍建模如下頁圖3 所示。

我方無人機(紅方)與敵方無人機(藍方)針對無人機空戰對抗過程,深度強化學習算法的參數主要包括無人機動作的戰術決策結果,以及回報函數的設定。結合美國國家航空航天局提出的7 個基本機動動作,設定輸入為狀態S=(qr,qb,d,β,Δh,ΔV2,V2,h),輸出的戰術決策結果包括7 種:盤旋等候、擺脫敵方、確保對抗優勢、搜索、迎面攻擊低于我機目標、攻擊低速目標、追擊快速目標。強化學習就是不斷地根據環境的實時反饋信息進行試錯學習,調整自身的狀態,旨在找到最優策略或者說是最大獎勵。對于無人機空戰對抗決策來說,獎勵函數的設定需要考慮紅藍雙方無人機狀態實時的對抗態勢。

圖3 機載導彈攻擊范圍模型

對于本文建立的空戰模擬,紅方無人機獲得攻擊機會即獲得獎勵,定義為紅方無人機到達攻擊區域,可以給予獎勵+10。攻擊區域設定:紅藍無人機之間距離小于10 km;紅方無人機速度矢量方向和雙方質心方向夾角小于30°;速度矢量夾角小于40°;

紅方無人機的獎勵函數R(s)可以定義為:

式中,qr為紅方無人機的偏離角,qb為紅方無人機的脫離角,vr為紅方無人機的飛行速度,r 為紅藍無人機距離,Δh 為相對高度。

由于無人機空戰對抗是實時變化的,量化為實時的威脅程度,用來對無人機的每一個機動動作進行評估。對于空中態勢威脅評估模型,學術界至今沒有形成比較統一的方法,本文參考魏航等建立的由方向、距離、速度、相對高度組成的威脅評估函數[5-6]。

1)角度威脅函數:

2)距離威脅函數:

圖4 無人機態勢關系圖

式中,rr、rb分別表示紅方無人機、藍方無人機的攻擊范圍,rr為雷達探測范圍。

3)速度威脅函數:

式中,vb表示藍方無人機的飛行速度。

4)高度威脅函數:

基于角度、距離、速度和高度4 個方面的空中態勢威脅指數的分析,不考慮武器性能等的影響,用加權求得總的威脅指數T:

式中,a,b,c,d 的值分別為0.2,0.4,0.2,0.2。

威脅指數越大,威脅越大。為了體現空中態勢對于空戰態勢的影響,本文將威脅指數擴大10 倍作為強化學習獎勵的依據,即將威脅指數和獎勵規則相結合,得到修正后的回報函數:

2 深度神經網絡設計

基于強化學習的無人機空戰對抗,需要表示的狀態空間維數較高,借鑒DBN 網絡結構擬合Q 值函數,設計一個8 層的深度神經網絡結構[7],各層的定義如下:

第1 層是無人機空戰對抗輸入層,包含表征無人機當前狀態的8 個節點,即向量S=(qr,qb,d,β,Δh,ΔV2,V2,h);

第2 層至第4 層為2 個受限波爾茲曼機(RBM)堆疊而成,每個RBM 有顯層和隱層兩層,第1 個RBM 的隱層即為第2 個RBM 的顯層;

第5 層為隱藏層,第4 層與第5、6 層構成BP網絡,激活函數采用sigmoid 函數;

第6 層為輸出層,輸出狀態戰術的Q 值;

第7 層為映射層,在該層完成戰術到機動動作的映射;

第8 層為狀態輸出層,系統執行相應的機動動作后,和環境交互,獲得環境反饋。

DBN 網絡共有7 個參數:h、v、b、c、d、w1、w2,其中,h、v 分別為RBM 輸入向量和輸出向量,b、c 分別為RBM 顯層神經元和隱層神經元的偏置,w1為RBM 權重,w2、d 分別為BP 網絡結構權重及偏置[8]。

3 微分對策參數設計

微分對策是基于經典對策論,引入現代控制理論,旨在解決動態決策問題[4]。微分對策的實質是:局中人進行競爭或對抗活動時,借助數學方式即微分方程或微分方程組來描述這一現象和規律[9]。無人機空戰實際上是一個動態決策的問題,本文通過微分對策求解戰術層到機動動作層。

設計機動決策空間a 的集合為A,由于采用微分對策方法得到無人機的機動,所以機動空間為微分對策模型輸出的速度、角度、距離以及高度機動參數[10]。針對戰術決策結果建立微分對策模型:

式中,Rv為我方無人機速度,Rφ為我方無人機進入以及航向角度,Rd為我方無人機與目標距離,RH為我方無人機高度。

3.1 加權系數的確定

a1,a2,a3在不同戰術決策下取值不同,需根據各因素對總體優勢函數的影響程度,利用層次分析法確定[11]。

1)建立評估矩陣,通過計算求得各參數的重要性,即加權參數a1,a2,a3;

2)參考隨機一致性指標(RI),進行求得參數的一致性檢驗;

3)求出隨機一致性CR。

通過以上步驟,求得不同戰術決策下的取值:

表1 加權系數表

3.2 微分方程求解

在加權系數確定的情況下,采用單步預測的方式取得模型支付函數的最優決策值,即將空戰決策問題轉化為該函數的數學求極值問題[4,11-12]。

例如在確保對抗優勢戰術時:

該函數取得極值時,可以得到最優空戰決策集。因此,

構建Hamiltonian 函數,

根據微分對策極大值原理,支付函數J 和Hamiltonian 函數同時都取得極值,即支付函數的J極值點可通過求出H 極值得到,我方無人機最佳飛行控制量得到。對我方無人機來說H 取得極大值,對敵方無人機來說H 取得極小值。

一般情況下,求解微分對策模型的解析解困難重重,甚至得不到結果。數值求解方法屬于成熟的技術,本文采用梯度法對模型求數值解。

對應伴隨方程:

對應控制方程;

對應狀態方程:

優勢值沿著梯度方向變化最大,所以繼續沿著(ui,vi)為起點,沿著梯度方向求解新的控制向量u,v:

重復迭代上述過程,直到滿足支付函數:

式中,ui,vi即為求得的最優決策動作值。

所得到的微分方程最優解滿足:

式中,tf為結束時間。

根據微分對策求解戰術到動作,根據地面坐標等可以求出前文提到的無人機狀態S=(qr,qb,d,β,Δh,ΔV2,V2,h),即得到戰術到動作的映射關系。

4 結合微分對策的深度強化學習方法實現

本文結合微分對策的深度強化學習的動作選擇分為兩步,第1 步根據狀態選擇戰術,第2 步根據戰術引導機動動作執行。狀態到戰術的映射關系可以用深度強化學習求得,戰術到機動動作的映射關系可以用微分對策來給定。在戰術的設定方式上,根據先驗知識和環境特點設置一些復雜戰術策略。強化學習的結構中添加一層戰術層,通過引入先驗知識,有效加快算法的收斂速度[13-14]。

這里無人機在實時空戰對抗的任一時刻內,根據無人機當前所處的狀態,用Q 學習中動作選擇的方法產生戰術m,然后根據戰術m,依據微分對策求解戰術決策到動作決策,產生動作a,并得到實時環境獎勵r,最后更新Q 值函數[15-16]。

DBN 網絡中,每個戰術對應DBN 的一個輸出結果,將樣本的實際輸出fm(X)擬合為執行動作前的Q 值,即Q 估計值,期望輸出Im擬合為執行動作之后的Q 值,即Q 現實值,TD 誤差即為:Im-fm(X),反向傳播對BP 網絡的權值進行更新,以及對RBM的權重微調。

?結合微分對策的深度強化學習算法流程1:初始化強化學習參數以及DBN 神經網絡的權重初始化2:采用CD-k 算法進行RBM 的無監督預訓練,離線確定其權重以及偏置3:隨機選擇一個狀態St=(qr,qb,d,β,Δh,ΔV2,V2,h),作為網絡輸入4:計算該狀態下所有戰術對應的Q 估計值5:采用ε-greedy 策略,選擇戰術m 6:微分對策求解戰術到動作,得到動作ar 7:執行ar,計算St+1,求解獎勵值R(St+1)8:計算采取動作之后的Q 現實值,得到誤差9:更新網絡權重10:St→St+1,t→t+1 11:判斷無人機是否進入攻擊狀態、被攻擊狀態或觸碰邊界,否則繼續循環步驟3

5 仿真研究

以敵我無人機1V1 空戰對抗為背景,建立200 km*200 km*15 km 的空戰空間環境,Q 學習速度為0.3,折扣因子為0.9。考慮到無人機裝備、武器差異的影響,設置仿真雙方無人機性能處于相同空戰水平,對抗過程中敵方無人機的戰術以固定的想定為背景,采用預先規劃的戰術進行機動、進攻和規避,我方無人機依據本文確定的戰術決策方法進行決策。雙方對抗軌跡圖如圖5 所示。

圖5 空戰模擬圖

根據給出的決策結果看出,敵機我機空戰過程中,敵方無人機被發現后,通過采用盤旋的方式擺脫我方無人機的追擊,我方無人機對態勢進行感知計算,快速追擊高速目標,通過微分對策快速計算相應的機動參數,緊追其后以創造機會,經過對抗,我方無人機通過快速計算優勢鎖定敵方無人機,對抗結束。通過實驗統計,決策平均時間為18.937 ms,滿足實時性的要求,且高于同類算法,該決策方法有效可行。

6 結論

針對無人機空戰決策,本文提出結合微分對策的深度強化學習方法,實現戰術決策到機動決策,在1V1 空戰模擬中,我方無人機根據敵方無人機態勢即時做出合理有效的機動動作,并取得優勢。

猜你喜歡
動作對策
診錯因 知對策
下一個動作
對策
面對新高考的選擇、困惑及對策
關于職工隊伍穩定的認識和對策
活力(2019年22期)2019-03-16 12:47:28
防治“老慢支”有對策
動作描寫要具體
畫動作
讓動作“活”起來
動作描寫不可少
主站蜘蛛池模板: a毛片在线免费观看| 99re视频在线| 被公侵犯人妻少妇一区二区三区| 精品无码国产自产野外拍在线| 无码免费试看| 日本国产精品| 婷婷色中文| 青草娱乐极品免费视频| 日韩AV手机在线观看蜜芽| 看国产毛片| 无码久看视频| 亚洲天堂网在线视频| 免费国产小视频在线观看| 国产在线精品香蕉麻豆| 日韩在线视频网站| 久久久久九九精品影院| 亚洲欧美h| 国产精品99久久久| 亚洲aaa视频| 国产成人91精品| 香蕉久久永久视频| julia中文字幕久久亚洲| 国产精品手机视频一区二区| 色久综合在线| 亚洲欧洲日产国产无码AV| 无码日韩精品91超碰| 在线毛片网站| A级毛片无码久久精品免费| 精品欧美一区二区三区在线| 亚洲精品不卡午夜精品| 欧美69视频在线| 国内99精品激情视频精品| 欧美色视频日本| 欧美另类第一页| 国产精品香蕉在线| 亚洲欧美成人综合| 国产成人亚洲欧美激情| 国产不卡一级毛片视频| 欧美国产综合色视频| 一级毛片无毒不卡直接观看| 国产91高清视频| 精品人妻一区无码视频| 色综合中文综合网| 成人国产精品2021| 日韩成人在线网站| 在线观看国产精品第一区免费| 波多野衣结在线精品二区| 欧美亚洲欧美| 扒开粉嫩的小缝隙喷白浆视频| 54pao国产成人免费视频| 综合成人国产| 在线无码九区| 亚洲成人精品久久| 久久精品人人做人人爽电影蜜月| 在线五月婷婷| 国产亚洲精品yxsp| 午夜福利无码一区二区| 国产爽歪歪免费视频在线观看 | 亚洲精品卡2卡3卡4卡5卡区| 亚洲精品第五页| 亚洲成在线观看| 蜜芽国产尤物av尤物在线看| 国产精品分类视频分类一区| 成人无码一区二区三区视频在线观看| 亚洲欧美另类久久久精品播放的| 一级一级一片免费| 亚洲男人的天堂在线观看| 国产性猛交XXXX免费看| 国产小视频a在线观看| 日本精品视频一区二区| 国产在线精品99一区不卡| 亚洲最新在线| 久久精品国产在热久久2019| 麻豆国产在线观看一区二区| 久久伊人色| 极品国产在线| av色爱 天堂网| 综合色在线| 97在线观看视频免费| 亚洲国产无码有码| 韩日午夜在线资源一区二区| 国产精品妖精视频|