999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于態勢認知的無人機集群圍捕方法

2021-03-26 04:02:04吳子沉胡斌
北京航空航天大學學報 2021年2期
關鍵詞:環境策略

吳子沉,胡斌

(空軍工程大學 航空工程學院,西安710038)

無人機集群作為一種新的應用樣式,具有極大的發展前景[1]。無人機集群對目標的追捕問題是一種典型的應用場景。

針對無人機集群圍捕問題,目前大多數研究均基于分布式控制[2],即通過將集群圍捕問題轉換為一致性問題,再設計分布式算法使得集群向目標位置收斂,實現圍捕的效果。黃天云等[3]提出了一種基于松散偏好規則的自組織方法,通過分解圍捕行為,利用松散偏好規則使個體機器人自發形成理想的圍捕隊形,并運用Lyapunov穩定性定理證明系統的穩定性。李瑞珍等[4]提出了一種基于動態圍捕點的多機器人協同圍捕策略,根據目標位置設置動態圍捕點,并利用任務分配方法為圍捕機器人分配最佳圍捕點,綜合考慮圍捕路徑損耗和包圍效果,計算圍捕機器人的最優航向角,實現集群對目標的圍捕。張子迎等[5]提出一種多層環狀伏擊圍捕模型,并依據能量均衡原則,對系統能量消耗進行平衡。Uehara等[6]針對有障礙的復雜環境下集群圍捕問題,改進了粒子群算法,使得圍捕者能夠在規避障礙物的情況下實現對目標的圍捕。

近年來,部分學者探索了通過強化學習來解決集群對目標的圍捕問題[7-10]。Liu等[11]通過對圍捕復雜任務進行分解,將學習過程分為高級學習和低級學習,并使兩部分學習并行進行,完成了圍捕問題分層次強化學習設計。Bilgin和Kadioglu-Urtis[12]結合Q學習(Q-learning)和資格痕跡(Eligibility Traces),對追捕者進行并行訓練,并為每個追捕者維護一個獨立的Q值表(Q-table),完成了集群內部存在交互的獨立智能體學習。Awheda和Schwartz[13]提出了將卡爾曼濾波與強化學習結合起來的卡爾曼濾波模糊A-C算法,嘗試解決在追捕者和目標訓練環境不一樣的情況下如何實現成功圍捕的問題。Lowe等[14]于2017年提出了MADDPG(Multi-Agent Deep Deterministic Policy Gradient)算法,探索了多智能體領域的強化學習,該算法通過智能體之間信息的交互,使得每個智能體的強化學習都考慮到其他智能體的動作策略,取得了顯著的效果,但該算法訓練時需要知道對手智能體的逃逸策略,這與大多情景不符。

以上研究在環境屬性確定的情況下能夠有效解決集群圍捕問題,但是在新環境下,往往圍捕效果較差。基于此,本文設計了一種基于態勢認知的無人機集群圍捕方法,嘗試解決不同環境下的圍捕策略問題。首先,基于對圍捕行為的分析,將圍捕過程離散化;然后,利用深度Q 神經網絡(Deep Q-network,DQN)方法[15-17],解決固定時間窗口長度下的圍捕策略生成問題;最后,通過建立狀態-策略知識庫,實現面向圍捕問題的認知發育[18],基于態勢識別,完成圍捕策略的快速選取。仿真結果表明,在確定環境情況下,所設計的基于DQN的圍捕發育方法能夠解決圍捕問題,給出圍捕策略,提出的基于態勢認知的圍捕方法能夠實現知識庫的增量發育,有效應對新環境下的圍捕問題。

1 問題描述

設戰場上存在N架無人機組成的集群,對一個運動的目標進行追捕,如圖1所示。

用U=(u1,u2,…,uN)表示追捕無人機狀態矩陣,ui表示第i架無人機的狀態矢量,用T表示目標狀態矢量。設追捕無人機的速度為Vp,目標的速度為Vt,Dp表示追捕無人機的探測距離,Dt表示目標的探測距離,通常設定Dp>Dt。

目標與追捕無人機均在戰場上運動,追捕無人機的目的是探測到目標的位置信息,再通過協作在目標周圍設立包圍圈,實現對目標的圍捕。當其中一架無人機獲得目標的位置信息后,視為其他追捕無人機獲得目標的位置信息。目標初始時刻在戰場隨機運動,一旦發現追捕無人機后,會按照一定的逃離策略進行逃逸。

本文假設當3架及以上的追捕無人機在目標周圍設立包圍圈,且包圍的無人機與目標的最大距離小于目標的探測距離,即視為圍捕成功,無人機亦可依據障礙物設置包圍圈,如圖2所示。

圖1 圍捕問題示意圖Fig.1 Schematic of rounding up problem

圖2 圍捕成功示意圖Fig.2 Schematic of successful rounding up

本文考慮2D仿真環境下的集群圍捕問題。將無人機及目標看作質點,不考慮無人機及目標的姿態變化,可將無人機及目標的運動模型表述為

式中:(x,y)為當前時刻位置;(vx,vy)為當前時刻速度。

2 基于DQN的圍捕策略發育

根據無人機集群圍捕的特點,將圍捕動作分解為:右側包抄(R)、左側包抄(L)、逼進(F)、后退(R)、靜止(S)五種,記為

考慮時間窗口長度為τ的圍捕效果,將圍捕策略表示為τ時刻內各無人機動作的有序集合,即

式中:

其中:at為t時刻各無人機選取的動作;Ai為從Actions集合中選取的具體動作。

假設圍捕無人機數目為N,則一個時間窗口內,共有5Nτ種圍捕策略可供選擇。假設考慮僅3架無人機時間窗口長度為5 s的圍捕效果,則圍捕策略的總數也多達3×1010。因此,為解決具體環境下圍捕策略的發育問題,考慮使用DQN進行策略的選擇。

2.1 狀 態

在無人機集群圍捕過程中,可將狀態看作是由戰場本身存在的障礙物、各無人機及目標構成。

假設環境中第k個障礙物為以(xk,yk)為圓心、以rk為半徑的圓,只考慮靜止的障礙,則障礙物可以描述為

式中:O為環境中n個障礙物的集合。

無人機集群通過觀察可獲得目標的位置、速度的觀測值,集群內部通過相互通信,可以獲得各自的位置、速度信息,將t時刻目標狀態描述為

將t時刻集群的狀態描述為

式中:

將狀態統一描述為

2.2 獎勵函數設定

DQN根據獎勵值來調整網絡權重,實現對網絡的更新。獎勵函數的設定極大地影響到訓練的效果。

集群對目標的圍捕成功與否是以無人機到目標的距離及相對角度判斷的,因此,設置獎勵函數時,需充分考慮這2個因素。

將無人機i到目標j的距離用dij表示,當?dij>Dp時,無人機集群尚未發現目標;當Dt<dij≤Dp時,表示無人機i發現了目標j,且自身未暴露;當Dt≥dij時,表示目標j已經發現了無人機i,此時如果尚未形成包圍圈,目標j會主動逃逸。

通過距離建立獎勵函數:

理想的圍捕隊形通常是多無人機均勻分布在以目標為圓心、以圍捕半徑為圓的圓上[4],以3架無人機組成的集群為例,如圖3所示。

圖3 圍捕隊形示意Fig.3 Schematic of rounding up formation

設無人機i與周圍2架無人機分別以目標為頂點的角度為ψ和φ,則ψ*=φ*=2π/N為最優的角度,可以通過角度建立獎勵函數:

此外,需在獎勵函數中加入避障項,以使得無人機能夠主動規避環境中的障礙物:

式中:rOb為獎勵函數的避障相;dmin為無人機距離最近障礙物的距離。

綜上,將獎勵函數設置為

式中:α、β和χ分別為距離項、隊形項和避障項的權重,權重的確定通常需要實際訓練來調整;f定義為當圍捕成功,無人機會獲得+10的獎勵。

2.3 基于DQN的策略發育

DQN[19]通過構建深度神經網絡,完成對Q函數的擬合,解決了傳統Q-learning方法中狀態量太多導致的維度災難問題。本文采用文獻[19]中提出的DQN方法,實現多維度狀態到低維度動作的映射。

為獲取圍捕策略,在每組訓練過程中,將最終獲得獎勵值最大的一次訓練的每一步以(St,at,rt)的形式儲存,在所有訓練結束后,針對儲存的動作從t=0時刻進行一次長度為τ的采樣,并進行m次長度為τ的隨機采樣。設采樣的時刻為:0,t1,t2,…,tm,對應的采樣點狀態為:S0,St1,St2,…,Stm,可 獲 得m+1次 策 略:π0,π1,…,πm。

3 基于態勢認知的圍捕決策

得益于人腦強大的認知能力,飛行員在面對復雜多變的動態環境時,能夠迅速地做出有利于戰局的決策。仿照生物認知機制去構建具有學習和經驗的增量式發育算法是解決一類復雜問題的有效途徑,文獻[18]受此啟發,提出了包括認知決策、制導規劃和執行控制3個層級的無人機認知控制系統結構,并在復雜動態環境下的多威脅無人機防碰撞問題中驗證了有效性。本文在此基礎上提出了一種基于場景認知的圍捕決策。

如圖4所示,在基本的圍捕算法之上,構建包含狀態-策略的知識庫。當無人機集群每完成一次圍捕訓練,判斷圍捕方法是否有效,并設立一定的門檻,將有效訓練的圍捕策略存儲到知識庫中,構建圍捕策略知識庫。通過大量仿真訓練,獲得大量的狀態-策略數據,在遇到相似狀態的情況,可以直接調用策略進行圍捕,而不需要重復訓練。

圖4 無人機集群發育結構示意圖Fig.4 Schematic diagram of UAV swarm development structure

3.1 基于認知發育的圍捕

基于認知發育的圍捕流程如圖5所示。

圍捕開始后,無人機集群獲得當前時刻信息,通過態勢認知將當前狀態與知識庫內的狀態信息進行匹配,選擇符合標準的策略進行圍捕,若狀態信息無法匹配,即遇到了新的狀態,則調用第2節中的圍捕發育算法進行圍捕策略發育,以獲得合適的圍捕策略,此次圍捕結束后,將獲得的狀態與相應的圍捕策略加入到狀態-策略知識庫中,實現知識庫的增量發展。

圖5 基于認知發育的圍捕方法Fig.5 A rounding up algorithm based on cognitive development

3.2 態勢認知與策略匹配

圍捕狀態的描述已經在3.1節中給出,下面簡要介紹如何通過對態勢的認知,判斷該狀態是否為已知狀態,并完成對狀態的匹配。

為方便表述,將式(10)中狀態的屬性統一用G表示,共3n+4N+4項,即

為了實現對不同環境-目標模式的區分,以實現后續的分類及匹配工作,以絕對值指數法定義相似度函數:

式中:wi為屬性Gi的權重。

設定C為相似度閾值,當

就認為S與S′為同一模式,否則為不同模式。并取增量判別函數:

作為判斷是否需要將新狀態S′加入狀態-策略知識庫的依據,當S′與已有知識庫中的模式進行匹配時,如果相似度最大值大于閾值,則認為S′為已存在模式,直接調用相應的策略進行圍捕。反之,將S′認為是全新的模式,調用圍捕策略發育算法生成策略,并擴充到知識庫中。

為簡化狀態匹配流程,將相似度閾值分解為

式中:ci對應項Gi的相似度。

比較狀態S和S′的第i項,如果

則認為狀態S和S′的第i項相似。進行狀態匹配時,從G1項開始,從知識庫中依次篩選符合條件的狀態-策略對,最終獲得匹配結果。

4 仿真與分析

為驗證本文方法的有效性,采用文獻[20]中的平臺進行發育訓練。通過隨機生成圍捕環境,建立訓練集,驗證基于態勢認知的發育算法在圍捕問題上的效果。

4.1 訓練集參數設定

取無人機數目N=3,無人機和目標均為直徑是2 m 的圓,設定圍捕環境橫縱坐標范圍為[-25,25]m,無人機和目標的坐標每次均隨機生成,具體參數如表1所示。

記錄圍捕所消耗的時間,并設定圍捕時間步大于100時為圍捕失敗。

訓練集大小為1 000,通過對障礙物屬性的隨機生成,獲得不同的圍捕環境。設定障礙物的生成參數如表2所示。

表1 無人機與目標參數設定Table 1 Parameter setting of UAV and target

表2 障礙物生成參數Table 2 Obstacle generation parameters

4.2 仿真結果

1)仿真實驗1。選取一個隨機生成的環境對所設計的DQN方法進行驗證。

圖6為一次具體的圍捕場景實例。此次圍捕分為3個階段:①無人機與目標距離較遠,互相不知道對方的位置,無人機集群在搜索目標,目標在以隨機的初始航向游走。②目標仍然隨機運動。無人機2發現目標位置,其始終將自身與目標的距離控制在5~10 m之間,無人機1和無人機3則繞過障礙物,向目標前進,以構成圍捕隊形。③無人機3最先進入目標的探測范圍,目標向反方向逃逸。無人機集群已在目標周圍構成三角形,一同向目標趨近完成圍捕。

從圖7中可看出,初始時刻,無人機集群無法有效完成對目標的圍捕。隨著訓練次數增加,無人機集群最終能夠在45步以內完成對目標的圍捕。由此可見,DQN方法對無人機集群圍捕問題是有效的。

2)仿真實驗2。對基于態勢認知的圍捕方法進行訓練,獲得初步的知識庫,再按照訓練集的生成方法,生成一組長度同樣為1 000的新環境,對知識庫的有效性進行了驗證,結果如圖8所示。

圖8表示了隨著對不同圍捕環境的訓練,狀態-策略知識庫中的狀態-策略對也相應地增加,最終由于增量判別函數中閾值的存在,策略數目會穩定在一定的范圍。

從圖9中可看出,大多數場景下,集群都能在45步以內完成圍捕,這表明面對新生成的不同環境,無人機集群能夠迅速完成圍捕任務。

圖6 圍捕實例Fig.6 An example of rounding up

圖9 測試環境下的圍捕結果Fig.9 Rounding up results in test environment

5 結 論

1)設計的基于DQN的圍捕策略發育方法能夠有效解決固定環境下的圍捕問題,給出圍捕策略。

2)提出的基于態勢認知的圍捕方法能夠實現知識庫的增量發育,有效應對新環境下的圍捕問題。

為使本文方法能夠應對更復雜的環境,仍需要優化策略存儲機制及策略的提取機制,滿足實時性要求。

猜你喜歡
環境策略
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
基于“選—練—評”一體化的二輪復習策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
孕期遠離容易致畸的環境
不能改變環境,那就改變心境
我說你做講策略
環境
孕期遠離容易致畸的環境
主站蜘蛛池模板: 在线免费不卡视频| 最新国产网站| 久久青草免费91线频观看不卡| 亚洲水蜜桃久久综合网站 | 免费一级毛片在线观看| 99久视频| 在线人成精品免费视频| 国产免费怡红院视频| 亚洲视频四区| 精品一区二区三区水蜜桃| 青青青国产免费线在| 国产在线一区二区视频| 国产精品成人观看视频国产| 国产av一码二码三码无码| 波多野结衣的av一区二区三区| 亚洲av日韩av制服丝袜| A级全黄试看30分钟小视频| 久久 午夜福利 张柏芝| 国产成a人片在线播放| 青青久久91| 国产成人1024精品| 亚洲美女AV免费一区| 素人激情视频福利| 国产原创第一页在线观看| 免费观看国产小粉嫩喷水| 黄色网在线免费观看| 国产成人久视频免费| 久久综合色88| 国产成人综合网在线观看| 国产xxxxx免费视频| 国产麻豆永久视频| 国产极品美女在线观看| 四虎永久免费地址在线网站 | 亚洲妓女综合网995久久 | 国产精品久久自在自线观看| 国产在线精彩视频论坛| 亚洲欧美不卡| 中文字幕调教一区二区视频| 四虎亚洲国产成人久久精品| 久久99这里精品8国产| 日本91在线| 亚洲最大情网站在线观看 | 久久天天躁狠狠躁夜夜躁| 久精品色妇丰满人妻| 亚洲国产欧洲精品路线久久| 天天色综网| 亚洲成人一区二区三区| 中文国产成人精品久久一| 十八禁美女裸体网站| 亚洲自拍另类| 免费高清毛片| h网址在线观看| 91福利在线观看视频| 日韩一区二区三免费高清 | 老司机久久精品视频| 国产欧美在线| 久久国产精品嫖妓| 亚洲成人在线免费| 一本大道AV人久久综合| 欧美激情福利| 国产91精品最新在线播放| 伦精品一区二区三区视频| 欧美丝袜高跟鞋一区二区 | 青青草国产在线视频| 在线无码av一区二区三区| 久久亚洲国产最新网站| a毛片免费观看| 99久久国产精品无码| 国产激情第一页| 天天操天天噜| 久久精品波多野结衣| 午夜人性色福利无码视频在线观看| 国产菊爆视频在线观看| 国产麻豆精品手机在线观看| 99精品在线看| 亚洲男人天堂2020| 欧美日韩成人在线观看| 久久精品国产电影| 视频二区中文无码| 毛片免费高清免费| 亚洲一区国色天香| 国产成人一区二区|