999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度遷移強化學習的無人機投放自主引導機動控制算法

2023-12-09 08:08:30張堃李珂鄒杰栗鳴李陽
航空科學技術 2023年11期
關鍵詞:動作

張堃,李珂,鄒杰,栗鳴,李陽

1.西北工業大學,陜西 西安 710072

2.洛陽電光設備研究所 空基信息感知與融合全國重點實驗室,河南 洛陽 471000

3.西安機電信息技術研究所,陜西 西安 710065

4.航空工業沈陽飛機設計研究所,遼寧 沈陽 110035

隨著無人機技術和計算機技術的迅猛發展,無人機的性能得到了快速的提升,它的功能也不斷得到完善,其被廣泛應用到區域搜索、目標監視/跟蹤、精確投放等各種任務場景中,無人機的智能化成為當前及未來很長一段時間的研究熱點[1]。對于無人機在實際應用場景中存在的問題,各國的無人機專家學者專注于預防人為損失、提升平臺自主飛行能力及減少人為干預的次數[2-3]。針對無人機投放引導過程中的機動控制問題,有專家學者提出無人機投放自主引導機動控制算法,以引導無人機規避飛行過程中存在的雷達探測等威脅,完成對投放目標點的瞄準。

針對無人機在精確投放任務中的自主引導問題,相關領域專家學者提出了航路規劃算法和軌跡跟蹤控制技術相結合的算法模型。一般使用直覺模糊博弈[4-5]、遺傳算法[6]、動態貝葉斯網絡[7]、影響圖[8]、滾動時域[9-10],以及近似動態規劃[11]等方法,實現固定區域內的航路規劃。但上述方法都存在一些局限性,如直覺模糊博弈、影響圖等都要求對自主引導問題的模型構建清晰而完整,這使得構建自主引導問題模型的過程十分復雜;動態貝葉斯網絡對未知環境的適應能力差,要求對問題有全面的了解;近似動態規劃則要求有清晰的狀態轉移模型;對于在線問題的解決,采用遺傳算法等優化類方法,效率往往并不高。在執行階段,為使無人機具有相應的機動,還需要設計軌跡追蹤控制器。這些因素共同降低了無人機航路引導的自主性,增加了未來無人機智能化作戰需求的困難。

隨著人工智能技術的飛速發展,各種人工智能算法被應用于解決無人機投放引導問題。其中,因為深度強化學習方法[12]具備端對端特性,在解決無人機投放自主引導機動控制問題時具有一定的優勢;同時由于無人機投放引導問題的復雜性,引入遷移學習方法[13],將領域知識融入模型中,將復雜問題拆解為若干子問題。因此,本文基于深度遷移強化,提出無人機投放自主引導機動控制算法。首先,建立基于馬爾可夫決策過程的無人機投放引導機動決策模型,并設計基于回報重塑的無人機投放引導機動決策評價模型;在此基礎上,構建基于強化學習的無人機投放自主引導機動控制策略學習方法,擬合基于深度神經網絡的無人機投放自主引導機動控制策略網絡和評估網絡。其次,建立基于遷移學習和課程學習的無人機投放引導機動策略學習機制。最后,仿真實現無人機投放自主引導飛行,驗證本文所提算法的有效性。

1 基于馬爾可夫決策過程的無人機投放引導機動決策模型

1.1 馬爾可夫決策過程

馬爾可夫決策過程是離散事件動態系統中一個重要的狀態分析工具[14],其特征在于決策者在一個特定的時間尺度上,通過對帶有馬爾可夫特性的隨機動態系統進行周期或連續的觀測,并按一定的順序做出相應的決策。馬爾可夫決策過程可通過五元組來描述。

馬爾可夫決策過程的執行過程如圖1 所示,s0為系統的初始狀態,決策者選取動作執行a0,系統按照轉移概率P( ?|s0,a0)向下一個狀態s1轉移,如此迭代循環。

圖1 馬爾可夫決策過程執行過程Fig.1 The execution processes of Markov decision processes model

在決策過程中,決策者可獲得(r0,r1,…)的即時回報。此過程中,決策者會受外部收益的激勵,在決策中不斷地調整自身決策策略,以使自身收益最大化。決策者所采取的策略確定為a= π(s),馬爾可夫理論效用函數(在系統狀態s∈S下,利用決策者所采取的策略π 所能夠得到的期望回報)定義為v(s, π),因此,如果此刻的策略是最優策略,應該滿足式(1)

如式(2)所示,針對無人機航路自動導向機動控制問題的特征,構建效用函數無限階段折扣模型

式中,γ∈[0, 1]為未來報酬折扣因子,R(s,a)為回報函數。

1.2 無人機投放自主引導問題

針對無人機投放自主引導問題,基于三自由度運動方程構造無人機運動模型,通過對無人機的方位過載進行控制,可以在任務范圍內進行動態規避,同時向目標點自主引導。圖2所示為無人機投放自主引導任務示意圖。

圖2 自主引導任務示意圖Fig.2 The schematic diagram of autonomous guidance mission

設無人機速度矢量為VUAV,無人機方位為ψUAV,任務區域內第i個威脅的位置為,其影響范圍為半徑的圓形區域,目標分布在以為中心、為半徑的圓形區域內。無人機的引導目標為:在規避任務區域內所有威脅的前提下,飛入目標點所在區域并完成對目標點的瞄準。

1.3 無人機投放自主引導狀態空間/動作空間

針對無人機投放自主引導問題,基于馬爾可夫決策過程的定義,設計無人機投放自主引導狀態空間和動作空間。

1.3.1 狀態空間

圖3所示為無人機投放自主引導威脅感知示意圖。在無人機投放自主引導過程中,根據無人機對周圍環境威脅實時感知信息,建立如下所示的狀態空間

圖3 自主引導威脅感知示意圖Fig.3 The schematic diagram of threat perception for autonomous guidance

式中,vUAV為無人機速度;HUAV為無人機高度;為無人機正前方威脅距離為無人機正前方威脅相對方位;為無人機左前方威脅距離為無人機左前方威脅相對方位為無人機右前方威脅距離為無人機右前方威脅相對方位為目標點相對無人機的水平距離;為目標點相對無人機的方位;ABomb為當前態勢下無人機投放物水平射程。

1.3.2 動作空間

針對無人機投放自主引導問題,建立了如下所示的動作空間

式中,NT為無人機的轉向過載;T表示轉向。

1.4 無人機投放自主引導機動決策評價模型

針對無人機投放自主引導任務,基于回報重塑方法和航空火力控制理論,遷移專家經驗輔助解決火控問題,構建無人機投放自主引導機動決策評價模型,如式(5)所示

式中,R(s,a)為回報函數,γ為折扣參數,Φ(s)為狀態勢函數。Φ(s)定義如式(6)所示

式中,Uatt(s)為目標點吸引勢函數;Urep(s)為威脅排斥勢函數。式(7)所示為Uatt(s)的定義

式中,katt為吸引勢權重因子為目標點相對無人機最大水平距離。Urep(s)定義如式(8)所示

式中,u( ?)為無人機威脅影響勢函數;sf、sl和sr分別為無人機正前方、左前方和右前方威脅狀態。u( ?)定義如式(9)所示

式中,krep為威脅排斥勢權重因子;為威脅感知最遠距離;為當前感知威脅的水平距離。

2 基于深度遷移強化學習的無人機投放自主引導機動控制算法

2.1 無人機投放自主引導機動決策框架

基于Actor-Critic架構的深度確定性策略梯度方法[15]是一種無模型且異策略的深度強化學習方法。該方法能夠很好地處理連續性控制問題,圖4 所示為深度確定性策略梯度(DDPG)方法組織結構圖。

圖4 DDPG方法組織結構圖Fig.4 The schematic diagram of DDPG method

該算法主要由決策網絡μ(s;θμ)、評估網絡Q(s,a;θQ)、目標決策網絡μ′(s;θμ′)和目標評估網絡Q′(s,a;θQ′) 共4個網絡與回放經驗集共D5部分組成,在學習過程中,通過專家經驗收集歷史數據建立經驗庫,并使用強化學習算法對經驗進行學習和優化。在開始階段,通過結合加入噪聲的當前環境狀態,行為網絡選擇執行對應的動作,接著將此刻的系統狀態、決策者的行動動作、決策者獲得的回報收益以及之后的系統狀態數據儲存在經驗存儲區中,之后,行為網絡從回放經驗集中隨機少量地抽取部分樣本,然后使用梯度下降法等優化算法來更新行為網絡與評判網絡的參數,最后平滑更新目標網絡參數。

2.2 基于深度神經網絡的無人機投放自主引導機動控制策略模型

Actor-Critic的深度強化學習結構如圖5所示。在強化學習訓練時,動態演化環境的作用是產生系統狀態s∈S,決策網絡以此為基礎,生成動作a∈A(s),在整個訓練中,采用TD-error[16]優化評估網絡參數,決策網絡參數優化則是通過在動態演化環境中進行迭代,依據maxQ(s,a)原則獲取最優策略。

圖5 Actor-Critic深度強化學習結構圖Fig.5 The schematic diagram of Actor-Critic deepreinforcement learning

基于深度神經網絡設計無人機航路自動引導機動控制決策算法中的決策網絡和評估網絡,從而更好地模擬無人機的飛行狀態和“端到端”的無人機機動決策。

2.2.1 決策網絡

決策網絡μ(s;θμ)主要是基于此刻的系統狀態來進行實時的判斷并做出決策,它的網絡輸入為此刻的系統狀態s∈S,而網絡輸出則是系統根據此刻狀態而應該采取的行動動作a∈A(s)。按照上文中對無人機運動狀態空間的定義,用dim(S)表示網絡輸入神經元數量,dim(A)表示網絡的輸出神經元數量,圖6 所示為決策網絡組織結構圖。

圖6 決策網絡組織結構圖Fig.6 The schematic diagram of decision network

根據決策網絡的定義,決策網絡輸入層由11個單元組成,與狀態空間的維度相同;隱藏層全部是全連接的線性層,分別由20、40、40 和40 個修正線性單元組成;輸出層也是全連接的線性層,具有一個單元,與動作空間維度相同。

2.2.2 評估網絡

評估網絡的功能是對此刻決策的行動動作a∈A(s)的最優程度進行評估,它的網絡輸入與輸出分別定義為[s,a]和Q(s,a)。圖7所示為評估網絡組織結構圖。

圖7 評估網絡組織結構圖Fig.7 The schematic diagram of critic network

根據評估網絡的定義,評估網絡輸入層由12個單元組成,與狀態空間和動作空間的維度相同;隱藏層全部是全連接的線性層,分別由20、40、40 和40 個修正線性單元組成;輸出層也是全連接的線性層,具有一個單元,輸出狀態和動作對應的Q值。

根據前文所定義的狀態空間與動作空間,在將狀態s∈S和動作a∈A(s)歸一化之后,將其輸入網絡。在DDPG 中,目標決策網絡μ′ (s;θμ′) 與目標評估網絡Q′(s,a;θQ′)的結構與μ(s;θμ)和Q(s,a;θQ)相同。

2.2.3 回放經驗集

回放經驗集D記錄了算法與環境交互產生的歷史數據,從D中重新隨機抽樣,打破序列相關性并重復利用歷史經驗,生成決策網絡和評估網絡的訓練樣本集,完成決策網絡和評估網絡的訓練。訓練樣本與當前狀態s∈S、下一時刻狀態s′∈S、動作a∈A(s)和回報r=R(s,a)相關。

2.3 基于DDPG的無人機投放自主引導機動控制算法

在式(2)基礎上,通過分析馬爾可夫決策過程理論效用函數,得到了相應的描述狀態—動作評價函數,如式(10)所示

式(10)為狀態動作值函數,因此,最優決策可以定義為

式(11)表示在系統狀態為st∈S時,最優決策為at。因此,可通過求解Q(s,a)的方法來得到最優策略。根據式(2)及式(10),可得到Q-Learning方法迭代公式,如式(12)所示

式中,s∈S為系統當前狀態;a∈A(s)為當前決策結果;r=R(s,a)為當前回報;s′∈S為系統下一時刻狀態。在此基礎上,得到Q(s,a;θQ)網絡訓練損失函數,如式(13)所示

進而可得到Q(s,a;θQ)網絡的損失函數的梯度,如式(14)所示

在實際訓練中,可以根據式(13)不斷優化改變Q(s,a;θQ)的網絡參數θQ。

Policy Gradient 算法[17]作為一種以策略為導向的強化學習方法,與值函數方法相比,具有可以直接求解最優策略的優勢,而DDPG 的決策網絡正是源自此算法。根據DPG定理,直接獲得決策網絡μ(s;θμ)的優化目標函數v(s,μ)的梯度方程,如式(15)所示

在訓練過程中,通過式(15)優化決策網絡μ(s;θμ)的參數θμ。由于?aQ(s,a;θQ)為常量,因此,在實際訓練中算法對參數θμ的優化如式(16)所示

另外,DDPG 還定義了用于存放先前數據的回放經驗集D,通過使用D中的歷史數據,訓練決策網絡和評價網絡,經驗集D的元素定義如式(17)所示

式中,s∈S為系統當前狀態;a∈A(s)為當前決策結果;r=R(s,a)為當前回報;s′∈S為系統下一時刻狀態。

對于目標網絡μ′(s;θμ′)和Q′(s,a;θQ′)的參數,本文采用平滑更新的方式進行更新,如式(18)所示

式中,τ∈(0, 1)為目標網絡更新參數。

在訓練過程中,因為確定性策略的動作探索性不強,所以采取了將噪聲附加在決策網絡輸出上來處理該問題,如式(19)所示

式中,N(t)為Ornstein-Uhlenbeck過程[18]。

在上文所述的基礎上,本文給出的一種基于DDPG 的無人機航路自主引導機動控制決策算法的訓練流程如下:(1) 預置回放經驗集D;(2) 預置決策網絡μ(s;θμ)和目標決策網絡μ′(s;θμ′),評價網絡Q(s,a;θQ)和目標評價網絡Q′(s,a;θQ′);(3) 預置Ornstein-Uhlenbeck 的過程N(t),采集無人機飛行模擬環境系統的初始狀態s0;(4) 基于at=μ(st;θμ)+N(t)產生行動動作;(5) 在無人機飛行模擬環境系統中執行行動動作at,得到反饋回報收益rt;(6) 獲取后一時間段無人機飛行模擬環境系統的狀態st+1,并在D中記錄當前數據(st,at,rt,st+1);(7) 根據式(14),更新參數θQ;(8)根據式(16),更新參數θμ;(9)根據式(18),更新目標網絡參數θQ′和θμ′;(10)重復第(4)~(9)步至t=T;(11)重復第(3)~(10)步M次至訓練結束。

按照上述流程進行訓練,當訓練結束后,就能夠獲得對應的最優決策網絡μ(s;θμ),此流程中,決策結果可直接被用作決策網絡的輸出,式(20)所示為動作生成公式

3 仿真驗證與分析

給定無人機飛行試驗的空域范圍為100km×100km 的正方形區域,對模型進行訓練的周期數為M= 1000,一個循環周期內最大決策時刻數目T= 500。通過建立隨機的無人機初始狀態,設置不同的目標點位置和無人機初始航向,實現無人機自主引導和瞄準。

圖8~圖11 所示為部分仿真試驗的可視化結果。圖中橫軸East表示正東方向,縱軸North表示正北方向。紅色實線為無人機飛行軌跡,紅色虛線為瞄準線,紅色實心點為無人機起點,紅色“X”為無人機終點,藍色“+”為目標點,綠色點畫線為威脅影響范圍,綠色虛線為威脅截止區域,綠色“X”為威脅位置。

圖8 無人機投放自主引導試驗1結果圖Fig.8 The visualization of autonomous guidance of UAV dropping experiment 1

圖9 無人機投放自主引導試驗2結果圖Fig.9 The visualization of autonomous guidance of UAV dropping experiment 2

圖10 無人機投放自主引導試驗3結果圖Fig.10 The visualization of autonomous guidance of UAV dropping experiment 3

圖11 無人機投放自主引導試驗4結果圖Fig.11 The visualization of autonomous guidance of UAV dropping experiment 4

仿真試驗過程中,目標距離初始生成無人機約為80km,無人機最大過載為5,任務區域內包含三個威脅。無人機在任意位置、姿態下,能夠規避任務區域內威脅,快速抵達投放目標點附近,并完成瞄準。

仿真試驗過程中,將決策網絡μ(s;θμ)與目標決策網絡μ′(s;θμ′)、評價網絡Q(s,a;θQ) 與目標評價網絡Q′(s,a;θQ′)作為整體進行訓練。輸入飛機初始狀態s∈S到決策網絡,得到輸出,繼續將輸出輸入評價網絡,得到評估結果,根據評估結果與預期目標計算損失函數Q(s,a;θQ),更新參數θμ,優化網絡。

從圖中可看出,無人機在飛行過程中,面對不同位置的敵機威脅,從起始位置到結束位置約80km,通過控制無人機轉向過載實現威脅規避,并向目標點飛行;到達目標點附近后,控制無人機轉向過載,能夠消除無人機瞄準偏差,完成對目標點的瞄準。

4 結論

本文針對無人機投放自主引導機動控制問題,提出了基于深度遷移強化學習的無人機投放自主引導機動控制算法,提煉了無人機投放自主引導機動控制問題,采用馬爾可夫決策過程構建了無人機投放引導機動決策模型,設計了無人機投放引導狀態空間、動作空間和改進的回報函數模型,實現了無人機投放自主引導仿真環境,開展了無人機投放自主引導機動控制算法的仿真訓練,并進行了大量仿真驗證。結果表明了無人機投放自主引導機動控制算法的有效性,證明了本文所提算法能夠有效提高無人機執行投放引導任務的自主性。

猜你喜歡
動作
動作不可少(下)
巧借動作寫友愛
下一個動作
動作描寫要具體
畫動作
讓動作“活”起來
動作描寫不可少
非同一般的吃飯動作
動作喜劇電影周
電影故事(2015年30期)2015-02-27 09:03:12
神奇的手
主站蜘蛛池模板: 日韩精品视频久久| 国产免费久久精品44| 日韩一级二级三级| 青青久视频| 尤物成AV人片在线观看| 欧美精品黑人粗大| 国产一区自拍视频| 99re经典视频在线| 久久久久中文字幕精品视频| 无码精品国产VA在线观看DVD | 中国国产高清免费AV片| 色爽网免费视频| 亚洲国产精品一区二区第一页免 | 播五月综合| 色香蕉网站| 亚洲第一精品福利| 中文字幕色在线| 欧美成人精品一级在线观看| 日韩精品免费一线在线观看| аv天堂最新中文在线| 国产乱人伦AV在线A| 超清无码一区二区三区| 国产成人乱无码视频| 天天干天天色综合网| 女人18一级毛片免费观看 | 动漫精品中文字幕无码| 高潮毛片无遮挡高清视频播放| 欧美成人一级| 亚洲中文字幕精品| 中文无码毛片又爽又刺激| 久青草网站| 国产探花在线视频| 国产高潮视频在线观看| 一区二区三区毛片无码| 精品国产黑色丝袜高跟鞋 | 亚洲一区国色天香| 亚洲高清日韩heyzo| 日本午夜视频在线观看| 亚洲国产成人自拍| 精品一区二区三区视频免费观看| 茄子视频毛片免费观看| 亚洲狼网站狼狼鲁亚洲下载| 国产丝袜啪啪| 日韩在线影院| 国产真实乱人视频| 国产欧美高清| 久夜色精品国产噜噜| 亚洲一区免费看| 久久黄色毛片| 91国内在线观看| 美女国产在线| av一区二区人妻无码| 91精品伊人久久大香线蕉| 国产麻豆永久视频| 国产成人高清在线精品| 91亚洲免费视频| 国产成人AV综合久久| 97久久超碰极品视觉盛宴| 亚洲日韩精品伊甸| 国产欧美性爱网| 国产一区二区精品高清在线观看| a毛片在线| 欧美区日韩区| 国产真实乱了在线播放| 99人体免费视频| 欧美色亚洲| 四虎永久免费在线| 久久久久久久久亚洲精品| 深爱婷婷激情网| 另类重口100页在线播放| 国产精品无码一区二区桃花视频| 亚洲人成网站日本片| 亚洲精品人成网线在线 | 国产欧美精品一区aⅴ影院| 国产亚洲男人的天堂在线观看 | a毛片免费在线观看| 激情综合网址| 国产精品美女网站| 国产女人爽到高潮的免费视频| 中文字幕久久亚洲一区| 日韩在线视频网站| 亚洲综合18p|