999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

無人機自主引導跟蹤與避障的近端策略優化

2023-02-09 08:34:30胡多修董文瀚解武杰
北京航空航天大學學報 2023年1期
關鍵詞:策略模型

胡多修,董文瀚,解武杰

(1. 空軍工程大學 研究生院,西安 710038; 2. 空軍工程大學 航空工程學院,西安 710038)

多旋翼無人機具有結構簡單、機動性強、安全性高等特點,使其成為計算機技術、智能控制技術、微機電系統傳感器技術等多學科領域融合研究的理想平臺。近年來,隨著計算機視覺和人工智能技術的逐步成熟,基于多旋翼無人機的地面動目標跟蹤成為了研究熱點[1-2]。無人機自主化、智能化的任務處理能力是完成上述研究的關鍵技術,也是當今無人機的發展趨勢[3]。

傳統無人機飛行引導控制方法,如PID 控制、滑??刂?、模型預測控制和自適應控制等,根據控制理論設計軌跡跟蹤控制器,通過對應飛航跡的跟蹤,達到引導無人機飛行的目的。這類控制器通常針對靜態目標或者已知航跡的飛行任務。對于未知運動規律的對地偵察任務機動策略的設計方法,目前主要分為基于對策的決策算法(如矩陣對策法[4]、影響圖法[5])和基于人工智能的決策算法(如遺傳算法[6]、深度學習算法[7]等)。尤其是深度學習在物體分類、物體檢測等任務中表現出了非常優異的性能,因而得到廣泛應用[8-11]。然而上述算法也在一定程度上存在著局限性,如矩陣對策法的算法計算量大、結果精度低,響應圖法建模過程復雜、求解計算量大。智能算法雖然無需復雜的建模過程,但遺傳算法容易陷入局部最優,且算法復雜度高,難以滿足無人機自主決策的實時性要求,深度學習需要已知的飛行數據及投入較高的時間成本。

強化學習是機器學習的一條分支,其本質是智能體感知環境,同時利用評價性的環境反饋信號來優化所采取的行為策略[12]。優化方法主要分為基于值函數的方法和基于策略的方法?;谥岛瘮档姆椒ㄟm用于離散動作空間,策略改進時,需要針對每個狀態行為對求取行為值函數,以便求取最優解,但在無人機機動這類狀態空間很大的連續動作集問題中,基于值函數的方法便無法有效求解了。研究者們提出了基于策略的解決方案,其中,近端策略優化(proximal policy optimization,PPO)算法有效解決了傳統策略梯度算法中學習步長難以確定的問題,并在連續狀態空間上得到了應用[13-15]。

在指定的任務空間內,對于靜態目標而言,實際上解決的是無人機定點引導問題。文獻[16]采用視覺引導的方法,提出一種輕量高效的Onboard-YOLO 算法,實現了無人機的實時精準降落,但未考慮動態靶標的降落問題;文獻[17]利用深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法實現了無人機對動態目標的持續跟蹤,但缺乏無人機高度變化時的機動策略,并且沒有提出對突發情況[18-19](禁飛區、障礙物等)的解決方案。

本文基于深度強化理論,提出無人機自主引導與跟蹤避障的機動控制方法。首先,基于馬爾可夫決策過程(Markov decision process, MDP)理論設計自主引導模型與伴飛避障模型;然后,針對上述模型設計相對應的PPO 網絡結構;最后,通過基于ROS、GAZEBO、PX4 的3D 仿真試驗平臺進行驗證[20-22]。經過試驗分析,本文提出的設計方法具有很高的合理性,有效實現了偵察任務全過程的自主機動。

1 問題描述

無人機在跟蹤地面目標時,初始距離難以掌控,往往需要遠距離自主引導和近距離伴飛跟蹤2 個階段共同完成整個偵察任務。

1.1 遠距離自主引導過程

1.2 近距離伴飛避障過程

當無人機與目標的相對位置關系達到閾值時,偵察任務進入伴飛避障階段。假設禁飛區Onfz的空間位置為Pnfz,最大距離為Dnfz,最小安全距離為dnfz。為了簡化模型,采用禁飛區外截圓模型代替本身的不規則區域,并設置大小可調的安全距離

無人機、目標及障礙物的相對位置關系如圖2所示。這一階段的環境復雜度相對較高,考慮無人機如何在定高空域快速接近目標的同時,更要兼顧禁飛區、障礙物等諸多不利因素對偵察任務造成的威脅,通過設計合理的機動策略,可以實現規避障礙、持續跟蹤的目的。

圖2 障礙物、目標與無人機的空間位置關系Fig. 2 Relative position of obstacle, target and UAV

2 地面目標跟蹤系統建模

2.1 馬爾可夫決策過程模型

圖3 馬爾可夫決策過程模型的描述Fig. 3 Description of Markov decision process model

2.2 基于位置和速度信息的無人機機動模型

2.2.1 自主引導模型

2.3 地面目標隨機運動模型

3 無人機目標跟蹤方法

針對無人機自主偵察任務2 個階段不同的任務需求,設置相互獨立的子任務環境并進行單獨訓練,完整的方法流程如圖4 所示。

圖4 自主引導與伴飛避障流程Fig. 4 Flowchart for autonomous guidance and obstacle avoidance of accompanying flight

強化學習任務中,可以通過建立狀態值函數估計,也可以直接建立策略的估計來解決一系列問題,根據估計方法的不同,強化學習方法可以分為基于值函數的方法、基于策略的方法及行動者-評論家(actor-critic,AC)方法。本文采用的PPO 算法延續了置信域策略優化算法的步長選擇機制[23],借鑒了基于策略的方法的估計思想,繼承了AC 算法中策略與價值雙網絡的經驗[24],算法的基本框架如圖5 所示。

圖5 中,環境為無人機與地面目標構成的任務空間,行動者網絡生成策略,評論家網絡通過估計優勢函數An來評估并改進當前策略,二者都是根據策略梯度進行優化,且行動者網絡參數 θA、評論家網絡的參數 φC的更新公式如下:

圖5 PPO 算法框架Fig. 5 Structure of PPO algorithm

3.1 PPO 訓練框架

其中: ε為超參數。

行動者網絡根據當前狀態sn產生控制信號an,無人機執行動作產生狀態sn+1并 獲得獎勵rn,經驗回放集合將上述信息打包為一組 {sn,an,rn,sn+1}并進行存儲,最終用于更新網絡參數,獲得相對最優策略。

輸入:初始化行動者網絡參數 θ0A、評論家網絡參數 φ0C,初始化記憶庫容量R。

對于每一條軌跡, for episode=1,...,M:初始化環境,得到S1;

對于軌跡中的每一步, forn=1,...,N:根據策略an=πθA(Sn) ,執行行為an; 獲得回報rn和下一個狀態Sn+1; 將狀態轉換序列(Sn,an,rn,Sn+1)存入記憶庫中;更新狀態Sn=Sn+1; 計算優勢函數An;

每執行L步

通過計算策略梯度 ?θALclip(θA),更新行動者網絡參數 θA; 通過計算策略梯度 ?φCL(φC),更新評論家網絡參數 φC;更新參數 θAold=θA;

單條軌跡循環結束

M條軌跡循環結束

輸出:最優網絡參數: θA*及最優策略 π*。

算法中有2 個結構相同的行動者網絡,一個生成待優化的策略 πθA(an|sn), 另一個 πθAold(an|sn)用于收集數據,并通過重要性采樣來估計新策略,更新過程中,PPO 算法利用式(32)的損失函數限制了πθA(an|sn)的更新幅度,確保新舊策略的偏離程度不會太大。

3.2 網絡結構及參數

3.2.1 LSTM 循環神經網絡結構

長短期記憶(long short-term memory,LSTM)網絡應用于輸入數據是序列模式且具有依賴性時的場景[25-26],在目標跟蹤任務中,無人機接收到的數據具有時序性且環境狀態存在上下文關聯,使得LSTM網絡能夠很好地滿足任務需求[27]。將LSTM 與深度強化學習算法相結合并應用于無人機偵察任務,其本質就是將目標運動軌跡等狀態信息作為輸入,當前時刻無人機對應的機動控制信號作為輸出,計算獎勵值,更新網絡參數,并通過自適應優化算法反復迭代得到最終模型。

LSTM 框架[28]的循環單元由4 部分組成:遺忘門f、輸入門i、 輸出門o及 記憶單元C。圖6 展示了LSTM 中每一個單元的計算細節。

圖6 LSTM 結構示意圖Fig. 6 Schematic of LSTM structure

3.2.2 LSTM 循環神經網絡參數設置

1) 數據歸一化處理。為了減小因輸入的特征數據間數量級差別較大引起的模型誤差,并使不同維度的特征在數值上有一定的比較性,需要對輸入的特征參數作歸一化處理。針對無人機目標跟蹤的2 個階段,采用轉換函數將原始特征數據轉換成取值范圍在[ 0,1]之間的數據。其中,對自主引導模型的行動者網絡輸入層參數進行非線性變換,利用 sin(.)、cos(.)函數將 σn進行分解,利用 t anh(.)函 數限定參數 σ˙n、Ln,參數 τn不變。伴飛跟蹤模型的行動者網絡輸入層由PTnAG-PUnAV、Pnnfz-PUnAV及VnTAG-VnUAV通過矢量分解而來,對輸入層參數作線性變換,轉換函數如下:

式中:X為特征數據;X*為歸一化后的特征數據。

自主引導模型與伴飛跟蹤模型的行動者網絡輸出無人機速度控制信號,且均采用 tanh(.)函數實現輸入量與輸出量的歸一化。

評論家網絡用于計算優勢函數以評估并改進當前策略,輸入層參數為狀態S與 動作A的集合,其網絡結構與輸入層參數的歸一化方法與行動者網絡相同,不同之處在于輸出量并未做歸一化處理,直接參與損失函數計算。

2) LSTM 隱藏層神經元個數選擇。隱藏層能夠把輸入數據的特征抽象到另一個維度空間,從而進行更好地線性劃分,隱藏層的神經元個數對網絡的擬合能力有著很大的影響,神經元個數不足會降低網絡的擬合能力,達不到預期的預測精度,而神經元個數過多則會造成網絡過擬合或者徒增訓練時長,因此,根據任務要求,合理選擇隱藏層的神經元個數非常重要。本文所涉及的實驗內容選擇了256 個隱藏層神經元。

4 模型驗證及分析

4.1 試驗方案

選取3 類任務場景驗證模型的可靠性:場景1采用自主引導模型,場景2 采用伴飛避障模型,場景3 則通過設置閾值(無人機高度為10 m,無人機與目標相對距離不大于20 m)將2 個模型規整到同一任務流程中,并分別將場景1 和場景2 收斂后的模型訓練網絡運用于全過程。上述3 類場景所對應的模型訓練參數如表1 所示?;谏鲜鰣鼍埃謩e將基于傳統PPO 算法和本文提出的基于LSTM網絡的PPO 算法設置為對照組,隱藏層神經元個數均設置為256,并采用相同的參數優化器對模型訓練參數進行更新。

表1 仿真參數設置Table 1 Simulation parameter setting

4.2 試驗結果與性能分析

通過不同場景中無人機單步平均獎勵曲線的變化情況,定量評估傳統PPO 算法與基于LSTM網絡的PPO 算法在無人機自主機動這類任務中的實時性、準確性和魯棒性。

假設無人機的狀態信息和輸出量均為無偏信號。由圖7(a)可見,場景1 中由改進后的PPO 算法訓練的無人機單步平均獎勵初始值為-8.8,并在訓練輪數達到250 次時穩定在-2.6。傳統PPO 算法訓練的無人機單步平均獎勵初始值為-11.1,訓練輪數達到325 次時逐漸收斂于-7.5。場景2 的環境復雜度相對較高,試驗所設置的環境獎勵力度較大,由此導致初始累計獎勵較低,如圖7(b)所示,改進后的PPO 算法訓練的無人機單步平均獎勵初始值為-69,訓練輪數達到400 次時穩定在-8,而傳統PPO 算法訓練的無人機單步平均獎勵初始值為-78,訓練輪數達到600 次時收斂至-42。在實際的偵察任務中,氣流等環境因素的變化使得無人機系統的狀態信息存在一定的偏差,本節通過給輸出量疊加其自身0.2 倍的噪聲信號以模擬無人機系統狀態的不穩定性。由圖7(a)可見,由于干擾信號的存在,改進后的PPO 算法訓練的前75 次無人機單步平均獎勵值出現下降趨勢,但隨著訓練的進行,干擾信號帶來的影響逐漸減弱,并在訓練輪數達到250 次時,獎勵值收斂至-3。傳統PPO 算法訓練的無人機單步平均獎勵值出現較大波動,且訓練輪數達到350 次時逐漸收斂于-11。類似的現象也出現在圖7(b)中,干擾出現后,改進后的PPO 算法收斂速度略微降低,但整體處于上升趨勢,并在訓練輪數達到450 次時,無人機單步平均獎勵值穩定在-10。傳統PPO 算法訓練的無人機單步平均獎勵漲幅不明顯,訓練輪數達到650 次時收斂于-60。圖8 為基于傳統PPO 算法訓練下的自主引導模型與伴飛避障模型的無人機飛行軌跡。由圖8(a)可見,無人機執行引導過程且引導結束時,無人機與地面目標的距離相對較遠,引導效果較差。如圖8(b)所示,無人機執行伴飛避障過程,當環境狀態發生變化時,無人機能夠有效進行避障,確保無人機的飛行安全,但無人機跟蹤性能顯著下降,導致偵察任務失敗。如圖8(c)所示,結合場景1 與場景2 進行自主引導與伴飛避障全過程驗證,由于傳統PPO 算法訓練下的自主引導模型效果較差,為避免終止時間條件內,無人機無法達到模型切換閾值,本文放寬了閾值條件。仿真結果表明,無人機進行第一階段的機動決策耗時較長,導致第二階段進行避障后,無法在所設置的終止時間內對地面目標重新跟蹤。

圖7 單步平均獎勵變化曲線Fig. 7 Variation curves of single step average reward

圖8 不同場景下基于傳統PPO 算法的運動軌跡Fig. 8 Motion paths in different scenarios based on traditional PPO algorithm

圖9 為基于改進后的PPO 算法訓練后的無人機飛行軌跡。由圖9(a)可見,無人機與地面目標初始相對距離較遠時,自主引導模型有效作用,二者相對距離迅速減小且無人機高度逐步下降。如圖9(b)所示,無人機與地面目標初始相對距離較近時,伴飛避障模型有效作用,無人機與偵察目標的相對高度保持不變,在定高空域執行偵察任務。圖9(c)則結合了場景1 與場景2 中各模型的優勢,自主引導階段完成時,無人機迅速轉變機動策略,接近目標的同時兼顧了可能出現的低空威脅,進行了合理有效的避障跟蹤。

圖9 不同場景下基于改進PPO 算法的運動軌跡Fig. 9 Motion paths in different scenarios based on improved PPO algorithm

上述結果表明,無人機自主引導與伴飛避障過程是合理的,且相較于傳統神經網絡, LSTM 網絡擁有獨特的記憶單元結構,地面目標的歷史軌跡屬性在訓練時就已經存入隱藏層記憶細胞內,對地面目標進行下一輪跟蹤時,可以迅速找到相應的細胞狀態。當目標出現新的軌跡屬性時,LSTM 網絡的遺忘門會清除較舊的上下文軌跡信息,并通過狀態更新將新的目標位置信息添加到細胞狀態中。因此,基于LSTM 網絡的PPO 算法具有更強的實時性、準確性和魯棒性。

5 結 論

1) 針對多旋翼無人機地面動目標跟蹤與自主避障問題,結合不同空域環境復雜度的差異,細化了空中偵查的任務流程,并基于MDP 建立了自主引導模型與伴飛避障模型。

2) 針對基于值函數優化的強化學習算法在無人機自主機動任務中適用性差的問題,采用PPO 算法證明基于策略的優化算法在連續狀態空間上的可行性,在此基礎上,采用LSTM 網絡對傳統PPO算法進行改進,并在基于ROS 的無人機仿真測試平臺上進行試驗驗證。

3) 仿真結果表明,本文提出的無人機跟蹤、避障模型能夠實現對地面隨機運動目標的持續跟蹤與障礙物的合理規避,且與傳統PPO 算法相比,基于LSTM 網絡的PPO 算法控制策略能夠有效抑制環境擾動帶來的影響,使系統具有更好的魯棒性。

本文假設單個障礙物位置固定且由視覺傳感器獲取的障礙物位置信息無偏差,而在實際的偵察任務中,應當考慮障礙物隨機運動且障礙數目大大增加的影響,在類似場景中,無人機如何作出機動決策將是后續研究的重點。

猜你喜歡
策略模型
一半模型
基于“選—練—評”一體化的二輪復習策略
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 免费人成在线观看成人片 | 六月婷婷综合| 亚洲精品男人天堂| 国产一级二级在线观看| 国产欧美另类| 伊人久久大香线蕉aⅴ色| 亚洲激情区| 精品综合久久久久久97超人该| 欧美成人综合视频| 四虎精品国产AV二区| 黄色成年视频| 亚洲视频在线青青| 亚洲国产成人无码AV在线影院L| 无码网站免费观看| 毛片网站免费在线观看| 一本大道东京热无码av| 最新痴汉在线无码AV| 欧美日韩国产在线播放| 伊人激情综合网| 美女无遮挡被啪啪到高潮免费| 人与鲁专区| 55夜色66夜色国产精品视频| 国产精品99久久久久久董美香| 国产熟女一级毛片| 国产成人1024精品下载| 狠狠色狠狠综合久久| 五月六月伊人狠狠丁香网| 国产大片喷水在线在线视频| 亚洲精品大秀视频| 国产网站在线看| 亚洲成人网在线播放| 黄色不卡视频| 欧美一级视频免费| 国产综合另类小说色区色噜噜| 一级一级特黄女人精品毛片| 国产91丝袜在线观看| 97综合久久| 92午夜福利影院一区二区三区| 91丨九色丨首页在线播放 | 亚洲AV人人澡人人双人| AV片亚洲国产男人的天堂| 国产欧美性爱网| 国禁国产you女视频网站| 精品国产网站| 亚洲色欲色欲www在线观看| 日韩资源站| 亚洲综合专区| 97影院午夜在线观看视频| 久久99久久无码毛片一区二区| 亚洲av综合网| 亚洲欧州色色免费AV| 国产区91| 又粗又大又爽又紧免费视频| 黄色在线网| 亚亚洲乱码一二三四区| 亚欧成人无码AV在线播放| 亚瑟天堂久久一区二区影院| 欧美亚洲激情| 亚洲国产精品成人久久综合影院 | 国产玖玖视频| 国产一区二区精品福利| 国产va视频| 国产亚洲精品自在久久不卡| 91在线无码精品秘九色APP| 亚洲精品天堂自在久久77| 毛片视频网| 免费观看国产小粉嫩喷水| 国产91特黄特色A级毛片| 国产女人在线| 日本五区在线不卡精品| 1级黄色毛片| 欧美亚洲国产日韩电影在线| 中文字幕无码av专区久久| 久久久久中文字幕精品视频| 在线播放91| 丁香综合在线| 欧美成人手机在线观看网址| 精品三级在线| 免费在线看黄网址| 久久综合婷婷| 无码精品国产dvd在线观看9久| 欧美国产日韩另类|