999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于事件驅動的無人機強化學習避障研究

2019-09-10 08:03:04唐博文王智文胡振寰
廣西科技大學學報 2019年1期

唐博文 王智文 胡振寰

摘? ?要:強化學習方法在避障研究中應用廣泛,針對其需要消耗大量的計算資源問題,本文提出一種基于事件驅動的無人機強化學習避障算法.通過在強化學習中加入事件驅動的觸發機制,減少無人機的動作決策的同時找到最優路徑,既可以保證性能,又可以降低系統的通信頻率.實驗的仿真結果表明,該算法可以在學習過程中減少對計算資源的消耗,并且完成避障任務的同時可以明顯加快收斂速度.

關鍵詞:事件驅動;強化學習;避障;Q-learning

中圖分類號:TP18? ? ? ? ? ? ? ? ? DOI :10.16375/j.cnki.cn45‐1395/t.2019.01.015

0? ? 引言

隨著無人機在工業、軍事及生活等諸多領域的廣泛應用[1-2],人們對其智能化的要求也越來越高,無人機的避障研究越來越被重視.強化學習理論是在觀察生物物種的行為學習基礎上發展起來的[3],可以應用在無人機避障算法中.文獻[4]使用神經網絡(NNs)來進行強化學習,在學習的過程中事件觸發機制被設計為估計NN權重的函數.這種設計背后的基本原理是在初始學習期間增加事件,以促進學習.文獻[5]提出了一種基于混合學習方案的近似動態規劃與在線探索相結合的不確定輸入仿射非線性子系統與事件觸發狀態反饋的分布式控制方案.將在線控制框架中的探索與標識符相結合,以降低總體計算成本,但是在最初的在線學習階段需要額外的計算.通過調節系統狀態和NN權重估計誤差來實現局部一致的最終有界結果.強化學習需要強大計算能力作為支撐,如何減少學習中的計算量,是本文研究的重要內容,在此基礎上本文提出基于事件驅動的無人機強化學習避障算法.

事件觸發機制被設計為估計權重的函數.這種設計背后的基本原理是在初始學習期間增加事件,以促進學習.文獻[6]提出了分布式事件觸發算法解決一階多智能體系統的環形編隊問題.當執行器信號必須經由公共通信網絡頻繁交換時,處理器使用率、能耗和通信帶寬方面效率低下的挑戰會隨著這些情況而增加.因此考慮一種替代控制方式,即事件觸發控制(ETC),它已經在早期工作中提出并進一步研究[7-8].文獻[9]報道了事件觸發協議在降低通信頻率和控制更新方面的成功應用.文獻[10]討論了在處理包括干擾、時延和網絡丟包在內的實際影響時的事件觸發機制.文獻[11]研究了時間相關的事件觸發函數,其中每個代理只需要它自己的確切信息,而不需要其周圍環境.文獻[12]通過在隨機設置中建立一個積分不等式,導出了一個標準用于根據線性矩陣不等式的解來計算合適的事件觸發控制器.

目前,把事件驅動和強化學習結合的研究相對較少.因此引入事件觸發控制方案可以減少網絡負載的數量[8],信號是否被采樣取決于系統狀態的某種事件觸發條件,而不是時間流逝[13-15].有關事件觸發控制的大量結果已經推導出來[16-22].事件觸發控制的一個顯著特點是,通過連續監測瞬時系統狀態或通過在線/離線計算預測某些與狀態相關的功能的值,確定下一個采樣時刻.文獻[23]采用一個評論者網絡的Q學習框架來近似最優成本和一個零階保持行為網絡來逼近最優控制.本文提出了基于事件驅動的無人機強化學習避障算法,將基于事件驅動的強化學習運用到無人機避障領域中,在避障的同時優化了算法的資源消耗.

1? ? 強化學習介紹

1.1? ?強化學習

強化學習(Reinforcement learning)不同于機器學習中的另外兩類學習方法(監督學習和非監督學習),其基本思想是借鑒人類學習的過程,讓智能體(Agent)通過不斷試錯來尋找最優策略,即累計回報最大,因此需要設置每種狀態及行動對應的回報.

強化學習包含4個主要元素:環境(Environment)、狀態(State)、回報(Reward)、行動(Action).在每個時間點t,智能體都會從可以選擇的行動集合A中選擇一個行動執行.這個行動集合可以是連續的也可以是離散的.根據圖1,在t時刻,st表示無人機當前的狀態,αt表示無人機當前動作,[rt表示當前獎賞值].狀態和動作之間存在映射關系,也就是一個狀態可以對應一個動作,或者對應不同動作的概率(通常用概率來表示,概率最高的就是最值得執行的動作).狀態與動作的關系其實就是輸入與輸出的關系,而狀態到動作的映射過程被稱為策略(Policy).即強化學習的目標就是找到最優策略使得累計回報和最大.

1.2? ?Q-learning

Q-table的行和列分別表示狀態和行動的值,Q-table的值[Q(s,a)]用來衡量當前狀態采取行動到底有多好.在訓練的過程中,可以用式(1)貝爾曼方程去更新Q-table.

基于Q-learning的避障算法通過嘗試各種不同的行動來找到最優策略,因此帶來了一個很大的問題,那就是算法可能需要遍歷所有可能的行動,從而消耗大量的資源.

2? ? 基于事件驅動的強化學習

事件驅動機制已經被證明可以有效減小大規模網絡的通信量.根據已有研究成果,事件驅動條件設計主要分為兩類:狀態相關和狀態無關.其主要做法都是通過檢測無人機采樣前后狀態的偏差值大小,判斷是否滿足事件驅動條件,來決定間歇性的更新控制輸入,減小控制器與多智能體系統的通信頻率和計算量.綜合以上分析,區別于傳統的多智能體強化學習算法,在資源有限的情況下,考慮將事件驅動和強化學習相結合,側重于事件驅動在強化學習策略方面的研究.

基于事件驅動的強化學習過程不同于經典的強化學習,首先需要根據觸發函數來判斷事件是否被觸發,在沒有被觸發情況下,將直接選用上一個Q值的動作當作當前的Q的動作.

3? ? 仿真結果及分析

為了驗證本文提出算法和基于強化學習的無人機避障算法的性能,在Windows10操作系統下利用matlab2014a軟件進行仿真實驗.首先設置一個20×20的迷宮環境(如圖2所示),圖2對應的Q值如圖3所示.假設圖2中無人機從綠點出發飛行到紅點結束,每個位置飛行都有上下左右4種行動(圖2中的箭頭所示)可以選擇.在探索環境時,如果碰到障礙物,會給予一個很高的懲罰(-50),并且在每次行動過后對迭代的狀態進行評分,如果無人機已經飛抵終點,則取消給予懲罰,如果沒有到達終點,給予-1的懲罰,以此來不斷選取回報最高的動作.在無人機到達終點前重復上述步驟,直到步數確定,可以收斂為止.

圖4和圖5分別對應于本文提出算法和基于強化學習的無人機避障算法的迭代次數.對比圖4和圖5,可以看出,基于事件驅動的無人機強化學習避障算法相比僅包含強化學習的無人機避障算法,收斂速度更快,計算量更少.為了評估3個主要參數對本文提出算法的整體計算量的影響,采用改變其中一個參數并保持另外兩個參數不變進行實驗,實驗結果如表1所示.

從表1可以看出保持兩個參數不變,只改變一個參數時,算法的優化率有很大的不同.當學習率為0.3、折扣因子為1、增益系數為0.002時,算法的優化率較好,較原算法減少了198 982次計算,優化率達到66.3%;當學習率低于0.28時,雖然運算次數有很大的減少,但結果會出現不收斂的情況.

為了更好地模擬真實環境,通過在地圖中設置各種不同的障礙物,如圖6的長條迷宮環境,圖10的梯形迷宮環境,圖14的十字形迷宮環境,然后在這3種不同環境中應用無人機強化學習的避障算法和本文提出的基于事件驅動的無人機強化學習避障算法進行實驗.圖6、圖10、圖14對應的實驗結果分別如圖7—圖9、圖11—圖13和圖15—圖17所示.從對比實驗的迭代次數圖中可以發現:引入事件驅動的控制機制后,無人機對于避障動作的策略不需要按照固定的周期來決策;通過事件驅動條件更新無人機的避障行動,有效降低了無人機避障動作決策的頻率以及對計算資源的消耗.因此,可以得出本算法具有搜索策略速度快、決策量少的優勢.

4? ? 結論

本文提出了一種基于事件驅動的無人機強化學習避障算法,側重于解決普通強化學習運算次數過多的問題.通過加入事件驅動,使得算法在相同時間內可以明顯降低數據的通信次數,并且分析了該算法的主要參數對計算量優化的影響.通過仿真實驗說明了該算法可以在學習過程中減少策略遍歷次數,解決了強化學習無人機避障算法運算次數過多的問題.

參考文獻

[1]? ? 徐亞妮,羅文廣,張亮.基于EPGA的四軸飛行器控制系統設計[J]. 廣西科技大學學報,2018,29(3):50-56.

[2]? ? 陳艷,李春貴,胡波.一種改進的田間導航特征點提取算法[J]. 廣西科技大學學報,2018,29(3):71-76.

[3]? ? NARAYANAN V,JAGANNATHAN S. Event-triggered distributed control of nonlinear interconnected systems using online reinforcement learning with exploration [J]. IEEE Transactions on Cybernetics ,2018,48(9):2510-2519.

[4]? ? SUTTON R S,BARTO A G. Reinforcement learning:an introduction[M]. Cambridge,MA,USA: MIT Press,1998.

[5]? ? SAHOO A,XU H,JAGANNATHAN S. Neural network-based adaptive event-triggered control of nonlinear continuous-time systems[C].2013 IEEE International Symposium on Intelligent Control (ISIC),2013:35-40.

[6]? ? WEN J Y,WANG C,XIE G M. Asynchronous distributed event-triggered circle formation of multi-agent systems[J].Neurocomputing,2018,295:118-126.

[7]? ? ASTROM K J,BO B. Comparison of periodic and event based sampling for first order stochastic systems[C]. Proceedings of IFAC World Congress,1999,83:301-306.

[8]? ? TABUADA P. Event-triggered real-time scheduling of stabilizing control tasks[J]. IEEE Transactions on Automatic Control,2007,52(9):1680-1685.

[9]? ? DIMAROGONAS D V,FRAZZOLI E,JOHANSSON K H. Distributed event-triggered control for multi-agent systems[J]. IEEE Transactions on Automatic Control,2012,57(5):1291-1297.

[10]? WANG X F,LEMMON M. Event-triggering in distributed networked control systems[J]. IEEE Transactions on Automatic Control,2011,56(3):586-601.

[11]? SEYBOTH G S,DIMAROGONAS D V,JOHANSSON K H. Event-based broadcasting for multi-agent average consensus[J]. Automatica,2013,49(1):245-252.

[12]? WANG J,ZHANG X M,LIN Y F,et al. Event-triggered dissipative control for networked stochastic systems under non-uniform sampling [J]. Information Sciences,2018,447:216-228.

[13]? GUO G,WENS X. Protocol Sequence and control co-design for a collection of networked control systems[J].International Journal of Robust and Nonlinear Control,2015,26(3):489-508.

[14]? GUO G,LU Z B,SHI P. Event-driven actuators:to zero or to hold?[J].International Journal of Robust and Nonlinear Control,2014,24(17):2761-2773.

[15]? GUO G,DING L,HAN Q L. A distributed event-triggered transmission strategy for sampled-data consensus of multi-agent systems[J]. Automatica,2014,50(5):1489-1496.

[16]? DING D R,WANG Z D,DWC H,et al.Observer-based event-triggering consensus control for multiagent systems with lossy sensors and cyber-attacks[J]. IEEE Transactions on Cybernetics,2017,47(8):1936-1947.

[17]? DONKERS M C F,HEEMELS W P M H. Output-based event-triggered control with guaranteed-gain and improved and decentralized event-triggering[J].IEEE Transactions on Automatic Control,2012,57(6):1362-1376.

[18]? FITER C,HETEL L,PERRUQUETTI W,et al. A robust stability framework for LTI systems with time-varying sampling[J] Automatica,2015,54:56-64.

[19]? HU L,WANG Z D,HAN Q L,et al. Event-based input and state estimation for linear discrete time-varying systems [J]. International Journal of Conrtrol, 2018,91(1):101-113.

[20]? PENG C,HAN Q L. On designing a novel self-triggered sampling scheme for networked control systems with data losses and communication delays[J]. IEEE Transactions on Industrial Electronics,2015,63(2):1239-1248.

[21]? WANG X F,LEMMON M D. Self-triggered feedback control systems with finite-gain stability[J].IEEE Transactions on Automatic Control,2009,54(3):452-467.

[22]? ZOU L,WANG Z D,ZHOU D H. Event-based control and filtering of networked systems:a survey[J]. International Journal of Automation & Computing,2017,14(3):239-253.

[23]? VAMVOUDAKIS K G,FERRAZ H. Model-free event-triggered control algorithm for continuous-time linear systems with optimal performance [J]. Automatica,2018,87:412-420.

主站蜘蛛池模板: 久久semm亚洲国产| 九九精品在线观看| 国产精品一区在线麻豆| 国产精品人莉莉成在线播放| 国产精品久久久免费视频| 日本亚洲成高清一区二区三区| 九色在线观看视频| 老熟妇喷水一区二区三区| 亚洲AⅤ无码日韩AV无码网站| 亚洲欧洲日韩久久狠狠爱| 国内精品伊人久久久久7777人| 九色视频最新网址| 国产精品久久久久久久久| 天天色天天综合| 亚洲an第二区国产精品| 东京热一区二区三区无码视频| 97免费在线观看视频| 国产真实乱了在线播放| 欧美国产日产一区二区| 国产精品人成在线播放| 亚洲欧美激情小说另类| 亚洲国产日韩一区| 久久综合久久鬼| 无码AV动漫| 久久国产精品电影| 日韩欧美成人高清在线观看| 99国产精品国产| 99久久精品免费看国产电影| 天堂成人av| 亚洲三级色| 午夜福利亚洲精品| 国产黑丝一区| 二级特黄绝大片免费视频大片| 国产亚洲精| 亚洲一区二区三区中文字幕5566| 四虎永久免费地址在线网站| 国产一在线| 国产尤物jk自慰制服喷水| 高清无码一本到东京热| 中文字幕人成乱码熟女免费| 国产精品免费久久久久影院无码| 国产自产视频一区二区三区| 久久久久九九精品影院| 国产极品粉嫩小泬免费看| 亚洲男人天堂久久| 在线观看国产小视频| 国产精品污视频| 亚洲午夜国产精品无卡| 亚洲欧美日韩中文字幕在线| 69综合网| 91精品视频在线播放| 亚洲精品老司机| 国产午夜无码专区喷水| 色综合天天操| 中文字幕在线欧美| 亚洲第一香蕉视频| 久草网视频在线| 久久亚洲国产视频| 国产成人一区免费观看| 一本一本大道香蕉久在线播放| 亚洲国产中文欧美在线人成大黄瓜 | 国产精品xxx| 中美日韩在线网免费毛片视频| 免费在线色| 98精品全国免费观看视频| 2024av在线无码中文最新| 亚洲AV无码乱码在线观看裸奔| 欧美日韩精品一区二区视频| 国产乱人伦精品一区二区| 婷婷色中文网| 三上悠亚一区二区| 精品三级网站| 狂欢视频在线观看不卡| 久久精品这里只有国产中文精品 | 国产成人免费观看在线视频| 久久久久青草大香线综合精品 | 久久狠狠色噜噜狠狠狠狠97视色 | 日韩视频福利| 女人18一级毛片免费观看| 日本人妻丰满熟妇区| 国产情侣一区二区三区| 日韩在线影院|