999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于積分強化學習的連續線性不確定系統最優控制分析

2020-12-06 10:48:36陳昱
河南科技 2020年28期

陳昱

摘 要:針對系統模型參數未知的連續系統,本文主要分析和驗證魯棒積分強化學習的必要性。該方法不要求連續線性系統參數完全已知,也不需要對動態模型參數進行進一步估計。首先,采用優化性能的最優控制問題,基于動態規劃方法得到代數黎卡提方程;然后,利用積分強化學習方法,得到迭代貝爾曼方程,進一步利用積分強化學習算法,分析此算法在針對不確定系統時是否有效;最后,算例仿真驗證在是否考慮不確定性存在狀態下對連續線性不確定系統的影響。

關鍵詞:積分強化學習;連續系統;魯棒性;不確定性

中圖分類號:O232文獻標識碼:A文章編號:1003-5168(2020)28-0012-03

Optimal Control Analysis of Continuous Linear Uncertain Systems

Based on Integral Reinforcement Learning

CHEN Yu

(College of Innovation and Entrepreneurship, Liaoning University of Petroleum and Chemical Technology,Fushun Liaoning 113000)

Abstract: For continuous systems with unknown model parameters, the necessity of robust integral reinforcement learning was analyzed and verified in this paper. The method does not require that the parameters of the continuous linear system are completely known, and it does not require further estimation of the parameters of the dynamic model. Firstly, the algebraic Riccati equation was obtained by using the optimal control problem of optimal performance based on dynamic programming. Then, the iterative Bellman equation was obtained by using the integral reinforcement learning method, and the integral reinforcement learning algorithm was further used to analyze whether the algorithm is effective for uncertain systems. Finally, an example was given to verify the influence on the continuous linear uncertain system with or without considering the existence state of uncertainty.

Keywords: integral reinforcement learning;continuous system;robustness;uncertainty

1 研究背景

強化學習(Reinforcement Learning)又稱再勵學習、評價學習或增強學習,是智能系統從環境到行為映射的學習方式,以使獎勵信號(強化信號)函數值最大。控制系統在試錯過程中,外界會針對試錯結果進行一定的反饋,此過程中強化學習算法可以調節相關參數以獲得更好的控制結果。該算法利用系統的部分或完全動力學知識來強化學習系統的控制器。然而,對于許多實際問題很難得到系統動力學知識。積分強化學習是針對系統模型參數未知的連續系統,且無須估計動態模型參數的一種強化學習方法。近年來,隨著對不確定連續系統研究的深入,研究者們致力于發展積分強化學習方法,以獲得不確定動態系統的最優控制器。

目前,越來越多的研究開始涉獵積分強化學習并將其應用于自動控制領域,其中在連續線性系統中應用較多。采用積分強化學習方法,不完全依賴系統模型參數,而是利用數據學習狀態反饋來判斷控制策略是否最優。優化控制系統性能的研究成果有很多,如研究線性系統最優調節[1]、近似動態規劃最優控制[2]、自適應容錯控制[3]等。策略學習(on-policy)指獲取數據的動作和最終策略的動作是一致的,非策略學習(off-policy)即獲取數據的動作和最終策略的動作不一致。積分強化學習涉及兩個關鍵流程:一是選擇用來獲取數據的動作,二是最終用來選擇動作的策略。因此本文采用策略學習進行動作。從線性連續系統的相關文獻[4]來看,其并未考慮不確定性的存在,控制器是否能在存在不確定性的前提下有效使用值得我們深入探究和驗證。

本論文驗證了一種基于積分強化學習算法的控制器用以解決連續線性系統部分參數未知的線性問題。首先,給出具有不確定性的優化問題模型,假設該系統不存在不確定性,然后給出基于積分強化學習的數據驅動的算法,以保證系統穩定并且優化控制器相關性能指標。之后通過實驗分析表明,在系統存在不確定性并且該不確定性不可忽略的條件下,控制器作用無效即不能保證該線性連續系統的穩定性。最后通過仿真實驗驗證了所提算法對最優控制解的收斂程度。

2 問題闡述

考慮如下線性連續時間系統:

主站蜘蛛池模板: 久草青青在线视频| 中文字幕人成人乱码亚洲电影| 青青青视频蜜桃一区二区| 色窝窝免费一区二区三区| 五月综合色婷婷| 91色在线视频| 国产精品美女网站| 亚洲AV成人一区二区三区AV| 国产免费羞羞视频| 国产成本人片免费a∨短片| 亚洲天堂成人在线观看| 久久精品人人做人人爽97| 久久情精品国产品免费| 99这里只有精品在线| 在线日本国产成人免费的| 午夜高清国产拍精品| 欧洲免费精品视频在线| 在线观看无码a∨| 亚洲欧美不卡中文字幕| 免费jjzz在在线播放国产| 久久无码高潮喷水| 国产色图在线观看| 丰满少妇αⅴ无码区| 高清码无在线看| 免费av一区二区三区在线| 最新国产高清在线| a级毛片在线免费| 国产精品99久久久久久董美香| 欧美中文字幕一区| 激情六月丁香婷婷四房播| 亚洲中文字幕久久无码精品A| 综合天天色| 欧美亚洲国产一区| 91九色最新地址| 一级做a爰片久久免费| 欧美亚洲国产精品久久蜜芽| 最新加勒比隔壁人妻| 欧美福利在线| 国产一级毛片高清完整视频版| 福利在线不卡| 原味小视频在线www国产| 国产91在线|中文| 国产精品一区二区不卡的视频| 自拍偷拍欧美日韩| a欧美在线| 久久国产av麻豆| 亚洲精品欧美日韩在线| 国产自无码视频在线观看| 亚洲AV无码久久精品色欲| 在线观看国产精品第一区免费| 亚洲天堂啪啪| 爱爱影院18禁免费| 国产一区二区人大臿蕉香蕉| 欧美日韩一区二区三区在线视频| 日韩最新中文字幕| 日韩黄色在线| 尤物午夜福利视频| 色哟哟国产精品| 亚洲色婷婷一区二区| 日韩美女福利视频| 免费AV在线播放观看18禁强制| 福利在线不卡一区| 91亚洲免费| 亚洲中文字幕在线精品一区| 99精品国产高清一区二区| 国产精品自在在线午夜| 极品尤物av美乳在线观看| 欧美成人精品在线| 黄色一及毛片| 免费看av在线网站网址| 无码区日韩专区免费系列| 性欧美在线| 亚洲乱亚洲乱妇24p| 高清不卡一区二区三区香蕉| 成人精品在线观看| 久久性视频| 国产超碰一区二区三区| 欧美日韩北条麻妃一区二区| 欧美一区二区三区香蕉视| 91在线播放免费不卡无毒| 国产剧情国内精品原创| 国产成人做受免费视频|