999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于積分強化學習的連續線性不確定系統最優控制分析

2020-12-06 10:48:36陳昱
河南科技 2020年28期

陳昱

摘 要:針對系統模型參數未知的連續系統,本文主要分析和驗證魯棒積分強化學習的必要性。該方法不要求連續線性系統參數完全已知,也不需要對動態模型參數進行進一步估計。首先,采用優化性能的最優控制問題,基于動態規劃方法得到代數黎卡提方程;然后,利用積分強化學習方法,得到迭代貝爾曼方程,進一步利用積分強化學習算法,分析此算法在針對不確定系統時是否有效;最后,算例仿真驗證在是否考慮不確定性存在狀態下對連續線性不確定系統的影響。

關鍵詞:積分強化學習;連續系統;魯棒性;不確定性

中圖分類號:O232文獻標識碼:A文章編號:1003-5168(2020)28-0012-03

Optimal Control Analysis of Continuous Linear Uncertain Systems

Based on Integral Reinforcement Learning

CHEN Yu

(College of Innovation and Entrepreneurship, Liaoning University of Petroleum and Chemical Technology,Fushun Liaoning 113000)

Abstract: For continuous systems with unknown model parameters, the necessity of robust integral reinforcement learning was analyzed and verified in this paper. The method does not require that the parameters of the continuous linear system are completely known, and it does not require further estimation of the parameters of the dynamic model. Firstly, the algebraic Riccati equation was obtained by using the optimal control problem of optimal performance based on dynamic programming. Then, the iterative Bellman equation was obtained by using the integral reinforcement learning method, and the integral reinforcement learning algorithm was further used to analyze whether the algorithm is effective for uncertain systems. Finally, an example was given to verify the influence on the continuous linear uncertain system with or without considering the existence state of uncertainty.

Keywords: integral reinforcement learning;continuous system;robustness;uncertainty

1 研究背景

強化學習(Reinforcement Learning)又稱再勵學習、評價學習或增強學習,是智能系統從環境到行為映射的學習方式,以使獎勵信號(強化信號)函數值最大。控制系統在試錯過程中,外界會針對試錯結果進行一定的反饋,此過程中強化學習算法可以調節相關參數以獲得更好的控制結果。該算法利用系統的部分或完全動力學知識來強化學習系統的控制器。然而,對于許多實際問題很難得到系統動力學知識。積分強化學習是針對系統模型參數未知的連續系統,且無須估計動態模型參數的一種強化學習方法。近年來,隨著對不確定連續系統研究的深入,研究者們致力于發展積分強化學習方法,以獲得不確定動態系統的最優控制器。

目前,越來越多的研究開始涉獵積分強化學習并將其應用于自動控制領域,其中在連續線性系統中應用較多。采用積分強化學習方法,不完全依賴系統模型參數,而是利用數據學習狀態反饋來判斷控制策略是否最優。優化控制系統性能的研究成果有很多,如研究線性系統最優調節[1]、近似動態規劃最優控制[2]、自適應容錯控制[3]等。策略學習(on-policy)指獲取數據的動作和最終策略的動作是一致的,非策略學習(off-policy)即獲取數據的動作和最終策略的動作不一致。積分強化學習涉及兩個關鍵流程:一是選擇用來獲取數據的動作,二是最終用來選擇動作的策略。因此本文采用策略學習進行動作。從線性連續系統的相關文獻[4]來看,其并未考慮不確定性的存在,控制器是否能在存在不確定性的前提下有效使用值得我們深入探究和驗證。

本論文驗證了一種基于積分強化學習算法的控制器用以解決連續線性系統部分參數未知的線性問題。首先,給出具有不確定性的優化問題模型,假設該系統不存在不確定性,然后給出基于積分強化學習的數據驅動的算法,以保證系統穩定并且優化控制器相關性能指標。之后通過實驗分析表明,在系統存在不確定性并且該不確定性不可忽略的條件下,控制器作用無效即不能保證該線性連續系統的穩定性。最后通過仿真實驗驗證了所提算法對最優控制解的收斂程度。

2 問題闡述

考慮如下線性連續時間系統:

主站蜘蛛池模板: 亚洲男人天堂网址| 992Tv视频国产精品| 囯产av无码片毛片一级| 伊人五月丁香综合AⅤ| 国产毛片网站| 中国丰满人妻无码束缚啪啪| 视频一区亚洲| 91国内视频在线观看| 亚洲第一成年人网站| 国产精品久久自在自线观看| 国产成人高清精品免费| 色天天综合久久久久综合片| 亚洲精选无码久久久| 97精品伊人久久大香线蕉| 超清无码一区二区三区| 日韩人妻无码制服丝袜视频| 亚洲男人天堂2018| 国产精品播放| 欧美一级特黄aaaaaa在线看片| 国产一级α片| 亚洲香蕉在线| 亚洲日产2021三区在线| 欧美精品高清| 日韩乱码免费一区二区三区| 国产欧美专区在线观看| AV网站中文| 91精品网站| 成人日韩欧美| 色综合综合网| 91在线视频福利| 精品剧情v国产在线观看| 亚洲精品成人7777在线观看| 三区在线视频| 露脸国产精品自产在线播| 亚洲美女一区| 久久a毛片| 99久久国产精品无码| 亚洲女同欧美在线| 青青国产视频| 日韩天堂在线观看| 福利视频一区| 中文字幕无线码一区| 制服丝袜亚洲| 中文字幕欧美成人免费| 色网站免费在线观看| 午夜爽爽视频| 亚洲欧美综合另类图片小说区| 538国产在线| 国产00高中生在线播放| 国产精品香蕉在线观看不卡| 激情在线网| 丁香六月激情综合| 熟妇丰满人妻av无码区| 无码日韩人妻精品久久蜜桃| 91网址在线播放| 九九久久精品国产av片囯产区| 再看日本中文字幕在线观看| A级毛片高清免费视频就| 国产成人1024精品下载| 一本一本大道香蕉久在线播放| 香蕉视频在线观看www| 亚洲AV永久无码精品古装片| 国产91全国探花系列在线播放 | 中美日韩在线网免费毛片视频| 亚洲综合久久一本伊一区| 国产欧美又粗又猛又爽老| 欧美亚洲第一页| 日韩成人在线网站| JIZZ亚洲国产| 亚洲区第一页| 亚洲国产欧美目韩成人综合| 国产哺乳奶水91在线播放| 无码精品国产dvd在线观看9久| 亚洲黄色高清| 无码一区中文字幕| 波多野结衣一区二区三区四区 | 在线无码九区| 欧美精品亚洲精品日韩专| 丰满人妻久久中文字幕| 精品久久久久久中文字幕女| 91久久偷偷做嫩草影院精品| 美女亚洲一区|