基于積分強化學習的連續線性不確定系統最優控制分析

2020-12-06 10:48:36陳昱

河南科技 2020年28期

陳昱

摘要：針對系統模型參數未知的連續系統，本文主要分析和驗證魯棒積分強化學習的必要性。該方法不要求連續線性系統參數完全已知，也不需要對動態模型參數進行進一步估計。首先，采用優化性能的最優控制問題，基于動態規劃方法得到代數黎卡提方程;然后，利用積分強化學習方法，得到迭代貝爾曼方程，進一步利用積分強化學習算法，分析此算法在針對不確定系統時是否有效;最后，算例仿真驗證在是否考慮不確定性存在狀態下對連續線性不確定系統的影響。

關鍵詞：積分強化學習;連續系統;魯棒性;不確定性

中圖分類號：O232文獻標識碼：A文章編號：1003-5168（2020）28-0012-03

Optimal Control Analysis of Continuous Linear Uncertain Systems

Based on Integral Reinforcement Learning

CHEN Yu

（College of Innovation and Entrepreneurship， Liaoning University of Petroleum and Chemical Technology，Fushun Liaoning 113000）

Abstract： For continuous systems with unknown model parameters， the necessity of robust integral reinforcement learning was analyzed and verified in this paper. The method does not require that the parameters of the continuous linear system are completely known， and it does not require further estimation of the parameters of the dynamic model. Firstly， the algebraic Riccati equation was obtained by using the optimal control problem of optimal performance based on dynamic programming. Then， the iterative Bellman equation was obtained by using the integral reinforcement learning method， and the integral reinforcement learning algorithm was further used to analyze whether the algorithm is effective for uncertain systems. Finally， an example was given to verify the influence on the continuous linear uncertain system with or without considering the existence state of uncertainty.

Keywords： integral reinforcement learning;continuous system;robustness;uncertainty

1 研究背景

強化學習（Reinforcement Learning）又稱再勵學習、評價學習或增強學習，是智能系統從環境到行為映射的學習方式，以使獎勵信號（強化信號）函數值最大。控制系統在試錯過程中，外界會針對試錯結果進行一定的反饋，此過程中強化學習算法可以調節相關參數以獲得更好的控制結果。該算法利用系統的部分或完全動力學知識來強化學習系統的控制器。然而，對于許多實際問題很難得到系統動力學知識。積分強化學習是針對系統模型參數未知的連續系統，且無須估計動態模型參數的一種強化學習方法。近年來，隨著對不確定連續系統研究的深入，研究者們致力于發展積分強化學習方法，以獲得不確定動態系統的最優控制器。

目前，越來越多的研究開始涉獵積分強化學習并將其應用于自動控制領域，其中在連續線性系統中應用較多。采用積分強化學習方法，不完全依賴系統模型參數，而是利用數據學習狀態反饋來判斷控制策略是否最優。優化控制系統性能的研究成果有很多，如研究線性系統最優調節[1]、近似動態規劃最優控制[2]、自適應容錯控制[3]等。策略學習（on-policy）指獲取數據的動作和最終策略的動作是一致的，非策略學習（off-policy）即獲取數據的動作和最終策略的動作不一致。積分強化學習涉及兩個關鍵流程：一是選擇用來獲取數據的動作，二是最終用來選擇動作的策略。因此本文采用策略學習進行動作。從線性連續系統的相關文獻[4]來看，其并未考慮不確定性的存在，控制器是否能在存在不確定性的前提下有效使用值得我們深入探究和驗證。

本論文驗證了一種基于積分強化學習算法的控制器用以解決連續線性系統部分參數未知的線性問題。首先，給出具有不確定性的優化問題模型，假設該系統不存在不確定性，然后給出基于積分強化學習的數據驅動的算法，以保證系統穩定并且優化控制器相關性能指標。之后通過實驗分析表明，在系統存在不確定性并且該不確定性不可忽略的條件下，控制器作用無效即不能保證該線性連續系統的穩定性。最后通過仿真實驗驗證了所提算法對最優控制解的收斂程度。

2 問題闡述

考慮如下線性連續時間系統：

河南科技2020年28期

河南科技的其它文章: 地形圖等高線采集重難點及特殊地貌表示方法; 生態修復技術在秦安縣城區段葫蘆河生態治理中的應用; 2018年4月濮陽春季首場暴雨天氣過程的診斷分析; 天水市北山滑坡群危害預測與地質災害防治措施; 南昌一次大范圍雷暴大風過程分析; 農村生活污水處理站設計要點分析