999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

隨機線性二次問題中一類改進的強化學習方法

2024-11-11 00:00:00高晉鵬
科技創新與應用 2024年32期

摘" 要:隨機線性二次問題是一類重要且研究較為成熟的隨機控制問題。其中,部分信息條件下的隨機線性二次問題是指系統的狀態方程或代價函數中存在未知系數的情形,該文在前人工作的基礎上,改進部分信息條件下線性二次問題的最優控制在線強化學習算法。所研究系統方程和代價函數的系數都存在未知量,在此條件下,算法通過可觀察的樣本軌跡和回報函數求得最優控制以及代價函數中的未知系數,進一步地,我們給出迭代過程收斂性與控制穩定性的證明。

關鍵詞:隨機線性二次問題;部分信息;李雅普諾夫方程;強化學習;動態規劃原理

中圖分類號:O211.63" " " 文獻標志碼:A" " " " " 文章編號:2095-2945(2024)32-0142-04

Abstract: Random linear quadratic problems are important and mature stochastic control problems. Among them, the stochastic linear quadratic problem under partial information conditions refers to the situation where there are unknown coefficients in the state equation or cost function of the system. Based on previous work, this paper improves the optimal control online reinforcement learning algorithm for linear quadratic problems under partial information conditions. The coefficients of the studied system equations and cost function have unknown quantities. In this condition, the algorithm obtains the optimal control and the unknown coefficients in the cost function through the observable sample trajectory and the reward function. At the same time, the convergence and stability of the iterative process are proved.

Keywords: random linear quadratic problem; partial information; Lyapunov equation; reinforcement learning; dynamic programming principle

強化學習來源于早期的學習控制問題,不同于其他機器學習技術,諸如監督學習、無監督學習,強化學習方法專注于在不研究問題隱含結構的情況下求解最優化回報函數。試驗-糾偏,以及行為影響具有持續性是強化學習的主要特征,即最優策略的習得通過不斷試驗與誤差矯正,系統行為不僅僅影響當前回報,同時影響后續回報。強化學習中的控制者需要根據當前的經驗給出最優控制(即使得所定義的代價函數最小的控制),同時基于反饋探索新的策略,在優化與探索之間建立平衡是強化學習當前面臨的最主要挑戰。

最優控制是控制理論中的重要問題,當精確模型尚未建立時,可以考慮用直接策略與間接策略尋找最優控制。間接策略目的在于探究系統的信息,并基于此求解最優控制;直接策略繞開對系統進行精確建模,直接求解。

最優控制。強化學習是一種直接控制策略,通過持續學習回報函數,使得控制不斷趨于最優。相較而言,間接策略需要先對系統建模再確定控制,本質上使問題求解變得復雜,文獻[1-2]介紹了強化學習方面的若干最新進展。

由于大量非線性問題可以通過線性問題近似化處理,線性二次問題是一類理論與實際中都非常重要的最優控制問題,,關于其詳細論述參見文獻[3]。本文提出一類通過強化學習方法求解部分信息線性二次最優控制問題的算法。它改進了文獻[4]工作中對未知系數的限制,給出已知信息條件更少情況下的求解算法。

1" 研究對象與預備工作

考慮如下的時不變隨機線性動態控制系統

式中:系數A,C∈Rn×n,B,D∈Rn×m為常數矩陣;W(·)是一維標準布朗運動。系統狀態X(·)是n維向量, 控制u是m維向量。X(t)=x為確定初始狀態。為表示簡單,用[A,C;B,D]表示系統(1)。同時,記Sn(S,S)為Rn×n上的對稱(半正定,正定)矩陣集合。

定義1系統[A,C;B,D]稱為均值平方穩定,若存在常數矩陣K∈Rm×n使得下列方程的唯一解

假設1:系統(1)是均值平方穩定的,即

χ[A,C;B,D]≠?。

下面的引理1給出了系統(1)存在穩定子的等價條件,證明可參見文獻[5]。

引理1:矩陣K∈Rm×n為系統[A,C;B,D]的穩定子當且僅當存在矩陣P∈S使得

(A+BK)ТP+P(A+BK)+(C+DK)ТP(C+DK)lt;0.(3)

此時,對任意Q∈Sn(S,S),李雅普諾夫方程

(A+BK)ТP+P(A+BK)+(C+DK)ТP(C+DK)+Q=0.(4)

存在唯一解P∈Sn(S,S)。

當系統[A,C;B,D]均值平方穩定,定義其允許控制集Uad={u(·)∈L(Rm):u(·)是穩定的}。

本文中考慮如下形式的二次代價函數

假設2:R,Q是適當維數的常數正定矩陣,且R是給定的,Q是未知的。

(SLQ問題)對于t≥0,x∈Rn,求滿足條件的u*(·)∈Uad,使得

J(t,x,u*(·))=infJ(t,x,u(·))V(t,x),(6)

式中:V(t,x)稱為SLQ問題的值函數。SLQ問題稱為適定的若V(t,x)gt;-∞。一個適定的問題稱為可解的若存在控制u*(·)∈Uad,使得J(t,x,u*(·))V(t,x)。此時,u*(·)稱為最優控制,X*(·)稱為最優軌跡,(X*(·),u*(·))稱為最優二元組。下述引理證明可參見文獻[5]。

引理2:設矩陣P∈S滿足下列李雅普諾夫方程

(A+BK)ТP+P(A+BK)+(C+DK)ТP(C+DK)+KТ RK+Q=0," " " " " " " " " "(7)

式中:K=-(R+DТPD)-1(BТP+DТPC),則u(·)=KX(·)為SLQ問題的最優控制,且V(t,x)=xТPx。進一步,貝爾曼動態規劃原理對任意Δtgt;0成立,

由引理2,把V(t,x)的求解轉化為求矩陣P,在式(5)中R,Q均已知,系統(1)中A未知的條件下,參考文獻[4]給出僅依賴局部狀態軌跡X(·)解SLQ問題的在線算法。

2" 改進的強化學習方法

沿著文獻[4]中算法思路,進一步得出在系統(1)中A及代價函數(5)中Q均未知的情況下求解SLQ問題的在線算法,需要觀察得到的已知量為狀態軌跡X(·)及回報函數r(s,X)=X(s)ТQX(s)+u(s)ТRu(s),進一步,未知參數Q可以同時求解。

算法1:SLQ問題的迭代求解。

引理3:當假設2成立,系統[A,C;B,D]有穩定子K(i),則算法1中的(10)式等價于李雅普諾夫迭代

3" 結束語

本文在前人工作的基礎上,改進了部分信息條件下隨機線性二次最優控制問題的在線強化學習方法。所研究系統方程和代價函數的系數都存在未知量,在此條件下,算法通過可觀察的樣本軌跡和回報函數求得最優控制以及代價函數中的未知系數。進一步地,我們證明了算法的收斂性與收斂過程中控制的穩定性。

參考文獻:

[1] WANG H, ZARIPHOPOULOU T, ZHOU X Y. Reinforcement learning in continuous time and space: A stochastic control approach[J].JOURNAL OF MACHINE LEARNING RESEARCH,2020,21:1-34.

[2] JIA Y,ZHOU X Y. Policy evaluation and temporal-difference learning in continuous time and space: A martingale approach[J].Journal of Machine Learning Research,2022,23(154):1-55.

[3] YONG J,ZHOU X Y. Stochastic controls: hamiltonian systems and HJB equations[M]. New York, NY: Springer,1999.

[4] LI N,LI X, PENG J, et al. Stochastic linear quadratic optimal control problem: A reinforcement learning method [J].IEEE Trans, Autom. Control,2022,67(9):5009-2022.

[5] MA R,ZHOU X Y. Linear matrix inequalities, Riccati equations, and indefinite stochastic linear quadratic controls[J].IEEE Transactions on Automatic Control,2000,45(6):1131-1143.

主站蜘蛛池模板: 国产国语一级毛片| 丁香五月激情图片| 国模沟沟一区二区三区| 亚洲中文字幕国产av| 国产第四页| 婷婷亚洲天堂| 久久一本精品久久久ー99| 伊人久久久久久久| 精品在线免费播放| 国产亚洲高清视频| 国产天天色| 亚洲国产AV无码综合原创| 被公侵犯人妻少妇一区二区三区| 91福利在线观看视频| 国产嫩草在线观看| 午夜国产小视频| 高清亚洲欧美在线看| 白浆视频在线观看| 在线观看亚洲精品福利片| 99尹人香蕉国产免费天天拍| 超碰免费91| 一边摸一边做爽的视频17国产| 免费无码又爽又刺激高| 亚洲国产精品日韩专区AV| 伊人91在线| 亚洲欧美日韩动漫| 欧美在线天堂| 成人a免费α片在线视频网站| 一级毛片在线免费视频| 精品无码人妻一区二区| 91啦中文字幕| 成人免费网站在线观看| 日韩黄色在线| 伊人色综合久久天天| aaa国产一级毛片| 中文字幕人妻av一区二区| 操国产美女| 91精品福利自产拍在线观看| 精品国产免费观看一区| 国产精品伦视频观看免费| 色欲综合久久中文字幕网| 99热这里只有精品免费| 免费在线国产一区二区三区精品| 欧美亚洲一区二区三区导航| 国产激情国语对白普通话| 国产99欧美精品久久精品久久| 婷婷六月综合| 久操中文在线| 嫩草影院在线观看精品视频| 日韩小视频在线观看| 97视频免费看| 亚洲精品无码抽插日韩| 白浆视频在线观看| 欧洲av毛片| 国产啪在线91| 国产哺乳奶水91在线播放| 成人福利视频网| 久久综合色天堂av| 日韩激情成人| 精品无码人妻一区二区| 九色最新网址| 国产白丝av| 国产手机在线观看| 久久夜色精品国产嚕嚕亚洲av| 婷婷色一区二区三区| 国产精女同一区二区三区久| 亚洲久悠悠色悠在线播放| 国产精品美人久久久久久AV| 国产成人麻豆精品| 欧美国产在线一区| 女人av社区男人的天堂| 色婷婷在线影院| 亚洲第一视频网站| 婷婷综合缴情亚洲五月伊| 四虎AV麻豆| 久草青青在线视频| 欧美日韩另类国产| 国产亚洲精品自在久久不卡 | 亚洲一区免费看| 欧美有码在线观看| 亚洲无码高清免费视频亚洲 | 国产十八禁在线观看免费|