999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Q學習的有限時間隨機線性二次最優控制

2020-06-08 03:01:04羅敏娜崔黎黎
關鍵詞:系統

王 濤, 羅敏娜, 王 娜, 崔黎黎

(1. 沈陽師范大學 計算機與數學基礎教學部, 沈陽 110034; 2. 沈陽師范大學 軟件學院, 沈陽 110034)

0 引 言

在控制領域中,求解隨機線性二次(SLQ)最優控制問題是一個非常活躍和有前景的課題,近些年來引起廣泛的關注[1-3]。與確定性情況相似,SLQ最優控制問題依賴于隨機代數Riccati方程(SARE)[4-5]。在一些文獻中已經給出求解SARE相應的算法。例如,考慮到線性矩陣不等式的可解性等價于SARE的可解性,引進基于半定規劃的計算方法求解權重矩陣不定的SLQ最優控制問題[6]。根據一般化差分Riccati方程,Rami等人[7]得到權重矩陣不定的離散時間線性二次最優控制集。利用拉格朗日乘子定理得到了線性終端狀態約束條件下不定的SLQ最優線性狀態反饋解[8]。針對有限時間不定的平均場SLQ最優控制問題,Ni等人[9]給出依賴帶有平穩性條件和凸性條件的線性平均場正倒向隨機差分方程的開環最優控制。采用基于路徑積分的自適應評價算法求解仿射非線性隨機系統對應的最優控制策略[10]。在權重矩陣不定的情況下,Li等人[11]中討論了帶有泊松過程的隨機哈密頓系統解的存在性和唯一性條件。通過提出一種基于樣本數據的數字方法,充分利用正倒向隨機微分方程求解隨機最優控制問題[12]。Zhang和Yan[13]基于倒向隨機微分方程給出混合最優控制。

從上面介紹的方法可以發現,求解SLQ最優控制問題需要系統參數的信息,但許多實際問題的數學模型很難建立,如何在模型參數部分未知的條件下求解有限時間SLQ最優控制問題已成為隨機最優控制領域的研究熱點。本文采用Q學習迭代算法求解有限時間SLQ最優控制問題,該方法充分利用系統狀態信息,避免了系統參數部分未知的限制。

1 問題描述

考慮如下隨機線性離散時間系統

(1)

設系統(1)對應的性能指標函數為

(2)

若對于任意初始狀態x0,存在一個控制序列使性能指標函數(2)達到最小值,則稱隨機線性二次最優控制問題是可達的。本文將在線性反饋控制uk=Lkxk,Lk∈Rm×n中尋找最優控制序列,稱常值實矩陣Lk為控制增益矩陣。下面通過系統變換將有限時間SLQ最優控制問題轉化為相應的確定性最優控制問題。

給定線性反饋控制uk=Lkxk,帶入式(1)得

(3)

相應地,性能指標函數(2)轉化為

若對任意初始狀態x0,性能指標函數滿足

則稱隨機線性二次最優控制問題是適應的。下面給出隨機線性二次最優控制問題適應性條件。

證明 證明過程參考引理1[14]。

引理2 如果隨機線性二次最優控制問題是可達的,則最優控制增益矩陣序列為

(4)

證明 通過矩陣拉格朗日乘子算法獲得最優控制增益矩陣序列,首先構造拉格朗日函數:

注釋1 由引理2知,最優控制增益矩陣序列依賴于系統模型參數A,B,C,D。雖然參數A,B是已知的,但參數C,D是未知的,通過求解SARE獲得最優控制增益矩陣序列是行不通的。

2 Q學習算法的推導和收斂性證明

2.1 Q函數的引入

根據貝爾曼最優性原理知,

Q函數定義為

(5)

根據引理1,最優性能指標函數可以表示為

將式(6)帶入式(5),Q函數又可以寫為

這里定義H矩陣為

則Q函數簡化為

最優控制增益矩陣表示為

注釋2最優控制增益矩陣序列僅依賴H矩陣,完全擺脫了系統模型參數未知的限制。下面通過Q學習迭代算法估計H矩陣序列。

2.2 Q學習算法的推導

給定系統初始狀態xk和初始控制u0(xk),設Q0(xk,uk)=0,則

當i≥1時,Q學習迭代算法在

(7)

(8)

之間迭代。

下面給出Q學習迭代算法(7)、(8)的等價形:

(10)

2.3 Q學習迭代算法收斂性證明

本文提出的Q學習迭代算法是建立在值迭代算法基礎之上,下面給出相應的值迭代算法

引理4Q學習迭代算法式(9)和式(10)等價于

(13)

證明 式(9)等號右端最后一項可以寫為

將上式帶入式(9),考慮到系統狀態xk的任意性,則

根據Q學習迭代算法知,

(15)

將式(15)帶入式(14),則

(16)

在式(15)基礎上,可以得到

結合式(16),有

(17)

根據式(10)和式(16),可以得出

(18)

將式(18)帶入式(17),則式(17)可以轉化為式(13)。

證明 根據式(11),知

因為系統狀態xk的任意性,所以

根據式(11)和函數極值的必要條件,則

(20)

將式(20)帶入式(19),則式(19)可以轉化為

3 Q學習迭代算法的實現

在實際問題中,由于系統狀態依賴于噪聲,所以系統狀態軌跡具有很強的隨機性。為了實現Q學習迭代算法,下面通過系統變換將隨機Q學習迭代算法轉化為確定性迭代算法。

給定系統初始狀態x0和控制增益矩陣LN-1,LN-2,…,Lk,則

在系統狀態轉移過程中,控制增益矩陣在不同的時間區間上不同,當控制增益矩陣序列LN-1,LN-2,…,Lk+1確定后,控制增益矩陣Lk可由下式計算得到。

根據式(21)和式(22),式(9)等號左邊又可寫為

式(9)等號右邊又可以寫為

4 仿真研究

本節將通過一個仿真例子說明Q學習迭代算法的有效性。考慮二階隨機線性離散時間系統

通過求解SARE獲得最優控制增益矩陣序列需要系統參數A,B,C,D的全部信息,下面在系統模型參數部分未知的條件下采用Q學習迭代算法求解最優控制增益矩陣序列。

圖1 控制增益矩陣L1曲線Fig.1 Control gain matrixL1curves

圖2 控制增益矩陣L0曲線Fig.2 Control gain matrixL0curves

從以上仿真結果可以看出,在系統模型參數部分未知的情況下,通過Q學習迭代算法獲得的控制增益矩陣序列收斂到各自的最優值,這就說明了Q學習迭代算法是有效的。

5 結 論

求解SLQ最優控制問題通常需要系統參數全部信息,但在實際問題中,得到系統參數信息是一件很困難的事情。當系統模型參數部分未知時,如何獲得最優控制變得十分有意義。因為系統參數的信息包含在系統狀態中,所以Q學習算法充分利用系統狀態信息求解最優控制。最后通過仿真實例說明了Q學習算法的有效性。

猜你喜歡
系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
基于UG的發射箱自動化虛擬裝配系統開發
半沸制皂系統(下)
FAO系統特有功能分析及互聯互通探討
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統 德行天下
PLC在多段調速系統中的應用
主站蜘蛛池模板: 手机在线看片不卡中文字幕| 在线观看热码亚洲av每日更新| 亚洲成a人在线观看| 香蕉eeww99国产在线观看| 久夜色精品国产噜噜| 中文字幕无码av专区久久| 99精品一区二区免费视频| 久久亚洲国产一区二区| 91精品国产自产在线老师啪l| 国产成人精品第一区二区| 婷五月综合| 国产精品一区在线观看你懂的| 欧美劲爆第一页| 国产毛片高清一级国语 | 成人在线亚洲| 天天色综合4| 无码一区18禁| 麻豆国产在线观看一区二区| 国产色网站| 亚洲av综合网| 四虎永久免费在线| 亚洲精品欧美日本中文字幕| 国产一级毛片在线| 久久综合国产乱子免费| 尤物视频一区| 成人午夜免费观看| 欧美α片免费观看| 九九热精品在线视频| 亚洲成A人V欧美综合| 国内a级毛片| 国产成人啪视频一区二区三区| 亚洲一区二区三区国产精品| 精品久久综合1区2区3区激情| yy6080理论大片一级久久| 国产午夜不卡| 99免费视频观看| 人妻丰满熟妇啪啪| 麻豆精品久久久久久久99蜜桃| 尤物精品国产福利网站| 成人午夜亚洲影视在线观看| 精品自窥自偷在线看| 国产极品粉嫩小泬免费看| 中文字幕2区| av在线无码浏览| 一本大道香蕉高清久久| 欧美乱妇高清无乱码免费| 日韩成人午夜| 国产在线一区二区视频| 久久久黄色片| 久久美女精品| 亚洲人成影视在线观看| 露脸真实国语乱在线观看| 2019年国产精品自拍不卡| 亚洲一区二区三区香蕉| 天堂成人在线| 91久久青青草原精品国产| 日韩在线观看网站| 成人综合在线观看| 无码免费视频| 国产精品黑色丝袜的老师| 中文字幕在线观看日本| 666精品国产精品亚洲| 欧美日韩福利| 亚洲最大看欧美片网站地址| 亚洲精品成人7777在线观看| 99国产在线视频| 青青操国产视频| 在线观看国产黄色| 69av免费视频| 91成人在线观看| 亚洲 日韩 激情 无码 中出| 国产青榴视频在线观看网站| 国产高清在线观看91精品| 国产自无码视频在线观看| 久久青草视频| 成人免费一级片| 一区二区午夜| 三上悠亚在线精品二区| 亚洲最新网址| 操操操综合网| 国产日产欧美精品| 99精品在线看|