999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的切換系統(tǒng)綜合性能優(yōu)化設計

2022-12-09 09:25:32孫振東王苗苗
廈門大學學報(自然科學版) 2022年6期
關鍵詞:定義優(yōu)化策略

孫振東,王苗苗

(1.山東科技大學電氣與自動化工程學院,山東青島266590;2.中國科學院數(shù)學與系統(tǒng)科學研究院系統(tǒng)控制重點實驗室,北京100190)

切換線性系統(tǒng)由多個線性子系統(tǒng)和一個在子系統(tǒng)間進行切換的監(jiān)控裝置組成.這類系統(tǒng)包含取值于連續(xù)空間的系統(tǒng)動態(tài)、取值于離散空間的切換動態(tài)、及其相互作用,是一類基本而典型的混合動態(tài)系統(tǒng).切換系統(tǒng)為復雜系統(tǒng)建模和控制設計提供了行之有效的體系架構.經(jīng)過近30年研究,對切換系統(tǒng)的探索已取得巨大進展,包括能控性、能穩(wěn)性、魯棒性、適應性等性能[1-5].已有的部分工作表明,切換控制在改進系統(tǒng)暫態(tài)性能方面具有巨大潛力[6-7].然而,現(xiàn)有的多數(shù)切換設計方法可能引起高頻切換或控制信號躍變,損害整體系統(tǒng)的暫態(tài)性能,從而限制了切換控制的可應用性.

經(jīng)典頻域方法在工程應用上的一個突出優(yōu)勢是可以對系統(tǒng)的暫態(tài)性能進行評估和優(yōu)化[8].與之相比,基于時域分析的現(xiàn)代控制理論尚缺乏優(yōu)化復雜系統(tǒng)暫態(tài)性能的基本工具.即便對線性系統(tǒng),針對暫態(tài)性能的研究成果還遠未完善[9-10],而對非線性系統(tǒng)超調控制的研究更是鳳毛麟角[11-12].利用多模型切換優(yōu)化系統(tǒng)暫態(tài)性能的文獻參見文獻[13-14].

本文探索連續(xù)時間切換線性自治系統(tǒng)的綜合性能優(yōu)化,力圖通過有效的切換策略設計實現(xiàn)包括狀態(tài)模超調,調節(jié)時間和指數(shù)收斂速率的多目標優(yōu)化.該多目標優(yōu)化是建立在整個時間空間的分階段優(yōu)化,各階段的時間窗口依賴于初始條件,因此無法通過預測控制進行滾動式優(yōu)化.另一方面,優(yōu)化的變量是切換策略而非傳統(tǒng)的控制輸入,缺乏基于變分法的最優(yōu)控制方法.

強化學習是3種基本機器學習范式之一,它關注智能體如何在不確定環(huán)境/非平穩(wěn)過程中采取行動以獲得最大獎賞或最小成本[15].對于給定的成本和初態(tài),智能體要尋求適當?shù)男袆硬呗砸垣@取最優(yōu)的長期(強化)收益[16].切換系統(tǒng)具有多模態(tài)切換和清晰的執(zhí)行-監(jiān)控雙層結構,所以將切換信號構成行動策略空間,利用強化學習對切換規(guī)則的優(yōu)化設計可以探索切換系統(tǒng)的最優(yōu)控制和最優(yōu)資源配置等優(yōu)化問題.但是,對二次型(積分)形式的優(yōu)化函數(shù),盡管基于自適應動態(tài)規(guī)劃/強化學習的最優(yōu)控制方法已成功應用于離散時間切換系統(tǒng)的優(yōu)化設計[17-18];對連續(xù)時間切換系統(tǒng),由于行動取值于連續(xù)空間,難以實現(xiàn)有效搜索[19],迄今為止,在文獻上仍未見強化學習對連續(xù)時間切換系統(tǒng)的有效處理.

本文借鑒強化學習的算法思路[20-21],通過分路徑模壓縮的設計方法,在無窮的切換策略中汲取有限個行為策略,通過對有限行為策略的串接擴展實現(xiàn)強化信號(系統(tǒng)性能)的迭代優(yōu)化.選擇強化學習方法的優(yōu)勢包括:1) 利用行為→獎賞模式模擬切換邏輯動態(tài)與連續(xù)動態(tài)性能的交互;2) 對切換策略空間進行有效離散化,可在優(yōu)化目標收斂性和計算復雜度間取得良好平衡;3) 對切換策略的離散化(而不是采樣)可避免Zeno現(xiàn)象的發(fā)生.由于優(yōu)化策略是依賴于系統(tǒng)初始狀態(tài)的,不同初態(tài)會對應截然不同的行為動作.本文發(fā)展有效結合動態(tài)系統(tǒng)分析和策略驅動學習的優(yōu)化算法,分別給出超調、調節(jié)時間和指數(shù)收斂率的優(yōu)化估計.

1 預備知識

本文考慮不含輸入的連續(xù)時間切換線性自治系統(tǒng)

(1)

切換路徑是定義在有限時間區(qū)間的切換信號.設切換路徑θ是定義在區(qū)間[0,s)上的, 則定義|θ|=s.給定切換路徑θ1和θ2,定義其串接(coneatenation)θ1∧θ2為

(θ1∧θ2)(t)=

多個切換路徑的串接可類同定義.

設t0,t1,…,tk是切換路徑θ的切換時間,則此路徑對應的狀態(tài)轉移矩陣為

Φθ=

eAσ(tk)(|θ|-tk)eAσ(tk-1)(tk-tk-1)…eAσ(t1)(t2-t1)eAσ(t0)(t1-t0).

定義1稱切換系統(tǒng)(1)為可指數(shù)鎮(zhèn)定的,若存在正實數(shù)α,β及切換信號σ,使得

‖φ(t;0,x0,σ)‖≤βe-αt‖x0‖,

?x0∈Rn,t≥0.

這里α稱為指數(shù)收斂率.

引理1[2]切換系統(tǒng)(1)是可指數(shù)鎮(zhèn)定的充要條件是對任意γ>0,存在有限個切換路徑θi,i=1,2,…,l,滿足

?x0∈Rn.

(2)

定義2對切換系統(tǒng)(1),設初態(tài)x0≠0,定義x0對應的(狀態(tài)模)超調是

注1上述關于系統(tǒng)超調的定義與經(jīng)典概念有區(qū)別:這里考慮的是切換系統(tǒng)在鎮(zhèn)定設計基礎上的超調量,因此假設狀態(tài)收斂到原點且初值非零.這實際上結合了經(jīng)典控制中的超調和欠調概念.顯見,若系統(tǒng)可指數(shù)鎮(zhèn)定,則每個非原點初態(tài)對應的超調是有限的.

定義3對切換系統(tǒng)(1),設初態(tài)x0≠0,給定∈(0,1).定義x0對應的-調節(jié)時間是

TS(x0,‖x0‖}.

注2可以證明,如果系統(tǒng)可指數(shù)鎮(zhèn)定,那么對任給正實數(shù),系統(tǒng)具有有限的-調節(jié)時間.反之亦然.

2 問題的提出和分解

本文針對切換系統(tǒng)(1),探索系統(tǒng)綜合性能的優(yōu)化設計,針對給定的系統(tǒng)初態(tài),實現(xiàn)包括超調量、調節(jié)時間和指數(shù)收斂率的優(yōu)化計算.為此,作以下假設:

假設1系統(tǒng)(1)可指數(shù)鎮(zhèn)定.

k=1,2,…,

類似可定義Γ∞.

固定初態(tài)x0≠0和≠(0,1).不妨設‖x0‖=1(否則令x0x0/‖x0‖).

考慮到優(yōu)化目標的基本特征,分3個階段進行設計.

第一階段,優(yōu)化指標為超調,即

這里VEO是VO(x0)的上界估計.

第二階段,在超調約束下優(yōu)化調節(jié)時間,即

TES=min{|θ|:?θ∈Γ∞s.t.‖φ(τ;0,x0,

第三階段,在超調和優(yōu)化時間約束下優(yōu)化指數(shù)收斂率,即

進一步,選取θ(近似)滿足上述要求.

完成這3步設計后,切換信號θ即為尋求的優(yōu)化解.

3 主要結果

3.1 系統(tǒng)分析

記H1為Rn上的單位球面.對任一壓縮基路徑θi,i=1,2,…,l,定義其對應的單位球上的壓縮區(qū)域

Ωi={x0∈H1:‖φ(si;0,x0,θi)‖≤γ‖x0‖},

i=1,2,…,l.

進一步,定義

利用S-步驟(S-procedure)技術,可以證明

(3)

其中Vsmin是矩陣的最小奇異值.從計算角度,利用上式通過自適應采樣和奇異值分解技術可求得Li.記L=max{L1,L2,…,Ll}.

引理2VO≤L.

證明對任意x0∈H1,利用文獻[2]§4.4.1給出的分路徑狀態(tài)反饋切換策略,存在切換路徑

θ=θj1∧θj2∧…∈Γ∞,

使得系統(tǒng)軌線φ(t;0,x0,θ)指數(shù)收斂.令

ti=|θji|,xi=φ(ti;0,xi-1,θ),i=1,2,….

注意到xi∈Ωji,i=1,2,…,于是有

引理得證.

注3引理2給出系統(tǒng)超調的上界估計.這一估計的精度取決于基壓縮路徑庫的豐度.一般地,系統(tǒng)超調是難以精確求得的.

引理3對任意的初態(tài)x0,在分路徑狀態(tài)反饋切換策略下有

‖φ(t;0,x0,θ)‖≤β0e-α0t‖x0‖.

(4)

證明在分路徑狀態(tài)反饋切換策略下有

‖φ(|θj1|+|θj2|+…+|θjk|;0,x0,θ)‖≤γk,

k=1,2,….

由此可知

由此可知系統(tǒng)漸近收斂率不小于α0.另一方面,考慮系統(tǒng)在[0,|θj1|)上的動態(tài),設τ滿足

eα0τ‖φ(τ;0,x0,θ)‖=

利用軌線端點狀態(tài)模信息,可得

消去τ,可知

記x1=φ(|θj1|;0,x0,θ)類似可以證明

eα0t‖φ(t;0,x0,θ)‖≤eα0(t-|θj1|)‖φ(t-|θj1|;

0,x1,θ)‖≤β0,t∈[|θj1|,|θj1|+|θj2|).

如此繼續(xù)下去,引理得證.

‖φ(t;0,x0,θ)‖≤‖x0‖.

(5)

由定義3,引理得證.

3.2 優(yōu)化算法

對特定的初態(tài),其對應的超調和調節(jié)時間一般遠小于系統(tǒng)的超調和調節(jié)時間.借鑒強化學習的優(yōu)化思路,以下分別給出求解超調和調節(jié)時間的算法設計.

3.2.1 求解超調估計量VEO的學習算法

第k步:對Λ中每個路徑θ,逐一進行以下計算.

2) 判斷是否Λ=?

(a) 若是,輸出VEO,算法結束

注4在此算法中,切換策略庫Λ一方面隨著k增加進行了更多層的串接,同時又不斷被修剪(pruning).數(shù)值計算中,系統(tǒng)軌線{φ(t;0,x0,θ):t∈[0,|θ|]}可以用Runge-Kutta四階法數(shù)值求解.由于系統(tǒng)軌線可視作多條局部軌線的聯(lián)接,其求解可分配到不同的計算步驟中,每步只需保存末端狀態(tài)值即可.

命題1求解超調估計量VEO的學習算法在有限步結束.

3.2.2 求解調節(jié)時間估計量TES的學習算法

第k步:對Λ中每個路徑θ,逐一進行以下計算.

(b) 若否,進一步檢查是否VOθ≤L

2) 判斷是否Λ=?

(a) 若是,輸出TES,算法結束

注5容易證明,本算法在有限步結束,給出在超調約束下的調節(jié)時間優(yōu)化估計VEO.

3.2.3 求解收斂速率估計量REC的學習算法

第k步:對Λ中每個路徑θ,逐一進行以下計算.

2) 判斷是否Λ=?

(a) 若是,輸出REC算法結束

注6容易證明,本算法在有限步結束,給出在超調和調節(jié)時間約束下收斂速率的優(yōu)化估計REC.

4 仿真例子

考慮帶兩個子系統(tǒng)的三階切換系統(tǒng):

(6)

其中

可以證明,不存在切換路徑實現(xiàn)整個狀態(tài)空間的模壓縮[參見文獻[22],Corollary 3.12].另一方面, 取γ=0.95,通過計算可以設計12個切換路徑對整個狀態(tài)空間分段模壓縮.進一步,依據(jù)引理2和引理4可以分別求出系統(tǒng)超調和調節(jié)時間的上界

表1 學習算法執(zhí)行的相關參數(shù)

圖1是優(yōu)化后的系統(tǒng)軌線仿真.

圖1 超調優(yōu)化的系統(tǒng)軌線Fig.1System trajectory for overshoot optimization

進一步,在超調約束下執(zhí)行求解調節(jié)時間估計量TES的學習算法,獲得優(yōu)化的調節(jié)時間16.715 5 s.有趣的是,對應的超調為1.243 3,比單純優(yōu)化超調得到更優(yōu)的超調.在此基礎上,給定時間區(qū)間[0,100],繼續(xù)優(yōu)化指數(shù)收斂率.圖2是整體性能優(yōu)化后的系統(tǒng)軌線仿真.

圖2 整體性能優(yōu)化的系統(tǒng)軌線Fig.2System trajectory for overall performance optimization

5 結 論

針對連續(xù)時間切換線性自治系統(tǒng),借鑒強化學習思路和分路徑模壓縮的設計方法,通過對有限行為策略的串接擴展實現(xiàn)系統(tǒng)性能的迭代優(yōu)化.進一步,發(fā)展有效結合動態(tài)系統(tǒng)分析和策略驅動學習的優(yōu)化算法,分別給出超調、調節(jié)時間和指數(shù)收斂率的優(yōu)化估計.

猜你喜歡
定義優(yōu)化策略
超限高層建筑結構設計與優(yōu)化思考
民用建筑防煙排煙設計優(yōu)化探討
關于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
例談未知角三角函數(shù)值的求解策略
我說你做講策略
高中數(shù)學復習的具體策略
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
Passage Four
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
主站蜘蛛池模板: av午夜福利一片免费看| 九九九精品成人免费视频7| 久久99国产综合精品1| 久久精品国产电影| 精品视频一区二区观看| 亚洲精品视频免费看| 中文无码日韩精品| 亚洲天天更新| 中文字幕亚洲专区第19页| 成年网址网站在线观看| 999精品视频在线| 在线综合亚洲欧美网站| 99久久无色码中文字幕| 26uuu国产精品视频| 国产91蝌蚪窝| 老司机久久99久久精品播放| 国产视频 第一页| 免费国产无遮挡又黄又爽| 97国产在线视频| 国产午夜在线观看视频| 波多野结衣在线一区二区| 特级aaaaaaaaa毛片免费视频| 国产精品亚洲片在线va| 无码一区中文字幕| 2021国产在线视频| 九九九精品视频| 国产亚洲精品91| 国产高清精品在线91| 麻豆国产原创视频在线播放| a欧美在线| 超碰色了色| 国产精品内射视频| 在线亚洲小视频| 久久特级毛片| 91综合色区亚洲熟妇p| 亚洲男人的天堂久久香蕉 | 五月婷婷中文字幕| 欧美亚洲欧美区| 992tv国产人成在线观看| 伊人婷婷色香五月综合缴缴情| 天天躁狠狠躁| 亚洲精品第一页不卡| 71pao成人国产永久免费视频 | 国产一级α片| 成人噜噜噜视频在线观看| 久久久久免费看成人影片| 亚洲欧美人成电影在线观看| 欧美日韩在线观看一区二区三区| 激情无码字幕综合| 国产精品2| 亚洲天堂在线免费| 91精品伊人久久大香线蕉| 亚洲中文字幕精品| 五月综合色婷婷| 在线视频一区二区三区不卡| 亚洲色欲色欲www在线观看| 欧美性爱精品一区二区三区| 91成人试看福利体验区| 女同久久精品国产99国| 日韩在线网址| 亚洲Av激情网五月天| 91精品啪在线观看国产60岁| 久久综合九九亚洲一区| 亚洲热线99精品视频| 五月丁香伊人啪啪手机免费观看| 99热这里都是国产精品| 国产色婷婷视频在线观看| 青青热久免费精品视频6| 国产精品嫩草影院av| 不卡无码网| 99视频精品全国免费品| 91成人在线观看视频| 日韩精品专区免费无码aⅴ| 91成人免费观看在线观看| 四虎国产成人免费观看| 久久毛片网| 亚洲天堂精品视频| 国产SUV精品一区二区6| 中文字幕日韩欧美| 红杏AV在线无码| 国产SUV精品一区二区6| A级全黄试看30分钟小视频|