999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Q網絡的磁懸浮自學習控制系統設計

2021-10-13 14:32:04黃濤班曉軍吳奮黃顯林
電機與控制學報 2021年9期
關鍵詞:系統

黃濤, 班曉軍, 吳奮, 黃顯林

(1.哈爾濱工業大學 控制理論與制導技術研究中心,哈爾濱 150001;2.Department of Mechanical and Aerospace Engineering,North Carolina State University, Raleigh 27695-7910, USA)

0 引 言

磁懸浮系統具有低阻力、無噪聲、壽命長等特點,在交通、機械、材料、電器等諸多領域都有著廣泛的運用。磁懸浮球系統具有非線性、開環不穩定等特性, 又因其結構簡單,而經常被用來作為驗證控制算法的研究對象。

針對磁懸浮球系統,學者們提出了許多先進的控制算法[1],包括變結構控制[2]、模糊控制[3-5]、神經網絡控制[6-7]、魯棒控制[8-9]等等。文獻[2]對存在干擾和抖動的磁懸浮球實驗平臺,通過積分補償設計了離散滑模變結構控制器;文獻[3-4]采用了模糊控制,在磁懸浮系統控制上起到了良好的效果;文獻[5]將模糊控制與滑??刂葡嘟Y合,進一步提高了磁懸浮系統的控制精度;文獻[6-7]使用RBF神經網絡控制器,對系統進行辨識后進行了神經網絡自適應狀態反饋控制器設計,在磁懸浮系統控制上也取得了良好的效果。

磁懸浮球系統在建模的過程中做了很多假設(如忽略磁漏、邊際效應等),一些物理參數難以準確獲得,這些問題都制約了建模精度,給基于精確模型的控制方法的設計帶來了困難。而PID控制、模糊控制等,雖然不需要精確的模型,但這些方法需要研究者根據經驗或實驗來選擇合適的控制規則或參數,受人為因素影響較大,且很難給出在特定指標下的最優控制。

針對以上問題,本文提出一種基于強化學習的Q網絡自學習控制方法,在無需系統模型的情況下,通過強化學習方法設計出一種磁懸浮系統自學習控制器。在基于Q網絡的強化學習算法訓練過程中,由于系統穩態的數據遠多于系統調節過程的數據,從而導致網絡對系統不同初狀態的泛化能力較弱。針對以上問題,本文首次提出基于系統加權平均狀態(weighted average state,WAS)的訓練算法,通過系統狀態濾波值,自適應調節每回合訓練的步數,提早結束每回合的訓練。最后通過數值仿真驗證了磁懸浮系統自學習控制器的有效性。數值仿真結果表明,相比常規的控制算法,在強化學習訓練中,本文提出的WAS算法能夠保證數據記憶庫中有更多系統調節狀態的數據,從而提高了網絡對系統不同初狀態的調節能力。

1 磁懸浮系統動力學模型

本研究中,采用文獻[10]中磁懸浮球系統的結構以及具體參數,磁懸浮球控制系統結構如圖1所示。

圖1 磁懸浮球控制系統結構圖Fig.1 Structure of magnetic levitation ball control system

圖中:以電磁下表面中點為原點o,豎直向下為正方向建立坐標系;x為小球距原點位移;d0為小球期望工作點;d為小球相對工作點的位移。

將小球看作質點,假設在氣隙中磁場分布均勻,并忽略磁場的渦流、磁滯等非線性因素。系統的運動學方程如下:

(1)

方程中參數含義如表1所示。

表1 系統參數

2 自學習控制器設計

強化學習(reinforcement learning,RL)是一種無監督機器學習算法,它通過智能體與環境的交互進行探索,再通過交互信息對采取的動作進行評價,進一步指導后續動作,最終得到最優的動作策略[14]。

2.1 DQN算法

Q學習(Q-learning)是一種基于狀態-行為值的異策略、無模型時序差分強化學習方法[15-16]。狀態-動作值函數Q(s,a)定義如下:

(2)

即在狀態s下,根據策略π采取動作a取得的期望累計回報,其中Rt+k+1為t+k+1步的即時回報。

DeepMind公司于2013年首次提出深度Q學習(DQN)算法,并于2015年在Nature上提出改進的DQN算法[17]。相比于傳統的基于神經網絡的Q學習方法,其提出了兩方面改進:設置記憶庫,以及設置兩個值函數網絡,用以解決基于神經網絡Q學習環節中,神經網絡訓練不穩定、難收斂問題。

DQN算法中,值函數網絡的損失函數設置如下:

(3)

值函數更新如下:

(4)

其中:θ、θ-為值函數網絡參數;α∈(0,1)為學習步長。

2.2 獎勵函數設計

獎勵函數是強化學習的優化指標,決定了最終策略的性能。本文的目標是通過迭代學習,最終獲得能使小球穩定地懸浮于指定工作點的控制策略。首先定義變量

Δd=|dold|-|dnew|。

(5)

其中:dold為小球上一時刻相對目標點位移;dnew為小球當前時刻位移;Δd反應了小球距目標點的距離隨時間變化的趨勢。

設計基于位移誤差的獎勵函數

(6)

其中:dmax為小球允許調節范圍;d為小球距目標點的偏差;r1為距離誤差獎勵;相對上一時刻,小球朝向目標點運動,函數值為正,反之為負。

為提高系統穩定性,設計基于小球速度的獎勵如下:

(7)

其中:vmax為最大允許速度;v為小球實時速度;r2為速度獎勵,小球速度絕對值越小,函數值越大,此獎勵為系統增加了阻尼項,以提高系統的穩定性。

以上獎勵函數都是基于標量進行設計,為了讓小球具有向工作點運動的趨勢,提高強化學習的收斂速度,本文還設計了基于運動方向的獎勵函數

(8)

當小球向工作點運動時,函數值為1,反之為-1。總獎勵函數R為三者的加權和,即

R=a1×r1+a2×r2+a3×r3。

(9)

其中a1、a2、a3為加權系數。

2.3 Q網絡設計

為了實現連續狀態空間下的系統控制,本文設計了基于Q網絡的自學習控制器。以小球距工作點的偏移量、速度、以及控制電流作為控制器的狀態輸入,電壓等距離散為15份,作為強化學習的有限動作空間,亦為系統的控制輸入,設計基于Q網絡的強化學習控制器如圖2所示。

圖2 系統控制框圖Fig.2 Block diagram of system control

使用DQN算法中經驗回放、單獨設置目標網絡的方法來訓練Q網絡。將系統狀態作為網絡輸入,動作空間中每個動作對應的狀態值作為輸出,設計隱藏層含有20個節點的兩層神經網絡作為估值網絡及目標網絡,如式(10)所示,采用relu作為隱藏層激活函數,網絡結構如圖3所示。

圖3 Q網絡結構Fig.3 Structure of Q-network

(10)

2.4 基于系統加權平均狀態的訓練算法

在強化學習訓練中,通常以連續運行步數、以及智能體運動范圍作為控制每回合結束的指標。針對穩定控制問題,隨著訓練過程中網絡逐漸收斂,每回合系統的調節時間遠小于系統處于穩態的時間,從而使強化學習記憶庫中,系統調節過程的數據逐漸被穩態數據所淹沒,導致網絡對系統不同狀態的調節能力變弱。

為了提高網絡對不同初始狀態的泛化能力,在常規算法的基礎上,本文提出了一種基于系統加權平均狀態(weighted average state,WAS)的訓練算法,本文稱之為WAS訓練方法。具體來講,首先定義系統位移的漸消加權平均值形式如下:

avg_dk=(1-λ)(dk+λdk-1+λ2dk-2+…)=

(1-λ)dk+λ(1-λ)(dk-1+λdk-2+…)=

(1-λ)dk+λavg_dk-1。

(11)

其中,權值λ∈(0,1),dk為k時刻小球相對目標工作點的位移。每回合訓練開始時,初始化avg_d0=d0,當avg_dk

為了平衡學習策略中對未知狀態空間的探索以及對已獲得知識的利用,訓練過程中采用強化學習中常用的ε-貪婪策略,策略定義如下:

(12)

其中:ε∈[0,1]為動作探索概率;a(st)為st狀態下選擇的動作。每次進行動作選擇時,以1-ε的概率采用貪婪策略選擇最大值函數對應的動作;以ε的概率在所有動作中以均勻隨機取樣的方法進行動作選擇,以探索新策略。

綜上,基于WAS的強化學習訓練算法流程如圖4所示。

圖4 算法流程圖Fig.4 Algonithm flowchart

3 數值仿真

3.1 參數設置

設置仿真步長為0.1 ms,使用四階龍格庫塔法進行解算,控制系統的采樣周期為1 ms。

獎勵函數取值如下:

R=2.2r1+r2+0.3r3。

由于系統主要目標是在工作點的穩定控制,因此基于距離的獎勵函數r1取較大的權值,而r3為離散值,為了提高策略的穩定性,所以賦予其較小的權值。

為了在訓練前期探索更多的策略,本文采用了時變ε設置,取ε初值為1,并在訓練的每一時間步中以0.000 1的幅值遞減,直到變為0.1不再變化。

設置經驗回放記憶庫的大小為4 000,訓練步數超過4 000后,采用先進先出的原則更新記憶庫。設置學習率α=0.01,折扣系數γ=0.9。初始化神經網絡的權重初值為[0, 0.3]的均勻隨機數,初始化偏置為0.1。每步訓練時,從經驗回放記憶庫中均勻選取32組數據訓練Q估值網絡。

訓練過程中,每隔150步,通過復制Q估值網絡參數更新Q目標網絡。首先進行50回合隨機嘗試,然后進行450回合的訓練,每回合運行步數上限為1 000步。訓練中設置小球的調節范圍為工作點附近3 mm,小球速度調節范圍為0.3 m/s。取WAS的權值λ=100/101,位移的閾值dexp=0.05 mm。當小球運動速度或是位移超出調節范圍,或濾波狀態值小于設定閾值,即|avg_dk|

3.2 對比仿真結果

將WAS算法與不依賴系統濾波狀態的常規訓練算法對比,仿真結果如圖5、圖6所示。

圖5 常規算法訓練過程Fig.5 Training process of conventional algorithm

圖6 WAS算法訓練過程Fig.6 Training process of WAS algorithm

如圖所示,訓練250回合,在兩種算法下,系統都能連續運行1 000步,回合平均獎勵函數接近最大值,這表明兩種算法的收斂速度基本相同。后續訓練中,由于探索概率存在,系統會出現發散的情況,但累計獎勵總體趨于穩定,網絡訓練趨于收斂。

強化學習訓練結束后,利用訓練好的神經網絡控制器進行磁懸浮球系統控制仿真。取6~10 mm范圍內任意位置,零初始速度來初始化小球狀態,進行50次蒙特卡洛仿真實驗,對比實驗結果如圖7、圖8所示。

圖7 常規算法仿真Fig.7 Conventional algorithm simulation

圖8 WAS算法仿真Fig.8 WAS algorithm simulation

取0.5~3 s,即小球進入穩態后的位置數據,通過計算其均值與標準差來衡量控制精度。50次蒙特卡洛仿真實驗結果如表2所示。

表2 仿真結果對比

仿真結果表明,常規算法訓練得到的網絡控制器可控范圍為6~8.7 mm,當初始位置大于8.7 mm,系統發散;基于WAS算法訓練得到的Q網絡自學習控制器可以實現系統在6~10 mm范圍內任意初始位置下的穩定控制。基于常規算法的Q網絡控制器,50次實驗穩態誤差約為0.10 mm,基于WAS算法的控制器,50次實驗穩態誤差小于0.01 mm。因此,基于WAS算法的Q網絡控制器控制可以實現系統的穩定控制,同時相比較于常規訓練算法,WAS算法能有效提高網絡的泛化能力,擴大系統的有效控制范圍,減小穩態誤差。

為了考察系統的抗干擾性,在位置信號的測量輸出中加入了服從正態分布的隨機干擾信號。取小球的初始位置為6~10 mm范圍內任意值、初速度為零,進行仿真實驗,實驗結果如圖9所示。

圖9 量測噪聲干擾下WAS算法仿真Fig.9 Simulation of WAS algorithm under measurement noise interference

50次蒙特卡洛實驗結果如表3所示。

表3 量測噪聲下仿真結果

50次實驗穩態穩態誤差小于0.02 mm。仿真結果表明,在量測噪聲干擾下,Q網絡控制器依然可以實現系統的高精度穩定控制,系統具有良好的抗干擾能力。

4 結 論

本文針對磁懸浮球系統,在不依賴系統模型的情況下,利用強化學習方法,訓練得到了基于Q網絡的系統自學習控制器;設計了基于系統濾波狀態的WAS訓練算法,通過系統濾波狀態,自適應控制每回合訓練的步數,以提高網絡對系統不同初始狀態的泛化能力。最后通過數值仿真驗證了控制器的有效性,并得到以下結論:基于Q網絡的磁懸浮系統自學習控制器能夠在無模型情況下,實現系統垂直方向高精度的穩定控制,控制器具有良好的抗干擾能力;相比較常規訓練算法,WAS訓練算法能夠有效提高控制器的穩定控制范圍并減少穩態誤差。

猜你喜歡
系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
基于UG的發射箱自動化虛擬裝配系統開發
半沸制皂系統(下)
FAO系統特有功能分析及互聯互通探討
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統 德行天下
PLC在多段調速系統中的應用
主站蜘蛛池模板: 中国国产A一级毛片| 免费看美女自慰的网站| 国产剧情一区二区| 久久精品无码一区二区国产区| 乱人伦视频中文字幕在线| 国产又粗又爽视频| 亚洲天堂视频在线播放| 欧美一级高清片欧美国产欧美| 日韩二区三区无| 超碰色了色| 亚洲 日韩 激情 无码 中出| 91探花在线观看国产最新| 日韩在线播放中文字幕| www.亚洲国产| 欧美中文字幕在线视频| 国产菊爆视频在线观看| 尤物视频一区| 久久精品视频亚洲| 日本午夜视频在线观看| 美女一级毛片无遮挡内谢| a级毛片在线免费| 国产麻豆福利av在线播放| 久久久久久久久久国产精品| 国产精品视频第一专区| 精品国产成人av免费| 国产精品吹潮在线观看中文| 中文字幕波多野不卡一区| 91在线播放国产| 久久精品无码一区二区国产区| 亚洲国产成人综合精品2020| 日韩av资源在线| 国产成人综合在线视频| 亚洲国产欧美目韩成人综合| 狠狠干欧美| 毛片免费试看| 欧美精品另类| 国产精品yjizz视频网一二区| 久久成人免费| 亚洲精品国产精品乱码不卞| 久久综合亚洲鲁鲁九月天| 97无码免费人妻超级碰碰碰| 亚洲精选无码久久久| 在线国产综合一区二区三区| 国产在线视频自拍| 国产欧美日韩资源在线观看| 国产日韩av在线播放| 欧美日韩资源| 第一页亚洲| 色噜噜久久| 成人va亚洲va欧美天堂| 美女内射视频WWW网站午夜 | 91口爆吞精国产对白第三集| 国产在线视频福利资源站| 亚洲欧洲天堂色AV| 国产精品欧美日本韩免费一区二区三区不卡| 日本一区二区三区精品国产| 久久香蕉国产线看观看亚洲片| 国产又黄又硬又粗| 中文无码毛片又爽又刺激| 精品福利一区二区免费视频| 欧美成人午夜影院| 国产人人射| 欧美v在线| 国产成人免费手机在线观看视频| 啪啪永久免费av| 亚洲人在线| 欧洲精品视频在线观看| 久久青草免费91观看| 亚洲欧洲自拍拍偷午夜色无码| 高清精品美女在线播放| 香港一级毛片免费看| 国产中文在线亚洲精品官网| 亚洲第一区精品日韩在线播放| h网站在线播放| swag国产精品| 国产一区三区二区中文在线| 国产h视频免费观看| 99久久精品国产自免费| 亚洲国产综合精品一区| 中文字幕乱码二三区免费| 久久婷婷色综合老司机| 丁香婷婷激情网|