999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Q-學習的底盤測功機自適應PID控制模型

2022-05-30 04:29:36郭蘭英王潤民
計算機技術與發展 2022年5期
關鍵詞:控制策略策略

喬 通,周 洲,程 鑫,郭蘭英,王潤民

(1.長安大學 信息工程學院,陜西 西安 710064;2.陜西省車聯網與智能汽車測試技術工程研究中心,陜西 西安 710064)

0 引 言

汽車底盤測功機(轉鼓試驗臺)主要包含滾筒和加載裝置,以電渦流機輸出加載力來模擬汽車在道路上行駛的場景,能夠在室內對汽車進行綜合測試,且對測試所需要的環境要求較低[1]。目前底盤測功機中大都采用標定PID參數或模糊PID控制法對加載的力進行控制,PID參數一經整定就不能改變。但電渦流機具有非線性、緊耦合的特點,所以上述兩種策略的控制效果并不理想[2]。

隨著機器學習的發展,強化學習已被廣泛應用于PID在線調整等序列決策問題,取得了一定的效果[3-6]。在國內方面的相關研究中,張訓等[7]采用積分分離PID算法,實現轉速、勵磁電流和轉矩、勵磁電流的兩個雙閉環控制器,滿足了測功機的控制要求,但達不到現如今底盤測功機控制的工業要求;郭磊等[8]設計的模糊自適應PID算法有效提高了跟蹤性能和調節速度,完成了對PID增益值的調整,此方法需要增益值從零開始調整,所需要的控制時間也相對較長;游博洋等[9]設計了基于神經網絡PID控制器的外骨骼系統,有效的提高了外骨骼機器人的易用性和實用性;賈燕燕等[10]基于神經網絡設計的自適應網絡功率機制動態調整發射功率的大小,較好地解決了無線體域網中的傳感器控制節能問題;趙明皓等[11]基于深度強化學習設計的無人艇自主航行控制算法,比傳統的PID控制在穩定性以及抗干擾上具有優勢。國外方面,V N Thanh等[12]使用Q學習算法設計的自適應PID控制器對伺服機器人進行控制,并驗證了其優越性;P Kofinas[13]為了處理連續的狀態-動作空間,設計了模糊Q學習代替傳統的Q學習算法,仿真表明了其有效性。上述研究都取得了許多積極的成果,對該文研究的開展具有較好的借鑒意義。

該文分析了底盤測功機的加載方式以及常見強化學習算法的特點,結合其規律進行分析,并研發對應的狀態空間、動作空間和獎勵等等,訓練Q表完成對PID增益值的自動調節。主要研究基于強化學習的PID策略設計出來的QPID控制器,對底盤測功機輸出扭矩的控制效果。

1 強化學習控制策略設計

1.1 強化學習

強化學習是通過與外部的環境進行交互,每次交互會獲得獎賞,再通過該獎賞指導下一次的行為,其目標是使智能體能夠取得最大累積獎賞[14]。強化學習的結果是尋找出一個策略π:S→A,能夠讓每個狀態s的值函數Vπ(s)或者狀態-動作值函數Qπ(s,a)達到最大。Vπ(s)與Qπ(s,a)分別表示某個“狀態”上或者是某個“狀態-動作”上的累積獎賞[15]。

強化學習也在不斷的發展,Q-Learning算法被認為是其中最主要的進展之一。Q-學習算法考慮了狀態作用值函數Q,不考慮被控制系統確切的數學模型,通過時間差分對系統進行控制[16]。Q-Learning是RL中value-based的算法,其中的Q意為在某個時刻的狀態時,選擇某個動作可以獲得相應的收益,環境狀態會依據此次智能體的動作,反饋出其所獲得的立即獎賞r,再依據r進行Q表的更新,公式如下:

Q(s,a)←Q(s,a)+α[r+γQ(s',π(s'))-

Q(s,a)]

(1)

其中,α為學習率,0≤α≤1。

算法1:Q學習算法。

Step1:初始化任意Q(s,a),?a∈A,?s∈S;

Step2: 循環每個episode;

重復

Step3:更新狀態St;

重復

Step4:執行動作At,觀察St+1和Rt+1

Step5:根據式(1)更新Q值;

Step6:St←St+1;

Step7:直到St達到最終狀態ST;

Step8:直到episode結束。

1.2 底盤測功機自適應PID控制器設計

該文提出了一種基于Q學習算法的PID控制器,用于調整底盤測功機的扭矩輸出,整個控制器的結構如圖1所示。系統的直接控制由一個傳統的PID完成,而參數的自適應調整是基于Q-學習算法在訓練過程中獲得的Q表,傳統的PID實現輸入電壓的調節。控制器的輸入為人為設定的加載力的目標值Fref,將每次調整之后的扭力值Fn(t)與目標值的誤差量輸入到PID中,進而完成此次的調整。待調節完之后,獲得此次調節的扭力值Fn(t),把這次的扭力值進行離散化, 即可得到此次的狀態n(t)。之后開始本次的Q表更新,總共有3個Q表,對應于PID的三個參數,一個參數對應到一張Q表上。當Q學習算法更新完畢之后,Q表最終會趨于穩定。此時在三張Q表中,選擇某一個狀態之后,每張Q表都會選擇出此時PID控制器最優的增益值去調整。

圖1 基于QPID的底盤測功機系統控制器結構

2 結合Q學習的PID控制算法

對于Q學習最重要的一個問題,就是如何訓練Q表。該文設計的控制器,需要通過三張Q表使得底盤測功機不同扭矩輸出的狀態,對應到PID策略的各個參數上。將Q學習策略與傳統的PID策略進行結合,具體的訓練過程如算法2所示。為了使得Q表可以快速收斂趨于穩定,實現了一種自適應學習率的算法——Delta-Bar-Delta[17]。在訓練過程中,取得某個狀態時的最佳參數之后,就根據公式計算出此次需要調整的輸出量,輸出量會通過PID控制器作用于底盤測功機,此時扭矩輸出改變,進入到下一個狀態。通過比較前后兩個時刻的扭矩輸出,就可以得到此次調整之后的立即獎賞Rp,使用Rp更新Q表,開始下一次的訓練,如此循環。當Q表趨于穩定之后,Q表就含有了在每個狀態下最優的PID參數,使用該參數即可控制底盤測功機的扭矩輸出。

算法2:結合Q學習的PID控制算法。

Step1:初始化任意Qi(s,a)=0,?a∈A,?s∈S,i=1,2,3;

Step2:初始化學習率?;

Step3:初始化ε-greedy策略的ε;

Step4:當episode

Step5:t=0;

Step6:初始化St(x(t),x'(t));

Step7:ε衰變(當episode>0.6×maxepisode,ε=0);

Step8:fort=1;≤maxtime;t++

Step9:將狀態St-1,St離散化,獲得:n1(t-1)和n1(t);

Step10:fori=1;i≤3;i++

Step11:遵循ε-greedy策略,根據n1(t-1)和n1(t)選擇動作Ai;

end

Step12:根據PID輸出,獲得完整的輸出;

Step13:觀察新狀態St+1(x(t),x'(t));

Step14:獲得的獎勵Rp;

Step15:將狀態St+1離散化,獲得:n1(t+1);

Step16:更新Q1(s,a),Q2(s,a)和Q3(s,a)的學習率?;

Step17:用Rp和?更新Q1(s,a),Q2(s,a)和Q3(s,a);

Step18:St←St+1;

end

end

2.1 自適應學習率

為了使得Q表盡快達到穩定,使用了一種自適應學習率的算法,其定義為:

(2)

式中,Δαt是t增量;k是提高學習率的正常數值;Φ是折扣因子的正常數值;δt是時間步長t中的時間差(TD)誤差,δt=Rt+1+γmaxQ(St+1,a)-Q(St,a);δt=(1-Φ)δt+Φδt-1。

通過使用上面的方法,將當前的TD誤差與前面步驟中的累計TD誤差進行比較,從而更新學習速率。當學習率較大時,改變符號,從而使其在下一次調整時調低。如果學習率太小,學習率會按照之前的變化趨勢不斷增加,使得收斂速度加快,所以時間步驟t+1中的學習速率為αt+1=αt+Δαt。三個Q表都將采用該算法,但對于每張Q表的參數設置會有不同。

2.2 離散化

由于加載力的狀態值連續,且過于繁多,所以對于加載效果一樣的情形,可選擇同一組PID參數進行控制,因此可以把連續的加載力變量分成幾個區間,同一個區間內的加載力值作為一個相同的狀態。區間的設置使用與定義使用相同的規則,其定義為:

(3)

其中,[x]=max{n∈Z|n≤x};n表示離散變量;xcon表示連續變量;xmin和xmax分別是xcon的下限和上限;N表示加載力被分成的區間數,文中N=20。N取決于模擬性能。扭矩Fn通過公式(3)區間劃分,離散化設置的值如表1。

表1 設定離散化值

2.3 ε-greedy策略

當給定當前狀態之后,三個Q表都將根據ε-greedy方法選擇每次的動作,此方法的定義如下:

(4)

其中,ζ∈[0,1]是一個正態分布的隨機數。

為了加快收斂的速度,ε的值會隨著訓練次數的增大而減小,在迭代次數達到某個數值后設為零,而具體的次數會根據訓練表現來決定。在ε-greedy策略中,ε的值比較大,表示選取一個隨機動作的概率也比較大。具體ε定義為:

ε(eps)=

(5)

其中,eps表示當前的episode,maxep是episode的最大值。

2.4 獎勵策略

該文根據測功機系統的情況將立即獎賞分為三種情況:調節后加載力趨于設定力值,加載力遠離設定力值和調節之后加載力無變化。

調控后扭矩趨于設定值。根據at收到的參數進行調節,所獲得的扭矩Fn(t)與目標值Fref的相差結果,若是遠小于t-1扭矩Fn(t-1)與Fref的相差結果,意為此次的調控有效,設定此次調整的獎賞為相鄰兩次扭矩輸出的差值。

調控后扭矩遠離設定值。根據at得到的參數進行調節,所獲得的扭矩Fn(t)與設定值Fref的相差結果,若是遠大于t-1扭矩Fn(t-1)與Fref的相差結果,意為此次的調節為錯誤調節,獎賞為負值。

調控后扭矩無變化。根據at得到的參數進行調節,所獲得的扭矩Fn(t)與設定值Fref的相差結果,若是與t-1扭矩Fn(t-1)與Fref的相差結果,二者相差不超過20 N,意為此次的調節無效果,即獎賞值為0。綜上,獎勵計劃如下:

(6)

3 算法實驗研究

PyCharm是一款系統模型庫的功能十分豐富的仿真平臺,該文使用PyCharm建立仿真系統,使用模擬的數據進行實驗,驗證使用QPID策略的可行性。選擇相同的初始條件針對底盤測功機的恒力運行狀態進行仿真控制,分別使用傳統PID策略、BP-PID策略以及文中提出的QPID策略進行系統仿真,根據結果進行對比分析。

(1)QPID控制策略與傳統PID控制策略的對比。

圖2為分別使用兩種控制策略,輸出力從0 N分別到1 000 N、1 300 N和1 500 N的加載力響應曲線。

在仿真中,對比傳統的PID控制策略,基于QPID控制策略加載力響應曲線的波動較小,一般在120 ms左右就可以實現加載力的響應過程,146 ms后趨于穩定。傳統PID策略下扭矩輸出響應曲線的波動較大,一般在249 ms左右實現扭矩輸出的響應,在358 ms后才達到設定值。基于QPID策略下的調整周期相較于傳統的PID策略縮短至40%。

圖2 QPID控制器與PID控制器的輸出力響應曲線

加載至1 000 N的響應曲線特征如表2所示。

表2 QPID控制器與PID控制器響應曲線特性

在加載力目標值為1 000 N時,與QPID控制器(135.6 N)相關的曲線的超調遠低于傳統PID控制器(542.6 N)。除此之外,QPID控制器(126 ms)的穩定時間比PID控制器(372 ms)的穩定時間短。

(2)QPID控制策略與BP-PID控制策略的對比。

圖3為分別使用QPID與BP-PID控制策略,輸出力從0 N分別到1 000 N、1 300 N和1 500 N的加載力響應曲線。

在仿真中,基于QPID的策略比BP-PID策略更快達到穩定,在120 ms左右就可以實現加載力的響應過程,在146 ms后趨于穩定。而BP-PID策略下扭矩輸出的曲線上升時間與穩定時間較慢,在425 ms左右實現扭矩輸出的響應,在524 ms后達到設定值。基于QPID控制策略下的調整周期相較于BP控制策略的調整周期縮短至27.9%。

圖3 QPID控制器與BP-PID控制器的 輸出力響應曲線

加載至1 300 N的響應曲線特征如表3所示。

表3 QPID控制器與PID控制器響應曲線特性

在加載力目標值為1 300 N時,與QPID控制器(14.9 N)相關曲線的超調大于BP-PID控制器(0 N)。另外,QPID控制器(156 ms)的穩定時間比BP-PID控制器(504 ms)短。

根據國家質量監督檢驗檢疫總局2018年發布的底盤測功機使用標準,底盤測功機運行狀態的工業要求誤差不大于2.0%,加載響應需要在300 ms以內達到目標值的90%。以上三種控制策略下的扭矩輸出的誤差曲線如圖4所示。

由圖4可知,QPID控制的系統加載力響應曲線的最大振幅146 ms后小于10 N,達到工業要求;BP-PID控制器的扭矩輸出曲線的最大振幅420 ms后高達50 N左右;傳統PID控制策略下的扭矩輸出曲線的最大振幅321 ms后約為27 N。基于QPID控制策略可以滿足底盤測功機使用所需要達到的工業要求,其加載力的響應曲線正常,跟理論分析的結果保持一致。

(a)常規PID策略下的誤差曲線

(b)QPID策略下的誤差曲線

4 結束語

針對底盤測功機的加載控制問題,提出了一種基于Q學習的PID控制策略,使用QPID對三個增益值進行調整,使其能夠快速穩定達到加載目標值,最后完成了與另外兩種策略的比對試驗。通過分析對比試驗的結果,證明在底盤測功機上使用QPID控制器,可以讓加載力的響應時間縮小到120 ms,在146 ms后穩定到工業要求的誤差范圍之內,控制周期縮短明顯。說明基于Q學習的PID調節策略可以在底盤測功機上得到較好的應用。

猜你喜歡
控制策略策略
基于“選—練—評”一體化的二輪復習策略
考慮虛擬慣性的VSC-MTDC改進下垂控制策略
能源工程(2020年6期)2021-01-26 00:55:22
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
工程造價控制策略
山東冶金(2019年3期)2019-07-10 00:54:04
現代企業會計的內部控制策略探討
消費導刊(2018年10期)2018-08-20 02:57:02
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
容錯逆變器直接轉矩控制策略
基于Z源逆變器的STATCOM/BESS控制策略研究
主站蜘蛛池模板: 欧美色伊人| 天天综合网在线| 亚洲天堂777| 婷婷五月在线| 欧美日韩在线成人| 亚洲综合精品香蕉久久网| 欧美亚洲国产精品第一页| 永久免费精品视频| 热久久综合这里只有精品电影| 精品久久国产综合精麻豆| 亚洲国产欧美国产综合久久| 天堂在线亚洲| 亚洲国产成人无码AV在线影院L| 亚洲伊人电影| 精品国产免费人成在线观看| 亚洲人成网站在线播放2019| 无码 在线 在线| 亚洲精品无码日韩国产不卡| 亚洲Aⅴ无码专区在线观看q| 天堂岛国av无码免费无禁网站| 亚洲av无码人妻| 欧美精品成人| a级免费视频| 国产真实乱人视频| 白浆免费视频国产精品视频 | 一区二区三区国产精品视频| 国产在线精品美女观看| 鲁鲁鲁爽爽爽在线视频观看 | 日韩无码白| 精品福利视频导航| 99国产精品一区二区| 国产日韩久久久久无码精品| 中文字幕在线一区二区在线| 国产自无码视频在线观看| 露脸国产精品自产在线播| 成人午夜视频网站| 国产欧美精品午夜在线播放| 91小视频在线| 伊人五月丁香综合AⅤ| 无码日韩视频| 久久综合色视频| 亚洲精品国产日韩无码AV永久免费网 | 一本久道久久综合多人| 日韩福利在线观看| 无码aaa视频| 久久福利片| 九九久久99精品| 五月婷婷导航| 国产精品55夜色66夜色| 国产肉感大码AV无码| 一区二区三区四区在线| 九九视频免费看| 制服丝袜无码每日更新| 婷婷色在线视频| 爽爽影院十八禁在线观看| 国产成人高清精品免费软件| 国产乱子伦精品视频| 国产精品v欧美| 国产SUV精品一区二区6| 老司国产精品视频| 最新亚洲人成无码网站欣赏网| 欧美一级爱操视频| 国产成人8x视频一区二区| 伊人AV天堂| 国产成人一级| 国产香蕉在线| 亚洲国产天堂久久综合226114| 国产成人a毛片在线| 亚洲欧美日韩视频一区| 亚洲欧美在线精品一区二区| 欧美精品影院| 亚洲欧美天堂网| 国产超薄肉色丝袜网站| 国产精品.com| 久久一级电影| 国产菊爆视频在线观看| 一本久道久久综合多人| 国产综合在线观看视频| 波多野结衣中文字幕一区| 精品国产免费观看一区| 狠狠亚洲五月天| 亚洲免费黄色网|