PID補償的完全在線序貫極限學習機控制器在輸入擾動系統自適應控制中的應用

2018-06-20 09:34:18張立優賈華宇

計算機應用 2018年4期

關鍵詞：系統

張立優,馬珺,賈華宇

(1.太原理工大學物理與光電工程學院,山西晉中 030600; 2.太原理工大學信息工程學院,山西晉中 030600)(*通信作者電子郵箱tdliyou@163.com)

0 引言

近年來,隨著智能控制的發展,基于網絡學習的自適應控制方法[1-3]廣泛應用于復雜系統的控制當中。自適應控制不需要很多的系統信息,就能實現復雜系統的有效控制，因此設計者對此進行了許多研究,并且提出了多種自適應控制算法。

最早的神經網絡控制器參數學習算法都是采用誤差反向傳播(Back Propagation, BP)算法[4],控制器的參數通過系統輸出誤差反向傳播來進行修正,以實現最終的期望輸出。但是BP算法在調整自適應控制器參數上存在很多的不足。首先,BP算法極容易使訓練得到的網絡參數陷入局部極值，這就使得設計者在使用BP算法調整控制器參數時,必須考慮其他的優化算法來解決局部最優的問題。比如,采用遺傳算法(Generic Algorithm, GA)[5]全局搜索控制器最優參數值,以實現控制器的控制要求；但是這種控制器設計復雜,且不能滿足在線調節的需求。其次,BP算法在訓練方式上不支持在線學習的功能,且在樣本數很大時,表現出訓練耗時、控制效果差等現象。為此,通過改變BP神經網絡的結構,采用單隱層前饋神經網絡(Single-hidden-Layer Feedforward neural Network, SLFN)來訓練樣本的極限學習機(Extreme Learning Machine, ELM)算法[6-7]大大提高了訓練樣本的速度,滿足神經網絡離線快速學習的要求,但仍不能夠滿足系統在線自適應控制的要求。為了實現在線神經網絡學習的功能,文獻[8]中提出了在線序貫極限學習機(Online Sequential Extreme Learning Machine, OS-ELM)算法,基于此算法的自適應控制器具備設計簡單、學習速度快等優點,逐漸成為網絡學習控制器參數學習的主要算法。

但是,OS-ELM算法在實際系統控制中仍存在一些問題,從而不能直接運用在實際控制當中。首先,通過OS-ELM算法的學習不一定能得到控制器參數,會使控制器輸出異常。于是文獻[9]中提出了正則化在線序貫極限學習機(Regularized OS-ELM, ReOS-ELM)算法,在初始化階段,對參數表達式中的逆矩陣進行正則化處理,用于解決控制器參數無解的問題。其次,在復雜的系統中很難獲取用于初始化的樣本,從而無法完成神經網絡的訓練,對控制器的輸出產生影響。為此,文獻[2]中提出了完全在線序貫極限學習機(Fully OS-ELM, FOS-ELM)算法,在ReOS-ELM算法的基礎上,使初始化網絡的權值參數為零,只保留正則化項,通過全程在線學習獲取網絡參數,解決了獲取初始化樣本難的問題。最后,在輸入擾動的系統自適應控制上,OS-ELM神經網絡控制器難以滿足控制需求。所以本文提出了一種比例-積分-微分(Proportion-Integral-Derivative, PID)補償的FOS-ELM控制器設計方法,在FOS-ELM控制器上增加系統輸出誤差的PID增量, 通過系統輸出誤差的PID增量將擾動對系統輸入的影響反映出來,并用于控制器的決策上,能有效降低擾動對系統自適應控制帶來的干擾,補償擾動對系統輸入的影響,提高了系統的可控性和穩定性。

1 ELM算法及其改進算法

為了解決梯度下降法訓練BP神經網絡存在的問題,Huang等[6-7]以SLFN為基礎,提出了ELM學習算法。隨著對ELM算法的廣泛應用,演變出了許多基于ELM算法的改進算法,在基本的學習方法上都具有如下特點:1)可將訓練過的歷史數據固化到隱層輸出矩陣當中,權值更新時,只需對新數據學習即可;2)訓練速度快、受初始化影響小、泛化能力強。這些特點使它們成為網絡訓練的主要方法。

1.1 ELM算法和ReELM算法的學習過程

(1)

ELM算法學習的目標就是最小化樣本訓練誤差,即為:

min ‖Hβ-T‖2

(2)

其中:

得到β的解為:

β=H+T

(3)

其中:H+為矩陣H的摩爾-彭羅斯廣義逆。當矩陣HTH為可逆矩陣時,矩陣H的廣義逆為:

H+=(HTH)-1HT

(4)

由于,ELM算法的訓練存在過擬合風險,于是提出了ReELM算法[11-12],同時考慮了經驗風險和結構風險因素[12],通過參數λ調節這兩種風險的比例,其優化的目標為:

(5)

其中:λ為兩種風險的比例參數。β的解為:

β=(HTH+λI)-1HTT

(6)

1.2 OS-ELM、ReOS-ELM和FOS-ELM算法的自適應控制

β0=P0H0T0

(7)

(8)

在序列學習階段,假設獲得新的訓練集為Sk時,利用最小二乘法得到參數βk為:

(9)

(10)

(11)

β0=0

(12)

P0=(λI)-1

(13)

與ReOS-ELM算法的訓練過程相比,FOS-ELM算法的訓練只有在線學習階段,從而在訓練方式上實現了全程在線學習的功能。

以上分別就ELM算法及其改進算法在網絡訓練方面作簡單的歸納和總結。

本文主要研究的是FOS-ELM算法及其改進算法在自適應控制中的表現,所以首先就OS-ELM算法、ReOS-ELM算法和FOS-ELM算法在自適應控制中的應用[13]作出具體說明,其中OS-ELM算法和ReOS-ELM算法的自適應控制分為兩個階段,即:初始化階段和自適應控制階段,其中初始化階段和前面各算法在網絡訓練中的初始化階段一樣,這里不再重復說明。FOS-ELM算法的自適應控制只有自適應控制階段。所以就自適應控制階段作歸納和總結。

假設控制系統的動態線性模型為：

yk+1=f0[xk]+f1[xk]uk

2) 與PVC相比，PE具有介電損耗低、絕緣強度高等優良的電氣性能，PE絕緣較PVC的耐寒性好、質量輕，在同等電壓等級下可比PVC絕緣層的厚度小。但是，PE材質較硬、軟化溫度低，接觸火焰時易燃燒和熔融，耐環境應力較差。PE絕緣電纜的耐熱等級主要分為70 ℃和80 ℃。

(14)

(15)

ai、bi為隨機生成的常量;Δf表示模型誤差,且滿足sup|Δf|≤Δ,Δ為一個給定的上限值。式(15)簡寫為:

yk+1=Φkθ*+Δf

(16)

其中:

Φk=[G(a1,b1,xk),G(a2,b2,xk), …,G(aL,bL,xk),

G(aL+1,bL+1,xk)uk,G(aL+2,bL+2,xk)uk, …,

G(a2L,b2L,xk)uk]

(17)

化簡為:

(18)

控制器設計的誤差準則函數為:

(19)

(20)

其中:rk+1為系統的期望輸出。

2 PID補償的FOS-ELM控制器

通過上述分析可以發現,OS-ELM、ReOS-ELM和FOS-ELM算法之間的區別僅僅表現在算法訓練中的逐級優化,而在控制器設計上沒有考慮外界擾動對控制器決策的影響,這在輸入擾動的系統控制中會出現控制精度下降甚至失控等現象。所以僅僅根據系統的期望輸出來決策下一時刻系統的輸入已達不到系統控制的要求,下面就PID補償的FOS-ELM控制器設計進行詳細說明。

2.1 PID補償的FOS-ELM控制器設計

對此在原有的控制器學習的基礎上,增加系統輸出誤差的PID增量來補償擾動對系統輸出的影響,在k時刻的系統輸出誤差及其PID增量為:

ek=yk-rk

(21)

(22)

其中:kp、ki、kd是PID增量的補償系數；yk為k時刻系統的實際輸出;rk為k時刻系統的期望輸出。

(23)

將式(23)代入式(17)中,最小化式(19),得到PID補償的FOS-ELM控制器控制下的動態模型輸出為:

(24)

其中kp=ki=kd=0。動態模型輸出:

(25)

式(25)為FOS-ELM控制器控制下的動態模型輸出。

2.2 控制器輸出的穩定性及補償量系數估計

假設系統的控制誤差為δ,對于任意正整數k滿足：

‖yk-rk‖≤δ

(26)

即:

(27)

(28)

3 實驗與分析

(29)

(30)

其中:ε(i)表示系統第i時刻的輸出誤差,i=1,2,…,300。

AFR控制系統[2]是一種單輸入單輸出的非線性系統,系統的輸入為噴油器的噴油時間,系統的輸出為發動機的AFR,為了簡化問題和突出改進的FOS-ELM控制器在AFR系統自適應控制中的表現,AFR系統模型簡化為:

yk+1=0.2 sin(yk)+3.5(9-uk)

(31)

AFR的期望輸出是根據控制需求設置的：當燃油比為14.7時,催化劑轉化效率最高；當燃油比為12.5時,發動機以最大功率輸出；當燃油比為16時,實現制動的最低燃油消耗。因此本文選擇的期望輸出為:

(32)

在負擾動的情況下,干擾系數為η=0.2,補償系數為(0.2,0.02,0.01),分別利用FOS-ELM控制器和PID補償的FOS-ELM控制器對AFR系統的控制進行仿真,仿真結果如圖1所示。

圖1 負干擾下AFR自適應控制

在負擾動情況下,即Δε<0時,由式(25)知,系統的實際輸出小于期望輸出,根據式(21)知系統的輸出誤差小于0,再由式(24)知系統輸出誤差的PID增量能減小擾動對系統的干擾。如圖1所示,圖1(a)是在持續負擾動的情況下,FOS-ELM控制器控制下的系統輸出,其實際輸出全部低于期望輸出。而由圖1(b)可以看出PID補償的FOS-ELM控制器控制下的系統輸出圍繞在期望輸出周圍,且隨著控制器的不斷學習,輸出誤差在不斷減小,最后趨于穩定。當控制誤差為0.4,系統輸出300次,由表1可知PID補償的FOS-ELM控制器有效控制率達到93.3%,遠遠高于未補償的控制器的51.7%,控制器控制效果得到明顯改善。

同樣,在正擾動的情況下,干擾系數和補償系數不變,仿真結果如圖2所示。

圖2 正干擾下AFR自適應控制

同樣在正擾動情況下,即Δε≥0時,由式(25)知,系統的實際輸出大于期望輸出,根據式(21)知系統輸出誤差大于0,再由式(24)知系統輸出誤差的PID增量同樣能夠減小擾動對系統的干擾。如圖2所示,圖2(a)是在持續正擾動的情況下,FOS-ELM控制器控制下的系統輸出,其實際輸出全部高于期望輸出。而由圖2(b)可以看出PID補償的FOS-ELM控制器控制下的系統輸出圍繞在期望輸出周圍,且隨著控制器的不斷學習,輸出誤差在不斷減小,最后趨于穩定。當控制誤差為0.4,系統輸出300次,由表1可知PID補償的FOS-ELM控制器有效控制率達到95.3%,遠遠高于未補償的控制器的53%。

在正負擾動的情況下,干擾系數為η=0.5,補償系數為(0.2,0.15,0.01),對AFR系統的控制進行仿真,仿真結果如圖3所示。

在正負擾動的情況下,正如式(25)所描述的系統,如圖3所示。從圖3(a)可以看出FOS-ELM控制器的輸出已經嚴重偏離了期望輸出,無法對AFR系統進行有效控制,而式(24)所描述的系統,即由圖3(b)仿真結果顯示的PID補償的FOS-ELM控制器卻能夠降低輸入擾動對系統輸出的影響,達到一定的補償效果,在控制誤差為1時,由表1知,控制器的有效控制率分別為55.3%和93.7%。

圖3 正負干擾下AFR自適應控制

通過系統仿真可以看出,無論是什么類型的系統擾動,當輸入擾動使得系統輸出誤差大于系統控制誤差時,系統在FOS-ELM控制器下處于失控狀態,而PID補償的FOS-ELM控制器能夠有效補償系統輸入,實現系統的有效控制。

下面就以上兩種控制器在AFR系統中的有效控制時間和整體控制誤差進行整理,其中,PID補償的FOS-ELM控制器算法記為PID-FOS-ELM,結果如表1所示。

表1 不同干擾和控制算法下AFR系統的性能表現

4 結語

本文主要提出了PID補償的FOS-ELM控制器設計方法,并將該方法應用于輸入擾動系統的自適應控制當中,結合FOS-ELM算法的在線學習能力和PID快速響應能力,在線補償擾動下的系統輸入,減小輸入擾動對系統控制的影響。根據系統的控制要求,合理選擇控制器的參數和補償系數能夠實現理想的控制效果。在仿真中可以看出,PID補償的FOS-ELM控制器都能夠在不同類型的擾動下作出有效的控制,明顯改善基于在線學習控制器的控制性能,極大提高了系統的抗干擾能力和控制品質。

參考文獻(References)

[1] CHEN F C. Back-propagation neural networks for nonlinear self-tuning adaptive control [J]. IEEE Control Systems Magazine, 1990, 10(3): 44-48.

[2] WONG P K, VONG C M, GAO X H, et al. Adaptive control using fully online sequential-extreme learning machine and a case study on engine air-fuel ratio regulation [J]. Mathematical Problems in Engineering, 2014, 2014: Article ID 246964.

[3] LIU Y J, CHEN C L P, WEN G X, et al. Adaptive neural output feedback tracking control for a class of uncertain discrete-time nonlinear systems [J]. IEEE Transactions on Neural Networks, 2011, 22(7): 1162-1167.

[4] LECUN Y A, BOTTOU L, ORR G B, et al. Efficient back prop [M]// Neural networks: Tricks of the Trade. Berlin: Springer, 2012: 9-48.

[5] 李敏遠, 都延麗. 基于遺傳算法學習的復合神經網絡自適應溫度控制系統[J]. 控制理論與應用, 2004, 21(2): 242-246.(LI M Y, DU Y L. Composite neural networks adaptive control system of temperature based on GA learning [J]. Control Theory & Applications, 2004, 21(2): 242-246.)

[6] HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: a new learning scheme of feedforward neural networks[C]// Proceedings of the 2004 IEEE International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2004, 2: 985-990.

[7] HUANG G B, WANG D H, LAN Y. Extreme learning machines: a survey [J]. International Journal of Machine Learning and Cybernetics, 2011, 2(2): 107-122.

[8] LIANG N Y, HUANG G B, SARATCHANDRAN P, et al. A fast and accurate online sequential learning algorithm for feedforward networks [J]. IEEE Transactions on Neural Networks, 2006, 17(6): 1411-1423.

[9] HUYNH H T, WON Y. Regularized online sequential learning algorithm for single-hidden layer feedforward neural networks [J]. Pattern Recognition Letters, 2011, 32(14): 1930-1935.

[10] LI X L, JIA C, LIU D, et al. Adaptive control of nonlinear discrete-time systems by using OS-ELM neural networks[J]. Abstract and Applied Analysis, 2014, 2014: Article ID 267609.

[11] DENG W Y, ZHENG Q H, CHEN L. Regularized extreme learning machine[C]// CIDM 2009: Proceedings of the 2009 IEEE Symposium on Computational Intelligence and Data Mining. Piscataway, NJ: IEEE, 2009: 389-395.

[12] 鄧萬宇, 鄭慶華, 陳琳, 等. 神經網絡極速學習方法研究[J]. 計算機學報, 2010, 33(2): 279-287.(DENG W Y, ZHENG Q H, CHEN L, et al. Research on extreme learning of neural networks [J]. Chinese Journal of Computers, 2010, 33(2): 279-287.)

[13] JIA C, LI X, WANG K, et al. Adaptive control of nonlinear system using online error minimum neural networks [J]. ISA Transactions, 2016, 65: 125-132.

This work is partially supported by the Natural Science Foundation of Shanxi Province (2015011050).