(西南交通大學 電氣工程學院, 成都 610031)
摘 要:為了提高α階逆系統在控制中的魯棒性,提出了區間自組織映射模型。根據定義的損失函數,利用梯度下降法得到新的模型競爭學習算法,并證明了該競爭算法的收斂性。利用區間自組織映射良好的逼近性能辨識非線性系統的α階逆系統,并將其串聯在原系統之前得到復合偽線性系統。仿真結果表明,該逆系統有較高的精度,逆控制器有良好的跟蹤效果和較強的魯棒性。
關鍵詞:區間分析; 區間自組織映射; 無監督學習; 逆系統
中圖分類號:TP273 文獻標志碼:A
文章編號:10013695(2009)03087603
Research on α thorder inverse system control
using interval selforganizing map
LIU Luzhou, XIAO Jian
(School of Electrical Engineering, Southwest Jiaotong University, Chengdu 610031, China)
Abstract:To improve the robustness of α thorder inverse system, this paper proposed a novel model based on interval selforganizing maps. Proposed a new competition algorithm based on gradient descent algorithm acorrding to a cost function defined,and proved the convergence of the new algorithm. The α thorder inverse system was approximated by interval selforganizing map which was cascaded with the original to capture composite pseudolinear system. Simulation results show that the inverse system has better properties of precision and the inverse controller is good at tracking effect and robustness.
Key words:interval analysis; interval selforganizing map; unsupervised learning; inverse system
0 引言
非線性系統控制一直是近年控制領域研究的熱點,受到越來越多的關注。利用反饋的方法將非線性系統變換為線性系統,然后再按照線性系統理論完成系統的綜合方法稱為反饋線性化方法。經過二十多年的發展, 反饋線性化方法已經成為非線性系統控制理論中一種有效的方法,包括微分幾何方法和逆系統方法等。
逆系統方法形象直觀,易于理解,并且在工業控制中容易實現而受到廣泛關注。其基本思想是:利用被控對象(非線性系統)構造其α階動態偽逆系統,從而將被控對象補償成為具有線性傳遞關系的系統;然后按照線性系統理論完成系統綜合。由于實際被控制對象往往極其復雜,要求逆系統的解析表達式是不可行的。如何構造一個盡可能精確的α階偽逆系統成為其發展的瓶頸[1]。
自組織映射是芬蘭學者T.Kohonen提出的基于矢量量化的無監督的學習方法,并已成功地應用于非線性系統的建模和控制中[2,3]。然而,幾乎所有的實際系統都包含一定的不確定性,而利用區間來表示不確定性是比較常用的一種方法。為了使模型有更好的推廣性能,本文結合區間分析理論,提出了區間自組織映射模型,得到的學習算法與傳統算法有本質的區別。將其應用在非線性系統逆系統控制中,可以建立比較精確的α階動態偽逆系統模型,從而提高控制的精確性,也在一定程度上增強了控制的魯棒性。
1 區間自組織映射
1.1 區間分析簡介[4]
區間分析理論是美國數學家Moore在20世紀50年代提出的,之后該理論不斷發展,很快成為計算數學的一個活躍分支,并在工程中取得了大量成功的應用。
實數集上R的一個連續子集X=[x x]稱為實區間,區間的上、下界分別記做sup(X)和inf(X),所有實區間的集合記做I(R)。區間X的中點、半徑和與區間Y之間的距離分別記做
mid(X)=(x+x)/2 rad=(X)=(x-x)/2
d(X,Y)=|mid(X)-mid(Y)|+|rad(X)-rad(Y)|
通常,區間的表示方法有兩種,即用區間的上、下界表示和用區間的中心和半徑表示。這兩種表示方法是等價的。以下均采用區間上、下界的表示方法。
1.2 區間自組織映射及其競爭學習算法
在系統建模和控制中,要同時考慮其對數據逼近精度和推廣性能兩方面,在實際中更注重的是其推廣性能。如何建立一個能有效減小推廣誤差或將誤差控制在一定范圍內的模型是十分重要的。區間分析理論為此提供了一條有效的途徑。
區間自組織映射特點是其參考權值為區間數。令A={w1 w2 … wN}為映射的區間權值集合。其中N為權值的個數。第i個區間權值表示為wi=[wi wi]。其中wi,wi∈Rn;i=1,2,…,N。對于一個n維輸入點x=(x1,…,xn),其任一維xj均可視做以xj為中心,半徑為0的區間數。
基于區間數的自組織映射競爭算法具體步驟如下:
a)初始化權值。隨機產生N×n維的權值中心和給定合適的N×n維半徑。
b)給出一個輸入值x=(x1,…,xn),并行輸入到網絡的每個節點。
c)定義競爭的獲勝區間單元為
‖x-wc‖=mini{ε}(1)
其中:
ε-mini‖mid(x)-mid(wi)‖22+‖rad(x)-rad(wi)‖22+mid(x)-mid(wi)|#8226;|rad(x)-rad(wi)|(2)
c表示競爭獲勝區間單元;“#8226;”表示內積。
d)設置符號表示向量flag∈Rn。其中:
flagl=(wlc-xl)×(wlc-xl);l-1,2,…,n
若flagl>0,則令
wlc=xl+rad(wlc),wlc=xl-rad(wlc)
此調整可以使區間權值包含輸入點,且保證原來獲勝區間單元在區間距離定義下與輸入點距離仍然最小。
e)區間權值的學習,包括區間權值上、下界兩部分:
wi(t+1)=wi(t)+Δwi(t)(3)
wi(t+1)=wi(t)+Δwi(t)(4)
其中:
Δwi(t)=α1(t)hci(t)[x-mid(wi(t))-rad(wi(t))](5)
Δwi(t)=α2(t)hci(t)[x-mid(wi(t))+rad(wi(t))](6)
αp(t)為遞減函數,p=1,2,滿足:
mint→∞ αp(t)=0,∑∞t=0αp(t)=∞,∑∞t=0α2p(t)<∞(7)
hci(t)為鄰域函數通過向量ri和rc表征輸出單元i與獲勝單元c之間在輸出空間的關系:
hci(t)=h0 exp(-‖ri-rc‖/σ2(t))(8)
其中:h0為初始值;σ2(t)為遞減函數。當學習誤差小于某一規定的δ時結束學習。
f)選取另外一組學習數據提供給輸入層,返回c),直到網絡對所有的訓練數據學習完畢。
1.3 學習算法的收斂性
由于區間距離與空間點距離的定義不同,在利用區間自組織映射建模過程中,期望用來表示精確數據的區間數與精確數據之間有最大的相似度。對于輸入數據滿足離散隨機分布,本文利用RobbinsMonro隨機逼近理論分析該算法的收斂性。
定理1 若學習率滿足式(7),則上述區間權值競爭學習算法是收斂的。
證明 在學習過程中,可用以下能量函數表示其收斂性能:
J~=E{∑ihci(t)ε}=∫X∑ihci(t)f(x,wi)p(x)dx(9)
由于其概率密度函數p(x)未知,且樣本數有限,由RobbinsMonro隨機逼近理論,對式(7)取隨機樣本,有能量函數:
J=∑ihci(t)ε(10)
顯然ε是x、wi、wi的函數。式(10)兩邊分別對wi、wi取偏導數得
J/wi=hci(t)ε/wi,J/wi=hci(t)ε/wi
由于損失函數以及區間距離定義中包含絕對值,且損失函數對于x和wi的每一維是相互獨立的,對其求偏導有以下結論:
a)當xl ≥mid(wli)
ε/wli=/wli[(xl-mid(wli))2+rad2(wli)+(xl-mid(wli))×rad(wli)]=-1/2(xl-mid(wli)-rad(wli))
同理可得
ε/wli=/wli[(xl-mid(wli))2+rad2(wli)+(xl-mid(wli))×rad(wli)]=-3/2(xl-mid(wli)+rad(wli))
b)當xl<mid(wli)
ε/wli=/wli[(xl-mid(wli))2+rad2(wli)+
(mid(wli)-xl)×rad(wli)]=-3/2(xl-mid(wli)-rad(wli))
同理可得
ε/wli=/wli[(xl-mid(wli))2+rad2(wli)+
(mid(wli)-xl)×rad(wli)]=-1/2(xl-mid(wli)-rad(wli))
由以上討論可以得到:在兩種情況下,誤差估計損失函數對區間上、下界的偏導數只有系數上的不同,可不失一般性表示為
J/wi=-k1hci(t)[x-mid(wi)-rad(wi)]
J/wi=-k2hci(t)[x-mid(wi)+rad(wi)]
k1,k2>0。為最小化能量函數J,區間上、下界的學習取其負梯度方向,并將系數k1、k2與學習速率合并,可得式(3)~(6)。只要學習速率αk(t)滿足式(7),區間權值的上、下界將同時逼近輸入點值,且區間半徑收斂到0。由區間收斂的定義可得,本文提出的區間權值競爭算法收斂。
由以上得到的學習規則與傳統的自組織映射有著本質的不同,它不僅考慮區間權值中心與訓練數據之間的差異,也考慮了區間半徑對訓練結果的影響,使得區間權值最終收斂于單值訓練數據。
由于權值半徑可以有效地控制訓練誤差,在實際建模過程中,為了得到較好的推廣性能,不要求區間半徑收斂到0,這在一定程度上增強了網絡的魯棒性。
2 區間自組織映射逆控制器設計
2.1 逆系統建模方法[3,5]
對以下非線性系統:
y(k+1)=f [y(k),…,y(k-ny);u(k),…,u(k-nu)]=f [ψy(k);ψu(k)](11)
其中:
ψy(k)=[y(k),…,y(k-ny)]ψu(k)=[u(k),…,u(k-nu)]
為了區別區間自組織映射的訓練過程t,以下用k標注不同的輸入、輸出時刻,ny和nu分別表示系統狀態y和控制量u的延遲。
將區間自組織映射的輸入擴展為原系統輸入/輸出數據對,其權值作相應的擴展:
x(k)=xin(k)xout(k),wi(k)=wini(k)wouti(k)(12)
其中:
xin(k)=[ψy(k);ψu(k)],xout(k)=y(k+1)
結合以上建模方法,利用本文提出的區間自組織映射競爭學習算法訓練后的正向模型的輸出為
(k+1)=woutc(k)(13)
wini(k)和wouti(k)經訓練后,分別存儲輸入和輸出數據。利用區間自組織映射對動態系統建模如圖1所示。
與其他方法不同,區間自組織映射在對原系統建立正向模型的同時,其逆系統也自然建立起來。其逆系統可表示為
(k)=f-1[yd(k+1),yd(k),…,yd(k-ny);
(k-1),…,(k-nu)]=f-1[ψyd(k);ψ(k)](14)
其中:
ψyd(k)=[yd(k+1),yd(k),…,yd(k-ny)]
ψ(k)=[(k-1),…,(k-nu)]
利用區間自組織映射對上述動態系統的逆控制結構如圖2所示。
基于本文提出的區間自組織映射模型,對動態系統進行正向(逆向)建模,最終模型的輸出數據對應的是區間權值(區間數)。若要求輸出為單值,則
F^out(k)=g(woutc,woutc)(15)
其中:c表示競爭獲勝單元;g為輸出權值的上、下界的函數。可以取:
g(woutc,woutc)=(woutc+woutc)/2(16)
由1.3節中收斂性討論不難得到,將區間自組織映射應用于建模和逆控制器設計中,亦可保證收斂。
2.2 仿真實驗
對非線性系統:
y(k+1)=y(k)/(1+y2(k))+u2(k)
根據上述逆系統的建模方法,用區間自組織映射對其進行建模,并將建立的模型應用于逆控制器設計中。
為使系統得到充分激勵,u(k)取(0,1)的白噪聲產生訓練數據,并對數據進行歸一化處理。 這里取4 000組精確數據和帶幅值為0.1的白噪聲數據建模,用100組數據進行驗證。
與傳統自組織映射相比,區間自組織映射對非線性系統建模及其推廣性能都高。兩者采用相同的空間結構和訓練參數進行建模,其比較結果如表1所示。
區間自組織映射選取方形空間結構和合適的訓練參數。為獲得較好的控制效果且便于比較,區間半徑均取0.05。在逆控制過程中,由 式(15)(16)給出單值輸出。逆控制的參考模型取某正弦疊加信號
r(k)=sin(k/2)+1.5
建模和逆控制的均方誤差如表2所示。
另外,區間半徑的選取也直接影響建模和逆控制精度。因此,用精確數據和帶噪聲數據建模并應用于逆控制時,為了得到較好的精度,半徑的選取會產生不同,仿真結果證明了區間自組織模型有很好的魯棒性。用精確數據建模及逆控制時,半徑取0.03可以獲得更高的精度,其逆控制如圖3所示,其建模推廣誤差和逆控制均方誤差分別為0.022 02,0.047 1;用噪聲數據建模及逆控制時,半徑取0.04可以獲得更高的精度,其逆控制如圖4所示, 其建模推廣誤差和逆控制均方誤差分別為0.030 20,0.062 2。
仿真結果表明,采用區間權值競爭學習算法的區間自組織映射可以有效地對精確數據和噪聲數據建模, 其精度和推廣能力都比傳統自組織網絡優越;利用獲得的模型對非線性系統的逆控制可以達到較高的精度和較好的魯棒性,在對非線性動態系統建模和逆控制中取得了良好的效果。
3 結束語
本文在傳統自組織映射的基礎上提出了區間自組織映射模型。由于考慮了區間半徑的影響,所得到的學習規則與傳統的自組織映射有著本質的不同,這使得權值區間在表示輸入向量的密度函數和保持局部處理的連續性的矛盾上,達到較好的效果。在針對非線性系統的建模和逆系統控制中取得良好的效果,仿真結果證明了其有效性。
參考文獻:
[1]戴先中. 多變量非線性系統的神經網絡逆控制方法[M]. 北京:科學出版社,2005.
[2]KOHONEN T. Selforganizing maps[M].3rd ed. Berlin, Heidelberg: Springer,2001.
[3]BARRETO G A,ARAJO A F R. Identification and control of dynamical systems using the selforganizing map[J]. IEEE Trans on Neural Networks,2004,15(5):12441259.
[4]王德人,張連生,鄧乃楊. 非線性方程的區間算法[M].上海:上海科學技術出版社,1987.
[5]JEONGHO C H O, PRINCIPE J C,ERDOGMUS D,et al. Modeling and inverse controller design for an unmanned aerial vehicle based on the selforganizing map[J]. IEEE Trans on Neural Networks,2006,17(2):445460.
[6]LO Zhenping,YU Yaoqi,BAVARIAN B. Analysis of the convergence properties of topology preserving neural networks[J]. IEEE Trans on Neural Networks,1993,4(2):207220.
[7]BEHESHTI M,BERRACHED A,De KORVIN A, et al. On interval weighted threelayer neural networks[C]//Proc of the 31st Annual Simulation Symposium. Washington DC:IEEE Computer Society,1998.
[8] PLETT L G. Adaptive inverse control of linear and nonlinear systems using dynamic neural networks[J]. IEEE Trans on Neural Networks,2003,14(2):360376.