何之煜,楊志杰,呂旌陽
(1.中國鐵道科學研究院研究生部,北京 100081; 2.中國鐵道科學研究院集團有限公司通信信號研究所,北京 100081; 3.北京郵電大學信息與通信工程學院,北京 100876)
迭代學習控制(Iterative Learning Control, ILC)是在有限區間內處理重復運行系統跟蹤控制問題最有效的方法之一,其特點是原理簡單、易于實現且對模型要求不高,是一種近乎無模型的前饋學習控制算法。自1978年日本學者Uchiyama提出迭代學習控制理論至今[1],國內外專家學者對其做了大量的工作[2-5],逐步形成了具有嚴格數學描述的控制理論體系。目前,對迭代學習控制的研究和應用已遍及工業生產的方方面面,如工業機器人[6,7]、數控機床[8]、工業化學反應堆[9]、注模機[10]、列車自動駕駛系統[11]和汽車防抱死系統[12]等。
高速列車自動駕駛系統是一個具有高度重復性的控制系統,具體表現為運行環境的重復性、運行計劃的重復性、運行目標的重復性以及列車動力學模型的重復性。文獻[13]首次將ILC思想引入到列車自動駕駛系統中,文獻[14]研究了距離域反饋、迭代域前饋學習的列車自動駕駛控制方法,基于距離域建模,結合壓縮映射方法,控制列車逐漸逼近期望軌跡。文獻[15]提出預測迭代學習控制算法來處理系統輸入受限問題,實現對期望軌跡的精確跟蹤,但需要知道控制系統的精確模型。文獻[16]設計了一個動態建模的ILC算法,通過遞推最小二乘法辨識模型參數,基于范數最優理論,實現對跟蹤誤差關于2范數收斂,但沒有考慮系統初態和受限問題。
系統受限問題普遍存在于現代工業控制系統中,主要表現為輸入受限和狀態受限。目前,對于控制系統受限問題下的迭代學習控制研究已有了大量的研究成果,文獻[17]設計了一個雙環ILC控制器來解決系統輸入受限問題,ILC環1用來學習標稱系統的控制器,ILC環2則用來擬合非線性控制輸入項,但是雙環結構復雜且獨立工作。文獻[18]以受限狀態下的Euler-Bernoulli梁結構為研究對象,在非周期性分布式擾動和邊界擾動作用下,建立了基于時間加權的Lyapunov-Krasovskii能量函數,實現了跟蹤誤差沿迭代軸的漸進收斂。文獻[19-20]將飽和函數sat(·)引入輸入受限控制系統的研究中。文獻[21]針對一個線性狀態受限的系統,將迭代學習控制問題轉化為凸函數優化問題,證明了算法的跟蹤誤差是關于2范數收斂的,但是沒有對非線性系統進行深入研究。文獻[22]利用雙曲正切函數和飽和函數處理機械手控制系統輸入受限問題,實現跟蹤誤差隨迭代軸的漸進收斂。
與大多數工業控制系統相同,高速列車自動駕駛系統也是一個受限的控制系統,主要體現為執行器物理結構對控制輸入的限制、線路的固定限速和臨時限速等。本文充分考慮上述限制因素,針對時變、非線性的高速列車自動駕駛控制系統,提出一種受限狀態下的迭代學習控制算法,建立類Lyapunov函數的復合能量函數,對所設計的算法的收斂性進行證明,通過計算機仿真驗證,證明了算法的有效性。
為便于描述,通常將列車看作是一個剛性質點,理想狀態下的列車動力學模型可以表示為

(1)
式中,i為系統迭代運行次數;x1,i(t)為列車運行距離,m;x2,i(t)為列車運行速度,m/s;f(Xi,t)為列車運行的單位非線性阻力函數,N/kg;b為系統的輸入增益,這里取列車的質量的倒數1/M;ui(t)為列車的輸入牽引力/制動力,kN;fb(t)為列車的單位基本阻力,N/kg;fa(s)為線路上的單位附加阻力,包括坡道附加阻力fg、曲線附加阻力fc和隧道附加阻力ft,N/kg;a0,a1,a2分別為列車基本阻力函數的系數。
列車在實際運行過程中會受到以下兩方面的限制。
(1)輸入受限
umin(t)≤ui(t)≤umax(t)
(2)
式中,umax(t),umin(t)分別為系統控制輸入的上、下界。
(2)狀態受限
xk,min(t)≤xk,i(t)≤xk,max(t)
(3)
式中,k為系統階數,k=1,2;xk,max(t),xk,min(t)分別為系統狀態信息的上、下界。
考慮系統受限情況,可以將式(1)改寫為

(4)

(5)
本文的控制目標是,對于給定的列車運行期望曲線xd,在式(2)、式(3)限制條件下,基于迭代學習控制理論,找到一個最優的控制序列ui(t),使得當i→∞時,系統能夠精確跟蹤期望曲線。
為方便控制器設計,提出如下合理假設。
假設1:列車在每次運行前滿足相同的初始條件,即
Xi(0)=Xd(0), ?i∈Z*
(6)
假設2:存在一個最優的控制序列ui(t),使得列車能夠在有限時間t∈[0,T]內完全跟蹤上期望的軌跡曲線。
為便于對下一節控制器收斂性的分析,這里給出關于飽和函數的性質。

(7)
在設計控制器之前,首先定義系統的跟蹤誤差ei(t)=xi(t)-xd(t),進一步,系統在第i次迭代的擴展誤差可以表示為
si(t)=c1e1,i+e2,i
(8)
定義系統第i次迭代的Lyapunov函數為

(9)
上式關于時間t求導,可得

(10)

為滿足Lyapunov穩定性要求,對于重復運行的列車自動駕駛系統,基于迭代學習的思想,在受限情況下,設計如下控制器

(11)
時變的模型系數向量βi可以通過飽和函數和迭代學習的思想來實現,表示為

(12)

針對高速列車自動駕駛系統,給出所設計控制律的收斂性分析,下述定理是主要的結論。
定理1:對于高速列車自動駕駛系統模型式(1)執行重復運行任務時,應用迭代學習控制器,本文所設計的控制律和學習增益更新律具有以下的性質。
(L1)?t∈[0,T],當迭代次數i趨向于無窮時,跟蹤誤差向量ei(t)趨向于零。
(L2)系統狀態信號ui(t),xi(t)均有界,且在任意時刻任意迭代次都能滿足約束條件(2)和(3)。
證明 首先,構造類Lyapunov的復合能量函數(為了表述清晰,會對函數的表達作一定的簡化)

(13)
式中,δβi為時變學習增益的估計誤差,δβi=β-βi。
接下來,分別對定理1中的(L1)、(L2)部分進行證明。
(1)定理1中(L1)部分的證明
首先,在迭代域對復合能量函數Ei(t)進行差分,得到
ΔEi(t)=Ei(t)-Ei-1(t)=

(14)
式中,Δδβi為δβi在迭代軸的差分,Δδβi=δβi-δβi-1。

(βi-1-βi)dτ=

(15)

(16)
成立。
因此,利用上式可以將式(15)改寫為

(17)
對式(14)第一項,將控制律式(11)代入,可以得到

(18)
將上兩式代入到式(14)中,得


(19)
由于上式中兩項均具有正定性,因此式(19)成立,即能量函數沿迭代軸具有差分負定性。
接下來,將對E0(t)的有界性進行證明。令i=0,將式(13)重寫為
(20)
對上式關于時間t求導,可得

(21)
考慮到?t∈[0,T],β-1=0,可以將上式改寫為

(22)
因此,可以得到

(23)
由于β為已知閉區間上的連續函數,且有界,因此,必然存在一個已知上界D*,使得
(24)
那么,式(20)就可以表示為

(25)
根據復合能量函數Ei(t)的差分負定性,可以將第i次迭代學習的能量函數表示為
(26)
對上式兩端取極限

(27)
由于能量函數Ei(t)是正定的,且E0(t)在時域[0,T]上有界,所以根據級數收斂的條件,可以得知,當迭代次數i趨于無窮時,有
(28)
即列車運行的跟蹤誤差在迭代域上會逐漸收斂到零。
(2)定理1中(L2)部分的證明
由于能量函數Ei(t)的正定性,且E0(t)在時域[0,T]上是有界的,那么根據式(27),Ei(t)在時域[0,T]上也是有界的。另外,根據上述的級數收斂定理,當迭代次數i趨于無窮時,系統跟蹤誤差ei(t)也會收斂到零。根據學習增益更新律式(12),在飽和函數意義下,可以得出結論,時變的學習參數向量βi(t)同樣是有界的。
此外,基于迭代學習控制的控制目標可達性可以描述為存在一系列的控制輸入ud(t),使得系統可以完全跟蹤上期望運行曲線。那么,對于?t∈[0,T],系統狀態xd(t)是有界的。又由于系統實際的控制狀態可以描述為xi(t)=xd(t)+ei(t),根據ei(t)的有界性,可知,系統狀態xi(t)也是有界的,由此可知,控制輸入ui(t)同樣是有界的。
以高速動車組某型車作為仿真對象,仿真線路長度為112.46 km,計劃運行時間為1 800 s。列車線路上受到的附加阻力如圖1所示,根據列車動力學模型和線路條件,求解出列車在區間的期望速度曲線和期望位移曲線,如圖2所示。通過Matlab仿真,將PID控制算法和D型迭代學習控制算法,與本文提出的受限狀態下的迭代學習控制算法進行比較,驗證算法在受限狀態下的有效性和收斂性。

圖1 列車單位附加阻力

圖2 列車運行期望速度和位移曲線
(1)PID反饋控制算法
工業上廣泛使用PID反饋控制器,控制律設計如下

(29)
式中,Kp為控制器的比例項系數,取0.5;Ki為控制器的積分項系數,取0.1;Kd為控制器的微分項系數,取10。
(2)D型迭代學習控制算法
列車的初次迭代采用(1)的PID反饋控制器得到,從第2次開始,采用如下D型迭代學習控制器

(30)
式中,G為常學習增益,G=[g1,g2]T,取g1=1.5,g2=3。
(3)本文提出的參數化迭代學習控制算法
列車的初次迭代同樣采用(1)的PID反饋控制器,根據所提出的迭代學習控制律和參數更新律,設置c1=1,θi(0)=[0,0,0]T,參數向量θ(t)的上界定義為θmax(t)=[1,0.01,0.000 5]T,下界定義為θmax(t)=[0.01,0.001,0.000 05]T,參數更新增益矩陣γ=[0.01,0.000 4,0.000 000 4]T。

圖3 PID控制跟蹤效果

圖4 D型迭代學習控制跟蹤效果

圖5 本文所提出的迭代學習控制跟蹤效果
由圖3~圖5可以看出,當列車進行工況轉換時,PID反饋控制會產生較大的暫態,導致列車運行偏離期望軌跡;而D型迭代學習控制器對期望曲線跟蹤的收斂速度較慢,且控制輸入會超過執行器上界,不利于列車安全運行;而本文提出的受限狀態下的迭代學習控制算法,通過飽和函數sat(·)的作用,保證列車運行控制輸入和狀態始終在允許范圍內,并且能夠較快地跟蹤上期望軌跡曲線。

圖6 三種控制算法的距離跟蹤誤差對比

圖7 3種控制算法的速度跟蹤誤差對比
圖6和圖7給出了3種控制算法在距離和速度跟蹤誤差的對比圖,可以看出,PID算法由于沒有學習機制,無法隨著迭代次數提高距離和速度的跟蹤精度;D型迭代學習控制算法由于沒有對控制系統模型的學習,因此跟蹤收斂速度較慢;而本文提出的迭代學習控制算法,可以很好的學習系統的重復性信息,達到較快的收斂速度和跟蹤精度。
為分析在受限狀態下高速列車的跟蹤控制問題,首先建立了在受限狀態下的列車動力學模型,然后根據擴展誤差建立Lyapunov函數,推導出基于迭代學習控制的控制律和參數更新律,并給出嚴格的數學收斂性分析,最后通過計算機仿真對所提出的算法進行驗證,分析其對期望運行軌跡的跟蹤性能,主要結論如下。
(1)飽和函數sat(·)可以有效限制列車自動駕駛系統執行器的控制輸入過大問題,保證了系統的運行安全。
(2)通過嚴格的數學證明,驗證了所提出的控制律沿迭代軸可以達到漸進收斂,證明了算法收斂性和穩定性。
(3)通過計算機仿真驗證以及與PID算法和D型迭代學習控制算法對期望運行軌跡跟蹤性能的比較,證明所提出的算法具有較快的收斂速度和較高的跟蹤精度,且能夠保證控制輸入在允許的范圍內。