楊 軒,耿 燕
(西安工程大學 理學院,陜西 西安 710048)
切換系統是一個由一系列連續或離散子系統以及協調這些子系統之間進行切換的規則組成的混合系統[1-2]。近年來,隨著工業技術的發展,切換系統廣泛地出現在各種工程實際中,從而越來越受到人們的關注。因此,對切換系統深入研究具有重要的理論意義和實用價值[3-4],特別是對切換系統軌跡跟蹤控制研究是一個突出且具有廣泛發展前景的問題[5-6]。但是,由于切換系統的動態行為較為復雜,對這類系統進行跟蹤控制研究也面臨諸多挑戰,相關理論有待進一步探究[6-8]。
在跟蹤控制領域,迭代學習控制(ILC)是一種有效控制策略,近幾十年來一直受到廣泛關注[9-10]。 ILC策略以人腦學習機理為基礎,針對在固定時間區間內重復運行的系統,通過不斷地學習、改進,逐步實現對目標的精確跟蹤[9]。與傳統的控制策略相比,ILC突出的優點是,利用較少的系統信息就可以達到對目標準確跟蹤的目的[11-12]。因此, ILC適用于具有重復性質的跟蹤控制任務。尤其是當系統動力學信息未知或部分已知,初始狀態可重置時,這種技術更具優越性。
切換系統的迭代學習控制在電力、交通、調度等領域具有廣泛的應用。目前,關于切換系統的ILC研究已取得一定的進展:P-型[10]、PD-型[13]、D-型[14]、高階PID-型[15]等是這類問題的早期成果。近年來,隨著研究的深入,混合型ILC[16-18]和帶衰減因子的ILC策略[19]等相繼涌現。需要強調的是,這些控制策略都是針對由時變切換信號支配的切換系統取得的成果。而在工程實際中,還存在其他諸如時間-迭代變化的切換信號、狀態驅動的切換信號以及事件驅動的切換信號等[1,20]。針對由這類切換信號支配的切換系統,上述的控制策略很難奏效。因此,有必要拓展切換系統的ILC研究。
本文針對在時間-迭代域內隨機變化的切換規則,設計了一種切換系統的新型迭代學習控制算法,并通過理論分析和數值仿真驗證了控制策略的可行性和有效性。
考慮如下的線性連續切換系統
(1)
式中:k是迭代次數;Ω=[0,T]表示固定的時間區間;xk(t)∈Rn,uk(t)∈Rm,yk(t)∈Rl和ξk(t)∈Rl分別表示狀態、輸入、輸出以及外部噪聲向量;x0∈Rn是初始狀態;Aτ(φ(t),k)、Bτ(φ(t),k)和Cτ(φ(t),k)是具有適當維數的系統矩陣。下標τ(φ(t),k)表示切換信號,是關于時間和迭代次數的隨機常函數,定義如下:
τ(φ(t),k)=l[i,k] (i=1,2,…,n)
(2)
其中,i定義為
附注1 由切換規則定義可以看出,控制過程是將時間區間Ω隨機分成n段,且Ω=Ω1∪Ω2∪…∪Ωn,Ω1∩Ω2∩…∩Ωn=?。l[i,k]表示第k次學習周期內第i個時間區間上的一個隨機數。這就意味著,不同迭代過程中的同一個時間子區間上運行的子系統隨機分配(與時變切換信號支配的切換系統不同),同一迭代周期內的不同時間子區間內運行的子系統也相互獨立。在這種切換信號的支配下,在任一學習周期內的任何時間子區間內,任意子系統都有可能被調動運行。具體運行的子系統,由隨機數l[i,k]指定,例如,如果l[2,5]=3,則在第5次學習過程中第2個時間子區間上,由第3個子系統運行。
在式(2)的支配下,系統(1) 可重新描述為
(3)
任意給定可達的目標軌線yd(t)(t∈Ω),定義跟蹤誤差
ek(t)=yd(t)-yk(t)
考慮如下的D-型ILC算法
(4)
式中:Γl[i,k]表示微分學習增益;Φl[i,k](t)是適當維數的可逆矩陣。
通過控制算法(4)可以產生一個遞歸的控制序列{uk(t)},使得在其控制下,系統(3)的輸出信號隨著迭代次數k的增加,漸近跟蹤至yd(t)(t∈Ω)的某個鄰域,即
(5)
給定向量函數v(t):[0,T0]→Rn, 其λ-范數定義[21]為
其中‖·‖表示某種向量范數。
假設1 對于t∈Ω,任意給定目標軌線yd(t),存在期望控制信號ud(t)和適當的期望狀態xd(t),滿足
假設2 每次迭代的初始狀態滿足‖xd(0)-xk(0)‖<μ,k=1,2,…, 其中μ是一個充分小的正數.
假設3 外界噪聲向量ξl[i,k](t)是有界的,即‖ξl[i,k](t)‖<δ, 其中δ是一個充分小的正數。
引理1[22](Bellman-Gronwall不等式) 設函數h(·):[t0,T0]→R+,a,b,c≥0是常數。如果

λ>a+b
則
引理2[23]考慮非負實序列{ak},滿足
ak≤σ1ak-1+σ2ak-2+…+σNak-N+εk,
k=N+1,N+2,…
式中:al(l=1,2,…,N)為初始值; {εk}為界定數列。如果系數σj(j=1,2,…,N)滿足σj≥0,且

定理1 將迭代學習控制算法(4)應用于由切換信號系統(2)支配的切換系統(3),如果存在適當的學習增益Γl[i,k]和非奇異矩陣Φl[i,k](t)滿足
(6)
則隨著迭代次數k的增加,系統(3)的輸出信號yk(t)(t∈Ω)漸近跟蹤yd(t)(t∈Ω)到其某個鄰域內。
證明系統(3)在第k-次學習周期內的狀態
響應為
則系統的輸出信號為
由跟蹤誤差的定義,得
(7)
存在非奇異矩陣Θl[i,k](t)和Φl[i,k](t), 使得
(8)
因此,跟蹤誤差的遞歸關系式(7)變為
(9)
式中:δxk(ti-1)=Θl[i,k](t)xk+1(ti-1)-xk(ti-1);Δξl[i,k](t)=ξl[i,k+1](t)-ξl[i,k](t)。
應用學習算法(4),式(9)可變為
ek+1(t)=ek+1(t)-Cl[i,k]·
exp(Al[i,k](t-ti-1))δxk(ti-1)-
利用分部積分法,得
(10)
對式(10)分步驟分析如下:
1) 當t∈Ω1時,某個子系統在Ω1運行,而且不同學習周期運行在此區間上的子系統可能不同,由切換律指定。記t0=0,則跟蹤誤差的遞歸關系(10)可變為
(11)
對式(11)兩邊取范數并利用范數不等式,得
(12)
式中:
al[1,k]=‖Al[1,k]‖
bl[1,k]=‖Bl[1,k]‖,cl[1,k]=‖Cl[1,k]‖

‖Θl[1,k](t)xk+1(0)-xk(0)‖]

將等式(12)兩邊同時乘exp(-λt) (λ>al[1,k]),得
由于子系統的個數以及子系統矩陣維數都是有限的,考慮假設2可得,φl[1,k]、φl[1,k]和κl[1,k]都是有限值。
記a1=maxal[1,k],c1=maxcl[1,k]和φ1=
maxφl[1,k],并結合λ-范數,可得
式中:
εl[1,k]=φl[1,k]+κl[1,k]
由引理1得,當λ>φ1+a1時,
成立。顯然, 此時不等式
成立。于是,可得

考慮條件(6)并利用引理2,得
因此,可以斷定系統的輸出信號在Ω1上可跟蹤到目標軌線的某個鄰域內。
2) 當t∈Ω2時,另一個子系統在Ω2上運行,跟蹤誤差的遞歸關系(10)可變為
Γl[2,k]]ek(t)+

Cl[2,k]exp(Al[2,k]t)·
[Θl[2,k](t)xk+1(t1)-xk(t1)]+
Cl[2,k]exp(Al[2,k](t-t1))·
Γl[2,k]ek(t1)-Δξl[2,k](t)
(13)
對式(13) 兩邊同時取范數,得
(14)
式中:
將等式(14) 兩邊同時乘以exp(-λt) (λ>al[2,k]),得
因為系統輸出在第一個子區間上可以跟蹤目標軌線到某個鄰域內,參數φl[2,k],φl[2,k]和κl[2,k]都有界。為了表示方便, 記a2=maxal[2,k],c2=
maxcl[2,k]和φ2=maxφl[2,k]。于是,可得
式中:
εl[2,k]=φl[2,k]+κl[2,k]
由引理1得,當λ>φ2+a2時,不等式
成立。顯然,此時不等式
成立。于是,有

(15)
于是,系統在時間區間Ω2上可跟蹤目標軌線到其某個鄰域。
3) 當t∈Ωi(i=3,4,…,n)時,類似地,在此時間區間上,可得不等式
當i=3,4,…,n時均成立。即系統 (2)在時間子區間Ωi上可以跟蹤目標軌線于某個鄰域內。進而,在整個時間區間Ω=[0,T]上均可跟蹤目標軌線于某個鄰域內。證畢。
附注2 顯然,如何計算矩陣Φl[i,k](t)是設計ILC控制律(4)的關鍵之一。由等式(8)可知,其值由系統動態學信息界定。因此,當系統信息已知時,可以很方便地計算出矩陣Φl[i,k](t)。但是,在工程實際中,被控對像信息往往是未知的或部分已知的。在此情況下,計算矩陣Φl[i,k](t)比較困難。一種可行的方法是,根據以前的學習信息,辨識系統參數信息,進而計算Φl[i,k](t)的近似值。目前,關于矩陣Φl[i,k]的計算仍然是一個具有挑戰性的問題,有待在后續的工作中進一步研究。
為了驗證上述理論的有效性,引入一個仿真實例。考慮包含2個子系統的線性切換系統(2),其子系統動態學信息如下:
假設切換信號l[i,k]是一個二元隨機常函數,其函數值在每次迭代每個時間子區間上都隨機產生,設定為10以內的隨機正數。規定:如果l[i,k]在第k次迭代時第i個子區間上的數值是奇數,則第一個系統運行;否則,第二個系統運行。
由于被控對象是單輸入單輸出系統,則Φl[i,k](t)蛻變為一個數量值函數,可表示為Φl[i,k](t)=φ(t)/φ(t)或Φl[i,k](t)=φ(t)/φ(t)。根據參與運行的子系統的順序,選取2種函數中的一種, 其中:
此時,收斂條件(6)中的范數
‖I-Cl[i,k]Bl[i,k]Φl[i,k](t)Γd,l[i,k]‖
蛻變為
|I-Cl[i,k]Bl[i,k]Φl[i,k](t)Γd,l[i,k]|
在后續的數值仿真中,微分學習增益統一選作Γl[i,k]=0.8。此時,ρi共有4種可能的結果:ρ1=0.417 1,ρ2=0.496 0,ρ3=0.333 9,ρ4=0.424 0。滿足定理1中ρi<1的收斂條件。
假設時間區間為Ω=[0,1], 采樣步長設為Δt=0.02 s。設期望軌線為
yd(t)=-t2+t(t∈Ω)
假設初始狀態滿足‖x0-xd(0)‖2≤0.01, 初次迭代時選取控制信號u0(t)=0。仿真結果如圖1和圖2所示,其中跟蹤誤差在l2范數意義下度量。由圖1可以看出,在學習的過程中,跟蹤誤差的上界小于0.4;由圖2可知,通過150次學習,系統可以跟蹤期望軌線yd(t)(t∈Ω)于一個較小的鄰域。結果與定理1的結論保持一致。

圖 1 l2范數意義下誤差曲線Fig.1 Error curve in the sense of l2 norm

圖 2 第150次學習跟蹤效果Fig.2 Tracking performance at the 150th iteration
本文針對一類由任意時間-迭代變化的切換信號支配的線性連續切換系統,提出了一種新型迭代學習控制算法;借助于λ-范數,導出了一個使算法收斂的充分條件。數據仿真結果表明,當學習增益的選取滿足收斂條件且切換信號在時間-迭代域隨機變化時,系統在ILC策略控制下,跟蹤效果良好。