馬樂樂 劉向杰
隨著現代工業中產品種類的增多和市場需求變化的加快,批次生產過程占據越來越重要的地位[1].這類生產過程通常需要按照一定順序對原料進行加工,并進行重復操作來獲得成批同類產品[2].批次過程具有 “多重時變”的特點[1],其控制任務通常為重復地以高精度跟蹤參考軌跡.經典控制理論多基于連續生產過程中的調節問題,難以在批次過程中取得理想的控制效果.因此,發展適應批次過程特點的特殊控制算法具有重要理論意義和應用價值.
迭代學習控制(Iterative learning control,ILC)作為一種智能控制方法,可以通過迭代功能不斷調整控制輸入以提高跟蹤性能,這與批次過程的結構十分契合,因此被廣泛應用于批次過程控制[3-4].然而,ILC 是典型的開環控制,難以保證時域魯棒性和閉環穩定性,限制了其在實際工業中的應用.模型預測控制(Model predictive control,MPC)作為一項成熟的先進控制技術[5],具有較強的閉環性能,在工業應用中取得了令人矚目的成果[6].結合ILC和MPC 的優點,構造迭代學習模型預測控制(Iterative learning model predictive control,ILMPC)成為解決批次過程控制問題的有效方法[7].在過去十幾年間,ILMPC 理論得到了長足的發展.控制模型由易于推導的輸入輸出模型[8-9],推廣到二維狀態空間模型[10-11],學習機制也得到了諸多改善[12],衍生了許多解決不確定性、隨機擾動、變參考軌跡等具體問題的ILMPC 算法[13-15].
在實際生產中,存在許多具有快動態的批次過程,如工業機器人[16]、運載工具[17]以及部分化學反應器[18].這些批次過程的采樣時間通常為秒級甚至毫秒級,對控制器的計算效率提出了較高要求.由于實際批次過程具有較強的非線性,傳統的ILMPC需要在每個采樣時刻求解復雜的非凸序列二次規劃(Sequence quadratic programming,SQP)[19]問題,導致在線計算負擔較大,尋優時間較長.通過線性化方法獲得更為簡單的線性模型,可以有效提高優化求解的速度.軌跡線性化方法將非線性系統沿參考軌跡在每個采樣點上進行線性化,得到相應的線性時變(Linear time varying,LTV)模型,將軌跡跟蹤問題轉化為跟蹤誤差調節問題[20].其線性化誤差可以通過李普希茲條件轉化為預測狀態誤差,從而可獲得真實跟蹤誤差的上界.將此上界作為優化目標函數,就能夠在提高控制效率的同時保證系統的跟蹤精度.
傳統MPC 結構中,在每個采樣時刻需要求解整個控制時域內的輸入變量序列,其優化問題的自由度為控制輸入維數與控制時域長度的乘積.復雜工業過程中,被控系統通常是多輸入系統,且需要選取較長的控制時域以保證跟蹤性能,所以傳統MPC 的在線優化問題自由度較大,計算負擔較重.相比較而言,預測函數控制(Predictive functional control,PFC)[21]作為第三代模型預測控制技術,在提高計算效率方面具有突出優勢.它將控制輸入表示為幾個基函數的加權和,從而將復雜的輸入序列求解問題轉化為更為簡單的權重系數求解問題,有效降低待優化變量的維數,減小計算負擔.在時域上結合PFC 算法,構建一類特殊結構的迭代學習模型預測控制,即迭代學習預測函數控制(Iterative learning predictive functional control,ILPFC),可以實現對快速批次過程的高效控制[22].但是,隨著計算效率的提高,采用PFC 算法同時也會帶來可行域縮減的問題,可能會導致控制輸入最優性的下降,進而影響系統的跟蹤精度.針對此問題,可以通過選擇合適的基函數結構,使最優解包含于ILPFC 的可行域內,來確保ILPFC 的跟蹤精度.從而實現計算效率和跟蹤精度間的平衡.
除了保證控制系統高效性與準確性,如何在時域和迭代域上都實現良好的閉環性能也是ILMPC設計中的一個關鍵問題.ILMPC 具有典型的二維控制結構,其中MPC 沿時間軸實施滾動時域優化,ILC 沿批次軸通過學習過程數據提高跟蹤精度.因此需要同時保證時域穩定性以及迭代收斂性.本文所構建的ILMPC 針對線性化誤差問題,構造真實跟蹤誤差的上界為優化目標函數.該目標函數可以代表實際非線性系統的跟蹤誤差能量,在穩定性分析中充當Lyapunov 函數.進而,本文所設計的ILMPC非線性控制系統的穩定性可以通過引入終端約束集[23]來保證.但由于LTV 預測模型的采用,經典終端約束集理論中的穩定性條件需要相應地擴展為時變的形式.基于ILMPC 的二維結構,可以從時域穩定性推導出迭代收斂性.
本文首先針對非線性批次過程,基于軌跡線性化模型構建一種具有終端約束的ILMPC 策略,采用真實跟蹤誤差的范數上界作為優化目標函數.在此基礎上,通過引入特殊結構的MPC,即PFC 算法,建立一種高效穩定的ILPFC 策略,實現對非線性批次過程的快速、精確的軌跡跟蹤控制.在二維框架下,基于Lyapunov 穩定性理論定性分析所設計的ILMPC/ILPFC 算法的穩定性和收斂性問題.通過無人車及典型快速間歇反應器的仿真驗證了所提出ILPFC 策略的有效性.
批次過程可描述為以下非線性離散狀態空間模型

其中,u∈U為nu×1 維的控制輸入,x∈X為nx×1 維的狀態向量.且對于任意x∈X和u ∈U,f(x(t),u(t)) 滿足局部李普希茲連續性條件,其李普希茲常數為Lu,t∈[0,N],N為批次長度.
假設狀態參考軌跡為xr,ur為xr對應的參考輸入軌跡,滿足

定義狀態誤差xe(t),輸入誤差ue(t) 為

將式(3)代入式(1),可得

非線性系統(1)的軌跡跟蹤問題可轉化為系統(4)的零點調節問題.利用泰勒展開法將非線性系統(4)沿參考軌跡線性化,即在 (xe,ue)=0 點處線性化,可得

其中,?(xe(t),ue(t)) 代表線性化產生的高階項.
將式(4)代入式(5),可得

由于f(x(t),u(t)) 滿足利普希茲連續條件,所以?(xe(t),ue(t)) 滿足

假設k代表過程批次,將式(5)在批次k和批次k+1 間做差,可得到如下沿迭代軸的增量模型:

當系統狀態x(t) 無限接近參考軌跡xr(t) 時,?(xe(t),ue(t)) 為無窮小量.也就是說,在每個采樣點周圍存在圖1 所示的小鄰域,在這些鄰域中非線性系統(8)的動態特性可由線性時變系統

圖1 參考軌跡鄰域示意圖Fig.1 The neighborhoods along reference trajectory

描述.
根據線性時變系統(9)構建線性預測模型








注 1.線性矩陣不等式 (26)和(27)可在批次過程開始前離線求解,因而滿足快動態系統高效控制的要求.
ILMPC 系統中存在著物理約束及終端約束.為采用SQP 方法對優化問題P1 求解,需要將所有約束轉化為標準形式.其中,狀態約束處理需要先通過利普希茲條件建立系統真實狀態與當前控制輸入的關系.
2.2.1 控制輸入約束
在批次過程中,控制輸入的約束可描述為


通過將輸入約束轉化為式(30)的標準形式,優化問題(19)可以利用MATLAB 軟件中的SQP 方法直接求解.
2.2.2 狀態約束
假設在t時刻對于i=1,2,···,m存在以下狀態約束
實際工業過程通常為復雜多輸入多輸出系統,需要選取較長的控制時域來保證控制性能,這導致了每個采樣時刻的待優化變量維數很大,加重了ILMPC 的計算負擔,使其無法達到快速批次過程對計算效率的要求.預測函數控制(PFC)是一類具有特殊控制輸入結構的MPC 策略.它將控制量設定為一組視系統特性及參考軌跡形式而定的基函數的線性組合[21].系統輸出預報值通過基函數的已知響應合成,因而,只需通過優化計算求出基函數的線性加權系數即可獲得控制輸入量.鑒于其計算量小、控制精度高的優點,PFC 已廣泛應用于液壓機器人[25]、導彈控制系統[26]等快速工業過程.在ILMPC 的時域控制中采用PFC 構建高效的ILPFC 算法,能夠在保持跟蹤精度的前提下,進一步提高控制效率.

注 2.經典預測函數控制中基函數的選取通常依賴于目標參考軌跡形式及系統內部動態特性.針對批次過程軌跡跟蹤問題,本文提出一種新的基函數構造方法.首先根據目標參考軌跡及前一批次的信息反饋,選取隨時間和批次變化的基函數η1=起主要調節作用;然后再針對系統偏差情況及擾動形式,結合系統動態特性確定其他基函數η2,···,ηb起補償作用.由于基函數為上一批次的控制輸入偏差,若系統不存在外界擾動或狀態偏差,選取即可實現高精度跟蹤.當系統存在狀態偏差時,可以通過選取沖激信號和階躍信號作為基函數在η1的基礎上進行調整[26],補償狀態偏差,達到高精度跟蹤;當系統存在外界擾動時,為在系統最后輸出中去除該擾動的影響,應根據擾動類型及系統內部特性,反推出能夠抑制該種擾動的基函數類型,進行擾動補償.例如,若外部擾動為正弦形式,系統具有線性動態,為消除擾動影響,應選擇正弦形式的基函數以補償擾動,保證跟蹤精度.
進而,ILPFC 的優化問題可描述為

滿足

從本質上講,在利用SQP 求解帶約束優化問題時,其計算復雜度與優化問題的自由度緊密相關[19],這可以通過SQP 求解的迭代尋優過程進行具體說明.
當使用SQP 求解ILPFC 優化問題P2 時,需建立對應的拉格朗日函數


圖2 ILPFC 控制框圖Fig.2 The control scheme of the ILPFC

易知ILPFC 優化問題P2 中,Hessian 矩陣的維數為b×b.而未采用PFC 的ILMPC 優化問題P1 中,Hessian 矩陣為

其維數為num×num.在實際應用中,被控對象通常為多輸入多輸出系統,且控制時域m較大,導致num通常量級較大.相比較而言,ILPFC 中只需根據參考軌跡及系統特性選擇少數幾個基函數來達成控制目標,即b的量級通常較小.所以P2 的Hessian 矩陣的維數會遠遠小于P1,也就是說ILPFC 滾動優化求解的計算量遠小于ILMPC.
盡管ILPFC 通過應用PFC 結構提高了計算效率,但也相應地帶來了可行域減小的問題.ILMPC的原可行域為所有滿足約束的控制向量構成的區域,可描述為而在ILPFC 中由于控制輸入由基函數的加權和代替,其可行域縮減為 ΘILMPC內一個b維的區域,可表示為 ΘILPFC={ηθ|x ∈X,u ∈U,(t+m)∈Ωt+m,θ ∈Rb}中的全局最優解不包含于縮減后的可行域 ΘILPFC,那么ILPFC 的優化解只是局部最優解,進而會對ILPFC 的跟蹤精度帶來負面影響.
為了實現計算效率和跟蹤精度的平衡,在ILPFC 設計中選擇合適的基函數使其可行域 ΘILPFC仍能覆蓋全局最優解尤為關鍵.針對這個問題,選取一種隨時間和批次變化的基函數結構:首先根據上一批次的控制經驗選取基函數,使ILPFC 可行域靠近最優解;再根據系統中的狀態偏移或者擾動形式選擇典型信號作為其他基函數進行補償調整,使得以所有基函數為基的空間覆蓋最優解.為形象描述這個過程,以單輸入、控制時域為3、基函數個數為2 的ILPFC 系統為例進行說明,其可行域形成過程示于圖3.其中三維橢球區域為ILMPC的可行域 ΘILMPC,則ILPFC 的可行域 ΘILPFC為基函數構成的二維平面與該橢球的相交面.

圖3 ILPFC 可行域形成過程Fig.3 The forming process of feasible region of ILPFC
由于基函數η1是根據參考軌跡及系統動態選擇的隨時間和批次變化的基函數,它會形成一條與全局最優解十分接近的直線.通過選擇另一典型信號基函數對此直線的移動方向進行簡單調整,即可使η1與η2構成的平面區域包含全局最優解(圖中圓點),那么該平面與橢球的相交面,即ILPFC 可行域 ΘILPFC必定能包含全局最優解.
結合第3 節中的ILMPC 穩定性結論,可由圖3總結出:
1) 若合理選擇基函數使其構成的區域與ILMPC的可行域相交,那么ILPFC 優化問題在任意未來時刻可行;

收斂性是衡量ILMPC 算法性能及維護控制系統安全的重要性質[8-11].ILMPC 算法的收斂性通常定義為跟蹤誤差沿迭代次序k收斂.現有的ILMPC 算法大多未考慮控制系統時域穩定問題,所以通常需要滿足一些較為苛刻的條件以保證迭代收斂性[8,10].本文所提出的ILPFC 算法將真實跟蹤誤差的二范數上界作為優化目標函數,并加入終端約束來保證系統時域穩定性.結合第3 節中引理1的穩定性結論,ILPFC 的收斂性可以在合理假設下通過 “三步推導”證得.首先根據閉環穩定性可推出跟蹤誤差有界性;然后,通過反證法可以得到初始控制輸入的收斂性.最后重復利用利普希茲條件,證得系統跟蹤誤差沿迭代軸收斂.
定理 2.若初始狀態滿足則ILPFC(ILMPC)系統的跟蹤誤差沿迭代軸收斂.
證明.1)證明跟蹤誤差的有界性,由式(37)可知,ILPFC 中第k批次初始時刻的目標函數為


無人地面車輛(Unmanned ground vehicle,UGV)是廣泛應用于農業、物流業、采礦業、軍事的移動式人工智能車輛.在執行巡邏、運輸及農耕任務時,其控制目標可看作自動重復跟蹤給定的運動軌跡,是一類典型的快速批次過程,采樣間隔較短.其非線性動態特性可由以下微分方程描述[27]

其中,xc和yc為車輛在笛卡爾坐標系下的位置坐標,θc表示車輛軸線中心的方向,L=1.2 m 為車輪的軸距,vc代表車輛速度,σc代表車輛轉向輸入.[xcycθc]T為車輛控制系統的狀態變量,[vcσc]T為控制系統的輸入變量.車輛參考軌跡為

采樣時間選為0.2 s.車輛初始狀態為 [10.3 9.5 1]T,與參考軌跡相比存在初始狀態偏移.每一批次的初始狀態保持一致,即滿足定理2 中的收斂條件選取初始批次控制輸入為已知的參考輸入軌跡vr和σr.
控制輸入約束及狀態約束設為

其中,xe=xc-xr,ye=yc-yr,θe=θc-θr.
離散化非線性系統(53),并沿參考軌跡(54)實施線性化,建立如式(5)的線性化誤差模型

其中,

?(xe(t),ue(t)) 代表泰勒展開的高階項.
基于式(5)~(11),由線性化模型(56)形成二維預測模型,其中預測時域與控制時域都選為20.利用李普希茲條件,得到真實跟蹤誤差的上界其中時變李普希茲權重?t可以通過式(16)離線計算得到.將此上界作為優化目標函數,結合終端約束,構造ILMPC 優化問題P1,其中,Pt+m,K(t)和α由式(26)和式(27)表示的線性矩陣不等式計算得到.求解得到的跟蹤誤差時變終端不變集,如圖4 所示.

圖4 UGV 系統跟蹤誤差時變終端不變集Fig.4 The time-varying tracking error terminal invariant set of UGV control system
在ILPFC 中,選取基函數

η2為單位階躍信號.將控制輸入變量表示成基函數η1和η2的加權和,構成ILPFC 優化問題P2.在每個采樣時刻,控制輸入的求解空間為nu×m(2×20)維,隨時間和批次變化的基函數η1于其中形成一條接近最優解的曲線,通過單位階躍基函數η2的調整,η1和η2構成與ILMPC 可行域 ΘILMPC相交的二維區域,保證LPFC 優化問題的可行.其相交區域,即ILPFC 的可行域 ΘILPFC包含令的控制輸入,以保證ILPFC 控制系統穩定.仿真得到的狀態及控制輸入曲線分別如圖5和圖6 所示,表明ILPFC 能夠以較高精度跟蹤參考軌跡.圖7(a)顯示了第2 批次中基函數權重系數(θ1,θ2)隨時間變化的軌跡,表明ILPFC 優化問題在所有采樣時刻可行.圖7(b)為跟蹤誤差均方差(Main square error,MSE) 隨批次的變化曲線,驗證了ILPFC 系統跟蹤誤差的收斂性.

圖5 ILPFC 控制下狀態跟蹤曲線Fig.5 The state tracking trajectories under the ILPFC

圖6 ILPFC 控制下控制輸入曲線Fig.6 The trajectories of control inputs under the ILPFC

圖7 UGV 系統 θ 變化曲線和MSE 變化曲線Fig.7 The change curves of θ and MSE of UGV control system
多點ILMPC (Multi-point ILMPC,mp-ILMPC)[11]是一種在解決非線性問題上具有突出優勢的算法,已在國際學術界獲得廣泛認可.它采用工作點線性化得到的線性定常預測模型,利用多點信息進行加權預測,同樣以真實跟蹤誤差的上界作為目標函數

為了驗證ILPFC 算法的有效性,將其與ILMPC (P1)以及mp-ILMPC 從計算效率和跟蹤精度兩個角度進行仿真實驗對比.圖8 描述了三種控制策略下第9 批次的無人車運動曲線,表明ILPFC 在跟蹤精度上與ILMPC和mp-ILMPC 相當.設置預測/控制時域分別為10,15和20,重復進行仿真實驗,從平均計算時間和平均跟蹤誤差均方差兩個方面對三種控制器進行性能分析,相關結果如表1 所示.隨預測/控制時域增加,三種方法的平均MSE 都呈下降趨勢,使得跟蹤精度提高.但是與此同時,ILMPC和mp-ILMPC 的平均計算時間均有顯著增長,并在控制時域達到20 時超過了采樣間隔.而ILPFC 的在線計算負擔幾乎保持不變,始終維持較高的控制效率.這是由于ILPFC 與其他兩種方法相比優化復雜度更低.當控制時域變長時,由于采用特殊的控制輸入結構,ILPFC 優化問題(P1)的Hessian 矩陣維數保持為 2×2,使在線計算負擔較低.而ILMPC 的Hessian 矩陣維數迅速增長,計算負擔也隨之加重.在mp-ILMPC 中,在每個采樣時刻需要求解非凸優化問題,使得其計算時間相對較長,并隨控制時域增加而增長.綜上,與其他兩種策略相比較,ILPFC 能更好地實現計算效率與控制最優性間的平衡.

圖8 UGV 系統分別在ILPFC、ILMPC和mp-ILMPC控制下第9 批次的運動跟蹤曲線Fig.8 The motion curve of UGV during the 9th batch under the ILPFC,ILMPC and mp-ILMPC

表1 ILPFC、ILMPC 及mp-ILMPC 計算量和跟蹤誤差比較Table 1 The comparison of computation time and tracking errors between ILPFC,ILMPC and mp-ILMPC
化學工業中存在很多快速反應過程[18],要求在較短的采樣時間內計算出控制輸入,這對此類間歇反應器的實時控制提出了很高的要求.本組仿真實驗通過對快速間歇反應器的溫度控制,驗證ILPFC 在提高優化效率方面的作用.反應器中進行由反應物A生成反應物B的二級放熱反應[28],其控制任務為通過調節冷卻套溫度來重復跟蹤給定的反應溫度曲線.反應過程的非線性動態可由以下微分方程描述

其中,T為反應溫度,CA為反應物A濃度,Tj為冷卻劑溫度,其他參數物理意義可參見文獻[28].各參數取值為

采樣時間為0.02 min.參考軌跡采用文獻[28]的典型生產過程反應溫度曲線.反應器系統存在初始狀態偏移,實際初始狀態在所有批次保持為[CA0,T0]T=[0.9(mol/l),296.15(K)],滿足定理2 中的收斂條件.選取初始批次控制輸入為已知的參考輸入軌跡ur,系統約束為

針對非線性系統(58)實施離散化,并沿參考軌跡進行線性化,得到如式(11)的二維預測模型,其中預測/控制時域選為20.由此帶來的線性化誤差通過時變李普希茲權重?t在優化目標函數中加以補償.再結合終端約束,構建ILMPC 優化問題P1,其中時變終端不變集由式(26)和式(27)表示的線性矩陣不等式計算得到,如圖9 所示.

圖9 間歇反應器系統跟蹤誤差時變終端不變集Fig.9 The time-varying tracking error terminal invariant set of batch reactor control system
在ILPFC 優化問題P2 中,選取基函數η1=,η2為單位階躍信號,η3為單位斜坡信號.這3 個基函數構成的區域可與ILMPC 的可行域相交并覆蓋最優解,以此保證ILPFC 的遞歸可行性及閉環穩定性.ILMPC 控制下的仿真結果如圖10~ 12 所示,表明ILPFC 能夠以較高精度跟蹤設定的反應器溫度參考軌跡.圖13(a)顯示了第20 批次基函數權重系數θ1,θ2和θ3沿時間的變化軌跡,證明ILPFC 優化問題P2 的可行性.圖13(b)為跟蹤誤差MSE 沿批次的變化軌跡,表明ILPFC 系統的跟蹤誤差沿迭代收斂.

圖10 ILPFC 控制下反應溫度跟蹤曲線Fig.10 The trajectories of the reaction temperature T under the ILPFC

圖11 ILPFC 控制下反應物A 濃度跟蹤曲線Fig.11 The trajectories of the concentration CA under the ILPFC

圖12 ILPFC 控制下冷卻劑溫度曲線Fig.12 The trajectories of the coolant stream temperature Tj under the ILPFC

圖13 間歇反應器系統 θ 變化曲線和MSE 變化曲線Fig.13 The change curves of θ and MSE of batch reactor control system
為了驗證ILPFC 的跟蹤性能,對ILPFC、ILMPC 以及mp-ILMPC 控制下的反應溫度跟蹤曲線進行比較,如圖14 所示.其中,mp-ILMPC 中的參數設置為對比結果表明ILPFC 的跟蹤精度與ILMPC 相差無幾.選取預測/控制時域分別為10,15和20 重復進行仿真實驗,從平均計算時間及平均跟蹤誤差MSE 兩個角度比較三種方法,其結果如表2 所示.很明顯,隨著預測/控制時域增大,三種控制方法的跟蹤精度均提高.但是,只有ILPFC 保持了較高的求解效率,其他兩種方法的計算效率均呈現下降趨勢.

表2 ILPFC、ILMPC 及mp-ILMPC 計算量和跟蹤誤差比較Table 2 The comparison of computation time and tracking errors between ILPFC,ILMPC and mp-ILMPC

圖14 第20 批次ILPFC、ILMPC和mp-ILMPC控制下反應溫度跟蹤曲線Fig.14 The tracking trajectories of the reaction temprature under the ILPFC,ILMPC and mp-ILMPC in the 20th batch
在進行非線性批次過程軌跡線性化時,參考輸入軌跡ur是已知的.在系統存在初始狀態偏差的情況下,ur較為接近目標控制輸入軌跡.因此將ur作為初始批次的控制輸入是最優的選擇.圖15 描述了初始批次輸入軌跡為303 K 幅值階躍信號時的跟蹤曲線.可以看出,在初始控制輸入軌跡嚴重偏離目標輸入軌跡時,ILPFC 仍能在10 個批次內實現高精度跟蹤,驗證了ILPFC 對初始批次輸入的魯棒性.

圖15 階躍初始批次輸入下ILPFC 溫度跟蹤曲線Fig.15 The tracking trajectories of the reaction temprature T under the ILPFC with a step input in the initial batch
綜上,ILPFC 實現了高精度跟蹤與高效優化求解之間的平衡,這對提高快速間歇反應器的產品質量和生產效率都具有顯著的實際意義.
本文基于二維ILMPC 框架,在時域控制中結合PFC 算法來降低優化計算負擔,由此帶來的可行域縮減問題在一定程度上會影響ILPFC 的跟蹤精度.通過選擇一種隨時間和批次變化的特殊基函數結構,可使在縮減的可行域內仍能獲得最優解,達到了控制效率與跟蹤精度間的平衡.針對UGV系統和快速間歇反應器的仿真實驗驗證了ILPFC 算法的有效性.
通過對ILPFC 算法結構的剖析,可以發現其控制性能與所選擇的基函數品質密切相關.因此,如何獲得系統的最優基函數是未來研究的一個重要方向.基于批次過程大數據,可以發展一種沿迭代軸進行基函數自學習的控制框架,這將有利于進一步提高ILPFC 系統的學習能力及閉環性能.
附錄A 定理1 的證明

