王 鼎 趙明明 哈明鳴 喬俊飛
復雜非線性系統的控制與優化廣泛存在于工業和生活領域[1?2].針對一般的非線性系統,通常采用Hamilton-Jacobi-Bellman (HJB)方程的框架來解決其最優控制問題[3].由于這類偏微分方程的解析解難以獲取,于是人們提出許多方法求得HJB方程的近似解.其中,自適應動態規劃(Adaptive dynamic programming,ADP)整合了動態規劃理論、函數近似工具和強化學習機制,能夠獲得令人滿意的近似最優控制策略[4?5].至今,ADP 在解決復雜非線性系統的最優控制問題上已有大量的成果,例如跟蹤控制[6?8],魯棒控制[9?11]和事件觸發控制[12?14]等.根據基本的迭代形式,ADP 算法通常分為值迭代[15]和策略迭代[16].針對一般離散非線性系統,文獻[15]詳盡地闡明了具有零初始代價函數的值迭代算法收斂性,而文獻[16]討論了策略迭代算法的收斂性.值得一提的是,策略迭代算法需要一個初始可容許控制律并且迭代過程中的控制律都能使得系統穩定,而值迭代過程中的迭代控制律可能是無效的,即不能保證系統的穩定性.然而,復雜非線性系統的初始可容許控制律通常難以獲取且策略迭代過程中的計算量較大.因此,我們更關注如何改進值迭代過程中迭代控制律的實用性.傳統值迭代算法要求零初始條件并且迭代指標增大到無窮才能保證控制律是可容許的.但是在實際應用中,算法必須在有限迭代步驟內找到一個有效的控制律[17].因此,提出合適的停止準則對于算法的實現是至關重要的.為了保證迭代控制律的可用性以及克服傳統值迭代算法的不足,廣義值迭代算法應運而生[18?20].廣義值迭代算法允許任意一個半正定函數作為初始代價函數,這使得迭代代價函數的單調性不唯一.針對非線性系統的最優控制,文獻[17]討論了無折扣廣義值迭代框架下迭代控制律的可容許性并提出了一個新的迭代停止準則.無折扣情況下單調遞減的代價函數序列能夠保證所有的控制律都是可容許的.然而有折扣情況下單調遞減的代價函數序列無法保證迭代控制律的穩定性.基于廣義值迭代算法,文獻[20]進一步指明了折扣因子與系統穩定性的關系.然而,在帶有折扣因子的廣義值迭代算法中,迭代控制律的可容許性以及折扣因子和初始代價函數的關系還沒有研究.在本文中,我們旨在進一步研究折扣廣義值迭代中迭代控制律的可容許性,并將廣義值迭代算法推廣到解決非線性系統的最優跟蹤問題中.
非線性系統的跟蹤問題一直是工程領域的熱點之一.傳統控制方法存在參數固定和自適應能力差的局限,使其難以應對復雜的外界干擾.ADP 方法具有顯著的自適應能力,已廣泛應用于求解復雜未知非線性系統的跟蹤問題.為了實現有效的跟蹤,最優跟蹤控制問題通常被轉換為關于誤差系統的最優調節問題.文獻[6]使用貪婪迭代啟發式動態規劃(Heuristic dynamic programming,HDP)算法解決了無限時域的最優跟蹤控制問題.文獻[7]則提出了一種有限時域的神經最優跟蹤控制策略.基于執行-評判結構,文獻[8]提出了一種部分模型未知的自適應最優控制方法,有效地解決了離散系統的跟蹤問題.文獻[21]通過對誤差系統建模從而解決了帶有控制約束的非線性系統跟蹤問題.然而,這些研究更傾向于仿射系統或者對誤差系統進行建模.仿射系統的穩定控制可以根據其表達式求解,這有利于實現跟蹤控制.然而,由于存在復雜的數學模型或者模型信息未知,非仿射形式的穩定控制往往難以求解.為了解決非仿射系統的跟蹤控制問題,文獻[22]使用了一種新的數值方法來求解穩定控制并避免了對誤差系統建模.利用數據驅動思想,文獻[23]使用HDP 技術實現了對污水處理過程中溶解氧和硝態氮濃度的跟蹤控制.文獻[24?25]運用二次啟發式動態規劃算法克服了對稱和不對稱約束情況下的復雜系統跟蹤控制問題.總之,基于ADP的非線性系統最優跟蹤控制研究已經取得了很大的進展.然而,上述工作都是基于傳統的值迭代算法,并沒有討論迭代過程中誤差系統的穩定性和跟蹤控制律的可容許性.
基于此,本文提出一種基于折扣廣義值迭代算法的離散時間未知非線性系統近似最優跟蹤控制方法.值得注意的是,該算法的初始代價函數不為零并且需要滿足一定條件使得代價函數序列單調遞減.在不同折扣因子的作用下,我們討論了迭代跟蹤控制律的可容許性和誤差系統的穩定性.通過收集系統的輸入輸出樣本數據來構造模型網絡以評估下一時刻狀態和求解穩定控制.評判網絡和執行網絡分別用于近似代價函數和跟蹤控制律.此外,我們建立了一個新的停止準則作為迭代過程停止的依據.最后,通過兩個仿真實例驗證了本文提出算法的控制性能.
在本文中,R 表示所有實數集.Rn表示由全部n維實向量組成的歐氏空間.令 ? 為 Rn上的一個緊集.Rn×m表示n×m實矩陣組成的空間.In為n×n維單位矩陣.N={0,1,2,···}為所有非負整數的集合.N+={1,2,···}為所有正整數的集合.
考慮一類具有非仿射形式的動態系統

其中,x(k)∈Rn是狀態向量,u(k)∈Rm是控制向量.系統函數F(·) 相對于其參數在緊集 ? 上是可微的.假設系統(1)是可控的,且其狀態和控制量可觀測.考慮跟蹤問題,我們的目標是設計一個反饋控制策略u(x(k)) 使得原始系統(1)跟蹤上參考軌跡.這里,定義有界參考軌跡為

其中,r(k)∈Rn是k時刻的參考軌跡,R(·):Rn →Rn是一個可微的函數.不失一般性,我們假設存在一個相對于參考軌跡的穩定控制u(r(k)) 滿足方程r(k+1)=F(r(k),u(r(k)))并且可以求解.對于仿射系統,其穩定控制可以通過狀態矩陣和控制矩陣的構造形式來求解.然而,對于非仿射系統,上述穩定控制的求解方法已不適用.因此,本文將在后續部分給出非仿射系統穩定控制的求解方法.為了構造誤差系統,分別定義跟蹤誤差和跟蹤控制律為

和

基于式(1)~ (4),可以得到如下所示的誤差系統動態

最優跟蹤控制的思想是通過調節跟蹤誤差系統(5)使得誤差衰減到零向量,即e(k)→0.假設誤差系統是可控的,那意味著存在至少一個連續的跟蹤控制律u(e(k))使得誤差系統漸近穩定.受文獻[6?7,22]啟發,針對含有折扣因子的誤差系統最優調節問題,我們定義如下所示的代價函數

其中,γ ∈(0,1] 是折扣因子,U(e(l),u(e(l)))≥0是效用函數,U(0,0)=0 .在本文中,效用函數選為二次型形式,即U(e(l),u(e(l)))=eT(l)Qe(l)+uT(e(l))Ru(e(l)),其中Q和R是正定矩陣.簡潔起見,效用函數中的二次型重寫為Q(e(l))+R(u(e(l))) .待設計的跟蹤控制律不僅需要在 ? 上使得誤差系統穩定,并且需要使得式(6)中的代價函數有界,即u(e(k))是可容許的跟蹤控制律[15,26].對于誤差系統(5),假設存在至少一個可容許的跟蹤控制律.接下來,式(6)中的代價函數可以進一步寫為

最優跟蹤控制問題的核心是找到一個最優跟蹤控制策略使得代價函數(7)最小,這種最小的代價函數也稱為最優代價函數.根據Bellman 最優性原理,最優代價函數滿足如下所示的HJB 方程

因此,相應的最優跟蹤控制策略為

對于本文中的一般非線性系統,由于最優代價函數和最優跟蹤控制策略不能夠精確地求解,我們使用廣義值迭代算法來獲取其近似解.
在本節中,我們給出帶有折扣因子的廣義值迭代算法并討論折扣廣義值迭代算法的性質.
基于值迭代思想,我們構建兩個迭代序列,即代價函數序列{Vi(e(k))}和跟蹤控制律序列{νi(e(k))},其中i ∈N 為迭代指標.不同于傳統的值迭代算法,廣義值迭代算法允許采用任意一個半正定函數進行初始化.在此,令初始代價函數為V0(e(k))=eT(k)Λe(k),其中,Λ 是一個半正定的矩陣.對于i=0,1,···,算法的學習過程包括以迭代方式計算跟蹤控制律

和代價函數

為了最小化迭代過程中的代價函數,迭代跟蹤控制律的形式為

值得一提的是,本文沒有對誤差動態系統(5)進行建模.對誤差系統進行建模會增大計算量并且引入新的逼近誤差.因此,為了克服求解的困難,我們基于文獻[22]引入如下的一個轉換公式?e(k+1)?u(e(k))

進而,式(12)中e(k+1) 相對于u(e(k)) 的偏導數轉換為,后者的獲取通過對原系統建立的模型網絡來實現,這樣既減少了計算量,又能避免誤差系統建模過程中逼近誤差對控制器設計產生的不利影響.
接下來,我們重點關注折扣廣義值迭代算法的性質,包括單調性、有界性、收斂性和最優性.
引理 1 (單調性).定義跟蹤控制律序列{νi}和代價函數序列{Vi}如式(10)和式(11)所示,V0(e(k))=eT(k)Λe(k).對于所有的e(k)∈?,如果V0(e(k))≤V1(e(k)),則Vi(e(k))≤Vi+1(e(k)),?i ≥0 ;另一方面,如果V0(e(k))≥V1(e(k)),則Vi(e(k))≥Vi+1(e(k)),?i ≥0.
引理 2 (有界性).令π(e(k)) 是一個任意的控制策略且π(0)=0 .我們定義一個新的迭代代價函數為

如果π(e(k)) 是可容許控制律,則limi→∞Zi(e(k))有界.
引理1 和引理2 的證明可通過與文獻[17]類似的方法給出,只需注意折扣因子的存在.引理1中的單調性是至關重要的,這也是廣義值迭代算法和傳統值迭代算法的最大區別.傳統值迭代算法中的{Vi}是一個單調非減序列,而廣義值迭代算法中代價函數序列的單調性不唯一.事實上,單調遞減的代價函數序列有利于判斷系統的穩定性和控制律的可容許性.無折扣廣義值迭代算法的收斂性已在文獻[17?18]中給出.接下來,我們將闡明具有折扣因子的廣義值迭代算法的收斂性.
定理 1 (收斂性).假設條件 0≤γJ?(e(k+1))≤δU(e(k),u(e(k))) (0<δ <∞)一致成立且初始代價函數滿足其中如果跟蹤控制律序列{νi}和代價函數序列{Vi}按照式(10)和式(11)進行迭代更新,且V0(e(k))=eT(k)Λe(k),則代價函數序列通過以下的不等式一致收斂到最優代價函數

證明.首先,用公式推導來證明不等式的左邊部分.當i=0 時,成立.當i=1 時,可以得到

假設不等式(15) 的左邊部分對于i ?1 成立.對于i,可以進一步得到

不等式(15)右邊的證明過程與之類似,這里不再詳細展開.接下來,我們將證明隨著迭代指標增加到無窮時代價函數的一致收斂性.當i →∞時,對于 0<δ <∞,可以推導出

定義V∞(e(k))=limi→∞Vi(e(k)),進一步可以得到V∞(e(k))=J?(e(k)) .因為 ? 是緊集,因此可以得到代價函數序列一致收斂[18].□
實際中值迭代算法的迭代指標不可能增大到無窮,算法必須在有限的迭代步驟內停止.通常值迭代過程的停止準則為|Vi+1(e(k))?Vi(e(k))|,其中?是一個小的正數,此時相應的跟蹤控制律νi(e(k))可作用于受控系統.然而,滿足條件|Vi+1(e(k))?Vi(e(k))|
定理 2.定義迭代跟蹤控制律νi(e(k)) 和迭代代價函數Vi(e(k)) 如式(10)和式(11)所示,V0(e(k))=eT(k)Λe(k).對于任意的e(k)0,如果跟蹤控制律νi(e(k))使得下式成立

則迭代指標為i時的跟蹤控制律是可容許的.
證明.根據式(20),一定存在一個常數?∞<1滿足

將式(11)代入式(21),可得

不等式(22)的右半部分是一個負數,于是可得Vi(e(k+1))?Vi(e(k))<0,這意味著νi(e(k)) 是一個穩定控制律.此外,通過擴展不等式(22)可以得到

因為νi(e(k)) 是一個穩定控制律,當N →∞,可以得到 limN→∞Vi(e(k+N))=0.于是,式(23)可將進一步歸納為

對于 ?∞<1 和有界的e(k) 而言,Vi(e(k))是有界的.由此可以得到是有界的.由于折扣因子的取值范圍為γ ∈(0,1],進一步地,可以得到是有界的,這滿足了可容許性的條件.□
定理2 中給出了迭代跟蹤控制律的可容許性判別條件.需要注意的是,可容許的νi(e(k)) 并不能保證跟蹤控制律νi+η(e(k))也是可容許的,η ∈N+.此外,νi(e(k)) 也不一定是近似最優控制律.我們希望如果當前迭代步的跟蹤控制律νi(e(k)) 為可容許控制律,則該迭代步之后的所有跟蹤控制律νi+η(e(k))都是可容許的.
在無折扣廣義值迭代算法框架下,當V0(e(k))>V1(e(k))時,迭代代價函數將以單調遞減的形式收斂,即

根據式(25),可以得到

這表明每一個迭代步的跟蹤控制律都能夠鎮定被控系統.這不僅克服了傳統值迭代中控制律無法確保系統穩定的困難,也避免了在策略迭代中求取初始可容許控制律.值得一提的是,代價函數單調遞減的條件V0(e(k))>V1(e(k)) 是容易實現的,例如增大初始代價函數中矩陣 Λ 的元素值.然而,式(25)中引入折扣因子后,Vi+1(e(k))
定理 3.定義迭代跟蹤控制律νi(e(k)) 和迭代代價函數Vi(e(k)) 如式(10)和式(11)所示,V0(e(k))=eT(k)Λe(k).對于任意的e(k)0,如果折扣因子γ滿足

則νi(e(k)),i ∈N,是可容許的跟蹤控制律.
證明.當V0(e(k))>V1(e(k)) 時,可以得到

根據式(28),可以得到

為了實現Vi(e(k+1))?Vi(e(k))<0,折扣因子需要滿足以下不等式

即當式(30)成立時,νi(e(k)) 是一個穩定的跟蹤控制律.接下來,我們證明νi(e(k)) 是一個可容許的跟蹤控制律.當Vi(e(k+1))?Vi(e(k))<0 時,存在一個常數 ?∞<1,使得
進而可得
由于Vi(e(k)) 是有界的,結合式(32) 的左邊,進一步可以得到有界,這意味著νi(e(k)) 是一個可容許的跟蹤控制律.由于U(e(k),νi(e(k))) 不具備單調特性,因此式(30)的成立只能表明νi(e(k)) 可以使得誤差系統穩定,不能作為通用的判別準則.考慮到Q(e(k))≤U(e(k),νi(e(k))),可以得到

即當折扣因子大于式(33)右半部分時,即可保證跟蹤控制律νi(e(k)) 的可容許性.式(33)右側的條件比左側更加嚴格,但其優點顯著,能夠保證此后所有迭代控制律的可容許性.為了方便,定義Ψi(e(k))=1?Q(e(k))/Vi(e(k)).由于{Vi(e(k))}是一個單調遞減的序列,可以得到{Ψi(e(k))}也是一個單調遞減的序列.當條件γ >Ψi(e(k))成立時,我們可以得到γ >Ψi+η(e(k)),η ∈N+,這意味著νi(e(k)) 及以后所有的迭代跟蹤控制律νi+j(e(k))) 都是可容許的.也就是說,條件γ>Ψi(e(k))既保證Vi+η(e(k+1))?Vi+η(e(k))<0,同時使得(e(k+j)))有界.根據代價函數的單調性,有

由此可以推出

因此,我們最終可以得到,當γ >Ψ0(e(k))=1?Q(e(k))/V0(e(k))時,每一個迭代步的跟蹤控制律都是可容許的.□
值得一提的是,在代價函數單調遞減的情況下,γ=1能夠滿足定理3 中的所有判別條件,具有顯著的優勢.折扣因子不為 1 時,迭代控制律的可容許性得不到保證.在下文中,為了驗證一般折扣因子的作用,折扣因子不再取γ=1 .事實上,式(27)提出的可容許判別準則相對比較嚴格,要求接近于1的折扣因子.于是,為了更易實現算法,我們使用γ >Ψi(e(k))作為實際的判別準則.總而言之,本文提出的迭代算法的停止準則為|Vi+1(e(k))?Vi(e(k))|Ψi(e(k)),其中第1 項用于保證跟蹤控制律的近似最優性,而第2 項用于保證跟蹤控制律的可容許性.值得一提的是,本文提出的穩定性條件是一個充分條件,折扣因子較大時容易滿足該條件從而使得控制律穩定,而折扣因子較小時不能滿足該穩定條件,其穩定性無法確定.
由于系統(1)是非仿射的,穩定控制和x(k+1)相對于u(x(k)) 的偏導數難以求解.在本文中,我們建立一個模型網絡來辨識系統以求解穩定控制和上述偏導數.此外,分別構造評判網絡和執行網絡來近似代價函數和跟蹤控制律.接下來,我們給出基于折扣廣義值迭代算法的神經網絡實現方案.
構造一個模型網絡以學習非線性系統動態,從而避免對系統精確數學模型的要求.通過輸入狀態和控制律,模型網絡的輸出表達式為

其中,xm(k)=[xT(k),uT(x(k))]T,ωm2和ωm1是權值矩陣,bm2和bm1是閾值向量,Θm是激活函數.不失一般性,定義模型網絡的訓練性能指標為

本文中,我們使用MATLAB 神經網絡工具箱來訓練模型網絡.值得一提的是,模型網絡在算法的迭代過程開始前已經完成訓練.對于仿射系統,穩定控制的求解依賴于原始系統的狀態矩陣和控制矩陣.然而,本文的原始系統函數是非仿射的,這就導致穩定控制的求解變得困難.因此,我們使用訓練好的模型網絡表達式來求解穩定控制,即

其中,由于式(37)中除了rm(k)=[rT(k),uT(r(k))]T.u(r(k))以外都是已知變量,我們可以通過數值方法來計算穩定控制u(r(k)).
在這里,我們利用評判網絡來近似代價函數Vi(e(k)).對于輸入e(k),評判網絡的近似值為

其中,ωc2和ωc1是相應的權值矩陣,Θc是激活函數.結合式(11)和式(38),定義評判網絡的訓練性能指標為

通過權值矩陣ωa2和ωa1,我們使用執行網絡來近似迭代跟蹤控制律

其中,Θa是執行網絡的激活函數.類似地,執行網絡的訓練性能指標定義為

其中,νi(e(k)) 可根據下式獲得

采用梯度下降算法,評判網絡和執行網絡的權值矩陣更新規則為

其中,αc,αa∈(0,1) 分別為評判網絡和執行網絡的學習率.
本節開展兩個仿真實驗用于體現算法的控制性能,首先針對一個非仿射的倒立擺裝置,其次考慮污水處理應用.
考慮一個具有雙曲切線輸入的倒立擺裝置[27],其離散時間狀態方程為

其中,x(k)=[x1(k),x2(k)]T是狀態變量,u(x(k)) 是控制律,x(0)=[?0.2,0.8]T.令代價函數如式(6)所示.根據自適應評判領域常用的準則,學習參數在表1 中給出.其選取原則是使得代價函數序列收斂.

表1 基于廣義值迭代算法的跟蹤控制參數值Table 1 Parameter values of tracking control based on generalized value iterative algorithm
在開展迭代算法之前,需要提前對三層結構的模型網絡進行訓練.選取 1000 組樣本數據并設定學習率αm=0.02,我們使用MATLAB 神經網絡工具箱來訓練模型網絡,其中訓練誤差為 10?8,訓練步數為500.當訓練結束后,模型網絡的權值保持不變.根據式(36)所示的性能指標,模型網絡的訓練效果如圖1 所示.

圖1 模型網絡的訓練誤差Fig.1 The training errors of the model network
接下來,給出需要跟蹤的參考軌跡方程為

其中,r(k)=[r1(k),r2(k)]T,r(0)=[?0.1,0.2]T.根據式(37),我們使用 MATLAB 中的“fsolve”來求解穩定控制.為了執行迭代算法,我們建立結構同為2–8–1 的評判網絡和執行網絡.在神經網絡的更新中,兩個網絡的初始權值范圍為 [?0.2,0.2],激活函數選為 tanh(·),學習率為αc=αa=0.05.基于選定的參數,我們執行具有折扣因子的廣義值迭代算法來獲得近似最優的跟蹤控制律.值得一提的是,當停止準則中兩個條件滿足時,即|Vi+1(e(k))?Vi(e(k))|Ψi,其中?=10?5,我們停止算法的迭代.在每一次迭代時,我們訓練評判網絡和執行網絡直到性能指標小于 10?8或者達到最大訓練步 500 .
執行迭代算法后,迭代代價函數的收斂曲線如圖2 所示,折扣因子和 Ψi在圖3 中給出,評判網絡和執行網絡的權值矩陣范數收斂效果在圖4 中給出.當i=13時,條件γ >Ψi成立.即在13 次迭代之后的所有跟蹤控制律都為可容許控制律.而條件|Vi+1(e(k))?Vi(e(k))|

圖2 代價函數收斂過程Fig.2 The convergence process of the cost function

圖3 折扣因子和 Ψi 曲線Fig.3 The curves of the discount factor and Ψi

圖4 權值矩陣范數收斂過程Fig.4 The convergence process of the norm of weight matrices

圖5 系統狀態和控制律軌跡Fig.5 Trajectories of the state and the control law

圖6 跟蹤誤差和跟蹤控制律軌跡Fig.6 Trajectories of the error and the tracking control law
污水處理是實現水資源循環利用的一個重要途徑.大多數污水處理廠采用活性污泥工藝來處理污水,其中脫氮除磷是主要的實現目標.以污水處理國際標準模型(Benchmark simulation model No.1,BSM1)為平臺,我們將提出的值迭代跟蹤算法應用于污水處理中溶解氧濃度和硝態氮濃度的控制設計.在污水處理反應過程中,通常要求溶解氧濃度 (SO,5) 和硝態氮濃度(SNO,2)維持在合理的水平,即 2 mg/l 和 1 mg/l[28?29].此外,氧傳遞系數KLa,5和內回流量Qa是對應的控制變量.在這里,定義系統狀態為x(k)=[SO,5,SNO,2]T,參考軌跡為r(k)=[2,1]T,控制輸入為u(x(k))=[KLa,5,Qa]T.圖7 給出了污水處理過程的簡單結構圖.污水處理過程具有的非線性和不確定性使其難以建立精確的數學模型.因此,我們使用一個結構為4–12–2 的模型網絡來學習系統的復雜動態.利用晴天情況下的26 880 組輸入輸出數據來訓練模型網絡,其中學習率為0.02,訓練步為800,訓練精度為 10?4.訓練結束后,模型網絡權值不再變化且訓練誤差如圖8 所示.然后,我們使用MATLAB 中的“fsolve”函數來求解穩定控制.由于跟蹤的參考軌跡r=[2,1]T是常數,于是得到的穩定控制也為常數,即u(r(k))=[206,29 166]T.

圖7 污水處理過程示意圖Fig.7 The simple structure of the wastewater treatment process

圖8 模型網絡的訓練誤差Fig.8 The training errors of the model network
接下來,我們實現數據驅動的折扣廣義值迭代算法.效用函數中的正定矩陣和初始代價函數中的矩陣以及其他學習參數在表1 中給出.從實際平臺中,我們可以觀測到溶解氧濃度和硝態氮濃度的初始值x(0)=[0.5,3.7]T.我們構造結構為2–20–1 的評判網絡和2–20–2 的執行網絡來近似代價函數和跟蹤控制律.在每個迭代步內,設置學習率αc=αa=0.05,我們使用1 000 個訓練步來訓練評判網絡和執行網絡直到誤差小于 10?8.在771 次迭代后,代價函數,Ψi和權值矩陣范數收斂結果分別展示在圖9~ 11 中.可以看出,代價函數是單調遞減的且在第124 次迭代時跟蹤控制律的可容許條件得到滿足.

圖9 代價函數收斂過程Fig.9 The convergence process of the cost function
對于給定的零初始值x(0),我們將得到的近似最優跟蹤控制律作用于受控系統.在運行600 個時間步后,系統的狀態響應曲線和控制律曲線如圖12所示,而跟蹤誤差和跟蹤控制律的曲線在圖13 中給出.可以清楚地看到,溶解氧濃度和硝態氮濃度維持在理想值.這驗證了所提折扣廣義值迭代算法的有效性以及停止準則的可用性.

圖10 折扣因子和 Ψi 曲線Fig.10 The curves of the discount factor and Ψi

圖11 權值矩陣范數收斂過程Fig.11 The convergence process of the norm of weight matrices

圖12 系統狀態和控制律軌跡Fig.12 Trajectories of the state and the control law

圖13 跟蹤誤差和跟蹤控制律軌跡Fig.13 Trajectories of the error and the tracking control law
為了驗證算法的自適應能力,我們對系統控制階段的前200 個時間步施加一個大的干擾量.具體為在氧傳遞系數中增加一個取值為 [?25,25] 的擾動分量,同時在內回流量中增加一個取值為[?150,150]的擾動分量.這時系統狀態和控制輸入的變化曲線如圖14 所示.在干擾的作用下,系統仍能跟蹤上期望的設定值,這反映了本文設計的算法具有自適應性和魯棒性.

圖14 帶有干擾的系統狀態和控制律軌跡Fig.14 Trajectories of the state and the control law with the disturbance input
針對非仿射系統的跟蹤設計問題,我們提出了一種基于折扣廣義值迭代的自適應控制方法.首先,利用系統的輸入輸出數據,建立模型網絡來獲得穩定控制和提供下一時刻狀態相對于控制律的偏導數,這個過程不要求精確的數學模型或系統動態矩陣.然后,基于折扣廣義值迭代的性質,通過使迭代中的代價函數單調遞減從而給出迭代跟蹤控制律的可容許性判別準則.在兩個停止條件的作用下,本文獲得的跟蹤控制律具有可容許性和近似最優性.最后,通過兩個仿真實例驗證了所提軌跡跟蹤策略的有效性.目前的研究是基于離線迭代開展的,未來我們將致力于擴展該方法到在線控制領域以及實際場景應用.