朱萌萌,宋運忠
(河南理工大學電氣工程與自動化學院,河南 焦作 454000)
隨機系統廣泛存在于實際的生產生活中,比如,在社會經濟、航天航空、生物醫學、生態環境、工業過程等領域,許多系統會受到外界隨機干擾和觀測噪聲的影響形成非線性隨機擾動,造成系統的性能差、不穩定。類似這些內部含有隨機變量,外部受隨機擾動或噪聲干擾的系統,稱為隨機系統[1-7]。為了改善系統的性能,降低外界干擾的影響,專家們開始利用隨機的觀點分析和解決此類實際問題。從而推動了隨機系統優化控制理論的迅速發展,也使其成為目前最優控制領域的重要研究方向之一。
近年來,隨機系統的最優控制理論已逐步完善和成熟。但是,大部分研究成果的取得均依賴于系統精確地數學模型,這對于實際系統來說是復雜的,分析起來極其困難。因而,把連續信號轉換成離散信號的采樣過程,是求解隨機系統控制問題的一種行之有效的方法。采樣定理的提出已有70多年,學者們相繼提出了多種采樣方法,并利用這些采樣方案解決不同的控制問題[8-10]。其中,周期采樣和事件觸發采樣機制是解決此類控制問題的兩種常用方法。傳統的采樣方法是周期性采樣,無論系統狀態如何變化,采樣間隔往往是不變的。雖然,這種采樣策略的問題比較容易研究,但是也容易造成計算資源和通信資源的浪費,在某種程度上也易造成“維數災”。因此,可變采樣速率的采樣方案得到了研究者的廣泛關注。這種采樣方法的特點是只有當滿足系統狀態的變化量超過事先給定的閾值后,系統狀態的信息才被采樣并實施控制。這種采樣機制被稱為勒貝格采樣,又叫事件觸發采樣。勒貝格采樣方法早在20世紀60年代就被提出,在實際系統中的應用亦得到了廣泛研究。譬如,文獻[11]基于脈沖系統、分段線性系統和擾動線性系統分別提出了3種方法來分析事件觸發控制系統的穩定性,理論上研究了線性系統的周期事件驅動控制。文獻[12]在減少目標跟蹤系統通信量的同時保證系統的最優估計性能,針對目標跟蹤問題,將事件驅動控制擴展到了非線性系統中。文獻[13]針對線性系統狀態反饋控制問題,利用脈沖控制方法,研究了事件觸發控制系統的穩定性。文獻[14]針對連續時間非線性系統的控制問題,設計了最優自適應事件觸發控制算法。文獻[15]針對積分器的穩定性問題,在勒貝格采樣環境下提出了一種非線性控制律,從而使系統達到漸近穩定。基于上述文獻,學者們在很大程度上對事件觸發機制的應用研究做出了杰出貢獻,使最優控制理論得到了進一步的完善。但是,在這些文獻中,采用事件觸發采樣時的控制策略往往簡單,如脈沖控制、開關控制、啟發式PID控制或自適應觸發控制,并且大部分針對的是連續時間線性系統或者離散時間非線性系統。然而,基于勒貝格采樣的連續非線性系統的最優控制問題還沒有一個完整的模型,也沒有得到深入的研究。因此,本文提出了基于勒貝格采樣的非線性系統最優控制模型,并給出了基于馬爾可夫決策過程的求解方法。
本文主要研究了連續時間非線性系統的最優控制問題,提出了基于勒貝格采樣的一般最優控制方案。首先,給出了勒貝格采樣系統模型的數學描述。然后,利用馬爾可夫決策過程中的時間集結方法搭建模型,并通過策略迭代算法對該模型進行Matlab仿真,結合解析法求解策略迭代算法中系統的相關參數。最后,利用仿真算例,通過給定初始策略求得勒貝格采樣系統的最優策略和平均采樣間隔,再用此平均采樣間隔作為周期性采樣系統的等采樣間隔,對比兩種采樣策略,可以發現基于勒貝格采樣的非線性系統的優化性能好于基于周期采樣的隨機動態系統。為了更好地說明方法的有效性,分別定量地改變代價函數的控制能量和事件的狀態值對其進行仿真研究,實驗結果再次表明勒貝格采樣系統不僅改善了系統性能,還減小了系統能耗。
給定一個1維連續非線性控制系統[16]:
dx=μ(x,u)dt+σdv
(1)
其中,x=x(t)∈R表示系統在t時刻的狀態,u=u(t)∈U?Rn為系統在t時刻的控制量,U是控制量的集合,v=v(t)表示一個維納過程,σ是常數。μ(x,u)為“狀態-行動”對的數值函數。假設系統(1)是勒貝格可測函數,則系統的代價函數記為fu(x)。研究隨機系統的最優控制問題,其目的就是找一個最優控制律u(t),t∈[0,∞),使無窮時段長期平均性能最小。
定義系統的無窮時段長期平均性能為
(2)
其中,“E”表示概率測度下的期望,假設在控制變量u(t)的作用下系統是穩定的,那么上述性能ηu與初始狀態x(0)無關。
本文研究的勒貝格采樣[17-18]定義如下:首先,定義一個有限離散事件集合:D={1,…,D} 。每一個事件d∈D對應系統的一個狀態值xd。那么,事件集合D相對應的系統狀態值的集合為χD={xd:d∈D}?R,簡稱事件的值集合。為了更加完整地描述系統的一般數學模型,假設x1 ti= min{t:t>ti-1,x(t)∈χD,x(t)≠x(ti-1)} (3) 對所有的i=1,2,…均成立。發生在時刻ti的事件記做di∈D,則{di,i=0,1,2,L}構成了一個嵌入鏈。為了保證嵌入鏈是發生在離散時刻,即di+1-di∈{-1,1},從而排除了di+1=di的情況。如上所述,只在事件發生的時候才進行的采樣過程,被稱為勒貝格采樣。 勒貝格采樣又稱基于事件的采樣,由此可結合基于事件驅動的優化控制方法來研究系統模型。在基于勒貝格采樣的系統模型構建中,系統的控制量是在系統狀態被采樣的時候加入的,直到下一個采樣時刻發生才停止。因此,在時刻ti的控制量,記做ui。數學符號描述為:u(t)=ui且t∈[ti,ti+1)。原動態系統(1)可以描述為 dx=μ(xi,ui)dt+σdv,ti≤t (4) 其中,ui表示系統在時刻ti所加入的控制量,又稱為事件的行動。它是由控制策略所決定的,記為ui=u(di),di∈D,ui∈U,i= 0,1,L。這個與事件di有關的控制策略稱為控制律或策略,記作u。從式(4)可得,行動ui僅由事件di決定,因此u稱作基于事件的策略。假設可采取的行動集合U是有限的,則原系統(1)的問題就變成了如何選擇一個最優控制策略u使得動態系統(4)的平均性能最小。 研究動態系統的最優控制問題常常通過搭建馬爾可夫數學模型來求解,許多關于馬爾可夫模型的優化設計方法也均可適用。因此,可以通過構造一個等價的馬爾可夫模型,再結合時間集結法來求解系統的最優控制問題[19-20]。 本文研究的時間集結法[21]定義如下:通過分析動態系統(4)可知,嵌入鏈{di,i=0,1,2,…}是一個馬爾可夫鏈,具有狀態空間D以及轉移概率矩陣Pu={pu(d)(d'|d)}d,d'∈D,它表示在策略u下,這個嵌入式的馬爾可夫鏈從事件d轉移到下一個事件d'的概率。在系統穩定的條件下,由式(3)可得: (5) 其中,pu(1)(2|1)=1,pu(D)(D-1|D)=1。顯然,這個嵌入鏈是不可約的且周期為2的馬氏鏈。則有唯一的穩態分布πu滿足平衡方程:πuPu=πu和πue=1,其中e=(1,1,…,1)T是每個元素都為1的D維列向量。 根據馬爾可夫模型,通過構造一個等價的馬爾可夫過程,并且結合代價函數,使平均性能(2)和動態系統(4)的性能是相同的。由于系統的樣本路徑被各個嵌入點分隔成許多片段,因此,定義第d片段為:ζi={x(t),ti≤t (6) (7) (8) (9) 在策略u下,通過運用強大數法則[22],系統的性能表示為 (10) (11) (12) 對任意策略u有: 嵌入鏈對應的平均性能為 (13) 其中,δ是實數。 針對連續非線性系統的最優控制問題,通過定理1可知,新構建的馬爾可夫模型可采用策略迭代算法進行求解和仿真驗證。 定理1 1)對于馬爾可夫模型中代價函數為(12)以及δ=ηu,策略u′優于策略u的充分必要條件是:具有代價函數(11)的馬爾可夫模型,策略u′也優于策略u。 2)對于馬爾可夫模型中代價函數為(11)以及最佳策略u*的充分必要條件是:馬爾可夫模型中代價函數為(12)以及δ=ηu*,策略u*也是最佳的。 證明: (14) 其中,I是單位陣,gu表示在策略u的性能勢向量[23]。特別地,gu的特解如下[23]: (15) 通過定理1可給出如下策略迭代算法[21]。定義uk為第k次迭代中所使用的策略,u*為最優策略。策略迭代算法的具體步驟如表1所示: 表1 策略迭代算法Tab.1 Policy iteration algorithm 通過定理1)和策略迭代理論[23],如果該算法不停止,則在每次迭代中,嵌入式馬爾可夫鏈的性能都會得到提升。當只有有限數量的策略時,迭代過程必將停止。由定理2)可知,當迭代停止,系統將會達到嵌入式馬爾可夫鏈的最優性能。 本文主要研究這種狀態無關的特殊情況[23],代價函數為fu(x)=mx2+uTNu,其中是正實數,N是正定矩陣。在策略迭代中使用的3個變量,通過求解微分方程可得到解析解。經過計算,結果如下: 對于所有的xd-1≤x≤xd+1,1 (16) (17) (18) 其中,qp(x,u)表示從狀態x∈(xd-1,xd+1)、行動為u出發的過程中,首先到達狀態xd+1而不是xd-1的概率。q1(x,u)表示x∈(xd-1,xd+1)時,從初始狀態x0、行動u0出發的片段期望長度,而對于其他狀態x,令q1(x,u)=0。qf(x,u)表示從狀態x∈(xd-1,xd+1)、行動為u開始的在一個片段上的期望代價積分,而當x?(xd-1,xd+1)有qf(x,u)=0。下式中出現的相同符號,含義亦相同。 如果μ(u)=0,則: (19) (20) (21) 當d=1時,因為該系統是穩定的,且如前面假設的x1<0,必有μ(u)>0,于是有qp(x,u)=1,q1(x,u)=(x2-x1)=μ(u)和: (22) 當d=D和μ(u)<0時,有qp(xD,u)=0和q1(xD,u)=(xD-1-xD)/μ(u): (23) 上文已經對勒貝格采樣系統的最優控制方案作了詳細的闡述,下面對周期性采樣方案的優化控制作簡要地分析[24-25]。為了保證在其他條件不變的情況下比較兩者的性能,利用勒貝格采樣系統中所得平均采樣間隔作為周期性采樣的等采樣間隔,即Δ=ti+1-ti。其中,ti,i=0,1,2,…,表示系統的采樣時刻。 動態系統描述為: dx=(ax+bui)dt+σdv,ti≤t (24) 其中,ui是采樣時刻ti上的控制量,在區間[ti,ti+1)上保持不變,且由系統狀態決定:令xi=x(ti),則ui=u(xi)。a∈R和b∈R1×n都是給定參數,從而保證系統的可鎮定性。代價函數為fu(x)=mx2+uTNu。該系統的優化問題是找到一個反饋控制律u(x)使性能(2)最小。 針對狀態無關這種特殊情形,由式(24)可知,當a=0時,有: xi+1=Axi+Bui+ξ (25) 其中,A=1,B=bΔ,且ξ=σv是一個零均值,方差為Var(ξ)=σ2Δ的正態分布隨機變量。 Fu(x)=Gx2+xRu+uTVu+J (26) 其中G=m,R=mbΔ,V=(1/3)mbTbΔ2+N以及J=(1/2)mσ2Δ。最優控制律是u(x)=-Lx,其中L=(1/2)(BTBS+V)-1(2ABTS+RT),并且S滿足代數Riccati方程: (27) 通過求解方程(27)可以得到最優控制策略,其相對應的最優性能為η=σ2ΔS+J。 圖1 基于勒貝格采樣的控制策略Fig.1 Lebesgue-sampling-based control policy 為了避免初始策略選擇的偶然性,對初始策略進行多組數據實驗后,實驗結果如表2所示。觀察發現,當初始策略中間項為0時,左右兩端的策略關于中間項互為相反數,且左邊的控制量大于零,右邊的控制量小于零時,迭代次數k=1;當初始策略為最優策略時,不進行迭代,即k=0;當初始策略偏離最優策略較大時,迭代次數也相對的增加。故而,為了快速得到較好的性能,初始策略的設定可為最優策略的形式。 表2 初始策略與迭代次數的關系Tab.2 The relationship between the initial strategy and the number of iterations 表3 兩種采樣方案的數據對比Tab.3 Data comparison of two sampling schemes 例2根據例1,令系統代價函數fu(x)=x2+Nu2中的正定矩陣N=0,0.1,0.2,…,1,2,3,4,10,其余參數不變的情況下,對比觀察勒貝格采樣系統和傳統周期采樣系統的性能參數變化。仿真驗證,其結果分別用表4和圖2表示: 表4 兩種采樣方案的數據對比Tab.4 Data comparison of two sampling schemes 圖2 兩種采樣方案的性能比較Fig.2 Performance comparison of two sampling schemes 觀察上面的表4,表中的最后1列表示勒貝格采樣優于周期采樣性能的百分比,百分比隨著N的變大而減小,說明了控制能量的代價在設計控制器時顯得尤為重要。由整個結果分析可知,當N>0時,系統的控制能量代價不為零,最優策略也不是max-min形式。比如,當N=0.3時,系統的最優策略為u*=[5,3,2,0,-2,-3,-5]T。 再分析圖2可知,在相同的采樣間隔下,當N=3時,勒貝格采樣系統性能和周期采樣性能有相同的效果;當N<3時,基于勒貝格采樣系統的性能明顯優于基于周期采樣系統的性能。雖然,當N>3時,周期采樣系統的性能優于勒貝格采樣系統,但是,從圖中可以清晰地看到,隨著N的增大,平均采樣間隔變化非常小,性能百分比也趨于零。 表5 兩種采樣方案的數據對比(N=0,0.3,3)Tab.5 Data comparison of two sampling schemes(N=0,0.3,3) 圖3 系數m單獨改變時的性能比較Fig.3 Performance comparison when coefficient m is changed separately 例3在例2的基礎上,改變代價函數為fu(x)=mx2+Nu2的系數,其他條件亦不變的情況下,當m=0.01,0.1,1,10,100,N=0,0.3,1,3.時,得出如下結論: 通過仿真實驗數據分析可得,當控制能量N=0時,無論代價函數中系數為何值時,系統平均采樣間隔不變,即Δ=0.347 6s,最優策略始終為min-max形式,即u*=[5,5,5,0,-5,-5,-5]T;由表5分析可知,系統的最優性能隨著的增大而增大,且倍數增加相同。從而表明了勒貝格采樣系統中,與狀態權值相關的代價函數不影響系統的采樣間隔,但對系統的性能影響較大。再觀察圖3中的四個結果,比較圖3a與圖3b可知,當N<1時,勒貝格采樣系統的平均采樣間隔和兩種兩樣方案的系統性能百分比幾乎是不變的,且兩種采樣系統性能也都是隨著成倍的增加而成倍的增大,呈正比例關系。由圖3c可知,當N>1時,雖然兩種采樣系統的最優性能也隨著的增大而增大,但也不是正比例的關系。由于圖3a-圖3c的選值范圍較大,為了仔細分析比較兩種采樣方案的系統性能,針對又選擇了(0,1]區間的數值。根據例2中的結果可知,當N=3時,勒貝格采樣系統性能和周期采樣性能有相同的效果,屬于一個臨界值。在細化值時,依然選擇N=3。由圖3d可知,當N=3,m=1時,兩種采樣方案的系統性能相同,從而驗證了例2的結果。然而,只有當m<1時,勒貝格采樣系統的性能稍微比周期采樣的性能差一點。因此,整體上可得出勒貝格采樣系統的性能優于周期采樣系統的性能是有條件的。 通過多次仿真實驗,由表6中數據可得,在控制能量代價不為零時,系統的最優性能隨著的增大而增大;平均采樣間隔隨著的增大而減小,系統達到最優策略后也幾乎不再變化。 表6 兩種采樣方案的數據對比(N=1)Tab.6 Data comparison of two sampling schemes(N=1) 圖4 v變化時各個參量改進的比例Fig.4 Proportion of improvement of each parameter when v changes 例4在例1的基礎上,假定系統的代價函數中N=0.3,其余條件不變,事件集D的值集合變為χD= {-3,-1-v,-v…,v,1 +v,3},v∈[0.2,1.8]。采用勒貝格采樣,對所有的系統優化性能結果用圖4表示,實線表示最化性能的比例,即各種可能的對應的最優性能比上v=1時的最優性能,虛線表示平均采樣間隔的比例,即各種可能的對應的采樣間隔比上v=1時的采樣間隔。 由圖4可知,實線斜率的絕對值小于虛線的斜率。當增加時,系統性能略微變差,但平均采樣間隔也會隨之增加,從而節約了計算資源。 本文研究了勒貝格采樣系統的一般最優控制模型,為性能勢理論在隨機控制系統中的應用提供了新的解決方案。首先,通過構造等價的馬爾可夫模型,提出了基于勒貝格采樣的非線性系統最優控制的一般數學模型;然后,根據該模型具有馬爾可夫性,編寫了相應的策略迭代算法以求解勒貝格采樣系統的最優策略和長期平均性能,并結合解析法得出了算法中需要用到的樣本路徑上片段的期望性能、片段長度和相應的轉移概率;最后,仿真結果驗證了在相同的采樣間隔情況下,勒貝格采樣系統的優化性能不僅明顯要優于周期采樣系統,而且基于勒貝格采樣的方法更符合實際的控制系統,有效地降低了系統的采樣次數并節約了系統的資源消耗。2.2 時間集結法





2.3 策略迭代算法





2.4 解析法

3 周期采樣系統的優化控制

4 仿真結果與分析














5 結論