尚婷 錢富才,2 張曉艷 謝國
具有未知參數的LQG對偶控制算法研究
尚婷1錢富才1,2張曉艷1謝國1
對于具有未知參數的LQG(Linear quadratic Gaussian)問題,提出了一種次優對偶控制方法,用Kalman濾波處理過程噪聲和測量噪聲,用前一時刻的后驗概率對Cost-to-go進行線性近似,然后,用動態規劃獲得了次優控制律.最后,用一個例子說明了本文設計的控制器的實施過程.結果表明,該控制律具有良好的對偶性質,并能在學習和控制之間實現較好平衡.
LQG(Linear quadratic Gaussian),動態規劃,對偶控制,最優控制
LQG(Linear quadratic Gaussian)控制問題,由于濾波器與控制器之間具有分離性質,受到了理論界和工程界的高度重視.目前,LQG理論已經成功用于航空、航天和許多工業控制中[1?4].然而,當系統方程中存在未知參數時,分離性質不再成立,LQG控制方法失去優勢.早在上世紀60年代初,前蘇聯學者Feldbaum就注意到這類問題,并在他的系列論文中指出,僅有極少數幾個簡單問題能夠求出解析解,而對于絕大多數問題即便是想獲得數值解也極為困難,與此同時解決這類問題的對偶控制(Dual control)方法[2?3]應運而生.2000年IEEE Control Systems Society將對偶控制列為上世紀對控制領域最具影響的25篇論文之一,事實上這一難題至今尚未徹底解決.
對于這類問題進行如此艱難的研究,到底有沒有實際需求,以下事例給出了肯定的回答.用現有控制理論設計出的控制器一般只能保證系統以最優的方式運行,但是,近幾十年來,空難、海難、核爆炸等事故的出現使人民生命和國家財產遭受了重大損失,不得不將很多系統的可靠性和安全性放在首位.的確,當系統內部元件出現故障時,控制器如果能夠以較快的速度作出反應,也許一些嚴重后果就可以避免.元器件的故障,如執行器、傳感器的卡死反映在控制模型上就是存在一些未知參數[5];高速列車在行駛過程中受到空氣的阻力w與車速v的關系為:w=c0+c1v+c2v2,在跨區域、大范圍的運行中對控制器來說,c0、c1和c2都是未知的[6];在大型建筑結構、橋梁、機床、輪船、飛行器、裝甲車和急救車中都會裝有由質量塊–彈簧–阻尼器組成的減振系統.系統中彈簧的剛性系數K和阻尼器的阻尼系數C可視為常數,但往往是未知的,只能驗前知道它們在標稱值上下20%或50%內變化[1,7],體現在控制問題中就是模型中存在未知參數;對于一般的非線性系統,內部零部件的參數很難或者無法測量,即使能夠精確知道,但由于建模簡化或者環境惡劣使得模型的等效參數與元部件的實際物理參數不存在一對一對應關系,必須通過在線辨識來確定,這些情況也可視為模型中有未知參數.因此,我們有充分的理由認為,模型中存在未知參數的控制問題普遍存在.
對于存在未知參數且為常數的隨機對偶控制問題,已經進行了大量研究,2004年,Filatov等總結了對偶控制自提出到當時的研究成果[4],目前主要的方法有對偶自適應控制[8?9]、新息對偶控制[10]、交換算法[11]、方差最小化[12?15]、標稱對偶控制[16?18]等.所有這些方法的缺點是要么要求未知參數有明確的統計特性,要么在為數不多的有限集內取某個固定值,對系統不確定性因素的先驗信息要求太高,而且控制器設計時往往將一個多階段最優控制問題強行用多個單階段控制問題來近似,導致控制器具有“近視”行為,只能保證單步最優,而不是全局最優.本文拓寬了這些要求,僅要求未知參數在某個區間,也就是說未知參數最大不會超過的上限和最小不能小于的下限是已知的,借助于對偶控制思想,導出了一個次優控制律,通過對一個例子的仿真結果可以看出,該控制律有良好的學習和控制效果.就學習而言,經過有限時間我們可以學習出包含未知參數的區間,這個區間長度可以事先任意給定,區間長度越小,表明對未知參數產生的不確定性消除得越徹底,但以模型數目增大為代價.就控制而言,本文導出的控制律和最優控制基本重合,兩者之間形成的面積很小.當未知參數屬于有界集合時,也可以用魯棒理論設計出所謂的魯棒控制器,實踐與理論均已表明,這類控制器往往比較保守.而本文設計出的控制器,就未知參數為常數時,可以以概率1學習到包含未知參數的最小區間.
本文的組織如下:第1節詳細描述了本文要解決的控制問題,在第2節中我們將本文具有未知參數的LQG問題轉化為對偶控制問題,第3節利用線性近似的方法設計出了具有對偶特點的次優控制器,第4節通過一個例子說明了控制器的性質,結論放在第5節中.
考慮如下具有未知參數的離散時間動態系統:

其中,x(t)∈Rn是狀態向量,u(t)∈Rp是控制向量,z(t)∈Rq是輸出向量,ξ(t),η(t)和x(0)為相互獨立的高斯白噪聲,其分布分別為:

Φ(α),G(α),H(α)為適當維數的矩陣,可以是時變的,也可以是定常,對后面控制器的設計沒有影響,為書寫方便,本文假設它們都是定常的.另外,假定未知參數α∈R以線性形式進入矩陣Φ(·),G(·),H(·),且α在整個控制過程中是未知常數,包含它的有限區間[αmin,αmax]是驗前已知的.
動態系統的性能指標取為狀態與控制的二次型形式:

其中A,B為適當維數的半正定和正定對稱陣.
設t為當前時刻,則t時刻的實時信息為

本文解決的控制問題為:對于系統(1)和(2),求出一個允許的控制律使性能指標(3)中的J最小.允許控制律是指其具有形式u(t)=μt(It),其中μt(·)是待定的非線性函數.
對于上述控制問題,當α已知時,本文研究的控制問題就是標準的LQG問題,已經有成熟的解法;當α未知時系統中就有兩種不確定性,一種是環境噪聲ξ(t)和量測噪聲η(t),這種不確定性是客觀存在,無法減少,只能用濾波技術對狀態進行估計;另外一種是由參數α的未知性引起的,由于α∈[αmin,αmax],因此這種不確定性是一種有界不確定性.
目前,對于隨機不確定性和有界不確定性的研究已經相對成熟,取得了豐富成果并用于實際.然而,長期以來處理這兩種不確定性的理論被作為兩個獨立領域平行發展,高度分化,非此即彼.一方面導致在Bayesian框架下的隨機濾波由于非高斯噪聲的存在而過于樂觀,甚至不能收斂,另一方面由于高斯噪聲的存在使得魯棒濾波的噪聲邊界在選擇時過于保守,精度下降.本文將兩種不確定性視為一個共同體,在同一個框架下統一處理.
最近二十多年也出現了一些隨機系統魯棒分析與控制器設計方法[19],其基本思想為首先在參數變化空間內選取M個設計點,其次,在每個設計點為被控對象設計出相應的控制律,最后用隨機魯棒代價函數對M 個控制律進行融合,在飛行導彈控制中,該方法魯棒性極強,即使參數有20%的波動也能保證滿意的控制性能.然而,依據Bernoulli大數定律,要保證融合出來的控制律具有一定的可信度,M ≥1/(4ε2β),其中ε為控制精度,β為置信系數.當ε=β=0.001時,M ≥2.5×108,最小設計點的選取數目巨大.
從機理上說,盡管模型中存在未知參數α,但系統的輸出z(t)中始終包含了α的信息,因此,通過不斷地從系統獲得測量信息,可以減少這類不確定性.還有,當兩種不確定性共存時,控制器一方面要使性能指標達到最優,控制信號不宜太大,另一方面還要充分激勵系統,以獲得狀態和未知參數的更好估計,控制信號要盡可能大,顯然,兩種作用互相沖突.
本文將依據對偶控制原理,建立同時具有控制和學習(估計)特點的控制器設計理論,另外,依據本文提出的控制器設計方法,不確定參數設計點的個數僅為1/ε,在ε=0.001時,M=100.
為了解決上節提出的控制問題,本節將用對偶控制問題來逼近真實問題.
定理 1. 對于任意給定的正數ε,存在正整數s及[αmin,αmax]上的分點

證明.對于任意給定的正數ε,取正整數s滿足

其中,[x]為不超過x的最大整數,則

即,

上式等價于

將區間[αmin,αmax]進行s等分,則每個子區間的長度為(αmax? αmin)/s,取

則定理得證.
該定理的意義是系統模型中的未知常數一定包含在一系列互不相交的子區間內,且僅屬于某個區間.ε越小,包含真值的區間越短,但分點會增加,從而覆蓋先驗區間[αmin,αmax]的子區間越多.
取每個子區間 [αi?1,αi]的中點為 θi,即

由于本文假定未知參數α為常數,因此,α的真值α?一定在某個子區間內,假定在第i個區間,那么,|α??θi|<ε.對偶控制除了具有控制作用,還能學習出未知參數,一旦以概率1學到了θi,則可認為學到了包含真值α?的最小區間.具有控制和學習特點的對偶控制是控制器設計的一種理念,不同的問題,設計方法不同,下面我們先給出對偶控制的數學描述.本文解決的對偶控制問題(Dual control problem,DCP)如下:

其中,未知參數α屬于有限集合,即α∈?={θ1,θ2,···,θs},真值是這 s 個值的其中之一,不確定性參數α可用驗前概率描述,qi(0)=1/s,i=1,2,···,s.未知參數以等概率取值于?集合中的每個數,這表明驗前未知參數的不確定性最大.
為了后面書寫方便,本文做如下標記:當α=θi時,令Φi= Φ(θi),Gi=G(θi),Hi=H(θi).
注意,如果在對偶控制問題(DCP)中,參數是已知的,沒有不確定性,僅有噪聲不確定性,那么,DCP就是一個LQG問題,有成熟解法;如果未知參數有不確定性,那么設計出的控制器應該具備雙重作用,一方面要使性能指標達到最優,另一方面又要能從s個可能的參數中學出真實參數.
定義θi對應的第i個模型在t時間關于信息集It的狀態估計為,即:

那么,依據Kalman濾波,我們有:

其中z(t)為來自于系統的測量.
對偶控制的學習性質在于控制律中含有后驗概率,依據文獻[20],第i個模型在t時刻的后驗概率定義如下:

當獲得當前系統的測量輸出z(t)后,根據文獻[19],用Bayes公式,后驗概率τi(t)可以如下計算:

其中,在式(12)中的初值τi(0)驗前給定,且

動態規劃是求解LQG的有力工具,除了能獲得遞推形式的控制增益外,還能得到反饋形式的控制律,這是工程上所期望的.為能夠應用動態規劃,用W?(t)表示t時刻到終端時刻N二次性能指標的最優損失泛函,即

其中,

那么根據式(14),

方程(15)是求解DCP的最優性原理,正如LQG求解過程那樣,在每一個時刻由后向前,就可以得到具有反饋形式的控制律.然而,整個對偶控制問題的全部復雜性都體現在方程(15)的求解上,由于性能指標與s個模型有關,相關程度用后驗概率τi(t)來度量,顯然,后驗概率由系統的實時測量所決定,導致了LQG問題中濾波與增益的計算相互耦合,分離性質不再成立,動態規劃中的Cost-to-go不再具有統一的遞歸形式.文獻[16]的研究表明,每階段的Cost-to-go在后向遞推過程中,后驗概率以非線性形式嚴重阻礙動態規劃的進行,一個能使控制律既有學習又有控制功能的次優算法,就是在每個階段Cost-to-go關于后驗概率線性化.下面基于這一思想推導一個新的對偶控制律.
為書寫方便,對于參數θi,i=1,2,···,s,定義:

定理 2.對于問題DCP,t=N ?1,N ?2,···,0,其次優解和對應的Cost-to-go分別為:

其中,

在求解問題DCP的過程中,用動態規劃可以得到S(t),它是后驗概率τi(t),i=1,2,···,s的非線性函數,導致動態規劃不能繼續進行.本文將S(t)在前一時刻t?1的后驗概率τi(t?1),i=1,2,···,s處線性展開,線性部分記為?S,展開后τi(t?1),i=1,2,···,s的系數記為Ri(t?1).這樣近似有3個優點:1)在t時刻,前一時刻的后驗概率τi(t?1),i=1,2,···,s是已知的,因此,在該點線性化是可行的;2)線性化后,用后驗概率的線性部分?S代替非線性函數S(t),動態規劃能夠順利進行,保證了次優解偏離最優解不會太遠;3)由于線性化后?S中依然保留了后驗概率,因此導出的控制增益具有學習性質,從而保證了本文導出的次優控制律具有對偶性質.
證明.從N?1階段開始,反向遞推到初始階段0,對時間t用數學歸納法,具體推導如下:
假定t=N?1,則根據最優性原理(15),

式(23)中的條件期望具有如下性質:

將Kalman濾波方程(7)~(11)以及動態方程(1)和(2)代入上式,經過簡單地整理后,則有以下結果:

上式是控制u(N?1)的二次形式,直接關于控制求導,并令其為零,可以得到使上式最小的控制u?(N?1),即

其中

把最優控制(24)代回W(N?1),對應的最優Cost-to-go為

其中

顯然,L(N?1)是后驗概率τi(N?1)的非線性函數,導致S(N?1)也是τi(N?1)的非線性函數.由于在N?2時刻的后驗概率 τi(N ?2),i=1,2,···,s是已知的,因此,在τi(N?2)處,對S(N?1)進行線性近似,即把S(N?1)在τi(N?2)處一階展開、忽略高次項,這樣就可得到S(N?1)的如下近似表達式:

其中,Ri(N?2)與τi(N?1)無關,僅與τi(N?2)有關,而τi(N?2)在N?1時刻是已知.這樣關于每個τi(N?1)是線性的.

比較在N?1時刻得到的控制與近似的Cost-to-go,這些結果與定理2的結論完全一致.這表明在t=N?1時,定理結論成立.
假設在t+1時刻,定理2的結論成立,則根據最優性原理(15),

在式(25)中,用在t時刻線性化的ˉS近似W?(t+1)中的S(t+1),那么下式成立,




定理得證.
在N?1時刻,定理2給出的控制律是最優的.因為動態規劃首次運用時,W?(N)中不包含后驗概率,因此無需近似.而在后續的反向遞推中,W?(t+1)都與后驗概率相關,通過線性近似以保證動態規劃的順利進行,導致對應的控制律為次優控制.
控制律是在基本遵循最優性原理(15)的基礎上導出來的,因此具有次優性質,控制律中含有各階段的后驗概率,而后驗概率具有學習性質,保證了控制律具有學習特點.既有控制(優化)功能又有學習特點的控制就是對偶控制[14].
依據定理1和定理2,總結以上結果,對于本文研究的控制問題,可用以下算法實施:
步聚1.對于給定的ε,用式(4)求出模型個數s;
步聚2.用式(6)求出θi;
步聚3.令t=0;
步聚 4.用遞推方程(18)~(22)和式(16)求出t時刻的最優控制;
步聚5.測量系統輸出z(t),用Kalman濾波(7)~(11)求出(t);
步聚6.用式(13)求出后驗概率;
步聚7.如果t等于N?1,結束;否則,返回步聚4.
下面用一個簡單的例子,來說明本文提出的對偶控制算法的實施過程,并驗證控制器所具有的對偶性質.

其中,Φ=0.7+α,G=0.9?α,H=2α+0.1.
假設初始狀態x(0),過程噪聲ξ(t)與測量噪聲η(t)均服從均值為0、方差為1的高斯分布N(0,1),未知參數α∈[0,1.2],給定ε=0.6,則,s=3,

θ取每個子區間的中點,依次為θ1=0.2,θ2=0.6,θ3=1,假定α的真值為0.95,則真值落在第三個子區間[0.8,1.2]內,α取三個θ值的先驗概率假定為τ1(0)=1/3,τ2(0)=1/3,τ3(0)=1/3,也就是說最開始參數α以等概率屬于每個子區間,此時,參數的不確定性最大.
采用不同的控制策略對系統施行控制,當未知參數已知時,對應的控制問題為LQG,獲得的控制律為最優控制,對應的性能指標是其他控制的下界.由于參數未知,學習過程不可缺少,因此,這個下界永遠不能達到.比較各種控制策略優劣的性能指標為:
其中,A=0.4,B=0.3.
圖1是未知參數α取θ1、θ2和θ3分別對應的后驗概率演化圖.下面的兩條“點實線”為θ1和θ2對應的后驗概率,上面的“圈線”為θ3對應的后驗概率,它們均從1/3(此時不確定性最大)出發,經過25個采樣時刻,θ3對應的后驗概率接近于1,而其余兩個的后驗概率接近于0,這表明α從初始的最大不確定性開始,通過從系統不斷獲得測量后,其不確定性逐漸減小,直至完全消除,這是控制器的學習特點.θ3對應的區間為[0.8,1.2],因此,利用本文的算法可以獲得包含未知參數的最小區間.依據定理1,ε越小,包含真值的區間越小,控制器的學習精度越高.然而,區間的個數s會越大,對應的模型越多,自然會消耗更多的時間.圖1說明了本文給出的對偶控制具有學習特點.
圖2中的“實線”代表最優控制,也就是未知參數α是真值0.95時,通過求解LQG問題得到的最優控制.圖2中的“圈線”表示本文推導出的對偶控制,即假定參數α未知,一邊控制、一邊學習,可以看出,兩條折線很快幾乎重合,夾在它們之間的面積很小,這表明新的對偶控制和最優控制幾乎有相同的控制效果.然而,兩者永遠不會完全重合,畢竟控制器對未知參數的真值需要一個學習過程,這段時間兩個控制律不會重合.其實,即使學習結束,理論上兩個控制律也會存在差異,因為,θ3僅是包含真值區間的標識,而不是真正的真值.兩個控制律的充分接近,表明用本文方法設計的控制律有控制或者優化功能,能夠迫使系統朝著期望的目標運行,保證二次性能指標最優.

圖1 后驗概率演化Fig.1 The posterior probabilities evolving
對偶控制在試圖控制系統的過程中必須對未知參數進行辨識,辨識的精度決定了控制的效果,因而辨識與控制之間有著本質的聯系.從圖2可以看出,在開始階段對偶控制比最優控制能量要大,其作用展示在后驗概率的演化圖1中,明顯可以看出,包含真值的區間對應的后驗概率趨向1,而其他兩個區間對應的后驗概率趨于0.這個事實表明在控制的初始階段控制器投入了更大的能量去學習未知參數,一旦學出了未知參數,對偶控制的模型與最優控制是相同的,兩者也如圖2末端表示的那樣,幾乎重合.控制器不再分配能量去學習,所有能量用來實現控制目標,充分體現了對偶控制在學習與控制之間的平衡.

圖2 對偶控制與最優控制比較Fig.2 Comparision of the dual control with the optimal control
系統中未知參數α∈[αmin,αmax].我們作以下規定:當α等于真值0.95時,求解相應的LQG問題,所得的控制律自然就是最優控制;當α取值于區間的左端點,即α=αmin=0時,求解相應的LQG問題,所得的控制律稱為非對偶控制1;α取右端點,即α=αmax=1.2時,解相應的LQG問題,所得的控制律稱為非對偶控制2;用本文提出的方法,導出的控制律稱為對偶控制.對上述系統,用4個不同的控制律進行控制,會得到它們各自的性能指標.由于是隨機系統,每次性能指標是不同的,為了獲得可靠的結論,我們進行1000次Monte Carlo仿真,仿真結果如表1.可以看出,對偶控制最接近于最優控制,其他兩個控制對應的性能指標和最優控制有著數量級的差別.原因在于系統的輸出含有未知參數α的信息,用輸出不斷校正后驗概率,使參數的不確定性持續減小,最終未知參數真值所在區間的中點θ3在控制量的計算中以概率1發揮作用,而其他兩個區間參數的代表值幾乎不參與控制量的計算.如果簡單地用未知參數的上界或者下界代替真實參數,正如表中性能指標體現的那樣控制效果不堪設想,因此,三個控制律中對偶控制最好,最優控制對應的性能指標是它們永遠不能獲得的下界.

表1 不同不確定參數下Monte Carlo仿真性能指標比較Table 1 Performance index of Monte Carlo runs comparison for di ff erent uncertainty parameters
DUL算法是自適應對偶控制的一個經典方法[15],它的基本思想為,在DCP問題中當固定α為θi,i=1,2,···,s時,其退化為LQG問題,在k時刻依據動態規劃與Kalman濾波可以求出最優控制(k),i=1,2,···,s,以后驗概率τi(k)為權系數對s個最優控制(k)進行加權和,得到,視 u?(k) 為當前時刻施加于系統的實際控制,就得到了次優的DUL算法.DUL算法控制器設計簡單,計算量小,后驗概率的學習性質賦予了控制器的學習特點,是一個優秀的次優學習算法.然而,DUL僅用當前的系統信息校正前一時刻的后驗概率,而完全忽略了未來系統的實際輸出,是一種被動學習算法.本文提出的控制器設計方法除了用到了當前的后驗概率,還在每一個階段用前一時刻后驗概率對Cost-to-go進行線性近似,即控制律的計算用到了未來對系統輸出的預測信息,因此,本文的方法是一種主動學習算法.由于是隨機系統單次控制效果不能對控制器進行有效評估,為此,我們對本文導出的控制律和DUL控制律在同樣噪聲及參數不確定性條件下進行100次Monte Carlo仿真測試,從目標函數的統計平均值、目標函數的最大值、目標函數的標準差來比較兩個控制律的性能.表2是比較結果.

表2 兩個控制律性能比較Table 2 Performance comparison for two control laws in example
在表2中目標函數的100次統計平均值、最大值和標準差表明對偶控制要優于DUL控制,這表明對偶控制比DUL控制在最優性和可靠性都會更好,原因在于它充分利用了來自系統的信息.
本文研究了具有未知參數的LQG控制問題,給出了控制問題的數學描述.由于問題中包含兩種不確定性,采用Kalman濾波處理過程噪聲和測量噪聲產生的不確定性;用后驗概率學習到了包含未知參數真值的給定區間,該區間的精度可以事先任意設定,正如仿真例子揭示的那樣,后驗概率從最大的不確定性開始,到控制結束時幾乎沒有不確定性.盡管動態規劃是求解具有反饋形式控制律的有力工具,但由于每個階段的Cost-to-go中含有后驗概率,導致動態規劃不能順利進行,本文用線性近似的方法得到了一個次優控制律.本文的研究表明,具有未知參數的LQG問題的難點在于Cost-to-go與后驗概率的非線性依賴關系,正確和有效處理這一關系是獲得控制增益的關鍵.除了本文提出的線性近似外,我們期待其他更好的方法.另外,將這種具有學習性質的控制方法用于傳感器、執行器中的卡死故障及減振系統中的在線參數辨識,以提高系統的可靠性,也是未來進一步要開展的工作.
1 Asami T,Nishihara O.H2optimization of the three-element type dynamic vibration absorbers.Journal of Vibration and Acoustics,2002,124(5):583?592
2 Feldbaum A A.Optimal Control Systems.New York:Academic,1965.13?16
3 Feldbaum A A.Dual control theory I-II.Automatic Remote Control,1960,21(4):1033?1039
4 Filatov N M,Unbehauen H.Adaptive Dual Control Theory and Applications.Heidelberg:Springer Verlag,2004.75?86
5 Chen J,Patton R J[Author],Wu Jian-jun[Translator].Robust Model-Based Fault Diagnosis for Dynamic Systems.Beijing:National Defence Industry Press,2009.81?94
(Chen J,Patton R J[著],吳建軍[譯].動態系統基于模型的魯棒故障診斷.北京:國防工業出版社,2009.81?94)
6 Zhang Dan.Parameter Identi fi cation of Dynamic Model of High Speed Train[Master dissertation],Xi′an University of Technology,China,2016.
(張丹.高速列車動力學模型的參數辨識和狀態估計[碩士學位論文],西安理工大學,中國,2016.)
7 Li Wei-Wei.Vibration Isolation Design of Vehicle Stretchersupine Body System Based on Wire-rope Spring[Master dissertation],Tianjin University,China,2013.
(李維偉.基于鋼絲繩彈簧的車載擔架–臥姿人體系統隔振設計研究[碩士學位論文],天津大學,中國,2013.)
8 Alster J,B′elanger P R.A technique for dual adaptive control.Automatica,1974,10(6):627?634
9 Bar-Shalom Y,Wall K D.Dual adaptive control and uncertainty e ff ects in macroeconomic systems optimization.Automatica,1990,16(2):147?156
10 Milito R,Padilla C,Padilla R,Cadorin D.An innovations approach to dual control.IEEE Transactions on Automatic Control,1982,27(1):132?137
11 Deshpande J G,Upadhyay T N,Lainiotis D G.Adaptive control of linear stochastic systems.Automatica,1973,9(1):107?115
12 Fu P L,Li D,Qian F C.Active dual control for Linear-Quardratic Gaussian system with unknown parameters.In:Proceedings of the 15th IFAC World Congress.Barcelona,Spain:Pergamon,2002.337?342
13 Li D,Qian F C,Fu P L.Research on dual control.Acta Automatica Sinica,2005,31(1):32?42
14 Li D,Qian F C,Fu P L.Variance minimization in stochastic systems.Stochastic Modeling and Optimization.New York:Springer-Verlag,2003.2010?2020
15 Li D,Qian F C,Fu P L.Variance minimization approach for a class of dual control problems.IEEE Transactions on Automatic Control,2002,47(12):2010?2020
16 Li D,Qian F C,Fu P L.Optimal nominal dual control for discrete-time linear-quadratic Gaussian problems with unknown parameters.Automatica,2008,44(1):119?127
17 Qian Fu-Cai,Zhu Shao-Ping,Liu Ding.On LQG problems with unknown noises.Control Theory&Applications,2010,27(8):1017?1022
(錢富才,朱少平,劉丁.噪聲未知的LQG 控制問題研究.控制理論與應用,2010,27(8):1017?1022)
18 Chen Xiao-Ke.Research on Dual Control in LQG with Uncertainty Parameters Problem[Master dissertation],Xi′an University of Technology,China,2004.
(陳小可.具有不確定參數的LQG 對偶控制問題研究[碩士學位論文],西安理工大學,中國,2004.)
19 Wu Sen-Tang.Stochastic Robustness Analysis and Design for Guidance and Control System of Winged Missile.Beijing:National Defence Industry Press,2010.
(吳森堂.飛航導彈制導控制系統隨機魯棒分析與設計.北京:國防工業出版社,2010.)
20 Qian F C,Gao J J,Li D.Complete statistical characterization of discrete-time LQG and cumulant control.IEEE Transactions on Automatic Control,2012,57(8):2110?2115
尚 婷 西安理工大學自動化與信息工程學院博士研究生.主要研究方向為最優控制,隨機控制,系統辨識,故障診斷.
E-mail:tshang0722@126.com
(SHANG Ting Ph.D.candidate at the School of Automation and Information Engineering,Xi′an University of Technology.Her research interest covers the optimal control,stochastic control,systems identi fi cation,fault diagnosis.)
錢富才 西安理工大學自動化與信息工程學院教授.主要研究方向為隨機控制,系統辨識,非線性控制,最優控制,故障診斷和全球定位系統.本文通信作者.E-mail:qianfc@xaut.edu.cn
(QIAN Fu-Cai Professor at the School of Automation and Information Engineering,Xi′an University of Technology.His research interest covers stochastic control,systems identi fi cation,nonlinear control,optimal control,fault diagnosis and global positioning system.Corresponding author of this paper.)
張曉艷 西安理工大學自動化與信息工程學院博士研究生.主要研究方向為對偶控制,最優控制,故障診斷,隨機控制,容錯控制,系統辨識.
E-mail:xyzhang_2016@163.com
(ZHANG Xiao-Yan Ph.D.candidate at the School of Automation and Information Engineering,Xi′an University of Technology.Her research interest covers dual control,optimal control,fault diagnosis,stochastic control,tolerant-fault control and system identi fi cation.)
謝 國 西安理工大學自動化與信息工程學院副教授.2013年獲得日本大學工學博士學位.主要研究方向為軌道交通系統的安全性和可靠性,最優控制,和隨機控制.E-mail:guoxie@xaut.edu.cn
(XIE Guo Associate professor at the School of Automation and Information Engineering,Xi′an University of Technology.He received his Ph.D.degree from Vihon University,Japan in 2013.His research interest covers safety and reliability of railway system,optimal control and stochastic control.)
Research on Dual Control Algorithm for LQG with Unknown Parameters
SHANG Ting1QIAN Fu-Cai1,2ZHANG Xiao-Yan1XIE Guo1
For the LQG problem with unknown parameters,a novel suboptimal dual control approach is proposed in this paper.First,Kalman fi lter is used to deal with the noises of process and measurement and posterior probabilities at the previous moment are used to linearly approximate the cost-to-go at the present moment.Then dynamic programming is adopted to obtain a suboptimal control law.Finally,an example is presented to illustrate the implementation process of the developed controller.The result shows that this control law has good dual property and achieves a better balance between learning and control.
LQG(Linear quadratic Gaussian),dynamic programming,dual control,optimal control
May 17,2016;accepted March 30,2017
尚婷,錢富才,張曉艷,謝國.具有未知參數的LQG對偶控制算法研究.自動化學報,2017,43(8):1478?1484
Shang Ting,Qian Fu-Cai,Zhang Xiao-Yan,Xie Guo.Research on dual control algorithm for LQG with unknown parameters.Acta Automatica Sinica,2017,43(8):1478?1484
2016-05-17 錄用日期2017-03-30
國家自然科學基金(61273127,U1534208),陜西省科技攻關項目(2016GY-108),航天器在軌故障診斷與維修實驗室開放課題(SDML_OF2015004)
Supported by National Natural Science Foundation of China(61273127,U1534208),Science and Technology Project of Shaanxi Province(2016GY-108),and the Key Laboratory for Fault Diagnosis and Maintenance of Spacecraft in Orbit(SDML_OF2015004)
本文責任編委 方海濤
Recommended by Associate Editor FANG Hai-Tao
1.西安理工大學自動化與信息工程學院 西安 710048 2.西安工業大學陜西省自主系統與智能控制國際聯合研究中心 西安 710021
1.School of Automation and Information Engineering,Xi′an University of Technology,Xi′an 710048 2.The International Joint Research Center of Autonomous Systems and Intelligent Control,Xi′an Technological University,Xi′an 710021
DOI10.16383/j.aas.2017.c160401