李 臻 范家璐 姜 藝 柴天佑
1.東北大學流程工業綜合自動化國家重點實驗室 沈陽 110819
魯棒控制理論經過多年的完善與發展,已經趨于成熟.所謂的魯棒控制是指在擾動能量一定的情況下,仍能保證一定性能指標的控制方法.H∞控制算法是魯棒控制的一種,通過最小化H∞指標來達到魯棒控制的目的[1-3].文獻[4-5]中指出H∞控制和零和博弈存在內在聯系.即把輸入和擾動看作相互博弈的兩個參與者,一般在定義指標時使輸入為指標的最小參與者,擾動為最大參與者.對于系統的H∞控制可以歸結為求解博弈黎卡提方程(Game algebraic Riccati equation,GARE)[5-6].H∞控制雖然能保證參數在一定波動范圍內的穩定性,但需要完整的系統動態模型.這大大限制了H∞的應用范圍.
隨著信息科學技術的發展,與生活息息相關的實際過程,如冶金、化工、電力、物流運輸等方面發生了重大變化,復雜的生產設備與大量不同種類的傳感器同時應用使工業過程趨于復雜.因此,這些過程在難以建立準確的數學模型的同時卻產生儲存著大量反映系統動態的運行數據.數據驅動的控制方法在此基礎上產生.經過多年的發展,數據驅動的方法主要利用這些數據實現設計控制器,預測評估系統狀態,在線優化決策,甚至診斷故障[7].而數據驅動控制是指在不使用被控過程數學模型的信息的情況下,直接利用被控系統的數據設計控制器的控制理論和方法,且經過嚴謹地數學論證后可以保證控制器滿足一定的魯棒性與收斂性[8].
強化學習通過啟發機制來學習智能體與環境的交互策略,以優化在交互過程中的長期收益的算法[6].在控制領域中,強化學習常用來解決自適應最優控制問題[9-12].其中,Doya[13]首次將基于強化學習的控制器應用于連續系統中.在近期的研究中,強化學習應用于更加有針對性的復雜工業過程中[14-19],尤其是對難以建模的復雜工業過程進行了針對性的研究[15-17].文獻[12]對數據驅動的迭代優化控制方法進行了綜述性研究.文獻[14]將Q-learning 應用于考慮丟包問題的網絡環境中,實現了一種數據驅動的浮選過程控制方法.文獻[15]考慮了輸入受限情況下的數據驅動浮選控制問題,并將強化學習應用在浮選過程的雙率控制中.文獻[20]針對非線性系統跟蹤控制問題,提出了一種基于Q-learning 的直接求解評價函數的方法,避免了求解更復雜的HJBE(Hamilton-Jacobi-Bellman equation).文獻[21]針對輸出調節控制問題提出了一種新型基于Qlearning 的控制方法.文獻[22]針對離散時間非線性系統基于事件的最優調節控制問題,提出了一種基于啟發式動態規劃的事件驅動方法.文獻[23]對非線性連續時間系統自適應評價控制問題進行了綜述性研究.Al-Tamimi 等[24]將Q-learning 算法應用于H∞控制問題.
Off-policy 學習算法是強化學習的一種,其主要特點是在學習過程中,Off-policy 算法定義了兩個不同的策略,一種是用來產生數據的策略,另一種是求解得到的目標策略[25-27].而On-policy 算法中,兩種策略相同,需要將每次迭代所求得的算法代入實際環境中來產生學習所用的數據.因此,與Onpolicy 算法相比,Off-policy 算法更具可用性.同時與以Q-learning 算法[24]為代表的On-policy 學習方法相比,Off-policy 算法可以消除在學習過程中由探測噪聲所產生的誤差[25].換句話說,Off-policy 學習算法是一種無偏的學習方法.在基于Off-policy算法的連續系統H∞控制的基礎上,文獻[25] 將Off-policy 算法引入了離散線性系統H∞控制問題中,提出了需要狀態反饋值的離散線性系統控制算法.其通過考察狀態變化與值函數變化的關系,構造了一種與探測噪聲無關的貝爾曼方程,進而提出了一種無模型狀態反饋Off-policy 的H∞控制算法.
上述算法由于忽略了在某些應用條件下關鍵狀態變量無法反饋這一問題,降低了算法在實際應用環境下的可用范圍.因此,本文提出一種基于Offpolicy 的數據驅動輸出反饋H∞控制算法,針對模型未知的離散線性系統模型,實現無限時域上工作點附近鎮定控制的同時對能量有限的噪聲進行抑制.區別與狀態反饋問題,本文的反饋量是輸出,本文通過構造了新的值函數,避免了直接使用狀態變量.由于無法直接使用狀態作為反饋,因而構造了一種增廣數據向量,來解決輸出反饋控制問題.在線性模型依賴在線策略迭代(Policy iteration,PI)狀態反饋算法的基礎上,將結合了系統歷史輸出數據與歷史輸入數據的增廣數據向量作為反饋量,使在線狀態反饋算法轉換為模型依賴在線策略迭代輸入輸出反饋算法.通過引入輔助項的方法將模型依賴On-policy 輸入輸出反饋算法轉換為無模型Offpolicy 輸入輸出反饋控制算法.由于采用了Offpolicy 算法,該算法具有結構簡單,可以得到理論上的最優值的特點[25].除此之外,與On-policy 算法相比,Off-policy 算法的可以實現離線學習,克服了On-policy 算法只能在線學習需要頻繁和環境交互的問題.在本文的最后,針對飛機短時間周期飛行姿態控制模型進行了仿真實驗,以驗證算法的有效性.












結合引理1 可以看出,根據輸入輸出反饋數據與目標策略所得到的決策結果和根據狀態數據與中間策略所得到的決策結果相同.











在本節中,以短時間周期飛機飛行姿態穩定控制模型為例,對算法3 的有效性與可靠性進行考察.H∞算法在該模型下的有效性與必要性已經經過驗證[29-30],本文將仿真結果展示的重點放在收斂性的考察.在收斂性方面,本文從初值的選擇與學習最優 策略所用數據的影響兩個方面來考察算法3.
在短時間段內飛機平穩飛行時,主要考慮迎角、俯仰速角率和升降舵偏角三者對飛機飛行姿態造成的影響.迎角是指飛機的速度矢量與機翼弦線之間的夾角.俯仰角速率是指飛行器繞橫軸旋轉的角速度.升降舵偏角是指飛機升降舵和平尾之間的夾角.其中,迎角和俯仰角速率可以直接衡量飛機的姿態變化.升降舵偏角的變化會造成升降舵所受到的氣動力矩發生變化,進而影響飛機的飛行姿態.因此,將迎角、俯仰角速率和升降舵偏角三者作為系統的狀態變量.將控制升降舵變化的升降舵執行器電壓作為控制變量.考慮到飛機在平穩飛行時,迎角易受到風向與風速的干擾,將迎角所受到的擾動作為擾動變量.由于飛機的俯仰速率測量比較困難,因此可以將迎角與升降舵偏角作為輸出變量.飛機飛行示意圖如圖1所示[30].

圖1 飛機飛行示意圖Fig.1 Aircraft flight diagram





圖2 三組實驗參數收斂曲線Fig.2 Three groups of experimental parameters convergence curves


本文針對考慮擾動作用的線性離散系統,提出了一種基于Off-Policy的無模型輸入輸出數據反饋H∞控制方法.該算法針對性解決了狀態數據反饋算法難以應用于狀態無法測得的應用環境這一問題,通過引入一種由輸入輸出數據組成的增廣數據向量將狀態反饋在線策略迭代算法轉換成輸入輸出反饋算法.并通過引入輔助項的方法,最終將輸入輸出反饋在線策略迭代算法轉換為無模型輸入輸出反饋Off-policy 算法.該算法和On-policy 算法所學習得出的策略相同,且該算法在學習過程中所用的數據默認和在迭代過程中所更新的策略所產生的數據之間存在差異,這為數據驅動的離線算法和在迭代更新策略穩定的情況下再更新策略提供了可能.最后,通過F-16 飛行器仿真模型驗證了該算法的收斂性與有效性.在本篇文章的基礎上,仍有一些十分重要的問題值得進行研究,如 輸入受限情況下的控制問題.考慮在網絡控制中,存在反饋數據丟包情況下的控制問題.更進一步將本文所研究的內容延展到非線性系統中,以提高本算法的應用范圍與控制效果.

圖3 三組實驗范數收斂曲線Fig.3 Three groups of experimental parameters convergence curves