摘 要:討論一類隨機非線性系統的在線優化問題,系統中的非線性函數可以是未知的。在基于性能勢的優化方程框架下,通過系統樣本路徑設計性能勢函數的在線學習算法,進一步給出優化控制算法。在此基礎上利用RBF神經網絡的逼近特性,給出簡化學習算法以減少計算量。最后給出的具體仿真結果和數據表明本文算法的有效性。
關鍵詞:隨機系統;非線性;優化;性能勢函數;RBF網絡
中圖分類號:TP273.1 文獻標識碼:A
1 引言
一般而言,非線性隨機系統具有諸多難以求解的問題,必須構造特殊的算法來求解隨機系統的最優控制問題。對于確定性系統的最優控制問題,廣泛采用的方法就是龐特里亞金的最大值原理和貝爾曼的動態規劃法。對于隨機系統的最優控制問題,運用馬爾可夫理論,可以得到隨機最大值原理和隨機動態規劃法,從而構成了隨機系統最優控制的現代理論基礎。用于求解隨機系統最優控制律及參數的方法不外乎兩種;解析法和數值法。對于非線性系統,解析法通常不能得到確切解;而數值法不要求代價函數具有解析結構,但是必須要求首先使用解析算法求出系統最優控制律及最優狀態估計的解析結構。因此,在隨機系統最優控制中最好將兩種方法結合起來使用。
在隨機系統最優控制求解的過程中,最優控制量如何能夠快速準確的得到是實際工程中亟待解決的問題,普通的動態規劃方法不能夠進行在線計算,所以有必要另外尋求解法來實現在線運算。
本文中提出性能勢最先是用來研究離散事件動態系統的,后來研究發現性能勢能夠對擾動分析和馬爾可夫鏈建立起一個統一的模式。從而性能勢的方法能夠運用到隨機系統的最優控制上來。性能勢可以僅僅由系統的一條樣本路徑估計得到,不需要系統的概率轉移矩陣等信息,這為求解實際問題帶來了極大的方便。這種基于性能勢的優化算法能夠在線應用。
“注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”