宋孟豪


摘 ?要:在當今的社會領域和工業領域中存在著大量的復雜系統,如交通系統、通信網絡系統等。這些復雜系統通常具有高度的非線性和不確定性,并且難于建立精確的數學模型。而現實世界中的系統都具有本質非線性,傳統的線性系統理論只是一種局部近似。常見的幾種非線性系統的控制方法[1]有適應控制、模變結構控制、魯棒控制、自學習控制。傳統的控制方法已逐漸不能滿足當下科技高度發展的控制需求,因此尋找一種更加先進的控制方法顯得尤為重要。由于動態規劃是一種非線性規劃方法,并且適用于不確定性問題。因而,自適應動態規劃理論在解決復雜非線性系統的優化控制問題中具有極大的應用潛力。
關鍵詞:神經網絡;自適應動態規劃;非線性系統
1 自適應動態規劃的簡述
動態規劃理論是20世紀50年代的美國數學家貝爾曼(Bellman)為了解決非線性動態系統的最優控制問題而提出的一種先進控制理論[2]。動態規劃是一種非線性的最優化規劃方法,并且適用于隨機系統,因此是解決復雜非線性系統控制問題的有效方法。其核心思想是最優性原理,可以將多級決策控制問題轉化為一系列單級決策控制問題,廣泛應用于經濟管理和決策、工業控制、空間技術等領域。啟發式動態規劃(Heuristic Dynamic Programming,HDP)是1992年,Werbos[3]提出了啟發式動態規劃(HDP)和二次啟發式動態規劃(DHP)兩種基本的結構之一。
2 啟發式動態規劃
HDP結構是最基本也是應用最廣泛的一種ADP結構,如圖2-1。
該結構由三個神經網絡組成:第一個為執行網絡(Action Network),根據狀態變量 產生控制變量 ;第二個為模型網絡(Model Network),根據此刻的狀態變量 和控制變量 得到下一刻的狀態變量 ,可以對復雜的非線性系統進行建模,通過在線或離線方式進行訓練;第三個為評判網絡(Critic Network),輸入為狀態變量 或 ,輸出為近似的性能指標函數,通過權值傳遞,可以得到兩個時刻的輸出 或 。 為效用函數。
3 基于BP神經網絡的訓練算法推導
4 總結
傳統的非線性系統的控制方法僅能在一定程度上解決模型未知或建模不精確、參數未知或變化等問題,具有一定局限性。而且由于復雜系統的高度非線性和不確定性,因而實現復雜非線性系統的最優控制一直是一個熱點問題。雖然基于神經網絡啟發式動態規劃能在某種程度上解決傳統算法的局限性,但是在面對一些復雜的非線性系統的控制中還顯得束手無策,因而對復雜系統的非線性控制的研究不能停留在當下,依舊要繼續向前。
參考文獻
[1] ?方勇純,盧桂章. 非線性系統理論. 清華大學出版社. 2009年5月.
[2] ?Bellman R E. Dynamic Programming. Princeton University Press. 1957.
[3] ?Werbos P J. Approximate Dynamic Programming for Real-Time Control and Neural Modeling. Handbook of Intelligent Control:Neural,Fuzzy,and Adaptive Approaches,D.A. White and D.A. Sofge,Ed.,New York:Van Nostrand Reinhold. 1992.