段緒彭 李永振
摘 要:本文對于系統模態不匹配的異步切換多智能體系統的輸出調節問題進行了分析與探討,結合粒子群算法等多智能體系統的優化算法對于分布式輸出反饋控制協議進行了設計,從而能夠有效地做好輸出調節的工作,為其進一步發展打下了堅實的基礎。
關鍵詞:異步切換多智能體系統;輸出調節問題;分析;探討
輸出調節問題近年來已經取得了很多成果, 輸出調節的目標是為不確定受控系統設計控制律使得閉環系統漸近穩定, 且在存在擾動時閉環系統的輸出可以漸近地跟蹤參考輸入或漸近地抑制干擾信號。多智能體系統一致性問題受到了很多學者的關注,一致性問題可以看作輸出調節的一類特殊問題, 同理, 多智能體的一致性問題也可看作多智能體協同輸出調節問題的一類特殊問題。
1 多智能體系統的優化算法分析
粒子群算法,縮寫為 PSO。PSO 算法屬于進化算法的一種,和模擬退火算法相似,它也是從隨機解出發,通過迭代尋找最優解,它也是通過適應度來評價解的品質,但它比遺傳算法規則更為簡單,它沒有遺傳算法的“交叉”和“變異”操作,它通過追隨當前搜索到的最優值來尋找全局最優。這種算法以其實現容易、精度高、收斂快等優點引起了學術界的重視,并且在解決實際問題中展示了其優越性,粒子群算法是一種并行算法,其源于對鳥群捕食的行為研究 目前很多學者都對多智能體系統生成進行了深入研究,取得的研究成果也是眾多的。在本文中對于個體適應值以多智能體系統數據進行有效模擬,以此方式使得程序運行時間得以有效控制,故此,進行多智能體系統數據生成時,僅需利用較為基本的方法即可,由于在被測程序中,所對應的目標路徑并不是唯一的,而每次算法運行,僅能夠對其中的一種路徑進行測試,由此得到對應路徑的多智能體系統數據,因此路徑數量對應著算法需要進行的次數。首先,要求能夠得到一定的多智能體系統數據,可將程序進行插裝以獲得真實適應值,由此得到實驗需要的樣本數據。隨后,通過樣本使得多智能體系統數據得到訓練,當訓練完成之后以這些多智能體系統數據來對個體適應值進行大致評估,從中選擇優秀的個體,即那些具有較好適應值的,隨后進行程序運行以此方式從中得到實際的適應值水平。此外,因為在本文方法中對于個體適應值是以多智能體系統數據進行的評估,故此,如果目標路徑是相同的,只需要在初始階段對多智能體系統數據進行訓練,在后期的運行中是無須對其進行更新的。
2 分布式輸出反饋控制協議設計
一般在這樣的框架下,可以實現較好的優化功能,主要包括評價模型和執行三個部分,這三個部分主要在于能夠實現完整的評價改善循環,評價模塊可以評估執行模塊的實際效能,對于代價函數進行優化與修正,執行模塊可以產生實際的動作來對所改進的策略進行執行,同時也能有效的對于被控對象的情況進行反應,將其進行運行之后,可以通過不同的反饋,來對實際評價與運行的情況進行確定,同時,利用相關的神經網絡、強化學習等算法,來實現函數的近似與優化,這樣就能對于系統的內部參數進行實時的更新,這里主要是采用貝爾曼的優化方式來進行更新的。效用函數可以對于函數輸入在系統內產生的效果,進行合理有效的評估,主要有以下這些方式:通過代價函數的定義情況,我們可以對效用函數做出一定的評價,我們可以看出,當到時候,效用函數的重要性是一樣的,當折扣因子減小的時候,這個自適應系統就可以在越短的時間內進行收斂,得到一個更加優化的結果,但是當折扣因子如果過大的時候,系統的幅度就很難進行控制,所以這個時候,我們應當盡量的提高學習率。學習率一般是在0到1之間的,學習率可以直接反映這個系統的學習速度,但是學習率如果太大的話,就可能會導致整個系統的震蕩過于嚴重,但是學習律太低又使得它的收斂的速度太慢了,導致整個的訓練時間太長,無法滿足實際的要求,因此在符合實際要求的情況下,盡量增大學習率,這樣就可以提升學習的速度,同時避免出現嚴重的震蕩情況。
分布式輸出反饋控制協議方法是通過強化學習,來對傳統的動態規劃進行優化,然后可以有效的解決離散系統和非線性系統中出現的問題,主要包括策略迭代和直接在兩種形式,策略迭代主要是通過策略評價與改進的方法,對每一步的策略進行評估,來不斷的尋找優化的策略,同時對其進行改良和優化,得到新的權值,生成新的優化函數進行計算,在這個過程當中,評估和改進是循環進行的,最后將會得到一個最優的控制策略。但是需要注意的是,在最好的運行模式下,相關的一些外部參數條件應當是穩定的,這是非常重要的,如果沒有這個條件,就會導致整個策略評估,出現一些意外的情況。值迭代的算法主要是針對于一些方程式的計算,通過最優函數的尋找與控制計算,就能計算出最優的值,它不需要進行控制策略的穩定化,在我們的使用當中必須要注意,無論是迭代策略還是值迭代,都需要對于被控對象的相關特性,尤其是內部特性進行研究,這也是分布式輸出反饋控制協議的核心特點。
策略迭代的算法可以根據每一步的執行情況,來對策略進行迭代性的優化,主要是通過每一步的代價函數來對于當前情況的優化情況進行分析,根據目前策略下系統的運行方式,來對于新的代價函數進行求解,進行不斷的迭代,最終得到最優化的全局的結果。
3 總結
在每次處理更新中對于最優的控制函數進行重新的計算,通過求函數最小值的方法來盡量得到優化的控制方案。主要可以通過對于貝爾曼方程進行求導而得到最優解,同時每次迭代算法幾乎都是一樣的,需要通過對計算對象的內部動態特性來進行有效的控制與計算,這樣才能使得最終的結果符合于實際的優化情況。
參考文獻:
[1]王傳銳.多智能體系統分布式跟蹤控制問題研究[D].中國科學技術大學,2014.
[2]丁磊.不同數據觸發機制下的多智能體系統一致性及H_∞濾波[D].大連海事大學,2014.
[3]金元日.不確定通信下多智能體系統的一致性[D].浙江大學,2013.
[4]劉學良.多智能體系統協調控制中的若干問題研究[D].華南理工大學,2012.