趙新宇,汪文濤,張麗麗,夏宏兵
(蚌埠學院 電子與電氣工程學院,安徽蚌埠,233030)
可重構機器人由多個標準模塊組合而成,能夠根據任務或環境的變化而增刪模塊以改變自身構形來適應地形完成傳統機器人無法完成的復雜任務。由于其具有構形重建,成本低廉,通用性等優勢,近年來它在精密制造、災難救援、高溫/壓環境等場景中發揮著重大作用[1]。
但長期工作在此類復雜惡劣的環境中,系統發生故障的可能性日益頻繁,尤其是執行器故障問題,若不能有效地及時處理,系統整體的性能將會受到嚴重影響,同時也會帶來經濟財產損失。近年來專家學者們提出了很多關于執行器發生故障的容錯控制方案,以提高系統的可靠性。文獻[2],設計一種魯棒預測切換控制方案,解決了工業過程中經常發生的未知擾動、不確定性的執行器隨機故障問題。盡管諸如此類的方法使得系統具有良好的控制性能和穩定性能,但忽略了容錯控制系統的最優性能指標,即有效的簡化控制器的結構設計和減少控制輸入的代價消耗。針對此類容錯優化問題,往往采用自適應動態規劃(ADP)算法進行求解,以獲取系統的近似最優解。
ADP作為一種智能控制算法,被廣泛應用于各領域中[3-4],由于其可以有效解決最優控制問題且不產生“維數災”現象。但在容錯控制方面,相關的研究方案較少。文獻[5]利用在線補償技術,結合名義控制器與反饋控制器提出了一種故障補償控制策略。
值得指出的是,這些方案[5]大多都是利用補償控制技術,而該技術實際也是被動容錯的一種范疇。自適應觀測器是一種有效實現主動容錯的技術手段,可以在線估計故障信息值,并反饋給控制器進行容錯控制,無需進行故障檢測與隔離環節,結構設計簡單,因此該類方法被廣泛應用研究[6]。另一方面,現在的大多研究采用的代價函數都是傳統的二次型函數,而如何設計將觀測的故障信息考慮到系統的代價函數中,構成一種新型的代價函數,進而迭代求解近似最優控制策略將是我們探索和研究的一個方向。
基于此,本文將觀測器技術與ADP算法相結合,針對執行器發生突變故障的可重構機器人系統,為了有效處理故障引起系統的性能衰減,提出一種基于改進代價函數的容錯優化控制方法。采用自適應觀測器技術,設計一種顯含故障值的代價函數。通過構建評價神經網絡,利用策略迭代求解HJB方程得到反饋控制律,并結合標稱控制律,實現系統的安全優化控制。該方法通過觀測器在線估計故障信息,無需進行故障檢測與隔離。并通過設計執行器發生突變故障的形式進行了仿真實驗驗證。



由于HJB方程(8)求解難的特殊性,因此,接下來我們將建立自適應觀測器與評價神經網絡,進而將容錯控制問題轉化為最優控制問題處理。




為了驗證提出方法是否有效,采用構形A的可重構機器人模型(見文獻[5])進行數值實驗。

仿真結果如圖1~圖4所示。圖1表示的是設計的故障觀測器對執行器故障的在線估計曲線,虛線和實線分別表示故障實際值和估計值??梢钥闯鲈谙到y運行初期,由于神經網絡訓練需要時間,故兩條曲線存在較大偏差,估計值未能及時跟蹤上實際值。當t=20s和t=45s時系統發生故障后,由于觀測器的持續作用,兩條曲線在較短的時間內就可以重疊,說明了所設觀測器可以準確的觀測故障信號,進而減少傳統故障檢測方法的故障診斷時間。圖2、圖3分別反映的是關節1、2的跟蹤性能曲線。可以看出,即使系統在兩段時間內遭遇故障,系統仍可以良好的運行,且保持系統原有的穩定性能。說明了該方案具有良好的容錯性,能夠保證系統的安全可靠性。圖4是兩個關節的控制力矩。

圖1 故障估計曲線

圖2 關節1跟蹤曲線

圖3 關節2跟蹤曲線

圖4 控制力矩
本文融合故障觀測器與ADP算法,提出一種容錯優化控制方法,有效地解決了系統發生執行器突變故障的控制問題。根據在線觀測的故障值,改進傳統的二次型代價函數。構建評價神經網絡,采用一種新型的自適應學習律近似代價函數,進而求解得到反饋控制律,結合標稱控制律,實現系統容錯控制。該方法利用觀測器技術,規避了傳統檢測方法的故障檢測與隔離過程,大大減少了容錯時間。仿真實驗表明,該容錯方案可以很好地追蹤上系統的期望軌跡即使系統發生故障,具有良好的容錯性能,能夠保證系統的安全可靠性。