張國鳴
(神華北電勝利能源有限公司,內蒙古錫林浩特 026015)
帶式輸送機[1-3]相對于其他運輸方式,具有運輸效率高的特點,因而廣泛應用于中短途散裝固體物料的搬運和輸送系統中。帶式輸送機是煤礦的主要運輸設備,其傳動系統的控制效果直接影響著煤炭生產的安全性、可靠性和成本。同時,皮帶輸送機工作過程中會消耗大量的電力能源,考慮到經濟效益和成本的因素,如何降低帶式輸送機的能源消耗的研究十分必要。
帶式輸送機是一種典型的電能—機械能轉換系統。其能源效率可分為4 個部分:性能效率、運行效率、設備效率和技術效率。對大多數能源系統來說,提高能源效率可以很容易地提高運行效率和設備效率,帶式輸送機也是如此。
速度控制[4-6]是提高帶式輸送機運行效率和降低能耗的有效途徑之一。傳統的電傳動系統由于啟動速度不平穩,導致皮帶脫軌或斷裂,甚至發生安全事故。因此,將一種新型的智能控制方法引入帶式輸送機的速度控制中,對解決以上這些問題具有重要的理論和實踐意義。
帶式輸送機的速度控制有兩種方式:被動控制和主動控制[7]。被動速度控制是根據未來幾分鐘或幾小時內物料流量的潛在峰值來選擇合適的帶速。根據某一時間段內作業卸料機的數量,可以確定該時間段內料流的勢峰。然后調整輸送機的速度,使其與物料流量的潛在峰值相匹配,或與可用卸料機的數量相匹配。主動速度控制能夠實時監控物料流動,根據實際料率的變化自動調整輸送機的速度,保證輸送帶上散裝物料的截面面積最大。被動速度控制根據未來時間間隔內料流來選擇一個固定的運行速度。因此,物料流動的微小或暫時的變化不會導致皮帶速度的變化,因此被動速度控制是一種半最優的方法。而在主動速度控制中,物料流動的變化是一個主要的速度調節指標。如果偏差較大,則調整輸送機速度以減小偏差。因此,與被動速度控制相比,主動速度控制的帶速平均值較低。因此,主動速度控制有望實現好的節能效果。
最優控制[8]通常被認為是一種離線控制策略,它試圖在一定的約束條件下使性能指標達到最大值或最小值。在設計最優控制器時,需要知道系統的全部動態。動態規劃是求解最優控制問題的一種有效方法,是一種基于貝爾曼最優性原理求解優化決策過程的數學方法。在實際應用中,動態規劃方法通常在離線情況下使用,并且在處理復雜系統優化控制時容易受到“維數災”問題的影響,導致無法應用動態規劃得到最優解。
為了克服這一問題,自適應評價設計及其相關研究取得了許多令人振奮的成果,該方法基于強化學習和行為評價體系結構獲得近似最優控制策略。自適應評價設計方法是一種求解最優控制問題的有效方法,近年來備受關注。一般來說,自適應評價設計兩個部分組成:一個是執行部分能夠根據被控系統生成控制輸入,另一個是評價部分用于評估當前控制作用的性能,并更新控制行為以提高性能。
因此,利用自適應評價設計算法來實現帶式輸送機的速度控制,具有良好的應用前景。首次嘗試將自適應評價設計應用于帶式輸送機的速度控制器設計,通過迭代結構逐步求解出最優速度控制,為提高帶式輸送機的運輸效率、延長其使用壽命提供一種可行的解決方案。
考慮一類具有以下形式的離散系統:

其中,x(k)是系統的狀態,y(k)是系統的輸出,u(k)是系統的輸入。
為了便于算法的設計,假設離散系統是能觀和能控的。考慮的參考軌跡動力學特性為:

定義變量z(k)滿足:

根據狀態方程(1)和參考軌跡系統(3),可定義增廣離散系統為

最優跟蹤控制問題的核心是找到最優控制策略u(k),使目標系統的輸出y(k)跟蹤參考軌跡r(k),同時其性能指標達到最小。本研究的跟蹤控制問題的指標函數具有如下形式:

其中,γ 是折扣因子,Q 和R 都是對稱正定矩陣。
根據動態規劃的思想,上述跟蹤控制問題也可以表示為

對于任意的可容許控制u,其對應的貝爾曼方程為

其中,U(z(k))=(y(k)-r(k))TQ(y(k)-r(k))+u(k)TRu(k)。
根據貝爾曼最優原理,跟蹤控制問題的最優性能指標為

對應的最優控制策略為

動態規劃方法的核心是貝爾曼最優原理,對于跟蹤控制問題,其過程是對每一步的控制策略u(k),求解性能指標函數(8),然后確定出滿足最優性能指標函數(9)的最優控制,從而得到一個最優控制策略(10)。然而,對于動態規劃方法,隨著系統維度的增加,其計算復雜度會顯著增加,即“維數災”問題。為了克服這個問題,近年來自適應評價設計方法以其自適應學習的特點,被眾多研究者廣泛關注,成為了一個研究熱點。
對于所要研究的跟蹤控制問題,假設系統狀態x(k)和參考軌跡r(k)組成的二次型性能指標函數:J(k)=V(k)=。將其代入式(8),可以得到zT(k)Pz(k)=(yk-rk)TQ(yk-rk)++γzT(k+1)Pz(k+1)。
將目標系統狀態方程代入到上式,可以得到代數黎卡提方程。


自適應評價設計算法是一種基于貝爾曼最優性原理的迭代算法。當使用自適應評價設計算法求解最優控制問題時,通常是通過迭代求解代數黎卡提方程(11)和反饋控制策略來得到最優控制。
(1)自適應評價設計算法。從任意狀態z(k),選取一個初始容許的控制,進行如下兩步迭代直至收斂。
(2)策略評價。求解矩陣Pi+1。


本文研究的自適應評價設計算法是通過迭代求解李雅普諾夫方程(13)來得到最優控制。自適應評價設計算法作為一種近似算法,在迭代過程中得到的控制策略制ui(k)和性能指標函數Vi(k)通常不是實際系統的最優值。然而,當迭代指數 趨于無窮時,它們最終收斂于相應的最優值。
考慮如下帶式輸送機模型:
通過使用自適應評價設計算法的策略評價方程(13),可以迭代求解出性能指標函數P,通過使用策略改進方程(14),可以迭代地得到輸送機的優化控制策略u。
該系統的最優性能指標函數P*為

通過使用自適應評價設計算法(16),迭代求解得到性能指標函數P*。

從仿真圖1 中可以看出,使用自適應評價設計算法,隨著迭代過程的進行,策略評價方程(13)能夠迭代求解出性能指標函數P。從圖2 可以看出,隨著迭代學習的進行,通過自適應評價設計算法所獲得的控制策略(14),能夠使帶式輸送機系統的速度輸出最終跟蹤物料加載的參考軌跡。
為了保證自適應評價設計算法能夠學習到系統的全部模態,就需要在仿真中引入一個探測噪聲信號。迭代學習過程中的探測噪聲如圖3 所示,在300 步之后,探測噪聲從控制策略u(k)中移除。

圖1 矩陣P 的收斂過程

圖2 算法學習過程

圖3 外加擾動信號
通過利用自適應評價設計算法的自適應迭代學習能力,設計了一種用于帶式輸送機的速度控制優化方案,得到了以下3 個結論。
(1)將自適應評價設計應用于帶式輸送機的速度控制器設計,通過迭代結構逐步求解出最優速度控制。
(2)基于自適應評價設計算法的速度控制方法,能夠根據來料的變化自適應地調節帶式輸送機的運行速度,提高運輸效率。
(3)由于自適應評價設計算法具有較好的學習速度,能夠有效延長帶式輸送機使用壽命。