基于強化學習的參數自整定及優化算法

2022-04-21 06:51:40嚴家政專祥濤

智能系統學報 2022年2期

嚴家政，專祥濤,2

（1.武漢大學電氣與自動化學院，湖北武漢 430072;2.武漢大學深圳研究院，廣東深圳 518057）

在現代工業控制系統研究中，對控制性能指標進行優化是研究控制算法的首要任務之一。常見的工業控制系統一般具有非線性、含時滯、多變量等復雜特性，研究人員提出了模糊PID 控制[1]、分數階PID 控制[2-3]、自抗擾控制[4-5]等算法，提升控制算法的性能。工程實踐中，此類控制算法和控制器的參數整定及優化過程需要工程師大量的實踐經驗，或通過觀察被控對象的響應逐步調整，或通過辨識模型推理計算。參數優化過程繁瑣耗時、常有重復性工作。隨著人工智能技術的發展，深度學習[6-7]、強化學習[8]等人工智能理論及技術被廣泛應用于圖像識別[9]、智能推薦[10]、機器人控制[11]等領域。由于控制理論的反饋概念與強化學習的獎勵概念的相似性，為了增強控制算法性能、減少人工成本，許多學者也嘗試在控制理論與控制工程領域引入強化學習[12-14]。但目前這類研究大多處于理論證明和仿真實驗階段[15]，少有工程實踐的驗證。

本文針對上述問題，首先提出了一種基于強化學習的控制參數優化算法，將參數整定問題近似為求解約束優化問題，通過結合強化學習的獎勵、經驗回放機制和控制系統的動態性能指標評價模塊對控制器參數進行在線自整定及優化。然后，以水箱液位控制系統為實驗對象，對上述算法進行實物對比測試。最后，設計了一種動態變參數PID 控制算法，驗證基于強化學習的參數自整定及優化算法的可行性、有效性和普適性。

1 強化學習

作為一種重要的機器學習方法，強化學習(reinforcement learning,RL)采用了人類和動物學習中的“嘗試與失敗”機制，強調智能體在與環境的交互過程中學習，利用評價性的反饋信號實現決策的優化。由于強化學習在學習過程中不需要給定各種狀態的監督信號，因此其在求解復雜的優化決策問題方面有廣泛的應用前景。強化學習的基本框架[16]如圖1 所示。

圖1 強化學習的基本框架Fig.1 Basic framework of reinforcement learning

與環境Environment 交互過程中，智能體Agent 根據當前狀態，選擇并執行一個動作，環境接受動作后變為新的狀態，并把獎賞信號反饋給智能體，根據獎賞信號智能體更新決策單元，選擇后續動作，直至獲得期望的最大獎勵值。

智能體與環境的交互過程中,在每個周期T會經歷如下步驟[17]：

1)智能體Agent 獲取環境Environment 在當前周期T的狀態ST；

2)智能體Agent 依據狀態ST和策略PT，選擇并執行動作aT，作用于當前環境；

3)環境由狀態ST變為新的狀態ST+1，并反饋當前策略的評價函數rT；

4)智能體Agent 根據評價函數rT更新策略，即PT→PT+1，T→T+1；

5)返回步驟1)，重復上述步驟，直至滿足目標要求。

算法流程中，評價函數r是關于環境的狀態S和智能體的執行動作a的函數，是決定強化學習訓練結果策略P性能好壞的關鍵性因素。

2 算法設計

在控制系統控制器性能分析中，系統階躍響應對應的超調量 δ、上升時間tr、調節時間ts等動態性能指標是關于控制器參數矢量X的非線性函數，評價控制器設計優劣的關鍵性因素。(本文研究中，以穩態值的±2% 作為平衡狀態誤差范圍)

結合強化學習理論和控制理論知識，本文提出一種基于強化學習(reinforcement learning,RL)的控制器參數自整定及優化算法。算法將控制參數矢量X作為智能體的動作，控制系統的響應結果作為狀態，引入動態性能指標計算獎勵函數，通過在線學習周期性階躍響應數據、梯度更新控制器參數的方式改變控制器的控制策略，直至滿足優化目標，實現參數的自整定及優化。算法原理如圖2 所示。

圖2 基于強化學習的控制器參數優化算法原理圖Fig.2 Schematic diagram of controller parameter optimization algorithm based on reinforcement learning

根據原理圖2，本文提出的參數自整定及優化算法將控制器參數整定問題定義為，求解滿足下列不等式約束條件的可行解：

式中：Z為待優化的參數矢量X的取值范圍；Ωi(i=1,2,3)為優化目標的約束值。基于控制系統動態性能指標超調量 δ、上升時間tr、調節時間ts，算法定義獎勵函數R為

本文算法的參數整定及優化流程如下（算法1）：

1)根據實際條件和需求設定優化目標 Ωi和參數X的搜索范圍Z，隨機初始化參數X；

2)獲得系統在參數X下的周期階躍響應數據，計算動態性能指標 δ、tr、ts和獎勵函數R；若滿足優化目標，則終止迭代，輸出參數X；

3)從經驗回放集S中隨機批量抽取m個經驗樣本，將2)中數據 {X,δ,tr,ts,R} 存入經驗回放集S；

4)計算m個樣本的參數平均梯度 ?X；

5) σ為高斯白噪聲，α 為自適應學習率，利用梯度下降法更新參數：X=X+α·?X+σ

6)返回步驟2)，重復上述步驟。

為了盡可能獲得全局最優的參數，本文的參數自整定及優化算法在更新參數的過程中引入高斯白噪聲，增加參數的探索度。同時，算法利用經驗回放技術，對過去的經驗樣本進行隨機批量抽樣，減弱經驗數據的相關性和不平穩分布的影響，增加優化過程的準確性和收斂速度。實踐試驗中，為避免算法陷入局部死循環，當可行解的變異系數小于一定閾值時，即認為算法已獲得局部收斂(近似全局)的相對最優解，保留當前結果并重新搜索。

3 算法實驗與對比分析

為了驗證上述基于強化學習的參數自整定及優化算法的可行性和有效性，本文選擇常見的水箱控制系統作為實物實驗對象，對水箱液位控制器進行算法驗證實驗。實驗設備如圖3 所示。

圖3 水箱控制系統實驗設備Fig.3 Experimental equipment of water tank control system

3.1 控制系統模型定性分析

工程實際中的控制系統具有非線性，精準辨識其模型及參數較為困難，而本文所設計的控制器參數整定及優化算法是無需具體分析被控對象模型的無模型算法。因此，為了貼合工程實際條件，本文只對控制系統模型作定性分析，而不對其參數進行詳細辨識。

由控制器、變頻器(磁力泵)、水箱組成的水箱液位控制系統原理圖如圖4 所示。其中，變頻器模塊的輸出(流量Q)與控制器模塊的輸出(占空比U)的傳遞函數可近似為

考慮對象的滯后時間，根據物料平衡方程，水箱液位H與流量Q的傳遞函數為

綜上，本文實驗中的水箱液位被控對象為具有二階傳遞函數的時滯系統。其傳遞函數為

實物實驗中，因實驗裝置部件設置的不同，部分模型參數范圍為：T1∈[5,12],T2∈[30,56]。

3.2 增量式PID 控制器的參數優化

工業過程控制系統通常使用PID 控制作為控制器，增量式PID 算法表達式為

式中:e(k)、u(k)、u(k)分別為采樣k時刻的誤差信號、輸出增量和輸出；Kp、Ki、Kd為PID 控制器待整定的比例系數、積分系數和微分系數。

使用本文提出的基于強化學習的參數自整定及優化算法對水箱實驗設備的增量式PID 控制器進行參數優化實驗，算法參數設定如下：隨機樣本數m=10，學習率 α=0.02。考慮系統性能實際可行性，設定優化約束如下：系數范圍Kp∈[6,15]，Ki∈[0,0.4]，Kd∈[0,4]；超調量閾值 Ω1=2%，上升時間閾值 Ω2=20 s，調節時間閾值 Ω3=38 s。

算法訓練過程中，PID 控制器的系數隨迭代輪次的變化曲線如圖5 所示。由圖5 可以看出，算法在學習過程的前期，利用較大范圍的參數變化增加了參數的探索度，然后通過在線學習經驗數據，使得控制器參數逐漸收斂至優化目標。

圖5 PID 控制器參數的變化曲線Fig.5 Change curves of PID controller parameters

為了測試所得參數的實際控制性能，將上述參數與傳統的Ziegler-Nichols(Z-N)法[18]、基于遺傳算法的參數優化方法[19-20]所得參數進行實物實驗對比。即在相同輸入條件下，對比不同方法所得控制器參數的階躍響應性能，對比數據如表1和圖6 所示。由對比數據可以看出，本文提出的基于強化學習的參數自整定及優化算法可以有效地優化常規PID 控制器的參數，其實驗結果在超調量、調節時間性能指標上明顯優于傳統的Z-N參數整定法，且省去人工整定參數的繁瑣過程。此外，相比于基于遺傳算法的參數優化算法，基于強化學習的參數優化算法使用更少的計算機資源，獲得了性能相近的結果。

圖6 不同方法所得參數對應的PID 控制器階躍響應曲線Fig.6 PID controllers dynamic input response tracking curve of parameters obtained by different methods

表1 不同方法所得控制器參數在相同階躍輸入下的對比數據Table1 Comparison data of controller parameters obtained by different methods with the same step input

3.3 變參數PID 控制器的參數優化

為了進一步驗證基于強化學習的參數自整定及優化算法的普適性，提升控制器的動態性能。結合模糊控制理論[21]，本文設計了一種動態變參數的PID 控制算法，動態PID 系數的計算公式為

式中：e為經過處理的誤差信號；de為誤差信號e的變化率；K0、I0、D0是PID 系數的偏置量；Pi、Ii、Di(i=1,2,3)是待確定的參數。此時，傳統的經驗方法難以整定這類改進PID 控制器的參數；使用遺傳算法等最優化方法優化參數所需的計算機資源過多，實際應用較為困難。

使用本文算法對上述控制器待確定的參數進行整定和優化。算法參數設定如下：隨機樣本數m=15，學習率 α=0.001。基于表1 的結果，令系數偏置量K0=8.7，I0=0.14，D0=2.2。優化約束設定如下：Pi,Ii,Di∈[?1,1],(i=1,2,3)，超調量閾值Ω1=2%，上升時間閾值 Ω2=19 s，調節時間閾值Ω3=33 s。變參數PID 控制器的各項參數隨迭代輪次的變化曲線如圖7 所示。本文算法的參數優化結果如表2 所示，對應控制系統的階躍響應動態性能指標如下：超調量為0.896%、上升時間為17.9 s、調節時間為31 s。

圖7 優化過程的參數變化曲線Fig.7 Data curves of parameter optimization process

3.4 對比實驗及結果分析

為了進一步測試本文參數優化算法所得控制參數的動態性能，將表1 中的Z-N 法和基于強化學習(RL)的算法獲得的固定參數PID 控制器與表2 的動態變參數PID 控制器進行性能對比。對比測試分為兩個部分：動態輸入下的響應性能對比和穩定狀態下的抗干擾性能對比。

表2 變參數PID 控制器的參數優化結果Table2 Parameter optimization results of variable parameter PID controller

1)動態輸入下的響應性能對比。控制系統在給定相同的動態階躍輸入條件下，3 種控制器的響應性能對比如圖8 所示。由圖8 可以看出，相比Z-N 法的參數，本文算法所得參數具有更小的超調量、更好的響應跟蹤性能。同時，本文算法優化后的動態變參數PID 控制器具有最小的超調量、最優的響應跟蹤性能，驗證了本文算法應用于不同類型控制器的有效性和普適性。

圖8 不同控制器的動態輸入跟蹤曲線Fig.8 Dynamic input tracking curves for different controllers

2)穩定狀態下的抗干擾性能對比。控制系統進入穩定狀態后，在t=10 s 時刻，對被控系統施加一定的干擾，3 種控制器在相同擾動條件下的對比曲線如圖9 所示。

圖9 不同控制器的抗擾動曲線Fig.9 Anti-disturbance curves of different controllers

由圖9 可以看出，3 種控制器受到擾動影響后，被控量恢復至穩定狀態所用的時間相近，ZN 法整定的PID 控制器恢復時間相對最短，但其恢復過程中的超調量最大，變參數PID 控制器的抗干擾綜合性能最優。

4 結束語

本文針對傳統PID 算法在含時延、非線性的控制系統應用過程中，參數整定繁瑣、控制效果較差等問題[22]，提出了一種基于強化學習的參數自整定及優化算法，可以實現在線整定和優化控制器參數。水箱液位控制系統實驗的結果表明，基于強化學習的參數自整定及優化算法省去了依賴經驗且耗時較長的人工調參過程，比遺傳算法等最優化方法使用了更少的計算機資源，獲得近似最優的控制器參數，提升控制系統的動態性能。與固定參數的PID 控制器相比，經本文算法優化的變參數PID 控制器具有超調量小、響應跟蹤性能好的優點。本文所提出的算法有望應用于工業過程控制系統的控制器參數整定及控制優化等相關問題。

本文提出的算法是基于PID 控制算法進行優化和改進，雖能在一定程度上保證控制系統的控制穩定性，但其控制效果也因此受限于傳統的PID 算法。在非PID 原理的控制器參數優化應用過程，算法無法確定控制器輸出的安全性。同時，本文未在優化算法的評價函數中考慮擾動恢復性能等指標，無法從理論上確保優化所得參數的整體性能最優性。

因此，增加獎勵函數的評估因素，或改變控制算法的底層策略結構，是今后的研究方向。例如，結合預測控制算法[23-24]或由深度神經網絡[25]組成的“黑盒”模型，取代PID 算法框架，使用基于深度強化學習[26-27]的優化算法進一步優化控制系統的性能等。