周嘉明,董龍雷,孟 超,孫海亮
(1.西安交通大學 航天航空學院 機械結構強度與振動國家重點實驗室,西安 710049;2.北京宇航系統工程研究所,北京 100076)
振動控制方法主要有3種:被動控制、主動控制和半主動控制。被動控制不需要外界施加能量,只需一些無源的彈性元件或阻尼元件,如金屬彈簧、橡膠阻尼墊等。被動控制的優勢在于結構簡單、可靠性高,但是對低頻振動和寬頻隨機振動的抑制效果較差。隨著控制理論、作動傳感技術和計算機科學的不斷發展,振動主動控制技術已經在航空航天、車輛和土木工程等領域取得了諸多成功的應用[1-4]。振動主動控制系統主要由作動器、傳感器、控制策略和被控對象組成。與被動控制相比,主動控制具有較強的靈活性和環境適應性,但是用于主動控制的作動器通常價格昂貴、能耗大、可控力較小,如壓電作動器[5]、音圈電機等,因此學者們提出了振動半主動控制技術。半主動控制是一種物理參數控制技術,主要通過調節系統的剛度或阻尼來實現,比如利用形狀記憶合金或磁流變彈性體調節剛度[6-7]、利用電/磁流變液調節阻尼[8]。
影響振動主動/半主動控制效果的關鍵因素之一是控制策略。比例積分微分(proportional-integral-derivative,PID)控制是一種使用最為廣泛的控制策略,目前已經在很多系統上取得了成熟的應用,比如離散系統[9]、連續體系系統[10-11]等。PID控制很難處理高維反饋信號和控制信號,這在一定程度上限制了它的應用。隨著高維控制問題的出現,基于狀態空間的現代控制理論得到了快速地發展,這些方法也被引入到振動主動控制領域,其中最常見的算法包括線性二次調節器(linear quadratic regulator,LQR)[12-13]和線性二次高斯控制(linear quadratic gaussian,LQG)[14]。控制器設計的前提往往需要建立被控系統精確的數學模型,但是實際系統往往存在不確定性、非線性等復雜特征,這使得數學模型的精度較差,甚至無法得到數學模型。為此,學者們提出了一些智能控制策略,主要包括自適應控制[15-18]、模糊控制[19-21]以及神經網絡控制[22-25]等。
現有智能控制策略的設計仍然依賴專家經驗的參與,且需花費大量的時間。強化學習(reinforcement learning,RL)是與有監督學習和無監督學習并列的第三種機器學習范式,旨在通過智能體和環境的互動來最大化累積獎勵的期望,其中智能體指強化學習算法;環境指被控對象的數學模型;獎勵指智能體采取動作(控制信號)后獲得的回報,這是強化學習算法能夠學習的關鍵。強化學習的核心是強化學習算法,常見的算法有Q-Learning、DQN[26]、REINFORCE、A3C[27]以及深度確定性策略梯度(deep deterministic policy gradient,DDPG)等。DDPG是一種基于確定性策略梯度的Actor-Critic算法,優勢在于可以適用于連續控制問題,將作為本文設計振動控制器的強化學習算法。
挑戰現有控制策略的兩大因素主要是被動對象參數的不確定性和非線性。為此,本文提出了一種基于強化學習的隨機振動主動控制策略,這種由強化學習算法設計的控制器稱為RL-NN(neural network controller designed by reinforcement learning)控制器。RL-NN控制器是基于數據驅動設計完成的,不依賴系統精確數學模型的參數和大量的領域知識,在一定概率分布范圍內產生大量數據供強化學習算法學習即可;另外,神經網絡具有強大的非線性表示能力,可以很好地近似被控對象中的非線性動力學行為。最后,通過兩個數值算例對RL-NN控制器的性能進行驗證:①考慮不確定性的單自由度系統主動控制;②考慮不確定性和非線性的車輛1/4磁流變懸架系統半主動控制。
RL-NN控制器是一個多層神經網絡,將傳感器測量的反饋信號(如位移、速度、加速度等)直接輸入給神經網絡,經過正向運算后將輸出的控制信號(如電壓、電流等)直接施加在作動器上,從而實現系統閉環振動主動/半主動控制。RL-NN控制框架示意圖,如圖1所示。

圖1 RL-NN控制框架示意圖Fig.1 Schematic diagram of the RL-NN control framework
不同于一些自適應控制算法,RL-NN控制器的參數是固定的,在控制過程中不需要實時更新;其次,該控制器的模型規模小,方便硬件部署,可以非常快速地計算出反饋信號,一定程度上緩解了控制器的時滯性。另外,RL-NN控制器允許高維輸入和高維輸出,可以很容易地解決多輸入多輸出控制問題。
RL-NN控制器的參數(神經網絡各層的權重和偏置)通過強化學習算法與數據自主交互學習后確定,該過程不依賴于振動控制領域知識。
DDPG是一種基于Actor-Critic的強化學習算法,如圖2所示。DDPG算法中包含4個神經網絡,分別是策略網絡、目標策略網絡、價值網絡和目標價值網絡。策略網絡和價值網絡與其對應目標網絡的架構是完全相同的,僅存在網絡參數的差異性。策略網絡和價值網絡會不斷將自身參數通過一種軟更新的方式拷貝給各自的目標網絡,其目的主要是為了減少目標計算與當前值的相關性,從而使學習過程更加穩定、易于收斂。

圖2 DDPG算法示意圖Fig.2 Schematic diagram of DDPG algorithm
由于采用軟更新方法,DDPG算法只需要計算出策略網絡和價值網絡的梯度,然后通過反向傳播算法更新網絡的參數即可。策略網絡和價值網絡損失函數的表達式為
yi=ri+γQ′(si+1,μ′(si+1|θu′)|θQ′)
(1)

Q(si,ai|θQ))2
(2)
(3)
式中:Lμ和LQ為策略網絡和價值網絡的損失函數;θμ,θμ′,θQ和θQ′為策略網絡、目標策略網絡、價值網絡和目標價值網絡的參數;μ(·),μ′(·),Q(·)和Q′(·)為策略網絡、目標策略網絡、價值網絡和目標價值網絡的前向計算函數;s,a和r分別為反饋信號、控制信號和回報信號;γ為回報信號的衰減系數;N為學習樣本數目,i=1,2,…,N。
目標網絡參數的更新采用
θQ′←τθQ+(1-τ)θQ′,
θμ′←τθμ+(1-τ)θμ′
(4)
式中,τ為目標網絡參數的更新系數,一般τ<<1。
DDPG算法采用了經驗回放機制,即通過引入回放池,將計算得到的元組數據(si,ai,ri,si+1)不斷儲存到回放池中,然后通過隨機采樣的方式選取樣本供算法學習,經驗回放機制可以有效地降低學習樣本的時序相關性,提升DDPG算法的學習能力。對于反饋信號中不同物理量量級存在差異的問題,比如加速度、速度和位移信號一般存在數量級的差異,本文采用批歸一化的方式進行處理,這樣可以使神經網絡很好地處理不同數值范圍的輸入,同時緩解神經網絡中間層輸出“漂移”、梯度發散等問題[28]。在訓練的過程中,對策略網絡的輸出添加一定的高斯噪聲,這樣可以使算法探索潛在的更優策略,噪聲的量級隨著訓練逐漸遞減,從而保證“探索”和“開發”之間的平衡。
本文設計RL-NN控制器的步驟主要包括以下3個部分。
1.3.1 建立被控對象的數學模型
建立可以反映被控系統動力學特性的數學模型,模型的參數滿足特定的概率分布,從而體現被控系統的不確定性。建立數學模型的目的主要有兩方面:一是計算控制信號at參與后的反饋信號st+1;二是計算控制信號at參與后的回報信號rt。本文的回報信號均采用位移信號,即強化學習的目標是最小化控制位置處的振動位移。微分方程的數值解均采用四階龍格-庫塔法獲得。
1.3.2 控制策略的自主學習
DDPG算法與被動對象的數學模型進行數據交互,如圖2所示。通過1.2節中的式(1)~式(4)對4個網絡的參數進行更新,從而實現控制策略的自主學習。本文使用的策略網絡和價值網絡均包括兩個隱含層,每層有32個神經元,隱含層的激活函數均采用ReLU。策略網絡輸出層的激活函數采用tanh,而價值網絡輸出層采用線性激活函數。使用ADAM優化器更新策略網絡和價值網絡的參數,學習率分別設置為1-5和1-4。其他參數設置為:回放池的存儲空間為1×105,隨機采樣個數為N=256,回報信號的衰減系數為γ=0.99,目標網絡參數的更新系數為τ=0.001。
1.3.3 獲取RL-NN控制器
記錄并觀察回報信號的變化情況,當回報信號達到收斂平穩趨勢時終止學習,保存策略網絡的架構和參數,最終得到的策略神經網絡便是強化學習算法設計的RL-NN控制器。將RL-NN控制器部署在軟件或硬件平臺上,將傳感器采集到的反饋信號作為神經網絡的輸入,通過神經網絡的正向計算后輸出控制信號,從而完成系統振動主動/半主動控制的閉環過程。
用于振動主動控制的單自由度系統的動力學模型,如圖3所示,其動力學控制方程為

圖3 單自由度系統的動力學模型Fig.3 Dynamic model of single-degree-of-freedom system
(5)

主要考慮m,c,k參數的不確定性,假設這3個參數都滿足均勻分布,不確定性范圍設置為20%,即m∈[0.8m0,1.2m0],c∈[0.8c0,1.2c0],k∈[0.8k0,1.2k0],其中m0=1 kg,c0=3 Ns/m,k0=100 N/m。m,c,k參數的不確定性空間,如圖4所示。將大量具有不同參數的單自由度系統計算得到的數據提供給強化學習算法,讓強化學習算法學習隱藏在數據中的不確定性,從而使得RL-NN控制器可以很好地適應系統的不確定性。

圖4 單自由度系統參數不確定性空間Fig.4 Parameter-uncertainty space of single-degree-of-freedom system
單自由度系統的位移控制曲線和控制電壓,如圖5所示。通過1 000次Monte Carlo模擬來驗證RL-NN控制器的性能,位移均方根(root mean square,RMS)值的計算結果,如表1所示。可以看出在系統參數具有20%的不確定性時,RL-NN控制器可以實現97.55%的控制效果,且標準差僅有0.001 8%,這表明強化學習算法學習到的主動控制策略可以很好地適應系統參數的不確定性,且控制性能優異、穩定性高。

圖5 單自由度系統振動主動控制結果(m=0.8 kg,c=2.6 Ns/m,k=117.6 N/m)Fig.5 Active vibration control results of the single-degree-of-freedom system(m=0.8 kg,c=2.6 Ns/m,k=117.6 N/m)
神經網絡在進行數據外推時會出現性能惡化的問題,即泛化能力下降。為此,通過1 000次Monte Carlo模擬來驗證系統具有30%,40%,50%以及60%不確定性時RL-NN控制器的性能,計算結果如表1所示。可以看出隨著不確定性的增加,RL-NN控制器的性能出現略微的下降。在60%不確定性情況下,RL-NN控制器可以實現96.59%的控制效果,方差僅有0.035%,相對于20%的不確定性,控制效果下降的幅度不足1%。結果表明在系統參數不確定性估計保守的條件下,RL-NN控制器仍具有良好的泛化性能,控制效果優異且穩定。

表1 單自由度系統位移控制結果Tab.1 Displacement control result of single-degree-of-freedom system
用于振動半主動控制的車輛1/4懸架系統的動力學模型,如圖6所示,其動力學控制方程的表達式為

圖6 車輛1/4懸架系統的動力學模型Fig.6 Dynamics model of quarter-suspension system of vehicle

(6)
式中:m1和m2分別為簧載質量和非簧載質量;k1和k2分別為彈簧剛度和輪胎剛度;c1為不可控阻尼系數;fc為磁流變阻尼器的可控阻尼力;α0,β0,γ,α1和β1為描述控制電流與可控阻尼力關系的參數;i為控制電流,i∈[0,3 A]。本文采用的磁流變阻尼器模型和相關動力學參數均引用文獻[29]。本算例中,半主動元件磁流變阻尼器具有典型的強非線性特性,這對振動半主動控制器的設計帶來了很大的困難。

車輛1/4懸架系統簧載質量m1的位移主動控制曲線和控制電流,如圖7所示。為了更好地表明本文所提方法的優異性,引入sky-hook控制策略作為對比。sky-hook控制策略是車輛懸架半主動控制領域應用最為廣泛的控制策略,可以描述為[30]

圖7 車輛1/4懸架系統振動半主動控制結果Fig.7 Semi-active vibration control results of the vehicle 1/4 suspension system
(7)
考慮20%不確定性,對比被動控制(磁流變阻尼器的控制電流為0)和RL-NN控制下簧載質量塊m1和非簧載質量塊m2的位移RMS值,結果如表2所示。對于簧載質量,sky-hook的控制效果為46.80%,標準差為1.55%,而RL-NN控制器可以實現74.39%的控制效果,且標準差僅有0.24%,結果表明本文所提的方法比sky-hook的控制效果至少高出25%,且控制效果更加穩定。對于非簧載質量,sky-hook的控制效果比RL-NN控制高出約1%,這主要是因為RL-NN控制器在學習過程中回報信號未考慮非簧載質量造成的,后續仍有一定的提升空間。

表2 車輛1/4懸架系統位移控制結果Tab.2 Displacement control result of quarter-suspension system
sky-hook是一種模糊控制策略,可以很好地適應系統的不確定性和非線性,是人類專家多年來在理解物理模型的基礎上結合反復迭代經驗總結出的控制策略。RL-NN控制器僅需要在普通計算平臺上學習數小時便可以超越人類專家水平,這在一定程度上體現了通過強化學習來設計控制策略的潛力,為復雜系統振動主動/半主動控制器的設計提供新的實現途徑。
本文提出了一種基于強化學習的振動主動控制策略,即利用強化學習算法DDPG設計多層神經網絡控制器。通過單自由度系統振動主動控制計算表明,RL-NN控制器可以適應系統參數的不確定性,其控制效果可以達到97%,且穩定性優異;另外,RL-NN控制器具有良好的泛化性能,在系統參數不確定性達到60%時控制效果下降不足1%。通過車輛1/4懸架振動半主動控制計算表明,RL-NN控制器可以適應系統參數的不確定性和非線性,其控制效果達到74%,比sky-hook高出至少25%,且控制穩定性更加突出。基于強化學習方法的控制策略可以大幅度縮短控制器設計的時間,僅需要在普通計算平臺上學習數小時便可以達到甚至超越人類專家水平,這為不確定性和非線性系統的振動主動/半主動控制器的設計提供了新的實現途徑。