基于強(qiáng)化學(xué)習(xí)的隨機(jī)振動(dòng)主動(dòng)控制策略

2021-09-27 07:05:28周嘉明董龍雷孫海亮

振動(dòng)與沖擊 2021年16期

周嘉明，董龍雷，孟超，孫海亮

(1.西安交通大學(xué) 航天航空學(xué)院機(jī)械結(jié)構(gòu)強(qiáng)度與振動(dòng)國(guó)家重點(diǎn)實(shí)驗(yàn)室，西安 710049；2.北京宇航系統(tǒng)工程研究所，北京 100076)

振動(dòng)控制方法主要有3種：被動(dòng)控制、主動(dòng)控制和半主動(dòng)控制。被動(dòng)控制不需要外界施加能量，只需一些無(wú)源的彈性元件或阻尼元件，如金屬?gòu)椈伞⑾鹉z阻尼墊等。被動(dòng)控制的優(yōu)勢(shì)在于結(jié)構(gòu)簡(jiǎn)單、可靠性高，但是對(duì)低頻振動(dòng)和寬頻隨機(jī)振動(dòng)的抑制效果較差。隨著控制理論、作動(dòng)傳感技術(shù)和計(jì)算機(jī)科學(xué)的不斷發(fā)展，振動(dòng)主動(dòng)控制技術(shù)已經(jīng)在航空航天、車輛和土木工程等領(lǐng)域取得了諸多成功的應(yīng)用[1-4]。振動(dòng)主動(dòng)控制系統(tǒng)主要由作動(dòng)器、傳感器、控制策略和被控對(duì)象組成。與被動(dòng)控制相比，主動(dòng)控制具有較強(qiáng)的靈活性和環(huán)境適應(yīng)性，但是用于主動(dòng)控制的作動(dòng)器通常價(jià)格昂貴、能耗大、可控力較小，如壓電作動(dòng)器[5]、音圈電機(jī)等，因此學(xué)者們提出了振動(dòng)半主動(dòng)控制技術(shù)。半主動(dòng)控制是一種物理參數(shù)控制技術(shù)，主要通過(guò)調(diào)節(jié)系統(tǒng)的剛度或阻尼來(lái)實(shí)現(xiàn)，比如利用形狀記憶合金或磁流變彈性體調(diào)節(jié)剛度[6-7]、利用電/磁流變液調(diào)節(jié)阻尼[8]。

影響振動(dòng)主動(dòng)/半主動(dòng)控制效果的關(guān)鍵因素之一是控制策略。比例積分微分(proportional-integral-derivative，PID)控制是一種使用最為廣泛的控制策略，目前已經(jīng)在很多系統(tǒng)上取得了成熟的應(yīng)用，比如離散系統(tǒng)[9]、連續(xù)體系系統(tǒng)[10-11]等。PID控制很難處理高維反饋信號(hào)和控制信號(hào)，這在一定程度上限制了它的應(yīng)用。隨著高維控制問(wèn)題的出現(xiàn)，基于狀態(tài)空間的現(xiàn)代控制理論得到了快速地發(fā)展，這些方法也被引入到振動(dòng)主動(dòng)控制領(lǐng)域，其中最常見的算法包括線性二次調(diào)節(jié)器(linear quadratic regulator,LQR)[12-13]和線性二次高斯控制(linear quadratic gaussian,LQG)[14]。控制器設(shè)計(jì)的前提往往需要建立被控系統(tǒng)精確的數(shù)學(xué)模型，但是實(shí)際系統(tǒng)往往存在不確定性、非線性等復(fù)雜特征，這使得數(shù)學(xué)模型的精度較差，甚至無(wú)法得到數(shù)學(xué)模型。為此，學(xué)者們提出了一些智能控制策略，主要包括自適應(yīng)控制[15-18]、模糊控制[19-21]以及神經(jīng)網(wǎng)絡(luò)控制[22-25]等。

現(xiàn)有智能控制策略的設(shè)計(jì)仍然依賴專家經(jīng)驗(yàn)的參與，且需花費(fèi)大量的時(shí)間。強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)是與有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)并列的第三種機(jī)器學(xué)習(xí)范式，旨在通過(guò)智能體和環(huán)境的互動(dòng)來(lái)最大化累積獎(jiǎng)勵(lì)的期望，其中智能體指強(qiáng)化學(xué)習(xí)算法；環(huán)境指被控對(duì)象的數(shù)學(xué)模型；獎(jiǎng)勵(lì)指智能體采取動(dòng)作(控制信號(hào))后獲得的回報(bào)，這是強(qiáng)化學(xué)習(xí)算法能夠?qū)W習(xí)的關(guān)鍵。強(qiáng)化學(xué)習(xí)的核心是強(qiáng)化學(xué)習(xí)算法，常見的算法有Q-Learning、DQN[26]、REINFORCE、A3C[27]以及深度確定性策略梯度(deep deterministic policy gradient，DDPG)等。DDPG是一種基于確定性策略梯度的Actor-Critic算法，優(yōu)勢(shì)在于可以適用于連續(xù)控制問(wèn)題，將作為本文設(shè)計(jì)振動(dòng)控制器的強(qiáng)化學(xué)習(xí)算法。

挑戰(zhàn)現(xiàn)有控制策略的兩大因素主要是被動(dòng)對(duì)象參數(shù)的不確定性和非線性。為此，本文提出了一種基于強(qiáng)化學(xué)習(xí)的隨機(jī)振動(dòng)主動(dòng)控制策略，這種由強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)的控制器稱為RL-NN(neural network controller designed by reinforcement learning)控制器。RL-NN控制器是基于數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì)完成的，不依賴系統(tǒng)精確數(shù)學(xué)模型的參數(shù)和大量的領(lǐng)域知識(shí)，在一定概率分布范圍內(nèi)產(chǎn)生大量數(shù)據(jù)供強(qiáng)化學(xué)習(xí)算法學(xué)習(xí)即可；另外，神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的非線性表示能力，可以很好地近似被控對(duì)象中的非線性動(dòng)力學(xué)行為。最后，通過(guò)兩個(gè)數(shù)值算例對(duì)RL-NN控制器的性能進(jìn)行驗(yàn)證：①考慮不確定性的單自由度系統(tǒng)主動(dòng)控制；②考慮不確定性和非線性的車輛1/4磁流變懸架系統(tǒng)半主動(dòng)控制。

1 RL-NN控制器設(shè)計(jì)方法

1.1 RL-NN控制框架

RL-NN控制器是一個(gè)多層神經(jīng)網(wǎng)絡(luò)，將傳感器測(cè)量的反饋信號(hào)(如位移、速度、加速度等)直接輸入給神經(jīng)網(wǎng)絡(luò)，經(jīng)過(guò)正向運(yùn)算后將輸出的控制信號(hào)(如電壓、電流等)直接施加在作動(dòng)器上，從而實(shí)現(xiàn)系統(tǒng)閉環(huán)振動(dòng)主動(dòng)/半主動(dòng)控制。RL-NN控制框架示意圖，如圖1所示。

圖1 RL-NN控制框架示意圖Fig.1 Schematic diagram of the RL-NN control framework

不同于一些自適應(yīng)控制算法，RL-NN控制器的參數(shù)是固定的，在控制過(guò)程中不需要實(shí)時(shí)更新；其次，該控制器的模型規(guī)模小，方便硬件部署，可以非常快速地計(jì)算出反饋信號(hào)，一定程度上緩解了控制器的時(shí)滯性。另外，RL-NN控制器允許高維輸入和高維輸出，可以很容易地解決多輸入多輸出控制問(wèn)題。

RL-NN控制器的參數(shù)(神經(jīng)網(wǎng)絡(luò)各層的權(quán)重和偏置)通過(guò)強(qiáng)化學(xué)習(xí)算法與數(shù)據(jù)自主交互學(xué)習(xí)后確定，該過(guò)程不依賴于振動(dòng)控制領(lǐng)域知識(shí)。

1.2 強(qiáng)化學(xué)習(xí)算法

DDPG是一種基于Actor-Critic的強(qiáng)化學(xué)習(xí)算法，如圖2所示。DDPG算法中包含4個(gè)神經(jīng)網(wǎng)絡(luò)，分別是策略網(wǎng)絡(luò)、目標(biāo)策略網(wǎng)絡(luò)、價(jià)值網(wǎng)絡(luò)和目標(biāo)價(jià)值網(wǎng)絡(luò)。策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)與其對(duì)應(yīng)目標(biāo)網(wǎng)絡(luò)的架構(gòu)是完全相同的，僅存在網(wǎng)絡(luò)參數(shù)的差異性。策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)會(huì)不斷將自身參數(shù)通過(guò)一種軟更新的方式拷貝給各自的目標(biāo)網(wǎng)絡(luò)，其目的主要是為了減少目標(biāo)計(jì)算與當(dāng)前值的相關(guān)性，從而使學(xué)習(xí)過(guò)程更加穩(wěn)定、易于收斂。

圖2 DDPG算法示意圖Fig.2 Schematic diagram of DDPG algorithm

由于采用軟更新方法，DDPG算法只需要計(jì)算出策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的梯度，然后通過(guò)反向傳播算法更新網(wǎng)絡(luò)的參數(shù)即可。策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)損失函數(shù)的表達(dá)式為

yi=ri+γQ′(si+1,μ′(si+1|θu′)|θQ′)

(1)

Q(si,ai|θQ))2

(2)

(3)

式中：Lμ和LQ為策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的損失函數(shù)；θμ，θμ′，θQ和θQ′為策略網(wǎng)絡(luò)、目標(biāo)策略網(wǎng)絡(luò)、價(jià)值網(wǎng)絡(luò)和目標(biāo)價(jià)值網(wǎng)絡(luò)的參數(shù)；μ(·)，μ′(·)，Q(·)和Q′(·)為策略網(wǎng)絡(luò)、目標(biāo)策略網(wǎng)絡(luò)、價(jià)值網(wǎng)絡(luò)和目標(biāo)價(jià)值網(wǎng)絡(luò)的前向計(jì)算函數(shù)；s，a和r分別為反饋信號(hào)、控制信號(hào)和回報(bào)信號(hào)；γ為回報(bào)信號(hào)的衰減系數(shù)；N為學(xué)習(xí)樣本數(shù)目，i=1,2,…,N。

目標(biāo)網(wǎng)絡(luò)參數(shù)的更新采用

θQ′←τθQ+(1-τ)θQ′,

θμ′←τθμ+(1-τ)θμ′

(4)

式中，τ為目標(biāo)網(wǎng)絡(luò)參數(shù)的更新系數(shù)，一般τ<<1。

DDPG算法采用了經(jīng)驗(yàn)回放機(jī)制，即通過(guò)引入回放池，將計(jì)算得到的元組數(shù)據(jù)(si,ai,ri,si+1)不斷儲(chǔ)存到回放池中，然后通過(guò)隨機(jī)采樣的方式選取樣本供算法學(xué)習(xí)，經(jīng)驗(yàn)回放機(jī)制可以有效地降低學(xué)習(xí)樣本的時(shí)序相關(guān)性，提升DDPG算法的學(xué)習(xí)能力。對(duì)于反饋信號(hào)中不同物理量量級(jí)存在差異的問(wèn)題，比如加速度、速度和位移信號(hào)一般存在數(shù)量級(jí)的差異，本文采用批歸一化的方式進(jìn)行處理，這樣可以使神經(jīng)網(wǎng)絡(luò)很好地處理不同數(shù)值范圍的輸入，同時(shí)緩解神經(jīng)網(wǎng)絡(luò)中間層輸出“漂移”、梯度發(fā)散等問(wèn)題[28]。在訓(xùn)練的過(guò)程中，對(duì)策略網(wǎng)絡(luò)的輸出添加一定的高斯噪聲，這樣可以使算法探索潛在的更優(yōu)策略，噪聲的量級(jí)隨著訓(xùn)練逐漸遞減，從而保證“探索”和“開發(fā)”之間的平衡。

1.3 RL-NN控制器設(shè)計(jì)流程

本文設(shè)計(jì)RL-NN控制器的步驟主要包括以下3個(gè)部分。

1.3.1 建立被控對(duì)象的數(shù)學(xué)模型

建立可以反映被控系統(tǒng)動(dòng)力學(xué)特性的數(shù)學(xué)模型，模型的參數(shù)滿足特定的概率分布，從而體現(xiàn)被控系統(tǒng)的不確定性。建立數(shù)學(xué)模型的目的主要有兩方面：一是計(jì)算控制信號(hào)at參與后的反饋信號(hào)st+1；二是計(jì)算控制信號(hào)at參與后的回報(bào)信號(hào)rt。本文的回報(bào)信號(hào)均采用位移信號(hào)，即強(qiáng)化學(xué)習(xí)的目標(biāo)是最小化控制位置處的振動(dòng)位移。微分方程的數(shù)值解均采用四階龍格-庫(kù)塔法獲得。

1.3.2 控制策略的自主學(xué)習(xí)

DDPG算法與被動(dòng)對(duì)象的數(shù)學(xué)模型進(jìn)行數(shù)據(jù)交互，如圖2所示。通過(guò)1.2節(jié)中的式(1)～式(4)對(duì)4個(gè)網(wǎng)絡(luò)的參數(shù)進(jìn)行更新，從而實(shí)現(xiàn)控制策略的自主學(xué)習(xí)。本文使用的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)均包括兩個(gè)隱含層，每層有32個(gè)神經(jīng)元，隱含層的激活函數(shù)均采用ReLU。策略網(wǎng)絡(luò)輸出層的激活函數(shù)采用tanh，而價(jià)值網(wǎng)絡(luò)輸出層采用線性激活函數(shù)。使用ADAM優(yōu)化器更新策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的參數(shù)，學(xué)習(xí)率分別設(shè)置為1-5和1-4。其他參數(shù)設(shè)置為：回放池的存儲(chǔ)空間為1×105，隨機(jī)采樣個(gè)數(shù)為N=256，回報(bào)信號(hào)的衰減系數(shù)為γ=0.99，目標(biāo)網(wǎng)絡(luò)參數(shù)的更新系數(shù)為τ=0.001。

1.3.3 獲取RL-NN控制器

記錄并觀察回報(bào)信號(hào)的變化情況，當(dāng)回報(bào)信號(hào)達(dá)到收斂平穩(wěn)趨勢(shì)時(shí)終止學(xué)習(xí)，保存策略網(wǎng)絡(luò)的架構(gòu)和參數(shù)，最終得到的策略神經(jīng)網(wǎng)絡(luò)便是強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)的RL-NN控制器。將RL-NN控制器部署在軟件或硬件平臺(tái)上，將傳感器采集到的反饋信號(hào)作為神經(jīng)網(wǎng)絡(luò)的輸入，通過(guò)神經(jīng)網(wǎng)絡(luò)的正向計(jì)算后輸出控制信號(hào)，從而完成系統(tǒng)振動(dòng)主動(dòng)/半主動(dòng)控制的閉環(huán)過(guò)程。

2 單自由度系統(tǒng)主動(dòng)控制

2.1 問(wèn)題描述

用于振動(dòng)主動(dòng)控制的單自由度系統(tǒng)的動(dòng)力學(xué)模型，如圖3所示，其動(dòng)力學(xué)控制方程為

圖3 單自由度系統(tǒng)的動(dòng)力學(xué)模型Fig.3 Dynamic model of single-degree-of-freedom system

(5)

主要考慮m，c，k參數(shù)的不確定性，假設(shè)這3個(gè)參數(shù)都滿足均勻分布，不確定性范圍設(shè)置為20%，即m∈[0.8m0,1.2m0]，c∈[0.8c0,1.2c0]，k∈[0.8k0,1.2k0]，其中m0=1 kg，c0=3 Ns/m，k0=100 N/m。m，c，k參數(shù)的不確定性空間，如圖4所示。將大量具有不同參數(shù)的單自由度系統(tǒng)計(jì)算得到的數(shù)據(jù)提供給強(qiáng)化學(xué)習(xí)算法，讓強(qiáng)化學(xué)習(xí)算法學(xué)習(xí)隱藏在數(shù)據(jù)中的不確定性，從而使得RL-NN控制器可以很好地適應(yīng)系統(tǒng)的不確定性。

圖4 單自由度系統(tǒng)參數(shù)不確定性空間Fig.4 Parameter-uncertainty space of single-degree-of-freedom system

2.2 控制結(jié)果

單自由度系統(tǒng)的位移控制曲線和控制電壓，如圖5所示。通過(guò)1 000次Monte Carlo模擬來(lái)驗(yàn)證RL-NN控制器的性能，位移均方根(root mean square，RMS)值的計(jì)算結(jié)果，如表1所示。可以看出在系統(tǒng)參數(shù)具有20%的不確定性時(shí)，RL-NN控制器可以實(shí)現(xiàn)97.55%的控制效果，且標(biāo)準(zhǔn)差僅有0.001 8%，這表明強(qiáng)化學(xué)習(xí)算法學(xué)習(xí)到的主動(dòng)控制策略可以很好地適應(yīng)系統(tǒng)參數(shù)的不確定性，且控制性能優(yōu)異、穩(wěn)定性高。

圖5 單自由度系統(tǒng)振動(dòng)主動(dòng)控制結(jié)果(m=0.8 kg,c=2.6 Ns/m,k=117.6 N/m)Fig.5 Active vibration control results of the single-degree-of-freedom system(m=0.8 kg,c=2.6 Ns/m,k=117.6 N/m)

神經(jīng)網(wǎng)絡(luò)在進(jìn)行數(shù)據(jù)外推時(shí)會(huì)出現(xiàn)性能惡化的問(wèn)題，即泛化能力下降。為此，通過(guò)1 000次Monte Carlo模擬來(lái)驗(yàn)證系統(tǒng)具有30%，40%，50%以及60%不確定性時(shí)RL-NN控制器的性能，計(jì)算結(jié)果如表1所示。可以看出隨著不確定性的增加，RL-NN控制器的性能出現(xiàn)略微的下降。在60%不確定性情況下，RL-NN控制器可以實(shí)現(xiàn)96.59%的控制效果，方差僅有0.035%，相對(duì)于20%的不確定性，控制效果下降的幅度不足1%。結(jié)果表明在系統(tǒng)參數(shù)不確定性估計(jì)保守的條件下，RL-NN控制器仍具有良好的泛化性能，控制效果優(yōu)異且穩(wěn)定。

表1 單自由度系統(tǒng)位移控制結(jié)果Tab.1 Displacement control result of single-degree-of-freedom system

3 車輛1/4懸架半主動(dòng)控制

3.1 問(wèn)題描述

用于振動(dòng)半主動(dòng)控制的車輛1/4懸架系統(tǒng)的動(dòng)力學(xué)模型，如圖6所示，其動(dòng)力學(xué)控制方程的表達(dá)式為

圖6 車輛1/4懸架系統(tǒng)的動(dòng)力學(xué)模型Fig.6 Dynamics model of quarter-suspension system of vehicle

(6)

式中：m1和m2分別為簧載質(zhì)量和非簧載質(zhì)量；k1和k2分別為彈簧剛度和輪胎剛度；c1為不可控阻尼系數(shù)；fc為磁流變阻尼器的可控阻尼力；α0,β0,γ,α1和β1為描述控制電流與可控阻尼力關(guān)系的參數(shù)；i為控制電流，i∈[0,3 A]。本文采用的磁流變阻尼器模型和相關(guān)動(dòng)力學(xué)參數(shù)均引用文獻(xiàn)[29]。本算例中,半主動(dòng)元件磁流變阻尼器具有典型的強(qiáng)非線性特性，這對(duì)振動(dòng)半主動(dòng)控制器的設(shè)計(jì)帶來(lái)了很大的困難。

3.2 控制結(jié)果

車輛1/4懸架系統(tǒng)簧載質(zhì)量m1的位移主動(dòng)控制曲線和控制電流，如圖7所示。為了更好地表明本文所提方法的優(yōu)異性，引入sky-hook控制策略作為對(duì)比。sky-hook控制策略是車輛懸架半主動(dòng)控制領(lǐng)域應(yīng)用最為廣泛的控制策略，可以描述為[30]

圖7 車輛1/4懸架系統(tǒng)振動(dòng)半主動(dòng)控制結(jié)果Fig.7 Semi-active vibration control results of the vehicle 1/4 suspension system

(7)

考慮20%不確定性，對(duì)比被動(dòng)控制(磁流變阻尼器的控制電流為0)和RL-NN控制下簧載質(zhì)量塊m1和非簧載質(zhì)量塊m2的位移RMS值，結(jié)果如表2所示。對(duì)于簧載質(zhì)量，sky-hook的控制效果為46.80%，標(biāo)準(zhǔn)差為1.55%，而RL-NN控制器可以實(shí)現(xiàn)74.39%的控制效果，且標(biāo)準(zhǔn)差僅有0.24%，結(jié)果表明本文所提的方法比sky-hook的控制效果至少高出25%，且控制效果更加穩(wěn)定。對(duì)于非簧載質(zhì)量，sky-hook的控制效果比RL-NN控制高出約1%，這主要是因?yàn)镽L-NN控制器在學(xué)習(xí)過(guò)程中回報(bào)信號(hào)未考慮非簧載質(zhì)量造成的，后續(xù)仍有一定的提升空間。

表2 車輛1/4懸架系統(tǒng)位移控制結(jié)果Tab.2 Displacement control result of quarter-suspension system

sky-hook是一種模糊控制策略，可以很好地適應(yīng)系統(tǒng)的不確定性和非線性，是人類專家多年來(lái)在理解物理模型的基礎(chǔ)上結(jié)合反復(fù)迭代經(jīng)驗(yàn)總結(jié)出的控制策略。RL-NN控制器僅需要在普通計(jì)算平臺(tái)上學(xué)習(xí)數(shù)小時(shí)便可以超越人類專家水平，這在一定程度上體現(xiàn)了通過(guò)強(qiáng)化學(xué)習(xí)來(lái)設(shè)計(jì)控制策略的潛力，為復(fù)雜系統(tǒng)振動(dòng)主動(dòng)/半主動(dòng)控制器的設(shè)計(jì)提供新的實(shí)現(xiàn)途徑。

4 結(jié) 論

本文提出了一種基于強(qiáng)化學(xué)習(xí)的振動(dòng)主動(dòng)控制策略，即利用強(qiáng)化學(xué)習(xí)算法DDPG設(shè)計(jì)多層神經(jīng)網(wǎng)絡(luò)控制器。通過(guò)單自由度系統(tǒng)振動(dòng)主動(dòng)控制計(jì)算表明，RL-NN控制器可以適應(yīng)系統(tǒng)參數(shù)的不確定性，其控制效果可以達(dá)到97%，且穩(wěn)定性優(yōu)異；另外，RL-NN控制器具有良好的泛化性能，在系統(tǒng)參數(shù)不確定性達(dá)到60%時(shí)控制效果下降不足1%。通過(guò)車輛1/4懸架振動(dòng)半主動(dòng)控制計(jì)算表明，RL-NN控制器可以適應(yīng)系統(tǒng)參數(shù)的不確定性和非線性，其控制效果達(dá)到74%，比sky-hook高出至少25%，且控制穩(wěn)定性更加突出。基于強(qiáng)化學(xué)習(xí)方法的控制策略可以大幅度縮短控制器設(shè)計(jì)的時(shí)間，僅需要在普通計(jì)算平臺(tái)上學(xué)習(xí)數(shù)小時(shí)便可以達(dá)到甚至超越人類專家水平，這為不確定性和非線性系統(tǒng)的振動(dòng)主動(dòng)/半主動(dòng)控制器的設(shè)計(jì)提供了新的實(shí)現(xiàn)途徑。