基于深度強化學習的拉索智能減振算法

2022-12-14 08:31:04陳孝聰張恩啟

振動與沖擊 2022年23期

陳孝聰，張恩啟，程斌，王浩

(1.上海交通大學船舶海洋與建筑工程學院，上海 200240；2.東南大學土木工程學院，南京 210096)

拉索作為斜拉橋的重要受力構件，具有質量輕、阻尼小和柔度大的特征，易在外部激勵荷載作用下發生不同類型的大幅振動，從而引起拉索錨固端產生疲勞裂紋，降低拉索的使用性能和壽命。在工程應用中多采用被動黏滯阻尼器來抑制拉索的大幅振動，但黏滯阻尼器能提供的最大模態阻尼較為固定[1]，且受阻尼器安裝高度限制難以有效控制超長斜拉索的振動。一般可采用慣質阻尼器[2-4]、MR阻尼器[5-6]等取代黏滯阻尼器，并對拉索進行多模態振動控制。其中MR阻尼器具有可變阻尼的特性，已有研究表明[7]利用MR阻尼器進行半主動控制可獲得比最優黏滯阻尼器更好的控制效果，且比拉索主動控制的輸入能量更低。

MR阻尼器的減振控制效果與拉索振動頻率、振動幅度、阻尼器施加電壓、荷載作用形式等因素都有關[8-9]，半主動控制算法直接決定其控制效果。為此，國內外學者已針對拉索半主動控制算法開展了大量的研究，Johnson等提出了剪切最優H2/LQG算法，采用兩級控制器實現了從LQG主動控制到半主動控制的轉變。李惠等[10]利用LQG主動控制和限界Hrovat控制算法確定磁流變阻尼器控制力，基本實現了主動控制達到的效果。Weber F等[11]提出了基于調幅LQR控制的近似同位控制策略，通過對主動控制力特性的近似等效實現對拉索的多模態振動控制。Chen等[12]基于LQG控制實現了對自感應MR阻尼器的半主動控制。Zhao等[13]提出了基于LQR控制的最優等效控制算法，利用等效剛度和等效阻尼近似得到最優控制力，從而提高計算效率。以上控制策略以主動控制算法如LQR或LQG為基礎計算最優控制力，一般需要對拉索-阻尼器系統振動特性建立精確的動力學模型和系統狀態空間方程[14]，且需要根據有限數量的傳感器測量值對拉索振動狀態得到準確估計，從而獲得有效的反饋增益矩陣進行動力學求解。

為了使振動控制策略更容易實施，需降低對精確數學模型的依賴性，并根據有限實時測量值進行在線反饋控制。對此鄔喆華等[15]提出了基于位移和速度方向的Bang-Bang控制算法，根據阻尼器活塞位移和速度方向來實現半主動控制，但該算法存在阻尼器型號的有效區間。Zhou等[16]提出了僅利用阻尼器活塞位移和速度信息的調制均勻摩擦算法，但控制器增益值需要由結構參數分析確定。Liu等[17]提出了僅利用阻尼器活塞加速度信息的積分加二重積分控制算法，實現了對拉索的無模型同位控制。

本文采用基于深度強化學習的振動控制算法實現對拉索-阻尼器系統的無模型控制，即控制策略無需基于被控系統的精確數學模型，僅通過對系統的部分狀態觀測直接得到最優控制動作，從而實現端到端的在線控制。通過數值仿真方法建立斜拉索-阻尼器環境模型與控制算法進行交互，并考慮斜拉索的隨機風荷載作用場景，將該算法的振動控制效果與黏滯阻尼器最優被動控制、Bang-Bang經典控制等進行對比分析，驗證控制算法的有效性。

1 拉索-阻尼器環境模型

本文主要針對拉索的平面內振動進行控制，并考慮拉索垂度和抗彎剛度的影響，拉索-阻尼器系統計算模型如圖1所示。

圖1 拉索-阻尼器系統計算模型

拉索在橫向荷載作用下的無量綱動力學方程可以表示為

(1)

(2)

式中：t代表振動時長；m代表拉索單位長度質量；T代表拉索靜態張力；L代表拉索的總長度；w0代表拉索基頻。動力學方程中拉索振動響應可以采用Galerkin方法求解，將拉索y向振動位移表示振型函數的組合形式，并需滿足邊界條件，即

(3)

φj(0)=φj(1)=0

(4)

式中：qj(t)為第j階模態的廣義位移坐標；φj(x)表示第j階模態的形函數。為了減少計算所需模態數量，提高振動響應的求解效率，引入“0階”振動模態，以靜力狀態下的位形作為形函數，即所有形函數為

φj(x)=sin(jπx),j=1,2,…,n-1

(5)

由于拉索的各階模態振型正交，因此可得振動方程的矩陣形式

(6)

φ(xd)|=|[φ0(xd),φ1(xd),φ2(xd),…,φn(xd)]T

(7)

質量矩陣M、剛度矩陣K、阻尼矩陣C、荷載矩陣Fy對應的元素可以表示為

(8)

2 深度強化學習控制算法

強化學習是一種通過智能體與環境進行交互得到最優決策序列的計算方法。智能體負責選擇控制動作和改進控制策略，是運行強化學習算法的主體；環境即智能體所處的場景，環境會根據智能體的動作進行狀態轉換，并量化評價智能體的動作[18]。在拉索減振應用中，智能體為強化學習控制算法，環境模型為拉索-阻尼器被控系統。

在控制過程中，智能體感知到環境模型當前狀態si，根據控制策略π(a|s)選擇動作ai作用于環境，使環境模型從si進入到下一狀態si+1，環境根據獎勵函數R(s)評估si+1的優劣，并給予智能體回報ri+1。該過程將一直迭代循環，形成一條如s0,a0,r1,s1,a1,r2,s2,…的狀態-動作-獎勵序列。智能體通過最大化總體收益來優化控制策略，該收益不但包括當前時刻的即時回報，也包括后續序列的延遲回報，從而使智能體做出更有遠見的決策。智能體在t步所獲得的整體收益Gt可以表示為時間折扣因子γ與后續單步回報的組合，γ值的大小取決于其對未來收益的關心程度，γ=0表示只關注當前步的回報，γ=1表示關注未來所有步的回報。整體收益公式為

(9)

大部分強化學習算法都涉及到價值函數的迭代計算，價值函數可以用來評價智能體策略在給定狀態下的優劣程度。Q學習算法為一種基于價值迭代的控制算法，其采用動作價值函數Q(s,a)描述狀態s下選擇動作a的價值，該函數由貝爾曼最優方程計算

Q(st,at)=

(10)

采用時序差分法來更新當前時刻的動作價值

Q(st,at)=Q(st,at)+αδt

(11)

式中，α為步長參數，δt為時間差分值，即

(12)

(13)

除了采用參數化函數降低狀態空間的復雜性，DQN算法也通過經驗回放池隨機采樣減少了對樣本序列的依賴，且通過固定目標DQN網絡提高了算法的收斂性和穩定性。在公式(13)表示的算法基礎上，研究人員提出了Double DQN[20]和Dueling DQN[21]的優化方法。Double DQN采用兩個參數不同的DQN網絡分別負責動作選擇和策略評估，解決了值函數估計的誤差問題，其動作價值函數可以表示為

(14)

Dueling DQN利用狀態價值函數V(s;w,α)和動作優勢函數A(s,a;w,β)的組合，加速智能體學習最優控制策略的過程，其中α,β都為近似函數參數集合，則動作狀態價值函數可以表示為

(15)

本文將經過Double DQN和Dueling DQN技術優化后的DQN控制算法應用于拉索振動控制場景，整體控制框架如圖2所示。智能體根據拉索振動狀態有限觀測值st-1采用ε-貪心方法選擇MR阻尼器施加電壓a，拉索在外部荷載ft和阻尼力作用下更新狀態至st，根據獎勵函數R(st)產生回報rt。

上述交互過程會產生一個包含狀態、動作和收益的樣本(st-1,a,st,rt)，并將其存入經驗回放池。其中，狀態st采用t時刻阻尼器作用點位置的瞬時位移、速度、加速度值。a為離散動作空間內的電壓值，取MR阻尼器最大控制電壓10 V，電壓離散點間隔為0.5 V。為降低測量要求，并盡量捕捉拉索振動狀態，算法分別取L/4、L/2、3L/4位置的瞬時位移、速度值計算單步收益rt，且均方值越小，回報越大，因此回報函數可以設置為

(16)

式中，k1和k2分別為權重系數，可根據控制目標設定。

當經驗回放池達到一定規模時，算法將隨機采取定量樣本訓練內部Dueling DQN網絡，樣本數量根據參數分析結果確定。利用網絡輸出結果計算時序差分值δt，以梯度下降法更新神經網絡權重等參數，最終使智能體達到最佳決策狀態。此外，控制框架將智能體輸出決策和訓練神經網絡設置為異步程序，從而滿足實時計算效率要求。

圖2 深度強化學習振動控制框架

3 算例與結果分析

3.1 仿真對象參數

本算例選取岳陽洞庭湖大橋A11斜拉索作為仿真對象[22]，如圖3所示。拉索主要參數為：索長114.72 m，設計索力為3 095 kN，單位長度質量為51.8 kg/m，拉索直徑為119 mm，斜拉索傾角為37°，由理論計算得到的前三階模態頻率分別為為1.06 Hz、2.13 Hz、3.20 Hz。仿真時阻尼器安裝位置距拉索下錨固端距離為斜拉索長度的2%。

圖3 洞庭湖橋A11斜拉索及3號節點位置

3.2 風荷載模擬

本算例采用拉索的風致振動響應來驗證控制算法的有效性。風荷載可以表示為平均風壓和脈動風壓之和，在振動控制研究中僅考慮脈動風壓的作用，一般將脈動風假設為平穩高斯隨機過程，并可通過線性濾波法或諧波合成法進行模擬。本文將采用諧波合成法進行風荷載的模擬，取Davenport譜作為脈動風功率目標譜，取地面粗糙度指數為0.1，取橋面距地面高度為52 m，所在場地20 m高度處的標準設計風速V20為28 m/s，截止頻率為10π，卡門常數為0.4，地面粗糙長度為0.03，頻率點數取4 096個。沿A11斜拉索從下至上選取均勻分布的40個節點并進行編號，如圖3所示。通過模擬計算可得到每個節點的瞬時風速時程曲線，其中3號節點的瞬時風速時程曲線如圖4所示。圖5給出了3號節點脈動風模擬功率譜和目標功率譜，結果說明兩者能量分布吻合性較好，驗證了風速時程模擬的精度。

圖4 3號節點瞬時風速時程

圖5 3號節點風速功率譜與目標功率譜

基于模擬的風速，作用于拉索的風荷載可由下式計算[23]

(17)

式中：ρ為空氣密度(取1.23 kg/m3)；v(z,t)為節點瞬時風速；CH為風阻系數(取0.7)；D為拉索等效直徑；θ為拉索傾斜角。

3.3 阻尼器參數模型

α(u)=αa+αbu

c0(u)=c0a+c0b

c1(u)=c1a+c1bu

(18)

式中：z,y為內變量；k1為蓄能器剛度；c0為高速率時的黏滯阻尼系數；c1為低速率時的黏滯阻尼系數；k0為高速率時的等效剛度；x0為蓄能器的初始位移；α,β,γ,A為描述阻尼力-速度曲線中線性段和屈服漸變段的關鍵參數。

取已在洞庭湖拉索減振研究中應用的RD-1005型阻尼器作為作動器，并采用Liao等[25]對該阻尼器現象模型參數的辨識結果進行數值模擬，參數如表1所示。

表1 RD-1005型MR阻尼器現象模型參數

3.4 仿真結果分析

本算例采用Newmark-β算法對拉索的風致振動響應進行求解，取關鍵計算參數α=0.5，β=0.25，以保證算法的收斂性。取動力仿真時長為160 s，其中拉索風致振動時長為100 s，自由振動時長為60 s。仿真步長Δt=0.02 s，在每個仿真步長內設定最大迭代子步數為30，并設定精度限值，當達到最大迭代步數或滿足精度要求時則退出循環。考慮前10階振動模態，利用Galerkin法計算拉索風致動力響應，為使振動控制效果更突出，對風荷載予以一定程度放大。

以無控制下的拉索振動響應為參考進行標準化處理，表2對比了全仿真時長160 s內拉索在四種控制策略下的位移、速度、加速度響應的均方根和最大值。結果表明，在隨機風荷載作用下，VD多模態控制、Bang-Bang控制、深度強化學習控制策略均能實現有效減振。與無控制工況對比，深度強化學習控制下的位移、速度、加速度響應的最大值分別降低了4.79%，37.3%，52.8%，均方根分別降低了46.9%，62.4%，69.7%。與VD多模態控制相比，深度強化學習控制下的位移、速度響應的最大值分別降低了1.08%，2.52%，加速度響應最大值則略差于被動控制，三種響應的均方根分別降低了9.68%，11.09%，3.41%。與Bang-Bang經典控制相比，深度強化學習控制在位移、速度和加速度響應的最大值分別降低了3.15%，3.52%，26.7%，均方根分別降低了4.29%，5.62%，8.56%。綜合以上分析結果可以得出，深度強化學習控制策略的減振效果總體優于VD多模態控制和Bang-Bang控制。且相較于加速度響應，該控制策略在速度和位移響應上的減振優勢更顯著，這與獎勵函數的特性有關。智能體為取得最大收益，更傾向于使拉索維持在位移、速度均方根值小的低能量狀態，而主動調節阻尼器電壓會提高局部加速度響應，這也解釋了深度強化學習控制下的拉索加速度幅值略高于最優被動控制的現象。

表2 不同控制策略下拉索的標準化振動響應對比

取拉索跨中位置在80～120 s的振動響應對不同算法控制效果進行可視化分析，如圖6所示。結果表明，基于深度強化學習的半主動控制策略要優于VD多模態控制和Bang-Bang控制。其中位移和速度響應的優化效果較為明顯，加速度響應的穩定性略差于最優被動控制，與前述分析結果一致。

圖7為全仿真時長內拉索全長的振動響應輪廓線。結果表明，深度強化學習控制算法對應的位移輪廓和速度輪廓要優于其余兩種控制策略，而加速度輪廓略差于VD多模態控制策略，優于Bang-Bang控制策略。由加速度響應輪廓可以看到Bang-Bang控制策略在阻尼器位置的加速度值較為突出，這是由于其控制律較為固定，只基于阻尼器活塞的相對速度和相對位移，沒有對拉索狀態的適應性調節，且容易受到測量誤差的影響，因此容易造成局部區域的穩定性較差，而深度強化學習算法的控制效果更為穩定。

(a) 位移響應時程曲線對比

(a) 位移響應輪廓對比

4 結論

本文提出了一種基于深度強化學習算法的拉索半主動自適應控制策略，利用優化后的DQN控制算法實現了對拉索振動的無模型控制。對比分析了VD多模態控制、MR阻尼器Bang-Bang控制、深度強化學習控制策略下的拉索風振控制效果，研究結論如下：

(1) 深度強化學習控制算法可實現對拉索風致振動的有效控制，且控制效果總體優于VD多模態控制和Bang-Bang控制，為拉索振動半主動控制提供了新的解決思路。

(2) 深度強化學習控制算法具有自適應特性，僅在特定位置點設置觀測器即可實現拉索振動的在線控制，無需建立全狀態反饋。此外，該算法能夠實現從拉索振動狀態到最優控制電壓的直接決策，無需建立MR阻尼器逆模型進行控制力到電壓的二次轉換，從而控制策略更易實施。