999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

定模動輥機電系統動力學智能優化方法

2022-11-30 10:09:44王鵬遠
機床與液壓 2022年22期
關鍵詞:動作優化策略

王鵬遠

(北方工業大學機械與材料工程學院,北京 100144)

0 前言

將高強鋼板材通過漸進成型方式制成變截面構件,在輕量化工程應用中具有現實意義[1]。北方工業大學研制的定模動輥成型裝備,將具有特定輪廓的軋輥順序組合,對金屬板材進行沿模具型面漸進成型,從而得到變化的橫截面形狀,是一種節能高效的變截面輥彎成型設備,如圖1所示[2]。在金屬成型過程中,運動加速度對材料的成型質量以及成型過程有著較大影響,所以減小加速度峰值,增加運動的平穩性是需要研究的裝備性能優化問題。文中以加速度為目標函數,開展定模動輥成型機的動力學優化。

圖1 定模動輥成型機三維模型

定模動輥成型裝備機電系統動力學優化涉及裝備伺服電機、傳動裝置、輥模機構與成型板材復雜系統,構成復雜,影響因素多,屬于高耦合、多極值、多優化變量的優化問題。傳統的優化方法如牛頓法等,適合凸函數優化,無法在多極值的優化問題中取得良好效果[3]。粒子群算法是源于對鳥群的研究提出的一種群體智能優化方法,具有并行性、魯棒性、記憶性等優點而在優化領域有著廣泛應用[4]。

近些年來,人工智能的興起提供了一種新的優化思路。目前比較火熱的自動駕駛,機器人自動學習,以及以AlphaZero為代表的棋類智能軟件,都應用到深度強化學習[5]。深度強化學習是一種自動學習最優策略的機器學習方法,它采用概率模型或者策略函數輸出動作與環境交互,用動作值函數計算該動作的值,通過不斷與環境交互找到動作值最大的最優動作[6]。與粒子群迭代尋優方法相比,深度強化學習方法輸出的動作之間關聯性較小,能夠更充分地探索環境,找到更優動作。

深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法是應用于連續動作空間的深度強化學習算法,在連續動作空間中有著良好表現[7]。LIANG等[8]利用DDPG算法對電力市場進行建模,分析電力市場均衡問題;RODRIGUEZ-RAMOS等[9]將DDPG算法應用到無人機著陸。機電系統動力學優化屬于高位連續動作空間問題,本文作者采用DDPG算法對定模動輥彎機電系統進行動力學優化。

1 動力學優化的強化學習模型

1.1 強化學習

強化學習是解決動作與環境交互生成的馬爾可夫決策過程(Markov Decision Process,MDP)問題的一類算法,其基本結構如圖2所示[6]。

圖2 強化學習框架

強化學習首先包括2個基本的交互對象:智能體(Agent)與環境(Environment)。Agent能夠感知環境的狀態來選擇動作,并根據環境反饋的獎勵來調整策略實現決策與學習的功能;環境能夠接收Agent選擇的動作并改變其狀態,并反饋給Agent對應的獎勵。

Agent與環境交互學習的動態過程就是一個MDP。MDP包括以下幾個要素:

(1)狀態空間S={s0,s1,…,si},表示環境所有狀態信息的集合。

(2)動作空間A={a0,a1,…,ai},表示Agent所有動作的集合。

(4)獎勵函數R(st,at)用來描述Agent選擇動作的獎勵,獎勵函數的設置與要實現的目標一致。

策略π(s)是Agent根據狀態s選擇動作a的依據。策略分為確定性策略(Deterministic Policy)與隨機性策略(Stochastic Policy)2種。確定性策略是指對于一個狀態,策略只會輸出一個動作,即每一個狀態s都對應唯一的一個確定動作a;隨機性策略則是指對于一個環境狀態s,Agent可以選擇多個動作,每個動作對應一個概率,這些動作的概率相加之和等于1:

(1)

強化學習的目標是找到一個最優的動作,使得Agent在狀態s下得到的累積期望獎勵最大;因此強化學習的目標轉換為Agent學習到一個最優的策略,使得Agent由該策略得到的動作、累積期望獎勵最大。

設Agent基于策略π與環境交互得到的一條軌跡為

τ={s0,a0,r1,s1,a1,r2,…,st-1,at-1,rt,st,…}

則這條軌跡的累積期望獎勵定義為

(2)

其中:0<γ<1表示折扣系數。

為了定量描述策略π反饋的累積期望獎勵的大小,定義2個價值函數:狀態值函數與狀態-動作值函數。狀態值函數Vπ(s)表示Agent在狀態s下采用策略π得到的累積期望獎勵。其定義如下:

γVπ(s′)]

(3)

其中:s為當前時刻狀態;a為在s下Agent遵循策略π得到的動作;s′為s下一時刻的狀態。

式(3)也叫作狀態值函數的貝爾曼方程。通過狀態值函數的貝爾曼方程,當前狀態的值函數可以通過下一時刻狀態的值函數計算。

動作-狀態值函數Qπ(s,a)也叫Q函數或動作值函數,表示在狀態s下,Agent遵循策略π,依據動作概率選擇動作a得到的累積期望獎勵。Qπ(s,a)的定義如下:

(4)

將公式(3)與公式(4)對比可得:Vπ(s)就是在狀態s、Agent遵循策略π下,對所有動作Qπ(s,a)的期望。所以Vπ(s)與Qπ(s,a)二者之間的關系為

(5)

將公式(5)代入公式(4)得到Qπ(s,a)的貝爾曼方程:

(6)

其中:a′為Agent在s′下遵循策略π選擇的動作。

1.2 定模動輥成型裝備機電系統動力學的強化學習模型

基于能量守恒定律得到五道次定模動輥彎成型機的動力學模型[10]:

j=1,2,…,11

(7)

在成型過程中,五道次定模動輥成型裝備X向運動大機架運動的平穩性與材料的最終成型質量直接相關。因而,選擇大機架的加速度為優化對象,減小加速度的峰值降低速度的波動程度,提高運動的平穩性。所以,優化目標函數為

(8)

選定定模動輥成型裝備機電系統參數作為設計變量[11],其取值范圍如表1所示。

表1 設計變量及其取值范圍

定模動輥成型裝備機電系統動力學的強化學習模型定義如下:

(1)環境L。將定模動輥成型裝備的動力學方程定義為強化學習的環境。

(2)動作空間A。將8個優化變量定義為動作a。

(3)狀態空間F。將動作a代入到環境L中,通過龍格-庫塔法求解動力學方程得到加速度峰值f=L(a),加速度峰值f定義為狀態。

(4)獎勵函數τ。優化目標是降低加速度峰值,因此,加速度峰值減小越多則獎勵應該越大。所以,獎勵函數定義為:τi=f0-fi,f0表示定模動輥成型裝備未優化時狀態,fi表示任意一組動作對應的狀態。

2 優化算法——深度確定性策略梯度算法

2.1 基于標準MDP的深度確定性策略梯度算法

在強化學習算法族中,深度確定性策略梯度(DDPG)算法是深度神經網絡在強化學習算法中的一個成功應用,它在連續高維動作空間問題有著良好表現[7]。DDPG算法是一個基于確定性策略梯度的無模型、演員-評論家算法。演員-評論家算法包含一個策略函數和一個動作值函數:策略函數作為一個演員,生成動作并與環境交互;動作值函數作為一個評論家,對演員的表現進行評價并指導演員的后續動作。

DDPG算法采用2個深度神經網絡T(f,a|θT),μ(fθμ)分別近似動作值函數Tμθ(f,a)、策略函數μθ。其中,θT、θμ分別表示T(f,a|θT)、μ(f|θμ)的參數。

定義T(f,a|θT)損失函數為

(9)

其中:yi=ri+γTμθ[si+1,μθ(si+1)],γ表示折扣。所以,為了最小化損失函數L(θT),利用梯度下降法更新T(f,a|θT)的參數θT[12]:

θT←θT-λ?θTL

其中:λ為學習率。

T(f,a|θT)關于θμ的梯度為

(10)

SILVER等[13]證明公式(10)為確定性策略梯度。μ(f|θμ)的目標是最大化T(f,a|θT),因此參數θμ按照梯度上升法更新:

θμ←θμ-λ?θμJ

(11)

2.2 神經網絡設置

文中采用前饋全連接神經網絡表示μ(f|θμ)與T(f,a|θT)。由第1.2節可得,策略函數的輸入為狀態f,輸出為動作a。因此,策略網絡μ(f|θμ)的輸入層為1個神經元,輸出層為8個神經元。隱藏層采用兩層,神經元分別為400、300。所以,μ(f|θμ)第二層的輸入為

K2=ω1,2z2

(12)

第二層輸出為

P2=g(K2)

(13)

μ(f|θμ)第三層輸入為

K3=ω2,3P2+z3

(14)

第三層輸出為

P3=g(K3)

(15)

μ(f|θμ)輸出層的輸入為

K4=ω3,4P3

(16)

輸出層的輸出為

y=l(K4)

(17)

動作值函數計算環境在狀態f與動作a下得到的期望累積獎勵,因而動作值函數的輸入為f與a,輸出為動作值Tμθ(f,a)。所以,動作值網絡T(f,a|θT)的輸入層為9個神經元,輸出層為1個神經元,隱藏層同樣采用兩層,神經元分別是400、300。輸出層沒有激活函數,直接輸出神經網絡計算出的動作值。

2.3 激活函數

在上面神經網絡各層之間,g( )與l( )分別為神經網絡層的激活函數。神經網絡中每層神經元的輸入可以表示為:H=ωTx+b。激活函數在神經網絡中目的是引入非線性因素,提高神經網絡的非線性逼近能力。因此每個神經元的輸出為u=f(z),f( )表示激活函數。

T(f,a|θT)與μ(f|θμ)的隱藏層采用ReLU函數作為激活函數,因此:

g(x)=ReLU(x)=max(0,x)

(18)

神經網絡在反向梯度傳遞時,很容易發生梯度消失,相比較于其他激活函數,ReLU函數計算速度快,解決了梯度消失問題,因此采用ReLU函數作為中間層的激活函數。

T(f,a|θT)輸出層不采用激活函數,直接輸出動作值網絡的計算結果;μ(f|θμ)的輸出層則采用tanh函數:

(19)

tanh函數將神經元的輸出限定在[-1,1]之間,因此策略網絡輸出的動作值在[-1,1],所以采用區間變換,將動作值從[-1,1]轉換到原區間。

設動作a=[a1,…,a8]第i個優化變量ai的原取值范圍為[m,n],因此區間變換公式為

(20)

2.4 神經網絡學習樣本

(21)

2.5 神經網絡學習

MNIH等[15]最先證明,采用經驗緩存和目標神經網絡凍結可以提高神經網絡訓練的效率以及魯棒性。經驗緩存指建立一個經驗池D將wi={fi,ai,τi,fi+1}作為一組數據存儲到D內,D={w1,w2,…,wR}。當D存滿數據時,采用隨機抓取的方法在D內抓取數據訓練神經網絡,隨后Agent繼續與環境交互生成新的數據存入經驗池D內覆蓋舊數據。

設神經網絡每次訓練從經驗池D抓取N個wi。由T(f,a|θT)的損失函數可得,yi為目標動作值。因此建立目標策略網絡μ′(f|θμ)與目標動作值網絡T′(f,a|θT′)計算yi。所以,第i個目標動作值:

(22)

(23)

策略網絡的更新為

(24)

2.6 目標神經網絡參數更新

目標神經網絡的作用是計算目標動作值,如果目標動作值與實際動作值采用一個神經網絡計算,則當神經網絡參數更新時,目標動作值也會發生改變導致神經網絡最終無法收斂。因此建立目標神經網絡μ′(f|θμ′)與T′(f,a|θT′),μ′(f|θμ′)與T′(f,a|θT′)參數θμ′、θT′會在一定的時間內保持不變,當主網絡更新一定的次數后,目標網絡的參數會采用軟更新的方法,如公式(25)所示,ξ為軟更新系數。

(25)

所以,基于MDP的DDPG算法進行定模動輥機電系統動力學優化的流程為:

第一步:初始化神經網絡參數θμ、θT、θμ′=θμ,θT′=θT。

第二步:初始化經驗池D大小R。

第三步:For episode=1 toP:

第四步:初始化動作噪聲ψ。

第五步:Fort=1 toK:

第六步:μ(s|θμ)基于狀態fi輸出動作ai,將μ(f)=ai+ψ代入到動力學方程,采用龍格-庫塔法求解動力學方程得到狀態fi+1,用獎勵函數τ(f,a)計算τi。

第七步:將wi儲存到經驗池D。

第八步:if 經驗池=TRUE:

更新Q(s,a|θT):

θT←θT-λ?θTL

更新μ(s|θμ):

θμ←θμ+λ?θμJ

更新μ′(s|θμ′)Q′(s,a|θQ′):

θμ′←ξθμ-(1-ξ)θμ′

θT′←ξθT-(1-ξ)θT′

End if

End for

End for

3 優化結果分析

3.1 算法參數設置

文中采用前饋全連接神經網絡。上述優化過程中,神經網絡的節點、層數、權重等參數如表2所示,其中N(0,0.1)表示高斯分布。DDPG算法其余參數設置如表3所示。

表2 神經網絡參數設置

表3 DDPG算法參數設置

3.2 優化過程分析

基于DDPG算法得到的T(f,a|θT)與μ(f|θμ)的訓練過程,以及每輪次總獎勵值變化如圖3、圖4、圖5所示。

圖3 μ(f|θμ)訓練過程 圖4 T(f,a|θT)訓練過程

圖5 每輪次獎勵值

由圖3可得:隨著Agent不斷學習,算法找到的策略的動作值也在不斷上升。在0~5 000次,動作值從-10上升到0,在5 000~40 000次動作值從1上升到6左右。圖4中動作值網絡的損失值在0~5 000次下降得非常迅速,在5 000次后逐漸收斂到0。圖5顯示的是每輪次的獎勵值之和,由圖5可得:在0~25輪次中,獎勵值的變化幅度最大,在25輪次之后,獎勵值基本穩定在150左右,表明算法已經收斂。

3.3 優化結果分析

DDPG算法優化前后的8個變量取值如表4所示。

表4 設計變量優化結果

優化前后得到的加速度圖像對比如圖6所示。

圖6 優化結果對比

由圖6可得:優化后的加速度曲線整體比優化前減小,在0~2 s內的加速度峰值由0.062 9 m/s2降低到0.055 2 m/s2。這表明基于強化學習方法的動力學優化有著顯著的優化效果。

4 結論

文中基于強化學習“試錯”學習最優策略的思想,采用DDPG算法對五道次定模動輥彎機電系統進行動力學優化,研究可得:

(1)深度強化學習方法在多參數、多極值、多優化變量的優化問題中有著良好表現,能夠應用于機電系統動力學優化工程問題。

(2)通過采用深度強化學習方法優化輥彎成型設備,提高了設備的運行性能,為工業大批量生產提供了理論依據。

(3)以定模動輥彎成型機為對象,驗證深度強化學習在機電系統動力學優化的應用效果,建立了機電系統動力學優化的一般馬爾科夫決策模型,為機電系統動力學優化提供新的優化思路與方法。

猜你喜歡
動作優化策略
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
例談未知角三角函數值的求解策略
我說你做講策略
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
動作描寫不可少
主站蜘蛛池模板: 亚洲精品成人片在线播放| 亚洲精品第五页| 亚洲人成高清| 欧美日本在线观看| JIZZ亚洲国产| 成人字幕网视频在线观看| 亚洲成人在线免费| 四虎永久在线精品国产免费| 国产丝袜无码一区二区视频| 久久美女精品国产精品亚洲| 久久公开视频| 亚洲欧洲日本在线| 蜜臀AV在线播放| 好吊色妇女免费视频免费| 67194成是人免费无码| 国产区成人精品视频| 久久精品人人做人人| 国产精品.com| 国产二级毛片| 国产在线八区| 欧美中文字幕一区二区三区| 人妻中文字幕无码久久一区| 免费又黄又爽又猛大片午夜| 国产一区二区三区免费观看| 色屁屁一区二区三区视频国产| 久久www视频| 色婷婷在线影院| 秘书高跟黑色丝袜国产91在线| 日韩精品专区免费无码aⅴ| 国产精品极品美女自在线网站| 久久久精品国产SM调教网站| 欧美精品高清| 成人一区专区在线观看| 亚洲人成色在线观看| 国产欧美日韩在线在线不卡视频| 欧美日韩第二页| 国产综合亚洲欧洲区精品无码| 白浆视频在线观看| 亚洲精品无码抽插日韩| 国产精品亚洲专区一区| 在线欧美一区| 国产国产人在线成免费视频狼人色| 99国产精品免费观看视频| 午夜精品久久久久久久无码软件| 天堂在线www网亚洲| 色偷偷综合网| 97se亚洲综合在线| 亚洲精选高清无码| 国产凹凸一区在线观看视频| 99这里只有精品免费视频| 2021精品国产自在现线看| 亚洲国产亚洲综合在线尤物| 日韩福利在线观看| 亚洲成人一区二区三区| 国产美女精品一区二区| 久久久受www免费人成| 试看120秒男女啪啪免费| h网址在线观看| 免费看一级毛片波多结衣| 亚洲第一天堂无码专区| 精品久久蜜桃| 久久精品无码一区二区日韩免费| 欧美a√在线| 国产成人精品18| 日韩中文无码av超清| 香蕉久久国产精品免| 伊人色婷婷| 精品一区二区三区波多野结衣| 久久久久人妻精品一区三寸蜜桃| 精品国产亚洲人成在线| 99久久婷婷国产综合精| 农村乱人伦一区二区| 亚洲国产精品一区二区第一页免| 国产微拍一区二区三区四区| 欧美精品二区| 谁有在线观看日韩亚洲最新视频| 无码中文字幕乱码免费2| 四虎国产精品永久一区| 欧美亚洲欧美| 成色7777精品在线| 热99re99首页精品亚洲五月天| 97无码免费人妻超级碰碰碰|