999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)RMSProp-PPO算法的鋁電解參數(shù)尋優(yōu)模型

2021-06-22 03:32:18張曉李晉宏
電子元器件與信息技術(shù) 2021年3期
關(guān)鍵詞:動(dòng)作策略

張曉,李晉宏

(北方工業(yè)大學(xué) 信息學(xué)院,北京 100144)

0 引言

近些年來(lái),深度學(xué)習(xí)(Deep Learning,DL)和強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)作為機(jī)器學(xué)習(xí)內(nèi)的兩大研究熱點(diǎn)[1],已經(jīng)在圖像分析、語(yǔ)音識(shí)別、自然語(yǔ)言處理、視頻分類(lèi)等領(lǐng)域取得了令人矚目的成功[2].由此,谷歌的人工智能研究團(tuán)隊(duì)DeepMind創(chuàng)造性的將DL與RL結(jié)合,形成了人工智能新的研究領(lǐng)域,即深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)。

由于深度強(qiáng)化學(xué)習(xí)在連續(xù)動(dòng)作場(chǎng)景中取得了良好的效果,如2016年AlphaGo擊敗了世界頂級(jí)圍棋選手李世石,此后Facebook在DOTA2中擊敗頂級(jí)選手,CMU團(tuán)隊(duì)研發(fā)的德州撲克AI冷撲大師輕松擊敗頂級(jí)玩家,人們開(kāi)始探索深度強(qiáng)化學(xué)習(xí)在工程領(lǐng)域的應(yīng)用,谷歌利用DRL算法來(lái)優(yōu)化數(shù)據(jù)中心服務(wù)器群的參數(shù)設(shè)置,并節(jié)省了40%的電力能源;黃旭等人利用DDQN進(jìn)行、火箭姿態(tài)控制器中的參數(shù)調(diào)整,并進(jìn)行了智能體的前向測(cè)試,結(jié)果顯示使用訓(xùn)練出來(lái)的智能體代替人工設(shè)計(jì)姿態(tài)控制器參數(shù)的思路具有一定的研究?jī)r(jià)值和潛力[3];劉威等人提出一種基于深度強(qiáng)化學(xué)習(xí)的電網(wǎng)切機(jī)控制策略,所提控制策略依據(jù)電網(wǎng)運(yùn)行環(huán)境信息,通過(guò)數(shù)據(jù)分析得到切機(jī)控制策略,最后通過(guò)IEEE 39節(jié)點(diǎn)仿真數(shù)據(jù)驗(yàn)證方法正確性[4]等,可以看出深度強(qiáng)化學(xué)習(xí)在工程領(lǐng)域的前景十分廣泛。

鋁電解工藝采用冰晶石-氧化鋁熔融電解法。該方法利用熔融冰晶石做溶劑,氧化鋁做溶質(zhì),接通大的直流電,在950℃~970℃的條件下,進(jìn)行化學(xué)反應(yīng),產(chǎn)出鋁液[5]。針對(duì)整個(gè)電解過(guò)程,可以人為的控制一些參數(shù)對(duì)電解過(guò)程進(jìn)行調(diào)整,以此來(lái)控制最終的出鋁量,但是由于鋁電解參數(shù)的整體關(guān)聯(lián)性目前研究較少,每個(gè)參數(shù)調(diào)節(jié)標(biāo)準(zhǔn)難以衡量,時(shí)序性的影響不易被發(fā)掘,考慮到深度強(qiáng)化學(xué)習(xí)在連續(xù)控制中的優(yōu)秀表現(xiàn),和鋁電解過(guò)程本身具有大時(shí)空性,本文選用在該方面表現(xiàn)較好的PPO算法,該算法是一種新的強(qiáng)化學(xué)習(xí)方法,方法基于AC算法,將策略模擬成神經(jīng)網(wǎng)絡(luò),訓(xùn)練的過(guò)程就是對(duì)神經(jīng)網(wǎng)絡(luò)梯度求解參數(shù)的過(guò)程,使用隨機(jī)梯度下降進(jìn)行參數(shù)更新,該方法具有更新效率低,參數(shù)擺動(dòng)幅度大的缺點(diǎn),本文使用在更新效率和參數(shù)擺動(dòng)幅度上表現(xiàn)較好的RMSProp(Root Mean Square Prop)算法[6],并進(jìn)行部分改進(jìn),將動(dòng)量思想引入該算法,使用鋁電解歷史數(shù)據(jù)訓(xùn)練模型,并應(yīng)用到實(shí)踐中,實(shí)驗(yàn)結(jié)果表明:對(duì)比原始PPO算法,改進(jìn)的RMSProp-PPO算法具有更快的收斂性,訓(xùn)練結(jié)果相對(duì)準(zhǔn)確,具有一定的參考價(jià)值和經(jīng)濟(jì)效益。

1 預(yù)備知識(shí)

1.1 馬爾科夫決策過(guò)程

強(qiáng)化學(xué)習(xí)的目標(biāo)是給定一個(gè)馬爾科夫決策過(guò)程,尋找一個(gè)狀態(tài)到動(dòng)作的映射,即最優(yōu)策略,如公式(1)所示:

策略π的含義是在每個(gè)狀態(tài)s指定一個(gè)動(dòng)作a發(fā)生的概率,強(qiáng)化學(xué)習(xí)中一般通過(guò)兩種方式評(píng)價(jià)策略的好壞,具體可分為狀態(tài)值函數(shù)和動(dòng)作值函數(shù),狀態(tài)值函數(shù)定義如公式(2)所示,狀態(tài)動(dòng)作值函數(shù)定義如公式(3)所示[8]:

其中在實(shí)際編程中狀態(tài)動(dòng)作值的Bellman方程如公式(4)所示:

1.2 策略梯度算法

策略梯度方法的目標(biāo)是找到一組最佳的參數(shù)θ*用來(lái)表示策略函數(shù),使得累計(jì)獎(jiǎng)勵(lì)的期望最大,如公式(5)所示:

對(duì)公式(6)求梯度可得策略梯度如公式(7):

根據(jù)梯度上升對(duì)參數(shù)θ進(jìn)行下一步更新,如公式(8):

基于原始的PG算法,考慮到實(shí)際應(yīng)用中出現(xiàn)的問(wèn)題,人們對(duì)PG算法做了幾個(gè)改進(jìn):

(1)增加獎(jiǎng)勵(lì)基線,使用平均獎(jiǎng)賞作為獎(jiǎng)勵(lì)基線,避免因?yàn)槲催x擇到好動(dòng)作而把差的動(dòng)作出現(xiàn)的概率增大的現(xiàn)象。(2)增加折扣因子,原因是未來(lái)等價(jià)的價(jià)值小于當(dāng)前的價(jià)值。(3)使用優(yōu)勢(shì)函數(shù),將一個(gè)時(shí)間步內(nèi)的累計(jì)獎(jiǎng)勵(lì)關(guān)聯(lián)到狀態(tài)值函數(shù),使得獎(jiǎng)勵(lì)更加合理。

1.3 近端策略優(yōu)化算法

PG算法最大的缺陷在于網(wǎng)絡(luò)參數(shù)更新慢,因?yàn)槊看蔚膮?shù)更新都需要重新采樣,會(huì)花費(fèi)大量的時(shí)間。為此,OpenAI于2017年發(fā)布了一類(lèi)新的強(qiáng)化學(xué)習(xí)算法-近端策略優(yōu)化(Proximal Policy Optimization,PPO)[10],該算法引入重要性采樣的概念,使得采樣數(shù)據(jù)可以重復(fù)被利用,同時(shí)引入KL散度作為目標(biāo)函數(shù)的懲罰項(xiàng),相對(duì)于TRPO利用KL散度直接約束目標(biāo)函數(shù)來(lái)說(shuō)更加容易求解。

在PG算法中,我們使用πθ與環(huán)境交互,當(dāng)θ被更新時(shí),需要對(duì)訓(xùn)練數(shù)據(jù)重新采樣,由于PG算法屬于modelfree,模型的概率不可得到,只能通過(guò)與真實(shí)環(huán)境的數(shù)據(jù)分布P(x)中去采樣加和平均求期望,為了使得采樣數(shù)據(jù)可以被重復(fù)使用,PPO算法中使用離線策略技巧[11],利用πθ'進(jìn)行采樣,得到樣本訓(xùn)練θ,θ'是固定的,采樣的樣本可以被重復(fù)使用,從而避免反復(fù)采樣,但是嚴(yán)格意義上PPO算法屬于在線策略。

在PPO算法中,優(yōu)化目標(biāo)函數(shù)梯度如公式(9)所示:

PPO中網(wǎng)絡(luò)參數(shù)的更新與PG算法相同,使用隨機(jī)梯度上升進(jìn)行更新,其中新舊策略的KL散度滿足約束,為一個(gè)常數(shù),公式如公式(11):

實(shí)際研究應(yīng)用中研究人員發(fā)現(xiàn),使用截?cái)囗?xiàng)代替KL散度具有更好的效果,將新舊策略的比值記為:

新的目標(biāo)函數(shù)變?yōu)椋?/p>

其中ε為截?cái)喑?shù),在原論文中取值為0.2,clip函數(shù)為截?cái)嗪瘮?shù),將r(θ)限制在1-ε和1+ε的區(qū)間內(nèi),避免策略突變,增強(qiáng)了PPO算法的訓(xùn)練效果[12]。

2 改進(jìn)RMSProp-PPO的鋁電解參數(shù)模型

本文將改進(jìn)的RMSProp-PPO算法應(yīng)用于鋁電解過(guò)程中,目標(biāo)是:智能體在規(guī)定的步長(zhǎng)內(nèi),找到最終出鋁量最高的執(zhí)行動(dòng)作序列,我們將序列輸出,基于原始輸入狀態(tài)進(jìn)行迭代,可得最終狀態(tài)的狀態(tài),即一組參數(shù)值。

訓(xùn)練過(guò)程如下圖所示:

圖1 智能體訓(xùn)練過(guò)程示意圖

首先依據(jù)鋁電解環(huán)境設(shè)計(jì)了環(huán)境狀態(tài)和動(dòng)作狀態(tài),智能體通過(guò)與環(huán)境狀態(tài)交互獲得數(shù)據(jù),然后將數(shù)據(jù)結(jié)合設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)輸入到神經(jīng)網(wǎng)絡(luò)中訓(xùn)練,根據(jù)策略選擇動(dòng)作,轉(zhuǎn)移到下一個(gè)狀態(tài),重復(fù)以上步驟,不斷迭代,直到訓(xùn)練完成為止。

原始的PPO算法是對(duì)PG算法的改進(jìn),在PG算法中使用隨機(jī)梯度上升對(duì)參數(shù)進(jìn)行更新,隨機(jī)梯度上升存在效率低,訓(xùn)練過(guò)早結(jié)束的缺陷,導(dǎo)致最終算法收斂速度變慢并且結(jié)果不準(zhǔn)確,本文使用了對(duì)隨機(jī)梯度上升進(jìn)行了改進(jìn)的RMSProp算法。

RMSProp算法全稱(chēng)Root Mean Square Prop算法,它與AdaGrad最大的不同在于RMSProp利用衰減系數(shù)控制迭代,將梯度累計(jì)量改為指數(shù)衰減的移動(dòng)量,逐漸放棄歷史梯度,這樣做最大的好處是可以控制模型訓(xùn)練的時(shí)間,從而解決深度強(qiáng)化學(xué)習(xí)過(guò)程中模型過(guò)早訓(xùn)練結(jié)束的問(wèn)題,具體參數(shù)包括:初始值θ,學(xué)習(xí)率η,累計(jì)梯度值r(初始為0),梯度g,衰減系數(shù)ρ和穩(wěn)定系數(shù)δ,每步的迭代過(guò)程如下:

(1)收集若干次訓(xùn)練樣本,每批中樣本分別為{x1,x2,x3,x4,...,xn},相對(duì)應(yīng)的輸出為yi。

(2)從中隨機(jī)抽取一組訓(xùn)練樣本,計(jì)算梯度:

(3)計(jì)算累計(jì)平方梯度(與AdaGrad算法不同的地方):

(4)使用計(jì)算的參數(shù)更新,更新參數(shù):

為了使得梯度在期望的方向上上升的更加理想,本文借鑒動(dòng)量梯度上升算法的思想,在計(jì)算參數(shù)更新時(shí),我們加入初始動(dòng)量v和動(dòng)量衰減系數(shù)α,更新公式如下:

2.1 狀態(tài)空間和動(dòng)作空間

同時(shí)為了使得PPO算法更加適用于鋁電解的參數(shù)尋優(yōu),本文自定義智能體的狀態(tài)空間為歷史數(shù)據(jù)(即模仿電解槽生產(chǎn)狀態(tài)從而判定出鋁量),這樣做的主要目的是由于鋁電解生產(chǎn)參數(shù)的性質(zhì)為高維、連續(xù)、不可預(yù)測(cè),模仿歷史數(shù)據(jù)將使得訓(xùn)練環(huán)境更加接近真實(shí)的鋁電解生產(chǎn)狀況,定義如下:

本文采用離散矢量動(dòng)作空間定義了兩個(gè)基準(zhǔn)動(dòng)作,向上增加0.1%,和向下減少0.1%,針對(duì)時(shí)間步中的每次迭代,隨機(jī)選擇一個(gè)參數(shù)執(zhí)行基準(zhǔn)動(dòng)作,實(shí)驗(yàn)最終目標(biāo)是提高出鋁量,故參數(shù)迭代時(shí),出鋁量不參與執(zhí)行動(dòng)作,所以動(dòng)作空間一共包含18個(gè)動(dòng)作,分別為各個(gè)參數(shù)增加或者減少0.1%。

2.2 獎(jiǎng)懲函數(shù)

深度強(qiáng)化學(xué)習(xí)通過(guò)累計(jì)獎(jiǎng)勵(lì)最大化來(lái)描述實(shí)驗(yàn)?zāi)繕?biāo),智能體通過(guò)選擇合適的策略與環(huán)境產(chǎn)生互動(dòng),環(huán)境返回執(zhí)行選擇策略的結(jié)果即獎(jiǎng)賞值,每次試驗(yàn)包含數(shù)個(gè)回合,為了避免由于獎(jiǎng)勵(lì)稀疏導(dǎo)致學(xué)習(xí)效率低以及訓(xùn)練結(jié)果不準(zhǔn)確的問(wèn)題[13],本文在原始獎(jiǎng)勵(lì)的基礎(chǔ)上進(jìn)行了獎(jiǎng)勵(lì)重構(gòu),增加外部獎(jiǎng)勵(lì)機(jī)制以及好奇心驅(qū)動(dòng)來(lái)提高訓(xùn)練效率和最終性能,本文獎(jiǎng)懲值是基于平均出鋁量的百分比,計(jì)算式為:

其中相似狀態(tài)出鋁量為歷史環(huán)境中尋找到的最接近的某條數(shù)據(jù)參數(shù)中的出鋁量值。

本文設(shè)定如果本次得到的出鋁量高于平均出鋁量的3%,額外增加0.1%的獎(jiǎng)賞,反之則減少0.1%,這是由于原始數(shù)據(jù)分布中絕大多數(shù)出鋁量數(shù)據(jù)是在上下3%的區(qū)間浮動(dòng),整體獎(jiǎng)懲機(jī)制如下:

通過(guò)內(nèi)在獎(jiǎng)懲機(jī)制促進(jìn)智能體更加積極的探索環(huán)境,可以解決獎(jiǎng)勵(lì)稀疏帶來(lái)的學(xué)習(xí)效率低下的問(wèn)題[14]。

2.3 改進(jìn)RMSProp-PPO算法

原始的近端策略優(yōu)化算法是由OpenAI在2017年提出,由于其訓(xùn)練結(jié)果表現(xiàn)優(yōu)良,目前已被廣泛使用[15]。同年,Deepmind通過(guò)訓(xùn)練PPO實(shí)現(xiàn)了智能體在沒(méi)有特殊指示的情況下探索出復(fù)雜技能[16],進(jìn)一步證明PPO算法可以較好地應(yīng)用于連續(xù)控制及連續(xù)性情節(jié)的任務(wù)上。

結(jié)合改進(jìn)的RMSProp,本文算法流程圖:

圖2 改進(jìn)RMSProp-PPO算法流程圖

算法流程如下:

(1)向新演說(shuō)家網(wǎng)絡(luò)(Actor-Net)中輸入環(huán)境信息S,得到兩個(gè)參數(shù)μ,σ,通過(guò)這對(duì)參數(shù)構(gòu)建正態(tài)分布,再通過(guò)正態(tài)分布抽樣出action。將action輸入到鋁電解歷史數(shù)據(jù)中(即環(huán)境)得到相應(yīng)的獎(jiǎng)勵(lì)r和下一步的狀態(tài)S_,存儲(chǔ)該步驟的(S,a,r),重復(fù)此步驟,直至存儲(chǔ)到一定數(shù)量,此過(guò)程中新演說(shuō)家網(wǎng)絡(luò)沒(méi)有更新。

(2)將過(guò)程1中循環(huán)最后一步得到的S_輸入至評(píng)判家網(wǎng)絡(luò)(Critic-Net),得到狀態(tài)值V_并計(jì)算折扣獎(jiǎng)勵(lì)。

(3)將存儲(chǔ)的所有狀態(tài)值輸入到評(píng)判家網(wǎng)絡(luò),得到所有的狀態(tài)值V_,計(jì)算優(yōu)勢(shì)函數(shù)。

(4)根據(jù)優(yōu)勢(shì)函數(shù)計(jì)算評(píng)判家網(wǎng)絡(luò)的損失函數(shù),并根據(jù)損失函數(shù)通過(guò)RMSProp反向傳播更新評(píng)判家網(wǎng)絡(luò)。

(5)將存儲(chǔ)的所有s組合輸入新演說(shuō)家和舊演說(shuō)家網(wǎng)絡(luò)(網(wǎng)絡(luò)結(jié)構(gòu)一樣),分別得到兩個(gè)正態(tài)分布Normal1,Normal2,將存儲(chǔ)的所有Action組合為Actions分別輸入到兩個(gè)正態(tài)分布中,得到每個(gè)Actions對(duì)應(yīng)的prob1和prob2,然后用prob2除以prob1得到ratio。

(6)根據(jù)原始PPO論文中的cilp函數(shù)計(jì)算新演說(shuō)家網(wǎng)絡(luò)的損失,通過(guò)改進(jìn)的RMSProp反向傳播更新新演說(shuō)家網(wǎng)絡(luò)。

(7)循環(huán)5~6步驟,一定次數(shù)后,循環(huán)結(jié)束,用新演說(shuō)家網(wǎng)絡(luò)的權(quán)重來(lái)更新舊演說(shuō)家網(wǎng)絡(luò)。

(8)循環(huán)步驟1~7,直到達(dá)到規(guī)定的eposide。

3 實(shí)驗(yàn)

本文在戴爾工作站上進(jìn)行仿真實(shí)驗(yàn),工作站配置如下:硬件環(huán)境為 Intel?Xeon? CPU E5- 2620 v4@2.10 GHz的處理器,內(nèi)存64 GB,顯卡NVIDIA TITAN Xp,軟件環(huán)境為Pycharm,python版本3.6。

為驗(yàn)證改進(jìn)算法有效性,本文共進(jìn)行兩個(gè)仿真實(shí)驗(yàn):

(1)基于鋁電解數(shù)據(jù)的原始PPO算法。

(2)基于鋁電解數(shù)據(jù)的改進(jìn)的RMSProp-PPO算法。

本文使用的數(shù)據(jù)集為某鋁廠2018-12-12至2019-03-13,288個(gè)電解槽,共計(jì)27049條鋁電解歷史數(shù)據(jù),參數(shù)分別為Fe含量,分子比,Si含量,鋁水平,電解質(zhì)水平,電解溫度,工作電壓,設(shè)定電壓,出鋁量。

本文實(shí)驗(yàn)所用Actor與Critic網(wǎng)絡(luò)結(jié)構(gòu)相同,本文使用全連接神經(jīng)網(wǎng)絡(luò),共設(shè)計(jì)2個(gè)隱層,每個(gè)隱層神經(jīng)元為128個(gè),神經(jīng)元激活函數(shù)選用Relu激活函數(shù),在Actor網(wǎng)絡(luò)中將狀態(tài)S輸入到網(wǎng)絡(luò),通過(guò)不同的激活函數(shù)預(yù)測(cè)合適的均值和方差,確定正態(tài)分布,然后通過(guò)正態(tài)分布選擇合適的動(dòng)作,在Critic網(wǎng)絡(luò)中,根據(jù)以往數(shù)據(jù)評(píng)價(jià)Actor網(wǎng)絡(luò)執(zhí)行動(dòng)作的好壞,通過(guò)狀態(tài)值函數(shù)表示累計(jì)獎(jiǎng)勵(lì)。

本文涉及到部分超參數(shù),其中包括PPO算法部分超參數(shù)以及RMSProp部分超參數(shù),如表1所示。

表1 實(shí)驗(yàn)超參數(shù)

經(jīng)過(guò)15.8h的訓(xùn)練,智能體獎(jiǎng)賞值趨于穩(wěn)定,初始設(shè)定最大episodes為10000,Max_steps為3000,為保證訓(xùn)練效率節(jié)約時(shí)間,針對(duì)該模型,訓(xùn)練結(jié)果如圖3所示。

圖3 10000episodes訓(xùn)練結(jié)果示意圖

經(jīng)過(guò)多次訓(xùn)練發(fā)現(xiàn),實(shí)驗(yàn)結(jié)果相似,可證明3000episodes以內(nèi),訓(xùn)練結(jié)果趨于穩(wěn)定,最終設(shè)定最大episodes為3000。

對(duì)比算法訓(xùn)練結(jié)果圖4所示:

圖4 (a)原始PPO訓(xùn)練結(jié)果示意圖 (b)改進(jìn)RMSProp-PPO訓(xùn)練結(jié)果示意圖

由上圖可以看出,原始PPO算法(左圖)在1500個(gè)episodes時(shí)趨于穩(wěn)定,穩(wěn)定值累計(jì)獎(jiǎng)賞在15%左右。改進(jìn)RMSProp算法(右圖)在1000個(gè)episodes時(shí)趨于穩(wěn)定,穩(wěn)定值累計(jì)獎(jiǎng)賞在17%左右,稀疏對(duì)比圖如圖5所示。

圖5 訓(xùn)練結(jié)果對(duì)比示意圖

藍(lán)色為原始PPO算法訓(xùn)練結(jié)果,黃色為改進(jìn)RMSProp算法訓(xùn)練結(jié)果,可對(duì)比看出,改進(jìn)的PPO算法具有更快的收斂速度,且訓(xùn)練相對(duì)穩(wěn)定。

最終訓(xùn)練結(jié)果所取得的狀態(tài)值(即鋁電解參數(shù)最優(yōu)結(jié)果)為:[0.1606,2.5401,0.0515,249.7619,162.8467,932.2844,3.8704,4.0384],將該實(shí)驗(yàn)結(jié)果作為參考指標(biāo),連續(xù)一個(gè)月在某鋁廠某臺(tái)電解槽中進(jìn)行實(shí)驗(yàn)驗(yàn)證,工藝人員依據(jù)此參考指標(biāo)進(jìn)行鋁電解過(guò)程的參數(shù)調(diào)節(jié),結(jié)果表明,該槽連續(xù)一個(gè)月的出鋁量同比增長(zhǎng)10%左右,證明該實(shí)驗(yàn)方法具有一定的工藝參考價(jià)值。

本文使用新的思路來(lái)解決鋁電解參數(shù)調(diào)優(yōu)問(wèn)題,針對(duì)鋁電解參數(shù)特征,采用不同的獎(jiǎng)賞機(jī)制和狀態(tài)空間,提高了訓(xùn)練結(jié)果的準(zhǔn)確性,同時(shí)針對(duì)鋁電解參數(shù)連續(xù)性強(qiáng),狀態(tài)空間大,迭代速度慢的問(wèn)題,本文提出的改進(jìn)RMSProp算法有效提高了模型的訓(xùn)練速度,實(shí)驗(yàn)結(jié)果表明,該方法具有有效性和較高的參考價(jià)值。

4 結(jié)語(yǔ)

本文提出了一種基于改進(jìn)RMSProp的近端策略優(yōu)化算法,將該算法應(yīng)用于數(shù)據(jù)具有較高復(fù)雜性的鋁電解行業(yè),同時(shí)針對(duì)鋁電解參數(shù)的數(shù)據(jù)特性,設(shè)計(jì)了狀態(tài)空間和獎(jiǎng)懲函數(shù),使用改進(jìn)RMSProp加快模型迭代速度,最后利用PPO算法的截?cái)鄼C(jī)制優(yōu)化策略的更新幅度。實(shí)驗(yàn)結(jié)果表明本文算法能夠有效地尋優(yōu)出相對(duì)較優(yōu)的參數(shù)標(biāo)準(zhǔn),在實(shí)際生產(chǎn)中能夠有效地提鋁產(chǎn)量。

本文下一步目標(biāo)是近一步完善算法,優(yōu)化單次迭代時(shí)間,并將鋁電解參數(shù)復(fù)雜的關(guān)聯(lián)性加入到算法中,近一步提高訓(xùn)練結(jié)果的實(shí)際效益。

猜你喜歡
動(dòng)作策略
基于“選—練—評(píng)”一體化的二輪復(fù)習(xí)策略
下一個(gè)動(dòng)作
求初相φ的常見(jiàn)策略
例談未知角三角函數(shù)值的求解策略
我說(shuō)你做講策略
動(dòng)作描寫(xiě)要具體
高中數(shù)學(xué)復(fù)習(xí)的具體策略
畫(huà)動(dòng)作
讓動(dòng)作“活”起來(lái)
動(dòng)作描寫(xiě)不可少
主站蜘蛛池模板: 午夜毛片免费看| 日本亚洲欧美在线| 日韩国产 在线| 毛片免费视频| 国产无人区一区二区三区| 91久草视频| 亚洲水蜜桃久久综合网站| 无码中文字幕乱码免费2| 91青青草视频在线观看的| 色综合日本| 四虎影院国产| 久久久久久久97| 亚洲最新在线| 国产欧美在线视频免费| 国产精品污视频| 亚洲成a人片7777| 久久精品人妻中文视频| 亚洲va视频| 青青草欧美| 亚洲国产精品不卡在线| 亚洲天堂精品在线| 亚洲an第二区国产精品| 亚洲五月激情网| 久久五月视频| 午夜福利无码一区二区| 精品福利视频网| 亚洲精品视频网| 国产成人综合在线观看| 国产一区二区三区夜色| 国产熟女一级毛片| 日本人妻丰满熟妇区| 欧美国产菊爆免费观看| 国产杨幂丝袜av在线播放| 日韩欧美91| 免费日韩在线视频| AV天堂资源福利在线观看| 97亚洲色综久久精品| 免费在线色| 国产理论一区| 免费看黄片一区二区三区| 一级爆乳无码av| 国产毛片高清一级国语 | 国产精品第| 欧美一区二区自偷自拍视频| 国产人人射| 国产一二三区视频| 四虎影院国产| 一级爱做片免费观看久久| 韩日免费小视频| 亚洲一区波多野结衣二区三区| 四虎精品国产永久在线观看| 亚洲人成电影在线播放| 亚洲香蕉久久| 九九九精品成人免费视频7| 日韩精品一区二区三区大桥未久| 国产午夜一级毛片| 亚洲精品在线91| 國產尤物AV尤物在線觀看| 精久久久久无码区中文字幕| 成人午夜免费视频| 亚洲成av人无码综合在线观看| 免费看美女自慰的网站| 国产一区二区三区免费观看 | 色婷婷综合激情视频免费看 | 在线观看无码av免费不卡网站 | 日本五区在线不卡精品| 国产91成人| 伊人AV天堂| 18禁影院亚洲专区| 亚洲女同一区二区| 亚洲国产清纯| 免费观看男人免费桶女人视频| 激情午夜婷婷| 四虎永久免费地址在线网站 | 亚洲成a人在线播放www| 国产亚洲欧美在线中文bt天堂| 欧美成人二区| 99在线小视频| 亚洲天堂网站在线| 婷婷五月在线| 国产精品浪潮Av| 亚洲精品无码久久毛片波多野吉|