基于改進(jìn)RMSProp-PPO算法的鋁電解參數(shù)尋優(yōu)模型

2021-06-22 03:32:18張曉李晉宏

電子元器件與信息技術(shù) 2021年3期

張曉，李晉宏

（北方工業(yè)大學(xué) 信息學(xué)院，北京 100144）

0 引言

近些年來(lái)，深度學(xué)習(xí)(Deep Learning，DL)和強(qiáng)化學(xué)習(xí)(Reinforcement Learning，RL)作為機(jī)器學(xué)習(xí)內(nèi)的兩大研究熱點(diǎn)[1]，已經(jīng)在圖像分析、語(yǔ)音識(shí)別、自然語(yǔ)言處理、視頻分類(lèi)等領(lǐng)域取得了令人矚目的成功[2].由此，谷歌的人工智能研究團(tuán)隊(duì)DeepMind創(chuàng)造性的將DL與RL結(jié)合，形成了人工智能新的研究領(lǐng)域，即深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning，DRL)。

由于深度強(qiáng)化學(xué)習(xí)在連續(xù)動(dòng)作場(chǎng)景中取得了良好的效果，如2016年AlphaGo擊敗了世界頂級(jí)圍棋選手李世石，此后Facebook在DOTA2中擊敗頂級(jí)選手，CMU團(tuán)隊(duì)研發(fā)的德州撲克AI冷撲大師輕松擊敗頂級(jí)玩家，人們開(kāi)始探索深度強(qiáng)化學(xué)習(xí)在工程領(lǐng)域的應(yīng)用，谷歌利用DRL算法來(lái)優(yōu)化數(shù)據(jù)中心服務(wù)器群的參數(shù)設(shè)置，并節(jié)省了40%的電力能源；黃旭等人利用DDQN進(jìn)行、火箭姿態(tài)控制器中的參數(shù)調(diào)整，并進(jìn)行了智能體的前向測(cè)試，結(jié)果顯示使用訓(xùn)練出來(lái)的智能體代替人工設(shè)計(jì)姿態(tài)控制器參數(shù)的思路具有一定的研究?jī)r(jià)值和潛力[3]；劉威等人提出一種基于深度強(qiáng)化學(xué)習(xí)的電網(wǎng)切機(jī)控制策略，所提控制策略依據(jù)電網(wǎng)運(yùn)行環(huán)境信息，通過(guò)數(shù)據(jù)分析得到切機(jī)控制策略，最后通過(guò)IEEE 39節(jié)點(diǎn)仿真數(shù)據(jù)驗(yàn)證方法正確性[4]等，可以看出深度強(qiáng)化學(xué)習(xí)在工程領(lǐng)域的前景十分廣泛。

鋁電解工藝采用冰晶石-氧化鋁熔融電解法。該方法利用熔融冰晶石做溶劑，氧化鋁做溶質(zhì)，接通大的直流電，在950℃～970℃的條件下，進(jìn)行化學(xué)反應(yīng)，產(chǎn)出鋁液[5]。針對(duì)整個(gè)電解過(guò)程，可以人為的控制一些參數(shù)對(duì)電解過(guò)程進(jìn)行調(diào)整，以此來(lái)控制最終的出鋁量，但是由于鋁電解參數(shù)的整體關(guān)聯(lián)性目前研究較少，每個(gè)參數(shù)調(diào)節(jié)標(biāo)準(zhǔn)難以衡量，時(shí)序性的影響不易被發(fā)掘，考慮到深度強(qiáng)化學(xué)習(xí)在連續(xù)控制中的優(yōu)秀表現(xiàn)，和鋁電解過(guò)程本身具有大時(shí)空性，本文選用在該方面表現(xiàn)較好的PPO算法，該算法是一種新的強(qiáng)化學(xué)習(xí)方法，方法基于AC算法，將策略模擬成神經(jīng)網(wǎng)絡(luò)，訓(xùn)練的過(guò)程就是對(duì)神經(jīng)網(wǎng)絡(luò)梯度求解參數(shù)的過(guò)程，使用隨機(jī)梯度下降進(jìn)行參數(shù)更新，該方法具有更新效率低，參數(shù)擺動(dòng)幅度大的缺點(diǎn)，本文使用在更新效率和參數(shù)擺動(dòng)幅度上表現(xiàn)較好的RMSProp(Root Mean Square Prop)算法[6]，并進(jìn)行部分改進(jìn)，將動(dòng)量思想引入該算法，使用鋁電解歷史數(shù)據(jù)訓(xùn)練模型，并應(yīng)用到實(shí)踐中，實(shí)驗(yàn)結(jié)果表明：對(duì)比原始PPO算法，改進(jìn)的RMSProp-PPO算法具有更快的收斂性，訓(xùn)練結(jié)果相對(duì)準(zhǔn)確，具有一定的參考價(jià)值和經(jīng)濟(jì)效益。

1 預(yù)備知識(shí)

1.1 馬爾科夫決策過(guò)程

強(qiáng)化學(xué)習(xí)的目標(biāo)是給定一個(gè)馬爾科夫決策過(guò)程，尋找一個(gè)狀態(tài)到動(dòng)作的映射，即最優(yōu)策略，如公式(1)所示：

策略π的含義是在每個(gè)狀態(tài)s指定一個(gè)動(dòng)作a發(fā)生的概率，強(qiáng)化學(xué)習(xí)中一般通過(guò)兩種方式評(píng)價(jià)策略的好壞，具體可分為狀態(tài)值函數(shù)和動(dòng)作值函數(shù)，狀態(tài)值函數(shù)定義如公式(2)所示，狀態(tài)動(dòng)作值函數(shù)定義如公式(3)所示[8]：

其中在實(shí)際編程中狀態(tài)動(dòng)作值的Bellman方程如公式(4)所示：

1.2 策略梯度算法

策略梯度方法的目標(biāo)是找到一組最佳的參數(shù)θ*用來(lái)表示策略函數(shù)，使得累計(jì)獎(jiǎng)勵(lì)的期望最大，如公式(5)所示：

對(duì)公式(6)求梯度可得策略梯度如公式(7):

根據(jù)梯度上升對(duì)參數(shù)θ進(jìn)行下一步更新，如公式(8)：

基于原始的PG算法，考慮到實(shí)際應(yīng)用中出現(xiàn)的問(wèn)題，人們對(duì)PG算法做了幾個(gè)改進(jìn)：

（1）增加獎(jiǎng)勵(lì)基線，使用平均獎(jiǎng)賞作為獎(jiǎng)勵(lì)基線，避免因?yàn)槲催x擇到好動(dòng)作而把差的動(dòng)作出現(xiàn)的概率增大的現(xiàn)象。（2）增加折扣因子，原因是未來(lái)等價(jià)的價(jià)值小于當(dāng)前的價(jià)值。（3）使用優(yōu)勢(shì)函數(shù)，將一個(gè)時(shí)間步內(nèi)的累計(jì)獎(jiǎng)勵(lì)關(guān)聯(lián)到狀態(tài)值函數(shù)，使得獎(jiǎng)勵(lì)更加合理。

1.3 近端策略優(yōu)化算法

PG算法最大的缺陷在于網(wǎng)絡(luò)參數(shù)更新慢，因?yàn)槊看蔚膮?shù)更新都需要重新采樣，會(huì)花費(fèi)大量的時(shí)間。為此，OpenAI于2017年發(fā)布了一類(lèi)新的強(qiáng)化學(xué)習(xí)算法-近端策略優(yōu)化(Proximal Policy Optimization,PPO)[10]，該算法引入重要性采樣的概念，使得采樣數(shù)據(jù)可以重復(fù)被利用，同時(shí)引入KL散度作為目標(biāo)函數(shù)的懲罰項(xiàng)，相對(duì)于TRPO利用KL散度直接約束目標(biāo)函數(shù)來(lái)說(shuō)更加容易求解。

在PG算法中，我們使用πθ與環(huán)境交互，當(dāng)θ被更新時(shí)，需要對(duì)訓(xùn)練數(shù)據(jù)重新采樣，由于PG算法屬于modelfree，模型的概率不可得到，只能通過(guò)與真實(shí)環(huán)境的數(shù)據(jù)分布P(x)中去采樣加和平均求期望，為了使得采樣數(shù)據(jù)可以被重復(fù)使用，PPO算法中使用離線策略技巧[11]，利用πθ'進(jìn)行采樣，得到樣本訓(xùn)練θ，θ'是固定的，采樣的樣本可以被重復(fù)使用，從而避免反復(fù)采樣，但是嚴(yán)格意義上PPO算法屬于在線策略。

在PPO算法中，優(yōu)化目標(biāo)函數(shù)梯度如公式(9)所示：

PPO中網(wǎng)絡(luò)參數(shù)的更新與PG算法相同，使用隨機(jī)梯度上升進(jìn)行更新，其中新舊策略的KL散度滿足約束，為一個(gè)常數(shù)，公式如公式(11)：

實(shí)際研究應(yīng)用中研究人員發(fā)現(xiàn)，使用截?cái)囗?xiàng)代替KL散度具有更好的效果，將新舊策略的比值記為：

新的目標(biāo)函數(shù)變?yōu)椋?/p>

其中ε為截?cái)喑?shù)，在原論文中取值為0.2，clip函數(shù)為截?cái)嗪瘮?shù)，將r(θ)限制在1-ε和1+ε的區(qū)間內(nèi)，避免策略突變，增強(qiáng)了PPO算法的訓(xùn)練效果[12]。

2 改進(jìn)RMSProp-PPO的鋁電解參數(shù)模型

本文將改進(jìn)的RMSProp-PPO算法應(yīng)用于鋁電解過(guò)程中，目標(biāo)是：智能體在規(guī)定的步長(zhǎng)內(nèi)，找到最終出鋁量最高的執(zhí)行動(dòng)作序列，我們將序列輸出，基于原始輸入狀態(tài)進(jìn)行迭代，可得最終狀態(tài)的狀態(tài)，即一組參數(shù)值。

訓(xùn)練過(guò)程如下圖所示：

圖1 智能體訓(xùn)練過(guò)程示意圖

首先依據(jù)鋁電解環(huán)境設(shè)計(jì)了環(huán)境狀態(tài)和動(dòng)作狀態(tài)，智能體通過(guò)與環(huán)境狀態(tài)交互獲得數(shù)據(jù)，然后將數(shù)據(jù)結(jié)合設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)輸入到神經(jīng)網(wǎng)絡(luò)中訓(xùn)練，根據(jù)策略選擇動(dòng)作，轉(zhuǎn)移到下一個(gè)狀態(tài)，重復(fù)以上步驟，不斷迭代，直到訓(xùn)練完成為止。

原始的PPO算法是對(duì)PG算法的改進(jìn)，在PG算法中使用隨機(jī)梯度上升對(duì)參數(shù)進(jìn)行更新，隨機(jī)梯度上升存在效率低,訓(xùn)練過(guò)早結(jié)束的缺陷，導(dǎo)致最終算法收斂速度變慢并且結(jié)果不準(zhǔn)確，本文使用了對(duì)隨機(jī)梯度上升進(jìn)行了改進(jìn)的RMSProp算法。

RMSProp算法全稱(chēng)Root Mean Square Prop算法，它與AdaGrad最大的不同在于RMSProp利用衰減系數(shù)控制迭代，將梯度累計(jì)量改為指數(shù)衰減的移動(dòng)量，逐漸放棄歷史梯度，這樣做最大的好處是可以控制模型訓(xùn)練的時(shí)間，從而解決深度強(qiáng)化學(xué)習(xí)過(guò)程中模型過(guò)早訓(xùn)練結(jié)束的問(wèn)題，具體參數(shù)包括：初始值θ，學(xué)習(xí)率η，累計(jì)梯度值r（初始為0），梯度g，衰減系數(shù)ρ和穩(wěn)定系數(shù)δ，每步的迭代過(guò)程如下：

（1）收集若干次訓(xùn)練樣本，每批中樣本分別為｛x1,x2,x3,x4,...,xn｝，相對(duì)應(yīng)的輸出為yi。

（2）從中隨機(jī)抽取一組訓(xùn)練樣本，計(jì)算梯度：

（3）計(jì)算累計(jì)平方梯度(與AdaGrad算法不同的地方)：

（4）使用計(jì)算的參數(shù)更新，更新參數(shù)：

為了使得梯度在期望的方向上上升的更加理想，本文借鑒動(dòng)量梯度上升算法的思想，在計(jì)算參數(shù)更新時(shí)，我們加入初始動(dòng)量v和動(dòng)量衰減系數(shù)α，更新公式如下：

2.1 狀態(tài)空間和動(dòng)作空間

同時(shí)為了使得PPO算法更加適用于鋁電解的參數(shù)尋優(yōu)，本文自定義智能體的狀態(tài)空間為歷史數(shù)據(jù)（即模仿電解槽生產(chǎn)狀態(tài)從而判定出鋁量），這樣做的主要目的是由于鋁電解生產(chǎn)參數(shù)的性質(zhì)為高維、連續(xù)、不可預(yù)測(cè)，模仿歷史數(shù)據(jù)將使得訓(xùn)練環(huán)境更加接近真實(shí)的鋁電解生產(chǎn)狀況，定義如下：

本文采用離散矢量動(dòng)作空間定義了兩個(gè)基準(zhǔn)動(dòng)作，向上增加0.1%，和向下減少0.1%，針對(duì)時(shí)間步中的每次迭代，隨機(jī)選擇一個(gè)參數(shù)執(zhí)行基準(zhǔn)動(dòng)作，實(shí)驗(yàn)最終目標(biāo)是提高出鋁量，故參數(shù)迭代時(shí)，出鋁量不參與執(zhí)行動(dòng)作，所以動(dòng)作空間一共包含18個(gè)動(dòng)作，分別為各個(gè)參數(shù)增加或者減少0.1%。

2.2 獎(jiǎng)懲函數(shù)

深度強(qiáng)化學(xué)習(xí)通過(guò)累計(jì)獎(jiǎng)勵(lì)最大化來(lái)描述實(shí)驗(yàn)?zāi)繕?biāo)，智能體通過(guò)選擇合適的策略與環(huán)境產(chǎn)生互動(dòng)，環(huán)境返回執(zhí)行選擇策略的結(jié)果即獎(jiǎng)賞值，每次試驗(yàn)包含數(shù)個(gè)回合，為了避免由于獎(jiǎng)勵(lì)稀疏導(dǎo)致學(xué)習(xí)效率低以及訓(xùn)練結(jié)果不準(zhǔn)確的問(wèn)題[13]，本文在原始獎(jiǎng)勵(lì)的基礎(chǔ)上進(jìn)行了獎(jiǎng)勵(lì)重構(gòu)，增加外部獎(jiǎng)勵(lì)機(jī)制以及好奇心驅(qū)動(dòng)來(lái)提高訓(xùn)練效率和最終性能，本文獎(jiǎng)懲值是基于平均出鋁量的百分比，計(jì)算式為：

其中相似狀態(tài)出鋁量為歷史環(huán)境中尋找到的最接近的某條數(shù)據(jù)參數(shù)中的出鋁量值。

本文設(shè)定如果本次得到的出鋁量高于平均出鋁量的3%,額外增加0.1%的獎(jiǎng)賞，反之則減少0.1%，這是由于原始數(shù)據(jù)分布中絕大多數(shù)出鋁量數(shù)據(jù)是在上下3%的區(qū)間浮動(dòng)，整體獎(jiǎng)懲機(jī)制如下：

通過(guò)內(nèi)在獎(jiǎng)懲機(jī)制促進(jìn)智能體更加積極的探索環(huán)境，可以解決獎(jiǎng)勵(lì)稀疏帶來(lái)的學(xué)習(xí)效率低下的問(wèn)題[14]。

2.3 改進(jìn)RMSProp-PPO算法

原始的近端策略優(yōu)化算法是由OpenAI在2017年提出，由于其訓(xùn)練結(jié)果表現(xiàn)優(yōu)良，目前已被廣泛使用[15]。同年，Deepmind通過(guò)訓(xùn)練PPO實(shí)現(xiàn)了智能體在沒(méi)有特殊指示的情況下探索出復(fù)雜技能[16]，進(jìn)一步證明PPO算法可以較好地應(yīng)用于連續(xù)控制及連續(xù)性情節(jié)的任務(wù)上。

結(jié)合改進(jìn)的RMSProp，本文算法流程圖：

圖2 改進(jìn)RMSProp-PPO算法流程圖

算法流程如下：

（1）向新演說(shuō)家網(wǎng)絡(luò)（Actor-Net）中輸入環(huán)境信息S，得到兩個(gè)參數(shù)μ，σ，通過(guò)這對(duì)參數(shù)構(gòu)建正態(tài)分布，再通過(guò)正態(tài)分布抽樣出action。將action輸入到鋁電解歷史數(shù)據(jù)中（即環(huán)境）得到相應(yīng)的獎(jiǎng)勵(lì)r和下一步的狀態(tài)S_，存儲(chǔ)該步驟的（S,a,r），重復(fù)此步驟，直至存儲(chǔ)到一定數(shù)量，此過(guò)程中新演說(shuō)家網(wǎng)絡(luò)沒(méi)有更新。

（2）將過(guò)程1中循環(huán)最后一步得到的S_輸入至評(píng)判家網(wǎng)絡(luò)（Critic-Net），得到狀態(tài)值V_并計(jì)算折扣獎(jiǎng)勵(lì)。

（3）將存儲(chǔ)的所有狀態(tài)值輸入到評(píng)判家網(wǎng)絡(luò)，得到所有的狀態(tài)值V_，計(jì)算優(yōu)勢(shì)函數(shù)。

（4）根據(jù)優(yōu)勢(shì)函數(shù)計(jì)算評(píng)判家網(wǎng)絡(luò)的損失函數(shù)，并根據(jù)損失函數(shù)通過(guò)RMSProp反向傳播更新評(píng)判家網(wǎng)絡(luò)。

（5）將存儲(chǔ)的所有s組合輸入新演說(shuō)家和舊演說(shuō)家網(wǎng)絡(luò)(網(wǎng)絡(luò)結(jié)構(gòu)一樣)，分別得到兩個(gè)正態(tài)分布Normal1，Normal2，將存儲(chǔ)的所有Action組合為Actions分別輸入到兩個(gè)正態(tài)分布中，得到每個(gè)Actions對(duì)應(yīng)的prob1和prob2，然后用prob2除以prob1得到ratio。

（6）根據(jù)原始PPO論文中的cilp函數(shù)計(jì)算新演說(shuō)家網(wǎng)絡(luò)的損失，通過(guò)改進(jìn)的RMSProp反向傳播更新新演說(shuō)家網(wǎng)絡(luò)。

（7）循環(huán)5～6步驟，一定次數(shù)后，循環(huán)結(jié)束，用新演說(shuō)家網(wǎng)絡(luò)的權(quán)重來(lái)更新舊演說(shuō)家網(wǎng)絡(luò)。

（8）循環(huán)步驟1～7，直到達(dá)到規(guī)定的eposide。

3 實(shí)驗(yàn)

本文在戴爾工作站上進(jìn)行仿真實(shí)驗(yàn)，工作站配置如下：硬件環(huán)境為 Intel?Xeon? CPU E5- 2620 v4@2.10 GHz的處理器，內(nèi)存64 GB，顯卡NVIDIA TITAN Xp，軟件環(huán)境為Pycharm，python版本3.6。

為驗(yàn)證改進(jìn)算法有效性，本文共進(jìn)行兩個(gè)仿真實(shí)驗(yàn)：

（1）基于鋁電解數(shù)據(jù)的原始PPO算法。

（2）基于鋁電解數(shù)據(jù)的改進(jìn)的RMSProp-PPO算法。

本文使用的數(shù)據(jù)集為某鋁廠2018-12-12至2019-03-13，288個(gè)電解槽，共計(jì)27049條鋁電解歷史數(shù)據(jù)，參數(shù)分別為Fe含量，分子比，Si含量，鋁水平，電解質(zhì)水平，電解溫度，工作電壓，設(shè)定電壓，出鋁量。

本文實(shí)驗(yàn)所用Actor與Critic網(wǎng)絡(luò)結(jié)構(gòu)相同，本文使用全連接神經(jīng)網(wǎng)絡(luò)，共設(shè)計(jì)2個(gè)隱層，每個(gè)隱層神經(jīng)元為128個(gè)，神經(jīng)元激活函數(shù)選用Relu激活函數(shù)，在Actor網(wǎng)絡(luò)中將狀態(tài)S輸入到網(wǎng)絡(luò)，通過(guò)不同的激活函數(shù)預(yù)測(cè)合適的均值和方差，確定正態(tài)分布，然后通過(guò)正態(tài)分布選擇合適的動(dòng)作，在Critic網(wǎng)絡(luò)中，根據(jù)以往數(shù)據(jù)評(píng)價(jià)Actor網(wǎng)絡(luò)執(zhí)行動(dòng)作的好壞，通過(guò)狀態(tài)值函數(shù)表示累計(jì)獎(jiǎng)勵(lì)。

本文涉及到部分超參數(shù)，其中包括PPO算法部分超參數(shù)以及RMSProp部分超參數(shù)，如表1所示。

表1 實(shí)驗(yàn)超參數(shù)

經(jīng)過(guò)15.8h的訓(xùn)練，智能體獎(jiǎng)賞值趨于穩(wěn)定，初始設(shè)定最大episodes為10000，Max_steps為3000，為保證訓(xùn)練效率節(jié)約時(shí)間，針對(duì)該模型，訓(xùn)練結(jié)果如圖3所示。

圖3 10000episodes訓(xùn)練結(jié)果示意圖

經(jīng)過(guò)多次訓(xùn)練發(fā)現(xiàn)，實(shí)驗(yàn)結(jié)果相似，可證明3000episodes以內(nèi)，訓(xùn)練結(jié)果趨于穩(wěn)定，最終設(shè)定最大episodes為3000。

對(duì)比算法訓(xùn)練結(jié)果圖4所示：

圖4 （a）原始PPO訓(xùn)練結(jié)果示意圖（b）改進(jìn)RMSProp-PPO訓(xùn)練結(jié)果示意圖

由上圖可以看出，原始PPO算法（左圖）在1500個(gè)episodes時(shí)趨于穩(wěn)定，穩(wěn)定值累計(jì)獎(jiǎng)賞在15%左右。改進(jìn)RMSProp算法（右圖）在1000個(gè)episodes時(shí)趨于穩(wěn)定，穩(wěn)定值累計(jì)獎(jiǎng)賞在17%左右，稀疏對(duì)比圖如圖5所示。

圖5 訓(xùn)練結(jié)果對(duì)比示意圖

藍(lán)色為原始PPO算法訓(xùn)練結(jié)果，黃色為改進(jìn)RMSProp算法訓(xùn)練結(jié)果，可對(duì)比看出，改進(jìn)的PPO算法具有更快的收斂速度，且訓(xùn)練相對(duì)穩(wěn)定。

最終訓(xùn)練結(jié)果所取得的狀態(tài)值（即鋁電解參數(shù)最優(yōu)結(jié)果）為：[0.1606,2.5401,0.0515,249.7619,162.8467,932.2844,3.8704,4.0384]，將該實(shí)驗(yàn)結(jié)果作為參考指標(biāo)，連續(xù)一個(gè)月在某鋁廠某臺(tái)電解槽中進(jìn)行實(shí)驗(yàn)驗(yàn)證，工藝人員依據(jù)此參考指標(biāo)進(jìn)行鋁電解過(guò)程的參數(shù)調(diào)節(jié)，結(jié)果表明，該槽連續(xù)一個(gè)月的出鋁量同比增長(zhǎng)10%左右，證明該實(shí)驗(yàn)方法具有一定的工藝參考價(jià)值。

本文使用新的思路來(lái)解決鋁電解參數(shù)調(diào)優(yōu)問(wèn)題，針對(duì)鋁電解參數(shù)特征，采用不同的獎(jiǎng)賞機(jī)制和狀態(tài)空間，提高了訓(xùn)練結(jié)果的準(zhǔn)確性，同時(shí)針對(duì)鋁電解參數(shù)連續(xù)性強(qiáng)，狀態(tài)空間大，迭代速度慢的問(wèn)題，本文提出的改進(jìn)RMSProp算法有效提高了模型的訓(xùn)練速度，實(shí)驗(yàn)結(jié)果表明，該方法具有有效性和較高的參考價(jià)值。

4 結(jié)語(yǔ)

本文提出了一種基于改進(jìn)RMSProp的近端策略優(yōu)化算法，將該算法應(yīng)用于數(shù)據(jù)具有較高復(fù)雜性的鋁電解行業(yè)，同時(shí)針對(duì)鋁電解參數(shù)的數(shù)據(jù)特性，設(shè)計(jì)了狀態(tài)空間和獎(jiǎng)懲函數(shù)，使用改進(jìn)RMSProp加快模型迭代速度，最后利用PPO算法的截?cái)鄼C(jī)制優(yōu)化策略的更新幅度。實(shí)驗(yàn)結(jié)果表明本文算法能夠有效地尋優(yōu)出相對(duì)較優(yōu)的參數(shù)標(biāo)準(zhǔn)，在實(shí)際生產(chǎn)中能夠有效地提鋁產(chǎn)量。

本文下一步目標(biāo)是近一步完善算法，優(yōu)化單次迭代時(shí)間，并將鋁電解參數(shù)復(fù)雜的關(guān)聯(lián)性加入到算法中，近一步提高訓(xùn)練結(jié)果的實(shí)際效益。