999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于局部策略交互探索的深度確定性策略梯度的工業過程控制方法

2022-06-21 07:20:24鄧紹斌朱軍周曉鋒李帥劉舒銳
計算機應用 2022年5期
關鍵詞:控制策略深度策略

鄧紹斌,朱軍,周曉鋒*,李帥,劉舒銳

(1.中國科學院 網絡化控制系統重點實驗室,沈陽 110016; 2.中國科學院 沈陽自動化研究所,沈陽 110169;3.中國科學院 機器人與智能制造創新研究院,沈陽 110169; 4.中國科學院大學,北京 100049)(?通信作者電子郵箱zhouxf@sia.cn)

基于局部策略交互探索的深度確定性策略梯度的工業過程控制方法

鄧紹斌1,2,3,4,朱軍1,2,3,周曉鋒1,2,3*,李帥1,2,3,4,劉舒銳1,2,3

(1.中國科學院 網絡化控制系統重點實驗室,沈陽 110016; 2.中國科學院 沈陽自動化研究所,沈陽 110169;3.中國科學院 機器人與智能制造創新研究院,沈陽 110169; 4.中國科學院大學,北京 100049)(?通信作者電子郵箱zhouxf@sia.cn)

為了實現對非線性、滯后性和強耦合的工業過程穩定精確的控制,提出了一種基于局部策略交互探索的深度確定性策略梯度(LPIE-DDPG)的控制方法用于深度強化學習的連續控制。首先,使用深度確定性策略梯度(DDPG)算法作為控制策略,從而極大地減小控制過程中的超調和振蕩現象;同時,使用原控制器的控制策略作為局部策略進行搜索,并以交互探索規則進行學習,提高了學習效率和學習穩定性;最后,在Gym框架下搭建青霉素發酵過程仿真平臺并進行實驗。仿真結果表明,相較于DDPG,LPIE-DDPG在收斂效率上提升了27.3%;相較于比例-積分-微分(PID),LPIE-DDPG在溫度控制效果上有更少的超調和振蕩現象,在產量上青霉素濃度提高了3.8%。可見所提方法能有效提升訓練效率,同時提高工業過程控制的穩定性。

工業過程控制;深度強化學習;深度確定性策略梯度;局部策略交互探索;青霉素發酵過程

0 引言

隨著現代化工業過程集成化加深,動態控制性能要求越來越高。精準有效的控制可以促進工業過程的穩定、產品質量的提高和經濟效益的增長,因此控制策略扮演著越來越重要的角色。

大多數工業過程是非線性、滯后性和強耦合的多輸入單輸出過程,青霉素發酵過程是典型之一,面對不同的工業要求,往往需要制定不同的控制策略。針對受時變干擾和時不變不確定的蒸餾塔過程,Bansal等[1]使用單變量比例-積分-微分(Proportion-Integration-Differentiation, PID)控制器對蒸餾塔過程進行控制,取得了較好的經濟效益,但面對多目標的情況存在控制不足的問題;Asteasuain等[2]提出了使用多變量PID控制器對連續攪拌釜反應器進行控制,實現了單變量到多變量的控制,但未考慮到控制系統的自適應性;趙海丞等[3]提出變調節周期PID方法來控制溫度系統,解決了溫控系統精度受限的問題,一定程度上提高了系統自適應性;包元興等[4]提出模糊PID與跟隨控制相結合的控制策略,實現了對具有純滯后、大慣性及通道間強耦合特性爐溫的準確控制,進一步提高了系統自適應性。PID參數少、便于掌握,但隨著控制過程復雜化,參數調整往往需要專家長時間的調整。

為了提高復雜工業系統的控制性能,研究者們引入了不同的控制方法。吳鵬松等[5]采用多變量解耦和內模控制,實現了對具有大滯后、強耦合特性系統的穩定控制;張惠琳等[6]針對復雜的浮標控制系統,提出了基于雙閉環反饋回路的模糊PID定深控制,實現了對浮標良好的控制和穩定;莊緒君等[7]通過遺傳算法和迭代動態規劃結合的混合優化控制策略,解決了青霉素發酵模型的不確定性敏感的問題。但上述方法都無法實現在線學習,造成控制系統設計過程復雜,同時無法滿足最優控制。

深度強化學習是一種利用數據驅動,通過與系統交互實現端到端控制的方法,將深度強化學習應用到這類工業控制過程中,可以有效實現最優控制,再進一步通過對不同場景進行設定,能夠有效地提高算法的自適應性。郝鵑等[8]針對車間不確定環境調度問題,提出了使用平均強化學習進行控制,實現了車間的自適應控制,但該方法的應用局限于離散動作的工業環境;王建平等[9]針對工業制造中傳統二連桿控制效率低和適用性低等缺點,提出了使用基于深度強化學習的方法,實現了連續控制穩定性和適用性的提高,但忽略了復雜工業數據導致訓練困難的問題。

針對非線性、滯后性和強耦合的工業過程難以滿足控制器的在線穩定訓練需求和精準穩定的連續控制需求,本文提出了基于局部策略交互探索的深度確定性策略梯度(Local Policy Interaction Exploration-based Deep Deterministic Policy Gradient, LPIE-DDPG)的控制方法。一方面,深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)有很強的自我學習能力,可以根據不同環境學習最優控制策略,在最優控制中展現出直接自適應性。另一方面,針對DDPG學習效率不足,引入PID在工業控制中的控制邏輯,將PID的控制策略以專家經驗的形式作為局部策略,并通過交互規則學習PID的控制策略,最后進行再探索和再利用,完成最優策略的學習。其中,交互規則保證了代理在強相似的工業數據中正常學習,在線局部策略提高了代理的收斂速度,再探索和再利用保留了代理的尋優能力,使得DDPG能收斂于最優策略。最后,本文通過具有代表性的多輸出單輸出過程——青霉素發酵過程進行仿真實驗,驗證了本文方法的有效性。

1 基于LPIE?DDPG的控制方法

1.1 深度強化學習理論

強化學習是機器學習中一種以系統狀態為輸入、以策略函數為輸出的方法,作為自監督的學習方式,一方面基于行動和獎勵數據進行反復訓練,優化行動策略,另一方面自主地與環境互動,觀測并獲取環境反饋[10]。

深度強化學習是深度學習與強化學習的結合,深度神經網絡克服了強化學習方法只能應用于非凸策略函數的局限,解決了強化學習算法不能應用到非常復雜的決策情景的問題,實現了端到端的學習。

1.2 DDPG

DDPG是深度強化學習中一種基于策略的強化學習方法,可以在連續行為空間中尋找最優策略[11]。

對行動價值網絡的訓練是基于最小化損失函數:

而現實網絡中演說家網絡使用策略梯度算法更新的參數為:

網絡參數復制采用軟更新方式:

1.3 LPIE-DDPG

DDPG仍然存在如何權衡探索和利用的矛盾,學習過程中樣本效率低,學習成本高。針對學習效率不足的問題,Hou等[12]使用優先經驗重放池代替經驗重放緩沖池,可以極大縮短網絡總訓練時間。但采用比例優先性定義時,經驗被抽取的概率正比于經驗時序誤差值,時序誤差值越大,經驗被回放的概率更大。因此在工業過程中,非良性控制經驗將在回放經驗池被一直回放,良性控制的經驗得不到回放,代理的學習效果受時序誤差離群值的不利影響,優先經驗重放池失效。

在模仿學習中,代理像人類專家那樣執行一種行為,最大化預期總回報,可以有效地解決探索的問題,但是由于代理通常只模仿專家的標注行為,代理的表現不能超過主題專家或主管[13]。

本文將專家知識應用到探索和策略估計中,提出了基于局部策略交互探索的深度確定性策略梯度算法,通過在線收集原控制器的控制經驗,以模仿學習的方式,加快訓練智能體,LPIE-DDPG的結構如圖1所示。

圖1 LPIE-DDPG的結構Fig. 1 Structure of LPIE-DDPG

Agent內部結構(DDPG):現實網絡中演說家Actor從經驗池中取出作為輸入,并輸出一個表示從連續動作空間中選擇的動作的單一實值,經過環境得到當前獎勵,隨后目標網絡中演說家Actor根據下一個狀態輸出動作并傳給目標網絡中評論家Critic。

基于局部策略交互探索(Local Policy Interaction Exploration, LPIE)的流程結構包括以下兩部分。

策略更新 隨機地從經驗池取出經驗進行網絡更新。

探索階段 使用Agent網絡進行自主探索,通過試錯的形式完成搜索和經驗獲取。

策略更新 從經驗池取出經驗進行網絡更新。

自由探索保證了Agent網絡更新不會陷入局部策略,朝著最優策略探索和學習。

LPIE-DDPG算法的具體步驟如算法1所示。

算法1 基于局部策略交互探索的深度確定性策略梯度。

3) 獲取初始狀態

7) else

9) end if

13) if 達到網絡的策略優化更新條件then:

15) 評論家根據式(1)更新網絡參數

16) 演說家根據式(2)更新網絡參數

18) end if

19) end for

20) end for

2 基于LPIE?DDPG的青霉素仿真控制

將深度強化學習控制應用到多輸入單輸出的工業過程的控制流程如下:

1)建立實際系統交互模型。

2)根據實際系統模型建立馬爾可夫模型。

3)驗證實際系統交互模型的準確性和馬爾可夫模型的可行性。

4)根據馬爾可夫模型設置模型參數,如狀態空間、動作空間、獎勵函數等。

5)借鑒原控制器的控制策略,對代理進行多次訓練。

6)將代理應用到控制過程,實現對系統的有效控制。

2.1 青霉素發酵過程

青霉素仿真過程是青霉素發酵的一系列過程:青霉素菌種在合適的培養基、PH、溫度和通氣攪拌等發酵條件下進行生長和合成青霉素的代謝活動[14]。青霉素發酵過程用到發酵罐、冷水調節器、熱水調節器、攪拌器和酸堿液調節器,青霉素生產發酵過程的流程如圖2所示。

圖2 青霉素發酵過程Fig. 2 Penicillin fermentation process

青霉素發酵過程是一個典型的非線性、強耦合和滯后性的間歇過程。青霉素發酵過程被劃分為兩個階段:菌體生長期和青霉素合成期[15]。青霉素發酵過程是一個長時間持續的生產過程,其總過程大約在400 h。前一個階段是菌種生長階段,持續50 h~60 h,后兩個階段是青霉素合成和菌體衰老階段,持續340 h~350 h。在不同時期,菌體的生長環境又受諸多因素影響,在前兩個階段,青霉素生長的最佳溫度是303 K,最佳PH是6.2~6.5,在后兩個階段,青霉素合成的最佳溫度是298 K,最佳PH是6.5~6.9。這使得青霉素發酵過程是一個非線性和多動態的過程,并且發酵過程有9個初始變量、7個過程變量,這使得青霉素發酵過程是一個多輸入和強耦合過程。

2.2 青霉素發酵馬爾可夫模型

本文選取的研究對象是青霉素發酵過程,青霉素發酵過程的控制與強化學習結合的前提就是建立青霉素發酵的馬爾可夫模型。定義青霉素發酵的馬爾可夫模型如圖3所示:是由青霉素發酵過程的初始狀態和可變的操縱變量組成的狀態空間,是由青霉素發酵過程的可控變量組成的動作空間,是青霉素發酵過程不同狀態之間的轉移概率,是在當前狀態執行策略獲得的即時獎勵。

圖3 青霉素發酵馬爾可夫模型Fig. 3 Markov model of penicillin fermentation

2.3 深度強化學習狀態參數

青霉素合成期和菌體自溶期是青霉素合成的關鍵時期,溫度和PH是青霉素合成的關鍵影響因素,因此本文選取青霉素合成期和菌體自溶期作為實驗的背景,青霉素合成過程中以溫度控制作為實驗內容。針對選取實驗內容的實際控制情況,青霉素發酵過程馬爾可夫模型的具體參數規定如下:

在保證PH穩定控制的情況下,基于生化反應各個狀態值的強耦合性和強相關性,選擇當前時刻的氧氣濃度、菌體濃度、青霉素濃度(g/L)、培養基體積(L)、二氧化碳濃度、發酵器反應溫度和溫度差作為狀態空間參數。

根據實際控制原則,選擇實際控制過程中的被控變量-冷水值作為控制動作。

轉移概率取決于當前狀態執行動作策略后的新狀態。

由于青霉素合成的需要,溫度應保持在298 K,因此,獎勵函數定義如下:

3 仿真實驗及結果分析

3.1 仿真環境

本文的仿真環境是基于Matlab/Simulink環境的青霉素發酵過程仿真平臺[16],使用Python語言,在Gym框架下完成了青霉素仿真模型的遷移。

部分主要狀態方程如生物質濃度的計算式為:

溫度對微生物比生長速率的影響為:

青霉素濃度的生產用非生長伴隨產物形成動力學模型表示:

考慮到溫度對發酵過程的影響,本文對完成控制過程的目標設定為:在PH穩定控制的情況下,實現溫度值調控的低超調和低振蕩。

3.2 實驗設置

1)神經網絡參數。

LPIE-DDPG網絡分為演說家網絡(Actor)和評論家網絡(Critic),輸入神經元數和輸出神經元數分別對應狀態個數和動作個數,隱含神經元數由實驗測試所得,根據損失函數的下降趨勢,分別確定學習率的大小,激活函數選擇能使模型收斂速度穩定的ReLU(Rectified Linear Unit)函數,具體神經網絡參數設置如表1所示。

表1 神經網絡參數設置Tab. 1 Neural network parameter setting

2)仿真平臺初始參數。

在仿真模型中,故障變量包含通風率、攪拌機功率和底物的喂養速率。通風率噪聲設置為1 L/h,攪拌功率噪聲設置為0.06 W,底物的喂養速率不變。仿真平臺其他初始參數如表2所示,其中青霉素濃度指青霉素產量在培養基中的占比,發酵器反應溫度是在發酵過程中受外界環境和產生熱影響的溫度值。

3)算法超參數。

訓練總集數為2 000,總步數為200步,折扣因子和經驗池容量等超參數的設置如表3所示。

本文規定3個指標來對控制策略進行評價,分別為溫度變化、青霉素產量和抗干擾能力。其中,溫度變化指控制溫度和目標溫度298 K的差值大小,青霉素產量為在培養基中的青霉素濃度,抗干擾能力為在干擾信號下對溫度的穩定控制能力(相同條件下,溫度變化差值越小,青霉素產量越高,抗干擾能力越強,控制策略越優)。

3.3 結果分析

訓練過程如圖4所示,其中15 000為PID控制情況下每集的獎勵累加,并將其作為局部策略引入到DDPG。此外,還將LPIE引入到DQN(Deep Q-learning Network)中,形成局部策略交互探索DQN(Local Policy Interaction Exploration-based Deep Q-learning Network, LPIE-DQN)。軸是訓練集數,軸是平均獎勵,考慮到獎勵受訓練過程中探索的影響,本文采用9∶1的獎勵累加形式,具體如式(12)所示:

表2 青霉素發酵過程變量的初始值Tab. 2 Initial values of penicillin fermentation process variables

表3 算法超參數設置Tab. 3 Algorithm hyperparameter setting

圖4 不同算法隨迭代次數變化的獎勵值Fig. 4 Reward values of different algorithms changing with number of iterations

相較于DDPG,LPIE-DDPG迅速地在100集左右達到局部收斂,并在800集處達到最優,收斂總平均獎勵達到18 000,收斂效率提升了27.3%。此外,還對比了DQN和LPIE-DQN的學習效率,LPIE-DQN相較DQN更早達到收斂,在100集就完成了局部收斂,具體結果如表4所示。

通過對代理進行仿真訓練,生成最優代理。最優代理對青霉素發酵過程的控制結果如下3個指標所示。

1)溫度變化指標。在初始溫度為299 K和無干擾的條件下,不同方法的溫度變化如圖5所示。從圖5可以看出,相較于PID和LPIE-DQN,LPIE-DDPG的溫度控制表現出無超調和無振蕩。

表4 不同方法的學習效率對比Tab. 4 Comparison of learning efficiency of different methods

2)青霉素產量指標。在同等初始條件下,青霉素發酵過程的產量結果如圖6所示。由圖6可以看出,相較于PID控制,使用LPIE-DDPG控制的青霉素產量濃度值提高了3.8%;相較于LPIE-DQN,LPIE-DDPG具有穩定持續的高青霉素濃度值產量。

圖5 LPIE-DDPG、LPIE-DQN和PID的溫度控制效果對比Fig. 5 Comparison of temperature control effect of LPIE-DDPG, LPIE-DQN and PID

圖6 LPIE-DDPG、LPIE-DQN和PID控制下的青霉素產量對比Fig. 6 Comparison of penicillin yield under LPIE-DDPG,LPIE-DQN and PID control

3)抗干擾能力指標。為了檢驗系統的抗干擾能力,分別在20 h時刻和120 h時刻引入正向脈沖干擾和負向脈沖干擾,結果如圖7所示。由圖7可以看出,相較于PID和LPIE-DQN,LPIE-DDPG對含有干擾信號的環境具有更加平緩穩定的控制性能。

圖7 LPIE-DDPG、LPIE-DQN和PID的抗干擾性對比Fig. 7 Comparison of interference resistance of LPIE-DDPG, LPIE-DQN and PID

4 結語

針對工業控制過程的非線性、強耦合、滯后性等特點, 本文提出了基于局部策略交互探索深度確定性策略梯度的控制方法。該方法以DDPG為框架,使用原控制器的控制策略進行學習,以交互探索的方式保證經驗回放的可行性,通過自由探索的形式從環境中直接學習,最后通過與工業系統直接交互,完成精準、穩定的控制。基于青霉素仿真模型進行實驗,實驗結果表明,本文方法有更高的學習效率和更快速的收斂性能,同時提高了工業過程控制的穩定性。

未來的工作將研究在實際生產中應用LPIE-DDPG,通過在探索過程中添加相關安全措施和優化獎勵函數來滿足實際生產需求、降低生產成本。

[1] BANSAL V, PERKINS J D, PISTIKOPOULOS E N. A case study in simultaneous design and control using rigorous, mixed-integer dynamic optimization models [J]. Industrial and Engineering Chemistry Research, 2002, 41(4): 760-778.

[2] ASTEASUAIN M, BANDONI A, SARMORIA C, et al. Simultaneous process and control system design for grade transition in styrene polymerization [J]. Chemical Engineering Science, 2006, 61(10): 3362-3378.

[3] 趙海丞,鄒應全,劉睿佳,等.溫控系統中變調節周期PID算法[J].計算機應用,2016,36(S2):116-119.(ZHAO H C,ZOU Y Q, LIU R J, et al. PID algorithm of variable adjustment period based on temperature control system [J]. Journal of Computer Applications, 2016, 36(S2): 116-119.)

[4] 包元興,丁炯,楊遂軍,等.強耦合雙通道熱分析爐溫度跟隨控制策略研究[J].測控技術,2016,35(5):70-74.(BAO Y X, DING J,YANG S J, et al. Study on temperature following control strategy for strong-coupled dual-channel thermal analysis furnace [J]. Measurement and Control Technology, 2016, 35(5): 70-74.)

[5] 吳鵬松,吳朝野,周東華.大純滯后信號解耦內模控制系統研究[J].化工自動化及儀表,2012,39(9):1115-1117,1176.(WU P S, WU C Y, ZHOU D H. Research on signal-decoupling internal mode control system with big time lag [J]. Control and Instruments in Chemical Industry, 2012, 39(9): 1115-1117, 1176.)

[6] 張惠琳,李醒飛,楊少波,等.深海自持式智能浮標雙閉環模糊PID定深控制[J].信息與控制,2019,48(2):202-208,216.(ZHANG H L, LI X F, YANG S B, et al. Dual closed-loop fuzzy PID depth control for deep-sea self-holding intelligent buoy [J]. Information and Control, 2019, 48(2): 202-208, 216.)

[7] 莊緒君,李宏光.基于遺傳算法與迭代動態規劃混合策略的青霉素發酵過程優化控制[J].計算機與應用化學,2013,30(9):1051-1054.(ZHUANG X J, LI H G. Optimization control strategies combined genetic algorithms and iterative dynamic programming for penicillin fermentation processes [J]. Computers and Applied Chemistry, 2013, 30(9): 1051-1054.)

[8] 郝鵑,余建軍,周文慧.基于平均強化學習的訂單生產方式企業訂單接受策略[J].計算機應用,2013,33(4):976-979.(HAO J, YU J J, ZHOU W H. Order acceptance policy in make-to-order manufacturing based on average-reward reinforcement learning [J]. Journal of Computer Applications, 2013, 33(4): 976-979.)

[9] 王建平,王剛,毛曉彬,等.基于深度強化學習的二連桿機械臂運動控制方法[J].計算機應用,2021,41(6):1799-1804.(WANG J P, WANG G,MAO X B, et al. Motion control method of two-link manipulator based on deep reinforcement learning [J]. Journal of Computer Applications, 2021, 41(6): 1799-1804.)

[10] 多南訊,呂強,林輝燦,等.邁進高維連續空間:深度強化學習在機器人領域中的應用[J].機器人,2019,41(2):276-288.(DUO N X, LYU Q, LIN H C, et al. Step into high-dimensional and continuous action space: a survey on applications of deep reinforcement learning to robotics [J]. Robot, 2019, 41(2): 276-288.)

[11] 劉洋,李建軍.深度確定性策略梯度算法優化[J].遼寧工程技術大學學報(自然科學版),2020,39(6):545-549.(LIU Y, LI J J. Optimization of deep deterministic policy gradient algorithm [J]. Journal of Liaoning Technical University (Natural Science), 2020, 39(6):545-549.)

[12] HOU Y N, LIU L F, WEI Q, et al. A novel DDPG method with prioritized experience replay [C]// Proceedings of the 2017 IEEE International Conference on Systems, Man, and Cybernetics. Piscataway: IEEE, 2017:316-321.

[13] NIAN R, LIU J F, HUANG B. A review on reinforcement learning: Introduction and applications in industrial process control [J]. Computers and Chemical Engineering, 2020, 139: Article No.106886.

[14] 李云龍,唐文俊,白成海,等.青霉素生產工藝優化及代謝分析提高產量[J].中國抗生素雜志,2019,44(6):679-686.(LI Y L, TANG W J,BAI C H, et al. Optimization of the feeding process and metabolism analysis to improve the yield of penicillin [J]. Chinese Journal of Antibiotics, 2019, 44(6): 679-686.)

[15] 王蕾,陳進東,潘豐.引力搜索算法在青霉素發酵模型參數估計中的應用[J].計算機應用,2013,33(11):3296-3299,3304.(WANG L, CHEN J D, PAN F. Applications of gravitational search algorithm in parameters estimation of penicillin fermentation process model [J]. Journal of Computer Applications, 2013, 33(11): 3296-3299, 3304.)

[16] 葉凌箭,程江華.基于Matlab/Simulink的青霉素發酵過程仿真平臺[J].系統仿真學報,2015,27(3):515-520.(YE L J, CHENG J H. Simulation platform of penicillin fermentation process based on Matlab/Simulink [J]. Journal of System Simulation, 2015, 27(3): 515-520.)

Industrial process control method based on local policy interaction exploration-based deep deterministic policy gradient

DENG Shaobin1,2,3,4,ZHU Jun1,2,3, ZHOU Xiaofeng1,2,3*, LI Shuai1,2,3,4, LIU Shurui1,2,3

(1.Key Laboratory of Networked Control System,Chinese Academy of Sciences,Shenyang Liaoning110016,China;2.Shenyang Institute of Automation,Chinese Academy of Sciences,Shenyang Liaoning110169,China;3.Institutes for Robotics and Intelligent Manufacturing Innovation,Chinese Academy of Sciences,Shenyang Liaoning110169,China;4.University of Chinese Academy of Sciences,Beijing100049,China)

In order to achieve the stable and precise control of industrial processes with non-linearity, hysteresis, and strong coupling, a new control method based on Local Policy Interaction Exploration-based Deep Deterministic Policy Gradient (LPIE-DDPG) was proposed for the continuous control of deep reinforcement learning. Firstly, the Deep Deterministic Policy Gradient (DDPG) algorithm was used as the control strategy to greatly reduce the phenomena of overshoot and oscillation in the control process. At the same time,the control strategy of original controller was used as the local strategy for searching, and interactive exploration was used as the rule for learning, thereby improving the learning efficiency and stability. Finally, a penicillin fermentation process simulation platform was built under the framework of Gym and the experiments were carried out. Simulation results show that, compared with DDPG, the proposed LPIE-DDPG improves the convergence efficiency by 27.3%; compared with Proportion-Integration-Differentiation (PID), the proposed LPIE-DDPG has fewer overshoot and oscillation phenomena on temperature control effect, and has the penicillin concentration increased by 3.8% in yield. In conclusion, the proposed method can effectively improve the training efficiency and improve the stability of industrial process control.

industrial process control; deep reinforcement learning; Deep Deterministic Policy Gradient (DDPG); Local Policy Interaction Exploration (LPIE); penicillin fermentation process

TP273.2

A

1001-9081(2022)05-1642-07

10.11772/j.issn.1001-9081.2021050716

2021?05?07;

2021?09?27;

2021?11?26。

遼寧省“興遼英才計劃”項目(XLYC1808009)。

鄧紹斌(1997—),男,江西贛州人,碩士研究生,主要研究方向:強化學習、工業過程控制; 朱軍(1964—),男,遼寧沈陽人,研究員,碩士,主要研究方向:自動控制、工業自動化; 周曉鋒(1978—),女,遼寧本溪人,副研究員,博士,主要研究方向:機器學習、工業過程優化; 李帥(1988—)男,遼寧錦州人,副研究員,博士研究生,主要研究方向:機器學習、數據挖掘; 劉舒銳(1993—)男,湖北襄陽人,助理研究員,碩士,主要研究方向:工業過程建模與控制、機器學習。

This work is partially supported by Program of Liaoning Province “Xingliao Talents Plan” (XLYC1808009).

DENG Shaobin, born in 1997, M. S. candidate. His research interests include reinforcement learning,industrial process control.

ZHU Jun, born in 1964, M. S., research follow. His research interests include automatic control, industrial automation.

ZHOU Xiaofeng, born in 1978, Ph. D., associate research fellow. Her research interests include machine learning, industrial process optimization.

LI Shuai, born in 1988, Ph. D. candidate, associate research fellow. His research interests include machine learning, data mining.

LIU Shurui, born in 1993, M. S., assistant research fellow. His research interests include industrial process modeling and control, machine learning.

猜你喜歡
控制策略深度策略
考慮虛擬慣性的VSC-MTDC改進下垂控制策略
能源工程(2020年6期)2021-01-26 00:55:22
深度理解一元一次方程
例談未知角三角函數值的求解策略
我說你做講策略
工程造價控制策略
山東冶金(2019年3期)2019-07-10 00:54:04
深度觀察
深度觀察
深度觀察
現代企業會計的內部控制策略探討
消費導刊(2018年10期)2018-08-20 02:57:02
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
主站蜘蛛池模板: jizz在线免费播放| 亚洲第一黄片大全| 国产一级无码不卡视频| 精品伊人久久久久7777人| 日韩精品久久久久久久电影蜜臀| 国产啪在线| 黄色成年视频| 久久天天躁狠狠躁夜夜2020一| 亚洲三级电影在线播放 | 99久久无色码中文字幕| 成人免费视频一区| 欧美亚洲日韩中文| 国产精品极品美女自在线看免费一区二区| 亚洲激情99| 亚洲男人的天堂久久精品| 老司机aⅴ在线精品导航| 国产成人一区免费观看| 黄色福利在线| 国产精品无码久久久久AV| 国产波多野结衣中文在线播放| 日韩小视频在线播放| 亚洲色欲色欲www网| 91亚洲精选| 日韩无码白| 国产成+人+综合+亚洲欧美| a欧美在线| 夜夜爽免费视频| 免费无码又爽又刺激高| 国产手机在线ΑⅤ片无码观看| 亚洲一区二区无码视频| 国产无码精品在线| 热这里只有精品国产热门精品| 香蕉久人久人青草青草| 精品免费在线视频| 性色一区| 国产美女叼嘿视频免费看| 天天干伊人| 伊人五月丁香综合AⅤ| 亚洲日韩国产精品综合在线观看| 国产成人精品一区二区| 日本91在线| 国产成人高清精品免费5388| 亚洲VA中文字幕| 欧美视频在线不卡| …亚洲 欧洲 另类 春色| 亚洲一区无码在线| 操国产美女| 欧美a在线视频| 人与鲁专区| 呦视频在线一区二区三区| 欧美精品亚洲精品日韩专区va| 在线观看国产网址你懂的| 日本午夜网站| 中文无码精品A∨在线观看不卡| 免费观看国产小粉嫩喷水| 国产成人亚洲欧美激情| 国产精品福利在线观看无码卡| vvvv98国产成人综合青青| 毛片基地视频| 99久久性生片| 久久中文无码精品| www成人国产在线观看网站| 亚洲妓女综合网995久久| 国产精品亚洲专区一区| 亚洲色欲色欲www在线观看| 国产日韩丝袜一二三区| 亚洲日韩AV无码一区二区三区人| 久久精品人人做人人爽| 99视频在线观看免费| 天堂成人在线视频| 高潮爽到爆的喷水女主播视频 | 97国产精品视频人人做人人爱| 97精品伊人久久大香线蕉| 亚洲第一成人在线| 欧美日韩国产高清一区二区三区| 2021天堂在线亚洲精品专区| 99视频精品全国免费品| 国产精品妖精视频| 男女男免费视频网站国产| 91视频免费观看网站| 国产玖玖视频| 女人一级毛片|