999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DQN和DDPG算法的多智能體泵系統(tǒng)節(jié)能控制優(yōu)化研究

2025-08-28 00:00:00鐘林濤宋冬梅張衡鏡錢宇聰閔自強(qiáng)
機(jī)械 2025年8期

中圖分類號:TU991 文獻(xiàn)標(biāo)志碼:A doi:10.3969/j.issn.1006-0316.2025.08.003

文章編號:1006-0316(2025)08-0014-09

Research on Optimization of Energy-Saving Control for Pump System Based on Multiple-Agent of DQN and DDPG Algorithms

ZHONG Lintao, SONG Dongmei, ZHANG Hengjing,QIAN Yucong,MIN Ziqiang (Sichuan Institute of Machinery Research amp; Design (Group) Co., Ltd., Chengdu 610063, China)

Abstract :To addressthe issue of multi-equipment cooperativecontrolin the energy-saving optimization process of pump systems,this paper proposes a multiple-agent reinforcement learning energy-saving control optimization strategy for pump systems based on the Deep Q-Network (DQN)and Deep Deterministic Policy Gradient (DDPG) algorithms.The pump system is modeled as a Markov Decision Process(MDP), where the DQN algorithm is employed to construct the discrete action space for pump start/stop operations,and the DDPG algorithm is used to build the continuous action space for motor speed control.Additionally,Long Short-Term Memory (LSTM) networks are embedded into both the DQNand DDPG algorithms to memorize historical operational data, thereby enhancing agent training and control performance.Experimental results demonstrate that the pump system controlled by the multi-gent reinforcement learning approach achieves a 15.81% energy saving compared to manual regulation, exhibiting superior energy-saving control effectiveness.

Key words:pump-system; energy-saving;deep reinforcement learning;multiple-agent

泵是工業(yè)生產(chǎn)中的通用設(shè)備,據(jù)統(tǒng)計(jì),泵用電量約占我國工業(yè)用電的 20%[1] 。然而,泵系統(tǒng)在設(shè)計(jì)時(shí)通常是以峰值負(fù)載為基準(zhǔn),實(shí)際運(yùn)行負(fù)載較設(shè)計(jì)值小得多,需要依賴人工調(diào)節(jié)或基于規(guī)則的啟??刂?,導(dǎo)致泵系統(tǒng)實(shí)際運(yùn)行出現(xiàn)動態(tài)響應(yīng)滯后、系統(tǒng)效率不高等問題,造成能源浪費(fèi)。

近年來,深度強(qiáng)化學(xué)習(xí)在飛行器控制[2]、機(jī)器人控制[3-4]、微電網(wǎng)系統(tǒng)調(diào)控[5-6]、自動駕駛7等領(lǐng)域中取得顯著成果,特別在解決無模型控制和決策問題上具有很好的效果。在泵系統(tǒng)節(jié)能優(yōu)化控制方面,陳財(cái)會等[8基于深度Q網(wǎng)絡(luò)(DeepQ-Network,DQN)算法對深圳市某水廠進(jìn)行節(jié)能控制優(yōu)化,相較于人工調(diào)控降低了 8.84% 的能耗損失。王濤等9基于長短期記憶網(wǎng)絡(luò)(Long Short-TermMemory,LSTM)和深度確定性策略梯度算法(DeepDeterministicPolicyGradient,DDPG)對空調(diào)系統(tǒng)進(jìn)行節(jié)能優(yōu)化控制,相較傳統(tǒng)控制策略節(jié)能 檀朝東等[10]采用強(qiáng)化學(xué)習(xí)開展煤層氣排采螺桿泵優(yōu)化控制方法研究,得到螺桿泵排采變頻控制最優(yōu)策略。韓智聰?shù)萚11]將深度森林和DQN 算法結(jié)合應(yīng)用于暖通空調(diào)冷卻側(cè)節(jié)能優(yōu)化,控制冷卻水泵頻率和冷卻塔風(fēng)機(jī)頻率,取得了較好的節(jié)能效果。然而,受限于DQN算法只能處理離散動作,DDPG只適用于連續(xù)動作,現(xiàn)有研究多局限于單一智能體框架,難以同時(shí)處理泵系統(tǒng)離散一連續(xù)動作等多設(shè)備協(xié)同的復(fù)雜場景。此外,泵系統(tǒng)流量或壓力需求具有顯著的時(shí)間序列特征,而傳統(tǒng)的DQN和DDPG難以有效捕捉時(shí)序特征。

1泵系統(tǒng)節(jié)能優(yōu)化控制強(qiáng)化學(xué)習(xí)模型

1.1泵系統(tǒng)節(jié)能優(yōu)化數(shù)學(xué)模型

水泵在最優(yōu)工況下運(yùn)行有最高的效率和可靠性。在實(shí)際運(yùn)行中,泵系統(tǒng)因需求變化而偏離最優(yōu)工況時(shí),一般通過改變水泵特性曲線(如變頻調(diào)速)或者改變管路特性曲線(如閥門調(diào)節(jié))的方式進(jìn)行調(diào)節(jié),使泵系統(tǒng)運(yùn)行狀態(tài)靠近水泵高效率區(qū)間,達(dá)到節(jié)能控制的目的。因此,在建立泵系統(tǒng)節(jié)能優(yōu)化控制強(qiáng)化學(xué)習(xí)模型之前,應(yīng)定義泵系統(tǒng)數(shù)學(xué)模型。

1.1.1泵系統(tǒng)數(shù)學(xué)模型

水泵主要參數(shù)包括流量 Qq 、揚(yáng)程 H? 軸功率 N? 效率 η 、轉(zhuǎn)速 n 等,其特性一般用 Qq-H 特性曲線、 Qq-N 特性曲線、 Qq-η 曲線表示,采用最小二乘法或插值法擬合可得到:

式中:a、b、 Ψc 為擬合系數(shù)。

變轉(zhuǎn)速下,水泵滿足相似定律,即:

針對以上問題,本文采用基于DQN和DDPG 的多智能體強(qiáng)化學(xué)習(xí) (Multi-Agent DeepReinforcementLearning,MADRL)協(xié)同控制框架,并引入LSTM,增強(qiáng)泵系統(tǒng)對時(shí)序相關(guān)性的學(xué)習(xí),提高智能體學(xué)習(xí)的魯棒性。

式中: Qi 為實(shí)際流量; Q0 為額定流量; ni 為實(shí) 際轉(zhuǎn)速; n0 為額定轉(zhuǎn)速; Hi 為實(shí)際揚(yáng)程; H0 為 額定揚(yáng)程; Ni 為實(shí)際軸功率; N0 為額定軸功 率; k 為調(diào)速比。

進(jìn)而可得水泵在變轉(zhuǎn)速下的性能曲線為:

泵系統(tǒng)管路特性曲線表示為:

Hi=Hst+SQq 2

式中: Hst 為泵系統(tǒng)凈揚(yáng)程; S 為泵系統(tǒng)總阻力系數(shù)。

1.1.2建立目標(biāo)函數(shù)

對于節(jié)能優(yōu)化問題,其目標(biāo)是:在滿足泵系統(tǒng)所需流量、揚(yáng)程下,通過控制水泵運(yùn)行臺數(shù)、電機(jī)頻率(水泵轉(zhuǎn)速),使泵系統(tǒng)能耗最小。因此,泵系統(tǒng)節(jié)能優(yōu)化的目標(biāo)函數(shù)為:

式中: P 為泵系統(tǒng)目標(biāo)總能耗; Σm 為水泵臺數(shù)。

1.1.3約束條件

由式(1) ~ (3)可知,對于單臺水泵,當(dāng)水泵轉(zhuǎn)速降低時(shí),其流量一揚(yáng)程曲線和流量一功率曲線會向下并向左移動,而流量一效率曲線則向左偏移。如圖1所示,A、 B 兩個工況點(diǎn)是水泵額定轉(zhuǎn)速下對應(yīng)高效區(qū)的兩個端點(diǎn),C、 D 兩個工況點(diǎn)是水泵最低轉(zhuǎn)速下與A、 B 等效率的兩個端點(diǎn),ABCD所圍成的封閉區(qū)域形成了變轉(zhuǎn)速下單臺水泵高效區(qū)間,即變頻調(diào)速有區(qū)間限制。

圖1水泵變轉(zhuǎn)速特性曲線

在最低轉(zhuǎn)速以下,水泵效率不再滿足相似系數(shù),而是出現(xiàn)驟降,水泵內(nèi)部還將發(fā)生氣蝕。因此,在實(shí)際工程中,水泵應(yīng)根據(jù)泵型或制造廠商的使用要求設(shè)置最低轉(zhuǎn)速,且最高轉(zhuǎn)速不超過額定轉(zhuǎn)速,防止電機(jī)發(fā)生過載[12]。對于恒壓、變壓或變流量泵系統(tǒng),還需要滿足實(shí)際揚(yáng)程和實(shí)際流量、需求流量和需求揚(yáng)程的差值在誤差范圍以內(nèi)。因此,泵系統(tǒng)優(yōu)化節(jié)能控制約束條件表示為:

式中: nmin 為最低轉(zhuǎn)速; 為用戶需求流量;

HD 為用戶需求揚(yáng)程; Δq 為系統(tǒng)充許流量差值;Δh 為用戶允許揚(yáng)程差值。

1.2馬爾可夫決策過程建模

泵系統(tǒng)節(jié)能控制問題的建模為馬爾可夫決策過程,如圖2所示。智能體感知泵系統(tǒng)的環(huán)境狀態(tài)參數(shù),包括流量、揚(yáng)程、效率、功率等,輸入深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN),做出最優(yōu)決策,如調(diào)整水泵臺數(shù)、調(diào)速比等作為動作,動作的變化引起泵系統(tǒng)狀態(tài)參數(shù)變化作為獎勵影響智能體的決策,這4個要素構(gòu)成泵系統(tǒng)馬爾可夫決策的基本框架。

圖2泵系統(tǒng)馬爾可夫決策過程

1.2.1狀態(tài)空間

狀態(tài)空間主要為泵系統(tǒng)的運(yùn)行狀態(tài),包括流量、揚(yáng)程、電流、電壓、進(jìn)水池水位、出水池水位等。在并聯(lián)泵系統(tǒng)中,普遍采用相同水泵并聯(lián),各水泵揚(yáng)程幾乎相同,因此狀態(tài)空間定義為:

S=[Q1,Q2…Qm,H,P]

1.2.2動作空間

根據(jù)智能體做出決策的方式,將動作劃分為離散動作 Ad (水泵開啟臺數(shù))和連續(xù)動作 Ac (變頻器頻率)。

離散動作空間定義為:

連續(xù)動作定義為:

式中: k1~k?m 為各臺水泵的調(diào)速比; kmin 為泵允許的最小調(diào)速比。

1.2.3獎勵

泵系統(tǒng)的運(yùn)行狀態(tài)會因不同的動作產(chǎn)生反饋,這種反饋體現(xiàn)在泵系統(tǒng)的獎勵或懲罰獎勵上。合理設(shè)置獎勵不僅能引導(dǎo)智能體快速收斂,也能避免智能體陷入局部最優(yōu)。獎勵設(shè)計(jì)要求有明確定義的目標(biāo),并具有可解釋性,通過設(shè)計(jì)長期獎勵幫助智能體在長期規(guī)劃和任務(wù)中做出最優(yōu)決策,使得累計(jì)收益最大;即時(shí)獎勵為智能體執(zhí)行某個動作后立即獲得的即時(shí)反饋,合理設(shè)置能幫助智能體避開不利動作。

泵系統(tǒng)節(jié)能控制的主要目標(biāo)是保持長期運(yùn)行的高效率、低能耗,長期獎勵設(shè)計(jì)為泵系統(tǒng)累計(jì)能耗獎勵 R

即時(shí)獎勵考慮泵系統(tǒng)的可靠性和安全性。泵系統(tǒng)在運(yùn)行中需要考慮幾種情況: ① 流量或揚(yáng)程偏離用戶需求; ② 泵在低效區(qū)運(yùn)行出現(xiàn)氣蝕; ③ 泵頻繁啟停引起水錘事故。情況 ① 中,泵系統(tǒng)流量偏離需求流量時(shí)給予懲罰獎勵 Rq, 泵系統(tǒng)揚(yáng)程偏離需求揚(yáng)程時(shí)給予懲罰獎勵 R 對情況 ② ,根據(jù)圖1中ABCD圍成高效區(qū)中的最低效率 ηmin, 泵系統(tǒng)實(shí)際效率高出 ηmin 越多,獲得的正獎勵 Re 越高,當(dāng)泵系統(tǒng)實(shí)際效率低于ηmin 時(shí), Re 為懲罰獎勵。為避免水泵頻繁啟停,對下一時(shí)刻泵開啟狀態(tài)不變給予正獎勵,反之給予懲罰獎勵 Pso

最終泵系統(tǒng)節(jié)能優(yōu)化控制獎勵 R 為:

R=Rp+Ps+Rq+Rh+Re

2多智能體強(qiáng)化學(xué)習(xí)框架

2.1多智能體泵系統(tǒng)節(jié)能控制框架

本文采用DQN智能體與DDPG智能體組成多智能體,分別控制水泵啟停與變頻器頻率,原理如圖3所示。

DQN 基于經(jīng)典強(qiáng)化學(xué)習(xí)算法Q-learming,采用DNN來生成 值(即 值網(wǎng)絡(luò)),實(shí)現(xiàn)最優(yōu)策略輸出;同時(shí)引入自標(biāo)網(wǎng)絡(luò)用于計(jì)算目標(biāo)值,引入經(jīng)驗(yàn)回放儲存智能體與環(huán)境交互數(shù)據(jù),解決數(shù)據(jù)相關(guān)性問題。傳統(tǒng)DQN算法只適用于處理離散動作,DDPG算法在DQN算法基礎(chǔ)上引入Actor-Critic網(wǎng)絡(luò)結(jié)構(gòu)和確定性策略梯度方法,將其擴(kuò)展到連續(xù)動作。DDPG中包含Actor和Critic 網(wǎng)絡(luò)構(gòu)成的主網(wǎng)絡(luò)以及TargetActor和TargetCritic網(wǎng)絡(luò)構(gòu)成的目標(biāo)網(wǎng)絡(luò),Actor負(fù)責(zé)輸出動作,Critic網(wǎng)絡(luò)根據(jù)動作輸出 值。DDPG算法通過不斷更新Actor和Critic網(wǎng)絡(luò)使得 值最大,實(shí)現(xiàn)最優(yōu)策略輸出。

DQN和DDPG算法都是通過DNN基于當(dāng)前感知到的環(huán)境狀態(tài)做出決策,而泵系統(tǒng)環(huán)境狀態(tài)是時(shí)變的,這導(dǎo)致智能體會忘記前一時(shí)刻感知到的信息,使得智能體無法利用歷史數(shù)據(jù)進(jìn)行精確的決策控制。例如長距離輸送管道的泵系統(tǒng),由于水流慣性的影響,單純依賴即時(shí)狀態(tài)可能導(dǎo)致泵系統(tǒng)控制滯后,而這些信息隱藏在歷史數(shù)據(jù)中。與DNN結(jié)構(gòu)相比,循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)提取出輸入序列數(shù)據(jù)的隱藏信息,并將其與下一刻的輸入序列一起作為輸入數(shù)據(jù)傳遞到下一個神經(jīng)元,形成循環(huán)的結(jié)構(gòu),這種遞歸特性使得RNN能夠保持對之前信息的記憶。但傳統(tǒng)RNN在處理長序列時(shí)會逐漸覆蓋舊數(shù)據(jù),容易出現(xiàn)梯度消失和梯度爆炸問題。LSTM是一種特殊的RNN,它引入輸入門、遺忘門、輸出門三種門機(jī)制,來決定各個時(shí)間步的流入、保留和輸出,即LSTM選擇性的保留和遺忘信息,解決了RNN中梯度爆炸和消失的問題。

圖3多智能體泵系統(tǒng)控制框架

將LSTM嵌入DQN和DDPG算法中,其原理是在DNN網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,在全連接層前面嵌入LSTM單元[13-14],如圖4所示。泵系統(tǒng)狀態(tài)參數(shù)由輸入層進(jìn)入LSTM層,用于捕捉泵系統(tǒng)長時(shí)間運(yùn)行中的隱藏信息及周期性規(guī)律,最后通過DNN輸出決策動作。這種網(wǎng)絡(luò)結(jié)構(gòu)能有效增強(qiáng)多智能體在實(shí)時(shí)變化的泵系統(tǒng)環(huán)境中做出決策的能力。

圖4原始DNN與LSTM-DNN結(jié)構(gòu)對比

2.2 LSTM-DQN智能體設(shè)計(jì)

2.2.1狀態(tài)空間

DQN智能體狀態(tài)空間表示為:

SDQN={Qsystem,Hsystem,QD,HD,Ad,Ac} (12)式中: Qsystem 為泵系統(tǒng)流量; Hsystem 為泵系統(tǒng)揚(yáng)程; Ad 為當(dāng)前水泵啟停狀態(tài); Ac 為電機(jī)調(diào)速比(多維空間量)。

2.2.2動作空間

DQN智能體動作空間表示為:

2.2.3獎勵函數(shù)

根據(jù)式(11)設(shè)計(jì)DQN智能體獎勵函數(shù)。當(dāng)泵系統(tǒng)實(shí)際流量與需求流量的差值在允許范圍 Δq 內(nèi)時(shí)給予正獎勵,否則乘以懲罰系數(shù) w 給予懲罰獎勵,流量獎勵為:

同理,當(dāng)泵系統(tǒng)實(shí)際揚(yáng)程與需求揚(yáng)程的差值在允許范圍 Δh 內(nèi)時(shí)給予正獎勵,否則乘以懲罰系數(shù) w 給予懲罰獎勵,揚(yáng)程獎勵為:

根據(jù)相鄰時(shí)刻水泵啟停狀態(tài)變化給予相應(yīng)的正獎勵與懲罰獎勵,水泵啟停獎勵為:

式中: ajt 為當(dāng)前水泵 j 在 t 時(shí)刻的開啟狀態(tài);

(204號 ajt-1 為水泵 j 在 t-1 時(shí)刻的開啟狀態(tài)。

效率獎勵為:

Reimin

將泵系統(tǒng)總能耗設(shè)置為懲罰獎勵,運(yùn)行時(shí)間內(nèi)累計(jì)能耗越低,系統(tǒng)總獎勵越高。泵系統(tǒng)

累計(jì)能耗獎勵為:

DQN 智能體獎勵函數(shù) RDQN 即為所有獎勵之和。

2.2.4訓(xùn)練過程

基于LSTM網(wǎng)絡(luò)的DQN智能體控制泵系統(tǒng)水泵啟停算法流程為:

(1)初始化LSTM-Q網(wǎng)絡(luò),隨機(jī)生成策略 π ·(2)智能體與環(huán)境交互得到某一時(shí)刻的狀態(tài) s :(3)按照ε-greedy策略選擇一個隨機(jī)動作 Φa :(4)將 輸入到LSTM網(wǎng)絡(luò);(5)執(zhí)行 Ψa 與環(huán)境交互返回獎勵 r 和新狀態(tài) s :(6)智能體將 (s,a,r,s) 存入經(jīng)驗(yàn)池;(7)智能體從經(jīng)驗(yàn)池中隨機(jī)采樣一組數(shù)據(jù)(s,a,r,s) ;(8)優(yōu)化目標(biāo)為 與 Q(s,a) 的差值得到損失函數(shù)Loss值;(9)利用隨機(jī)梯度下降算法更新估計(jì)網(wǎng)絡(luò) :(10)重復(fù)步驟(3) ~ (9)直到 網(wǎng)絡(luò)收斂。

2.3LSTM-DDPG智能體設(shè)計(jì)

2.3.1狀態(tài)空間

DDPG算法與DQN算法共用一個狀態(tài)空 間,即: SDDPG=SDQN (19)

2.3.2動作空間

DDPG智能體動作空間為

經(jīng)試驗(yàn),當(dāng)調(diào)速比小于0.4時(shí),泵系統(tǒng)無法克服管路阻力,因此 kn∈(0.4,1)

2.3.3獎勵函數(shù)

DDPG算法智能體與DQN算法智能體為完全合作關(guān)系,DDPG算法智能體獎勵函數(shù)RDDPG 計(jì)算與 RDQN 相同。

2.3.4訓(xùn)練過程

(1)初始化LSTM-Actor和LSTM-Critic的策略網(wǎng)絡(luò) θμ 和價(jià)值網(wǎng)絡(luò) θQ ,初始化樣本經(jīng)驗(yàn)和環(huán)境;(2)actor根據(jù)行為策略選擇一個動作 k 并執(zhí)行返回獎勵 r 和新狀態(tài) s :(3)智能體將 (s,k,r,s) 存入經(jīng)驗(yàn)池;(4)智能體從經(jīng)驗(yàn)池中隨機(jī)抽取一組數(shù)據(jù)(s,k,r,s) ;(5)計(jì)算 網(wǎng)絡(luò)的梯度,使用均方誤差方法計(jì)算 網(wǎng)絡(luò)的損失函數(shù) L ·(6)利用隨機(jī)梯度下降算法更新在線價(jià)值網(wǎng)絡(luò) 的參數(shù) :(7)使用軟更新的方法來更新目標(biāo)策略網(wǎng)絡(luò) μ 和目標(biāo)價(jià)值網(wǎng)絡(luò) Q :(8)重復(fù)步驟(2) ~ (7)直到最大時(shí)間步或收斂。

3算例分析

3.1搭建仿真環(huán)境

以某工業(yè)泵系統(tǒng)供水情況為訓(xùn)練場景,供水采用4臺變頻泵,3用1備,采用并聯(lián)供水方式,變頻泵參數(shù)如表1所示。

根據(jù)第2節(jié)獎勵函數(shù)設(shè)計(jì)、多智能體算法設(shè)計(jì)以及LSTM-DNN基本原理,設(shè)置多智能體網(wǎng)絡(luò)和參數(shù)如表2所示。DQN和DDPG智能體均在輸入層后嵌入由64個隱藏單元數(shù)構(gòu)成的LSTM層。

強(qiáng)化學(xué)習(xí)過程中,兩個智能體采用集中訓(xùn)練和分散執(zhí)行的方式進(jìn)行訓(xùn)練,兩個智能體共享泵系統(tǒng)環(huán)境狀態(tài),每個智能體根據(jù)自己的策略進(jìn)行獨(dú)立決策,單獨(dú)維護(hù)自己的經(jīng)驗(yàn)池。

表1水泵性能參數(shù)

表2兩種算法超參數(shù)設(shè)置

3.2結(jié)果分析

采用所提方法用夏季某8天供水需求進(jìn)行訓(xùn)練,DQN和DDPG多智能體累計(jì)獎勵如圖5所示。

圖5多智能體累計(jì)獎勵

可以看出,多智能體在第82個步長開始收斂,隨后在獎勵值1000左右開始小幅度震蕩,主要原因是獎勵函數(shù)中引入泵系統(tǒng)總能耗作為懲罰,泵系統(tǒng)在不同工況下能耗波動引起累計(jì)獎勵震蕩。

為進(jìn)一步驗(yàn)證算法的有效性,選取該工業(yè)泵系統(tǒng)冬季某4天供水?dāng)?shù)據(jù)作為測試集,運(yùn)行結(jié)果如圖6所示。可以看出,隨著需水量的變化,智能體通過調(diào)整泵運(yùn)行的臺數(shù)和電機(jī)的頻率,能夠滿足該泵系統(tǒng)在 20~130m3/h 的周期性需求變化。

圖6泵系統(tǒng)流量訓(xùn)練對比

通過設(shè)計(jì)泵系統(tǒng)頻繁啟停懲罰 Ps ,在供水需求劇烈變化的過程中,DQN算法控制的泵未發(fā)生頻繁啟停及運(yùn)行臺數(shù)躍遷,避免了管道劇烈波動及水錘事故的發(fā)生。DDPG算法控制電機(jī)的頻率(調(diào)速比),在泵系統(tǒng)供水需求改變后,自動調(diào)節(jié)泵轉(zhuǎn)速,使調(diào)速比在 0.5~1 之間變化,結(jié)果如圖7、圖8所示。

圖7泵系統(tǒng)開啟臺數(shù)

泵系統(tǒng)在不同時(shí)間段的效率如圖9所示。式(17)中設(shè)置 ηmin=78% ,可以看出,在多智能體控制下,泵效率大部分時(shí)間大于 78% ,說明泵系統(tǒng)運(yùn)行良好。部分時(shí)段效率低于 78% 主要原因是效率獎勵 Re 設(shè)計(jì)不太合理,使在泵系統(tǒng)實(shí)際效率最優(yōu),即為 85% 的情況下,與 ηmin 的差值僅為0.07,導(dǎo)致效率獎勵貢獻(xiàn)的正獎勵占總獎勵的權(quán)重過小,控制效果不明顯。后續(xù)將放大 5~10 倍的效率獎勵,增大其占總獎勵的權(quán)重來進(jìn)一步優(yōu)化。

圖8泵系統(tǒng)調(diào)速比

圖9泵系統(tǒng)效率

3.3對比分析

對比人工控制與多智能體控制結(jié)果,如圖10和表3所示。

圖10能耗對比圖

表3能耗結(jié)果對比

從圖10可以看出,多智能體控制下,系統(tǒng)能耗隨用戶需求變化而實(shí)時(shí)變化,而人工控制下系統(tǒng)能耗呈現(xiàn)階梯型。說明多智能體通過泵啟停臺數(shù)控制與變頻調(diào)速控制實(shí)現(xiàn)多設(shè)備協(xié)同的節(jié)能優(yōu)化控制,相較于人工控制的單一控制模式,多智能體優(yōu)化控制響應(yīng)性好,調(diào)節(jié)范圍更加靈活,達(dá)到了本文預(yù)期目標(biāo)。

從表3可以看出,在保證供水需求的情況下,采用DQN和DDPG算法的多智能體可以有效降低泵系統(tǒng)能耗,相對人工控制節(jié)能15.81% ,說明應(yīng)用本文提出的多智能體控制方法與策略,不僅能滿足用水需求,各水泵均處于高效區(qū),且在用水需求變化劇烈時(shí),具有較好的響應(yīng)性,實(shí)現(xiàn)泵系統(tǒng)節(jié)能優(yōu)化控制。

4結(jié)論

為解決泵系統(tǒng)節(jié)能控制優(yōu)化過程中多設(shè)備協(xié)同控制的問題,提出一種基于DQN和DDPG算法的多智能強(qiáng)化學(xué)習(xí)泵系統(tǒng)節(jié)能控制優(yōu)化策略,采用兩種算法分別控制水泵啟停臺數(shù)和水泵轉(zhuǎn)速,同時(shí)在算法中嵌入LSTM網(wǎng)絡(luò)層,通過提取泵系統(tǒng)歷史數(shù)據(jù)中的有效信息增強(qiáng)智能體決策能力。結(jié)果證明,基于多智能體強(qiáng)化學(xué)習(xí)的泵系統(tǒng)響應(yīng)性好、調(diào)節(jié)范圍更加靈活,較人工控制節(jié)能 15.81% ,節(jié)能優(yōu)化性能較好。

參考文獻(xiàn):

[1]吳玉珍,胡承煒,陳乃鏑.泵系統(tǒng)能耗評估與節(jié)能建議的探討[J].化上設(shè)備與官道,2022,59(3):59-65.

[2]甄巖,袁健全,池慶璽,等,深度強(qiáng)化學(xué)習(xí)方法在飛行器控制中的應(yīng)用研究[J].戰(zhàn)術(shù)導(dǎo)彈技術(shù),2020 (4):112-118.

[3]王遠(yuǎn)大.機(jī)器人深度強(qiáng)化學(xué)習(xí)控制方法研究[D].南京:東南大學(xué),2020.

[4]羅印,徐文平.基于改進(jìn)強(qiáng)化學(xué)習(xí)的機(jī)器人雙足步態(tài)控制方法[J].傳感器與微系統(tǒng),2023,42(9):9-13.

[5]謝黎龍,李勇匯,范培瀟,等.基于深度強(qiáng)化學(xué)習(xí)的孤立多微電網(wǎng)系統(tǒng)頻率和電壓綜合控制[J].電力自動化設(shè)備,2024,44(6):118-126.

[6]張有兵,林一航,黃冠弘,等.深度強(qiáng)化學(xué)習(xí)在微電網(wǎng)系統(tǒng)調(diào)控中的應(yīng)用綜述[J].電網(wǎng)技術(shù),2023,47(7):2774-2788.[7]時(shí)高松,趙清海,董鑫,等.基于PPO算法的自動駕駛?cè)藱C(jī)交互式強(qiáng)化學(xué)習(xí)方法[J].計(jì)算機(jī)應(yīng)用研究,2024,41(9):2732-2736.[8]陳財(cái)會,張?zhí)煊?,黃健康,等.基于DQN 算法的泵站供水系統(tǒng)節(jié)能控制優(yōu)化[J].凈水技術(shù),2024,43(4):60-67.

[9]王濤,于澤沛,時(shí)斌,等.基于LSTM與DDPG的空調(diào)能耗優(yōu)化控制策略[J].計(jì)算機(jī)與數(shù)字工程,2024,52(11):3439-3445.[10]檀朝東,蔡振華,鄧涵文,等.基于強(qiáng)化學(xué)習(xí)的煤層氣井螺桿泵排采參數(shù)智能決策[J].石油鉆采工藝,2020,42(1):62-69.[11]韓智聰.基于強(qiáng)化學(xué)習(xí)的暖通空調(diào)冷卻側(cè)節(jié)能優(yōu)化控制方法研究[D].蘇州:蘇州科技大學(xué),2023.

[12]侯慧敏,周冬蒙,田俊姣,等.變頻調(diào)速水泵裝置變速特性試驗(yàn)研究[J].水電能源科學(xué),2020,38(6):154-157.

[13]ZHANGYZ,ZHUJR,WANGHY,etal.Deep reinforcementlearning-basedadaptive modulationforunderwater acousticcommunicationwith outdated channel state information[J].RemoteSensing,2022,14(16):3947.

[14]YANN,HUANG SB,KONG C.Reinforcement learning-basedautonomousnavigationand obstacle avoidance for USVsunderpartiallyobservableconditions[J].Mathematical ProblemsinEngineering,2021:5519033.

[15]劉家池,陳秀梅,鄧婭莉.基于改進(jìn)DDPG-PID 的芯片共晶鍵合溫度控制[J].半導(dǎo)體術(shù),2024,49(11):973-980.

[16]HAUSKNECHT M,STONE P.Deep recurrent q-learning forpartially observable MDPs[J].Computer Science,2015 (7):06527.

主站蜘蛛池模板: 亚洲无码日韩一区| 免费高清a毛片| 黄色免费在线网址| 日韩在线永久免费播放| 国产成人高清精品免费5388| 国产主播福利在线观看| a级毛片在线免费观看| 免费人成黄页在线观看国产| 在线观看91精品国产剧情免费| 真实国产精品vr专区| 免费毛片全部不收费的| 国模粉嫩小泬视频在线观看| 国产制服丝袜无码视频| 久久semm亚洲国产| 亚洲精品卡2卡3卡4卡5卡区| 国产精品福利在线观看无码卡| 免费激情网站| 久草视频中文| 欧美日韩v| 久久久久无码精品| 熟女视频91| 在线视频一区二区三区不卡| 综合人妻久久一区二区精品 | 美女裸体18禁网站| 国产在线视频自拍| 天堂中文在线资源| 亚洲国产成人久久77| 国产黄色片在线看| 亚洲香蕉久久| 亚洲A∨无码精品午夜在线观看| 国产在线小视频| 人人91人人澡人人妻人人爽| 在线观看国产精美视频| 99伊人精品| 欧美性久久久久| 国产精品网址你懂的| 老司机精品久久| 国产成人无码综合亚洲日韩不卡| 亚洲成年人网| 亚洲国产在一区二区三区| 全部免费毛片免费播放| 久久精品无码国产一区二区三区| 99国产在线视频| 国产精品9| 欧美不卡视频一区发布| 久久综合婷婷| 午夜视频免费一区二区在线看| 日本免费一级视频| 伊人91在线| 久久国产精品夜色| 亚洲另类第一页| aa级毛片毛片免费观看久| 男人天堂伊人网| 色综合狠狠操| 自拍偷拍欧美| 欧美成人怡春院在线激情| 欧美日韩国产在线观看一区二区三区 | 男女猛烈无遮挡午夜视频| 国产成人精品在线| 亚洲第一页在线观看| 亚洲福利视频网址| 国产 在线视频无码| 99热这里只有精品免费国产| 国产成人精品视频一区二区电影 | 日韩免费成人| 国产玖玖视频| 毛片网站在线看| 福利一区在线| 日本久久久久久免费网络| 伊人无码视屏| 99视频在线免费| 国产一区二区三区视频| 19国产精品麻豆免费观看| 亚洲天堂在线免费| 国产成人高清在线精品| 久久香蕉欧美精品| 国产在线日本| 欧美精品三级在线| 无码综合天天久久综合网| 在线免费不卡视频| 日韩在线成年视频人网站观看| 国产精品福利一区二区久久|