關鍵詞:海上風電;無線傳感網絡;能效優化;多智能體深度強化學習;自適應噪聲策略 中圖分類號:TP399;TN926 文獻標志碼:A 文章編號:1001-3695(2025)08-032-2490-07 doi:10.19734/j.issn.1001-3695.2024.12.0520
Energy efficiency optimization of sensor nodes in offshore wind farm based on multi-agent deep reinforcement learning
JiaLinpengl,WangXiaol?,HeZhiqin1,WuQinmul,YinYaohua2 (1.ColegeofElectricalEnginerin,GuzhouUniersityGuang5O,hina;2.Guangngneeingopraoid POWERCHINA,Guiyang550081,China)
Abstract:Theeficientoperationofofshorewindfarmsreliesonmonitoringdatafrom wirelessensornetworks.Thisstudy identifiedthelackofefectiveenergyeficiencyoptimizationfornodedeploymentandcommunicationinofshorewindfarmscenarios.To address this,this paper proposed anoptimizationscheme usingamulti-agentdepdeterministic policygradient algorithm.Considering limitednodeenergyandofshorecommunicationchalenges,theschemeoptimized sensingandcommunicationstrategiesthroughmulti-agentcollaboration,reducingenergyconsumptionandimprovingnetworkcoverageanddatatrasmision.Adaptive noise,priorized experiencereplay,andatailoredreward function further enhanced learning eficiencyand energy performance.Experiments show that the proposed scheme increases node energy efciency by 26% over DDPG and achieves training speeds 33% and 48% faster than DDQN and SAC algorithms.
Key words:offshore wind farms;wirelesssensor network(WSN));energy eficiencyoptimization;multi-agent deepreinorcement learning;adaptive noise strategy
0 引言
隨著全球可再生能源需求的不斷增長,海上風電場作為一種清潔、可再生的能源形式,已經成為世界能源結構轉型的關鍵。然而,海上風電場由于其地理位置特殊、氣候環境復雜,面臨著與陸上風電場不同的維護和監測挑戰[1~3]。風電場的高效運行依賴于大量的監測數據,這些數據來自分布在風場中的無線傳感器網絡。無線傳感器網絡被用于實時采集風力發電機的運行狀態、氣象數據等關鍵信息[4]。無線傳感器網絡在海上風電場中的應用面臨多個挑戰。首先,傳感器節點具有有限的能量資源,通常依賴電池供電,且補充能源的機會非常有限[5.6]。因此,如何在維持高效通信的同時減少能耗至關重要。其次,海上風電場的地理分布廣闊,節點之間的距離較遠,通信環境復雜,存在信號干擾、路徑損耗等問題。此外,風電場中的監測需求是動態的,不同的節點需要根據風機的運行狀況和環境變化適時調整通信頻率和功率。
目前,有較多學者從能量協作[、數據通信效率8和數據聚合策略9等方面對無線傳感器網絡中的能耗優化進行了研究。文獻[7利用博弈論優化具有能量收集能力的融合中心和多天線傳感器節點之間的協作能量消耗,該方法雖然提高了能源效率,但文獻假設的能量收集和協作模型更適用于固定或半動態場景,而海上風電的風速、潮汐和濕度等環境特性動態變化較大,可能導致優化策略難以實時適應。文獻[8]提出了一種針對資源受限的物聯網設備的能量高效數據通信方案,該方案雖然延長了網絡生命周期并提高了通信效率,但此方法主要關注物聯網設備的資源受限問題。文獻[9]針對節點初始能量不同的無線傳感器網絡,提出了一種數據聚合算法,該算法能降低網絡能耗。但由于外部環境對節點能耗有影響,一定程度上忽略了此類動態特性對能耗的重要性。上述方法對于海上風電場景下的無線傳感器網絡這一特殊場景考慮不足:a)傳統優化方法較為被動,對海上復雜多變的環境缺乏自適應性;b)大多數文獻注重傳感器節點能量消耗,忽略海上風電機組監測系統中的復雜性以及能耗敏感性。
隨著深度強化學習(deepreinforcementlearning,DRL)在海上風電場中的應用研究,基于DRL的優化方法逐漸被應用于無線傳感器網絡的資源調度和能效管理[10~12]。相比傳統的啟發式優化方法[13.14],深度強化學習能夠處理高維狀態和連續動作空間,尤其適合復雜動態環境下的優化問題。特別是,多智能體深度強化學習因其能夠通過多個智能體的協同學習提升整體網絡的優化效率,成為解決無線傳感器節點能效問題的有效手段。因此,針對風電機組無線傳感器網絡節點能效優化,提出海上風電場景下基于多智能體深度確定性策略梯度(multi-agent deepdeterministicpolicygradient,MADDPG)算法的優化方案。總結如下:a)在節點能量有限的情形下,最大化節點單位能量所能傳輸的數據量;b)通過智能體協同優化傳感器節點的發射功率和感知半徑,最大限度減少節點能耗,并提高網絡的覆蓋率和數據傳輸效率。
針對海上風電場景中隨時間變化的網絡狀態,本文將系統優化問題建模為基于無模型的多智能體深度強化學習能效優化模型。為應對多智能體在高維空間中的探索與利用平衡問題,提出了一種自適應噪聲策略以提升能效優化的效率。此外,采用優先級經驗重放技術進一步加速多智能體訓練過程,增強模型在動態復雜環境中的適應性和收斂速度。
1模型構建和問題描述
1.1 系統模型
在海上風電機組中,無線傳感器節點的部署和能效優化是確保風電機組安全運行和數據傳輸穩定性的關鍵。為此,首先建立一個無線傳感器網絡監測系統模型。模型基于以下假設:a)所有節點部署在同一平面內,該平面的對稱軸為風電機組的傳動軸,節點的初始部署經過優化,確保覆蓋關鍵監測區域。b)節點的能量消耗由其感知半徑和發射功率決定。當節點能量低于某一閾值時,將自動進入低功耗休眠模式,暫停不必要的感知和通信任務。風電機組可為傳感器節點提供能量補充,恢復節點的正常功能。c)基站位于風電場的中心位置。在基站通信范圍內,所有傳感器節點可以直接與中央基站通信,忽略節點之間的多跳通信。d)節點可以根據環境狀態動態調整其感知半徑和發射功率。e)網絡中的節點之間不存在相互干擾,每個節點獨立感知環境并向基站傳輸數據。
系統整體概念模型如圖1所示。此系統中基站覆蓋半徑為 R ,不同的風電機組對應著不同的覆蓋半徑。在以該基站為圓心、半徑 R 的圓形區域內,部署無線傳感器節點感知風電機組的運行狀態數據。在傳動系統所覆蓋區域內,有數量為 N 的無線傳感器,無線傳感器組成感知半徑和發射功率可以動態調整的無線傳感器節點,記作集合 N = {" T "1 ", T 2 ", … , T"i ",…, T _"n }, n?N 每一個節點有一個有限的能量儲備,節點能量消耗與其發射功率和感知半徑有關。相應地,用二值變量 ζi∈{0,1} 表示節點 i 是否進入低功耗休眠模式,當節點能量過低時,傳感器節點進入休眠模式,此時海上風電機組可以作為能源來源為傳感器節點供電。節點與基站之間采用時分多址接入,即任意時刻,至多有一個無線傳感器節點向基站傳輸數據,用二值變量 φi∈{0,1} 表示節點 i 是否與基站接通并上傳數據。最后,風電機組基站將數據傳輸到其他海上風電機組基站直至目的地進行下一步處理。
圖1海上風電無線傳感器系統整體概念模型 Fig.1Overall conceptual model of offshore wind power wireless sensor system
1.2 通信模型
在該系統中,傳感器節點不僅需要監測風電機組的運行狀態,還需要通過無線通信將數據傳輸至中心基站。由于海上風電場的環境較為寬廣,節點與基站之間的通信質量會直接影響系統的整體性能[15~17]。為模擬實際通信環境,采用自由空間路徑損耗作為節點與基站通信損耗,同時考慮到風速、海浪高度等環境因素對信號傳播的影響,路徑損耗可以表示為
其中: L0 為參考路徑損耗,由式(2)給出; λ 為路徑損耗指數,開闊海面可視為室外開放環境,取 λ=2;di 為節點與基站的距離,由式(3)給出; ηw 為風速敏感系數,范圍為 0.05~0.15dB/ m/s ,本文取 ηw=0. 1;ηh 為海浪高度敏感系數,海浪高度每米導致 0.1~0.5 dB 增益變化,取 ηh=0.2;Vw 表示風速,單位為m/s;Hh 表示海浪高度,單位為 m 。
其中: d0 是參考距離,取 d0=1 ,單位為 m;fc 為載波頻率,單位為 Hz;c 代表光速,取 3×108 ,單位為 m/s;di 表示節點與基站的歐氏距離。
信道模型為一般化模型,同時考慮視距路徑 hL0S 增益和非視距路徑增益 hNLOS 的影響,則傳感器節點與基站之間的信道增益公式如下:
hi=hL0S+hNLOS
其中:視距路徑增益 hL0S 與距離相關指數由式(5)給出;由于多路徑效應,認為傳感器節點與基站之間的非視距路徑增益hNLOS 服從瑞利分布 hi~R(0,σh2) σh2 為信道增益的方差,本文取 σh2=0.05 。
其中: ηd 為距離衰減系數,本文取 ηd=0.01 。
設 Pitx 為節點向基站的發射功率,考慮海上風電場景下的環境噪聲,則節點到基站的信噪比公式為
其中: ηn 表示噪聲放大系數,本文取 ηn=2;ξ 表示高斯噪聲分量: ξ~N(0,σξ2) , σξ2 為噪聲方差,取 σξ2=0.01;N0 為高斯噪聲功率。
根據香農定理和式(6)得出節點與基站之間的信道容量Ci 為
Ci=B?log2(1+SNR)
其中: B 為信道帶寬,單位為 MHz 。
1.3能量消耗模型
傳感器節點的能量消耗可以分為感知能耗和通信能耗兩部分。感知能耗與節點的感知半徑相關,感知半徑越大,能量消耗越高。通信能耗則與節點的發射功率和信道質量相關。節點在監測風電機組的感知能耗 Eisense 和在傳輸數據時產生的通信能耗 Eicomm 由式(8)(9)給出。
Eisense=β?ri2
其中 :β 為感知半徑能耗比例因子,取 β=0.03;τ 為通信時長,取 τ=1 ,單位為s。
除此之外,海上風電場景下的特殊環境也會影響到能耗,計算無線傳感器節點的能耗需結合海上風電場景下的環境特性。考慮到風浪對傳感器的功率需求有一定的影響,結合環境動態特性則總能耗可表示為
其中: ηc 為環境狀態對能耗影響的敏感系數,取 ηc=0.005 。
1.4 問題描述
在海上風電機組的監測系統中,多個無線傳感器節點被部署在風電場的關鍵區域。這些傳感器節點負責監測風電機組的運行狀態,并通過無線通信將數據傳輸至中心基站。一般認為,節點的位置在部署完成后是固定的,但系統需要動態調整每個節點的感知半徑和發射功率,以應對不斷變化的環境狀態。在保證覆蓋率的前提下,這種調整需要提高傳輸率的同時盡量減少能量消耗。由于傳感器節點的能量有限,如何在保證系統監測覆蓋率的同時最大化能量效率是一個關鍵問題。
基于上述問題,通過優化傳感器節點的感知半徑和發射功率盡可能提高能源利用效率,因此優化主要集中在動態調整節點的感知半徑和通信發射功率上,從而實現以下兩個核心目標:最大化區域覆蓋率和最小化能量消耗。為達到這些目標,本文將優化問題形式化為一個以能效最大化為核心的優化問題。該問題可以表述為:在保證最低信噪比和覆蓋率約束的前提下,優化每個無線傳感器節點的發射功率和感知半徑,最大化系統的能量效率。假設 Di 為 χt 時刻內節點向中央基站傳輸的數據量,則優化問題表述為 Pl 。
s.t.Ci≥Cmin
SNR=SNRmin
Pmintx?Pitx?Pmaxtx
rmin?ri?rmax
0?xi?Lx,0?yi?Ly
0?Ei?Eint
式(11)為衡量節點單位能耗下所發送的數據量,作為節點能源效率的度量方式;約束式(11a)(11b)是為了保證通信的質量,要求節點與基站之間的通信信道滿足最低的通信容量和信噪比要求;約束式(11c)(11d)為傳感器節點的發射功率和感知半徑上下限約束,其中約束式(11d)為傳感器的位置約束,傳感器只能部署在一定的空間范圍內,超出監測區域的部署是無效的;約束式(11f)是對任意時刻無線傳感器節點低功耗模式節點數量和與基站通信節點數量的約束;約束式(11g)為無線傳感器的電量限制。
優化問題P1具有多個局部最優解,在復雜多變的海上風電場景下,環境的動態特性使得無線傳感器網絡節點的分布方式與節點狀態高度依賴。傳感器節點的感知半徑和發射功率均為連續可調參數,這類連續動作空間的優化問題難以通過離散化方法有效求解。為應對這一挑戰,深度確定性梯度(deepdeterministicpolicygradient,DDPG)算法以其在連續動作空間優化中的優勢,能夠高效處理復雜的決策問題。并且,由于傳感器節點的狀態和動作均處于高維空間,傳統單智能體強化學習方法在應對多個智能體的協同優化問題時表現不足,容易在復雜環境中陷入過度探索或探索不足的困境。針對上述問題,本文在傳統深度強化學習算法的基礎上,將多智能體深度強化學習應用于海上風電場景的無線傳感器節點能效優化問題中,提出一種適用于動態復雜環境的能效優化策略,旨在實現節點間的高效協同和能耗均衡。
2基于MADRL的無線傳感器網絡節點能效優化
深度強化學習算法通過與環境的交互不斷學習優化策略,能夠在環境動態變化的情況下逐步調整智能體的行為[18~20]。在海上風電監測系統中,每一個節點可作為一個智能體,這些智能體可以獨立感知環境、執行動作,同時通過協作完成復雜任務。
2.1DRL算法選擇與優化問題分析
深度強化學習通過將深度學習與強化學習相結合,利用深度神經網絡逼近復雜的值函數或策略函數,能夠高效處理具有高維狀態空間和復雜控制任務的優化問題。在海上風電場的動態復雜環境中,傳感器節點的感知與通信狀態優化可建模為一系列馬爾可夫決策過程(Markovdecisionprocess,MDP)。在這一框架中,傳感器節點通過與環境的交互,以環境狀態作為輸入,智能體根據提取的狀態特征輸出策略或動作。通過對動作效果的獎勵或懲罰,智能體不斷修正其決策,最終形成能夠最大化長期獎勵的優化策略。通過重復這一學習過程,智能體逐步掌握在復雜環境中動態調整行為的能力,以實現實時響應和高效控制。
在忽略外部環境擾動的情況下,傳感器節點的感知與通信優化問題可以進一步抽象為連續動作空間的優化任務。DDPG算法作為解決連續控制問題的經典方法,能夠根據不同的環境狀態輸出相應的最優動作。然而,由于連續空間中的探索與利用(exploration-exploitation)平衡較為復雜,DDPG算法在訓練過程初期易陷入局部最優,未能充分探索可能的策略空間。隨著訓練的深人,算法若不能有效收斂至最優策略,則會導致性能波動或優化效率下降。因此,考慮在策略網絡生成的動作輸出階段加入噪聲從而增加策略的隨機性,一定程度增強了智能體的探索能力。然而,噪聲幅度過大可能導致策略輸出波動過大,進而影響模型性能。如何動態調整噪聲幅度成為優化的關鍵。
2.2 DRL算法基礎與設計
本文采用多智能體深度確定性策略梯度算法(MAD-DPG),將傳感器節點建模為獨立智能體,通過協同學習實現監測覆蓋率的最大化和系統能耗的最小化。針對已有的DDPG算法,本文引人優先經驗回放(prioritizedexperiencereplay,PER)設計動態優先級計算方式,優先學習對策略改進影響較大的樣本以提升訓練效率;為提高智能體的長期決策能力,定義了合理的獎勵函數以更好地捕捉長期回報;在MADDPG訓練過程中,提出基于熵的自適應噪聲添加策略動態調整探索程度。
深度強化學習通過深度神經網絡逼近復雜的動作價值函數 Qπ(s,a) 和策略函數 π(a|s) ,從而高效解決高維狀態空間和復雜控制任務的優化問題。MADDPG算法作為DRL的核心算法之一,在處理多智能體協同優化任務方面具有顯著優勢[21,22]。為了實現傳感器節點的能效優化,本文從算法設計的關鍵要素入手,對涉及的核心模塊進行了合理設計和優化。
a)狀態空間設計(statespace):在海上風電場的傳感器網絡模型場,狀態空間包括節點的感知半徑 ri 、發生功率 Pitx 剩余能量 Ei 、與基站的距離 di 以及信道狀態 hi ,將節點的狀態向量表示為 S=[ri,Pitx,Ei,di,hi] 。
b)動作空間設計(actionspace):動作空間設計為連續可調的決策變量,包括無線傳感節點動態調整的感知半徑 Δri 和發射功率 ΔPitx ,將動作向量表示為 A=[Δri,ΔPitx] 。
c)獎勵函數設計(rewardfunction):獎勵函數的設計直接影響深度強化學習算法的優化方向。在深度強化學習中,智能體每次執行動作后都會從環境中獲得一個即時獎勵,但即時獎勵往往無法全面反映總體優化目標。合理的獎勵函數設計能夠有效引導智能體朝著最大化長期回報的方向前進。為此,本文設計了以下獎勵函數:
其中:等號右邊第一項是針對單個無線傳感器節點向基站發射數據的能源效率獎勵;第二項是針對無線傳感器節點進入睡眠模式的懲罰,避免無線傳感器節點進入低功耗休眠模式過多而犧牲覆蓋率的自私行為; α1 與 α2 分別為各項的權重系數。
d)折扣回報(disconnectedreturn):總體獎勵是通過即時獎勵的累積評估得到的。為了衡量未來獎勵對當前決策的影響,引入折扣因子,計算方式為
Gt=rt+γ?rt+1+γ2?rt+t+…=rt+γGt+1
e)優先經驗回放(PER):優先經驗回放機制通過動態調整樣本的重要性,提高了樣本利用效率[21,22]。時間差分誤差(timedifferenceerror,TD-error)能夠在一定程度上反映神經網絡對動作價值評估的準確性。基于TD-error的大小,為每個樣本分配不同優先級,優先選擇誤差較大的樣本進行學習,從而加速模型收斂并減少訓練時間。然而,TD-error較小的樣本在采樣過程中可能被忽略,導致數據利用不充分,進而使模型陷人局部最優解。為解決這一問題,合理設計優先級分配機制是關鍵。當TD-error的絕對值較高時,表明神經網絡對動作價值的預測可信度較低,需賦予較高權重,以減少預測誤差。同時,系統在特定狀態下的能效也可作為衡量智能體動作價值的重要指標。因此,在優先級計算中需綜合考慮TD-error和能效的影響,本文設計了以下優先經驗回放的優先級函數:
Pri=ω?δt+(1-ω)?E(t)+ε
其中: ω 是經驗優先級控制參數; E(t) 是與能效相關的函數; ε 是一個大于0的小常數,使得優先級函數值為正值,同時也防止樣本優先級過低被忽略,通常為經驗值,取 ε=10Ω-4 。得到樣本的優先級值后,可以計算出每個樣本的采樣概率,得到優先級較高的經驗樣本,確保這些經驗能得到足夠的訓練以提高網絡訓練效率。
f)自適應噪聲策略(adaptivenoisestrategy):本文引人動態平衡探索與利用機制以保持探索與利用之間的平衡[23.24]。通過結合策略熵調整噪聲幅度,確保智能體在早期階段充分探索環境,在后期階段高效收斂到最優策略。策略熵由式(15)給出,噪聲的自適應更新公式由式(16)給出。
H(π)=-Ea~π(logπ(a∣s))
其中: Ni 表示當前噪聲幅度; σmin 和 σmax 為預設噪聲幅度閾值,噪聲幅度過低會限制探索,過高則會引人過多隨機性; Hi 表示每個智能體的策略熵; ΔH 為熵的預設閾值,當前智能體策略網絡的熵 Hi 和預設閾值 ΔH 的差可以反映當前網絡策略的訓練情況; κ 是一個超參數,控制噪聲衰減的速度。
2.3基于AMEO的節點能效優化算法
為了適應海上風電場復雜多變的環境,結合自適應噪聲探索策略,基于MADDPG算法提出了一種多智能體深度確定性策略梯度算法用于處理海上風電場景下的無線傳感器網絡能效優化,即 AMEO(adaptive MADDPG for energyoptimization)。該算法通過動態調整智能體的探索程度與優化節點的感知和通信策略來提升無線傳感器網絡的節點能效。詳見算法1。
算法1自適應多智能體深度確定性策略梯度節點能效優化(AMEO)算法輸入:無線傳感器節點坐標、節點數量。輸出:無線傳感器節點感知半徑、優化后的節點發射功率。for agent i=1,2,…,Tn do隨機初始化actor網絡參數 μ(s∣θiμ) 和critic網絡參數 Q(s,a∣Qiq) ;初始化目標網絡參數 θiμ?θiμ- , QiQ?QiQ- end forwhile episode ≤episode max初始化節點感知半徑、優化后的節點發射功率;fortimestep =1,2,…,T dofor agent i=1,2,…,Tn do根據狀態 Sti 選擇動作 Ati ,計算獎勵 rti ·計算當前策略的熵 Hti 并調節噪聲 Ni 結合噪聲探索動作空間,輸出動作 Ati- ,將動作 Ati* 賦給 Ati 交叉操作收集數據樣本 (Sti,Ati,rti,St+1i ),賦予優先級后存入經驗池 Y 更新actor網絡和critic網絡;根據目標網絡更新頻率更新目標網絡:θiμ*=ρθiμ+(1-ρ)θiμ*,θiQ*=ρθiQ+(1-ρ)θiQ*; end forend forend while
3 實驗結果與分析
本章基于Python3.12和PyTorch平臺,驗證本文提出的自適應多智能體深度確定性策略梯度算法的無線傳感器節點能效優化方案的有效性。通過分析仿真結果討論所提算法對傳感器節點的覆蓋率和能效的影響,以展示算法在收斂性、優化效果和不同部署場景下的表現。
3.1仿真參數設置
在區域S內,檢測任務在 100~1000KB 中隨機生成,時間按 1ms 劃分。雖然海上風電場景下對節點覆蓋率通常有較高的基線要求,但過度追求覆蓋率會導致能效下降,因此權重分配傾向于能效優化。為確保覆蓋率與能效之間取得良好的平衡,本文取 α1=0.7,α2=0.3 。對于每個智能體,初始噪聲幅度應足夠大以保證初期探索能力,噪聲衰減速率 κ 應適中,確保噪聲逐步衰減,避免過早喪失探索能力,將 κ 在 0.02~ 0.1內進行調整。仿真參數配置如表1所示。
表1仿真參數設置Tab.1Simulation parameter setting
3.2 收斂性分析
對于海上風電場景下針對海上風電機組無線傳感器節點所使用的自適應多智能體深度確定性策略梯度(AMEO)算法,在訓練過程中,智能體根據當前狀態選擇最優動作,不斷調整其感知半徑和發射功率,以達到系統的全局優化目標。運用此算法將智能體訓練1200回合,圖2展示了AMEO算法的收斂曲線。
圖2AMEO算法下智能體網絡損失-訓練回合收斂曲線 Fig.2Agent loss value-training episodes convergence curve usingAMEOalgorithm
從圖2可以看出,AMEO算法在前300回合主要用于探索,智能體調整各個節點的狀態參數以達到全局最優目標;在300~650 回合,智能體在早期探索的基礎上進一步精細化節點參數,使得能效和覆蓋率逐步提升;在650回合后,算法趨于穩定,表現出較好的收斂性和最優的網絡覆蓋和能效表現。
3.3差異化應用場景對比
傳感器節點的部署影響著算法的收斂速率以及網絡的能效和覆蓋率。為進一步驗證算法的性能,設計了兩種不同實驗場景,分別是場景A傳感器節點均勻分布在監測區域,場景B傳感器節點隨機分布,部分區域無法覆蓋。圖3展示了不同部署場景下傳感器節點能效與覆蓋率的變化曲線。
從圖3可以看出,由于節點分布均勻,場景A的初始狀態具有理想的覆蓋率和較小的能耗波動。因此,算法在此場景下收斂更快,最終覆蓋率達到 92.5% ,能效在短時間內快速提升。由于在隨機分布情況下,場景B的部分區域未被初始覆蓋,導致初始狀態下的系統性能較差。所提算法在非理想分布條件下通過學習節點的最優感知半徑和發射功率逐漸彌補覆蓋空缺,最終覆蓋率接近 89.2% 。在確保一定覆蓋率的前提下,仿真還分析了不同數量節點(6、12、18)在均勻分布場景中的能效變化曲線。圖4展示了在不同數量節點下系統能效變化曲線。
圖4不同數量智能體下節點能效-訓練回合收斂曲線 Fig.4Node energy efficiency-training round convergence curve underdifferentnumbers of agents
圖5AMEO優化前后無線傳感器節點能效對比 Fig.5Energy effciency comparison of wireless sensor nodes beforeandafterAMEOoptimization
實驗結果表明,隨著節點數量的增加,系統的能效有所提升。當節點較少時,由于覆蓋范圍有限,系統的能效提升較慢;節點適中時,系統性能顯著提高,節點之間的協同工作效率得到提升;當節點數量充足時,由于節點覆蓋率不再限制其能效,所以最大回報得到顯著提升,表明更多節點明顯地增強了系統的全局優化能力。但是當節點數量繼續增加時,能效不會再顯著增加,因為此時區域范圍內的節點數量已達到飽和,增加其節點數量反而會導致資源的浪費。因此在不同區域范圍內,適當地增加節點數量能夠顯著提高系統性能。
為直觀展現算法優化的效果,本文以均勻分布的四個節點為例,在保證一定網絡覆蓋率的前提下,給出了節點在調節感知半徑和發射功率過程中的能效優化情況。圖5展示了優化前后無線傳感器節點的能效對比。
3.4優化效果對比
為了進一步直觀了解AMEO優化方案的效果,本文給出節點經過優化后的能效對比,具體如圖6所示。圖6中,節點隨機分布于 xOy 平面, z 軸正方向表示節點的當前電量,3D圖形坐標中的球體體積表示能效的大小。
從圖6可以看出,隨機部署的節點初始能源效率分布雜亂,不合理;經優化后的節點體現為電量低的節點通過減小感知半徑和發射功率來降低其能耗,能效得到提升。然而,電量高的節點則承擔了更多的監測任務,能耗提高,增加其感知范圍,能效有一定程度降低。結果表明所提算法能夠靈活適應節點電量的變化,通過合理的策略分配提高了網絡整體能效,使得系統整體性能得到提升。
圖6優化前后風電機組內節點位置分布-當前電量-能效分布 Fig.6Wind turbine location distribution-current power-energy efficiencydistributionbeforeandafteroptimization
3.5 算法對比分析
為驗證AMEO算法在無線傳感器網絡能效優化中的有效性,本文將其與SAC(softactor-critic)、DDQN(deepreinforce-mentlearningwithdoubleQ-learning)DDPG以及隨機策略進行對比分析,比較各算法的收斂速度、回報值和穩定性等表現。
圖7為所提算法與單智能體算法DDPG、DDQN、SAC和隨機策略的對比表現。從圖7可以明顯看出,所提算法在收斂速度、回報值和穩定性方面均顯著優于其他算法。這主要得益于優先經驗回放、自適應噪聲策略以及多智能體協作等關鍵設計對算法性能的綜合提升。首先,優先經驗回放機制在加速收斂和提高學習效率方面發揮了重要作用。與傳統經驗回放機制相比,所提PER機制通過提升經驗利用率減少了低價值樣本的干擾,使得系統能夠集中精力學習關鍵經驗。這一設計直接體現為AMEO算法在訓練早期即可表現出快速收斂性能,在300次回合內回報值便迅速上升到較高水平。同時,PER機制通過動態更新經驗庫的優先級,有效降低了非關鍵經驗的負面影響,從而增強了算法的魯棒性和穩定性。在PER機制加速收斂的基礎上,自適應噪聲策略進一步優化了算法的探索和利用能力。在訓練初期,自適應噪聲幅度較大,使智能體具備更強的探索性,避免陷入次優解,并顯著擴大搜索范圍以提升系統覆蓋率;隨著訓練的深入,噪聲幅度逐漸減小,算法開始更加依賴已有的最優策略,減少了隨機性,從而在中后期實現穩定高效的收斂。通過噪聲策略的動態調整,AMEO算法在訓練的不同階段都能夠展現出優異的性能表現。進一步來看,多智能體協作則是AMEO算法的核心優勢所在。每個智能體在決策時不僅充分考慮了局部信息,還通過協同優化感知半徑和發射功率來提升全局性能。這樣的設計有效減少了冗余覆蓋和不必要的能耗,使系統在多場景下表現出更高的覆蓋率和更低的能耗。實驗結果表明,與傳統單智能體策略相比,本文算法能夠更好地適應復雜動態環境,特別是在海上風電場傳感器網絡的能效管理中展現了顯著優勢。
SAC 是一種基于最大熵原理的強化學習算法[25,26],通過在優化目標中引人策略熵項實現對探索與利用的平衡。與本文提出的自適應噪聲策略不同,SAC將策略熵直接作為優化目標的一部分,使智能體在最大化獎勵的同時保持足夠的隨機性,從而避免早期陷入局部最優。然而,這種方法帶來了額外的策略熵計算開銷,導致其收斂速度較慢,訓練效率較低。實驗結果表明,SAC在約500回合后才能穩定收斂,盡管其能夠確保智能體更廣泛地探索解空間,但在多智能體場景下,由于需要優化每個智能體的策略熵,其計算復雜度顯著增加。特別是在高維動作空間中,這種復雜性進一步放大,導致收斂速度受到明顯限制。相比之下,本文提出的自適應噪聲機制在實現探索與收斂平衡的同時大幅提升了算法的收斂速度,避免了SAC在最大熵策略下長時間探索的不足。總體而言,所提算法在效率與性能方面優于SAC,特別適合多智能體優化任務。
DDQN是用于處理離散動作空間的強化學習算法,通過對Q 值進行估計來選擇最優動作。在本研究的應用場景中,DDQN算法的最終回報值約為0.8,表明其在固定策略下能夠有效評估并選擇離散動作。然而,由于其策略的固定性和動作空間的局限性,DDQN在面對復雜動態環境時可能表現出較大的性能波動,尤其是在環境狀態頻繁變化的情況下,其表現受到顯著影響。處理連續問題的DDPG算法的最終回報值高于DDQN,顯示出其在復雜任務中的優勢。實驗結果說明DDPG相較于DDQN在處理復雜動態環境的無線傳感器網絡能效優化問題中表現出一定的優勢。
對于隨機策略而言,各節點隨機調整感知半徑和發射功率,無法保證系統的最優化效果,導致能量浪費較大,覆蓋率波動較大,收斂速度最慢且在整個訓練過程中回報值始終較低,回報值徘徊在0.5左右,且波動較大。由于缺乏學習和優化,無法有效提高系統性能,隨機策略表現出較差的回報值。這表明在復雜的環境中,隨機調整感知半徑和發射功率無法達到系統的最優。
總體而言,本文算法在節點部署與能效優化中表現出最優性能,尤其是在多智能體協作優化場景中,其優勢尤為顯著。相比之下,單智能體的DDPG算法、處理離散問題的DDQN算法和隨機策略無法有效處理復雜的多智能體任務,性能較差。
4結束語
本文提出了一種基于多智能體深度確定性策略梯度的無線傳感器網絡能效優化算法,旨在解決海上風電場場景中節點能量有限、通信環境復雜等問題。通過引入多智能體協作、自適應噪聲策略和優先經驗回放機制,算法實現了節點間的高效協同優化,使得在動態環境中傳感器節點的能耗得到顯著降低,網絡覆蓋率和數據傳輸效率均得到提升。研究結果表明,所提算法在復雜動態的海上風電場景下展現了出色的自適應性與穩定性,為風電機組在無線傳感器網絡的長期運行提供了一種高效的能效管理方案。
盡管本研究取得了一定成效,但在節點分布、環境狀態建模、能耗模型及計算資源限制方面仍存在一些不足。首先,實驗中假設節點位置固定且環境條件相對理想,但實際海上環境中的節點部署可能受到風電設備維護、海洋環境變化等不確定性因素的影響,將導致模型與實際場景之間存在偏差[27]。其次,本研究采用的能耗模型較為簡化,未全面考慮節點間可能的能量共享機制及其他傳輸優化策略[28-30]。當前研究僅考慮了風速和海浪高度對通信質量的影響,而未進一步引入其他可能的動態環境因素,如濕度、溫度等,這在一定程度上限制了模型對更復雜環境的適應能力。未來研究可從以下兩個方向進行改進:a)探索更加復雜和動態的節點分布方式,結合濕度、溫度、潮汐等更多動態變量,以更真實地模擬海上風電場的運行環境:b將多智能體優化方法與能量采集及能量共享技術相結合,進一步提升系統的魯棒性和可持續性。總之,本研究為海上風電場景中的無線傳感器網絡能效優化提供了重要的理論和實踐參考,并為動態復雜環境下的多智能體優化方法研究奠定了基礎。
參考文獻:
[1]Taboada JV,Diaz-Casas V,Yu Xi. Reliability and maintenance management analysis on offshore wind turbines(OWTs)[J].Energies, 2021,14(22) :7662.
[2]萬遠琛,王凱,初岳峰.海上風電運維的技術現狀和發展綜述[J]. 船舶工程,2020,42(12):20-25.(Wan Yuanchen,Wang Kai,Chu Yuefeng. Summary of technical status and development of ofshore wind power operation and maintenance[J].Ship Engineering,2020, 42(12) :20-25.)
[3]高晨,趙勇,汪德良,等.海上風電機組電氣設備狀態檢修技術研 究現狀與展望[J].電工技術學報,2022,37(S1):30-42.(Gao Chen,Zhao Yong, Wang Deliang,et al. Research status and prospect of condition based maintenance technology for ofshore wind turbine electrical equipment[J].Transactions of China Electrotechnical Society,2022,37(S1) :30-42.)
[4]El Khediri S. Wireless sensor networks:a survey,categorization,main issues,and future orientations for clustering protocols[J]. Computing,2022,104(8) :1775-1837.
[5]Das I,Shaw R N,Das S. Analysis of energy consumption of energy models in wireless sensor networks[M]//Innovations in Electrical and Electronic Engineering. Singapore:Springer,202O :755-764.
[6]張華南,金紅,王峰.無線傳感器網絡節能探索與研究[J].計算機 工程與科學,2021,43(2):295-303.(Zhang Huanan,Jin Hong, Wang Feng. Exploration and research on energy saving of wireless sensor networks[J].Computer Engineeringamp; Science,2021,43(2): 295-303.)
[7]Choubin M,Choobin M.Improving rate wireless sensor network with collaborative energy among nodes with fusion center and multiple antennas sensors using game theory and energy harvesting[J]. International Journal of Communication Systems,2024,37(7) :e5725.
[8]Hudda S,Haribabu K,Barmwal R. Energy efficient data communication for WSN based resource constrained IoT devices[J]. Internet of Things,2024,27:101329.
[9]Liu Zhenpeng,Zhang Jialiang,Liu Yi,et al.Data aggregation algorithm for wireless sensor networks with different initial energy of nodes[J]. PeerJComputerScience,2024,10:e1932.
[10]鄭冰原,孫彥贊,吳雅婷,等.基于DQN的超密集網絡能效資源管 理[J].計算機工程,2021,47(5):169-175.(Zheng Bingyuan,Sun Yanzan,Wu Yating,etal. DQN-based energy efficiencyresource management for ultra-dense network[J]. Computer Engineering,2021,47 (5) :169-175.)
[11]方和平,劉曙光,冉泳屹,等.基于深度強化學習的多數據中心一 體化調度優化[J].計算機應用,2023,43(6):1884-1892.(Fang Heping,Liu Shuguang,Ran Yongyi,et al. Integrated scheduling optimization of multiple data centers based on deep reinforcement learning [J].Jourmal of Computer Applications,2023,43(6):1884- 1892.)
[12]Zhao Bin,Zhao Xiaohui. Deep reinforcement learning resource allocation in wireless sensor networks with energy harvesting and relay[J]. IEEEInternet ofThingsJournal,2022,9(3):2330-2345.
[13]Kumar S,Agrawal R.A hybrid C-GSA optimization routing algorithm for energy-efficient wireless sensor network[J].Wireless Networks, 2023,29(5) :2279-2292.
[14]Shilpi,KumarA.Sensor node localization using nature-inspired algorithms with fuzzy logic in WSNs[J].Joumal of Supercomputing, 2024,80(19):26776-26804.
[15]王承祥,黃杰,王海明,等.面向6G的無線通信信道特性分析與 建模「J].物聯網學報,2020,4(1):19-32.(WangChengxiang, on Intermet of Things,2020,4(1):19-32.)
[16]魏特,王文浩,陳軍,等.環境信息輔助的海上無線信道測量與建 模[J].清華大學學報:自然科學版,2021,61(9):1002-1007. (WeiTe,WangWenhao,ChenJun,etal.Environmental informationaided maritime wireless channel measurement and modeling [J]. Journal of Tsinghua University:Science and Technology,2021, 61(9) :1002-1007. )
[17]Lukin AF,Tomilin AK,Gulkov AN,etal.Radio communication channel characteristics estimation in the marine environment[J]. Technical Physics,2024,69(4) :945-949.
[18]劉建偉,高峰,羅雄麟.基于值函數和策略梯度的深度強化學習綜 述[J].計算機學報,2019,42(6):1406-1438.(Liu Jianwei,Gao Feng,Luo Xionglin. Survey of deep reinforcement learningbased on value function and policy gradient[J].Chinese Journal of Computers,2019,42(6):1406-1438.)
[19]孫長銀,穆朝絮.多智能體深度強化學習的若干關鍵科學問題[J]. 自動化學報,2020,46(7):1301-1312.(Sun Changyin,Mu Chaoxu. Important scientific problems of multi-agent deep reinforcement learning [J]. Acta Automatica Sinica,2020,46(7) :1301-1312.)
[20]王雪鑒,文永明,石曉榮,等.多智能體多耦合任務混合式智能決 策架構設計[J].航空學報,2023,44(S2):418-425.(Wang Xuejian,Wen Yongming,Shi Xiaorong,et al.Design of hybrid intelligent decision framework for multi-agent and multi-coupling tasks[J].Acta Aeronauticaet Astronautica Sinica,2023,44(S2):418-425.)
[21]李夢麗,王霄,米德昌,等.災害場景下基于MADRL的信息收集 無人機部署與節點能效優化[J].計算機應用研究,2024,41(7): 2118-2125.(Li Mengli,Wang Xiao,Mi Dechang,et al. MADRLbased UAV deploymentand node efciency optimization for information collection in disaster scenarios[J].Application Research of Computers,2024,41(7) :2118-2125.)
[22]米德昌,王霄,李夢麗,等.災害應急場景下基于多智能體深度強 化學習的任務卸載策略[J].計算機應用研究,2023,40(12): 3766-3771,3777.(MiDechang,WangXiao,LiMengli,etal.Multiintelligence deepreinforcement learning-based task offloading strategy for disaster emergency scenarios[J]. Application Research of Computers,2023,40(12):3766-3771,3777.)
[23]Haarnoja T,Zhou A,Abbeel P,et al. Soft actor-critic:off-policy maximum entropy deep reinforcement learning with a stochastic actor[EB/ OL].(2018-01-04). https://arxiv.org/abs/1801.01290.
[24]Kobayashi T.Consolidated adaptive T-soft update for deep reinforcement learning[C]//Proc of International Joint Conference on Neural Networks. Piscataway,NJ:IEEE Press,2024 :1-8.
[25]Hao Dong,Zhang Dongcheng,Shi Qi,et al. Entropyregularized actorcritic based multi-agent deep reinforcement learning for stochastic games[J]. Information Sciences,2022,617:17-40.
[26]Duan Jingliang,Guan Yang,Li SE,et al.Distributional soft actorcritic:off-policy reinforcement learning foraddressing value estimation errors[J].IEEE Trans on Neural Networks and Learning Systems,2022,33(11) :6584-6598.
[27]Loughney S,Edesess AJ.Applications of industrial IoT and WSNs in Oamp;Mprogrammes for offshore wind farms[M]//Computational Sciences and Artificial Intelligence in Industry. Cham: Springer,2021: 223-245.
[28]Lo Monaco M,Russo C,Soma A.Energy management optimization of a gravitational energy harvester powering wireless sensor nodes for freight trains monitoring[J].Sustainable Energy Technologies and Assessments,2024,70:103964.
[29]Wang Yang,ChenJuan,Wu Zongling,et al. Eficient task migration and resource allocation in cloud-edge collaboration: a DRL approach with learnable masking[J].Alexandria Engineering Journal,2025, 111 :107-122.
[30] Wu Pengju,Guan Yepeng. Multi-agent deep reinforcement learning for computation offloading in cooperative edge network[J].Jourmal of Intelligent InformationSystems,2025,63(2) :567-591.
收稿日期:2024-12-09;修回日期:2025-02-13基金項目:國家自然科學基金資助項目(6186100);貴州省科技計劃資助項目(黔科合基礎-ZK[2021]一般303);貴州省科技支撐計劃資助項目(黔科合支撐[202]一般264,黔科合支撐[2023]一般096,黔科合支撐[2023]一般412,黔科合支撐[2023]一般409);資助項目(YJ2022-12);中國電力建設股份有限公司科技資助項目(DJ-ZDXM-2022-44)
作者簡介:賈林朋(199—),男,貴州六盤水人,碩士研究生,主要研究方向為海上風電監測系統、無線傳感器網絡;王霄(1985—),男(通信作者),黑龍江哈爾濱人,副教授,碩導,博士,主要研究方向為物聯網理論及應用、人工智能理論及應用(xwang9@gzu.edu.cn);何志琴(1974—),女,貴州遵義人,教授,碩導,博士,主要研究方向為電力電子運動控制技術;吳欽木(1975—),男,貴州銅仁人,教授,碩導,博士,主要研究方向為電機控制、深度學習、故障診斷;尹曜華(1994—),男,貴州貴陽人,碩士,主要研究方向為能源與動力綜合能源調控.