







摘 要 在大規模無線可充電傳感器網絡(WRSN)中,為了解決可分離充電模式下移動充電車(MCV)充電效率低下的問題,提出一種多充電器部分充電策略(PCSMC),以避免由于等待傳感器節點進行完全充電而導致剩余能量低的節點失效。首先將充電時長這種連續動作空間轉換為離散的動作空間,然后使用指針網絡規劃MCV的路徑并動態調整傳感器節點的充電時長,最后使用深度強化學習算法(DDQN)訓練指針網絡,從而生成近似最優解。仿真結果表明,與其他充電策略相比,PCSMC在失效節點數和平均充電延遲方面分別降低了23.56%和27.71%。
關鍵詞 無線可充電傳感器網絡 可分離充電模式 部分充電 指針網絡 深度強化學習
中圖分類號 TP29" "文獻標志碼 A" "文章編號 1000-3932(2024)06-1053-08
作為信息獲取的重要手段之一,無線傳感器網絡(Wireless Sensor Networks,WSN)在物聯網領域有著廣泛的應用[1,2]。然而能量約束問題一直是制約WSN發展的重要因素。隨著無線能量傳輸技術[3]的突破,在WSN中布署一個移動充電車(Mobile Charging Vehicles,MCV)可以有效緩解傳感器節點的能量饑餓現象,無線可充電傳感器網絡(Wireless Rechargeable Sensor Networks,WRSN)[4]也因此應運而生。MCV能夠為傳感器節點提供高效、及時的充電服務,且充電過程可控、可預測。從理論上講,為MCV設計一個良好的充電規劃能夠實現WRSN的永久運行。因此充電規劃的設計便成了WRSN中最核心的問題之一,引起了世界范圍內大量研究人員的關注。
為了實現WRSN中傳感器能量的有效補充,到目前為止,研究人員已經提出了許多移動充電模式[5,6],這些模式分為單MCV充電模式[7,8]、多MCV充電模式[9~11]和可分離充電模式[12~14]。
針對小規模的WRSN,由于充電請求的數量少,因此使用一個MCV即可滿足網絡中的充電請求。文獻[7]利用強化學習優秀的決策能力來解決充電規劃問題,提出了一種基于actor-critic強化學習算法的動態充電方案,根據當前環境狀態從全局規劃充電序列。在此基礎上,文獻[8]在規劃充電序列之后,根據傳感器節點的剩余能量和等待時間動態調整節點的充電時長,通過對節點進行部分充電解決了充電請求響應不及時的問題。
而對于大規模的WRSN,由于單個MCV很難及時響應急劇增加的充電請求,因此通常使用多個MCV來共同維持WRSN的正常運行。文獻[9]同時優化多個MCV的調度、移動時間和充電時間,將多MCV問題轉化為混合整數線性規劃問題進行求解。文獻[11]聯合考慮了多個MCV和多節點能量傳輸技術,提出了一種基于模糊邏輯的按需充電方案。該方案通過考慮各種網絡屬性,將網絡分區后利用模糊邏輯對多個MCV的充電路徑進行規劃,實現了較低的平均充電延遲和較高的能量利用率。然而在WRSN中布署多個MCV會導致網絡建設和運營成本過高。
在可分離充電模式中,一個MCV可以攜帶多個低成本、可分離的無線充電器為網絡中的傳感器節點充電,這提供了一種更高效、更具成本效益的解決方案。當網絡中的傳感器節點發送充電請求時,MCV依次移動到每個傳感器節點處并在其附近布署一個分離式無線充電器(Separable Wireless Charger,SWC)為其充電,等待所有SWC完成充電任務后再回收這些SWC。文獻[12]提出了一種改進的最早截至日期優先算法來布署SWC,然而由于回收算法的不合理導致需要使用大量的SWC,不適用于實際情況。在文獻[13,14]中,MCV在回收階段沿著充電階段的路徑回收SWC,有效減少了所需SWC的數量。
然而采用這3種方案中布署的SWC對傳感器節點進行完全充電時,一些剩余能量較低的節點因為等待時間過長而不能得到及時的能量補充,因此造成大量節點缺電失效。針對上述問題,筆者融合深度強化學習算法(Double Deep Q-Network,DDQN)和指針網絡對多SWC部分充電問題進行求解,通過對節點進行部分充電以便能夠響應更多的傳感器節點,減少失效節點數量。
1 系統模型和問題定義
1.1 系統模型
如圖1所示,一個WRSN包括N個同質化傳感器節點V={v■,v■,…,v■},一個配備有M個SWC(C={c■,c■,…,c■})的MCV和一個基站(Base Station,BS)。傳感器節點配備定位裝置,可以精確定位自己的位置,主要負責采集監控區域內的數據,并通過多跳的方式將采集到的數據發送給BS。BS布署在監測區域的中心,負責對接收到的數據進行處理并為MCV和SWC補充能量。MCV可以與BS進行遠距離通信,完成BS下達的布署和回收任務,并可通過BS快速更換電池和SWC[15]。
WRSN有兩個重要組成部分:傳感器節點和MCV。
傳感器節點。傳感器節點的能耗主要由接收數據和發送數據兩部分組成,根據文獻[7],使用如下能耗模型:
p■(t)=ρ■ f■(t)+■c■f■(t)+c■f■(t)" "(1)
其中,p■(t)是時刻t節點v■的能耗;ρ是1個節點接收1 Kbit/s數據的能耗;f■(t)(f■(t))是時刻t從節點v■到v■(BS)傳輸的數據流;c■(c■)是從節點v■到v■(BS)傳輸數據時的功耗,其與兩個節點之間的距離有關,即:
c■=ηd■■" " " " "(2)
其中,η是一個距離相關項的系數,d■為節點v■到v■的距離,γ是信號衰減系數。因此在時刻t,節點v■的剩余能量為:
re■■(t)=re■■(t-1)-p■(t)" " " (3)
則節點v■的能量需求為:
p■■(t)=E■-re■■(t)" " " "(4)
其中,E■為傳感器節點的電池容量。充電閾值TH■是影響充電效率的因素之一,當傳感器節點的剩余能量低于TH■時,其會向BS發送一個充電請求,請求MCV布署一個SWC給其充電。若TH■設置過大,SWC在充電時只能為傳感器節點補充較少的能量,導致充電效率較低;若TH■設置過小,則傳感器節點很容易因為充電請求發送太晚導致來不及充電而失效。針對網絡中的動態能耗問題,筆者提出了一個動態充電閾值公式:
TH■=λE■■+1" " " "(5)
其中,λ是充電系數,N■為網絡中請求充電的傳感器數量。因為0≤N■≤N,因此0≤N■/N≤1,可以得出λE■≤TH■≤2λE■。這種動態充電閾值既保證了請求充電的傳感器數量較少時較高的能量利用率,又防止了請求充電的傳感器數量較多時充電請求發送時間太晚而導致節點失效。
MCV。假設MCV以速度V■在網絡中移動,其所攜帶的SWC的電池容量為E■,充電速率為q■。MCV可通過遠距離通信接受BS的調度,布署SWC為傳感器充電或回收完成充電任務的SWC。
1.2 問題定義
在WRSN的生命周期內,MCV在多個時間步做出的決策組成了長度為K的布署-回收序列。
定義1 WRSN的生命周期:在WRSN中,實驗模擬開始到結束之間的時間稱為WRSN的生命周期。
定義2 時間步:MCV布署一個SWC給傳感器節點充電或選擇一個SWC進行回收的時刻。
文中的目標是最小化WRSN中的失效傳感器節點數。定義l■(t)為傳感器v■在時刻t的狀態,l■(t)=0代表節點v■能夠正常工作,l■(t)=1代表該節點因為耗盡能量而失效。l■(t)可以表示為:
l■(t)=0,re■■(t)gt;01,re■■(t)=0,1≤i≤N" " "(6)
因此文中的目標可以形式化為:
min N■=■l■(T■)" " " (7)
其中,T■為WRSN的生命周期,N■為失效傳感器節點數。
2 基于深度強化學習和指針網絡的求解框架
2.1 學習模型
筆者將多SWC部分充電問題建模為馬爾可夫決策過程,并使用四元組(S,A,R,S′)對其進行定義,其中S={s■,s■,…,s■}是狀態空間,s■表示第k個時間步的狀態;A={a■,a■,…,a■}是動作空間,a■表示智能體在第k個時間步執行的動作;R為獎勵函數,智能體在狀態s■下執行動作a■后獲得的獎勵為r■,r■=R(s■,a■);S′為智能體在狀態s■下執行動作a■后的狀態空間。
狀態空間。狀態空間由傳感器節點和SWC節點的狀態組成,表示為:
S■={node■|1≤i≤N+M,i∈Z}" "(8)
其中,node■是一個包含了位置信息和能量信息的元組,如下式所示:
node■=(x■,y■,d■)" " " (9)
其中,x■和y■分別為節點的橫縱坐標;當1≤i≤N時,d■為傳感器節點可以補充的最大能量,當N+1≤i≤N+M時,d■為SWC節點的剩余能量。
動作空間。動作空間包含兩個部分:MCV布署SWC給傳感器充電和回收SWC。針對部分充電問題,將連續的充電時間離散化,因此動作空間定義為:
A■={a∈Z|1≤a≤N·D+M}" " "(10)
其中,a為MCV執行的動作,D是充電時間的離散化程度,當1≤a≤N·D時,表示MCV布署一個SWC為傳感器節點v■補充能量,充電時間如下:
T■=■" " " (11)
其中,p■■(t)為傳感器節點v■在時刻t的能量需求,q■為SWC的充電速率,%為取余符號。為了平衡SWC的工作負載,MCV總是選擇剩余能量最多的SWC給傳感器節點充電。
當N·D+1≤a≤N·D+M時,表示MCV回收SWCc■。
獎勵。獎勵是指智能體MCV在執行一個動作后獲得的反饋信號,它可以對MCV所執行的動作進行評價。筆者將失效傳感器節點數和MCV的移動距離作為獎勵信號[16]。因此把MCV在狀態s■執行動作a■后獲得的獎勵定義為:
rk=e■-αN■" " " "(12)
其中,l■為MCV在第k個時間步的移動距離,L■為WRSN的邊長,α為懲罰系數,N■為第k個時間步傳感器節點的失效數量。
筆者使用矩陣B來表示WRSN中傳感器節點的充電狀態:
B=b11 b12 … b1Mb21 b22 … b2M■" "■" "?塤" " ■bN1 bN2 … bNM" " " (13)
約束為:
■b■=1,?坌i≤N" " " "(14)
B是一個N行M列的矩陣。若b■=1,表示SWCcj給傳感器節點v■充電;若b■=0,表示SWCc■不給傳感器節點v■充電。約束(14)保證了一個傳感器節點只能被一個SWC充電。
為了加快訓練和避免選擇無效節點,筆者給出了如下原則和要求:
a. MCV只給發送充電請求的傳感器節點布署SWC;
b. MCV不會給剩余能量為0的傳感器節點布署SWC;
c. MCV在BS更換SWC和補充自身能量消耗的時間為0。
2.2 指針網絡
如圖2所示,文中的神經網絡被實現為一個指針網絡[17],其主要由兩部分組成,第1個部分是一個編碼器,其被實現為一個一維卷積神經網絡,用于對每個節點(傳感器節點和SWC節點)的特征進行編碼,節點特征即狀態空間S■;第2個部分是解碼器,包括一個門控循環單元(Gate Recurrent Unit,GRU)網絡和一個注意力網絡。使用編碼器提取的隱藏特征作為GRU的輸入,然后將GRU的輸出以及編碼器提取的隱藏特征作為注意力網絡的輸入,使用注意力機制得到每個節點的關注度,最后將節點的關注度與動作空間進行拼接輸入一個全連接層后得到每個動作的Q值。
2.3 DDQN算法
圖3為DDQN算法框架,算法使用兩個結構相同的神經網絡進行學習:權重向量為θ的Q網絡和權重向量為θ′的目標Q網絡。其中Q網絡用來預測所有動作的Q值,目標Q網絡用來產生目標Q值以查找貝爾曼誤差。Q值的計算公式為:
hi——節點的特征編碼;P()——輸出的概率分布;
contextt——上下文向量;" alignt——對齊向量
Q■=Q(s,a;θ)" " " (15)
其中,s為當前狀態。
目標Q值的計算公式為:
Q■=r+κQ(s′,■Q(s′,A;θ);θ′)" "(16)
其中,r為獎勵,κ為獎勵折扣因子,s′為下一個狀態。
使用梯度下降算法更新均方誤差損失函數中Q網絡的參數θ,均方誤差損失函數公式如下:
L(θ)=■■(Q■-Q■)2" " (17)
算法具體流程如下:
a. 初始化Q網絡和目標Q網絡的參數、經驗池以及初始狀態;
b. 根據概率ε隨機選擇一個動作,或根據1-ε的概率選擇Q值最大的動作a;
c. 執行動作a達到新狀態s′并得到獎勵r,存儲樣本數據(s,a,r,s′)到經驗池中;
d. 根據式(17),從經驗池中抽取小批量數據并采用梯度下降算法更新Q網絡的參數θ;
e. 每經過100次迭代后更新參數θ′為θ;
f. 更新狀態s;
g. 重復步驟b~f直到獎勵收斂。
3 仿真與性能分析
將所提方案PCSMC與現有方案MLSDD[13]進行比較,并通過大量仿真實驗評估所提方案的優勢。此外還將提供更多的實驗細節以便于更好地理解所提方案。
3.1 實驗細節
筆者構建了一個邊長L■=600 m的正方形WRSN仿真場景,并在其中隨機布署400~1 000個傳感器節點,BS位于WRSN的中心位置,MCV從BS出發執行布署-回收調度任務。仿真實驗使用Python語言搭配PyTorch框架實現。仿真參數設置如下:
傳感器數量N 400~1 000
傳感器的電池容量E■ 6 kJ
傳感器的能耗率 0.02~1.00 J/s
SWC數量M 2~4
SWC的電池容量E■ 200 kJ
SWC的充電速率q■ 20 J/s
MCV的移動速度V■ 5 m/s
充電時間的離散化程度D 5
獎勵折扣因子κ 0.95
初始貪婪系數ε■ 0.9
最小貪婪系數 0.05
貪婪系數衰減因子 0.995
學習率 0.001
目標Q網絡參數的更新頻率 100
經驗池大小 100 000
Hidden-dim 128
Input channels 3
Output channels 128
Kernel-size 1
Batch-size 64
優化器 Adam
損失函數 均方誤差損失函數
激活函數 ReLU
仿真時間 30 000 s
3.2 懲罰系數對性能的影響
本節研究獎勵函數中懲罰系數α對PCSMC性能的影響。在實驗中,設置α的值為2、4、6、8、10,其余參數與3.1節相同。仿真實驗在500個傳感器節點的網絡下進行,且MCV攜帶的SWC的數量為4。從表1可以看出,當α=8時,PCSMC的失效節點數最少。圖4為DDQN算法的累積獎勵收斂圖,從圖中可以看到算法在400輪左右開始收斂,這證明了所提方案的有效性和收斂性。
3.3 充電系數對性能的影響
本節研究充電系數λ對PCSMC性能的影響。在實驗中,設置λ的值為0.1~0.5,其余參數與3.1節相同。仿真實驗在500個傳感器節點的網絡下進行,且MCV攜帶的SWC的數量為4。從表2可以看出,當λ=0.4時,PCSMC的失效節點數最少,此時充電閾值TH■的范圍在0.4E■~0.8E■之間。將充電閾
值TH■設為0.4E■~0.8E■的固定值,得到表3所示實驗結果,可以發現失效節點數全部大于當λ為0.4時的動態充電閾值下的失效節點數,證明了動態充電閾值的有效性。
3.4 失效節點數
本節分析不同傳感器節點數量和不同充電速率下的兩種方案的失效節點數。方案后面的數字代表MCV所攜帶的SWC的數量(例如,PCSMC-3代表MCV攜帶3個SWC)。在圖5a中,失效節點數隨著網絡規模的增大而增加。這是由于隨著網絡規模的增大,網絡中單位時間內請求充電的傳感器節點數也隨之增加,有限的充電能力導致來不及得到能量補充的傳感器節點能量耗盡而失效。但在SWC數量相同的情況下,PCSMC的節點失效率始終低于MLSDD。這是因為部分充電策略可以讓PCSMC中的MCV通過搶占SWC來響應更多的傳感器節點,減少了失效節點數。在相同的網絡規模下,隨著SWC的增加,失效節點數呈現減小趨勢。這是因為隨著SWC的增加,網絡中同一時刻可以有更多的傳感器節點被充電,有效緩解了能量饑餓現象。從總體上看,PCSMC的失效節點數比MLSDD低了23.56%。
圖5b分析了500個傳感器節點的網絡中不同充電速率下兩種方案的性能,可以看出失效節點數隨著SWC充電速率的增加而減少。這是因為充電速率越大,完成充電任務所需要的時間越短,能夠響應的傳感器節點的數量就越多。且在SWC數量相同的情況下,PCSMC的節點失效率明顯低于MLSDD。
3.5 平均充電延遲
充電延遲定義為從傳感器節點發出充電請求到其被充電之間的時間,如果一個傳感器節點失效,其被充電時間為仿真時間。如圖6a所示,平均充電延遲隨著網絡規模的增加而增加。這是因為網絡規模越大,同一時間內請求充電的節點越多,節點等待的時間就越長。在相同SWC數量下,PCSMC的平均充電延遲明顯小于MLSDD,這是因為部分充電策略可以使能量足夠的傳感器節點及時釋放對SWC的占有,從而能夠響應其余傳感器節點。從總體上看,PCSMC的平均充電延遲比MLSDD低了27.71%。從圖6b中可以看出,隨著充電速率的增加,平均充電延遲減小。這是因為充電速率越高,SWC完成充電任務需要的時間就越短,因此平均充電延遲越低,且在相同SWC數量下,PCSMC的平均充電延遲始終小于MLSDD。
4 結束語
針對完全充電導致的充電請求響應不及時問題,采用了部分充電策略,MCV可以通過搶占正在充電的SWC來為另一個關鍵傳感器節點充電。部分充電策略可以在相同的時間內響應更多的傳感器節點,因此減少了失效節點數。由于WRSN中傳感器節點能耗的動態性和不確定性,使用指針網絡和DDQN算法來優化MCV的調度和SWC的充電時長。大量的仿真實驗驗證了所提方案的有效性。與現有方案相比,所提方案在最小化失效節點數和降低平均充電延遲方面具有更優越的性能。
參 考 文 獻
[1] HAN G,YANG X,LIU L,et al.A disaster management-oriented path planning for mobile anchor node-based localization in wireless sensor networks[J].IEEE Transactions on Emerging Topics in Computing,2017,8(1):115-125.
[2] 俞姝穎,吳小兵,陳貴海,等.無線傳感器網絡在橋梁健康監測中的應用[J].軟件學報,2015,26(6):1486-1498.
[3] KURS A,KARALIS A,MOFFATT R,et al.Wireless po- wer transfer via strongly coupled magnetic resonances[J].Science,2007,317(5834):83-86.
[4] PENG Y,LI Z,ZHANG W,et al.Prolonging sensor network lifetime through wireless charging[C]//2010 31st IEEE Real-Time Systems Symposium.Piscataway,NJ:IEEE,2010:129-139.
[5] GAO Z,LIU C,CHEN Y.Scheduling of ERD-Assisted Charging of a WRSN Using a Directional Mobile Charger[J].IEEE Transactions on Mobile Computing,2023,23(6):6681-6696.
[6] SHAN T,WANG Y,ZHAO C,et al.Multi-UAV WRSN charging path planning based on improved heed and IA-DRL[J].Computer Communications,2023,203:77-88.
[7] YANG M,LIU N,ZUO L,et al.Dynamic charging sche- me problem with actor-critic reinforcement learning[J].IEEE Internet of Things Journal,2020,8(1):370-380.
[8] 王藝均,馮勇,劉明,等.基于深度強化學習的WRSN動態時空充電調度[J].軟件學報,2024,35(3):1485-1501.
[9] MO L,KRITIKAKOU A,HE S.Energy-aware multiple mobile chargers coordination for wireless rechargeable sensor networks[J].IEEE Internet of Things Journal,2019,6(5):8202-8214.
[10] LIN C,YANG Z,DAI H,et al.Minimizing charging de- lay for directional charging[J].IEEE/ACM Transactions on Networking,2021,29(6):2478-2493.
[11] TOMAR A,MUDULI L,JANA P K.A fuzzy logic-bas- ed on-demand charging algorithm for wireless rechar- geable sensor networks with multiple chargers[J].IEEE Transactions on Mobile Computing,2020,20(9):2715-2727.
[12] XU C,CHENG R H,WU T K.Wireless rechargeable sensor networks with separable charger array[J].International Journal of Distributed Sensor Networks,2018,14(4):1550147718768990.
[13] ZOU T,XU W,LIANG W,et al.Improving charging capacity for wireless sensor networks by deploying one mobile vehicle with multiple removable chargers[J].Ad Hoc Networks,2017,63:79-90.
[14] PENG K,HU M,CAI C,et al.On simultaneous power replenishment for wireless sensor networks with multiple portable chargers[J].IEEE Access,2018,6:63120 -63130.
[15] HU C,WANG Y.Schedulability decision of charging missions in wireless rechargeable sensor networks[C]//2014 Eleventh Annual IEEE International Conference on Sensing,Communication,and Networking(SECON).Piscataway,NJ:IEEE,2014:450-458.
[16] CAO X,XU W,LIU X,et al.A deep reinforcement lea- rning-based on-demand charging algorithm for wireless rechargeable sensor networks[J].Ad Hoc Networks,2021,110:102278.
[17] NAZARI M,OROOJLOOY A,SNYDER L,et al.Reinforcement learning for solving the vehicle routing problem[J].Advances in Neural Information Processing Systems,2018,31.
(收稿日期:2024-02-01,修回日期:2024-09-19)
Deep Reinforcement Learning-based Multi-charger Partial Charging Strategy
LI Li-zhi, FENG Yong
(Faculty of Information Engineering and Automation,Kunming University of Science and Technology)
Abstract" "In large-scale wireless rechargeable sensor network (WRSN), considering low charging efficiency of the mobile charging vehicle(MCV) in separable charging mode, a multi-charger’s partial charging strategy(PCSMC) was proposed to avoid any failure of the nodes with low residual energy due to waiting for nodes to be fully recharged. In which," having the continuous action space in charging time converted into a discrete action space; then, having the pointer network used to plan the path of MCV and dynamically adjust the charging time of sensor nodes and finally, having a deep reinforcement learning algorithm DDQN (Double Deep Q-Network) adopted to train pointer network to generate a near-optimal solution. Simulation results show that, as compared to other charging strategies, the PCSMC can reduce the number of dead nodes and average charging delay by 23.56% and 27.71% respectively.
Key words" "WRSN, separable charging mode, partial charging, pointer network,deep reinforcement learning