摘 要:在無線可充電傳感網的研究中面臨諸多挑戰,如無線功率傳輸中易衰弱、充電規劃復雜度高、內存數據易溢出導致丟包。為此,引入智能反射面(IRS)并基于強化學習設計一種無線傳感網能量傳輸和數據收集方案IRS_MDP。首先,該方案建立反射相位偏移優化問題,計算出以任一傳感器節點為充電目標節點時IRS的最優相移值,實現最大化目標節點處所接收的功率。其次,根據上述結果并結合傳感器實時狀態,基于強化學習設計關于充電和數據傳輸過程的優化充電策略實現丟包率降低。仿真結果表明,該方案相較其他方案可以更好地提升網絡吞吐量和降低數據丟包率。
關鍵詞:無線傳感網;馬爾可夫決策過程;智能反射面;相位偏移優化
中圖分類號:TP393 文獻標志碼:A
文章編號:1001-3695(2023)02-041-0561-04
doi:10.19734/j.issn.1001-3695.2022.06.0311
Research on charging strategy of intelligent reflecting surface assisted wireless sensor network
Chen Qiushia,b,Tan Wenronga,b,Liu Taoa,b
(a.School of Computer Science amp; Engineering,b.The Key Laboratory for Computer Systems of State Ethnic Affairs Commission,Southwest Minzu University,Chengdu 610041,China)
Abstract:There are many challenges in the research of the wireless and rechargeable sensor network,such as wireless power transmission is prone to weakening,high complexity of charging planning and data queue overflow results in packet dropouts.Therefore,this paper led into IRS and based on reinforcement learning to design a kind of wireless sensor network energy transmission and data collection scheme named IRS_MDP.Firstly,to maximize the power received by major charging node,it pre-sented a reflection phase deviation optimization problem and calculated the optimal phase shift value of IRS.On the basis of the above results and the real-time condition of sensors,it designed an optimal reinforcement learning charging strategy about the data transfer and charging process to reduce packet dropouts rate.Simulation results show that this scheme can improve the network throughput and reduce packet dropouts rate better than other schemes.
Key words:wireless sensor network;Markov decision process;intelligent reflecting surface(IRS);phase shift optimization
0 引言
無線可充電傳感網(wireless rechargeable sensor network,WRSN)[1]在智能醫療、環境監測和森林火警預測等領域有廣闊的應用前景。無線功率傳輸(wireless power transfer,WPT)[2]技術有效解決WRSN中傳感器能量受限問題,也因此推動傳感網的大規模部署和實施。如今,充電方案和數據傳輸設計成為WRSN領域的重點研究內容,現有的WRSN采用移動小車[3~5]或固定裝置[6~8]實現充電和數據收集。文獻[3,4]利用具有WPT和數據收集功能的移動小車,設計充電策略,并通過不同的網絡劃分方案提升運行效率。文獻[5]基于Q-learning,提出一種聯合考慮傳感器節點位置和充電時間的算法(joint optimization of charging location and time,JOLOT),在每個周期內選擇目標充電節點,提升充電效率。這些方案在實際應用中需要額外考慮小車的能耗與運行成本,并且在水下監測和有放射源之類的特殊場景中小車無法運行。傳統的固定裝置模式是通過基站或接入點向傳感器輻射信號進行充電和數據收集。文獻[6]利用多天線充電站給多個傳感器節點充電,并設計了一個分層的框架提高WRSN的網絡吞吐量。文獻[7,8]基于強化學習制定充電節點調度策略,實驗表明可以提高WSN中充電效率和減少數據包丟失。然而在固定裝置模式中,WPT易受障礙物阻擋和傳輸距離的影響[9],使充電功率下降。
智能反射面(intelligent reflecting surface,IRS)[10]帶來低成本且有效的解決方案。IRS由大量無源反射單元和一個中心控制器構成,通過控制器可調節IRS的反射元件控制入射信號的幅度或相位來獨立地反射入射信號,進而增強傳感器接收到的信號功率。同時,因其可靈活部署在任何建筑物表面,解決了障礙物阻擋問題。文獻[11,12]對IRS反射設計、通道獲取和資源分配優化進行了深入研究,實驗表明IRS協助下可實現高效的WPT。在IRS協助WRSN的研究中,文獻[13]表明IRS帶來的高無源波束形成增益,提升了系統吞吐量。文獻[14]通過劃分網絡區域,聯合優化IRS反射相移和發射功率將能量傳輸到選定的扇區,提高了傳感器節點接收到的能量強度,實現了低成本和節能。文獻[15]建立發射波束和IRS發射系數聯合優化問題,并為解決問題提出一種名為Tr-w-IRS的方案。該方案通過奇異值分解得到時間反轉(time-reversal,TR)波束和反射系數。結果表明,該方案可提升無線傳感網中的能量傳輸功率。
上述工作為研究IRS協助網絡提升能量傳輸效率提供了有效的指導價值。但其算法復雜度高,且未考慮到網絡環境的時變。因強化學習具有很強的適應性可應對環境的不確定性[16]的優勢,被研究學者用于IRS研究領域。文獻[17]針對能量收集的多用戶通信場景,設計強化學習算法降低IRS優化算法復雜度,但其過程不能直接適用于WRSN。將IRS與強化學習結合可解決WRSN中固有的WPT傳輸易衰弱、調度不合理導致內存數據溢出和移動充電小車能耗成本等問題。
綜上所述,本文借助IRS的優勢,提出一種基于強化學習的WRSN下的充電和數據傳輸策略IRS_MDP。首先為最大化充電目標節點處接收的充電信號功率,設計相移優化算法,計算出以任一節點為目標節點時的IRS每塊反射元件的優化相位偏移值。在此基礎上,設計基于強化學習的優化充電策略,該策略在每個工作周期根據傳感器節點的剩余電量和內存數據隊列狀態選擇充電目標節點,以降低丟包率。同時,本文所提策略在水產養殖監測、大器環境監測、管道監測等存在障礙物阻擋的應用場景,更具有實用性和成本效益。
1 系統模型
本文針對IRS輔助的WRSN進行研究,設計的網絡模型如圖1所示。其中單天線接入點(access point,AP)負責能量發送和數據收集,有M個傳感器節點隨機分布在AP的覆蓋范圍內,另外,在周圍的墻壁上部署有一個由N塊無源反射單元組成的IRS,以協助無線能量傳輸。
2 IRS輔助的無線充電及數據傳輸過程
本文將網絡運行時間劃分為若干個時間相等的工作周期,傳感器節點在每個周期內隨機產生一定的感知數據封裝成數據包放入內存。每個周期分能量傳輸(長度為Δt)和數據上報(長度為T-Δt)兩個階段。
在能量傳輸階段,AP持續向外發射無線充電信號。系統根據本文的充電策略,選出當前周期內的充電目標節點i,IRS的每塊反射單元相移值按設定產生相應調整,信號經由IRS形成波束成形,增強節點i處的充電信號功率。同時,其余節點接收到輻射的充電信號。
在數據上報階段,目標充電節點i將緩存內的數據包發送給AP完成數據的上報,非目標充電節點j僅將新產生的數據包加入內存。值得注意的是,由于傳感器節點電量耗盡或節點未及時發送內存數據包引起內存溢出都會造成數據丟失。
3 IRS優化相移問題
本章設計IRS相移優化算法,為計算出充電目標節點處接收的充電信號功率最大化時,IRS每塊反射單元的相移值。
目標充電節點i處接收的信號由AP發射的信號以及IRS反射信號組成,表示如下:
5.2 對比算法
本文對比以下三種不同方案,以驗證本文方案IRS_MDP中相移優化算法性能:
a) 隨機相移。將IRS的相移設置為隨機取值。
b) Tr-w-IRS[15]。該算法根據能量轉換特性,獲取時間反轉波束和反射系數,以實現提升WPT效率。
本文采用以下幾種不同算法用于驗證整體方案的有效性:
a)貪婪算法(Greedy)。貪婪算法是一種啟發式的算法,它只考慮當前的最大收益,即每個周期開始時刻系統只根據最小丟包率來確定目標節點。
b)隨機選擇算法(random select,RS)。系統每個周期隨機選取節點進行充電與數據調度。
c)JOLOT[5]。該算法基于Q-learning,根據節點位置和所需充電時間選擇目標充電節點,由于文獻[5]沒有考慮數據收集,在進行對比實驗時,設定每次充電完成后接收傳感器內存的數據。
5.3 仿真結果分析
1)相移優化性能對比 以下實驗將比較設計相移、Tr-w-IRS和IRS_MDP中相移優化算法的性能。
圖2繪制了IRS反射單元數量對系統性能的影響。首先,圖中可以看出,本文方案中相移優化相比隨機相移能帶來更好的系統性能。其次,相比Tr-w-IRS,IRS_MDP中的相移優化算法有更高的速率和,表明IRS對系統性能有更好的提升。
圖3繪制了充電總能效與反射單元數在不同相移優化方案下的關系。從圖中可以看出,IRS_MDP和Tr-w-IRS算法相比另兩種方案能帶來的更高效的充電,這是因為通過優化相移,使得更多的充電信號被反射到目標充電傳感器處,從而增加節點處接收到的能量。但IRS_MDP對能量效率的提升明顯優于Tr-w-IRS算法。
2)整體策略對丟包率與充電性能影響
以下實驗將本文整體策略與Greedy、RS和JOLOT作對比。其中,圖4描繪了幾種調度方案的丟包率。從圖中可以看出,丟包率隨著節點數目呈正增長,但本文方案丟包率增加速度較為平緩。且當節點數達到100時,本文方案IRS-MDP比RS、Greedy和JOLOT分別低將近62%、37%和36%。這是由于JOLOT沒有考慮充電的規模增大后內存溢出的情況,而IRS-MDP依據內存感知數據包溢出設計獎勵函數,從而降低丟包率。
圖5描繪了不同調度方案下的充電能效。從圖中可以看出,隨著節點數目增大,充電能效降低。而IRS_MDP的充電總能效降低相對平緩,且一直優于JOLOT。一是由于IRS輔助下可有效應對無線能量在傳輸中衰弱;二是由于IRS_MDP消除了充電小車移動的開銷,使得充電的能效更高,意味著本文方案可避免傳統WRSN中充電小車移動消耗的時間成本和能耗。
圖6描繪了吞吐量的變化。可以看出在節點數大于80后,平均吞吐量出現明顯差異,本文策略與另幾種方案相比,有更高的平均吞吐量。圖7描繪了不同方案下節點電池實際獲取的能量情況。顯然,網絡中傳感器節點累積獲取的能量隨運行時間增加而增加。從圖中還可以看出,IRS_MDP相較于JOLOT在同樣時間內能獲取更多的能量,這意味著IRS_MDP實現了WPT效率的提升。
6 結束語
與現有研究相比,本文提出一種新的借助IRS輔助的無線充電策略,綜合考慮提升WPT效率和降低丟包率的問題。首先建立相移優化應對無線功率在傳輸中的衰減,最大化傳感器節點處接收功率。接著,基于傳感器節點的能量消耗和數據隊列的實時狀態,提出了一種強化學習算法,以盡量降低因內存溢出而導致的丟包率。最后,通過仿真實驗對比不同方案,證實了本文策略的有效性。
該策略在實際應用推廣中仍存在難點,因為實際運行時會存在通信干擾,數據在傳輸過程中易丟失。本文將在下一步研究中完善模型,目的是既保障大規模網絡下充電需求,又保障數據傳輸安全。
參考文獻:
[1]He Shibo,Chen Jiming,Jiang Fachang,et al.Energy provisioning in wireless rechargeable sensor networks[J].IEEE Trans on Mobile Computing,2012,12(10):1931-1942.
[2]Sudevalayam S,Kulkarni P.Energy harvesting sensor nodes:survey and implications[J].IEEE Communications Surveys and Tuto-rials,2010,13(3):443-461.
[3]王楊,張鑫,趙傳信,等.基于效用最大化的無線可充電傳感器網絡有向充電調度方案[J].電子與信息學報,2021,43(5):1331-1338.(Wang Yang,Zhang Xin,Zhao Chuanxin,et al.Directional charging schedule scheme based on charging utility maximization for wireless rechargeable sensor network[J].Journal of Electronics amp; Information Technology,2021,43(5):1331-1338.)
[4]Zhong Ping,Li Yating,Liu Weirong,et al.Joint mobile data collection and wireless energy transfer in wireless rechargeable sensor networks[J].Sensors,2017,17(8):1881.
[5]Nguyen T D,Nguyen T,Nguyen T H,et al.Joint optimization of charging location and time for network lifetime extension in WRSNs[J].IEEE Trans on Green Communications and Networking,2022,6(2):1186-1197.
[6]Chu Zheng,Zhou Fuhui,Zhu Zhengyu,et al.Wireless powered sensor networks for Internet of Things:maximum throughput and optimal power allocation[J].IEEE Internet of Things Journal,2017,5(1):310-321.
[7]Li Kai,Ni Wei,Duan Lingjie,et al.Wireless power transfer and data collection in wireless sensor networks[J].IEEE Trans on Vehicular Technology,2017,67(3):2686-2697.
[8]Li Kai,Ni Wei,Abolhasan M,et al.Reinforcement learning for sche-duling wireless powered sensor communications[J].IEEE Trans on Green Communications and Networking,2018,3(2):264-274.
[9]Wu Qingqing,Zhou Xiaobo,Schober R.IRS-assisted wireless powered NOMA:do we really need different phase shifts in DL and UL?[J].IEEE Wireless Communications Letters,2021,10(7):1493-1497.
[10]Wu Qingqing,Guan Xinrong,Zhang Rui.Intelligent reflecting surface-aided wireless energy and information transmission:an overview[J].Proceedings of the IEEE,2022,110(1):150-170.
[11]Dai Haibo,Huang Wei,Zhang Haiyang,et al.Achievable harvested energy region of IRS-assisted wireless power transfer system[C]//Proc of the 13th International Conference on Wireless Communications and Signal Processing.Piscataway,NJ:IEEE Press,2021:1-5.
[12]徐勇軍,高正念,王茜竹,等.基于智能反射面輔助的無線供電通信網絡魯棒能效最大化算法[J].電子與信息學報,2022,44(7):2317-2324.(Xu Yongjun,Gao Zhengnian,Wang Qianzhu,et al.Robust energy efficiency maximization algorithm for intelligent reflecting surface-aided wireless powered communication networks[J].Journal of Electronics amp; Information Technology,2022,44(7):2317-2324.)
[13]El Bouanani F,Muhaidat S,Sofotasios P C,et al.Performance analysis of intelligent reflecting surface aided wireless networks with wireless power transfer[J].IEEE Communications Letters,2020,25(3):793-797.
[14]Zhu Yanze,Liu Yang,Zhao Jun,et al.Joint time allocation and beamforming design for IRS-aided coexistent cellular and sensor networks[C]//Proc of IEEE Global Communications Conference.Piscataway,NJ:IEEE Press,2021:1-6.
[15]Hwang M,An H,Park H.Joint design of transmit waveform and reflection phase for intelligent reflecting surface aided wireless power transfer[C]//Proc of IEEE Wireless Communications and Networking Conference.Piscataway,NJ:IEEE Press,2022:770-775.
[16]黎彧君.強化學習中的優化方法研究[D].上海:上海交通大學,2020.(Li Yujun.Reinforcement learning optimization methods[D].Shanghai:Shanghai Jiao Tong University,2020.)
[17]Yang Helin,Xiong Zehui,Zhao Jun,et al.Intelligent reflecting surface assisted anti-jamming communications based on reinforcement learning[C]//Proc of IEEE Global Communications Conference.Piscataway,NJ:IEEE Press,2020:1-6.
收稿日期:2022-06-02;修回日期:2022-08-01 基金項目:國家自然科學基金資助項目(62171390);四川省科技項目(2021JDKP0013);西南民族大學研究生創新型科研項目(CX2021SP129)
作者簡介:陳秋實(1996-),女(苗族),貴州安順人,碩士研究生,主要研究方向為無線傳感網、機器學習;談文蓉(1968-),女(通信作者),四川廣安人,教授,碩士,主要研究方向為物聯網應用技術(1125812976@qq.com);劉韜(1978-),男,四川達州人,教授,博士,主要研究方向為無線傳感網絡、智能反射面.