999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的SWIPT邊緣網絡聯合優化方法

2023-11-29 12:11:16王哲王啟名李陶深葛麗娜
計算機應用 2023年11期
關鍵詞:深度策略系統

王哲,王啟名,李陶深,葛麗娜

基于深度強化學習的SWIPT邊緣網絡聯合優化方法

王哲1,2,3,王啟名2,李陶深4,葛麗娜1,3,5

(1.廣西民族大學 人工智能學院,南寧 530006; 2.廣西民族大學 電子信息學院,南寧 530006; 3.廣西混雜計算與集成電路設計分析重點實驗室(廣西民族大學),南寧 530006; 4.廣西大學 計算機與電子信息學院,南寧 530004; 5.廣西民族大學 網絡通信工程重點實驗室,南寧 530006)( ? 通信作者電子郵箱wqm082199@163.com)

邊緣計算(EC)與無線攜能通信(SWIPT)技術能夠提升傳統網絡性能,但同時也增加了系統決策制定的難度和復雜度。而基于最優化方法所設計的系統決策往往具有較高的計算復雜度,無法滿足系統的實時性需求。為此,針對EC與SWIPT輔助的無線傳感網絡(WSN),聯合考慮網絡中波束成形、計算卸載與功率控制問題,建立了系統能效最優化數學模型;其次,針對該模型的非凸與參數耦合特征,通過設計系統的信息交換過程,提出基于深度強化學習的聯合優化方法,該方法無須建立環境模型,采用獎勵函數代替Critic網絡對動作進行評估,能降低決策制定難度并提升實時性;最后,基于該方法設計了改進的深度確定性策略梯度(IDDPG)算法,并與多種最優化算法和機器學習算法進行仿真對比,驗證了聯合優化方法在降低計算復雜度、提升決策實時性方面的優勢。

無線傳感網絡;深度強化學習;無線攜能通信;邊緣計算;聯合優化

0 引言

邊緣計算(Edge Computing, EC)是在靠近物或數據源頭的網絡邊緣側,融合網絡、計算、存儲、應用核心能力的開發平臺,就近提供邊緣智能服務,以滿足行業數字化在敏捷聯接、實時業務、數據優化、應用智能、安全與隱私保護等方面的關鍵需求[1]。其中,計算卸載是EC的核心技術之一,通過將終端節點的計算任務卸載至邊緣設備完成EC過程,在可容忍的傳輸時延下大幅降低終端的計算壓力與計算時延。如今,EC已融入移動通信、萬物互聯、未來工廠等應用場景[2],為網絡的資源分配帶來了更好的決策自由度和性能優化空間。

文獻[3]中基于潛在博弈論研究移動邊緣計算(Mobile Edge Computing, MEC)網絡中計算資源的分配問題。其中設計的分配方案包括兩部分:首先利用潛在博弈論控制MEC網絡的基站發射功率,以最大化MEC網絡勢函數;其次,利用線性規劃求解MEC低延遲高可靠模型。不同于文獻[3]中的方案,文獻[4]中考慮了區域MEC協作策略,根據計算任務的延遲容限度對任務分類,利用深度強化學習(Deep Reinforcement Learning, DRL)算法實現不同類型任務與差異化卸載策略的匹配,能聯合降低服務時延與系統負載。文獻[5]中提出有限資源約束下的計算卸載與資源分配聯合優化問題,使用Stackelberg博弈均衡MEC與用戶間的資源調度。文獻[6]中針對多用戶場景,提出了一種設備到設備(Device-to-Device, D2D)通信的計算卸載策略,直接均衡設備間的資源分配以降低系統的時延和能耗。文獻[7]中引入了軟件定義網絡和功能虛擬化技術重構網絡,提出了最大化實時任務處理成功率的在線資源分配問題,基于馬爾可夫過程建立重構場景下的決策分配過程,以獲取最優解。文獻[8]中聚焦在車聯網場景下的邊緣資源分配問題,以最小化計算時延為目標,提出了邊緣服務器能耗與負載均衡問題,并基于多目標免疫優化算法設計了相應的卸載方案。上述研究表明,邊緣計算的應用提升了網絡中計算資源分配的自由度,合理的計算卸載策略能夠幫助網絡實現更好的系統性能和服務質量。

然而,由于邊緣網絡承擔著部分原中央網絡的計算與存儲服務,同時資源分配與調度決策也將在邊緣側制定,增加了邊緣節點能量耗盡與節點間能量分布失衡的概率。無線攜能通信(Simultaneous Wireless Information and Power Transfer, SWIPT)技術的加入在一定程度上降低了這一概率。SWIPT是一項新型的無線通信技術,利用射頻(Radio Frequency, RF)信號同時攜帶能量和信息的特性,實現了節點間同步的無線信息與無線能量傳輸,以提升網絡節點能量的自由程度。文獻[9]中將SWIPT應用于多級邊緣卸載網絡以輔助解決變電站場景的巡檢設備的接入與供能問題,設計了地面機器人和無人機協作的巡檢算法,并提出了一種基于Q-Learning的最佳任務卸載算法。文獻[10]的研究將SWIPT與MEC應用于物聯網中,聯合考慮功率分配、CPU頻率、卸載權重和能量收獲權重,提出了數據傳輸速率和傳輸功率的約束下系統能耗最優化問題,基于交替群迭代和群內點迭代優化算法進行求解,并設計了SWIPT輔助的MEC系統以延長節點設備的生命周期。文獻[11]中則利用SWIPT與MEC技術應對物聯網系統中設備計算能力和電池容量的有限性,建立了聯合優化CPU頻率、計算任務、終端傳輸功率和MEC任務比例的上行鏈路可實現速率最優化模型。與此同時,文獻[12]中的研究針對傳統的數值優化方法無法解決無線信道相干時間限制內的組合問題,提出采用深度強化學習算法求解SWIPT輔助的MEC網絡任務卸載問題。文獻[13]基于增強優先級深度確定性策略梯度算法,通過聯合優化卸載決策最小化所有用戶的能耗、動態SWIPT-MEC網絡中的中央處理器頻率和功率分配,能解決多用戶場景下需求多樣性和信道時變性導致的系統決策實時性較差問題。可見,SWIPT的應用增加了系統能量規劃的可行性,能夠延長系統的生命周期。然而,SWIPT的引入也伴隨著網絡中信號干擾的增加。文獻[10-13]的研究忽略了信號干擾增加所導致的能量損耗,而及時且精確的信道狀態信息(Channel State Information, CSI)在大規模網絡中難以獲知,導致系統決策的時延也隨之增加。

最近,針對SWIPT應用伴隨而來的系統決策實時性差和復雜度高的現象,有研究工作指出利用機器學習方法能夠彌補這一缺陷。針對變電站場景,文獻[9]中建立了關于系統能耗和時延的數學模型,并通過馬爾可夫決策過程描述系統最優化巡檢問題,設計了基于強化學習的卸載決策算法。文獻[14]中提出了一種無線供電MEC系統,使用強化學習解決低復雜度系統的計算負載均衡問題,以此提高系統計算能力和對有限電池容量的高效使用。針對SWIPT輔助的MEC網絡中無線信道的實時性要求,文獻[15]中通過選擇本地計算或計算卸載,建立了最佳計算速率下的計算卸載策略,提出了一種基于強化學習的智能在線卸載框架選取最佳的卸載動作。上述文獻的研究驗證了強化學習應用在SWIPT-MEC網絡中的可行性,同時強化學習方法的應用尚處于初級階段,聯合考慮系統多項決策的高復雜度模型下的強化學習模型設計仍是當前亟待解決的問題。上述研究較多考慮強化學習方法在設計傳統MEC決策中的應用,而在聯合SWIPT后所需同步考慮的波束成形、系統周期規劃、功率控制等均大幅增加了強化學習算法的設計難度。

基于上述分析,本文針對邊緣計算與SWIPT輔助的傳感器網絡,在更好地處理網絡中傳感器設備相互干擾的同時降低網絡中的能耗,并且保證在單位能耗下能夠處理更多的卸載數據量。本文主要工作包括:

首先,聯合考慮網絡中波束成形、計算卸載與功率控制問題,設計系統上下行運行周期,建立系統能效最優化數學模型。

其次,針對該模型的非凸與參數耦合特征,通過設計系統的信息交換過程消除環境狀態中的冗余信息,之后提出基于深度強化學習的模型求解方法。同時,針對傳統深度Q網絡(Deep Q-Network, DQN)無法處理連續性動作的問題,提出使用深度確定性的策略梯度(Deep Deterministic Policy Gradient, DDPG)算法進行求解;然而DDPG可能會出現過估計問題,所以改進DDPG框架,刪除DDPG框架中的Critic網絡,使用設計的獎勵函數對動作進行評估,稱作改進的深度確定性策略梯度(Improved Deep Deterministic Policy Gradient, IDDPG)算法。該算法能夠解決傳統最優化算法計算復雜度較高、實時性差的問題,同時無模型和無Critic網絡算法設計可降低系統的求解難度。

最后,將IDDPG算法與多種最優化算法和機器學習算法進行仿真對比,驗證了本文算法在降低計算復雜度、提升決策實時性方面的優勢。

1 系統模型

基于SWIPT的無線傳感網絡(Wireless Sensor Network, WSN)系統如圖1所示。其中全部傳感器節點以等邊六邊形的區域劃分為簇,分別接入個Sink節點,第(=1,2,…,)個Sink節點為它覆蓋范圍內的K個傳感器節點提供SWIPT服務,并周期性地收集傳感器節點所采集到的數據;與此同時,全部Sink節點組成邊緣計算網絡為傳感器節點提供計算卸載服務。Sink節點由穩定電源供能,傳感器節點的能量則全部收集自Sink節點的SWIPT過程。Sink節點配備天線數量為,傳感器節點均配備單一天線。

圖1 基于SWIPT的無線傳感網絡邊緣計算系統

圖2 系統周期示意圖

1.1 下行階段

與此同時,考慮到信道的大尺度衰減分量[20],第個Sink節點與其服務的第k個傳感器節點間的信道向量可表示為

于是在下行階段Sink節點損失的能耗為

由于傳感器節點的采樣為常態化過程,它們的運行狀態不受系統決策影響,所消耗的能量為固定值,因此在系統資源分配決策制定過程中不考慮該常量能耗,并假定感知數據充裕且系統期望在單一周期內處理的數據量最大。

1.2 上行階段

在上行過程中,傳感器節點利用下行階段收集到的能量進行數據清洗、融合、壓縮等處理,并將處理結果上傳至Sink節點。然而,由于傳感器節點能量有限且收集能量的過程具有不穩定性,因此傳感器節點需要依據自身能量將部分采樣數據卸載至具有穩定供能的Sink節點進行數據處理。于是,上行階段系統中的傳感器節點存在兩種運行狀態:

1)傳感器節點不卸載數據,自身完成數據處理并將處理結果上傳至Sink節點,此過程產生本地計算能耗;

2)傳感器節點卸載部分數據給Sink節點處理,在本地處理一部分數據并將結果上傳至Sink節點,此過程產生本地計算能耗、卸載通信能耗和Sink計算能耗。

以上運行狀態并未考慮傳感器節點將采樣數據全部上傳至Sink節點進行處理,這是由于雖然此方式能夠減少本地計算能耗,但未經處理的采樣數據將產生大量的通信能耗,且通信過程中簇內和簇間都存在信道干擾,也將造成系統能耗的增加。因此,在傳感器節點卸載采樣數據至Sink節點的通信過程中,傳感器節點同步進行本地計算,此過程等同于運行狀態2。

假定上行過程中信道狀態不發生變化[21],此時傳感器節點k與其簇內Sink節點所形成的信道向量可表示為式(2)。

與此同時,上行通信過程中傳感器節點的信干噪比可表示為

因此,系統在一個周期能處理的總數據量為

2 能效優化問題

在基于SWIPT協同邊緣計算的無線傳感器網絡環境中,由于網絡系統的計算資源有限,期望能夠在有限的計算資源下處理更多的卸載數據量,以實現更準確和更及時的網絡服務與應用。因此,系統能效可定義為在一個周期內單位能耗所獲得的已處理數據量。由于傳感器節點的全部能量均來自Sink節點的SWIPT過程,基于能量守恒定理,系統周期內的總能耗為Sink節點SWIPT能耗與Sink節點處理卸載數據的計算能耗之和,可表示為

C2:(9)

其中,表示傳感器節點的有效電容開關[23]。

3 深度強化學習算法設計

對于深度強化學習算法來說,完整的環境信息通常是冗余的,所以本文將設計如下的信息交換過程,篩選出關鍵的環境信息后設計獎勵函數,這樣不僅能得到系統的最優能效,還能夠代替Critic網絡評價動作的優劣,克服了神經網絡會出現過估計的缺點。最后,根據算法設計得到算法的偽代碼。

3.1 信息交換過程

深度強化學習模型在訓練過程中需建立目標網絡的動作空間,即對網絡中的信息交換過程進行設計,以實現狀態空間中特征組與特征值的更新。與此同時,考慮到承擔模型訓練的云端設備資源有限,引入干擾者與被干擾者分集,以實現對狀態空間中輸入端口數量的限制,繼而使網絡規模有限,降低云端訓練負荷。

圖3 信息交換示意圖

3.2 IDDPG算法設計

在完成以上信息交換設定后,接下來對本文的深度強化學習方法進行設計。針對式(11)中的最優化問題,傳統的基于模型求解的最優化算法往往需要對模型中的非線性和非凸特征進行松弛或轉換,導致原模型精度有所損失,同時所制定的最優化算法往往具有較高的計算復雜度,不適用于低功率和低算力的傳感器網絡。于是,本文提出基于系統數據,利用深度強化學習方法設計低復雜度的求解算法實現功率控制與計算卸載的聯合優化。首先,DQN算法能夠解決傳統的Q學習算法訪問狀態信息有限且無法存儲查找表的問題;其次,采用DDPG解決DQN無法處理連續性動作的不足,DDPG以Actor-Critic框架為基礎,通過Actor網絡將離散的動作空間連續化[24];最后,由于DDPG網絡可能存在過估計的問題,設計了IDDPG算法,移除了傳統DDPG中的Critic網絡,改用設計的獎勵函數對Actor網絡動作進行評價,這樣可以避免Critic網絡評價結果出現過估計的問題,能提高系統深度強化學習的求解精度(具體原因將在獎勵函數設計處說明)。

下面對本文IDDPG設計中的三個關鍵要素,即空間狀態、動作空間和獎勵函數進行說明。

第三個特征組為受干擾鄰居的信息

本文獎勵函數的目的是反映系統在單位能耗下能夠處理更多的任務量,即所實現的優化問題(11)中目標函數值越大,則受到獎勵;同時,如果不能滿足式(11)下的約束條件C1和C2,則應受到懲罰。于是,系統的獎勵函數設計如下:

利用式(16)代替Critic網絡對Sink節點動作進行評價,主要原因在于本文系統能夠處理的任務量由傳感器和Sink節點的動作自身決定,與算法取得動作的中間決策累積過程無關,而一般馬爾可夫決策獎勵函數與所有步的累積效果相關,因此設計式(16)對動作進行評價,無須通過神經網絡對獎勵函數(16)進行擬合,避免了傳統的DDPG評價網絡在函數擬合過程中產生的過估計問題[26]。

其中:為IDDPG算法中的狀態量;為動作網絡;為動作網絡參數。

在完成動作網絡參數更新工作后,邊緣服務器對更新的參數進行廣播,發送給每個智能體,繼而Sink節點根據策略控制本小區內傳感器設備的發射功率、波束成形和卸載策略使目標函數(11)最大化。需要注意的是:雖然每個Sink節點都共享相同的IDDPG參數,但每個Sink節點依然有著不同的動作,因為每個Sink節點根據自己的本地狀態來執行相同的IDDPG算法。而且在訓練過程中,為了驗證本文算法的魯棒性,在下一次訓練之前,將傳感器設備在小區內進行隨機移動,這樣使CSI有更多的變化,保證CSI的時變性,并且在該過程中CSI也具有一定的延時性,從而使本文策略在訓練過程中觀察到更多的狀態變化。

圖5 網絡結構

IDDPG算法如算法1所示。

算法1 基于深度強化學習的SWIPT邊緣網絡聯合優化算法。

① 初始化一個噪聲項,完成動作探索;

④ end for

5) end for

本文采用深度強化學習對模型進行訓練,該過程中需要大量數據樣本。首先,本文參考文獻[30]的信道數據根據標準正態分布生成,即利用瑞利(Rayleigh)分布函數隨機生成參數狀態下的信道狀態信息,Rayleigh衰落是一種合理的信道模型,被廣泛應用生成信道數據;其次,將生成的信道狀態信息輸入傳統的最優化算法WMMSE并輸出優化后的動作參數,將信道狀態信息和這些參數信息組成元組形成一個樣本數據;最后,依據上述流程不斷迭代生成本文大量的數據樣本。接下來,本文算法將采用試錯法進行訓練,在無指導的情況下,通過每個智能體不斷和環境交互,積累經驗,對好的動作賦予更高的獎勵,最終得到策略。

4 仿真實驗與結果分析

4.1 仿真設置

表1 仿真參數

表2 IDDPG的超參數

4.2 仿真結果分析

為驗證本文深度強化學習算法在無線攜能MEC網絡中聯合優化功率和計算資源的有效性和性能,與以下9種策略(分別簡稱為方案1~9)進行對比:1)IDDPG,表示基于多智能體IDDPG算法策略;2)FP,表示基于傳統算法分式規劃算法的策略,分式規劃算法的框架參考文獻[34],該方案中使FP算法擁有完美的CSI;3)MaxPower,表示基于分配最大發射功率策略,即傳感器節點以最大發射功率來計算系統的目標函數;4)WMMSE,表示基于WMMSE的策略,是本文的理想算法,具有完美CSI,相較于FP算法,它需要更多的迭代以達到收斂;5)IDDPG-perfectCSI,表示具有完美CSI的IDDPG算法策略;6)DQN,表示基于DQN算法策略;7)IDDPG-SWIPT,表示只考慮波束成形下的IDDPG算法策略;8)IDDPG-功率控制,表示只考慮功率控制下的IDDPG算法策略;9)DDPG,表示基于DDPG 算法策略。本文在傳感器節點不移動的情況下便能夠獲得完美的CSI。

圖6展示了本文算法策略在不同學習率下的收斂性,從中可以看出,在學習率為0.1和0.01時,本文算法并不收斂,當學習率大于0.01時,算法才收斂,但學習率為0.000 1時獲得了算法的局部最優,未獲得全局最優獎勵。因此本文算法將采用的學習率為0.001。

本文深度強化學習算法分為訓練和測試兩部分,在訓練階段將50 000個樣本分為10個訓練集,每個訓練集5 000個樣本,智能體經驗池的大小設置為1 000,將訓練集代入方案1、6、7、8和9算法策略進行訓練,結果如圖7所示。對于IDDPG策略,隨著IDDPG的每一次訓練網絡參數更新,一個訓練集將參數在各個智能體直接共享。從圖7中可以看出,在大概2 000次訓練迭代時,本文的深度強化學習算法便開始快速收斂,在大概完成第一個訓練集時便已經逼近了傳統的理想算法;并且與基于DQN的訓練策略方案相比,在迭代10 000次以后,本文算法更優。與此同時,從圖7中還可以看出,本文算法相較于方案9具有更好的性能,這是因為DDPG算法中使用Critic網絡對動作進行評價,該方式導致了過估計問題,使系統精度下降,目標函數值陷入了局部最優的陷阱。此外,本文算法在考慮CSI的不完美性和延時性的情況下,在訓練中經歷各種其他設備干擾和位置改變,目標函數不斷提高體現了本文算法的高性能。從圖7中還能看出目標函數的數據較震蕩,原因是本文的實驗場景是在無線攜能MEC邊緣網絡中,所以傳感器節點是移動的,這樣在每一周期的信道狀態信息都是改變的,造成的干擾也會改變,系統的目標函數訓練結果也隨之變化。

圖6 不同學習率下的算法收斂性

然而,方案7相較于方案1和6存在更低的能效結果,這是因為在僅僅考慮波束成形的情況下,方案7策略無法處理每個周期都在改變的信道狀態信息,無法排除系統中的信號干擾問題,這也是導致線條較平滑、收斂不明顯的原因。與此同時,方案8相較于其他三種方案存在更低的能效結果,這是因為在僅考慮功率控制的情況下,系統由于缺少了SWIPT的能量收集利用,導致系統能耗增加;并且傳感器設備需要根據收集的能量來處理數據,能量的缺失將導致系統能夠處理的數據任務量減少。因此方案8存在最低的能效結果。綜上所述,本文提出的聯合優化策略優于只考慮一種因素的單步策略。

圖7 訓練結果

本文基于多智能體IDDPG算法的損失值如圖8所示,驗證了本文算法的收斂性。

圖8 損失值變化曲線

測試階段根據訓練得到的策略,測試新的數據集結果如圖9所示,在圖9中取每一個數據集的平均目標函數值。

圖9 測試集結果圖

從圖9中可以看出,在經過第一次數據集迭代后,測試數據快速收斂,達到傳統FP算法的目標函數值,并且隨著數據集測試次數的增加,訓練目標函數值不斷提高,向理想WMMSE算法逼近。通過圖9還可以看出方案3的目標函數值最小,這是因為以最大發射功率進行任務卸載所造成的干擾最大;其次方案2中的FP算法通過迭代對干擾信息進行了處理,目標函數值明顯高于方案3;方案4作為理想算法比FP算法性能更優,這是犧牲了系統復雜度的情況下所造成的結果;方案1與方案5相比,本文設計的策略比具有完美CSI的IDDPG算法結果更優,這是因為本文的深度強化學習算法方案通過對不同信道狀態信息的訓練形成策略,使Sink節點能夠根據該最優的波束成形策略及時調整傳感器的發射功率;而且Sink節點會將訓練參數進行共享,以此降低系統的復雜度。與傳統的WMMSE和FP算法相比,深度強化學習算法將系統信息作為神經網絡的輸入得到策略的輸出,并沒有對數據進行迭代計算,這也沒有提升系統復雜度,驗證了本文算法的有效性。在實際場景中信道狀態信息往往是不完美的,為了進一步證明本文算法的有效性,將方案1和6進行對比,從圖9中可以看出在第一個測試集時,兩種算法迅速收斂,但本文的算法始終優于DQN算法。這是由于IDDPG算法的動作空間是連續的,相比DQN算法輸出為量化的離散值,使信息的精度受到影響,所以本文算法策略更優。

表3展示了每個測試集執行時不同算法所消耗的時間、算法的迭代次數和算法相較于最優化算法WMMSE的準確度。每個測試集包含5 000個樣本數據,所以每個數據集的周期長度為100 ms。從表3可以看出,本文的深度強化學習算法消耗的時間最少,其次是DQN算法,之后是FP算法,WMMSE算法耗時最多。這是因為WMMSE算法相較于FP算法迭代次數更多,而本文IDDPG算法和DQN算法無須進行迭代計算,只是將信息作為神經網絡的輸入來得到策略的輸出。本文算法比DQN算法有更短的耗時,這是由于本文算法采取集中式訓練和分布式執行,所以本文算法的訓練信息能夠共享,復雜度更低。綜上所述,本文的基于多智能體IDDPG算法策略實時性更好。從表3中還可以看出,雖然隨著Sink節點和傳感器節點的增加,網絡空間更加復雜,導致算法的準確性會有所下降,但本文算法基本和傳統FP算法持平,并優于DQN算法,驗證了算法有效性。

根據測試數據集的目標函數的累計分布函數(Cumulative Distribution Function, CDF)驗證本文深度強化學習算法的性能,結果如圖10所示。從圖10(a)中可以看出,在考慮傳感器節點非移動性的情況下,即信道具有完美CSI,本文的深度強化學習算法策略相較于最大發射功率策略,DQN策略有更高的目標函數值,這是由于本文算法策略能夠處理更復雜的動作空間,但低于傳統FP算法策略和WMMSE算法策略。然而,從圖10(b)可以看出針對傳感器節點移動性的情況下,本文IDDPG算法卻擁有最廣泛的分布空間,這是由于本文算法策略可以根據信道狀態信息和干擾信息調整自己的策略,Sink節點控制傳感器節點調整自己的發射功率,減少相互的干擾,提高目標函數值。圖10(b)并未考慮WMMSE算法的移動情況,這是因為WMMSE算法作為本文最優算法的策略,它應擁有最廣泛的分布空間。綜上所示,本文算法在考慮移動性的情況下比基于分配最大發射功率策略、基于FP算法策略和DQN策略有更廣泛的分布空間,更加適合處理移動性的情況。

表3 測試集上的性能檢測結果對比

圖10 系統傳感器不同運動情況的目標函數CDF

為了驗證本文傳感器移動性對系統性能的影響,設置了在不同數量Sink節點和傳感器節點移動和不移動情況下的測試集,根據所得策略測試不同測試集的CDF結果如圖11所示。從圖11可以看出,無論節點數量如何變化,傳感器節點移動的測試結果比不移動具有更廣闊的分布空間。這是因為本文策略是針對傳感器移動情況下訓練所得,所以該策略能夠很好地處理傳感器的移動性。與此同時,隨著節點數量的增加,測試結果分布結果略有降低,這是因為隨著節點的增加,系統處理的任務量增加,導致精度下降,但結果仍接近(10,20)節點數量結果,驗證了本文算法的有效性。

圖11 不同數量節點移動和非移動(perfectCSI)情況下的CDF

5 結語

機器學習方法在無線網絡中的應用能夠降低系統決策的計算復雜度并提升系統實時性。本文針對SWIPT使能的邊緣無線網絡,設計系統運行周期,提出基于深度強化學習的聯合優化方法。通過設計系統信息交換過程建立IDDPG算法,實現網絡中波束成形決策、功率控制決策、計算卸載決策的聯合求解。仿真結果驗證了本文方法的有效性,同時通過與多種最優化方法和機器學習方法對比,表明本文所述方法在降低計算復雜度,提升決策實時性方面的優勢。

[1] 劉通,方璐,高洪皓. 邊緣計算中任務卸載研究綜述[J]. 計算機科學, 2021, 48(1):11-15.(LIU T, FANG L, GAO H H. Survey of task offloading in edge computing[J]. Computer Science, 2021, 48(1): 11-15.)

[2] 陳霄,劉巍,陳靜,等. 邊緣計算環境下的計算卸載策略研究[J]. 火力與指揮控制, 2022, 47(1):7-14, 19.(CHEN X, LIU W, CHEN J, et al. Research on computing offload strategy in edge computing environment[J]. Fire Control & Command Control, 2022, 47(1):7-14, 19.)

[3] LIU H, JIA H, CHEN J, et al. Computing resource allocation of mobile edge computing networks based on potential game theory[EB/OL]. [2022-11-16].https://arxiv.org/pdf/1901.00233.pdf.

[4] WANG G, XU F. Regional intelligent resource allocation in mobile edge computing based vehicular network[J]. IEEE Access, 2020, 8: 7173-7182.

[5] 鮮永菊,宋青蕓,郭陳榕,等. 計算資源受限MEC中任務卸載與資源分配方法[J]. 小型微型計算機系統, 2022, 43(8):1782-1787.(XIAN Y J, SONG Q Y, GUO C R, et al. Method of task offloading and resource allocation in MEC with limited computing resources[J]. Journal of Chinese Computer Systems, 2022, 43(8):1782-1787.)

[6] 李余,何希平,唐亮貴. 基于終端直通通信的多用戶計算卸載資源優化決策[J]. 計算機應用, 2022, 42(5):1538-1546.(LI Y, HE X P, TANG L G. Multi-user computation offloading and resource optimization policy based on device-to-device communication[J]. Journal of Computer Applications, 2022, 42(5):1538-1546.)

[7] 李燕君,蔣華同,高美惠. 基于強化學習的邊緣計算網絡資源在線分配方法[J]. 控制與決策, 2022, 37(11): 2880-2886.(LI Y J, JIANG H T, GAO M H. Reinforcement learning-based online resource allocation for edge computing network[J]. Control and Decision, 2022, 37(11): 2880-2886.)

[8] 朱思峰,蔡江昊,柴爭義,等. 車聯網邊緣場景下基于免疫算法的計算卸載優化[J/OL]. 吉林大學學報(工學版) (2022-07-26) [2022-11-16].https://kns.cnki.net/kcms/detail/detail.aspx?doi=10.13229/j.cnki.jdxbgxb20220193.(ZHU S F, CAI J H, CHAI Z Y, et al. A novel computing offloading optimization scheme based on immune algorithm in edge computing scenes of internet of vehicles[J/OL]. Journal of Jilin University (Engineering and Technology Edition) (2022-07-26) [2022-11-16].https://kns.cnki.net/kcms/detail/detail.aspx?doi=10.13229/j.cnki.jdxbgxb20220193.)

[9] 李斌,劉文帥,謝萬城,等. 智能超表面賦能移動邊緣計算部分任務卸載策略[J]. 電子與信息學報, 2022, 44(7):2309-2316.(LI B, LIU W S, XIE W C, et al. Partial computation offloading for double-RIS assisted multi-user mobile edge computing networks[J]. Journal of Electronics and Information Technology, 2022, 44(7): 2309-2316.)

[10] CHEN F, WANG A, ZHANG Y, et al. Energy efficient SWIPT based mobile edge computing framework for WSN-assisted IoT[J]. Sensors, 2021, 21(14): No.4798.

[11] FU J, HUA J, WEN J, et al. Optimization of achievable rate in the multiuser satellite IoT system with SWIPT and MEC[J]. IEEE Transactions on Industrial Informatics, 2021, 17(3): 2072-2080.

[12] TIONG T, SAAD I, KIN TEO K T, et al. Deep reinforcement learning online offloading for SWIPT multiple access edge computing network[C]// Proceedings of the IEEE 11th International Conference on System Engineering and Technology. Piscataway: IEEE, 2021: 240-245.

[13] LI N, HAO W, ZHOU F, et al. Smart grid enabled computation offloading and resource allocation for SWIPT-based MEC system[J]. IEEE Transactions on Circuits and Systems Ⅱ: Express Briefs, 2022, 69(8): 3610-3614.

[14] WANG X, LI J, NING Z, et al. Wireless powered mobile edge computing networks: a survey[J]. ACM Computing Surveys, 2023, 55(13s): No.263.

[15] MUSTAFA E, SHUJA J, BILAL K, et al. Reinforcement learning for intelligent online computation offloading in wireless powered edge networks[J]. Cluster Computing, 2023, 26(2): 1053-1062.

[16] 施安妮,李陶深,王哲,等.基于緩存輔助的全雙工無線攜能通信系統的中繼選擇策略[J]. 計算機應用, 2021, 41(6):1539-1545.(SHI A N, LI T S, WANG Z, et al. Relay selection strategy for cache-aided full-duplex simultaneous wireless information and power transfer system[J]. Journal of Computer Applications, 2021, 41(6):1539-1545.)

[17] 陳艷,王子健,趙澤,等. 傳感器網絡環境監測時間序列數據的高斯過程建模與多步預測[J]. 通信學報, 2015, 36(10): 252-262.(CHEN Y, WANG Z J, ZHAO Z, et al. Gaussian process modeling and multi-step prediction for time series data in wireless sensor network environmental monitoring[J]. Journal on Communications, 2015, 36(10): 252-262.)

[18] 侯艷麗,蘇佳,胡佳偉. 基于有限反饋機會波束的無線傳感器網絡[J]. 傳感器與微系統, 2014, 33(2): 57-60.(HOU Y L, SU J, HU J W. Wireless sensor networks based on finite feedback opportunistic beamforming[J]. Transducer and Microsystem Technologies, 2014, 33(2): 57-60.)

[19] DENT P, BOTTOMLEY G E, CROFT T. Jakes fading model revisited[J]. Electronics Letters, 1993, 29(13):1162-1163.

[20] 王強,王鴻. 智能反射面輔助的下行NOMA系統和速率最大化研究[J]. 南京郵電大學學報(自然科學版), 2022, 42(1): 23-29.(WANG Q, WANG H. On sum rate maximization for IRS-aided downlink NOMA systems[J]. Journal of Nanjing University of Posts and Telecommunications (Natural Science Edition), 2022, 42(1): 23-29.)

[21] 吳毅凌,李紅濱,趙玉萍. 一種適用于時不變信道的信道估計方法[J]. 高技術通訊, 2010, 20(1): 1-7.(WU Y L, LI H B, ZHAO Y P. A novel channel estimation method for time-invariant channels[J]. Chinese High Technology Letters, 2010, 20(1): 1-7.)

[22] SEID A M, BOATENG G O, ANOKYE S, et al. Collaborative computation offloading and resource allocation in multi-UAV assisted IoT networks: a deep reinforcement learning approach[J]. IEEE Internet of Things Journal, 2021, 8(15): 12203-12218.

[23] 羅斌,于波. 移動邊緣計算中基于粒子群優化的計算卸載策略[J]. 計算機應用, 2020, 40(8):2293-2298.(LUO B, YU B. Computation offloading strategy based on particle swarm optimization in mobile edge computing[J]. Journal of Computer Applications, 2020, 40(8): 2293-2298.)

[24] LUO Z Q, ZHANG S. Dynamic spectrum management: complexity and duality[J]. IEEE Journal of Selected Topics in Signal Processing, 2008, 2(1): 57-73.

[25] 張淑興,馬馳,楊志學,等. 基于深度確定性策略梯度算法的風光儲系統聯合調度策略[J]. 中國電力, 2023, 56(2): 68-76.(ZHANG S X, MA C, YANG Z X, et al. Deep deterministic policy gradient algorithm based wind-photovoltaic-storage hybrid system joint dispatch[J]. Electric Power, 2023, 56(2): 68-76.)

[26] 韓佶,苗世洪, JON M R, 等. 基于機群劃分與深度強化學習的風電場低電壓穿越有功/無功功率聯合控制策略[J]. 中國電機工程學報, 2023, 43(11): 4228-4244.(HAN J, MIAO S H, JON M R, et al. Combined re/active power control for wind farm under low voltage ride through based on wind turbines grouping and deep reinforcement learning[J]. Proceedings of the CSEE, 2023, 43(11): 4228-4244.)

[27] 鄧暉奕,李勇振,尹奇躍. 引入通信與探索的多智能體強化學習QMIX算法[J]. 計算機應用, 2023, 43(1): 202-208.(DENG H Y, LI Y Z, YIN Q Y. Improved QMIX algorithm from communication and exploration for multi-agent reinforcement learning[J]. Journal of Computer Applications, 2023, 43(1): 202-208.)

[28] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. [2022-11-16].https://arxiv.org/pdf/1509.02971.pdf.

[29] 蔣寶慶,陳宏濱. 基于Q學習的無人機輔助WSN數據采集軌跡規劃[J]. 計算機工程, 2021, 47(4): 127-134, 165.(JIANG B Q, CHEN H B. Trajectory planning for unmanned aerial vehicle assisted WSN data collection based on Q-learning[J]. Computer Engineering, 2021, 47(4): 127-134, 165.)

[30] SUN H, CHEN X, SHI Q, et al. Learning to optimize: training deep neural networks for interference management[J]. IEEE Transactions on Signal Processing, 2018, 66(20): 5438-5453.

[31] 李燁,肖夢巧. 大規模MIMO系統中功率分配的深度強化學習方法[J/OL]. 小型微型計算機系統 (2022-08-01) [2022-11-16].http://kns.cnki.net/kcms/detail/21.1106.TP.20220729.1115.010.html.(LI Y, XIAO M Q. Deep reinforcement learning approach for power allocation in massive MIMO systems[J/OL]. Journal of Chinese Computer Systems [2022-11-16].http://kns.cnki.net/kcms/detail/21.1106.TP.20220729.1115.010.html.)

[32] 張先超,趙耀,葉海軍,等. 無線網絡多用戶干擾下智能發射功率控制算法[J]. 通信學報, 2022, 43(2): 15-21.(ZHANG X C, ZHAO Y, YE H J, et al. Intelligent transmit power control algorithm for the multi-user interference of wireless network[J]. Journal on Communications, 2022, 43(2): 15-21.)

[33] 陶麗佳,趙宜升,徐新雅. 無人機協助邊緣計算的能量收集MEC系統資源分配策略[J]. 南京郵電大學學報(自然科學版), 2022, 42(1): 37-44.(TAO L J, ZHAO Y S, XU X Y. Resource allocation strategy for UAV-assisted edge computing in energy harvesting MEC system[J]. Journal of Nanjing University of Posts and Telecommunications (Natural Science Edition), 2022, 42(1): 37-44.)

[34] SHEN K, YU W. Fractional programming for communication systems — Part I: power control and beamforming[J]. IEEE Transactions on Signal Processing, 2018, 66(10): 2616-2630.

Joint optimization method for SWIPT edge network based on deep reinforcement learning

WANG Zhe1,2,3, WANG Qiming2, LI Taoshen4, GE Lina1,3,5

(1,,530006,;2,,530006,;3(),530006,;4,,,530004,;5,,530006,;)

Edge Computing (EC) and Simultaneous Wireless Information and Power Transfer (SWIPT) technologies can improve the performance of traditional networks, but they also increase the difficulty and complexity of system decision-making. The system decisions designed by optimization methods often have high computational complexity and are difficult to meet the real-time requirements of the system. Therefore, aiming at Wireless Sensor Network (WSN) assisted by EC and SWIPT, a mathematical model of system energy efficiency optimization was proposed by jointly considering beamforming, computing offloading and power control problems in the network. Then, concerning the non-convex and parameter coupling characteristics of this model, a joint optimization method based on deep reinforcement learning was proposed by designing information interchange process of the system. This method did not need to build an environmental model and adopted a reward function instead of the Critic network for action evaluation, which could reduce the difficulty of decision-making and improve the system real-time performance. Finally, based on the joint optimization method, an Improved Deep Deterministic Policy Gradient (IDDPG) algorithm was designed. Simulation comparisons were made with a variety of optimization algorithms and machine learning algorithms to verify the advantages of the joint optimization method in reducing the computational complexity and improving real-time performance of decision-making.

Wireless Sensor Network (WSN); deep reinforcement learning; SWIPT (Simultaneous Wireless Information and Power Transfer); Edge Computing (EC); joint optimization

1001-9081(2023)11-3540-11

10.11772/j.issn.1001-9081.2022111732

2022?11?22;

2023?04?30;

國家自然科學基金資助項目(61862007); 廣西自然科學基金資助項目(2020GXNSFBA297103); 廣西民族大學引進人才科研啟動項目(2019KJQD17)。

王哲(1991—),男,河南南陽人,副教授,博士,CCF會員,主要研究方向:計算機網絡、攜能通信、聯邦機器學習; 王啟名(1997—),男,江蘇宿遷人,碩士研究生,主要研究方向:計算機網絡、攜能通信、機器學習; 李陶深(1957—),男,廣西南寧人,教授,博士,CCF杰出會員,主要研究方向:移動無線網絡、無線能量傳輸、物聯網、智慧城市; 葛麗娜(1969—),女,廣西環江人,教授,博士,CCF高級會員,主要研究方向:網絡與信息安全、移動計算、人工智能。

2023?05?12。

This work is partially supported by National Natural Science Foundation of China (61862007), Natural Science Foundation of Guangxi Province (2020GXNSFBA297103), Scientific Research Start Project of Talents Introduced by Guangxi Minzu University (2019KJQD17).

WANG Zhe, born in 1991, Ph. D., associate professor. His research interests include computer network, simultaneous information and power transfer, federated machine learning.

WANG Qiming, born in 1997, M. S. candidate. His research interests include computer network, simultaneous information and power transfer, machine learning.

LI Taoshen, born in 1957, Ph. D., professor. His research interests include mobile wireless network, wireless energy transmission, internet of things, smart city.

GE Lina, born in 1969, Ph. D., professor. Her research interests include network and information security, mobile computing, artificial intelligence.

猜你喜歡
深度策略系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
深度理解一元一次方程
例談未知角三角函數值的求解策略
我說你做講策略
深度觀察
深度觀察
深度觀察
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
主站蜘蛛池模板: 蜜臀av性久久久久蜜臀aⅴ麻豆| 九九热精品视频在线| 一级毛片免费的| 国内自拍久第一页| 8090午夜无码专区| 啪啪免费视频一区二区| 亚洲人妖在线| 国产剧情一区二区| 亚洲精品国产成人7777| 国内a级毛片| 精品久久蜜桃| 日韩av在线直播| 理论片一区| 福利在线不卡| 成人福利在线观看| 色综合久久88| 丁香综合在线| 五月综合色婷婷| 国产福利免费在线观看| 欧美啪啪网| 在线国产你懂的| 婷婷五月在线| 日本精品中文字幕在线不卡| 亚洲精品图区| 无码国产偷倩在线播放老年人| 污网站免费在线观看| 在线免费看片a| 国产a在视频线精品视频下载| 亚洲a免费| www.youjizz.com久久| 成人午夜免费视频| 97se亚洲| 天天躁狠狠躁| 欧美不卡视频在线观看| 高清视频一区| 国产原创第一页在线观看| 国产乱子伦视频在线播放| 亚洲第一区在线| 精品色综合| 在线国产毛片手机小视频| 自拍亚洲欧美精品| 黄色网页在线播放| 亚洲欧洲日韩国产综合在线二区| 伊人色婷婷| 国产精品微拍| 国内精品九九久久久精品| 久久综合色88| 亚洲国产第一区二区香蕉| 国产在线专区| 97久久超碰极品视觉盛宴| 成人免费一级片| 中文字幕久久波多野结衣| 国产一级二级三级毛片| 先锋资源久久| 五月天久久综合| 亚洲综合色婷婷中文字幕| 就去吻亚洲精品国产欧美| 四虎国产在线观看| 国产成人免费手机在线观看视频 | 国产成人三级| 亚洲男女天堂| 99热精品久久| 国产三级精品三级在线观看| 男女男免费视频网站国产| 国产精品亚洲va在线观看| 久久黄色免费电影| 高清不卡一区二区三区香蕉| 欧美成在线视频| 久久青青草原亚洲av无码| 国产第一色| 亚洲综合精品第一页| 全裸无码专区| 中日韩一区二区三区中文免费视频| 午夜福利在线观看成人| 1769国产精品免费视频| 精品免费在线视频| 久久成人免费| 亚洲AⅤ无码国产精品| 极品国产一区二区三区| 国产99视频精品免费视频7| 丝袜国产一区| 中文字幕 91|