999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

無線網絡多用戶干擾下智能發射功率控制算法

2022-03-10 09:24:42張先超趙耀葉海軍樊銳
通信學報 2022年2期
關鍵詞:深度智能

張先超,趙耀,葉海軍,樊銳

(1.東南大學移動通信國家重點實驗室,江蘇 南京 210096;2.嘉興學院浙江省醫學電子與數字健康重點實驗室,浙江 嘉興 314001;3.北京理工大學信息與電子學院,北京 100081;4.北京郵電大學信息與通信工程學院,北京 100876;5.中國電子科學研究院,北京 100041)

0 引言

近年來,隨著移動互聯網和人工智能技術的快速發展,智能手機、增強現實(AR,augmented reality)、虛擬現實(VR,virtual reality)等智能無線設備與遠程醫療、工業4.0、自動駕駛等智能應用進入爆發式增長階段,無線網絡中出現了大量無線終端,且這些無線終端相較于現在的智能手機而言,對通信性能的要求更加苛刻與多元[1-2]。為了利用有限的頻譜來滿足未來的高性能要求,研究人員提出頻譜共享[3]、D2D(device-to-device)技術[4]及超密集網絡[5]等大幅提高頻譜利用率的新技術,但這些技術在使用過程中不可避免地帶來基站之間、基站與用戶之間或多用戶之間的互相干擾,而發射功率與干擾影響密切相關,功率低則相互干擾程度小,但自然通信質量差,功率高則會加劇相互干擾,因此,發射功率控制是降低相互干擾、保證多用戶的通信服務質量與體驗的有效途徑[5],也一直是通信研究的熱點之一。

目前的發射功率控制算法研究方向主要有三類:1) 基于模型的優化算法,將發射功率控制問題轉化為優化問題進行求解;2) 基于博弈論的方法,將發射功率控制問題轉化為博弈問題進行求解;3) 基于機器學習的方法,將發射功率控制問題轉化為機器學習相關的問題進行求解。下面分別對三類方法的研究現狀進行介紹。

1) 基于模型的優化算法。文獻[6-10]分別通過加權最小均方差(WMMSE,weighted minimum mean square error)算法、分數規劃(FP,fractional programming)算法、連續凸逼近算法、內點法和最大化最小系統頻譜效率準則的優化算法對功率控制問題進行適當轉換與求解。以上算法通過采用優化理論求解系統最佳的功率分配,但由于干擾環境下的系統模型非凸,導致求解過程十分復雜,即使系統的性能提高,但是基于模型的優化算法的復雜度高,求解時間大于信道相干時間,結果難以在實際中應用[11]。

2) 基于博弈論的方法。文獻[12-13]分別將D2D 網絡中的功率控制問題建模為勢博弈和Stackelberg 博弈,利用分布式方法最大化多用戶的通信速率。基于博弈論的功率控制方法的優勢在于其能夠實現分布式決策,但博弈論追求穩定的納什均衡狀態,該狀態并不能保證所求結果為全局最優解。

3) 基于機器學習的方法。最近興起了基于機器學習的功率控制方法,這是由于機器學習在計算機科學領域的成功應用,使研究人員逐漸將機器學習技術應用在無線通信中[14]。文獻[15]通過收集大量全局信道狀態信息(CSI,channel state information),使用WMMSE 算法來產生功率分配集作為標簽,使用全局CSI 集合與對應的標簽進行深度神經網絡(DNN,deep neural network)的訓練直到收斂,訓練完成后,可以將瞬時全局CSI 輸入訓練好的DNN,直接輸出對應的最優功率分配策略。該方法需要消耗大量計算資源和時間成本來產生訓練集并對深度神經網絡進行訓練,且在實際環境中很難收集到準確的全局信道狀態信息來產生合理的訓練集。文獻[16]提出一種基于多用戶深度Q 網絡的算法,通過不斷試錯來優化功率分配策略,最終可以收斂到和WMMSE 接近的性能,但是該方法需要為深度神經網絡輸入大量狀態信息且必須對功率進行離散化處理,無法施加連續動作。類似地,文獻[17]提出一種分布式深度Q 網絡方法來進行D2D 通信中的分布式功率與頻譜分配,該方法能夠有效提升動態環境下的D2D 通信性能,但仍然只適用于離散動作問題。文獻[18]提出多種深度強化學習方法來解決頻譜共享網絡中的發射功率控制問題,次級用戶能夠獲取主用戶的功率分配信息,并結合傳感器的接收功率強度值對自身的發射功率進行調整,最終滿足通信網絡的服務質量要求并實現有效的頻譜共享。

本文針對多用戶通信鏈路之間存在干擾的情況,考慮復雜的無線信道環境,提出了以深度強化學習“行動器-評判器”為基本架構的智能發射功率控制算法,對多用戶發射功率進行有效控制,實現多用戶通信速率最大化。該算法基于深度強化學習(DRL,deep reinforcement learning)技術,通過與環境不斷交互、自我改進的學習方式來獲得最優策略,不需要帶標簽的訓練集;采用深度確定性策略梯度(DDPG,deep deterministic policy gradient)方法,使用2 個深度神經網絡分別擬合行動器和評判器,并在訓練過程中加入經驗回放和目標參數軟替代的方法,確保算法的收斂性;訓練收斂后,利用行動器網絡擬合出的最優策略,根據信道狀態信息實時進行最優的功率控制。仿真結果表明,所提算法能夠快速收斂,且在保證性能接近理論最優算法的前提下能夠有效降低功率控制所需的運算時間。此外,算法性能不會隨著網絡規模的增加而下降,能夠很好地適用于大規模無線網絡。

1 系統模型

設有K對收發無線終端設備的無線通信系統,每對收發終端有一條通信鏈路,每條通信鏈路中的收發設備固定,且鏈路之間存在干擾,如圖1 所示。

圖1 鏈路有干擾的無線通信系統示意

假設第k條鏈路(1 ≤k≤K)的發射終端設備在時刻t的發射功率為Pk(t),發射信號為xk(t),其接收端的信號為

其中,hk(t)為時刻t第k條鏈路的復信道系數;h j,k(t)為時刻t第j條鏈路的發射機與第k條鏈路的接收機的復信道系數,即為時刻t第k條鏈路收到的來自其他鏈路的干擾信號;z k(t)為獨立同分布的復高斯白噪聲,噪聲功率為N0。

其中,hj,k(t)和信道更新過程e j,k(t)均是獨立同分布的單位方差循環對稱復高斯隨機變量。相關系數ρ=J0(2πfdT),其中,J0(·) 是零階貝塞爾函數,fd是最大多普勒頻率。

對于其中一條通信鏈路的信號,其他發射機的信號將被視為噪聲,該設備的接收信號速率也將取決于信干噪比(SINR,signal to interference plus noise ratio)。在給定信道狀態信息H(t)和發射功率P(t)={Pk(t),?k}的情況下,接收機k的接收數據速率為

依據式(3),建立多用戶發射功率控制的干擾管理問題的數學模型,如式(4)所示。

式(4)的目標是實現無線通信系統加權數據速率最大化,其中,αk是設備k對應的正值權重,表征鏈路重要性。

式(4)的優化變量同時存在于lb 函數的分子與分母中,該問題的優化目標函數復雜且非凸,該問題的求解一直是無線通信領域進行干擾管理的研究重點。現有的求解算法對模型依賴度高,且算法復雜度較高,難以適用于未來無線網絡大規模多用戶接入的復雜動態場景。

2 智能無線發射功率控制算法

考慮到發射功率控制為連續動作問題,采用深度強化學習的DDPG 方法[20],構建智能無線發射功率控制算法,整體框架如圖2 所示。

圖2 智能無線發射功率控制算法整體框架

首先,由于無線信道環境具有馬爾可夫性質,故在此將功率控制這一動態決策的過程建模為馬爾可夫決策過程。設S=H為全局狀態值,設a(t)={Pk(t)|0≤Pk(t)≤Pmax}k=1,2,…,K為動作集,在智能功率控制過程中,假設存在一個集中控制器能夠收集全部信道狀態信息,向智能體輸入狀態值;智能體將基于狀態值與自身隨機策略做出決策,輸出具體動作(信道狀態信息與功率控制信息一般通過控制鏈路傳遞,不占用數據鏈路帶寬[21]),即a(t)~π(a(t)|S(t)),之后根據狀態轉移函數進入下一個狀態S(t+1)~Pr(S(t+1)|S(t),a(t))。此外,智能體將得到一個對應的獎賞函數r(t)=r(S(t),a(t)),并得到自身對新狀態的觀測量S(t+1)。訓練目標是追求最大化長期回報其中,γ為折扣系數,T為時間范圍。

根據優化問題式(4),可以將獎賞函數定義為

為了得到最佳的功率控制策略,強化學習需要不斷試錯,并迭代進行策略評估與策略改進[22]。深度強化學習則使用深度神經網絡來進行策略評估與策略改進,分別對應評判器網絡和行動器網絡,但由于強化學習訓練過程中前后序列的強相關性,傳統的“行動器-評判器”算法難以收斂。為此,這里采用收斂性更優的深度確定性策略梯度方法。具體地,設行動器深度神經網絡為μ(s|θμ),其中,θμ為行動器深度神經網絡的權重系數,行動器目標神經網絡選用不同的權重系數,目標行動器深度神經網絡為。類似地,將評判器深度神經網絡表示為Q(s,a|θQ),其目標網絡表示為,θQ和分別對應各自神經網絡的權重系數。后續對神經網絡的訓練即對θQ和θμ這2 個權重系數的更新,更新的目的是使評判器網絡能夠對功率控制策略做出更精準的評估,使行動器網絡輸出價值更大,即系統傳輸速率更大的發射功率。

為了進一步提升訓練效果,利用經驗回放方法,增加搜索廣泛性。每次在狀態s(t)下根據策略施加動作a(t)=μ(s(t)|θμ)+ζ,其中,ζ為一個隨機變量,作為動作噪聲來增加探索性;之后達到新的狀態s(t+1),并獲得相應獎賞r(t)。將此時的經驗g(t)={s(t),a(t),r(t),s(t+1)}存入回放緩存,形成經驗集,在訓練神經網絡時從回放緩存中隨機選取批量經驗進行學習,以此打破強化學習訓練步驟前后的相關性,保證訓練的穩定性和收斂性。

為了訓練評判器神經網絡,從回放緩存中隨機采樣N組經驗,選用合適的優化器來最小化該批經驗的期望預測誤差(即損失函數),如式(5)所示。

其中,yi為

據此更新評判器神經網絡的參數Qθ。目標評判器神經網絡參數的更新則采取軟更新方法,即

其中,τ∈ [0,1]是目標評判器網絡的學習率。

行動器神經網絡的訓練目標是最大化價值函數Q(s,a|θQ)的期望,即

其中,E[]· 為期望函數。使用采樣策略的梯度下降法更新參數,計算式(8)的梯度為

其中,?表示求解函數梯度。同樣地,目標行動器神經網絡參數的更新也采取軟更新方法,即

算法流程如算法1 所示。

算法1智能無線發射功率控制算法

3 仿真分析

3.1 仿真設計

設有10 對無線終端組成的無線通信系統,隨機分布在直徑1 km的區域內,通信總可用帶寬為2 MHz,通信信道路徑損耗為120.9 +37.6lbd(單位為dB,d為發射端和接收端之間的距離),多普勒頻率為10 Hz,噪聲功率N0=-174 dBm/Hz。文獻[21]分別選取5 對和10 對收發機進行仿真驗證,為更好地進行驗證,本文也分別對5 對和10 對收發機進行仿真驗證。發射機最大發射功率為1 W,總時間步長為0.1 s,分為100 個時間塊,設置所有的鏈路權重kα均為 1。使用 Python 開源第三方庫Tensorflow 2.4.0 和Keras 對深度神經網絡進行構建與訓練,以下所有仿真均在同一塊10 代i5-CPU 上進行,訓練深度神經網絡的超參數設置如表1 所示。

表1 深度神經網絡超參數設置

3.2 算法收斂性分析

圖3 展示了基于DDPG的智能無線發射功率控制算法的收斂情況。從圖3 可以看到,算法在一開始需要收集一定數量的經驗,此時進行隨機探索,強化學習的回報值基本沒有提升。當經驗緩存達到訓練要求數量,即算法開始訓練后,回報值將隨著回合數的增加逐漸升高,證明深度神經網絡得到了有效的訓練,并在較短的時間內就能夠收斂。

圖3 基于DDPG的智能無線發射功率控制算法收斂情況

由于超參數的選擇對于深度學習的訓練至關重要,圖4 和圖5 給出了深度神經網絡中典型超參數學習率和隱藏層數對算法收斂情況的影響。從圖4 可以看出,學習率過高或者過低的情況下,基于DDPG的智能無線發射功率控制算法均容易收斂至局部最優解,選取適當的學習率對訓練效果有很大影響。

圖4 學習率對算法收斂情況的影響

圖5 隱藏層數對算法收斂情況的影響

從圖5 可以看出,只使用一層隱藏層時神經網絡不能很好地在強化學習中進行策略評估與策略改進,最終收斂至局部最優值,而使用兩層及以上隱藏層時算法可以較好地收斂到全局最優值。但考慮到過多的隱藏層會增加計算與存儲負擔,且過多的隱藏層存在過擬合的風險,故本文最終選擇使用兩層隱藏層的深度神經網絡。

3.3 算法性能分析

本節采用仿真手段,將本文所提智能無線發射功率控制算法訓練得到的計算模型與傳統優化算法WMMSE[6]和隨機分配發射功率的方法進行比較。WMMSE 算法使用MMSE-SINR 等式[23],即,將非凸的通信速率最大化問題式(4)轉換為更高維度的可解的信號檢測問題,MMSE 指用戶的最小均方誤差,如式(11)所示。

其中

運用塊坐標下降法[24]求解式(11)得出原問題的最優解[6]。

算法效果方面,圖6 給出了不同功率控制算法的平均傳輸速率的比較,本文算法在不同通信收發機數量的場景下均實現了超過隨機分配算法的性能,且本文的智能功率控制算法能夠實現平均傳輸速率逼近理論上最優的WMMSE 算法。

圖6 不同功率控制算法的平均傳輸速率

算法效率方面,表2 和表3 給出在進行100 步功率控制情況下,不同算法在不同數量收發機場景中進行最優功率控制所需的運算時間。可以看出,WMMSE 算法所需運算時間隨收發機數量的增長而快速增加,而本文算法只有小幅度改變。具體地,在5 對收發機的情況下,本文算法運算時間略少于WMMSE,但在10 對收發機的情況下,本文算法進行最優功率控制所需時間僅為WMMSE 算法的這是因為針對不同數量收發機的神經網絡規模相同,故而本文所提算法的運算時間并不會發生顯著變化。本文所提算法具備良好的可擴展性,能夠有效適用于大規模用戶的管理。

表2 5 對收發機的最優功率控制運算時間

表3 10 對收發機的最優功率控制運算時間

4 結束語

本文對多用戶干擾情景下的智能無線發射功率控制算法進行了研究,提出了深度強化框架下的智能控制算法,以最大化通信系統的傳輸速率為目標優化發射功率控制策略。該算法借鑒深度強化學習中的深度確定性梯度下降技術,對行動器與評判器的2 個深度神經網絡進行訓練,進而獲得對策略的精準評估與合理改進,采用經驗回放和目標網絡參數軟更新的方法,確保算法具有良好的收斂性。仿真結果表明,該算法具有良好的收斂性,計算結果接近理論最優。

猜你喜歡
深度智能
深度理解一元一次方程
智能制造 反思與期望
深度觀察
深度觀察
深度觀察
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
主站蜘蛛池模板: 久久超级碰| 亚洲综合激情另类专区| 毛片在线区| 不卡无码h在线观看| WWW丫丫国产成人精品| 国产浮力第一页永久地址| 亚洲无码高清一区二区| 99这里精品| 亚洲一本大道在线| 亚洲免费三区| 日韩成人午夜| 午夜精品久久久久久久无码软件 | 国产成人无码Av在线播放无广告| 污网站免费在线观看| 久久夜色精品| 亚洲天堂日韩在线| 国产成人成人一区二区| 熟妇丰满人妻av无码区| 成人免费视频一区二区三区| 国产污视频在线观看| 亚洲第一成网站| 国产成人久久777777| swag国产精品| 成人国产一区二区三区| 精品少妇人妻av无码久久 | 香蕉eeww99国产精选播放| 在线免费观看AV| 日韩经典精品无码一区二区| 国产男人天堂| 国产精品一区二区久久精品无码| 亚洲手机在线| 国产日韩精品一区在线不卡| 国产午夜看片| 在线播放91| 国产成人精品视频一区视频二区| 青青青国产视频| 国产噜噜噜| 超碰aⅴ人人做人人爽欧美 | av尤物免费在线观看| 在线人成精品免费视频| 在线色国产| 黄色网页在线观看| 亚洲AV无码精品无码久久蜜桃| 亚洲AⅤ永久无码精品毛片| 国产噜噜在线视频观看| 国内精品91| 精品第一国产综合精品Aⅴ| 欧美成人a∨视频免费观看| 国产免费高清无需播放器| 亚洲精品人成网线在线| 永久免费AⅤ无码网站在线观看| 欧洲亚洲欧美国产日本高清| 欧美亚洲日韩中文| 国产精品久线在线观看| 亚洲伊人天堂| 成人综合在线观看| 国产午夜在线观看视频| 亚洲丝袜第一页| 四虎永久在线视频| 亚洲人成色在线观看| 国产91精品调教在线播放| 一本大道香蕉中文日本不卡高清二区 | a欧美在线| 国产高清国内精品福利| 狼友视频国产精品首页| 欧美区一区二区三| 国产资源免费观看| 久久a级片| 亚洲欧美精品日韩欧美| 国模极品一区二区三区| 色偷偷一区二区三区| 久久久久免费精品国产| 日韩精品无码免费专网站| 日本91在线| 美女无遮挡免费视频网站| 国产一区二区视频在线| 一区二区三区四区精品视频 | 99草精品视频| 中文字幕1区2区| 国产美女一级毛片| 1769国产精品视频免费观看| 永久成人无码激情视频免费|