999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

采用DDPG的聯合波束成形和功率控制算法

2022-08-09 07:16:14李中捷熊吉源李江虹
西安電子科技大學學報 2022年4期
關鍵詞:深度效率

李中捷,高 偉,熊吉源,李江虹

(1.中南民族大學 電子信息工程學院,湖北 武漢 430074;2.中南民族大學 智能無線通信湖北重點實驗室,湖北 武漢 430074)

大數據、物聯網和人工智能的發展,對移動通信的傳輸速率、信道容量等要求日漸提升。未來十年之內,移動數據需求量預計會增加上千倍。為滿足需求,主流的電信公司以及全球標準化組織都在積極推動第五代無線通信(5th-Generation,5G)的研發。毫米波通信比傳統的微波通信具有更高的頻段,但毫米波通信具有路徑損耗高的問題。目前,采用大規模天線陣列以構建多輸入多輸出(Multiple-Input Multiple-Output,MIMO)通信系統,并結合波束成形技術來增強接收端的信噪比,可有效彌補毫米波通信路徑損耗高的問題。因此,毫米波和大規模多輸入多輸出技術結合被認為是5G通信的前景技術之一。大量未利用的毫米波頻譜資源以及與波束成形技術的結合,可顯著提高通信系統的性能。

毫米波通信采用波束成形技術來彌補路徑損耗而造成的鏈路預算差距[1-4]。文獻[1]研究了在固定波束模式下的功率控制問題,致力于在保證最小用戶速率的情況下最大化總速率。文獻[2]通過固定發射功率的隨機波束成形來分析毫米波通信的性能。文獻[3]采用大數據分析技術,在高速移動的通信環境下借助用戶的位置信息,提出了兩種波束成形設計方案來獲得較高的頻譜效率,表明最佳傳輸策略的設計與用戶位置之間的映射關系十分重要。

目前已有一些工作專注于功率控制以提高通信中的頻譜效率[5-8],例如分式規劃算法[5]和加權最小均方誤差算法[6]。上述算法均根據完整信道狀態信息構建精確的數學模型,并通過迭代的方式進行計算。因此兩種算法會造成大量的計算消耗,且現實中完整的信道狀態信息并不易于獲取。為解決上述問題,文獻[7]提出了基于深度Q網絡(Deep Q Network,DQN)的功率控制算法,將深度Q網絡應用于發射功率控制問題,提出了基于深度Q網絡的動態功率控制方案。深度Q網絡只適用于離散的動作空間,發射功率必須進行量化。將發射功率進行量化成若干個等級,然后使用深度Q網絡進行等級選取。因此量化器的設計和功率級別數量的設定都會對性能產生影響。

上述研究僅考慮了通信中的波束成形設計或功率控制問題,從而導致傳輸速率的損失。為進一步提高數據傳輸速率,已有大量工作針對聯合功率控制和波束成形問題進行研究[9-11]。文獻[9]研究了在毫米波多用戶場景下聯合功率控制和波束成形問題,對具有恒模約束的波束成形矩陣進行設計。文獻[11]研究了在高速移動時通信的聯合混合波束形成和功率控制設計問題。然而上述文獻對波束成形矩陣進行設計時均需要完整的信道狀態信息。

針對上述問題,筆者提出了基于強化學習的聯合波束成形和功率控制算法,在無需完整信道狀態信息的情況下,對聯合波束成形和功率控制問題進行求解。聯合波束成形和功率控制問題是非凸的,因此將原始問題分為波束成形設計和功率控制兩個子問題,并提出了基于強化學習的雙模型系統進行求解。模型采用集中式訓練分布式執行結構。首先設計信息交互協議助于基站了解環境信息,每個基站與環境交互后將經驗上傳至云端進行訓練。云端采用深度Q網絡對波束成形矩陣進行設計。深度Q網絡只適用于離散的動作空間,而發射功率為連續變量,故采用深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)[12]算法來代替深度Q網絡對功率控制問題進行求解,最后云端將訓練完成的網絡權重廣播給每一個基站。

1 系統模型

如圖1所示,筆者采用K個單元組成的蜂窩網絡,其中每個小區中均含有一個多天線發射基站(Base Stalion,BS)和M個單天線接收用戶(User Equipnent,UE)。所有基站配備N(N≥1)根天線的均勻線性線陣。t時刻小區k中UEm接收的信號可表示為

(1)

(2)

(3)

基于毫米波頻率的稀疏散射特性,采用幾何信道模型來捕獲毫米波信道的特性。t時刻,BSk和UEm之間的信道向量可表示為

(4)

A(N,θk,k,m,Δ)=[a1(N,φ1),a2(N,φ2),…,aL(N,φL)]∈CN×L,

(5)

其中,θk,k,m為BSk和UEm的下行信道的發射角(Direction of Departure,DoD);Δ指代一個小的角度范圍,稱為角擴展[14];al(N,φl)∈CN×1,?l∈{1,2,…,L},表示第l條路徑的陣列響應向量,可表示為

(6)

(7)

(8)

2 問題提出

筆者的目的是聯合優化基站處的波束成形矢量和發射功率以最大化頻譜效率,將聯合波束成形和功率控制的優化問題表述為

(9)

其中,C1表示每個基站的發射功率在0和Pmax之間;C2表示每個基站的波束成形向量將在碼本F中選出;C3表示最小速率約束,即要求每個通信鏈路的SINR將不能低于最低標準γmin。前兩個約束的非凸性使得該問題是一個非凸優化問題,因此直接對式(9)進行求解十分困難。將求解式(9)分為兩個子問題,首先對波束成形矩陣F(t)進行設計,然后對功率控制問題進行求解。

3 基于深度強化學習的聯合功率控制和波束成形算法

3.1 信息交換議定

深度強化學習中基站通過與環境交互采取行動并獲得獎勵[16],故設計信息交換議定使基站有效獲取環境信息。

如圖2所示,BSk與UEk進行通信時,周邊的BS分為兩個集合:干擾者和受干擾者。干擾者定義為:BSi的通信使BSk在通信時受到干擾,當BSk收到干擾信號的SINR大于一定閾值,基站i被定義為干擾者,可表示為

(10)

與此相似,當BSk通信時也會對周邊BSo的通信產生干擾。故受干擾者定義為:BSk在通信時對BSo的通信產生干擾,且BSo收到干擾信號SINR大于一定閾值,BSo被定義為受干擾者,可表示為

(11)

3.2 聯合功率和波束算法

筆者提出的模型如圖3所示,采用集中式訓練分布式執行的結構。模型分為頂層和底層兩部分。頂層設定波束向量,底層設定發射功率。接下來介紹方案的3個主要部分。

(1) 動作空間。動作集分為波束選擇和功率選擇兩個動作空間。波束向量通過選取碼本中最佳的波束向量索引進行設計,故頂層動作集由波束向量索引構成。采用文獻[17]所提出的方案進行碼本設計,表示為C=[c0,c1,…,cQcode-1]∈CN×Qcode。碼本C的列表示波束方向,第n行q列的元素C[n,q]表示波束在方向第n根天線在方向q上的相位,可表示為

(12)

(13)

其中,第1項表示BSk在t時刻的頻譜效率;第2項表示懲罰項,即對周邊通信鏈路的干擾。換句話說,獎勵函數可以被認為是動作對式(9)中目標函數影響的凈增益。BSk的懲罰定義為受BSk干擾的受干擾者o的頻譜效率損耗之和,即

(14)

每個基站視為一個代理,并視其周邊基站為環境的一部分,使每個代理視為獨立的個體。避免環境變化造成的影響,將所有代理的經驗收集發送至云端并訓練網絡,然后將網絡權重廣播給所有代理。流程分為執行和訓練兩個步驟:

(15)

(16)

(17)

(18)

其中,θ表示網絡權重。每隔Tu次訓練將Critic和Actor網絡權重覆蓋目標Critic和目標Actor網絡的網絡權重:

(19)

(20)

算法偽代碼如算法1所示。

算法1基于強化學習的聯合波束成形和功率控制算法。

① 初始化模型參數。

② 基站k與環境交互獲取經驗eBeam和ePower,并上傳至云端。

③ 開始迭代:

⑥ 采用式(15)對評估網絡權重進行更新;

⑦ DDPG:

⑨ 采用式(17)、式(18)分別更新Critic和Actor網絡權重;

4 仿真分析

4.1 參數設置

通過計算機仿真分析了算法的平均頻譜效率,即總頻譜效率除以通信鏈路的數目。文中采用了5個六角形的均勻蜂窩網絡,每個蜂窩中心處放置基站,用戶隨機分布在網絡內部。如圖4所示,圓點表示UE,三角表示基站。系統詳細參數如表1所示。此外,設定以基站為中心,半徑r=10 m的小區域不放置用戶。將路徑損耗設為128.1+37.6 lgd,式中d表示發送端到接收端的直接距離。與文獻[18]相似,計算頻譜效率(3)時將其上限設為30 dB。

DDPG和DQN中采用的參數如表1和表2所示。

使用相對較小的網絡進行訓練,防止模型復雜化后導致計算時間較長。文獻[19]表明,單層隱藏層的神經網絡足以表征任何函數,然而該層的神經元必須足夠大。巨大的單層網絡無法更新權重至最優,采用3層隱藏層的神經網絡訓練效果更好。故算法中所有的神經網絡均采用4層網絡:輸入層、輸出層和兩層隱藏層。輸入層的神經元個數與代理的狀態集中元素個數相等。采用ε貪心算法,探索值ε初始化為ε(0)=0.2,并隨著迭代次數逐漸減小,ε(t+1)=max{εmin,(1-λε)ε(t)},λε=10-4。

表1 系統參數

表2 模型參數

4.2 性能分析

在多用戶mmWave通信場景下,與以下3種算法進行性能對比與分析。

基線1算法:基線算法文獻[12]提出的基于深度Q網絡的聯合波束成形和功率控制算法。

基線2算法:BS的發射功率均設為最大時文獻[4]提出的基于SVD分解波束成形算法。

基線3算法:基站的發射功率隨時選取,基于SVD的波束成形算法BS的發射功率均設為最大時文獻[4]提出的。

圖5為毫米波通信環境中每個小區內用戶數量為1時各算法的頻譜效率性能。從圖中可以看出,大約在訓練3 500次后,筆者所提的基于深度學習的聯合波束成形和功率控制算法收斂且取得最優的頻譜效率。深度Q網絡輸出功率為量化的離散值使精度受到限制,故性能低于筆者所提算法?;镜陌l射功率設為最大時,對周邊的通信鏈路干擾增強,故頻譜效率性能較差。從仿真結果可以看出,提出的基于強化學習的聯合波束成形和功率控制算法的頻譜效率隨著訓練過程逐漸提高,即隨著訓練深度Q網絡權重的不斷更新,決策策略得到了優化。

圖6為毫米波通信環境中不同用戶數量時的頻譜效率。從圖中可知,當蜂窩網絡中的通信鏈路數量增加時,筆者所提算法仍能夠在大約3 500次迭代后收斂。結合圖5可知,隨著小區內通信鏈路的增加,小區間干擾程度提升,故算法的頻譜效率降低,但筆者所提算法的頻譜效率仍然為最優。

圖7展示小區內用戶數為3時不同天線數量下所提算法的頻譜效率。由圖7可知,天線數量為N=8時算法在大約5 000次迭代后收斂,N=64時算法在大約7 500次迭代后收斂。這是由于隨著天線數量增加使計算復雜度增高,從而導致收斂速度的變慢。但隨著天線數量的增加,算法的頻譜效率隨著天線數量的增大而提升。這是由于在天線數量較少時,波束主瓣較寬,不能精確地對準接收端,使得傳輸路徑上的增益較小。當天線數量增大時,波束主瓣較窄,可以有效地指向信號路徑。

5 結束語

筆者提出了一種基于強化學習的聯合波束成形和功率控制算法,旨在無需CSI情況下最大化通信鏈路的頻譜效率。問題為非凸,故將問題分為波束成形和功率控制兩個子問題。首先提出信息交互協議助于基站進行信息交互了解環境信息,并設計基于深度強化學習的雙模型系統求解聯合優化問題。然后采用深度Q網絡設計波束成形矩陣,并用DDPG根據波束成形矩陣對功率控制問題進行求解。仿真結果表明,在多用戶通信環境,該算法的頻譜效率優于傳統波束成形算法和基于深度Q學習的聯合波束成形和功率控制算法。

猜你喜歡
深度效率
深度理解一元一次方程
提升朗讀教學效率的幾點思考
甘肅教育(2020年14期)2020-09-11 07:57:42
注意實驗拓展,提高復習效率
深度觀察
深度觀察
深度觀察
深度觀察
效率的價值
商周刊(2017年9期)2017-08-22 02:57:49
提升深度報道量與質
新聞傳播(2015年10期)2015-07-18 11:05:40
跟蹤導練(一)2
主站蜘蛛池模板: 91无码视频在线观看| 老司机精品久久| 亚洲综合中文字幕国产精品欧美| 亚洲 成人国产| 国产特级毛片| 欧美日韩国产在线人| 综合色婷婷| 成人国产精品2021| 国产精品九九视频| 国产91九色在线播放| 伊人91在线| 国产又黄又硬又粗| 啪啪啪亚洲无码| 国产福利一区在线| av色爱 天堂网| 国产69囗曝护士吞精在线视频| 九九九精品成人免费视频7| 在线观看无码a∨| 亚洲av综合网| 午夜福利无码一区二区| 精品人妻无码中字系列| 国产精品999在线| 国产精品女主播| 伊人久久久久久久久久| 日韩精品专区免费无码aⅴ| 97青青青国产在线播放| AV无码无在线观看免费| 亚洲欧洲日产无码AV| 成人字幕网视频在线观看| 一区二区日韩国产精久久| 久久频这里精品99香蕉久网址| 成人午夜亚洲影视在线观看| 最新午夜男女福利片视频| 色爽网免费视频| 中文字幕在线观| 在线免费无码视频| 国产91无毒不卡在线观看| 欧美成a人片在线观看| 狠狠做深爱婷婷久久一区| 久久无码免费束人妻| 白丝美女办公室高潮喷水视频| 99青青青精品视频在线| 91网在线| 免费人成网站在线观看欧美| 国产成人麻豆精品| 午夜日b视频| 一区二区三区四区在线| 午夜小视频在线| 国产精品99久久久久久董美香 | 国产99视频在线| 久久性妇女精品免费| 99久久精品免费看国产电影| 激情国产精品一区| 色婷婷久久| 国产经典在线观看一区| 91色在线视频| 国产极品美女在线观看| 五月天综合婷婷| 亚洲成aⅴ人在线观看| 在线免费不卡视频| 成人a免费α片在线视频网站| 久久精品国产91久久综合麻豆自制| 国产粉嫩粉嫩的18在线播放91| 18禁黄无遮挡网站| 国产网站一区二区三区| 亚洲国产精品不卡在线| 国产超碰在线观看| 在线人成精品免费视频| 久久综合五月婷婷| 午夜精品福利影院| 视频二区中文无码| 茄子视频毛片免费观看| 中文字幕精品一区二区三区视频 | 成人午夜视频免费看欧美| 亚洲自偷自拍另类小说| 亚洲欧美日韩另类在线一| 免费在线观看av| 国产精品任我爽爆在线播放6080| 欧美色视频日本| www.精品国产| 黄色在线不卡| 一本大道香蕉中文日本不卡高清二区|