999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多小區(qū)NOMA通信系統(tǒng)的強(qiáng)化學(xué)習(xí)功率分配算法

2023-06-21 08:31:12吳建嵐劉全金畢松姣周岳鈺
關(guān)鍵詞:分配優(yōu)化用戶

吳建嵐,劉全金,畢松姣,周岳鈺,嵇 文

(安慶師范大學(xué) 電子工程與智能制造學(xué)院,安徽 安慶 246133)

隨著科技的發(fā)展,各種移動通信設(shè)備層出不窮,無線蜂窩網(wǎng)絡(luò)的規(guī)模也越來越大,這導(dǎo)致了蜂窩網(wǎng)絡(luò)數(shù)據(jù)的傳輸面臨著很大挑戰(zhàn)。用戶密度增大意味著對網(wǎng)絡(luò)容量和頻譜效率有著更高的要求,小區(qū)內(nèi)和小區(qū)間的干擾也成為數(shù)據(jù)傳輸中需要考慮的重要問題。5G通信系統(tǒng)采用了具有更高系統(tǒng)吞吐量和更高頻譜效率的非正交多址(Non-orthogonal Multiple Access,NOMA)技術(shù)[1-2]。NOMA技術(shù)跟傳統(tǒng)正交多址接入(Orthogonal Multiple Access,OMA)技術(shù)不同,其引入了功率域,且基站根據(jù)用戶狀態(tài)分配功率,然后將發(fā)射信號疊加在時(shí)頻資源上發(fā)送,同時(shí)用戶端采用串行干擾消除技術(shù)來接受信號[3-5]。

本文研究的功率分配問題是非凸的,求解困難。之前,研究者已經(jīng)提出了多種基于模型驅(qū)動的算法來解決這一問題[6-9]。例如,文獻(xiàn)[6]提出了分?jǐn)?shù)階編程(Fractional Programming,FP)算法并應(yīng)用于通信系統(tǒng)的設(shè)計(jì)和優(yōu)化;文獻(xiàn)[7]的基于加權(quán)均方誤差(Weighted Minimum Mean Squared Error,WMMSE)算法是一種簡單的分布式線性收發(fā)器設(shè)計(jì)方法。這些算法高度依賴數(shù)學(xué)模型,在特定用戶分布、地理環(huán)境等實(shí)際應(yīng)用場景中并不完善,另外,都需要完整的信道狀態(tài)信息,對環(huán)境要求較高,應(yīng)用并不廣泛。近年來,基于機(jī)器學(xué)習(xí)的功率分配算法在無線通信中得到了迅速發(fā)展[10],這些算法通常是無模型的,能較好地解決實(shí)際通信場景中的非凸優(yōu)化問題。例如,文獻(xiàn)[11]針對用戶設(shè)備和蜂窩用戶設(shè)備共享無線資源的情況,提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的發(fā)射功率控制策略;文獻(xiàn)[12]提出了一種基于深度強(qiáng)化學(xué)習(xí)的在線卸載框架,旨在通過優(yōu)化任務(wù)卸載決策和無線資源分配以適應(yīng)時(shí)變的無線信道條件;文獻(xiàn)[13]針對混合能源異構(gòu)網(wǎng)絡(luò)中用戶調(diào)度和資源分配的最優(yōu)策略問題,提出了一種基于策略梯度的演員評論家算法以最大化通信網(wǎng)絡(luò)能效。

鑒于蜂窩網(wǎng)絡(luò)環(huán)境具有連續(xù)性和隨機(jī)性的特點(diǎn),本文提出了基于深度強(qiáng)化學(xué)習(xí)的功率分配算法(PPA-DDPG),并將其用于多小區(qū)無線NOMA下行蜂窩網(wǎng)絡(luò),旨在優(yōu)化通信系統(tǒng)和速率。

1 多小區(qū)NOMA系統(tǒng)功率分配優(yōu)化模型

1.1 多小區(qū)NOMA系統(tǒng)

本文以一個(gè)單輸入單輸出無線蜂窩網(wǎng)絡(luò)的NOMA系統(tǒng)下行鏈路為研究對象,該網(wǎng)絡(luò)由N個(gè)小區(qū)組成,每個(gè)小區(qū)中心位置都部署一個(gè)單發(fā)射天線的基站并使用共享頻譜,由中心基站同時(shí)為K個(gè)用戶服務(wù)。小區(qū)基站編號用n∈{1,2,…,N}表示,用戶編號用k∈{1,2,…,K}表示。該網(wǎng)絡(luò)中每個(gè)基站和小區(qū)用戶之間的信道增益gk,n可表示為

其中,hk,n是一個(gè)服從瑞利分布的復(fù)高斯隨機(jī)變量,由Jakes模型獲得;|·|為取模;βk,n是大尺度衰落分量[14]。

在NOMA下行鏈路中,信道條件較好的用戶將比較差的用戶分配到更少的功率。同時(shí)基站將多個(gè)用戶的信號進(jìn)行疊加處理并發(fā)送,其發(fā)送給K個(gè)用戶的信號表示為

其中,sk表示用戶k期望的接收信號;pk,n表示基站n向用戶k的發(fā)送功率。

接收端信號為

其中,cn表示加性高斯白噪聲,均值為0,方差為

網(wǎng)絡(luò)系統(tǒng)模型如圖1所示。每個(gè)小區(qū)有強(qiáng)用戶和弱用戶,其中強(qiáng)用戶表示信道條件比較好的用戶,而弱用戶則表示信道條件比較差的用戶。該模型考慮了強(qiáng)用戶無差錯(cuò)解碼出弱用戶的信號。

圖1 NOMA系統(tǒng)模型

1.2 多小區(qū)NOMA下行鏈路的功率分配優(yōu)化建模

基于上述系統(tǒng)模型,小區(qū)n內(nèi)用戶k的和速率為

利用NOMA中串行干擾消除技術(shù),用戶1可以消除用戶2的干擾,故用戶1正確譯碼的信干擾比為

用戶2可直接解碼,其信干擾比為

其中,pn1表示小區(qū)n的基站向用戶1的發(fā)射功率,Pn2表示小區(qū)n的基站向用戶2的發(fā)射功率,且pn=pn1+pn2。

用戶1和用戶2的速率分別為

因此,一個(gè)小區(qū)系統(tǒng)的用戶速率為

本文在最大功率的約束下,以系統(tǒng)最大和速率為優(yōu)化目標(biāo)來實(shí)現(xiàn)最優(yōu)功率分配:

其中,Pmax表示最大發(fā)射功率。對于此類復(fù)雜的非凸問題,求解是非常困難的,本文提出了用PPA-DDPG算法來求解系統(tǒng)最大和速率。

2 基于DDPG算法的功率分配優(yōu)化

強(qiáng)化學(xué)習(xí)有很強(qiáng)的環(huán)境交互能力,智能體與環(huán)境交互過程可用馬爾可夫決策過程(Markov Decision Processes,MDPs)表示。在交互過程中,智能體根據(jù)觀察到的狀態(tài)s,依據(jù)策略π來執(zhí)行動作a,然后從環(huán)境中得到反饋獎(jiǎng)勵(lì)r并進(jìn)入新的狀態(tài)s'。重復(fù)上述循環(huán),將反饋獎(jiǎng)勵(lì)r進(jìn)行累加,從而得到累積回報(bào)R。強(qiáng)化學(xué)習(xí)算法的目標(biāo)是智能體在與環(huán)境的交互中搜索能產(chǎn)生最大累積回報(bào)R的最優(yōu)策略。本文使用DDPG算法求解了多個(gè)小區(qū)NOMA下行鏈路的功率分配優(yōu)化問題。

2.1 強(qiáng)化學(xué)習(xí)理論

強(qiáng)化學(xué)習(xí)基本模型由智能體和環(huán)境兩部分組成,包含狀態(tài)s、動作a和獎(jiǎng)勵(lì)r三要素,基本模型如圖2 所示。MDPs 的策略只跟當(dāng)前的狀態(tài)有關(guān),可以用簡單的五元組表示:M={S,A,P,R,γ},其中,S={s1,s2,…,sn}表示一組有限狀態(tài)集,A={a1,a2,…,an}表示一組有限動作集表示當(dāng)前狀態(tài)s執(zhí)行動作a并轉(zhuǎn)移到下一狀態(tài)s'的概率,R(s,a)=E[Rt+1|s,a]表示智能體在當(dāng)前狀態(tài)s執(zhí)行動作a產(chǎn)生的即時(shí)獎(jiǎng)勵(lì),γ表示折扣因子并根據(jù)折扣因子對每個(gè)獎(jiǎng)勵(lì)給予不同的權(quán)重。

圖2 強(qiáng)化學(xué)習(xí)基本模型

智能體的累積回報(bào)為

智能體的優(yōu)化目標(biāo)是找到一個(gè)策略π(a|s)以使累積回報(bào)G(s)最大化,其中π(a|s)=P(a|s)表示在狀態(tài)s下執(zhí)行動作a的概率。有如下狀態(tài)價(jià)值函數(shù)[15]:

該函數(shù)為基于t時(shí)刻狀態(tài)s能獲得回報(bào)的期望。在t時(shí)刻狀態(tài)s選擇動作a后獲得回報(bào)的期望稱動作價(jià)值函數(shù)[15],公式如

根據(jù)貝爾曼最優(yōu)準(zhǔn)則[15],求解得以上兩式的最優(yōu)方程為

其中V*(s)是在狀態(tài)s下考慮所有可能發(fā)生的動作中挑選最優(yōu)動作的價(jià)值;Q*(s,a)是在狀態(tài)s下執(zhí)行動作a后,考慮之后所有可能處于的狀態(tài)并在這些狀態(tài)下總是選取最優(yōu)動作來執(zhí)行所帶來的長期價(jià)值。

2.2 DDPG算法

由于無線蜂窩網(wǎng)絡(luò)的各種參數(shù)是持續(xù)變化的,將其作為強(qiáng)化學(xué)習(xí)環(huán)境,則智能體的動作和狀態(tài)也是連續(xù)的,所以本文選擇DDPG算法來優(yōu)化多小區(qū)NOMA蜂窩網(wǎng)絡(luò)和速率。圖3是基于DDPG算法的多小區(qū)NOMA 下行鏈路的功率分配優(yōu)化模型框圖。DDPG 由actor 和critic 兩個(gè)部分構(gòu)成,前者包括actor網(wǎng)絡(luò)和actor目標(biāo)網(wǎng)絡(luò),后者包括critic網(wǎng)絡(luò)和critic目標(biāo)網(wǎng)絡(luò)。四個(gè)網(wǎng)絡(luò)都是深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN),均由輸入層、隱藏層和輸出層三個(gè)部分組成,其中隱藏層可以有多層神經(jīng)元,得到的結(jié)果具有泛化能力[15]。actor根據(jù)智能體所處狀態(tài)s輸出智能體動作a,而critic對actor輸出的動作做評價(jià)。同時(shí)critic根據(jù)輸入的狀態(tài)s和動作a預(yù)測Q值,是智能體在學(xué)習(xí)過程中的輔助網(wǎng)絡(luò),負(fù)責(zé)評估actor網(wǎng)絡(luò)性能,不參與動作的生成。

圖3 基于DDPG算法的多小區(qū)NOMA下行鏈路的功率分配優(yōu)化模型

DDPG算法可追求critic的評價(jià)值最大化,且盡可能對actor做出準(zhǔn)確評價(jià),同時(shí)actor和critic兩部分協(xié)同工作。可以根據(jù)下面公式來優(yōu)化兩個(gè)部分神經(jīng)網(wǎng)絡(luò)的參數(shù):

對目標(biāo)網(wǎng)絡(luò)參數(shù)采用軟更新,并設(shè)立更新系數(shù)τ,緩慢更新目標(biāo)網(wǎng)絡(luò)參數(shù),公式如

2.3 基于DDPG算法的功率分配優(yōu)化

(3)獎(jiǎng)勵(lì)r:為了提高智能體的和速率,并減輕其對相鄰鏈路的干擾,本文采用和速率(公式10)的平均值作為強(qiáng)化學(xué)習(xí)算法獎(jiǎng)勵(lì)。

在最大功率的約束下,DDPG算法以系統(tǒng)最大和速率為優(yōu)化目標(biāo),以期實(shí)現(xiàn)系統(tǒng)的功率分配優(yōu)化,PPA-DDPG算法偽代碼如下。

3 仿真結(jié)果和分析

3.1 仿真參數(shù)設(shè)置

建立一個(gè)多小區(qū)NOMA 蜂窩網(wǎng)絡(luò)系統(tǒng)模型,并仿真PPA-DDPG 算法優(yōu)化系統(tǒng)的功率分配,具體參數(shù)如表1所示。根據(jù)LTE標(biāo)準(zhǔn),將大尺度衰落建模為[16]

表1 多小區(qū)NOMA蜂窩網(wǎng)絡(luò)系統(tǒng)仿真參數(shù)

利用Tensorflow模塊庫編程來實(shí)現(xiàn)PPA-DDPG 算法,其中actor部分的DNN 由一個(gè)輸入層、兩個(gè)隱藏層和一個(gè)輸出層組成,隱藏層的神經(jīng)元個(gè)數(shù)分別為64 和128,激活函數(shù)是線性修正單元(ReLU):f(x)=max(0,x);critic部分DNN由一個(gè)輸入層、一個(gè)隱藏層和一個(gè)輸出層組成,隱藏層的神經(jīng)元個(gè)數(shù)為64,激活函數(shù)是ReLU ;采用Adam 算法[17]作為優(yōu)化器;actor 和critic 的學(xué)習(xí)率分別設(shè)置為ηa=1×10-4和ηc=1×10-3。在每個(gè)訓(xùn)練回合中,大尺度衰落不變,總的回合數(shù)Episode設(shè)置為10 000,每回合時(shí)刻T設(shè)置為10;根據(jù)多次實(shí)驗(yàn),一個(gè)大的Episode 和較小的T值可以降低數(shù)據(jù)隨時(shí)間的相關(guān)性,從而保證算法的收斂性。

3.2 仿真結(jié)果分析

依據(jù)多小區(qū)NOMA 蜂窩網(wǎng)絡(luò)模型來仿真驗(yàn)證PPA-DDPG 算法和基于DQN 功率分配算法[18](以下簡稱DQN)。本文將這兩種算法在多小區(qū)NOMA蜂窩網(wǎng)絡(luò)系統(tǒng)模型下訓(xùn)練,并進(jìn)行性能比較。

圖4為PPA-DDPG算法和DQN算法的Loss曲線,可以發(fā)現(xiàn)Loss值隨著訓(xùn)練回合數(shù)增加而減小,最終趨于穩(wěn)定。相對而言,PPA-DDPG算法的損失值更小,收斂效果更好。圖5是PPA-DDPG和DQN兩種算法的獎(jiǎng)勵(lì)曲線,縱坐標(biāo)用平均和速率(Average sum-rate)表示,橫坐標(biāo)為訓(xùn)練回合數(shù)(Train episode)。可以看出,兩種算法的收斂速度都隨著訓(xùn)練回合數(shù)的增加而加快,PPA-DDPG算法在第1 000回合左右就能達(dá)到收斂,而DQN算法在接近10 000回合下才能收斂,說明PPA-DDPG算法的平均和速率增長相對于DQN算法更快一點(diǎn)。從圖4也可看出兩種算法的損失值都能很快達(dá)到收斂狀態(tài),相比較而言,PPADDPG算法的收斂速度更快,算法的穩(wěn)定性也相對較好。

圖4 PPA-DDPG算法和DQN算法的Loss曲線

本文分別在NOMA和OMA兩種系統(tǒng)下行鏈路(簡稱環(huán)境)中訓(xùn)練DDPG算法以優(yōu)化兩個(gè)系統(tǒng)的平均和速率,然后分別測試訓(xùn)練后的DDPG算法性能。結(jié)果如圖6所示,在8 000個(gè)測試回合的NOMA環(huán)境中,DDPG算法的平均和速率為4.67 bps,而OMA環(huán)境中的平均和速率為3.48 bps。可以看出,DDPG算法在NOMA 環(huán)境中的功率分配性能比OMA 環(huán)境中更強(qiáng)。即同樣使用DDPG 算法,NOMA 技術(shù)比OMA技術(shù)能更好地提升系統(tǒng)性能。

圖6 NOMA和OMA環(huán)境中的DDPG算法平均和速率

為進(jìn)一步驗(yàn)證PPA-DDPG算法的功率分配性能,本文仿真了FP算法[6]、WMMSE算法[7]、隨機(jī)分配功率算法[8](Random power)和分配給用戶所需的最大功率算法[8](Maximal power)等其他4種基于模型驅(qū)動的算法在NOMA下行鏈路環(huán)境中的功率分配。統(tǒng)計(jì)了8 000回合下PPA-DDPG、DQN、FP、WMMSE、Random power和Maximal power 等6種算法的平均和速率,圖7為6種算法在NOMA下行鏈路環(huán)境中功率分配測試時(shí)的平均傳輸和速率曲線。DQN算法的平均和速率為4.36 bps,PPA-DDPG算法為4.67 bps,F(xiàn)P算法為4.07 bps,WMMSE算法為3.85 bps,Random power算法為2.32 bps,以及Maximal power算法為2.31 bps。與FP和WMMSE算法相比,PPA-DDPG算法在和速率上分別提高了14.7%和21.3%。基于深度強(qiáng)化學(xué)習(xí)的PPA-DDPG 和DQN 算法相比其他4種基于模型驅(qū)動的算法,可以獲得更高的平均和速率,意味著深度強(qiáng)化學(xué)習(xí)算法在解決功率分配這一問題上相較于模型驅(qū)動的算法有很大優(yōu)勢。

圖7 6種功率分配算法的平均和速率

4 結(jié)束語

本文討論了蜂窩網(wǎng)絡(luò)的功率分配問題,并提出將深度強(qiáng)化學(xué)習(xí)的DDPG算法用于NOMA下行鏈路的功率分配,從而使蜂窩網(wǎng)絡(luò)的和速率得到提高。仿真結(jié)果顯示,本文提出的PPA-DDPG算法較傳統(tǒng)算法能更好地提高系統(tǒng)和速率,同時(shí)算法的收斂速度和穩(wěn)定性也優(yōu)于其他算法。此外,PPA-DDPG算法可以應(yīng)用于具有離散或連續(xù)狀態(tài)/動作空間的一般任務(wù)和多變量聯(lián)合優(yōu)化問題。

猜你喜歡
分配優(yōu)化用戶
超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
應(yīng)答器THR和TFFR分配及SIL等級探討
遺產(chǎn)的分配
一種分配十分不均的財(cái)富
績效考核分配的實(shí)踐與思考
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 欧美日韩国产在线观看一区二区三区 | 一本色道久久88综合日韩精品| 欧美日韩导航| 操国产美女| 亚洲国产精品成人久久综合影院 | 亚洲乱亚洲乱妇24p| 在线观看热码亚洲av每日更新| 无码乱人伦一区二区亚洲一| 欧美福利在线| 国产极品美女在线| 国产精品13页| 国产95在线 | 999精品色在线观看| 国产女人在线观看| 欧美激情福利| 国产靠逼视频| 毛片免费视频| 亚洲综合在线网| 91精品免费高清在线| www.亚洲一区| 小蝌蚪亚洲精品国产| 日本中文字幕久久网站| 国产另类视频| 亚洲国产一成久久精品国产成人综合| 欧美精品在线免费| 国产特级毛片aaaaaa| 一级全免费视频播放| av在线无码浏览| 天天综合网亚洲网站| 国产簧片免费在线播放| 精品伊人久久久大香线蕉欧美 | 国产一区二区三区免费观看| 色婷婷在线影院| www.日韩三级| 国产制服丝袜无码视频| 色悠久久综合| 在线观看国产精美视频| 片在线无码观看| 久久精品66| 国产精品v欧美| 欧美特级AAAAAA视频免费观看| 国产色婷婷| 久久人搡人人玩人妻精品| 久久青草精品一区二区三区| 国产女人在线视频| 熟女日韩精品2区| 99资源在线| 97国产在线观看| 国产精品yjizz视频网一二区| 欧美日韩高清| 日本爱爱精品一区二区| 亚洲欧洲日韩综合| 一区二区三区国产| 午夜电影在线观看国产1区| 亚洲视频在线青青| 国产激爽爽爽大片在线观看| 国产传媒一区二区三区四区五区| 国产一级在线观看www色 | 日韩大乳视频中文字幕 | 国产精品视频公开费视频| 2021精品国产自在现线看| 亚洲一级色| 欧美日韩国产精品综合| 国产亚洲欧美日本一二三本道| 亚洲国产综合精品中文第一| 亚洲熟妇AV日韩熟妇在线| 欧美国产综合视频| 99精品视频九九精品| 中文字幕无码制服中字| 国产女同自拍视频| 国产乱人免费视频| 成人午夜久久| 红杏AV在线无码| 中文字幕一区二区人妻电影| 草草影院国产第一页| 亚洲无码高清免费视频亚洲| 国产麻豆精品久久一二三| 一区二区三区在线不卡免费| 亚洲精品制服丝袜二区| 国产成人无码综合亚洲日韩不卡| 亚洲国产成人综合精品2020| 国产激爽大片高清在线观看|