999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的異構超密度網絡資源分配算法

2023-02-06 07:48:00任正國
計算機技術與發展 2023年1期
關鍵詞:效率用戶

吳 錫,任正國,孫 君

(南京郵電大學 江蘇省無線通信重點實驗室,江蘇 南京 210003)

0 引 言

隨著無線設備的急劇增加,現有的蜂窩網絡已經無法滿足爆炸式增長的無線業務需求。異構超密度網絡使用具有不同傳輸功率和覆蓋范圍的微小區和毫微小區來增強現有的蜂窩網絡,這些異構網絡(HetNet)可以將用戶設備(User Equipment,UE)從宏基站(Macro Base Station,MBS)轉移到微基站(Pico BS,PBS)和毫微基站(Femto BS,FBS)。此外,PBS和FBS可以重復使用MBS并與MBS共享相同的信道,實現異構網絡的高頻譜效率。因此,異構超密度網絡被認為是增加未來無線通信系統容量的方案之一。此類異構網絡中存在一些問題亟待優化,例如小區間干擾,資源浪費以及能源消耗大的問題。設計節能高效的無線通信系統已成為一種新趨勢[1-3],合理的頻譜分配和功率分配策略能顯著地提升能源效率和系統容量。文獻[4]提出了異構網絡中用戶關聯和資源分配的聯合優化方案,但是,考慮到非凸性和組合性,獲得聯合優化問題的全局最優策略是具有挑戰性的。為了提升異構小區的能源效率,滿足用戶的服務質量,文獻[5]研究了基于凸優化的方法分配傳輸功率以及帶寬。文獻[6-7]分別研究了博弈論方法、線性規劃方法解決聯合用戶關聯和資源分配問題。但是,這些方法需要幾乎完整的信道狀態信息,而完整的信道狀態信息通常很難得到。近年來深度強化學習成為人工智能應用中一種新的研究趨勢,并且正在成為解決無線通信系統動態資源分配問題的可行工具。該文專注于利用強化學習方法來解決這一難題。

在強化學習算法中,強化學習代理考慮最大化長期獎勵,而不是簡單地獲得當前的最佳獎勵,這對于解決動態的資源分配問題十分有效。在提升系統吞吐量方面,文獻[8]研究了一種基于強化學習的媒體訪問控制協議,用以學習最佳的信道訪問策略。文獻[9]考慮了一種多信道無線網絡中網絡效用最大化的動態頻譜訪問問題,用戶能夠從他們的確認字符(Acknowledge character,ACK)信號中學習頻譜接入策略;文獻[10]提出了基于生成對抗網絡(Generative Adversarial Networks,GAN)的深度強化學習方法,用以找到一個最優的帶寬共享解決方案。但是上述文獻僅考慮頻譜資源的分配,并沒有涉及功率控制,不夠完善。文獻[11]研究了多智能體的強化學習方法用以解決無線網絡中的功率分配問題,用戶根據相鄰用戶的信道狀態信息和QoS來調整自己的發射功率,文章雖然以功率控制為出發點,但是并沒有考慮系統的能源效率問題,有些欠妥。文獻[12]考慮超密集異構網絡中的同層干擾和跨層干擾問題,提出了基于強化學習的資源分配方案。文獻[13]結合深度學習和強化學習構建神經網絡,根據環境狀態動態調整信道和功率分配。但是文獻[12-13]均未對信道信息有較高的要求。文獻[14]研究了REINFORCE、DQL(Deep Q Learning)和DDPG(Deep Deterministic Policy Gradient)等方法在多小區功率分配上的性能表現,但是也只是從系統總容量出發,對于用戶QoS要求、能源效率等方面欠考慮,同時對于信道狀態信息要求較高。文獻[15-16]研究了超密度蜂窩小區的資源分配問題,提出了基于模型的深度強化學習方法,但是在集中式結構下分析的資源分配問題,同樣需要完整的信道狀態信息;文獻[17]以能源效率為目標,通過與環境的交互來學習混合能源驅動的異構網絡中用戶調度和資源分配的最優策略,但是算法收斂速度較慢,且不穩定。文獻[18]提出了基于強化學習的方法來解決聯合用戶關聯基站和頻譜分配問題。雖然考慮到用戶的QoS要求,但僅從最大化系統容量的角度出發,并沒有分析系統的頻譜效率。

上述基于文獻資源分配主要存在以下問題:(1)全局信道狀態信息難以得到;(2)維度問題:由于上述文獻中通常需要全局或整個小區內的信道狀態信息,導致其神經網絡輸入輸出維度與小區數量、信道數量、用戶數成正比,且狀態空間隨著輸入輸出維度呈指數增長。此外,在高維空間中的探索效率低下,因此學習可能不切實際。

綜上所述,為了在有限的信道狀態信息下解決異構超密度網絡的下行鏈路中的頻譜和功率聯合分配問題,由于聯合優化問題的非凸性和組合性,且是一個NP-hard問題,提出了一種新的基于多智能體強化學習的分布式優化算法。該算法以滿足用戶QoS為基本要求,提升系統的頻譜利用率和能源效率為主要目標。通過強化學習算法訓練神經網絡,得到接近最優的聯合頻譜和功率分配策略?,F有的工作大多將基站作為資源分配的決策者,在一定情況下增加基站的負擔,且全局的信道狀態信息的要求較高,該文將資源分配的決策放在用戶側,在算法收斂較快的情況下所造成的計算負擔和能耗是可以接受的。

1 系統模型

考慮一個具有Mm個宏基站(MBS),Mp個微基站(PBS)以及Mf個毫微基站Mm+Mp+Mf=M和N個移動用戶的異構超密度網絡的下行鏈路,每個小區BS位于每個小區的中心,其授權移動用戶隨機分布在小區。每兩個相鄰的小區之間有重疊的區域。為了最大程度地利用無線電資源,將頻率復用因子設置為1,為了避免小區內干擾,假設每個小區中的每個用戶僅分配一個子信道,因此所有用戶信號在同一小區中子信道是正交的。小區中使用的K個正交子信道可以在每個相鄰小區中重復使用。然而,重疊區域中的用戶由最近的小區BS服務,由于可能使用相同的頻譜資源,他們可能遭受嚴重的小區間干擾(Inter Carrier Interference,ICI)。網絡模型結構如圖1所示。

令dm,n表示基站m∈M={1,2,…,M}與用戶n∈N={1,2,…,N}之間的關聯關系,dm,n=1表示基站m與用戶n關聯,假設用戶與具有最高邊際效用的基站相關聯,則有以下資源分配:

圖1 網絡模型結構

(1)

考慮具有平坦衰落的單個頻帶,采用塊衰落模型來表示在時隙t中用戶n到基站m的下行鏈路信道增益gm,n,k(t)為:

(2)

(3)

ρ=J0(2πfdTs)

(4)

其中,J0(?)是第一類零階貝塞爾函數;fd是最大多普勒頻率;Ts是相鄰時刻之間的時間間隔。

不同小區中的用戶分配相同的子信道,例如,基站m在子信道k上服務的用戶n的ICI可以表示為:

(5)

(6)

(7)

其中,W為子信道的帶寬。

定義能源效率函數EE為:

(8)

定義頻譜效率函數SE為:

(9)

考慮所有用戶想要滿足其各自最小的QoS要求Ω,因此,假設用戶n下行速率Γn(t)不小于最小QoS要求Ωn,即:

Γn(t)≥Ωn

(10)

為了聯合單個用戶優化頻譜效率和網絡能源效率,效用函數可以定義為:

(11)

參數β是為了考慮頻譜效率和能源效率的折中,該文的目標是在保證用戶QoS前提下,提升頻譜效率和能源效率,則聯合優化問題表示為:

(12)

2 基于強化學習的聯合資源分配

上述異構場景下的聯合資源分配問題可以表示為馬爾可夫決策過程(Markov Decision Processes,MDP)。Q學習算法是解決MDP問題的最有效的算法之一。然而,異構超密度網絡規模龐大,拓撲結構復雜,使得算法的計算復雜度難以控制,DRL能夠很好地解決此類復雜的問題,網絡實體經過不斷與環境交互,通過學習可以進行自主決策,同時DNN(Deep Neural Networks)的引入能夠在具有大的狀態空間和動作空間的問題求解上具有顯著優勢。為了解決在全局信道狀態信息不可知的問題,引入了多智能體的方法,每個智能體只根據自己的信道狀態信息以及極小的信息傳遞便可做出決策。因此,提出了基于多智能體強化學習的聯合資源分配框架。本節分別定義了聯合資源分配的狀態空間、動作空間和獎勵函數,然后提出了基于多智能體的強化學習算法解決聯合資源分配問題。

2.1 強化學習三要素定義

在強化學習中,智能體(代理)基于策略做出決策,選擇動作對環境造成影響,得到反饋。狀態空間、動作空間和獎勵函數是強化學習的三要素。對于該文所考慮的異構超密度網絡,將用戶作為智能體,定義狀態空間、動作空間和獎勵函數如下:

(13)

獎勵:在采取行動后,代理可以計算環境的回報rn(t)。智能體的唯一目標是最大化總回報。因為an(t)的行為對獎勵rn(t)有直接影響,所以發送給代理的獎勵定義了對代理而言是好是壞的行為。在這種情況下,利用效用函數ηn(t)得到獎勵函數rn(t),達到系統最大化頻譜效率和能源效率的近似最優解。

(14)

其中,ψ為頻譜效率和能源效率的折中因子,ζ為未到達QoS要求的用戶數目。

2.2 多智能體聯合資源分配策略

在t時刻,每個智能體通過觀測狀態s(t)∈S,按照既定的策略π選擇相應的動作a(t)∈A,并和環境產生交互,然后得到即時獎勵r(t),進入下一個狀態s(t+1)。智能體的目標是學習策略π:s(t)∈S→a(t)∈A,根據其當前狀態s(t)來選擇下一個動作a(t+1),該策略會產生最大可能的預期累積獎勵。

智能體和環境交互,以尋求最大化獎勵,使用值函數來評估當前環境的狀態和策略,方程式為:

(15)

其中,γ∈[0,1)是確定未來獎勵權重的折現率。若折現因子為0,則只考慮當前獎勵,意味著采取短視的策略,若γ∈(0,1),表示將長遠的未來收益考慮到了當前行為產生的價值中。

狀態值函數,用以描述遵循策略π時一個狀態的值。

Eπ[r(t+1)+γVπ(s(t+1))|s(t)=sn]

(16)

類似的得到狀態行為對的價值函數:

sn,a(t)=an]

(17)

對于任何MDP問題,總存在一個確定性的最優策略;同時如果知道最優行為價值函數,則表明找到了最優策略。

最優狀態價值函數是所有狀態價值函數中的最大值,為:

(18)

針對V*(s),一個狀態的最優價值等于從該狀態出發采取的所有行為產生的行為價值中最大的那個行為價值:

(19)

于是可以通過找到最優行為價值函數來尋找最佳策略π*。根據Q學習算法,通過以下公式更新Q值Qn(sn,an):

Qn(sn,an)←Qn(sn,an)+αk[r(t+1)+

(20)

在DQN中,DNN用來表示動作和狀態空間,DNN輸入是當前的狀態,輸出是當前可執行狀態的動作的Q值表的近似,具有權重θ的NN(Neural Networks)函數逼近器Qn(sn,an;θ)≈Qn(sn,an)。DQN使用目標網絡和在線網絡來穩定整體網絡性能,目標網絡是在線網絡Qn(sn,an;θ)的副本,但其權重在數次迭代中固定不變。目標網絡的權重每經過一定次數的迭代,更新為在線網絡中的權重。損失函數定義為:

(21)

(22)

為了實現更好的策略估計,引入對決神經網絡[20]獲得優勢函數An(sn,an)=Qn(sn,an)-Vn(sn),動作an對比其他動作的優勢可用An(sn,an)表示。因此,在決斗架構中,DDQN的最后一層由Vn(sn)和An(sn,an)兩個子網絡組成。通過組合Vn(sn)和An(sn,an),可以估計動作價值函數Qn(sn,an)。

該文所用的強化學習模型如圖2所示。每一個用戶擁有一個代理,每一個代理擁有兩個DQN網絡,一個是在線網絡,一個是目標網絡。在線網絡的主要作用是根據用戶得到的狀態信息,包括用戶的當前功率分配和信道選擇策略是否滿足預先設置的下行速率,以及自身的信道狀態信息,輸出功率分配和信道分配的決策,然后用戶將此策略發送給基站,請求基站根據此策略分配資源,基站根據自身可用的資源拒絕或同意用戶的請求。目標網絡的作用是輔助在線網絡的權重參數更新。

圖2 強化學習模型

算法1描述了聯合優化問題的多智能體強化學習方法。在每個訓練情節開始時,初始化狀態信息,每個用戶向其關聯的基站報告其自身的當前狀態(僅為sq(t)),通過消息回程通信鏈路在基站間傳遞,獲得所有用戶的QoS信息。然后,基站將該信息發送給所有用戶。每個情節持續T步。例如,在每個情節的步驟中,用戶n使用ε貪婪策略從估計的Q值Qn(sn,an)中選擇執行動作。然后,每個用戶將其子信道分配和功率分配請求發送到該用戶已經選擇與其關聯的基站。該請求包含所需子信道的索引和下行發射功率。然后,基站根據其可用資源來接受或拒絕來自用戶n的請求。如果基站接受用戶n的請求,基站將以用戶請求的功率向用戶n發送反饋信號。此時用戶可以根據得到的反饋計算下行鏈路速率,進而計算出獎勵函數。反之基站拒絕用戶請求,不向用戶的請求做出反饋,此時用戶得到獎勵為負。然后,在獲得立即獎勵rn(sn,an)和更新下一狀態之后,每個用戶更新Q值。當滿足所有用戶的QoS或達到最大步長T時,當前情節結束。

算法1

1.初始化重現存儲D,以及目標網絡替換步長N-。

3.重復500個情節,每一個情節重復500步,對于每一步進行以下操作:

(b)所有的UE更新環境s(t+1),得到獎勵r(t+1)。

(d)所有的UE從各自的記憶回放單元D中隨機抽取樣本,計算損失函數Ln(θ),并更新權重。

4.每隔N-步,所有的UE將各自的目標網絡參數θ-替換為在線網絡權重θ。

5.當所有的UE滿足QoS條件,或者達到最大迭代步驟,結束當前情節。

3 仿真分析

在這一節中,給出了所提多智能體強化學習資源分配算法在異構超密度網絡中的下行鏈路中的性能表現,并給出了該算法與其他RL算法[13]以及貪婪算法的對比。采用tensorflow平臺實驗仿真,仿真設置宏基站的數量為2,微基站的數量為8,毫微基站的數量為12,以及用戶數N∈{20,25,30,35,40},且用戶隨機分布在各個小區的范圍內。宏基站和微基站的覆蓋半徑分別500 m、100 m,最大傳輸功率分別為38 dbm、30 dbm,二者的路徑損耗模型均為34+40*log10(d),毫微基站的覆蓋半徑為30 m,最大傳輸功率為20 dbm,其路徑損耗模型為37+30*log10(d)。信道帶寬為180 kHz,噪聲功率密度N0為-174 dBm/Hz。重現存儲D的大小為500,抽樣批次的長度為32,學習率參數為0.000 05。網絡布置如圖3所示。

圖4給出了該算法在不同學習率收斂的回合數訓練效率的表現,在學習過程開始時,訓練步驟都非常大,這是因為經過初始化,代理沒有之前學習的經歷,很難找到令所有用戶滿足QoS要求的策略,需要經過很長的迭代步驟才能收斂,甚至達到預設的最大回合數都不能收斂。但隨著情節數目的增加,代理經過學習,收斂速度加快,對比不同的學習率,當學習率為0.000 05時,在40回合后,不到10步就能夠收斂,而學習率為0.001時,收斂較慢。這是因為學習率對于網絡來說太大了,只有合適的學習率才能使收斂更快。

圖3 網絡布置

圖4 訓練步驟與回合數曲線

圖5給出了不同算法在不同功率分配等級條件下系統能源效率的表現。相較于貪婪算法和文獻[13]中算法,該文得到的能源效率分別提升了26.43%~43.47%和22.68%~33.25%。隨著功率分級數量的提升,在一定區間內會提升能源效率,但過高的分級數量會增加計算復雜度,且提升的能量效率有限。

圖5 能源效率與功率分配等級關系曲線

圖6給出了三種不同算法在不同子信道數的條件下系統頻譜效率的表現,隨著子信道數量的增加,三種算法的頻譜利用率均有下降。這是因為隨著子信道數量的增加,在相同的用戶數量下,信道的復用效率降低。對比文獻[13]中的算法和貪婪算法,該算法的頻譜利用率均有所提升。

圖6 頻譜效率與信道數量關系曲線

在圖7中,比較了三種算法在不同用戶數量條件下系統吞吐量的變化??梢钥闯鲭S著用戶數量的增加,系統總的吞吐量增大,但是增長的趨勢有所減緩,在用戶數與信道數相等時,多個用戶共用同一條信道的情況較少,干擾較小,這時所提方案平均每個用戶的下行速率最大值位于初始點,達到2 Mpbs/s,此時系統總容量為40.21 Mbps/s,隨著用戶數量增加,干擾增大,平均每個用戶的下行速率減少。相比文獻[13]中的算法和貪婪算法,文中算法系統速率提升最大達到14.11%和25.65%。

圖7 系統容量與用戶數量關系曲線

4 結束語

在異構超密度網絡,為了滿足用戶最小QoS要求,提升系統頻譜利用率以及能源效率,提出了基于多智能體強化學習框架的分布式資源管理算法。將能源效率和頻譜效率作為獎懲值,并通過有限的消息傳遞得到狀態信息,再根據狀態信息分配頻譜和功率策略,然后反復訓練更新神經網絡,使得到的策略趨向于最優策略。仿真結果表明,該算法可以滿足用戶需求,提升網絡能效,有效解決復雜動態網絡下的資源分配問題。

猜你喜歡
效率用戶
提升朗讀教學效率的幾點思考
甘肅教育(2020年14期)2020-09-11 07:57:42
注意實驗拓展,提高復習效率
效率的價值
商周刊(2017年9期)2017-08-22 02:57:49
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
跟蹤導練(一)2
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: A级毛片无码久久精品免费| 日韩精品专区免费无码aⅴ| 国产在线啪| 免费无码在线观看| 欧美69视频在线| 十八禁美女裸体网站| 国产真实乱人视频| 亚洲精品另类| 国产一区二区色淫影院| 宅男噜噜噜66国产在线观看| 日本精品αv中文字幕| 毛片在线播放a| 免费人成在线观看成人片| 色AV色 综合网站| 91色在线观看| 国产成熟女人性满足视频| 在线免费不卡视频| 1024国产在线| 亚洲美女视频一区| 国产在线拍偷自揄拍精品| 国产女人水多毛片18| 欧美第二区| 国产aⅴ无码专区亚洲av综合网| www.亚洲一区| 亚洲视频影院| 丰满的熟女一区二区三区l| 97色伦色在线综合视频| 在线高清亚洲精品二区| 制服丝袜亚洲| 白丝美女办公室高潮喷水视频| 国产在线八区| 美女被操91视频| 青草91视频免费观看| 又黄又爽视频好爽视频| 91区国产福利在线观看午夜| 国产97区一区二区三区无码| 国产精品无码AV片在线观看播放| 71pao成人国产永久免费视频| 女人av社区男人的天堂| 国产一级毛片在线| 国产视频大全| 亚洲毛片网站| 凹凸国产熟女精品视频| 亚洲国产成人久久精品软件| 免费国产高清视频| 欧美午夜在线观看| 一本久道热中字伊人| 国产产在线精品亚洲aavv| 刘亦菲一区二区在线观看| 国产免费网址| 爆乳熟妇一区二区三区| 色香蕉影院| 999精品色在线观看| 国产欧美日韩另类| 最新亚洲人成无码网站欣赏网 | 人妻91无码色偷偷色噜噜噜| 久久亚洲欧美综合| 日韩东京热无码人妻| 波多野结衣一级毛片| 亚洲无线国产观看| 内射人妻无码色AV天堂| 日韩东京热无码人妻| 久久香蕉国产线看观看精品蕉| 亚洲中文字幕在线精品一区| 久久窝窝国产精品午夜看片| 亚洲码一区二区三区| 国产色网站| 成人在线不卡| 日本人妻丰满熟妇区| 色婷婷天天综合在线| 香蕉网久久| 国产亚洲欧美日韩在线一区二区三区| 在线欧美a| 欧洲日本亚洲中文字幕| 亚洲精品无码日韩国产不卡| 在线观看国产精美视频| 在线不卡免费视频| 91精品综合| 精品一區二區久久久久久久網站| 日本五区在线不卡精品| 亚洲中久无码永久在线观看软件| 国产毛片基地|