999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的D3QN擁塞控制算法

2023-03-04 06:37:24過萌竹
計算機技術與發展 2023年2期
關鍵詞:經驗動作設備

過萌竹,孫 君

(南京郵電大學 通信與信息工程學院,江蘇 南京 210003)

0 引 言

大規模機器類通信(massive Machine Type Communication,mMTC)是第五代移動通信技術的三大應用場景之一[1],在遠程醫療、自動駕駛、智能交通等應用場景中發揮著關鍵作用[2]。在傳統接入方法下,MTC設備總是會選擇最佳信號質量的演進型Node(evolved Node B,eNB)進行接入,大量的MTC設備同時接入會引發碰撞,造成網絡擁塞[3]。這最終將導致無線電接入網擁塞、超低的設備復雜性和有限的電池壽命[4-5]。

起初,專家學者提出ACB[6](Access Class Barring)以及擴展ACB方案[7-8]來解決擁塞問題。通過限制設備的接入數量,減少擁塞并提高接入成功率。這些方案的局限性在于大規模設備帶來的高延遲以及不同到達率設備帶來的前導碼分配不均[9]。

因此,目前的研究傾向于機器學習輔助的接入控制方案。文獻[10]提出了一種基于Q學習算法的設備接入控制方案,該方案利用Q學習來動態調整ACB因子的值,達到優化接入的目的。文獻[11]使用吞吐量和延遲作為強化學習的獎勵,MTC設備根據獎勵選擇基站,從而增加了設備的吞吐量并減少了延遲。文獻[12]結合NOMA(Non-Orthgonal Multiple Access)技術和Q學習,通過地理位置分區復用前導碼,從而提高接入成功率。文獻[13]提出了一種協作分布式Q學習機制,這能夠為MTC設備的傳輸找到唯一的RA(Random Access)時隙。文獻[14]提出了一種基于強化學習的ACB方案, 調整了所有設備的禁止因子和延遲敏感設備的縮放因子,以保證大規模MTC設備的隨機接入。文獻[15]提出一種基于Q學習的隨機接入算法,優先為H2H(Human to Human)設備提供服務并最大化M2M(Machine to Machine)設備接入數量,使M2M設備業務不影響H2H業務。

然而,隨著MTC設備數量增多,上述方案的有效性大打折扣。因此,需要設計出一種能夠適應大規模接入場景的方案。該文采用基于深度強化學習的方法,在考慮的場景中,基站可以知道沖突的設備數量,MTC設備通過探索或經驗動態地選擇基站。在開始時,因為不確定環境知識的原因會采取探索行動,隨著訓練次數越來越多,智能體會執行處于這一狀態時能獲得最大獎勵的動作。該方案可以讓MTC設備準確地選擇較空閑的基站進行接入,減少了接入的延遲,也增加了接入的容量。

1 系統模型

如圖1所示,該文考慮四個基站共同服務的區域,四個基站都有各自的前導碼池。MTC設備可以向任意的基站發送信號,爭奪前導碼資源按照二步RA進行接入。二步RA是對四步RA的一種增強,其優點是通過簡化現有的分別攜帶前導碼和有效負載的四步RA來減少延遲,它可以用來檢測發生沖突的前導碼的數量,進而可以檢測發生沖突設備的數量。

在RA過程開始之前,基站周期性地廣播系統信息塊,其中包括用于同步的多個關鍵參數、前導信息和為RA預先配置的資源。在二步RA的第一步中,MTC設備發送一個前導碼和PUSCH(Physical Uplink Share CHannel)上的有效負載。利用接收到的標記前導碼,基站可以檢測每個前導碼是否發生沖突,基站計算出當前發生沖突的設備總數K并通過下行鏈路傳送到邊緣側。

圖1 系統模型

多個MTC選擇同一前導碼會導致前導沖突,無法在當前RA時隙傳輸數據,這些設備不需要退避時間,可以在下一個RA時隙進行重新接入。該文考慮的情況為MTC設備最多重傳1次。進行隨機接入的MTC設備分為兩類,一類是上一個RA時隙中沖突的設備,另一類是新激活的MTC設備。新激活的MTC設備服從速率參數為λ的泊松分布。

(1)

由于服從參數為λ的泊松分布,有:

(2)

因此,η可被改寫成:

(3)

2 基于強化學習的D3QN算法

2.1 強化學習框架設計

Q學習是強化學習中value-base的算法,Q即為Q(st,at),表示在狀態st下,采取動作at能夠獲得的獎勵的期望。Q學習算法的主要思想就是將狀態和動作建立成一個Q表來存儲Q值。根據這個表格來選取可獲得最大獎勵的動作。然而,當狀態空間特別大時,在巨大的Q表中找到最優策略具有挑戰性。因此,面對大規模MTC接入問題,該文采用深度強化學習(Deep Reinforcement Learning,DRL)來代替傳統的Q學習。

DRL基本思想是用一個深度神經網絡來近似表示估值函數。這個深度神經網絡被稱為深度Q網絡(Deep Q-network,DQN)。DQN算法的目標是逼近真實的Q(st,at),輸入是可能的狀態,輸出是該狀態下所有動作的Q值。

大規模MTC設備的隨機接入問題,實際上是一個決策問題。該文利用DQN來作一個最優決策。DQN的算法流程如圖2所示。

圖2 DQN算法流程

將每一個MTC設備定義為agent,agenti=MTCDi,1≤i≤MTCDmax。

獎勵R:獎勵的定義為:

(4)

其中,K為發生沖突的設備數量。

算法的目標是最大化預期獎勵,將RA時隙t時未來的累計獎勵定義為Ut。

(5)

每個基站都有前導碼池,每個MTC設備在M 2M幀中的每個前導碼都有單獨的Q值,并在每次接入嘗試時進行更新。Q值的更新公式為:

(6)

其中,α是學習率,Rt+1是獎勵或懲罰,取決于接入是否成功。采用貪婪策略,agent會選擇Q值最大的動作。DQN利用一個目標網絡和在線網絡來穩定網絡的整體性能。目標網絡更新其權重,以最小化損失函數,定義為:

(7)

(8)

2.2 DQN算法改進

經典的DQN算法無法有效解決大規模場景中的連接問題,并且在決策能力以及收斂速度上有著很大的缺陷,因此需要對傳統的DQN算法進行改進。該文所提的D3QN算法在經驗回放采樣、目標值計算、網絡結構中都做出了改進,具體改進如下文所述。

2.2.1 優先經驗回放

在D裝滿的時候,新的數據會覆蓋舊的數據。在學習的時候,網絡不僅學習當前的數據,還可以通過隨機從D中采樣小批量數據來進行訓練,通過減少訓練樣本之間的相關性,經驗回放的方法確保了模型的收斂,并且使得網絡的訓練更加高效。然而從經驗中均勻采用并不是一個最佳的方法,因為從全局來看,剛開始的經驗占總經驗的比重很小,被采樣到的概率是很小的。但這部分經驗具有較大的時間差分誤差,是值得關注并且學習的,因此需要根據優先級對經驗庫中經驗進行采樣。在回放緩存中,將經驗按照時間差分誤差從高到低進行排序,定義優先級為:

(9)

每個經驗所對應的采樣概率為:

(10)

其中,rank(i)是經驗在回放緩存中的排名。通過優先經驗回放,網絡的訓練速度將會更快。

2.2.2 Dueling Double DQN

如式(8)所示,傳統DQN在計算目標Q值時,需要窮舉所有的動作,把最高Q值加上獎勵變成目標Q值。網絡誤差會導致得到的目標Q值是被高估的。對于目標Q值被高估的問題,在D3QN中,使用在線網絡去選擇動作,目標網絡去計算Q值,通過在線網絡和目標網絡的交互,有效避免了DQN算法的目標值估計過高問題。如下所示:

(11)

除了目標值計算方式不同之外,D3QN與DQN還存在網絡結構上的不同。如圖3所示,傳統的DQN直接輸出Q值,D3QN將Q網絡分成兩部分,第一部分僅與狀態s有關,與具體采用的動作a無關,記為V(s)。第二部分同時與狀態s和動作a都有關,記為A(s,a),那么最終輸出的Q值可以表示為:

Q(s,a)=A(s,a)+V(s)

(12)

圖3 傳統DQN與D3QN網絡結構對比

在傳統DQN中,當需要更新某個動作a的Q值,會采用直接更新Q網絡的方法讓這個動作a的Q值提升。在D3QN中,更新某個狀態s的值時,不是簡單地更新某個動作的值,而是把所以動作的Q值都更新了一次。因為這個區別,D3QN算法在更新網絡的時候,可以用更少的次數讓更多的值進行更新,網絡的訓練速度會更快。根據以上改進,給出了基于強化學習的D3QN算法詳細過程,如算法1所示。

算法1:基于強化學習的D3QN算法。

1.初始化replay memory D,初始化DQN網絡參數θ,初始化目標網絡替換頻率M。

2.初始化在線網絡Q(s,a;θ)。

4.通過消息傳遞初始化網絡的狀態st。

6.基站向基站e發送接入請求,根據接入的成功與否以及式(4)獲得相應的獎勵或懲罰。

7.通過消息傳遞控制器得到下一個狀態st+1。

9.從D中按照式(10)采樣小批量的N個樣本。

11.通過梯度下降最小化損失函數(7)。

12.經過M次,將在線網絡的參數θ復制給目標網絡的參數θ-,θ-=θ。

13.結束循環。

3 仿真結果

本節對所提擁塞控制方案進行仿真。網絡由4個基站和若干設備組成。設置用戶數為50個,基站的半徑為500米,可用前導碼為32個,由4個基站平分。D3QN網絡的超參數設置如表1所示。

表1 D3QN仿真參數

在其他超參數都固定的情況下,設置參數λ為10,分別測試了不同學習率α對算法收斂性能的影響,結果如圖4所示。從圖中可以看出,在訓練初期,樣本數不多,過高的α訓練效果是很好的,但圖中α為0.1時發生了過擬合現象。隨著樣本數的增加,學習任務越來越復雜,過高的α導致收斂不理想,并且還降低了接入成功率。因此選擇學習率0.000 1。

圖4 不同學習率α下的訓練收斂性

在其他超參數都固定的情況下,設置參數λ為10,分別測試了不同折扣率γ對算法收斂性能的影響,結果如圖5所示。從圖中可以看出,不同折扣率γ都能夠使網絡收斂到同樣好。γ為0.90時,約100個回合就收斂了。γ為0.95時,前500個回合依舊有明顯震蕩。而γ為0.99時,需要更多的回合才能收斂。折扣率γ越高,表示希望agent越多關注未來的情況,這比關注當前要難得多,導致訓練變得緩慢和困難。因此選擇折扣率為0.90。

圖5 不同折扣率γ下的訓練收斂性

如圖6所示。對于不同的λ,接入成功率首先隨著訓練回合數的增加而增加,然后逐漸穩定,這證明了所提出的基于深度強化學習的方案是可以收斂的。穩定時的接入成功率隨著λ的增加而下降,這是由于新激活的MTC設備增加,網絡中競爭前導碼資源的設備增多,增加了碰撞概率。

圖6 不同λ下的接入成功率

圖7給出了所提方案與其他方案(文獻[13])以及傳統方案的比較結果。在相同條件下,所提方案明顯優于傳統方案和其他論文中的方案。例如,當λ=10時,基于深度強化學習的方案對比其他方案,接入失敗率可以從5×10-2降低到1.41×10-2。所提方案將接入失敗率下降了71.8%,與傳統方案作比較,所提方案將接入失敗率下降了85.7%。這是因為DRL追求的是最大化的累計獎勵,因此在每一次選擇基站的時候,會選擇從長遠出發來看最不容易發生沖突的那個基站。從圖中可以看出,所提方案在新接入設備增多時有更好的效果,接入成功率隨λ的增加下降的幅度明顯小于其他方案,這說明此方案可以提供更佳的接入性能。

圖7 不同方案對比

4 結束語

該文提出了一種基于DRL的前導碼分配方案,用于MTC設備在二步隨機接入中選擇合適的前導碼。通過基站的沖突設備數量來調整RL中獎勵的大小,設備將選擇較空閑的基站進行接入,減少了可能發生的沖突。采用D3QN以及優先經驗回放來改善網絡的訓練,網絡將會快速收斂。與其他方法和傳統方法對比表明,該方案能夠獲得更高的接入成功率。

猜你喜歡
經驗動作設備
諧響應分析在設備減振中的應用
2021年第20期“最值得推廣的經驗”評選
黨課參考(2021年20期)2021-11-04 09:39:46
經驗
2018年第20期“最值得推廣的經驗”評選
黨課參考(2018年20期)2018-11-09 08:52:36
基于MPU6050簡單控制設備
電子制作(2018年11期)2018-08-04 03:26:08
動作描寫要具體
畫動作
動作描寫不可少
500kV輸變電設備運行維護探討
工業設計(2016年12期)2016-04-16 02:52:00
非同一般的吃飯動作
主站蜘蛛池模板: 国产内射一区亚洲| 亚洲日本中文字幕天堂网| 亚洲自偷自拍另类小说| 久久香蕉国产线看观| 免费啪啪网址| 精品亚洲国产成人AV| 日韩欧美国产三级| 欧美色综合网站| 真人免费一级毛片一区二区| 日本不卡视频在线| 亚洲成人一区二区| 日本不卡视频在线| 真人免费一级毛片一区二区| 精品夜恋影院亚洲欧洲| 国产鲁鲁视频在线观看| 国产三区二区| 好吊日免费视频| 中文字幕在线看| 在线视频亚洲色图| 国产精品19p| 国产无码制服丝袜| 亚洲有无码中文网| 欧美翘臀一区二区三区| 亚洲第一成人在线| 国产亚洲欧美日韩在线一区| 午夜日b视频| 美女一级毛片无遮挡内谢| 国产视频一二三区| 本亚洲精品网站| 欧美视频在线观看第一页| 99爱视频精品免视看| 亚洲精品第一页不卡| 91网址在线播放| 香蕉eeww99国产在线观看| 亚洲日本在线免费观看| 午夜久久影院| 小说区 亚洲 自拍 另类| 亚洲91在线精品| 无码精品一区二区久久久| 欧美国产另类| 国产95在线 | 免费亚洲成人| 毛片免费在线视频| 亚洲国产成熟视频在线多多| 国产精品无码翘臀在线看纯欲| 91精品伊人久久大香线蕉| 99国产在线视频| 九九热在线视频| 国产毛片不卡| av在线人妻熟妇| 人妻丝袜无码视频| 国产99免费视频| 国产自产视频一区二区三区| 亚洲精品国产精品乱码不卞| 在线无码私拍| 伊人丁香五月天久久综合 | 欧美福利在线播放| 欧美精品啪啪一区二区三区| 热这里只有精品国产热门精品| 一本大道无码日韩精品影视 | 一本大道香蕉高清久久| 精品欧美一区二区三区久久久| 日本道综合一本久久久88| 日本91在线| 亚洲第一视频区| 亚洲AV电影不卡在线观看| 欧美日韩激情在线| 免费无码网站| 久久国语对白| 97se亚洲综合在线韩国专区福利| 露脸真实国语乱在线观看| 欧美精品xx| 69精品在线观看| 大学生久久香蕉国产线观看| 欧美啪啪视频免码| 久久九九热视频| 亚洲色图欧美视频| 日本91视频| 国产在线观看一区二区三区| 在线精品视频成人网| 制服丝袜 91视频| 亚洲国产日韩在线成人蜜芽|