999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度學(xué)習(xí)支持下的無(wú)線異構(gòu)網(wǎng)絡(luò)中繼決策分析

2024-04-28 06:36:46鄒易奇
無(wú)線互聯(lián)科技 2024年5期
關(guān)鍵詞:動(dòng)作

鄒易奇

(西安鐵路職業(yè)技術(shù)學(xué)院,陜西 西安 710000)

0 引言

在當(dāng)代通信領(lǐng)域,無(wú)線異構(gòu)網(wǎng)絡(luò)已成為廣域無(wú)縫覆蓋的關(guān)鍵技術(shù)之一。無(wú)線異構(gòu)網(wǎng)絡(luò)通過(guò)整合不同類(lèi)型的無(wú)線接入技術(shù),構(gòu)建了多層次、多樣化的網(wǎng)絡(luò)架構(gòu),顯著提升了網(wǎng)絡(luò)的容量和覆蓋范圍。中繼節(jié)點(diǎn)在無(wú)線異構(gòu)網(wǎng)絡(luò)中扮演著重要的角色,不僅解決了地理位置限制和信號(hào)衰減問(wèn)題,還通過(guò)信號(hào)的轉(zhuǎn)發(fā)和處理,擴(kuò)大網(wǎng)絡(luò)的覆蓋范圍,提高通信質(zhì)量,因此,合理的中繼決策對(duì)于改善網(wǎng)絡(luò)性能至關(guān)重要。深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)作為深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)的一種經(jīng)典算法,以其獨(dú)特的優(yōu)勢(shì)在復(fù)雜決策問(wèn)題中顯現(xiàn)出巨大潛力。本文旨在探索DQN算法在無(wú)線異構(gòu)網(wǎng)絡(luò)中繼決策中的應(yīng)用,以實(shí)現(xiàn)網(wǎng)絡(luò)性能的最優(yōu)化。

1 無(wú)線異構(gòu)網(wǎng)絡(luò)中的中繼節(jié)點(diǎn)

無(wú)線異構(gòu)網(wǎng)絡(luò)是一種融合多種無(wú)線接入技術(shù)的網(wǎng)絡(luò)架構(gòu),通過(guò)協(xié)同不同的無(wú)線接入網(wǎng)絡(luò),實(shí)現(xiàn)服務(wù)的無(wú)縫覆蓋。無(wú)線異構(gòu)網(wǎng)絡(luò)由多種無(wú)線接入網(wǎng)絡(luò)以及這些子網(wǎng)絡(luò)之間的中繼節(jié)點(diǎn)組成。在無(wú)線異構(gòu)網(wǎng)絡(luò)中,子網(wǎng)絡(luò)之間通過(guò)中繼節(jié)點(diǎn)相互連接和互操作。中繼節(jié)點(diǎn)位于源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)之間,其主要功能是對(duì)無(wú)線信號(hào)進(jìn)行放大加強(qiáng)后再轉(zhuǎn)發(fā),以擴(kuò)大網(wǎng)絡(luò)覆蓋范圍、提高信號(hào)傳輸質(zhì)量。中繼節(jié)點(diǎn)有助于改善網(wǎng)絡(luò)的熱點(diǎn)區(qū)域容量,在人流密集的熱點(diǎn)區(qū)域,大量用戶(hù)同時(shí)訪問(wèn)網(wǎng)絡(luò),可能會(huì)導(dǎo)致網(wǎng)絡(luò)擁塞甚至短時(shí)中斷,設(shè)置中繼節(jié)點(diǎn)區(qū)域性分流數(shù)據(jù),可以顯著增強(qiáng)熱點(diǎn)區(qū)域的網(wǎng)絡(luò)容量,設(shè)置室分布節(jié)點(diǎn),還能使信號(hào)在穿透建筑物時(shí)中繼放大,改善室內(nèi)覆蓋效果。

2 DQN算法原理與網(wǎng)絡(luò)結(jié)構(gòu)

DQN是深度強(qiáng)化學(xué)習(xí)算法之一,其基本思想是建立一個(gè)深層神經(jīng)網(wǎng)絡(luò)來(lái)近似表示Q值函數(shù),采用經(jīng)驗(yàn)回放和定期復(fù)制目標(biāo)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。DQN中的評(píng)估網(wǎng)絡(luò)(Evalution Network,EvalNet)用于估算當(dāng)前策略的Q值函數(shù),目標(biāo)網(wǎng)絡(luò)(Target Network)用于計(jì)算期望Q值。EvalNet首先輸入當(dāng)前狀態(tài)s,輸出各可能動(dòng)作a對(duì)應(yīng)的Q(s,a)。智能體根據(jù)探索策略選擇動(dòng)作,環(huán)境返回新的狀態(tài)s′和獎(jiǎng)勵(lì)r,將經(jīng)歷(s,a,r,s′)存入經(jīng)驗(yàn)回放池。每次從回放池中隨機(jī)采樣訓(xùn)練EvalNet,并定期復(fù)制其參數(shù)到TargetNet,其損失函數(shù)為:

(1)

其中,θ為EvalNet參數(shù);θ′為T(mén)argetNet參數(shù);E為期望值;y為目標(biāo)Q值。通過(guò)最小化損失函數(shù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),EvalNet能夠逼近最優(yōu)的行動(dòng)價(jià)值函數(shù)[3]。

3 基于DQN的無(wú)線異構(gòu)網(wǎng)絡(luò)中繼決策模型

3.1 DQN模型結(jié)構(gòu)及超參數(shù)選擇

本研究構(gòu)建了一個(gè)基于Tensorflow的DQN模型,用于學(xué)習(xí)無(wú)線異構(gòu)網(wǎng)絡(luò)的中繼節(jié)點(diǎn)布置策略,模型結(jié)構(gòu)如圖1所示。

圖1 模型結(jié)構(gòu)

模型主要包含2個(gè)深度神經(jīng)網(wǎng)絡(luò):評(píng)估網(wǎng)絡(luò)EvalNet和目標(biāo)網(wǎng)絡(luò)TargetNet。這2個(gè)網(wǎng)絡(luò)都由輸入層、2個(gè)全連接隱層和輸出層組成。設(shè)網(wǎng)絡(luò)隱層節(jié)點(diǎn)數(shù)分別為N1、N2,輸入狀態(tài)向量維度為Ns,輸出動(dòng)作數(shù)為Na,則2個(gè)網(wǎng)絡(luò)的參數(shù)可表示為:

θeval={W1,b1,W2,b2,W3,b3}

(2)

(3)

3.2 狀態(tài)空間定義

狀態(tài)空間定義了智能體可觀測(cè)到的環(huán)境信息,是智能體做出動(dòng)作決策的依據(jù)。本研究將狀態(tài)空間定義為一個(gè)Ns維向量s,包含以下?tīng)顟B(tài)特征:(1)當(dāng)前時(shí)刻每個(gè)中繼節(jié)點(diǎn)的信道增益gi,維度為Na;(2)每個(gè)中繼節(jié)點(diǎn)的剩余傳輸能量ei,維度為Na;(3)系統(tǒng)當(dāng)前時(shí)刻的總業(yè)務(wù)量請(qǐng)求r。則狀態(tài)表示為:

s=(g1,g2,…,gNa,e1,e2,…,eNa,r)

(4)

該狀態(tài)空間綜合考慮了網(wǎng)絡(luò)拓?fù)洹⑿诺篮蜆I(yè)務(wù)因素的實(shí)時(shí)狀態(tài),可為中繼決策提供全面的環(huán)境信息。

3.3 動(dòng)作空間定義

為解決無(wú)線網(wǎng)絡(luò)的中繼決策問(wèn)題,需要合理定義動(dòng)作空間[1]。研究將動(dòng)作定義為中繼節(jié)點(diǎn)的開(kāi)關(guān)狀態(tài)組合,采用一個(gè)Na維向量a表示,其中:

(5)

對(duì)于第i個(gè)中繼節(jié)點(diǎn),如果ai=1表示開(kāi)啟,ai=0表示關(guān)閉。動(dòng)作空間包含所有可能的開(kāi)關(guān)組合,對(duì)于Na個(gè)中繼節(jié)點(diǎn),動(dòng)作空間大小為2Na。為實(shí)現(xiàn)動(dòng)作空間,構(gòu)建一個(gè)Actor類(lèi),包含2個(gè)功能:

(1)從策略網(wǎng)絡(luò)輸出中采樣動(dòng)作。

def sample_action(self,policy_net,s):

action_prob=policy_net(s)

action=torch.multinomial(action_prob,1)

return action

(2)根據(jù)概率分布確定概率最高的動(dòng)作。

def get_action(self,policy_net,s):

action_prob=policy_net(s)

action=torch.argmax(action_prob)

return action

通過(guò)定義簡(jiǎn)明的動(dòng)作集合,并配合代碼實(shí)現(xiàn)動(dòng)作采樣功能,該離散動(dòng)作空間可以明確指導(dǎo)智能體對(duì)無(wú)線網(wǎng)絡(luò)中繼節(jié)點(diǎn)的開(kāi)啟或關(guān)閉操作。

3.4 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

獎(jiǎng)勵(lì)函數(shù)評(píng)估一個(gè)動(dòng)作導(dǎo)致的狀態(tài)轉(zhuǎn)移所獲得的即時(shí)獎(jiǎng)勵(lì)。設(shè)計(jì)無(wú)線異構(gòu)網(wǎng)絡(luò)中繼節(jié)點(diǎn)的獎(jiǎng)勵(lì)機(jī)制時(shí)考慮了傳輸?shù)某杀竞褪找?

(6)

其中,Rttrans為轉(zhuǎn)發(fā)收益;Rtsaving為節(jié)能收益;Rtloss為數(shù)據(jù)丟失罰函數(shù);w1、w2、w3為系數(shù),平衡不同獎(jiǎng)勵(lì)的比重。

如果在t時(shí)刻成功轉(zhuǎn)發(fā)數(shù)據(jù),則有Rttrans=B,其中B為基礎(chǔ)獎(jiǎng)勵(lì)。如果等待不轉(zhuǎn)發(fā),則Rttrans=0。節(jié)能獎(jiǎng)勵(lì)與節(jié)點(diǎn)剩余電量成正比,Rtsaving=α,其中et∈[0,1],為剩余電量,α為系數(shù)。當(dāng)隊(duì)列溢出導(dǎo)致數(shù)據(jù)丟失時(shí),有Rtloss=-C,其中C為罰函數(shù)系數(shù),否則Rtloss=0。

3.5 DQN算法描述

基于前述的狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù),無(wú)線異構(gòu)網(wǎng)絡(luò)中繼節(jié)點(diǎn)決策的DQN算法實(shí)現(xiàn)流程如下:

(1)采用2個(gè)相互協(xié)作的深度神經(jīng)網(wǎng)絡(luò),即評(píng)估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)。評(píng)估網(wǎng)絡(luò)用于及時(shí)近似Q函數(shù),產(chǎn)生中繼節(jié)點(diǎn)的開(kāi)關(guān)策略;目標(biāo)網(wǎng)絡(luò)的網(wǎng)路參數(shù)定期從評(píng)估網(wǎng)絡(luò)復(fù)制,用于計(jì)算目標(biāo)Q值,使訓(xùn)練過(guò)程更加穩(wěn)定。2個(gè)網(wǎng)絡(luò)的參數(shù)分別表示為θ和θ′。

(3)每C步從評(píng)估網(wǎng)復(fù)制參數(shù)至目標(biāo)網(wǎng)[2]。如此循環(huán)往復(fù),評(píng)估網(wǎng)絡(luò)能夠在線逼近無(wú)線網(wǎng)絡(luò)中繼的最優(yōu)策略。

4 中繼決策性能分析

為驗(yàn)證所提方法的優(yōu)勢(shì),本文構(gòu)建了仿真環(huán)境,并與典型的經(jīng)驗(yàn)決策法和隨機(jī)決策法進(jìn)行了比較。主要性能指標(biāo)包括平均吞吐量、傳輸延遲、丟包率等。仿真參數(shù)設(shè)置如表1所示。

表1 仿真參數(shù)設(shè)置

3種方法在不同網(wǎng)絡(luò)負(fù)載條件下的平均吞吐量和丟包率指標(biāo)如表2所示。

表2 不同算法的吞吐量和丟包率比較

固定中繼策略打開(kāi)所有中繼節(jié)點(diǎn),隨機(jī)中繼隨機(jī)選擇開(kāi)啟節(jié)點(diǎn)。結(jié)果顯示,DQN算法可以根據(jù)網(wǎng)絡(luò)狀態(tài)智能選擇最優(yōu)的中繼組合,在所有負(fù)載下,DQN算法都實(shí)現(xiàn)了最高的平均吞吐量和最低的丟包率,充分利用了網(wǎng)絡(luò)資源,顯著提高了吞吐量水平,同時(shí)大幅降低了擁塞丟包概率。

5 結(jié)語(yǔ)

本文探索了深度強(qiáng)化學(xué)習(xí)在無(wú)線異構(gòu)網(wǎng)絡(luò)中的應(yīng)用,提出了一個(gè)基于DQN的中繼節(jié)點(diǎn)優(yōu)化方法。該方法可以根據(jù)網(wǎng)絡(luò)狀態(tài)動(dòng)態(tài)選擇中繼,從而改善網(wǎng)絡(luò)性能。仿真結(jié)果表明,與傳統(tǒng)方法相比,該方法可以提高網(wǎng)絡(luò)吞吐量,降低丟包率,提供了一種利用深度強(qiáng)化學(xué)習(xí)優(yōu)化無(wú)線網(wǎng)絡(luò)智能化資源的新思路。

猜你喜歡
動(dòng)作
動(dòng)作不可少(下)
巧借動(dòng)作寫(xiě)友愛(ài)
下一個(gè)動(dòng)作
動(dòng)作描寫(xiě)要具體
畫(huà)動(dòng)作
讓動(dòng)作“活”起來(lái)
動(dòng)作描寫(xiě)不可少
非同一般的吃飯動(dòng)作
動(dòng)作喜劇電影周
電影故事(2015年30期)2015-02-27 09:03:12
神奇的手
主站蜘蛛池模板: 99成人在线观看| 人人妻人人澡人人爽欧美一区| 国内99精品激情视频精品| 91久久国产综合精品女同我| 亚洲国产精品VA在线看黑人| 综合色88| 91福利一区二区三区| 日韩成人免费网站| 一区二区三区四区日韩| 国产美女主播一级成人毛片| 精品自拍视频在线观看| 亚洲男人在线| 色AV色 综合网站| 亚洲精品无码不卡在线播放| 久久永久精品免费视频| 中日韩一区二区三区中文免费视频| 国产理论一区| 精品亚洲欧美中文字幕在线看| 亚洲aaa视频| 色综合国产| 在线欧美国产| 久久国产热| 国产精品视频猛进猛出| 国产不卡网| 亚洲免费成人网| 日韩专区第一页| 国产综合在线观看视频| 国产精品一线天| 日韩欧美中文字幕在线精品| 亚洲swag精品自拍一区| 噜噜噜综合亚洲| 青青操视频在线| 久久国语对白| 色成人综合| 伊人久久久久久久久久| 91精品国产福利| 欧美无遮挡国产欧美另类| 91在线一9|永久视频在线| 午夜福利视频一区| 国产9191精品免费观看| 欧美笫一页| 日本精品一在线观看视频| www成人国产在线观看网站| 国产精品综合色区在线观看| 亚洲—日韩aV在线| 欧美亚洲国产日韩电影在线| 伦精品一区二区三区视频| 露脸国产精品自产在线播| 四虎永久免费网站| 一级毛片高清| 亚洲无码高清视频在线观看| 成人午夜网址| 97久久精品人人做人人爽| 在线日本国产成人免费的| 亚洲无线国产观看| 婷婷亚洲视频| 亚洲第一黄片大全| 欧美怡红院视频一区二区三区| 正在播放久久| 无码专区国产精品第一页| 国产精品女同一区三区五区| 狠狠操夜夜爽| 久久午夜夜伦鲁鲁片无码免费| 久久精品这里只有精99品| 无码aaa视频| 午夜精品福利影院| 国产亚洲欧美日韩在线观看一区二区| 国产免费久久精品99re不卡| 色呦呦手机在线精品| 91视频免费观看网站| 99热这里只有精品免费国产| 九九线精品视频在线观看| 无码又爽又刺激的高潮视频| 岛国精品一区免费视频在线观看 | 亚洲美女久久| 免费啪啪网址| 亚洲中文字幕在线一区播放| 亚洲中文无码h在线观看| 欧美第九页| 久久99蜜桃精品久久久久小说| yjizz视频最新网站在线| 亚洲三级影院|