鄒易奇
(西安鐵路職業(yè)技術(shù)學(xué)院,陜西 西安 710000)
在當(dāng)代通信領(lǐng)域,無(wú)線異構(gòu)網(wǎng)絡(luò)已成為廣域無(wú)縫覆蓋的關(guān)鍵技術(shù)之一。無(wú)線異構(gòu)網(wǎng)絡(luò)通過(guò)整合不同類(lèi)型的無(wú)線接入技術(shù),構(gòu)建了多層次、多樣化的網(wǎng)絡(luò)架構(gòu),顯著提升了網(wǎng)絡(luò)的容量和覆蓋范圍。中繼節(jié)點(diǎn)在無(wú)線異構(gòu)網(wǎng)絡(luò)中扮演著重要的角色,不僅解決了地理位置限制和信號(hào)衰減問(wèn)題,還通過(guò)信號(hào)的轉(zhuǎn)發(fā)和處理,擴(kuò)大網(wǎng)絡(luò)的覆蓋范圍,提高通信質(zhì)量,因此,合理的中繼決策對(duì)于改善網(wǎng)絡(luò)性能至關(guān)重要。深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)作為深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)的一種經(jīng)典算法,以其獨(dú)特的優(yōu)勢(shì)在復(fù)雜決策問(wèn)題中顯現(xiàn)出巨大潛力。本文旨在探索DQN算法在無(wú)線異構(gòu)網(wǎng)絡(luò)中繼決策中的應(yīng)用,以實(shí)現(xiàn)網(wǎng)絡(luò)性能的最優(yōu)化。
無(wú)線異構(gòu)網(wǎng)絡(luò)是一種融合多種無(wú)線接入技術(shù)的網(wǎng)絡(luò)架構(gòu),通過(guò)協(xié)同不同的無(wú)線接入網(wǎng)絡(luò),實(shí)現(xiàn)服務(wù)的無(wú)縫覆蓋。無(wú)線異構(gòu)網(wǎng)絡(luò)由多種無(wú)線接入網(wǎng)絡(luò)以及這些子網(wǎng)絡(luò)之間的中繼節(jié)點(diǎn)組成。在無(wú)線異構(gòu)網(wǎng)絡(luò)中,子網(wǎng)絡(luò)之間通過(guò)中繼節(jié)點(diǎn)相互連接和互操作。中繼節(jié)點(diǎn)位于源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)之間,其主要功能是對(duì)無(wú)線信號(hào)進(jìn)行放大加強(qiáng)后再轉(zhuǎn)發(fā),以擴(kuò)大網(wǎng)絡(luò)覆蓋范圍、提高信號(hào)傳輸質(zhì)量。中繼節(jié)點(diǎn)有助于改善網(wǎng)絡(luò)的熱點(diǎn)區(qū)域容量,在人流密集的熱點(diǎn)區(qū)域,大量用戶(hù)同時(shí)訪問(wèn)網(wǎng)絡(luò),可能會(huì)導(dǎo)致網(wǎng)絡(luò)擁塞甚至短時(shí)中斷,設(shè)置中繼節(jié)點(diǎn)區(qū)域性分流數(shù)據(jù),可以顯著增強(qiáng)熱點(diǎn)區(qū)域的網(wǎng)絡(luò)容量,設(shè)置室分布節(jié)點(diǎn),還能使信號(hào)在穿透建筑物時(shí)中繼放大,改善室內(nèi)覆蓋效果。
DQN是深度強(qiáng)化學(xué)習(xí)算法之一,其基本思想是建立一個(gè)深層神經(jīng)網(wǎng)絡(luò)來(lái)近似表示Q值函數(shù),采用經(jīng)驗(yàn)回放和定期復(fù)制目標(biāo)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。DQN中的評(píng)估網(wǎng)絡(luò)(Evalution Network,EvalNet)用于估算當(dāng)前策略的Q值函數(shù),目標(biāo)網(wǎng)絡(luò)(Target Network)用于計(jì)算期望Q值。EvalNet首先輸入當(dāng)前狀態(tài)s,輸出各可能動(dòng)作a對(duì)應(yīng)的Q(s,a)。智能體根據(jù)探索策略選擇動(dòng)作,環(huán)境返回新的狀態(tài)s′和獎(jiǎng)勵(lì)r,將經(jīng)歷(s,a,r,s′)存入經(jīng)驗(yàn)回放池。每次從回放池中隨機(jī)采樣訓(xùn)練EvalNet,并定期復(fù)制其參數(shù)到TargetNet,其損失函數(shù)為:
(1)
其中,θ為EvalNet參數(shù);θ′為T(mén)argetNet參數(shù);E為期望值;y為目標(biāo)Q值。通過(guò)最小化損失函數(shù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),EvalNet能夠逼近最優(yōu)的行動(dòng)價(jià)值函數(shù)[3]。
本研究構(gòu)建了一個(gè)基于Tensorflow的DQN模型,用于學(xué)習(xí)無(wú)線異構(gòu)網(wǎng)絡(luò)的中繼節(jié)點(diǎn)布置策略,模型結(jié)構(gòu)如圖1所示。

圖1 模型結(jié)構(gòu)
模型主要包含2個(gè)深度神經(jīng)網(wǎng)絡(luò):評(píng)估網(wǎng)絡(luò)EvalNet和目標(biāo)網(wǎng)絡(luò)TargetNet。這2個(gè)網(wǎng)絡(luò)都由輸入層、2個(gè)全連接隱層和輸出層組成。設(shè)網(wǎng)絡(luò)隱層節(jié)點(diǎn)數(shù)分別為N1、N2,輸入狀態(tài)向量維度為Ns,輸出動(dòng)作數(shù)為Na,則2個(gè)網(wǎng)絡(luò)的參數(shù)可表示為:
θeval={W1,b1,W2,b2,W3,b3}
(2)
(3)

狀態(tài)空間定義了智能體可觀測(cè)到的環(huán)境信息,是智能體做出動(dòng)作決策的依據(jù)。本研究將狀態(tài)空間定義為一個(gè)Ns維向量s,包含以下?tīng)顟B(tài)特征:(1)當(dāng)前時(shí)刻每個(gè)中繼節(jié)點(diǎn)的信道增益gi,維度為Na;(2)每個(gè)中繼節(jié)點(diǎn)的剩余傳輸能量ei,維度為Na;(3)系統(tǒng)當(dāng)前時(shí)刻的總業(yè)務(wù)量請(qǐng)求r。則狀態(tài)表示為:
s=(g1,g2,…,gNa,e1,e2,…,eNa,r)
(4)
該狀態(tài)空間綜合考慮了網(wǎng)絡(luò)拓?fù)洹⑿诺篮蜆I(yè)務(wù)因素的實(shí)時(shí)狀態(tài),可為中繼決策提供全面的環(huán)境信息。
為解決無(wú)線網(wǎng)絡(luò)的中繼決策問(wèn)題,需要合理定義動(dòng)作空間[1]。研究將動(dòng)作定義為中繼節(jié)點(diǎn)的開(kāi)關(guān)狀態(tài)組合,采用一個(gè)Na維向量a表示,其中:
(5)
對(duì)于第i個(gè)中繼節(jié)點(diǎn),如果ai=1表示開(kāi)啟,ai=0表示關(guān)閉。動(dòng)作空間包含所有可能的開(kāi)關(guān)組合,對(duì)于Na個(gè)中繼節(jié)點(diǎn),動(dòng)作空間大小為2Na。為實(shí)現(xiàn)動(dòng)作空間,構(gòu)建一個(gè)Actor類(lèi),包含2個(gè)功能:
(1)從策略網(wǎng)絡(luò)輸出中采樣動(dòng)作。
def sample_action(self,policy_net,s):
action_prob=policy_net(s)
action=torch.multinomial(action_prob,1)
return action
(2)根據(jù)概率分布確定概率最高的動(dòng)作。
def get_action(self,policy_net,s):
action_prob=policy_net(s)
action=torch.argmax(action_prob)
return action
通過(guò)定義簡(jiǎn)明的動(dòng)作集合,并配合代碼實(shí)現(xiàn)動(dòng)作采樣功能,該離散動(dòng)作空間可以明確指導(dǎo)智能體對(duì)無(wú)線網(wǎng)絡(luò)中繼節(jié)點(diǎn)的開(kāi)啟或關(guān)閉操作。
獎(jiǎng)勵(lì)函數(shù)評(píng)估一個(gè)動(dòng)作導(dǎo)致的狀態(tài)轉(zhuǎn)移所獲得的即時(shí)獎(jiǎng)勵(lì)。設(shè)計(jì)無(wú)線異構(gòu)網(wǎng)絡(luò)中繼節(jié)點(diǎn)的獎(jiǎng)勵(lì)機(jī)制時(shí)考慮了傳輸?shù)某杀竞褪找?
(6)
其中,Rttrans為轉(zhuǎn)發(fā)收益;Rtsaving為節(jié)能收益;Rtloss為數(shù)據(jù)丟失罰函數(shù);w1、w2、w3為系數(shù),平衡不同獎(jiǎng)勵(lì)的比重。
如果在t時(shí)刻成功轉(zhuǎn)發(fā)數(shù)據(jù),則有Rttrans=B,其中B為基礎(chǔ)獎(jiǎng)勵(lì)。如果等待不轉(zhuǎn)發(fā),則Rttrans=0。節(jié)能獎(jiǎng)勵(lì)與節(jié)點(diǎn)剩余電量成正比,Rtsaving=α,其中et∈[0,1],為剩余電量,α為系數(shù)。當(dāng)隊(duì)列溢出導(dǎo)致數(shù)據(jù)丟失時(shí),有Rtloss=-C,其中C為罰函數(shù)系數(shù),否則Rtloss=0。
基于前述的狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù),無(wú)線異構(gòu)網(wǎng)絡(luò)中繼節(jié)點(diǎn)決策的DQN算法實(shí)現(xiàn)流程如下:
(1)采用2個(gè)相互協(xié)作的深度神經(jīng)網(wǎng)絡(luò),即評(píng)估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)。評(píng)估網(wǎng)絡(luò)用于及時(shí)近似Q函數(shù),產(chǎn)生中繼節(jié)點(diǎn)的開(kāi)關(guān)策略;目標(biāo)網(wǎng)絡(luò)的網(wǎng)路參數(shù)定期從評(píng)估網(wǎng)絡(luò)復(fù)制,用于計(jì)算目標(biāo)Q值,使訓(xùn)練過(guò)程更加穩(wěn)定。2個(gè)網(wǎng)絡(luò)的參數(shù)分別表示為θ和θ′。

(3)每C步從評(píng)估網(wǎng)復(fù)制參數(shù)至目標(biāo)網(wǎng)[2]。如此循環(huán)往復(fù),評(píng)估網(wǎng)絡(luò)能夠在線逼近無(wú)線網(wǎng)絡(luò)中繼的最優(yōu)策略。
為驗(yàn)證所提方法的優(yōu)勢(shì),本文構(gòu)建了仿真環(huán)境,并與典型的經(jīng)驗(yàn)決策法和隨機(jī)決策法進(jìn)行了比較。主要性能指標(biāo)包括平均吞吐量、傳輸延遲、丟包率等。仿真參數(shù)設(shè)置如表1所示。

表1 仿真參數(shù)設(shè)置
3種方法在不同網(wǎng)絡(luò)負(fù)載條件下的平均吞吐量和丟包率指標(biāo)如表2所示。

表2 不同算法的吞吐量和丟包率比較
固定中繼策略打開(kāi)所有中繼節(jié)點(diǎn),隨機(jī)中繼隨機(jī)選擇開(kāi)啟節(jié)點(diǎn)。結(jié)果顯示,DQN算法可以根據(jù)網(wǎng)絡(luò)狀態(tài)智能選擇最優(yōu)的中繼組合,在所有負(fù)載下,DQN算法都實(shí)現(xiàn)了最高的平均吞吐量和最低的丟包率,充分利用了網(wǎng)絡(luò)資源,顯著提高了吞吐量水平,同時(shí)大幅降低了擁塞丟包概率。
本文探索了深度強(qiáng)化學(xué)習(xí)在無(wú)線異構(gòu)網(wǎng)絡(luò)中的應(yīng)用,提出了一個(gè)基于DQN的中繼節(jié)點(diǎn)優(yōu)化方法。該方法可以根據(jù)網(wǎng)絡(luò)狀態(tài)動(dòng)態(tài)選擇中繼,從而改善網(wǎng)絡(luò)性能。仿真結(jié)果表明,與傳統(tǒng)方法相比,該方法可以提高網(wǎng)絡(luò)吞吐量,降低丟包率,提供了一種利用深度強(qiáng)化學(xué)習(xí)優(yōu)化無(wú)線網(wǎng)絡(luò)智能化資源的新思路。