999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多基站下基于DRL的RAN切片資源分配

2022-12-31 00:00:00馬英洪江凌云

收稿日期:2021-12-31;修回日期:2022-03-10" 基金項(xiàng)目:江蘇省重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(BE2020084-4);國家電網(wǎng)有限公司科研資助項(xiàng)目(DSY2021-005)

作者簡介:馬英洪(1997-),男,吉林松原人,碩士,主要研究方向?yàn)?G網(wǎng)絡(luò)和切片資源分配;江凌云(1971-),女(通信作者),安徽安慶人,副教授,碩導(dǎo),碩士,主要研究方向?yàn)橄乱淮W(wǎng)絡(luò)(jiangly@njupt.edu.cn).

摘 要:在第五代移動通信中,網(wǎng)絡(luò)切片被用來為各種業(yè)務(wù)提供一個最佳的網(wǎng)絡(luò)。針對多基站下的RAN切片場景,以往的資源分配方法在切片的數(shù)量發(fā)生變化時(shí)無法滿足切片的需求而且只適用于特定的場景,針對這個問題,提出了一種實(shí)現(xiàn)最佳資源分配且與切片數(shù)無關(guān)的方法。該方法先利用Ape-X方法(一種DRL方法)將資源分配給切片,再經(jīng)過切片到基站的資源映射和用戶資源分配來滿足用戶的需求。仿真結(jié)果表明,所提出的方法能夠根據(jù)切片的狀態(tài)和需求分配資源,分配了必要數(shù)量的RB以滿足切片的需求而且不受切片數(shù)量變化的影響,同時(shí)該方法也具有很高的通用性能和擴(kuò)展性。

關(guān)鍵詞:多基站;網(wǎng)絡(luò)切片;深度強(qiáng)化學(xué)習(xí);無線接入網(wǎng);資源分配

中圖分類號:TN929.5"" 文獻(xiàn)標(biāo)志碼:A

文章編號:1001-3695(2022)09-036-2791-08

doi:10.19734/j.issn.1001-3695.2021.12.0706

RAN slice resource allocation based on DRL in multi base stations

Ma Yinghong,Jiang Lingyun

(School of Communications amp; Information Engineering,Nanjing University of Posts amp; Telecommunication,Nanjing 210003,China)

Abstract:In the 5th generation mobile communication,network slicing is used to provide an optimal network for various ser-vices.For the RAN slice scenario under multi base stations,the previous resource allocation methods couldn’t meet the demand of slices when the number of slices changed,and were only suitable for specific scenarios.To solve this problem,this paper proposed a method to achieve the best resource allocation independent of the number of slices.This method first used Ape-X me-thod(a DRL method) allocate resources to slices,and then met the needs of users through the resource mapping from slices to base stations and user resource allocation.The simulation results show that the proposed method can allocate resources accor-ding to the state and demand of slices,allocate the necessary number of RBs to meet the demand of slices,and is not affected by the change of the number of slices.At the same time,this method also has high general performance and scalability.

Key words:multi base station;network slice;deep reinforcement learning;radio access network;resource allocation

0 引言

第五代移動通信(5G)網(wǎng)絡(luò)作為解決日益增長的移動數(shù)據(jù)通信需求的解決方案引起了人們的關(guān)注。5G改善了第四代移動通信(4G)網(wǎng)絡(luò)中未得到適當(dāng)解決的一些領(lǐng)域,如更高的數(shù)據(jù)速率、更低的端到端(end to end,E2E)延遲、更高的可靠性和大量的設(shè)備連接[1]。此外,5G中的服務(wù)類型也越來越多樣化,例如需要高數(shù)據(jù)速率和低延遲的虛擬現(xiàn)實(shí)(virtual reality,VR),以及需要大量設(shè)備連接和低延遲的工廠自動化[2]。傳統(tǒng)的通信網(wǎng)絡(luò)主要用來服務(wù)單一的移動寬帶業(yè)務(wù),無法適應(yīng)未來5G多樣化的業(yè)務(wù)場景。為了在同一個物理網(wǎng)絡(luò)基礎(chǔ)設(shè)施上同時(shí)支持多種具有不同性能要求的業(yè)務(wù)場景,滿足多樣化的業(yè)務(wù)需求,網(wǎng)絡(luò)切片(network slice)技術(shù)應(yīng)運(yùn)而生。5G使用網(wǎng)絡(luò)切片技術(shù),以切片為單位提供適合各種服務(wù)的網(wǎng)絡(luò)[3]。切片設(shè)置了吞吐量、延遲和可靠性等要求。為了滿足這些需求,網(wǎng)絡(luò)資源被分配到切片上。網(wǎng)絡(luò)切片通常包括接入網(wǎng)切片(包括無線接入和固定接入)和核心網(wǎng)切片[4]。其中,無線接入網(wǎng)(radio access network,RAN)必須要面對資源短缺的問題,而且在實(shí)際分配無線資源時(shí),切片的狀態(tài)會不斷變化,比如切片中的用戶數(shù)量、業(yè)務(wù)的到達(dá)率以及用戶的分布等。因此,需要一種能夠根據(jù)切片狀態(tài)有效地分配無線資源同時(shí)能夠滿足切片要求的方法[5,6]。

文獻(xiàn)[7]通過從沒有需求的切片中分配資源來滿足切片的需求,但沒有評估資源分配的利用率存在向切片分配過多資源的可能性;文獻(xiàn)[8]提出了一種考慮切片需求和資源利用率的方法,但無法對每個切片實(shí)現(xiàn)資源隔離,會受到其他切片的負(fù)載的影響;文獻(xiàn)[9]采用了一種最早截止時(shí)間優(yōu)先(earliest deadline first,EDF)調(diào)度策略用于無線資源分配,可以使得在高負(fù)載下滿足切片對于時(shí)延的要求,但是會嚴(yán)重影響對于吞吐量有需求的切片的性能;文獻(xiàn)[10]提出了一種在C-RAN場景下基于在線學(xué)習(xí)的網(wǎng)絡(luò)切片虛擬資源分配算法,以最大化平均網(wǎng)絡(luò)切片和速率為目標(biāo),同時(shí)考慮到了平均網(wǎng)絡(luò)切片約束以及網(wǎng)絡(luò)平均回傳鏈路帶寬消耗約束,但是沒有考慮到切片的資源利用率;文獻(xiàn)[11]利用了深度強(qiáng)化學(xué)習(xí),同時(shí)考慮到了切片的滿意度和資源利用率,而且實(shí)現(xiàn)了切片間的資源隔離,但是僅評估了特定的場景,5G中假設(shè)了各種服務(wù)場景,該方法可能并不適用;文獻(xiàn)[12]提出了一種基于在線雙向拍賣的網(wǎng)絡(luò)切片資源調(diào)度機(jī)制,能夠在為高優(yōu)先級切片服務(wù)的同時(shí)可以保證低優(yōu)先級切片用戶的QoS需求,但是沒有考慮到切片間的資源隔離問題。

以上文獻(xiàn)研究的都是在單基站下的無線資源分配方法,在多基站環(huán)境下的分配情況會不同。文獻(xiàn)[13]研究了RAN中混合業(yè)務(wù)的動態(tài)網(wǎng)絡(luò)切片策略,考慮到了用戶對時(shí)延和速率的QoS需求,但是對切片數(shù)量的設(shè)置不夠靈活;文獻(xiàn)[14]考慮到了基站的回傳容量,對不同切片的用戶時(shí)延和數(shù)據(jù)速率的需求也滿足得很好,但是在低負(fù)載的情況下資源的利用率不高;文獻(xiàn)[15]設(shè)計(jì)并實(shí)現(xiàn)了一個兩層網(wǎng)絡(luò)虛擬化基板(network virtua-lization substrate,NVS)算法,基于切片的優(yōu)先級和可實(shí)現(xiàn)速率實(shí)現(xiàn)切片的資源調(diào)度,在這種方法中切片在各個基站上均勻分配資源,可能會導(dǎo)致在有的基站上分配資源過多,在有的基站上分配過少,從而導(dǎo)致用戶的滿意度和資源利用率不夠好。

針對上述文獻(xiàn)中的問題,本文提出了一種在多基站環(huán)境下使用DRL分配滿足切片要求的無線資源的方法,即使切片的數(shù)量發(fā)生變化,所提出的方法也能為各個切片分配資源以滿足用戶的QoS需求。

1 系統(tǒng)模型

1.1 網(wǎng)絡(luò)模型

本文考慮5G基站k(k∈K),K是一個基站集;基站為切片s提供服務(wù),s∈S,S是切片集。為了滿足用戶的服務(wù)質(zhì)量(quality of service,QoS)需求,必須在切片之間分配無線資源。在5G系統(tǒng)中,無線資源用資源塊(resource block,RB)來表示。RB是基于時(shí)域和頻域劃分的資源單位,一個RB由12個子載波組成,每個子載波的間隔為15 kHz。時(shí)域以傳輸時(shí)間間隔(transmission time interval,TTI)為單位,TTI的長度為1 ms。TTI是調(diào)度RB的最小單位,在每個TTI將RB分配給用戶。

基站k將RB分配給用戶以滿足用戶的需求,用戶u在一個RB上的可實(shí)現(xiàn)速率計(jì)算為rk,u=Blog2(1+pkgk,uN0B)。其中,B表示一個RB的帶寬,即15 kHz×12=180 kHz;pk表示基站k的發(fā)射功率,gk,u表示用戶u在基站k一個RB上的信道增益;N0 表示噪聲功率譜密度。用戶u在不同基站上的RB的可實(shí)現(xiàn)速率不同,因此,用戶按照不同基站上RB的可實(shí)現(xiàn)速率由大到小設(shè)立等級,用戶u對基站k的等級記為δu,k,可表示基站k對用戶u的重要性。

不同切片的用戶的QoS需求不同,本文將需求分為吞吐量需求和時(shí)延需求兩種。對于需要高吞吐量的用戶在每個TTI為其分配RB;對于有時(shí)延需求的用戶在數(shù)據(jù)包到達(dá)時(shí)分配RB。假設(shè)用戶u對吞吐量的需求為Ru,也就是對數(shù)據(jù)速率的需求,用戶u對時(shí)延的需求為Tu,用戶u的數(shù)據(jù)包大小為pu,因此用戶u對數(shù)據(jù)速率的需求Ru=Pu/Tu。由于TTI是最小的時(shí)間調(diào)度單位,用戶u的數(shù)據(jù)速率需求Ru需要轉(zhuǎn)換成1 ms上的速率需求。此外,本文將切片的需求設(shè)為用戶的QoS需求,同一切片內(nèi)的用戶的QoS需求相同。

本文定義了兩個指標(biāo),即網(wǎng)絡(luò)切片需求滿意度(network slice demand satisfaction,NSDS)和RB利用率(RB usage ratio,RBUR)。第一個指標(biāo)用來衡量網(wǎng)絡(luò)是否滿足了該業(yè)務(wù)的需求,表示為NSDS=∑|ks|k=1uk|ks|。其中,ks表示切片s中的用戶數(shù)量;uk表示用戶是否滿足了切片需求。

uk=1滿足切片需求

0未滿足切片需求(1)

NSDS越接近1,就說明切片中用戶的QoS需求滿足得越好,就可以為服務(wù)提供更合適的切片。RBUR是一個用來衡量資源利用率的指標(biāo),表示為RBUR=URBARB。其中,URB表示消耗的RB數(shù)量,ARB表示分配給切片的RB數(shù)量。RBUR越接近1,RB的利用率就越高,資源利用率就越高。

當(dāng)NSDS很低而RBUR很高時(shí),分配給切片的RB都被消耗掉,切片中有的用戶沒有滿足切片的需求,因此,給切片分配更多的RB可以改善NSDS。通過最大化NSDS和RBUR可以實(shí)現(xiàn)以最少的RB數(shù)量滿足切片的需求。

1.2 問題模型

RB分配問題可以分成兩步,即切片間資源分配和切片內(nèi)資源分配。切片間資源分配問題包括分配RB給切片和切片到基站的資源映射。切片間資源分配問題建模如下:

max∑Si=1NSDSi×RBURi s.t. ∑Si=1ARBi≤AllRB

∑Si=1Rs,k≤Lk,k∈K(2)

目標(biāo)是最大化切片的資源利用率RBUR和切片滿意度NSDS的乘積,以最小的RB分配滿足切片需求。式(2)中第一個約束表示所有切片所分配的RB數(shù)量不能超過基站所擁有的RB總數(shù);第二個約束表示在每個基站下,所有切片獲得的RB的總數(shù)量不能超過該基站所擁有的RB數(shù)量。

在確定了切片在每個基站上的資源分布后,網(wǎng)絡(luò)切片控制器執(zhí)行切片內(nèi)資源分配。切片中的用戶優(yōu)先接入RB等級最高的基站,這樣可以最大化滿足用戶的QoS需求。在基站k下,設(shè)定分配給切片s的RB集為Ms,k,切片內(nèi)資源分配問題建模如下:

maxA{Us,k},s∈S s.t.∑n∈Ms,k∑u∈Us,ka(u,n)≤Rs,k∑u∈Us,ka(u,n)≤1,n=1,…,Rs,k(3)

其中:A是分配矩陣,如果將第n個RB分配給第u個用戶,則元素a(u,n)為1,否則為0;Us,k表示第s個切片在第k個基站上的效用。本文考慮α-utility[16],如式(4)所示。

Us,k=∑u∈Us,k(∑n∈Ms,ka(u,n)ru,n)1-α1-αα≠1

log(∑n∈Ms,ka(u,n)ru,n)α=1(4)

本文選擇α=1,即比例公平方式。在式(3)中,第一個約束表示在基站k下,每個切片內(nèi)的用戶分配的RB的總數(shù)不能超過該切片可用的資源;第三個約束確保一個RB只能分配給一個用戶。

2 算法設(shè)計(jì)

2.1 方法概述

在RAN切片中,需要一種以最小RB分配滿足切片需求的方法,該方法與切片數(shù)量無關(guān),因此本文提出了一種利用Ape-X[17]的靈活RB分配方法。由于使用了 Ape-X,learner學(xué)習(xí)的模型包括基于每個actor收集的各種經(jīng)驗(yàn),當(dāng)切片數(shù)量變化時(shí)無須重新訓(xùn)練模型即可進(jìn)行RB分配。在現(xiàn)有方法中,agent控制的切片數(shù)量是固定的,如果訓(xùn)練和評估之間的切片數(shù)量不同,則需要重新訓(xùn)練模型。在所提出的方法中,一個agent將RB分配給一個切片,當(dāng)有多個切片時(shí),agent會被多次調(diào)用,這種設(shè)計(jì)實(shí)現(xiàn)了與切片數(shù)量無關(guān)的 RB分配。在每次RB分配后,網(wǎng)絡(luò)切片控制器會更新切片在每個基站上的資源配置,以便BS可以在每個調(diào)度時(shí)期適應(yīng)系統(tǒng)狀態(tài)。此外,代理學(xué)習(xí)以最少所需的 RB數(shù)量分配來滿足切片的需求,從而最大化滿足需求的切片數(shù)量,同時(shí)提高 RB 的利用效率。本文為每種服務(wù)類型定義一個切片,當(dāng)切片中的用戶數(shù)變?yōu)?或更多時(shí)生成切片,在用戶數(shù)變?yōu)?時(shí)終止切片。所提出的算法的流程如圖1所示。

2.2 利用Ape-X的RB分配

所提出的方法采用Ape-X方法,將分布式學(xué)習(xí)應(yīng)用于DRL。其中,一個actor控制一個切片,當(dāng)切片的數(shù)量發(fā)生變化時(shí)actor的數(shù)量也隨之變化,切片的數(shù)量沒有限制,分配RB不依賴于切片的數(shù)量,所提出的方法可以靈活設(shè)置切片數(shù)量和分配RB;learner學(xué)習(xí)一種策略,該策略以最少的RB數(shù)量滿足切片的需求。分配方法的架構(gòu)如圖2所示。由于切片數(shù)量沒有限制,所以有1~N個切片,每個切片包含多個用戶。除了管理切片之外,網(wǎng)絡(luò)切片控制器還橋接了基站和actor;actor是Ape-X代理,與切片的數(shù)量相同。由于actor使用了learner訓(xùn)練的策略,所有actor都具有相同的控制策略。在每個資源調(diào)度時(shí)期執(zhí)行RB的分配操作,基站收集每個切片的狀態(tài)信息,包括切片中的用戶是否滿足了QoS需求以及切片的資源利用率等信息;隨后,基站將切片狀態(tài)通知給網(wǎng)絡(luò)切片控制器,網(wǎng)絡(luò)切片控制器根據(jù)切片狀態(tài)生成狀態(tài)和獎勵,并將其傳遞給切片對應(yīng)的actor;actor根據(jù)策略生成動作,將動作輸出到網(wǎng)絡(luò)切片控制器。當(dāng)網(wǎng)絡(luò)切片控制器接收到每個切片的動作時(shí),它會計(jì)算分配給它們的 RB數(shù)量。在學(xué)習(xí)過程中,獎勵、狀態(tài)和動作作為經(jīng)驗(yàn)傳遞給回放記憶(replay memory),在切片級資源更新后,資源需要映射到所有基站上。在進(jìn)行基站級資源更新后,網(wǎng)絡(luò)切片控制器通知各基站每個切片在其上的資源分布,各個基站為每個切片中的用戶分配RB,以滿足用戶的吞吐量和時(shí)延需求。

本文利用深度強(qiáng)化學(xué)習(xí)解決切片間資源分配問題,作出最優(yōu)決策,下面詳細(xì)介紹強(qiáng)化學(xué)習(xí)架構(gòu)中各個要素的內(nèi)容。狀態(tài)是代理確定動作的重要因素,如果狀態(tài)被設(shè)計(jì)為盡可能地消除不確定元素,則學(xué)習(xí)結(jié)果會更好。基于這一點(diǎn),本文將學(xué)習(xí)RB分配時(shí)的狀態(tài)分為表1中的三種類型,這三種類型分別是NSDS相關(guān)、RBUR相關(guān)和切片狀態(tài)。NSDS相關(guān)對于代理識別切片的需求很重要;RBUR相關(guān)幫助代理識別切片的RB分配情況;第三個是為了解決狀態(tài)的模糊性。

動作是代理對環(huán)境執(zhí)行的控制,所提出的方法為每個切片分配RB。由actor輸出的動作記為a,a可以為負(fù)、0或正,a為負(fù)表示分配給切片的RB數(shù)量減少,a為0表示分配給切片的RB數(shù)量不變,a為正表示分配給切片的RB數(shù)量增加。動作a的取值為[-0.8,-0.6,-0.4,-0.2,0,0.2,0.4,0.6,0.8],動作a為九個維度。在t+1時(shí)刻,分配給切片的RB數(shù)量可以計(jì)算為 ARBt+1=ARBt×(1+a),計(jì)算出的ARB不考慮分配給其他切片的 RB。然而,由于基站具有有限數(shù)量的RB,分配給切片的RB總數(shù)可能會超過基站的所有RB,所以網(wǎng)絡(luò)切片控制器根據(jù)算法1調(diào)整分配給每個切片的RB數(shù)量。對每個切片計(jì)算時(shí)間t處分配的RB數(shù)和NSDS的乘積,按照從小到大的順序進(jìn)行排列并按照這個次序?yàn)榍衅峙滟Y源。這使得需要較少RB的切片或具有較小NSDS的切片在時(shí)間t+1時(shí)優(yōu)先分配,這樣可以避免需要更多RB的切片占用多余的資源,提高了資源利用率;另一方面可以改善切片的NSDS。

輸入:CRBst+1是在t+1時(shí)刻計(jì)算出的分配給切片s的RB數(shù),ARBst是在t時(shí)刻分配給切片s的RB數(shù),NSRSs是切片s的網(wǎng)絡(luò)切片需求滿意度,S是切片集,AllRB是所有基站所擁有的全部資源。

輸出:ARBst+1是在t+1時(shí)刻分配給切片s的RB數(shù)。

開始

for s∈S

W[s] =ARBst×NSRSs

end for

remainRB=AllRB

for s∈S#按照W的升序提取s

if CRBst+1lt;remainRB

ARBst+1=CRBst+1;

remainRB=remainRB-ARBst+1

else

ARBst+1=remainRB

remainRB=0

end if

end for

結(jié)束

獎勵向代理表明一個動作對于一個狀態(tài)是好是壞。在所提出的算法中,目標(biāo)是以最少的RB分配滿足切片的需求,最大化NSDS和RBUR是學(xué)習(xí)的目標(biāo)。獎勵r被設(shè)計(jì)為

r=1ARB=0,Buff=0

0ARB=0,Buffgt;0

0ARBgt;0,Buff=0

NSRS×RBURARBgt;0,Buffgt;0(5)

其中:ARB是分配給切片的RB數(shù)量;Buff是存儲在緩沖區(qū)中的數(shù)據(jù)包的數(shù)量。當(dāng)緩沖區(qū)為空時(shí),不需要分配RB,因此如果ARB為0,則r為1;ARB不為0,r為0。當(dāng)緩沖區(qū)有數(shù)據(jù)包而ARB為0,即切片有需求但沒有被分配RB,r為0。當(dāng)數(shù)據(jù)包存儲在緩沖區(qū)中并且ARB不為0時(shí),NSDS和RBUR會隨著分配的ARB而變化。因此,r是根據(jù)NSDS和RBUR計(jì)算得出的。

DQN的框架如圖3所示,其中包含兩個神經(jīng)網(wǎng)絡(luò),Q(s,a;θ)代表預(yù)測Q網(wǎng)絡(luò),θ表示預(yù)測神經(jīng)網(wǎng)絡(luò)的參數(shù),用于評估當(dāng)前狀態(tài)—動作對的價(jià)值;Q(s,a;θ*)代表目標(biāo)Q網(wǎng)絡(luò),用于計(jì)算目標(biāo)值,θ*表示目標(biāo)神經(jīng)網(wǎng)絡(luò)的參數(shù)。損失函數(shù)L(θ)=E[(yt-Q(st,at;θ))2],yt=rt+1+γmaxa∈AQ(st+1,a;θ*)。yt是目標(biāo)值,yt-Q(s,a;θ)即為TD(temporal difference)誤差δt。利用損失函數(shù)計(jì)算梯度,計(jì)算表達(dá)式為

L(θ)θ=E[(yt-Q(st,at;θ))2]θ(6)

本文使用RMSProp優(yōu)化算法更新網(wǎng)絡(luò)參數(shù),每經(jīng)過M步迭代,復(fù)制預(yù)測網(wǎng)絡(luò)的參數(shù)θ給目標(biāo)網(wǎng)絡(luò)參數(shù)θ*。

Ape-X使用DDQN[18],利用預(yù)測網(wǎng)絡(luò)選擇動作,目標(biāo)網(wǎng)絡(luò)計(jì)算Q值,降低了高估。此外,Ape-X還使用多步引導(dǎo)目標(biāo)(multistep bootstrap target)[19],即考慮多步的獎勵,使學(xué)習(xí)的效果更好。因此,目標(biāo)值yt變?yōu)?/p>

yt=rt+1+γrt+2+…+γn-1rt+n+γnQ(st+n,arg maxQ(st+n,a;θ);θ*a∈A)(7)

由于采用了決斗網(wǎng)絡(luò)[20],Q(st,at;θ)被劃分為狀態(tài)價(jià)值函數(shù)V(st;θ)和優(yōu)勢函數(shù)Adv(st,at;θ)。狀態(tài)價(jià)值函數(shù)僅與狀態(tài)st有關(guān),與動作at無關(guān);優(yōu)勢函數(shù)同時(shí)與狀態(tài)st和動作at都有關(guān)。Q值表示如下:

Q(st,at;θ)=V(st;θ)+(Adv(st,at;θ)-1|A|∑a∈AAdv(st,a;θ))(8)

其中:A表示動作集;|A|是動作集的維度;actor與環(huán)境交互產(chǎn)生經(jīng)驗(yàn)(s,a,r,s′)。本文采用ε-greedy策略,actor以ε的概率選擇動作值最高的動作,以概率1-ε選擇隨機(jī)動作。actor根據(jù)其網(wǎng)絡(luò)參數(shù)計(jì)算經(jīng)驗(yàn)的TD誤差,根據(jù)TD誤差設(shè)置經(jīng)驗(yàn)的優(yōu)先級pk,pk=|δk|,k是經(jīng)驗(yàn)的編號。經(jīng)驗(yàn)(s,a,r,s′,pk)被存入經(jīng)驗(yàn)回放中,預(yù)測網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)使用優(yōu)先級采樣代替隨機(jī)采樣,從經(jīng)驗(yàn)回放中提取經(jīng)驗(yàn)。經(jīng)驗(yàn)的采樣概率為pk∑kpk,每次抽取batch個樣本。在更新網(wǎng)絡(luò)參數(shù)后,計(jì)算batch個樣本的TD誤差和優(yōu)先級,然后更新經(jīng)驗(yàn)回放中這些樣本的優(yōu)先級。隨著學(xué)習(xí)的進(jìn)行,動作值被更新,舊經(jīng)驗(yàn)的準(zhǔn)確性降低,存儲在經(jīng)驗(yàn)回放中的舊經(jīng)驗(yàn)的優(yōu)先級被更新為低。當(dāng)經(jīng)驗(yàn)回放被裝滿時(shí),刪除舊經(jīng)驗(yàn)。每隔N步,actor從預(yù)測網(wǎng)絡(luò)處復(fù)制經(jīng)過訓(xùn)練的參數(shù),以將其參數(shù)更新為最新版本。這樣,通過優(yōu)先學(xué)習(xí)具有較大TD誤差的經(jīng)驗(yàn),同時(shí)執(zhí)行分布式學(xué)習(xí)來加速學(xué)習(xí),從而提高了學(xué)習(xí)效率。

圖4顯示了所提出方法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)結(jié)構(gòu)有一個輸入層、幾個隱藏層和一個輸出層。因?yàn)闋顟B(tài)維度被設(shè)計(jì)為輸入維度,所以輸入層是8維的;輸出層的維度為9維,與動作維度相同;隱藏層有128個神經(jīng)元,第4個隱藏層分支到狀態(tài)值和優(yōu)勢函數(shù)。使用這些規(guī)格進(jìn)行了2×106步訓(xùn)練。訓(xùn)練大約需要2天。

2.3 切片到基站的資源映射

2.3.1 基站資源更新

在切片資源更新后,資源必須映射到所有基站上,算法2描述了基站資源更新過程。基站資源更新依賴于基站對特定切片的權(quán)重。切片中的用戶在不同基站上的RB等級δu,k不同,可以得到切片s在基站k上的等級s,k=∑|Us|u=1δu,k,u∈Us。因此,切片s在基站k上的權(quán)重可以表示為r_rats,k=s,k∑Kk=1s,k,權(quán)重r_rats,k表示了基站k對切片s的重要性。在每個調(diào)度時(shí)間,這些權(quán)重都會更新,以更新基站資源。切片s在基站k上占有的資源計(jì)算為Rs,k=ARBs×r_rats,k。計(jì)算出的Rs,k沒有考慮到每個基站的容量限制,所有切片在基站k上分配的RB總數(shù)可能會超出基站k的容量。因此,需要調(diào)整切片在每個基站上所分配的資源,遍歷所有基站,將分配資源量超出基站容量的基站添加進(jìn)待重新分配隊(duì)列Q_BS。

對于屬于Q_BS隊(duì)列的基站k,先確定屬于該基站k的用戶。根據(jù)用戶的RB等級得到切片s在基站k上的用戶集合 Us,k,k=max{δu,k(k)},用戶u優(yōu)先選擇RB等級最高的基站接入。切片s在基站k上的速率需求為Ws,k=∑|Us,k|u=1Ru,Ru表示用戶u的需求速率。因此,切片s在基站k上的權(quán)重可以計(jì)算為ωs,k=s,k×Ws,k∑|S|s=1s,k×Ws,k。由此得到在基站k上分配給切片s的RB數(shù)為Rs,k=Lk×ωs,k,Lk為基站k所擁有的RB總數(shù)。

在對基站的資源進(jìn)行重新分配后,有的切片分配的資源總數(shù)可能會低于ARB,需要將基站剩余的資源分配給切片。首先檢查每個基站的剩余資源量以及分配資源不夠的切片;將還有剩余資源的基站隊(duì)列設(shè)為Q_reBS,分配RB數(shù)不夠的切片隊(duì)列設(shè)為Q_slice。遍歷基站隊(duì)列Q_reBS,比較切片隊(duì)列Q_slice中的所有切片在該基站上的權(quán)重ωs,k,按照權(quán)重由大到小的次序?qū)⒒镜氖S郣B資源分配給切片直到滿足切片的RB需求或基站的資源全部被分配。

算法2 基站資源更新

輸入:分配給切片s的RB數(shù)ARBs,切片s在基站k上的等級s,k,用戶u的請求速率Ru,切片集S,基站集K,切片缺少的RB數(shù)reRB,基站k的RB容量Lk,基站k剩余的RB資源Lk_remain,待重新分配切片隊(duì)列Q_slice,有剩余資源的基站隊(duì)列Q_reBS,在t+1時(shí)刻分配給切片s的RB數(shù)ARBst+1。

輸出:Rs,k是基站k分配給切片s的RB數(shù)。

開始:初始化Q_slice,Q_reBS隊(duì)列;

1)初步資源映射

for s∈S

for k∈K

Rs,k=ARBs×s,k∑Kk=1s,k;

end

end

for k∈K

BS_exceedk=∑|S|s=1Rs,k;

if BS_exceedkgt;Lk

for s∈S

獲取一個用戶集Us,k,k=max{δu,k(k)}

Ws,k=∑|Us,k|u=1Ru;

ωs,k=s,k×Ws,k∑|S|s=1s,k×Ws,k;

Rs,k=Lk×ωs,k;

end

end

if BS_exceedklt;Lk

Lk_remain=Lk-BS_exceedk;

Q_reBS.add(k);

end

end

2)基站剩余資源分配

for s∈S

sumRBs=∑|K|k=1Rs,k;

if sumRBslt;ARBs

reRBs=ARBs-sumRBs;

Q_slice.add(s);

end

end

for k∈Q_reBS

按照切片s,在基站k上的權(quán)重ωs,k 由大到小進(jìn)行排序,得到rank;

if len(Q_slice)==0

break;

end

for s∈rank

if Lk_ramain≥reRBs

reRBs=0;

Q_slice.delete(s);

Lk_remain=Lk_remain-reRBs;

else

reRBs=reRBs-Lk_remain;

end

if Lk_remain==0

Q_reBS.delete(k);

break;

end

end

end

2.3.2 用戶資源分配和連接控制

為了解決切片內(nèi)資源分配的問題,本文提出了一個迭代的解決方案。分配矩陣A最開始為空,然后通過迭代將RB分配給用戶。在這里定義一個增益因子g(i+1)u=log(R^(i)u+ru,)-log(R^(i)u)。其中,R^(i)u表示用戶u已分配的速率,ru,表示用戶u在上的可實(shí)現(xiàn)速率,是還未分配的RB。

如果用戶u具有最大的增益因子而且該用戶的數(shù)據(jù)速率需求還未得到滿足,則將分配給該用戶,然后進(jìn)入下一次迭代。當(dāng)所有的RB被分配完成或者所有用戶的需求都被滿足時(shí),迭代停止。

當(dāng)所有基站下的所有切片的迭代分配過程完成后,檢查是否所有用戶都滿足了需求以及切片的資源是否都被利用了。因?yàn)榭赡芙尤胍粋€基站的用戶過多而分配的資源不夠,接入其他基站的用戶少而分配的資源很多。為了充分利用資源以及滿足用戶需求,將切片在其他基站上的資源分配給未滿足需求的用戶。對于未滿足需求的用戶,按照RB等級次序檢查其他基站是否有剩余的RB資源,如果有,就將用戶連接到下一個基站,根據(jù)比例公平方式迭代將該基站剩余的RB資源分配給重新接入該基站的用戶,直到切片中的用戶都滿足了需求或分配給切片的資源全部被利用就停止迭代。

3 仿真結(jié)果

3.1 仿真概述

所提出的方法是根據(jù)它是否達(dá)到滿足切片需求的最小RB分配來評估的,而且不受切片數(shù)量變化的影響,在所提出的方法中,必須首先訓(xùn)練RB分配的模型,然后使用經(jīng)過訓(xùn)練的模型評估所提出的方法。評估分為三種:a)提出的方法在所創(chuàng)建的特定場景中適當(dāng)?shù)貙?shí)現(xiàn)了RB分配;b)展示了基于隨機(jī)生成的多個場景評估模型的通用性能;c)評估切片數(shù)量與性能之間的關(guān)系,并描述了所提出方法的可擴(kuò)展性。

3.2 訓(xùn)練

所提方法中的模型從切片狀態(tài)中學(xué)習(xí)最大化NSDS和RBUR的RB分配。在5G中,假設(shè)了各種類型的服務(wù),因此仿真場景是隨機(jī)生成的,模型使用各種類型的服務(wù)進(jìn)行訓(xùn)練。表2給出了用于訓(xùn)練的場景,其中uniform[min,max]表示從min到max的均勻分布。表3給出了用于訓(xùn)練和評估的共同參數(shù)。每次仿真后都會生成一個新場景,切片的數(shù)量固定為三個切片,但在仿真過程中,切片的數(shù)量從0~3不等,因?yàn)榍衅拈_始和結(jié)束時(shí)間不同。此外,每個切片的用戶數(shù)量、數(shù)據(jù)包生成間隔和數(shù)據(jù)包大小都不同。切片的需求為吞吐量需求、時(shí)延需求或兩者都有。根據(jù)長期演進(jìn)(long term evolution,LTE)規(guī)范,子載波間隔和TTI分別設(shè)置為15 kHz和1 ms;系統(tǒng)帶寬設(shè)置為20 MHz,每個TTI的RB總數(shù)為 100。由于 RB 是根據(jù)規(guī)范分組的,每個基站控制的RB數(shù)為25;RB分配的控制間隔為1 ms,與TTI一樣。

表4給出了 Ape-X 的參數(shù)值,與文獻(xiàn)[17]中的相同,actor的數(shù)量是根據(jù)計(jì)算機(jī)的性能設(shè)置的參數(shù)。訓(xùn)練電腦的配置為AMD 3700x CPU,32 GB內(nèi)存,RTX 2070 SUPER顯卡;進(jìn)行仿真的電腦為3700x CPU,16 GB內(nèi)存。本文使用一臺計(jì)算機(jī)進(jìn)行學(xué)習(xí),六臺計(jì)算機(jī)進(jìn)行仿真。在一臺計(jì)算機(jī)上運(yùn)行5個仿真,而一個仿真有4個actor,所以總共有 120個actor(6臺計(jì)算機(jī)×5個仿真×4個actor)。折扣因子決定了考慮未來獎勵的折扣因子。在RB分配中,切片狀態(tài)也會快速變化,因此根據(jù)狀態(tài)變化快速分配RB是很重要的。將折扣因子設(shè)置為0.5以最大化短期獎勵;出于同樣的原因,將n設(shè)為 1。

3.3 評估結(jié)果

3.3.1 RB分配評估

本節(jié)將評估所提出的方法是否能在切片數(shù)量不同的場景中將RB分配給切片。所考慮的移動網(wǎng)絡(luò)場景基于5G網(wǎng)絡(luò)標(biāo)準(zhǔn),所使用的參數(shù)匯總在表3、5中。在給定的500 m×500 m區(qū)域內(nèi),四個基站均勻分布,每兩個相鄰的BS保持120 m的固定距離。路徑損耗(path loss,PL)模型定義如下:PL(dB)=20 log 10(d)+20 log 10(f)-27.55。其中,d(以m為單位)和f(以MHz為單位)分別表示用戶—基站的距離和信道頻率。基于5G切片類別定義了消息業(yè)務(wù)、應(yīng)用程序、音頻、視頻四個切片,每個切片匹配一種業(yè)務(wù)。每個切片具有不同的用戶數(shù)量、數(shù)據(jù)包長度和切片需求,通過設(shè)置每個切片的切片開始和結(jié)束時(shí)間來模擬切片數(shù)量的變化。在仿真中,切片數(shù)量從最少兩個切片到最多四個切片不等,具體的參數(shù)如表5所示。切片中的用戶數(shù)量隨時(shí)間而變,如圖5所示。

本文對比了兩種方法。方法描述如下所示:

a)hard-slicing。hard方法是一種將所有RB按切片數(shù)量劃分的方法,切片s的ARB可以計(jì)算為ARBs=AllRB切片數(shù)量。

b)NVS(network virtualization substrate)方法[18]。資源基于系統(tǒng)中切片的權(quán)重來分配,切片的權(quán)重ωs=∑|Us|u=1Ru,u∈Us。定義為切片s中的所有用戶的聚合數(shù)據(jù)速率請求。因此,分配給切片s的RB計(jì)算為ARBs=AllRB×ωs∑|S|s=1ωs。

在NVS方法中,為每個切片提供的資源量在基站之間平均分配,本文方法以及hard方法采用2.3節(jié)所述的資源映射方式。

圖6顯示了NSDS、RBUR、ARB和仿真時(shí)間之間的關(guān)系。這里,RB以1 ms的間隔分配給切片,但NSDS和RBUR是以1 ms為間隔測量的1 s的平均值,ARB是1 s的總ARB(100×1 000 RB)。NSDS的結(jié)果表明,所提出的方法幾乎完全滿足切片需求,當(dāng)切片的數(shù)量在110 s、205 s、400 s發(fā)生變化時(shí),NSDS不會下降。基于這些結(jié)果,即使切片的數(shù)量發(fā)生變化,切片的性能需求也能得到滿足。

在hard方法中,RB分配與切片的數(shù)量有關(guān),因此,對數(shù)據(jù)速率需求低的切片1、3總是能夠滿足切片需求;切片2中的用戶數(shù)量多,在320~400 s時(shí),切片2的用戶數(shù)量不斷增加,但是分配的RB數(shù)量沒有增加,資源分配不足,導(dǎo)致NSDS降低;切片4需要高吞吐量,在350~400 s時(shí),用戶數(shù)量增加,對數(shù)據(jù)速率的需求也會增加,但是ARB不會變化,NSDS下降。

在圖6(c)中,依據(jù)NVS方法,分配給切片的資源和切片的數(shù)據(jù)速率需求有關(guān)。數(shù)據(jù)速率需求越高,獲得的資源就越多。從圖6(c)中可以看出,在90~160 s,切片1的需求都能得到滿足,在160~200 s,隨著切片2的用戶數(shù)量不斷增加,切片2對于數(shù)據(jù)速率的需求也越來越高,切片2獲得的資源也變多,導(dǎo)致切片1的NSDS下降;在200~500 s,切片4因?yàn)槠涓咄掏铝啃枨蠖加昧诉^多的資源;在400 s左右時(shí),切片4的用戶數(shù)量達(dá)到最大,獲得RB最多,其他切片的NSDS也達(dá)到最低。切片3由于其數(shù)據(jù)速率需求低而且用戶數(shù)量少,獲得的RB數(shù)量少,NSDS很低,無法滿足切片對于時(shí)延的需求。

根據(jù)RBUR結(jié)果,所提出方法的RBUR約為0.75或更高,這表明RB的過度分配低于25%。在hard方法中,由于將RB均勻地分配給切片而不管切片的狀態(tài)和需求,RBUR的表現(xiàn)很差,在每個切片中都存在過度分配,如圖6(b)所示。對于NVS方法,切片2和4的數(shù)據(jù)速率需求高,過度分配嚴(yán)重,RBUR性能表現(xiàn)很差;切片1和3對數(shù)據(jù)速率的需求低,導(dǎo)致分配的RB不足,所分配的RB都被利用了,因而資源利用率比較高。

綜上所述,基于NSDS和RBUR的結(jié)果,所提出的方法對比其他方法在NSDS和RBUR兩個指標(biāo)上表現(xiàn)更好,能夠根據(jù)切片的狀態(tài)和需求分配資源,分配了必要數(shù)量的RB以滿足切片的需求而且不受切片數(shù)量變化的影響。

3.3.2 通用性能評估

本節(jié)通過模擬各種服務(wù)的場景來評估所提出方法的通用性能。作為包括 DRL 在內(nèi)的通用機(jī)器學(xué)習(xí),可以通過僅訓(xùn)練特定數(shù)據(jù)來估計(jì)目標(biāo)數(shù)據(jù)的最優(yōu)解決方案,但是不能對其他未經(jīng)訓(xùn)練的數(shù)據(jù)進(jìn)行正確的估計(jì),這稱為過度適應(yīng)環(huán)境。當(dāng)只針對特定的時(shí)區(qū)、地點(diǎn)或服務(wù)時(shí),這種模型是有效的。但是,如果模型只用于特定情況,則使用網(wǎng)絡(luò)切片的優(yōu)勢就喪失了。這是因?yàn)樵赗AN中會有很多的服務(wù)類型,而網(wǎng)絡(luò)切片是一種將網(wǎng)絡(luò)適用于各種服務(wù)的技術(shù)。

使用3.2節(jié)中的隨機(jī)生成場景評估所提出方法的通用性能。由于該場景隨機(jī)確定用戶數(shù)量、數(shù)據(jù)包生成間隔和切片需求,可以模擬各種業(yè)務(wù)類型。需要注意的是,并非所有生成的場景都可以通過現(xiàn)有服務(wù)來解釋,本文使用與訓(xùn)練中不同的種子值來評估未經(jīng)訓(xùn)練的場景,以顯示模型的通用性能。

總共測試了3 000個場景。評估指標(biāo)為NSDS和RBUR,是1 s內(nèi)測量值的平均值,結(jié)果表示為累積分布函數(shù)(CDF) 和測量數(shù)據(jù)的平均值。如果 NSDS 和 RBUR 較高,則表明它們在各種隨機(jī)生成的場景中都較高。

圖7顯示了NSDS評估結(jié)果。本文方法的平均NSDS約為0.92,幾乎滿足了切片需求;對比方法的平均NSDS都在0.7以下。由圖7(b)可以看出,hard切片方法的NSDS在沒有用戶滿足需求的0.0處以大約28%分布,在所有用戶都滿足需求的1.0處以大約50%分布,結(jié)果表明切片中的一個用戶有28%的概率無法滿足需求;對于NVS方法,切片中的一個用戶有31%的概率無法滿足需求,切片中的用戶的需求全部得到滿足的概率是50%;本文方法的NSDS在0.0處以不到10%分布,在1.0處大約82%分布,結(jié)果表示切片中的一個用戶無法滿足需求的概率不到10%,切片中的用戶的需求全部被滿足的概率達(dá)到了82%。根據(jù)以上結(jié)果,表明所提出的方法實(shí)現(xiàn)了高水平的通用性能,幾乎可以滿足各種場景下的切片需求。

圖8顯示了RBUR評估結(jié)果。本文方法的平均RBUR約為0.77;對比方法的平均RBUR都在0.7之下,資源過度分配都超過了30%。其中,hard方法的平均RBUR最低,因?yàn)閔ard切片將所有RB平均分配給各個切片,有的切片會存在過度分配;NVS方法根據(jù)不同切片的數(shù)據(jù)速率請求進(jìn)行分配,但是可能有的切片請求的速率比其他切片高太多,導(dǎo)致有的切片分配了過多資源從而RBUR很低。

綜上所述,對于隨機(jī)生成的場景,所提出的方法能夠有效地將RB分配給切片,幾乎滿足了各種切片的需求,實(shí)現(xiàn)了高水平的通用性能,同時(shí)資源利用率也很高。

3.3.3 擴(kuò)展性評估

通過評估切片數(shù)量與性能之間的關(guān)系來評估本文方法中切片數(shù)量的可擴(kuò)展性。此評估場景使用3.2節(jié)中使用的隨機(jī)生成場景,切片數(shù)量根據(jù)每個場景均勻分布在1~8中選擇。評估時(shí)的切片數(shù)量不是根據(jù)場景創(chuàng)建時(shí)設(shè)置的切片數(shù)量來計(jì)算,而是通過同時(shí)運(yùn)行的切片數(shù)量來計(jì)算。例如,如果切片數(shù)量設(shè)置為7,但同時(shí)運(yùn)行的切片數(shù)量為3,則計(jì)為3個切片。評估指標(biāo)為NSDS和RBUR,測量結(jié)果為1 s內(nèi)測量值的平均值。

圖9顯示了切片數(shù)量與NSDS的關(guān)系。對于所有測試方法,NSDS 隨著切片數(shù)量的增加而降低,當(dāng)切片數(shù)量增加時(shí),需要更多的RB,NSDS減少是因?yàn)闊o法保證切片所需的RB數(shù)。當(dāng)切片數(shù)量達(dá)到4個及以上時(shí),本文方法的NSDS比其他方法高出了0.2以上,實(shí)現(xiàn)了更好的效果;在切片數(shù)量少于8個時(shí),NSDS為0.8以上,切片中有80%以上的用戶完全滿足了QoS需求;當(dāng)切片數(shù)量為8時(shí),NSDS約為0.78。對比方法中,NVS方法表現(xiàn)最差,因?yàn)橐环矫婵赡苡械那衅瑢τ跀?shù)據(jù)速率需求高,而有的切片對于數(shù)據(jù)速率需求低,導(dǎo)致對數(shù)據(jù)速率需求低的切片獲得的RB數(shù)量過少,也就使得NSDS很低;另一方面,NVS方法在基站之間均等分配資源,可能會使得在某個基站上分配過多資源,有的基站分配過少,導(dǎo)致用戶接入的基站資源過少而降低了需求滿意度。hard方法將資源均等分配給各個切片,當(dāng)切片數(shù)量增多時(shí)。每個切片獲得資源變少,導(dǎo)致有的切片分配資源不足,需求滿意度下降。

圖10顯示了切片數(shù)量與RBUR之間的關(guān)系。本文方法中,當(dāng)切片數(shù)量超過4個時(shí),RBUR隨著切片數(shù)量的增加而降低,在切片數(shù)量為8時(shí),RBUR為0.7。RB分配過多是為了在分配RB時(shí)能夠可靠地滿足切片的需求。本文方法學(xué)習(xí)了將NSDS優(yōu)先于RBUR的分配方式,原因與獎勵的設(shè)計(jì)有關(guān)。在設(shè)計(jì)獎勵時(shí)綜合考慮了資源利用率和切片需求滿意度,如果所有用戶都不能滿足需求,則NSDS為0,如果有用戶使用了RB,RBUR就大于0;獎勵是NSDS乘以RBUR,如果其中一個變?yōu)?,則獎勵也為0。在學(xué)習(xí)時(shí),接近0的NSDS會被優(yōu)先考慮以改善切片的需求滿意度,導(dǎo)致RB的過度分配。

在NVS和hard方法中,當(dāng)切片數(shù)量為1時(shí),hard和NVS方法的RBUR不到0.3,因?yàn)檫@兩種方法會將所有的資源都分配給這個切片導(dǎo)致資源利用率過低;當(dāng)切片數(shù)量增加時(shí),會有更多的切片需要資源,也就使得切片的資源利用率得到了提高。但是因?yàn)檫@兩種方法的局限性,RBUR的表現(xiàn)比本文方法要差,過度分配嚴(yán)重。

基于NSDS和RBUR的結(jié)果,即使切片數(shù)量發(fā)生變化,本文方法也能分配RB以滿足切片對于吞吐量和時(shí)延的需求;此外,本文方法僅通過使用訓(xùn)練模型創(chuàng)建或終止執(zhí)行RB分配的actor來應(yīng)對切片數(shù)量的變化。綜上所述,可以說本文方法在切片數(shù)量方面具有很高的可擴(kuò)展性。

4 結(jié)束語

本文主要研究無線接入網(wǎng)(RAN)切片。在多基站環(huán)境下,為了能夠有效地分配無線資源同時(shí)滿足切片的需求,提出了一種使用Ape-X的RB分配方法,該方法不受切片數(shù)量的影響。仿真結(jié)果表明,本文方法能夠根據(jù)切片的狀態(tài)和需求分配資源,分配了必要數(shù)量的RB以滿足切片的需求而且不受切片數(shù)量的變化的影響,同時(shí)對于隨機(jī)生成的場景也實(shí)現(xiàn)了高水平的通用性能。本文方法是基于LTE中的TTI設(shè)計(jì)的,在5G中,TTI是可變的,未來會在這個方向上繼續(xù)研究。

參考文獻(xiàn):

[1]NGMN Alliance.5G white paper[EB/OL].(2015-02-17).https://www.ngmn.org/wp-content/uploads/NGMN_5G_White_Paper_V1_0.pdf.

[2]Elayoub S E,F(xiàn)allgren M,Spapis P,et al.5G service requirements and operational use cases:analysis and METIS II vision[C]//Proc of European Conference on Networks and Communications.Piscataway,NJ:IEEE Press,2016:158-162.

[3]Afolabi I,Taleb T,Samdanis K,et al.Network slicing and softwarization:a survey on principles,enabling technologies,and solutions[J].IEEE Communications Surveys amp; Tutorials,2018,20(3):2429-2453.

[4]NGMN Alliance.Description of network slicing concept[EB/OL].(2018-02-20).https://www.ngmn.org/wp-content/uploads/160113_NGMN_Network_Slicing_v1_0.pdf.

[5]Foukas X,Patounas G,Elmokash A,et al.Network slicing in 5G:survey and challenges[J].IEEE Communications Magazine,2017,55(5):94-100.

[6]Elayoubi S E,Jemaa S B,Altman Z,et al.5G RAN slicing for verticals:enablers and challenges[J].IEEE Communications Magazine,2019,57(1):28-34.

[7]Shrivastava R,Samdanis K,Bakry A.On policy based ran slicing for emerging 5G TDD networks[C]//Proc of IEEE Global Communications Conference.Piscataway,NJ:IEEE Press,2018.

[8]Chang C Y,Nikaein N,Spyropoulos T.Radio access network resource slicing for flexible service execution[C]//Proc of IEEE Conference on Computer Communications.Piscataway,NJ:IEEE Press,2018:668-673.

[9]Guo Tao,Suárez A.Enabling 5G RAN slicing with EDF slice scheduling[J].IEEE Trans on Vehicular Technology,2019,68(3):2865-2877.

[10]唐倫,魏延南,馬潤琳,等.虛擬化云無線接入網(wǎng)絡(luò)下基于在線學(xué)習(xí)的網(wǎng)絡(luò)切片虛擬資源分配算法[J].電子與信息學(xué)報(bào),2019,41(7):1533-1539.(Tang Lun,Wei Yannan,Ma Runlin,et al.Online learning-based virtual resource allocation for network slicing in virtua-lized cloud radio access network[J].Journal of Electronics amp; Information Technology,2019,41(7):1533-1539.)

[11]Abiko Y,Mochizuki D,Saito T D,et al.Proposal of allocating radio resources to multiple slices in 5G using deep reinforcement learning[C]//Proc of the 8th IEEE Global Conference on Consumer Electro-nics.Piscataway,NJ:IEEE Press,2019:131-132.

[12]陳前斌,施穎潔,楊希希,等.基于在線雙向拍賣的虛擬網(wǎng)絡(luò)切片資源調(diào)度機(jī)制[J].電子與信息學(xué)報(bào),2018,40(7):1738-1744.(Chen Qianbin,Shi Yingjie,Yang Xixi,et al.Resource scheduling mechanism for virtual network slice based on online double auction[J].Journal of Electronics amp; Information Technology,2018,40(7):1738-1744.)

[13]Sun Guolin,Xiong Kun,Boateng G O,et al.Autonomous resource provisioning and resource customization for mixed traffics in virtualized radio access network[J].IEEE Systems Journal,2019,13(3):2454-2465.

[14]Xiong Kun,Adolphe S S R,Boateng G O,et al.Dynamic resource provisioning and resource customization for mixed traffics in virtualized radio access network[J].IEEE Access,2019,7:115449-115453.

[15]Kokku R,Mahindra R,Zhang Honghai,et al.NVS:a substrate for virtualizing wireless resources in cellular networks[J].IEEE/ACM Trans on Networking,2012,20(5):1333-1346.

[16]Caballero P,Banchs A,Veciana G D,et al.Network slicing games:enabling customization in multi-tenant networks[J].IEEE/ACM Trans on Networking,2019,27(2):662-675.

[17]Horgan D,Quan J,Budden D,et al.Distributed prioritized experience replay[EB/OL].(2018-03-02).https://arxiv.org/pdf/1803.00933.pdf.

[18]Van Hasselt H,Guez A,Silver D.Deep reinforcement learning with double Q-learning[EB/OL].(2015-12-08).https://arxiv.org/pdf/1509.06461.pdf.

[19]Sutton R S,Barto A G.Reinforcement learning:an introduction[J].IEEE Trans on Neural Networks,1998,9(5):1054.

[20]Wang Ziyu,Schaul T,Hessel M,et al.Dueling network architectures for deep reinforcement learning[C]//Proc of the 33rd International Conference on International Conference on Machine Learning.2016:1995-2003.

主站蜘蛛池模板: 国产自在线播放| 久久6免费视频| 婷婷综合色| 国产成人一二三| 91福利在线看| 在线中文字幕日韩| 国产精品永久在线| 日本人又色又爽的视频| 亚洲AV一二三区无码AV蜜桃| 91美女视频在线| 国产视频 第一页| 欧美一区二区三区不卡免费| 久久性妇女精品免费| 成人字幕网视频在线观看| 午夜毛片免费看| 国产男人的天堂| 国产网站免费看| 91亚洲免费视频| 国产高清自拍视频| 曰AV在线无码| 亚洲国产日韩在线观看| 国产微拍精品| 国产成人你懂的在线观看| 一本一道波多野结衣av黑人在线| 亚洲欧美另类中文字幕| 欧美日本激情| 欧美午夜网| 国产在线97| 亚洲伊人电影| 欧美日韩国产在线播放| 色屁屁一区二区三区视频国产| 91亚洲免费| 亚洲青涩在线| 亚洲无码37.| 久久精品嫩草研究院| 欧美不卡视频在线观看| 亚洲天堂精品视频| 欧美69视频在线| 五月六月伊人狠狠丁香网| 久久免费视频播放| 亚洲香蕉伊综合在人在线| 91精品伊人久久大香线蕉| 欧美午夜在线视频| 国产乱论视频| 欧美日韩91| 成人午夜亚洲影视在线观看| 国产农村妇女精品一二区| 看av免费毛片手机播放| 在线欧美一区| 国产午夜福利片在线观看| 欧美成a人片在线观看| 色综合日本| 亚洲欧美不卡| 久久精品人人做人人爽| 91久久偷偷做嫩草影院| 黄色网页在线观看| 久久久久人妻一区精品| 精品欧美一区二区三区久久久| 国产欧美日韩视频一区二区三区| 波多野结衣一二三| 欧洲亚洲一区| 欧美三级不卡在线观看视频| 国产视频a| 91无码国产视频| 国产视频a| 亚洲精品天堂自在久久77| 网友自拍视频精品区| 91青青草视频| 98精品全国免费观看视频| 国产熟睡乱子伦视频网站| 久久91精品牛牛| 欧美一道本| 少妇人妻无码首页| 亚洲男人的天堂网| 国产麻豆永久视频| 欧美精品亚洲日韩a| 一级香蕉人体视频| 欧美成人午夜视频| 国产黄网永久免费| 国产一级毛片yw| 日韩东京热无码人妻| 亚洲日韩AV无码一区二区三区人|