肖柏狄,李榮鵬,趙志峰,2,張宏綱
(1.浙江大學 信息與電子工程學院,浙江 杭州 310027;2.之江實驗室,浙江 杭州 311121)
當前,5G網絡已經成為數字社會發展不可缺少的關鍵一環,與4G網絡相比,其提供的海量服務可以滿足用戶更廣泛的需求,而其中大多數都是4G所不能實現的。
ITU為5G定義了3個主要應用場景:增強移動帶寬(eMBB)、大規模機器類通信(mMTC)和超高可靠低時延通信(URLLC)[1]。其中eMBB憑借其高帶寬主要應用于AR/VR等服務,mMTC則因為連接密度大而應用于物聯網、智能家居等服務,而低時延和可靠性高的URLLC則可應用于自動駕駛、遠程手術等服務。
為了適應5G多樣化的服務,需要一個能夠支持多種服務場景需求的網絡,而這是4G這樣單一物理網絡難以做到的。網絡切片作為5G的關鍵技術之一,能夠將一個物理網絡切割成多個虛擬網絡切片,在相同的物理基礎設施上建設具有不同特性的邏輯網絡,每一個切片提供一種服務。5G網絡切片也可分為核心網切片、承載網切片以及接入網切片三類[2]。
切片資源的管理也有多種分類,包括靜態管理(硬切片)、半靜態管理以及動態管理(軟切片)[3]。在虛擬化的邏輯網絡上對各切片進行資源的再次分配和調度,產生新的切片,這就是資源的動態管理。
另一方面,用戶使用的服務類型會經常發生變化,用戶的移動也會導致服務基站的變更,這就導致資源分配需要實時進行動態調整,預測難度也大大增加。因此,資源的動態管理是最符合網絡切片理念的分配方法,具有很高的靈活性,但實現難度也是最高的。抓取這些變化中的時空特征,能夠大幅提高動態分配的準確性,做到更好的預測。
目前,資源動態管理的研究仍處于起步階段,業界也正在進行各種嘗試,采用了包含機器學習方法在內的各類算法,其中較為可行的一類為強化學習算法[4-6]。
本文基于接入網切片,提出了一種使用時空特征提取的深度強化學習方法,從連續時間段內的用戶信息中提取時間特征,學習用戶的行為習慣,并通過提取基站的空間特征,學習在下行傳輸時各個基站相互之間的影響,最后通過深度強化學習的方法來進行切片資源分配的決策學習。
圖1為多基站和多用戶的接入網環境模型,接入網中的基站是以等間距的蜂窩網絡的形式分布的。

圖1 接入網切片Fig.1 Radio access network slicing
各基站可分配總帶寬相同,支持的服務種類也相同,在其范圍內的用戶都屬于自己。而每個用戶所使用的服務種類也各不相同,并且會進行隨機移動。
以dm={dm1,…,dmn,…,dmN}表示第m個基站中各切片的用戶需求,也就是需要的數據包數量,wm={wm1,…,wmn,…,wmN}表示第m個基站分配給各切片的帶寬,并使用系統效益J來對資源分配策略進行評估。J由頻譜效率(Spectrum Efficiency,SE)和用戶滿意度(Service level agreement Satisfaction Ratio,SSR)的權重和決定。SE可以通過香農定理用傳輸信噪比得到,SSR定義為傳輸數據包的成功率。系統效益J的計算公式為:
wmi=c·Δ,?i∈[1,2,…,N],
(1)
式中,c為整數;Δ為最小帶寬分配粒度;α和β={β1,β2,…,βN}為代表權重的超參數。
因為該模型與強化學習的應用環境具有很高的相似度,因此可以將這個分配問題轉化為馬爾科夫決策問題(Markov Decision Problem,MDP)[7]。MDP的構成要素主要包含了狀態空間S、動作空間A、轉移概率P以及即時獎勵r,這些都可以與接入網模型一一對應。



④ 即時獎勵r以及折扣系數γ:基站Bm在當前時刻t會根據系統環境得到一個即時獎勵r,由式(2)決定:
(2)

進一步地,將深度學習和強化學習結合在一起,通過深度強化學習進行決策學習可以得到更好的效果。
旨在解決上述問題,本文提出了基于時空特征提取的智能網絡切片算法。該算法采用深度強化學習進行帶寬分配的決策學習,使用了深度Q網絡(Deep Q-Network,DQN)。為了對輸入數據進行預處理從而獲取其更深層的特征,算法也采用了機器學習的方法來進行時空特征提取,其中利用圖注意力網絡(Graph Attention Network,GAT)學習基站的空間特征,利用長短期記憶網絡(Long Short-Term Memory,LSTM)學習用戶的行為習慣。
如圖1所示,將接入網中的基站看作節點,相鄰基站之間的聯系看作節點之間的邊,蜂窩網絡就是圖結構。因此,可以將圖注意力網絡應用在輸入數據的預處理上,來學習基站相互之間的影響。
GAT用于圖結構處理中[8-9],屬于圖神經網絡(Graph Neural Network,GNN)的一類變種。
以圖2為例,假設圖結構中N個節點對應的特征向量為h1,h2,…,hN,向量的長度都為F,GAT先將特征向量都乘上權重矩陣W,映射為維度更高的向量,例如i節點對應的Whi以及j節點對應的Whj,對應的長度為F′。利用自注意力機制,可以得到i節點和j節點之間的注意力因子:
eij=a(Whi,Whj),
(3)
式中,a為單層的前饋神經網絡。

圖2 圖注意力層的結構Fig.2 Structure of GAT layer
通過eij可以得知j節點對于i節點的重要性。利用softmax進行歸一化,可以進一步得到標準化的注意力因子:
(4)
式中,Ni為i節點的鄰點集合。
最后,以注意力因子作為權重,就可以得到每個節點對應的新的向量作為輸出:
(5)
式中,σ為激活函數。
還可以使用多頭注意力機制(Multi-head Attention),利用K個相互平行獨立的圖注意力層對特征向量進行處理,最后取平均。
(6)
LSTM屬于循環神經網絡(Recurrent Neural Network,RNN)的一種,用于處理序列,提取其中的時間特征,常用于自然語言處理當中[10]。
LSTM單元的核心由3個門組成:記憶門it、遺忘門ft以及輸出門ot。在當前的LSTM單元中,將上一個單元得到的歷史綜合信息Ct-1和特征向量ht-1與當前單元的輸入向量xt進行一系列運算,可以選擇刪除或者添加綜合信息中的信息,對信息進行記憶和遺忘,提取出信息的時間特征,如圖3所示。

it=σ(Wi·[ht-1,xt]+bi),
(7)
ft=σ(Wf·[ht-1,xt]+bf),
(8)
(9)
隨后,利用公式(7)~(9)得到的結果更新綜合信息Ct,并利用輸出門ot計算綜合信息中與當前信息相關的部分,輸出ht。
(10)
ot=σ(Wo·[ht-1,xt]+bo),
(11)
ht=ot⊙tanh (Ct)。
(12)
式中,Wi、Wf、Wo、WC、bi、bf、bo、bC是該層的權重矩陣,即待訓練的網絡參數,tanh為激活函數。

圖3 LSTM單元的結構Fig.3 Structure of LSTM unit
深度強化學習是強化學習和深度學習的結合,也就是使用神經網絡來進行深度學習,提升強化學習的感知能力,以DQN及其各個變種為代表[11-12]。
如圖4所示,將系統當前的狀態s輸入到DQN中,DQN就能夠通過多層全連接層進行學習,并輸出在狀態s下采取動作a所對應的獎勵,用Q值也就是Q(s,a)來表示:
Q(s,a)=Es′,a′[r(s,a,s′)+γQ(s′,a′)],
(13)
式中,s′和a′分別代表下一個狀態及其采取的動作。

圖4 DQN的結構Fig.4 Structure of DQN
DQN要做的就是找到最適合狀態s的動作a*,也就是Q值最大的動作:
(14)
同時,DQN同時訓練兩個網絡,一個用于產生Q值的目標值,也就是目標Q網絡,一個用于實時的參數更新和Q值計算,也就是當前Q網絡。每進行T步訓練,當前Q網絡的參數都會復制給目標Q網絡。因此,訓練的目標就是使兩個Q網絡所預測的Q值盡可能地接近,從而使Q值收斂。參數更新使用的損失函數如下:
(15)
綜合以上3種網絡,提出了基于時空特征提取的深度強化學習算法,其框架如圖5所示。

圖5 算法整體框架Fig.5 Architecture of the algorithm

算法1 基于時空特征提取的智能網絡切片算法輸入:系統的狀態stm以及對應的獎勵rt輸出:切片對應的帶寬分配動作atm1:對模型參數和經驗回放的緩存器F進行初始化;2:設定LSTM的時間步長T和訓練總次數N;3:從t=1到N/5:4: 從系統中獲取當前狀態stm并隨機地選取動作atm;5: 從系統中觀測到獎勵rt以及st+1m;6: 將(stm,atm,st+1m,rt)存儲到F當中;7:從t=N/5到N:8: 從系統中獲取當前狀態stm并生成狀態序列Stm={st-T+1m,st-T+2m,…,stm};9: 將stm輸入到嵌入層當中得到Htm={ht-T+1m,ht-T+2m,…,htm};10: 將htm輸入到第一層圖注意力層當中得到Gtm={gt-T+1m,gt-T+2m,…,gtm};11: 將gtm輸入到第二層圖注意力層當中得到Gtm'={gt-T+1m',gt-T+2m',…,gTm'};12: 將gtm和gtm'輸入到LSTM當中,分別得到ltm'以及ltm″;13: 將ltm'和ltm″拼接在一起,即ltm=ltm'||ltm″,輸入到DQN中,使用ε-貪婪算法并選擇動作atm,其中ε∈[0,1],并隨著訓練的進行增大:atm=argmaxa∈AQ(ltm,a;θu),概率為ε隨機選取,否則 ;14: 觀測到獎勵rt和下一時刻的狀態st+1m;15: 將(stm,atm,st+1m,rt)存儲到F當中;16: 從F當中隨機選取一批數據進行訓練并更新參數。
此外,該算法還使用了兩項技術,通過經驗回放來存儲過去的狀態、動作及對應的獎勵,在參數更新時隨機選取存儲過的狀態,解決了輸入樣本依賴性過高的問題。同時,算法利用ε-貪婪作為經驗回放的輔助,在訓練初期偏向于隨機選取動作,盡可能地遍歷動作空間中的動作。
算法的測試基于圖1的模型,也就是一個包含19個基站的蜂窩網絡,大小為160 m×160 m,一共包含了2 000名使用者。每個基站的總帶寬設置為10.8 MHz,分配給3種不同的服務:VoLTE、eMBB以及URLLC,最小帶寬分配粒度為0.54 MHz。其他具體的參數設置如表1所示[13-14]。

表1 具體參數設置
該算法的測試將一些傳統算法和人工智能算法進行對比,其中LSTM-A2C將LSTM與A2C結合,是使用時間特征提取的強化學習算法;GAT-DQN將GAT與DQN結合,為使用空間特征提取的強化學習算法[15-16]。以式(1)中的系統效益作為系統評價指標之一,將α設置為0.01,β設置為[1,1,1]。實驗中算法的訓練迭代次數都是10 000次,采用采樣和滑動平均進行結果的處理。
在相同環境下,本文對各種方法進行了多個指標上的比較,得到了以下結果,其中圖6為系統效益曲線,圖7為頻譜效率曲線,圖8為URLLC的用戶滿意度曲線。

圖6 各方法的系統效益(Δ=0.54 MHz)Fig.6 System utility of each method(Δ=0.54 MHz)

圖7 各方法的頻譜效率(Δ=0.54 MHz)Fig.7 Spectrum efficiency of each method(Δ=0.54 MHz)

圖8 各方法的URLLC用戶滿意度(Δ=0.54 MHz)Fig.8 Service level agreement Satisfaction Ratio of each method(Δ=0.54 MHz)
對于系統效益,本算法在收斂速度以及效益值上都是最優的。對于不使用ε-貪婪所得到的系統效益,本算法達到了6.72左右,而DQN的最終系統效益約為6.42,只使用時間特征提取的LSTM-A2C的最終系統效益約為6.19,只使用空間特征提取的GAT-DQN的最終系統效益約為6.62。由此可見,加入了時空特征提取相較于LSTM-A2C和GAT-DQN能夠得到一定的性能提升,相較于DQN更是有5%左右的提升。
對于頻譜效率,本算法在收斂速度和頻譜效率上也是最優的。對于不使用ε-貪婪所得到的頻譜效率,本算法達到了390左右,相較于LSTM-A2C的約335以及DQN的約360都有較為明顯的提升,而GAT-DQN約為380,與之相比也有了一定的提升。
URLLC的服務需求最難滿足,各方法的差異也更容易體現出來。對于URLLC的用戶滿意度,本算法在收斂速度和用戶滿意度上性能有所下降。對于不使用ε-貪婪所得到的用戶滿意度,本算法達到了0.82左右,GAT-DQN約為0.83,LSTM-A2C和DQN都為0.88左右。因此,對于用戶滿意度,進行時空特征提取并沒有做到性能上的提升,反而有了一定的下降。
本文提出了一種基于時空特征提取的深度學習算法,通過使用GAT和LSTM整合蜂窩網絡中各基站的時空特征,并加入DQN來得到能夠實現智能網絡切片的資源分配策略。
實驗的分析和結論說明,在接入網環境下,相比于只使用LSTM進行時間特征提取或只使用GAT進行空間特征提取的的深度強化學習算法,二者結合進行時空特征提取可以達到更好的資源分配效果,強化了對用戶行為以及資源需求變化的預測,并且在用戶滿意度優秀的同時,增加了對頻譜的利用率,綜合性能也有了一定的提升,更適合網絡切片的智能資源分配。