基于時空特征提取的智能網絡切片算法

2022-02-11 09:32:24肖柏狄李榮鵬趙志峰張宏綱

無線電通信技術 2022年1期

肖柏狄，李榮鵬，趙志峰,2，張宏綱

(1.浙江大學信息與電子工程學院，浙江杭州 310027;2.之江實驗室，浙江杭州 311121)

0 引言

當前，5G網絡已經成為數字社會發展不可缺少的關鍵一環，與4G網絡相比，其提供的海量服務可以滿足用戶更廣泛的需求，而其中大多數都是4G所不能實現的。

ITU為5G定義了3個主要應用場景：增強移動帶寬(eMBB)、大規模機器類通信(mMTC)和超高可靠低時延通信(URLLC)[1]。其中eMBB憑借其高帶寬主要應用于AR/VR等服務，mMTC則因為連接密度大而應用于物聯網、智能家居等服務，而低時延和可靠性高的URLLC則可應用于自動駕駛、遠程手術等服務。

為了適應5G多樣化的服務，需要一個能夠支持多種服務場景需求的網絡，而這是4G這樣單一物理網絡難以做到的。網絡切片作為5G的關鍵技術之一，能夠將一個物理網絡切割成多個虛擬網絡切片，在相同的物理基礎設施上建設具有不同特性的邏輯網絡，每一個切片提供一種服務。5G網絡切片也可分為核心網切片、承載網切片以及接入網切片三類[2]。

切片資源的管理也有多種分類，包括靜態管理(硬切片)、半靜態管理以及動態管理(軟切片)[3]。在虛擬化的邏輯網絡上對各切片進行資源的再次分配和調度，產生新的切片，這就是資源的動態管理。

另一方面，用戶使用的服務類型會經常發生變化，用戶的移動也會導致服務基站的變更，這就導致資源分配需要實時進行動態調整，預測難度也大大增加。因此，資源的動態管理是最符合網絡切片理念的分配方法，具有很高的靈活性，但實現難度也是最高的。抓取這些變化中的時空特征，能夠大幅提高動態分配的準確性，做到更好的預測。

目前，資源動態管理的研究仍處于起步階段，業界也正在進行各種嘗試，采用了包含機器學習方法在內的各類算法，其中較為可行的一類為強化學習算法[4-6]。

本文基于接入網切片，提出了一種使用時空特征提取的深度強化學習方法，從連續時間段內的用戶信息中提取時間特征，學習用戶的行為習慣，并通過提取基站的空間特征，學習在下行傳輸時各個基站相互之間的影響，最后通過深度強化學習的方法來進行切片資源分配的決策學習。

1 接入網智能切片

圖1為多基站和多用戶的接入網環境模型，接入網中的基站是以等間距的蜂窩網絡的形式分布的。

圖1 接入網切片Fig.1 Radio access network slicing

各基站可分配總帶寬相同，支持的服務種類也相同，在其范圍內的用戶都屬于自己。而每個用戶所使用的服務種類也各不相同，并且會進行隨機移動。

以dm={dm1,…,dmn,…,dmN}表示第m個基站中各切片的用戶需求，也就是需要的數據包數量，wm={wm1,…,wmn,…,wmN}表示第m個基站分配給各切片的帶寬，并使用系統效益J來對資源分配策略進行評估。J由頻譜效率(Spectrum Efficiency，SE)和用戶滿意度(Service level agreement Satisfaction Ratio，SSR)的權重和決定。SE可以通過香農定理用傳輸信噪比得到，SSR定義為傳輸數據包的成功率。系統效益J的計算公式為：

wmi=c·Δ,?i∈[1,2,…,N]，

(1)

式中，c為整數；Δ為最小帶寬分配粒度；α和β={β1,β2,…,βN}為代表權重的超參數。

因為該模型與強化學習的應用環境具有很高的相似度，因此可以將這個分配問題轉化為馬爾科夫決策問題(Markov Decision Problem，MDP)[7]。MDP的構成要素主要包含了狀態空間S、動作空間A、轉移概率P以及即時獎勵r，這些都可以與接入網模型一一對應。

④ 即時獎勵r以及折扣系數γ：基站Bm在當前時刻t會根據系統環境得到一個即時獎勵r，由式(2)決定：

(2)

進一步地，將深度學習和強化學習結合在一起，通過深度強化學習進行決策學習可以得到更好的效果。

2 智能網絡切片的深度強化學習算法

旨在解決上述問題，本文提出了基于時空特征提取的智能網絡切片算法。該算法采用深度強化學習進行帶寬分配的決策學習，使用了深度Q網絡(Deep Q-Network，DQN)。為了對輸入數據進行預處理從而獲取其更深層的特征，算法也采用了機器學習的方法來進行時空特征提取，其中利用圖注意力網絡(Graph Attention Network，GAT)學習基站的空間特征，利用長短期記憶網絡(Long Short-Term Memory，LSTM)學習用戶的行為習慣。

2.1 圖注意力網絡(GAT)

如圖1所示，將接入網中的基站看作節點，相鄰基站之間的聯系看作節點之間的邊，蜂窩網絡就是圖結構。因此，可以將圖注意力網絡應用在輸入數據的預處理上，來學習基站相互之間的影響。

GAT用于圖結構處理中[8-9]，屬于圖神經網絡(Graph Neural Network，GNN)的一類變種。

以圖2為例，假設圖結構中N個節點對應的特征向量為h1,h2,…,hN，向量的長度都為F，GAT先將特征向量都乘上權重矩陣W，映射為維度更高的向量，例如i節點對應的Whi以及j節點對應的Whj，對應的長度為F′。利用自注意力機制，可以得到i節點和j節點之間的注意力因子：

eij=a(Whi,Whj),

(3)

式中，a為單層的前饋神經網絡。

圖2 圖注意力層的結構Fig.2 Structure of GAT layer

通過eij可以得知j節點對于i節點的重要性。利用softmax進行歸一化，可以進一步得到標準化的注意力因子：

(4)

式中，Ni為i節點的鄰點集合。

最后，以注意力因子作為權重，就可以得到每個節點對應的新的向量作為輸出：

(5)

式中，σ為激活函數。

還可以使用多頭注意力機制(Multi-head Attention)，利用K個相互平行獨立的圖注意力層對特征向量進行處理，最后取平均。

(6)

2.2 長短期記憶網絡(LSTM)

LSTM屬于循環神經網絡(Recurrent Neural Network，RNN)的一種，用于處理序列，提取其中的時間特征，常用于自然語言處理當中[10]。

LSTM單元的核心由3個門組成：記憶門it、遺忘門ft以及輸出門ot。在當前的LSTM單元中，將上一個單元得到的歷史綜合信息Ct-1和特征向量ht-1與當前單元的輸入向量xt進行一系列運算，可以選擇刪除或者添加綜合信息中的信息，對信息進行記憶和遺忘，提取出信息的時間特征，如圖3所示。

it=σ(Wi·[ht-1,xt]+bi)，

(7)

ft=σ(Wf·[ht-1,xt]+bf)，

(8)

(9)

隨后，利用公式(7)～(9)得到的結果更新綜合信息Ct，并利用輸出門ot計算綜合信息中與當前信息相關的部分，輸出ht。

(10)

ot=σ(Wo·[ht-1,xt]+bo)，

(11)

ht=ot⊙tanh (Ct)。

(12)

式中，Wi、Wf、Wo、WC、bi、bf、bo、bC是該層的權重矩陣，即待訓練的網絡參數，tanh為激活函數。

圖3 LSTM單元的結構Fig.3 Structure of LSTM unit

2.3 深度Q網絡(DQN)

深度強化學習是強化學習和深度學習的結合，也就是使用神經網絡來進行深度學習，提升強化學習的感知能力，以DQN及其各個變種為代表[11-12]。

如圖4所示，將系統當前的狀態s輸入到DQN中，DQN就能夠通過多層全連接層進行學習，并輸出在狀態s下采取動作a所對應的獎勵，用Q值也就是Q(s,a)來表示：

Q(s,a)=Es′,a′[r(s,a,s′)+γQ(s′,a′)]，

(13)

式中，s′和a′分別代表下一個狀態及其采取的動作。

圖4 DQN的結構Fig.4 Structure of DQN

DQN要做的就是找到最適合狀態s的動作a*，也就是Q值最大的動作：

(14)

同時，DQN同時訓練兩個網絡，一個用于產生Q值的目標值，也就是目標Q網絡，一個用于實時的參數更新和Q值計算，也就是當前Q網絡。每進行T步訓練，當前Q網絡的參數都會復制給目標Q網絡。因此，訓練的目標就是使兩個Q網絡所預測的Q值盡可能地接近，從而使Q值收斂。參數更新使用的損失函數如下：

(15)

2.4 算法整體框架

綜合以上3種網絡，提出了基于時空特征提取的深度強化學習算法，其框架如圖5所示。

圖5 算法整體框架Fig.5 Architecture of the algorithm

算法1 基于時空特征提取的智能網絡切片算法輸入:系統的狀態stm以及對應的獎勵rt輸出:切片對應的帶寬分配動作atm1:對模型參數和經驗回放的緩存器F進行初始化;2:設定LSTM的時間步長T和訓練總次數N;3:從t=1到N/5:4: 從系統中獲取當前狀態stm并隨機地選取動作atm;5: 從系統中觀測到獎勵rt以及st+1m;6: 將(stm,atm,st+1m,rt)存儲到F當中;7:從t=N/5到N:8: 從系統中獲取當前狀態stm并生成狀態序列Stm={st-T+1m,st-T+2m,…,stm};9: 將stm輸入到嵌入層當中得到Htm={ht-T+1m,ht-T+2m,…,htm};10: 將htm輸入到第一層圖注意力層當中得到Gtm={gt-T+1m,gt-T+2m,…,gtm};11: 將gtm輸入到第二層圖注意力層當中得到Gtm'={gt-T+1m',gt-T+2m',…,gTm'};12: 將gtm和gtm'輸入到LSTM當中,分別得到ltm'以及ltm″;13: 將ltm'和ltm″拼接在一起,即ltm=ltm'||ltm″,輸入到DQN中,使用ε-貪婪算法并選擇動作atm,其中ε∈[0,1],并隨著訓練的進行增大:atm=argmaxa∈AQ(ltm,a;θu),概率為ε隨機選取,否則 ;14: 觀測到獎勵rt和下一時刻的狀態st+1m;15: 將(stm,atm,st+1m,rt)存儲到F當中;16: 從F當中隨機選取一批數據進行訓練并更新參數。

此外，該算法還使用了兩項技術，通過經驗回放來存儲過去的狀態、動作及對應的獎勵，在參數更新時隨機選取存儲過的狀態，解決了輸入樣本依賴性過高的問題。同時，算法利用ε-貪婪作為經驗回放的輔助，在訓練初期偏向于隨機選取動作，盡可能地遍歷動作空間中的動作。

3 實驗結果和分析

算法的測試基于圖1的模型，也就是一個包含19個基站的蜂窩網絡，大小為160 m×160 m，一共包含了2 000名使用者。每個基站的總帶寬設置為10.8 MHz，分配給3種不同的服務：VoLTE、eMBB以及URLLC，最小帶寬分配粒度為0.54 MHz。其他具體的參數設置如表1所示[13-14]。

表1 具體參數設置

該算法的測試將一些傳統算法和人工智能算法進行對比，其中LSTM-A2C將LSTM與A2C結合，是使用時間特征提取的強化學習算法；GAT-DQN將GAT與DQN結合，為使用空間特征提取的強化學習算法[15-16]。以式(1)中的系統效益作為系統評價指標之一，將α設置為0.01，β設置為[1,1,1]。實驗中算法的訓練迭代次數都是10 000次，采用采樣和滑動平均進行結果的處理。

在相同環境下，本文對各種方法進行了多個指標上的比較，得到了以下結果，其中圖6為系統效益曲線，圖7為頻譜效率曲線，圖8為URLLC的用戶滿意度曲線。

圖6 各方法的系統效益(Δ=0.54 MHz)Fig.6 System utility of each method(Δ=0.54 MHz)

圖7 各方法的頻譜效率(Δ=0.54 MHz)Fig.7 Spectrum efficiency of each method(Δ=0.54 MHz)

圖8 各方法的URLLC用戶滿意度(Δ=0.54 MHz)Fig.8 Service level agreement Satisfaction Ratio of each method(Δ=0.54 MHz)

對于系統效益,本算法在收斂速度以及效益值上都是最優的。對于不使用ε-貪婪所得到的系統效益，本算法達到了6.72左右，而DQN的最終系統效益約為6.42，只使用時間特征提取的LSTM-A2C的最終系統效益約為6.19，只使用空間特征提取的GAT-DQN的最終系統效益約為6.62。由此可見，加入了時空特征提取相較于LSTM-A2C和GAT-DQN能夠得到一定的性能提升，相較于DQN更是有5%左右的提升。

對于頻譜效率，本算法在收斂速度和頻譜效率上也是最優的。對于不使用ε-貪婪所得到的頻譜效率，本算法達到了390左右，相較于LSTM-A2C的約335以及DQN的約360都有較為明顯的提升，而GAT-DQN約為380，與之相比也有了一定的提升。

URLLC的服務需求最難滿足，各方法的差異也更容易體現出來。對于URLLC的用戶滿意度，本算法在收斂速度和用戶滿意度上性能有所下降。對于不使用ε-貪婪所得到的用戶滿意度，本算法達到了0.82左右，GAT-DQN約為0.83，LSTM-A2C和DQN都為0.88左右。因此，對于用戶滿意度，進行時空特征提取并沒有做到性能上的提升，反而有了一定的下降。

4 結束語

本文提出了一種基于時空特征提取的深度學習算法，通過使用GAT和LSTM整合蜂窩網絡中各基站的時空特征，并加入DQN來得到能夠實現智能網絡切片的資源分配策略。

實驗的分析和結論說明，在接入網環境下，相比于只使用LSTM進行時間特征提取或只使用GAT進行空間特征提取的的深度強化學習算法，二者結合進行時空特征提取可以達到更好的資源分配效果，強化了對用戶行為以及資源需求變化的預測，并且在用戶滿意度優秀的同時，增加了對頻譜的利用率，綜合性能也有了一定的提升，更適合網絡切片的智能資源分配。