999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時空特征提取的智能網絡切片算法

2022-02-11 09:32:24肖柏狄李榮鵬趙志峰張宏綱
無線電通信技術 2022年1期
關鍵詞:特征提取深度用戶

肖柏狄,李榮鵬,趙志峰,2,張宏綱

(1.浙江大學 信息與電子工程學院,浙江 杭州 310027;2.之江實驗室,浙江 杭州 311121)

0 引言

當前,5G網絡已經成為數字社會發展不可缺少的關鍵一環,與4G網絡相比,其提供的海量服務可以滿足用戶更廣泛的需求,而其中大多數都是4G所不能實現的。

ITU為5G定義了3個主要應用場景:增強移動帶寬(eMBB)、大規模機器類通信(mMTC)和超高可靠低時延通信(URLLC)[1]。其中eMBB憑借其高帶寬主要應用于AR/VR等服務,mMTC則因為連接密度大而應用于物聯網、智能家居等服務,而低時延和可靠性高的URLLC則可應用于自動駕駛、遠程手術等服務。

為了適應5G多樣化的服務,需要一個能夠支持多種服務場景需求的網絡,而這是4G這樣單一物理網絡難以做到的。網絡切片作為5G的關鍵技術之一,能夠將一個物理網絡切割成多個虛擬網絡切片,在相同的物理基礎設施上建設具有不同特性的邏輯網絡,每一個切片提供一種服務。5G網絡切片也可分為核心網切片、承載網切片以及接入網切片三類[2]。

切片資源的管理也有多種分類,包括靜態管理(硬切片)、半靜態管理以及動態管理(軟切片)[3]。在虛擬化的邏輯網絡上對各切片進行資源的再次分配和調度,產生新的切片,這就是資源的動態管理。

另一方面,用戶使用的服務類型會經常發生變化,用戶的移動也會導致服務基站的變更,這就導致資源分配需要實時進行動態調整,預測難度也大大增加。因此,資源的動態管理是最符合網絡切片理念的分配方法,具有很高的靈活性,但實現難度也是最高的。抓取這些變化中的時空特征,能夠大幅提高動態分配的準確性,做到更好的預測。

目前,資源動態管理的研究仍處于起步階段,業界也正在進行各種嘗試,采用了包含機器學習方法在內的各類算法,其中較為可行的一類為強化學習算法[4-6]。

本文基于接入網切片,提出了一種使用時空特征提取的深度強化學習方法,從連續時間段內的用戶信息中提取時間特征,學習用戶的行為習慣,并通過提取基站的空間特征,學習在下行傳輸時各個基站相互之間的影響,最后通過深度強化學習的方法來進行切片資源分配的決策學習。

1 接入網智能切片

圖1為多基站和多用戶的接入網環境模型,接入網中的基站是以等間距的蜂窩網絡的形式分布的。

圖1 接入網切片Fig.1 Radio access network slicing

各基站可分配總帶寬相同,支持的服務種類也相同,在其范圍內的用戶都屬于自己。而每個用戶所使用的服務種類也各不相同,并且會進行隨機移動。

以dm={dm1,…,dmn,…,dmN}表示第m個基站中各切片的用戶需求,也就是需要的數據包數量,wm={wm1,…,wmn,…,wmN}表示第m個基站分配給各切片的帶寬,并使用系統效益J來對資源分配策略進行評估。J由頻譜效率(Spectrum Efficiency,SE)和用戶滿意度(Service level agreement Satisfaction Ratio,SSR)的權重和決定。SE可以通過香農定理用傳輸信噪比得到,SSR定義為傳輸數據包的成功率。系統效益J的計算公式為:

wmi=c·Δ,?i∈[1,2,…,N],

(1)

式中,c為整數;Δ為最小帶寬分配粒度;α和β={β1,β2,…,βN}為代表權重的超參數。

因為該模型與強化學習的應用環境具有很高的相似度,因此可以將這個分配問題轉化為馬爾科夫決策問題(Markov Decision Problem,MDP)[7]。MDP的構成要素主要包含了狀態空間S、動作空間A、轉移概率P以及即時獎勵r,這些都可以與接入網模型一一對應。

④ 即時獎勵r以及折扣系數γ:基站Bm在當前時刻t會根據系統環境得到一個即時獎勵r,由式(2)決定:

(2)

進一步地,將深度學習和強化學習結合在一起,通過深度強化學習進行決策學習可以得到更好的效果。

2 智能網絡切片的深度強化學習算法

旨在解決上述問題,本文提出了基于時空特征提取的智能網絡切片算法。該算法采用深度強化學習進行帶寬分配的決策學習,使用了深度Q網絡(Deep Q-Network,DQN)。為了對輸入數據進行預處理從而獲取其更深層的特征,算法也采用了機器學習的方法來進行時空特征提取,其中利用圖注意力網絡(Graph Attention Network,GAT)學習基站的空間特征,利用長短期記憶網絡(Long Short-Term Memory,LSTM)學習用戶的行為習慣。

2.1 圖注意力網絡(GAT)

如圖1所示,將接入網中的基站看作節點,相鄰基站之間的聯系看作節點之間的邊,蜂窩網絡就是圖結構。因此,可以將圖注意力網絡應用在輸入數據的預處理上,來學習基站相互之間的影響。

GAT用于圖結構處理中[8-9],屬于圖神經網絡(Graph Neural Network,GNN)的一類變種。

以圖2為例,假設圖結構中N個節點對應的特征向量為h1,h2,…,hN,向量的長度都為F,GAT先將特征向量都乘上權重矩陣W,映射為維度更高的向量,例如i節點對應的Whi以及j節點對應的Whj,對應的長度為F′。利用自注意力機制,可以得到i節點和j節點之間的注意力因子:

eij=a(Whi,Whj),

(3)

式中,a為單層的前饋神經網絡。

圖2 圖注意力層的結構Fig.2 Structure of GAT layer

通過eij可以得知j節點對于i節點的重要性。利用softmax進行歸一化,可以進一步得到標準化的注意力因子:

(4)

式中,Ni為i節點的鄰點集合。

最后,以注意力因子作為權重,就可以得到每個節點對應的新的向量作為輸出:

(5)

式中,σ為激活函數。

還可以使用多頭注意力機制(Multi-head Attention),利用K個相互平行獨立的圖注意力層對特征向量進行處理,最后取平均。

(6)

2.2 長短期記憶網絡(LSTM)

LSTM屬于循環神經網絡(Recurrent Neural Network,RNN)的一種,用于處理序列,提取其中的時間特征,常用于自然語言處理當中[10]。

LSTM單元的核心由3個門組成:記憶門it、遺忘門ft以及輸出門ot。在當前的LSTM單元中,將上一個單元得到的歷史綜合信息Ct-1和特征向量ht-1與當前單元的輸入向量xt進行一系列運算,可以選擇刪除或者添加綜合信息中的信息,對信息進行記憶和遺忘,提取出信息的時間特征,如圖3所示。

it=σ(Wi·[ht-1,xt]+bi),

(7)

ft=σ(Wf·[ht-1,xt]+bf),

(8)

(9)

隨后,利用公式(7)~(9)得到的結果更新綜合信息Ct,并利用輸出門ot計算綜合信息中與當前信息相關的部分,輸出ht。

(10)

ot=σ(Wo·[ht-1,xt]+bo),

(11)

ht=ot⊙tanh (Ct)。

(12)

式中,Wi、Wf、Wo、WC、bi、bf、bo、bC是該層的權重矩陣,即待訓練的網絡參數,tanh為激活函數。

圖3 LSTM單元的結構Fig.3 Structure of LSTM unit

2.3 深度Q網絡(DQN)

深度強化學習是強化學習和深度學習的結合,也就是使用神經網絡來進行深度學習,提升強化學習的感知能力,以DQN及其各個變種為代表[11-12]。

如圖4所示,將系統當前的狀態s輸入到DQN中,DQN就能夠通過多層全連接層進行學習,并輸出在狀態s下采取動作a所對應的獎勵,用Q值也就是Q(s,a)來表示:

Q(s,a)=Es′,a′[r(s,a,s′)+γQ(s′,a′)],

(13)

式中,s′和a′分別代表下一個狀態及其采取的動作。

圖4 DQN的結構Fig.4 Structure of DQN

DQN要做的就是找到最適合狀態s的動作a*,也就是Q值最大的動作:

(14)

同時,DQN同時訓練兩個網絡,一個用于產生Q值的目標值,也就是目標Q網絡,一個用于實時的參數更新和Q值計算,也就是當前Q網絡。每進行T步訓練,當前Q網絡的參數都會復制給目標Q網絡。因此,訓練的目標就是使兩個Q網絡所預測的Q值盡可能地接近,從而使Q值收斂。參數更新使用的損失函數如下:

(15)

2.4 算法整體框架

綜合以上3種網絡,提出了基于時空特征提取的深度強化學習算法,其框架如圖5所示。

圖5 算法整體框架Fig.5 Architecture of the algorithm

算法1 基于時空特征提取的智能網絡切片算法輸入:系統的狀態stm以及對應的獎勵rt輸出:切片對應的帶寬分配動作atm1:對模型參數和經驗回放的緩存器F進行初始化;2:設定LSTM的時間步長T和訓練總次數N;3:從t=1到N/5:4: 從系統中獲取當前狀態stm并隨機地選取動作atm;5: 從系統中觀測到獎勵rt以及st+1m;6: 將(stm,atm,st+1m,rt)存儲到F當中;7:從t=N/5到N:8: 從系統中獲取當前狀態stm并生成狀態序列Stm={st-T+1m,st-T+2m,…,stm};9: 將stm輸入到嵌入層當中得到Htm={ht-T+1m,ht-T+2m,…,htm};10: 將htm輸入到第一層圖注意力層當中得到Gtm={gt-T+1m,gt-T+2m,…,gtm};11: 將gtm輸入到第二層圖注意力層當中得到Gtm'={gt-T+1m',gt-T+2m',…,gTm'};12: 將gtm和gtm'輸入到LSTM當中,分別得到ltm'以及ltm″;13: 將ltm'和ltm″拼接在一起,即ltm=ltm'||ltm″,輸入到DQN中,使用ε-貪婪算法并選擇動作atm,其中ε∈[0,1],并隨著訓練的進行增大:atm=argmaxa∈AQ(ltm,a;θu),概率為ε隨機選取,否則 ;14: 觀測到獎勵rt和下一時刻的狀態st+1m;15: 將(stm,atm,st+1m,rt)存儲到F當中;16: 從F當中隨機選取一批數據進行訓練并更新參數。

此外,該算法還使用了兩項技術,通過經驗回放來存儲過去的狀態、動作及對應的獎勵,在參數更新時隨機選取存儲過的狀態,解決了輸入樣本依賴性過高的問題。同時,算法利用ε-貪婪作為經驗回放的輔助,在訓練初期偏向于隨機選取動作,盡可能地遍歷動作空間中的動作。

3 實驗結果和分析

算法的測試基于圖1的模型,也就是一個包含19個基站的蜂窩網絡,大小為160 m×160 m,一共包含了2 000名使用者。每個基站的總帶寬設置為10.8 MHz,分配給3種不同的服務:VoLTE、eMBB以及URLLC,最小帶寬分配粒度為0.54 MHz。其他具體的參數設置如表1所示[13-14]。

表1 具體參數設置

該算法的測試將一些傳統算法和人工智能算法進行對比,其中LSTM-A2C將LSTM與A2C結合,是使用時間特征提取的強化學習算法;GAT-DQN將GAT與DQN結合,為使用空間特征提取的強化學習算法[15-16]。以式(1)中的系統效益作為系統評價指標之一,將α設置為0.01,β設置為[1,1,1]。實驗中算法的訓練迭代次數都是10 000次,采用采樣和滑動平均進行結果的處理。

在相同環境下,本文對各種方法進行了多個指標上的比較,得到了以下結果,其中圖6為系統效益曲線,圖7為頻譜效率曲線,圖8為URLLC的用戶滿意度曲線。

圖6 各方法的系統效益(Δ=0.54 MHz)Fig.6 System utility of each method(Δ=0.54 MHz)

圖7 各方法的頻譜效率(Δ=0.54 MHz)Fig.7 Spectrum efficiency of each method(Δ=0.54 MHz)

圖8 各方法的URLLC用戶滿意度(Δ=0.54 MHz)Fig.8 Service level agreement Satisfaction Ratio of each method(Δ=0.54 MHz)

對于系統效益,本算法在收斂速度以及效益值上都是最優的。對于不使用ε-貪婪所得到的系統效益,本算法達到了6.72左右,而DQN的最終系統效益約為6.42,只使用時間特征提取的LSTM-A2C的最終系統效益約為6.19,只使用空間特征提取的GAT-DQN的最終系統效益約為6.62。由此可見,加入了時空特征提取相較于LSTM-A2C和GAT-DQN能夠得到一定的性能提升,相較于DQN更是有5%左右的提升。

對于頻譜效率,本算法在收斂速度和頻譜效率上也是最優的。對于不使用ε-貪婪所得到的頻譜效率,本算法達到了390左右,相較于LSTM-A2C的約335以及DQN的約360都有較為明顯的提升,而GAT-DQN約為380,與之相比也有了一定的提升。

URLLC的服務需求最難滿足,各方法的差異也更容易體現出來。對于URLLC的用戶滿意度,本算法在收斂速度和用戶滿意度上性能有所下降。對于不使用ε-貪婪所得到的用戶滿意度,本算法達到了0.82左右,GAT-DQN約為0.83,LSTM-A2C和DQN都為0.88左右。因此,對于用戶滿意度,進行時空特征提取并沒有做到性能上的提升,反而有了一定的下降。

4 結束語

本文提出了一種基于時空特征提取的深度學習算法,通過使用GAT和LSTM整合蜂窩網絡中各基站的時空特征,并加入DQN來得到能夠實現智能網絡切片的資源分配策略。

實驗的分析和結論說明,在接入網環境下,相比于只使用LSTM進行時間特征提取或只使用GAT進行空間特征提取的的深度強化學習算法,二者結合進行時空特征提取可以達到更好的資源分配效果,強化了對用戶行為以及資源需求變化的預測,并且在用戶滿意度優秀的同時,增加了對頻譜的利用率,綜合性能也有了一定的提升,更適合網絡切片的智能資源分配。

猜你喜歡
特征提取深度用戶
深度理解一元一次方程
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
深度觀察
深度觀察
深度觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 日韩 欧美 小说 综合网 另类| 26uuu国产精品视频| 国产精品99久久久久久董美香| 白浆免费视频国产精品视频| 日本午夜精品一本在线观看 | 国产99精品视频| 999精品视频在线| 无码免费视频| 欧美国产菊爆免费观看 | 国产精品lululu在线观看| 九色视频线上播放| 亚洲人成在线精品| 伊大人香蕉久久网欧美| 日韩第九页| 欧美精品伊人久久| 久久国产精品影院| 国产精品不卡片视频免费观看| 中国国产一级毛片| av色爱 天堂网| 欧美国产日本高清不卡| 伊人久久大线影院首页| 久久综合亚洲色一区二区三区| 91精品啪在线观看国产60岁 | 亚洲AV无码精品无码久久蜜桃| 三上悠亚精品二区在线观看| 99精品伊人久久久大香线蕉| 精品91自产拍在线| 国产欧美日韩18| 精品欧美日韩国产日漫一区不卡| 亚洲欧美人成电影在线观看| 亚洲系列中文字幕一区二区| 在线看免费无码av天堂的| 欧美人与性动交a欧美精品| 欧美a级完整在线观看| 午夜福利在线观看成人| 91在线精品麻豆欧美在线| 青青青国产在线播放| 亚洲日韩精品伊甸| 欧美色伊人| 亚洲国产日韩在线观看| 国产乱人伦精品一区二区| 99在线观看精品视频| 亚洲一区二区在线无码 | 毛片一级在线| 久久6免费视频| 无码专区国产精品第一页| 久久国产拍爱| 无码中字出轨中文人妻中文中| 久久激情影院| 国产精品专区第1页| 国产成人一区二区| 91福利在线看| 丁香婷婷久久| 91精品国产福利| 91色爱欧美精品www| 久久人人爽人人爽人人片aV东京热 | 亚洲国产天堂久久综合| AV天堂资源福利在线观看| 国产99在线| 久久96热在精品国产高清| 国产网站免费看| 天天躁夜夜躁狠狠躁躁88| 国产www网站| 国产欧美在线观看精品一区污| 九月婷婷亚洲综合在线| 久久精品女人天堂aaa| 在线视频亚洲色图| 成人精品视频一区二区在线| 一级爱做片免费观看久久 | 亚洲中文字幕国产av| 欧美黑人欧美精品刺激| 国产成人午夜福利免费无码r| 亚洲色图欧美一区| 午夜福利无码一区二区| 91精品国产一区| 国产在线观看91精品亚瑟| 色国产视频| 天天躁夜夜躁狠狠躁图片| 伊人久久久久久久久久| 国产精品黄色片| h网址在线观看| 日韩不卡高清视频|