





收稿日期:2021-10-27;修回日期:2021-12-17
基金項目:國家自然科學基金資助項目(61531013);國家重點研發計劃重點專項資助項目(2018YFB1800300)
作者簡介:趙季紅(1964-),女,陜西西安人,教授,博導,主要研究方向為帶寬通信網、新一代網絡的管理和控制、物聯網、語義Web、異構融合網絡、網絡虛擬化;宋航(1996-),男(通信作者),陜西西安人,碩士研究生,主要研究方向為網絡虛擬化、資源分配(1150331856@qq.com);曲樺(1961-),男,陜西西安人,教授,博導,主要研究方向為現代通信網、計算機網絡體系結構、5G網絡關鍵技術、新一代網絡技術等;雷智麟(1996-),男,河南南陽人,碩士研究生,主要研究方向為網絡切片、服務功能鏈部署.
摘 要:現有的虛擬網絡映射算法大多是依賴于人工規則對節點進行排序,決定節點先后映射的順序,來優化節點映射從而提高虛擬網絡請求的成功率。而在鏈路映射階段普遍采用廣度優先搜索算法,忽略了節點資源和鏈路資源具有強相關性的特點,從而只能取得局部最優的映射結果。針對上述問題,基于5G多域異構網絡環境,從網絡的可生存性的保護角度出發,提出一種使用雙層強化學習的虛擬網絡映射算法。將強化學習同時應用于網絡映射的節點和鏈路兩階段,使用梯度策略和反向傳播的方法對該網絡模型進行訓練,并使用此訓練模型完成映射。仿真結果表明,與對比算法相比,該算法在優化節點映射的同時優化了鏈路映射,且在映射成功率、長期收益率、節點和鏈路的利用率等方面均取得較好結果。
關鍵詞:5G多域網絡; 虛擬網絡映射; 強化學習; 映射策略網絡
中圖分類號:TP393.01"" 文獻標志碼:A
文章編號:1001-3695(2022)06-035-1809-05
doi:10.19734/j.issn.1001-3695.2021.10.0594
High-reliability multi-domain virtual network mapping algorithm based on reinforcement learning
Zhao Jihong1,2, Song Hang1, Qu Hua2, Lei Zhilin1
(1.School of Communication amp; Information Engineering, Xi’an University of Posts amp; Telecommunications, Xi’an 710121, China; 2.School of Electronic amp; Information Engineering, Xi’an Jiaotong University, Xi’an 710049, China)
Abstract:Most of the existing virtual network mapping algorithms rely on manual rules to sort nodes and determine the sequence of node mapping so as to optimize node mapping and improve the success rate of virtual network requests. In the link mapping stage, it generally uses the breadth-first search algorithm, ignoring the strong correlation between node resources and link resources, so that it can only obtain local optimal mapping results. In response to the above problems, based on the 5G multi-domain heterogeneous network environment, from the perspective of network survivability protection, this paper proposed a virtual network mapping algorithm using two-layer reinforcement learning. It applied reinforcement learning to both the node and link stages of network mapping, used the gradient strategy and back propagation method to train the network model of this paper, and used the training model of this paper to complete the mapping. The simulation results show that, compared with the comparison algorithms, the algorithm optimizes the link mapping while optimizing the node mapping, and achieves better results in the mapping success rate, long-term return rate, and node and link utilization rate.
Key words:5G multi-domain network; virtual network mapping; reinforcement learning; mapping strategy network
0 引言
伴隨著互聯網的快速發展,傳統網絡架構越來越僵化,無法高效靈活地利用網絡資源。業界普遍認為,解決網絡僵化的最優方案是網絡虛擬化[1]。網絡虛擬化是對網絡資源進行抽象、分配、隔離的一種機制,可以實現多個虛擬網絡同時共享單個物理網絡的目的。虛擬網絡(virtual network,VN)可以根據用戶的不同需求完成對底層資源的合理劃分,從而為用戶提供最優的服務[2]。在網絡虛擬化的環境中,基礎設施提供商(infrastructure provider,InP)負責管理物理網絡(substrate network,SN)的資源,服務提供商(service provider, SP)通過各自租用InP的資源來構建自己的虛擬網絡[3]。虛擬網絡技術使得在同一個物理網絡上可以生成多個虛擬網絡,或將不同的物理網絡相互連接,形成跨域的虛擬網絡[4]。這些虛擬網絡可以獨立地進行部署和管理并且互相并不干擾。在這種靈活的多層架構中,InP面臨的問題是如何有效地管理物理網絡資源,盡可能地服務更多的虛擬網絡請求(virtual network request,VNR),從而獲取最大收益[5]。事實上,InP必須在線確定物理節點和鏈路的需求資源(計算能力、鏈路帶寬)來完成一組有約束條件的VNR。在網絡虛擬化問題中,最大的挑戰就是多個VN之間如何高效地共享SN資源[6]。虛擬網絡映射算法(virtual network embedding,VNE)的好壞將直接決定SN的利用率和InP的長期收益。眾多學者也相繼提出了啟發式VNE算法[7]和基于機器學習的VNE算法[8,9],合理化利用節點和鏈路資源。
然而啟發式算法缺乏有效的迭代終止條件,對收斂速度要求較高,時間復雜度較高,面對復雜問題不能及時解決[10]。但面對接收到的大量數據,機器學習可以進行及時有效的處理,完成對信息的分類或預測。強化學習作為機器學習領域中的典型應用,在面對復雜任務時展現出巨大潛力[11]。強化學習借助agent以試錯的方法來與環境進行交互信息,尋找最佳方案,以達到agent獲得最大收益的目的[12]。目前已有一些機器學習的方法應用在虛擬網絡映射中,并取得突破性的進展。文獻[13]提出了蒙特卡羅樹算法,把兩階段法中節點映射的決策視為馬爾可夫決策過程,當VNR到來時,使用搜索樹進行決策,并且可以根據VNR到來的繁忙程度,動態地調整算法復雜度,尋求最佳方案。文獻[14]將神經網絡算法引入了虛擬網絡映射問題,提出了一種基于人工神經網絡的系統來更加靈活地使用資源。通過將物理節點和鏈路轉換為人工智能神經網絡,輸入底層網絡資源狀態,輸出決策結果,之后再通過強化學習的誤差函數來優化人工神經網絡的輸出結果,完成整個映射過程;但該算法只探究了單域的情況,而忽略了多域的虛擬網絡。Blenk等人[15]等提出使用循環神經網絡預測虛擬網絡請求能否成功。Yao等人[10]提出基于強化學習的映射算法,使用策略網絡自動調整節點映射中的參數,輸入底層節點的特征矩陣,輸出各物理節點的映射概率,用廣度優先搜索算法完成鏈路映射,但忽略了底層節點和鏈路資源的具有強相關性的特點。
綜上所述,現有的大多數虛擬網絡映射算法都是基于核心網的單域映射算法,以長期收益率和映射成功率為目標,很少關注5G多域異構網絡和虛擬網絡映射的可生存性的問題,并且在可生存性方面大多都是從故障發生后的恢復方面入手,而恢復需要在故障發生后重新計算映射路徑,需要較多時間。事實上,在故障發生前的部署階段,對映射的結果極為重要。本文提出了雙層強化學習的網絡映射算法,從虛擬網絡映射的可生存性的保護角度出發,將強化學習同時應用于節點映射和鏈路映射,使用梯度策略和反向傳播的方式對模型進行訓練,在優化節點映射的同時優化鏈路映射,從而得到更優的映射結果。
1 多域異構網絡模型
考慮到網絡規模大、網絡異構等因素,網絡控制系統需要分域控制,根據地域、功能域等因素劃分網絡實現分域控制。如圖1所示,本文基于5G多域異構網絡環境中,底層網絡的資源和基礎設施的拓撲信息是能否完成映射的關鍵。其中底層網絡節點分為無線接入網絡節點、傳輸網節點、核心網絡節點。將底層網絡構建成一個無向圖GS=(NS,IS,ASN,ASL),其中NS和IS分別表示底層網絡節點和鏈路的集合。為了便于建立模型和仿真,網絡資源抽象描述為節點和鏈路資源。其中ASN和ASL表示所有底層節點和鏈路屬性。使用無向圖GV=(NV,LV,CVN,CVL)來表示一個VNR,其中NV和LV表示VNR的節點和鏈路的集合,CVN和CVL表示節點屬性和鏈路屬性。當一個VNR到來時,底層網絡資源必須大于該請求所需資源,即CVL(NV,LV)→GS(NS,LS),且NV∈NS、LV∈LS。圖1簡單地表示了一個完整的VNR映射圖。最底層是5G多域異構網絡實體,其中無線接入網域由龐大的終端用戶、物聯網設備、無線網基站等構成。傳輸網負責將網元數據傳送到另一個網元上,采用光纖直連、波分復用和光傳輸網等技術將無線接入網和核心網連接,具有高級別的帶寬。核心網由交換機、路由設備和數據中心組成,具有較高的計算能力。
2 基于強化學習高可靠性多域虛擬網絡映射算法
2.1 雙層強化學習映射算法流程
本文所提出的SDRL-VNE算法屬于兩階段法,整體算法框框架如圖2所示。主要分為三個步驟:a)節點映射階段采用強化學習模型,根據輸入的訓練集VNRs和底層網絡完成映射,訓練好節點映射策略網絡;b)鏈路階段采用強化學習模型,將訓練好的節點映射策略網絡的輸出結果輸入鏈路映射策略網絡,完成映射,訓練好鏈路映射策略網絡;c)根據訓練好的節點和鏈路強化學習模型直接對在線VNR完成映射,輸出完整的映射結果。
2.2 節點映射
在節點映射階段,引入強化學習RLN-model模型來訓練節點策略網絡。算法將節點的映射建模成一個馬爾可夫決策過程,使用強化學習的技術優化節點映射。算法整體框架如圖3所示。
2.2.1 提取環境特征值
強化代理對底層資源的全面了解是網絡能否高效完成映射的關鍵,本文算法共提取五個全局拓撲特征,用來準確地表述節點當前的狀態,用所有節點的特征向量組成全局節點的特征狀態矩陣,描述底層網絡資源的狀態,輸入強化學習模型進行映射。節點的特征如下:
a)節點的CPU。節點的計算能力CPU 是節點最重要的特征,具有高計算能力的節點能處理更多的任務。用CPU(nsk)表示底層第k個節點所剩余的計算能力。
b)相鄰鏈路的帶寬和。每個資源節點都相鄰一個或多個鏈路。用BW(nsk)表示底層第k個節點相連可用鏈路的帶寬和。
BW(nsk)=∑ls∈L(nsk)BW(ls)(1)
c)節點的度。節點的度表示與它相連鏈路的個數,度越大表示與其他物理節點相連的可能性越大。用DEG(nsk)表示物理網絡上第k個節點的度。其中Degree(nsk)表示節點nsk相鄰鏈路總數,m表示底層物理節點總數。
DEG(nsk)=Degree(nsk)m-1(2)
d)映射節點間相對距離。VNR進行節點映射時,選取一個合理地理位置的節點進行映射,避免選路徑較遠的節點作為待映射節點,可以有效減少鏈路中轉發節點的個數,降低鏈路的帶寬成本,更加合理地利用底層資源。其中|Ns|代表VNR中已被映射的虛擬節點所在的物理節點。
DS(nsk)=∑ns∈NsSP(nsk,ns)|Ns|+1(3)
e)特征向量中心性。一個節點的重要程度跟隨其相鄰節點的重要程度變化而變化,即一個節點連接點的節點越重要,該節點也越重要。
EG(nsk)=1λ∑i∈M(nsk)EG(nsi)(4)
用提取到的五個節點特征來描述節點的狀態,然后對特征值進行0-1的最大最小歸一化處理,去除奇異的樣本數據,求得X′。
X′=X-XminXmax-Xmin(5)
用Vk來表示第k個物理節點的特征向量。
Vk=(CPU(nsk),BW(nsk),DEG(nsk),DS(nsk)EG(nsk))T(6)
用所有的物理節點Vk構建底層物理節點的狀態矩陣Mf。
Mf=(v1,v2,…,vn)T(7)
2.2.2 節點映射策略網絡
VNE問題的狀態空間為連續值,所以本文構建節點映射策略網絡,引入強化學習中的基于策略的方法,使用代理來優化整個訓練模型。策略網絡包含input層、conv層、softmax層、filter層和output層,如圖4所示。使用策略網絡來為待映射的虛擬節點選擇物理節點。
在輸入層,計算底層網絡節點的特征矩陣并傳入卷積層,在卷積層中對矩陣進行卷積運算,生成一個向量表示每個物理節點的可用資源hk。
hk=a.Vk+b if a.Vk+bgt;0
0otherwise(8)
其中:hk表示卷積的第k個輸出;a是權重向量;b是偏置項。在softmax層中將hk轉換成每個物理節點被選擇的概率,選取高概率節點進行映射,得到更優的映射結果。概率Pk的計算公式如下:
Pk=ehk∑iehi(9)
對于那些不滿足映射基本規則的節點在過濾層中進行過濾,篩選出來具有足夠計算資源節點,并在輸出層重新計算概率分布,輸入結果如下:
P=(p1,p2,…,pn)(10)
2.2.3 獎賞函數
強化學習模型使用無監督的方式,訓練集中的數據沒有標簽,僅依靠代理的獎勵來判斷模型是否正常工作。大的獎勵表示當前選擇的動作有效,應該保持;小的獎勵甚至于懲罰表明代理當前的選擇動作是錯誤的,應及時修改。因此,獎勵函數的選擇至關重要,直接決定訓練過程和最終結果。本文將映射收益和成功率作為目標,設置如下獎勵函數:
Re=RE(nk)α.C(nk)+β.AR(nk) if VNR is mapped
0otherwise (11)
如果當前策略能得到較高的收益比,說明映射是有效的,如果得不到可行的方案,那么返回值將是0,在后續學習中持續進行調整。其中,RE(nk)表示虛擬網絡的收益;C(nk)表示映射時占用的成本;AR(nk)表示映射的成功率;α、β為系數,經過多次訓練可知,應將α、β值分別設為0.7和0.3。
2.2.4 訓練節點映射策略網絡模型
本文使用梯度策略法(policy gradients)來訓練多域網絡中節點映射策略網絡。在策略網絡中引入一個手工制作的標簽來臨時考慮強化學習代理作出的每個決策是否正確。假設選擇第k個多域物理網絡中的節點,則策略網絡中手工制作的標簽將是一個向量yk ,除第k個是1,其余皆為0。交叉熵損失函數L(y,p)如式(12)所示。
L(y,p)=-∑k(yk log (pk))(12)
其中:yk、pk分別為手工標簽的第k個節點和策略網絡的輸出。同時采用小批量梯度下降法來動態更新策略網絡參數。在迭代中選擇batch_size個樣本數完成一次更新,并引入參數α來調整梯度的大小和訓練的計算速度。梯度太小會使模型難以收斂,梯度太大會導致模型不穩定,并且難以改善結果。經過參數調優將α和batch_size設為0.05和100。算法1給出了基于強化學習的節點映射策略網絡模型的訓練過程。
算法1 節點映射策略網絡算法
輸入:物理網絡Gs;訓練集VNRs;迭代次數Num。
輸出:訓練好的節點映射策略網絡;網絡參數a、b。
初始化節點映射策略網絡參數a、b。
while iterationlt;Num do
count=0
for vnr∈VNRs do
for nv∈vnr do
特征矩陣初始化
for nsk∈Gs do
Vk=(CPU(nsk),DEG(nsk),BW(nsk),DS(nsk))T
end for
特征矩陣數據歸一化處理
根據策略網絡輸出選概率選節點
更新物理網絡資源
end for
if nv∈vnr is Mapped then
bfs_LinkMap(vnr)
end if
if VNR successfully Mapped then
reward=RE(nk)/(a.c(nk)+b.AR(nk))
computeGradient(reward)
end if
counter++
end for
iteration++
end while
2.3 鏈路映射
與節點映射強化學習模型相似,本文為鏈路映射節點引入RLL-model強化學習模型,算法整體框架如圖5所示。模型的輸入是已經訓練好的節點映策略網絡輸出的節點映射方案。
2.3.1 提取環境特征值
鏈路和節點特征值提取的方法略有不同,因為不能簡單地對鏈路直接提取特征值,一條虛擬網絡鏈路并不是由單一的物理網絡完成映射,有可能是由一個或多個物理鏈路組成。所以為使代理高效地選擇物理路徑,算法需提前計算物理網絡中所有節點對之間的互通鏈路的路徑作為策略網絡的輸入。本文對物理鏈路提取以下兩個特征:
a)帶寬。兩節點之間最小可用鏈路帶寬值,用BW(lsj)表示。其中,l∈lsj表示物理路徑上第j條物理路徑上所有物理鏈路。
BW(lsj)=minl∈lsj(bw(l))(13)
b)鏈路的度。以經過某鏈路的最短路徑數目來度量鏈路重要性的指標,用BE(lsj)表示物理網絡上第j條物理路徑的度。其中,Sl表示經過鏈路l的最短路徑數,Sall為所有最短路徑數目。
BE(lsj)=∑l∈lsjslsalllen(lsj)-1(14)
lj=(BW(lsj),BE(lsj))T(15)
提取物理路徑特征值后進行0-1之間歸一化處理,即可得到鏈路的特征向量lj,構造鏈路狀態矩陣Mf。
Mf=(l1,l2,…,ln)T(16)
2.3.2 鏈路映射策略網絡
在鏈路映射階段構同樣建立鏈路映射策略網絡,同樣由五層組成。輸入鏈路狀態矩陣Mf,輸出每個物理路徑被選擇的概率。策略網絡每層的作用與節點策略網絡一致,不再贅述。
2.3.3 訓練鏈路映射策路網絡模型
在鏈路映射策略網絡中同樣適用梯度策略法對網絡進行訓練,使用相同的函數作為獎賞函數,模型中的參數batch-size和α不變,依舊為100和0.05。算法2給出了基于強化學習的鏈路映射策略網絡模型的訓練過程。
算法2 鏈路映射策略網絡
輸入:物理網絡Gs;訓練集VNRs;迭代次數Num。
輸出:訓練好的鏈路映射策略網絡。
初始化節點映射策略網絡參數a、b
while iterationlt;Num do
count=0
for vnr∈VNRs do
node_map with node
if nv∈vnr is mapped then
for lv∈vnr do
鏈路特征矩陣初始化
for lsJ∈all_simple_path(Gs) do
lj=(BW(lsj),BE(lsj))T
end for
特征矩陣數據歸一化
path=random_select(R)
end for
if VNR successfully mapped then
reward=RE(nk)/(a.c(nk)+b.AR(nk))
computeGradient(reward)
end if
counter++
end if
end for
iteration++
end while
2.4 SDRL全局虛擬網絡映射算法
基于以上訓練好的節點和鏈路策略網絡,提出基于雙層強化學習的生存性映射算法(SDRL-VNE),該算法分別在節點和鏈路映射階段使用訓練好的策略網絡,動態地完成整個映射過程,輸出全局的最優的虛擬網絡映射方案。相比較于人工規則的節點貪心算法和鏈路廣度優先搜索算法,每次定制一系列的規則和假設,簡單的數學計算得出映射方案。本文算法通過智能體與環境交互,利用獎勵學習最優映射機制,動態地進行反饋,能有效地發現物理網絡的表示和虛擬網絡請求之間的關系,從而高效地完成虛擬網絡映射。仿真結果表示,本文算法遠優異于人工規則的節點貪心和鏈路路徑最短的虛擬網絡映射算法。
算法3 基于強化學習多域高可靠性虛擬網絡映射算法
輸入:物理網絡Gs;虛擬網絡請求Gv;節點和鏈路映射策略網絡。
輸出:完整的映射方案。
for nv∈Nv do
狀態矩陣初始化
for nsk∈Gs do
Vk=(CPU(nsk),DEG(nsk),BW(nsk),DS(nsk))T
end for
特征矩陣Mf數據歸一化
ns=maxProbablity(p)
nodep ←nodep+{(nv,ns)}
end for
if nv∈Nv is mapped then
for lv∈LV do
狀態矩陣初始化
for lsj∈all_simple_path(Gs) do
lj=(BW(lsj),BE(lsj))T
end for
特征矩陣Mf數據歸一化
path=maxProbablity(R)
linkmap←linkmap +{(lv,paths)}
end for
if lv∈LV is mapped then
更新映射方案
return MR
else
return failure
end if
else
return failure
end if
3 仿真與性能評估
3.1 實驗環境配置
實驗環境設置在Windows 10下,使用強化學習框架Tensor Flow 2.0[16]在anaconda環境下進行仿真結果分析。使用Transit-Stub[17]模型來生成底層物理網絡來確保仿真環境能模擬多域網絡環境中的接入網域、傳輸網域和核心網域。網絡生成一個30個骨干節點組成的transit域,作為流量的傳輸網絡,模擬為傳輸網域,有較高的鏈路帶寬。考慮到無線接入網的多終端用戶,生成一個包含40節點的stub模擬無線接入網域,并生成一個30節點的stub域作為核心網域,提供用戶連接、對用戶的管理以及業務完成承載。為了使網絡更加符合實際情況,域間鏈路設為500~1 000,保證域間鏈路遠高于域內鏈路。多域網絡的具體參數如表1、2所示。
3.2 仿真結果分析
為評估本文SDRL-VNE算法的性能,與全局資源整合映射算法(GRC-VNE)[4] 、蒙特卡羅樹映射算法(MCTS-VNR)[11]、節點貪心和鏈路最短路徑算法(RG-LS-VNE)[19]和強化學習映射算法(RLN-VNE)[10] 四種映射算法進行比較。GRC算法通過引入節點和鏈路資源屬性來計算節點的重要性,是經典的虛擬網絡映射算法。RG-LS是節點使用貪心算法排序進行映射,鏈路使用最短路徑算法映射,是最為常見的兩階段映射算法。本文算法與GRC和RG-LS算法比較可以體現強化學習與環境動態交互,通過獎勵函數不斷求得全局最優解的特點。RLN算法使用強化學習的方法,但僅引入節點映射策略網絡,優化了節點映射,鏈路映射仍采用BFS算法。與該算法對比,表現出本文算法關注節點與鏈路的強相關性的特點,優化鏈路映射的同時反過來優化了節點映射結果。MCTS算法將強化學習與蒙特卡羅樹搜索算法相結合,每次映射一個新請求時,將會采用蒙特卡羅樹搜索多種映射方案,之后擇優選取。與四種算法對比,可以表現出本文算法在鏈路映射時的高效性。
1)映射請求成功率 圖6表示請求映射成功率。在開始階段,四種算法的映射成功率都呈現急劇下降,因為網絡請求的到來,底層資源被快速占用,導致成功率下降。伴隨著網絡映射,底層資源逐漸減少,算法趨于穩定。在映射開始階段和平穩階段,SDRL算法的成功率都高于其他三種算法。表明本文算法使用雙層強化學習高效地完成了虛擬網絡映射全過程。在優化節點的同時優化鏈路起到了有效的作用。RG-LS算法在開始階段因使用貪心算法取得較高的成功率,但未考慮全局均衡,出現明顯上下波動,然后處于穩定狀態,成為成功率最低算法,符合實現預期結果。GRC算法在鏈路映射階段的減枝操作,在跨域網絡中表現出優勢,映射結果好于只使用節點強化學習的RLN算法。
2)長期平均收益和開銷 圖7、8分別表示長期平均收益和長期平均花銷。SDRL算法在全階段都擁有最高的收益率,因為其具有最高的映射成功率,所以獲得了最高收益。但同時該算法的長期支出是最高的,因為在虛擬網絡映射中,鏈路映射的支出遠高于節點映射。而SDRL在優化節點的同時優化了鏈路映射,為了提高映射成功率,沒有簡單地采用BFS算法,而是有可能選取較長的路徑進行映射。本文算法是高支出高收益算法,雖然增加了網絡映射成本,但確保了網絡長期高效的穩定運行,從而獲取更多的收益。
3)節點和鏈路的平均利用率 圖9、10分別表示了節點和鏈路的平均利用率。SDRL不論是節點還是鏈路都擁有較好的資源利用率,驗證了節點映射策略網絡和鏈路映射策略網絡對映射結果的有效性。RG-LS因為鏈路映射使用最短路徑算法,從而獲得了最高的鏈路使用率,但整體映射結果一般。SDRL和RLN算法使用相同的節點映射策略網絡,但SDRL的節點資源利用遠高于RLN。這表明,雙重強化學習的鏈路階段在優化鏈路階段的同時優化了節點映射的策略,再次證明了雙層強化學習優化了全局虛擬網絡映射的結果。
4 結束語
本文研究了在5G多域異構網絡環境下虛擬網絡映射的可生存性問題,提出了一種基于雙層強化學習的虛擬網絡映射算法。此算法通過提取底層資源的特征值構造特征向量,組成狀態矩陣,將狀態矩陣分別輸入對應節點和鏈路映射策略網絡,輸出映射結果。仿真結果表明,在多域異構的環境下,SDRL算法性能優于對比算法,提高了映射成功率和底層網絡的資源利用率。然而由于本文僅從可生存性的部署角度出發,未考慮故障的恢復,所以下一步將重點考慮虛擬網絡映射的故障恢復。
參考文獻:
[1]曹浩彤.網絡虛擬化環境下虛擬網絡映射算法研究[D].南京:南京郵電大學,2020.(Cao Haotong. Research on virtual network mapping algorithm under network virtualization environment[D].Nanjing:Nanjing University of Posts and Telecommunications,2020.)
[2]趙國繁,唐倫,胡彥娟,等.面向可靠性的5G網絡切片重構及映射算法[J].電子與信息學報,2020,42(6):1478-1485.(Zhao Guofan, Tang Lun, Hu Yanjuan, et al. Reconstruction and mapping algorithm for reliability-oriented 5G network slicing[J].Journal of Electronics and Information Technology,2020,42(6):1478-1485.)
[3]Fischer A, Botero J F, Beck M T, et al. Virtual network embedding:a survey[J].IEEE Communications Surveys amp; Tutorials,2013,15(4):1888-1906.
[4]吳怡.多域虛擬網絡映射算法研究[D].北京:北京郵電大學,2020.(Wu Yi. Research on multi-domain virtual network mapping algorithm[D].Beijing:Beijing University of Posts and Telecommunications,2020.)
[5]Cao Haotong,Yang Longxiang, Liu Zeyuan.Exact solutions of VNE:a survey[J].China Communications,2016(6):48-62.
[6]黃麗萍,楊龍祥.可生存性虛擬網絡映射算法的研究[J].計算機技術與發展,2018,28(7):144-148.(Huang Liping, Yang Long-xiang. Research on survivability virtual network mapping algorithm[J].Computer Technology and Development,2018,28(7):144-148.)
[7]Bai Huifeng, Chen Wenbin, Liu Lin, et al. Dynamic fragments awareness based virtual network mapping strategy of elastic optical networks[J].Optoelectronics Letters,2021,17(7):427-431.
[8]劉光遠,徐明偉.可生存的虛擬網絡多層映射方法研究[J].電子學報,2020,48(7):1343-1347.(Liu Guangyuan, Xu Mingwei. Research on survivable multi-layer mapping method of virtual network[J].Chinese Journal of Electronics,2020,48(7):1343-1347.)
[9]劉祥如.基于可生存性的虛擬網絡映射策略的研究[D].北京:北京郵電大學,2018.(Liu Xiangru. Research on virtual network mapping strategy based on survivability[D].Beijing:Beijing University of Posts and Telecommunications,2018.)
[10]Yao Haipeng, Chen Xu, Li Maozhen et al. A novel reinforcement learning algorithm for virtual network embedding[J].Neurocompu-ting,2018,285:1-9.
[11]張博.基于強化學習的虛擬網絡映射問題的研究與實現[D].北京:北京郵電大學,2019.(Zhang Bo. Research and implementation of virtual network mapping problem based on reinforcement learning[D].Beijing:Beijing University of Posts and Telecommunications,2019.)
[12]曲樺,趙季紅,李明霞,等.一種基于深度強化學習的虛擬網絡映射方法:中國,CN110365568A[P].2019.(Qu Hua, Zhao Jihong, Li Mingxia, et al. A virtual network mapping method based on deep reinforcement learning:China,CN110365568A[P].2019.)
[13]Haeri S, Trajkovic L. Virtual network embedding via Monte Carlo tree search[J].IEEE Trans on Cybernetics,2018,48(2):510-521.
[14]Mijumbi R, Gorricho J L, Serrat J, et al. Neural network-based autonomous allocation of resources in virtual networks[C]//Proc of European Conference on Networks amp; Communications.Piscataway,NJ:IEEE Press,2014:1-6.
[15]Blenk A, Kalmbach P, Smagt P, et al. Boost online virtual network embedding: using neural networks for admission control[C]//Proc of the 12th International Conference on Network amp; Service Management.Piscataway,NJ:IEEE Press,2016:10-18.
[16]Singh P, Manure A. Introduction to TensorFlow 2.0[M]//Learn TensorFlow 20.Berkeley,CA:Apress,2020:1-24.
[17]冀汶莉,李勇軍.Transit-Stub網絡拓撲可視化研究[J].微電子學與計算機,2007,24(1):136-139.(Ji Wenli, Li Yongjun. Research on Transit-Stub network topology visualization[J].Microelectronics and Computer,2007,24(1):136-139.)