摘要:隨著軟件定義網(wǎng)絡(luò)(SDN)的興起以及機(jī)器學(xué)習(xí)方法在分類、預(yù)測以及控制任務(wù)取得的巨大成功,尋找新的流量工程(TE)技術(shù),自適應(yīng)、動(dòng)態(tài)地管理或路由網(wǎng)絡(luò)中的流量,保證服務(wù)質(zhì)量(QoS)以及提升用戶體驗(yàn)質(zhì)量(QoE)成為網(wǎng)絡(luò)研究熱點(diǎn)。首先介紹了SDN基本架構(gòu)以及SDN流量工程研究內(nèi)容及目標(biāo);其次分析了監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)在SDN流量工程中的應(yīng)用,分析已有算法的優(yōu)劣;最后總結(jié)了未來研究方向及挑戰(zhàn)。
關(guān)鍵詞:軟件定義網(wǎng)絡(luò); 流量工程; 服務(wù)質(zhì)量; 體驗(yàn)質(zhì)量; 監(jiān)督學(xué)習(xí); 強(qiáng)化學(xué)習(xí)
中圖分類號:TP393文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2022)04-001-0961-07
doi:10.19734/j.issn.1001-3695.2021.09.0394
Survey of SDN traffic engineering research based on machine learning
Hao Xueyu, Lyu Guanghong
(School of Computer Science, Sichuan University, Chengdu 610065, China)
Abstract:With the rising of SDN and achieving great success of machine learning methods in classification, prediction and control tasks, to find new TE technology, manage or route the traffic in the network adaptively and dynamical, ensuring QoS and improving quality of user experience (QoE) have become the focus of network research. Firstly, this paper introduced the basic structure of SDN and the research content and objectives of SDN traffic engineering. Secondly, it analyzed the application of supervised learning methods and reinforcement learning in SDN traffic engineering, and analyzed the advantages and disadvantages of existing algorithms. Finally, it summarized the future research directions and challenges.
Key words:software defined network(SDN); traffic engineering(TE); quality of service(QoS); quality of experience(QoE); supervised learning; reinforcement learning
0引言
隨著物聯(lián)網(wǎng)、云計(jì)算以及5G的發(fā)展,接入網(wǎng)絡(luò)的節(jié)點(diǎn)不斷增加,網(wǎng)絡(luò)傳輸速率也不斷增長,各種新型應(yīng)用不斷涌現(xiàn),網(wǎng)絡(luò)流量呈指數(shù)級增長,使得網(wǎng)絡(luò)不堪重負(fù),容易造成資源浪費(fèi)、網(wǎng)絡(luò)擁塞等問題。同時(shí)摩爾定律趨于失效,計(jì)算資源也變得越來越昂貴,單純利用硬件擴(kuò)容的方式已經(jīng)滿足不了如今的網(wǎng)絡(luò)需求。流量工程是一種通過動(dòng)態(tài)分析、預(yù)測和調(diào)節(jié)通過網(wǎng)絡(luò)的流量來優(yōu)化網(wǎng)絡(luò)性能的方法[1]。因此,尋找新的流量工程技術(shù),利用已有的硬件資源,自適應(yīng)、動(dòng)態(tài)地管理或路由網(wǎng)絡(luò)中的流量,保證服務(wù)質(zhì)量(QoS)以及提升高度差異化的用戶體驗(yàn)質(zhì)量(QoE)成為迫切需要解決的問題。傳統(tǒng)的數(shù)據(jù)平面和控制平面垂直集成的架構(gòu),使網(wǎng)絡(luò)設(shè)備像一個(gè)個(gè)煙囪,對策略進(jìn)行調(diào)整的唯一方法就是更改設(shè)備的配置,限制了網(wǎng)絡(luò)的可拓展性,使得網(wǎng)絡(luò)管理變得越來越復(fù)雜。SDN的出現(xiàn)解決了這一問題,它將數(shù)據(jù)平面與控制平面解耦[2],使底層的網(wǎng)絡(luò)設(shè)備只執(zhí)行數(shù)據(jù)轉(zhuǎn)發(fā)的功能,由控制器決定網(wǎng)絡(luò)流量的路徑,其集中控制的方式能夠獲得網(wǎng)絡(luò)的全局視圖[3],為更好地作出路由決策提供幫助;而且其可編程性的特點(diǎn)使網(wǎng)絡(luò)管理員能夠通過編程來定義和控制網(wǎng)絡(luò),這些都為流量工程的實(shí)施提供了有力的條件。然而,傳統(tǒng)的流量工程技術(shù)在SDN中并不適用。傳統(tǒng)基于靜態(tài)鏈路權(quán)重[4]的流量工程技術(shù)(如OSPF)使用最短路徑路由網(wǎng)絡(luò)中的流量,策略不夠靈活,并且沒有考慮鏈路的可用帶寬,會使網(wǎng)絡(luò)中大量流經(jīng)過同一條鏈路,從而造成網(wǎng)絡(luò)擁塞。另外,基于標(biāo)簽交換技術(shù)(MPLS)[5]的流量工程使用隧道技術(shù)能夠提供流量的顯式路由,但其控制平面太過復(fù)雜,限制了其擴(kuò)展性,很少部署在真實(shí)的網(wǎng)絡(luò)中。基于數(shù)學(xué)模型的解決方案曾廣泛用于SDN流量工程問題,但是隨著網(wǎng)絡(luò)規(guī)模的增大,計(jì)算復(fù)雜度呈指數(shù)級增長。也有很多研究者使用啟發(fā)式算法尋找問題的可行解[6,7],但由于網(wǎng)絡(luò)場景復(fù)雜多變,很難找到通用的模型,并且大多數(shù)算法無法保證收斂速度,還很容易陷入局部最優(yōu)的情況。
近年來,機(jī)器學(xué)習(xí)迅猛發(fā)展,在數(shù)據(jù)處理和組合優(yōu)化方面取得重大進(jìn)展[8],很多網(wǎng)絡(luò)研究者也嘗試將機(jī)器學(xué)習(xí)引入SDN流量工程的研究中[9]。一方面,SDN提供了網(wǎng)絡(luò)的全局視圖,能夠輕松獲得網(wǎng)絡(luò)的狀態(tài)和流量數(shù)據(jù),為機(jī)器學(xué)習(xí)提供了大量的數(shù)據(jù);另一方面,利用機(jī)器學(xué)習(xí)強(qiáng)大的表征能力,能夠?qū)W習(xí)不同流量模式,幫助理解復(fù)雜網(wǎng)絡(luò)環(huán)境與網(wǎng)絡(luò)服務(wù)之間的關(guān)系,從而動(dòng)態(tài)地管理路由網(wǎng)絡(luò)中的流量。最后,將深度學(xué)習(xí)強(qiáng)大的表征能力與強(qiáng)化學(xué)習(xí)強(qiáng)大的環(huán)境交互能力同SDN存在的反饋控制循環(huán)相結(jié)合[10],使SDN控制器更加智能,通過動(dòng)態(tài)地調(diào)整網(wǎng)絡(luò)策略尋找滿足目標(biāo)的網(wǎng)絡(luò)配置,使流的調(diào)度與管理更加智能化。意圖驅(qū)動(dòng)網(wǎng)絡(luò)(intent driven network,IDN)[11]是繼SDN后下一個(gè)發(fā)展方向。它是一種自動(dòng)驅(qū)動(dòng)網(wǎng)絡(luò),能夠根據(jù)網(wǎng)絡(luò)管理員的意圖自動(dòng)配置和管理網(wǎng)絡(luò),而無須關(guān)注網(wǎng)絡(luò)細(xì)節(jié)或?qū)嵤┘夹g(shù),僅需要表達(dá)自己的要求,IDN會自動(dòng)翻譯意圖并完成后續(xù)的操作。SDN是實(shí)現(xiàn)IDN的典型架構(gòu),通過將意圖翻譯為流量工程優(yōu)化目標(biāo),利用流量工程和AI技術(shù),為不同流提供差異化服務(wù),實(shí)現(xiàn)網(wǎng)絡(luò)的自動(dòng)化管理。隨著深度學(xué)習(xí)在自然語言處理方面取得巨大成功,以及深度強(qiáng)化學(xué)習(xí)在流量工程、路由優(yōu)化等方面取得顯著進(jìn)展,基于深度學(xué)習(xí)的SDN流量工程[12]有望成為IDN的重要組成部分。
1SDN流量工程概述
SDN是由美國斯坦福大學(xué)Clean-Slate課題研究組提出的一種新型網(wǎng)絡(luò)創(chuàng)新架構(gòu)[13]。SDN參考模型如圖1所示,基礎(chǔ)設(shè)施層主要由一組網(wǎng)絡(luò)設(shè)備組成,不同的是SDN中的網(wǎng)絡(luò)設(shè)備只進(jìn)行數(shù)據(jù)轉(zhuǎn)發(fā)功能,沒有嵌入式控制或軟件來支持自我決策??刂破矫嫱ㄟ^南向接口實(shí)現(xiàn)對底層設(shè)備的控制,通過北向接口向上層提供網(wǎng)絡(luò)數(shù)據(jù)。管理員可以通過應(yīng)用層編程實(shí)現(xiàn),諸如流量工程、網(wǎng)絡(luò)虛擬化等網(wǎng)絡(luò)服務(wù)。
通信網(wǎng)絡(luò)的基本目的是將一個(gè)信息從一個(gè)節(jié)點(diǎn)傳輸?shù)搅硪粋€(gè)節(jié)點(diǎn)。在傳統(tǒng)網(wǎng)絡(luò)中,控制平面和數(shù)據(jù)平面是結(jié)合在一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)中,因此一旦定義了轉(zhuǎn)發(fā)策略,對策略進(jìn)行調(diào)整的唯一方法就是更改設(shè)備的配置;網(wǎng)絡(luò)提供盡力而為的服務(wù),只能進(jìn)行粗粒度的網(wǎng)絡(luò)管理,而且可擴(kuò)展性差。隨著服務(wù)為中心需求的增長,SDN應(yīng)運(yùn)而生,SDN將控制權(quán)由各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)移出并轉(zhuǎn)移到單獨(dú)的集中控制器中。控制器利用網(wǎng)絡(luò)的全局視圖來優(yōu)化流量管理并支持服務(wù)用戶對可拓展性和靈活性的要求。在SDN中,一旦新流的第一個(gè)數(shù)據(jù)包從發(fā)送方到達(dá)交換機(jī)(數(shù)據(jù)平面),交換機(jī)就會在SDN緩存中檢查該數(shù)據(jù)包的流規(guī)則。如果找到匹配條目,則執(zhí)行與特定流條目相關(guān)聯(lián)的指令(例如更新計(jì)數(shù)器、數(shù)據(jù)包/匹配字段、動(dòng)作集、元數(shù)據(jù)),然后將數(shù)據(jù)包轉(zhuǎn)發(fā)到接收器;如果在流表中找不到匹配項(xiàng),則可以通過安全通道將數(shù)據(jù)包轉(zhuǎn)發(fā)到控制器。通過使用南向API(例如OpenFlow),控制器可以被動(dòng)地(響應(yīng)數(shù)據(jù)包)和主動(dòng)地添加、更新和刪除流條目;控制器執(zhí)行路由算法,并將新的轉(zhuǎn)發(fā)表項(xiàng)添加到交換機(jī)中的流表以及沿流路徑的每個(gè)相關(guān)交換機(jī)中;然后交換機(jī)將數(shù)據(jù)包轉(zhuǎn)發(fā)到適當(dāng)?shù)亩丝谝詫?shù)據(jù)包發(fā)送到接收器。
SDN的實(shí)施為服務(wù)創(chuàng)新開辟了途徑。通過全局網(wǎng)絡(luò)視圖,使動(dòng)態(tài)拓?fù)淇刂疲锤鶕?jù)負(fù)載和流量映射調(diào)整交換機(jī)使用)成為可能。此外,SDN的網(wǎng)絡(luò)可編程性允許從硬件到軟件,最終到最終用戶(網(wǎng)絡(luò)運(yùn)營商)的各個(gè)層面進(jìn)行無縫通信??删幊绦允箲?yīng)用程序了解網(wǎng)絡(luò),并使網(wǎng)絡(luò)了解應(yīng)用程序,這極大地改善了資源的使用,并開辟了具有相關(guān)創(chuàng)收潛力(例如,流量計(jì)量)的新應(yīng)用,如可以基于服務(wù)提供水平來定義成本計(jì)劃。SDN轉(zhuǎn)發(fā)與控制分離的架構(gòu)不僅使網(wǎng)絡(luò)實(shí)現(xiàn)可視化,還提升了網(wǎng)絡(luò)的拓展性與靈活性,有助于網(wǎng)絡(luò)的細(xì)粒度管理,其可編程能力拓展與創(chuàng)新了網(wǎng)絡(luò)功能??梢哉fSDN給流量工程的實(shí)現(xiàn)帶來了新的機(jī)遇和挑戰(zhàn)。
1.1SDN流量工程優(yōu)化目標(biāo)
流量工程(TE)是一種通過動(dòng)態(tài)分析、預(yù)測和調(diào)節(jié)通過網(wǎng)絡(luò)的流量來優(yōu)化網(wǎng)絡(luò)性能的方法。隨著網(wǎng)絡(luò)的發(fā)展,TE也在不斷發(fā)展。在20世紀(jì)流行的ATM網(wǎng)絡(luò)中,TE主要用來解決擁塞控制問題;IP網(wǎng)絡(luò)中用來優(yōu)化路徑上的流量,針對IP網(wǎng)絡(luò)中的限制,進(jìn)一步提出通過MPLS實(shí)現(xiàn)更有效的流量管理,但是MPLS控制層太過復(fù)雜。SDN的控制平面和數(shù)據(jù)平面分離以及可編程性的特征為TE注入新的活力,成為SDN研究的重點(diǎn)。早在2009年,斯坦福大學(xué)開發(fā)了一個(gè)支持Web流量的負(fù)載平衡應(yīng)用程序(plug-n-serve)[14],控制器通過使用定制的流路由控制網(wǎng)絡(luò)和服務(wù)器上的負(fù)載來最小化響應(yīng)時(shí)間。
2012年,谷歌宣布其主干網(wǎng)絡(luò)已經(jīng)全面運(yùn)行在OpenFlow上,并且通過10G網(wǎng)絡(luò)連接分布在全球各地的12個(gè)數(shù)據(jù)中心,使廣域網(wǎng)線路的利用率從30%提升到接近100%。
2015年,以美國電話電報(bào)公司(ATamp;T)、英國電信、德國電信、中國移動(dòng)、中國聯(lián)通、中國電信為代表的移動(dòng)網(wǎng)絡(luò)運(yùn)營商加速向基于軟件定義和網(wǎng)絡(luò)功能虛擬化的基礎(chǔ)設(shè)施轉(zhuǎn)型。
同時(shí)受益于SDN核心技術(shù)迭代更新,SDN將呈現(xiàn)多元化發(fā)展,助力網(wǎng)絡(luò)行業(yè)優(yōu)化升級。據(jù)估計(jì),至2023年中國SDN行業(yè)銷售規(guī)模有望突破2 500億元,2019—2023年期間的年均復(fù)合增長率將達(dá)58.5%[15]。
利用SDN流量工程可以在復(fù)雜的網(wǎng)絡(luò)環(huán)境中自適應(yīng)、動(dòng)態(tài)地管理路由網(wǎng)絡(luò)中的流量,以適應(yīng)不同的流量模式,提高網(wǎng)絡(luò)的效率和性能,保證高質(zhì)量的網(wǎng)絡(luò)服務(wù)質(zhì)量。與傳統(tǒng)盡力而為、不能保證服務(wù)質(zhì)量的傳統(tǒng)IP路由不同,SDN流量工程擁有許多優(yōu)化目標(biāo),經(jīng)調(diào)查,其優(yōu)化目標(biāo)分為兩類,如圖2所示。
面向業(yè)務(wù)的優(yōu)化目標(biāo)與業(yè)務(wù)流的特性相關(guān),主要包括端到端延遲最小化、丟包最少、抖動(dòng)最小、吞吐量最大化等QoS指標(biāo),以及對服務(wù)等級協(xié)定(service level agreement,SLA)[14]增強(qiáng)等。面向資源的優(yōu)化目標(biāo)與帶寬和能源的利用率相關(guān),主要包括最大鏈路利用率最小化、擁塞最小化、能源消耗最小化以及負(fù)載均衡[16,17]等。
1.2SDN流量工程研究內(nèi)容
研究表明,SDN為網(wǎng)絡(luò)部署提供了一種方便有效的方法來進(jìn)行流量工程,并且能夠很大程度上提高了網(wǎng)絡(luò)性能[18,19]。根據(jù)SDN節(jié)點(diǎn)部署的范圍,將SDN流量工程分為全局流量工程和增量流量工程。
增量流量工程是指網(wǎng)絡(luò)中部分節(jié)點(diǎn)為SDN節(jié)點(diǎn),由于技術(shù)和商業(yè)的原因,現(xiàn)實(shí)中很難全部部署SDN節(jié)點(diǎn)。作為SDN網(wǎng)絡(luò)的過渡階段,基于SDN/IP混合網(wǎng)絡(luò)流量工程研究具有很大的現(xiàn)實(shí)意義。2013年,Agarwal等人[18]開發(fā)的全多項(xiàng)式時(shí)間近似方案(FPTAS)解決了部分部署的流量工程問題,通過建立精確的數(shù)學(xué)模型,利用已有的近似算法確定節(jié)點(diǎn)位置與路徑選擇。實(shí)驗(yàn)證明,該方法能顯著提高網(wǎng)絡(luò)吞吐量、延遲等性能。
全局流量工程是指網(wǎng)絡(luò)中的所有節(jié)點(diǎn)都為SDN節(jié)點(diǎn)。由于不需要考慮SDN節(jié)點(diǎn)個(gè)數(shù)與位置,問題規(guī)模大大減少。Hong等人[20]在軟件定義廣域網(wǎng)(SWAN)中利用最大最小公平性原則為優(yōu)先級相同的流量分配帶寬資源。該研究表明,SWAN可以承載98%的網(wǎng)絡(luò)流量。
基于數(shù)學(xué)模型的傳統(tǒng)解決方案廣泛用于SDN流量工程問題,通過建立精確的數(shù)學(xué)模型,尋找已有的數(shù)學(xué)方法解決問題。然而,數(shù)學(xué)模型建立在一些強(qiáng)有力的假設(shè)基礎(chǔ)上,很難適應(yīng)不同的網(wǎng)絡(luò)場景。同時(shí),在復(fù)雜的網(wǎng)絡(luò)中,即使問題得到一些簡化,仍然具有很大難度。隨著機(jī)器學(xué)習(xí)的迅猛發(fā)展,很多復(fù)雜問題通過機(jī)器學(xué)習(xí)都得到了一些高性能的解決方案。很多研究者將機(jī)器學(xué)習(xí)引入SDN中,并且在智能路由[21]、異常檢測[22]等方面取得了不錯(cuò)的效果。機(jī)器學(xué)習(xí)直接從原始數(shù)據(jù)學(xué)習(xí),自動(dòng)提取特征,能夠理解輸入與輸出之間的動(dòng)態(tài)關(guān)系,有助于復(fù)雜網(wǎng)絡(luò)環(huán)境的特征抽象,從而更好地幫助網(wǎng)絡(luò)決策。另外深度學(xué)習(xí)還可以作為強(qiáng)化學(xué)習(xí)值函數(shù)或策略函數(shù)擬合器,解決了強(qiáng)化學(xué)習(xí)動(dòng)作空間只能是離散動(dòng)作的困擾。深度強(qiáng)化學(xué)習(xí)(DRL)可以實(shí)現(xiàn)無模型、端對端、狀態(tài)到動(dòng)作的高維映射關(guān)系的自學(xué)習(xí),而且不需要大量的標(biāo)注數(shù)據(jù),通過與環(huán)境交互進(jìn)行學(xué)習(xí),因此受到很多網(wǎng)絡(luò)研究者的青睞。
2基于監(jiān)督學(xué)習(xí)的SDN流量工程
監(jiān)督學(xué)習(xí)[23]是對數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的算法,利用已知輸入輸出的樣本來訓(xùn)練模型,非常善于發(fā)現(xiàn)高維數(shù)據(jù)中的復(fù)雜結(jié)構(gòu),獲得高維數(shù)據(jù)之間的特征,這是人工辦不到的。近年來,提出的基于監(jiān)督學(xué)習(xí)的SDN流量工程方法主要基于深度學(xué)習(xí),通過深度學(xué)習(xí)方法學(xué)習(xí)路由決策之間的深層關(guān)系或者網(wǎng)絡(luò)狀態(tài)數(shù)據(jù)與轉(zhuǎn)發(fā)決策之間的深層次特征,從而制定更好的轉(zhuǎn)發(fā)決策。
2.1主要深度學(xué)習(xí)方法概述
深度神經(jīng)網(wǎng)絡(luò)(DNN)[24]是最常見的深度學(xué)習(xí)模型,DNN受人腦生物學(xué)結(jié)構(gòu)的啟發(fā),由神經(jīng)元(節(jié)點(diǎn))、鏈路(權(quán)重)和激活函數(shù)(線性或非線性函數(shù))組成并通過前饋傳播和反饋傳播過程完成輸入到輸出的映射和模型參數(shù)訓(xùn)練過程。
除了DNN模型,其他深度學(xué)習(xí)模型也在SDN流量工程中得到應(yīng)用。受到逐跳路由的啟發(fā),很多研究者將流量轉(zhuǎn)發(fā)問題建模為序列預(yù)測問題。此時(shí)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[25]發(fā)揮作用,RNN可以利用內(nèi)部記憶單元來處理任意時(shí)序的輸入序列。針對流量信息的時(shí)序性和路徑信息的有序性,RNN能夠有效利用上下文信息,得到更加準(zhǔn)確的結(jié)果。典型的序列模型是序列到序列(seq2seq)[26]模型,它可以將可變長度序列編碼為固定長度編碼向量,以彌合源空間和目標(biāo)空間之間的間隙。
計(jì)算機(jī)網(wǎng)絡(luò)結(jié)構(gòu)可以用圖來表示,網(wǎng)絡(luò)拓?fù)浞从沉烁鞴?jié)點(diǎn)和邊的依賴關(guān)系。在SDN流量工程中,網(wǎng)絡(luò)的拓?fù)湫畔⑹沁M(jìn)行路徑選擇或生成的重要條件。然而普通神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì),不能概括拓?fù)湫畔?,并不是為了學(xué)習(xí)圖結(jié)構(gòu)的信息。因此,模型訓(xùn)練的結(jié)果精度往往有限。受CNN[27]和圖嵌入技術(shù)啟發(fā),圖神經(jīng)網(wǎng)絡(luò)(GNN)[28]被提出,GNN可以利用拓?fù)浣Y(jié)構(gòu)信息,從圖結(jié)構(gòu)中聚合信息,學(xué)得節(jié)點(diǎn)和邊特征的低維空間表示,可以為由元素(節(jié)點(diǎn)和邊)及其依賴性組成的輸入和輸出建模,從而完成節(jié)點(diǎn)分類、相似度等任務(wù)。已有研究表明,GNN在網(wǎng)絡(luò)建模、拓?fù)湫畔⑻幚矸矫婢哂泻艽鬂摿Γ?9]。
GNN主要有兩類模型:a)空域卷積。其中消息傳遞神經(jīng)網(wǎng)絡(luò)是一種著名的GNN框架,它應(yīng)用迭代消息傳遞算法在圖的節(jié)點(diǎn)之間傳播信息。在消息傳遞步驟中,每個(gè)節(jié)點(diǎn)K從其鄰居節(jié)點(diǎn)接收消息。對圖中節(jié)點(diǎn)對的隱藏狀態(tài)應(yīng)用消息函數(shù)m(·)生成消息,然后用一個(gè)聚合函數(shù)(如求和)聚合消息,最后使用更新函數(shù)u(·)為每個(gè)節(jié)點(diǎn)計(jì)算新的隱藏狀態(tài)。最終的節(jié)點(diǎn)狀態(tài)被讀出函數(shù)r(·)用于為給定的任務(wù)生成輸出。這三個(gè)函數(shù)都可以利用神經(jīng)網(wǎng)絡(luò)來擬合。b)譜域卷積[28],利用拉普拉斯矩陣將傳統(tǒng)的傅里葉變換與卷積遷移到圖上,實(shí)現(xiàn)拓?fù)鋱D上的卷積操作,學(xué)習(xí)拓?fù)浣Y(jié)構(gòu)的空間信息。
Mt+1k=∑i∈N(k)m(htk,hti)(1)
ht+1k=u(htk,Mt+1k)(2)
y=r(ht+1k|k∈G)(3)
2.2基于深度學(xué)習(xí)的SDN流量工程
Kato等人[30]提出了一個(gè)有監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)系統(tǒng),該系統(tǒng)基于流量特征的輸入,利用DNN對邊緣路由收集的網(wǎng)絡(luò)流量模式進(jìn)行訓(xùn)練,輸出為下一跳路由。實(shí)驗(yàn)結(jié)果表明,基于DNN的方法明顯優(yōu)于基準(zhǔn)路由方法(OSPF)。不過,該工作需要為每一個(gè)路由器訓(xùn)練多個(gè)DNN模型,開銷巨大,不管是在集中式還是分布式控制環(huán)境中都很難得到實(shí)際應(yīng)用。文獻(xiàn)[31]將路徑規(guī)劃問題建模為推斷網(wǎng)絡(luò)路徑中的節(jié)點(diǎn)序列的問題,并通過調(diào)整seq2seq模型從歷史流量轉(zhuǎn)發(fā)經(jīng)驗(yàn)中學(xué)習(xí)隱式轉(zhuǎn)發(fā)路徑。為了提高模型性能,調(diào)整了注意力機(jī)制和波束搜索以捕獲路徑中節(jié)點(diǎn)的基本順序特征并保證路徑的連通性,圖3給出了模型示意圖。模型將一系列節(jié)點(diǎn)作為輸入,并預(yù)測一系列節(jié)點(diǎn)作為目標(biāo)路徑,在節(jié)點(diǎn)受限的情況下,目標(biāo)路徑必須經(jīng)過某個(gè)或某幾個(gè)節(jié)點(diǎn)。仿真表明,該模型在節(jié)點(diǎn)受限的網(wǎng)絡(luò)路徑規(guī)劃中具有優(yōu)越性,提升了網(wǎng)絡(luò)性能,有助于提供更加細(xì)粒度的TE決策。但是,該模型忽略了拓?fù)湫畔?,不能捕獲各節(jié)點(diǎn)的空間關(guān)系。
文獻(xiàn)[32]將SDN中的路由決策問題建模為從已知網(wǎng)絡(luò)狀態(tài)到下一跳最優(yōu)路由的分類問題,提出了基于圖感知深度學(xué)習(xí)的路由決策方案(GADL),利用網(wǎng)絡(luò)路由節(jié)點(diǎn)之間的連接關(guān)系和每個(gè)節(jié)點(diǎn)的中介中心性特征,抽取每個(gè)節(jié)點(diǎn)的鄰域特征構(gòu)建圖感知算子,將輸入的網(wǎng)絡(luò)表征經(jīng)圖感知算子處理后再進(jìn)一步進(jìn)行卷積操作,最后得到轉(zhuǎn)發(fā)節(jié)點(diǎn)。該路由方案迭代地選擇轉(zhuǎn)發(fā)節(jié)點(diǎn),直到找到轉(zhuǎn)發(fā)路徑:
〈s,t〉n+1=P(〈s,t〉n,t,g)(4)
其中:s和t分別為源和目的交換機(jī);P為路由逐跳過程;〈s,t〉i=ui表示路徑上的第i個(gè)節(jié)點(diǎn);g為系統(tǒng)圖信息。實(shí)驗(yàn)證明,相比單純的DNN、RNN等神經(jīng)網(wǎng)絡(luò)模型,該方案在更少的訓(xùn)練時(shí)間內(nèi)得到更高的預(yù)測精度。
表1總結(jié)了現(xiàn)有基于深度學(xué)習(xí)的端到端SDN流量工程方案?,F(xiàn)有的研究表明,相對于傳統(tǒng)基于數(shù)學(xué)模型以及啟發(fā)式算法的流量工程技術(shù),DNN、RNN等深度學(xué)習(xí)模型能夠有效利用歷史流量或路徑信息,尋找不同流量或路徑模式輸入到轉(zhuǎn)發(fā)路徑輸出的映射關(guān)系,在網(wǎng)絡(luò)性能、準(zhǔn)確度和收斂速度方面都得到了一定的提升。此外GNN能夠概括拓?fù)湫畔?,學(xué)習(xí)非歐幾里德數(shù)據(jù)之間復(fù)雜的關(guān)系模式,能夠?qū)W習(xí)流量數(shù)據(jù)以及路徑信息的空間關(guān)系,相比普通神經(jīng)網(wǎng)絡(luò)在魯棒性以及故障適應(yīng)方面具有一定的優(yōu)勢,對于SDN流量工程的研究具有很大的潛力。然而,現(xiàn)有的深度學(xué)習(xí)模型學(xué)習(xí)主要是學(xué)習(xí)基于最短路徑的路由,缺乏對不同路由策略的學(xué)習(xí)。最后,現(xiàn)有的基于深度學(xué)習(xí)的SDN流量工程方案,在可解釋性和魯棒性方面都缺乏研究,在真實(shí)應(yīng)用的路上仍然任重而道遠(yuǎn)。
2.3基于流量分析的SDN流量工程方法
相比直接路徑生成帶來的不可解釋性和復(fù)雜性問題,基于流量分析的SDN流量工程方法利用深度學(xué)習(xí)解決優(yōu)化決策中關(guān)鍵部分,給出了決策部分所需要的關(guān)鍵信息,成為SDN流量工程的另一種解決方案。在SDN流量工程中,傳統(tǒng)基于數(shù)學(xué)模型的方法,往往需要對網(wǎng)絡(luò)環(huán)境進(jìn)行精準(zhǔn)建模,有時(shí)還需要對流量進(jìn)行分類、預(yù)測等工作來輔助決策。使用深度學(xué)習(xí)模型替代這些模塊可能會取得更好的效果。
流量分類[33]對于流量工程、容量規(guī)劃至關(guān)重要。由于可用帶寬有限,通過對流量進(jìn)行分類可以充分利用帶寬。在SDN流量工程中,ISP可以通過對數(shù)據(jù)包流進(jìn)行優(yōu)先排序來管理資源,例如對于語音、OTT服務(wù)、高清直播等對端到端性能(如延遲、抖動(dòng)、丟包等)要求較高的應(yīng)用給予高優(yōu)先級,針對不同的應(yīng)用提供合適的特定服務(wù)。傳統(tǒng)基于端口、傳統(tǒng)機(jī)器學(xué)習(xí)的流量分類方法只能對流量進(jìn)行粗粒度的分類,無法提供QoS級別的細(xì)粒度分類結(jié)果,不能滿足多樣化的服務(wù)質(zhì)量要求。
Malik等人[34]介紹了一種新的SDN應(yīng)用感知流量分類框架deep-SDN,框架中的DNN模型能夠快速、準(zhǔn)確地識別網(wǎng)絡(luò)流量應(yīng)用類型,適用于在線流量識別。仿真表明,該模型的查準(zhǔn)率、F-measure和穩(wěn)定性等指標(biāo)都優(yōu)于傳統(tǒng)分類方法。
流量預(yù)測[35]是進(jìn)行網(wǎng)絡(luò)動(dòng)態(tài)管理的關(guān)鍵技術(shù)。在SDN流量工程中,準(zhǔn)確預(yù)測未來網(wǎng)絡(luò)流量在各種網(wǎng)絡(luò)問題如擁塞控制、容量規(guī)劃、服務(wù)質(zhì)量管理等中發(fā)揮著重要作用,對實(shí)現(xiàn)動(dòng)態(tài)流量工程具有重大意義。Andreoletti等人[36]提出了一種基于圖的時(shí)空網(wǎng)絡(luò)模型,即擴(kuò)散卷積遞歸神經(jīng)網(wǎng)絡(luò)(DCRNN),來預(yù)測一個(gè)真實(shí)骨干網(wǎng)鏈路上的流量負(fù)荷。DCRNN利用RNN來建模時(shí)間依賴性,用擴(kuò)散卷積[37]來建??臻g依賴性。模型使用序列到序列架構(gòu),編/解碼器都是 DCGRU,DCGRU中是使用擴(kuò)散卷積代替GRU中的矩陣乘法。訓(xùn)練時(shí),將歷史的時(shí)間序列放到編碼器,并使用最終狀態(tài)初始化解碼器,最后由解碼器生成預(yù)測結(jié)果。研究評估了DRCNN預(yù)測短期通信量和預(yù)測擁堵事件的能力,并將該方法與其他現(xiàn)有方法(RNN、DNN等)進(jìn)行了比較。結(jié)果表明,DCRNN在預(yù)測能力和擁塞事件預(yù)測方面都優(yōu)于其他方法,為DRCNN應(yīng)用于其他網(wǎng)絡(luò)管理問題提供了良好的起點(diǎn)。DCRNN的新穎性主要在于它們在考慮圖中每個(gè)節(jié)點(diǎn)的屬性(如特征)和網(wǎng)絡(luò)結(jié)構(gòu)(如拓?fù)洌┑那闆r下學(xué)習(xí)其表示的能力,與文獻(xiàn)[32]一樣,可以證明基于圖的深度學(xué)習(xí)模型更適合網(wǎng)絡(luò)中各種任務(wù)。
在SDN中,一個(gè)經(jīng)典的優(yōu)化架構(gòu)包括網(wǎng)絡(luò)模型和優(yōu)化算法兩個(gè)元素,網(wǎng)絡(luò)模型的任務(wù)是預(yù)測特定配置結(jié)果的性能(例如延遲),優(yōu)化算法則迭代探索不同的配置,直到找到滿足優(yōu)化目標(biāo)的配置。Rusek等人[38]提出了一種基于GNN的新型網(wǎng)絡(luò)模型RouteNet,該模型能夠理解拓?fù)洹⒙酚珊洼斎肓髁恐g的復(fù)雜關(guān)系,從而準(zhǔn)確估計(jì)每個(gè)源/目的地每包的時(shí)延分布和丟包率,如圖4所示。經(jīng)分析,RoutNet模型是對消息傳遞框架的一種改進(jìn),使用固定維向量對路徑和鏈路的狀態(tài)信息進(jìn)行編碼,并根據(jù)輸入拓?fù)浜吐酚煞桨冈诼窂胶玩溌分g傳播信息。值得注意的是,對于路徑級的消息,由于某條鏈路與經(jīng)過該鏈路的路徑順序無關(guān),所以使用簡單的求和來聚合消息,但是對于鏈路級的消息,丟包可能與路徑中的鏈路順序依賴,因此使用RNN聚合路徑上的鏈路狀態(tài)信息。這種獨(dú)特的設(shè)計(jì)使得模型具有一定的可解釋性而且更加適用于QoS預(yù)測任務(wù)。從表1可以看出,使用深度學(xué)習(xí)流量分析模型輔助流量工程能夠有效提高傳統(tǒng)網(wǎng)絡(luò)性能。相較于直接路由決策、傳統(tǒng)基于數(shù)學(xué)模型或啟發(fā)式算法的流量工程方法,它更具有可解釋性,更加可靠,目前也更適合實(shí)際部署。因此,插件式模型與傳統(tǒng)方法的結(jié)合也是SDN流量工程的一種解決方案。另外,GNN在網(wǎng)絡(luò)各種任務(wù)中都表現(xiàn)出了較好的性能,通過為不同的任務(wù)設(shè)置不同的GNN聚合和更新函數(shù),使得模型具有一定的解釋性和更強(qiáng)的泛化。
3基于強(qiáng)化學(xué)習(xí)的SDN流量工程
強(qiáng)化學(xué)習(xí)(RL)[39]是一種通過與環(huán)境進(jìn)行交互來獲得最大化預(yù)期利益的機(jī)器學(xué)習(xí)算法,其基本思想是在時(shí)間點(diǎn)t時(shí)刻,智能體通過觀察狀態(tài)St,采取行動(dòng)at,獲得獎(jiǎng)勵(lì)rt以及新的狀態(tài)St+1。其要解決的問題是:智能體學(xué)習(xí)一個(gè)策略π,這個(gè)策略定義了從狀態(tài)到動(dòng)作的一個(gè)映射關(guān)系S→A,并最大化長期累積獎(jiǎng)勵(lì):
∑∞0γkrt+k+1(5)
其中:γ為折扣因子。
3.1強(qiáng)化學(xué)習(xí)方法概述
經(jīng)典的RL算法Q-learning[40]是一種值迭代算法。該算法通過Q表存儲Q值,Q值是在某一時(shí)刻狀態(tài)下采取動(dòng)作所獲得收益的期望,即累積獎(jiǎng)勵(lì)的預(yù)測值,然后根據(jù)Q值來選擇獲得較大收益的動(dòng)作并同時(shí)根據(jù)新狀態(tài)更新Q表。Q-learning利用時(shí)序差分方法更新Q值。
Q(St,At)←Q(St,At)+α(Rt+1+
λmaxaQ(St+1,a)-Q(St,At))(6)
其中:α為學(xué)習(xí)率;γ為獎(jiǎng)勵(lì)性衰變系數(shù)。
由于Q表的限制,Q-learing只能處理狀態(tài)空間和動(dòng)作空間是離散的且不能太大的問題。但在很多問題中,狀態(tài)空間維數(shù)很大,甚至可能是連續(xù)的,無法用表格來表示。于是研究者使用神經(jīng)網(wǎng)絡(luò)來擬合傳統(tǒng)強(qiáng)化學(xué)習(xí)中的值函數(shù)或策略函數(shù),創(chuàng)造了多種深度強(qiáng)化學(xué)習(xí)(DRL)模型,其中深度Q網(wǎng)絡(luò)(DQN)[41]就是Deep Mind 團(tuán)隊(duì)使用神經(jīng)網(wǎng)絡(luò)替代Q表提出的一種新型DRL模型。DQN使用基于監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)來近似Q值,使用均方差來進(jìn)行訓(xùn)練:
L(w)=E[(r+γmaxa Q(s′,a′,w)-Q(s,a,w))2](7)
其中:w為神經(jīng)網(wǎng)絡(luò)參數(shù)。與Q-learning一樣,DQN使用貪婪策略選擇動(dòng)作,即Q值較大的動(dòng)作。此外,DQN還利用了經(jīng)驗(yàn)回放機(jī)制來打破訓(xùn)練數(shù)據(jù)之間的相關(guān)性,使模型結(jié)果更加精確。
與值函數(shù)對應(yīng)的是策略函數(shù),通過策略梯度的方法直接優(yōu)化策略函數(shù),也是一種強(qiáng)化學(xué)習(xí)方法。為了進(jìn)一步優(yōu)化策略函數(shù),actor-critic框架被提出,通過預(yù)測Q值來評估策略價(jià)值,進(jìn)一步優(yōu)化策略函數(shù)。由于DQN只能處理動(dòng)作離散的問題,又有研究者將策略函數(shù)和值函數(shù)都用神經(jīng)網(wǎng)絡(luò)替代,結(jié)合actor-critic框架提出了深度確定性策略梯度算法(DDPG)[42],其中critic網(wǎng)絡(luò)損失函數(shù)與DQN一致,actor網(wǎng)絡(luò)則為
θuJ≈∑iaQ(S,a|θQ)|s=si,a=u(si)θuu(s|θu)|si(8)
其中:θ為網(wǎng)絡(luò)參數(shù);u(·)為策略函數(shù)。
近年來,針對策略梯度更新問題,即如何找到新的策略使得新的回報(bào)函數(shù)值單調(diào)不減,研究者提出了信賴域策略優(yōu)化(TRPO)算法[43],TRPO是將目標(biāo)函數(shù)進(jìn)行一階近似,約束條件利用泰勒進(jìn)行二階展開,然后利用共軛梯度的方法求解最優(yōu)的更新參數(shù)。然而當(dāng)策略選用深層神經(jīng)網(wǎng)絡(luò)表示時(shí),TRPO的計(jì)算量會非常大,因?yàn)楣曹椞荻确ㄐ枰獙⒓s束條件進(jìn)行二階展開,二階矩陣的計(jì)算量非常大。近端策略優(yōu)化方法(PPO)[42]是TRPO的一階近似,可以應(yīng)用到大規(guī)模的策略更新中。針對策略梯度算法更新速度慢,研究者又提出了使用克羅內(nèi)克因子信任區(qū)域的AC(ACKTR)算法,利用自然策略梯度更新參數(shù)。
經(jīng)過調(diào)查,根據(jù)動(dòng)作空間的設(shè)計(jì),SDN流量工程主要分為基于流的解決方案、基于鏈路的解決方案以及其他解決方案。
3.2基于鏈路的解決方案
基于鏈路的解決方案使用DRL來調(diào)整網(wǎng)絡(luò)中的鏈路權(quán)重,然后使用加權(quán)最短路徑算法來調(diào)整流量的路由路徑,這是目前使用最廣泛的一種解決方案。Sun等人[44]提出了一種基于DRL的智能網(wǎng)絡(luò)控制體系結(jié)構(gòu)(TIDE),結(jié)合SDN架構(gòu),使用AI平面動(dòng)態(tài)調(diào)整路由策略。控制器將收集的網(wǎng)絡(luò)狀態(tài)信息發(fā)送給AI平面的智能代理(DDPG),智能代理利用RNN捕獲流量狀態(tài)信息的時(shí)序特征并輸出鏈路權(quán)重值,通過北向接口發(fā)送給控制器,控制器通過計(jì)算生成路由策略并下發(fā)流規(guī)則,再收集新的網(wǎng)絡(luò)狀態(tài)信息。通過收集—決策—調(diào)整環(huán)路來實(shí)現(xiàn)智能網(wǎng)絡(luò)控制。實(shí)驗(yàn)證明,該方案優(yōu)于傳統(tǒng)的最短路徑路由,并能夠最小化網(wǎng)絡(luò)延遲,提升整體的網(wǎng)絡(luò)性能。
3.3基于流的解決方案
基于流的解決方案使用DRL調(diào)度每個(gè)端到端流,動(dòng)作空間為多徑分流比。Xu等人[45]提出了一種新穎而高效的基于DRL的控制框架(DRL-TE)來解決TE問題。DRL-TE為每個(gè)端到端通信會話分配三個(gè)候選路徑,并使用DRL來決定每個(gè)流在這三個(gè)路徑上的比例,使用每條流的吞吐量和時(shí)延作為網(wǎng)絡(luò)狀態(tài),每條流的路徑分流比作為動(dòng)作空間,每條流的性能指標(biāo)作為獎(jiǎng)勵(lì)函數(shù),通過反饋確定最佳分流比。DRL-TE使用兩種新技術(shù)用以改進(jìn)DDPG:a)TE感知的探索,通過增加已知的路由策略,如最短路徑路由或等價(jià)多路徑路由等來擴(kuò)大探索性;b)引入了一種稱為優(yōu)先經(jīng)驗(yàn)重放的方法,它為每個(gè)轉(zhuǎn)移樣本分配一個(gè)優(yōu)先級,基于這個(gè)優(yōu)先級,在每個(gè)回合中對重播緩沖區(qū)中的轉(zhuǎn)換數(shù)據(jù)進(jìn)行采樣。最后,以評估其在NSFNET[46]和APRANET兩種著名的網(wǎng)絡(luò)拓?fù)湟约半S機(jī)拓?fù)渖系男阅?。廣泛的仿真結(jié)果表明:a)與幾種廣泛使用的基線方法相比,DRL-TE顯著降低了端到端延遲,持續(xù)提高了總效用,同時(shí)提高了吞吐量;b) DRL-TE對網(wǎng)絡(luò)變化具有較強(qiáng)的魯棒性;c) DRL-TE始終優(yōu)于DDPG。通過為特定流量工程方法設(shè)計(jì)專有的訓(xùn)練策略有助于模型得到更好的結(jié)果。
Guo等人[47]提出了一種基于強(qiáng)化學(xué)習(xí) (RL) 的方法,該方法學(xué)習(xí)流量拆分代理以解決動(dòng)態(tài)變化的流量并實(shí)現(xiàn)增量 SDN 中的鏈路負(fù)載平衡。具體來說,為了快速、智能地確定新的流量需求的路由方案,設(shè)計(jì)流量分流代理并離線學(xué)習(xí),利用RL算法建立流量需求與流量分流策略之間的直接關(guān)系。一旦代理學(xué)習(xí)了流量分割,就可以快速生成有效的流量分流策略,用于確定SDN交換機(jī)上的流量分流率。Almasan等人[48]結(jié)合GNN和DQN實(shí)現(xiàn)SDN路由,利用MPNN框架生成動(dòng)作Q值,消息傳遞結(jié)構(gòu)如圖5所示,對于每條鏈路L使用全連接神經(jīng)網(wǎng)絡(luò)(FNN)生成消息,然后簡單地將鄰居邊消息相加來聚合鄰居節(jié)點(diǎn)的消息并通過RNN更新邊的特征,迭代T次后,最后通過FNN來生成Q值,該模型動(dòng)作空間是預(yù)先計(jì)算的K條最短路徑。仿真結(jié)果表明,DQN+GNN代理能夠在訓(xùn)練中從未見過的拓?fù)渲腥〉脙?yōu)異的性能,展現(xiàn)出了超強(qiáng)的泛化能力。不過,DQN+GNN代理只是對K條候選路徑進(jìn)行評判,然而這K條候選路徑可能并不是最佳路徑,也就是說代理也不能生成路由策略。
基于流的解決方案實(shí)現(xiàn)了多路徑路由,相比基于鏈路的解決方案,該方案能夠?qū)W習(xí)到多種轉(zhuǎn)發(fā)策略,對網(wǎng)絡(luò)的變化具有較強(qiáng)的魯棒性。不過,與基于鏈路的解決方案一樣,該方案也不能直接生成路徑,只是利用了多種轉(zhuǎn)發(fā)策略。
3.4其他解決方案
基于鏈路和流的解決方案在小規(guī)模網(wǎng)絡(luò)都獲得了不錯(cuò)的效果,然而隨著網(wǎng)絡(luò)規(guī)模的不斷增長,模型輸入輸出也是呈井噴式增長,容易造成維數(shù)災(zāi)難。例如:在節(jié)點(diǎn)為100的拓?fù)渲校赡艿耐ㄐ艜挒? 900,在文獻(xiàn)中盡管通過候選路徑的方式減少了搜索空間,也需要9 900×3=29 700個(gè)輸出神經(jīng)元。近年來,很多研究者利用組合優(yōu)化的思想,探索其他解決方案。
Zhang等人[49]使用RL輔助TE決策,提出一個(gè)關(guān)鍵流重路由的強(qiáng)化學(xué)習(xí)(CFR-RL)方案:使用等價(jià)多路徑(ECMP)轉(zhuǎn)發(fā)大部分流量,并利用SDN選擇性地重新路由少數(shù)關(guān)鍵流量,以平衡網(wǎng)絡(luò)的鏈路利用率。關(guān)鍵流重新路由問題可以分解為兩個(gè)子問題:a)識別關(guān)鍵流;b)重新路由它們以實(shí)現(xiàn)良好的性能。對于問題b)可以表示為線性規(guī)劃(LP)問題,針對問題a)搜索空間太大的問題,提出了使用RL識別關(guān)鍵流。CFR-RL學(xué)習(xí)為每個(gè)流量矩陣自動(dòng)選擇少數(shù)關(guān)鍵流量的策略,然后將路由這些關(guān)鍵流問題建模為一個(gè)簡單的線性規(guī)劃(LP)問題,換句話說,CFR-RL采用LP作為獎(jiǎng)勵(lì)函數(shù),對RL產(chǎn)生獎(jiǎng)勵(lì)信號。流量矩陣作為RL的輸入,輸出為所有可用動(dòng)作的概率分布,即動(dòng)作空間為可選流數(shù),獎(jiǎng)勵(lì)函數(shù)為網(wǎng)絡(luò)的最大利用率。實(shí)驗(yàn)結(jié)果表明,CFR-RL僅通過重新路由10%~20%部分的流量就可以實(shí)現(xiàn)接近最優(yōu)的性能,最大程度地減少最大鏈路利用率。從而實(shí)現(xiàn)負(fù)載均衡。
Sun等人[50]同時(shí)考慮能耗和應(yīng)用程序QoS的完成時(shí)間(FCT),提出了基于QoS感知的DRL流量調(diào)度模型SmartFCT。DRL動(dòng)作輸出為鏈路的帶寬余量比率,再將調(diào)度問題轉(zhuǎn)換為裝箱問題,利用最佳適合遞減算法求得轉(zhuǎn)發(fā)路徑。
RL搭配LP或其他傳統(tǒng)問題的組合優(yōu)化方案,與深度學(xué)習(xí)中的插件式模型一樣,降低了直接生成轉(zhuǎn)發(fā)策略的難度,減小了問題規(guī)模。不過,隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大,這些問題也變得更加復(fù)雜,迭代時(shí)間大大增加。最近興起的多代理強(qiáng)化學(xué)習(xí)(MARL)[51]提供一種解決思路,通過采用SDN多控制器結(jié)構(gòu)進(jìn)一步減小問題規(guī)模,每個(gè)控制器負(fù)責(zé)大規(guī)模網(wǎng)絡(luò)中的交換機(jī)子集,負(fù)責(zé)本地的流轉(zhuǎn)發(fā)策略。目前,基于DRL的SDN流量工程都表現(xiàn)出了不錯(cuò)的性能,相比傳統(tǒng)的路由提升了網(wǎng)絡(luò)性能的同時(shí),節(jié)省了資源。然而,現(xiàn)有研究都是針對單一網(wǎng)絡(luò)拓?fù)溥M(jìn)行研究,缺乏模型泛化性的研究。當(dāng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)改變時(shí),模型往往不夠理想。本文認(rèn)為一共有兩種原因:a)標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)(如DNN、CNN)輸入輸出固定,需要重新設(shè)計(jì)模型的輸入輸出,過程十分復(fù)雜;b)標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)不適合圖結(jié)構(gòu)信息的學(xué)習(xí)。而GNN是專為圖結(jié)構(gòu)設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò),能夠?qū)W習(xí)拓?fù)湫畔ⅲ瑢W(xué)習(xí)節(jié)點(diǎn)與邊的空間特征,更好地幫助轉(zhuǎn)發(fā)決策。
表2總結(jié)了強(qiáng)化學(xué)習(xí)在SDN流量工程中的應(yīng)用,可以看到DRL展示出強(qiáng)大的控制能力,很大程度上提升了網(wǎng)絡(luò)性能,基本實(shí)現(xiàn)了網(wǎng)絡(luò)的智能轉(zhuǎn)發(fā),受到研究者的廣泛關(guān)注。因?yàn)椋篴)該算法是無模型的,不依賴精確、數(shù)學(xué)上可解的系統(tǒng)模型(如排隊(duì)模型),從而增強(qiáng)了其在具有隨機(jī)和不可預(yù)測行為的復(fù)雜網(wǎng)絡(luò)中的適用性與通用性;b)它能夠在高度時(shí)變的環(huán)境中工作,能夠處理時(shí)變的系統(tǒng)狀態(tài)和用戶需求,而且還能處理復(fù)雜的連續(xù)動(dòng)作空間;c)DRL訓(xùn)練好后只需簡單一步優(yōu)化就能得到近似的最優(yōu)解,而啟發(fā)式算法需要多次迭代;d)與監(jiān)督學(xué)習(xí)相比,DRL不需要大量的監(jiān)督數(shù)據(jù),而是與環(huán)境交互產(chǎn)生數(shù)據(jù),簡化了數(shù)據(jù)的處理。不過,基于DRL的SDN流量工程研究尚處于初步階段,目前的解決方案對于大規(guī)模復(fù)雜網(wǎng)絡(luò),模型輸入輸出維度太大,訓(xùn)練難度大大增加,難以得到好的效果。另外,普通神經(jīng)網(wǎng)絡(luò)難以處理圖結(jié)構(gòu)的數(shù)據(jù),模型泛化能力有限。其次,現(xiàn)有研究方案并不是直接生成轉(zhuǎn)發(fā)決策,本質(zhì)上還是傳統(tǒng)解決方案的拓展與優(yōu)化,模型不具備認(rèn)知能力,不能實(shí)現(xiàn)真正的智能轉(zhuǎn)發(fā)。最后,目前DRL模型都是黑盒優(yōu)化,網(wǎng)絡(luò)可靠性和魯棒性無法得到保障??傊?,基于RL的SDN流量工程距離真實(shí)部署還有很長的一段路要走。
4SDN流量工程研究機(jī)遇與挑戰(zhàn)
4.1研究方向與展望
a)基于DRL和GNN的直接轉(zhuǎn)發(fā)決策。已有研究表明GNN能夠更好地學(xué)習(xí)圖結(jié)構(gòu)數(shù)據(jù),具有更強(qiáng)的泛化能力,在不同拓?fù)浣Y(jié)構(gòu)表現(xiàn)出優(yōu)異的性能,然而研究大多數(shù)都是最短路徑算法的拓展,只是對已有轉(zhuǎn)發(fā)決策的優(yōu)化,少數(shù)直接路由決策研究是基于下一跳,需要迭代求解且無法滿足吞吐量等要求。在網(wǎng)絡(luò)拓?fù)鋱D中,節(jié)點(diǎn)和邊隱藏著路徑信息,因此利用GNN捕獲節(jié)點(diǎn)和邊的關(guān)系及特征結(jié)合DRL的環(huán)境交互能力,對于生成真正的路由決策具有很大的前景。
b)基于模仿學(xué)習(xí)[52]的SDN流量工程?,F(xiàn)有RL模型缺乏認(rèn)知能力,通過試錯(cuò)來探索最優(yōu)策略,搜索空間巨大,模型訓(xùn)練開銷大,收斂速度慢。模仿學(xué)習(xí)通過模仿專家來進(jìn)行學(xué)習(xí),學(xué)習(xí)本領(lǐng)域的專家知識,相比強(qiáng)化學(xué)習(xí)擁有更高的可靠性和更強(qiáng)的容錯(cuò)能力。一種可行的方法是通過模仿學(xué)習(xí)對DRL進(jìn)行預(yù)訓(xùn)練,不僅能夠減少訓(xùn)練時(shí)間,還能避免因?yàn)樵囧e(cuò)造成的網(wǎng)絡(luò)問題。
c)分段路由[53]與DRL結(jié)合的SDN流量工程。分段路由 (SR) 是一項(xiàng)基于源的路由技術(shù),節(jié)點(diǎn)通過稱為段指令的有序列表來引導(dǎo)數(shù)據(jù)包。相比OpenFlow必須加載沿著源到目的地的路徑進(jìn)入控制器開關(guān)的轉(zhuǎn)發(fā)表項(xiàng),SR為每個(gè)流表提供該流的源路由器路徑,而不是讓每個(gè)流通過同一條路徑到達(dá)所有交換機(jī)入口。SR進(jìn)一步抽象了網(wǎng)絡(luò),控制器有了SR,可以實(shí)現(xiàn)靈活的業(yè)務(wù)調(diào)度和動(dòng)態(tài)保護(hù),增強(qiáng)了控制器擴(kuò)展性,更加適合在大規(guī)模網(wǎng)絡(luò)中部署。
SR與DRL結(jié)合的SDN流量工程為大規(guī)模網(wǎng)絡(luò)的智能決策提供了一個(gè)可行思路。Tian等人[54]在部分部署SRv6網(wǎng)絡(luò)中使用DRL實(shí)現(xiàn)SDN流量工程,在大型網(wǎng)絡(luò)拓?fù)溥M(jìn)行測試,在線優(yōu)化時(shí)間不到10 s,為DRL在SR中的研究提供了標(biāo)準(zhǔn)。
d)流量認(rèn)知的SDN流量工程。深度學(xué)習(xí)在數(shù)據(jù)處理方面獲得了很好的效果,能夠獲得流量數(shù)據(jù)的高維特征,但是已有模型是數(shù)據(jù)驅(qū)動(dòng)的,需要大量的數(shù)據(jù),模型只是對數(shù)據(jù)進(jìn)行了感知,學(xué)習(xí)歷史信息,無法獲得推理的能力。在SDN中,由于流量和拓?fù)涞膭?dòng)態(tài)特性,模型往往會遇到之前沒有遇到過的情況,基于感知的技術(shù)泛化能力比較弱,得到的結(jié)果往往不夠精確,網(wǎng)絡(luò)可靠性無法得到保障。而基于認(rèn)知的流量工程能夠賦予網(wǎng)絡(luò)推理的能力,學(xué)習(xí)數(shù)據(jù)復(fù)雜的結(jié)構(gòu)化關(guān)系并轉(zhuǎn)換為知識。在遇到?jīng)]有遇到的情況下,能夠根據(jù)所學(xué)知識進(jìn)行推理,優(yōu)化網(wǎng)絡(luò)決策。
e)意圖驅(qū)動(dòng)網(wǎng)絡(luò)[11]。IDN是一個(gè)保證網(wǎng)絡(luò)能夠根據(jù)意圖對象表述出來的意圖實(shí)現(xiàn)自動(dòng)管理、優(yōu)化的閉環(huán)系統(tǒng)。IDN可以根據(jù)管理員的意圖自動(dòng)轉(zhuǎn)換、驗(yàn)證、部署、配置和優(yōu)化網(wǎng)絡(luò)以滿足用戶需求,并可以自動(dòng)解決異常事件,確保網(wǎng)絡(luò)可靠性??梢哉f,IDN可以是一個(gè)可編程、可定制的自動(dòng)化網(wǎng)絡(luò),可以實(shí)現(xiàn)應(yīng)用意圖的表征、網(wǎng)絡(luò)狀態(tài)的全局感知和閉環(huán)優(yōu)化。
首先,應(yīng)用程序可以顯式或隱式地告訴網(wǎng)絡(luò)其意圖。無論使用哪種方法,IDN都可以理解應(yīng)用程序的意圖并將其轉(zhuǎn)換為特定的表達(dá)方式。其次,IDN可以根據(jù)網(wǎng)絡(luò)狀態(tài)控制和調(diào)整網(wǎng)絡(luò)配置以滿足應(yīng)用目標(biāo),因此,對網(wǎng)絡(luò)狀態(tài)的感知是必不可少的,可以通過遙測和機(jī)器學(xué)習(xí),最終實(shí)現(xiàn)可視化運(yùn)維和智能決策。最后,IDN根據(jù)網(wǎng)絡(luò)狀態(tài)的反饋,通過推斷出網(wǎng)絡(luò)配置與應(yīng)用意圖之間的差距。不斷進(jìn)行閉環(huán)系統(tǒng)調(diào)整,通過增強(qiáng)學(xué)習(xí)模式,調(diào)整網(wǎng)絡(luò)配置,最終滿足業(yè)務(wù)意圖。在IDN中,網(wǎng)元的全生命周期管理自動(dòng)運(yùn)行。
SDN是實(shí)現(xiàn)IDN的典型架構(gòu),其中應(yīng)用意圖通過北向接口傳遞給SDN控制器,SDN控制器通過與網(wǎng)絡(luò)環(huán)境進(jìn)行交互實(shí)現(xiàn)網(wǎng)絡(luò)的自動(dòng)化管理??梢哉f,IDN是更高級的SDN,近些年隨著機(jī)器學(xué)習(xí)在SDN中的應(yīng)用研究,也為實(shí)現(xiàn)IDN提供了重大思路:一方面,隨著自然語言處理的迅猛發(fā)展,可以通過智能語音機(jī)器人界面采集意圖,利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型提取自然語言表達(dá)的用戶意圖;另一方面,SDN自身存在的反饋控制循環(huán)為IDN提供了基本條件,IDN擁有網(wǎng)絡(luò)的全局視圖,通過遙測等技術(shù)獲得精確的網(wǎng)絡(luò)數(shù)據(jù),并存儲在數(shù)據(jù)庫中,為機(jī)器學(xué)習(xí)提供了大量的數(shù)據(jù), IDN的反饋閉環(huán)控制與環(huán)境交互的強(qiáng)大能力,為深度強(qiáng)化學(xué)習(xí)提供了天然的條件,可以通過將意圖翻譯為SDN流量工程的目標(biāo),優(yōu)化求解實(shí)現(xiàn)網(wǎng)絡(luò)的自動(dòng)化管理??傊?,SDN流量工程對IDN的發(fā)展具有重大意義。
4.2挑戰(zhàn)
a)可解釋性以及魯棒性。目前模型缺乏可解釋性和魯棒性成為限制SDN流量工程部署的最大難題。在網(wǎng)絡(luò)中,一個(gè)錯(cuò)誤的決策可能會造成一系列決策的失誤,甚至造成網(wǎng)絡(luò)癱瘓。而現(xiàn)有基于深度學(xué)習(xí)的SDN流量工程模型行為往往不可預(yù)測,有時(shí)只增加一些微小的噪聲,就可能得到截然不同的結(jié)果,另外當(dāng)網(wǎng)絡(luò)出現(xiàn)故障時(shí),無法判斷原因以及故障位置。最后,可解釋性也意味知識的獲取,模型能夠總結(jié)和歸納已經(jīng)學(xué)習(xí)到的知識生成轉(zhuǎn)發(fā)策略,甚至獲得推理的能力。
b)收斂性以及計(jì)算成本。隨著網(wǎng)絡(luò)規(guī)模以及流量模式的激增,DRL模型輸入輸出維度也愈來愈大,盡管研究者利用很多方法(如組合優(yōu)化、多控制器結(jié)構(gòu))減小問題規(guī)模來限制模型輸入與輸出,模型的收斂速度和計(jì)算成本還是不理想。
c)泛化性。容錯(cuò)也是SDN流量工程的重大目標(biāo)之一。由于流量與拓?fù)涞膭?dòng)態(tài)特性,網(wǎng)絡(luò)狀態(tài)也常常不可預(yù)測,模型很可能會遇到從來沒有見過的情況,缺乏泛化性的模型對于沒有學(xué)習(xí)過的狀態(tài)可能出現(xiàn)錯(cuò)誤。
d)域間SDN流量工程。已有的深度學(xué)習(xí)在域內(nèi)SDN流量工程得到了很多研究,也取得了不錯(cuò)的效果,但對域間SDN流量工程研究較少,因?yàn)樵诙嘤蚓W(wǎng)絡(luò)問題規(guī)模增大,通信開銷也增大了,穩(wěn)定性要求也增加了,所以未來域間SDN流量工程還有很大的研究空間。
參考文獻(xiàn):
[1]瞻博網(wǎng)絡(luò)公司.利用集中式控制器以用于自治系統(tǒng)間的業(yè)務(wù)工程分段路由:CN201911395354.X[P].2020-10-08.(Juniper Networks.Utilizing centralized controllers for business engineering segment routing between autonomous systems:CN201911395354.X[P].2020-10-08.)
[2]Kirkpatrick K.Software-defined networking[J].Communications of the ACM,2013,56(9):16-19.
[3]楊洋,呂光宏,趙會,等.深度學(xué)習(xí)在軟件定義網(wǎng)絡(luò)研究中的應(yīng)用綜述[J].軟件學(xué)報(bào),2020,31(7):2184-2204.(Yang Yang, Lu Guanghong, Zhao Hui, et al. Overview of the application of deep learning in the research of software-defined networks[J].Journal of Software,2020,31(7):2184-2204.)
[4]Fortz B, Rexford J, Thorup M. Traffic engineering with traditional IP routing protocols[J].IEEE Communications Magazine,2002,40(10):118-124.
[5]Xiao Xipeng, Hannan A, Bailey B, et al. Traffic engineering with MPLS in the Internet[J].IEEE Network,2000,14(2):28-33.
[6]Akyildiz I F, Lee A, Wang Pu, et al. A roadmap for traffic engineering in SDN-OpenFlow networks[J].Computer Networks,2014,71:1-30.
[7]Guo Yingya, Wang Zhiliang, Yin Xia, et al. Incremental deployment for traffic engineering in hybrid sdn network[C]//Proc of the 34th International Performance Computing and Communications Conference.Piscataway,NJ:IEEE Press,2015:1-8.
[8]Bello I, Pham H, Le Q V, et al. Neural combinatorial optimization with reinforcement learning[EB/OL].(2017-01-12).https://arxiv.org/abs/1611.09940.
[9]周桐慶,蔡志平,夏竟,等.基于軟件定義網(wǎng)絡(luò)的流量工程[J].軟件學(xué)報(bào),2016,27(2):394-417.(Zhou Tongqing, Cai Zhiping, Xia Jing, et al. Traffic engineering based on software defined network[J].Journal of Software,2016,27(2):394-417.)
[10]Machado C C, Granville L Z, Schaeffer-Filho A. Answer: combining NFV and SDN features for network resilience strategies[C]//Proc of IEEE Symposium on Computers and Communication.Piscataway,NJ:IEEE Press,2016:391-396.
[11]Elkhatib Y, Coulson G, Tyson G. Charting an intent driven network[C]//Proc of the 13th International Conference on Network and Ser-vice Management.Piscataway,NJ:IEEE Press,2017:1-5.
[12]Lin Yiou, Lei Hang, Li Xiaoyu, et al. Deep learning in NLP:me-thods and applications[J].Journal of University of Electronic Science and Technology of China,2017,46(6):913-919.
[13]Kreutz D, Ramos F M V, Veríssimo P E, et al. Software-defined networking: a comprehensive survey[J].Proceedings of the IEEE,2015,103(1):14-76.
[14]Handigol N, Seetharaman S, Flajslik M, et al. Plug-n-serve: load-balancing Web traffic using OpenFlow[EB/OL].(2014-06-18).https://www.docin.com/p-836999555.html.
[15]張敏怡.網(wǎng)絡(luò)通信系列深度研究:2019年中國SDN軟件定義網(wǎng)絡(luò)行業(yè)研究報(bào)告[EB/OL].(2020-10-10).https://pdf.dfcfw.com/pdf/H3_AP202010101420400338_1.pdf?1602327592000.pdf.(Zhang Minyi. In-depth research on network communication series: 2019 China SDN software-defined network industry research report[EB/OL].(2020-10-10).https://pdf.dfcfw.com/pdf/H3_AP2020 10101420400338_1.pdf?1602327592000.pdf.)
[16]Bhattacharya B, Das D. SDN based architecture for QoS enabled services across networks with dynamic service level agreement[C]//Proc of IEEE International Conference on Advanced Networks and Telecommunications Systems.Piscataway,NJ:IEEE Press,2013:1-6.
[17]胡道允,齊進(jìn),陸錢春,等.基于深度學(xué)習(xí)的流量工程算法研究與應(yīng)用[J].電信科學(xué),2021,37(2):107-114.(Hu Daoyun, Qi Jin, Lu Qianchun, et al. Research and application of traffic engineering algorithm based on deep learning[J].Telecommunications Science,2021,37(2):107-114.)
[18]Agarwal S, Kodialam M, Lakshman T V. Traffic engineering in software defined networks[C]//Proc of IEEE INFOCOM.2013:2211-2219.
[19]Shu Zhaogang, Wan Jiafu, Lin Jiaxiang, et al. Traffic engineering in software-defined networking: measurement and management[J].IEEE Access,2016,4:3246-3256.
[20]Hong Chiyao, Kandula S, Mahajan R, et al. Achieving high utilization with software-driven WAN[J].ACM SIGCOMM Computer Communication Review,2013,43(4):15-26.
[21]劉辰屹,徐明偉,耿男,等.基于機(jī)器學(xué)習(xí)的智能路由算法綜述[J].計(jì)算機(jī)研究與發(fā)展,2020,57(4):671-687.(Liu Chenyi, Xu Mingwei, Geng Nan, et al. Overview of intelligent routing algorithms based on machine learning[J].Journal of Computer Research and Development,2020,57(4):671-687.)
[22]李鵬飛,邵維專.深度學(xué)習(xí)在SDN中的應(yīng)用研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2019,29(1):1-5.(Li Pengfei, Shao Weizhuan. Research on the application of deep learning in SDN[J].Computer Technology and Development,2019, 29(1):1-5.)
[23]LeCun Y, Bengio Y, Hinton G. Deep learning[J].Nature,2015,521(7553):436-444.
[24]Canziani A, Paszke A, Culurciello E. An analysis of deep neural network models for practical applications[EB/OL].(2017-04-14).https://arxiv.org/abs/1605.07678.
[25]Sherstinsky A. Fundamentals of recurrent neural network (RNN) and long short-term memory(LSTM) network[J].Physica D: Nonlinear Phenomena,2020,404:132306.
[26]Li Zuchao, Cai Jiaxun, He Shexia, et al. seq2seq dependency parsing[C]//Proc of the 27th International Conference on Computational Linguistics.2018:3203-3214.
[27]Albawi S, Mohammed T A, Al-Zawi S. Understanding of a convolutional neural network[C]//Proc of International Conference on Engineering and Technology.2017:1-6.
[28]Zhou Jie, Cui Ganqu, Hu Shengding, et al. Graph neural networks: a review of methods and applications[J].AI Open,2020,1(1):57-81.
[29]Suárez-Varela J, Carol-Bosch S, Rusek K, et al. Challenging the generalization capabilities of graph neural networks for network mode-ling[C]//Proc of ACM SIGCOMM Conference Posters and Demos.New York:ACM Press,2019:114-115.
[30]Kato N, Fadlullah Z M, Mao B, et al. The deep learning vision for heterogeneous network traffic control: proposal, challenges, and future perspective[J].IEEE Wireless Communications,2016,24(3):146-153.
[31]Zuo Yuan, Wu Yulei, Min Geyong, et al. Learning-based network path planning for traffic engineering[J].Future Generation Computer Systems,2019,92:59-67.
[32]莊子睿.知識定義網(wǎng)絡(luò)的路由關(guān)鍵技術(shù)研究[D].北京:北京郵電大學(xué),2020.(Zhuang Zirui. Research on key technologies of routing in knowledge-defined networks[D].Beijing:Beijing University of Posts and Telecommunications,2020.)
[33]Mohammed A R, Mohammed S A, Shirmohammadi S. Machine learning and deep learning based traffic classification and prediction in software defined networking[C]//Proc of IEEE International Symposium on Measurements amp; Networking.Piscataway,NJ:IEEE Press,2019:1-6.
[34]Malik A, De Fréin R, Al-Zeyadi M, et al. Intelligent SDN traffic classification using deep learning: deep-SDN[C]//Proc of the 2nd International Conference on Computer Communication and the Internet.Piscataway,NJ:IEEE Press,2020:184-189.
[35]Azzouni A, Pujolle G. NeuTM: a neural network-based framework for traffic matrix prediction in SDN[C]//Proc of NOMS-IEEE/IFIP Network Operations and Management Symposium.Piscataway,NJ:IEEE Press,2018:1-5.
[36]Andreoletti D, Troia S, Musumeci F, et al. Network traffic prediction based on diffusion convolutional recurrent neural networks[C]//Proc of IEEE Conference on Computer Communications Workshops.Pisca-taway,NJ:IEEE Press,2019:246-251.
[37]Li Yaguang, Yu Rose, Shahabi C, et al. Diffusion convolutional recurrent neural network: data-driven traffic forecasting[EB/OL].(2018-02-22).https://arxiv.org/abs/1707.01926.
[38]Rusek K, Suárez-Varela J, Almasan P, et al. RouteNet: leveraging graph neural networks for network modeling and optimization in SDN[J].IEEE Journal on Selected Areas in Communications,2020,38(10):2260-2270.
[39]Sutton R S, Barto A G. Reinforcement learning: an introduction[M].Cambridge,MA:MIT Press,2018.
[40]Farahnakian F, Ebrahimi M, Daneshtalab M, et al. Q-learning based congestion-aware routing algorithm for on-chip network[C]//Proc of the 2nd IEEE International Conference on Networked Embedded Systems for Enterprise Applications.Piscataway,NJ:IEEE Press,2011:1-7.
[41]Mnih V, Kavukcuoglu K, Silver D, et al. Playing Atari with deep reinforcement learning[EB/OL].(2013-12-19).https://arxiv.org/abs/1312.5602.
[42]Hou Yuenan, Liu Lifeng, Wei Qing, et al. A novel DDPG method with prioritized experience replay[C]//Proc of IEEE International Conference on Systems,Man,and Cybernetics.Piscataway,NJ:IEEE Press,2017:316-321.
[43]Henderson P, Islam R, Bachman P, et al. Deep reinforcement lear-ning that matters[EB/OL].(2019-01-30).https://arxiv.org/abs/1709.06560.
[44]Sun Penghao, Hu Yuxiang, Lan Julong, et al. TIDE:time-relevant deep reinforcement learning for routing optimization[J].Future Ge-neration Computer Systems,2019,99:401-409.
[45]Xu Zhiyuan, Tang Jian, Meng Jingsong, et al. Experience-driven networking: a deep reinforcement learning based approach[C]//Proc of IEEE Conference on Computer Communications.Piscataway,NJ:IEEE Press,2018:1871-1879.
[46]Wikipedia. National science foundation network[EB/OL].(2018).https://nl.wikipedia.org/wiki/National_Science_Foundation_Network.
[47]Guo Yingya,Wang Weipeng, Zhang Han, et al. Traffic engineering in hybrid software defined network via reinforcement learning[J].Journal of Network and Computer Applications,2021,189:103116.
[48]Almasan P, Suárez-Varela J, Badia-Sampera A, et al. Deep reinforcement learning meets graph neural networks: exploring a routing optimization use case[EB/OL].(2020-02-14).https://arxiv.org/abs/1910.07421.
[49]Zhang Junjie, Ye Minghao, Guo Zehua, et al. CFR-RL:traffic engineering with reinforcement learning in SDN[J].IEEE Journal on Selected Areas in Communications,2020,38(10):2249-2259.
[50]Sun Penghao, Guo Zehua, Liu Sen, et al. SmartFCT: improving power-efficiency for data center networks with deep reinforcement learning[J].Computer Networks,2020,179:107255.
[51]Sun Penghao, Guo Zehua, Wang Gang, et al. MARVEL: enabling controller load balancing in software-defined networks with multi-agent reinforcement learning[J].Computer Networks,2020,177:107230.
[52]Hussein A, Gaber M M, Elyan E, et al. Imitation learning: a survey of learning methods[J].ACM Computing Surveys,2017,50(2):1-35.
[53]Davoli L, Veltri L, Ventre P L, et al. Traffic engineering with segment routing: SDN-based architectural design and open source implementation[C]//Proc of the 4th European Workshop on Software Defined Networks.2015:111-112.
[54]Tian Ying, Wang Zhiliang, Yin Xia, et al. Traffic engineering in partially deployed segment routing over IPv6 network with deep reinforcement learning[J].IEEE/ACM Trans on Networking,2020,28(4):1573-158.
收稿日期:2021-09-11;
修回日期:2021-11-15
作者簡介:郝學(xué)余(1997-)男,安徽安慶人,碩士研究生,主要研究方向?yàn)檐浖x網(wǎng)絡(luò)(2319235089@qq.com);呂光宏(1963-),男,教授,碩導(dǎo),主要研究方向?yàn)檐浂x網(wǎng)絡(luò)、云計(jì)算和數(shù)據(jù)中心網(wǎng)絡(luò)、無線網(wǎng)絡(luò)、光網(wǎng)絡(luò)、網(wǎng)絡(luò)性能分析與優(yōu)化設(shè)計(jì).