伍仲麗,曹園園,黃文睿,戴彬,莫益軍
面向確定性網絡的按需智能路由技術
伍仲麗1,曹園園1,黃文睿1,戴彬1,莫益軍2
(1.華中科技大學電子信息與通信學院,湖北 武漢 430074;2.華中科技大學計算機科學與技術學院,湖北 武漢 430074)
確定性網絡需要保證不同應用在時延、丟包率、抖動、吞吐量和可靠性等方面的確定性傳輸需求。針對應用的差異化、確定性的網絡傳輸需求,提出了一種面向確定性網絡的按需智能路由學習框架OdR,在OdR框架下提出一種基于深度強化學習的按需智能路由算法OdR-TD3,OdR-TD3算法可以根據應用流量的確定性QoS需求生成路由策略,以滿足確定性網絡應用的需求。通過網絡仿真實驗評估,在確定性應用的QoS需求達成率上,OdR-TD3算法相較DV算法和SPF算法,具有顯著的優勢。
確定性網絡;深度強化學習;按需智能路由;服務質量
隨著新型網絡應用的不斷涌現,如VR/AR、全息通信、觸覺互聯網、工業互聯網、智能電網、自動駕駛、遠程醫療等,新型應用對網絡傳輸提出了新的需求和挑戰。不同應用在帶寬速率、時延、抖動、能耗、服務安全等方面有著差異化的需求[1],而且對于時延、抖動、丟包等關鍵服務質量(quality of service,QoS)指標提出了確定性(有上下界)的要求。網絡傳輸需求的差異化和確定性的QoS需求給基礎網絡運維帶來了極大的挑戰[2]。
在確定性網絡研究方面,時間敏感網絡(time-sensitive network,TSN)和確定性網絡(deterministic network,DetNet)工作組開展了頗有成效的工作[3],致力于為應用流量提供最優的路徑,以滿足應用對時延、抖動、丟包等的確定性QoS需求。但網絡環境的復雜性和不確定性,給傳統的數學建模求解帶來了極大的困難[4]。近年來,有學者將人工智能技術應用于網絡路由優化,借助機器學習能夠擺脫精確的數學模型,可以處理更加復雜的網絡環境,基于強化學習的路由決策能夠實時響應環境和用戶的需求變化,已成為網絡路由優化的熱點研究方向[5]。
網絡應用對于時延、抖動、丟包等關鍵性能指標提出了確定性QoS保障的需求。例如對于VR/AR應用,數據率要求為40 Mbit/s(2D)/63 Mbit/s(3D),時延要求低于30 ms(2D)/ 20 ms(3D),分組丟失率要求小于2.40×10?5。對于工業互聯網應高水平,同時網絡邊緣的其他路由節點則常處于閑置狀態,導致網絡整體性用,數據率要求1~10 Gbit/s,時延要求低于5 ms。對于遠程醫療應用,數據率要求為100 Mbit/s,時延要求低于100 ms。在網絡結構和應用流量不斷變化的復雜環境中,如何滿足不同應用的確定性QoS需求成為網絡路由優化的難點。
傳統路由算法有距離矢量(distance vector,DV)算法[6]、最短路徑優先(shortest path first,SPF)算法[7]和啟發式算法等,其中,DV算法收斂速度較慢,并且在收斂過程中可能會遇到路由選擇環路,產生無窮計數問題。SPF算法大多以跳數為度量,是一種盡力而為的路由方案,選擇固定的路徑,這些選定路徑上的節點負載始終維持在較高水平,導致負載不均衡,降低了網絡整體性能。啟發式算法的收斂速度慢、訓練時間長、計算復雜度高,因此不適合越來越復雜的網絡架構。這些路由算法沒有充分利用豐富的網絡資源,只能提供非常有限的QoS保證,并且傳統路由算法沒有時序和記憶功能,往往不會從以往的路徑擁塞、嚴重延遲甚至丟包的經歷中吸取教訓。與傳統路由算法相比,機器學習技術具有一定的優越性,經過訓練,機器學習算法面對給定的輸入、輸出接近最優的路由策略,其次,機器學習不依托精確的底層網絡數學模型,另外,機器學習在分析和處理大量數據方面具有強大能力,能發現復雜環境的數據模式并做出準確的決策。最后,機器學習還可以從過去無效的路由決策和擁塞、丟包等事件中學習教訓,避免類似情況再次出現[8]。深度強化學習(deep reinforcement learning,DRL)結合深度學習和強化學習的優點,在訓練階段主動了解不斷變化的網絡狀態,并在復雜的環境中針對不同的服務請求智能地選擇合適的路徑。但現有的智能路由優化方法,大多以網絡整體效用最大化作為優化目標,未考慮到應用對確定性QoS指標的差異化需求[9]。本文的研究針對網絡應用的確定性QoS需求,基于深度強化學習算法的設計按需智能路由策略,滿足應用的差異化、確定性的QoS需求。
基于軟件定義網絡(software defined network,SDN)的架構[10],本文提出了一種面向確定性網絡的按需智能路由學習框架OdR(on-demand intelligent routing framework),如圖1所示。OdR模型包括3個邏輯平面:智能路由平面、網絡測量平面和數據轉發平面。
● 智能路由平面是OdR模型的控制中樞,多種具有不同確定性QoS需求的應用流量信息作為輸入,輸出為各類確定性QoS需求所對應的鏈路權重,通過Dijkstra算法將鏈路權重轉換為路由策略,生成的路由策略發布到數據轉發平面。
● 網絡測量平面負責收集網絡狀態(如流量需求、資源可用性、等待時間等)和應用流量的QoS指標,用于評估路由策略的性能。
● 數據轉發平面根據應用所攜帶的確定性QoS需求來分類和調度網絡中的流量,并且支持在線更新路由策略。


圖1 OdR模型



OdR-TD3算法過程見算法1。
算法1 OdR-TD3算法
輸入種應用類型的流量需求
輸出種應用類型的路由策略
(2)執行回合語句3~12
(4)執行次語句5~12

(10)每步執行語句(11)~(12)
(13)保存訓練好的OdR-TD3網絡模型


表1 3類應用流量的QoS指標需求
對OdR-TD3算法和兩種經典的路由算法DV算法和SPF算法進行了性能對比。在模型訓練結束后保存3種算法的模型,然后使用200組流量矩陣作為測試集分別對保存的模型進行測試,GéANT測試階段平均獎勵值見表2,OdR-TD3算法的平均獎勵值最高。

表2 GéANT測試階段平均獎勵值
GéANT測試階段各類應用流量的QoS指標見表3。從實驗測試數據上可以看出,在QoS的各項指標上,OdR-TD3算法均大幅領先于DV算法和SPF算法,其中平均時延較DV算法和SPF算法分別降低了50%和30%以上,平均抖動則相較DV算法和SPF算法分別降低了35%和15%以上,而平均丟包率相較DV算法和SPF算法分別下降了80%和60%以上。對比各類應用的確定性QoS指標要求,基于OdR-TD3算法的應用流量均能滿足確定性QoS指標的要求,且確定性QoS指標達成率遠優于DV算法和SPF算法。

表3 GéANT測試階段各類應用流量的QoS指標
本文主要研究了如何在確定性網絡中保障各類應用的確定性QoS需求,將DRL方法引入確定性網絡路由中,以實現按需的自適應智能路由決策。基于真實的數據集,在特定的網絡結構下對OdR-TD3算法進行評估,與DV和SPF路由算法相比,OdR-TD3算法表現出優異的性能,可以更好地保障確定性的QoS需求。在網絡仿真環節,本文假設了3類確定性QoS需求的應用及其指標需求,下一步研究中可以面向實際的確定性應用對需求指標進行完善,還可以驗證算法在不同網絡拓撲下的泛化性能。
[1] KARAKUS M, DURRESI A. Quality of service (QoS) in software defined networking (SDN): a survey[J]. Journal of Network and Computer Applications, 2017(80): 200-218.
[2] 黃韜, 汪碩, 黃玉棟, 等. 確定性網絡研究綜述[J]. 通信學報, 2019, 40(6):160-176.
HUANG T, WANG S, HUANG Y D, et al. Survey of the deterministic network[J]. Journal on Communications, 2019, 40(6): 160-176.
[3] LI Z M, PENGC, YUG, et al. DetNet: abackbone network for object detection[J]. 2018. arXiv: 1804.06215.
[4] 李季明, 張寧. 具有隨機性的確定性網絡模型[J]. 復雜系統與復雜性科學, 2007, 4(2): 56-61.
LI J M, ZHANG N. Deterministic network model with randomness[J]. Complex Systems and Complexity Science, 2007, 4(2): 56-61.
[5] LUONG N C, HOANG D T, GONG S M, et al. Applications of deep reinforcement learning in communications and networking: a survey[J]. IEEE Communications Surveys & Tutorials, 2019, 21(4): 3133-3174.
[6] ROBINSON Y H, JULIE E G, SARAVANAN K, et al. FD-AOMDV: fault-tolerant disjoint ad-hoc on-demand multipath distance vector routing algorithm in mobile ad-hoc networks[J]. Journal of Ambient Intelligence and Humanized Computing, 2019, 10(11): 4455-4472.
[7] WANG Z, CROWCROFT J. Analysis of shortest-path routing algorithms in a dynamic network environment[J]. ACM SIGCOMM Computer Communication Review, 1992, 22(2): 63-71.
[8] DAI B, CAO Y Y, WU Z L, et al. Routing optimization meets machine intelligence: a perspective for the future network[J]. Neurocomputing, 2021, 459: 44-58.
[9] XIE J F, YU F R, HUANG T, et al. A survey of machine learning techniques applied to software defined networking (SDN): research issues and challenges[J]. IEEE Communications Surveys & Tutorials, 2019, 21(1): 393-430.
[10] MCKEOWNN, ANDERSONT, BALAKRISHNANH, et al. OpenFlow[J]. ACM SIGCOMM Computer Communication Review, 2008, 38(2): 69-74.
[11] SCOTT F, HERKE H, DAVID M. Addressing function approximation error in actor-critic methods[C]// Proceedings of the 35th International Conference on Machine Learning. [S.l.: s.n.], 2018:1587-1596 .
[12] UHLIG S, QUOITIN B, LEPROPRE J, et al. Providing public intradomain traffic matrices to the research community[J]. ACM SIGCOMM Computer Communication Review, 2006, 36(1): 83-86.
On-demand intelligent routing technology for deterministic network
WU Zhongli1, CAO Yuanyuan1, HUANG Wenrui1, DAI Bin1, MO Yijun2
1. School of Electronic Information and Communications, Huazhong University of Science and Technology, Wuhan 430074, China 2. School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan 430074, China
Deterministic network needs to ensure the deterministic transmission requirements of different applications in terms of delay, packet loss rate, jitter, throughput, and reliability. In response to the differentiated and deterministic network transmission requirements of applications, an on-demand intelligent routing framework OdR for deterministic network was proposed. Under the OdR framework, an on-demand intelligent routing algorithm named OdR-TD3 based on deep reinforcement learning was proposed, which generates routing strategies based on the deterministic QoS requirements of application traffic, to satisfy the applications’ requirements of deterministic network. The experimental evaluation results show the OdR-TD3 algorithm has a significant advantage over the DV algorithm and the SPF algorithm in terms of the achievement rate of deterministic QoS requirements.
deterministic network, deep reinforcement learning, on-demand intelligent routing, quality of service
TP393
A
10.11959/j.issn.1000?0801.2021245

伍仲麗(1998? ),女,華中科技大學電子信息與通信學院碩士生,主要研究方向為強化學習、路由計算。
曹園園(1996? ),女,華中科技大學電子信息與通信學院碩士生,主要研究方向為機器學習、SDN。

黃文睿(1999? ),男,華中科技大學電子信息與通信學院碩士生,主要研究方向為圖神經網絡、網絡路由。
戴彬(1977? ),男,博士,華中科技大學電子信息與通信學院副教授,主要研究方向為智能路由、邊緣計算。
莫益軍(1976?),男,博士,華中科技大學計算機科學與技術學院副教授,主要研究方向為智能網絡、邊緣計算。
The National Key Research and Development Project(No.2020YFB1800080)
2021?09?01;
20210?10?19
國家重點研發計劃項目(No.2020YFB1800080)