胡方偉
(四川速寶網絡科技有限公司 上海璞速網絡科技分公司,上海 200126)
軟件定義廣域網(Software-Defined Wide Area Network,SD-WAN)是使用SDN的思想軟件定義廣域網。傳統的廣域網基于互聯網的局部可靠可信自愈的思想構建,廣域網連接的網絡使用邊界網關協議(Border Gateway Protocol,BGP)分發域間路由。本端網絡只通告可信的路由給對端自治域系統,這種網絡架構在軟件定義網絡技術提出之前,很難管控廣域網的端到端業務和流量。
隨著網絡虛擬化和軟件定義網絡技術的發展,基于overlay的網絡虛擬化轉發被大規模采用[1,2]。同時SDN的控制轉發分離理念使用專用的控制器集中計算overlay路徑,分發overlay和underlay之間的網絡轉發標識,使得廣域網連接網絡之間業務路徑的實時監控和端到端的路徑計算與控制成為可能,這是SD-WAN技術產生的技術背景。
SD-WAN具備以下5大技術特點。一是支持混合鏈路接入,SD-WAN提供多種線路接入,包括MPLS專線、互聯網線路和4G/LTE/5G等混合鏈路。二是支持多WAN聚合和線路切換,SD-WAN通過WAN線路實時測速技術,overlay數據支持在多條WAN線路之間實現流量的負載均衡和流量動態切換,實現網絡線路的active-active端到端保護。當某條線路出現故障時,流量可以全部切換到其他的線路。三是支持業務QoS,保證關鍵業務應用,根據業務與企業應用策略選擇網絡質量高的線路傳輸關鍵業務數據。四是支持遠程集中管理,SD-WAN支持零接觸部署,即使在沒有專業IT人員的小門店也可以完成設備上線工作。SD-WAN設備上電即可連接到控制系統,完成注冊和設備鑒權。五是支持安全加密,SDWAN提供安全的傳輸隧道,一般使用AES-128加密算法或AES-256加密算法對傳輸的數據進行端到端加密[3-8]。
本論文的課題來源于四川速寶網絡科技有限公司上海璞速網絡科技分公司SD-WAN產品傳輸優化技術研究項目。其目的是研究SD-WAN產品在使用廉價的互聯網線路替代專線后,當互聯網線路的網絡質量不佳時,使用傳輸優化能保證客戶業務正常運行。
提出的傳輸優化技術可以應用于物聯網、視頻加速、在線教育以及企業辦公等場景和領域,在SDWAN產品監測到網絡質量性能下降時,開啟數據傳輸雙發策略,利用SD-WAN的多WAN聚合和虛擬化技術,用戶數據在SD-WAN的兩個WAN線路復制傳輸,接收端以收到最先到達的數據為準并忽略后續重復的數據報文。
為了節省網絡帶寬提高數據傳輸效率,本論文提出了一種動態雙發策略技術和算法,以網絡質量參數時延、抖動以及丟包率等網絡性能指標為基礎,計算網絡質量評分和動態雙發補償率。當網絡質量越差時,雙發補償率取值越大,數據雙發系數越高,雙發的數據比例越高。此算法既保證SD-WAN產品在會議視頻、IoT、在線教育以及企業辦公等應用場景下客戶業務在網絡質量下降時能正常傳輸,也提高了網絡利用率,節省了網絡成本。
本論文所述技術已經應用于公司SD-WAN產品,目前已經部署在某在線教育App接入網絡、跨國公司樓宇自控系統的IoT數據采集網絡系統以及跨國企業Zoom會議網絡系統等,均取得了良好的效果。即使在網絡丟包率超過30%、跨國時延超過200 ms時,在開啟了本論文提出的傳輸優化技術功能后,仍能保證業務的正常進行,提高客戶使用SD-WAN產品的滿意度,增加了公司產品的銷售額。
SD-WAN使用了網絡虛擬化的overlay技術轉發業務數據,分支和總部/數據中心之間的業務流量基于overlay技術建立網絡連接,業務流量獨立于underlay網絡進行傳輸,underlay網絡使用多種網絡路徑進行underlay數據轉發,數據流量具體走哪條通道進行轉發,對overlay業務數據無感,企業可以使用互聯網線路和MPLS專線,甚至4G線路傳輸數據。
針對如何提高SD-WAN產品網絡傳輸的傳輸性能問題,本論文提出一種數據雙發策略的傳輸優化技術,充分利用SD-WAN的多WAN聚合和虛擬化技術。在發送端對overlay數據包進行報文復制,并同時在不同的underlay線路發送和傳輸,接收端以接收到的第一份為準并忽略掉后續重復的數據報,以滿足SDWAN產品在IoT、視頻加速、在線教育以及企業辦公等領域對網絡高質量性能的要求。
相比傳統的前向糾錯碼(Forward Error Correction,FEC)技術在單條線路上傳輸,在線路質量稍微變差時,FEC技術可以通過冗余算法和適當的冗余比計算出丟失的報文,但是在線路質量急劇時(如丟包率達到40%以上時),FEC的糾錯技術即使配置冗余比為1∶1,也無法滿足業務需求,因此此時冗余的傳輸報文也有可能大量丟失,通過冗余的算法無法恢復丟失的報文內容。而本文提出的數據雙發策略技術支持利用SD-WAN的多WAN聚合技術,數據支持在多條線路上傳輸,此時即使一條線路質量出現嚴重惡化,通過備份線路的雙發技術也可以達到恢復丟失的報文,滿足業務的傳輸質量要求。
本論文提出的雙發策略包括持續雙發策略和動態雙發策略,這兩種雙發策略各有優缺點,適用于不同的應用場景。
持續雙發策略在指定的兩條SD-WAN的WAN路徑上啟用雙發策略,不論指定的WAN路徑線路質量好壞,都在指定的兩條WAN路徑上雙發,除非某條線路出現故障,否則報文雙發一直工作。
動態雙發策略根據本文的線路評分系統計算雙發路徑的線路質量,并根據雙發補償率對網絡的數據雙發進行補償。當網絡質量良好時,少雙發甚至不雙發,以減少網絡帶寬額外損耗。當網絡質量不好時,啟用雙發策略,保證網絡傳輸線路變差時業務能正常傳輸。
本文動態可靠傳輸基于一種MOS評價系統,根據一系列的評分公式計算得到網絡的質量分數,評分分數與網絡質量判定的對應關系如表1所示[9,10]。

表1 線路評分
本文提出的鏈路質量評分公式以網絡質量參數時延、丟包率以及抖動等為基礎,并參考歷史取值,以避免短期的波動帶來數據的尖峰值擾動。
t0為當前時間取值,而t1、t2、t3以及t4分別代表過去1 h,12 h,24 h及7×24 h的取值,用D、L與J分別代表時延、丟包率與抖動取值。
D0為當前的時延值,D1為過去1 h內的時延平均值,D2為過去12 h時延的平均值,D3為過去24 h內的時延平均值,D4為過去7×24 h的時延平均值。L0為當前的丟包率,L1為過去1 h內的丟包率平均值,L2為過去12 h丟包率的平均值,L3為過去24 h內的丟包率平均值,L4為過去7×24 h的丟包平均值。J0為當前的抖動值,J1為過去1 h內的抖動平均值,J2為過去12 h抖動的平均值,J3為過去24 h內的抖動平均值,J4為過去7×24 h的抖動平均值。
使用歷史加權平均的方法分別計算得到時延閾值Delay、丟包率閾值Loss以及抖動閾值Jitter,計算如下:

取采樣時間周期t內滿足基準值集合的流量的數量,即在采樣時間周期t內,同時滿足以下3個閾值的流量數,及實際時延小于時延閾值Delay,實際抖動小于抖動閾值Jitter,實際丟包率小于丟包率閾值Loss。
線路的評分值取值大小為0~10,值越大表示越多的采樣數據值滿足設定的閾值,鏈路質量越好,評分值越小表示線路質量越差。例如,一定周期時間t為10 min,根據式(1)、式(2)以及式(3)計算得到時延閾值為30 ms,抖動閾值為2 ms,丟包率閾值為0.5%。假定10 min內總數據流為10 000條,其中滿足時延小于或等于30 ms,抖動小于或等于2 ms且丟包率小于或等于0.5%的數據流的數量為8 000條,則評分值S為8,線路評分等級為好。
根據閾值計算得到不同的雙發策略,當線路質量評分為良好時,雙發補償率α取0,當線路質量為一般時,雙發補償率為0.5,即兩個數據包中有1個數據包進行了雙發,當線路質量為差時,雙發補償率為1,全部數據雙發,具體如表2所示。

表2 雙發補償率α
本論文提出的兩種雙發策略各有優缺點,詳細分析如下。持續雙發策略的優點是實現簡單,不需要復雜的配置和算法計算即可利用雙發策略保證業務的網絡傳輸質量。其不足是不能根據線路的質量動態調整雙發策略,當線路質量很好時,不雙發也可以保證業務的傳輸質量,此時雙發額外消耗網絡帶寬,減少帶寬利用率,增加網絡成本。適用于對網絡質量要求很高而對網絡帶寬利用率要求不高的場景,如語音視頻會議、在線游戲、證券股票以及期貨交易等實時類場景。
動態雙發的優點是根據業務需要啟動雙發策略,在網絡質量良好的時候,減少了網絡帶寬消耗,節省網絡成本。不足是動態雙發啟動需要滿足一定的閾值條件,可能會短時影響正常的業務。適用于辦公應用和云訪問等交互類業務數據場景。
支持雙發策略優化的CPE轉發流程如圖1所示,CPE接收到用戶數據后,根據系統的傳輸優化策略進行轉發。當系統配置不支持雙發策略時,其轉發過程跟傳統的CPE轉發過程一樣,根據CPE的流表和路由表轉發。當配置動態雙發時,CPE根據本論文提出的公式和方法計算線路質量計算線路的評分和雙發補償率,當線路質量觸發雙發閾值時,CPE啟動動態雙發策略,不僅在主用線路轉發用戶數據,而且在備用線路上根據雙發補償率復制一定的雙發數據,并在備用線路傳輸。當線路質量沒有觸發雙發策略時,數據僅在主用線路上傳輸,當系統配置持續雙發策略時,CPE啟動持續雙發流程,數據在指定的兩條WAN線路上轉發。

圖1 CPE轉發流程
測試組網如圖2所示,為實現本文所述的雙發策略,在SD-WAN設備1和SD-WAN設備2之間模擬兩條WAN線路,分別為Internet線路和MPLS線路。為了驗證各種網絡質量場景下本文的策略效果,在模擬Internet線路和MPLS線路中間增加TC模擬損傷儀。SD-WAN設備1和SD-WAN設備2的LAN口連接Spirent(思博倫)TestCenter測試儀的測試端口,TestCenter模擬發送各種業務(如視頻業務、辦公業務)的測試報文。
根據圖2的測試組網圖,使用TestCenter模擬發送視頻業務(RTSP流量),測試路徑的時延約為15 ms,發送視頻業務流量的速率為10 Mb/s。在轉發路徑上使用TC命令模擬各種大小的丟包率,得到的測試結果如圖3和圖4所示。圖3和圖4分別為不使用持續雙發策略和使用了持續雙發策略時不同的丟包率下的業務帶寬。圖3中,當丟包率超過10%時,業務帶寬從10 Mb/s下降到9 Mb/s,丟包率超過30%時,業務帶寬只有2 Mb/s,此時視頻業務基本上不可用。圖4中,當丟包率超過10%時,由于使用了雙發機制,業務帶寬仍然保持在10 Mb/s左右,當丟包率超過30%時,業務帶寬在9.5 Mb/s,業務仍然正常,一直到丟包率達到50%時,業務帶寬才有明顯的下降。

圖2 測試組網圖

圖3 不使用持續雙發策略時不同丟包率下的業務帶寬

圖4 使用持續雙發策略時不同丟包率下的業務帶寬
在轉發線路上使用TC命令增加50 ms時延,即當前轉發路徑的時延約為65 ms,模擬長距離視頻通信業務,然后使用TC命令模擬各種大小的丟包率,得到的測試結果如圖5和圖6所示。圖5和圖6分別為在增加了50 ms時延的情況下不使用持續雙發策略和使用了持續雙發策略時不同的丟包率下的業務帶寬。圖5中,當丟包率在10%以內時,視頻業務通信良好,業務帶寬基本上達到10 Mb/s,當丟包率超過10%時,由于重傳機制,業務帶寬有明顯的下降,只有9 Mb/s左右,當丟包率超過20%時,業務帶寬只有5 Mb/s,視頻業務傳輸帶寬只有限速值的1/2,此時會出現卡頓,丟包率超過30%時,業務帶寬只有2 Mb/s不到,視頻業務無法正常開展。圖6中,當丟包率超過10%時,由于持續雙發策略的補償機制,視頻業務帶寬仍然有9 Mb/s,當丟包率超過30%時,視頻業務帶寬在7 Mb/s,此時視頻業務基本正常,直到丟包率超過40%以后,視頻業務帶寬下降明顯,影響視頻業務的正常進行。

圖5 不使用持續雙發策略時不同丟包率下的業務帶寬
通過對比測試發現,使用本文提出的持續雙發策略,對于近距離視頻傳輸,業務正常開展的丟包率從30%提高到50%。對于遠距離的視頻通信,業務正常開展的丟包率從20%提高到40%。保證了SDWAN場景下使用互聯網替代MPLS專線后的業務正常工作,提高了網絡傳輸質量,降低網絡成本。
仍然以圖2所示的測試組網圖為例,使用TestCenter模擬發送大文件業務(如office辦公和下載流量),測試路徑的時延約為15 ms,發送業務流量的速率為50 Mb/s。在轉發路徑上使用TC命令模擬各種大小的丟包率,得到的測試結果如圖7和圖8所示。圖7和圖8分別為不使用動態雙發策略和使用了動態雙發策略時不同的丟包率下的業務帶寬。圖7中,當丟包率超過20%時,業務帶寬從50 Mb/s下降到44 Mb/s,丟包率30%時,業務帶寬只有30 Mb/s,丟包率超過30%后,業務帶寬下降更快,當丟包率超過40%時,業務帶寬只有20 Mb/s,此時業務使用人員會明顯感覺到網頁訪問速度很慢,下載速率下降。圖8中,當丟包率超過20%后,由于動態雙發策略生效,此時采用部分補償機制,業務帶寬從46 Mb/s恢復到50Mb/s左右,當丟包率超過30%時,動態雙發機制使用全部補償機制,業務帶寬從30%左右的45 Mb/s左右又恢復到50 Mb/s,當丟包率超過50%時,業務帶寬明顯快速下降。

圖7 不使用動態雙發策略時不同丟包率下的業務帶寬

圖8 使用動態雙發策略時不同丟包率下的業務帶寬
通過對比發現,使用本文提出的動態雙發策略,業務正常開展的丟包率從30%提高到50%,并且由于部分補償機制,網絡丟包率在20%以內時,可以保證網絡的帶寬保持在50 Mb/s左右,網絡傳輸更加穩定。
本文針對SD-WAN網絡中使用互聯網線路取代專線后的網絡質量下降問題,提出了在SD-WAN多WAN線路的基礎上使用雙發策略的技術方案。雙發策略包括持續雙發策略和動態雙發策略。對于動態雙發策略,本論文提出了一種以網絡質量參數時延、抖動以及丟包率等參數為基礎的線路質量評分系統,并在評分基礎上計算雙發補償率的公式。
通過測試驗證,本文提出的持續雙發策略和動態雙發對業務傳輸有明顯提高,即使在互聯網線路出現質量下降、網絡丟包率大幅提高時也能保證業務的正常使用。