一種基于深度強化學習的TCP網絡擁塞控制協議

2023-04-07 03:04:32盧光全李建波呂志強

計算機應用與軟件 2023年3期

盧光全李建波呂志強

(青島大學計算機科學技術學院山東青島 266071)

0 引言

隨著互聯網規模和網絡應用的不斷增加,網絡擁塞現象日益顯著。盡管高帶寬的網絡鏈路能夠在一定程度上滿足網絡服務的需求,提高吞吐量和降低延遲等,但更高端的硬件資源價格昂貴且沒有從本質上解決網絡擁塞問題。更可行的是對高層的擁塞控制協議進行設計或改進。隨著計算機網絡路由協議算法的不斷創新,許多網絡擁塞控制協議被提出[1-3]。其中TCP NewReno擁塞控制協議是業界的主流,但由于其基于規則的設計模式,它在動態變化的網絡環境中未能更好地均衡吞吐量和時延。在網絡構建的過程中上述規則被定義為“事件-動作”,即在面對丟包或者擁塞時此類網絡協議只能根據單一的映射關系選擇固定“動作”,盡管這一“動作”會降低網絡吞吐量等性能指標。這些網絡協議也未能根據網絡的過去經驗對擁塞窗口做出動態的自適應調整,僅僅是在特定場景和特定假設下達到網絡性能的次優化。

基于規則的協議主要存在兩個問題:

(1) 當網絡環境發生變化時,這些基于規則的協議不能動態地對新的網絡環境更好地適應。即不同的網絡環境存在不同的帶寬、延遲和網絡拓撲。因此,適用于特定網絡下的TCP擁塞控制協議很難甚至無法在另一個網絡中起作用。

(2) 在構建網絡的時候,人為地建立標準性的假設,在這些假設之上成立規則。

擁塞控制算法在保證應用數據進行可靠傳輸中起著重要的作用。但是,網絡環境是復雜且動態變化的,鏈路的信息具有非透明性,這對設計擁塞控制算法提出了更高的挑戰。如圖1所示,通信雙方的通信鏈路帶寬不均衡。當以1 Mbit/s從S向R發送數據時,超過鏈路所提供的最大帶寬,在M處會發生擁塞,導致網絡性能變差甚至崩塌。此時S就會減小擁塞窗口,降低其發送速率。NewReno遇到此類問題時執行固定的AIMD規則,在網絡出現擁塞時,擁塞窗口的大小默認縮減至原始值的1/2,這種設計浪費了網絡資源,從而嚴重降低了網絡的性能。

圖1 鏈路帶寬不均衡

深度強化學習通過挖掘網絡歷史經驗為處理網絡擁塞提供了新模式。TRL-CC可以有效地克服上述問題,從而學習到一個較成功的策略,最終實現智能化擁塞控制。TRL-CC通過利用歷史經驗實現擁塞控制智能化和擺脫基于規則的模式。在這種情況下,每個發送方作為一個代理,代理與網絡環境直接進行交互,代理不需要了解網絡的全部信息,它只需要觀測網絡環境的狀態(例如:往返時間(RTT)、吞吐量、擁塞窗口等)。一次TCP會話建立到會話結束稱為一個片段。在一個片段內的每個時間步,代理通過接收網絡環境的狀態選擇一個合適的動作,此時的動作會被反饋給環境并且影響環境的下個狀態,同時代理將得到執行這一動作帶來的回報,目的是最大化未來折扣累積回報。

通過上述對傳統TCP擁塞控制問題的描述,本文提出一種基于深度強化學習的智能化擁塞控制方案TRL-CC。盡管沒有必要說明,TRL-CC建立在NewReno之上。對TRL-CC研究的主要貢獻如下:

(1) TRL-CC利用時序卷積網絡對歷史經驗進行時序上因果關系處理,并結合強化學習選取合適的動作對擁塞窗口進行調整。據我們了解,盡管在這之前存在基于強化學習的擁塞控制方案,同時它們也利用歷史經驗學習網絡環境以達到目標(例如:高吞吐量、低延遲等)。但是,它們僅僅是把過去經驗直接作為輸入,未考慮歷史經驗中存在的隱式關系。利用當前的網絡狀況跟過去一段時間內的網絡情況有著密切聯系這一隱式條件,TRL-CC可以學習到更優的策略來實現智能化的擁塞控制。所以該方案是首次利用歷史經驗在時序上的因果關系并結合強化學習實現擁塞控制。

(2) TRL-CC在實現智能化的擁塞控制方案時,對往返時間進行量化。擁塞窗口通過結合量化往返時間進行自適應動態調整。

(3) 本文考慮到環境執行動作到代理收到執行這一動作的回報存在延遲。所以,TRL-CC在學習過程中對Q函數的更新做了修改。代理用t+1時刻的回報代替t時刻的回報。

(4) TRL-CC通過NS-3[4]仿真,并且與TCP NewReno以及基于強化學習的擁塞控制(RL-CC)方案作比較,表明TRL-CC能夠更好地學習網絡狀況,同時在性能方面較NewReno和RL-CC有著顯著的提升。

1 相關工作

1.1 回顧

在有線和無線網絡中,TCP是被廣泛探討的話題。同時,擁塞控制是網絡中最基本的問題。多年來,許多端到端擁塞控制理論被提出。例如,Reno[5]根據返回的確認字符(ACK)信息調整擁塞窗口,在低帶寬、低時延的網絡中可以發揮出優勢。但是在高帶寬延時網絡中,RTT很大,擁塞窗口增長慢,導致帶寬利用率降低。Cubic[6]使用cubic函數調整擁塞窗口,其優點在于只要沒檢測到丟包,就不會主動降低發送速率,可以最大程度地利用網絡剩余帶寬。但這也將會成為其短板。Vegas[7]將時延作為擁塞出現的信號。如果RTT超過了預期的值則開始減小擁塞窗口。還有包括BBR[8]、Compound TCP[9]等端到端的擁塞控制協議。這些協議都有各自獨特的設計,它們使用固定的函數或者規則調整擁塞窗口的變化。對于上述傳統的擁塞控制協議,固定規則策略限制了它們適應現代網絡的復雜性和快速變化。更重要的是,這些擁塞控制協議不能從歷史經驗中學習。

同時,研究者們已經利用機器學習方法來解決傳統TCP協議的局限性。例如,Remy[10]使用機器學習的方式生成擁塞控制算法模型,針對不同網絡狀態采用不同的方式調整擁塞窗口。它通過離線方式進行訓練,通過輸入各種參數(如瓶頸鏈路帶寬、時延等),反復調節目標函數使其達到最優,最終會生成一個網絡狀態到調節方式的映射表。當訓練的網絡模型假設與實際網絡的假設一致時,Remy可以很好地工作。但是當實際網絡假設發生改變時,Remy的性能會下降。它的映射表是在訓練時計算得出的,與傳統的TCP及其變種一樣,它無法適應不斷變化的網絡環境,每當網絡環境發生變化時,它必須重新計算映射表。PCC[11]摒棄基于規則的模式,可以快速適應網絡中不斷變化的條件。它不斷地通過“微型實驗”積極尋找更優的發送速率。但是,貪婪地尋找更優的發送速率會讓其陷入局部最優的地步。并且,它的性能需要依靠準確的時鐘。不論是Remy還是PCC,它們都把網絡環境視為黑匣子,拋棄了傳統的基于規則的設計模式,專注于尋找可以達到最好性能的發送速率改變規則。但是,它們都沒有利用先前的經驗。

近來,許多研究者利用強化學習和網絡擁塞控制結合,這一結果能夠更好地解決TCP擁塞控制問題。QTCP[12]是把Q-learning與擁塞控制結合得到的在線學習方案。它可以較好地適應新的網絡環境,擺脫傳統的基于規則的設計原理,從經驗中學習網絡狀況以獲得更好的性能(例如,高吞吐量、低時延)。并且提出一種廣義的Kanerva編碼函數逼近算法。TCP-Drinc[13]與深度強化學習結合,把多個觀測狀態通過深度卷積網絡處理,然后加入LSTM再對特征進行深層次的提取,最終通過一個全連接網絡選擇動作,來決定如何調整擁塞窗口的大小。它也是一種從過去的經驗中學習合適的策略以適應網絡環境動態變化的擁塞控制方案。盡管QTCP和TCP-Drinc都是從過去的經驗中學習,但都未曾考慮歷史經驗中的因果關系。

1.2 NewReno存在的問題

擁塞控制的目標是多個發送方可以公平地共享一個瓶頸鏈路帶寬,不會引起網絡的崩塌。每個發送方包含一個有限大小的擁塞窗口(cwnd),維持發送數據的多少,以保證注入網絡的數據包不會引起網絡擁塞。TCP擁塞控制協議及其變種不斷地被提出。TCP NewReno通過AIMD規則來維持整擁塞窗口。AIMD主要包含三個步驟:

(1) 慢開始:cwnd=cwnd+1(每個ACK都被發送方收到)。

(2) 擁塞避免:cwnd=cwnd+1/cwnd(每個ACK都被發送方收到)。

(3) 快恢復:cwnd=cwnd/2(收到三次重復ACKs)。

圖2為TCP NewReno流的擁塞窗口(包的數量)隨時間的變化。它通過AIMD規則控制擁塞窗口變化。一個TCP會話建立時,發送方并不知道擁塞窗口應該取多大的值適合當前的網絡狀況,所以數據包剛注入網絡時擁塞窗口會快速提升到某個值((1) 慢開始),盡管這種策略被稱為慢開始,但是擁塞窗口呈指數增長。TCP設置了一個慢開始門限限制擁塞窗口無限增加。發送方根據確認字符判斷網絡出現擁塞,進入擁塞避免階段((2) 擁塞避免),擁塞窗口增長緩慢(在接收到每個確認信息ACK)。直到鏈路發生丟包或發送方收到三個重復冗余ACK,進入第三階段((3) 快恢復),跳過慢開始階段直接進入擁塞避免。AIMD原理說明TCP過程將會收斂到一個同時滿足效率和公平性的平衡點上,也表明多個流在共享一個鏈路時最終能得到收斂[14]。

圖2 NewReno流擁塞窗口

2 對問題的建模

2.1 問題描述

當一個網絡的拓撲和參數發生改變時,網絡需要重新被規劃以充分利用瓶頸鏈路帶寬和降低往返時間。事實上,在保證充分利用帶寬和降低往返時間的前提下,本文提出基于強化學習的TRL-CC通過學習歷史經驗達到自適應動態規劃網絡目的。強化學習包含兩個實體:代理和環境。通常情況下,深度強化學習用于解決馬爾可夫決策問題(MDP)。但在本文中,網絡內部信息并不透明,代理不能完全了解網絡信息。因此,本文對網絡環境建模為部分可觀測馬爾可夫問題(POMDP)。

沒有先驗知識的代理通過學習得到最優策略π(a|st),通常情況,策略π(a|st)是通過狀態空間S到動作空間A映射,定義為:

π(a|st)S→A

(1)

代理根據當前狀態st隨機或根據式(1)固定地選取動作at并從環境中獲得回報r(st,at),目的是最大化長期累積折扣回報,被定義為:

Rt=r(st,at)+γ·Rt+1

(2)

式中:γ∈[0,1]表示折扣因子。

即使在相同的環境中,當策略發生變化時,累計回報也會發生改變。這是因為累計回報取決于選取的動作。此時,需要計算代理在狀態st下執行動作at后獲得的累計回報,這得以從Q函數體現,被定義為:

Qπ(st,at)=Est+1[rt+γQπ(st+1,at+1)|st,at]

(3)

2.2 狀態空間

在一個TCP會話建立時,有許多的狀態變量可以描述網絡情況,例如往返時間TRT和最小往返時間TRT,min、上次發包的時間、慢開始的閾值、擁塞窗口大小、連續兩次發包的擁塞窗口的差值、平均往返時間、收到確認信息的總和、在一個時間間隔內接收到的平均確認信息、網絡吞吐量等。選取只與代理目標相關的特征并做預處理是必要的,因為能更好地解釋模型。

數據包傳輸時,通過最小往返時間可以估計出鏈路的傳輸時延,但是鏈路可能會發生動態變化。因此,最小延遲比vRTT=TRT,min/TRT也作為衡量網絡狀況特征,它表示在動態變化的鏈路中數據的傳播時延所占的比例。同時,數據包的傳輸過程中需要考慮隊列延遲,把dRTT=TRT-TRT,min作為隊列延遲的估計。此外,返回確認信息表明在一次數據傳輸過程,接收方收到數據包還是丟失數據包,一定程度上可以反映網絡情況,所以確認信息(ACK)也作為一個特征。

通過上述討論,下一步定義TRL-CC的狀態空間。在一個TCP會話期間,代理對觀測狀態處理之后,我們考慮以下特征:(1) 擁塞窗口大小,用w表示;(2) 一次發包時間內的吞吐量(tp);(3) 往返時間(TRT);(4)TRT,min和TRT之比υRTT;(5)TRT和TRT,min兩者之間的差值dRTT;(6) 發送數據包后返回的確認字符,用τACK表示。因此,狀態空間定義為:

S=[s1,s2,…,sk]

(4)

其中st表示為:

st=[w(t),tp(t),RTT(t),υRTT(t),dRTT(t),τACK(t)]

(5)

代理選取式(5)中的s1,s2,…,sk這K個歷史經驗作為時序卷積網絡的輸入,提取時序上隱式的因果關系。最終,代理把提取的隱式特征壓成一維張量作為DQN的輸入。

2.3 動作空間

代理通過在動態變化網絡中學習合適的策略,處理每個觀測狀態后選擇合適的動作,構成<狀態,動作>對,并將動作映射為擁塞窗口的改變。如表1所示,擁塞窗口調整的狀態空間A,共有5個動作。代理結合往返時間的量化對擁塞窗口做動態改變。本文參考文獻[15]對往返時間均勻量化為M個區間,如式(6)所示。

Δμ=(TRT,max-TRT,min)/M

(6)

式中:Δμ稱為乘性因子,擁塞窗口隨乘性因子做不定的改變。代理預測的任何一個動作對改變擁塞窗口滿足式(7):

表1 擁塞窗口改變規則

2.4 回報和效用函數

回報是指代理在每個時間步選取動作后作用于環境中,然后從環境中獲得的評價性響應?；貓笕≈低ㄟ^效用函數得到映射。TRL-CC的效用函數目標是最大化吞吐量且最小化延遲。因此,效用函數的定義如下:

Utilityt=α×log(tp(t))-βlog(RTT(t))

(8)

式中:α、β代表吞吐量、往返時間的權重,且α+β=1。式(8)表明應該努力地最大化吞吐量的同時最小化延遲。

盡管效用函數是模型要實現的目標,但值得注意的是,代理僅僅采用式(8)作為回報函數,代理可能持續選擇相同的動作,使得效用函數一直是最大化,但網絡的性能并不一直是最優的。為了能夠更好地均衡吞吐量和往返時間。本文采用時間步t和t+TRT連續時間的效用函數值之差來定義效用函數,如下:

U=Ut+TRT-Ut

(9)

表2中,ε表示兩個連續效用值差值的容忍度。當連續的兩個效用函數值的差大于ε,代理會得到一個正的回報值,反之亦然。

表2 效用函數回報

3 擁塞控制方案

3.1 TRL-CC

隨著機器學習和深度學習在視頻流[16-18]、流量預測[19-20]等方面的成功發展,這促使本文利用深度學習對擁塞控制做進一步研究,尋找一個智能化的擁塞控制方案。TRL-CC的設計如圖3所示,它可以從歷史經驗中隱式學習和預測未來網絡情況。它大致可以分為三部分:(1) 對網絡實行控制和決策的代理;(2) 執行代理選擇的動作并對這些動作做出標準性評價的環境;(3) 存放歷史經驗的緩沖區。

圖3 TRL-CC模型

本文對傳統的強化學習策略做了改進。首先,每過一個往返時間,緩沖區更新一次。數據以元組(st,at,rt,st+TRT)的形式存放在緩沖區中。TRL-CC利用時序卷積網絡提取歷史經驗中隱式的關系作為輸入,每次選取K個歷史經驗。最后,t時刻的回報經過TRT才會被代理收到。本文考慮這一延遲,改變了Q函數的更新方式。通過這些改進,DQN可以從歷史經驗中更好地學習。

3.2 代理

在定義了狀態、動作空間、回報函數和TRL-CC方案設計之后,現在介紹代理的設計如圖4所示。代理將時序上連續的K個歷史經驗作為輸入,并且輸出是動作空間中的下一個動作。

圖4 代理設計(FC:全連接層;A:動作空間)

在單獨使用強化學習實現擁塞控制時,僅僅是把過去經驗直接作為輸入。盡管可以得到比傳統模型好的效果,但RL-CC卻忽略了歷史經驗中隱式的因果關系。文獻[21]中提到時序卷積網絡(TCN)在處理時序上的序列時是一個非常有前景的方法。在t時刻,代理從緩沖區中選取t時刻之前的K個連續的歷史經驗作為TCN的輸入。TCN的卷積網絡層層之間是有因果關系的,意味著不會“遺漏”歷史信息的情況發生。而且它使用大量的空洞卷積擴大感受野,可獲得更長的歷史信息。網絡參數的丟棄概率是0.3。最后,代理通過兩個全連接網絡來計算最合適的動作的Q函數值。

在圖4中,代理使用全連接層網絡計算每個動作的Q函數值時,采用的是Softmax激活函數,定義如下:

代理選取最大概率的動作Ai計算對應的Q函數值。

3.3 DQN訓練過程

在實現擁塞控制時,在每個時間步t,代理會接收到來自環境的狀態向量st,基于策略π(st)選擇動作at。并且在下一個時間t+TRT,代理收到標量值回報r(st,at),表示在時間步t執行動作at的回報。但是,環境執行動作at的回報被代理在時間t+TRT收到,這表明在學習中存在延遲τ。在強化學習中,像這樣的延遲大多都被忽略掉。然而,對于擁塞控制來說,它對維持網絡穩定有著重要的作用。出于此原因,TRL-CC在學習過程中對Q函數(式(3))的更新做了修改。代理把rt+1作為動作at的回報。因此,在時間t+1開始時,修改Q函數的更新方式為:

Qπ(st,at)←rt+1+γQπ(st+2,at+2)

(10)

式中:Q函數利用神經網絡進行近似。

式中:ω表示神經網絡權重,將代理得到的觀測狀態通過時序神經網絡進行處理后和權重作為神經網絡的輸入,然后通過迭代和學習得到近似的Q函數。

在神經網絡進行訓練時,假設式(11)成立,由此定義損失函數為:

4 實驗結果與分析

4.1 網絡環境

本文利用NS-3仿真網絡環境,如圖5所示,在路由器1和路由器2之間有著大小為B的頸鏈路帶寬,設置最小往返時間為80 ms,這是一種典型的啞鈴狀網絡模型。有N個發送方和N個接收方,多個發送方共同競爭一個瓶頸鏈路,每個發送方都是一個獨立的代理。代理每次訓練50個片段,每個片段為800 s。如果代理在TRT時間間隔內沒有接收到確認字符,則會用上一時刻的觀測狀態。

圖5 網絡拓撲

為了驗證TRL-CC的性能,選擇兩個基準方案NewReno、RL-CC進行對比。本文主要專注于吞吐量和往返時間兩方面的性能。

4.2 評估

本節評估本文提出的TRL-CC方案的性能。首先它與傳統的擁塞控制算法NewReno、未考慮時序特征的基于強化學習的擁塞控制方案進行對比。隨后通過實驗分析歷史經驗K的取值。最后,TRL-CC不做任何改變的部署在高帶寬網絡進行實驗分析。

4.2.1TRL-CC性能

圖6是代理在進行20個片段的訓練后得到的擁塞窗口和往返時延以及吞吐量的變化曲線。它包含代理學習的三個過程:(1) 隨機探索;(2) 隨機學習;(3) 收斂階段。擁塞窗口的變化符合式(7),在圖6(a)和圖6(b)中可以看出擁塞窗口是通過往返時延量化的。標注①之間是隨機探索過程,代理以一定概率隨機選取動作,隨機選擇動作的概率為0.1。在代理學習的過程中隨機選擇概率會減小,但是最終它不會為零,因為面對動態變化的網絡保持一定的概率探索環境是有必要的。標注②之間是隨機學習過程,代理通過學習到的策略選擇合適的動作,然后結合效用函數確保代理達到收斂階段(標注③),最終往返時延收斂到最小往返時延附近波動。

(a) 擁塞窗口的變化

(b) 往返時延的變化

通過圖6(c)可以看出,盡管代理在學習過程中使得擁塞窗口自適應減小(發包數量減少),但是吞吐量卻一直保持穩定。這也進一步說明TRL-CC在減小延遲的同時也能充分利用瓶頸鏈路帶寬,提高鏈路利用率。

4.2.2對比實驗

此節主要通過從吞吐量和延遲方面進行比較,展示TRL-CC在吞吐量和延遲方面具有良好的性能。主要以下面三個擁塞控制方法進行比較:

(1) TCP NewReno:如今廣泛應用的經典擁塞控制算法之一。

(2) RL-CC:基于強化學習的擁塞控制方案,沒有利用歷史經驗在時序上的關系。將其作為TRL-CC的對比實驗。

(3) TRL-CC:在RL-CC的基礎之上,考慮過去經驗在時序上的因果關系。即此刻的網絡情況與之前某段時間內的網絡情況是有聯的。利用時序卷積網絡提取網絡中潛在的關系,對未來網絡情況做更好的規劃。

從圖7(a)可以看出,NewReno的時延上下浮動劇烈且時延較其他兩者相對較高。在圖7(b)中,NewReno的吞吐量存在波動且不能保持穩定。這主要是因為NewReno中固定的AIMD規則,當代理觀測到有包丟失時,擁塞窗口減半。而另一方面,在TCP連接剛建立時,RL-CC方案隨機探索階段時延波動大、收斂較慢,同時吞吐量的穩定性比較差。TRL-CC較RL-CC可以學習到控制網絡行為更優的策略,時延可以快速收斂且在最小往返時間附近波動,吞吐量保持相對穩定。主要原因是,歷史經驗中存在時序上隱式關系,這種關系一旦被提取利用,代理就可以更好地結合過去經驗和現在的網絡情況,并對未來網絡情況做好規劃。

(a) 三個算法的往返時間

(b) 三個算法的吞吐量

(d) 平均吞吐量圖7 TRL-CC、NewReno、RL-CC比較

通過圖7(a)和圖7(b),得到了圖7(c)和圖7(d)?？梢赃M一步看出,TRL-CC無論在時延還是吞吐量方面,它的性能較于前兩者都是最好的。這是因為它利用歷史經驗中潛在的因果關系,并且得以從效用函數中體現。TRL-CC在吞吐量方面較NewReno提升32.8%,較RL-CC提升8.5%,瓶頸帶寬鏈路得到了充分利用;較NewReno時延降低41.3%,較RL-CC時延降低12%。

TRL-CC不僅在吞吐量和延遲方面達到了較高的性能,而且相較于其他兩個方案更均衡吞吐量和時延,更加具有魯棒性。

4.2.3K取值分析

在考慮過去經驗時,過去經驗選取數量(K)對擁塞控制有著很大影響。此節對歷史經驗K取值進行比較,同時取不同K值的方案也與NewReno以及RL-CC作對比,結果如圖8所示。

(a) K取不同值的往返時間對比

(b) K取不同值的吞吐量對比

(d) 平均吞吐量圖8 K取值不同對網絡影響

正如圖8(a)所示,當K=64和K=128時,延遲波動較小且在最小往返時間附近,相對較小。反觀K=16和K=32時,盡管時延在NewReno和RL-CC下面浮動,但卻幾乎沒有收斂到最小往返時間附近。這種原因有兩種:(1) 在定義狀態空間時,代理加入了隊列延遲這一特征;(2) 關鍵是時序卷積網絡處理較長時間的歷史經驗,它能夠存儲更長時間的信息,代理可以從更豐富的信息中學習,使隊列延遲一直保持較小值。另一方面,圖8(b)表示吞吐量的變化,K取值大(K=64 128),吞吐量變化保持穩定。結果表明,歷史經驗K越大時,TRL-CC方案的性能越優。同時,通過圖8(a)和圖8(b),TRL-CC通過效用函數均衡了吞吐量和往返時間。最后,柱狀圖(圖8(c)、圖8(d))進一步詮釋了上述結論。

4.2.4高帶寬網絡

本節把在瓶頸鏈路帶寬2 Mbit/s、最小往返時間為80 ms訓練好的模型直接部署到網絡瓶頸鏈路帶寬為20 Mbit/s、最小往返時間為80 ms的網絡中。每個片段的訓練時間仍然是800 s。

在網絡發生變化時,圖9表示三種擁塞控制方案的自適應性。NewReno因基于規則的設計,不能從歷史經驗中學習,導致它在面對網絡變化時表現出很差的性能甚至使網絡出現崩塌。TRL-CC在面對網絡變化時仍然可以從歷史經驗中學習到最優策略,具有更好的魯棒性。如圖9(a)所示,隨著瓶頸鏈路帶寬的增大(與2 Mbit/s相比),往返時間變小。這是由于帶寬變大時隊列延遲降低,這顯然是合理的。圖9(b)是相應的吞吐量隨模擬時間的變化,當歷史經驗K取值較大時,代理在學習過程中會謹慎。這是因為代理綜合“考慮”歷史經驗,避免出現網絡性能下降。歷史經驗K取值越大、延遲越小且在最小往返時間附近波動;吞吐量也越穩定。

(a) 鏈路帶寬為20 Mbit/s的往返時間

(b) 鏈路帶寬為20 Mbit/s的吞吐量

(d) 平均吞吐量圖9 鏈路帶寬發生變化時性能對比

圖9(c)和圖9(d)表明,TRL-CC較NewReno吞吐量提升25.8%,較RL-CC吞吐量提升8.3%。另一方面,TRL-CC較NewReno延遲降低33%,比RL-CC降低15%。最終,在變化的網絡中,TRL-CC的自適應性更好,仍然能保持最優性能。

5 結語

本文提出智能化的擁塞控制方案。不像傳統的基于規則的擁塞控制協議,它通過量化往返時間控制擁塞窗口自適應動態變化。雖然RL-CC通過學習過去經驗對未來網絡進行規劃,取得了較好的效果。但TRL-CC通過時序卷積網絡處理過去經驗在時序上存在的因果關系,這使得該方案較RL-CC更具有魯棒性,在吞吐量和往返時間方面取得更好的性能。

首先,本文在瓶頸鏈路帶寬較小的網絡中部署TRL-CC。TRL-CC較NewReno和RL-CC(未考慮過去經驗在時序上存在的因果關系)在吞吐量和延遲方面達到了更好的性能。在平均吞吐量方面,TRL-CC比NewReno提升32.8%,比RL-CC提升8.5%。同時TRL-CC的時延比NewReno降低41.3%,比RL-CC降低了12%。然后,把訓練好的TRL-CC遷移到高帶寬網絡環境中,不需要再次訓練。通過實驗分析,TRL-CC的吞吐量比NewReno和RL-CC分別提升25.8%和8.3%;延遲降低33%和15%。最終,本文對歷史經驗K取值進行探討,發現代理“考慮”歷史經驗越多時,TRL-CC越可以更好地均衡吞吐量和時延。