面向虛擬數據空間的智能TCP擁塞控制算法

2021-05-11 07:05:14王龍翔董凱李小軒董小社張興軍朱正東王宇菲張利平

西安交通大學學報 2021年5期

王龍翔,董凱,李小軒,董小社,張興軍,朱正東,王宇菲,張利平

(1.西安交通大學計算機科學與技術學院,710049,西安;2.西安美術學院信息中心,710065,西安)

當前,國家高性能計算環境中存儲資源廣域分散且隔離自治,大型計算應用迫切需要可支持跨域統一訪問、廣域數據共享、存儲與計算協同的全局數據空間。因此,我國擬構建跨域虛擬數據空間,實現廣域安全可靠數據共享、計算與存儲高效協同、跨域多源數據聚合處理等關鍵科學問題,從而發揮廣域資源聚合效應,有效支撐大型計算應用。虛擬數據空間的部署環境包括3個國家級超算中心(廣州、濟南、長沙)、兩個國家網格南北主節點(中國科學院、上海)。虛擬數據空間在線存儲近30 PB,活躍用戶數超過6 000個,長期支撐數值模擬、大數據、人工智能等眾多大型計算應用。虛擬數據空間存儲數據規模達到PB級,其上層典型應用包括天氣預報、全基因組關聯分析等。不同超算中心在進行跨域節點數據遷移時,規模通常可達GB級甚至TB級,對網絡傳輸性能提出了挑戰。

為了實現虛擬數據空間可靠數據遷移,需要構建高效的可靠網絡傳輸協議,而擁塞控制是實現高效可靠傳輸的關鍵技術。虛擬數據空間構建于廣域網之上,其網絡環境復雜多變,盡管在過去30年中研究者提出了各種各樣的TCP擁塞控制算法(例如NewReno、Cubic等),但是這些算法普遍針對特定的網絡環境,只能按照預先定義的規則進行擁塞控制,難以適應虛擬數據空間復雜多變的網絡環境。

NewReno[1]和Cubic[2]使用數據包丟失來檢測擁塞,并在檢測到擁塞后降低擁塞窗口長度。Vegas[3]使用延遲、而不是丟包作為擁塞信號,可以解決基于丟包的擁塞控制問題。當Vegas檢測到往返時延(RTT)超過設定值時,就會開始降低擁塞窗口長度。Westwood[4]改良自NewReno,基于傳輸能力的擁塞控制機制使用鏈路發送能力的預測作為擁塞控制的依據,通過測量確認字符(ACK)包來確定合適的發送速度,并以此調整窗口和慢啟動閾值。混合擁塞控制機制組合兩種擁塞控制機制,以得到它們各自的優勢,進而更好地進行擁塞控制。Compound[5]、BBR[6]都屬于混合擁塞控制機制。

傳統擁塞控制機制使用確定的規則集對擁塞窗口及其他相關參數進行控制,很難適應現代網絡的復雜性和快速發展。因此,研究者提出了基于強化學習的擁塞控制算法。強化學習作為機器學習的研究熱點,已經廣泛應用于無人機控制[7]、機器人控制[8]、優化與調度[9-11]以及游戲博弈[12]等領域。強化學習的基本思想是構造一個智能體,使智能體與環境進行互動,通過最大化智能體從環境中獲得的累計獎賞,學習到完成目標的最優策略。相比傳統擁塞控制算法,基于強化學習的擁塞控制算法適應性好,能自主從網絡環境中學習新的擁塞控制策略。

文獻[13]提出了一種基于強化學習的算法生成擁塞控制規則,專門針對多媒體應用優化體驗質量。文獻[14]使用強化學習算法來自適應地更改參數配置,從而提高了視頻流的體驗質量。文獻[15]提出了一種自定義的擁塞控制算法Hd-TCP,應用深度強化學習從傳輸層角度處理高鐵上網絡頻繁切換引起的網絡體驗較差的情況。文獻[16]利用模型輔助的深度強化學習框架提高了虛擬網絡功能的適用性。文獻[17]主要針對災難性5G毫米波網絡,通過監測節點的移動性信息和信號強度,并通過預測何時斷開和重新連接網絡來調整TCP擁塞窗口長度。文獻[18]提出了一種基于深度學習的5G移動邊緣計算擁塞窗口長度。文獻[19]基于深度強化學習,設計并開發了一種針對命名數據網絡的擁塞控制機制DRL-CCP。TCP-Drinc[20]是基于深度強化學習的無模型智能擁塞控制算法,它從過去的網絡狀態和經驗中獲得特征值,并根據這些特征值的集合調整擁塞窗口長度。TCP-Drinc在吞吐量和RTT之間取得了平衡,比NewReno、Vegas等算法具有更穩定、平均的表現,但在吞吐量上并沒有明顯的改善。Rax算法[21]使用在線強化學習,根據給定的獎勵函數和網絡狀況維持最佳的擁塞窗口長度。該算法丟包率較低,但對比Reno、PCC等算法,吞吐率提升較小。QTCP[22]基于Q-learning進行擁塞控制[23],吞吐率有進一步提升。Q-learning的核心思想是求出所有狀態-動作對(s,a)的價值Q,Q代表了在當前狀態s下選擇a可以獲得的回合內預期獎勵值。如果求出了所有狀態-動作對(s,a)的價值Q,則只需每次在狀態s下選擇能使Q最大的動作a即可實現最優擁塞控制策略。然而,Q-learning算法存在學習速度慢、收斂難的問題。由于Q-learning算法旨在求出所有狀態-動作對(s,a)的無偏Q,因此需要根據Bellman方程反復迭代才能求出Q的準確值,當Q發生輕微變化時,可能導致訓練過程發生反復振蕩。當Q-learning算法的動作空間較大時,Q-learning極易收斂到局部最優解,而基于策略梯度的強化學習算法則解決了Q-learning算法存在的學習速度慢、收斂難等缺陷,策略梯度算法的思想是直接優化策略函數,通過梯度上升的方式使策略函數獲得的獎勵值最大。近端策略優化(PPO2)是目前最佳的策略梯度算法之一[24],已被OpenAI公司作為默認梯度策略算法。

有鑒于此,本文提出了基于PPO2算法的擁塞控制算法TCP-PPO2,該算法可以在學習過程快速收斂,實現虛擬數據空間的高效可靠數據遷移。與主流擁塞控制算法相比的結果表明,本文算法在虛擬數據空間應用環境中可行有效。

1 基于PPO2的TCP擁塞控制算法

TCP-PPO2算法框架如圖1所示。強化學習需要構造環境和智能體。將虛擬數據空間網絡作為環境,通過觀察環境中的狀態信息,構造智能體使用的策略函數,生成最優控制動作,策略函數采用人工神經網絡進行擬合。智能體根據策略函數輸出的動作對擁塞窗口長度進行調節,優化虛擬數據空間網絡性能。在生成動作并與環境互動后,智能體會從環境中收獲獎勵值。智能體根據獎勵值評判所選動作的優劣,并根據獎勵值更新人工神經網絡參數,使策略函數能夠生成收獲獎勵值更多的動作。

圖1 TCP-PPO2算法框架Fig.1 Framework of TCP-PPO2 algorithm

根據是否求出狀態概率轉移矩陣,可將強化學習分為無模型和基于模型兩種類型。

基于模型算法從環境模型中交互得到樣本,根據樣本估計狀態概率轉移矩陣對環境進行建模。獲得的樣本能夠多次使用,樣本利用率高。根據狀態概率轉移矩陣能夠更好地設計獎勵值來引導智能體學習。但是,基于模型算法對環境的建模可能存在偏差。模型一旦確立,訓練好之后,環境出現新的改變就會失效,泛化能力差。基于模型算法的典型代表是動態規劃。

無模型算法直接根據從環境交互中得到的反饋信息(獎勵值)求出最優控制策略,而不是求出狀態概率轉移矩陣。該算法泛化能力強,但是存在學習效率低、收斂慢的問題。這是因為該算法類似將環境作為一個黑盒進行反復試錯求出最優控制策略,智能體缺少足夠的指引。Q-learning[23]、PPO2[24]都是典型的無模型算法。

這兩類算法的區別在于是否能夠求出狀態概率轉移矩陣。對于本文要研究的虛擬數據空間網絡擁塞控制,求出狀態概率轉移矩陣難度大、代價高,而且網絡環境會不斷發生變化,從而導致需要不斷更新狀態概率轉移矩陣。因此,本文采用的是無模型算法,智能體在不了解狀態概率轉移矩陣的情況下求得最優擁塞控制策略。

1.1 問題形式化

將基于強化學習的TCP擁塞控制過程抽象為一個可部分觀察的馬爾可夫決策過程,定義為五元組{S,A,R,P,γ}。其中:S為所有環境狀態的集合,st∈S表示在t時刻觀察到的狀態,初始狀態為s0;A為可執行動作的集合,at∈A表示在t時刻所采取的動作;R為獎勵值函數,定義為R(st,at)=E[Rt+1|st,at],表示在t時刻觀察到狀態為st、選擇動作at后,在t+1時刻收到獎勵Rt+1;P為轉移概率矩陣;γ∈[0,1]為折扣因子,是對未來得到獎勵的懲罰比例,折扣因子體現了強化學習算法的設計思想,即優先考慮能夠立刻得到的獎勵值,未來得到的獎勵值會按一定比例進行衰減。

強化學習算法從初始狀態s0開始,根據當前觀察到的狀態st,由策略函數π(at|st)選擇動作at,根據狀態轉移概率P(st+1|st,at)到達新狀態st+1,從環境中得到獎勵rt+1。強化學習的目標是優化策略函數使獎勵期望值最大,獎勵值期望定義為

(1)

式中T代表結束時刻。

1.2 PPO2原理

強化學習算法需要設計策略函數π(at|st),使其能夠在狀態st下生成執行某個動作at的概率。人工神經網絡理論上能夠擬合任意函數,因此目前強化學習算法通過人工神經網絡擬合策略函數π(at|st),神經網絡參數記作θ。強化學習的目標是使得每次做出的動作都能取得最大獎勵值,核心是如何評判所選擇動作的優劣。為此,定義優勢函數

(2)

式中Vφ(st)是狀態st的值函數,反映了在狀態st下,預期本次回合結束后能夠取得的所有累計獎勵值。優勢函數反映了在時刻t選擇動作at相對平均動作的優勢。如果保存所有狀態st和動作at對應的價值vt為二維表格,由于狀態st取值范圍龐大,會導致二維表格存儲空間巨大而難以存儲。因此,同樣選擇人工神經網絡對值函數Vφ(st)進行近似表示。最終,定義強化學習的優化目標函數

(3)

式(3)函數的目標是通過更新策略函數參數θ使得每次做出動作都能獲得更大的獎勵值。然而,目標函數LMSE存在的問題是如果參數θ更新幅度過大,會造成梯度上升時反復振蕩而無法快速收斂到最優點。為此,PPO2算法重新定義目標函數

Lclip(θ)=

(4)

式中:clip函數是截斷函數,定義為

clip(r,1-ε,1+ε)=

(5)

rt(θ)為概率比函數,定義為

(6)

rt(θ)反映了參數更新的變化幅度,rt(θ)越大,則更新參數幅度越大,反之則越小。

式(3)的目標是求得值函數Vφ(st)的有偏估計,因此采用常用的最小二乘法定義目標函數,平方運算保證了目標函數非負性。式(4)中的優勢函數取值為正時,代表當前動作獲取的獎勵值高于平均值,目標函數優化目標是讓智能體盡量選擇這類動作;優勢函數為負時,代表當前動作獲取的獎勵值低于平均值,智能體應該避免選擇該動作。Lclip(θ)函數通過截取rt(θ),將其限制在[1-ε,1+ε]之間,從而避免更新波動過大。Lclip(θ)函數示意如圖2所示。當優勢函數L>0時,如果rt(θ)大于1+ε,則將其截斷,使其不會過大。同樣,當L<0時,如果rt(θ)小于1-ε,也將其截斷,使其不會過小。Lclip(θ)函數保證了rt(θ)不會出現劇烈波動。

(a)L>0 (b)L<0圖2 截斷函數示意Fig.2 Schematic diagram of clip function

1.3 算法收斂性

PPO2在TRPO算法[24]基礎上進一步改進,兩者都是基于minorize-maximization算法,目標是最大化期望獎勵η(θ*)。其中,η為折扣獎勵函數,θ*為待尋找的最佳策略參數。在每一次迭代中,找到一個替代函數M,M為折扣期望獎勵的下界,也是當前策略下對折扣期望獎勵的估計。本文M為目標函數Lclip(θ),其迭代過程如圖3所示。

圖3 PPO2迭代過程示意Fig.3 Schematic diagram of PPO2 iteration process

當前策略參數θk建立折扣獎勵函數η的下界Mk。最優化Mk,找到θk+1作為下一個策略參數。用θk+1重新估計下界Mk+1,并重復這個過程。由于只有有限個可能的策略,且每一次迭代的策略都使得新策略更加接近最佳策略,PPO2最終會收斂到局部或全局最優。

為了對這一過程進行證明,定義折扣獎勵函數

(7)

折扣獎勵函數是強化學習算法要優化的目標函數。

定義函數

(8)

式中ρπ(s)是狀態分布,公式為

ρπ(s)=P(s0=s)+γP(s1=s)+γ2P(s2=s)+…

(9)

文獻[25]證明了不等式(10)成立

(10)

式中

(11)

(12)

其中DKL是兩個策略之間的KL散度。

定義替代函數M為

(13)

根據式(10)定義有

η(πi+1)≥Mi(πi+1)

(14)

由于兩個相同的策略KL散度為0,因此

η(πi)=Mi(πi)=Li(πi)

(15)

從而得到

η(πi+1)-η(πi)≥Mi(πi+1)-Mi(πi)

(16)

如果新的策略函數πi+1能使得Mi最優,那么有不等式Mi(πi+1)-Mi(πi)≥0成立,進而有

η(πi+1)-η(πi)≥0

(17)

因此,只要不斷尋找能使Mi最優的策略就能保證強化學習目標函數η在每次迭代中不會下降,最終收斂到局部或者全局最優點,即

(18)

文獻[25]指出,式(18)更新幅度過小,導致收斂慢。為增加策略更新幅度,可將優化問題轉換為

(19)

(20)

新的優化問題為

(21)

對Lπθold(π)展開,并采用重要性采樣進行替換,可將優化目標變化為

(22)

論述PPO2算法的文獻[24]指出,為了算法更加易于實現,可將優化目標函數L變為

(23)

優化問題變為

(24)

式(24)仍然滿足不等式(16),因此PPO2可以最終收斂到最優點。

1.4 狀態空間設計

選取合理的狀態st是實現高效強化學習算法的關鍵,只有觀察到足夠多的信息才能使強化學習算法做出正確的動作選擇。然而,狀態信息過多也會增加計算量,減慢學習速度。因此,本文參考了Cubic等主流TCP算法進行決策需要的狀態參數,設計狀態st。st包含以下參數。

(1)當前相對時間tr。定義為從TCP建立連接開始到目前已消耗的時間。在Cubic等算法中,窗口長度被設計為時間tr的3次函數。因此,tr是決定擁塞窗口的重要參數。

(2)當前擁塞窗口長度。擁塞控制算法需要根據當前擁塞窗口長度來調節窗口新值,如果當前擁塞窗口長度較小,則可以更快的速率增加窗口長度,如果窗口較大,則停止增加窗口或更緩慢地增加窗口長度。

(3)未被確認的字節數。定義為已發送但還未被接收方確認的字節數。如果把網絡鏈路比喻做水管,則未被確認的字節數可以形象地理解為管道中儲存的水量。該參數也是擁塞控制算法需要參考的重要參數,如果管道中水量充足,則應該停止或減少向管道中注水,如果管道中水量較小,則應該向管道中增加注水量,并且可以根據管道中的水量決定注水速率(擁塞窗口長度)。

(4)已收到的ACK包數量。該參數能夠間接反映擁塞情況,如果收到的ACK包數量正常,則說明網絡狀況良好,未發生擁塞,可以適時增大擁塞窗口長度,否則說明網絡發生擁塞,應該維持或減小擁塞窗口長度。

(5)RTT。時延指一個數據包從發送到接收確認包花費的總時間,可形象地理解為數據從發送端到接收端進行一次往返的時間。時延跟網絡擁塞情況密切相關,如果網絡擁塞嚴重,則時延會顯著上升。因此,時延可以反映網絡擁塞情況,擁塞控制算法可以根據時延對擁塞窗口進行調節。

(6)吞吐率。定義為接收方每秒確認的數據字節數。該參數直接反映了網絡狀況,吞吐率高說明目前鏈路中已發送足夠的數據包,否則說明當前網絡帶寬剩余較多,可向鏈路中增加發送數據包。

(7)丟失包數量。丟失包數量越多說明當前網絡擁塞嚴重,需要減小擁塞窗口長度,丟失包數量少說明當前網絡未發生擁塞,應該增大擁塞窗口長度。

1.5 動作空間設計

at為在時刻t對擁塞窗口做出的控制動作。本文定義動作為將擁塞窗口長度c增加n個段長度s′

c=cold+ns′

(25)

式(25)設計的思路是提供一個泛化公式,根據觀察到的狀態參數信息,決定擁塞窗口長度增長速率。在不同的網絡場景下,選擇不同的策略。在高帶寬環境下,調節n>1,使擁塞窗口長度以指數速度增長;在低帶寬環境下,調節n=1,使擁塞窗口以線性速度增長;在網絡發生擁塞時,調節n≤0,保持或減小擁塞窗口長度,減輕網絡擁塞壓力。

1.6 獎勵函數

獎勵rt定義為在時刻t從環境中收到的獎勵,設計獎勵函為

(26)

式中:O為當前觀察到的吞吐率,Omax為歷史觀察到的最大吞吐率,兩者的比反映了動作at能增加的吞吐率效果;l代表觀察期間的平均時延,lmin代表歷史中觀察到的最小時延,兩者的比反映了動作at改善的時延效果;α為權重因子,屬于超參數,反映了吞吐率和時延對獎勵的權重比例。α決定了擁塞控制算法的優化目標更側重于吞吐率還是時延。本文選擇α=0.5以平衡吞吐率和時延。此外,保存歷史最小吞吐率與最大時延。當觀察到當前吞吐率小于等于最小吞吐率或者大于等于最大時延時,設置獲得獎勵為-10,使智能體避免到達這兩種極端狀態。

1.7 算法描述及復雜度分析

算法的輸入為網絡當前狀態st,輸出為新的窗口長度cnew,偽代碼如下。

輸入:st={擁塞窗口長度,ACK包數量,時延,吞吐率,丟包率}

輸出:調節后新擁塞窗口長度

1.初始化策略參數θ0=θold=θnew

2.運行策略πθk共T個時間步,收集{st,at}

3.θold←θnew

7.通過梯度上升法更新參數θ,使Lclip(θ)最大

8.c=cold+ns′

TCP-PPO2只需存儲神經網絡的參數,本文實驗中構建了一個3層神經網絡,因此空間復雜度為O(1)。TCP-PPO2在做訓練和推理時需要根據輸入的觀察狀態由模型計算得到動作值,因此時間復雜度與輸入數據量成正比,即O(n)。

2 實驗

2.1 實驗環境

2.1.1 軟硬件環境實驗使用了一臺高性能服務器,具體配置如下:①CPU,Intel(R) Xeon(R) Silver 4110 CPU @ 2.10 GHz;②內存,32 GB DDR4;③GPU,NVIDIA Titan V;④操作系統,Red Hat 4.8.5-28。

通過NS3仿真器模擬了虛擬數據空間網絡拓撲結構,并實現了TCP-PPO2算法,與具有代表性的TCP擁塞控制算法Cubic、NewReno和HighSpeed進行了對比。Cubic在Linux內核2.6.19版本以后作為默認TCP擁塞控制算法;NewReno是經典的擁塞控制算法;HighSpeed是面向高速網絡環境設計的擁塞控制算法。TCP-PPO2時間步長設為0.1 s,一共訓練了50萬步,在訓練到6萬步以后,獲得的獎勵值已趨于穩定,表明算法已經收斂。

2.1.2 網絡拓撲實驗用經典的啞鈴型網絡拓撲結構模擬了虛擬數據空間兩個超算中心中間的網絡特點。網絡拓撲如圖4所示。圖中:N1和N2代表兩個超算中心之間的前端通信節點,負責進行虛擬數據空間網絡數據遷移,N1為數據發送方,N2為數據接收方;N1-T1和N2-T2鏈路代表超算中心內部網絡鏈路,平均網絡帶寬設置為1 Gb/s,時延為60 μs,丟包率為0;T1-T2代表廣域網通信鏈路,實驗中設置平均網絡帶寬為100 Mb/s,時延為80 ms,丟包率設為104。這些參數設置來源于虛擬數據空間廣域網環境性能實測數據,盡量模擬了真實廣域網特點。

圖4 網絡拓撲Fig.4 Network topology

2.1.3 PPO2參數設置 PPO2的主要參數設置如下:折扣因子為0.99,學習速率為0.000 25,ε為0.2,每次更新運行的訓練步數為128。

2.2 吞吐率對比

圖5 吞吐率性能對比Fig.5 Comparison of throughput performance

圖6 吞吐率累計概率密度分布對比Fig.6 Comparison of cumulative probability density distribution of throughput rate

吞吐率為每秒確認的全部數據包數量。圖5是吞吐率性能對比,可以看出,TCP-PPO2的網絡吞吐率約為HighSpeed和Cubic算法的2倍,約為NewReno算法的3倍。圖6是4種算法吞吐率的累計概率密度函數曲線對比,可以看出:NewReno只有約3%采樣點的吞吐率大于4 MB/s,1%采樣點的吞吐率大于6 MB/s;Highspeed和Cubic有30%采樣點的吞吐率大于4 MB/s,約3%采樣點的吞吐率大于6 MB/s;TCP-PPO2有90%采樣點的吞吐率大于4 MB/s,40%采樣點的吞吐率大于6 MB/s。結果表明:NewReno這類傳統擁塞控制算法已無法適應虛擬數據空間的廣域網特點,不適合應用于虛擬數據空間數據遷移;Cubic和Highspeed比NewReno具有顯著的性能提升,但是仍未能完全有效利用可用帶寬實現高速傳輸;TCP-PPO2具有最好的性能,在進行一定的學習后,能夠充分利用網絡帶寬實現虛擬數據空間高效數據遷移。

2.3 網絡時延對比

圖7 RTT對比Fig.7 Comparison of RTT

RTT代表一個數據包從發送到接收到確認包的耗費時間,反映了當前網絡延遲狀況。圖7是RTT對比,可以看出,總體上TCP-PPO2算法的RTT相比其他3種算法的有所上升,這是由于TCP-PPO2算法更加激進,嘗試利用所有可用帶寬,向鏈路中發送過多數據包,造成網絡擁塞,導致RTT增加,但是TCP-PPO2算法的RTT相比其他3種算法的上升幅度不大。圖8是RTT累計概率密度函數對比,可以看出,TCP-PPO2算法有80%的RTT小于167 ms。由于鏈路本身RTT最小值為160 ms,因此TCP-PPO2算法的大部分RTT相比最小值只增加了4%。

圖8 RTT累計概率密度分布對比Fig.8 Comparison of RTT cumulative probability density distribution

2.4 隊列長度對比

對T1上的隊列長度進行了采樣,結果如圖9所示。可以看出,TCP-PPO2算法的隊列長度顯著高于其他3種算法的。這是因為TCP-PPO2算法單位時間內發送的數據包數量最多,所以在T1路由器上需要緩存的隊列長度也最長。

圖9 隊列長度對比Fig.9 Comparison of queue length

2.5 丟包率對比

N1向N2發送數據過程中的丟包率如圖10所示。可以看出:4種算法的丟包率都接近0.01%,與NS3參數設置一致;TCP-PPO2丟包率為0.124%,略高于其他3種算法的。這是因為TCP-PPO2發送的數據包最多,部分數據包由于鏈路節點緩存已滿被丟棄,從而出現丟包現象。

圖10 丟包率對比Fig.10 Comparison of packet loss rate

圖11 收斂速度對比Fig.11 Comparison of convergence speed

2.6 收斂速度對比

DQN算法是Q-learning家族的最新研究成果,采用神經網絡對Q表格進行了近似,已應用在Alpha Go智能圍棋系統中。本文對PPO2算法和DQN的收斂速度進行了對比,結果如圖11所示。可以看出,PPO2算法在訓練到7萬步以后,收到的獎勵值已趨于穩定,表明算法已經收斂。根據1.3小節的收斂性分析,PPO2具有單調上升性,圖11驗證了該結論,PPO2收到的獎勵值隨訓練步數不斷上升,最終趨于穩定。DQN算法在訓練到42萬步以后仍然反復振蕩,難以收斂。實驗結果表明PPO2算法具有更快的收斂速度。

3 結論

虛擬數據空間對于聚合國家高性能計算資源具有重要意義,高效可靠數據傳輸是構建虛擬數據空間的核心技術。本文針對主流TCP擁塞控制算法適應性差、無法有效利用虛擬數據空間網絡帶寬等問題,提出了一種基于近端策略優化算法的TCP擁塞控制算法,用于實現虛擬數據空間高效可靠數據遷移。本文得出的主要結論如下。

(1)提出了基于近端策略優化算法的TCP擁塞控制算法,將基于強化學習的TCP擁塞控制過程抽象為可部分觀察的馬爾可夫決策過程。通過借鑒主流算法,合理設計了狀態空間、動作空間、獎勵函數。

(2)通過NS3仿真實驗對比得出結論,TCP-PPO2與HighSpeed、Cubic、NewReno算法相比吞吐率可達2～3倍以上。

未來將在真實虛擬數據空間系統中測試TCP-PPO2算法的性能,并針對測試性能結果,進一步提出優化算法,更好地服務國家高性能計算環境。