999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學(xué)習(xí)的多路徑調(diào)度模型

2024-06-01 22:57:25趙靜
甘肅科技縱橫 2024年4期
關(guān)鍵詞:深度實驗模型

摘 要:文章提出一種基于深度強化學(xué)習(xí)的多路徑調(diào)度模型,在聚合場景中將深度學(xué)習(xí)技術(shù)應(yīng)用于流量管理,以解決多路徑環(huán)境下的數(shù)據(jù)包調(diào)度問題。文章使用了一個多路徑快速UDP網(wǎng)絡(luò)連接協(xié)議(MPQUIC)來實現(xiàn)多路徑場景中的路徑選擇,并訓(xùn)練了一個代理人(Agent)來改進最優(yōu)選擇路徑的算法,展示了將深度Q網(wǎng)絡(luò)代理(DQN Agent)應(yīng)用于數(shù)據(jù)流量管理問題的優(yōu)勢。實驗證明了在實時環(huán)境中使用DQN Agent來提高包調(diào)度器性能的可行性,以及使用該技術(shù)對新的5G網(wǎng)絡(luò)進行優(yōu)化的潛力。實驗結(jié)果表明:基于深度強化學(xué)習(xí)的多路徑調(diào)度模型能夠自適應(yīng)地調(diào)整路徑選擇策略,從而提高網(wǎng)絡(luò)的穩(wěn)定性和可靠性。改進的模型不僅具有理論價值,還為實際應(yīng)用提供了有益的參考和借鑒。

關(guān)鍵詞:5G網(wǎng)絡(luò);多路徑;分組調(diào)度;深度強化學(xué)習(xí);QUIC;MPTCP

中圖分類號:TP181 文獻標志碼:A

*基金項目:甘肅省基礎(chǔ)研究計劃-軟科學(xué)專項“‘強省會戰(zhàn)略下推進‘四型機場建設(shè)的實施路徑和策略研究—以蘭州中川國際機場為例”(22JR4ZA108)。

作者簡介:趙靜(1981-),女,碩士,講師,主要研究方向:人工智能技術(shù)。

0 引言

隨著人工智能技術(shù)的不斷發(fā)展,深度強化學(xué)習(xí)作為一種新興的學(xué)習(xí)范式,正在被廣泛應(yīng)用于各個領(lǐng)域。在傳統(tǒng)的調(diào)度問題中,如任務(wù)調(diào)度、生產(chǎn)調(diào)度等,采用深度強化學(xué)習(xí)進行多路徑調(diào)度優(yōu)化已成為研究熱點。然而,在實際應(yīng)用中,仍然存在著許多問題和挑戰(zhàn),如路徑選擇、任務(wù)分配、資源利用率等方面的優(yōu)化。文章旨在基于深度強化學(xué)習(xí),設(shè)計并構(gòu)建一種多路徑調(diào)度模型,以解決傳統(tǒng)調(diào)度問題中存在的優(yōu)化難題,提高路徑選擇、任務(wù)分配和資源利用率的效率和準確性。通過對多路徑調(diào)度模型進行深入研究和實驗驗證,探索深度強化學(xué)習(xí)在該領(lǐng)域的應(yīng)用前景,提高多路徑調(diào)度問題的解決效率和質(zhì)量。5G 架構(gòu)的關(guān)鍵概念之一是網(wǎng)絡(luò)接入(Access Networks,AN)的合并。5G系統(tǒng)架構(gòu)[1]定義了一個具有公共接口AN-CN的融合核心網(wǎng)(CN),它集成了第三代合作伙伴計劃(3GPP)和非3GPP網(wǎng)絡(luò),如Wi-Fi或固定接入網(wǎng),在這些場景中可以同時使用多個網(wǎng)絡(luò)接入[2]。通過多訪問架構(gòu),可以定義新的應(yīng)用場景,并根據(jù)訪問的用途進行分類:(1)聚合應(yīng)用,它以終端用戶只感知一個接入的方式聚合接入網(wǎng)絡(luò),具有底層接入(如聚合帶寬,延遲等)的聚合特性;(2)彈性應(yīng)用,它只使用一個網(wǎng)絡(luò)接入,并使用其余的網(wǎng)絡(luò)接入進行冗余。彈性應(yīng)用的一個例子是Apple Siri服務(wù)[3],它默認使用Wi-Fi網(wǎng)絡(luò)接入,但通過移動網(wǎng)絡(luò)接入打開會話以進行備份。

文章采用深度強化學(xué)習(xí)算法,考慮任務(wù)調(diào)度、路徑選擇、資源利用率等因素,構(gòu)建多路徑調(diào)度模型。首先,將對傳統(tǒng)的調(diào)度問題進行深入分析,明確問題的關(guān)鍵點和難點;其次,設(shè)計出基于深度強化學(xué)習(xí)的多路徑調(diào)度模型;最后,在模型構(gòu)建完成后,將進行大量的仿真實驗和案例分析,以驗證模型的有效性和優(yōu)越性。文章的研究工作主要集中在聚合場景中,特別是符合寬帶論壇(BBF)規(guī)范的架構(gòu)。主要關(guān)注L4多路徑網(wǎng)絡(luò),其主要特點是使用多路徑傳輸協(xié)議,通過多條路徑來控制流量。基于前述BBF規(guī)范,根據(jù)策略、數(shù)據(jù)包流量類別和每個可用訪問路徑的性能,將流量分布在不同的路徑上。

根據(jù)性能選擇最佳路徑通常稱為分組調(diào)度(Packet Scheduling)。大多數(shù)多路徑協(xié)議的實現(xiàn)都使用平滑往返時間(Smoothed Round-Trip Time,SRTT)和擁塞窗口作為表征訪問路徑性能的參數(shù)。尤其是在擁塞窗口不滿的情況下,選擇SRTT較低的路徑對數(shù)據(jù)包進行調(diào)度,以實現(xiàn)多路徑傳輸控制協(xié)議(MPTCP)[4]。理論上講,在明確網(wǎng)絡(luò)參數(shù)的前提下,可以建立一個提供最優(yōu)性能的調(diào)度器。但在實際應(yīng)用中,網(wǎng)絡(luò)訪問的延遲會隨著時間而變化,特別是在移動網(wǎng)絡(luò)中,帶寬也會隨著并發(fā)連接數(shù)的變化而變化。通過引入其他參數(shù)和更復(fù)雜的算法,研究認為可以通過預(yù)測訪問的演化來改進分組調(diào)度。

在強化學(xué)習(xí)領(lǐng)域,深度學(xué)習(xí)系統(tǒng)廣泛應(yīng)用于許多Atari視頻游戲,提出利用機器學(xué)習(xí)技術(shù)對Packet Schedule算法進行改進,并將該方法應(yīng)用于深度強化學(xué)習(xí)代理作為數(shù)據(jù)包調(diào)度器,通過與測試環(huán)境的交互來查看代理人(Agent)如何學(xué)習(xí),以得到分發(fā)數(shù)據(jù)包的最佳算法。結(jié)果表明,在某些場景中,深度強化學(xué)習(xí)方法給出了最優(yōu)的結(jié)果。因此,文中技術(shù)可以用于改進大多數(shù)多路徑實現(xiàn)中使用的默認包調(diào)度器。

1 研究背景及相關(guān)研究綜述

隨著互聯(lián)網(wǎng)的飛速發(fā)展和大數(shù)據(jù)時代的到來,網(wǎng)絡(luò)流量呈現(xiàn)出爆炸式增長的態(tài)勢。傳統(tǒng)的單路徑傳輸方式已經(jīng)難以滿足日益增長的網(wǎng)絡(luò)需求,多路徑傳輸因其能夠充分利用網(wǎng)絡(luò)資源、提高傳輸效率而備受關(guān)注。然而,多路徑調(diào)度問題涉及復(fù)雜的決策過程,傳統(tǒng)的優(yōu)化方法難以應(yīng)對其動態(tài)性和不確定性。因此,文章提出利用深度強化學(xué)習(xí)技術(shù)來解決多路徑調(diào)度問題,以期實現(xiàn)更高效的網(wǎng)絡(luò)傳輸。

1.1 相關(guān)概念

1.1.1 深度強化學(xué)習(xí)

深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)是一種結(jié)合深度學(xué)習(xí)和強化學(xué)習(xí)的技術(shù),通過深度神經(jīng)網(wǎng)絡(luò)來逼近強化學(xué)習(xí)中的值函數(shù)或策略函數(shù),從而處理更加復(fù)雜和大規(guī)模的問題。

1.1.2 多路徑調(diào)度

多路徑調(diào)度(Multi-path Scheduling)指在網(wǎng)絡(luò)傳輸中,根據(jù)一定的策略將數(shù)據(jù)流分配到不同的路徑上進行傳輸,以充分利用網(wǎng)絡(luò)資源,提高傳輸效率。

1.2 已有研究分類

1.2.1 基于傳統(tǒng)優(yōu)化算法的研究

這類研究主要利用數(shù)學(xué)優(yōu)化方法,如線性規(guī)劃、整數(shù)規(guī)劃等,來解決多路徑調(diào)度問題。雖然這些方法在理論上有較好的性能保證,但在實際應(yīng)用中,由于問題的復(fù)雜性和動態(tài)性,往往難以獲得理想的效果。

1.2.2 基于啟發(fā)式算法的研究

啟發(fā)式算法通過模仿人類決策過程或借鑒自然界中的某些現(xiàn)象來進行路徑選擇和調(diào)度。這類方法通常具有較好的實時性和適應(yīng)性,但在處理大規(guī)模復(fù)雜問題時,其性能往往不穩(wěn)定。

1.2.3 基于深度強化學(xué)習(xí)的研究

近年來,隨著深度強化學(xué)習(xí)技術(shù)的快速發(fā)展,越來越多的研究開始嘗試利用DRL來解決多路徑調(diào)度問題。這類方法能夠自動學(xué)習(xí)和優(yōu)化調(diào)度策略,適應(yīng)網(wǎng)絡(luò)環(huán)境的動態(tài)變化,具有較高的潛力和應(yīng)用價值。

傳統(tǒng)優(yōu)化算法雖然理論性強,但在實際應(yīng)用中難以處理復(fù)雜的動態(tài)問題;啟發(fā)式算法雖然實時性好,但性能不穩(wěn)定;而深度強化學(xué)習(xí)則能夠結(jié)合深度學(xué)習(xí)的表征學(xué)習(xí)能力和強化學(xué)習(xí)的決策能力,有效應(yīng)對多路徑調(diào)度問題的復(fù)雜性和動態(tài)性。然而,目前基于深度強化學(xué)習(xí)的多路徑調(diào)度研究仍處于探索階段,面臨著諸多挑戰(zhàn),如模型設(shè)計、訓(xùn)練效率、穩(wěn)定性等問題。

綜上所述,基于深度強化學(xué)習(xí)的多路徑調(diào)度模型研究具有重要的理論價值和實踐意義。文章旨在探索更加高效的深度強化學(xué)習(xí)算法,以解決多路徑調(diào)度問題中的關(guān)鍵挑戰(zhàn)。具體研究問題包括:設(shè)計合適的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以充分提取網(wǎng)絡(luò)狀態(tài)的特征;設(shè)計有效的獎勵函數(shù)以引導(dǎo)模型學(xué)習(xí)到高質(zhì)量的調(diào)度策略;提高模型的訓(xùn)練效率和穩(wěn)定性。通過解決這些問題,期望能夠為多路徑調(diào)度問題的研究提供新的思路和方法。

2 實驗平臺與實驗過程

2.1 研究目標

研究的主要目標是使用深度強化學(xué)習(xí)代理來改進多路徑協(xié)議的數(shù)據(jù)包調(diào)度。主要的挑戰(zhàn)是如何在網(wǎng)絡(luò)系統(tǒng)中集成現(xiàn)有的、最先進的、具有強制性低延遲性的Agent。一方面,通過對通信網(wǎng)絡(luò)有時延要求,在新的5G網(wǎng)絡(luò)中,超可靠低時延通信(Ultra Reliable Low Latency Communications,URLLC)服務(wù)的時延要求為1 ms;另一方面,包調(diào)度器的實現(xiàn)必須是快速的,達到微秒級甚至納秒級,以不干擾實驗的結(jié)果。

2.2 實驗中使用的技術(shù)

2.2.1 多路徑協(xié)議

在實驗中,使用 MPQUIC 作為多路徑協(xié)議。MPQUIC是基于QUIC協(xié)議的改進QUIC-GO5,使用Go編程語言實現(xiàn)。該協(xié)議的優(yōu)點之一是不依賴于內(nèi)核實現(xiàn),并且允許“快速實現(xiàn)-運行-測試”的周期循環(huán)。

2.2.2 深度強化學(xué)習(xí)代理

深度強化學(xué)習(xí)(DRL)是融合了試錯法學(xué)習(xí)范式的強化學(xué)習(xí)(Reinforcement Learning,RL)和使用深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)(Deep Learning,DL)的創(chuàng)新概念。DeepMind公司在2013年推出了應(yīng)用于舊式Atari游戲的新范式,其結(jié)果有時竟然超過了人類。這項工作使用Q-Learning強化學(xué)習(xí)技術(shù),基于從初始狀態(tài) s 0 開始,尋找在連續(xù)步驟中獲得最大獲益的策略。圖1演示了強化學(xué)習(xí)技術(shù)的流程架構(gòu)。即:Agent讀取當前的環(huán)境狀態(tài)s t ,并從可用的動作集合A中選擇一個動作 a t ∈A ;通過執(zhí)行選定的動作,過渡到另一個狀態(tài) s t+1 ,并為Agent r t+1 提供一個可觀獎賞,并通過學(xué)習(xí)選擇獎賞最大化的最優(yōu)算法。DeepMind 最初的目標是通過一個深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)來代替?zhèn)鹘y(tǒng)的獲取最佳動作的算法。因此,這種新技術(shù)被稱為深度Q網(wǎng)絡(luò)(Deep Q Network,DQN),而實現(xiàn)它的Agent就是DQN Agent。

2.3 實驗流程

圖2展示了一個深度強化學(xué)習(xí)代理的體系結(jié)構(gòu),包括2個主要階段:(1)前饋,其中Agent使用當前狀態(tài)作為深度神經(jīng)網(wǎng)絡(luò)的輸入,并獲得具有最佳預(yù)測獎勵的動作(最優(yōu)動作);(2)反向傳播,其中Agent使用以前的經(jīng)驗(批量回放)來更新深度神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏置。由于反向傳播消耗大量的計算資源,該任務(wù)必須在離線模式下完成,即與數(shù)據(jù)包調(diào)度分離。TensorFlow庫中DQN Agent的最新實現(xiàn)的快速審查結(jié)果表明,前饋過程需要在5~10 ms,這與5G網(wǎng)絡(luò)中所需的延遲處于同一數(shù)量級。為此,在2個模塊中實現(xiàn)一個DQN Agent:其中一個模塊嵌入到MPQUIC服務(wù)器中,為每個狀態(tài)選擇最優(yōu)動作;以及另一個具有學(xué)習(xí)邏輯的離線模塊。為模塊之間的通信定義了2個接口:第一個接口包含一個公共分離值(CSV)文件,其中包含在線Agent的經(jīng)驗,即狀態(tài)列表 s t ,動作 a t 和獎勵 r t 。這些信息被離線Agent用于執(zhí)行學(xué)習(xí)。第二個接口用于將DNN的新值上傳至在線Agent。為此,使用了層級數(shù)據(jù)格式5(hdf5)文件,其廣泛應(yīng)用于現(xiàn)有框架。

2.4 狀態(tài)、獎勵和行為

最優(yōu)狀態(tài)和獎賞函數(shù)的選擇對深度強化學(xué)習(xí)的性能至關(guān)重要。此外,還需要保證選擇與馬爾可夫決策過程(MDP)框架兼容,特別是狀態(tài)向量s表示唯一的狀態(tài)。在DQN Agent[5]的原始工作中,這個問題是通過在狀態(tài)向量中堆疊框架來解決的。在案例中,提出了保證唯一性的特征組合:平滑往返時間、擁塞窗口和發(fā)送的數(shù)據(jù)。

2.4.1 平滑往返時間(SRTT)

往返時延(Round-Trip Time,RTT)是MPTCP的內(nèi)核實現(xiàn)[6]和MPQUIC原型[7]中分組調(diào)度算法使用的基本參數(shù)。同時使用了Smooth RTT,即:

SRTT= ( ) 1-α *SRTT+α*R ' (1)

式中:R ' 是最后一個RTT, α= 1 / 8 。

在DQN Agent的實現(xiàn)中使用了SRTT特征。

SRTT '=SRTT/150 (2)

式中:SRTT ' 為將SRTT特征重新縮放到150 ms。

2.4.2 擁塞窗口(CWND)

擁塞窗口特征是通過擁塞控制算法計算得到的擁塞窗口的字節(jié)大小。

CWND '=CWND /(300 * TCP_MSS) (3)

式中:CWND ' 意為將CWND特征重新縮放為300個最大片段的尺寸(MaximumSegment Size,MSS),在實現(xiàn)中定義為1 460個字節(jié)。

2.4.3 發(fā)送字節(jié)(BiF)

BiF 是指 Flight 中的字節(jié)數(shù),即未收到相應(yīng)的(ACK消息)從而被確認為未確認發(fā)送的字節(jié)數(shù)。它是狀態(tài)向量中使用的最后一個特征。

BiF '=BiF/CWND (4)

式中:BiF ' 為將BIF特征被重新縮放到CWND的大小。

另一個需要界定的,是如何進行獎勵計算。因為它是Agent的反饋,因此比狀態(tài)定義更為關(guān)鍵。獎勵和懲罰之間的不平衡可能會導(dǎo)致學(xué)習(xí)過程中的錯誤。

partial Reward = sentBits /(3 500 * sessionTime)(5)

式中:參數(shù) partial Reward (部分獎勵)以兆比特每秒(Mbps)為單位,表示在部分獎勵的情況下,基于會話具有任意數(shù)量的3 500個數(shù)據(jù)包的假設(shè)前提下,使用MPQUIC服務(wù)器發(fā)送的尚未確認的字節(jié)數(shù)和會話的持續(xù)時間來估計會話的吞吐量。

最終的獎勵定義為會話的平均吞吐量,用兆比特每秒(Mbps)表示。此外,當 MPQUIC 達到限制值,例如最大不帶ACK的數(shù)據(jù)包數(shù)時,或者在沒有丟包的理想信道中存在重傳或丟包時,獎勵中存在懲罰。

2.5 Agent實現(xiàn)

深度強化學(xué)習(xí)Agent分2個模塊實現(xiàn)。在線模塊在MPQUIC的包調(diào)度內(nèi)執(zhí)行,為簡化操作,只作為MPQUIC服務(wù)器的一部分,對下行流進行測試。離線模塊是對keras-rl框架的擴展實現(xiàn),該框架在Py?thon中實現(xiàn)深度強化學(xué)習(xí)算法,并與流行的深度學(xué)習(xí)Python庫keras9集成。

2.5.1 在線Agent

在線Agent的主要組件是gorl庫,它實現(xiàn)了深度Q網(wǎng)絡(luò)。為了重用代碼,實現(xiàn)了一個通用的DNN,其中包含了這項工作所需的基本要素。它支持基于全連接層的多層神經(jīng)網(wǎng)絡(luò),具有任意的層數(shù)和可配置的層大小。它還支持最常見的激活函數(shù),包括該工作中使用的激活函數(shù)(ReLu和Linear)。深度神經(jīng)網(wǎng)絡(luò)定義在spec文件中,激活為keras格式。該庫支持2種工作模式:訓(xùn)練與生產(chǎn)。在學(xué)習(xí)階段,使用了Training(訓(xùn)練)模式,因為它每一層級產(chǎn)生一個CSV文件,其中包含一個用于每個數(shù)據(jù)包調(diào)度的行,元組為( r t 、 s t 、a t )。在案例中,每個情節(jié)被映射到一個 MPQUIC 會話,情節(jié)描述文件中包含的關(guān)于Agent 的狀態(tài)、獎勵和動作的信息被用于離線訓(xùn)練。gorl支持使用從離線代理導(dǎo)出的HDF5文件對DNN進行更新。另一個組件插入到MPQUIC服務(wù)器的包調(diào)度器中,該組件的任務(wù)是設(shè)置 DNN,從MPQUIC服務(wù)器中可用的信息中收集狀態(tài)向量 s t ,調(diào)用DNN獲取動作 a t 并計算獎勵 r t 。

DQN Agent必須解決的基本問題是探索與開發(fā)之間的平衡。Agent必須尋找一個狀態(tài)的不同行動方案,從而確定最優(yōu)方案。為此它將測試不同的行動方案下不同獎勵,并更新Deep Q網(wǎng)絡(luò)。在線代理實現(xiàn)了2個功能:選擇最優(yōu)動作(對于非學(xué)習(xí)型運行)的ArgMax函數(shù)和以概率進行探索的ε-greedy函數(shù)以 ε 的概率進行利用。在訓(xùn)練的執(zhí)行過程中,使用了一個 ε∈[ 0.1,0.9],從0.9開始,線性減小直到0.1,至訓(xùn)練結(jié)束。

2.5.2 離線Agent

離線Agent使用keras-rl框架實現(xiàn),它是實驗框架的一部分。通過擴展了kera的DQNAgent的行為,以支持在線代理生成的CSV情節(jié)文件。keras-rl框架很好的集成到了Gym OpenAI環(huán)境中,提供了不同場景的環(huán)境基礎(chǔ)。在案例中,創(chuàng)建一個OpenAI環(huán)境,用于加載CSV情節(jié)文件,以便為離線代理提供在線代理的經(jīng)驗。此外還擴展了keras-rl DQN Agent,以便在訓(xùn)練過程中使用由在線代理決定的動作a t 。

2.6 實驗流程及結(jié)果

文章提供了一個執(zhí)行代理的環(huán)境來進行訓(xùn)練和測試Agent。基本設(shè)置是一個MPQUIC客戶端和服務(wù)器運行在Mininet網(wǎng)絡(luò)仿真器之上,該仿真器模擬網(wǎng)絡(luò)拓撲,NetEm仿真器允許配置通道的帶寬和它們的延遲。實驗流程如圖3所示,包括從MPQUIC客戶端下載文件,直到有足夠的信息開始離線訓(xùn)練。離線訓(xùn)練完成后,將新的DNN模型加載到在線代理中繼續(xù)測試。

流程中包括為MPQUIC客戶端配置了2條可能的路徑,通過在交換機上增加2條連接,交換機上也有1條通往MPQUIC服務(wù)器的路徑。該框架支持離線 Agent 的執(zhí)行,并提供了用于創(chuàng)建不同測試的Jupyter筆記本應(yīng)用程序。最后,用所有的實驗框架創(chuàng)建一個Docker鏡像,以允許在任何環(huán)境中重現(xiàn)實驗結(jié)果。

3 實驗結(jié)果分析

實驗?zāi)康氖窃u估多條路徑帶寬聚合的效率。為了衡量效率,使用在下載固定大小(2 MB)文件的實驗中測量吞吐量。在實驗框架中,配置了帶寬為5 Mbps,基延遲為100 ms的MPQUIC路徑。為了比較不同場景下的結(jié)果,改變其中1條路徑的延遲,以模擬它們之間存在延遲的非對稱路徑,即delta(ms)∈[0,50]。第一個實驗設(shè)置了MPQUIC協(xié)議的性能基線,用于測量效率。如圖4所示,圖(a)表示使用單條路徑測量吞吐量的結(jié)果,并以此作為該場景下MPQUIC協(xié)議吞吐量的基礎(chǔ)。圖(b)表示使用默認調(diào)度器RTT的多路徑場景下的吞吐量,圖(c)表示隨機選擇任意路徑的隨機調(diào)度器。初始測試結(jié)果表明,選擇低延遲路徑和隨機選擇路徑之間只有很小的差異。

一旦基線建立,即可對延遲為0的不同場景進行 DQN Agent 的訓(xùn)練,其中 delta(ms)∈[0,50]。且考慮到消耗的時間和資源,必須對訓(xùn)練進行限制。此外,假設(shè)在訓(xùn)練過程中,不同路徑的測量SRTT之間的差異在δ范圍內(nèi)變化,因此Agent將在所有可能的SRTT值中進行訓(xùn)練。圖5描述了DQN Agent在訓(xùn)練時間上的演化,以步數(shù)(預(yù)定數(shù)據(jù)包)為橫軸進行了分析。訓(xùn)練經(jīng)過130 000步后具有最大的吞吐量,此模型用于訓(xùn)練的驗證。

為了比較聚合策略的效率,定義聚合效益(Ag?gregation Benefit,ABen)為:

式中:?是實測吞吐量的平均值,?s 是MPQUIC在單路徑場景下的基線平均吞吐量。

圖6描述了MPQUIC默認包調(diào)度器(SRTT)和訓(xùn)練好的DQN Agent之間的聚合效益對比ABen。可以看到,盡管DQN Agent僅在0延遲場景下訓(xùn)練,但聚集效益在delay(ms)∈[0,50]范圍內(nèi)得到了提高,驗證了實驗假設(shè)。

綜合效益在4.45%和7.58%之間得到改善,見表1。

為了測試DQN Agent的魯棒性,文章使用背景流量進行了重復(fù)實驗。為此,在Agent的訓(xùn)練和測試過程中,通過網(wǎng)絡(luò)的 2 條路徑生成背景 TCP 流量。由于在之前的場景中取得了不錯的效果,只在0 延遲場景中重復(fù)訓(xùn)練DQN Agent,并在24 050步取得了最大的吞吐量。使用訓(xùn)練好的代理,得到了類似的改進結(jié)果,但只有 delay(ms)∈[ 0 ,20 ]。從30 ms的差異來看,聚合效益的改善下降到1 %,如圖7和表2所示。

4 結(jié)論與討論

文章分析了深度強化學(xué)習(xí)在一個具體的流量管理問題中的應(yīng)用,即多路徑環(huán)境下的數(shù)據(jù)包調(diào)度問題。在實驗中,證明了在實時環(huán)境中使用DQN Agent來提高包調(diào)度器性能的可行性,以及使用這種技術(shù)對新的5G網(wǎng)絡(luò)進行優(yōu)化的潛力。在實驗過程中使用了一個全連接層的DNN。今后可以嘗試引入其他具有時間記憶的模型,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)或長短期記憶網(wǎng)絡(luò)(LSTM)。這些模型可以更好地預(yù)測路徑條件的變化,從而更好地學(xué)習(xí)最優(yōu)行為。離線-在線架構(gòu)工作良好,但仍需要占用大量的資源和時間,使得工作效率還有待提升。今后可以使用預(yù)訓(xùn)練的方法,通過使用Gym OpenAI環(huán)境來模擬網(wǎng)絡(luò)和多路徑行為。研究過程中將 DQN Agent與MPQUIC協(xié)議集成,將Agent動作定義為選擇發(fā)送數(shù)據(jù)包的路徑,結(jié)果并不理想不足以解決完整的問題,今后可能需要 DQN Agent 通過控制MPQUIC的更多方面,如重傳控制或數(shù)據(jù)包來進行更加充分的集成。最后,在獎勵方面,定義的微調(diào)也可以促進學(xué)習(xí)的改進,這也是今后改進的方向。

文章深入探討了基于深度強化學(xué)習(xí)的多路徑調(diào)度模型,并將其應(yīng)用于網(wǎng)絡(luò)流量優(yōu)化問題中。通過對模型的構(gòu)建、訓(xùn)練以及實驗驗證,得出了以下結(jié)論:

(1)模型有效性。文章設(shè)計的深度強化學(xué)習(xí)多路徑調(diào)度模型在復(fù)雜的網(wǎng)絡(luò)環(huán)境中表現(xiàn)出了顯著的有效性。通過不斷地學(xué)習(xí)和調(diào)整,模型能夠自適應(yīng)地選擇最優(yōu)路徑,實現(xiàn)網(wǎng)絡(luò)流量的高效調(diào)度。

(2)性能優(yōu)勢。與傳統(tǒng)的調(diào)度算法相比,基于深度強化學(xué)習(xí)的多路徑調(diào)度模型在多個評價指標上均表現(xiàn)出了明顯的優(yōu)勢。特別是在高負載和網(wǎng)絡(luò)擁堵的情況下,該模型能夠更好地平衡網(wǎng)絡(luò)負載,減少數(shù)據(jù)包的丟失和延遲。

(3)可擴展性。文章提出的模型具有良好的可擴展性。通過調(diào)整模型的參數(shù)和結(jié)構(gòu),可以將其應(yīng)用于不同類型的網(wǎng)絡(luò)和調(diào)度場景,滿足不同的流量優(yōu)化需求。

雖然文章取得了一定的研究成果,但仍存在一些有待解決的問題。未來的研究可以進一步探索模型的優(yōu)化策略,提高其適應(yīng)性和魯棒性。同時,也可以考慮將更多先進的深度學(xué)習(xí)技術(shù)引入到多路徑調(diào)度中,以實現(xiàn)更高效、更智能的網(wǎng)絡(luò)流量管理。

綜上所述,基于深度強化學(xué)習(xí)的多路徑調(diào)度模型在網(wǎng)絡(luò)流量優(yōu)化方面表現(xiàn)出色,具有廣闊的應(yīng)用前景和研究價值。文章為網(wǎng)絡(luò)流量管理提供了新的思路和方法,對于提升網(wǎng)絡(luò)性能和服務(wù)質(zhì)量具有重要意義。

參考文獻:

[1]石紅曉,程永志. 基于5G核心網(wǎng)的網(wǎng)絡(luò)演進及策略研究[J]. 通信與信息技術(shù),2020(4):39-41+50.

[2]賈靖,王恒,夏旭,等. 空地一體網(wǎng)絡(luò)接入選擇與切換控制技術(shù)研究[J]. 無線電通信技術(shù),2023,49(5):826-833.

[3]高菁陽.下一場戰(zhàn)役:人機對話 — —對話Siri創(chuàng)始人諾曼(Norman Winarsky)[J]. 清華管理評論,2017(Z2):8-13.

[4]廖彬彬,張廣興,刁祖,等. 基于深度強化學(xué)習(xí)的MPTCP動態(tài)編碼調(diào)度系統(tǒng)[J]. 高技術(shù)通訊,2022,32(7):727-736.

[5]LI J,Dang X,LI S. DQN- based decentralized multi-agent JSAP resource allocation for UAV swarm commu?nication[J]. Journal of Systems Engineering and Elec?tronics,2023,34(2):289-298.

[6]夏雨峰,占敖,吳呈瑜,等. 基于MPTCP耦合的自適應(yīng)帶寬估計算法[J]. 無線電通信技術(shù),2022,48(2):336-341.

[7]黃培紀,蔣艷,陳斌,等. 基于線性規(guī)劃的MPQUIC調(diào)度算法[J]. 計算機時代,2023(6):38-42.

Multi-path Scheduling Model Based on Deep Reinforcement Learning

ZHAO Jing

(School of Information Engineering, Lanzhou Vocational Technical College,Lanzhou Gansu 730070,China)

Abstract::In this paper, a multi-path scheduling model based on deep reinforcement learning is proposed,and deep learning technology is applied to traffic management in aggregation scenario to solve the problem of packet scheduling in multi-path environment. A multi-path Quick UDP Internet Connection is used to implement path se?lection in multi-path scenarios, and an agent is trained to improve the optimal path selection algorithm, demonstrat?ing the advantages of applying DQN Agent to data traffic management problems. Experiments demonstrate the feasi?bility of using DQN Agent to improve the performance of packet scheduler in real-time environment, and the poten?tial of using this technology to optimize the new 5G networks. The experimental results show that the multi-path scheduling model based on deep reinforcement learning can adaptively adjust the path selection strategy, thereby improving the stability and reliability of the network. The improved model not only has theoretical value, but also provides useful reference for practical application.

Key words::5G network; multi-path; packet scheduling; deep reinforcement learning; QUIC; MPTCP

猜你喜歡
深度實驗模型
一半模型
記一次有趣的實驗
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
做個怪怪長實驗
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: av色爱 天堂网| 日本在线国产| 亚洲欧美不卡中文字幕| 超清人妻系列无码专区| 免费A级毛片无码免费视频| 午夜福利无码一区二区| 无码啪啪精品天堂浪潮av| 18黑白丝水手服自慰喷水网站| 午夜无码一区二区三区| 中文字幕无码av专区久久| 欧美日本视频在线观看| 久久96热在精品国产高清| 在线a网站| 国产成人综合网在线观看| 亚洲人成在线精品| 青青草一区二区免费精品| 亚洲福利一区二区三区| 强乱中文字幕在线播放不卡| 亚洲成年人片| 播五月综合| 欧美日本激情| 国产夜色视频| 成人看片欧美一区二区| 国产精品亚洲一区二区三区z| 亚洲无码四虎黄色网站| 日韩欧美中文字幕在线精品| 日本一区高清| 国产精品浪潮Av| 亚洲日本中文字幕乱码中文| 日韩在线观看网站| www.youjizz.com久久| 国产三级精品三级在线观看| 欧美福利在线观看| 黄色在线不卡| 色AV色 综合网站| 欧美性精品不卡在线观看| 国产色婷婷| 国产丝袜一区二区三区视频免下载| 熟妇人妻无乱码中文字幕真矢织江 | 老色鬼久久亚洲AV综合| 97av视频在线观看| 欧美在线三级| 成人第一页| 国产啪在线91| 亚洲最大福利网站| 色爽网免费视频| 99久久国产精品无码| 色偷偷一区二区三区| 无码国产偷倩在线播放老年人| 99久久成人国产精品免费| 欧美精品在线免费| 丁香五月激情图片| 久久夜色精品| 免费人成又黄又爽的视频网站| 青草视频在线观看国产| 波多野结衣久久精品| 2022国产无码在线| 欧美视频在线播放观看免费福利资源| 亚洲视频欧美不卡| 欧美成人手机在线视频| 91 九色视频丝袜| 久久大香伊蕉在人线观看热2| 国产在线精品美女观看| 国产黄在线免费观看| 亚洲成人一区二区| 中字无码精油按摩中出视频| 日本在线欧美在线| 国产系列在线| 亚洲乱码精品久久久久..| 欧美区国产区| 久久情精品国产品免费| 91亚洲免费视频| 在线观看国产精品第一区免费| 高潮爽到爆的喷水女主播视频| 日韩成人在线视频| 国产成人综合亚洲欧美在| 亚洲人成网站在线观看播放不卡| 欧美日韩理论| 亚洲无线国产观看| 天天综合网亚洲网站| 日韩精品毛片人妻AV不卡| 欧美成人午夜在线全部免费|