基于強化學習的IPv6校園網雙棧流量調度方法

2023-08-21 09:57:42楊建袁林德劉磊

無線互聯科技 2023年12期

楊建袁林德劉磊

摘要：由于傳統方法在IPv6校園網雙棧流量調度應用中效果不佳，網絡吞吐率比較低，文章提出基于強化學習的IPv6校園網雙棧流量調度方法，利用無向圖建立IPv6校園網雙棧鏈路拓撲模型，描述雙棧鏈路負載均衡狀態，以負載均衡度最大化、雙棧鏈路路徑長度最小化為目標建立目標函數，利用強化學習網絡模型對目標函數求解，將最優調度策略反饋到模型中執行，以此實現基于強化學習的IPv6校園網雙棧流量調度。實驗證明，在設計方法應用下IPv6校園網吞吐量達到141.02 Gbps，在IPv6校園網雙棧流量調度具有良好的應用前景。

關鍵詞：強化學習；IPv6校園網；雙棧流量；吞吐率；無向圖

中圖分類號：TP393.2? 文獻標志碼：A

0 引言

隨著IPv6技術的不斷更新與完善，IPv6已經被廣泛應用到校園網絡系統建設中，IPv6校園網具有高安全性、高靈活性、高彈性等特征，并且能夠同時使用IPv6和IPv4兩個網絡協議。IPv6校園網雙棧流量復雜多樣，流量種類也越來越多，IPv6校園網絡帶寬資源有限，如果IPv6校園網雙棧流量沒有得到合理調度，將會直接影響到校園網絡的吞吐能力，因此如何有效分配和調度雙棧流量，成為IPv6校園網面臨的主要難題。目前，IPv6校園網用戶對網絡性能要求越來越高，不僅要保證雙棧流量成本最低，而且還要保證雙棧流量吞吐率達到最大化，提高網絡帶寬利用率。但是國內關于網絡雙棧流量調度研究起步比較晚，相關技術與理論還不夠成熟與完善，技術水平還比較低，與發達國家相比存在較大的差距。雖然近幾年流量調度問題受到研究領域學者的重視與關注，相關學者與專家開展了一系列研究，提出了一些調度方法，但是現行的方法還存在一些缺陷，在實際應用中無法達到預期的調度效果。IPv6校園網吞吐率比較低，傳統方法已經無法滿足實際需求，為此，本文提出基于強化學習的IPv6校園網雙棧流量調度方法。

1 建立IPv6校園網雙棧鏈路模型

此次將IPv6校園網雙棧流量調度問題轉變為一個線性規劃問題，即流量在IPv6校園網中從不同的源節點流向不同的終節點問題，流量調度問題的目標是以最小損耗實現數據流在IPv6校園網中的流通，但是不能超過每個鏈路的承載能力［1］。利用無向圖建立IPv6校園網雙棧網絡拓撲模型，其用公式表示為：

G=（V，E）（1）

式中：G表示IPv6校園網雙棧網絡拓撲模型；V表示整個IPv6校園網拓撲中的雙棧鏈路；E表示所有節點，其中包括源節點和非源節點［2］。IPv6校園網雙棧流量調度問題，實際就是對現有網絡資源分配問題，保證校園網雙棧流量業務在運行環境下能夠穩定運行［3］。要對校園網雙棧流量調度，首先需要了解校園網絡雙棧資源的使用情況，其計算公式為：

U=∑Ni=1xikizi（2）

式中：U表示IPv6校園網雙棧流量業務的整個切片資源占有率，即雙棧鏈路的資源使用率；i表示雙棧流量業務數量；N表示所有流量路徑集合；xi表示流量業務在切片中與其他業務資源占比；ki表示校園網絡流量業務請求；zi表示IPv6校園網中每條雙棧鏈路中的總帶寬資源［4］。根據校園網絡雙棧資源使用情況，確定IPv6校園網雙棧鏈路負載均衡狀態，其用公式表示為：

ε=∑maxU-minUu（3）

式中：ε表示IPv6校園網雙棧鏈路負載均衡狀態；maxU表示雙棧鏈路資源使用率最大值；minU表示雙棧鏈路資源使用率最小值；u表示IPv6校園網所有業務資源的集合［5］。考慮到IPv6校園網雙棧流量是存在瞬時激增或者速減的，負載均衡狀態是不穩定的，采用梯度更新的方式對IPv6校園網雙棧鏈路負載狀態進行更新，更新后的ε值越大，表示網絡雙棧鏈路資源分配越均勻，ε值越小，表示網絡雙棧鏈路資源分配越不均勻，根據確定的網絡雙棧鏈路負載均衡狀態，驅動雙棧流量調度優化。

2 建立雙棧流量調度目標優化函數

根據IPv6校園網流量資源調度需求，此次以IPv6校園網負載均衡度ε最大化、雙棧鏈路長度最小化為目標，建立兩個子目標函數，其用公式表示為：

maxε=∑i=1xi

minh=∑（d，j）∈V djμdj（4）

式中：minh表示IPv6校園網雙棧鏈路長度最小值；（d，j）表示節點d到節點j的雙棧鏈路；dj表示流量業務在雙棧鏈路（d，j）所占的流量比；μdj表示雙棧鏈路（d，j）的權重［6］。將以上兩個子目標函數整合為一個，由此可以建立雙棧流量調度目標優化函數：

f（x）=maxε+minh（5）

式中：f（x）表示校園網雙棧流量調度目標優化函數。

3 基于強化學習的目標函數求解

上文建立的目標函數存在無數個解，需要從眾多解中找出最優解，此次采用強化學習技術對目標函數最優解進行求取。根據實際情況建立強化學習網絡模型，該模型由強化學習智能體、記憶池組成，將強化學習網絡模型接入IPv6校園網雙棧鏈路模型，對其進行控制，具體流量調度過程如圖1所示。

如圖1所示，將雙棧鏈路模型描述得到的鏈路負載均衡狀態輸入強化學習智能體狀態空間，通過對目標函數最優解求解，得出一個與狀態相應的動作［7］。強化學習網絡模型具有一定的學習能力，假設目標函數解集為M，解集中含有m個解，將每個解對應的狀態數據樣本作為訓練樣本，輸入強化學習智能體，對智能體進行訓練，在仿真環境中模擬流量，每次模擬要給出獎勵，在記憶池中設置獎勵函數，如果智能體模擬的雙棧鏈路滿足帶寬需求，對其進行獎勵，如果不符合帶寬需求，則不給予獎勵，其用公式表示為：

Reward=1-ρ，ifW=False

0，ifW=True（6）

式中：Reward表示獎勵函數；ρ表示獎勵系數；W表示本輪雙棧流量模擬是否結束；False表示結束；True表示繼續。根據實際情況，對智能體迭代次數設定，按照上述流程對智能體進行迭代訓練，對各個解進行模擬，當滿足迭代要求后，按照獎勵對目標函數解進行排序，輸出獎勵最多的解為最優解，最能滿足IPv6校園網雙棧鏈路帶寬需求的流量調度策略，將其輸入上文建立的IPv6校園網雙棧鏈路模型，執行調度策略，以此完成基于強化學習的IPv6校園網雙棧流量調度。

4 實驗論證

4.1 實驗準備與設計

為了檢驗本次提出的基于強化學習的IPv6校園網雙棧流量調度方法的可行性與可靠性，選擇某IPv6校園網為實驗對象，該校園網由5臺主機、5臺路由器構成，網絡支持IPv6協議棧，利用本文設計方法對該IPv6校園網雙棧流量調度，并選擇兩種傳統方法作為對比，兩種傳統方法分別為基于遺傳算法和基于螞蟻算法，以下用傳統方法1與傳統方法2表示。實驗令IPv6校園網生成7條雙棧鏈路，由100名網絡用戶向網絡發送數據傳輸請求，請求發送頻率為1.26 Hz，數據傳輸總量為2 000 Byte，按照上文建立雙棧鏈路模型以及雙棧流量調度目標函數，并利用強化學習對目標函數求解，執行最優流量調度策略。在設計方法應用下所有網絡請求都得到響應，設計方法可以完成IPv6校園網雙棧流量調度任務，以下對具體調度效果進行檢驗。

4.2 實驗結果討論

實驗以網絡吞吐率作為3種方法調度性能評價指標，其中網絡吞吐率可以反映網絡請求處理能力，其計算公式為：

g=cv×100%（7）

式中：g表示IPv6校園網吞吐率；c表示網絡流量總請求數量；v表示流量請求處理總完成時間。根據實驗網絡配置情況，單個鏈路吞吐率不應低于12.5 Gbps。實驗將其作為檢驗標準，使用上述公式計算出校園網各個雙棧鏈路流量吞吐率，使用電子表格對實驗數據記錄，具體數據如表1所示。

從上表中數據可以看出，在設計方法應用下IPv6校園網流量吞吐率相對比較高，總吞吐率為141.02 Gbps，單個鏈路最大吞吐率為20.48 Gbps，遠超出規定要求，說明設計方法流量調度效果良好，網絡的請求處理能力得到有效保證；而在兩種傳統方法應用下IPv6校園網吞吐率相對比較低，傳統方法1與傳統方法2總吞吐率分別為74.56，76.51 Gbps，單個鏈路最高吞吐率分別為11.14，11.25 Gbps，不僅低于最小限值，而且還遠遠低于設計方法。因此本次實驗證明，設計方法流量調度效果優于傳統方法，相比較傳統方法更適應于IPv6校園網雙棧流量調度。

5 結語

針對現行方法存在的不足與缺陷，本文參考相關文獻，將強化學習技術應用到IPv6校園網雙棧流量調度中，提出了一個全新的調度思路，有效提高了IPv6校園網吞吐率，實現了對傳統方法的優化與創新，豐富了IPv6校園網雙棧流量調度理論。由于本文提出的方法尚未在實際中得到大量應用與實踐，在某些方面可能存在一些不足之處，今后會在方法優化設計方面展開探究，為IPv6校園網雙棧流量調度提供有力的理論支撐。

參考文獻

［1］王波，高文煒，徐丹妮，等.一種基于NeSTiNg的TSN強實時流量調度和自動配置方法［J］.微電子學與計算機，2022（11）：62-68.

［2］聶宏蕊，李紹勝，劉勇.時間敏感網絡中基于IEEE 802.1Qch標準的優化調度機制［J］.通信學報，2022（9）：12-26.

［3］肖漫漫，劉驥琛，李艷麗，等.軟件定義廣域網中基于IPv6分段路由的雙棧流量調度算法［J］.重慶大學學報，2022（9）：115-125.

［4］沙宗軒，霍如，孫闖，等.基于深度強化學習的轉發效能感知流量調度算法［J］.通信學報，2022（8）：30-40.

［5］甘浩宇，陳立豐，郭娘容，等.基于強化學習的5GURLLC承載網切片流量調度優化［J］.電腦知識與技術，2022（13）：9-13.

［6］馬樞清，唐宏，李藝，等.基于粒子群優化算法的數據中心網絡流量調度策略［J］.電訊技術，2021（7）：865-871.

［7］李宏慧，李煒東，付學良.基于多層虛擬拓撲節能的SDN數據中心網絡流量調度算法［J］.計算機應用與軟件，2021（4）：124-131.

（編輯王雪芬）

Dual-stack traffic scheduling method of IPv6 campus network based on reinforcement learning

Yang? Jian， Yuan? Linde， Liu? Lei

（Xian Conservatory of Music， Xian 710061， China）

Abstract：? Because the traditional method is not effective in dual-stack traffic scheduling application of IPv6 campus network and the network throughput is relatively low， a dual-stack traffic scheduling method of IPv6 campus network based on reinforcement learning is proposed. The dual-stack link topology model of IPv6 campus network was established by using undirected graph to describe the load balancing state of dual-stack link. The objective function was established by maximizing the load balancing degree and minimizing the path length of dual-stack link. The objective function was solved by using the reinforcement learning network model， and the optimal scheduling strategy was fed back into the model for execution. In this way， the dual stack traffic scheduling of IPv6 campus network based on reinforcement learning is realized. The experimental results show that the throughput of IPv6 campus network reaches 141.02 Gbps under the design method， which has a good application prospect in dual-stack traffic scheduling of IPv6 campus network.

Key words： reinforcement learning; IPv6 campus network; double stack flow; throughput rate; undirected graph

無線互聯科技2023年12期

無線互聯科技的其它文章: 一種產生64個前綴邏輯根序列起始索引號的規劃方法; 高速公路交通流狀態的元胞自動機模型仿真與推演; 大數據分析技術在通信網絡運維中的運用及分析; 通信傳輸系統的網絡保護分析; 基于iFogSim模擬器的智能監控網絡的應用研究; 高精度ADC測試研究