999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

獎勵回溯DQN驅動的多QoS工業網絡時隙調度方法

2025-07-28 00:00:00梁煒梁煒鄭家桐張嘉麟楊雨沱
計算機應用研究 2025年7期
關鍵詞:時隙數據包時延

中圖分類號:TP393 文獻標志碼:A 文章編號:1001-3695(2025)07-029-2141-06

doi: 10.19734/j. issn.1001-3695.2024.12.0491

Abstract:Existing researchonmulti-QoSscheduling problems,due toitsreliancesolelyonimmediatereward feedback mechanisms,faces isues ofpoor scalabilityand resource wastagewhen handlingdelay-sensitivedataand mediadata withcontinuous transmision requirements inresource-constrained scenarios.To addressthis problem,this paper proposed aRB-DQN algorithm.Thisalgorithmadjustedthecurrntstate’spolicyevaluationbybacktrackingfutureinteractions,effectivelyidentifyingandresolving packetlosscausedbysuboptimalschedulingstrategies.Additionaly,itdesignedaLTTmetric,whichcomprehensivelyconsideredtheservicerequirements ofbothdelay-sensitivedataandmedia-typedata,alowing forweightadjustmentstoemphasizediferentpriorities.Extensivesimulationresultsdemonstratethattheproposedalgorithmsignificantlyreducesthe delayand jiterofdelay-sensitivedata while ensuringthe smothnessandstabilityof media-type data,outperforming other scheduling strategies.

Keywords:time slot scheduling;deep reinforcement learning;multi-QoS;reward backtracking

0 引言

隨著工業互聯網的快速發展,制造業正經歷深刻的變革。這一變革不僅推動了設備、系統與網絡之間的高效連接,也為智能設備的廣泛應用奠定了堅實的基礎[1,2]。在這一背景下,時隙調度作為一種有效的資源管理策略,越來越受到關注。它能夠根據不同的QoS需求,靈活地進行調度,以滿足多樣化的業務需求,尤其是時延敏感數據和媒體類型數據的傳輸[3]。其中時延敏感數據對時延和抖動的控制要求極為嚴格,未能在截止時間內發送這些數據可能導致系統故障并危及安全。例如,在機械臂的運動控制、AGV(automatedguidedvehicle)的導航調度和電機驅動控制等關鍵功能中,數據傳輸的實時性直接影響到生產效率和設備安全[4,5]。因此,如何有效管理和調度這些時延敏感數據成為了當前研究的重點。與此同時,媒體類型數據(如語音和視頻)的傳輸也日益受到關注。這類數據通常具有軟時延要求,且數據包較大,廣泛應用于視頻監控、圖像采集等場景[6。媒體類型數據在時延方面容忍性較高,其主要目標是確保傳輸的流暢性和穩定性,以提供良好的用戶體驗。因此,不同業務類型所帶來的需求差異使得全面考慮各種需求變得復雜和困難。在多QoS場景下,如何實現合理有效的時隙調度是當前亟待解決的關鍵問題。

針對多QoS場景下的資源分配研究已有很多。例如,文獻[7]在固定時延敏感調度的基礎上,利用深度優先搜索方法對媒體類型數據的路由進行優化,有效降低其時延。文獻[8]提出了一種基于服務區分的實時數據傳輸調度模型,解決工業物聯網中數據傳輸的實時性問題。該模型將報警、狀態、圖像和視頻數據劃分為四種優先級,采用多優先級時隙傳輸方法,合理分配時隙資源以提升傳輸效率。通過動態調整隊列和緩沖空間,該模型確保高優先級數據的及時傳輸。文獻[9]提出了一種基于預留時隙間隔的綜合調度方法,其利用OMT求解器以最大化預留時隙間隔為目標來調度時延敏感數據,并采用(earliestdeadlinefirst,EDF)調度策略,根據AVB流的截止時間進行優先傳輸,從而有效解決了時延敏感數據和媒體數據在調度時的延遲和實時性問題。文獻[10]提出了一種基于EDF的調度方法,其利用多個優先級級別支持時延敏感和媒體類型數據包的調度。然而,上述現有的研究大多側重于傳輸周期性的數據,而當系統中出現非周期性傳輸的數據時,則需要進行重新建模和求解,這不僅增加了模型計算的復雜度,也降低了其適應能力。

目前,強化學習方法通過自適應學習環境變化,優化資源分配策略,從而實現更靈活、高效的調度,并已廣泛應用于無線網絡的資源分配問題[11\~13]。文獻[14]提出了一種基于多智能體深度強化學習的資源分配框架,以滿足異構車輛網絡中的QoS需求。該框架考慮了兩類QoS:a)延遲敏感應用(如安全通信),要求高可靠性和低延遲;b)延遲不敏感應用(如娛樂服務),關注高數據傳輸速率。通過聯合優化信道分配和功率控制,該方法有效提升了系統性能,證明了其在多QoS場景下的有效性。文獻[15]提出了一種基于DQN的計算卸載策略,旨在優化衛星物聯網中的多類型任務處理。其采用排隊模型處理有限的計算資源,能夠同時處理時延敏感型和計算密集型任務,最大限度地減少計算任務的處理延遲,提高資源利用率。文獻[16]提出了一種基于深度強化學習的調度框架,旨在優化可重構無線網絡中的資源分配,以滿足各種QoS需求。該方法通過使用演員-評論家學習算法,動態調整資源分配策略,從而高效管理包括延遲敏感和延遲不敏感在內的多種業務需求。文獻[17]提出了一種基于深度強化學習的流調度方法,旨在解決軟件定義網絡架構下的多目標類型QoS流調度問題。其構建了一個綜合考慮吞吐效能與服務效能的獎勵信號,從而顯著提升了網絡調度的決策水平和服務質量。然而,上述研究在模型反饋時僅獨立考慮各自的QoS,并且只關注了當前時隙的即時反饋,而忽視了未來時隙反饋的延遲效應。這種做法無法有效應對具有連續傳輸需求的媒體數據所加劇的時隙競爭問題。具體來說,媒體數據的連續傳輸特性需要長時間占用多個時隙資源,這會顯著增加時隙的競爭壓力,導致時延敏感數據無法及時獲得所需的時隙資源,從而引發大量的超時丟包現象。

因此,為解決多類型QoS共存的時隙調度問題,本文提出了一種基于獎勵回溯機制的DQN算法。其主要貢獻如下:

a)本文研究了具有混合異構QoS數據流的工業無線網絡中的時隙調度問題,綜合考慮截止時間、包生成時間和媒體包連續傳輸對資源分配的影響。同時,設計了一種時延-吞吐均衡度量指標,該指標考慮了時延敏感數據的延遲與抖動,并確保視頻數據傳輸的傳輸流暢性與幀穩定性。

b)RB-DQN算法基于延遲反饋的思想,引入連續時隙資源分配決策的累積影響,回溯當前狀態進行決策評估,實現資源的高效利用。

c)本文方法與現有典型方法在仿真實驗中進行大量對比,實驗結果表明RB-DQN明顯優于其他調度算法,有效驗證了其優越性和可行性。

1問題建模

1.1系統建模

本文考慮的工業互聯網的系統模型如圖1所示。該系統由一個接入設備(accessdevice,AD)和 N 個單天線的現場設備(fielddevice,FD)組成。AD負責匯總來自各個FD設備的數據包,而FD設備則負責采集不同類型的業務數據,其中 Na 個設備采集時延敏感業務和 Nb 個設備采集媒體業務。定義FD設備的集合為 D={Di|1?i?N} ,設備 Di 在周期性時間窗口 pi 內,以概率 g 驅動為條件產生數據包。令時隙 t 為數據包傳輸的最小單元,其中 pi=kt,k∈Z 。令 μi(t)={0,1} 表示數據包產生的狀態指示變量。如果設備 Di 在 χt 時隙產生了數據,則 μi(t)=0 ;否則為1。所產生的數據包類型包括時延敏感數據和媒體類型數據。定義 x 為數據類型,當 xi=0 時,表示 Di 產生時延敏感的數據;而當 xi=1 時,則表示 Di 產生媒體類型的數據。在每個時隙中,僅允許調度一個設備向AD發送數據包。然而,環境干擾和傳輸沖突會導致數據包調度失敗。為此,定義 ρ 為數據包調度過程中發生丟失的概率。數據包丟包將觸發重傳機制以提高調度的可靠性。數據包達到最大重傳次數或超出規定截止時間后仍未成功調度,則判定該數據包發生丟失。因而,定義 yi(t) 為調度狀態指示變量,其中 yi(t)= {0,1} 。當 Di 在時隙 χt 有待傳數據包且傳輸未丟包記為 yi(t)= 1,否則為0。

1.2 時延敏感數據

1.2.1時延敏感數據描述

時延敏感數據通常指對傳輸時延要求極高的數據類型。這類數據的規模一般較小,通常能夠在一個時隙內完成傳輸,且產生頻率較高,必須在極短時間內發送和處理,以確保系統的實時響應。定義 Pa(i) 表示由設備 Di 采樣獲得的敏感數據,其具體表示為

Pa(i)=?ati,dti?

其中: ati 表示數據包的到達時隙; dti 表示數據包的截止時隙,滿足 dti?pi

1.2.2時延敏感數據評價指標

時延是網絡性能的關鍵指標之一,在本文,時延表示從數據采樣到數據成功交付所經歷的時隙數。對于任意時延敏感數據,其時延由 di(t) 表示:

其中:otherwise意味著三種情況:當 μi(t)=0 ,即設備產生新數據包時,則其時延為0;當未有新數據包產生,且設備 Di 中有待傳數據包,其被調度且發生調度失敗,則意味著時延增加1;當同樣無新數據包產生場景,待傳輸的數據包超過截止時間仍未成功發送,則時延記為最大周期 pi 。

抖動是網絡性能中的另一個關鍵指標,用于描述數據包傳輸過程中到達時間的不一致性。抖動通常定義為連續接收的數據包之間到達時間的變化。在理想情況下,數據包以恒定的間隔到達接收端。然而,由于網絡擁塞、路由延遲和硬件差異,數據包之間的到達時間可能會有所不同。定義 ji(Ωt) 表示 Di 在 Ψt 時隙之前的抖動,用以下公式計算:

1.3媒體類型數據

1.3.1媒體類型數據描述

媒體數據的特點是規模較大,通常覆蓋多個時隙,產生頻率較慢。因此通常容忍相對寬松的時延,但需要高吞吐量來確保連續流暢的數據傳輸。定義 Pb(i) 表示由設備 Di 獲得的媒體數據,其具體表示為

Pb(i)=?ati,eti,ni,m?

其中: ati 表示數據包的到達時隙; eti 表示數據包的穩定流暢時隙;滿足 eti?pi ·ni 表示連續傳輸所需的時隙數; m 表示當前Di 緩存區剩余數據包數量。

現有研究使用幀率來刻畫視頻的流暢性,因為幀率直接關系到視頻的視覺體驗,尤其在動態場景中,較高的幀率能夠有效減少運動模糊,從而提升畫面的流暢性和清晰度。由于本文考慮的是細粒度的時隙調度問題,所以將媒體傳輸建模為:設備 Di 產生的媒體數據在 eti 內,至少需要傳輸 ni 個包。

根據業界標準[18],目前視頻錄制的幀數通常設定為至少30fps ,以確保良好的觀看體驗。以超高清(ultrahighdefini-tion,UHD)視頻為例,其碼率為 15Mbits ,根據式(4),可計算得每幀所需字節數 B≈75000 。

根據 802.11協議[19],數據包的最大長度1514Byte,故傳輸30fps所需時隙數 30×75000/1514≈1487 此外,基于TDMA的WIA-FA協議[1],時隙長度為 256μs ,這意味著每秒可分配的時隙數量為 根據上述分析,為了保證用戶端的視頻體驗,在這3906個時隙中,至少需要傳輸1487個時隙的數據包,從而滿足30fps視頻質量的要求。綜上所述,本文在媒體包傳輸的建模上,與利用幀率來刻畫視頻流暢性的方法是一致的。進一步,為了減少因連續傳輸帶來幀頭部的重復開銷,本文采用聚合的方式,使獲得的媒體數據包能夠在連續的時隙中傳輸,從而提高資源的利用率。

1.3.2媒體類型數據評價指標

針對媒體類型數據包,定義 αi(t) 為 Di 成功交付的媒體數據包的數量,具體公式如下:

定義 βi(t) 為 Di 成功得到媒體數據包的總次數,公式為

為了衡量媒體類型數據包的傳輸流暢性和穩定性,定義包交付率(deliveryratio,DR)作為關鍵指標,具體公式如下:

1.4 問題建模

本文考慮了不同業務類型的綜合調度。在處理敏感數據時,目標是在盡可能滿足時延要求的前提下,降低數據包的抖動。對于媒體類型數據,重點是最大化包的交付率,以確保媒體流的流暢性和穩定性。因此,在每個設備 Di 的時隙 χt 中,為了聯合度量時延、抖動和包交付率,定義時延-吞吐均衡度量指標:

其中: 是權重系數,其反映了時延敏感數據的重要性??梢酝ㄟ^調整 的值靈活地增強對各指標的關注。因此,本文針對綜合業務的時隙調度優化問題的目標函數為

其中:C1是時隙調度約束,表示每個時隙只能調度一個設備;C2是媒體類型數據的連續傳輸約束,表示在 χt 到 t+Pb(i),ni 時隙內連續傳輸。

本文將上述多業務時隙調度問題定義為馬爾可夫決策過程,并設計了一種基于獎勵回溯的DQN綜合調度方法來解決該問題。該方法利用無模型的深度強化學習,通過與環境的不斷交互,潛在地學習系統狀態,從而獲得調度策略。

2獎勵回溯機制驅動DQN時隙調度方法

2.1 馬爾可夫決策過程

在考慮多業務調度任務時,為了實現系統動態地進行時隙調度,本研究將上述問題描述為一個馬爾可夫決策過程(Markovdecisionprocess,MDP)。該系統與環境進行交互,執行不同的動作以改變自身狀態,并獲得相應的回報。通過最大化長期累加回報,能夠獲得一個有效的調度策略。該MDP過程被建模為五元組 ?S,A,R,P(s|s,a) gt;,其中 s 是狀態空間,A是動作空間 ,R 是獎勵, P(s|s,a) 是系統狀態轉移概率(策略)。更具體地說,在每個時隙 χt ,將整個系統視為一個代理,觀察環境的當前狀態 st ,然后根據策略 P(s|s,a) 采取行動 at 。作為反饋,代理將獲得獎勵 rt 并轉移到新的狀態 st+1 。本文詳細定義了MDP模型的三個關鍵要素:狀態、動作和獎勵。

a)狀態(state,S):在時隙 χt ,定義系統的狀態表示為 s(t) ,所有可能的狀態構成狀態空間 s ,其中 狀態 s(t) 包含了系統設備類型 xi 、設備緩沖區數據包狀態、數據包的到達時間 at 、數據包截止時間 dt 或體驗保證時隙 et 、緩沖區空閑狀況 η ,當前時隙 χt 組成了一個 4N+1 的一維集合。

s(t)=(x,at,dt/et,η,t)

具體來說 ,x={x1,x2,…,xN},at={at1,at2,…,atN},dt/et= {dt1/et1,dt2/et2,…,dtN/etN} 。此外, η={η1,η2,…,ηN} ,若是設備 Di 緩沖區為空,則 ηi=0 ;否則為1。

b)動作 (action,A) :在優化問題中,動作是選擇一個被調度的無線設備FD,以將其數據傳輸給 AD 。在時隙 χt ,系統的動作可表示為 a(t)={a1(t),a1(t),…,aN(t)} ,所有可能的狀態構成狀態空間 A,a(t)∈A 。具體來說,設備 Di 的可調度行為被定義為 ai(t)∈{0,1} 。在時隙 χt ,如果設備 Di 被調度,那么 ai(t)=1 ;否則為 0 。

為了保證媒體類型數據的連續傳輸約束,引入了動作約束,以縮小動作空間。如果在時隙 χt ,媒體類型數據被調度傳輸,那么在 χt 到 t+Pb(i).ni 時隙內,必須重復調度該媒體類型的數據。

由上述分析可知,動作空間的維度為 2N 。隨著FD數量的增加,動作空間呈指數級增長,這導致傳統優化方法在求解此類問題時面臨顯著挑戰。這些方法往往依賴于窮舉或啟發式搜索策略,難以在合理的時間內找到有效的解。

c)獎勵(reward,R):系統的學習過程受到模型獎勵 R 的引導,旨在通過與環境交互最大化自身的長期累積獎勵。針對時延敏感型數據,其主要目標是最小化時延和抖動。相對而言,對于媒體類型數據,系統的目標則是最大化數據包的交付率。這兩種類型的數據在傳輸策略上要求不同,因此需要采取相應的優化策略,以確保在動態環境中滿足各自的性能指標。

在時隙 χt ,系統的獎勵記為 r(t) ,其通過狀態 s(t) 執行動作 αa(Πt) 獲得。本文的獎勵函數由系統獎勵 rs(t) 與設備獎勵rd(t) 組成。系統獎勵的設計基于原問題的目標,其具體形式為

不同于系統獎勵關注整體性能,設備獎勵主要針對單個設備的動作合理性提供反饋。設備獎勵的設計主要基于設備緩存區的空閑狀態以及數據的截止時間和體驗保證時間,具體形式為

其中: ωa 和 ωb 表示獎勵的權重,默認值為1。這些權重可根據模型的訓練進行調整。

2.2基于獎勵回溯機制的DQN

本文提出了一種基于獎勵回溯機制的DQN算法用于多業務時隙調度,其主要包括DQN和獎勵回,具體框架如圖2所示。

1)DQNDQN是基于Q-learning的擴展,它通過神經網絡來逼近 Q 值函數,從而避免了傳統Q-learning在高維空間中需要大量存儲空間的問題。Q-learning的目標是學習一個 Q 值函數 Q(s,a) ,表示在狀態 s 采取動作 a 所獲得的期望回報。DQN用帶有參數 θ 的深度神經網絡 Q(s,a;θ) 來逼近這個函數[20]。DQN中包括了主網絡和目標網絡。其中主網絡是DQN的核心,用于策略學習和決策。其參數 θ 會在每次迭代時根據損失函數更新,輸出每個可能動作的 Q 值來指導行動選擇。相對地,目標網絡的參數 θ 在一定的時間間隔內保持不變,其作用是為主網絡提供一個穩定的學習目標。具體來說,目標網絡參與指導主網絡的學習過程。計算目標 Q 值時,固定使用目標網絡的參數

y=r+γmaxaQ(st+1,a

其中: γ 是折扣因子,用來平衡當前和未來獎勵的相對重要性。當折扣因子取值較大,意味著未來獎勵被賦予更高的權重,反之則更關注于當前即時獎勵。

2)獎勵回溯在系統定義的動作中,媒體數據的連續傳輸特性要求長時間占用時隙資源,這可能導致時延敏感數據無法及時獲得所需的時隙,進而引發大量超時丟包現象,導致服務質量下降。為解決這一問題,本文提出了一種基于獎勵回溯機制的優化策略。該策略利用延遲反饋的思想,引人連續時隙資源分配決策的累積影響,回溯當前狀態進行決策評估,從而實現資源的高效利用。不合理的調度策略引發的丟包現象如圖3所示,在時隙t,系統依據策略選擇調度媒體類型數據包,但因連續傳輸的限制,在 t+1 時隙之前未能及時調度時延敏感型數據包,最終導致敏感數據包的丟失。根據獎勵的定義,敏感數據丟包會降低系統的獎勵值 rs(t+1) ,其只將丟包的影響歸因于 t+1 時隙的交互結果,而真正問題的根源在于 χt 時隙的不合理調度策略。

本文的獎勵回溯機制是基于優先級經驗池實現的,具體過程如算法1所示。該機制通過利用未來系統與環境的交互結果,將獎勵反饋作用前傳至相關的歷史時隙,從而使模型能夠更加精準地學習,避免在狀態 s(t) 時作出不合理的調度行為。為了實現這一機制,定義歷史經驗數據結構為 h(t)=(s(t)) ,a(t),r(t),s(t+1) at(t) ,priority,t)。其中priority表示歷史經驗數據的優先級,用于指導經驗回放中的采樣過程,初始值設為0,并在后續調度過程中動態更新; at(t) 表示在 χt 時隙被調度的數據包的到達時隙。在連續傳輸媒體類型數據包的場景中,若因不合理的調度策略導致敏感類型數據包的丟失,系統需要對相關經驗進行調整。例如,當在時隙 χt 調度媒體類型數據包時,由于連續傳輸的限制,模型未能及時調度時延敏感型數據包,結果在時隙 [t,t+Pb(i),ni] 內出現敏感數據包的丟包事件,丟包數量為 nd 。此時,可根據媒體數據包的到達時隙,定位對應的歷史經驗 h(t) 并更新:

h(t)=(s(t),a(t),r(t)-ωdnd,s(t+1),at(t),priority+1,t)

在更新后的經驗中,獎勵 r(t) 減去因丟包帶來的懲罰ωdnd,ωd 是權重系數,默認值為0.5;同時,將優先級priority加1,確保該經驗在回放緩沖區中被優先采樣,使模型通過獎勵回溯機制有效學習,避免在狀態 s(t) 下再次產生類似的非優策略。之后,刪除歷史經驗集合 {h(t+1),…,h(t+Pb(i).ni)} 。最后, ?h(t) 被采樣訓練后,將重置 h(t) 的優先級為默認值。

算法1基于優先級經驗池的獎勵回溯機制輸入:優先級經驗;系統信息(現有緩沖區數據,當前被調度的數據);批量處理大小batchsize大小為 B

輸出: B 大小的訓練樣本。

if yi(t)==1 and xi==0 then向優先級經驗池存儲歷史數據 h(t) :

h(t)=(s(t),a(t),r(t),s(t+1) at(ξt) ,priority,t) else

if時延敏感類型出現丟包,數量為 nd then向優先級經驗池存儲歷史數據 h(t) :

根據被調度數據包的 at(t) ,從經驗池中刪除對應的歷史經驗else

向優先級經驗池存儲歷史數據 h(t) :

endif

從經驗池獲得 B 大小的訓練樣本,優先采樣優先級高的經驗數據將采樣中訓練樣本的優先級恢復至默認值

end if

3)模型訓練在訓練過程中,DQN通過最小化損失函數L(θ) 來更新參數 θL(θ) 是期望平均誤差,用于衡量當前網絡預測值與期望目標值之間的差距:

L(θθ)=E(s,a,r,s[θ(θy-Q(s,a;θ)θ)2]

本文設計的DQN算法如算法2所示。首先,初始化經驗池、主網絡和目標網絡的模型參數。在每次迭代中,隨機確定工業互聯網設備的參數。接下來,生成一個隨機數,依據 ε 貪婪( ε -greedy)策略選擇動作。具體而言,模型可能選擇一個隨機動作,或者根據以下公式選擇最佳動作 a*

再根據獎勵回溯機制更新優先級經驗池,并從中獲取訓練樣本。計算損失值并通過梯度下降法[21]更新主網絡參數 θ 周期性地,目標網絡的權重將被更新為較新的主網絡參數。

算法2 基于獎勵回溯機制的DQN算法輸入:優先級經驗池大小為 D ;工業網絡系統參數(設備數量 N? 設備采樣周期、類型、時隙的數量 T 等);迭代次數episode為 E ;探索因子 ε ;批量處理大小batchsize大小為 B ;參數更新步長 C

輸出:最優策略。

初始化:主網絡權重參數 θ ;目標網絡權重參數 θ forepisode =1 to E do初始化系統狀態、獎勵、設備緩存區等系統參數

if yi(t-1)==1 and xi==0 and Pb(i) m≠0 thena(t)=a(t-1) else隨機生成一個隨機數 z 屬于[0,1]if then隨機選擇動作 a(t) else依據argmax Q(s(t),a;θ) 獲得動作 a 執行 a 與環境交互獲得 r(t) 和下一時刻狀態 s(t+1) end ifendif算法1存儲歷史經驗并采樣 B 大小的訓練樣本根據式(18)計算損失函數根據梯度下降方法更新參數 θ if t% C==0 then更新目標網絡的參數 θ=θ (20號end ifend forend for

3 仿真結果與分析

本文設定了一個多業務需求的工業互聯網場景進行仿真分析。首先對所提方法的收斂性進行分析,以評估不同權重下模型性能的影響;其次,將RB-DQN與其他方法的性能進行比較。

3.1實驗設置

3.1.1 實驗數據

本文的實驗數據包含時延敏感類型和媒體類型的混合數據包,每個包依據表1中的參數隨機生成。

本文方法通過Python3.8.16以及PyTorch1.12.1開源機器學習庫實現,模型訓練使用NVIDIAGeForceRTX4060顯卡。模型訓練參數如表2所示。

3.1.2 對比方案

本文將其與三種時隙調度方法進行了比較:

a)D3QN方法[22]:基于文獻[22],D3QN模型的獎勵考慮時延與可靠性,且其采用了隨機采樣的經驗池,而未考慮獎勵回溯的機制。

b)DQN方法[15]:其與本文方法的模型參數設置一致,獎勵考慮時延與吞吐,區別在于其采用了隨機采樣的經驗池,而未考慮獎勵回溯的機制。

c)基于EDF調度方法°:EDF常用于處理大規模數據的實時調度。其根據數據包的截止時間進行優先級排序,優先處理截止時間較早的任務。在本文,媒體類型的體驗保證時隙作為該數據的截止時間。

d)隨機調度方法(Random):隨機方法是一種隨機采取行動選擇的算法,通過在每個決策階段隨機地選擇動作來解決問題。

3.2 RB-DQN仿真結果與分析

1)收斂性能本文算法的收斂性能如圖4所示??梢杂^察到,在學習過程的初始階段,損失函數的值相對較高。隨著訓練的進行,損失值逐漸降低。這種現象表明模型在逐步調整其參數,以更好地適應數據。當學習達到大約2000個時隙時,損失值顯著下降至一個非常小的水平,這反映出所提方法在優化過程中表現出了良好的效果。

2)不同權重系數 對算法性能的影響圖5展示了所提算法在不同權重系數下對時延、抖動和包接收率的影響。從圖中可以看出,隨著權重系數 的增大,時延和抖動都逐漸降低。這是因為算法在優化目標中更加關注時延和抖動,改善了這兩者的表現。然而,過大的權重系數 會導致包接收率下降,從而影響媒體的流暢性和穩定性。因此,該圖揭示了權重系數如何影響時延、抖動和包接收率之間的關系。通過調整權重系數,可以在一定程度上平衡這三者,但過大或過小的系數都可能導致系統性能下降。

圖4所提算法的收斂性

3.3RB-DQN與其他算法性能對比與分析

1)不同算法LTT指標比較圖6展示了在不同FD數量,所提方法與對比方法評估LTT指標上的性能。

圖6不同FD數量下算法的性能對比Fig.6Comparison of algorithmsunder different numbers of FDs

值得注意的是,LTT值越小,代表算法的性能越好。圖中顯示,隨著設備數量的增加,五種算法的性能均有所下降。這是因為設備數量增加導致調度機會相對推遲,從而影響性能表現。此外,本文方法在所有情況下均表現最優。這表明,本文方法在調度效率上具有明顯優勢。此外,本文方法在所有情況下均表現最佳,顯示出顯著的調度效率優勢。具體而言,D3QN和DQN方法未能有效利用獎勵回溯機制,難以學習調度問題的根本原因,從而影響其性能?;贓DF的調度方法僅關注截止時間,未能綜合考慮時延敏感包和媒體類型數據的特性,因此難以保證系統整體性能。隨機選擇的調度方法由于其隨機性,缺乏有效的調度策略,最終導致性能不佳。

2)時延、抖動和包接收率為了深入分析本文算法在時延、抖動和包接收率上的性能表現,圖7展示了不同算法在FD數量為5時的性能對比。

結果顯示,所提算法在時延和抖動方面相較于D3QN、DQN、EDF和隨機選擇方法均有顯著的提升。具體而言,所提算法在時延指標上有效降低至1.93,明顯優于其他算法,尤其是隨機選擇方法,其時延值高達4.87。這表明,本文算法在資源調度與決策方面具有更高的效率,能夠更有效地減少數據傳輸的延遲。此外,在抖動方面,該算法的表現也較為突出,其值為1.18,低于D3QN、DQN和EDF方法中的抖動值,顯示出其在穩定性方面的優勢。在媒體包接收率方面,本文方法的接收率高達 98% ,幾乎接近 100% 。綜上所述,本文方法能夠顯著降低時延敏感數據的時延和抖動,同時確保媒體類型數據包的傳輸流暢性和穩定性。

4結束語

本文深入研究了在多業務需求背景下的工業網絡中的時隙調度問題,并提出了一種基于獎勵回溯機制的深度Q網絡(DQN)算法。該算法利用優先級經驗池實現獎勵回溯機制,分析了多業務之間相互影響的根源。此外,設計了一種時延-吞吐均衡度量指標,以降低時延敏感數據的延遲和抖動,并確保媒體類型數據的流暢性和穩定性。實驗結果顯示,本文算法在性能上明顯優于其他調度算法,有效驗證了其優越性與有效性。展望未來,隨著工業設備數量的增加及通信資源的不足,研究將重點考慮引入資源復用機制以解決多業務調度問題。然而,資源復用的引入可能會導致設備間的相互干擾,因此,如何有效解決干擾問題并實現多需求的時隙調度將成為下一階段工作的關鍵。

參考文獻:

[1]LiangWei,ZhengMeng,ZhangJialin,etal.WIA-FAand itsapplicationstodigital factory:awirelessnetworksolution forfactoryautomation[J].ProceedingsoftheIEEE,2019,107(6):1053-1073.

[2]ChiHaoran,Wu CK,HuangNenfu,et al.A survey of networkautomationforindustrial Internet-of-thingstoward industry5.O[J]. IEEETrans on Industrial Informatics,2023,19(2):2065-2077.

[3] HussainMI,AhmedN,AhmedMZI,etal.QoSprovisioningin wireless mesh networks:asurvey[J].Wireless Personal Communications,2022,122(1):157-195.

[4]賀雪梅,匡胤,楊志鵬,等.基于深度強化學習的AGV智能導航 系統設計[J].計算機應用研究,2022,39(5):1501-1504, 第42卷 1509.(He Xuemei,Kuang Yin,Yang Zhipeng,et al.Design of AGV inteligent navigation system based on deep reinforcement learning[J].Application Research of Computers,2022,39(5): 1501-1504,1509.)

[5]Khan WZ,Rehman MH, Zangoti HM,et al. Industrial Internet of Things:recent advances,enabling technologies and open challenges [J].Computers amp; Electrical Engineering,2020,81:106522.

[6]Nauman A, Ahmad Qadri Y,Amjad M,et al._Multimedia Internet of Things:acomprehensive survey[J]. IEEE Access,2020,8: 8202-8250.

[7]Wang Xiaodong,RenJie,Gong Kai,et al.Adelay-optimizedrouting algorithm for AVB streams in time-sensitive networking[C]// Proc of the 7th International Conference on Computerand Communication Systems.Piscataway,NJ: IEEE Press,,2022: 503-507.

[8]柴安穎,馬躍,尹震宇,等.一種基于服務區分的實時數據傳輸 調度模型研究與實現[J].小型微型計算機系統,2020,41 (12):2607-2612.(Chai Anying,Ma Yue,Yin Zhenyu,et al. Research and implementationof real-timedata transmisionscheduling model based onservice diferentiation[J].Journal of Chinese Computer Systems,2020,41(12): 2607-2612.)

[9]Deng Libing,Zeng Gang,Kurachi R,et al.Enhanced real-time scheduling of AVB flowsin time-sensitivenetworking[J].ACM Trans on Design Automation of Electronic Systems, 2024,29 (2): 1-26.

[10]Pati G,Bell L L,Leonardi L.Deadline-aware online scheduling of TSN flows for automotive applications_[J]. IEEE Trans on Industrial Informatics,2023,19(4):5774-5784.

[11] Zhang Chaoyun,Patras P,Haddadi H._Deep learning in mobile and wireless networking: a survey [J]. IEEE Communications Surveysamp; Tutorials,2019,21(3): 2224-2287.

[12] Luong N C, Hoang D T, Gong Shimin,et al. Applications of deep reinforcement learning in communications and networking:asurvey [J]. IEEE Communications Surveys amp; Tutorials,2019,21(4): 3133-3174.

[13]柴浩軒,金曦,許馳,等.面向工業物聯網的5G機器學習研究 綜述[J].信息與控制,2023,52(3):257-276.(Chai Haoxuan, JinXi,Xu Chi,etal.Reviewofmachinelearning-based5G forindustrial Internet of Things[J].Information and Control,2023,52 (3) : 257-276.)

[14]Tian Jie,Liu Qianqian, Zhang Haixia,et al.Multiagent deepreinforcement-learning-based resource allcation for heterogeneous QoS guarantees for vehicular networks [J]. IEEE Internet of Things Joumal,2022,9(3):1683-1695.

[15]楊桂松,李相霏,何杏宇.衛星物聯網中面向多類型任務的計算 卸載策略[J].計算機應用研究,2024,41(11):3441-3446. (Yang Guisong,Li Xiangfei, He Xingyu. Computing offloading strategy for multi-type tasks in satelite Internet of Things[J]. Application Research of Computers,2024,41(11):3441-3446.)

[16]Mollahasani S,Erol-Kantarci M,Hirab M,etal.Actor-critic learning based QoS-aware scheduler for reconfigurable wireless networks [J].IEEE Trans on Network Science and Engineering,2022, 9(1) : 45-54.

[17]劉星彤,鄭紅,黃建華,一種改進近端優化的多目標流QoS調度 策略[J].應用科學學報,2024,42(3):499-512.(Liu Xingtong,Zheng Hong,Huang Jianhua. A multi-objective flow QoS scheduling strategywith improved proximal optimization[J].Journal of Applied Sciences,2024,42(3): 499-512.)

[18] Shahjalal M, Hasan M K, Chowdhury M Z, et al. Smartphone camera based optical wirelesscommunication system:requirements and implementationchallenges[J].Electronics,2019,8(8):913.

[19] IEEE 802.11—2012,IEEE standard for local and metropolitan area networks-part 11:wirelessLAN medium access control(MAC)and physical layer (PHY)[S]. 2012.

[20]Li Hongjia,Wei Tianshu,Ren Ao,et al.Deep reinforcement learning:framework,applications,and embedded implementations:invited paper[C]//Proc of IEEE/ACM International Conference on Computer-Aided Design. Piscataway,NJ: IEEE Press,2017: 847-854.

[21] Kingma D P, Ba J,Hammad M M.Adam: a method for stochastic optimization [EB/OL]. (2014-12- 22).https://arxiv.org/abs/ 1412. 6980.

[22]Xie Xin,Gao Shizhao,Wang Heng.Scheduling approaches for joint optimization of age and delay in industrial wireless networks[J]. IEEE Trans on Industrial Informatics,2024,20(5): 7183-7193.

猜你喜歡
時隙數據包時延
一種基于CPU+FPGA架構的大容量數據高效索引方法
衛星通信網絡擁塞控制算法的研究
基于華為USG6000v防火墻的IPv6隧道技術仿真實現
車聯網業務特性模型下卸載反饋策略的設計與評估
基于節點活躍度的命名數據自組網包轉發策略
車聯網業務特性模型下卸載反饋策略的設計與評估
基于5G網絡的車聯網系統架構與性能優化研究
汽車電器(2025年7期)2025-08-10 00:00:00
邊緣計算中動態服務器部署與任務卸載聯合優化算法
主站蜘蛛池模板: 制服丝袜亚洲| 久久国产精品国产自线拍| 伊在人亚洲香蕉精品播放| 国产精品浪潮Av| 丰满少妇αⅴ无码区| 综合社区亚洲熟妇p| 国产高清在线精品一区二区三区| 伊人久久综在合线亚洲2019| A级毛片无码久久精品免费| 激情亚洲天堂| 无码 在线 在线| 国产在线观看成人91| 日本www在线视频| 欧美亚洲激情| 国产亚洲精品自在久久不卡| 毛片视频网址| 精品视频一区二区三区在线播| 成年人视频一区二区| 久久 午夜福利 张柏芝| 91精品专区| 91福利国产成人精品导航| 一区二区无码在线视频| 国产欧美精品专区一区二区| 日本91视频| 国内丰满少妇猛烈精品播| 91免费国产在线观看尤物| 国产一区二区三区视频| 欧美日本在线一区二区三区| 一区二区三区高清视频国产女人| 国产精品视频导航| 国产精品一区在线观看你懂的| 四虎永久在线精品国产免费| 国产一区二区三区免费| 欧美性爱精品一区二区三区| 午夜三级在线| 色视频久久| 亚洲aaa视频| 91久久偷偷做嫩草影院| 成人免费一级片| 精品天海翼一区二区| 亚洲欧美成人在线视频| 亚洲精品老司机| 亚洲成人免费看| 日韩在线欧美在线| 日本午夜影院| 97在线碰| 激情亚洲天堂| 国产成人超碰无码| 亚洲人成影视在线观看| 国产一级毛片在线| 婷婷六月色| 欧美日韩激情在线| 91蝌蚪视频在线观看| 亚洲日韩Av中文字幕无码| 69精品在线观看| 日本一本在线视频| 91精品国产自产在线观看| 欧美一级在线播放| 一区二区三区在线不卡免费| 久草热视频在线| 国产原创第一页在线观看| 免费看久久精品99| 欧美精品高清| 老色鬼欧美精品| 最新加勒比隔壁人妻| 精品夜恋影院亚洲欧洲| 国产极品美女在线观看| 极品私人尤物在线精品首页| 国产真实自在自线免费精品| 国产成熟女人性满足视频| 欧美不卡视频一区发布| 欧美日韩在线亚洲国产人| www.亚洲一区| 欧美一级在线看| 亚洲人成网站观看在线观看| 999国产精品| 国产精品熟女亚洲AV麻豆| 日本亚洲国产一区二区三区| 精品国产成人国产在线| h视频在线播放| 色综合国产| 国产激情第一页|