車聯網中深度強化學習輔助的RAN切片和任務卸載聯合優化

2024-04-22 02:30:42田一博白光偉王天荊

小型微型計算機系統 2024年4期

關鍵詞：資源

田一博,沈航,白光偉,王天荊

(南京工業大學計算機科學與技術學院,南京 211816)

0 引言

車聯網(Internet of Vehicles,IoV)基于車用無線通信技術,將車輛、路邊單元(Road-Side-Unit,RSU)、基站和服務提供商連接為一個有機的整體,實現全方信息實時共享[1].車載用戶可以獲得自動駕駛、路徑規劃、碰撞預警、車載娛樂、高清地圖下載等服務[2].一般而言,車輛搭載的計算設備能力有限.車聯網中有許多對延遲敏感的計算任務,若任務被卸載至遠端的云服務器,遠程傳輸和處理帶來的高延遲對延遲敏感型任務而言是無法接受的[3].移動邊緣計算(Mobile Edge Computing,MEC)[4]將數據處理從云端轉移到網絡邊緣設備中,終端設備產生的任務交由邊緣設備處理,有效降低傳輸過程中產生的延遲.車輛大部分時間處于高速移動狀態,任務發布在時間和空間上分布不均勻.邊緣網絡資源有限,很難為車載用戶提供穩定的服務質量(Quality-of-Service,QoS)保證[5].車聯網用戶常同時處于多個基站的覆蓋范圍內,如何為任務選擇最優卸載目的地也是一個挑戰性問題.

網絡切片[6]是一種對網絡架構和服務模式的重要革新技術.通過將物理無線接入網(Radio Access Network,RAN)劃分為多個邏輯獨立的虛擬網絡(即:切片),多個運營商可以共享同一物理網絡的資源,從而提升網管靈活度,減少基礎設施支出和運營成本.網絡功能虛擬化(Network Functions Virtualization,NFV)[7]和軟件定義網絡(Software-Defined Networking,SDN)[8]是網絡切片的支撐技術.在RAN側,基站功能包括無線接入和處理等,用于創建無線連接并分配資源.在無線NFV中,無線接入等功能以軟件實例形式運行在基站上,由一個集中式的控制器進行管理.通過采集終端請求信息,控制器根據QoS需求創建切片并依據網絡實時流量或拓撲信息調度網絡切片資源.

由于多種類型任務并存,車聯網任務卸載對網絡切片技術有天然的依賴.RAN切片可以為車載用戶不同類型任務的卸載提供差異化的QoS保證[9].然而,邊緣網絡設備中的頻譜和計算資源有限,使得任務卸載策略與切片劃分策略呈相互耦合的關系.另一方面,車聯網用戶常處于高速移動狀態,而單個基站的覆蓋范圍有限,任務難以在延遲要求內處理完成.協同多個基站的資源為同一用戶提供服務可以解決這一難題,但車輛與基站的關聯(association)選擇也成為一項關鍵且具有挑戰性的問題.

針對上述挑戰性問題,本文提出面向車聯網的RAN切片和任務卸載聯合優化框架,目的是在滿足車輛應用任務卸載延遲需求的基礎上最大化任務完成率.主要貢獻包括:

1) 提出一種面向服務的動態RAN切片框架,在大時間尺度上進行資源切片,在小時間尺度上進行任務調度,為不同類型的任務卸載提供差異化QoS保證.基于排隊模型,RAN切片和任務卸載聯合優化被建模為一個耦合約束和資源約束下的最大化長期任務完成數的聯合優化問題.

2) 將聯合優化問題進一步解耦為RAN切片和任務調度兩個子問題.對于前者,設計一種最優化方法,以切片窗口為周期,為RAN切片分配頻譜和計算資源.對于后者,設計基于深度強化學習的算法,解決小時間尺度下的在線任務調度,以適應車輛的高速移動性和均衡基站負載.該算法綜合考慮車輛行駛速度和方向,允許任務的接收和處理分別被不同的基站執行.仿真結果表明,相比現有的方案,本文方案可以顯著提高資源利用率和任務成果完成率.

本文的剩余部分安排如下:第1節介紹和本文相關的研究工作;第2節對所提出的系統模型進行詳細描述;第3節將RAN資源切片和任務調度構建為一個帶約束的隨機優化問題;第4節將隨機優化問題解耦為RAN切片子問題和任務調度子問題,并提出一種基于深度強化學習的調度決策算法;第5節介紹實驗的參數設置和仿真結果;最后對全文進行總結,并指出未來的研究方向.

1 相關工作

由于車聯網場景下的任務常具有高時延敏感性的特性,任務卸載效果在很大程度上依賴車輛-基站關聯模式.盧旭等人[10]提出了一種基于云邊協同的計算卸載網絡模型,通過對服務應用進行分類,設計了一種基于車聯網的自適應邊緣卸載策略,并提出一種基于多目標免疫算法實現卸載時延、車載終端消耗的多目標優化.朱思峰等人[11]提出異構無線網絡下行資源切片框架,為機器類型設備和移動用戶設備提供差異化QoS保障.該方案利用迭代優化方法解決資源分配和設備接入選擇聯合決策問題,旨在最大化網絡效用.許小龍等人[12]提出一種“端-邊-云”協同的車聯網邊緣計算系統模型,并針對該模型設計了基于深度學習的分布式服務卸載方法.該方案通過輸入網絡環境中的系統狀態,獲取服務的卸載策略.Dai等人[13]研究了一種基于MEC的汽車眾包服務場景,通過聯合優化卸載決策和帶寬資源分配對車輛感知到的交通數據進行調度.該方案設計了一種異步深度Q學習算法確定卸載決策.總體而言,在動態變化的車聯網環境下,傳統的啟發式算法也可以為車載用戶提供差異化服務,但取得的效果有限.而深度學習的應用較好地解決了車聯網環境多變,任務信息復雜的問題.

RAN切片的資源分配也會影響任務卸載效果.自動駕駛任務往往具有差異化QoS的特性.如果無線電資源的分配無法滿足任務傳輸速率、時延或可靠性的要求,則可能無法實現計算的負載均衡.Omar等人[14]研究了車輛網絡協同計算卸載的聯合通信和計算時間分配問題,將任務卸載資源、本地任務執行資源和車輛輔助任務遷移資源進行聯合優化,以實現任務計算的整體最大可靠性.Xu等人[15]針對計算任務的卸載目的地選擇問題,設計了一種適用于邊緣計算的自適應計算卸載方法,優化邊緣計算系統的任務卸載延遲和資源利用.劉雷等人[16]針對車聯網環境下有限的網絡資源和大量用戶需求之間的矛盾,設計了任務卸載和服務緩存的聯合優化機制.利用異步分布式智能優化算法,得到最優卸載決策和資源管理方案.

與低移動性場景下的任務卸載不同,面向車聯網的任務卸載需要考慮到用戶的高速移動性帶來的影響.這驅使本文研究一種深度強化學習輔助的,基于RAN切片的協作式任務卸載方法,在動態變化的網絡環境中,找到最優的任務卸載方案,為車輛任務卸載提供差異化的QoS保證.

2 系統模型

2.1 網絡場景和假設

如圖1所示,考慮一個MEC輔助的車聯網場景,其中包含地面基站、車輛和基于MEC的控制器.車輛和地面基站的集合分別被表示為{I,J}.控制器和基站通過有線連接.作為邊緣網絡的計算中心,控制器可以降低車輛獲得服務的時延,提高服務效率.在基站覆蓋范圍內的所有車載任務都可以通過基站卸載到控制器進行調度.控制器根據網絡環境實時分配任務,并交由合適的基站處理.基站接收到任務后,按任務的需求,延遲約束等信息為其分配物理資源并進行處理.最后,基站將處理結果傳回車輛.

圖1 MEC輔助車聯網場景Fig.1 MEC assisted internet of vehicles

即使同時處于多個基站的覆蓋范圍內,車輛在同一時隙也只能關聯唯一的基站卸載任務.

2.2 面向任務卸載服務的RAN切片框架

本文設計一種面向任務卸載服務的RAN切片框架,采用長短時協同優化機制,以應對網絡動態性和任務流量的時空變化.如圖2所示,本文考慮兩類典型的車聯網任務,即:延遲敏感型任務和延遲容忍型任務.前者對應智能汽車內部控制指令[17]等,其延遲約束僅為50ms～1s;后者的典型應用包括車載設備的高清地圖下載[18],延遲要求比較寬松.

圖2 多時間尺度面向任務卸載的RAN切片框架Fig.2 Multi-timescale task offloading oriented resource management framework

任務類型o=1(o=2)對應延遲敏感(延遲容忍)型任務.每個基站的物理資源(頻譜資源和計算資源)被劃分為2個面向任務卸載的RAN切片,即切片1和切片2,分別支持延遲敏感型任務和延遲容忍型任務.基站j持有的頻譜資源和計算資源分別表示為cj和sj.基站j分配給切片o∈{1,2}的頻譜和計算資源數量表示為cj,o和sj,o.

考慮到車流量的時空變化,RAN資源的切分策略需要根據實際情況動態調整.文中探索一種多時間尺度RAN切片框架,以支持具有差異化QoS需求的任務卸載.如圖2所示.時間被劃分為多個等長的切片窗口,每個切片窗口被劃分為等長的調度時隙.切片窗口w包含的調度時隙集合被定義為Tw.在切片窗口開始時,控制器根據收集的歷史任務信息制定相應的RAN切片方案.各個基站按照切片方案分配頻譜資源和計算資源.然后在小尺度的調度時隙t∈Tw內,即控制器對接收到的任務進行調度;各個基站按照任務調度決策處理任務;基站將任務的處理結果傳回車輛;基站將任務的數據上傳到控制器中.

2.3 通信模型

基站根據任務類型將同類切片中的資源以正交的形式分配給所關聯的車輛.在與基站傳輸的過程中,車輛受到的干擾只來自其他基站的傳輸信號.車輛i的發射功率被表示為Pi.基站j的發射功率被表示為Pj.定義σ2為平均背景噪聲.若基站j分配給車輛i產生的任務m的帶寬為ci,j,m,則車輛i向基站j提交任務m時的上行傳輸速率被計算為:

(1)

其中,j′代表基站集合中去除j的剩余基站.Gi,j代表車輛i與基站j之間的信道增益,計算參照文獻[19].

車輛接收基站的回傳結果時,同樣只受到來自其他基站的干擾.因此,從基站j回傳任務m到車輛i的下行傳輸速率為:

(2)

2.4 協作式任務調度框架

針對車輛的高速移動性,本文設計一種協作式的任務調度框架.從圖3可以看出,任務調度不再依賴單個基站,而是允許任務的卸載與處理在不同的基站執行.每個基站包含兩個處理隊列,用以緩存采集到的延遲敏感型和延遲容忍型任務.MEC控制器也包含與之對應的兩個卸載隊列,用于緩存由基站采集來的兩類任務.綜合多源信息,MEC控制器卸載隊列中的任務被轉交給不同的基站協作處理.

圖3 協作式任務調度框架Fig.3 Collaborative task scheduling framework

協作式任務調度需要綜合考慮車輛位置、速度、行駛方向和基站負載等因素.考慮到基站負載對處理延遲的影響,本文利用排隊論[20]刻畫基站處理任務的過程,并通過公式推導計算得到延遲敏感型和延遲容忍型任務的調度時延.

車輛i產生的任務m中包含任務的數據大小(bits)、所需計算資源數目和任務處理完成的延遲需求,分別被表示為εi,m,τi,m,di,m.下面基于排隊論建模任務卸載和處理延遲.

2.4.1 任務卸載延遲建模

任務卸載延遲代表任務從車輛上行由基站j卸載至控制器的時間.基站j采集到的類型為o的任務集合Mj,o的總元素個數被表示為Mj,o.在控制器覆蓋的區域內,請求類型為o的任務從車輛傳輸到基站的平均時間被量化為:

(3)

將單個車輛的任務到達建模為泊松過程,相應地基站接收到的任務到達也建模為泊松過程.車輛i產生請求類型o任務的到達率被表示為λi,o.定義二元變量ai,j=1代表車輛i與基站j關聯.也就是說,控制器卸載隊列中請求類型o任務的到達率可以表示為:

(4)

卸載隊列每次只處理一個任務.任務的卸載過程被建模為M/M/1隊列模型.卸載隊列的進隊由任務到達率決定,卸載隊列的出隊由基站傳輸決定.當隊列的進隊速率大于出隊速率時,隊列中的任務會不斷累積導致隊列溢出.隊列以服務強度反映繁忙程度,定義基站j中請求類型為o的卸載隊列的服務強度[21]為:

(5)

為了保持卸載隊列的穩定性(防止隊列溢出),公式(5)需要滿足:

(6)

任務m到達卸載隊列后,排在任務m前的任務索引集合表示為Ω(m).假設ζi,j,m代表由車輛i產生的任務m由基站j上載至控制器的時長.該任務的卸載延遲被計算為:

(7)

2.4.2 任務處理延遲建模

處理延遲指任務從控制器進入基站處理隊列到任務被處理完所花費的時長.基站按需為各個任務分配計算資源,計算資源以虛擬機實例(virtual machine instance)為單位分配.每個虛擬機實例的最大CPU周期為s(max)Hz(每秒).假設基站j為車輛i產生的任務m分配虛擬機實例的數量為ni,j,m.該基站中處理隊列o的任務平均處理時長被計算為:

(8)

控制器卸載隊列中的任務被分發到不同基站的處理隊列中.處理隊列中任務的到達也服從泊松過程.基站j分配給切片o的頻譜資源數量在所有同類型切片的頻譜資源中的占比為:

(9)

基站j中任務處理隊列的服務類型o任務到達率為αj,oλo.任務處理過程被建模為M/M/1隊列模型.基于式(4)、式(8)和式(9),基站j中處理隊列o的服務強度被定義為:

(10)

為了保持處理隊列的穩定性,式(10)需要滿足:

(11)

在基站j的處理隊列中,排在任務m之前的任務索引集合被表示為ψj(m).該任務的處理延遲被計算為:

(12)

2.4.3 任務移交延遲建模

如圖3所示,每個任務在基站的處理隊列中計算完成后,直接由基站將結果傳輸回車輛.基于公式(2),在基站j中的任務m回傳給車輛i的移交延遲被表示為:

(13)

任務延遲由卸載延遲、處理延遲和移交延遲組成,由式(7)、式(12)和式(13)得車輛i產生的任務m的任務延遲為:

(14)

車輛只有在與基站建立連接時才能獲取服務.若車輛在離開基站覆蓋范圍時仍未收到任務處理結果,即使任務調度時間未超出本身延遲要求,同樣視為任務失敗.假設車輛i從產生任務m時到駛出基站j覆蓋范圍的總行駛距離被表示為γi,j,m,車輛i的行駛速率被表示為vi.則任務m的最大調度時間可以被計算為:

因此,任務m完成的延遲約束被表示為:

(15)

由于車載用戶行駛方向和速度的時變性以及路網的復雜性,車輛未來的行駛軌跡是多變的.單個基站的覆蓋范圍有限,很難為車載用戶提供完整的服務,協作式卸載模式有助于減少因車輛離開基站覆蓋范圍而導致的任務失敗率.盡管如此,協作式卸載模式也使得基站的選擇策略變得更多,進而導致控制器進行調度決策的難度提高.后續將探討相應的解決方案.

3 問題建模

所提方案的目標是在滿足差異化QoS需求的基礎上最大化任務完成數量.切片窗口w任務完成情況依賴于RAN切片策略和協作式任務調度策略.面向RAN切片的頻譜資源和計算資源策略集合分別被表示為:

和

協作式任務調度策略集合被表示為:

定義如下二元變量:

(16)

當任務在滿足延遲約束的條件下完成時,系統獲得對應的收益.相應地,若任務未能完成,系統產生對應的損失.

定義1.在第w個切片窗口內,任務完成且滿足延遲需求時,系統獲得的總獎勵U(w):

(17)

其中uj,o∈(0,1)代表請求類型為o的任務在基站j上的對應收益因子.

定義 2.在第w個切片窗口內,任務未能滿足延遲需求時,系統產生的總損失H(w):

(18)

其中hj,o∈(0,1)代表請求類型為o的任務在基站j上對應的損失因子.

在滿足QoS需求前提下,使系統長期性地完成更多的車輛任務是本文的目標.以最大化車輛任務完成數為目標,動態RAN切片問題被建模為:

(19a)

(19b)

(19c)

(19d)

(6)和(11)

(19e)

問題P0的實質是通過在線的方式,協調分配各個基站的頻譜和計算資源以及區域內的工作負載,使得系統長期的平均任務完成數最大.其中,約束(19a)保證每個基站j分配得到的子信道數為正數.約束(19b)和(19c)保證每個基站分配給車輛的頻譜和計算資源不超過自身持有的資源總數.約束(19d)保證了每個車輛只能連接唯一的地面基站,而不能同時連接多個.約束(19e)保證了排隊系統中隊列的穩定性,同時,也表明了RAN資源的切片決策和任務調度決策是耦合的,即耦合約束.

4 問題解耦與算法設計

為了便于處理,將P0分解為大時間尺度上的RAN切片子問題和小時間尺度上的任務調度子問題.

4.1 面向任務卸載的RAN切片資源分配方法

s.t.(19a),(19b)and(19c)

根據式(17)和式(18),每個切片窗口內的決策獨立且窗口內的各任務被獨立地分配資源.RAN切片子問題的實質是最大化每個切片窗口內的任務完成數量.現實中的車流量不會出現連續的較大波動,相鄰切片窗口的車流量具有相似性.

控制器可以參考上一個切片窗口的任務調度策略來優化RAN切片.根據該思路,將P1轉化為如下以切片窗口為周期的一次性優化(one-shot)問題 :

s.t.cj,o≥0,?o∈{1,2},?j∈J

(20a)

(20b)

(19b)和(19c)

(20c)

問題P2屬于求解多約束條件下的多元函數極值問題,可以使用拉格朗日乘數法對其求解.這種方法將一個有多個變量和多個約束條件的最優化問題轉化為一個有多個變量的無約束方程組的極值問題.P2問題被轉化為P3.

在給定任務調度策略的情況下,控制器可以計算出每個基站處理任務的具體數量.然后,根據任務的屬性、QoS需求以及各個基站的資源持有量構建出RAN切片子問題.計算P3可以得到一個最優的RAN切片方案C(w),S(w).

4.2 基于深度強化學習的任務調度

s.t.19(d),(6)和(11)

問題P1中,各個切片窗口的資源分配是相互獨立的.相應地,在各個切片窗口中RAN切片決策固定下進行任務的調度也是相互獨立的.因此,求解問題P4時可以將長期優化問題分解為各個調度時隙內的短期優化問題.短期優化問題屬于有限視界的馬爾可夫決策問題.

下文將單個切片窗口內的任務調度子問題重新構建為一個馬爾可夫決策問題[22].具體而言,控制器被抽象為一個智能體(agent).在訓練回合l時,控制器觀察環境的狀態,記錄為s(l).然后基于s(l),控制器采取任務調度決策動作a(l).做出動作后,環境反饋給相應的獎勵r(l).同時,根據狀態轉移概率Pr(s(l+1)|s(l),a(l))將環境的狀態轉化為新狀態s(l+1).在本馬爾可夫決策問題中,狀態、動作、獎勵的表示如下:

·狀態空間S:任務調度需要考慮全局路網中的多個因素,包括任務參數、車輛信息以及各基站位置、資源及隊列狀態等信息.用s(l)∈S描述系統狀態,表示為:

(21)

·動作空間A:系統在訓練回合l做出的任務調度描述為動作a(l).動作的制定基于當前的環境狀態,與問題P4的優化變量對應,即:

a(l)={A(l)}

(22)

其中,A(l)代表訓練回合內的任務調度決策.為了滿足約束(19d),每個動作只取0或1.

·獎勵R:獎勵是為了評估在某個狀態下所做動作的優劣.通過設立獎勵機制使神經網絡以最大化獎勵為目標更新優化.基于式(17)和式(18),獎勵可以被表示為:

r(l)(s(l),a(l))=(U(l)-H(l))

(23)

基站按照深度強化學習的決策接收任務并處理.任務如果能夠被正常處理,系統需要獲得獎勵來肯定這次動作.如果系統做出一個不合理的任務調度決策,基站常面臨資源不足的情況,進而導致處理隊列難以保持穩定.為了描述這種情況,需要加入懲罰以阻止控制器做出不合理的決策.

令Π代表候選調度策略的集合.針對當前的調度時隙t,目標是尋找最大化系統獎勵獲得的調度策略,表示為:

其中,π∈Π代表選擇的任務調度策略,φ(l)∈(0,1)代表在訓練回合l的折扣因子.由于任務信息發布的不可預知性,狀態轉移概率無法確定.問題P5無法通過傳統的基于模型(model-based)的強化學習算法求解,本文采用不依賴模型(model-free)的強化學習算法求解最優任務調度問題.另一方面,由于難以對車聯網環境進行建模,本節引入深度強化學習中的深度Q學習網絡(Deep Q-learning Network,DQN)算法,通過改進Q學習算法,可以應對更加龐大的動作狀態空間.

Q學習算法的核心在于構建一個Q表.在狀態空間下,每個動作獲得的獎勵被估計并存儲到Q表中.動作價值函數表示為Q(s(l),a(l)|θ),θ代表神經網絡的權重參數.Q表中每個狀態的獎勵最大值代表未來可能獲得的最大回報.通過查詢Q表,每個狀態下最大收益的動作被確定為:

(24)

對(24)運用貝爾曼等式,可以得到Q表中的值,計算過程為:

(25)

上式中v代表學習速率,φ代表貪心概率.

如圖4所示,DQN算法輸出的動作就是控制器為每個任務做出的調度決策.相較于人為制定的策略,神經網絡更容易從復雜的全局環境中找出當前任務卸載的最優解.當車輛行駛距離長時,車輛會通過多個基站的覆蓋網絡,基站協作進行任務卸載的概率很高;而當行駛的距離短時,任務卸載多由附近基站獨自完成.

圖4 面向任務調度的DQN框架Fig.4 DQN structure for task scheduling

下面通過算法1來描述基于DQN的任務調度機制.

算法1.基于DQN的任務調度

輸入:各基站持有的物理資源,車輛、任務以及隊列的信息.

輸出:每個任務的最優調度決策.

1.初始化DQN中的參數和相應的動作價值函數;

2. 使用隨機權重θ初始化原始神經網絡參數;

3. 使用隨機權重θ←θ-初始化目標神經網絡參數;

4.for回合episode←1,T(w)do

5.初始化s(0);

6.forl←1,l(max)do

7. 以概率1-φ選擇一個隨機動作a(l),否則a(l)←π(s(l));

8. 執行動作a(l),觀察獎勵r(l)和狀態s(l+1);

9.ifl==l(max)then

10. 令Q(s(l),a(l)|θ)←r(l);

11.else

13. 將四元組存儲到經驗池中;

14. 每隔Na次隨機抽取批量樣本訓練;

15. 根據梯度下降更新原始神經網絡權重參數θ;

16. 每隔Nb步更新目標網絡權重參數θ-←θ;

17.end if

18.end for

19.end for

20.return最優任務調度策略π*;

4.3 聯合優化策略

本節提出聯合優化策略,大時間尺度上的RAN切片子問題與小時間尺度上的協作式任務調度子問題被聯合求解.算法2給出了RAN切片子問題和協作式任務調度聯合優化策略.

算法2.RAN切片-任務調度聯合優化

輸入:各基站內總物理資源以及全局內車輛、任務信息.

輸出:每個切片窗口內的RAN切片決策和任務調度決策.

1.初始化A(0).

2.Repeat:

3. 給定A(w-1)求解P3,得到C(w),S(w);

4. 確定調度時隙集合;

5. 給定C(w),S(w)求解P5,得到調度時隙t內的A(t);

7.Untilw為最后一個切片窗口.

首先,系統根據歷史數據中的任務信息劃分切片窗口的長度.切片窗口確定后,將第w-1個切片窗口內的任務調度決策A(w-1)作為求解問題P3的已知條件,并求解出RAN切片決策C(w),S(w).第一個切片窗口的任務調度決策A(0)由歷史數據給出.將切片窗口w劃分為多個同等大小的調度時隙t∈Tw.在每個調度時隙內,將RAN切片決策C(w),S(w)作為求解問題P5的已知條件,得到每個調度時隙內的任務調度決策.各個基站按照任務調度決策處理任務.在最后一個調度時隙結束時,系統將每個調度時隙內的任務調度決策整合為切片窗口w的任務調度決策A(w),并記錄為歷史數據供第w+1個切片窗口使用.

聯合優化策略實現了RAN切片和任務調度的交替和長期運行.利用相鄰時間段車流量的相似性,將上個切片窗口的任務調度決策作為已知條件,得到RAN切片決策.不僅減少了系統的計算任務,也可以提升切片決策的適用性.

5 實驗設計與結果分析

本節通過一系列的仿真實驗驗證本文方案的有效性.實驗的硬件環境中,CPU使用AMD Ryzen5 3500X,其包含6核6線程;GPU使NVIDIA GeForce GTX 1660 SUPER.實驗環境使用Python 3.6.8和PyTorch 1.7.1實現.本文使用PyTorch搭建卷積神經網絡,在訓練模型時,原始神經網絡和目標神經網絡使用相同的架構.神經網絡隱藏層間均用全連接層,全連接隱藏層都使用ReLu函數作為激活函數,最后一層網絡采用softmax函數激活函數.神經網絡訓練中超參數的設置通過多次對比實驗確定.首先,依據大量實驗結果確定各個超參數的合理取值范圍.然后,在取值范圍內對各個超參數進行排列組合.最后,針對各個候選的超參數組合進行對比實驗,選定最佳的超參數組合.具體的超參數設置如表1所示.

表1 實驗參數Table 1 Experimental parameters

為了模擬交通路網環境,考慮一個由5條道路交叉而形成兩個方格的路網場景(與圖1中相似),方格的邊長為1000m.其中包含5個覆蓋半徑為500m的宏基站,每個宏基站的發射功率同為40dBm.MEC控制器放置在5個宏基站的中心位置處,控制器與宏基站通過有線連接.為了讓仿真貼近現實環境,本文實驗選取的車流量數據來源為OpenITS開放數據平臺.車輛產生任務的到達率服從泊松分布.延遲敏感型任務為智能汽車控制指令,延遲約束的范圍在50ms-1s;延遲容忍型任務為車載設備高清地圖下載,延遲約束的范圍在3s-10s.為了保證仿真實驗中任務信息的多樣性,每個任務的延遲約束在限制范圍內按概率隨機給出.其他參數如表2所示.

表2 仿真參數Table 2 Simulation parameters

為了客觀地評估性能,本文選取3種代表性的任務卸載策略用于對比,包括:

·基于最大信干噪比的任務卸載方法(Max-SINR)[23]:RAN切片比例按照平均劃分,控制器進行任務調度時,選擇與車輛連接最大信干噪比的基站.

·隨機的任務調度方法(Random)[24]:RAN切片比率隨機分配,控制器進行任務調度時,隨機選擇基站.

·距離優先的車輛關聯方法 (RSE-online)[25]:RAN切片比例按照平均劃分,控制器進行任務調度時,優先選擇距離車輛最近的基站.

首先,評估可用資源塊(頻譜資源塊和計算資源塊)增加對任務完成率的影響.圖5(a)展示了計算資源數固定為15的情況下,頻譜資源增加對任務完成率的影響.各方案的任務完成率不斷提高.在頻譜資源塊增加到15之后,各方案的任務完成率逐漸趨于穩定.充足的頻譜資源使得控制器有更大的決策空間,是性能提升必要條件,但不是唯一條件.接下來考察當子信道數量固定為15時,計算資源的增加對性能的影響.如圖5(b)所示,任務成功率在初始階段快速上升,但當計算資源塊增加到16后,性能不再有明顯提升.這是因為系統處理能力的上限由兩種資源共同決定,當任務數量飽和后,單純增加計算或頻譜資源都難以提升系統性能.

圖5 可用資源塊數量對任務完成率的影響Fig.5 Impact of the number of available resource blocks on task success rate

圖6展示了本文方案在頻譜和計算資源塊各固定為15塊,延遲敏感型任務占比為40%時,成功完成的任務延遲對應的概率分布.從圖6可以看出,任務延遲低于1s的比例大約有30%,而低于1s至低于3s的比例沒有任何變化.這是因為低于1s延遲完成的任務屬于延遲敏感型,而延遲容忍型任務完成的時延高于3s.任務延遲時間在區間3.5s～5s內的累積概率由44.3%增加至88.6%,這驗證了在本文方案下的延遲容忍型任務大概率在5s內就可以被處理完成.任務延遲時間低于7s的比例共有98.9%.

圖6 成功完成的任務延遲時間累積分布圖Fig.6 Cumulative distribution function of latency for completed tasks

圖7評估了車流量的變化對全局資源利用率的影響.車輛密度越高,車流量越大.當車輛密度為0.1輛/m2時,四種方案的全局資源利用率都在50%以下.這是因為網絡中的任務稀疏,有些基站處于空閑狀態,系統中的資源不能全部利用.另外,可以看出隨著車輛密度的增加,全局資源利用率不斷升高.與Max-SINR和RSE-online相比,本方案的資源利用率分別增加了29%和10%.在車輛密度增加到0.3輛/m2之后,RSE-online和本方案的資源利用率明顯高于其它方案.這是因為車輛密度的增加導致任務數量變多,深度強化學習能在綜合考慮各個因素的條件下,更快地做出最優調度決策,降低任務的處理時延,并使得系統資源利用率增加.然而,資源的利用率無法增加至100%.這是因為車輛必須要在基站的覆蓋范圍內才能與其連接并卸載任務,遠離車輛的基站無法為其提供服務.

圖7 車輛密度對全局資源利用率的影響Fig.7 Impact of AV density on resource utilization

圖8評估了延遲敏感型任務占比增加對任務完成率的影響.隨著延遲敏感型任務占比的增加,任務完成率不斷降低.這是因為延遲敏感型任務的QoS限制導致任務處理需要更多的資源.增加延遲敏感型任務的占比,是對系統的處理能力進行壓力測試.相較于其他方案,所提方法通過感知環境信息做出合適的任務調度決策,提升了任務完成率,特別是在面對極端條件時具有更強的魯棒性.

圖8 延遲敏感型任務占比對任務完成率的影響Fig.8 Impact of the percentage of delay-sensitive tasks on task success rate

6 總結

本文提出了一種面向任務卸載的動態RAN切片框架,不僅實現了服務QoS的隔離,也提升了系統處理的魯棒性.針對任務調度,本文設計了一種協作式任務卸載策略,并引入深度強化學習進行決策,提升了車載用戶的任務完成率.仿真結果表明,本文提出的方案相較于現有方案,有效增加了任務完成數量,提升了系統資源利用率,實現了網絡服務的公平性.后續擬加入對未來流量變化的預測.系統可以根據熱點預測信息提前部署資源,靈活地應對網絡環境變化.在任務調度上,引入基于DQN的改進算法,有望進一步降低系統的計算負擔,提升系統性能.