基于強化學習的非正交多址接入和移動邊緣計算聯合系統信息年齡更新

2022-12-28 08:00:58李保罡李詩璐張天魁

電子與信息學報 2022年12期

關鍵詞：設備信息

李保罡石泰* 陳靜李詩璐王宇張天魁

①(華北電力大學保定 071003)

②(國網河南省電力公司許昌供電公司許昌 461000)

③(北京郵電大學北京 100876)

1 引言

隨著車載網絡、虛擬現實等實時應用的發展，信息年齡(Age of Information, AoI)成為衡量信息新鮮度的一個重要標準。它被定義為目的端接收的最新更新信息自產生后所經過的時間[1]。由于在智能工廠、智慧型監控等創新應用中，終端設備不再是簡單的數據收集，而是經過數據處理才能顯現出所需的狀態信息，因此，在AoI中引入計算受到了人們的廣泛關注[2]。考慮到終端設備有限的電池容量和計算資源，移動邊緣計算(Mobile Edge Computing, MEC)被認為是一種處理終端設備計算問題的有效解決方法[3]。在當前物聯網的場景中，例如無人駕駛、超清視頻和增強現實等，MEC可以滿足這些任務的高計算要求，而非正交多址(Non-Orthogonal Multiple Access, NOMA)技術的應用能夠更進一步減少多任務卸載延遲的問題。對于MEC與AoI的結合方面，部分學者已經做了少量研究。為了實時捕獲新鮮的狀態信息，Li等人[4]利用無界約束馬爾可夫方法解決狀態采樣和卸載處理的問題。Liu等人[5]提出了一個基于狀態更新的Q學習算法可以有效地解決如何獲取狀態更新的情況。Song等人[6]設計了一個包含單個MEC服務器和單個移動設備的系統，并提出一種輕權重任務調度和計算卸載算法以解決年齡最小化的問題。然而，上述文獻只考慮到任務調度和計算資源分配對AoI的影響，沒有涉及如何使用有限的頻譜資源進一步減少AoI的情況。

非正交多址接入被認為是一種有效提高頻譜利用率的方法，隨著研究的深入，NOMA與AoI的結合逐漸引起了廣泛的關注[7]。NOMA的思想是在同一頻譜資源中多個用戶可以同時被服務。在不需要更多無線資源的情況下，NOMA傳輸能夠使多個用戶的AoI下降[8]。文獻[9]對NOMA和傳統正交多址接入(Orthogonal Multiple Access, OMA)環境下的平均AoI做了比較，這是NOMA應用于AoI的第1次嘗試。文獻[10,11]研究了AoI在NOMA和OMA網絡中的性能表現，根據AoI的定義，數據的生成和傳輸的調度都起著很關鍵的作用。NOMA被認為是處理大規模物聯網部署的一種很有前途的技術[12,13]。NOMA的思想是利用功率域，使多個用戶在同一時間或者頻帶內得到服務，與OMA相比，NOMA可以通過提高頻譜利用率來降低AoI[14]。Pan等人[15]研究了基于NOMA的狀態更新系統，經過分析發現，在高信噪比和中信噪比的情況下，NOMA能夠實現更新鮮的信息更新。Gómez等人[16]設計了一個在源節點和目的節點之間的隊列傳輸模型。在傳輸過程中，為了降低總體的AoI，NOMA被用來進行節點間的功率分配。將NOMA引入到AoI中，雖然考慮了頻譜資源的限制，但是卻忽視了邊緣計算在降低AoI方面的作用。

目前，已經有越來越多的文獻在不同的場景下最小化AoI，然而很少有文獻在NOMA-MEC聯合系統中研究AoI問題。因此，本文綜合考慮計算資源和頻譜資源對AoI的作用，在此基礎上，引入干擾的問題，通過設計一種聯合優化卸載因子和卸載功率的策略，讓所有設備的平均更新代價最小。考慮到環境動態變化這種更現實的場景，采用多代理深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)算法用于分配卸載任務量和卸載功率。最后給出性能仿真結果與分析。

2 系統模型

2.1 網絡模型

如圖1所示，在這個系統中考慮一個多設備的MEC系統，它由移動設備的集合N、1個裝配有MEC服務器的接入點(Access Point, AP)和1個干擾者J組成。其中，N=|N|是移動設備的數量。移動設備D可以監測物理過程的當前狀態(例如利用攝像機記錄十字路口的交通情況)，在這個過程中需要進行數據處理。假設這個系統可以分成多個時隙，t ∈T={0,1,...,T ?1}，每個時隙的長度為τ。在每個時隙開始時，設備可以從環境中采集當前的數據。移動設備可以選擇處理原始數據按照本地計算或者卸載給邊緣服務器計算的方式進行處理。αi(t)∈[0,1]表示設備i的卸載因子，當αi(t)=0時，表示數據在設備i處完全進行本地計算；αi(t)=1，表示數據完全卸載給AP進行計算。所有設備的卸載決策可以表示為α(t)=[α1(t),α2(t),...,αN(t)]。在卸載過程中，所有設備的卸載功率分配決策為P(t)=[p1(t),p2(t),...,pN(t)] ,其中pi(t)∈[0,Pmax]表示設備i的卸載功率，Pmax是最大卸載功率。在每個時隙，設備使用計數器記錄獲得的信息年齡[10]。

圖1 在多個設備中數據的安全傳輸

在卸載過程中，設備將受到干擾者的攻擊。干擾者通過發射干擾信號阻礙設備與AP之間的通信，延長設備的卸載時間，從而使任務不能在一個時隙內完成，最終導致在一個時隙內狀態更新失敗。對于每個卸載設備，干擾者平均分配干擾功率。也就是說，當αi(t)?=0時，即部分數據或者全部數據通過卸載給AP進行處理時，在時隙t，干擾設備i的干擾功率為

其中，PJ表示干擾者的總干擾功率， n表示選擇卸載計算的設備數量。當αi(t)=0 時，pij(t)=0。即數據完全本地計算時，干擾者不發送干擾功率。

2.2 計算模型

在計算模型中，設備可以通過本地計算或者卸載計算來處理原始數據。

2.2.1 本地計算

最后，經過邊緣服務器處理后，可以得到計算結果。由于計算結果的數據量很小，傳輸速度較快，因此，傳輸時延可以忽略不計。

因此，設備i處理任務的時延可以表示為

2.3 狀態更新模型

在每個時隙t，設備通過處理計算任務來獲得狀態更新。如果計算任務能在這個時隙內完成，則狀態信息被更新；否則，設備沒有狀態更新。在這部分，利用信息年齡來測量狀態更新的新鮮度。在這個多設備MEC系統中，AoI反映在設備處生成最新被執行的任務，到被處理，最終在設備處獲得計算結果所經過的時間。采用Ai(t)=t ?θi(t)表示設備i的信息年齡。其中θi(t)是指設備i產生最新任務的時間戳。信息年齡的演變展示在圖2中。

圖2 信息年齡的演變

3 優化問題

在本部分，優化的目標是在計算資源、處理時延和用戶能耗的約束下最小化平均更新代價，即

由式(11)和式(14)可知，平均更新代價與處理時延有關，而處理時延受到卸載任務量和卸載功率的影響。因此，在多設備的MEC系統中，需要通過優化卸載決策和卸載功率來最小化平均更新代價。在上面的公式中，C1和C2分別表示卸載決策和卸載功率的取值范圍。C3和C4分別表示利用卸載計算或者本地計算處理的任務需要在一個時隙內完成。C5表示通過優化變量來抵抗干擾攻擊，降低傳輸時間，使卸載時間不超過一個時隙，確保在一個時隙內完成狀態更新。C6保證所有設備的總能耗不超過設置的最大能耗。而C7保證分配給卸載設備的計算資源總和不超過MEC服務器的計算容量。由于在不同的時隙下，信道條件等變量是隨著時間動態變化的，傳統的優化方法難以解決動態變化的場景。而強化學習能有效地解決這一問題。因此，采用強化學習算法來優化卸載決策和卸載功率，從而使目標函數最小。

4 MADDPG算法

強化學習是單個代理與未知環境相互交互，使長期獎勵最大化的一種有效方法。通過不斷地嘗試，它可以讓單個代理學習到最優的行為。強化學習由3個必要的變量組成：狀態，動作，獎勵。在每次迭代過程中，代理將從環境中選擇當前的狀態信息，將它作為輸入值，然后選擇一個動作，環境會根據選擇的動作值反饋給代理一個獎勵，用來評價當前動作的好壞。通過反復的試錯，代理會傾向選擇使長期獎勵增加的動作[17]。

在多設備的MEC系統中，本文將每個設備視為一個代理，設備之外的一切被視為環境。考慮到卸載速率、設備的總能耗和MEC服務器計算容量的影響，其他設備的決策會對當前代理產生影響。由此可以看出，欲最小化平均更新代價，需要多個代理的相互協作才能實現。然而，在多代理的環境中，傳統的強化學習是不適用的。這是因為在傳統強化學習中，每個代理只考慮最大化自身的獎勵，沒有考慮其他代理的影響。針對這一問題，多代理強化學習可以提供一個有效的解決方法。多代理強化學習允許多個代理通過相互協作來實現它們的目標。結合當前場景，狀態、動作和獎勵對應如下：

狀態：在時隙t，代理i觀察網絡的情況，并且選擇下面的參數構成網絡的狀態。

在本文中，由于動作的取值是連續的，需要采用基于策略的算法進行求解。考慮到有大量的設備需要處理自身的計算任務，因此，代理的數量是非常大的。基于策略的演員-評論家算法(Actor-Critic,AC)在單代理的環境中表現良好，但是隨著代理數量的增加，方差也會變大，所以不適用于多代理的環境。而多代理深度確定性策略梯度算法是AC算法的一種變體，通過讓智能體之間集中訓練以及分布運行，它可以處理動態環境中環境與代理相互交互的問題，在代理i做決策時，會考慮其他代理的影響。通過多個代理間協作，共同最大化獎勵值。針對上述優勢，采用MADDPG算法來尋找最優的動作值，從而達到最小化目標函數的目的。

在MADDPG算法中，利用經驗回放機制降低樣本之間的相關性。通過代理與環境的交互，可以獲得經驗序列(st,at,rt,st+1)，其中st,at,rt分別對應狀態、動作和獎勵。st+1表示下一個狀態。所有代理的經驗被存儲在經驗回放內存D中。在訓練過程中，從D中隨機抽取小批經驗序列進行學習。MADDPG算法主要是由AC的框架組成。在演員A中，它主要由在線策略網絡和目標策略網絡組成。確定性策略μ直接從每步的動作中獲得。在評論家C中，它也主要由兩個網絡組成：在線Q網絡和目標Q網絡。對于演員框架，在線策略網絡的更新主要由策略梯度來完成，策略梯度的表達式為

在評論家框架中，在線Q網絡的參數由損失函數進行更新，損失函數的表達式為

5 仿真結果分析

在該部分，本文考慮不同工作模式、卸載功率和不同算法對平均更新代價的影響。在這個場景中，設定設備被隨機地分布在200 × 200 m2的區域內，與服務器相連的AP位于該區域的中心，干擾者在AP的附近。輸入任務的大小Di(kbit)服從(100,500)之間的均勻分布，處理1 bit數據所需的CPU周期數為2 ×103cycle/bit。信道帶寬為2 MHz，相應的噪聲功率σ2= 3×10?13。另外，可利用的MEC服務器的計算容量F(t)設置為10 GHz/s。在本地計算階段，每個設備的CPU頻率為0.2 GHz/s。在傳輸過程中，單位干擾功率的代價w為0.1，總干擾功率PJ設置為20 W。仿真參數如表1所示。

表1 仿真參數設置

圖3展示了在設備數量設置為10，3種卸載因子的作用下，不同MEC計算容量對平均更新代價的影響。這3種卸載因子分別表示本地計算(α= 0)，部分卸載(α= 0.5 )和完全卸載(α= 1)。由圖3可以看出，隨著MEC服務器計算容量的增加，部分卸載和完全卸載的長期平均代價都逐漸減小，而本地計算的長期平均代價保持不變。這是因為當MEC服務器的計算容量增加時，更多的設備可以通過將計算任務卸載給MEC服務器處理來獲得狀態更新。并且，對于僅本地計算來說，每個設備的狀態更新不受MEC服務器計算容量的影響。因此，通過部分卸載的方式和適當地增加MEC服務器的計算容量，可以有效地降低平均更新代價。

圖3 計算容量對平均更新代價的影響

然后，考慮在部分卸載(卸載因子為0.5)的情況下，利用3種不同的方案去優化卸載功率從而使平均更新代價最小。這3種方案表示如下：

(1) MADDPG算法，即主要應用的優化方案。

(2) 演員-評論家算法(AC算法)：每個設備不知道其他設備的信息，在訓練過程中，只知道自身的本地信息。

(3) Q學習算法：每個設備不知道其他設備的信息，適用于小規模離散動作空間的優化。

圖4展示了在固定用戶數量下，迭代次數和平均更新代價的關系。從圖4可以看出，隨著迭代次數的增加，平均更新代價逐漸減小。除此之外，MADDPG算法在降低平均更新代價方面優于其他兩種方案。這是因為MADDPG算法考慮到多個代理之間的相互協作，通過代理間的共同作用，最大化獎勵值。而AC算法和Q學習算法沒有考慮到設備間的相互影響，只考慮自身的狀態信息。從圖4還可以看出，MADDPG算法的平均更新代價分別比AC算法和Q學習算法降低了37.5%和53.1%。

圖4 迭代次數和平均更新代價的關系

圖5表示不同設備數量對平均更新代價的影響。當設備數量在10～100逐漸增加時，3種算法的平均更新代價也是逐漸增加的。這是因為MEC服務器計算容量有限，隨著設備數量的增加，每個設備獲得的計算資源減少，因此導致處理時間增加，進而使平均更新代價增大。通過對圖中數據分析可以發現，適當地減少用戶數量，有利于降低平均更新代價。

圖5 不同設備數量對平均更新代價的影響

6 結束語

本文基于NOMA-MEC聯合系統，考慮到信息新鮮度的影響，對多設備單邊緣計算服務器場景進行了研究。基于MADDPG算法，建立了最小化平均信息年齡的優化問題，提出一種尋優的卸載因子和卸載功率策略。仿真結果表明，利用部分卸載的方式，在降低平均更新代價方面效果最好。同時，與其他方案相比，采用MADDPG算法和降低設備數量均可有效地降低平均更新代價。提出的尋優的卸載因子和卸載功率策略可以很好地降低設備的信息更新代價，大大提高了設備的更新效率。