999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多智能體深度強化學習的分布式干擾協調

2020-08-02 05:08:44劉婷婷羅義南楊晨陽
通信學報 2020年7期
關鍵詞:滿意度用戶策略

劉婷婷,羅義南,楊晨陽

(北京航空航天大學電子信息工程學院,北京 100191)

1 引言

為了支撐業務的爆炸性增長,第五代及未來移動通信網絡的基站越來越密集,小區間干擾嚴重制約了小區邊緣用戶的體驗以及整個網絡的吞吐量[1]。未來無線網絡需要支持各種類型的業務,如實時業務(如視頻會議、游戲等)和非實時業務(如文件下載、視頻點播等)。面向對傳輸速率、時延以及可靠性有著不同要求的業務,如何有效管理干擾、提升用戶體驗和網絡性能是亟待解決的問題之一。

對于具有時延容忍性的非實時業務,為了保證服務質量并節省網絡資源,可以優化未來一段時間內的會話級性能[2]。解決這類問題的直接方法是根據用戶的服務質量需求建模預測資源分配問題,在未來信息預測理想的假設下通過求解優化問題來獲得最優的資源管理策略(如干擾協調[3])。因此,網絡中的中心節點需要收集并預測所有用戶當前和未來的業務需求及信道狀態信息,然后把預測的信息當作未來信息的真值進行資源分配,從而得到分配策略。這種集中式預測資源分配或干擾協調求解最優策略的計算復雜度和所需要的信令開銷隨著網絡規模呈指數級增長。此外,當干擾等網絡環境發生變化時,還需要重新優化協調策略。

由于集中式干擾協調面臨信息預測不準、復雜度高、開銷大、可擴展性差等問題,文獻[4-13]研究了分布式干擾協調策略。目前,分布式干擾協調主要包括基于分布式優化[4]、博弈論[5-6]以及多智能體強化學習(MARL,multi-agent reinforcement learning)[7-13]的方法。

基于分布式優化的干擾對準策略[4]在最小化加權均方誤差的準則下交替優化收發機算法,通過迭代的方式對準干擾,提升網絡吞吐量。基于博弈論的干擾協調策略[5-6]把每個基站看作相互博弈的玩家,致力于做出可以最大化自己小區容量的決策。經過反復博弈,所有玩家達到納什均衡點,從而獲得最優傳輸策略。文獻[4-6]中策略的設計目標是提升干擾網絡的瞬時吞吐量或和數據率,但沒有考慮不同業務的需求。

與分布式優化和博弈論相比,強化學習能解決序貫決策問題。當業務需求和信道狀態等信息未知時,智能體通過試錯的方式不斷與環境進行交互來優化干擾協調策略,使長期累計回報最大。智能體直接根據狀態選擇動作,能夠在動態變化的干擾環境中自適應調整策略[14]。目前,基于強化學習的干擾協調主要包括基于單智能體強化學習的策略[15]和基于MARL 的策略[7-13]。在單智能體強化學習的策略[15]中,智能體需要收集用戶的數據率等狀態信息來聯合優化所有用戶的動作,從而獲得接近最優的協調策略。因此,該策略與集中式干擾協調類似,存在收集信息信令開銷大、計算復雜度高、可擴展性差的問題。在基于MARL 設計的系統中,每個用戶是一個獨立的智能體,通過把單智能體的狀態與動作進行分解,減小了輸入輸出的維度,降低了計算復雜度[16]。基于MARL 設計的策略可擴展性強,適用于動態變化的干擾環境。已有文獻利用MARL 設計分布式干擾協調策略來最大化小區長期容量[7-11]、最大化網絡覆蓋率[12],以及最小化傳輸延時[13]。

在基于MARL 的干擾協調策略中,狀態是反映干擾環境和用戶需求的重要因素,如何在不交換或少交換信息的條件下選擇合適的狀態是設計分布式策略的關鍵。為了表示每個用戶受到的干擾程度,文獻中考慮的狀態變量包括基站與用戶間的距離[7-8]、接入基站的用戶個數[9]、接收信干噪比(SINR,signal to interference plus noise ratio)的強弱[7,10]、信干比[11]和接收干擾功率[13]。以上狀態只考慮了用戶受到的干擾,沒有考慮用戶所產生的干擾。為了更準確地表示用戶之間的相互干擾,文獻[12]中設計的狀態變量包含了對每個用戶影響最大的幾個干擾源和被干擾源,其中干擾源的影響根據各用戶接收的干擾功率大小來衡量,被干擾源的影響通過用戶所接入基站對其他小區用戶造成的干擾功率占其他小區各用戶接收的總干擾功率的百分比來衡量。但是,一個用戶對其他用戶的干擾百分比無法通過這個用戶自身觀測得到,需要所有用戶交換來自干擾基站的接收功率,從而導致較大的通信開銷。文獻[7-12]沒有考慮業務特點,文獻[13]的分布式干擾協調策略則考慮了車聯網中的文件下載業務,在設計狀態時用需要傳輸的剩余數據量和剩余傳輸時間來反映每個用戶的業務需求。然而,因為用戶之間會競爭資源,所以在設計分布式干擾協調策略時,不僅需要考慮自身的業務需求,還需要考慮其他用戶的需求。如何針對業務特點設計有效的分布式干擾協調策略至今尚未解決。

本文面向文件下載業務,研究基于MARL 的分布式干擾協調策略,主要貢獻如下。

1) 所提分布式干擾協調策略在用戶數較多、業務需求較高的情況下優于傳統的集中式干擾協調策略。

2) 在所設計的MARL 狀態中,綜合考慮了干擾環境、業務需求及用戶體驗的特點,使網絡節點之間只需少量的信息交互就能在動態環境下自適應調整傳輸策略。

3) 所提策略不需要預測任何信息,在任意用戶數和業務需求下,相對于未來信息預測理想時最優預測資源分配策略的性能損失小于11%。

2 系統模型

2.1 業務模型

考慮一個如圖1 所示的熱點區域,G個基站服務K個移動用戶。每個用戶配置單天線、每個基站配置多個天線,基站g有Mg個天線,g=1,…,G。

圖1 小區網絡示意

K個用戶向基站發出文件下載業務請求。用戶k在時刻請求下載數據量為Bk的文件,期望在時刻之前完成傳輸,如圖2 所示。

圖2 用戶業務需求

為了評估用戶體驗,文獻[17]根據實測的超文本傳輸業務的用戶體驗提出了一種文件下載業務的滿意度性能指標,使用倒S 型效用函數描述用戶的滿意度與傳輸時延的關系。如圖3 所示,若在之后完成文件下載,則用戶滿意度隨著傳輸時延的增加而下降,且滿意度的下降速度隨著傳輸時延的增加而變化。當接近用戶期望的截止時間時,增加時延會導致滿意度有較大的下降;當用戶已經等待很久而非常不滿意的時候,增加傳輸時延反而使滿意度的下降變得緩慢。

圖3 效用函數

本文采用文獻[17]提出的效用函數來描述用戶的滿意度,則用戶k的滿意度可以表示為

其中,參數c控制曲線的陡峭程度;表示文件實際完成傳輸的時間;是滿意度的轉折點,且滿足=0.5;qk>1,qk越大,表明用戶k可容忍的時延越長。

2.2 干擾協調

本節研究基站如何通過選擇合適的時間資源服務用戶來協調干擾。

首先,確定時間資源分配的粒度。假設平均信道增益在一幀(秒級,記為Tf)內保持不變,在不同幀之間可能發生變化;瞬時信道增益在同一時隙(毫秒級,記為Ts)內保持不變,在不同時隙之間統計獨立同分布。因此,一幀內包含個時隙。當基站服務多個用戶時,需要給用戶分配正交的時間資源來避免干擾。如果以時隙為單位進行資源分配,每個幀內可同時服務多個用戶。如果以幀為單位進行資源分配,每個幀內只服務一個用戶。文獻[2-3]的研究表明,對于非實時業務,平均信道增益是影響用戶體驗的主要因素,以幀為單位分配資源不僅可以達到與以時隙為單位分配資源相近的性能,還能大幅減少資源分配時需要優化的變量數以及所需的信令開銷。因此,本文研究以幀為單位的干擾協調策略。

考慮就近接入,即每個用戶接入平均接收功率最大的基站。為了避免頻繁切換,每個用戶接入的基站在一幀內保持不變。令表示用戶k在第l幀內接入的基站號,則

因為用戶k在時刻發起文件請求,所以它從第幀開始被服務,其中表示向上取整。當對用戶k累計傳輸的數據量超過Bk時,文件傳輸完成。因此,完成時間可以表示為

當用戶k請求的文件傳輸完成后,就不再服務該用戶,即。因此,協調干擾需要優化的變量為

2.3 性能指標

根據式(5)可以得到用戶k在第l幀內每個時隙的瞬時數據率,進而得到第l幀傳輸的數據量為

其中,W是系統的帶寬。

把式(6)代入式(3),可以得到用戶k的文件傳輸完成時間;再代入式(1),可以得到用戶k的滿意度,進而得到網絡中所有用戶的平均滿意度為

3 基于MARL 的分布式干擾協調

本節首先把最優干擾協調建模為求解優化問題,然后簡要討論集中式干擾協調存在的問題,最后提出基于MARL 的分布式干擾協調策略。

3.1 問題建模

對于文件下載業務,如式(7)所示,用戶滿意度在傳輸完成后才能獲得。為了設計最優干擾協調策略,中心節點首先需要預測未來一段時間范圍(稱為規劃窗,長度記為T)內所有用戶的信道狀態信息和業務需求,然后把預測的信息當作未來信息的真值進行資源分配,這種傳輸策略稱為預測資源分配[3]。假設規劃窗內有個幀,規劃窗的長度需要保證所有用戶都能傳輸完所請求的文件。

為了最大化網絡中所有用戶的滿意度,可以把式(7)作為優化目標,即把預測資源分配問題建模為

式(8)是一個非凸的組合優化問題,需要通過暴力搜索獲得最優解,其計算復雜度為

通過求解式(8),可以得到預測資源分配策略,求解的計算復雜度隨著用戶數K和規劃窗長度Nf呈指數級增長。另外,中心節點還需要已知在整個規劃窗內所有用戶與相鄰基站間的平均信道增益、以及各個用戶的業務需求參數。對已經發出請求的用戶,可以獲取需求參數,并根據其最近的歷史軌跡來預測未來的運動軌跡,再結合信號地圖獲得未來的平均信道增益;對于沒有發出請求的用戶,無法獲取需求參數和預測移動軌跡。

即使不考慮計算復雜度,且假設需要預測的信息理想,預測資源分配策略只能對規劃窗范圍內的時間資源進行最優分配,并且若在規劃窗內干擾環境和網絡規模發生變化則會導致性能損失。

3.2 分布式干擾協調

在分布式系統中,基站需要獨立決定是否在當前幀服務用戶,因此把每個基站視為智能體。本文采用MARL 來提升用戶滿意度,首先設計深度Q網絡(DQN,deep Q network)的動作、狀態和獎勵函數,然后介紹DQN 的訓練與執行過程。

3.2.1 動作

其中,bk和ek分別為用戶k開始被服務和文件傳輸結束的幀號。

3.2.2 狀態

因為需要根據網絡的干擾情況和用戶的需求來設計干擾協調策略,所以用戶k所接入基站的狀態由干擾環境狀態和用戶需求狀態兩部分組成,如式(10)所示。

在MARL 框架中,每個智能體根據局部觀測來進行決策,因此設計狀態變量時需要考慮以下因素。1) 可觀測。狀態中的信息是單個智能體能夠獨立觀測得到的,否則就需要額外的通信開銷來交換信息。2) 維度盡可能小。強化學習的訓練復雜度隨狀態空間的規模增加[18],因此需要忽略影響較小的狀態、保留影響較大的狀態。3) 表示智能體間的相互影響。

在干擾網絡中,由于每個用戶不僅受到其他基站的干擾,所接入的基站還對其他用戶產生干擾,設計狀態變量時需要綜合考慮兩方面的影響。因此,文獻[12]中設計的狀態包含了每個干擾源與被干擾源單獨產生的影響,導致狀態空間的規模太大。事實上,在干擾網絡中,直接選擇SINR 和信漏噪比(SLNR,signal to leakage and noise ratio)就可以反映每個用戶受到的干擾和所接入基站對其他用戶所產生干擾的平均影響。因此,與干擾環境有關的狀態可以設計為

同理,平均SLNR 可近似為

根據式(12)可知,用戶k的干擾功率與其他用戶所接入基站的動作有關。然而,在分布式系統中,由于所有基站同時做出決策,基站無法獲知其他基站當前的動作。考慮到在密集干擾網絡中平均接收干擾功率的變化幅度較小,因此可以把上一幀的干擾功率作為當前幀干擾功率的預測值,即。因為上一幀的動作是已知的,所以上一幀的干擾功率可以準確估計,則當前幀平均SINR 的預測值為

用戶k根據式(14)計算平均SINR并上報給接入的基站

對于文件下載業務,文獻[13]給出了描述業務需求狀態的變量,由一個二元組構成

對于文件下載業務,這樣考慮是合理的,因為影響用戶性能的不是已經花費了多少時間給用戶傳輸了多少數據量,而是還剩余多少時間、還需要傳輸多少數據。然而,在分布式干擾網絡中,多個基站之間相互競爭資源,基站不能只根據用戶k的需求做決策,還需要關注其他用戶的需求。因此,若直接用K個用戶對應的來描述所有用戶的需求,不僅會增加描述業務需求的變量數,還會增加共享需求帶來的信令開銷。而且,這樣訓練的網絡只能工作在給定用戶數K的場景中,當網絡規模(即用戶數)動態變化時還需要重新訓練。為了使與需求有關的狀態能夠適應網絡規模的動態變化,本文引入一個非負變量來表示為使用戶k滿意在第l幀所需的數據率;用變量表示其他用戶需求的數據率之和。根據,基站可以準確地了解用戶k的需求大小及其相對于其他用戶需求的緊急程度,從而可以選擇一個更激進或更保守的策略。因此,可以把與業務需求有關的狀態設計為

圖4 給定剩余數據量時的剩余時間與需求的數據率

在實現的過程中,每個用戶在第l–1 幀結束之后先根據式(15)和式(16)計算自身的剩余數據量和剩余時間,再根據式(18)計算。為了獲得,所有用戶要向接入基站發送自己需求的數據率。為了減小基站間共享信息的信令開銷,基站把用戶k需求的數據率上報給中心節點。中心節點計算所有用戶需求的數據率之和,并廣播給網絡中的所有基站,狀態獲取流程如圖5 所示。基站可以獲得其他用戶的需求之和為

圖5 狀態獲取流程

這里的中心節點可以是覆蓋多個基站的宏基站,或是管理多個基站的核心網網關,主要負責協調交換信息和訓練DQN。

根據式(11)、式(13)、式(14)和式(17)、式(18),可以得到基站對用戶k的全部狀態為

圖5說明了基站獲取式(19)中狀態信息的流程,具體包含以下步驟。

步驟1用戶k向所接入基站上報信干噪比和需求的數據率。

步驟2基站向中心節點上傳。

步驟3中心節點計算所有用戶需求的數據率之和,并廣播給所有基站。

步驟4基站計算,并得到關于用戶k的狀態

在整個流程中基站與中心節點間只需要交換少量的信息即可獲得所需的狀態信息,從而做出決策。

3.2.3 獎勵函數

在MARL 框架中,設計獎勵函數的關鍵因素包括:1) 把網絡整體的優化目標拆分成每個基站的優化目標;2) 獎勵函數需要準確評估每個基站選擇的動作對本小區用戶和對其他小區用戶的影響。從式(8)可知,要優化的用戶滿意度只有在用戶完成傳輸之后才能獲得。如果把用戶k的滿意度直接作為基站的獎勵函數,則存在如下的問題:1) 基站只有在用戶k的文件下載完成之后才能得到獎勵,這種延遲獎勵會降低學習效率;2) 不能準確評估當前決策對其他用戶滿意度的影響。

由于式(18)中的用戶狀態已經把滿意度的影響考慮到用戶需求的數據率之中,設計獎勵函數只需要關注有效傳輸了多少數據。與用戶滿意度相比,傳輸數據量更易于評估基站的當前策略對用戶k和其他小區用戶的影響,因此本文把用戶有效傳輸的數據量作為獎勵。如果在第l幀沒有服務用戶k,即=0,則基站獲得的獎勵為0,即0=;如果=1,則獎勵由兩部分組成,一部分是第l幀已經傳輸的數據量,即式(6)中的,另一部分是基站服務用戶k產生的干擾對其他傳輸用戶數據量所帶來的損失。

則獎勵函數可表示為

對應的累計回報為

其中,γ∈[ 0,1]是折扣因子。

雖然從形式上看,式(21)中的獎勵函數只反映了干擾狀態的影響,而沒有直接反映用戶需求,但是在后面的仿真中可以看到,式(22)中的累計回報能夠隨著用戶需求而增加,因此所設計的策略能根據用戶需求的大小調整資源分配策略,這是因為所設計的狀態已經反映了用戶需求。

3.2.4 訓練與執行

在MARL 框架中,最直接的訓練方法是把其他智能體視為環境的一部分,每一個智能體獨立訓練自己的神經網絡。然而,由于每個智能體只能觀測部分的環境狀態且環境受其他智能體決策的影響,導致這種方法不容易收斂。本文考慮一種為了解決上述問題常用的集中式訓練方法[16]。在集中式訓練過程中,所有基站把經驗(s,a,r,s')上傳給中心節點,中心節點把經驗存儲到回放池D 中,用經驗回放池中的數據訓練神經網絡,然后把模型參數分發給網絡中的基站。因為所有用戶的任務相似,所以這種共享經驗的方式可以加快收斂速度。

在DQN 訓練過程中造成發散的原因包括[19]:1) 狀態隨時間演變,相鄰時間步的狀態具有較高的相關性;2) 神經網絡參數的微小更新導致策略發生很大變化,從而使樣本分布變化;3) 神經網絡參數的更新導致策略更新,使優化目標隨著訓練過程一直在改變。采用經驗回放可以有效解決前2 個問題。為了解決第三個問題,一般采用2 個神經網絡來同時訓練:用一個在線網絡擬合動作值函數,記為Q(s,a;θ);同時考慮一個目標神經網絡,記為。在線網絡參數θ更新一段時間之后再更新目標網絡的參數θ-,從而降低目標網絡與在線網絡之間的相關性,避免優化目標一直變化。采用文獻[20]提出的雙重深度Q 網絡(DDQN,double DQN)訓練方法。從經驗回放池D 中隨機抽取一小批經驗(s,a,r,s')作為樣本集合B 進行訓練,則這批樣本上的損失函數為

其中,目標值為

根據損失函數,利用梯度下降法對參數θ進行更新。

4 仿真結果

本節通過仿真評估所提出的分布式DQN 策略的性能。無線網絡的仿真參數如表1 所示[21]。精調后的DQN 算法超參數如表2 所示。

表1 無線網絡仿真參數

仿真環境如圖1 所示,基站均勻分布在道路兩側,用戶從隨機的起始位置出發,沿著道路做勻速直線運動,速度在1.5~6.0 m/s 均勻分布,在用戶運動經過的道路上的隨機位置發出業務請求。為了便于比較,假設所有用戶請求的文件大小相同,但發起請求的起始時刻和期望截止時刻不同。用戶的滿意度還受延時容忍q和曲線陡峭程度c的影響,在仿真中設置q=1.5,即當實際傳輸時間是期望傳輸時間的1.5 倍,即1.5 時,用戶滿意度下降到0.5;曲線陡峭程度設為c=9.190 2,從而滿足=0.99(表示用戶若在時刻完成傳輸,則其滿意度為0.99)。為了評估最優干擾協調策略的性能,考慮規劃窗長度為300 s,保證所有用戶能在規劃窗內完成傳輸。在DQN 訓練階段,使用Adam 優化算法更新在線網絡參數θ。

表2 DQN 超參數

為了分析所設計的分布式DQN 當需求的數據率不同時的累計回報,圖6 給出了在固定SINR、SLNR和其他用戶需求的數據率之和的條件下累計回報的期望值Q(s,a=1)隨著需求的數據率變化的曲線。

圖6 Q(s,a=1)隨著需求的數據率變化的曲線

當Q(s,a=1) > 0時,服務該用戶;當Q(s,a=1) < 0時,不服務該用戶。圖6 考慮了2 種干擾環境,一種環境的網絡中干擾相對較小(SINR和SLNR 都比較高,如圖6 中實線所示),另一種環境的網絡中干擾比較嚴重(SINR 和SLNR 都比較低,如圖6 中虛線所示)。由圖6 可見,隨著用戶需求的數據率增加,Q(s,a=1)的取值逐漸增大,這時用戶被服務的機會也越大。另外,用戶被服務的機會與干擾環境密切相關,當網絡中干擾比較嚴重時分布式策略會減少用戶被服務的機會;而當網絡中干擾較輕時,則會增加用戶被服務的機會。可見,盡管式(21)中的獎勵函數沒有直接反映用戶的需求,所設計的分布式策略確實可以根據用戶需求和干擾環境自適應調整傳輸策略。

為了評估所設計的分布式干擾協調策略(簡稱為“分布式DQN”)性能,與如下幾種已有的策略進行比較:1) 為了評估考慮用戶滿意度時干擾協調的最優性能,假設存在一個超級智能體,能在資源規劃窗開始時準確預測所有用戶的業務請求信息和平均信道,借鑒文獻[3]中的方法求解式(8)(簡稱為“集中式(有需求)”);2) 為了評估相對于傳統非預測集中式干擾協調的增益,考慮只根據當前時刻的平均信道來協調干擾的策略,并采取隨機資源分配來服務用戶,這種策略以盡力而為的方式服務、無法在用戶期望的時間內下載完所請求的文件(簡稱為“集中式(無需求)”);3) 為了評估分布式干擾協調的增益,考慮只根據當前信道進行傳輸的無干擾協調策略(簡稱為“無協調(無需求)”)。

首先,比較不同策略所需的信息量。對于文件下載業務,所需交互的信息量與用戶完成傳輸所需的時間有關。為了便于比較,這里假設所有用戶都使用整個規劃窗的資源進行傳輸。對于“無協調(無需求)”策略,由于不協調干擾,不需要交互任何信息。對于“集中式(無需求)”策略,基站需要向中心節點上報所有開啟基站與用戶間在所有幀的平均信道增益,因此需要交互的信息量為,其中C表示量化一個實數標量所需要的比特數。對于“集中式(有需求)”策略,除了上述的平均信道信息,還需要每個用戶的業務請求信息,因此中心節點需要在規劃窗開始時預測的信息量為對于分布式DQN 策略,根據圖5 所示的信息交換流程,在每一幀中用戶向接入基站上報信干噪比和需求的數據率,交互的信息量為2KC;基站向中心節點上報需求的數據率,中心節點廣播所有用戶需求的數據率之和,因此交互的信息量為。表3 比較了不同策略所需的信息量,可見當用戶數K較大時,分布式DQN 策略所需的信息遠遠小于集中式干擾管理方案。

表3 不同策略需要交互/預測的信息量

圖7 和圖8 分別比較了用戶請求的文件大小B和用戶數K不同時的平均滿意度η。表4 和表5 分別為根據圖7 和圖8 的結果得到的分布式DQN 策略相對于其他3 種策略的性能增益。

圖7 用戶請求文件大小不同時的滿意度(K=20)

圖8 用戶數不同時的滿意度(B=400 MB)

表4 文件大小不同時分布式策略的性能增益(K=20)

表5 用戶數不同時分布式策略的性能增益(B=400 MB)

從上述結果可見,分布式DQN 策略相對于“無協調(無需求)”和“集中式(無需求)”策略的性能增益隨著用戶需求B和用戶數K而增加。這是由于無論B還是K增加,網絡中的干擾都變得更嚴重。“無協調(無需求)”沒有協調干擾,而“集中式(無需求)”沒有利用不同用戶需求的差異性來調整干擾協調策略。分布式DQN 策略根據用戶需求和網絡干擾環境動態地調整傳輸策略,如圖6 所示,因此干擾越嚴重能提供的性能增益越大。

當用戶數為30,請求的文件大小為400 MB 時,相對于“無協調(無需求)”和“集中式(無需求)”策略,分布式DQN 策略分別可以提供66%和15%以上的增益,說明在用戶數多、業務需求大的情況下,所提出的分布式策略增益明顯;對所仿真的任意用戶數和文件大小,所提出的不需要預測信息的分布式策略相對于未來平均信道預測理想時“集中式(有需求)”策略的性能損失不超過11%。

因為網絡中不斷有用戶離開,或者有新用戶的請求到達,所以網絡中的用戶數是動態變化的。為了進一步評估分布式DQN 策略在動態變化環境中的性能,圖9 給出了當訓練時的用戶數與測試時用戶數不一致時的性能。考慮訓練時的用戶數為20,而測試時用戶數從5 增加到30。從仿真結果可見,即使用戶數不一致,所達到的性能與用戶數一致時的性能幾乎相同,說明分布式DQN 策略對用戶數的變化具有較強的穩健性。這是由于所設計的DQN狀態中包含了SINR、SLNR 以及其他用戶需求的數據率之和,這些變量都隨著網絡中的用戶數變化而變化,基站能夠根據這些狀態的變化自適應地調整傳輸策略。此外,在訓練DQN 時也考慮了網絡中不斷有用戶離開及有新用戶的請求到達的場景,值函數是在不同幀內用戶數不同的條件下學習到的。

圖9 訓練與測試時用戶數不一致時的滿意度(B=400 MB)

5 結束語

本文針對文件下載業務提出了基于多智能體強化學習的分布式干擾協調策略,設計了強化學習算法的狀態和獎勵函數。所提出的策略能夠在不同的干擾環境和用戶業務需求下自適應調整傳輸策略、提升用戶滿意度。該策略不需要預測任何信息,且網絡節點之間只需要交互少量的信息。從仿真結果可見,所設計的分布式干擾協調策略能在用戶數較多、業務需求較大的情況下相對于傳統的集中式干擾協調明顯提高用戶滿意度,對于任意的用戶數和文件大小,相對于未來信息預測理想時最優策略的性能損失不超過11%,并且對于用戶數變化具有穩健性。

猜你喜歡
滿意度用戶策略
多感謝,生活滿意度高
工會博覽(2023年3期)2023-04-06 15:52:34
16城市公共服務滿意度排行
小康(2021年7期)2021-03-15 05:29:03
例談未知角三角函數值的求解策略
淺談如何提升脫貧攻堅滿意度
活力(2019年19期)2020-01-06 07:34:38
我說你做講策略
明天村里調查滿意度
雜文月刊(2019年15期)2019-09-26 00:53:54
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 国产成人三级| 久久视精品| 久久天天躁狠狠躁夜夜躁| 91无码视频在线观看| 国产第二十一页| 99热国产这里只有精品9九| 国产欧美日韩综合在线第一| 成人国产小视频| 久久这里只有精品66| 中文字幕无码av专区久久| 国产丝袜无码一区二区视频| 久久国产精品影院| 日韩精品无码不卡无码| 精品亚洲欧美中文字幕在线看| 亚洲无码日韩一区| 亚洲综合精品香蕉久久网| 久青草免费在线视频| 久久国产免费观看| 香蕉久久国产超碰青草| 国产一级视频久久| 亚洲色图在线观看| 欧美日韩国产系列在线观看| 亚洲天堂日韩在线| www.av男人.com| 91精品人妻一区二区| 亚洲人人视频| 国产精品亚洲va在线观看| 亚洲成a人在线观看| 国产成人1024精品| 毛片视频网址| 爱做久久久久久| 亚洲天堂视频在线观看免费| 国产丝袜一区二区三区视频免下载| 中文国产成人精品久久| 国产乱论视频| 92午夜福利影院一区二区三区| 在线观看国产黄色| 三上悠亚一区二区| 亚洲二区视频| 热99re99首页精品亚洲五月天| 99在线视频网站| 凹凸国产分类在线观看| 精品亚洲麻豆1区2区3区 | 尤物亚洲最大AV无码网站| 97精品国产高清久久久久蜜芽| 中文字幕佐山爱一区二区免费| 黄色网址免费在线| 国产chinese男男gay视频网| 伊人成人在线| 亚洲乱码在线播放| 欧美黄网站免费观看| 日本不卡免费高清视频| 丁香亚洲综合五月天婷婷| 国产一区二区精品福利| 免费无遮挡AV| 亚洲欧美成人综合| 亚洲视频免费播放| 高h视频在线| 久久超级碰| a欧美在线| 亚洲无码在线午夜电影| 亚洲欧美h| 99在线免费播放| 成色7777精品在线| 亚洲日本韩在线观看| 青青青草国产| 麻豆精品在线视频| 亚洲精品无码AV电影在线播放| 另类欧美日韩| 极品国产在线| 欧美伊人色综合久久天天| 在线观看网站国产| 97成人在线观看| 亚洲免费人成影院| 日韩欧美中文| 亚洲一区二区约美女探花| 91区国产福利在线观看午夜| 91无码国产视频| 欧美视频在线不卡| 黄色一级视频欧美| 老司机精品久久| 东京热av无码电影一区二区|