頻分多址系統分布式強化學習功率控制方法

2023-02-21 22:50:34李燁司軻

計算機應用研究 2023年12期

李燁司軻

摘要：近年來，深度強化學習作為一種無模型的資源分配方法被用于解決無線網絡中的同信道干擾問題。然而，基于常規經驗回放策略的網絡難以學習到有價值的經驗，導致收斂速度較慢；而人工劃定探索步長的方式沒有考慮算法在每個訓練周期上的學習情況，使得對環境的探索存在盲目性，限制了系統頻譜效率的提升。對此，提出一種頻分多址系統的分布式強化學習功率控制方法，采用優先經驗回放策略，鼓勵智能體從環境中學習更重要的數據，以加速學習過程；并且設計了一種適用于分布式強化學習、動態調整步長的探索策略，使智能體得以根據自身學習情況探索本地環境，減少人為設定步長帶來的盲目性。實驗結果表明，相比于現有算法，所提方法加快了收斂速度，提高了移動場景下的同信道干擾抑制能力，在大型網絡中具有更高的性能。

關鍵詞：分布式強化學習；頻分多址系統；功率控制；貪心策略；優先經驗回放；動態步長調整

中圖分類號：TP929.5?? 文獻標志碼：A??? 文章編號：1001-3695（2023）12-039-3772-06

doi： 10.19734/j.issn.1001-3695.2023.03.0169

Distributed reinforcement learning based power control for frequency division multiple access systems

Abstract：In recent years， deep reinforcement learning has been used as a modelfree resource allocation method to solve the problem of cochannel interference in wireless networks. However， networks based on conventional experience replay strategies are difficult to learn valuable experiences， resulting in slower convergence speed. The manual method of determining the exploration step size does not take into account the learning situation of the algorithm in each training cycle， resulting in blind exploration of the environment and limited improvement of the system spectral efficiency. This paper proposed a distributed reinforcement learning power control method for frequency division multiple access systems， which adopted a priority experience replay strategy to encourage agents to learn more important data from the environment to accelerate the learning process. Moreover， this paper designed an exploration strategy with dynamic adjustment of step size suitable for distributed reinforcement learning. The strategy allowed agents to explore the local environment based on their own learning situation and hence reduced the blindness caused by manually setting step sizes. The experimental results show that compared to existing algorithms， the proposed method accelerates the convergence speed， improves the ability of cochannel interference suppression in mobile scenarios， and gains higher performance in large networks.

Key words：distributed reinforcement learning; frequency division multiple access system; power control; greedy strategy; priority experience replay; dynamic step size adjustment

0 引言

隨著蜂窩小區中用戶設備數量的不斷增長，用戶間通信的干擾管理已成為無線蜂窩網絡開發新興技術的關鍵問題。當用戶設備都處于同一子頻帶時，增加小區基站對某一用戶的發射功率可以提高該鏈路的數據傳輸速率，但同時也會對基站通信范圍內的其他下行鏈路產生干擾。在移動性場景下，密集、不規則運動的用戶設備之間的干擾會更加明顯。功率控制是無線網絡中廣泛使用的干擾緩解方法，但當多個設備共享一個頻段時，該問題被認為是NPhard［1］。根據頻分多址的概念，處于不同頻率載波上的信號之間不會產生干擾［2］，因此聯合頻帶選擇的功率控制方案對干擾抑制的效果會更優。

對于單頻帶場景，分數規劃（FP）［3］和加權最小均方誤差（WMMSE）［4］應用于解決功率控制問題，以使速率等全局優化目標達到接近最優的結果。對于多頻帶場景，聯合頻帶選擇與功率控制的問題涉及到混合整數規劃［5］。這些方法都需要準確的數學模型，且作為集中式的迭代算法，需要瞬時的全局信道狀態信息（channel state information，CSI）。在用戶移動導致信道快速變化的實際場景中，以上方法的實現相當具有挑戰性［6］。

為此，業界基于純數據驅動的無模型強化學習方法針對功率控制問題展開研究［7］。對于單頻帶場景，文獻［8］提出了一種集中式訓練分布式執行的架構，但該方法僅適用于離散控制策略，必須對功率域進行量化［9］，引入了人為的量化誤差。文獻［10］提出了一種使用深度確定性策略梯度的actorcritic學習算法，使其適用于連續動作空間，但該方法僅可應用于非時變信道場景下。文獻［11］改進了該模型使之適用于單頻帶下的移動性場景，但該模型性能將隨設備數量的增長而顯著下降，不具有很好的擴展性。

對于多頻帶場景，文獻［12］采用深度Q網絡解決頻帶選擇與發射功率控制問題，但該方法引入量化誤差的同時，其動作空間是可用頻帶數與量化發射功率電平的笛卡爾積，導致網絡輸出層的大小和在訓練期間訪問的狀態動作對的數量隨頻帶數的增多而增長。此外，該方法不能解決同時包含離散和連續變量的問題。對此，文獻［13］進一步提出了一種由兩層學習策略組成的新方法，下層使用深度Q網絡負責離散子頻帶選擇，而上層使用深度確定性策略梯度進行連續功率分配。但該方法不適用于時變信道場景，且隨可用頻帶數量的增加，基于常規經驗回放策略的網絡難以學習到有價值的經驗，收斂速度較慢，不適用于大型移動網絡。對此，Schaul等人［14］在離散場景下的實驗顯示，相比在每輪學習中選取高價值經驗，基于均勻抽樣的經驗回放需要更多的更新次數，這種趨勢隨著經驗回放池的增大更為明顯，如圖1所示。因此，經驗數據的選取策略對算法的學習效率有很大影響。

此外，Auer等人［15］指出，以恒值步長進行探索的貪心策略（εgreedy）會在訓練中產生誤差，且誤差隨訓練次數的增多而線性增長。由于最優價值差在實踐中不可得，所以強化學習算法通常以固定衰減步長實現對環境的探索。文獻［16］使用固定的衰減步長獲得了總誤差與訓練次數的次線性關系。但這種人工劃定步長的方式沒有考慮算法在每個訓練周期上的學習情況，使得對環境的探索存在盲目性。

為了解決這些問題，本文提出一種分布式強化學習功率控制方法，設計適用于分布式架構下的優先經驗回放策略。通過更有效地利用計算資源，算法及時抽取重要經驗數據，從而加速收斂；此外，中心決策智能體將根據自身學習狀況對探索步長做自適應調整，且各分布式智能體的探索策略各不相同，以使分布式智能體能更充分有效地探索本地通信環境，為中心智能體的決策算法累積更多經驗。

1 系統模型

考慮一個具有N條鏈路的蜂窩網絡，鏈路均勻分布在K個同質六邊形小區單元中，共享M個頻帶。令N={1，…，n，…，N}與M={1，…，m，…，M}分別表示鏈路與頻帶索引的集合。鏈路n由發射機s與移動接收機r共同組成。發射機s作為小區基站位于六邊形小區中心，假設其通信范圍囊括小區邊界。將移動設備r的小區基站匹配狀態表示為Cn∈K。假設所有發射機與接收機都配置單根天線，且網絡是一個具有固定時隙持續時間T的完全同步的時隙系統。由于實際通信場景中可用頻帶的稀缺性，所以M<

設時隙t中，子頻帶m上從發射機s到接收機r的下行鏈路信道增益表示為

g（t）s→r，m=|h（t）s→r，m|2·α（t）s→r（1）

其中：h（t）s→r，m為小尺度瑞利衰落變量；αs→r為包含路徑損耗和對數正態陰影在內的大規模衰落分量［18］，其值隨接收機r的移動而變化：

α（t）s→r=α（t）dB，s→r=PL（xs，x（t）r）+λ（t）s→r（2）

其中：xs為小區單元中心的二維坐標；x（t）r為移動設備在時隙t以小區單元為中心的實時二維坐標；PL（xs，x（t）r）為與距離相關的路徑損耗；λ（t）s→r為從xs到x（t）r的正態對數陰影：

λ（t）s→r=ρ（t）n·λ（t－1）s→r+σ·e（t）k→n（3）

其中：σ為對數正態陰影標準差；e（t）k→n～N（0，1－（ρ（t）n）2）為陰影隨機更新過程，由獨立同分布的高斯變量組成；ρ（t）n為兩個連續對數陰影衰落的相關性：

其中：dcor為環境相關長度的定值；Δx（t）n為移動設備在當前時隙與上一時隙的距離差值：

Δx（t）n=‖x（t）n－x（t－1）n‖2（5）

采用Jakes的衰落模型［19］來描述h（t）s→r，m，因此，每個信道的小尺度瑞利衰落變量作為一階復高斯馬爾可夫過程引入為

其中：ρr表示兩個連續衰落塊之間的相關性，為第一類零階貝塞爾函數：

ρ（t）r=J0（2π·f（t）d，r·T）（7）

其值取決于最大多普勒頻率：

其中：V（t）r代表設備r的移動速度； fc為載波頻率；c為真空環境光速；e（t）s→r，m為信道更新過程，是具有單位方差的獨立同分布圓對稱復高斯隨機變量。

使用二進制變量ξ（t）n，m來表示鏈路n在時隙t上對于子頻帶m的選擇情況，設發射機n在時隙t上的發射功率為p（t）n，則在時隙t上，選擇頻帶m為底層子頻帶選取方案時接收機n的信噪比為

其中：σ2為接收機n處的加性高斯白噪聲功率譜密度；分子項為鏈路c（t）所對應的發射器選取子頻帶m為載波頻帶時，對接收機n產生的下行鏈路信道增益；分母項則為其他的鏈路所對應的發射器選取子頻帶m為載波頻帶時，對接收器n產生的下行鏈路信道干擾。

假設歸一化帶寬，在時隙t上，鏈路c（t）n對應的發射器選取子頻帶m為載波頻帶時實現的下行鏈路頻譜效率為

對于給定的鏈路c（t）n，和速率最大化問題表述為

由于信道的變化使式（11）涉及混合整數規劃。即使對于給定的子頻帶分配方案ξ，該問題也被證明為NPhard［20］。

2 基于優先經驗回放的分布式強化學習控制方法

設智能體在每個時隙t下處于狀態s（t），并根據策略π（a（t），s（t））采取動作a（t），隨后按照狀態轉移概率p（s（t+1），s（t），a（t））進入下一個狀態s（t+1），同時從環境中獲得獎勵r（s（t），a（t））。上述四項構成的四元組稱為智能體在時隙t下的經驗：e（t）=（s（t），a（t），r（t+1），s（t+1））。強化學習的目標是找到最優策略π*，最大化從任意狀態或狀態—動作組合起始的期望折扣累計獎勵：

其中：γ∈（0，1）為折扣因子。假設智能體在任意時刻獲取的狀態s（t）是完整的環境狀態，則以上過程被稱為馬爾可夫決策過程（Markov decision process，MDP）。

對于多頻帶場景下單智能體算法的動作空間維度隨鏈路總數呈指數增長的問題，文獻［13］提出一種通過收集所有分布式智能體的經驗，集中訓練網絡中共享的全局策略參數，并將該參數廣播至所有分布式智能體的集中式訓練分布式執行的架構，解決了單智能體算法在復雜性和通信成本方面與傳統集中式優化算法相似的缺點。同時，該架構下層使用DQN負責離散頻帶選擇、上層使用DDPG完成連續功率分配的分層策略，解決了網絡輸出層的大小隨頻帶數的增多而增長的問題。

由于分布式智能體的設置違反了馬爾可夫假設，故文獻［13］收集所有分布式智能體的經驗存儲在一固定容量的回放池中進行均勻抽樣，以確保穩定性。然而，對回放池中數據的均勻抽樣不利于算法及時學習重要信息。此外，在訓練過程中智能體應用貪心策略，以概率使用學習策略進行探索，存在一定的盲目性。為此，提出一種改進數據抽樣策略與探索策略的分布式強化學習控制方法，如圖2所示。

2.1 學習系統框架

在每個訓練周期開始時，將本地無線環境觀察狀態s（t）n輸入分布式智能體n的下層，輸出頻帶選擇動作a（t）n的同時，將經驗e（t）n，m及其初始優先級在容量為D的優先經驗回放池中存儲。中心決策智能體下層創建參數為target的目標網絡預測以下貝爾曼誤差中的目標值：

L（，D）=Ee（t）n，m～D［y（r（t+1）n，s（t+1）n）－q（s（t）n，a（t）n;）］2（13）

其中：y（r（t+1）n，s（t+1）n）=r（t+1）n+γ*max q（s（t）n，a（t）n;target）。通過從回放池中優先抽取B條經驗進行梯度下降：

最小化式（13）更新DQN網絡。

2.2 強化學習設計

蜂窩通信中，在同一頻帶上的任意兩條鏈路間干擾都是相互的。鏈路n在時隙t、頻帶m上的一組干擾鄰居集由附近的鏈路索引組成。將蜂窩小區中的智能體與其匹配發射機所構成的鏈路按同頻帶、同時隙上接收到的信道增益g（t）i→n，m（i，n∈N，i≠n）進行降序排序，保留前c個鏈路索引作為集合I（t）n，m；按各路干擾信號進行降序排序并保留前c個索引作為集合O（t）n，m。設在時隙t開始時，智能體n可受到與其匹配接收機在每個子頻帶m上收集的最新本地信息。此外，移動接收機收集的信道測量值會延遲一個時隙。

2）本地狀態信息設計

對每一個分布式智能體而言，其本地狀態信息S（t）n，m可以為三個特征組的組合：第一個特征組包含智能體n的最新發射功率大小α（t－1）n，m*p（t－1）n、對全局目標的貢獻C（t－1）n和當前通信環境下子頻帶增益排序。對于每個i∈I（t）n；第二個特征組包含智能體i對智能體n（i≠n）的下行鏈路干擾g（t）i→n，m、干擾功率大小α（t－1）i，mg（t）i→n，mp（t－1）i和對全局目標的貢獻C（t－1）i；對于每個j∈O（t）n，第三個特征組將包含下行鏈路增益g（t）j→j，m、對全局目標的貢獻C（t－1）j以及信噪比γ（t）n→j，m［13］。

為了使本地狀態信息遵循更復雜的實際約束，本文在第一個特征組中增加了下行鏈路信道增益g（t）n→n，m、g（t－1）n→n，m與干擾加噪聲功率之和的最后兩個測量值，并且在第二、三個特征組中增加變量的歷史信息：g（t－1）i→n，m、α（t－2）i，mg（t－1）i→n，mp（t－2）i、C（t－2）i、g（t－1）j→j，m、γ（t－1）n→j，m、C（t－2）j。

算法上層負責子頻帶選擇策略，使用狀態變量S′（t）n={S（t）1，…，S（t）n，…，S（t）N}作為輸入，下層負責功率控制，使用S（t）n，S′（t）n={S（t）n，1，…，S（t）n，m，…，S（t）n，M}作為輸入。

π（t）n→o=log（1+γ（t）o（b（t），［…，p（t）n－1，0，p（t）n+1，…］T））－C（t）o（18）

則對于任意n∈N，其獎勵函數r（t+1）n為

2.3 基于分布式的優先經驗回放

針對移動場景下的問題，智能體在設備游走狀態中所觀測到的信息量將遠高于在靜止狀態下的觀測量，對于一些對算法學習更有價值的經驗將不易于被及時地抽樣學習。這會導致算法需要經過多次訓練才得以收斂，在分布式架構中，這一問題會提高架構的時間開銷成本。使用傳統經驗回放的算法架構不易擴展至多頻帶場景。提出使用優先經驗回放來抽取高信息量樣本，并修改其抽樣邏輯以適配易于擴展的分布式架構。

設e（t）j=（s（t）j，a（t）j，r（t+1）j，s（t+1）j）為智能體j在t+1時產生的經驗，算法模擬的網絡為Q*（sj，aj），而實際學習得到的網絡為Q（sj，aj;w）。優先經驗回放通過對回放池中每條經驗e（t）j賦以一個權重，根據權重對回放池中的經驗做非均勻抽樣。對于某一經驗蘊涵邊界條件等重要信息時，會導致網絡對e（t）j的價值判斷不準確，相比于其他經驗，此時的預測Q（sj，aj;w）嚴重偏離真實價值Q*（sj，aj）。但此類經驗數量較少且智能體難以處理，應當給予e（t）j更高的權重以換取智能體對此類經驗的關注。

真實價值Q*（sj，aj）對于算法而言不可知，可使用TD誤差［21］來代替|Q（sj，aj;w）－Q*（sj，aj）|：

pj=|δj|+ε（21）

其中：ε為一很小的正數，以保證所有經驗都以非零概率被抽取［22］。

由于優先經驗回放做非均勻抽樣導致算法產生了有偏估計，對經驗的不同概率的抽樣使算法預測存在偏差。應相應調整學習率予以消除。設α為學習率，b為回放池中樣本個數，調整學習率為

其中：β∈（0，1）為超參數，在訓練中從0緩慢增長為1。

針對分布式架構，使用集中經驗回放存儲器存儲各個智能體收集到的所有經驗，通過不斷保存最高優先級的經驗以采樣對中心決策算法最有用的數據。經驗回放池在分布式智能體間共享。因此，分布式部署下的任意智能體發現的高優先級經驗數據都可使整個系統受益。

此外，傳統優先經驗回放對于新收集到的經驗會賦予最高優先級，以使該經驗在學習時被盡快采樣一次。這種抽樣方式不利于在分布式多智能體下擴展［23］：當智能體數量增長時，由于最新收集的數據在學習時具有最高優先級，等待更新優先級將導致對最新數據的短時關注，而無法學習歷史數據中真正有意義的高優先級信息。

為了解決該問題，使分布式智能體在收集本地信息的同時，利用其本地策略計算收集到的該經驗的初始優先級，這可確保進入回放池中的數據具有更準確的優先級，而無須中心學習者產生額外的計算費用。

2.4 分布式探索步長動態調整機制

針對人工劃定探索步長的盲目性問題，提出一種分布式的探索步長自適應動態調整（explore dynamic adjustment，EDA）機制，用于中心決策智能體的探索策略，而分布式智能體以中心決策智能體的學習效果為基準，調整本地探索策略，如圖3所示。

使用Et來表示中心決策智能體在訓練周期t下的學習狀況。該值為智能體在當前訓練周期和上一訓練周期的最大Q值之差（p，j∈D且p≠j）：

Et=Qcentremaxt（sp，ap;w）－Qcentremaxt－1（sj，aj;wt－1）（23）

期的探索應當調整衰減步長以盡量擺脫此探索策略；

c）當Et=0時，認為學習已經收斂或上一訓練周期的探索策略對于算法而言并非最佳策略，此時應當以當前衰減步長保持探索。

綜上，訓練周期i處探索策略參數ε的調整可表達為

在每個訓練周期的末尾，中心決策智能體將參數廣播給分布式部署的智能體。對于分布式架構，在每個訓練周期中各個智能體采用不同ε可以提高算法的性能［23］。設N為分布式智能體的個數，為使智能體能充分探索各自本地環境以向回放池中累積更多樣化的經驗數據，每個分布式智能體i∈{0，…，N-1}對其本地環境的探索策略參數εidisperse為

其中：εidisperse與εicentre在每個訓練周期中保持不變。

3 實驗結果

3.1 參數設置

對于移動場景，使用Hass信道［11］進行模擬，每個設備的最大移動速度為2.5 m/s，且每個設備每秒在［-0.5，0.5］ m/s、［-0.175，0.175］ rad/s間隨機更新速度與方向。圖4為設備在5 000個訓練周期中的運動軌跡。

算法的超參數設置如表1所示。

根據LTE標準［24］將路徑損耗定義為

PL（xs，x（t）r）=－（128.1+37.6×lg（xs，x（t）r））（26）

3.2 移動場景下的控制效果

設M為可用子頻帶數量，K為小區單元數量，N為蜂窩小區中的鏈路數量。訓練分為3個階段，每階段持續5 000個訓練周期。在每階段訓練開始時，隨機抽樣一個新的部署，并重置學習率等參數。圖5（a）給出了頻帶數量對所提算法平均頻譜效率的影響。在單頻帶場景下，系統的平均頻譜效率最低。隨著可用頻帶數量的增長，相同小區單元與鏈路數量下的平均頻譜效率也隨之增長，這說明分層策略不僅在靜止場景下有效［13］，在移動場景下也是有效的。

在相同部署條件的移動場景下，將所提算法（proposed）與隨機功率分配和頻帶選擇方法（random）、傳統集中迭代式算法［3］（ideal FP）、單層聯合控制算法［11］（joint）、基于常規經驗回放策略的分層算法［13］（ER）進行對比研究。此外，從所提算法中去掉動態步長調整策略，作為一種對比實驗方法（w/o EDA），以分析動態步長調整策略的有效性。

圖5（b）～（d）分別展示了子頻帶數量為1、4和8時所提算法與對比方法的性能。可以看出，random和ideal FP在各種場景的訓練過程中均沒有表現出性能上的明顯提升，在訓練結束時其性能低于所有其他方法，在本節后續分析中不做進一步討論。當M=1時，如圖5（b）所示，基于頻帶分配策略的方法（proposed、ER和w/o EDA）在平均頻譜效率上均未能超越傳統迭代式算法（ideal FP和joint）；在收斂速度上proposed和w/o EDA略慢于其他方法；當M=4時，如圖5（c）所示，由于蜂窩網絡中的各鏈路在傳輸數據時有多個頻帶可供選擇，proposed和w/o EDA的平均頻譜效率和收斂速度均優于joint，而joint則優于ideal FP。圖5（b）和（c）說明，對中心決策智能體而言，當頻帶數量不多（M≤4）時，探索得到的經驗數量少，常規的經驗回放策略仍然能夠充分抽取由分布式智能體探索得到的經驗數據（諸如邊界信息），達到與優先經驗回放近似的效果。當M=8時，圖5（d）顯示proposed和w/o EDA的平均頻譜效率和收斂速度明顯優于其他方法。

3.3 優先經驗回放效果

在圖5（d）中，相比同為強化學習方法的ER、proposed與w/o EDA顯著提高了平均頻譜效率。為了進一步說明優先經驗回放的效果，圖6展示了在M=8，（K，N）=（5，20）下proposed、w/o EDA和ER的訓練平均獎勵值的變化。顯然，采用優先經驗回放的proposed和w/o EDA其獎勵曲線比ER更為平穩，且在7 500個訓練周期之后已基本收斂，而ER在整個訓練周期上未能趨于平緩。相比w/o EDA，proposed的訓練平均獎勵值波動更小，且顯示出更快的收斂速度。

3.4 步長自適應調整效果

對于各種強化學習方法而言，圖5（b）～（d）中的曲線重疊較為嚴重，為了更清晰地呈現實驗結果，表2給出了其在相同部署條件下最后200個訓練周期的平均鏈路頻譜效率。可以看出，相比ER，在M=1和4時w/o EDA的平均鏈路頻譜效率要略低，而proposed則有改善；在M=8時，w/o EDA超越了ER，提升了0.16，proposed則提升了0.34。對中心決策智能體而言，proposed的步長自適應調整機制使得其可以根據實際學習情況調整對數據的探索，從而有助于找到最優策略。

3.5 測試集表現

對所有算法測試其經訓練的策略在不同頻帶數量情形下的性能，各次實驗采用隨機生成的部署方案，最后200個訓練周期的平均頻譜效率結果如表3所示。

相比于傳統迭代式算法，joint算法以增加輸出層為代價，換取了頻譜效率的提升。隨著頻帶數量的增多，基于頻帶分配策略的算法（proposed、ER和w/o EDA）取得了比joint更高的平均頻譜效率，這主要是由于joint的動作空間與輸出層的復雜性引起的。

相比于w/o EDA，ER在較少頻帶數場景（M≤4）下性能良好，而在較多頻帶數場景（M=8）下沒有表現出明顯優勢。這是由于ER算法以均勻抽樣為策略的經驗回放缺少對高信息量數據的關注，不易于學習最佳策略。

proposed在測試集所示的各種頻帶場景下都有高于其他算法的性能表現。proposed結合步長自適應調整和優先經驗回放，對回放池中的經驗有針對地學習，避免了盲目探索，從而更快學習到最優策略。

4 結束語

針對頻分多址系統移動場景下的同信道干擾問題，提出了一種聯合頻帶選取與功率控制的多智能體強化學習框架。優先經驗回放策略解決了常規經驗回放策略難以學習到有價值的經驗、導致收斂速度較慢的問題，而探索步長動態調整的機制避免了對環境探索的盲目性，智能體可根據學習情況采用更合理的探索行為。實驗結果表明，隨頻帶數量的增加，所提算法具有更好的收斂性能和更高的平均頻譜效率。未來將研究更易于調整的訓練和探索方案，以適應多智能體部署所帶來的環境非平穩性。

參考文獻：

［1］Luo Zhiquan，Zhang Shuzhong. Dynamic spectrum management： complexity and duality［J］. IEEE Journal of Selected Topics in Signal Processing，2008，2（1）： 57-73.

［2］Tan Junjie，Zhang Lin，Liang Yingchang. Deep reinforcement learning for channel selection and power control in D2D networks［C］//Proc of IEEE Global Communications Conference. Piscataway，NJ：IEEE Press，2019： 1-6.

［3］Shen Kaiming，Yu Wei. Fractional programming for communication systems—Part I： power control and beamforming［J］. IEEE Trans on Signal Processing，2018，66（10）： 2616-2630.

［4］Sun Haoran，Chen Xiangyi，Shi Qingjiang，et al. Learning to optimize： training deep neural networks for interference management［J］. IEEE Trans on Signal Processing，2018，66（20）： 5438-5453.

［5］Tan Junjie，Liang Yingchang，Zhang Lin，et al. Deep reinforcement learning for joint channel selection and power control in D2D networks［J］. IEEE Trans on Wireless Communications，2020，20（2）： 1363-1378.

［6］Qin Zhijin，Ye Hao，Li Ye，et al. Deep learning in physical layer communications［J］. IEEE Wireless Communications，2019，26（2）： 93-99.

［7］Hu Qiang，Gao Feifei，Zhang Hao，et al. Deep learning for channel estimation： interpretation，performance，and comparison［J］. IEEE Trans on Wireless Communications，2020，20（4）： 2398-2412.

［8］Nasir Yasar Sinan，Guo Dongning. Multiagent deep reinforcement learning for dynamic power allocation in wireless networks［J］. IEEE Journal on Selected Areas in Communications，2019，37（10）： 2239-2250.

［9］Meng Fan，Chen Peng，Wu Lenan，et al. Power allocation in multiuser cellular networks： deep reinforcement learning approaches［J］. IEEE Trans on Wireless Communications，2020，19（10）： 6255-6267.

［10］Zhao Nan，Liu Zehua，Cheng Yiqiang. Multiagent deep reinforcement learning for trajectory design and power allocation in multiUAV networks［J］. IEEE Access，2020，8： 139670-139679.

［11］Nasir Y S，Guo Dongning. Deep actorcritic learning for distributed power control in wireless mobile networks［C］//Proc of the 54th Asilomar Conference on Signals，Systems，and Computers. Piscataway，NJ：IEEE Press，2020： 398-402.

［12］Lu Ziyang，Zhong Chen，Gursoy C. Dynamic channel access and power control in wireless interference networks via multiagent deep reinforcement learning［J］. IEEE Trans on Vehicular Technology，2021，71（2）： 1588-1601.

［13］Nasir Y S，Guo Dongning. Deep reinforcement learning for joint spectrum and power allocation in cellular networks［C］//Proc of IEEE GlobeCom Workshops. Piscataway，NJ：IEEE Press，2021： 1-6.

［14］Schaul T，Quan J，Antonoglou I，et al. Prioritized experience replay［EB/OL］. （2016）. https：//arxiv.org/abs/1511.05952.

［15］Auer P，Cesa B N，Fischer P. Finitetime analysis of the multiarmed bandit problem［J］. Machine Learning，2002，47： 235-256.

［16］李琛，李茂軍，杜佳佳. 一種強化學習行動策略εgreedy的改進方法［J］. 計算技術與自動化，2019，38（2）： 141-145.（Li Chen，Li Maojun，Du Jiajia. A reinforcement learning action strategy εimprovement methods for greedy［J］.Computing Technology and Automation，2019，38（2）： 141-145.）

［17］Nguyen T T，Nguyen N D，Nahavandi S. Deep reinforcement learning for multiagent systems： a review of challenges，solutions，and applications［J］. IEEE Trans on Cybernetics，2020，50（9）： 3826-3839.

［18］Ren Jinke，He Yinghui，Wen Dingzhu，et al. Scheduling for cellular federated edge learning with importance and channel awareness［J］. IEEE Trans on Wireless Communications，2020，19（11）： 7690-7703.

［19］Liang Le，Peng Haixia，Li Ye，et al. Vehicular communications： a physical layer perspective［J］. IEEE Trans on Vehicular Technology，2017，66（12）： 10647-10659.

［20］陳曉玉，周佳玲. 分布式強化學習在經濟調度問題中的應用［J］. 控制工程，2022，29（3）： 480-485.（Chen Xiaoyu，Zhou Jialing. Application of distributed reinforcement learning in economic scheduling problems［J］. Control Engineering，2022，29（3）： 480-485.）

［21］何斌，劉全，張琳琳，等. 一種加速時間差分算法收斂的方法［J］. 自動化學報，2021，47（7）： 1679-1688.（He Bin，Liu Quan，Zhang Linlin，et al. A method for accelerating the convergence of time difference algorithms［J］. Acta Automatica Sinica，2021，47（7）： 1679-1688.）

［22］李艷，賀靜，武優西. 種子節點貪婪擴張的重疊社區發現方法［J］. 小型微型計算機系統，2019，40（5）： 1115-1119.（Li Yan，He Jin，Wu Youxi. Overlapping community discovery method based on greedy expansion of seed nodes［J］. Journal of Chinese Computer System，2019，40（5）： 1115-1119.）

［23］Horgan D，Quan J，Budden D，et al. Distributed prioritized experience replay［EB/OL］. （2018）. https：//arxiv.org/abs/ 1803.00933.

［24］Li Jing，Guo Dongning. A resource allocation and coordinated transmission scheme for large cellular networks［EB/OL］. （2020）. https：//arxiv.org/abs/ 2004.07949.

計算機應用研究2023年12期

計算機應用研究的其它文章: 物聯網環境下基于云邊協同的數據審計方案; 一種AES S盒改進方案及其硬件設計; 基于烏鴉搜索的隱私保護聚類算法; 基于知識圖譜的用戶表征及在互補產品推薦中的應用; 融合狀態關系的知識追蹤模型; 基于改進INFO算法的新型可拓云計算機性能評估模型