面向智能通信的深度強化學習方法

2020-04-06 08:47:42譚俊杰梁應敞

電子科技大學學報 2020年2期

譚俊杰，梁應敞

(電子科技大學通信抗干擾技術國家級重點實驗室成都 611731)

隨著智能手機等智能終端的普及以及各類應用的出現(xiàn)，人們對無線通信的速率、時延等方面都提出了更高的要求。為了滿足更高的通信需求，越來越多的新技術被應用于無線通信網(wǎng)絡中，如更高階的編碼調(diào)制方案(modulation and coding scheme)、部署緩存(cache)甚至基于無人機(unmanned aerial vehicle, UAV)的空中基站等。并進一步提出了將各類異構的無線網(wǎng)絡進行有機整合，再按需分配提升網(wǎng)絡整體彈性[1]。這些技術提升了無線網(wǎng)絡的承載極限，但也增加了管理維度。與此同時，步入萬物互聯(lián)的時代，終端數(shù)量呈現(xiàn)出爆炸式的增長，導致無線網(wǎng)絡規(guī)模日益龐大。網(wǎng)絡規(guī)模及管理維度的雙重擴增導致復雜度激增，使得傳統(tǒng)的基于凸優(yōu)化或啟發(fā)式的無線網(wǎng)絡管理方法失效。

另一方面，近年來人工智能快速發(fā)展，其摒棄了傳統(tǒng)的人工數(shù)學建模后求解的方法，轉(zhuǎn)而利用數(shù)據(jù)驅(qū)動的機器學習方法直接對數(shù)據(jù)進行分析和處理。其中，深度學習(deep learning, DL)[2]和深度強化學習(deep reinforcement learning, DRL)[3]是最重要的兩類機器學習方法。DL 利用深度神經(jīng)網(wǎng)絡(deep neural network, DNN)挖掘數(shù)據(jù)中的關聯(lián)關系，最終實現(xiàn)對未知數(shù)據(jù)的預測。因此，DL 被廣泛應用于計算機視覺及自然語言處理等領域。與DL 不同，DRL 屬于機器學習的另一分支，其目的是在復雜的動態(tài)環(huán)境中進行最優(yōu)決策。為了實現(xiàn)這一目標，DRL 首先記錄下環(huán)境與控制信息，然后利用DNN 對歷史經(jīng)驗進行分析并學習環(huán)境變化規(guī)律，最終根據(jù)學習到的規(guī)律得到最優(yōu)策略。因此，DRL 在自動化控制領域得到廣泛應用。2016 年，Google 打造出基于DRL 的AlphaGo[4]擊敗了韓國九段棋手李世乭，向世人證明了DRL 的強大實力。

由于信道時變等原因，無線通信網(wǎng)絡的管理是在動態(tài)變化的無線環(huán)境中對網(wǎng)絡的眾多參數(shù)進行優(yōu)化，實際上就是一個在動態(tài)環(huán)境中的最優(yōu)決策問題，與DRL 的設計目標相契合。因此，DRL 是智能無線通信的重要賦能者。DRL 強大的學習與決策能力可以對無線通信網(wǎng)絡進行智能管理，使其在復雜的通信環(huán)境中都能夠精準地匹配用戶需求，最終提升網(wǎng)絡的實際承載能力和用戶通信體驗。

本文對DRL 及其涉及的基礎知識進行介紹，并從無線通信網(wǎng)絡的資源管理、接入控制以及維護3 方面剖析DRL 如何實現(xiàn)智能通信，最后對目前尚未解決的開放問題進行討論，為進一步研究提供思路。

1 基礎知識回顧

在正式介紹DRL 之前，首先對它所涉及的基礎知識進行回顧。DRL 是一種求解馬爾科夫決策過程(Markov decision process, MDP)問題的智能方法，而其技術來源于強化學習(reinforcement learning,RL)和DL。因此，本章分別介紹MDP、RL 和DL。

1.1 馬爾科夫決策過程

MDP 是一種對智能體與動態(tài)環(huán)境交互過程進行數(shù)學建模的方法[5]。其中，智能體是決策者，又稱為代理。環(huán)境則是除智能體外與之關聯(lián)和互動的其他事物。一般地，智能體需要通過做出各種決策并采取行動以實現(xiàn)自身目標，但是在采取行動的過程中會對環(huán)境產(chǎn)生影響，且不同環(huán)境狀態(tài)下智能體得到的結果可能不同。MDP 的提出正是為了分析智能體和環(huán)境的復雜交互過程。

MDP 由一系列關鍵要素構成，包括狀態(tài)、動作、轉(zhuǎn)移概率、獎賞和策略。

狀態(tài)：狀態(tài)是對智能體對所處環(huán)境的描述。環(huán)境的變化可以由狀態(tài)的變化來表示。狀態(tài)一般表示為s 。所有可能的狀態(tài)則構成了狀態(tài)空間S。

動作：智能體所做出的決策或所采取的行動稱之為動作。動作一般表示為a。智能體可以采取的所有動作構成了動作空間A。

轉(zhuǎn)移概率：智能體采取的動作可能導致環(huán)境發(fā)生變化，進而使智能體所觀察到的環(huán)境狀態(tài)發(fā)生改變。狀態(tài)間的轉(zhuǎn)移所服從的概率即為轉(zhuǎn)移概率。若智能體在狀態(tài)為 s 時采取動作 a使得狀態(tài)變?yōu)?s′，轉(zhuǎn)移概率可以表示為 Pa(s,s′)。

獎賞：智能體采取的每一個動作都會使它接近或遠離所設定的目標。為了衡量所采取動作的效果，智能體可從環(huán)境中觀察得到獎賞值。特別的，智能體在狀態(tài)為 s 時采取動作 a使得狀態(tài)變?yōu)?s′獲得的獎賞值記為 ra( s,s′)。

策略：智能體的決策規(guī)則稱為策略，記為π。其中， π(a |s)表示當狀態(tài)為 s 時選取動作a 的概率。

MDP 的目標為通過優(yōu)化智能體的策略π 來最大化時間跨度 T內(nèi)的期望累積獎賞

式中，γ是折扣因子，其取值范圍是 [0,1]。 γ控制未來獎賞對智能體在做當前決策時的重要性。極端情況下， γ= 0表示智能體僅最大化當前時刻的獎賞，而 γ=1則表示智能體的目標是最大化未來所有時刻得到的獎賞。此外，若 T為有限值，則表示該MDP為有限時間跨度MDP，即該MDP 會因達到終止態(tài)停止運行或運行到某一時刻后停止運行。相應的，T=∞表示該MDP 為無限時間跨度MDP。MDP 的運行過程如圖1 所示。

當MDP 中除策略外的其他要素均已知時，可以通過動態(tài)規(guī)劃(dynamic programming, DP)來求解MDP 以獲得最大化R 的最優(yōu)策略 π?。典型的方法有策略迭代和值迭代。

1.1.1 策略迭代

對于給定策略 π，由貝爾曼方程(Bellman’s Equation)[5]可得：

利用式(1)對所有狀態(tài) s ∈S不斷迭代，收斂得到的 Vπ( s)表示智能體在策略 π下，從狀態(tài) s出發(fā)可得到的期望累積獎賞。對 Vπ(s),s ∈S迭代的過程稱為策略評估。

在對策略 π進行策略評估后，可以根據(jù)得到的Vπ(s)對策略進行改進。基于貪婪的方法，可以得到改進后的策略 π′：

文獻[5]證明通過不斷重復地進行策略評估和策略迭代，最終得到的策略會收斂到最大化 R的最優(yōu)策略 π?，該方法稱為策略迭代。

1.1.2 值迭代

在策略迭代中，策略評估需要利用式(1)重復迭代直至收斂，而每一次策略改進都需要先進行策略評估。因此，策略迭代的計算復雜度較高。為了解決這一問題，值迭代將策略改進融合進策略評估中，將式(1)改寫為：

利用式(3)對所有狀態(tài) s ∈S迭代直至收斂后，最優(yōu)策略 π?可以通過下式得到

以上介紹的兩種基于DP 的方法都能有效地求解MDP 并獲得最優(yōu)策略。然而，它們都需要知道轉(zhuǎn)移概率。對于無線通信系統(tǒng)，其系統(tǒng)狀態(tài)變化受信道變化、用戶行為等眾多隨機因素共同影響。這些隨機變量的概率分布難以準確獲得。因此，將無線通信網(wǎng)絡中的問題建模成MDP，其轉(zhuǎn)移概率通常難以獲得。為了解決轉(zhuǎn)移概率缺失的問題，強化學習應運而生。

1.2 強化學習

與需要提前知道轉(zhuǎn)移概率的DP 不同，RL 是通過試錯(trial-and-error)來學習環(huán)境中存在的規(guī)律，進而求解MDP[5]。因此，RL 可在不需要知道轉(zhuǎn)移概率的情況下求解MDP。目前廣泛采用的RL方法可以分為基于值的方法和基于策略的方法。

1.2.1 基于值的方法

式(1)可分解為：

其中，

Qπ(s,a)表示智能體在策略 π下，在狀態(tài) s采取動作 a可得到的期望累積獎賞，稱為狀態(tài)-動作對?s,a?的 Q 值。當策略 π為最優(yōu)策略時，對于任意的狀態(tài) s ∈S 和 a ∈ A，相應的Q 值 Q?(s,a)是在所有策略下獲得的最大Q 值。相反，若已知最大Q 值Q?(s,a)，那么可以根據(jù)下式得到最優(yōu)策略π?

根據(jù)這一性質(zhì)，Q 學習利用智能體實際得到的Q 值樣本與預測Q 值之間的差值(又稱時間差分temporal difference)來迭代地更新Q 值，最終逼近 Q?(s,a)并得到最優(yōu)策略 π?。具體的迭代公式為

式中，α是控制Q 值更新速度的學習速率。Q 學習的算法偽代碼如下。

算法1 Q 學習算法

輸入：S,A,α,γ

建立表格儲存 Q( s,a),?s ∈S,a ∈A，并將所有Q 值初始化為0

for t=1 : T

觀察環(huán)境得到狀態(tài)s ，根據(jù) ε貪婪規(guī)則選擇動作a

采取動作a，并觀察得到新狀態(tài) s′和獎賞ra(s,s′)

根據(jù)式(8)更新Q(s,a),?s ∈S,a ∈A

令s=s′

end for

算法1 中的 ε貪婪規(guī)則是指，智能體以ε 的概率選取隨機動作，并以1 ?ε的概率選取Q 值最大的動作，即 arg maxaQ(s,a)。前者令智能體探索未知的動作，從而學習到潛在的更好的策略，而后者則令智能體充分利用已知的知識來做出最優(yōu)決策。通過改變 ε的大小可以調(diào)整兩方面的作用，使得智能體在學習速度和決策的最優(yōu)性中取得平衡。

以上介紹的Q 學習是一種典型的基于值的RL方法。實際上，基于值的RL 方法還有SARSA、雙Q 學習等，這些方法都是通過對Q 值進行估計并利用Q 值得到最優(yōu)策略。然而，因為基于值的方法需要為所有狀態(tài)-動作對建立表格儲存其Q 值，所以當MDP 的動作或狀態(tài)空間很大(或為連續(xù)空間)會產(chǎn)生維度爆炸的問題。為了解決這一問題，人們提出了基于策略的RL 方法。

1.2.2 基于策略的方法

在基于策略的RL 方法中，動作的選取不再需要對Q 值進行評估。取而代之的是直接對策略進行優(yōu)化。為了實現(xiàn)這一目標，首先需要將策略參數(shù)化，即用一個由參數(shù) θ確定的函數(shù)來表示策略π。那么，在狀態(tài) s 采取動作a 的概率可以寫為 π(a |s,θ)。如果策略的性能可以由一個標量 J(θ)來量度，那么為了性能最大化，θ應該以關于 J(θ)梯度上升的方向更新，即

下面介紹策略梯度法中的一種典型算法——蒙特卡洛策略梯度法，又稱為REINFORCE 算法。若定義 J(θ)為由 θ確定策略 π下從某一狀態(tài) s0出發(fā)所得到的期望累積獎賞，即 Vπθ(s0)，文獻[5]可以證明關于θ 的梯度 ?J (θ)為

算法2 REINFORCE 算法

初始化θ

for episode=1 : imax

for t=1 : T

觀察狀態(tài) st，根據(jù)選取動作at，并觀察得到新狀態(tài) st+1和獎賞rat(st,st+1)

end for

for t=1 : T

end for

在算法2 中，策略是以回合(episode)為單位進行更新的。在一個回合中，智能體需要用同一策略產(chǎn)生共 T個時刻的一組動作、狀態(tài)和獎勵。然后利用這些信息對 θ和策略進行更新。這導致策略梯度法有兩個缺點：1)策略梯度法只適用于有限時間跨度的回合制MDP，然而在實際無線通信網(wǎng)絡中，系統(tǒng)的運行可能是無限時間跨度的；2)策略的更新以回合制為單位，使得策略更新速度慢、不同回合下得到的決策方差較大，即穩(wěn)定性較差。以上兩點使策略梯度法不便于在線部署。

綜上，雖然基于策略的方法解決了基于值的方法的維度爆炸問題，但同時也帶來了新的問題。因此，人們嘗試通過將DL 與RL 結合來解決這些問題。

1.3 深度學習

DL 是一種利用深度神經(jīng)網(wǎng)絡(deep neural network, DNN)來表征數(shù)據(jù)的關系，并最終實現(xiàn)擬合或分類功能的算法。因此，DNN 是DL 的關鍵。

圖2 為DNN 的一個典型結構。如圖所示，DNN的基本組成單元是相互連接的神經(jīng)元。DNN 中的神經(jīng)元排列具有層次結構，通常包含一個輸入層、一個輸出層和數(shù)個隱層。神經(jīng)元間的連接強弱關系由權值決定，權值由圖2 中神經(jīng)元間連線表示。圖3 示出了神經(jīng)元間的信息傳遞過程。其中，每個神經(jīng)元將與之連接的上一層神經(jīng)元的輸出值乘以相應的權值并求和，再通過一個激活函數(shù)將信息傳遞到下一層連接的神經(jīng)元。激活函數(shù)一般有“sigmoid”[6]“ReLU”[7]“tanh”等。根據(jù)DNN的信息傳遞規(guī)則，輸入數(shù)據(jù)被各層神經(jīng)元逐層加工最終得到輸出結果，這個過程稱為正向傳播。通過對比神經(jīng)網(wǎng)絡輸出的預測值和真實訓練數(shù)據(jù)，DNN 可以調(diào)整神經(jīng)網(wǎng)絡間的權值以提高預測的準確度，這個過程稱為誤差反向傳播。訓練后的DNN 可以表征數(shù)據(jù)間的關系，進而能對未知輸入數(shù)據(jù)做出準確的預測。

然而，并不是所有的DNN 都能有效地挖掘數(shù)據(jù)間中存在的關聯(lián)關系并對未知輸入做出準確預測。實際上，神經(jīng)元的連接方式，即DNN 的結構，是影響DNN 性能的關鍵因素。神經(jīng)元的連接方式通常有全連接、卷積連接、池化連接和循環(huán)連接等。相應的，以上幾種連接方式構成了DNN 中的全連接層(fully-connected layer)、卷積層(convolutional layer)[8]、池化層(pooling layer)[8]和循環(huán)層(recurrent layer)[9]。在實際應用中，DNN 的結構是由數(shù)據(jù)自身的特征來決定的。下面將對這幾種構成DNN 的常見層結構進行介紹。

全連接層：全連接是DNN 中神經(jīng)元最簡單的連接方式。如圖4 所示，全連接層中的神經(jīng)元與相鄰層的所有神經(jīng)元均相連。因為全連接層的本質(zhì)是特征空間的線性變換，所以它對數(shù)據(jù)的特征沒有特別的要求。

卷積層：全連接層因所有神經(jīng)元的相連而導致權值過于冗余。因此，全連接層在處理某些局部特征相似的數(shù)據(jù)(如圖5)時訓練速度和準確率較差。卷積層的提出就是為了處理局部特征相似的數(shù)據(jù)。卷積層由神經(jīng)元排列構成多個卷積核。其中，卷積核中每個神經(jīng)元與上一層神經(jīng)元相連時共享權值。通過權值共享，卷積層可以從輸入信息中匹配與卷積核特征相同的部分，實現(xiàn)局部特征提取。

池化層：池化層一般與卷積層一起出現(xiàn)于處理圖像數(shù)據(jù)的DNN。在進行某些任務時，如圖5 分類等，圖5 中特征出現(xiàn)的具體位置不影響結果。因此，池化層被用于對卷積層輸出結果的合并，標記出數(shù)據(jù)中存在的哪類特征更明顯。

循環(huán)層：當數(shù)據(jù)在時域有序列相關性時，循環(huán)層可以捕捉和利用這種相關性。如圖6 所示，輸入到循環(huán)層的信息當處理完后會重新輸入到網(wǎng)絡中，以使得歷史信息和當前信息一起被處理。在實際應用中，循環(huán)層的其他變體也得到廣泛應用，如長短時記憶(long short-term memory, LSTM)層[10]等。

2 深度強化學習概述

DRL 的基本思想就是將DL 中的DNN 與RL相結合，以解決RL 中存在的維度爆炸、學習速度慢等問題。同樣的，DRL 也可以通過基于值的方法和基于策略的方法來實現(xiàn)。

2.1 基于值的DRL 方法

基于值的RL 方法存在的主要問題是需要建立表格來儲存Q 值，而當動作或狀態(tài)空間很大時會產(chǎn)生維度爆炸的問題。這導致它們無法應用或收斂速度極慢。

為了解決這一問題，人們提出用DNN 來擬合存儲Q 值的表格。因此，這類DNN 被稱為深度Q 網(wǎng) 絡(deep Q-network, DQN)。若 θ表示DNN 的參數(shù)，則 Q( s,a;θ)表示狀態(tài)-動作對 ?s, a?的Q 值。當DQN 的參數(shù) θ為最優(yōu)參數(shù) θ?時，相應的是Q 值是最大的Q 值，并且最優(yōu)策略 π?可以由下式確定

式中，

參數(shù)θ 的更新應最小化損失函數(shù)，即：

梯度下降法可用于式(14)中對參數(shù) θ的更新。

然而，利用式(12)～式(14)訓練DQN 存在兩個問題。首先，智能體得到的每個經(jīng)驗僅能用于更新一次參數(shù)θ，這導致數(shù)據(jù)的利用率低下。其次，利用正在訓練的DQN 來計算目標值，即式(13)，會導致目標值隨著每一次 θ的更新而改變。而事實上，目標值是對真實Q 值的估計值，不應該與 θ高度相關。基于以上思想，文獻[11]提出經(jīng)驗回放和擬靜態(tài)目標網(wǎng)絡(quasi-static target network)來提高DQN 的訓練速度、準確度和穩(wěn)定性。

在經(jīng)驗回放中，智能體將所有經(jīng)驗放入一個大小為 M 的經(jīng)驗池 M 中，然后在每次更新參數(shù) θ時從M抽取 B 個經(jīng)驗組成經(jīng)驗集合 B來做批量梯度下降。經(jīng)驗池 M是一個先入先出(first input first output,FIFO)的隊列，若放入的經(jīng)驗大于 M，則將最先放入的經(jīng)驗丟棄。在擬靜態(tài)目標網(wǎng)絡中，智能體建立兩個DQN，一個用于訓練(稱為訓練DQN)，另一個用于計算目標值(稱為目標DQN)。目標DQN 和訓練DQN 每隔時間間隔 K同步一次。結合這兩個技術，θ的更新公式可以寫為：

式中，

結合集合經(jīng)驗回放和擬靜態(tài)目標網(wǎng)絡的完整算法流程如算法3 所示，稱為深度Q 學習(deep Qlearning)算法。該算法是目前公認基于DQN 的標準DRL 算法，其最初由DeepMind 團隊在2015 年提出并證明了其在Atari 游戲上可以達到或超過人類操作的水平[11]。由于Atari 游戲提供的信息游戲屏幕顯示的圖像數(shù)據(jù)，為了處理圖像數(shù)據(jù)，DeepMind團隊在應用深度Q 學習算法時特別設計了一個包含卷積層、池化層和全連接層的DNN 作為DQN。因此，DQN 的結構應當與需要處理的數(shù)據(jù)相匹配。算法3 深度Q 學習算法

輸入： γ,B,M,K

初始化訓練DQN 參數(shù) θ和目標DQN 參數(shù) θ′，令 θ′=θ ；建立一個大小為 M的先入先出隊列作為經(jīng)驗池M

for t=1 : T

觀察環(huán)境得到狀態(tài)s ，根據(jù)ε 貪婪規(guī)則選擇動作a

采取動作a，并觀察得到新狀態(tài) s′和獎賞ra(s,s′)

將得到的經(jīng)驗s ，a， ra( s,s′)和 s′組合成經(jīng)驗et，并將 et放入經(jīng)驗池M

從經(jīng)驗池中選取 B個經(jīng)驗形成經(jīng)驗集合 Bt，根據(jù)式(15)和式(16)更新θ

若 t m od K==0，則令θ′=θ

end for

除算法3 所示的深度Q 學習算法外，目前也有一些針對該算法的改進，以獲得性能提升。下面簡要介紹兩種得到廣泛應用的改進算法，包括雙深度Q 學習(double deep Q-learning)算法[12]和競爭深度Q 學習(dueling deep Q-learning)算法[13]。

雙深度Q 學習：在深度Q 學習中，目標值的估計是取估計的Q 值的最大值，而動作的選取也是取令Q 值最大的動作。因此，這會導致Q 值的估計過于樂觀，并且該誤差會隨著時間推移往后傳遞。為了解決這一問題，文獻[12]提出采用兩個DQN 輪流且獨立地負責動作選取和Q 值估計。相應的DRL 算法稱為雙深度Q 學習算法。

競爭深度Q 學習：上面所述兩種深度Q 學習方法都是對Q 值進行估計，也就是對動作-狀態(tài)對進行評估。因此，當動作數(shù)比較多時，用于估計Q 值的所需的樣本數(shù)較多，導致訓練時間長、決策準確度低等問題。事實上，在某些狀態(tài)下，無論動作如何選取，導致的結果可能是相近的，無需對各個動作都進行準確的估計。如當無線信道較差時，無論發(fā)送端選取多大功率，接收端的信干噪比(signal to interference plus noise ratio, SINR)都達不到最低閾值。針對這種情況，文獻[13]提出競爭深度Q 學習。其基本思想是采用兩個DQN 分別對狀態(tài)的價值和在給定狀態(tài)下各個動作的價值優(yōu)勢進行評估。該文獻結果顯示，在動作空間較大的復雜問題中，競爭深度Q 學習顯示出明顯的性能優(yōu)勢。

以上基于值的DRL 方法通過將DNN 用于擬合Q 值來解決維度爆炸問題，且允許狀態(tài)空間為無限大。然而，這些方法在動作選取時需要在整個動作空間下遍歷對應的Q 值，導致它們只適用于有限大小的動作空間，即離散動作空間。針對連續(xù)動作空間的MDP，需要基于行動評論家的DRL 方法來求解。

2.2 基于行動評論家的DRL 方法

雖然基于策略的RL 方法通過將策略參數(shù)化來實現(xiàn)連續(xù)動作的選取，但是也帶來了數(shù)據(jù)利用率低、決策穩(wěn)定性差等問題。與此同時，基于值的方法可以利用每一步得到的經(jīng)驗對策略進行逐步更新，且其依據(jù)Q 值進行高穩(wěn)定性的決策。于是，人們提出了深度確定性策略梯度(deep deterministic policy gradient, DDPG)來將二者結合[14]。其基本思想是采用兩個DNN 分別作為動作家(actor)和評論家(critic)。評論家相當于基于值的方法中的Q 值評估，即擬合和估計Q 值，而動作家相當于基于策略方法中的策略參數(shù)化，用于找出Q 值與最優(yōu)動作之間的映射關系。換言之，在DDPG 中，動作選取不再是選擇當前狀態(tài)下Q 值最大的動作，而是讓動作家參考評論家評估的Q 值來直接選取。

這一類包含動作家和評論家的DRL 方法統(tǒng)稱為基于動作評論家(actor-critic, AC)的DRL 方法。這類方法的其他代表算法有異步優(yōu)勢動作評價(asynchronous advantage actor-critic, A3C)[15]、信賴域策略優(yōu)化(trust region policy optimization, TRPO)[16]、近端策略優(yōu)化(proximal policy optimization, PPO)[17]等。

3 智能資源管理

可靠高速的無線通信網(wǎng)絡依賴于各類資源的動態(tài)協(xié)調(diào)與配置。當前，為了滿足不同的通信需求，人們大量部署了蜂窩網(wǎng)絡、無線局域網(wǎng)絡、個人短距離通信網(wǎng)絡等。這些網(wǎng)絡采用了不同的無線電接入技術(radio access technology, RAT)，其結構各異且擁有互不共享的獨占資源，導致資源整體利用率低。此外，這些異構網(wǎng)絡提供的服務單一，難以響應用戶多樣化的通信需求。為了高效地滿足未來多元化的通信需求，異構網(wǎng)絡間的資源需要高度整合并根據(jù)用戶需求精準匹配。

然而，無線環(huán)境動態(tài)變化，信道或用戶需求隨時間隨機變化。此外，相關的資源分配問題一般都是復雜的非凸問題。這些問題都為無線網(wǎng)絡中的資源管理增加了難度。鑒于DRL 是解決動態(tài)環(huán)境中決策問題的有效方法，人們嘗試將其用于管理無線通信中的各類資源，包括頻譜資源、功率資源以及網(wǎng)絡資源等。

3.1 頻譜資源管理

頻譜資源是無線通信中最寶貴的稀缺資源。為了在有限的頻譜上滿足人們對高速率通信的需求，無線網(wǎng)絡需要更彈性的頻譜資源管理。根據(jù)頻譜采用時分復用或頻分復用的方式，頻譜資源的管理也可分為時域或頻域上的管理。

對于異構網(wǎng)絡采用時分的方式共享同一頻譜，如何為不同網(wǎng)絡進行合理的時間分配是頻譜資源管理的關鍵問題。理想情況下，各網(wǎng)絡應當依據(jù)其網(wǎng)絡的用戶流量需求對頻譜進行彈性接入，也就是說，用戶需求較大的網(wǎng)絡可以占用更長時間的頻譜進行傳輸。然而，異構網(wǎng)絡間有一定的獨立性，難以迅速交互信令信息來相互協(xié)調(diào)。針對這一問題，文獻[18]研究了長期演進(long term evolution, LTE)蜂窩系統(tǒng)與無線局域網(wǎng)(WiFi)在缺少信令交互情況下的頻譜共享問題。其中，LTE 系統(tǒng)通過調(diào)整虛擬幀中LTE 的傳輸時間和WiFi 的傳輸時間來調(diào)節(jié)兩個網(wǎng)絡的頻譜資源。LTE 系統(tǒng)的目標是在滿足WiFi 網(wǎng)絡流量需求的情況下最大化LTE 傳輸時間，以最大頻譜的利用率。傳統(tǒng)的方法需要LTE系統(tǒng)從WiFi 網(wǎng)絡中獲取其具體的流量信息后做出相應的優(yōu)化。為了避免異構網(wǎng)絡間難以實現(xiàn)的直接信息交互，文獻[18]發(fā)現(xiàn)頻譜信息中實際上蘊含了關于WiFi 網(wǎng)絡的流量需求等信息，因而提出利用DRL 來根據(jù)頻譜信息直接對傳輸時間進行優(yōu)化。該文獻創(chuàng)造性的利用頻譜信息中一個幀的最長空閑時間來作為WiFi 網(wǎng)絡是否得到充分保護的指標。當該指標低于閾值時，說明WiFi 網(wǎng)絡的流量需求沒有獲得充分滿足，相應的DRL 獎賞值設為0，否則獎賞值為LTE 系統(tǒng)的吞吐量。DRL 的動作就是LTE 的傳輸時間，其動作空間是將虛擬幀長離散化后的向量。DRL 的狀態(tài)則設計為LTE 系統(tǒng)能觀察頻譜獲得的頻譜信息，包括一個幀中的最長空閑時間、總空閑時間、總繁忙時間、歷史動作和歷史獎賞。最后該文獻提出了一個基于DQN 的DRL 算法來求解該問題。由于狀態(tài)中的信息不包含圖像或序列信息，其設計的DQN 采用了一個包含三層全連接層作為隱層的DNN。除文獻[18]外，文獻[19-21]也提出了基于DRL 的頻譜時分接入方案。

除時分復用外，頻分復用是另一種復用方式。在這種方式下，頻譜被劃分成多個正交信道，進而通過為網(wǎng)絡或用戶分配信道來實現(xiàn)頻譜資源管理。文獻[22]研究了多用戶的信道分配問題。在多信道多用戶場景下，多個用戶同時使用一個信道進行傳輸會導致數(shù)據(jù)包的碰撞，進而發(fā)送失敗。因此，需要合理地為各個用戶匹配所使用的信道，以提高成功傳輸?shù)母怕省Ｔ撐墨I提出利用DRL 使用戶分布式地協(xié)調(diào)信道接入策略。每個用戶將其在過去多個時刻的包發(fā)送歷史(即包成功發(fā)送與否)作為DRL 的狀態(tài)。動作空間即選擇發(fā)送的信道或不發(fā)送。若當前時刻的包成功發(fā)送，則獎賞設置為1，否則為0。由于狀態(tài)中包含多個時刻的信息，作者在設計DQN 時采用了LSTM 層來捕捉數(shù)據(jù)中的時間相關性。此外，為了提高學習性能，文獻[22]將競爭深度Q 學習和雙深度Q 學習結合，采用了競爭-雙深度Q 學習。仿真結果表明，在沒有信令交互情況下，用戶總能獨立地學習到一組互相避讓的信道選擇方式，提高了信道利用率和用戶成功發(fā)送概率。

此外，用戶也可以通過智能的信道選擇來規(guī)避比規(guī)避干擾。再復雜的通信環(huán)境中，用戶可能會受到惡意(如干擾器)或非惡意(如電磁泄漏)的干擾，降低了用戶的通信速率和使用體驗。文獻[23]提出了一種基于DRL 的智能干擾規(guī)避方案。其利用頻譜瀑布圖中包含的干擾圖案來預測干擾情況，進而預測并選擇未受干擾的信道進行傳輸。作者將用戶觀測頻譜得到的瀑布圖作為狀態(tài)，并設計動作空間為所有可用的信道。若用戶當前時刻接收到的SINR 大于閾值，則認為用戶在該時刻成功發(fā)送，則設回報值為常數(shù) C1，否則為0。同時，由于切換信道會帶來額外的開銷。因此，若用戶相鄰時刻更換了信道，則設開銷值為常數(shù) C2，否則為0。最終，DRL 的獎賞設計為用戶得到的回報值與開銷值相減。由于DRL 的狀態(tài)是圖像信息，文獻[23]采用了遞歸卷積層(recursive convolutional layer)來設計DQN。其中，遞歸卷積層是作者針對頻譜瀑布圖中的遞歸特性對卷積層進行的改進，目的是降低計算復雜度和提高算法的運算速度。

3.2 功率資源管理

上一小節(jié)所介紹的頻譜資源管理考慮對頻譜正交使用，即用戶或網(wǎng)絡在同一時頻點上不重疊。雖然正交使用頻譜可以避免相互干擾，但頻譜效率難以進一步提升。為最大化網(wǎng)絡容量，應當考慮頻譜的非正交接入，這就帶來了干擾問題。通過功率資源分配可以進行精確的干擾管理，以獲得空間復用增益。例如，當某些用戶對其他用戶的干擾信道較弱時，它們可以以較大功率進行傳輸，從而在相互干擾較小時獲得較高的傳輸速率。

文獻[24]考慮了一個認知無線電(cognitive radio,CR)中的功率控制問題。其中，次用戶(secondary user)通過占用主用戶(primary user)的頻譜來進行通信，提高頻譜利用率。然而，主用戶是該頻譜的合法使用者，其通信質(zhì)量不應受次用戶的損害。為了使主次用戶的服務質(zhì)量(quality-of-service，QoS)都得到滿足，作者提出了一個基于DRL 的功率控制方案。在此方案中，次用戶部署多個傳感器在主用戶周圍，以感知主用戶附近的接收功率。由于傳感器得到的接收功率包含了信道、主次用戶的發(fā)送功率等信息，通過讓DRL 分析傳感器的數(shù)據(jù)可以學習到信道的變化與主用戶的發(fā)送策略，進而調(diào)整次用戶的發(fā)送功率來讓主次用戶的QoS 都得到滿足。DRL 的狀態(tài)設計為所有傳感器獲得的接收功率。此外，DRL 的動作空間由將最大發(fā)送功率離散化后的所有可選功率構成。當次用戶選擇功率進行發(fā)送后，若主次用戶的QoS 都得到滿足，則DRL 的獎賞設置為1，否則為0。最后，深度Q 學習算法被用于實現(xiàn)DRL，其中，一個包含三層全連接層的DNN 被用作DQN。

文獻[24]針對的是單用戶的功率控制問題，無法應用于多用戶的場景。為此，文獻[25]考慮蜂窩網(wǎng)絡的多用戶功率資源分配問題，其目標是最大化整個網(wǎng)絡的加權總速率(weighted sum-rate，WSR)。由于用戶互相干擾，WSR 最大化的問題是NP-hard 問題，難以用優(yōu)化方法求得全局最優(yōu)解。除此之外，用戶間的信道狀態(tài)時變且信道信息數(shù)據(jù)龐大，無法實時上傳到一個中央處理單元進行運算。該文獻利用DRL 解決了這兩個問題。首先，每個用戶的獎賞值被設計為該用戶自身速率與對其他用戶造成的速率損失的差值，這樣就將WSR 最大化問題分解成了可以讓各個用戶分布式求解的子問題。然后，各用戶的DRL 狀態(tài)包含了自身的信道狀態(tài)、接收功率和對其他用戶造成的干擾等信息。通過對這些數(shù)據(jù)分析，DRL 讓各用戶預測其未來的信道狀態(tài)以及其他用戶的發(fā)送功率，從而選擇一個合適的功率來最大化自身的獎賞值。作者提出的DRL 算法是一個離線學習和在線部署的雙層架構。在離線訓練時，一個中央訓練器與各個用戶建立高速的回傳鏈路。通過該鏈路，各個用戶及時將自己的狀態(tài)以及獎賞值向訓練器傳輸并獲得一個動作值。當訓練完成后，每個用戶可以獨自利用訓練好的DQN 根據(jù)輸入的狀態(tài)得到最優(yōu)的動作，不再需要回傳鏈路交互信息。仿真結果顯示，該基于DRL 的方案的性能甚至可以超越傳統(tǒng)基于優(yōu)化的近似最優(yōu)算法。

文獻[26]將文獻[25]拓展到了多用戶設備到設備(device-to-device，D2D)通信場景。文獻[26]在設計DRL 的狀態(tài)、動作以及獎賞時考慮了多信道的情況，解決了信道與功率資源的聯(lián)合分配問題。此外，文獻[26]也將文獻[25]所提的離線學習與在線部署的雙層架構改進為在線學習及訓練架構，避免了離線學習中回傳信息產(chǎn)生的額外開銷。

3.3 網(wǎng)絡資源管理

虛擬現(xiàn)實(virtual reality, VR)、3D 全息通信等業(yè)務的出現(xiàn)使得無線通信網(wǎng)絡不再只是服務于點與點之間的信息交互，而是各類多樣化業(yè)務的承載方。因此，除了頻譜、功率等物理層的資源外，無線網(wǎng)絡還包含為網(wǎng)絡層或應用層服務的資源，如緩存資源和邊緣計算資源等。因此，未來的無線通信網(wǎng)絡必然包含多維度的網(wǎng)絡資源，導致資源管理更為復雜并使傳統(tǒng)方法失效。下面以緩存資源和邊緣計算資源為例，介紹如何利用DRL 對網(wǎng)絡資源進行高效管理。

為了降低用戶獲取數(shù)據(jù)的時延，無線網(wǎng)絡可以在靠近用戶終端的接入側部署緩存單元來預加載熱門資源。由于緩存的大小是有限的，對哪些數(shù)據(jù)進行預加載是管理緩存資源的關鍵問題。文獻[27]提出利用DRL 對用戶的數(shù)據(jù)請求進行分析，并根據(jù)用戶請求規(guī)律更換緩存中的文件。在該文獻中，作者將DRL 的狀態(tài)設計為各文件被用戶請求的次數(shù)，動作則是下一時刻應當被緩存的文件。若緩存的文件沒有命中用戶請求，網(wǎng)絡需要為用戶從云端獲取文件并產(chǎn)生開銷，此時懲罰值為獲取該文件的開銷，否則懲罰值為0。值得注意的是，這里并沒有用到獎賞值，而是懲罰值。因此，DRL 的目標是最小化期望累積懲罰。為了實現(xiàn)這一目標，作者將深度Q 算法進行了修改，將算法3 中所有對Q 值的最大化和反最大化運算都更換為對Q 值的最小化及反最小化運算。其采用的DQN 是包含三個隱層為全連接層的DNN。仿真表明，該文獻所提的DRL 緩存策略比目前常用的最近最不常用(least frequently used, LFU)策略、FIFO 策略，以及最近最少使用(least recently used, LRU)策略均能獲得更低的開銷。

當用戶需求更為多樣化時，終端設備卻在往小體積、低功耗的方向發(fā)展，如可穿戴設備等。顯然，具有高計算復雜度的業(yè)務，如需要實時計算大量3D 畫面的VR 等，難以由終端設備獨立完成。因此，移動邊緣計算(mobile edge computing, MEC)被提出用于解決這一矛盾。在MEC 中，具有強大運算能力的節(jié)點被部署于網(wǎng)絡接入側，便于對來自于移動設備的計算請求快速應答。對于一個給定的計算任務，若讓終端設備請求MEC 單元遠程執(zhí)行，它將需要向MEC 上傳任務數(shù)據(jù)，帶來通信時延，且需要向MEC 提供者交納服務費用。相反，終端設備本地執(zhí)行計算任務則會損耗本地電能，以及較高的本地計算時延(本地運算能力通常較MEC弱)。因此，為了以最低的時延和最小的開銷完成計算任務，需要合理地分配網(wǎng)絡中的計算資源。

文獻[28]考慮了物聯(lián)網(wǎng)(Internet of things, IoT)中的計算資源分配問題。其中，IoT 設備每個時刻采集到的電能和產(chǎn)生的計算任務都是服從一定規(guī)律的隨機變量。為了滿足IoT 設備的計算需求，MEC單元被部署在網(wǎng)絡邊緣。IoT 設備需要決定任務在本地或在MEC 單元執(zhí)行。若決定在本地執(zhí)行，IoT設備還需要決定分配用于計算的功率。若設備分配的計算功率越大，則任務執(zhí)行速度越快，完成計算任務的時延越低，但同時電能損耗也更大。若決定將任務放在MEC 執(zhí)行，則IoT 設備需要承受通信時延(由信道決定)和MEC 設備運算的計算時延。計算任務只有在規(guī)定時間內(nèi)完成時才算成功完成。為了最大化計算任務的成功完成率，該文獻提出了基于DRL 的計算資源分配方案。在該方案中，IoT 設備利用DRL 決定各個計算任務在本地執(zhí)行的功率，而功率為0 則表示在MEC 執(zhí)行。DRL 的狀態(tài)為當前時刻能量到達的數(shù)量，計算任務隊列的長度，以及信道狀態(tài)。最后，DRL 的獎賞值由一個效用函數(shù)決定，其考慮了計算時延、成功/失敗任務數(shù)以及MEC 服務費用等因素。基于這3 個DRL 中的基本元素，作者利用聯(lián)邦-深度Q 學習算法對這個問題進行了求解。該算法是在深度Q 學習的基礎上加入了聯(lián)邦學習(federated learning)[29]，通過讓多個DRL 智能體同時學習來加快學習速度。

此外，文獻[30-33]也成功地將DRL 用于緩存資源和計算資源的聯(lián)合優(yōu)化問題中，說明DRL在管理網(wǎng)絡資源上擁有強大的應用前景。

4 智能接入控制

步入萬物互聯(lián)時代，無線通信設備的數(shù)量呈現(xiàn)出指數(shù)增長的趨勢。與此同時，采用不同RAT 的異構網(wǎng)絡大量存在，它們均由數(shù)目眾多的基站組成。特別是對于采用毫米波的網(wǎng)絡，由于毫米波基站覆蓋范圍比較小，運營商需要部署大量小蜂窩基站(small-cell base station, SBS)來保證無線信號的覆蓋率。這使得用戶接入控制變得復雜，難以獲得最優(yōu)的用戶與網(wǎng)絡或基站的匹配方式。事實上，因信道變化等原因，用戶需要不斷切換接入的網(wǎng)絡或基站來保持最佳的匹配。因此，接入控制又稱為切換控制(handover control)。根據(jù)用戶是在采用不同RAT的異構網(wǎng)絡間切換或同一網(wǎng)絡下的不同基站間切換，切換控制可以分為垂直切換(vertical handover)和水平切換(horizontal handover)[34]。

當采用不同RAT 的異構網(wǎng)絡相對獨立時，它們的資源無法共享。此時，若各網(wǎng)絡中的用戶需求差異比較大時，它們也無法協(xié)調(diào)資源來主動地滿足各用戶的需求。為此，垂直切換將用戶重新分配在不同的網(wǎng)絡上，從而更合理地利用各網(wǎng)絡的資源。文獻[35]將DRL 用于移動通信終端在LTE 網(wǎng)絡和WiFi 網(wǎng)絡的智能垂直切換上。其中，LTE 網(wǎng)絡和WiFi 網(wǎng)絡的服務費用不同，且終端在不同網(wǎng)絡下傳輸消耗的能量也不同。因此，該文獻考慮垂直切換的目標是讓終端在滿足傳輸時延要求的情況下最小化傳輸費用和能量開銷。為了實現(xiàn)這一目標，DRL 的狀態(tài)被設計為當前時刻終端的位置和剩余發(fā)送的文件大小，而DRL 的動作則是選擇下一時刻傳輸數(shù)據(jù)使用的網(wǎng)絡。值得注意的是，與文獻[27]類似，這里沒有設計獎賞值，取而代之的是懲罰值。懲罰值包含了傳輸費用，能量開銷，以及未能在規(guī)定時間內(nèi)完成傳輸產(chǎn)生的懲罰項。為了讓DRL 最小化懲罰值，該文獻同樣對深度Q 學習算法進行了與文獻[27]類似的修改。仿真結果表明，和基于DP 的算法相比，基于DRL 的接入方案可以有效地降低傳輸費用和能量開銷。

除垂直切換外，目前也有文獻利用DRL 實現(xiàn)基站間的智能水平切換。文獻[36]考慮一個由眾多SBS 組成的超密集網(wǎng)絡(ultra dense network, UDN)。傳統(tǒng)的基站切換算法是讓終端設備比較連接基站的參考信號接收功率(reference signal received power,RSRP)與其他基站的RSRP，若其他基站最強的RSRP 比當前基站的RSRP 大于某一閾值，則進行切換。這種切換方法雖然保證了用戶接收信號的強度，但是不可避免地造成各基站負載不均，降低了擁塞基站的用戶體驗。某個基站的負載定義為該基站連接用戶的所有請求資源塊和該基站可用資源塊之比。該文獻提出在原有切換規(guī)則的閾值上再加入一個偏置值，然后通過調(diào)整各基站切換到其他基站的偏置值來實現(xiàn)負載均衡。為了實現(xiàn)這一目標，作者利用DRL 來對偏置值進行優(yōu)化。DRL 的狀態(tài)包含了所有基站的負載信息以及它們的邊緣用戶占所有用戶的比值，而DRL 的動作則是從各基站切換到其他基站的偏置值。DRL 的獎賞設置為所有基站的最大負載的倒數(shù)。可見，該獎賞值在所有基站達到相同負載時取得最大值，因此DRL 的目標是令所有基站的負載相同。由于DRL 的動作包含連續(xù)值，該文獻采用了A3C 算法來實現(xiàn)DRL。此外，因為DRL 的動作是一個向量，所以作者還將A3C 中的動作家設計為一個含有多個輸出層的DNN來輸出向量值。

文獻[37]進一步嘗試將接入控制與資源分配相結合，考慮了多層基站蜂窩網(wǎng)絡中的用戶接入與信道分配聯(lián)合優(yōu)化問題。當前蜂窩網(wǎng)絡中的基站有宏蜂窩基站(macro base station, MBS)、SBS 和微蜂窩基站(pico base station, PBS)3 種。它們具有不同的發(fā)射功率，導致其覆蓋范圍也不同。因此，終端設備在同一個時刻可能同時接收到多個基站的信號。此時，合理地分配用戶及信道可以獲得最大的空間復用增益，進而最大化網(wǎng)絡整體速率。然而，該問題是一個高度非凸的整數(shù)優(yōu)化問題，難以優(yōu)化求解。為此，該文獻首先將該問題建模成多個智能體(即多智體)的博弈問題。其中，多智體的目標函數(shù)為自身速率和發(fā)送功率開銷、切換基站開銷的差值。即，各終端設備的目標是在最大化自身速率的同時，最小化發(fā)送功率和切換基站次數(shù)。基于此目標函數(shù)，作者證明了該多智體博弈存在納什均衡點(Nash equilibrium, NE)，并提出利用DRL 對基站和信道進行智能選擇來求解該NE。和文獻[22]類似，該文獻也采用競爭-雙深度Q 學習算法來實現(xiàn)DRL，并通過仿真結果證明該算法可以獲得比深度Q 學習算法、雙深度Q 學習算法更高的網(wǎng)絡總速率。

5 智能網(wǎng)絡維護

前兩章分別對無線通信網(wǎng)絡中的智能資源管理和智能接入控制相關文獻進行了介紹。它們利用DRL 替代原本基于優(yōu)化或啟發(fā)式的傳統(tǒng)算法，以保證無線網(wǎng)絡在大規(guī)模及復雜環(huán)境下依然能高效地運行。然而，更為復雜的網(wǎng)絡不僅為網(wǎng)絡高效運行帶來困難，同時也極大地增加了網(wǎng)絡維護的難度。特別是當前網(wǎng)絡維護仍大量依賴人工參與，其高成本和不及時的響應速度難以滿足未來無線通信的需求。因此，實現(xiàn)智能通信同樣需要為網(wǎng)絡維護賦予智能。下面將以網(wǎng)絡故障修復、基站管理以及基站部署規(guī)劃等三方面為例，說明DRL 如何應用于無線通信網(wǎng)絡的智能維護。

隨著網(wǎng)絡規(guī)模增加，網(wǎng)絡發(fā)生故障的概率也隨之增加。傳統(tǒng)的網(wǎng)絡排錯和修復方法需要專家的參與，修復效率比較低。文獻[38]嘗試將DRL 應用于網(wǎng)絡故障自我修復。在一個隨機出現(xiàn)故障的網(wǎng)絡中，DRL 的目標是在給定的時間內(nèi)通過選擇正確的排錯操作來清除故障。DRL 的狀態(tài)設計為網(wǎng)絡中故障數(shù)的指示值，分別表示其增加、減少或不變。DRL 的動作空間包含所有可以排除故障的操作。在選擇動作后，DRL 會得到一個由排除故障耗費時間決定的獎賞值。該文獻采用了深度Q 學習算法來實現(xiàn)DRL，并通過仿真說明基于DRL 的網(wǎng)絡故障自修復方法可以有效提升網(wǎng)絡可用性。

對于擁有大量基站的網(wǎng)絡來說，用戶流量的空時分布不均使得其中部分基站可能在某些時候處于空閑的狀態(tài)。然而，維持空閑基站的運作同樣需要耗費電能并產(chǎn)生成本。因此，為了提高網(wǎng)絡能量效率和降低成本，無線網(wǎng)絡需要依據(jù)用戶流量需求動態(tài)地開啟和關閉基站。鑒于流量需求是動態(tài)隨機的，文獻[39]提出利用DL 對各基站的流量進行分析和預測，然后利用DRL 根據(jù)預測的流量對基站的開關進行控制。其中，DRL 的狀態(tài)除了包含流量的預測值外，還包含上一時刻對于基站開關的歷史決策信息。DRL 的動作則是控制所有基站的開關組合。可見，動作空間將隨基站數(shù)量指數(shù)增長。當基站數(shù)量比較大時，動作空間將會非常龐大。因此，該文獻采用可以輸出連續(xù)動作的DDPG 算法來實現(xiàn)DRL。其中，DDPG 輸出的連續(xù)動作被離散化后映射為特定的基站開關組合。此外，該文獻提出了一個懲罰函數(shù)，包含了用戶體驗損失、能量開銷以及開關切換開銷。最后，通過使用DDPG算法最小化該懲罰函數(shù)，可以在保證用戶體驗時最小化能量損耗及開關切換次數(shù)。除文獻[39]外，文獻[40]也提出了一個基于DRL 的基站智能休眠策略，以降低網(wǎng)絡能耗。

對于某些人口稀疏的地區(qū)，部署大量基站來保證無線網(wǎng)絡的覆蓋率是難以實現(xiàn)的。同時，在固定的基站部署方式下，用戶流量的空時分布不均也會導致熱點區(qū)域網(wǎng)絡堵塞的問題。因此，人們提出利用UAV 作為空中基站來服務地面通信終端。然而，UAV 的覆蓋范圍有限，且用戶與空中基站的信道會隨著UAV 的移動而改變。這都為UAV 空中基站的部署帶來了難度。文獻[41]提出利用DRL進行空中基站的部署規(guī)劃。其中，DRL 的狀態(tài)包含了UAV 和所有用戶的當前坐標，而DRL 的動作空間則是UAV 可以移動的方向，包括x、y、z 軸上的正方向及負方向，以及保持原有位置。當UAV 移動到一個新的位置時，DRL 的獎賞值為空中基站與地面終端設備傳輸數(shù)據(jù)的總速率。最后，深度Q 學習算法被用于規(guī)劃UAV 的飛行軌跡，從而得到最優(yōu)的空中基站部署規(guī)劃。

6 討論：開放問題

雖然目前初步的研究表明DRL 具有賦能智能通信及滿足未來無線通信需求的潛能，但是其在理論和應用上尚有一些開放問題需要解決，如分布式DRL 的非平穩(wěn)性、非完美數(shù)據(jù)的影響以及安全與隱私問題。

6.1 分布式DRL 的非平穩(wěn)性

DRL 本質(zhì)上一種求解MDP 的方法，而MDP描述的是單個智能體與環(huán)境的交互過程。其中，環(huán)境狀態(tài)的改變是由智能體采取的動作以及環(huán)境固有的轉(zhuǎn)移概率決定的。也就是說，若給定環(huán)境狀態(tài)和智能體采取的動作，新的環(huán)境狀態(tài)出現(xiàn)的概率隨之固定。基于這一特性，DRL 通過分析歷史數(shù)據(jù)來尋找并利用環(huán)境的變化規(guī)律，從而得到最優(yōu)決策。

然而，對于未來大規(guī)模的無線網(wǎng)絡，使用單個智能體收集網(wǎng)絡中的所有信息并對所有參數(shù)同時做出決策將會導致信息收集困難、響應時延高等問題。因此，分布式的方案，即采用多個智能體對網(wǎng)絡參數(shù)同時優(yōu)化，是解決以上問題的有效途徑。顯然，當存在多個智能體時，環(huán)境狀態(tài)的改變將同時被多智體各自采取的動作所影響。在此時，對于某個智能體而言，其自身所在環(huán)境的狀態(tài)轉(zhuǎn)移概率將不再是確定的。這就是分布式DRL 中的非平穩(wěn)性。由于目前的DRL 算法在設計時并沒有考慮多智體產(chǎn)生的非平穩(wěn)性，因此直接將它們應用于分布式DRL 可能會導致算法不收斂或結果不穩(wěn)定等問題。目前采用分布式DRL 方案的研究，如文獻[37]嘗試通過共享多智體的狀態(tài)或基于博弈論的思想設計獎賞值等方法解決非平穩(wěn)性的問題。雖然這些方法在求解特定問題上可以得到較好的結果，目前仍缺乏解決分布式DRL 非平穩(wěn)性的普適性理論。

6.2 非完美數(shù)據(jù)的影響

DRL 的學習需要智能體從外界獲得足夠的信息，包括觀察環(huán)境得到狀態(tài)以及獎賞值。在無線通信中，由于噪聲的存在，智能體對環(huán)境的觀察會受噪聲污染。除此之外，若智能體所需的信息需要由其他設備通過回傳鏈路反饋，其獲取的信息也有可能受信道變化等隨機因素影響而缺失。這類受污染或缺失的數(shù)據(jù)被稱為非完美數(shù)據(jù)。目前的研究通常認為智能體所需信息都可完美獲得。然而，鑒于無線通信環(huán)境的特殊性，研究非完美數(shù)據(jù)對DRL 學習過程和學習結果的影響具有重要意義。

6.3 安全與隱私問題

作為一種數(shù)據(jù)驅(qū)動的機器學習方法，DRL 在對無線網(wǎng)絡進行優(yōu)化的過程中需要對大量的數(shù)據(jù)進行分析。例如，在智能資源管理的過程中，DRL 智能體需要在獲取各個網(wǎng)絡、基站甚至終端設備的信息后進行決策。此外，分布式的DRL 方案也需要通過多智體之間的信息共享來緩解非平穩(wěn)性。然而，在實際應用中，信息共享會帶來安全與隱私的問題。例如，網(wǎng)絡或基站的擁有者之間可能存在競爭關系，出于商業(yè)安全和保護用戶隱私的考慮，它們難以進行直接的數(shù)據(jù)共享。同樣的，屬于不同的用戶設備也存在數(shù)據(jù)共享的壁壘。

值得注意的是，在當前人工智能快速發(fā)展的時代，數(shù)據(jù)的安全和隱私問題正在受到越來越多關注。例如，歐盟和中國分別在2018 年和2019 年分別出臺了《通用數(shù)據(jù)保護條例》[42]和《人工智能北京共識》來規(guī)范人工智能在發(fā)展過程中產(chǎn)生的安全與隱私問題。為此，人們提出了多方安全計算(multi-party computation)[43]、差分隱私(differential privacy)[44]和聯(lián)邦學習等方法，來解決機器學習中的數(shù)據(jù)安全與隱私問題。對于無線通信而言，如何依據(jù)無線通信的特征將它們與DRL 有機結合是構建未來安全的智能無線通信網(wǎng)絡的關鍵。

7 結束語

本文對深度強化學習進行了介紹，并從資源管理、接入控制以及網(wǎng)絡維護三個方面對目前利用深度強化學習實現(xiàn)智能通信的研究進展進行了總結和剖析。目前的研究結果表明深度強化學習是實現(xiàn)智能通信的有效方法。最后，本文對目前尚未解決的開放問題進行了討論，為未來的研究提供有益的思路。

本文研究工作還得到高等學校學科創(chuàng)新引智計劃(B20064)的資助，在此表示感謝。

面向智能通信的深度強化學習方法

1 基礎知識回顧

1.1 馬爾科夫決策過程

1.2 強化學習

1.3 深度學習

2 深度強化學習概述

2.1 基于值的DRL 方法

2.2 基于行動評論家的DRL 方法

3 智能資源管理

3.1 頻譜資源管理

3.2 功率資源管理

3.3 網(wǎng)絡資源管理

4 智能接入控制

5 智能網(wǎng)絡維護

6 討論：開放問題

6.1 分布式DRL 的非平穩(wěn)性

6.2 非完美數(shù)據(jù)的影響

6.3 安全與隱私問題

7 結 束 語

7 結束語