智能無線通信技術研究概況

2020-08-02 05:08:32梁應敞譚俊杰DusitNiyato

通信學報 2020年7期

梁應敞，譚俊杰，Dusit Niyato

（1.電子科技大學通信抗干擾技術國家級重點實驗室，四川成都 611731；2.南洋理工大學計算機科學與工程學院，新加坡 639798）

1 引言

人類社會步入信息爆炸時代，各類智能通信終端和流量密集型應用的普及使人們對信息通信的需求以前所未有的速度增長。思科公司的流量預測白皮書[1]顯示，到2022 年，全球將會有超過250 億移動通信設備產生將近390 EB 的月流量。此外，虛擬現實（VR,virtual reality）等新型移動應用的出現更是對信息傳輸的時延和可靠性提出了更嚴苛的要求。

在無線通信需求劇增的同時，無線通信系統的發展卻遭遇瓶頸問題。一直以來，無線通信系統的設計遵循模型驅動的理念，基于模塊化和層次化的思想進行構建，其中使用的每一項技術都是在人工建立數學模型后通過各類優化方法推導得到的。也就是說，傳統的無線通信技術通過充分發揮人類對無線通信的知識積累（即專家知識）來保證系統設計與運行的最優性。顯然，這種最優性僅局限于被專家知識充分了解的環境中，而這一條件在未來的無線通信系統中將變得越來越難以成立。例如，無線通信系統正在向多頻段、超寬帶寬且超高頻率的方向發展，其所處的無線環境變得極其復雜，難以再依賴專家知識建立廣泛適用的信道模型，從而令基于傳統信道模型的信道估計方法失效。再者，在未來萬物互聯時代網絡規模劇增的同時，多維度的網絡資源卻需要通過細粒度的精確配置來滿足各異的通信需求。這將導致網絡中需要優化的參數數量呈指數級增長，使傳統技術所依賴的各類優化算法因巨大的通信及計算開銷而不再適用。

在這一背景下，近年來快速發展的人工智能（AI,artificial intelligence）技術為解決無線通信技術發展中遇到的困境帶來了新的思路。機器學習在AI 發展中發揮了重要作用，它能夠直接從海量數據中學習到所需的隱藏規律，并利用這些規律做出相應的預測或決策。AI 在計算機領域已經得到廣泛的應用，主要包括深度學習（DL,deep learning）[2]、深度強化學習（DRL,deep reinforcement learning）[3]以及聯邦學習（FL,federated learning）[4]三類機器學習方法。其中，DL 利用深度神經網絡（DNN,deep neural network）建立源數據與目標數據間的映射關系，從而能夠根據未知源數據預測對應的目標數據，目前它主要被應用在計算機視覺[5]和自然語言處理[6]等領域。DRL 則是一類在動態環境中做出最優決策的機器學習方法，它首先通過與環境交互來記錄經驗，然后利用DNN 分析環境存在的規律，最后據此做出最優決策，目前主要被應用在機器人控制[7]等領域。無論是DL 還是DRL，它們都需要收集和處理海量的數據，因而產生了數據隱私和安全性問題。為解決這一問題，FL 被提出用于保護數據隱私的協同學習，目前主要被應用在數據敏感的學習任務中，如輸入法聯想詞預測[8]等。

AI 的數據驅動特性正好可以解決傳統無線通信系統設計中因依賴專家知識和優化算法而產生的問題。此外，AI 的自動控制能力也契合了運營商一直以來致力于減少人工對網絡管理和維護的干預，從而降低運作成本的目標。因此，AI 無疑會為無線通信的發展帶來新的機遇。目前，AI中的DL、DRL 和FL 等機器學習方法已經被成功用于解決無線通信中的某些問題，為無線通信技術的發展帶來了深遠影響。值得注意的是，這些機器學習方法最初都是針對計算機領域的特定任務而誕生的，其設計并沒有考慮無線通信中的特點。為了最大化AI 帶來的性能增益，在利用AI發展無線通信技術時，需要根據無線通信的特點和所需完成的任務來選擇合適的機器學習方法并進行針對性的設計。

本文通過介紹AI 中的DL、DRL 和FL 三類主要的機器學習方法及其在無線通信領域應用的研究進展，分析AI 在解決不同無線通信問題時的原理、適用性、設計方法和優缺點，并針對這些方法的局限性指出未來智能無線通信技術的發展趨勢和研究方向。

2 背景知識

2.1 深度學習概述

DL 是近年來人工智能領域應用最廣泛的一類機器學習方法，其基本思想是利用DNN 來擬合源數據與目標數據的關系[2,9]。

圖1 展示了一個簡單的DNN 結構。DNN 的基本單位是神經元，神經元間的連線表示信息的傳遞，而連線的箭頭方向為信息傳遞的方向。此外，神經元的排列具有層次結構。根據信息傳遞的方向，該DNN 中的神經元分別構成了一個輸入層、多個隱含層（又稱隱層）和一個輸出層。每個神經元的輸入信息由與之連接的上一層神經元的輸出經縮放與求和得到，該縮放值稱為權值。而后，信息再通過神經元的激活函數處理后傳遞至與之連接的下一層神經元。為了更好地理解，圖2 展示了屬于圖1 所示DNN 中隱層1 某神經元的內部結構。其中，激活函數為DNN 帶來非線性表征能力，常用的激活函數有Sigmoid[10]、tanh、ReLu[11]等。

圖1 DNN 結構

圖2 DNN 中隱層1 某神經元的內部結構

若給定DNN 中的神經元連接方式和權值，源數據通過輸入層進入DNN 后，經過神經元間的信息傳遞規則層層傳遞后在輸出端可以得到相應的目標數據預測值。這一過程稱為正向傳播。若此時訓練數據集中有此源數據對應的目標數據真實值，那么DNN 可以比對真實值與預測值間的誤差，并將誤差值從輸出層逐層向前傳遞，以此調整各個神經元的權值，這一過程稱為誤差反向傳遞。在DL的訓練階段，隨機梯度下降算法利用訓練數據集反復進行以上2 個步驟，直至各神經元的權值收斂，則DNN 的訓練結束。完成訓練后的DNN 可以有效地表征源數據和目標數據間的關系，從而能根據未知的源數據預測其目標數據值。

值得注意的是，訓練DNN 僅能調整DNN 中神經元的權值，而不能改變神經元的排列結構和連接方式，即DNN 的結構。由圖1 可知，源數據和目標數據的維度決定了DNN 的輸入層和輸出層，因此隱層的結構決定了DNN 的結構。在圖1 DNN 的隱層中，所有的神經元都相互連接，這樣的結構稱為全連接層（fully-connected layer）。雖然全連接層是最簡單的神經元排列結構，但是它理論上可以捕捉數據間的所有特征。然而，采用全連接層會使權值的數量隨著神經元個數的增加而呈指數上升，容易造成訓練時間過長、泛化能力差等問題。因此，設計最優的DNN 需要根據數據的特征或任務特點采用合適的隱層。根據所采用的不同隱層結構，常見的DNN 有卷積神經網絡（CNN,convolutional neural network）[5]、循環神經網絡（RNN,recurrent neural network）[12]、長短期記憶（LSTM,long short term memory）[13]神經網絡。其中，CNN 適用于處理具有局部相似特性的數據，而RNN 和LSTM 則擅長處理序列信息。此外，還有一類稱為自動編碼器（autoencoder）[14]的特殊DNN 結構，可以通過訓練得到最優的編碼器和解碼器。

2.2 深度強化學習概述

作為機器學習的另一重要分支，DRL 的目標是在動態環境中做出最優決策[15]。決策者被稱為智能體。DRL 的技術內涵是在強化學習（RL,reinforcement learning）[16]的基礎上發展而來的。傳統的RL 技術可以分為基于值和基于策略這2 種方法，其具體介紹請參見附錄。如附錄的分析可知，無論是哪種RL方法，都存在較大的局限性，因而難以被廣泛應用。DRL 通過結合DL 來克服傳統RL 技術中存在的局限性。

其中，基于值的RL 方法需要建立表格來存儲值函數，由此產生了維度爆炸問題。為此，DNN被提出用于擬合值函數，也被稱為深度Q 網絡（DQN,deep Q-network）。DQN 的輸出記為Q(s,a;θ)，對應RL 中的值函數Q(s,a)。其中，θ是DQN 的權值。為了提高決策的精準度，智能體需要利用它與環境互動時記錄下的經驗對θ進行迭代訓練和更新。

進一步地，文獻[3]提出經驗回放和擬靜態目標網絡（quasi-static target network）技術來提高DQN的訓練效率和準確性。在經驗回放中，智能體構建一個大小為M的先入先出（FIFO,first input first output）隊列來存儲經驗，因此該隊列被稱為經驗池M。然后，每次更新權值θ時，智能體將從經驗池中隨機調用B個經驗組成經驗集合B來進行批量梯度下降。在擬靜態目標網絡中，智能體將構建2 個DQN，一個用于實時訓練（稱為訓練DQN），另一個則被用于獲得較穩定的目標值估計值（稱為目標DQN）。每隔K時刻，智能體將當前時刻的訓練DQN 同步為新的目標DQN。

以上介紹的是DeepMind 團隊于2015 年提出的深度Q 學習（DQL,deep Q-learning）算法[3]。此后，在DQL 算法基礎上相繼發展出了雙深度Q 學習（double deep Q-learning）算法[17]和競爭深度Q 學習（dueling deep Q-learning）算法[18]。上述算法都需要借助值函數，因而被稱為基于值的DRL 方法。

雖然基于值的DRL 方法允許連續的狀態空間，但是它們在動作選取時依舊需要遍歷所有動作的值函數。因此，它們只能被用于解決具有離散動作空間的問題。為了既能實現連續動作的選取，又能提高數據利用率和決策的穩定性，人們結合基于策略和基于值這2 種方法的特點提出了深度確定性策略梯度（DDPG,deep deterministic policy gradient）算法[19]。DDPG 使用了2 個分別稱為動作家（actor）和評論家（critic）的DNN。其中，評論家用于評估值函數，而動作家則用于建立值函數與動作的映射關系。相較于基于值的DRL 方法，DDPG 直接從動作家獲得動作，而不是選擇值函數最大的動作。具有動作家和評論家架構的方法稱為基于動作評論家（AC,actor-critic）的DRL 方法。除DDPG 外，近端策略優化（PPO,proximal policy optimization）[20]和異步優勢動作評價（A3C,asynchronous advantage actor-critic）[21]也是基于AC 的代表算法。

2.3 聯邦學習概述

DL 和DRL 都需要利用大量數據對DNN 進行訓練。傳統的訓練方法首先需要假設存在一個完整的訓練數據集D，然后通過優化DNN 的權值使DNN 可以對數據集D進行最優擬合。其中數據集D由源數據集X={x1,…,xN}和相應的目標數據集Y={y1,…,yN}構成。若DNN 的權值記為θ，則訓練DNN 的目標是最小化損失函數

其中，Li(θ)是描述DNN 在權值θ下對xi的輸出與其真實目標數據yi間差異的損失函數。因此，θ應該向L(θ) 梯度下降的方向更新，即

通過數據集D和式(2)可以對DNN 的權值進行迭代更新，并最終獲得最優的權值。然而，在無線通信系統中，建立這樣一個完整的訓練數據集往往是難以實現的。一方面，無線通信系統中的數據具有天然的分布式特性，在數據收集的過程會產生巨大的通信開銷。例如，系統中各個用戶的通信設備都會自主產生大量數據。另一方面，這些數據有可能包含用戶個人信息或歸屬不同的利益集團。出于對個人隱私和數據安全的考慮，數據的擁有者不會輕易地將數據與不信任的第三方共享?；谶@一背景，FL 被提出用于多個智能體在不需要共享訓練數據的前提下對DNN 進行協作訓練[4]。

通過觀察式(2)，若將D劃分成多個子集D1,…,DJ，則有

其中，Nj是數據集jD的大小。從式(3)可以看出，θ基于數據集D的更新可以分解為θ關于多個子數據集的更新。利用這一特性，FedAvg 算法[8]被提出用于多個擁有本地數據集的智能體共同訓練一個全局DNN。其訓練過程主要包含2 個迭代的步驟，即本地訓練和全局更新。在本地訓練中，智能體首先從服務器下載最新的全局DNN 權值，然后利用本地數據集對DNN 進行訓練，并將訓練后的DNN 權值與此前下載的全局DNN 權值的差值（又稱權值更新值）發送至服務器。在全局更新中，服務器將從各智能體收集得到的權值更新值進行平均運算后再與全局DNN 的權值進行合并。

2.4 小結

作為支撐AI 的三類重要的機器學習方法，DL、DRL 和FL 均有其特定的適用性。其中，DL 的本質是利用DNN 對源數據和目標數據進行擬合，建立源數據和目標數據之間的關系。因此，DL 適用于數據預測和判決問題。DRL 通過試錯（trial-and-error）的過程在與環境不斷交互中學習到隱含的規律并據此做出最優決策，因而適用于解決動態系統或動態環境中的決策問題。針對DL 和DRL 中存在的數據隱私問題，FL 通過僅傳輸DNN權值來避免數據泄露，從而實現了對原始數據的保護。因此，FL 適用于所有需要多智能體協作訓練，但對隱私保護有較高要求的問題。

下面，本文將具體闡述這三類機器學習方法在無線通信系統中的應用，包括無線傳輸、頻譜管理、資源配置、網絡接入、網絡及系統優化5 個方面，以支持智能無線通信的實現。

3 無線傳輸

3.1 信道估計

在無線通信中，發送端向接收端發送的信號會受信道的影響發生畸變。因此，為了正確檢測發送信號，接收端需要對信道狀態信息（CSI,channel state information）進行估計并以此對信號進行均衡處理。信道估計通常包括2 個步驟：首先發送端向接收端發送導頻信號；然后接收端根據接收到的導頻對CSI 進行估計。未來無線通信系統的用戶規模和天線陣列規模都將急劇增大，這會給傳統的信道估計方法帶來挑戰。一方面，能用于精確估計信道的正交導頻資源有限，而采用非正交導頻會極大降低信道估計的準確性。另一方面，隨著系統規模增大，經典信道估計算法的計算復雜度也在攀升。鑒于信道估計是一個從接收導頻推測CSI 的過程，DL可以有效地解決這一類問題。

受傳統最小均方誤差（MMSE,minimum mean square error）信道估計器的啟發，文獻[22]提出了一種基于DL 的MMSE 信道估計方案。作者首先根據MMSE 估計器的結構設計DNN 結構，在信道協方差矩陣為拓普利茲矩陣（Toeplitz matrix）的假設下，利用CNN 來降低DNN 的計算復雜度。仿真結果表明，在協方差矩陣不是拓普利茲矩陣的3GPP信道模型中，該方案依然能在較低的運算復雜度下獲得比傳統信道估計方法更低的信道估計誤差。同樣是從傳統信道估計方法出發，文獻[23]針對導頻非正交分配下的信道估計問題，將DNN 與最小二乘信道（LS,least square）估計器相結合。其中，DNN 被用于對因采用非正交導頻造成的導頻污染進行降噪，而LS 估計器被用于利用降噪后的導頻進行信道估計。在處理高維信號時，作者證明了該方案能以更低的計算復雜度獲得與MMSE 相同的漸進性能。此外，文獻[24]考慮了單頻相移鍵控信號的信道估計問題。對于單頻信號而言，其CSI 由載頻偏移值（CFO,carrier frequency offset）和定時偏移值（TO,timing offset）決定。因此，文獻[24]提出使用DNN 建立接收導頻與CFO 和TO 間的映射關系，從而對CSI 進行準確估計。

值得注意的是，文獻[22-24]采用了傳統導頻設計方案。為了進一步提升性能，文獻[25]利用DL對導頻設計和信道估計進行聯合設計。在該文獻中，作者考慮一個多輸入多輸出（MIMO,multi-input multi-output）系統中的多用戶上行信道聯合估計問題。為了得到符合信道特性的最優導頻序列和信道估計器，作者基于自動編碼器將DNN 設計為導頻設計模塊和信道估計模塊兩部分。在利用真實CSI數據集對DNN 進行離線訓練后，得到的導頻設計模塊和信道估計模塊可以分別在發送端和接收端進行在線部署。仿真結果顯示，該方案產生的均方誤差（MSE,mean square error）比經典線性最小均方誤差（LMMSE,linear MMSE）算法產生的MSE低40%。

3.2 信道預測和反饋

除了在接收端需要進行信道估計外，為提升頻譜效率，MIMO 系統中的發送端也需要獲取CSI 對信號進行預編碼，從而進行多信息流的并行傳輸。然而，這在采用頻分復用（FDD,frequency division duplexing）的大規模MIMO 系統難以進行實現。在大規模MIMO 系統中，基站的天線數遠大于用戶數及用戶終端的天線數。因此，從用戶到基站的上行CSI 在基站端容易估計得到。然而，基站到用戶的下行CSI 數據量龐大，若讓用戶終端進行信道估計并直接向基站進行反饋，回傳鏈路會因此過載[26]。與此同時，由于FDD 系統中上下行信道頻率不同，基站也無法從上行CSI 直接得到下行CSI，即不存在信道互異性。為此，文獻[27-28]嘗試通過信道預測來解決這一問題。

雖然FDD 系統中的上下行信道不存在嚴格的互異性，但是其信道存在共性。例如，因為信號經過的散射物體是一致的，所以其多徑方向大致相同[29]?；谶@一原理，文獻[27-28]提出使用DL 來挖掘上行CSI 與下行CSI 之間的映射關系。其中，文獻[27]設計了一個由卷積層和全連接層構成的DNN 來提取上、下行CSI 的映射關系。仿真結果顯示，該方案在不同信道數據集上的性能差異較大，其穩定性欠佳。文獻[28]進一步利用多徑數量通常少于接收天線數的稀疏性設計了一個稀疏復值神經網絡（SCNet,sparse complex-valued neural network）來對上、下行CSI 的關聯性進行分析。SCNet 通過減少中間層的神經元個數來迫使DL 提取上、下行CSI 共同包含的關鍵共性信息，從而獲得更高的預測準確率。

降低反饋開銷是另一種解決思路。文獻[30-31]利用自動編碼器對CSI 進行壓縮，通過僅傳輸CSI壓縮值來降低回傳鏈路負載。其中，文獻[30]考慮了室內環境下的大規模MIMO 系統。在該環境下，信道矩陣具有低秩特性。因此，作者首先對信道矩陣進行角度域的二維離散傅里葉變換后去除零元素，然后提出了一個名為CsiNet 的自動編碼器對非零元素進行壓縮編碼和重構。CsiNet 的編碼器部分模仿壓縮感知算法中的投影操作，由卷積層和全連接層構成，而CsiNet 的解碼器部分則由提煉網絡RefineNet 構成。仿真結果表明，CsiNet 能夠獲得比壓縮感知算法更高的CSI 重構質量。文獻[31]進一步考慮了信道時變帶來的影響。為了挖掘相鄰時刻CSI 的相關性，文獻[31]在CsiNet 基礎上引入了LSTM 層，提出了CsiNet-LSTM。CsiNet-LSTM 對多個時刻的CSI 進行同時處理，提高了對時變CSI的壓縮和重構質量。

3.3 信號檢測

信號檢測是實現無線傳輸的重要組成部分，其目標是從接收信號恢復發送信號。傳統的信號檢測方法需要首先根據發送信號、信道和噪聲的先驗概率來構建接收信號的后驗概率，然后依據后驗概率進行判決。顯然，若系統對信道和噪聲的先驗知識不完美，信號檢測準確率將會降低。此外，當發送信號比較復雜時，例如在MIMO、正交頻分復用（OFDM,orthogonal frequency-division multiplexing）等技術的引入后，信號檢測的復雜度會極大地提升。作為典型的判決問題，信號檢測問題可以被DL 高效求解。

在MIMO 系統中，現有的文獻提出了最大似然（ML,maximum likelihood）、消息傳遞（MP,message passing）、近似消息傳遞（AMP,approximate MP）等經典檢測算法。這些算法基于迭代結構，其計算復雜度較高。文獻[32-35]從經典的MIMO 信號檢測算法出發，將它們的迭代結構展開成DNN 中的層結構，即DNN 中的每一層對應原算法中的一次迭代。以文獻[32]為例，作者利用DL 將正交AMP（OAMP,orthogonal AMP）檢測器展開。為了避免在直接計算后驗概率時對高維矩陣進行積分，OAMP 算法需要迭代地近似接收信號的后驗概率。其中，有部分迭代變量需要人工設置更新步長，而不合適的步長會導致過多的迭代步數且增加計算復雜度。為此，文獻[32]設計了一種OAMP-Net，它將每一次迭代運算展開為一層神經元的內部連接，而更新步長由神經元的權值決定。在給定DNN 層數后，OAMP-Net可以從大量數據中學習到迭代變量每次更新的最優步長。仿真結果表明，OAMP-Net 可以在極低的運算復雜度下獲得比OAMP 和LMMSE 更低的誤比特率?；陬愃频乃枷?，文獻[33-35]分別利用DNN 對MP、共軛梯度下降（CGD,conjugate gradient descent）和ML 檢測算法進行了展開，將其中需要人工調節的更新步長轉變為可以從訓練數據中學習得到的神經元權值。仿真結果顯示，它們都能以更低的計算開銷獲得比原經典算法更優的檢測準確率。

文獻[32-35]提出的方案依賴于準確的信道估計。由于信道估計的誤差會傳播到信號檢測中，信號檢測的準確率將會降低，文獻[36]提出將信道估計與信號檢測進行聯合處理，考慮的是OFDM 系統，其中每個OFDM 幀包含導頻和發送數據。作者采用了一個由全連接層構成的DNN 將接收到的OFDM 幀直接映射為發送數據。仿真結果表明，該方案在導頻數量較少或缺少循環前綴時可以獲得比傳統的LS 和MMSE 檢測器更優的性能。更進一步，文獻[37-39]利用自動編碼器設計了端到端的信號編碼與檢測系統。雖然文獻[37-39]分別考慮了單輸入單輸出（SISO,single-input single-output）、單輸入多輸出（SIMO,single-input multi-output）和1 bit OFDM 這3 種不同的無線通信系統，但是它們所采用的方法是類似的。首先，一個DNN 被設計用于模擬通信系統的編碼和解碼過程，其輸入為發送端的原始信號，而輸出則是接收端解碼后的信號。然后，引起信號畸變的信道響應被抽象為DNN 中的一層。在使用大量信道數據訓練后，自動編碼器可以根據發送信號和信道的內在特征對導頻、信道估計和信號檢測進行最優的聯合設計。當訓練完成后，自動編碼器的編碼模塊和解碼模塊將分別部署于發送端和接收端來進行通信。仿真結果表明，由于基于DL 的端到端的設計方案可以充分挖掘和利用原始信號及信道的先驗知識，它們相較于傳統方法可以取得明顯的性能優勢。然而，端到端的設計方案完全依賴于原始信號和信道的訓練數據集，它們在面對未知環境下的泛化性值得探討，而目前尚未有相關研究。

4 頻譜管理

4.1 頻譜感知

頻譜是進行無線通信的基礎，但頻譜資源卻是有限和稀缺的。為了緩解激增流量和有限頻譜之間的矛盾，認知無線電（CR,cognitive radio）被提出用于提高頻譜利用率[40]。CR 的基本思想是允許次用戶（SU,secondary user）在擁有頻譜的主用戶（PU,primary user）空閑時使用頻譜。顯然，準確地判斷PU 是否在使用頻譜是實現CR 的關鍵，相關技術被稱為頻譜感知（spectrum sensing）技術。與傳統的信號檢測和調制識別方法類似，傳統的頻譜感知技術通過構建檢驗統計量的似然函數來對PU 狀態進行判斷，例如根據接收信號功率進行判斷的能量檢測器（ED,energy detector）。由于依賴信道或噪聲分布等先驗知識，傳統的頻譜感知算法存在信噪比墻等問題，其準確率受限。

顯然，頻譜感知本質上是對主用戶是否存在的判決問題，因而它可以被DL 高效地求解，而CNN在其中得到廣泛應用[41-44]。例如，文獻[41]考慮了一個單用戶多天線的頻譜感知系統。作者根據信號協方差矩陣與圖片的相似性，采用CNN 從接收信號的協方差矩陣提取檢驗統計量，然后基于該檢驗統計量進行判決。在獨立同分布的信號模型下，該方案被證明與已知信號先驗知識（如統計協方差矩陣）的ED 等價。而在指數相關的信號模型下，仿真結果顯示該方案性能遠遠優于ED、最大特征值檢測器等經典算法。文獻[42]在文獻[41]的基礎上加入了對PU 活動規律的識別，以進一步提高頻譜感知的準確度。和基于檢驗統計量的方法不同，文獻[43-44]利用DL 直接對接收信號進行識別，避免了對檢驗統計量這一中間值的處理。其中，文獻[43]考慮了對3.5 GHz 雷達信號的識別問題。作者將CNN 與LSTM 結合，然后通過大量訓練數據使DNN 學習到接收信號頻譜瀑布圖序列和是否存在雷達信號之間的關系。文獻[44]則考慮了多用戶聯合頻譜感知的問題。為了使用CNN 處理頻譜信息，作者將多個SU 在不同頻點上的接收信號強度拼接成矩陣，然后再將該矩陣當成圖像數據輸入CNN中處理。

上述文獻所提方案都需要利用當前時刻的接收信號進行判決。然而，頻譜感知是一個對時效性要求嚴苛的任務。因此，利用頻譜歷史數據進行頻譜態勢的分析和預測是實現頻譜感知的另外一種思路。文獻[45]中提出用LSTM 建立歷史頻譜占用信息與當前頻譜占用情況的關系。仿真結果顯示，該方案可以利用過去60 min 的歷史頻譜數據以接近95%的準確率預測當前時刻的頻譜占用情況。文獻[46]同樣采用LSTM 設計了基于DL 的頻譜占用情況預測方法。在該方法中，一種啟發式算法被用于自動優化DNN超參數，包括DNN的神經元個數、層數、激活函數、學習速率以及權值初始值。仿真結果表明，優化后的DNN 設計比沒有優化或僅采用全連接層的DNN 設計在地面數據集和衛星數據集上均能獲得更高的準確性和穩定性。

4.2 信道接入

一般地，頻譜會先被劃分成多個信道，然后通信系統以信道為基本單位接入頻譜。提高頻譜利用效率有賴于精準和高效的信道接入方法。由于信道接入問題是對信道和接入時間的決策問題，DRL 提供了實現最優信道接入的決策工具。

文獻[47-48]關注單信道的接入問題。其中，文獻[47]考慮一個智能用戶與其他多個采用不同接入策略的用戶共享同一頻段進行數據傳輸。當多于一個用戶在同一時刻發送數據時，數據分組會因為碰撞而發送失敗。因為各個用戶采用的接入策略最終會反映在頻譜占用情況中，所以作者將歷史的頻譜觀察數據作為DRL 的狀態。通過對頻譜數據的分析，DRL 最終能預測并充分利用頻譜中的空閑時隙進行傳輸，以提高頻譜的利用率。文獻[48]考慮了長期演進（LTE,long term evolution）蜂窩移動通信系統與無線局域網（Wi-Fi）這2 個異構系統在非授權頻譜上的共享問題。傳統的LTE 與Wi-Fi 共享技術需要基于2 個異構系統的即時且完整的信息來進行頻譜管理，從而使LTE 系統在保護Wi-Fi 系統（即滿足Wi-Fi 系統流量需求）的前提下充分占用空閑頻譜。然而，這2 個異構系統是相對獨立的，難以進行信令交互。根據頻譜信息與Wi-Fi 流量等信息存在的關聯性，作者提出利用DRL 直接對頻譜信息進行分析，通過預測Wi-Fi 流量信息來智能地調整LTE和Wi-Fi 的時隙分配。仿真結果表明，盡管缺少信令交互，該方案可以在充分保護Wi-Fi 系統的情況下提高LTE 系統的傳輸速率，且能夠逼近完美已知信息下的理論最優性能。

在多信道的場景下，信道接入還需要對信道進行選擇[49-51]。文獻[49]中考慮了一個單用戶多信道的頻譜接入問題。其中，各個信道的質量根據某種隱藏的規律動態變化，而用戶在同一時刻僅能對某一信道的質量進行感知。因此，這是一個部分可觀察馬爾可夫決策過程（POMDP,partially observable Markov decision process）問題。在使用DQL 算法來解決這一問題時，作者首先將狀態設計為過去多個時刻選擇的信道和相應的信道質量感知結果，以彌補POMDP 中的觀察信息缺失問題，然后將動作設置為當前時刻需要感知和發送數據的信道。當用戶選擇的信道質量比較好時，數據分組能被成功發送，獎賞值就設置為正值，否則為負值。此外，作者還針對環境規律可能發生變化的情況提出了自適應的重訓練算法，根據累積獎賞的下降是否超過某一閾值來感知環境規律的突變，進而決定是否對DQN 進行重新訓練。仿真結果表明，該方案可以逼近已知信道質量時得到的最優性能。文獻[50]進一步研究了多用戶情況下的信道動態接入問題。為了避免多用戶同時使用同一信道而產生數據分組碰撞，作者提出了一個基于DRL 的分布式信道接入方案。其中，每個用戶都是獨立的智能體。各個智能體將其發送記錄（即數據分組是否成功發送）作為狀態，并且將發送當前數據分組選擇的信道作為動作。若該數據分組被成功發送，智能體將獲得獎賞為1，否則為0。為了獲得更高的性能，作者結合競爭深度Q 學習和雙深度Q 學習提出了競爭-雙深度Q 學習算法。此外，LSTM 還被用于幫助分析狀態中包含的多個時刻的數據。仿真結果顯示，所提方案可以在用戶沒有信令交互時得到避免發生碰撞的信道接入方式。

在有惡意干擾器的復雜電磁環境中，例如軍事通信中，信道接入問題變得更復雜。文獻[51]提出了基于DQL 的抗干擾信道選擇算法。在該文獻中，智能體將頻譜瀑布圖作為狀態，通過分析其中存在的干擾模式來主動預測并選擇未受干擾的信道進行信息發送。為了在保證通信質量的同時減少信道切換，智能體的獎賞由一個與信干噪比（SINR,signal to interference plus noise ratio）相關的回報值和信道切換開銷值相減得到。此外，作者在設計DQN 時，根據頻譜瀑布圖存在的遞歸特性將傳統 CNN 改進為遞歸卷積神經網絡（RCNN,recursive convolutional neural network），從而降低計算復雜度。

4.3 調制識別

監測頻譜非法占用情況是頻譜管理的另一項重要任務。為了檢測非法信號并定位信號源，往往需要對信號進行特征識別和解碼。這就需要對無線信號的調制方式進行盲估計，即調制識別。傳統的調制識別算法基于似然函數進行求解，需要根據發送信號的先驗知識計算后驗概率，而后再進行判決。然而，一般情況下發送信號的先驗知識是難以獲得的。此外，當調制方式較多時，后驗概率的計算也會變得極其復雜。為解決這一問題，人們通過使用DL 來避免對似然函數的復雜求解過程，轉而利用DNN 進行直接判決。

文獻[52-53]提出了基于高階累積量的信號特征提取方案，它們利用DL 建立已知信號特征與其調制方式之間的關系，從而對調制方式進行識別。在文獻[52]所提方案中，接收信號首先被預處理為4 階和6 階累積量，然后再經過一個全連接的DNN 對調制方式進行識別。文獻[53]則采用高階累積量的比值作為信號的特征，然后采用CNN 對調制方式進行識別。文獻[52-53]分別對6 種和11 種調制方式進行了測試。結果顯示，它們在多徑信道和加性白噪聲信道中均能實現較高的識別成功率，且文獻[52]所提方案甚至能夠對存在頻率偏移的非完美接收信號進行較高成功率的識別。

文獻[52-53]提出的調制識別方案是基于人工提取的信號特征設計的。顯然，人工選擇特征是一個煩瑣的過程，且選擇的特征通常難以普遍適用。因此，文獻[54-61]提出利用DL 對信號進行自動的特征提取和調制識別。其中，文獻[54-57]提出先將接收信號進行圖像化預處理，再采用CNN 對圖像進行分析。它們采用的圖像化預處理方法略有不同：文獻[54-55]使用信號的星座圖，而文獻[56-57]則采用信號的頻譜瀑布圖。值得一提的是，文獻[55]提出了一種雙層CNN 架構，來同時使用信號的星座圖和IQ 原始數據：原始信號經過第一層CNN處理后，輸出的數據連同信號的星座圖再通過第二層CNN 處理得到調制方式的預測值。另一方面，采用同一調制方式的發送信號通常不是孤立出現的，因而對接收信號的時間序列進行聯合處理會帶來更好的性能。基于這一思路，文獻[58-61]將LSTM 用于調制識別中。其中，文獻[58-60]將LSTM 與CNN 相結合，獲得比僅基于CNN 方案更好的識別成功率。文獻[61]則在LSTM 的基礎上加入了注意力（attention）機制，對接收信號的時間序列進行加權，通過自適應地調整序列中各信號的重要性來解決噪聲不確定下的調制識別問題。仿真結果表明，該方案在0～20 dB 的信噪比下獲得的識別準確率均接近已知噪聲功率的傳統ML 算法的性能。

5 資源配置

5.1 功率分配

無線信道具有開放性，因此當多個用戶共用同一時頻資源傳輸信息時會產生復雜的干擾問題。功率分配是實現干擾管理的有效手段。

文獻[62]研究了一個CR 中的功率分配問題。其中，SU 和PU 使用相同的信道同時進行傳輸，而SU 的目標是通過調節其發射功率來使PU 和SU 的SINR 都能大于某一閾值。為了實現這一目標，SU首先在PU 附近放置了多個接收功率傳感器，然后利用DRL 根據傳感器的接收功率來推測PU 傳輸模式和信道變化規律，并據此選擇一個最優的發射功率。因此，DRL 的狀態和動作分別為所有傳感器的接收功率和SU 的發射功率。當SU 選擇了一個功率進行發送后，若PU 和SU 的SINR 都大于閾值，則獎賞為1，否則為0。最后，作者選擇DQL 算法用于實現該基于DRL 的功率分配方案，其性能逼近需要PU 和SU 完全協作的經典優化算法。但是，該方案僅考慮了單用戶的場景，對于涉及多用戶的問題無法使用。

進而，文獻[63]研究多用戶蜂窩網絡中的功率分配問題。在該問題中，各個用戶通過調整發射功率來最大化整個系統的和速率。求解該問題存在2 個難點：一是該優化問題是非凸的，難以獲得最優解；二是用戶之間的CSI 數據量隨著用戶數的增加而呈指數增加，因而獲取所有用戶的CSI 進行求解所要求的信令開銷是難以承受的。為此，作者提出了一種分布式DQL 算法，使各用戶成為獨立的智能體，根據自身可獲取的局部信息選擇發射功率。然而，多個智能體的存在會產生非平穩性的問題，即某個智能體的外部環境會因其他智能體的動作而產生變化，而并非完全由真正的環境變化規律決定。此時，DRL 就有可能無法收斂或者收斂性能較差。針對該問題，作者從3 個方面進行解決。首先，作者在設計各用戶的狀態時，不僅包含自身的本地CSI 等信息，也包含相鄰用戶的歷史信息，從而使各用戶能夠推測未來的CSI 以及其他用戶的發射功率。其次，作者將系統和速率這一全局優化目標分解為各個用戶的子目標，把用戶自身速率與對其他用戶產生的干擾的差值作為獎賞值。這一設計讓各用戶的優化目標不會互相沖突，有利于算法收斂。最后，作者提出了一個集中式訓練的框架，通過集中式訓練讓各用戶具有相似的決策邏輯，從而保證算法的收斂性能。仿真結果顯示，該分布式DQL 算法得到的系統和速率可以超越經典的分式優化（FP,fractional programming）和加權MMSE（WMMSE,weighted MMSE）優化算法。

此外，文獻[64-65]將功率分配問題和信道接入問題進行了結合，聯合優化發射功率和信道。其中，文獻[64]將文獻[63]所提方案拓展到多信道的D2D通信系統中。和文獻[63]相比，文獻[64]除了將DRL的狀態、動作和獎賞從單信道拓展為多信道外，還提出了完全分布式的DQL 算法。在該算法中，各用戶不再需要集中式訓練，避免了用戶向中央訓練單元上報數據而產生的通信開銷。此外，文獻[64]還發現了通信開銷與系統性能之間存在折中關系，當每個用戶與更多的相鄰用戶共享歷史信息時，整個系統獲得的和速率會越大。文獻[65]同樣采用DRL 來解決車聯網中的功率分配和信道選擇問題。在車聯網中，通信時延關乎車輛的運行安全。為此，作者通過分別將系統容量和通信時延設計為構成DRL 獎賞的回報值和懲罰值，使車聯網可以在最大化系統容量的同時降低通信時延。仿真結果顯示，與隨機策略和啟發式算法相比，基于DRL 的方案在用戶平均速率、系統容量和時延滿足概率等方面均有明顯的性能提升。

5.2 計算資源配置

在VR 等計算密集型移動業務出現的同時，通信設備卻在向小體積、低功耗的方向發展。移動邊緣計算（MEC,mobile edge computing）因而被提出用于輔助計算能力和續航能力有限的終端以完成計算復雜度較高的業務。在MEC 中，計算單元被配置在網絡接入側（一般為基站），便于快速響應終端的計算請求。

然而實際上，MEC 的計算資源也是有限的，需要根據用戶需求彈性配置。文獻[66]研究了MEC 中的服務配置問題，其將計算任務劃分為多類服務，而基站在接受用戶請求前需要先為各類服務進行資源劃分和保留。為了實現最優的配置，基站首先需要對用戶使用的各類服務偏好進行分析和預測。因為用戶的服務使用記錄是敏感數據，所以作者基于FL 的思想提出了分布式DL 算法，讓多個基站不需要共享用戶信息就可對所有用戶的服務偏好進行建模。

此外，向MEC 卸載計算任務也是一個需要綜合考慮費用、通信時延、計算時延、電能損耗等因素的復雜決策問題。文獻[67]提出了一種分布式的計算任務卸載決策方案。該問題針對的是能量和計算任務隨機到達的基于能量采集的物聯網（IoT,Internet of things）設備。為了完成計算任務，IoT設備可以選擇將計算任務卸載到MEC 中，但會因此帶來通信時延和MEC 服務開銷。若IoT 設備選擇本地執行計算任務，則它需要為本地計算單元分配能量：更多的能量產生計算時延更低，反之亦然。此外，計算任務需要在規定時間內完成。因此，計算任務卸載和能量分配需要在兼顧時延要求的情況下降低MEC 服務開銷。為了學習和利用環境中的隨機規律（如計算任務達到規律）做出最優決策，作者提出了基于DRL 的方案。特別地，作者基于FL 將DQL 算法改進為聯邦-深度Q 學習算法，讓多個IoT 設備不需要曝露隱私數據便可共同訓練，提高決策準確度。

6 網絡接入

移動設備數量的激增也催生了超密集網絡（UDN,ultra dense network）等技術的誕生，通過增加基站的數量來提供高速和可靠的連接。這意味著同一用戶終端在任何時候都能被多個基站的信號所覆蓋，而用戶接入網絡時需要選擇一個基站進行連接。值得注意的是，信道、用戶需求及位置等因素是動態變化的。為持續地保證接入性能，用戶需要從全局和長期的角度對連接的基站進行動態選擇和切換。

文獻[68]考慮UDN 中的基站接入問題。在傳統的基站接入機制中，若用戶接收到其他基站的最大參考信號接收功率（RSRP,reference signal received power）比當前連接基站的RSRP 高于某一閾值，用戶就切換到RSRP 最大的基站。這一閾值的設置是為了解決切換中的乒乓效應，但這在UDN 中是不夠的。在UDN 中，基站分布密集使每個基站只在其附近較小范圍內的RSRP 比較大。因此，當用戶在熱點區域比較集中時，該區域內的基站負載極高，而其他區域的基站卻非?？臻e。此時，與鄰近的高負載基站相比，用戶連接遠距離的空閑基站得到的通信質量可能會更高。為了實現基站負載均衡，作者提出在原有切換閾值上加入偏置值，并利用DRL 中的A3C 算法對偏置值進行智能選擇。其中，DRL 的狀態設計為各基站的負載和邊緣用戶比例，而獎賞被設計為所有基站最大負載的倒數，即所有基站達到相同負載可以將獎賞最大化。仿真結果顯示，與基于RL 或靜態規則等傳統負載均衡方案相比，DRL 可以有效地降低用戶接入失敗概率。

文獻[69]結合信道接入對基站接入問題進行研究。其中，作者考慮了一個由多個發射功率不同的基站所構成的多層蜂窩系統。特別地，擁有更大發射功率的基站覆蓋范圍越大，但同時也因為更可能被過多的用戶連接而更容易出現擁塞和速率下降。此外，當連接的基站發生切換時，用戶數據需要在不同基站間進行遷移，會帶來額外開銷。為了在滿足各用戶的速率需求的同時降低切換次數，作者提出了分布式的競爭-雙深度Q學習算法，讓各用戶成為獨立的智能體，在每個時刻自主選擇接入的基站與信道。與文獻[63]類似，多個智能體的存在也會導致DRL 的非平穩性問題。為解決該問題，作者令所有用戶共享同一狀態，其中包含表示各個用戶的速率需求是否得到滿足的指示值。除此之外，各用戶的獎賞值被設計為該用戶的速率與發射功率、切換開銷的差值，使用戶在盡量降低切換次數和對其他用戶產生干擾的同時最大化自身速率。與RL、貪婪算法等傳統方法相比，文獻[69]提出的競爭-雙深度Q學習算法在用戶數較少時性能幾乎一致，但在用戶數較多的復雜場景能夠取得明顯優勢。

為了滿足各種各樣的通信需求，當前的無線網絡通常包含多種采用不同無線電接入技術（RAT,radio access technology）的無線通信系統，形成異構網絡。因為采用不同RAT 所提供的服務特點及開銷均不同，所以用戶接入網絡時需要根據自身需求選擇最優的RAT。文獻[70]考慮LTE 和Wi-Fi 這2種RAT 的接入問題。顯然，LTE 通過授權頻譜提供服務，因而服務費用較高。同時，因為LTE 能提供更高的速率，所以通過LTE 傳輸數據所需的單位能量開銷較低。Wi-Fi 則與之相反。用戶的目標是以最低的費用和能量開銷在規定時間內完成文件傳輸。為求解該問題，文獻[70]使用DQL 算法讓用戶學習最優的RAT 切換控制策略。其中，時間被分成了多個時隙。在每個時隙開始，DQL 算法將根據包含了用戶位置和文件剩余大小的狀態，選擇當前時隙的動作，即選擇使用LTE 還是Wi-Fi 連接網絡。在做出選擇后，用戶將會獲得一個由費用、能量開銷和文件傳輸失敗懲罰值決定的獎賞值，用以引導DQL 算法實現規定的目標。作者通過仿真證明了DQL 算法相較于動態規劃和啟發式算法能夠有效地降低費用及能量損耗。

7 網絡及系統優化

在傳統的無線通信系統中，網絡和系統優化極大地依賴人工參與。例如，基站部署需要人工規劃，而故障排除通常也需要工程師介入。因此，隨著網絡規模的擴大以及各類復雜新技術的加入，無線通信系統的管理和維護成本將會攀升。人工智能的引入有望實現無線通信系統的自優化，在提高系統性能的同時降低成本。

近年來，智能反射表面（IRS,intelligent reflecting surface）被提出用于優化無線網絡的覆蓋和速率。IRS 包含眾多可調相位的被動反射單元。通過調整相位，無線信號的傳播路徑得以改變，從而增強特定位置處的信號接收強度。文獻[71]提出使用DRL 對IRS 反射單元的相位進行優化。該文獻考慮多輸入單輸出（MISO,multi-input single-output）下行蜂窩系統，而IRS 被用于提高用戶接收信號的信噪比（SNR,signal-to-noise ratio）。由于IRS 的反射單元數量眾多，且其相位可以為連續值。因此，作者采用了能夠輸出連續動作空間的DDPG。DRL 的狀態包含了用戶上一時刻的SNR及IRS 各反射單元的相位，而用戶接收信號的SNR則被用作DRL 的獎賞。仿真結果顯示，基于DRL的IRS 優化方案所取得的性能逼近具有高計算復雜度且需獲取完整CSI 的傳統半正定松弛（SDR,semi-definite relaxation）算法。

當蜂窩系統的基站數量越來越多時，其運行產生的能耗變得不可忽視。實際上，由于用戶流量需求在時間、空間上是不均勻的，系統可以通過關閉或休眠基站來降低能耗。基于這一思考，文獻[72-73]分別提出了基于DRL 的基站管理技術。文獻[72]中考慮了單個基站的場景，其目標是讓基站根據網絡流量來動態地選擇休眠或喚醒，從而降低能量損耗。為了實現這一目的，作者提出了2 種基于DQL 算法的方案。在第一種方案中，過去多個時刻的網絡流量元數據，包括數據分組的種類、大小等信息以及相應的基站動作被用作DRL 的狀態，然后讓DQL 據此選擇下一時刻的動作。第二種方案則是采用隱馬爾可夫模型對歷史流量進行建模并對下一個時刻的流量情況進行預測，然后讓DQL 根據預測值選擇動作。為了使基站能夠在服務質量和能量開銷間取得折中，獎賞值包含了滿足的請求數、等待請求數、失敗請求數、基站運行能量開銷和切換基站狀態開銷5 個變量。仿真表明，通過隱馬爾可夫模型的輔助，DQL 在大多數的流量數據集中可以更準確地預測流量并做出更好的決策。文獻[73]進一步考慮了多基站的場景。其中，作者首先將DL 用于分析和預測用戶流量分布，然后再利用DRL 根據DL 的預測結果對基站進行開關控制。值得注意的是，所有基站的開關組合與基站數量呈指數關系。為了容納龐大的動作空間，作者采用了DDPG 算法，將每一種開關組合映射到連續動作空間中。在設計獎賞時，作者將用戶體驗、能耗和開關切換開銷3 個因素考慮其中，使DRL 在優化能耗的同時最小化切換次數和保證用戶體驗。仿真結果顯示，該方案的性能相較于RL、隨機策略等方法更接近窮搜算法得到的最優性能。

針對用戶流量需求時空分布不均的問題，另外一種解決辦法就是通過部署無人機（UAV,unmanned aerial vehicle）空中基站來為熱點區域的用戶提供流量卸載服務。UAV 的移動特性為基站部署帶來了靈活性，但同時也使無線信道難以預測。文獻[74]采用DQL 算法對UAV 基站進行智能部署。作者首先將UAV 和用戶的坐標設計為DRL 的狀態，然后將UAV 在空間中各個移動方向作為動作。為了最大化系統容量，DRL 的獎賞被設計為所有用戶從空中基站和地面基站得到的速率之和。仿真結果表明，該算法在4 種用戶分布模型下均能接近理論可達的最大速率，且其時間復雜度低于RL 和爬山（hill climbing）算法。

此外，文獻[75-76]分別研究了系統故障修復和異常檢測問題。文獻[75]假設無線通信系統在運行過程中會隨機出現故障，而故障需要通過一系列排障操作來解決。作者提出使用DQL 算法來學習如何通過排障操作來修復故障。其中，DRL的狀態是系統的故障數變化，而動作則是選擇一個排障操作。為了使系統能在最短的時間內排除故障，DRL 的獎賞被設計為一個與排除故障所耗費時間負相關的函數。仿真結果顯示，所提方案有效地提高了系統的可用性。文獻[76]則針對IoT網絡提出了一種異常設備檢測方法。作者首先對IoT 設備進行了分類，然后提出了一種DL 算法，讓IoT 網關對數據分組所屬設備類型的時間序列進行建模，即根據過去數據分組的設備類型序列預測下一數據分組可能為各個設備類型的概率。顯然，只用一個IoT 網絡的數據訓練得到的模型泛化性較差，但同時收集多個網絡的數據分組既會產生巨大的開銷也會產生隱私問題。因此，作者利用FL 讓多個IoT 網絡的網關進行共同訓練。當訓練完成后，各IoT 網關通過比對所建立模型預測的數據分組序列和實際數據分組序列來判斷網絡中是否存在異常設備。

8 總結及未來研究展望

本文對AI 中三類代表性的機器學習方法及其在無線通信領域的應用進行了介紹和分析。根據這三類方法的特點可知，它們所適用的無線通信問題略有差別。其中，DL 主要適用于無線傳輸、頻譜感知、調制識別等問題，而DRL 主要適用于信道接入、資源配置、網絡接入等問題。與DL 和DRL相比，FL 的應用場景則具有較大的彈性。FL 能夠通過結合DL 或DRL 來解決各類問題，同時為數據隱私提供保護。下面，將分別對這三類方法在解決無線通信問題時的優缺點進行總結，并圍繞其局限性討論可行解決方案，供未來研究工作參考。

8.1 深度學習

在DL 中，DNN 的訓練和部署是分開的。訓練階段是離線進行的，通過對訓練數據的關聯分析來建立最優的映射關系。訓練完成后的DNN 便可在線部署。因此，DL 在DNN 完成訓練后能以極低的計算開銷從源數據推斷相應的目標數據，適合在低功耗設備部署。

然而，訓練與部署的分離也使DL 高度依賴訓練數據集：規模越大、越完整的數據集可以讓DL訓練出質量越高的DNN 模型。但受限于鏈路速率、無線環境波動以及噪聲的影響，無線通信系統獲得的數據集往往數據量比較少，而且容易受噪聲干擾甚至部分缺失。在計算機視覺等領域，如PCA Jittering、獨立元分析等技術已經被成熟地應用于圖像數據的增廣和增強中，將其推廣到無線通信數據的增廣和增強應當是下一步需要關注的研究方向。

此外，為了獲得更好的性能，DNN 的結構以及數據預處理都需要根據所考慮具體問題的特點進行設計。與此同時，合適的DNN 結構往往需要根據數據特征進行人工調優[77]，為DL 的廣泛應用增加了困難。雖然文獻[46]嘗試使用啟發式算法對包括DNN 結構在內的超參數進行優化，但是該方法在其他問題以及場景下尚未得到驗證。元學習（meta learning）是解決這一問題的可能途徑，它可以根據數據和任務特征自動選擇DNN 結構和其他DL 超參數，代表算法有AutoML[78]、Reptile[79]等。目前，元學習在無線通信領域仍有很大的研究空間。

8.2 深度強化學習

與DL 相比，DRL 是一類在線訓練和部署的機器學習方法，不需要進行預先的離線訓練。這使DRL 不再需要像DL 那樣耗費大量資源來獲得訓練數據集。然而，這也意味著DRL 從開始運行到性能收斂需要經過大量的試錯，因而DRL 在收斂過程中的性能無法得到保證。在AlphaGo[80]中，圍棋的棋譜被用于DRL 的初期訓練，加快了訓練的速度。為此，應當研究如何結合無線通信中的專家知識（如成熟的優化算法、模型等）來加快DRL 訓練速度以及提升性能。

另一方面，訓練神經網絡所需的計算開銷大而移動設備通常是低功耗且電池壽命有限的，難以承擔DRL 中對DNN 的訓練任務。利用MEC 為移動設備進行低時延的訓練任務卸載是可行的方案，而其中存在的能量、時延、費用等因素的折中問題需要進一步研究。

最后，隨著具有AI 算力的移動芯片的普及，未來的無線通信系統必然將由眾多智能設備構建而成，因而分布式的多智能體決策方案將是大勢所趨。然而，尚未有能夠解決DRL 多智能體非平穩性問題的相關理論，目前的研究僅停留在基于經驗的啟發式解決方案，如文獻[63,69]。實際上，多智能體下的DRL 收斂需要所有智能體能夠學習到一種可以達到均衡點并不再改變的策略。均衡點是否存在以及均衡點的性能決定了DRL 的收斂性能。作為描述和分析多個體交互過程的理論，博弈論以及隨機博弈論[81]可以為解決DRL的多智能體非平穩性問題提供理論框架，是未來研究的重要課題。

8.3 聯邦學習

FL 通過僅傳輸DNN 權值來避免原始數據的泄露，實現了對原始數據的保護。因此，FL 適用于所有需要多智能體協作訓練，但對隱私有較高要求的問題。作為新興的AI 技術，FL 在無線通信中的應用目前還處于比較早期的研究階段，也存在一些局限性。

1) 當DNN 規模較大時，需要傳輸的權值更新值數量龐大，導致智能體與服務器之間的通信開銷巨大，對控制鏈路容量有限的無線通信系統造成巨大的負擔。為了降低FL 的通信開銷，智能體可以對權值更新值進行壓縮[82]或量化[83]。目前，尚未有采用FL的無線通信技術考慮交互DNN權值產生的通信開銷。因此，未來的研究工作應當量化并降低采用FL 帶來的通信開銷。

2) FL 中各個智能體的數據來源可能是不一樣的，而具有偏見的數據源會使各智能體擁有的數據集有可能是非獨立同分布的。例如，室內基站的用戶流量大部分來源于音/視頻等娛樂服務，而室外基站的用戶流量則可能大部分來源于語音、導航等業務。文獻[8]的仿真結果顯示，當各個智能體的本地數據并非服從相同分布（也稱非獨立同分布數據）時會對DNN 的訓練結果產生負面影響，降低DNN的準確度。由于非獨立同分布數據集在無線通信領域中是非常常見的，未來的研究工作應當考慮這一問題并采取相應的手段來解決。

3) FL 將訓練任務分配到各個智能體中，而智能體和服務器是相對獨立的，使FL 具有廣闊的攻擊面、抗攻擊能力比較差。當某智能體或其與服務器之間的鏈路存在惡意攻擊時，智能體上傳的權值更新值就有可能被截獲或者被替換成惡意的更新值。對于前者，攻擊者可以基于截獲的權值更新值來反推智能體的數據或數據的某些性質。對于后者，攻擊者可以利用惡意的更新值降低訓練效果。目前，存在同態加密[84]、差分隱私[85]、穩健合并算法[86]等方法來加強FL 的安全性。在無線通信中，由于信息傳輸具有一定的開放性，應用FL 時應當采用強有力的安全保障手段，而現有的方案在這一方面是欠缺的。

9 結束語

在當下信息爆炸和萬物互聯時代，無線通信需求呈現指數增長的態勢。為了滿足用戶激增的需求，無線通信系統在規模劇增的同時也加入了各類復雜技術，增加了其設計、運行、管理和維護的難度，使傳統的無線通信技術捉襟見肘。在這一背景下，以深度學習、深度強化學習和聯邦學習為代表的人工智能技術為解決無線通信的瓶頸問題提供了可行的手段。本文對基于這三類方法的智能無線通信技術研究進行了綜述。目前的研究表明人工智能在無線通信領域擁有巨大的發展潛力，但也存在一些問題。針對存在的局限性，本文為未來智能無線通信技術的研究指出了一些方向。

附錄強化學習概述

一個人在成長過程中會習得各種各樣的技能，且大多數是從生活中的積累經驗中學習得到的。RL 正是一種模仿智慧體累積和學習經驗的機器學習方法[16]。

在RL 中，進行學習的智慧體被稱為智能體或代理（agent）。一般而言，智能體需要先觀察其周遭的環境，然后做出相應的動作來完成規定的任務。根據環境選擇動作的過程稱為決策。在智能體采取行動后，其周圍的環境可能因此發生變化，并且智能體也能從環境中觀察到是否完成、接近或者偏離其需要完成的目標。環境因智能體所采取的動作而發生變化的概率稱為轉移概率，而衡量動作對完成任務作用的指標稱為獎賞。智能體與環境之間進行的復雜交互過程在數學上通常可以被抽象為一個馬爾可夫決策過程（MDP,Markov decision process）。MDP 由動作、狀態、策略、轉移概率和獎賞5 個核心要素構成。

動作（action）。智能體決策的對象稱為動作，記為a。智能體被允許采取的所有動作構成了MDP 的動作空間，記為A。

狀態（state）。智能體對其所處環境的觀察和描述稱為狀態，記為s，而所有可能出現的狀態構成了狀態空間，記為S。從智能體的角度，狀態的改變反映了環境發生的變化。

策略。智能體根據狀態選擇動作的決策規則稱為策略，記為π。其中，π(a|s)表示智能體在狀態s下選擇動作a的概率。

轉移概率。智能體采取動作a后使狀態從s轉移到s′的概率稱為轉移概率，記為pa(s,s′) 。

獎賞（reward）。智能體在采取動作后會從環境中觀察到該動作對完成規定任務的作用，而衡量的指標被稱為獎賞值。當智能體在狀態s下采取動作a使狀態變為s′時，獲得的獎賞值記為ra(s,s′)。

基于以上的基本要素，MDP 問題被定義為如何找到一個最優策略π*來最大化時間尺度T內的期望累積獎賞

其中，γ∈[0,1]被稱為折扣因子。折扣因子決定了未來獎賞對智能體的重要程度。例如，當γ=0時，智能體完全不考慮當前決策對未來獎賞的影響；當γ=1 時，智能體的目標則是最大化未來的所有獎賞值。一般來說，γ越大，則可以讓智能體以更長遠的目光進行決策，但是對未來獎賞的考慮同時也會增加決策難度。此外，根據時間尺度T是有限值或無限值，MDP 又可以分為有限時間尺度的MDP 和無限時間尺度的MDP。

為了求解MDP，RL 讓智能體不斷地與環境進行交互來獲取經驗，并從經驗中直接學習得到最優策略。其中，借助值函數進行學習的方法稱為基于值RL 方法。以最廣泛使用的Q 學習（Q-learning）算法[16]為例，它為所有狀態s∈S和所有動作a∈A都構建了值函數Q(s,a)。Q(s,a)的物理意義為智能體在狀態s下采取動作a能獲得的期望累積獎賞。由文獻[16]可知，當智能體根據最優策略π*進行決策時，得到的值函數Q(s,a)對于所有的s∈S和a∈A能達到最大值，記為Q*(s,a)。相應地，若值函數達到最大值時，最優策略為

為了得到Q*(s,a) 和相應的最優策略，Q 學習根據值函數的實際采樣值和其預計值之間的時間差分（temporal difference）來迭代地更新值函數，直至值函數收斂。具體的更新式為

其中，α是控制值函數更新速度的步長因子。在Q 學習算法中，動作的選擇是根據ε貪婪規則進行的，智能體以1-ε的概率選擇當前狀態下的值函數最大的動作，即，否則在動作空間A中隨機選擇一個動作。前者的作用是讓智能體充分利用已有的知識進行最佳的決策，后者的作用則是讓智能體探索未知但可能更好的動作。在實際中，ε的選擇需要兼顧兩方面的影響并取得折中。

此外，還有一類基于策略的RL 方法。它們不需要借助值函數，而是直接利用函數對策略進行擬合，并通過調整函數的參數來優化策略。若用一個參數為θ的函數擬合策略π，則智能體在狀態s下選擇動作a的概率可以表示為π(a|s,θ)。此時，對策略π的優化就轉化為對參數θ的優化。為了優化θ，首先需要定義一個標量J(θ)來度量θ對應策略的性能，然后θ應當以J(θ)梯度上升的方向更新，即

REINFORCE 算法[16]是一種被廣泛應用的策略梯度法。該算法使用作為J(θ)的隨機抽樣值。其中，Gt為從t+1時刻直至最終時刻T的累積獎賞記，即

值得注意的是，基于策略的RL 方法，包括REINFORCE算法，其參數和策略的更新是以回合為單位進行的。也就是說，智能體在同一個回合中采用相同的參數和策略來生成動作、狀態和獎賞。

上述2 種方法都有明顯的缺點。對于基于值的方法，值函數需要通過表格來存儲。顯然，當狀態空間或動作空間維度很大甚至為連續空間時，將會產生維度爆炸問題而導致基于值的RL 方法無法使用。對于基于策略的方法，以回合為單位的更新機制導致數據利用率比較低，也使智能體在不同回合下采用的策略差異大、產生的數據方差大。這兩方面原因都導致其學習效率比較低。此外，無線通信中的許多問題是無限時間尺度的，這使基于策略的RL 方法無法適用。