郭莉莉,陳永紅
(南通大學杏林學院,江蘇 南通 226000)
頻譜感知是認知無線電(Cognitive Radio,CR)的關鍵技術之一,是在頻譜資源緊張且頻譜分配方式固定的情況下,通過感知主用戶(Primary User,PU)當前未在使用的授權頻段供認知用戶(Secondary User,SU)使用從而提高頻譜利用率的一種技術[1]。傳統的頻譜感知方法分為單用戶頻譜感知和協作頻譜感知。典型的單用戶頻譜感知方法包括能量檢測[2]、循環平穩特征檢測[3]以及匹配濾波檢測[4]等。協作頻譜感知中融合中心通過接收各個SU的信號或判決結果,依據硬融合或軟融合規則做出最終的判決[5]。由于實際通信環境復雜,故無論是單用戶頻譜感知還是協作頻譜感知,都要求它們具有適應復雜多變的通信環境的能力和快速進行頻譜感知的能力,而傳統的頻譜感知方法并不總是能夠滿足實際通信環境的要求。
機器學習是人工智能的一個分支,也是人工智能的核心技術。它通過收集CR網絡中的環境信息和用戶狀態進行建模和推理學習,使得CR網絡頻譜感知變得智能化,從而適應實際的通信環境。文獻[6]提出了一種基于監督機器學習的融合中心算法,其中訓練數據為幀能量檢驗統計量,標簽為相應幀上PU是否存在的決策結果。通過訓練,對于一個新的幀能量檢驗統計量來預測其判決結果,同時在1 000幀訓練數據和1 000幀測試數據上應用K-最近鄰(K-nearest Neighbor,KNN)、支持向量機(Support Vector Machine,SVM)、樸素Bayes(Na?ve Bayes,NB)和決策樹(Decision Tree,DT)4種機器學習方法進行仿真,結果表明KNN和DT的性能優于其他兩種方法。文獻[7]提出一種貝葉斯機器學習框架,用來捕捉多個SU采集到的頻譜數據中的時空相關性,進行貝葉斯推理以自動推斷網絡的頻譜狀態。仿真結果表明,該框架頻譜感知性能優于現有的頻譜感知方法。但是,現有的機器學習頻譜感知方法普遍存在訓練時間較長的問題,并不滿足快速頻譜感知的要求。深度學習作為機器學習的分支,隨著其模型和算法的不斷改進優化以及計算機計算能力的提升,被廣泛應用于圖像識別[8]、語音識別[9]和自然語言處理[10]等各個領域。研究學者將深度學習的優勢應用到CR網絡頻譜感知中,獲得了一些研究成果。本文在介紹幾種典型的深度學習網絡模型的基礎上,對近幾年深度學習頻譜感知方法進行總結。
深度學習的概念源于人工神經網絡(Artificial Neural Network,ANN)。ANN由輸入層、隱藏層和輸出層構成。如果一個神經網絡具有多個隱藏層,則稱之為深度神經網絡(Deep Neural Network,DNN)。針對DNN的訓練,就可以視為深度學習。典型的深度學習網絡模型包括卷積神經網絡(Convolutional Neural Network,CNN)[11]、深度強化學習(Deep Reinforcement Learning,DRL)[12]、深度信念網絡(Deep Belief Network,DBN)[13]、生成對抗網絡(Generative Adversarial Network,GAN)[14]、循環神經網絡(Recurrent Neural Network,RNN)[15]、棧式自動編碼器(Stacked Auto-Encoder,SAE)[16]和深度玻爾茲曼機(Deep Boltzmann Machine,DBM)[17]等。
CNN是應用最廣泛的深度學習模型之一。典型的CNN由輸入層、交替的卷積層和池化層(也稱下采樣層)、全連接層和輸出層組成。一個具有兩個卷積層和兩個池化層的CNN結構如圖1所示,其中C表示卷積層,S表示池化層。

圖1 CNN的結構
在CNN中,每一層的輸出可以看作是一組特征圖。卷積層的主要作用是提取特征,通過將本層的卷積核與上一層輸出的特征圖進行卷積運算實現;池化層的主要作用是對卷積層所提取的特性進行降維,減少計算量,避免過擬合,同時加強數據特征的不變性;全連接層與上一層輸出的所有的特征圖進行全連接,其輸出送到輸出層進行分類。
CNN的訓練過程可分為正向傳播和反向傳播兩個階段。在正向傳播過程中,數據從輸入層進入網絡,逐層推進,利用卷積層和池化層提取數據的特征,通過全連接層計算實際輸出;在反向傳播過程中,根據實際輸出與期望輸出的差值,利用最小化誤差反向傳播來調整網絡參數,完成網絡權值更新。訓練完成后,可將測試數據輸入到訓練好的CNN模型,以驗證網絡性能。
與一般的ANN的輸出僅依賴于網絡當前的輸入、不具有記憶能力相比,RNN具有自反饋的網絡結構。它的輸出和當前的輸入以及前面時刻的輸出均有關系,具有記憶能力,可以處理時間序列數據,但也導致了長期依賴問題。LSTM是解決長期依賴問題的一種特殊的RNN網絡結構。它的隱藏層在RNN隱藏層的基礎上增加了一個細胞結構[18],用來存儲網絡的長期狀態。LSTM網絡隱藏層的細胞結構如圖2所示。

圖2 LSTM隱藏層細胞結構
圖2中,x、h、y分別表示輸入序列、隱藏層序列和輸出序列,t-1、t分別表示前一時刻和當前時刻,f、i、o、C分別表示遺忘門、輸入門、輸出門和細胞狀態,tanh和σ分別表示雙曲正切和sigmoid激活函數。遺忘門的作用為是否遺忘上一層的細胞狀態,即是否繼續保存長期狀態Ct-1。輸入門的作用是把當前輸入狀態送入長期狀態C中。輸出門確定是否將C作為當前時刻的輸出。LSTM即通過遺忘門和輸入門共同作用于細胞狀態和輸出門,從而實現網絡長期狀態的保存,具有較長時間記憶能力。
強化學習是一種機器學習方法,如圖3所示,主要包含智能體(Agent)、環境狀態、動作和獎賞4個元素。強化學習的基本思想是使Agent從環境中獲得的累計獎賞值最大化,從而獲得解決問題的最佳策略[19]。具體來說,Agent執行一個動作作用于環境,環境接受動作后狀態發生改變,環境同時產生一個獎賞值反饋給Agent,Agent根據環境當前狀態和獎賞值確定下一時刻的動作。

圖3 強化學習示意
傳統的強化學習方法局限于樣本和動作空間較小的低維問題,而對于高維狀態空間問題則很難處理。DRL將深度學習與強化學習相結合,利用深度學習可以從高維數據提取特征的感知能力和強化學習的決策能力,以很好地處理高維狀態空間和動作空間下的決策問題。DRL可以分為基于值函數、基于策略梯度和基于搜索與監督的學習方法。Mnih提出的深度Q網絡(Deep Q Network,DQN)[20]即是一種應用較為廣泛的基于值函數的DRL方法。
Pan等提出一種基于深度學習和循環譜的正交頻分復用(Orthogonal Frequency Division Multiplex,OFDM)信號頻譜感知方法[21],分析了OFDM信號的循環自相關特性,利用時域平滑快速傅里葉變換累加算法得到其循環譜,并將循環譜轉換為灰度圖像,將頻譜感知問題轉化為圖像處理問題,采用改進的基于LeNet-5的CNN模型逐層提取深層特征。仿真結果表明,在低信噪比下條件下,該方法具有比傳統方法更好的感知性能。
文獻[22]提出基于深度學習和協方差矩陣圖的OFDM信號頻譜感知方法,首先建立了OFDM信號的頻譜感知模型,分析了協方差矩陣的結構特征,將協方差矩陣歸一化,轉化為灰度表示,建立協方差矩陣的灰度圖,然后在LeNet-5網絡的基礎上設計CNN網絡對訓練數據進行層次化學習,最后將測試數據輸入到訓練好的頻譜感知網絡模型中,完成OFDM信號的頻譜感知。
文獻[23]研究了用戶采用全雙工模式時的OFDM系統的頻譜感知問題,提出一種即使用戶端嚴重自干擾的情況下也能實現的全雙工頻譜感知方案。該方案以圖像的形式推導出OFDM導頻生成的循環平穩周期圖,并將其插入到CNN中進行分類。仿真結果表明,該方案對全雙工系統具有良好的感知能力,比傳統方法具有更高的檢測精度。
Xie等人利用基于深度學習的活動模式頻譜感知算法進行PU檢測[24],分為離線訓練和在線識別兩個階段。在離線訓練階段,CNN利用當前幀中感知數據的協方差矩陣、歷史感知數據的協方差矩陣和已標記的PU狀態數據訓練其參數。在在線識別階段,訓練好的CNN根據當前和歷史感知數據進行實時檢測。數值模擬結果表明,該算法在正確檢測概率方面優于估計相關器檢測和隱馬爾可夫模型檢測器。
文獻[25]將深度學習用于聲譜檢測,使用具有5個卷積層、3個最大池化層和2個全連接層的CNN對聲音進行二值分類,以判斷信號存在與否。結果顯示,在自建的聲音數據集上,訓練準確率約為98%,驗證準確率約為92%。
Zheng等人將頻譜感知作為一個分類問題,提出了一種基于深度學習分類的頻譜感知方法[26]。該方法將歸一化的信號功率譜作為CNN的輸入,使用8種類型的調制信號和噪聲對網絡進行訓練。仿真結果表明,該方法性能優于傳統的基于最大-最小特征值比的方法和基于頻域熵的方法,泛化能力強,能檢測各種未經訓練的信號。
有噪聲和干擾的情況下,文獻[27]利用AlexNet CNN進行頻譜感知,計算SU感知到的信號光譜圖,將其送入CNN檢測器進行分類,以確定PU信號是否存在。仿真結果顯示,CNN檢測器的性能優于經典的能量檢測器。
Liu等人利用深度CNN進行頻譜感知[28-29]。在文獻[28]中,以樣本協方差矩陣作為CNN的輸入,提出了一種新的協方差矩陣感知的基于CNN的檢測方案。該方案由離線訓練和在線檢測兩部分組成。與現有的基于深度學習的檢測方法用端到端神經網絡替代整個檢測系統不同,該方案利用CNN進行離線測試統計設計,開發了一種實用的基于閾值的在線檢測機制。特別地,根據最大后驗概率(Maximum a Posteriori Probability,MAP)準則,推導出頻譜感知模型離線訓練的代價函數,保證了所設計測試統計量的最優性。仿真結果表明,無論PU信號是獨立的還是相關的,該方法的檢測性能都接近估計-相關檢測器的最優界。在此基礎上,文獻[29]考慮了單用戶具有多天線情況下的基于協方差矩陣的CNN頻譜感知問題,并從理論上推導了該方法的性能。
文獻[21-29]研究的均為單個SU頻譜感知問題。單用戶頻譜感知容易受通信環境中衰落等的影響產生隱藏終端等問題。協作頻譜感知可在一定程度上減輕衰落的影響,提高頻譜感知的性能。魯華超等人基于信號的協方差矩陣,提出CNN協作頻譜感知算法[30]。在-13 dB的信噪比下,該方法的協作檢測概率達到0.9以上。
Lee等人提出基于CNN的協作頻譜感知框架——深度協作感知(Deep Cooperative Sensing,DCS)[31]。在DCS中,不管各個SU的感知結果是否被量化,融合各個SU感知結果的策略是通過訓練感知樣本自主學習的。仿真結果表明,DCS計算開銷低,感知精度高。
文獻[32]將協作頻譜感知與深度學習結合,用于檢測處于高度不確定狀態的潛在的非法無人機,將檢測潛在非法無人機看作一個四元假設檢驗問題,采用協作頻譜感知方案對頻譜進行測量,將一個時隙的感知數據轉換為一幅圖像送入CNN,將四元假設檢驗問題轉化為圖像分類問題。最后,仿真結果從無人機信號功率、感知時間長度等方面驗證了該方法的檢測性能。
Liu等人研究了集成深度學習協作頻譜感知問題[33-34]。針對OFDM信號的CR系統,采用集成學習(Ensemble Learning,EL)框架進行協作頻譜感知,提出集成深度學習協作頻譜感知方案,將循環譜相關特征作為CNN的輸入數據,使用bagging策略建立訓練數據庫,融合中心分別采用stacking[33]、semi-soft stacking[34]策略進一步學習SU的輸出。與傳統的協作頻譜感知方法相比,該方案在檢測概率和虛警概率上有明顯優勢。
LSTM具有良好的處理時間序列數據的能力。文獻[35]充分挖掘頻譜感知數據之間的時間相關性,將前面的感知事件與當前的感知事件一起輸入到LSTM網絡中進行頻譜感知。在此基礎上,Soni利用PU的活動統計信息基于LSTM進行頻譜感知[36],其中LSTM讀取原始數據對PU是否存在做出預測,預測結果與PU的在線周期、離線周期和忙閑度等3個PU的活動統計信息一起送入含有一個隱藏層的ANN進行PU存在與否的分類。該方案提高了頻譜感知性能,但只考慮了一個PU和一個SU的情況。
文獻[37]將LSTM和CNN結合進行頻譜感知。CNN從感知數據生成的協方差矩陣中提取能量的相關特征,將多個感知周期的能量相關特征序列輸入到LSTM中學習PU的活動模式,從而進一步提高檢測概率,并在有和沒有噪聲不確定性兩種情況下驗證了CNN-LSTM頻譜感知的性能。
Gao等人研究的協作頻譜感知中,各個SU采用由2個卷積層、1個全連接層、2個LSTM層和2個全連接層依次連接構成的深度網絡結構對PU信號進行感知[38],并將感知結果送到融合中心。融合中心使用一個由3個全連接層組成的神經網絡,通過訓練學習最優的融合規則,從而獲得高檢測概率和低虛警概率。
文獻[39]采用的頻譜感知神經網絡由一維CNNs(One Dimensional CNNs,1D CNNs)、LSTM和全連接神經網絡(Fully Connected Neural Networks,FCNN)3部分依次連接組成。1D CNNs從輸入數據中提取信號高層特征,降低輸出維數。LSTM提取信號的時序特征,從輸入數據的時序規律中區分信號和噪聲。FCNN細化LSTM的輸出特征,降低無關特征對決策結果的影響,分析LSTM的層數對感知性能的影響。結果表明,2層的LSTM具有最優的頻譜感知性能。
為了充分利用CNN和LSTM網絡建模能力的互補性,Xu等人提出一種并行的CNN-LSTM網絡頻譜感知模型[40]。該模型的主要部分由2個1D卷積層和2個LSTM層并行組成,具有64個卷積核的1D卷積層提取信號的空間局部特征,分別具有128個和64個隱藏節點的LSTM層提取時間特征。在8種調制信號上,它的感知性能優于CNN和LSTM感知方法。
Cai等人對CR網絡中相關衰落下的協作頻譜感知進行建模,采用分布式DRL方法學習最優的協作頻譜感知策略[41]。為了提高網絡的收斂速度,使用協調圖(Coordination Graph,CG)將分布式Q-learning的實現轉換為一個max-plus問題,并通過消息傳遞算法進行解決。仿真結果顯示,該方法性能優越。
Li等人考慮了無線網絡中信道之間的相關性,將動態頻譜環境建模為一個聯合馬爾可夫鏈[42]。假設SU具有頻譜聚合能力,可以同時訪問多個空閑信道,以實現信息的傳輸。在每個時隙,SU可以選擇由聚合容量決定的一段頻譜進行檢測,將此動態頻譜感知和聚合問題看作一個不完全可觀察馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP),采用DQN解決此問題。仿真表明,在不同的聚合能力和帶寬要求下,它均具有良好的魯棒性。
在感知節點輔助的CR網絡中,如果所有的感知節點都參與頻譜感知,那么能量消耗嚴重。文獻[43]研究了感知節點輔助的CR網絡中分布式協作頻譜感知的能量效率問題,利用圖形神經網絡和RL對感知節點進行評估,選擇既能滿足感知性能要求又可以保證分布式頻譜感知拓撲要求的感知節點參與協作,提高了網絡的能量效率。
在協作頻譜感知中,并不是越多的SU參與協作系統的感知性能越好。文獻[44]使用強化學習RL來選擇適當的SU參與協作,被選中的SU根據局部能量檢測來判斷PU是否存在,融合中心使用CNN來融合各個SU的感知結果,做出PU是否存在的全局判決。該方法減少了協作用戶的數量,性能優于基于SVM的協作頻譜感知等算法。
文獻[45]利用多Agent DRL方法進行CR網絡中的協作頻譜感知。每個SU從環境和其他SU處收集信息做出自己的感知決策,探索了DRL在學習過程中的探索和開發平衡問題,利用Hoeffding型置信上限(Upper Confidence Bounds with Hoeffdingstyle,UCB-H)來提高探索效率,將DQN與UCB-H結合進行協作頻譜感知。與傳統強化學習方法相比,該方法收斂速度快,獎勵性能更好。
Meng等人首次將深度學習方法用于壓縮頻譜感知,采用GAN深度學習框架提出一種深度壓縮頻譜感知GAN(Deep Compressive Spectrum Sensing GAN,DCSS-GAN)[46]。DSCC-GAN是端到端的數據驅動學習算法,不需要知道無線電環境的先驗統計信息。在1/8的壓縮比下,它的預測精度比傳統方法提高了12.3%~16.2%。
Cheng等人提出一種基于堆棧自編碼頻譜感知(Stacked Autoencoder Spectrum Sensing,SAESS)方法[47]來確定采用OFDM調制的PU是否存在。SAE-SS能夠自動從接收的信號中提取隱藏信息,對載波頻率偏移(Carrier Frequency Offset,CFO)、噪聲不確定性等具有更強的魯棒性。為了進一步提高低信噪比條件下SAE-SS的感知性能,Cheng又提出了一種基于時頻信號堆棧自編碼(SAE-TF)的頻譜感知方法[48]。與SAE-SS僅將接收的時域信號送入SAE進行訓練和僅提取信號的時域特征相比,SAE-TF將接收的時域信號及其快速傅里葉變換(Fast Fourier Transform,FFT)同時輸入到SAE進行訓練,利用從時域和頻域提取的特征實現了更高的感知精度。但是,SAE-TF的代價是計算復雜度較高。
文獻[49]提出了一種將深度自編碼(Deep Auto-Encoder,DAE)神經網絡和SVM相結合的頻譜感知方法,將接收的信號轉換成圖像送入DAE進行特征學習。DAE的輸出輸入到SVM中進行分類,以確定輸入的信號是PU或SU。
在文獻[50]中,訓練含有3個堆棧,每個堆棧包含4個殘差模塊的深度時間卷積網絡(Temporal Convolutional Network,TCN)對多徑衰落和噪聲環境下的調制信號進行頻譜感知。該方法性能優于基于特征值的頻譜感知方法。
Du等人提出了信息幾何與深度學習相結合的頻譜感知方法[51]。它將感知信號的協方差矩陣投影到統計流形上,每個感知信號看作是流形上的一個點,利用DNN對由信號間的測地線距離組成的數據集進行分類,得到頻譜感知分類器,以確定PU是否存在。
當訓練好的DNN應用于與訓練數據不同的通信場景時,深度頻譜感知的魯棒性不強。文獻[52]使用遷移學習(Transfer Learning,TL)來解決深度頻譜感知的魯棒性問題,考慮了沒有標記數據的TL和使用少量標記數據進行TL兩種情況,結果表明少量標記數據的TL魯棒性更強。
文獻[53]提出一種無監督深度頻譜感知(Unsupervised Deep Spectrum Sensing,UDSS)算法,采用變分自編碼高斯混合模型(Variational Auto-Encoder Gaussian Mixture Model,VAE-GMM)結構作為UDSS算法的核心,基于未標記的訓練數據迭代優化VAE-GMM的模型的參數完成數據的聚類任務,使用少量的帶噪標記數據完成聚類識別。該算法性能接近于基于監督學習的頻譜感知算法,且需要的標記訓練數據量少。
將深度學習應用于頻譜感知,為提高CR系統的頻譜利用率提供了一種新的途徑。通過近幾年的研究成果可以看出,基于深度學習的頻譜感知技術取得了一定的進步,但仍存在許多值得研究的問題:
(1)深度學習頻譜感知方法中使用最多的網絡為CNN,且大多數情形為單用戶頻譜感知,因此如何應用其他類型的深度網絡模型來進行協作頻譜感知從而進一步提高檢測概率值得進一步探討;
(2)模型泛化能力差,訓練好的深度學習頻譜感知模型要求測試數據與訓練數據具有相同特征才能進行頻譜感知,尋找更有效的訓練數據樣本特征提高模型泛化能力可作為后續研究內容之一;
(3)現有的深度學習頻譜感知方法大多為監督學習方法,可考慮將無監督深度學習方法應用于頻譜感知,使頻譜感知更加簡單、智能;
(4)已有的深度學習頻譜感知考慮的是靜態場景,即PU狀態不隨時間改變,因此可考慮PU的狀態動態變化的場景,將深度學習與動態因素結合,使頻譜感知結果更加準確。
本文對基于深度學習的頻譜感知方法進行總結,介紹了深度學習頻譜感知研究文獻中應用最廣泛的3種深度學習模型和方法——CNN的結構及其訓練過程、LSTM的隱藏層細胞結構以及強化學習的基本思想,并在此基礎上綜述了基于CNN、LSTM、DRL和其他深度學習模型的頻譜感知方法,最后進行了總結和展望。現階段基于深度學習的頻譜感知方法有一定的研究成果有問題待解決,值得進一步深入研究。