殷贊 王超杰 程子恒 陳渤 甄衛民 靳睿敏 楊會贇
(1.西安電子科技大學, 西安 710071;2.中國電波傳播研究所, 青島 266107)
自動調制識別是通信識別、電子偵察、干擾檢測等領域中重要的環節.相比需要人為地提取特征參數的傳統自動調制識別方法,基于深度學習的深層神經網絡方法通過層級聯的非線性處理單元進行特征提取和轉換,可以自動優化提取信號特征,并最大限度地減少分類誤差,已經在圖像處理、自然語言處理等領域取得了巨大的成功.特別是近幾年來,基于卷 積 神 經 網 絡(convolutional neural network, CNN)的調制方式自動提取特征分類算法在不斷地涌現.
X.Xie 等人[1]使用GoogleNet 和AlexNet 等方法來處理由原始調制信號轉換得到的星座圖等圖像類型數據,實驗結果表明,基于深度學習的方法能夠自動提取信號特征,比支持向量機和傳統的基于累積量的方法能獲得更好的識別性能.2017 年,Y.Lin 等人[2]提出了一種復雜信號的轉換算法,命名為等勢星球圖,該圖像在星座圖上有不同的色彩區域,數據集分別采用了AlexNet、GoogLeNet、ResNet 和VGG,不同的模型在不同的信噪比(signal-to-noise ratio,SNR)下獲得了相似的性能.2018 年,Y.Lin 等人[3]繼續他們之前的工作,提出了一種使用輔助分類器生成對抗網絡的數據增強方法,為了避免不收斂問題,采取了多種措施,該方法與基準相比,精度提高了0.1%~6%.此外,Y.Lin 等人[4]還提出了一個基于生成對抗網絡的半監督策略來利用未標記的數據,同時,在等勢星球圖數據集上進行了實驗,其方法可以處理三種不同的訓練數據來源,包括帶標簽的真實圖像,沒有標簽的真實圖像,以及來自生成器的圖像.
Y.Wang 等人[5]提出一種基于深度學習的調制識別方法,由于基于I/Q 樣本對QAM 信號識別率不高的原因,引入輪廓星圖像作為I/Q 樣本的補充.Y.Zeng 等人[6]使用短時離散傅里葉變換將一維無線電信號轉換為頻譜圖,采用高斯濾波器來降低噪聲,實驗在RadioML2016.10a 數據集上進行,結果表明,論文提出的具有降噪功能的方法在高SNR 下識別率得到一定的提升.
T.J.O ’Shea 等 人[7]提 出 使 用GNU Radio 的RadioML2016.10 數據集,并且該數據集已經成為訓練和評估調制識別方法性能的基準數據集.2017 年,T.J.O’Shea 等人[8]應用卷積長短期深度神經網絡(convolutional long-short-term deep neural network,CLDNN)進行調制識別,試圖為射頻調制識別尋找最佳的濾波器數量和濾波器尺寸,并評估了網絡深度和濾波器尺寸的影響.R.Yin 等人[9]使用RadioML2016.10a 數據集對傳統的基于高階累積量的神經網絡和深層神經網絡(deep neural network,DNN)進行了性能比較,仿真產生了包含19 種數字調制信號的數據集,并在短時VGG 和短時ResNet 上進行了實驗,結果比O’Shea獲得了更好的優勢.S.Rajendran 等人[10]提出了一種基于長期記憶網絡(long short-term memory,LSTM)的數據驅動調制分類模型,該方法的直觀性是基于不同的調制類型表現出不同的幅度和相位特性,能夠有效地學習這些時間相關性.Y.Lin 等人[11]提出了一種新的基于激活最大化的濾波器級修剪技術,省略了不太重要的卷積濾波器,該方法考慮了深度學習部署設備的資源約束,與其他方法相比,通過基于激活最大化方法修剪的CNN 可以達到相同或更高的分類精度.何榮榮等人[12]設計了一種基于軟閾值的深度學習模型,在CNN 的基礎上加入軟閾值函數,將I/Q 數據轉化為幅度相位信息作為模型的輸入,CNN 用于提取幅度相位數據中的特征,軟閾值學習網絡可以針對不同特征設置不同閾值,用于濾除樣本噪聲,提高了低SNR 條件下的識別率.Z.Yin 等人[13]設計了一種基于等勢星座圖的CNN 深度學習模型,可以明顯提升數字調制信號的識別率.
從近幾年的相關工作可以看出,雖然基于CNN的自動提取特征分類算法犧牲了一定物理可解釋性,但增強了信號特征的表示性,更加符合自動調制識別算法自主性、智能化的追求.然而,由于不理想信道,信號在傳輸過程中存在多徑衰落、陰影衰落、多普勒頻移等現象[14-16],加上環境中的噪聲,限制了調制識別的分類精度,進而導致了低SNR 下的調制識別充滿挑戰,也是調制識別中的熱門研究課題.因此,本文針對原始的I/Q 序列信號,在一維CNN 模型中引入了一個即插即用的注意模塊[14-19]來提高精確提取特征的能力,從而提高了模型在低SNR 條件下的正確識別率.
眾所周知,CNN 作為生物學啟發人工智能較為成功的案例之一,其從神經科學實驗開始,比相關的計算模型發展得早.得益于其優異的特征提取能力,CNN 近些年在圖像識別、語音識別、目標檢測等領域均得到了非常成功的應用.在CNN 的傳輸計算中,使用原始圖像作為輸入,通過卷積層、池化層對圖像提取特征,降低了特征圖尺寸,同時也降低了全連接層中需要訓練的參數量,加快了訓練過程,并且訓練的網絡模型具有平移、縮放和旋轉不變性特點,增強了網絡泛化性能.本文提出了一種基于注意力機制的CNN 調制識別模型(sequential convolutionbased attention model, SCAM),并將其應用于處理原始I/Q 信號,利用注意力機制有效地從低SNR 情況下提取特征,提高了自動調制方式的正確識別率.
調制識別可以看作一個多分類問題,本文以原始I/Q 信號作為輸入,通過神經網絡提取特征后進行調試方式的識別.假設基帶時間序列為s(n)、加性高斯白噪聲為g(n),接收到的采樣信號如下:
式 中:A表 示 幅 度 系 數;f0表 示 頻 率; θ0表 示 相 位;g(n) 表示均值為0 方差為的復加性高斯白噪聲.
CNN 中存在著空間(Spatial)和通道(Channel)的概念.然而,不是特征空間中每個區域都有助于提取最終信息,并且每個特征通道的重要性也是不同的.因此,對于原始的I/Q 序列信號,本文設計了如下的一維CNN 結構及相應的注意力機制,從而可以有效地利用不同空間和通道中的特征信息,幫助CNN 更好地完成干擾信號的調制模式識別任務.具體的注意力機制網絡結構如圖1 所示,給定輸入的特征向量表示為F=RS×C,其中S表示空間維度,C表示通道維度.

圖1 基于一維CNN 的注意力機制網絡結構Fig.1 Attention structure based on one-dimensional CNN
通道注意力模塊輸入的特征向量F首先在空間維度S上進行兩種不同方式的池化(最大化池化和平均池化),得到兩個池化后的特征向量ax=MaxPool(F)∈R1×C和=AvgPool(F)∈R1×C,并 將 兩個特征向量分別經過一個三層的全連接網絡進行映射.該全連接網絡的輸入輸出層維度均為C,中間隱層的維度設置為C/8.具體表示如下:
空間注意力模塊輸入特征向量在通道維度C上經過兩種不同形式的池化操作(最大化池化和平均池化),得到兩個池化后的特征向量=MaxPool(F)∈RS×1和=AvgPool(F)∈RS×1.將得到的兩個特征向量進行拼接后,利用一維CNN 進行特征提取.其中一維CNN 的卷積核寬度為2,步長為1.最終空間注意力模塊的輸出可以由輸入的特征向量與注意力權重向量進行點乘得到,具體形式如下:
在具體的網絡實現中,兩個注意力模塊中的激活函數 σ (·)都采用Sigmoid 激活函數.
本文提出的基于I/Q 序列信號的SCAM 結構如圖2 所示.

圖2 基于I/Q 序列信號的SCAM 結構Fig.2 Structure of modulation recognition model based on I/Q sequence signal SCAM
在本文基于I/Q 序列信號的SCAM 中,采用了和ResNet 類似的網絡結構設計,SCAM 共由5 個卷積注意力模塊(Block)組成.在每個Block 內部,輸入的特征向量Fin∈RB×C×H×W會先后經過兩組BatchNorm和1D-CNN,其中B為樣本維度,C為通道維度,H為特征向量的高度,W為特征向量的寬度.每一個Block 的具體網絡表示形式如下:
該網絡卷積核的寬度為3、步長為1、激活函數為 ReLU(·),采用zero-padding 的操作保證卷積前后向量維度的一致性;同時還采用short-cut 的網絡結構,將輸入特征向量Fin直接加到隱層特征向量Fhid上,從而有效緩解了梯度消失的現象,并且保留了更多原始特征的信息,進而提升了特征向量的表征能力,具體的short-cut 網絡形式如下:
其中的卷積操作是為了保證 C onv(Fin)和Fhid的通道數一致,從而便于進行特征的相加操作.最終經過激活函數得到Block 的輸出Fout,再將其通過MaxPool 操作對特征維度減半后作為下一個Block 的輸入.具體的Block 結構中,基于I/Q 序列信號的調制識別模型采用的通道數分別為[64, 128, 256, 512, 512].
為了對原始I/Q 序列信號的時域和頻域進行聯合識別,本文對原始的I/Q 信號X∈R2×L(L為信號長度)和經過傅里葉變換的信號 FFT(X)∈R2×L分別利用SCAM 進行特征提取,并通過全連接層進行特征融合后進行多域聯合識別,具體形式如下:
值得注意的是,本文所采用的特征拼接的方式對信號調制類型進行聯合識別的模型框架,不僅僅局限于時域特征和頻域特征的聯合識別,還可以被拓展到其他多個域的聯合識別,例如利用等勢星球圖提取的深度學習特征以及傳統基于信號預處理和機理分析技術所提取的專家定義的特征.
如1.4 節所述,融合特征經過全連接層得到預測調制類別的Logics,再經過Softmax 激活函數得到調制類別的Probs,選擇概率最大的類別作為模型預測結果.其中Softmax 函數的原理為:每一個類別都有對應的特征值,該類的特征經過一個exp 函數后占所有類別特征之和的比例可判定是這一類的概率.假設一個訓練樣本得到的最后一層特征為x1,x2,x3,...,xn, 則Softmax 分類器將該樣本判為第i類的概率為
對于原始I/Q 數據,本文采用RadioML2016.10a 的公共數據集,由O’Shea 等人提供,其中包括11 種調制類型信號,分別為BPSK、QPSK、8PSK、QAM16、QAM64、GFSK、CPFSK、PAM4、WBFM、AM-SSB 和AM-DSB.每一幀信號包含128 次采樣,被表示為2×128 的矩陣,其中2 個維度分別是復數信號的實部和虛部.該數據集使用功率延遲剖面、頻率選擇性衰落、本地振蕩器偏移和加性白高斯噪聲.樣本的SNR 均勻分布在-20 dB 至18 dB 之間,步長為2 dB.
根據O’Shea 提供的數據劃分,RadioML2016.10a 數據集共包含110 000 個訓練樣本和110 000 個測試樣本,本文將訓練樣本進行再次劃分,包含10 000 個驗證集樣本用于模型超參數的選擇.
在訓練過程中,本文采用學習率為10-3的Adam優化器對模型進行訓練優化,選用類別標簽的交叉熵作為損失函數,并且將Batchsize 設置為256,以便保證結果的可重復性以及論文結論的普適性.
如圖3 所示,將基于CNN 的I/Q 序列調制識別模型[8]的識別結果標注為VT_CNN_Time,本文在此基礎上引入頻域特征,識別結果標注為VT_CNN_Time_Freq.基于I/Q 序列時域特征的SCAM 識別結果標注為SCAM_Time,引入頻域特征后識別結果標注為SCAM_Time_Freq.圖中調制方式識別率是統計平均結果.

圖3 SCAM 與VT_CNN 單域和多域調制識別準確率對比Fig.3 Comparison of recognition accuracy of single domain and multi domain modulation between SCAM and VT_CNN
從模型復雜度角度分析,基線VT_CNN 的參數量為2.6 M, 而本文提出的SCAM 的參數量為3.9 M,雖然比VT_CNN 的參數量增加了50%,但是在人工智能大模型流行的當下,3.9 M 的參數量仍屬于輕量化的模型,并不會消耗過多的計算資源.
從實驗結果分析得到,SCAM 通過巧妙的網絡結構設計,在調制類型識別方面,不論是單域還是多域情況下,識別性能整體上均優于傳統的VT_CNN,即SCAM_Time 優于VT_CNN_Time,且SCAM_Time_Freq 優于VT_CNN_Time_Freq,在SNR 大于0 dB 的區間內,性能均有約10%識別率的提升.進一步分析還可以得到,通過引入頻域特征進行多域聯合調制識別,不論是傳統的VT_CNN,還是本文提出的SCAM,性能都能夠有進一步地提升空間,即VT_CNN_Time_Freq 的識別結果優于VT_CNN_Time,SCAM_Time_Freq 的 識 別 結 果 優 于SCAM_Time.整體來說,在SNR 大于0 dB 的區間內,相對于只利用時域信息的調制識別模型,在經過多域融合后,模型的性能均有明顯的提升,同時驗證了本文提出的多域聯合調制識別方法的普適性和可拓展性,也啟發著我們繼續深入研究多域聯合的可行性.
為進一步證明SCAM 在不同調制類型下的識別有效性,本文選擇在幾個SNR 下實驗數據集上的識別結果,并以混淆矩陣的形式表示出來,如圖4 所示.

圖4 不同SNR 下SCAM 調制識別的混淆矩陣結果Fig.4 Results of confusion matrix of SCAM model under different SNR
通過分析圖4 的結果可以得到:從整體上講,隨著SNR 的增加,本文算法的識別準確率逐漸提高,SNR 大于-5 dB 時,識別準確率可以達到50%左右;SNR 大于10 dB 時,識別準確率可以達到87%左右,證明了本文方法在低SNR 的情況下,相比于其他模型具有更高的自動調制識別準確率.具體來說,針對調制方式為8PSK 的樣本,SCAM 的識別率隨著SNR 增加提升明顯,從SNR 為-4 dB 時的識別率低于50%,到SNR 高于0 dB 時的識別率高于90%.而針對調制方式為AM-DSB、QAM16 和QAM64 的樣本,SCAM 的識別率隨著SNR 增加提升不明顯,尤其是QAM16 和QAM64較難區分,這也啟發著我們引入更多域的特征去增強可分性,提升識別的性能.
針對低SNR 情況下如何提高自動調制識別準確率的問題,本文構建SCAM.該SCAM 通過在一維CNN 模型中引入注意力機制,能夠在低SNR 條件下有效地提取原始I/Q 序列信號中的特征信息,并且對多域特征信息進行聯合提取.經實驗證明,不論是單域還是多域情況下,調制識別性能整體上優于傳統的VT_CNN,在SNR 大于0 dB 的區間內,性能均有約10%的識別率提升,即所引入的注意力機制和多域特征融合的方式能夠有效提高低SNR 下I/Q 信號的調制識別性能.下一步工作將在現有模型基礎上擴展更多域特征進行融合,從而進一步提高識別準確率.