張 軍 符杰林* 林基明
1(桂林電子科技大學認知無線電與信息處理教育部重點實驗室 廣西 桂林 541004) 2(廣西高校衛星導航與位置感知重點實驗室 廣西 桂林 541004)
在無線通信領域,通信調制信號的識別技術一直以來都是各國研究的熱點,它在軍事及民用領域有很高的使用價值。目前,調制識別技術有兩大類方法:基于決策論的調制識別和基于特征工程的調制識別。前者具有完備的理論基礎,但算法的理論推導復雜,且需要充分的先驗知識,信號識別率不高;后者是對信號進行關鍵特征提取,如信號的高階累積量[1]、循環譜特征[2]、譜特征等,然后針對不同調制信號的特征使用分類器進行分類識別。上述兩類方法都需要人工參與提取特征,并且針對不同的信號通常只能提取表層的特征。因此,需要尋找一種方法,能從原始信號源中提取有利于信號識別的深層特征,而深度學習為此提供了一個強有力的框架。
文獻[3-5]率先將深度學習應用至調制信號識別領域。為了使研究人員更好地研究與比較,文獻[6]用GNU Radio生成具有同相和正交信息的不同調制信號的開源數據集。O’Shea等利用基帶IQ信號訓練不同的神經網絡,合適的網絡模型具有較高的識別率。文獻[7]將原始IQ數據和計算所得的高階累積量組合在一起表示調制信號,并用三層卷積層和一層長短期記憶層網絡進行訓練分類,但需要預先計算每個信號的高階累積量。Li等[8]利用信號的循環譜和深度自編碼器,完成了對FSK、PSK、ASK、MSK和QAM五類調制信號的識別,但需要預處理獲得每個信號的循環譜信息。文獻[9]利用眼圖和卷積神經網絡對4PAM等信號進行識別。文獻[10]將信號的星座圖轉換為彩色圖,并結合卷積神經網絡對ASK、PSK和QAM等信號進行識別,但都需要對信號進行預處理成圖片。文獻[11]不需要預處理,利用LSTM網絡,當信噪比為-2 dB時,針對八類數字調制信號和三類模擬調制信號的識別率能達到92%,但是信號在經過卷積層后會丟失部分時序信息,并且在低信噪比下識別率不高。文獻[12]提出的CLDNN(Convolutional,Long Short-Term Memory,Fully Connected Deep Neural Networks)將CNN、LSTM和DNN 3種網絡融合在一起,被廣泛用于解決語音識別問題,實驗證明該網絡可以獲得比單一的CNN、LSTM和DNN網絡有更好的效果。
對此,本文利用CNN擅長減小頻域變化,LSTM能夠提供長時記憶,擅長對時域信息進行建模,DNN適合將特征映射到獨立空間的特點[12],設計了一個適用于調制信號識別的CLDNN網絡。該方法充分利用了深度學習端到端處理的優勢,能夠提取信號分類的關鍵信息,并對11種常見的調制方式進行分類,與已有的方法進行比較,識別精度有所提升。
CLDNN首先在語音識別領域中有廣泛的應用,該網絡通用結構是輸入層與時域相關的特征,連接幾層CNN來減小頻域變化,將CNN的輸出輸入至幾層LSTM來減小時域變化,LSTM最后一層的輸出輸入至DNN,目的是將特征空間映射到更容易分類的輸出層。對此,為實現調制信號的識別,本文建立了適用于調制信號識別的CLDNN網絡模型,如圖1所示,由三部分組成:1) 三層卷積層;2) 一層長短期記憶網絡;3) 兩層全連接層和分類器。

圖1 CLDNN網絡模型
本文網絡的輸入層為IQ兩路時域信號的原始數據,2×128代表了每個樣本的數據矩陣,128為同相正交分量的采樣點個數。首先將原始數據輸入至CNN網絡,第一層卷積層由50個大小為2×7的卷積核與輸入進行卷積,輸出為一維的特征數據,將該層的特征輸出與后面兩層卷積層短連接,加強了特征的傳遞和重用。卷積層均使用ReLU函數作為激活函數。將第一部分中每層卷積層的輸出進行級聯,輸入至第二部分LSTM層,目的是為了充分提取信號的時序特征。
LSTM的記憶功能主要由三個控制單元組成,分別是遺忘門ft、輸入門it、輸出門ot,如圖2所示。
圖2中,Ct表示當前LSTM單元的細胞狀態,保留了歷史信息;xt和ht分別表示當前單元的輸入信息和輸出信息。具體計算過程如下:
ft=σ(Wf·[ht-1,xt]+bf)
(1)
式中:ft遺忘門用來計算t時刻之前的狀態對當前狀態的影響,若ft為1,則保留全部歷史信息,若為0,則不參考之前的信息[13];σ為sigmoid函數;Wf為輸入和遺忘門之間的權重矩陣;bf為連接的偏置。
it=σ(Wi·[ht-1,xt]+bi)
(2)
(3)
(4)

ot=δ(Wo·[ht-1,xt]+bo)
(5)
ht=ot×tanh(Ct)
(6)
式中:ot輸出門與Ct用來更新t時刻當前單元的輸出ht;Wo為輸入和輸出門間的權值矩陣,bo為偏置。
第三部分,將LSTM層輸出至全連接層和softmax層,主要用來對輸入進行降維分類,第一層全連接層節點大小設置為128,后一層節點大小設置為11,以11維的概率向量形式輸出,以最大概率值的索引作為分類結果。同時輸出層定義一個交叉熵損失函數,以降低損失函數為目標進行網絡模型的訓練。此外,為防止過擬合,訓練時采用Dropout正則化技術,每隱藏層神經元均以0.5概率的數量保持原有的狀態,即這些神經元不參與前向傳播和反向傳播計算。
為驗證模型的有效性,本文采用RML2016.04c及RML2016.10a[14]兩個開放數據集進行研究,并且這兩個數據集的數量及類型適合本文的工作。數據集中包含了11類不同調制信號的樣本集,分別是8類數字調(BPSK,8PSK,CPFSK,GFSK,PAM4,QAM16,QAM64,QPSK)和3類模擬調制(AM-DSB,AM-SSB,WBFM),信號在信噪比-20~18 dB范圍分布,間隔為2 dB。在不同SNR條件下,每個樣本信號均由IQ兩路組成,采樣點數為128個。此外,兩個數據集為模擬真實環境,在模擬信道中考慮了中心頻移、多徑、衰落和加性高斯白噪聲等影響因素。
實驗首先對CLDNN網絡的性能及部分參數進行分析,采用RML2016.10a數據集共220 000個樣本,將其中的70%作為訓練集,30%作為測試集,從卷積層的數量、卷積核的數量及卷積核的大小考慮,確定一個網絡性能最優的卷積狀態,然后分析不同LSTM層的數量對網絡性能的影響。最后在兩個數據集上,將本文網絡模型與文獻[1]和文獻[11]中的方法進行識別性能比對。本文所有網絡模型均采用Tensorflow作為后端的Keras框架搭建,實驗硬件采用PC,配有六核酷睿i7- 8750CPU,8 GB內存,搭載Nvidia GTX1050Ti 4G顯存顯卡。
若卷積層數少將提取不出深層的特征信息;過多則提升了模型的復雜度,需要訓練更多的實驗參數,容易出現過擬合的情況。因此本實驗需要討論卷積層數對識別性能的影響。固定圖1 CLDNN網絡的卷積核數量為50,大小為×7,保持LSTM層和全連接層結構不變,從2層卷積層網絡開始實驗,并逐次增加卷積層數,增加的卷積核數量和大小均固定為50、1×7,在實驗環境相同的條件下進行模型的訓練及測試集的分類。記錄訓練好的不同網絡模型對測試集的分類時間,并且當信噪比大于-2 dB,計算不同卷積層數下的正確識別率如表1所示。由表1可知,當采用3層卷積層數時網絡具有最高的識別率和較短的分類時間;隨著卷積層數的增加,網絡的性能下降,說明當網絡采用3層卷積時,卷積層提取的深層特征能夠充分反映不同調制信號,繼續增加卷積層數會提取一些冗余特征,同時提升模型的復雜度。故下文仿真中卷積層數選取3層。

表1 不同卷積層數對識別率、分類時長的影響
為了分析卷積核數量對調制性能識別的影響,固定由2.1實驗得出的最佳卷積層數3層,同時固定其他網絡結構不變,在30~70間更改卷積核數量,尋找一個核數使識別性能最優,實驗得到不同卷積核數對識別率的影響如圖3所示。由圖3可知,從低信噪比0 dB開始,識別率趨于平穩,不同核數量的識別率近似,最終平穩在82%~85%之間,且當核數為50時具有較高的識別性能。
此外,卷積核尺寸的不同能提取不同程度上的信號特征,尺寸過大會忽略一些空間信息,過小又不能提取關鍵的特征。因此,固定先前實驗中的參數,將第一層卷積設定為2×,后面兩層設定為1×,本實驗考慮×3至×8間的不同卷積核尺寸對識別性能的影響如圖4所示。由圖4可以看出,從0 dB開始,不同卷積核尺寸的識別性能趨于穩定,并且當尺寸大小為×7時有相對較好的識別率,在高信噪比時,相對于×4的核尺寸高了近3%。
LSTM層能夠提取信號的時序特征,LSTM層數過少可能導致時序特征提取不完全,過多則增加了網絡的復雜度,可能導致識別性能的降低。本實驗需要考慮不同LSTM層數對網絡識別性能的影響。固定之前實驗的網絡結構,將第一層的LSTM輸出大小為250,后續增加層數時LSTM輸出大小設定為128。記錄不同網絡模型對測試集的分類時間,并且當信噪比大于-2 dB,計算不同LSTM層數下的正確識別率如表2所示。由表2可知,增加LSTM層數,使網絡需要訓練的參數個數大量增加,相應地通過網絡對測試集的分類時間也持續遞增,但對信號的正確識別率成遞減趨勢,表明一層LSTM的識別性能高于多層,可由一層LSTM充分提取信號的時序特征。

表2 不同LSTM層數對識別率、分類時長的影響
實驗分析比較本文CLDNN網絡、文獻[1]的CNN網絡和文獻[9]的CNN_LSTM網絡。CNN網絡主要由兩層卷積層組成,第一層為64個大小為1×3的核,第二層為16個2×3的核;CNN_LSTM在CNN網絡基礎上添加了LSTM層,并對核數進行了修改。3個網絡模型在兩個數據上的識別率如圖5和圖6所示,可知本文CLDNN網絡的識別性能最好,其次是CNN_LSTM,CNN網絡性能相對較差些。從信噪比-6 dB開始,本文網絡的識別性能始終高于CNN_LSTM和CNN網絡。由圖5所示,當SNR為-2 dB時,CLDNN、CNN_LSTM和CNN的識別率分別達到95.13%、92.21%、89.42%,但隨著SNR的增大,識別精度出現抖動現象,這是由于RML2016.04c數據集中樣本數量不足,且每類調制信號數量不等導致的。由圖6可知,在RML2016.10a中,當數據量充足且每類調制信號數量相等時,網絡總體趨勢比較平穩,最終三類模型分別穩定在84.84%、82.88%和75.64%。
當信噪比大于-4 dB時,計算三類網絡模型的平均識別率如表3所示;三類網絡所需訓練的參數個數及對1 000個信號的分類時間如表4所示。從表3可以看出,CLDNN在兩個測試集的識別率最高,CNN的識別性能最差。在兩個數據集中,CLDNN比CNN_LSTM識別率分別高了2.01%和2.6%,這是由于不同信號具有不同的幅度及相位信息,三層卷積層能充分提取信號的深層特征;并且為保留原始信號的時序特征,將每層卷積的輸出級聯后輸入LSTM層,LSTM能提供長時間的記憶,減小時域變化;最后再輸出至全連接層和softmax層,將特征空間映射到更能分類的輸出層。由表4可知,CLDNN需要訓練的參數個數高于后兩者,針對1 000個信號的分類時間也相應的增加,這是由于網絡的加深,需要計算的參數量加大導致的,CLDNN對每個信號的分類時間比CNN_LSTM多約38 μs。因此,本文設計的網絡模型將復雜度的提高作為代價,換來了識別精度上的提升。
當SNR為-4 dB至12 dB時,CLDNN對各類調制信號識別結果如表5所示。為更直觀地說明模型對每種調制信號的分類性能,圖7是在信噪比為0 dB下的混淆矩陣圖。當信噪比大于0 dB,該模型對各類信號的識別率趨向平穩,對AM-DSB、BPSK、CPFSK、PAM4和QPSK的識別率接近100%,對8PSK、GFSK和AM-SSB的識別率在95%左右。由圖7可知,CLDNN網絡將WBFM錯誤地識別成AM-DSB,將部分QAM64識別成QAM16,從而導致了對QAM64、WBFM和QAM16三種信號的識別率低。如何利用深度學習進一步提升識別率是后期需要改進的方向。

圖7 SNR=0 dB上的混淆矩陣圖
本文對多類數字、模擬調制信號的自動調制識別進行了研究。利用了CNN減小頻域變化、LSTM提取時序特征的能力及DNN提取助于分類特征的能力,設計了適用于調制信號識別的CLDNN端到端網絡模型。本文方法降低了人工參與度,訓練好的網絡能有效排除噪聲的干擾,并且在低信噪比下提高了信號的識別率。實驗結果驗證了方法的可行性,具有實際的應用價值。