朱政宇,陳鵬飛,王梓晅,鞏克現,吳迪,王忠勇
(1.鄭州大學電氣與信息工程學院,河南 鄭州 450001;2.鄭州大學河南省智能網絡和數據分析國際聯合實驗室,河南 鄭州 450001;3.鄭州大學電子材料與系統國際聯合研究中心,河南 鄭州 450001;4.信息工程大學數據與目標工程學院,河南 鄭州 450001)
短波通信憑借其設備簡便、通信距離遠等優點,廣泛應用于多種通信場景中。為保證在不同通信系統下信息的有效傳輸,短波頻段有種類繁多的通信協議[1]。由于短波信道存在多徑衰落、多普勒頻移以及人為干擾等特點,識別短波信號所屬協議具有一定的難度。
目前,用于通信協議識別的傳統算法主要分為基于特征提取的識別算法[2-3]和基于模板匹配的識別算法[4-6]。基于特征提取的識別算法通過對提取的信號特征進行分類實現信號協議識別,文獻[2]使用調制識別中的熵距離參數分離頻移鍵控(FSK,frequency shift keying)模式的110A[7]與STANAG4285[8]這2 種信號,但該算法僅適用于識別調制方式不同的信號;文獻[3]通過識別信號中心頻率、調制方式以及編碼方式等屬性形成信號特征向量,使用支持向量機對特征向量進行分類實現信號識別,但無法解決在低信噪比(SNR,signal to noise ratio)下信號特征難以提取的問題。文獻[4]提出使用時域子序列匹配算法識別STANAG4285 等相移鍵控(PSK,phase shift keying)信號,并提出一種頻域波峰匹配算法識別2GALE[9]等FSK 信號;文獻[5]通過對待識別信號與構造的信號頻譜模板進行相關運算,實現對未知短波協議信號的識別,但算法性能受頻偏影響較大;文獻[6]在頻域模板匹配算法的基礎上使用相位差分抑制頻偏,對特定短波信號的識別具有較好的效果;但基于模板匹配的識別算法存在判決門限難以確定、對先驗信息需求高等缺點。
近年來,隨著深度學習的快速發展,神經網絡算法廣泛應用于信號處理領域,給通信信號識別技術帶來了新思路。在信號調制識別領域,文獻[10]使用原始同向正交信號作為輸入,設計一維卷積神經網絡(CNN,convolutional neural network),能夠有效識別5 種調制方式信號。文獻[11]關注調制信號的時頻特性,使用時頻圖作為CNN 的輸入,對多種信號取得了較好的識別效果。針對閉集識別存在易把干擾信號識別為有效信號的問題,文獻[12]對神經網絡中常用的Softmax 分類器加以改進,并采用改進的GE2E(generalized end-to-end)[13]損失函數,達到開集識別的效果。在短波信號識別領域,文獻[14]使用信號時頻圖作為ConvNet 輸入,對具有2、4、8 這3 種載波數以及窄、中、寬這3 種載波間隔的9 種模式進行區分,但所識別的信號模式有限;文獻[15-16]利用特定信號在時頻圖上呈現的視覺特征,使用卷積神經網絡對灰度時頻圖進行特征提取和映射,實現信號所屬協議的識別,識別準確率與傳統方法相比有明顯提升。CNN 感受野大小對捕捉時頻圖中的特征差異有重要作用,文獻[17]將ResNet[18]中的卷積核改進為擴張卷積核,在不增加參數量的情況下擴大感受野,進一步提升短波協議信號的識別率,但仍未解決CNN 中卷積層存在的感受野相對有限的問題。
Swin-Transformer[19]是一種基于自注意力機制[20]的神經網絡模型,有對全局特征進行建模的能力,可以捕捉不同短波協議信號在時頻圖上呈現出的視覺特征差異。基于此,本文提出一種基于 Swin-Transformer 的短波信號協議識別算法。在多種復雜信道環境下,與CNN 識別算法相比,所提算法的信號識別準確率明顯提升。本文具體研究工作如下。
1) 分析了短波協議信號在時頻圖上視覺特征的成因,建立一個用于訓練神經網絡的短波信號時頻圖數據集。數據集包含9 種常見的短波協議,為了模擬真實通信環境并提高數據多樣性,在高斯白噪聲環境下進行仿真,并對信號進行隨機截斷,模擬非合作通信無法確保從起始時刻接收信號的場景。
2) 研究了引入自注意力機制的Transformer 模型結構以及Swin-Transformer 的特點,并分析了Swin-Transformer 可以用于短波協議信號識別的原因。提出一種基于Swin-Transformer 的短波協議信號識別算法。
3) 仿真結果驗證了所提算法的有效性。在短波多徑時延、瑞利衰落以及強混疊的信道環境下,基于Swin-Transformer 的短波信號協議識別算法均具有較高的識別率。與現有算法相比,所提算法在識別率上明顯提升。
不同短波通信協議規定的幀結構、調制方式、載波中心頻率以及信號帶寬等差異較大,而這些屬性的差異導致信號在時頻圖呈現出不同的視覺特性。其中,CLOVER2000[21]是一種典型的采用多載波調制的短波協議,其采取了多種技術來適應短波復雜信道環境,在短波通信中有廣泛應用;LINK11[22]作為一種活躍時間較長的短波協議,是LINK16 和LINK22 協議的研發基礎,對后續協議的研究有重要參考意義。因此,本節以CLOVER2000 和LINK11 協議為例,對短波協議信號的時頻特性做出具體分析。
時頻分析結合時域和頻域的特點,同時將信號的時間信息和頻率信息展示在一幅時頻圖中,對時變非平穩信號的分析具有獨特優勢。常用的時頻分析方法主要有短時傅里葉變換(STFT,short time Fourier transform)、Wigner-Ville 分布和小波變換等。STFT 由于計算量小、不存在交叉項等優點被廣泛應用[23],本文采取基于短時傅里葉變換的時頻分析方法。
短時傅里葉變換的定義為

其中,t為時間,f為頻率,s(t)為信號,w*(·) 為窗函數。
CLOVER2000 信號的波形由8 個音頻并行組成,其中,最低頻率為625 Hz,最高頻率為2 375 Hz,相鄰音頻發送間隔為250 Hz。時域上,每個音頻的發送時序按照音頻序號從小到大間隔2 ms 依次發送。CLOVER2000 脈沖序號與頻率的對應關系如表1 所示。

表1 CLOVER2000 脈沖序號與頻率的對應關系
CLOVER2000 信號s(t)可以表示為

其中,P為信號的平均功率,ci,n為第i個音頻的第n個碼元,fi為第i個音頻的頻率,g(t)為成形脈沖,T s為脈沖持續時間,Δt=2 ms 為相鄰音頻的發送間隔。
對CLOVER2000 信號進行短時傅里葉變換得到其灰度時頻圖,如圖1 所示。從圖1 可以看出,CLOVER2000信號在時頻上既呈現出了頻域的8個音頻,也體現出了每個音頻發送時序不同的特點。

圖1 CLOVER2000 信號灰度時頻圖
LINK11 信號共有6 種工作模式,本文以其中的網絡控制站報告信號為例分析LINK11 的時頻特性[22],其幀結構如圖2 所示。

圖2 網絡控制站報告信號幀結構
圖2 中,同步序列由605 Hz 和2 915 Hz 音頻組成,605 Hz 音頻為多普勒校正音頻,其功率比2 915 Hz 的同步音頻大5~7 dB,此外,相鄰幀的同步音頻以π 進行相移,設初始相位為0,同步序列信號可表示為

其中,A1為多普勒校正音頻幅度,A16為同步音頻幅度,f1=605 Hz,f16=2 915 Hz。
位于同步序列之后的相位參考幀、起始碼、信段以及終止碼等均由16 個音頻分量組成。除了605 Hz和2 915 Hz之外的14個音頻頻率位于935~2 365 Hz 之間,相鄰音頻頻率間隔為110 Hz。多普勒校正音頻不攜帶信息,采用四相移相鍵控(QPSK,quaternary phase shift keying)制方式,除多普勒校正音頻外的15 個音頻,每幀攜帶2 bit 信息,采用四相相對相移鍵控(QDPSK,differential QPSK)的調制方式。其信號可表示為

其中,Ai為第i個音頻的幅度,φi,n為第n幀第i個音頻的相位。圖3 給出了LINK11 信號頻譜。

圖3 LINK11 信號頻譜
對整段LINK11 信號進行STFT,得到如圖4所示的時頻圖。

圖4 LINK11 信號時頻圖
由圖1 和圖4 可知,CLOVER2000 和LINK11信號時頻圖呈現出截然不同的視覺特征,這是由于不同短波協議在制定過程中,對信號調制方式、傳輸模式以及幀結構等做出了不同設計。因此,通過對短波信號的時頻進行視覺特征提取可以實現對不同短波協議信號的識別。
近年來,神經網絡憑借其強大的特征提取能力在圖像處理等領域取得了巨大成功,其中,Vaswani等[20]提出基于編碼器解碼器框架的Transformer 網絡模型,該模型引入多頭自注意力(MSA,multi-head self-attention)機制,具備學習全局特征的能力,其編碼器結構如圖5 所示。

圖5 編碼器結構
假設輸入序列長度為L,batch size 大小為B,則 Transformer 編碼器的輸入張量可以表示為M∈?B×L。M首先經過Input Embedding 映射成一個dx維的 Embedding,再與位置編碼相加得到Transformer Block 的輸入,這里的位置編碼既可以采用正弦形式,也可以是通過學習得到的參數。每個Transformer 模塊都由多頭自注意力模塊和兩層的前饋網絡(FFN,feed forward network)組成。其中MSA 和FFN 的輸入、輸出都采用殘差連接的方式,輸出還需要進行層歸一化,整個Transformer Block 過程可以表示為


其中,OA為MSA 的輸出,O為Transformer 模塊的輸出,F1(·)和F2(·)分別為前饋網絡的第一層和第二層,其形式為F(x)=Wx+b。

假定MSA 有h個“頭”,則每一個“頭”的輸出Ai定義為

其中,Qi、Ki和Vi分別為


鑒于Transformer 在自然語言處理領域取得的成功,文獻[24]提出Vision Transformer,將Transformer架構成功用于圖像處理領域。具體地,首先將一個224 像素×224 像素大小的圖像均分為196 個16 像素×16 像素大小的區域,其次將每個區域視為一個長度為256 的向量輸入Transformer 編碼器,并增加一個分類向量來表示全局特征,最后將分類向量經過Transformer編碼器的輸出用于Softmax進行分類。
Swin-Transformer 在Vision Transformer 的基礎上引入CNN 中常用的層次化構建方式,在不同的層次對不同大小的窗口在內部進行MSA 操作,大幅降低了計算復雜度。同時通過滑動窗口操作增加窗口與窗口的信息交互,確保模型性能不會降低。具體來說,每一個Swin-Transformer 模塊均采取與Transformer 編碼器類似的架構,但與Transformer編碼器不同的是,Swin-Transformer 模塊將普通的MSA 改進為Window-MSA(W-MSA)以及Shift Window-MSA(SW-MSA)。SW-MSA 工作原理如圖6 所示,本文采用的Swin-Transformer 網絡模型具體結構如圖7 所示。

圖6 SW-MSA 工作原理示意

圖7 Swin-Transformer 網絡模型具體結構
W-MSA 模塊將輸入特征圖劃分為多個窗口,在每個窗口內部進行MSA 操作從而大大減少了計算量。由于淺層網絡的特征圖尺寸相對較大,因此淺層的W-MSA 模塊將特征圖劃分為更多的窗口,使每個窗口盡可能小,隨著網絡的加深,特征圖劃分的窗口相應減少。
為了使不同的窗口間進行信息交互,每個W-MSA 模塊后面會緊接一個SW-MSA 模塊。SW-MSA 模塊首先對特征圖重新劃分窗口,其次根據特定的規則對窗口進行移位,對移位后的特征圖進行窗口內的MSA 操作,此時的一個窗口內同時包含了多個移位前的其他窗口的特征,從而發揮出Transformer 長距離感知的優勢。
Transformer 的全局感知能力對短波協議識別具有重要意義。CLOVER2000 與2GALE 時頻圖局部和整體對比如圖8 所示。從圖8 可以看出,調制方式為8FSK 的2GALE 信號的時頻圖與具有8 個音頻的CLOVER2000 信號的時頻圖在局部具有類似的特征,但由于二者幀結構、帶寬以及中心頻率等存在差異,因此可以憑借全局特征對2 種信號進行分辨。綜上,對圖像具有長距離感知能力的Swin-Transformer可以通過對信號在時頻圖上呈現出的視覺特性進行特征提取,從而實現對短波信號的協議識別。

圖8 CLOVER2000 與2GALE 時頻圖局部和整體對比
短波協議數量眾多,短波協議識別暫時沒有一個公開的標準數據集,因此,本文從目前常見的短波協議中選取了具有一定代表性的110A、110B[25]、2GALE、3GALE[26]、CLOVER2000、CIS-45、LINK11、PRC4+4 和STANAG4285 這9 種短波協議信號的時頻圖制作數據集。其中,CLOVER2000和LINK11 前文已有介紹;2GALE、3GALE 分別為短波第二代、第三代自動鏈路建立協議,分別使用FSK 和PSK 波形對信道進行探測實現信道評估;110A、110B、STANAG4285 為短波通信軍用標準,采用了多種糾錯編碼、交織、加擾等技術,并且信號按照嚴格的幀結構進行發送,包含了多數短波協議的特點;CIS-45 及PRC4+4 分別為典型的采用OFDM 和多載波調制的短波協議,而正交頻分復用(OFDM,orthogonal frequency division multiplexing)和多載波調制是短波協議使用較多的調制模式。綜上,9 種信號的調制模式包含多種短波信號常用的調制模式,在短波協議中具有一定代表性。因此,本文選擇這9 種短波協議信號制作數據集,通過對這9 種信號的識別,可以說明本文算法對多種類型的短波協議信號識別具有一定的普適性。此外,為了增加數據集的可靠性和多樣性,對仿真信號及數據集做以下處理。
1) 短波信道環境惡劣,信號受噪聲影響嚴重。本文采用高斯白噪聲,且SNR 范圍為-10~10 dB。
2) 在非合作通信場景下,接收方無法確保接收信號的完整性,同時考慮到實時識別的要求,信號的長度不宜過長,因此對仿真信號隨機截取時長為0.5~5 s 的子序列。
3) 考慮到閉集識別的局限性,本文使用9 種信號之外的部分短波信號以及調制方式為PSK、FSK的普通信號組成單獨的噪聲類,來提高算法對數據集中9 種信號之外的其他部分短波信號的區分能力。
基于以上3 種處理措施,訓練集樣本由每類信號產生500 個灰度時頻圖樣本得到,每個樣本大小壓縮為224 像素×224 像素。數據集中9 種短波協議信號的時頻圖如圖9 所示。從圖9 中可以看出,由于不同信號在幀結構、帶寬、中心頻率及調制模式等方面存在差異,各信號在時頻圖上呈現出不同的視覺特性。

圖9 數據集中的9 種短波協議信號時頻圖
本文仿真實驗環境的硬件與軟件配置信息如表2 所示。訓練過程的學習率設為0.000 1,batch size設置為32,epoch 最大設為20,采用AdamW 優化器。

表2 仿真實驗環境配置信息
圖10 給出了所提算法在高斯信道下對9 種信號的識別率,每種信號在各信噪比下的樣本數為500。從圖10 可以看出,低信噪比下各信號識別率差異較大,但當SNR>-4 dB 時,9 種信號的識別率均已接近100%,說明所提算法能夠對9 種信號進行有效識別。

圖10 所提算法在高斯信道下對9 種信號的識別率
理論上,基于Swin-Transformer 和基于ResNet的神經網絡算法均能夠通過增加網絡深度實現性能的有限提升,但網絡層數的增加會導致算法計算量增加以及過擬合風險加大,因此本文選擇了與所提算法計算量接近的ResNet50 和ResNeXt50[27]這2 種CNN算法。此外,在非神經網絡算法中,時域模板匹配算法作為一種通用的短波協議信號識別算法,事先對待識別協議信號建立模板庫,通過計算待識別信號與模板信號的相關系數來確定信號所屬類別。圖11 給出了高斯信道下4 種算法的性能對比。
由圖11 可知,神經網絡算法憑借強大的特征提取能力,其對短波協議信號的識別性能要優于傳統的時域模板匹配算法,且神經網絡算法在識別過程中不需要將待識別信號與信號庫一一對比,識別流程相對更直接。此外,由于Swin-Transformer 引入了全局感知能力更強的自注意力機制,相比于傳統的CNN 具有更大的感受野,而短波協議間的差異在時頻圖呈現出的視覺特性差異同樣是全局性的,因此Swin-Transformer 算法在短波協議識別上比感受野相對有限的CNN 性能更好。

圖11 高斯信道下4 種算法的性能對比
另外,短波頻段頻譜資源緊張,實際接收到信號可能存在疊加干擾,因此需驗證所提算法對存在干擾的信號識別性能。本文使用的干擾信號調制方式為8PSK,帶寬為f1,被混疊信號帶寬為f2,兩者重疊帶寬為f12,2個信號在時間上完全重疊,文獻[16]對頻域上干擾混疊度D的定義為

在存在疊加干擾的情形下,此時用信號干擾比(SIR,signal to interfere ratio)表示信號與干擾功率之比,單位為dB。圖12 給出了干擾混疊度及干擾信號功率對所提算法識別性能的影響。從圖12 中可以看出,在干擾信號功率較大(SIR=0)且時頻混疊程度較大的情況下(D=0.5 或D=0.7),本文所提算法性能受影響較大,因為此時信號在時頻圖上呈現的視覺特征大部分被干擾信號所遮擋,所提算法無法提取出有效特征進行識別。但當SIR>10 dB,即信號功率明顯大于干擾功率時,本文所提算法對4 種混疊程度下的短波協議信號均有超過90%的識別率,說明所提算法具有較好的抗干擾能力。

圖12 疊加干擾信號下所提算法識別率
此外,Watterson 信道模型是一種經典的短波信道模型,本文采用文獻[28]建議的信道參數。圖13給出了所提算法在Watterson 信道下算法的識別性能。由圖13 可知,在Watterson 信道下,當SNR>13 dB 時,本文所提算法在8 種信道條件下的識別率均接近100%。

圖13 Watterson 信道下所提算法識別率
本文針對傳統短波協議信號識別算法低信噪比下識別率低、識別信號單一以及對先驗信息需求高等問題,研究了短波協議信號在時頻圖上視覺特征的原因,提出一種基于Swin-Transformer 的神經網絡短波協議信號識別算法,通過對信號的灰度時頻圖進行特征提取并映射實現對信號所屬協議的識別。實驗結果表明,基于Swin-Transformer 的短波協議信號識別算法在高斯白噪聲信道、存在強混疊信號和Watterson 信道環境下均具有較高的識別率。