趙孟晨,姚秀娟,王 靜,董蘇惠
(1.中國科學院國家空間科學中心,北京 100190;2.中國科學院大學電子電氣與通信工程學院,北京 100049)
近年來,國內外的衛星星座組網計劃發展迅速,星地通信、星間通信使得頻譜擁擠進一步加劇,同頻信號混疊干擾難以避免[1],空間通信電磁環境呈現時頻混疊、空間交錯,在現實空間通信環境中,魯棒的信號處理通常需要自動信號分離[2-3]。在密集的星座互聯網通信場景下,達到接收端的源信號可能是多個通道的混疊信號,而地面站觀測通道數目有限,因此欠定盲源分離的應用場景極為常見。常規的二步法、稀疏特征表示法等欠定分離方法[4-6]在單通道條件下分離效果欠佳,單通道通信信號盲源分離問題亟待解決。
研究者提出了許多解決分離問題的方法。獨立成分分析堆疊時域卷積網絡(stacked time-domain convolutional network,Stacked-TCN)[7]在超定分離方面表現良好,但在欠定盲源分離場景下效果欠佳。基于聚類法的稀疏分量分析(sparse component analysis,SCA)[8]需要已知混合信號的數目。時-頻掩模方法[9-12]提高了分離精確度,但存在幅度和相位解耦,短時傅里葉變換需要較高分辨率的頻率分解窗,限制在低延遲系統中的適用性。非負矩陣分解(non-negative matrix factorization,NMF)[13-14]可以在時域進行分解,但在泛化為大數據的能力方面較弱。基于Kalman濾波[15]、LCL-FRESH濾波[16]、循環維納濾波的單通道分離[17]計算復雜度高,實用效果有待提高。
隨著大數據的發展和算力的提高,深度學習在時序信號處理如語音識別、語音分離[18-38]、通信信號調制識別[39]上取得了巨大成功,展示出了深度學習強大的特征提取和時序信號處理能力。然而,深度學習在通信信號處理上的應用多見于常規的調制識別與分類任務,在單通道通信信號分離等復雜任務上尚未涉足。
本文提出的通信信號單通道盲源分離方法,引入了數據驅動的深度學習方法,采用基于Stacked-TCN的全卷積時域分離網絡(convolution time-domain audio separation network,Conv-TasNet)分離框架。首先,使用1-D卷積對混合通信信號提取編碼特征表示,將其作為輸入。然后,使用時域卷積網絡,訓練得到純凈信號源的深層特征掩模,將每個信號源的掩模與得到的混合信號編碼特征做Hadamard乘積,可以得到源信號的編碼特征表示。最后,再次使用1-D卷積,對得到的源信號特征進行解碼,得到原始波形。訓練的損失函數采用比例不變信噪比,以此度量掩模估計準確度和信號分離準確度。實驗結果表明,該方法有效提高了單通道通信信號盲源分離精度,具有較好的噪聲魯棒性。

x(t)=As(t)+n(t)
(1)
式中:A為混合矩陣;m為源信號的個數;n為接收天線陣元個數。當n 單通道欠定盲源分離瞬時混合模型為 (2) 為了對通信信號的深層特征進行有效提取,以提高分離精度,本文采用以Stacked-TCN為基礎的Conv-TasNet框架進行訓練。序列信號的準確分離需要較長的時間窗口信息,即長時依賴性,而時域卷積網(time-domain convolutional network,TCN)在序列信號建模和處理上的優越性能,可以滿足語音信號、通信信號等序列信號的長時依賴性建模。每個TCN為一個1-D單元塊,如圖1所示。Gonv-TasNet結構如圖2所示。 圖1 1-D單元塊結構圖Fig.1 Structure of 1-D unit block 圖2 分離模塊網絡結構Fig.2 Network structure of separation block 對一維混合通信源信號使用1-D卷積進行線性編碼特征表示。其中,使用512組卷積核,生成混合信號的多維編碼特征,將多維編碼特征表示作為分離網絡的輸入: xencoder=hencoder(x)=w1*x+b1 (3) 式中:hencoder(·)為卷積操作;w1和b1分別為卷積核的權重和偏置。 步驟 1首先,進行層歸一化。層歸一化[40]是對一個中間層的所有神經元進行歸一化,使其輸入分布在訓練過程保持一致,解決每次的梯度下降更新參數導致的內部協變量偏移問題,從而增強模型的泛化能力,同時避免了梯度消失和梯度爆炸。再使用1×1卷積作為瓶頸層,以減少特征通道的數目。 步驟 2隨后,特征進入堆疊的TCN,每個堆疊塊包含4個TCN,其卷積核為空洞卷積核[18]膨脹率依次增加,分別為1、2、4、8。不同膨脹率的卷積核,可以有效提取并融合多尺度的時序通信信號特征,充分對信號分離的長時依賴性進行建模。其中,每個1-D單元塊采用深度可分離卷積。深度可分離卷積[41]是普通卷積在通道上的分解,將一個卷積核分裂為獨立的深度卷積(depthwise,DW)和點向卷積(pointwise,PW),可以有效減少參數數量,運算成本和模型大小,用于構建輕量級網絡[19]。1-D單元塊的殘差網絡連接方式,可以防止隨著網絡層數加深導致的訓練退化問題。此堆疊塊進行3次重復連接,將每一次堆疊輸出作為下一次的輸入,進一步加深網絡層數,提取源信號的深層本質特征。對通信信號進行不同窗口不同尺度和深度的特征提取,有效融合多層特征。 步驟 3通過帶泄露的修正線性單元(Leaky ReLU)作為激活函數,由于其導數不存在零點,可以防止負區間中神經元不學習問題。然后,再次使用1×1卷積瓶頸層,恢復特征通道數量,經過sigmoid激活函數,訓練獲得兩個源信號的時域掩模: (4) 步驟 4混合信號的編碼特征實際包含了兩個源信號編碼特征,每個源信號存在潛在的時域掩模[18],通過時域掩模可以提取每個源信號的編碼特征。將得到的每個源信號的時域掩模分別與混合信號的編碼特征表示相乘,得到兩個通信源信號的特征編碼: ssep=xencoder°smask (5) 式中:°表示Hadamard乘積。 對分離得到的通信源信號特征編碼,采用1-D卷積反變換,進行512維特征解碼,得到一維時域波形: s*=hdecoder(xsep) (6) 式中:hdecoder(·)為解碼器。 衡量盲源分離性能的基本分離評價指標通常采用比例不變信噪比(scale-invariant signal to noise ratio,SISNR)[42]。SISNR衡量了信號與分離誤差的比值關系,SISNR越高,表明分離誤差越低,分離性能越好。計算之前將源信號和分離后的源信號標準化為零均值,確保尺度不變。 網絡訓練時一般采用梯度下降法,需要最小化損失函數,因此采用負的SISNR作為損失函數,如式(7)所示,保證端到端的訓練使得損失最小,SISNR最大,以確保模型訓練的準確性。 (7) 通過反向傳播梯度下降算法,進行參數更新: (8) (9) (10) 反向傳播梯度下降算法對編碼部分、掩膜部分和解碼部分的參數θ={θencoder,θmask,θdecoder}更新。其中,編碼器參數集、掩模參數集、解碼器參數集分別為θencoder={w1,b1},θmask={w2,b2},θdecoder={w3,b3}。 實驗包括兩部分。第4.1節為混合信號在20 dB高信噪比下的分離實驗,根據SISNR損失函數值,與NMF、ICA算法對比驗證Stacked-TCN方法的分離性能。第4.2節為不同信噪比的混合信號的分離實驗,驗證Stacked-TCN方法的泛化性能與噪聲魯棒性。 實驗采用的硬件資源為Tesla k80 GPU,Intel Xeon E5 2.60 GHz CPU,深度學習框架為PyTorch1.4。所有實驗均采用五折交叉驗證。 如圖3所示,實驗流程分為兩部分:數據生成與混合部分,信號分離部分。在數據生成與混合部分,通過軟件定義無線電平臺GNUradio[39]生成5種調制方式BPSK、8 PSK、QAM16、QAM64、PAM4的通信數據,采樣率為1 MHz,碼速率為125 Ksymbol/s。參照表1中已有研究成果[43-46],結合仿真平臺的實際運行效率,選擇的信噪比范圍為5~20 dB,步長為2.5 dB。在仿真中,假定不同來源的混疊信號具有相同的頻偏和定時偏差,本文重點討論不同算法中信噪比對分離效果的影響。 圖3 實驗流程圖Fig.3 Experimental flow chart 表1 單通道盲源分離算法比較Table 1 single-channel blind source separation algorithms 每類信號在每種信噪比下生成1 000條純凈數據信號,每條數據含L=32 768個采樣點,即為32.768 ms,滿足分離任務的長時依賴性需求。首先,對純凈信號的幅值進行標準化處理。然后,采用如式(1)所示的線性瞬時混合模型,進行信號混合。將5種不同調制方式的信號兩兩混合,得到10種混合方式的數據,在每種混合方式中,將同信噪比的信號進行混合。10種混合方式數據分別為BPSK_16QAM、8PSK_64QAM、8PSK_PAM4、64QAM_PAM4、BPSK_8PSK、BPSK_64QAM、BPSK_PAM4、8PSK_16QAM、16QAM_64QAM、16QAM_PAM4,作為混合數據集,共70 000條樣本。 在分離部分,分為3個模塊:1-D卷積編碼模塊、分離模塊、1-D卷積解碼模塊。 實驗目的:Stacked-TCN算法與ICA[7]、NMF[47]兩種經典機器學習算法,TasNet[48]、Wave-U-Net[49]兩種深度學習方法在高信噪比下(信噪比為20 dB)進行對比分離試驗,驗證在理想的低噪聲信號傳輸情況下,不同算法的分離性能。5種算法的基本參數配置如表2所示。 表2 不同算法的參數配置Table 2 Parameter configuration for different algorithms ICA[7]和NMF[47]作為傳統機器學習方法,是盲源分離領域的兩種經典的算法。ICA利用動態嵌入將單通道觀測數據轉化為多通道數據進行分離,在正定和超定分離上性能優越,在單通道欠定分離方面的分離精度欠佳。NMF根據Kullback-Leibler散度最小化計算信源的基本矩陣和系數矩陣,實現信號分離。此類傳統算法相當于淺層模型,不提取信號深層特征。TasNet[48]和Wave-U-Net[49]作為兩種深度學習分離方法,可以實現信號的單通道盲源分離。TasNet網絡采用編解碼與分離模塊的三級結構,分離模塊中每個塊采用長短時記憶(long short-term memory,LSTM)網絡,其大量參數顯著增加了其計算成本。Wave-U-Net網絡通過重復進行特征圖的下采樣和卷積來處理時間序列上下文,在不同時間尺度上組合高級和低級特征,卷積產生的每個特征映射以原始信號的采樣率作為分辨率,內存消耗較高。Stacked-TCN方法在分離模塊采用空洞卷積,參數量減少,與LSTM相比,下一步計算無需等待上一步輸出。 實驗結果如表3所示,可以看出,Stacked-TCN方法損失最低,為-16.05 dB,其次是Wave-U-Net網絡,損失為-13.97 dB,第3是TasNet網絡,損失為-2.55 dB,最后是ICA和NMF算法,損失分別為4.09 dB和7.93 dB。在單通道通信信號盲源分離任務中,3種深度學習方法在SISNR上的性能明顯優于傳統的ICA、NMF盲源分離算法,其中,Stack-TCN方法的分離性能最佳。該算法的損失與其他4種算法相比平均降低了14.93 dB。 圖4給出了Stacked-TCN算法在信噪比為15 dB,隨機選取200個點的情況下,10種混合信號的波形部分結果圖。可以看出,分離結果與源信號具有高度吻合性。這是由于多層的Stacked-TCN充分利用了通信源信號的深層次特征,深度神經網絡優秀的擬合能力在學習時域掩模上發揮了重要作用。同時,空洞卷積的不同時間窗口隨層數遞增,對通信時序信號的長時依賴性進行了建模,融合不同窗口長度特征。 表3 20 dB混合信號下不同算法的損失值Table 3 Loss value of different algorithms under 20 dB mixture signals dB 圖4 分離信號波形圖Fig.4 Separated signals waveform diagram 實驗目的:在信噪比為5~20 dB范圍內,進行對比分離試驗,驗證在不同噪聲的傳輸情況下,Stacked-TCN算法的泛化性能與噪聲魯棒性。圖5給出了隨著混合信號信噪比增加,不同算法的損失結果變化:① 隨著信噪比的增加,Stacked-TCN方法的分離性能隨之呈現增加的趨勢,分離準確度增加;② 3種深度學習方法在不同信噪比下,性能均優于兩種機器學習算法ICA和NMF,即便在較低信噪比下,分離精度亦占優勢,其中Stacked-TCN與Wave-U-Net效果最為突出,對于噪聲干擾,魯棒性較強;③ Wave-U-Net方法在8PSK_64QAM、64QAM_PAM4兩種混合信號的分離中,分離效果優于Stacked-TCN,但在其他情況下,存在波動與不穩定性,而Stacked-TCN方法整體較為平穩,呈現較好的下降趨勢。 圖5 不同信噪比下的損失變化Fig.5 Loss change under different signal to noise ratios 這是由于NMF和ICA作為模型驅動的機器學習方法,本質上是淺層模型,適合樣本小、模型精的任務。然而,單通道盲源分離作為先驗知識極少的難點問題,淺層模型不足以刻畫其本質特征,未能充分利用信號的深層特征與信息,在泛化為大數據能力上較弱,因此在單通道極端病態條件下,分離性能不佳。當任務復雜,無法用模型驅動的方法精確刻畫時,數據驅動的深度學習方法可以彌補模型上的困難,從大量樣本中學習到深層本質特征,具有強大的擬合能力,滿足信號分離等任務的需求。因此,Stacked-TCN、Wave-U-Net、TasNet的分離效果優于ICA和NMF。其中,TasNet網絡采用LSTM作為block,大量參數增加了計算成本,為保證合理的網絡模型和計算速度,需控制block的數量,對時序信號的建模準確性不夠,因此效果較差。Wave-U-Net網絡通過重復進行特征圖的下采樣和卷積來處理時間序列上下文,效果較好,但存在波動。Stacked-TCN方法在分離模塊采用空洞卷積和,參數量減少,同等網絡模型大小,可以增加block的重復次數,同時深度可分離卷積保證了不同窗口尺度信息的融合,因此在3種深度學習方法中,其準確性和穩定性上最優。 此外,計算了Stacked-TCN時域掩模法與時-頻域掩模法每幀的計算時間,如表4所示,大多數時-頻域掩模方法的信號分離研究中,STFT的窗口長度至少為256點[9-12],因此本實驗單幀時長取為 0.256 ms,其計算時間為1.24 ms,較長的時間窗和計算時間,使得系統最低時延增加。而Stacked-TCN時域掩模法在不降低分離準確度的前提下,單幀時長可降至0.032 ms,其計算時間僅為7.90×10-3ms,具有較低的系統最小延遲。時-頻域掩模法要成功地從時-頻表示中分離源信號,需要混合信號的高分辨率頻率分解,這需要較長的STFT時間窗,該要求增加了系統的最小延遲,限制了其在實時及低延遲應用中的適用性,因此越來越多的研究開始轉向時域方法[18-31]。 表4 處理每幀所用時間Table 4 Times per frame ms 表5給出了不同算法分離混合信號的速度,在單樣本的分離速度方面,時域分離方法中,NMF>ICA>Wave-UNet>TasNet>Stacked-TCN,NMF和ICA算法運行較快,但未對信號充分建模,犧牲了分離準確度。Wave-UNet、TasNet、Stacked-TCN運行速度相當。由于樣本的長時采樣點在Stacked-TCN中得到了充分利用,使得分離性能提高。 表5 分離混合信號所用時間Table 5 Times of separation s 基于深度學習框架Stacked-TCN的單通道通信信號盲源分離,免去了繁雜的特征工程,具有良好的泛化性能,克服了ICA、NMF等傳統機器學習方法的泛化大數據能力弱的缺陷,解決了單通道分離中可行解爆炸問題。分離模塊采用深度可分離卷積,卷積核為空洞卷積,減少了參數量,在分離之前提取信號的多尺度窗口深層特征以學習源信號的掩模,與TasNet和Wave-U-Net網絡相比,具有較小的網絡規模和更優的分離性能。 實驗結果表明,該方法能夠用于常見調制方式的混合信號分離,其損失函數比其他4種方法降低了9.11~36.63 dB。其意義體現在以下3方面:① 在5 dB低信噪比下,具備良好的分離性能和噪聲魯棒性;② 在保證分離精度的同時,具有較短的單幀處理時長和較低的系統最小延遲;③ 通過與信號處理系統的結合,提高前端處理模塊的混疊信號分離精度。2 Gonv-TasNet


2.1 混合信號編碼特征表示
2.2 源信號掩模生成

2.3 源信號波形恢復
3 網絡訓練
4 實驗與結果分析
4.1 實驗條件


4.2 實驗1:信噪比為20 dB下的算法性能對比



4.3 實驗2:信噪比為5~20 dB時的對比實驗



5 結 論