999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于交叉注意力機制的波束形成后置濾波網絡

2022-01-01 00:00:00劉卓付中華
計算機應用研究 2022年5期

摘 要: 針對經典后置濾波器存在的對非平穩噪聲抑制效果較差且存在目標語音失真的問題,提出一種基于交叉注意力機制的后置濾波網絡,使用基于門控循環單元的編解碼器作為網絡框架,并在編解碼器組之間添加殘差連接;使用基于伽馬通域的波束輸出信號與噪聲參考信號功率譜的子帶增益作為雙特征輸入;使用特征交叉的多頭歸一化點積注意力捕獲序列輸入的長距離依賴信息并進行特征融合。實驗結果表明,該算法在不同信擾比和噪聲條件下的語音質量和可懂度指標均優于基線系統,具有較強的魯棒性;在對非平穩噪聲具有較好抑制效果的同時,能最小化目標語音的失真;且相較端到端的深度學習方法,具有輕量化和低時延的特點,能滿足實際工程應用的需求。

關鍵詞: 波束形成; 后置濾波; 交叉注意力機制; 編解碼器; 伽馬通域; 特征融合

中圖分類號: TP391"" 文獻標志碼: A

文章編號: 1001-3695(2022)05-026-1444-05

doi:10.19734/j.issn.1001-3695.2021.10.0445

Beamforming post-filter networks based on cross-attention mechanism

Liu Zhuo1,2, Fu Zhonghua1,2

(1.Xi’an Iflytek Super-Brain Information Technology Co., Ltd., Xi’ an 710076, China; 2.School of Computer Science, Northwestern Polytechnical University, Xi’ an 710129, China)

Abstract: Aiming at problems of poor inhibition of non-stationary noise and target speech distortion in classical post-filters,this paper proposed a post-filter network based on cross-attention mechanism,which used gated recurrent unit based codec groups adding skip connections as the network framework.It used the subband gains of the beamforming output and noise refe-rence power spectrums based on GammaTone domain as the dual features,and used the crossed multi-head scaled dot-product attention to integrate the features and to capture the long-distance dependency of input sequences.The experimental results show that the proposed algorithm is superior to baselines in speech quality and intelligibility under different signal-to-interfe-rence ratios and noise conditions,and has strong robustness.It can not only reduce the non-stationary noise,but also minimize the distortion of the target speech.Compared with the deep learning based end-to-end methods,it is lightweight and has low time delay,which meets the needs of practical engineering applications.

Key words: beamforming; post-filter; cross-attention; encoder-decoder; GammaTone domain; feature integration

0 引言

噪聲會干擾人耳對語音的感知,也會降低語音信號的質量和可懂度,嚴重影響語音系統的性能。語音增強可以抑制或分離目標語音信號中的各類噪聲信號,被廣泛應用于各類商業設備,如移動通信、會議系統、助聽器等;以及語音處理的預過程,如聲紋識別、語音識別等。語音增強技術是音頻信號處理的核心問題,隨著技術和需求的發展,研究的問題也更為復雜,傳統的近場、單通道已經演進到遠場、多通道輸入。麥克風陣列對聲場進行空間采樣,利用目標語音和噪聲的空間關系差異抑制噪聲[1],其提供的語音增強潛力通常大于單通道輸入。這部分技術包括傳統的波束形成和廣義的多通道降噪技術等。

波束形成(空域濾波)能夠抑制與目標聲源方向不同的相干噪聲源[2]。基于線性約束最小方差(LCMV)自適應波束的廣義旁瓣抵消器(GSC)及其變體[3]是使用最廣泛的波束成形方法。但是當目標與干擾聲源位置靠近或存在混響擴散噪聲和不相干噪聲時效果較差;同時,波束的性能受到系統穩健性和算法收斂問題的影響;自適應波束基于對信號統計量的估計,誤差也會嚴重影響性能。

在波束形成后級聯一個后置濾波器,已被廣泛證明能夠顯著抑制殘余噪聲[4]。在最小均方誤差(MMSE)意義上最優的多通道維納濾波(MCWF)可以分解為一個LCMV自適應波束級聯一個單通道維納濾波器(SCWF)[5],傳統的后置濾波算法[6~8]實質上是其在一定噪聲假設下的特例。但是傳統的后置濾波器仍然基于噪聲短時平穩的假設,對非平穩噪聲的抑制效果不佳;對功率譜估計的誤差也會造成噪聲的過度抑制和目標語音的失真;同時無法捕獲長時序列的依賴信息,難以跟蹤語音和噪聲的波動。

深度學習的興起為復雜聲學環境下的多通道語音增強提供了新的思路,深度神經網絡(DNN)基于數據驅動的方法,能夠學習信號的潛在規律,從而分離語音和噪聲。

結合傳統空域濾波方法中,一些使用單通道DNN計算每個通道的時頻掩模(T-F Mask)[9],或將空間特征和譜特征結合[10],估計語音和噪聲的二階統計特性;一些則使用時頻掩模估計改進的語音和噪聲的功率譜(PSD)[11],或直接使用DNN預測濾波器權重系數[12]。此外還有與時域波束形成算法結合的方法[13]。這些方法都以不同的方式使用DNN來預測波束濾波器系數。

純神經網絡的一些方法直接將時域多通道帶噪語音輸入網絡并輸出單通道增強語音[14];一些則嘗試學習一個時域或頻域濾波器[15]以替代傳統的波束形成算法。此外還有基于深度空間聚類的方法[16];最近的一些方法則引入了注意力機制[17]或圖神經網絡[18],以隱式執行空域濾波。

傳統波束形成算法有嚴格的數學定義和前提假設,在廣泛聲學場景下都能正常工作,較為魯棒并且性能開銷較小。上述方法驗證了基于深度學習的多通道降噪的可行性,但大多忽略了后置濾波對系統最終性能的影響,在這一方向的研究仍存在空白[19]。深度學習基于大量數據訓練的方法,對數據分布具有依賴性,在未知聲學場景下可能失效。完全基于深度學習的多通道語音增強算法通常計算復雜度和資源開銷較大,難以滿足工程落地對輕量化和實時性的要求。

本文算法結合傳統信號處理方法與深度學習,仍然基于MCWF框架,充分利用波束形成前端有效的空間濾波特性,后置濾波則使用深度神經網絡代替,發揮其非線性映射能力。其能夠彌補傳統維納后置濾波器無法有效追蹤噪聲變化,對非穩定噪聲條件的抑制較差,且存在目標語音失真的問題。本文提出基于交叉注意力機制的后置濾波網絡:a)使用基于伽馬通域的波束輸出信號和噪聲參考信號功率譜的子帶增益作為特征輸入;b)使用特征交叉的多頭歸一化點積注意力捕獲序列輸入的長距離依賴信息并進行特征融合;c)使用基于門控循環單元的編解碼器作為網絡框架,并在編解碼器組之間添加殘差連接。

3 實驗設計

3.1 數據構建

使用TIMIT開源語音數據集生成滿足覆蓋較全標準英文音素,且包含不同年齡和性別的說話人的干凈語音數據;使用NoiseX-92噪聲數據集生成包含各種噪聲類型,包括平穩噪聲、非平穩噪聲以及空間白噪聲的背景噪聲數據。

構建麥克風陣列拾音空間。放置近場點聲源模擬直達目標聲源和相干噪聲源,放置多個遠場聲源模擬擴散場混響聲源;以目標聲源為基準設置不同的信擾比(SIR)條件;待房間混響趨于穩定,使用具有8個拾音單元的均勻線陣(ULA)拾取上述噪聲和信擾比條件下的混合信號,錄制約120 min的8通道陣列數據,重采樣至16 kHz,分割為訓練集、測試集和開發集,開發集用于模型超參數的調整。

3.2 實驗設置

前端GSC使用稀疏的阻塞矩陣[28],濾波器均使用非因果FIR濾波器實現。將8通道陣列數據進行STFT,幀長為15 ms,使用漢寧窗和50%幀混疊;使用歸一化最小均方誤差(normali-zed least mean square,NLMS)算法優化相對傳輸函數廣義旁瓣抵消[29](RTF-GSC)波束。

后端網絡模型由六對編解碼層和六組多頭注意力模塊構建;計算增強后的語音幀與目標信號功率譜的均方誤差(MSE)損失,并進行反向傳播。在開發集上進行粗細粒度的全局遍歷,以進行超參數的調整;短時譜塊的大小根據噪聲的時域平穩性調整,噪聲平穩時適當增加塊大小,范圍為[300,1 000]幀;殘差連接的編碼器的加權系數α的值根據輸入數據信噪比進行調整,取值在[0.2,0.5]時表現出最好的性能;訓練達到200多輪,重復訓練選取損失最優的模型。

3.3 基線系統

使用具有代表性的傳統后置濾波器以及較為先進的深度學習算法作為后端基線系統:

a)全局最優的最小二乘后置濾波[20](LSPF),是MMSE意義下最優的后置濾波器。其將經典的Zelinski[6]、McCowan等人[7]后置濾波器納入統一的相干函數模型框架下,并引入Leukimmiatis對后置濾波功率譜的修正[8]。

b)帶跳線連接的全卷積神經網絡[30](SC-FCN),是基于殘差網絡的端到端語音增強算法。文獻[31]將其視為一種廣義的單通道后置濾波器,直接作用于傳統的空域濾波輸出信號,以期進一步抑制殘余噪聲。

4 結果分析

4.1 評價指標

為了評價輸出信號的語音質量、可懂度以及失真程度,使用以下指標作為客觀度量:a)語音質量感知評價[32](PESQ),取值為[-0.5,4.5],越大表示語音質量越好;b)短時客觀可懂度[33](STOI),取值為[0,1],越大表示語音可理解性越好;c)信號失真比[34](SDR),取值為[0,1],越小表示目標信號失真程度越低。

4.2 有效性分析

表1給出在不同混合噪聲信擾比條件下,各算法在測試集輸出信號上的PESQ和STOI指標的平均得分。

LSPF基于相干函數信號模型,在理想的信擾比條件下能夠較好地改善語音質量,但在低信擾比條件下的改善有限;SC-FCN與本文算法利用大量的數據訓練,不需要對噪聲場作出假設,輸出信號語音質量較LSPF有顯著提高;在理想信擾比條件下,本文算法與SC-FCN的語音質量接近,但在低信擾比條件下表現更優,這可能得益于特征融合對于噪聲先驗的充分利用。本文算法的可懂度指標均優于基線,這可能得益于基于伽馬通域的特征輸入更符合人耳的非線性感知以及頻率選擇特性,因而信噪比較低時仍能具有較好的性能。

橫向評估表明,本文算法在不同信擾比條件下輸出信號的平均語音質量和可懂度均優于基線,特別是在低信擾比條件下的提升較為顯著,驗證了本文算法的有效性。對于計算復雜度的分析表明,本文算法使用頻域子帶能量作為特征輸入,并采用短時譜塊的流式處理結構,其相較于SC-FCN的端到端全卷積神經網絡結構,在模型復雜度和時間延遲上具有顯著優勢。

4.3 泛化能力分析

如表2所示,在不同背景噪聲主導條件下進行一系列消融實驗,其中PESQ和STOI指標是不同信擾比的平均得分。

LSPF仍基于噪聲寬平穩和不相關的假設,在非平穩噪聲和相干噪聲條件下的語音質量和可懂度較差;SC-FCN算法得益于神經網絡的非線性映射能力,能夠緩解一部分相干噪聲的影響,但是對于非穩態噪聲的抑制有限;本文算法對于非穩態噪聲也有較好的抑制效果,這可能得益于注意力機制能夠捕獲序列的長距離依賴以獲得噪聲時頻分布的先驗信息,能夠學習非平穩噪聲序列的時間相關性。

對算法的縱向評估表明,所提出的算法在各種噪聲條件下都能很好地增強語音,特別是對傳統算法難以解決的相干噪聲和非平穩噪聲,具有較強的魯棒性。

4.4 語音失真分析

GSC存在固有的系統噪聲以及一定的語音泄露,而功率譜估計誤差也會造成語音的失真。基于此,給定GSC前端并模擬目標信號的偏置角度,以評估算法輸出信號的失真情況。表3給出了在一定偏轉誤差下的SDR平均得分。

結果表明,基線算法造成的信號失真會隨偏轉誤差的增加繼續劣化;本文算法使用子帶增益矢量作為輸出,在各個頻帶都不存在對頻譜的非線性變換,保證了在任何實際目標方向偏轉誤差的情況下始終不會造成更嚴重的失真。

5 結束語

本文方法嘗試將深度神經網絡應用于多通道語音增強的后置濾波算法,使用基于伽馬通域的信號功率譜的子帶增益作為特征輸入,其更符合人耳對聲音的感知特性,降低了模型的復雜度,并在信擾比較低時仍具有可用性;使用特征交叉的多頭歸一化點積注意力捕獲序列輸入的長距離依賴信息,并進行特征融合以獲得噪聲時頻分布的先驗信息,增強了模型在復雜噪聲條件下的降噪能力。使用基于門控循環單元的編解碼器作為網絡框架,并添加殘差連接,使網絡可以利用輸入特征包含的信號增益的低級信息,增強了網絡的魯棒性,并緩解了過擬合現象。實驗表明,本文算法在語音質量和可懂度指標上均優于基線系統,且在低信噪比條件下具有較強的魯棒性。在對傳統維納后置濾波算法難以解決的相干噪聲和非平穩噪聲具有較好抑制作用的同時,能夠最小化目標語音的失真現象。相較于端到端的神經網絡方法,本文算法能夠滿足輕量級和實時性的需求,對實際工程應用具有指導意義。

參考文獻:

[1]Benesty J,Cohen I,Chen J.Fundamentals of signal enhancement and array signal processing[M].Hoboken:Wiley,2017.

[2]Gannot S,Vincent E,Markovich S,et al.A consolidated perspective on multimicrophone speech enhancement and source separation[J].IEEE/ACM Trans on Audio,Speech,and Language Proces-sing,2017,25(4):692-730.

[3]Gannot S,Burshtein D,Weinstein E.Signal enhancement using beamforming and nonstationarity with applications to speech[J].IEEE Trans on Signal Processing,2001,49(8):1614-1626.

[4]Gannot S,Cohen I.Speech enhancement based on the general transfer function GSC and postfiltering[J].IEEE Trans on Speech and Audio Processing,2004,12(6):561-571.

[5]Simmer K,Bitzer J,Marro C.Post-filtering techniques[M]//Microphone Arrays.Berlin:Springer,2001:39-60.

[6]Zelinski R.A microphone array with adaptive post-filtering for noise reduction in reverberant rooms[C]//Proc of International Conference on Acoustics,Speech and Signal Processing.Washington DC:IEEE Computer Society,1988:2578-2581.

[7]McCowan I,Bourlard H.Microphone array post-filter based on noise field coherence[J].IEEE Trans on Speech and Audio Proces-sing,2003,11(6):709-716.

[8]Leukimmiatis S,Maragos P.Optimum post-filter estimation for noise reduction in multichannel speech processing[C]//Proc of the 14th European Signal Processing Conference.Piscataway,NJ:IEEE Press,2006:1-5.

[9]Higuchi T,Ito N,Yoshioka T,et al.Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2016:5210-5214.

[10]Wang Zhongqiu,Wang Deliang.Combining spectral and spatial features for deep learning based blind speaker separation[J].IEEE/ACM Trans on Audio,Speech,and Language Processing,2018,27(2):457-468.

[11]Chakrabarty S,Habets E.Time-frequency masking based online multi-channel speech enhancement with convolutional recurrent neural networks[J].IEEE Journal of Selected Topics in Signal Proces-sing,2019,13(4):787-799.

[12]Sainath T,Weiss R,Wilson K,et al.Multichannel signal processing with deep neural networks for automatic speech recognition[J].IEEE/ACM Trans on Audio,Speech,and Language Proces-sing,2017,25(5):965-979.

[13]Luo Yi,Han Cong,Mesgarani N,et al.FasNet:low-latency adaptive beamforming for multi-microphone audio processing[C]//Proc of IEEE Automatic Speech Recognition and Understanding Workshop.Piscataway,NJ:IEEE Press,2019:260-267.

[14]Lee H,Kim H,Kang W,et al.End-to-end multi-channel speech enhancement using inter-channel time-restricted attention on raw waveform[C]//Proc of Interspeech.2019:4285-4289.

[15]Xiao Xiong,Watanabe S,Erdogan H,et al.Deep beamforming networks for multi-channel speech recognition[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2016:5745-5749.

[16]Wang Zhongqiu,Le J R,Hershey J.Multi-channel deep clustering:discriminative spectral and spatial embeddings for speaker-independent speech separation[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2018:1-5.

[17]Tolooshams B,Giri R,Song A,et al.Channel-attention dense U-Net for multichannel speech enhancement[C]//Proc of IEEE Internatio-nal Conference on Acoustics,Speech and Signal Processing.Pisca-taway,NJ:IEEE Press,2020:836-840.

[18]Tzirakis P,Kumar A,Donley J.Multi-channel speech enhancement using graph neural networks[C]//Proc of IEEE International Confe-rence on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2021:3415-3419.

[19]Wang Deliang,Chen Jitong.Supervised speech separation based on deep learning:an overview[J].IEEE/ACM Trans on Audio,Speech,and Language Processing,2018,26(10):1702-1726.

[20]Huang Yiteng,Luebs A,Skoglund J,et al.Globally optimized least-squares post-filtering for microphone array speech enhancement[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2016:380-384.

[21]Breed B,Strauss J.A short proof of the equivalence of LCMV and GSC beamforming[J].IEEE Signal Processing Letters,2002,9(6):168-169.

[22]Gannot S,Burshtein D,Weinstein E.Analysis of the power spectral deviation of the general transfer function GSC[J].IEEE Trans on Signal Processing,2004,52(4):1115-1120.

[23]王文冠,沈建冰,賈云得.視覺注意力檢測綜述[J].軟件學報,2019,30(2):416-439. (Wang Wenguan,Shen Jianbing,Jia Yunde.Review of visual attention detection[J].Journal of Software,2019,30(2):416-439.)

[24]石磊,王毅,成穎,等.自然語言處理中的注意力機制研究綜述[J].數據分析與知識發現,2020,4(5):1-14. (Shi Lei,Wang Yi,Cheng Ying,et al.Review of attention mechanism in natural language processing[J].Data Analysis and Knowledge Discovery,2020,4(5):1-14.)

[25]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Advances in Neural Information Processing Systems.2017:5998-6008.

[26]張瑩瑩,錢勝勝,方全,等.基于多模態知識感知注意力機制的問答方法[J].計算機研究與發展,2020,57(5):1037-1045. (Zhang Yingying,Qian Shengsheng,Fang Quan,et al.Multi-modal knowledge-aware attention network for question answering[J].Journal of Computer Research and Development,2020,57(5):1037-1045.)

[27]Giri R,Isik U,Krishnaswamy A.Attention Wave-U-Net for speech enhancement[C]//Proc of IEEE Workshop on Applications of Signal Processing to Audio and Acoustics.Piscataway,NJ:IEEE Press,2019:249-253.

[28]Markovich-Golan S,Gannot S,Cohen I.A sparse blocking matrix for multiple constraints GSC beamformer[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2012:197-200.

[29]馬子驥,倪忠,余旭.基于TF-GSC的多通道后置濾波語音增強算法[J].傳感器與微系統,2018,37(5):105-107,111. (Ma Ziji,Ni Zhong,Yu Xu.Multichannel postfiltering speech enhancement algorithm based on TF-GSC[J].Transducer and Microsystem Technologies,2018,37(5):105-107,111.)

[30]Wang D,Bao C.End-to-end speech enhancement using fully convolutional networks with skip connections[C]//Proc of Asia-Pacific Signal and Information Processing Association Annual Summit and Conference.Piscataway,NJ:IEEE Press,2019:890-895.

[31]Wang Dujuan,Bao Changchun.Multi-channel speech enhancement based on the MVDR beamformer and postfilter[C]//Proc of IEEE International Conference on Signal Processing,Communications and Computing.Piscataway,NJ:IEEE Press,2020:1-5.

[32]Rix A,Beerends J,Hollier M,et al.Perceptual evaluation of speech quality(PESQ):a new method for speech quality assessment of telephone networks and codecs[C]//Proc of IEEE International Confe-rence on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2001:749-752.

[33]Taal C,Hendriks R,Heusdens R,et al.An algorithm for intelligibility prediction of time-frequency weighted noisy speech[J].IEEE Trans on Audio,Speech,and Language Processing,2011,19(7):2125-2136.

[34]Vincent E,Gribonval R,Févotte C.Performance measurement in blind audio source separation[J].IEEE Trans on Audio,Speech,and Language Processing,2006,14(4):1462-1469.

主站蜘蛛池模板: 国产91小视频在线观看| 国产亚洲精| 一级毛片网| 日韩国产亚洲一区二区在线观看| 婷婷色中文网| 好吊色妇女免费视频免费| 欧美精品在线看| 亚洲免费三区| 欧洲成人免费视频| 欧美激情网址| 女同国产精品一区二区| 男人天堂伊人网| 91在线免费公开视频| 亚洲av无码久久无遮挡| 亚洲香蕉久久| 午夜国产在线观看| 亚洲VA中文字幕| 中字无码av在线电影| 亚洲天堂精品在线| 国产精品手机视频| av在线5g无码天天| 性69交片免费看| 精品无码一区二区三区在线视频| 亚洲日韩Av中文字幕无码| 国产精品99久久久久久董美香 | 四虎精品黑人视频| 免费看美女自慰的网站| 亚洲色图狠狠干| 99国产精品国产| аⅴ资源中文在线天堂| 国产美女视频黄a视频全免费网站| 不卡国产视频第一页| 精品成人一区二区| 久久国产精品无码hdav| 国产欧美日韩在线一区| www.亚洲天堂| 欧美成人午夜视频| 无码专区国产精品一区| 毛片免费视频| 日韩精品欧美国产在线| AV不卡在线永久免费观看| 成人精品免费视频| 国产精品自在自线免费观看| 天堂网亚洲系列亚洲系列| 日韩精品成人网页视频在线 | 影音先锋亚洲无码| 在线亚洲精品福利网址导航| 久久国产免费观看| 扒开粉嫩的小缝隙喷白浆视频| 熟妇无码人妻| 亚洲国产一区在线观看| 国产性生大片免费观看性欧美| 免费看a级毛片| 久久窝窝国产精品午夜看片| 5555国产在线观看| 欧美国产在线看| 亚洲网综合| 日本人又色又爽的视频| 91毛片网| 国产福利不卡视频| 欧美日韩国产系列在线观看| 成年看免费观看视频拍拍| 亚洲日本一本dvd高清| 亚洲综合中文字幕国产精品欧美| 欧美激情伊人| 欧美啪啪视频免码| 国产成人h在线观看网站站| 中文字幕亚洲电影| 精品亚洲国产成人AV| 欧美一区二区三区不卡免费| 91精品网站| 亚洲成在线观看| 九色视频线上播放| 91精品网站| 亚洲动漫h| 国产欧美又粗又猛又爽老| 欧美激情二区三区| 日本黄色a视频| 手机成人午夜在线视频| 在线播放91| 亚洲欧美日韩久久精品| 欧美国产精品拍自|