注意力機制對生成對抗網絡語音增強遷移學習模型的影響

2021-03-10 07:59:18曹中輝黃志華葛文萍

聲學技術 2021年1期

曹中輝，黃志華，葛文萍，黃浩

(新疆大學信息科學與工程學院，信號檢測與處理新疆維吾爾自治區重點實驗室，新疆烏魯木齊830001)

0 引言

語音增強[1]是從帶噪信號中恢復出原始信號的一種信號處理技術。譜減法、維納濾波等基于統計模型的方法是語音增強領域中廣泛使用的經典方法[2-4]，但是傳統語音增強方法對于非平穩噪聲的增強效果有限。近些年來，深度學習技術在語音增強領域取得顯著進步，基于降噪自編碼器，深度神經網絡(Deep Neural Network, DNN)、卷積神經網絡(Convolutional Neural Network, CNN)、長短時記憶網絡(Long Short-Term Memory, LSTM)的語音增強方法先后被提出[5-8]，這些基于深度神經網絡的增強模型能有效抑制非平穩噪聲。2014 年，Goodfellow 等[9]提出生成對抗網絡(Generative Adversarial Network, GAN)。2017年，Santiago等[10]將 GAN應用在語音增強上，提出一種端到端的GAN語音增強框架(Speech Enhancement GAN,SEGAN)，在客觀和主觀測評指標上均優于傳統維納濾波方法。Daniel等[11]提出條件GAN (Conditional GAN, cGAN)結構進行語音增強，測評結果在主觀語音質量評估(Perceptual Evaluation of Speech Quality, PESQ)指標上優于基于最小均方誤差的短時幅度譜增強方法(Short-time Spectral Amplitude Minimum Mean Square Error, STSA-MMSE)和基于DNN的理想比值掩模(Ideal Ratio Mask, IRM)增強算法。2018年，Li等[12]將GAN應用在語音去混響上，與權重預測誤差(Weighted Prediction Error,WPE)系統和基于 DNN的去混響方法相比，PESQ和語音混響調制能量比(Speech to Reverberation Modulation Energy Ratio, SRMR)值更高。現有增強方法雖然取得有效的增強效果，但均采用單一語言數據對增強模型進行訓練，并未探討單一語言增強模型對新語言語音的增強效果。2014年，Xu等[13]對基于DNN語音增強框架進行模型遷移實現了跨語言語音增強，對于低資源新語言語音的增強效果優于低資源單語言語音訓練出的模型。2017年，Santiago等[14]用SEGAN遷移學習模型對新語言帶噪語音進行去噪，采用英語單語言增強模型對網絡進行參數初始化，低資源語音采用韓語和加泰羅尼亞語，以遷移學習的方式訓練 SEGAN，對低資源帶噪語音的去噪效果與直接用低資源語音數據訓練的 SEGAN相比，在評測指標分段信噪比(Segmental Signal Noise Ratio, SSNR)上提升了10 dB，PESQ值提升了將近1。

研究表明，在卷積神經網絡中引入注意力機制可進一步提升網絡的分類準確性[15-16]。本文提出一種在生成對抗網絡中引入注意力機制的遷移學習模型(Attention Transfer Learning Generative adversarial Network, ATGAN)，有效提高了低資源語言場景下少量語音的去噪效果。

1 GAN語音增強

GAN是一種基于生成對抗思想訓練的神經網絡模型，由生成模型(Generator)G和判別模型(Discriminator)D兩部分組成。GAN的結構圖如圖1所示。

圖1 生成對抗網絡(GAN)的結構圖Fig.1 GAN structure diagram

G將隨機噪聲生成盡可能符合真實數據分布的數據，D負責區分輸入數據是G生成的數據還是真實數據。對于給定的真實數據x，D為其打上標簽1；對于給定的生成數據G(n)，D為其打上標簽0。在對抗訓練過程中，傳給D的生成數據G(n)，則盡可能讓D為其打上標簽1。D將判決結果誤差傳遞給G模型，直到D對于給定數據預測為真的概率逼近0.5，達到納什均衡。這一過程可表示為[10]

其中：n表示噪聲，x為真實數據。為了更好地控制生成數據的質量，常在G和D中加入條件y，此時目標函數為

GAN語音增強模型中的G即為語音增強部分，可由CNN或者LSTM網絡構成。干凈語音為x，n為帶噪語音，達到均衡后的G輸出即為增強后的語音。

2 引入注意力機制的生成對抗網絡語音增強遷移學習模型

遷移學習是將模型在某一領域學到的知識遷移到相近或者不同領域的技術。遷移學習使模型能夠在已有知識的基礎上快速有效解決新目標域的問題，其在機器學習和數據挖掘領域具有重要研究價值[17]。本文提出一種在 GAN網絡中引入注意力機制的GAN語音增強遷移學習模型(ATGAN)，進一步提高GAN語音增強遷移學習模型對低資源帶噪語音的去噪效果。ATGAN語音增強模型注意力機制示意圖如圖2所示。

圖2 ATGAN語音增強模型注意力機制示意圖Fig.2 Attention mechanism in ATGAN speech enhancement model

給定輸入特征圖F，通過通道注意力模塊，得到通道注意力權重C(F)，然后與輸入特征圖相乘，結果F1送入空間注意力模塊，得到空間注意力權重S(F1)，與中間輸入F1相乘，得到修正后的特征圖F2，數學描述為

式(3)、(4)中的?表示點乘。C表示通道注意力模塊映射函數，S表示空間和注意力模塊映射函數。

生成模型G由22層包含跳躍連接的對稱U型卷積和反卷積層構成[18]。網絡結構如圖3所示。

圖3 ATGAN語音增強模型生成模型G的結構Fig.3 Structure of generator G in ATGAN speech enhancement model

音頻數據經過預處理，送入G的維度為16 384×1，卷積操作為一維卷積，激活函數為Prelu，卷積核寬為31，步長為2。卷積部分結束輸出維度為 8×1 024，然后從相應維度的標準正態分布中采樣，與卷積結果拼接，送入與卷積部分對稱的反卷積網絡。

D的結構如圖4所示，由編碼和注意力模塊組成，編碼部分為9層下采樣卷積層，由一維反卷積和正則化層構成，激活函數為Lrelu，卷積核大小為31，步長為 2。下采樣結束得到 8×1 024維度的編碼結果，送入注意力模塊，經過最大池化和平均池化以及sigmoid函數操作，得到經通道注意力權重修正后的特征圖，然后結果經過最大池化和平均池化處理后進行拼接，再送入一維卷積，卷積核大小為 7，個數為 1，得到經空間注意力權重修正的特征圖，最后得到更為準確的分類結果，流程圖如圖5所示。

圖4 ATGAN語音增強模型判別模型D的結構Fig.4 Structure of discriminator D in ATGAN speech enhancement model

圖5 注意力模塊結構流程圖Fig.5 Structure flowchart of attention module

參考文獻[19]，損失函數(loss)設計如下：

生成對抗網絡引入注意力機制后，通過高資源(文中的資源是指訓練模型數據資源的豐富程度，高資源指訓練數據充足的場景，低資源是指訓練數據非常少的場景，直接采用低資源場景下的訓練模型無法達到較好的增強效果)語音數據訓練得到網絡權重參數更為合理的預訓練模型，然后采用低資源場景下的少量語音數據，對預訓練模型進行權重遷移，得到引入注意力機制的GAN語音增強遷移學習模型。

3 實驗與討論

3.1 數據集準備與網絡參數設置

為了評估和分析本文提出的ATGAN語音增強模型對低資源語音的去噪效果，采用英語數據訓練的模型遷移到對維吾爾語進行增強的ATGAN上。英語數據集采用Voice Bank語料庫[20]，訓練集由28位說話人組成，包括14位男性、14位女性；為了獲得帶噪語音數據集，從 Demand數據集中選擇kitchen，field，washing，station，river，park，hallway，meeting，restaurant，traffic，metro 11 種噪聲[21]，分別以0、5、10、15 dB的信噪比與干凈語音合成，得到帶噪語音訓練集，共11 572條。維吾爾語數據集采用THUYG-20[22]，帶噪語音訓練集的合成方法及噪聲條件與英語帶噪語音一致，共300條維吾爾語帶噪語音；測試集從Demand數據集中選擇bus，cafeteria，square，living，office 5 種噪聲類型(不在訓練集內)，以2.5、7.5、12.5、17.5 dB的信噪比與干凈語音合成得到。

ATGAN網絡參數設置如下：學習率為0.000 2，批大小為 100，迭代期數(epoch)大小為 340。優化算法采用RMSprop算法[23]。

為了評估ATGAN語音增強模型的去噪效果，我們采用對數譜距離(Log Spectral Distance, LSD)，PESQ、短時客觀可懂度(Short-Time Objective Intelligibility, STOI) 3種客觀評價指標，LSD越小，表明增強效果越好，PESQ和STOI越大，表明增強效果越好。

3.2 ATGAN語音增強模型去噪效果

為了評估ATGAN語音增強模型的去噪性能，基線模型采用遷移學習 SEGAN(TSEGAN)作為對比實驗算法，實驗結果如表 1～3所示。從表中可看出，ATGAN語音增強模型增強效果均優于TSEGAN模型，ATGAN可進一步提升對低資源帶噪語音的增強效果，語音的客觀質量、感知效果和可懂度均有提高。分析認為，在遷移學習生成對抗網絡中引入注意力機制，經語音數據訓練得到的預訓練模型的權重參數更為合理，然后進行權重遷移，注意力機制有助于生成模型重點關注和捕獲噪聲與純凈語音之間的關系，降低語種因素對重建干凈語音的影響。

表1 ATGAN和TSEGAN的LSD指標比較Table 1 LSD comparison between ATGAN and TSEGAN

表2 ATGAN和TSEGAN的PESQ指標比較Table 2 PESQ comparison between ATGAN and TSEGAN

表3 ATGAN和TSEGAN的STOI指標比較Table 3 STOI comparison between ATGAN and TSEGAN

3.3 ATGAN語音增強模型的噪聲遷移魯棒性能分析

為了驗證ATGAN語音增強模型的增強性能對不同類型、不同信噪比噪聲的遷移魯棒性，分析了五種噪聲在四種信噪比下的增強效果，結果如圖 6所示，圖中實線表示ATGAN語音增強模型的去噪結果，圖注中用(at)表示，虛線表示直接采用SEGAN模型訓練的得到的去噪結果，圖注中用(se)表示。從圖6中的LSD和PESQ指標可看出，對于bus，office，square噪聲，模型的增強結果最優，而cafe噪聲的遷移效果最差。通過頻譜分析，發現bus噪聲的能量主要分布在0～1 000 Hz頻率段，而cafe噪聲不僅在0～1 000 Hz的頻率段內能量較高，在1 000～2 000 Hz內也具有較高的能量，而且分布更為均勻，這可能是兩種噪聲遷移去噪效果有差別的原因之一。從測試曲線圖中還可看出，信噪比越低，模型的提升效果越明顯。

圖6 ATGAN語音增強模型對不同噪聲的去噪效果Fig.6 Denoising effects of ATGAN speech enhancement model on different noises

4 結論

本文提出一種引入注意力機制的GAN語音增強遷移學習模型，利用已有語言語音訓練的增強模型，再結合極少量的新語言語音資源對模型進行訓練，可以對新語言低信噪比語音進行有效增強，提高增強后語音的質量。同時，訓練GAN語音增強模型的時間和所需數據量均大大減少。實驗結果表明，ATGAN語音增強模型相對于 SEGAN遷移學習模型，去噪后語音的感知質量和可懂度都有進一步提升。本文也討論了ATGAN在不同信噪比下對不同噪聲的遷移增強性能，結果表明，ATGAN對集外噪聲有更好的去噪效果。本文結論可為建立低資源新語言場景下的語音增強模型提供參考。在今后的工作中，將進一步研究采用生成對抗網絡不同層進行權重遷移對語音增強效果的影響。