999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聽覺掩蔽生成對抗網絡的單通道語音增強方法

2021-08-09 11:50:30杜志浩韓紀慶
智能計算機與應用 2021年3期

杜志浩 韓紀慶

摘 要: 為提高語音識別系統在復雜聲學場景下的識別率,出現了以單通道語音增強(Monaural Speech Enhancement)技術作為前端處理的魯棒語音識別系統。盡管現有的單通道語音增強技術能夠提高混響干擾下的識別率,卻未能顯著提升寬帶非平穩噪聲干擾下的系統識別率。為此,本文提出基于聽覺掩蔽生成對抗網絡的單通道增強方法,通過聽覺掩蔽增強模型和判別器構成的對抗過程,來使增強后的語音特征滿足目標語音的概率分布。實驗結果表明,就語音識別率而言,所提出的聽覺掩蔽生成對抗網絡超越了現有的增強方法,能夠相對減少19.50%的詞錯誤率,顯著提升語音識別系統的噪聲魯棒性。

關鍵詞: 聽覺掩蔽;生成對抗網絡;單通道語音增強;魯棒語音識別

文章編號: 2095-2163(2021)03-0209-06 中圖分類號:TP183 文獻標志碼:A

【Abstract】To improve the accuracy of speech recognition system in the complex acoustic scene, monaural speech enhancement method is involved into the robust automatic speech recognition (ASR) system as a front-end processing. Although monaural speech enhancement has improved the recognition performance under the reverberant conditions, it failed to improve the accuracy of speeches interrupted by the wide-band non-stationary noises. To overcome this problem, the paper proposes the adversarial generative network based on auditory masking for monaural speech enhancement. Through the adversarial process between a discriminator and a masking-based enhancement model, the proposed method can make the enhanced speech features follow the distribution of target speeches. Experimental results show that, ?the proposed method outperforms current enhancement method in terms of recognition accuracy. It achieves 19.50% relative word error rate (WER) reduction for a robust ASR system, which indicates that the proposed method can further improve the noise robustness.

0 引 言

在語音識別領域,通常使用含有噪聲的語音和純凈語音共同訓練自動語音識別(Automatic Speech Recognition,ASR)系統,從而提高其在噪聲環境下的識別率。為進一步提高ASR系統在復雜聲學場景下的識別率,出現了將單通道語音增強模型作為前端處理的識別系統。這類系統先使用增強模型盡可能地去除含噪語音中的噪聲干擾,接著將增強后的語音送入ASR系統,從而得到識別文本。為使增強后的語音和識別系統所要求的輸入盡可能地匹配,通常需要利用增強后的語音重新訓練ASR系統中的聲學模型[1-2],或者將聲學模型和增強模型堆疊,進行聯合訓練[3-4]。然而,上述這2種方法在增強模型改變時需要重新訓練語音識別系統,對實際應用而言,這通常是不合理的。首先,重新訓練語音識別系統非常耗時,其次,增強模型一般運行在終端設備,而識別系統則通常運行在云端設備,可能無法對兩者進行聯合優化。

近年來,出現了基于生成對抗網絡(Adversarial Generative Network,GAN)[5]的單通道語音增強方法。該方法通過構建增強模型和判別器之間的對抗過程,來使增強后的語音滿足目標語音分布。基于GAN的增強方法能夠顯著提升增強后語音的可懂度和感知質量[6]。受此啟發,魯棒語音識別領域也出現了基于GAN的前端處理方法,以盡可能地減少增強模型輸出與識別系統所要求輸入之間的不匹配程度,從而直接提高增強后語音的識別率,而不需要聯合訓練或重新訓練聲學模型[7-8]。通過增強后語音特征和目標語音特征之間的對抗訓練,文獻[7]中的增強方法降低了混響干擾下語音識別系統14%~19%的相對字錯誤率。在文獻[8]中,經過對抗訓練的增強模型能夠顯著提升純凈語音訓練的ASR系統,卻未能進一步提高魯棒ASR系統的識別率。

為了進一步提高魯棒ASR系統在寬帶非平穩噪聲干擾下的識別率,本文提出基于聽覺掩蔽生成對抗網絡的單通道語音增強方法,并將其作為魯棒ASR系統的前端處理過程,以盡可能地去除背景噪聲的干擾,從而提高識別率。所提出的方法由基于聽覺掩蔽的特征增強模型和區分增強后語音和目標語音特征的判別器構成。特征增強模型的首要目標是以含噪語音的聲學特征為輸入,來對目標語音相應的理想比率掩膜(Ideal Ratio Mask,IRM)進行預測,而后利用聽覺掩蔽效應得到增強后的聲學特征。增強模型的次要目標則是通過欺騙判別器,使增強后的聲學特征盡可能地滿足目標語音的概率分布,從而減少與目標語音特征之間的差異,進而提高增強后語音特征的識別率。

1 基于聽覺掩蔽生成對抗網絡的增強方法

首先給出基于聽覺掩蔽的有監督語音增強方法,而后對所提出的聽覺掩蔽生成對抗網絡(Generative adversarial network based on auditory masking, GANAM)進行介紹。GANAM主要由2部分構成,分別是:基于聽覺掩蔽的特征增強模型E,以及用于區分增強后特征和目標語音特征的判別器D。圖1給出了所提出方法的結構示意圖。

1.1 基于聽覺掩蔽的有監督增強方法

基于聽覺掩蔽的有監督增強方法能夠有效提升含噪語音的可懂度和感知質量[9],同時還能夠通過與聲學模型的聯合訓練提高ASR系統的識別率[3]。因此,本文也采用基于聽覺掩蔽的增強模型。理想比率掩膜IRM[6]是基于聽覺掩蔽的增強模型最常用的學習目標之一,其定義如下:

其中,M表示理想比率掩膜IRM;S和Y分別表示目標語音和含噪語音的時頻特征;t和f分別表示時間幀序號和頻帶編號;[·]10表示對數值進行截取,將其限制在0~1之間。

理想比率掩膜可以定義在不同的時頻特征上,包括能量譜FFT、對數能量譜log-FFT、梅爾能量譜fbank,以及對數梅爾能量譜log-fbank,其提取過程如下:

(1)對給定的語音波形進行短時傅里葉變換,得到復數譜。

(2)對復數譜的每個時頻單元取模,再平方,得到能量譜FFT。

(3)對能量譜的每個時頻單元進行對數壓縮,即可得到對數能量譜log-FFT。

(4)使用梅爾濾波器組對能量譜進行濾波,得到梅爾能量譜fbank。

(5)對梅爾能量譜的每個時頻單元取對數,得到對數梅爾能量譜log-fbank。

前期的實驗表明,使用對數梅爾能量譜log-fbank能夠獲得較好的增強性能,因此本文后續的實驗都以log-fbank作為聲學特征。

當特征域確定后,即可訓練增強模型E以含噪語音的聲學特征Y為輸入,來對目標語音相應的比率掩膜進行估計,即:

在訓練時,將理想比率掩膜真實值和預測值之間的均方誤差(Mean Square Error,MSE)作為損失函數,通過最小化該損失函數,來對增強模型E的參數θ進行求解:

其中,T和F分別表示語音幀總數和頻帶總數。

1.2 聽覺掩蔽生成對抗網絡

聽覺掩蔽生成對抗網絡GANAM在有監督語音增強模型的基礎上,另外添加了區分聲學特征純凈與否的判別器,從而能夠借助其與增強模型形成的對抗過程,使增強后的聲學特征更具判別性。

由于目標語音的數值范圍較大,直接將其作為正例會增加生成對抗網絡的訓練難度。因此,在GANAM中,判別器D將含噪語音特征Y與理想比率掩膜M的乘積作為正例S-:

在判別器盡可能區分增強后語音和目標語音特征的同時,增強模型則試圖通過改變其預測的比率掩膜,來欺騙判別器D,以獲得較高的分數:

其中,⊙表示對應元素相乘。

單純以最小化對抗損失Ladv作為增強模型E的訓練目標,會使預測出的比率掩膜缺少約束,因為其只需使增強后的聲學特征滿足目標語音的概率分布即可。這樣一來,增強后的語音和目標語音特征之間就會缺乏對應關系。因此,本文將比率掩膜的均方誤差與對抗損失相結合,提出對抗多任務損失函數:

其中,·22表示L2范數的平方,λ是用來平衡重構損失和對抗損失的超參數,一般通過實驗事先選取,本文取0.000 1。

1.3 聽覺掩蔽對抗訓練有效性分析

由此可見,對抗訓練最大化判別器的損失,實際上是在最小化目標語音和增強后語音特征分布之間的JS散度。因此,對抗訓練能夠使增強后的語音特征盡可能地滿足目標語音的概率分布,從而有效提高ASR系統的識別率。

2 實驗設置與評價指標

2.1 數據集

本文使用第3屆語音分離與識別公開挑戰賽CHiME-3[10]所提供的語音數據,來對所提出的方法進行評價。由于該數據集包括多個通道的語音數據,因此這里僅采用第5個通道的數據來進行單通道語音增強和識別任務的訓練和測試。CHiME-3數據集由模擬合成和真實錄制的2部分數據構成。對于模擬合成的數據,其理想比率掩膜使用含噪語音和參與合成的目標語音計算得到;對于真實錄制的數據,則使用錄制到的遠講語音和近講語音計算得到理想比率掩膜。為方便處理,所有的語音文件都采樣到16k Hz。另外,為模擬無混響的背景噪聲干擾,還將純凈語音和噪聲按照0 dB、3 dB和6 dB等信噪比進行混合,以擴充增強模型的訓練集。

2.2 評價指標

通過計算增強后語音在魯棒語音識別系統上的詞錯誤率(Word Error Rate,WER),來評價增強模型的性能。一般而言,詞錯誤率越低表示增強模型的性能越好,反之,詞錯誤率越高則表示增強模型的性能越差。

本文使用CHiME-3挑戰賽中官方提供的魯棒語音識別系統對增強模型進行評價。該系統由深度神經網絡(Deep Neural Network,DNN)和隱馬爾科夫模型(Hidden Markov Model,HMM)構成。對其聲學模型而言,首先訓練高斯混合模型(Gaussian Mixture Model,GMM)和HMM構成的混合系統,來進行音素和語音幀之間的強制對齊,這里采用經過決策樹聚類的三音素作為識別的基本單元。而后使用每幀的對數梅爾能量譜和三音素類別標簽訓練深度神經網絡DNN。為獲得良好的初始化參數,先使用受限玻爾茲曼機對神經網絡進行逐層初始化,而后再進行輸入特征和標簽對應的有監督分類訓練。為使該聲學模型盡可能地魯棒,訓練集含有多種聲學場景下的語音數據,包括純凈語音、近講語音、模擬的含噪語音,以及真實錄制的含噪語音。通過這種多條件的訓練方式,聲學模型的噪聲魯棒性能夠獲得極大提升[11]。

語音識別系統的語言模型為華爾街日報(Wall Street Journal,WSJ)5000詞的trigram模型,這里使用Kaldi工具集中的加權有限狀態機(Weighted Finite-State Transducer,WFST)對其進行建模。在對增強模型進行評價時,ASR系統的聲學模型和語言模型將固定不變,僅改變前端增強模型。

2.3 模型結構

所提出的聽覺掩蔽生成對抗網絡GANAM是一種學習范式,對增強模型的具體結構并沒有特殊要求。因此這里采用單通道語音增強算法中常用的雙向循環神經網絡(Recurrent Neural Network,RNN)。為避免長時建模可能產生的梯度消失問題,該RNN網絡采用長短時記憶單元(Long Short-term Memory Unit,LSTM)作為隱層單元。增強模型共包含4個隱層,而每個隱層則由512個LSTM單元構成。GANAM中的判別器與聲學模型的網絡結構類似,其輸入為前后各擴展12幀、共25幀聲學特征拼接而成的向量,而其輸出則是經過sigmoid函數歸一化后的概率得分。判別器D共包含3個全連接層,每層由1 024個線性整流(Rectified Linear Unit,ReLU)神經元構成。

2.4 對比方法

為客觀評價所提出方法的性能,本文將其與最近提出的2種基于生成對抗網絡的增強方法進行比較,可得到如下研究結論:

(1)MappingGAN是文獻[7]提出的增強方法。與本文基于聽覺掩蔽的增強方法不同,其增強模型以含噪語音的聲學特征為輸入,直接預測目標語音的特征;其判別器則盡可能地發現增強后語音和目標語音之間的差異。該方法可以有效提高混響干擾下魯棒ASR系統的識別率,但對于寬帶非平穩噪聲的干擾還未進行評估。

(2)PairGAN與本文的方法類似,也是基于聽覺掩蔽的增強方法[6]。不同的是,PairGAN將含噪語音與比率掩膜構成的二元組作為正例或反例,而不是將增強后的語音或目標語音特征作為正例或反例。該方法能夠有效提高增強后語音的可懂度和感知質量,但對魯棒ASR系統識別率的影響還有待研究。

3 實驗結果及分析

3.1 性能對比

表1給出了MappingGAN、PairGAN以及所提出的GANAM方法增強后語音的詞錯誤率。從表1中可以看出:

(1)不管是驗證集(dt)還是測試集(et),基于聽覺掩蔽的增強方法都能夠進一步降低模擬合成語音(simu)和真實錄制(real)語音在魯棒ASR系統上的詞錯誤率。這說明,前端增強方法是提升語音識別系統噪聲魯棒性的可行途徑。

(2)與有監督方法相比,所提出的GANAM在所有評測條件下都能夠顯著降低增強后語音的詞錯誤率,從而說明,GANAM能夠使增強后的語音特征更具判別性。

(3)與現有的增強方法MappingGAN和PairGAN相比,GANAM增強后的語音特征獲得了更低的詞錯誤率。這就表明,相比于其他的對抗訓練策略,基于聽覺掩蔽的生成對抗網絡能夠更加有效地提取和利用目標語音聲學特征的概率分布。

(4)通過對比PairGAN和有監督方法可以看出,不恰當的對抗策略非但不能提高ASR系統的識別率,甚至還會降低ASR系統的識別性能。此外,PairGAN的實驗結果還表明,提高增強后語音的可懂度、感知質量等主觀指標,和提高語音識別率這一客觀指標是2個不同的問題,能夠提高主觀指標的增強方法并不一定能夠提高識別率。

3.2 判別器模型結構對增強后語音詞錯誤率的影響

對于生成對抗網絡而言,判別器的模型結構也會對最終的性能產生影響。為了評估該影響,本節固定增強模型的網絡結構不變,分別使用參數量相同的卷積神經網絡和循環神經網絡,代替所采用的深度神經網絡判別器。表2給出了不同網絡結構的判別器對增強后語音識別率的影響。從表2中可以看出,判別器的模型結構確實會對增強后語音的識別率產生顯著的影響。與有監督方法(不含判別器的對抗訓練)相比,基于卷積神經網絡CNN和循環神經網絡LSTM的判別器并不能提升增強后語音的識別率,而基于DNN的判別器則在真實錄制的測試集et_real上帶來了1.78%的詞錯誤率下降。

3.3 聽覺掩蔽生成對抗網絡對增強后特征的影響

為探究聽覺掩蔽生成對抗網絡GANAM是如何影響增強后的語音特征,使其識別率得以提升,本節將不同模型增強后的聲學特征進行可視化,如圖2所示。可以看出,有監督增強方法只是在盡可能地最小化增強后語音和目標語音特征之間的差異,而并不關心增強后語音是否滿足純凈語音的概率分布,從而使真實含噪語音增強后的特征依然可能含有較多的噪聲干擾。而所提出的GANAM增強方法則通過對抗訓練的方式,來對純凈語音的概率分布進行建模,從而盡可能地去除增強后語音特征中的噪聲干擾,得到更為干凈的語音特征,進而提升增強后語音的識別率。

4 結束語

本文在基于聲學掩蔽有監督增強方法的基礎上,通過引入額外的判別器,來對純凈語音的概率分布進行建模,而后利用學習到的概率分布指導增強模型的訓練,從而使其增強后的語音特征滿足目標語音的概率分布,同時也更具判別性。實驗結果表明,將所提出的聲學掩蔽生成對抗網絡增強方法GANAM作為語音識別系統的前端處理,能夠降低魯棒ASR系統在真實含噪語音上的詞錯誤率,進一步提高其噪聲魯棒性。

參考文獻

[1] HAN Kun, HE Yanzhang, BAGCHI D, et al.Deep neural network based spectral feature mapping for robust speech recognition[C]// 16th Annual Conference of the International Speech Communication Association(Interspeech). Dresden,Germany:isca-speech organization,2015:2484-2488.

[2] WENINGER F, ERDOGAN H, WATANABE S, et al. Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR[M]//VINCENT E, YEREDOR A, KOLDOVSKY[DD(-*2]′[DD)] Z,et al. ?Latent variable analysis and signal separation. LVA/ICA 2015. Lecture Notes in Computer Science. Cham:Springer, 2015,9237:91-99.

[3] WANG Zhongqiu, WANG Deliang. A joint training framework for robust automatic speech recognition[J].IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(4):796-806.

[4] LIU Bin, NIE Shuai, ZHANG Yaping, et al. Boosting noise robustness of acoustic model via deep adversarial training[C]// 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Calgary, AB, Canada:IEEE, 2018:3674-3679.

[5] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]// NIPS. Montreal, QC, Canada: NIPS Foundation, 2014:2672-2680.

[6] PANDEY A, WANG Deliang. On adversarial training and loss functions for speech enhancement[C]// 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Calgary, AB, Canada:IEEE, 2018:5414-5418.

[7] WANG Ke, ZHANG Junbo, SUN Sining, et al. Investigating generative adversarial networks based speech dereverberation for robust speech recognition[C]//Interspeech. Hyderabad, India:dblp, 2018:1581-1585.

[8] DONAHUE C, LI Bo, PRABHAVALKAR R. Exploring speech enhancement with generative adversarial networks for robust speech recognition[C]// ICASSP. Calgary, AB, Canada:IEEE, 2018:5024-5028.

[9] WANG Yuxuan, NARAYANAN A, WANG Deliang. On training targets for supervised speech separation[J].IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(12):1849-1858.

[10]BARKER J, MARXER R, VINCENT E, et al. The third ‘chime speech separation and recognition challenge: Dataset, task and baselines[C]// 2015 IEEE Workshop on Automatic Speech Recognition and Understanding. Scottsdale, AZ, USA:IEEE, 2015:504-511.

[11]LI Feipeng, NIDADAVOLU P, HERMANSKY H. A long, deep and wide artificial neural net for robust speech recognition in unknown noise[C]// Interspeech. Singapore:dblp, 2014:1-6.

主站蜘蛛池模板: 欧美日韩亚洲国产| 国产真实乱子伦视频播放| 毛片大全免费观看| 国产成人午夜福利免费无码r| 波多野结衣第一页| 欧美天堂久久| 国产女人喷水视频| 亚洲精品人成网线在线| 国产97视频在线| 国产精品黄色片| 十八禁美女裸体网站| 精品1区2区3区| 国产成人综合在线观看| 久久九九热视频| 国产精品视频第一专区| 五月激激激综合网色播免费| 国产成人乱无码视频| 制服丝袜 91视频| 日韩经典精品无码一区二区| 国产精欧美一区二区三区| 在线精品自拍| 国产国拍精品视频免费看| 国产成人精品在线1区| 国产浮力第一页永久地址| 日本影院一区| 欧美一区二区三区国产精品| 99精品久久精品| 成人福利免费在线观看| 国产欧美日韩免费| 欧美精品影院| 在线va视频| 波多野结衣中文字幕久久| 婷婷激情五月网| 亚洲伊人久久精品影院| 在线观看视频一区二区| av手机版在线播放| 日韩一级毛一欧美一国产| 精品国产免费观看一区| 欧美日本激情| 国产色网站| 午夜日b视频| 久久久久亚洲精品无码网站| 国产美女精品一区二区| 97精品久久久大香线焦| 国产精品林美惠子在线观看| 亚洲国产精品无码AV| 色九九视频| 日韩欧美中文| 欧美日一级片| 91亚洲国产视频| 一本大道视频精品人妻 | 国产情侣一区二区三区| 国产精品爽爽va在线无码观看 | 高清久久精品亚洲日韩Av| 国产自产视频一区二区三区| 激情综合网激情综合| 中文成人在线视频| 97色婷婷成人综合在线观看| 亚洲va欧美va国产综合下载| 亚洲福利一区二区三区| 在线观看精品自拍视频| 超清无码熟妇人妻AV在线绿巨人 | 久久99国产精品成人欧美| 亚洲 欧美 偷自乱 图片| 五月天久久综合| 日韩资源站| 日韩欧美在线观看| 国产麻豆精品在线观看| 毛片国产精品完整版| 黄片在线永久| 国产成年无码AⅤ片在线| 亚洲视频一区| 国产啪在线| 国产一级裸网站| 成人伊人色一区二区三区| 国产性生大片免费观看性欧美| 国产精品专区第一页在线观看| 欧美成人精品在线| 亚洲精品高清视频| 日韩高清一区 | 影音先锋丝袜制服| 亚洲精品第一页不卡|