基于條件深度卷積生成對抗網絡的語音增強研究

2019-09-12 10:41:42褚偉

智能計算機與應用 2019年4期

褚偉

摘要：語音交互技術日益在現實生活中得到廣泛的應用，由于干擾的存在，現實環境中的語音交互技術遠沒有達到令人滿意的程度。為了提高現實環境中語音交互性能，本文提出了一種基于條件深度卷積生成對抗網絡（C-DCGAN）的語音增強模型，這是在GAN的基礎上加入卷積層和條件信息。C-DCGAN利用卷積層提取語音特征，同時利用條件信息，生成高質量的語音。通過TIMIT數據集、NOISEX-92噪聲庫、Aurora2噪聲庫及環境噪聲數據集對所提出的語音增強模型進行驗證。結果表明，與譜減法、DNN等語音增強方法相比，C-DCGAN模型在PESQ和STOI指標上均有提高，表明本文提出的模型能取得良好的語音增強效果。

關鍵詞：語音增強;條件卷積生成對抗網絡;深度學習;帶噪語音

文章編號：2095-2163（2019）04-0082-05 中圖分類號：TP391 文獻標志碼：A

0 引言

語音增強是從被干擾的語音信號中提取出純凈的語音信號或者去除復雜的背景噪聲，用來改善受噪聲污染的語音的質量，提高語音清晰度和可懂度。語音增強作為信號處理中的一個重要研究領域，近些年來受到國內外研究者的廣泛關注和重視。

當下的各類相關研究指出，深度神經網絡的隱含層數目多，可以更好地提取語音信號中的結構化信息和高維信息。與此同時，這些研究也引發了學界對基于深度學習的語音增強技術的探索熱潮。Xu等人[1]提出了一種基于深度神經網絡的語音增強方法。與基于MMSE的方法相比，該方法的性能得到了顯著的改善，而且能夠很好地抑制非平穩噪聲。Koizumi等人[2] 提出了一種基于深度神經網絡的源增強訓練方法，實驗表明，該方法可以顯著提高語音質量的客觀評價指標?；谏疃壬窠浘W絡的方法需要人工提取語音特征，忽略了語音信號時域上的相位信息。但是經分析可知，相位信息對于語音的感知質量是重要的[3]。

GAN是當前人工智能研究的熱點，Goodfellow等人[4]提出了生成對抗性網絡（GAN），并在MNIST數據集、CIFAR-10數據集上進行了實驗，結果表明，該方法能應用于圖像樣本生成。Pascual等人[5]第一次將生成對抗性網絡應用在語音增強中，對模型進行端到端的訓練，并證實了模型的有效性。Mirza等人[6]引入了生成對抗性網絡的條件形式，在生成器和判別器中都添加了條件信息。研究結果顯示，該模型能夠生成以類標簽作為條件的MNIST數字。

綜合前文論述可知，本文采用條件深度卷積生成對抗網絡（C-DCGAN）進行語音增強，C-DCGAN是在GAN的基礎上加入卷積層和條件信息。本文在TIMIT純凈語音數據庫和3種不同的噪聲庫中進行了實驗。結果表明，與譜減法、DNN模型相比，C-DCGAN模型能取得良好的語音增強效果。本文擬對此展開研究論述如下。

1 C-DCGAN語音增強模型

本文采用條件深度卷積生成對抗網絡（C-DCGAN）模型，將條件信息c加入GAN的生成器中，條件信息將引導樣本數據的生成。與原始的條件生成對抗網絡（CGAN）不同，本文所用的判別器中不需要連接條件信息c。在判別器和生成器中使用卷積層替換池化層，使判別器和生成器變換為全卷積層，利用卷積層提取特征的能力訓練網絡，改善生成樣本的效果。

判別器D和生成器G使用公式（1）中的目標函數V（G，D）來進行極小極大博弈，其數學形式具體如下：

C-DCGAN模型采用交替優化的方法進行訓練，對此可表述為：先固定生成器G，優化判別器D，使得判別器D 的判別準確率最大化，即使D判別訓練樣本為1和判別生成樣本為0的概率最大化;然后固定判別器D，優化生成器G，使得D的判別準確率最小化，即log（1-D（G（z|c）））最小化。在訓練過程中，同一輪參數更新中，每優化k次判別器，優化1次生成器。算法的研發設計流程詳見如下。

算法1 條件深度卷積生成對抗網絡算法流程。用小批量隨機梯度下降算法訓練網絡，用于判別器的步驟k是一個超參數，文中設置k=2

C-DCGAN模型的工作原理如圖1所示。由圖1可知，首先，通過純凈語音數據集和噪聲集在多種信噪比下構造混合語音數據集，然后，在GAN的基礎上加入卷積層，同時在生成器中加入條件信息，從而得到C-DCGAN模型。最后，混合語音通過C-DCGAN模型生成增強語音，實現語音增強。

2 實驗過程與結果分析

2.1 數據集

本次研究使用TIMIT語音數據庫[7]，NOISEX-92噪聲庫[8]、Aurora2噪聲庫[9]和環境噪聲數據庫[10]。其中，TIMIT數據集的采樣率為16 kHz，一共包含6 300個句子，由630個人分別輪流說出給定的13個句子組成。NOISEX-92噪聲庫包含15種常見噪聲類型。Aurora2噪聲數據庫由8種噪聲組成。環境噪聲數據庫是由100種常見的環境噪聲組成。本文選取TIMIT訓練集中所有的句子，選取環境噪聲庫中的100種噪聲，從Aurora2噪聲庫中選取餐廳嘈雜聲（Restaurant）、機場聲（Airport）、火車聲（Train）、汽車引擎聲（Car）、街道聲（Street）這5種噪聲，按信噪比-5 dB、0 dB、5 dB、10 dB、15 dB、20 dB混合得到帶噪語音，再從中隨機選取100 h混合語音作為訓練集。隨機選取TIMIT測試集中的200個句子，選取NOISEX-92噪聲庫中餐廳內嘈雜噪聲（Babble）、坦克內部噪聲（Tank）、高頻信道噪聲（HFchannel）、駕駛艙噪聲（Destroyerengine）這4種在訓練集中未出現的噪聲，按信噪比-5 dB， 0dB，5 dB，10 dB，15 dB，20 dB混合得到帶噪語音測試集。

2.2 評價指標

本次研究使用的評價指標包括：語音質量聽覺評估（PESQ）[11]和短時客觀可懂度（STOI）[12]。其中，PESQ用來衡量語音質量，取值范圍為-0.5～4.5，得分越高說明語音感知效果越好。STOI主要是為了衡量語音的可懂度，其取值范圍為0～1，得分越高表示語音質量具有越好的可懂度。

2.3 實驗環境

本文實驗的硬件環境為：TITAN Xp實驗平臺，i7-9700k@3.6 GHz CPU，32 G內存，500 G固態硬盤。軟件環境為：Ubuntu 16.04操作系統、TensorFlow框架，編程選用Python語言，編輯器為PyCharm。

2.4 模型參數

為了評估模型的性能，本文實驗仿真比較了譜減法、DNN、C-DCGAN三種語音增強模型。研究可得闡釋分述如下。

（1）譜減法模型如下：首先，估計噪聲信號的幅度譜。然后，將帶噪語音進行傅里葉變換，得到帶噪語音的幅度譜。再用帶噪語音的幅度譜減去估計出來的噪聲幅度譜，就求得了語音的幅度譜估計。最后，利用估計的幅度譜和帶噪語音的相位來重構語音信號，而由重構得到的語音信號就是語音增強的結果。

（2）DNN模型參數如下：先對語音信號進行分幀處理，采用256點的漢明窗進行加窗分幀，幀移為128點。然后將分幀處理后的語音進行離散傅里葉變換，獲得語音的幅值，對幅值取自然對數得到對數能量譜。隱含層數為3，每個隱含層有1 024個神經元。在訓練過程中，最初的10次迭代過程中，學習速率為0.1，而在此后的各次迭代時學習速率下降10%。動量速率w為0.9，迭代次數為1 000次。

（3）C-DCGAN模型參數如下：學習率設為0.000 2，batch_size=128，epochs=1 000，采用隨機梯度下降算法。在訓練過程中，每500 ms提取約1 s語音（16 384個樣本）。為避免出現過擬合，在生成器的全連接層加入Dropout，Dropout率為0.5，判別器的全連接層后加入Dropout，Dropout率為0.8。為了防止梯度消失，除了生成器模型的輸出層及其對應的判別器模型的輸入層外，其它層都使用了批量歸一化。

2.5 結果分析

譜減法、DNN和C-DCGAN三種模型在含有105種噪聲的訓練集中訓練，在含有4種不可見噪聲的測試集中的測試結果見表1。由表1可以看出，C-DCGAN模型相對于譜減法，PESQ和STOI的平均值分別提高0.25和0.05。C-DCGAN模型相對于DNN模型，PESQ和STOI的平均值分別提高0.13和0.03，表明C-DCGAN模型明顯優于譜減法和DNN模型，語音感知效果和語音可懂度得到了提高。

選取TIMIT中訓練集的sa1.wav純凈語音文件，其內容為“She had your dark suit in greasy wash water all year”，選取NOISEX-92中babble噪聲。將純凈語音和噪聲按信噪比SNR=0的方式生成帶噪語音，再對模型進行測試。純凈語音和增強語音的波形如圖2所示。從圖2可以看出，經過譜減法增強后的語音能夠減少噪聲信號，但產生了較為明顯的失真，影響了聽覺感受。經過DNN模型增強后的語音能夠在相當程度上減少噪聲信號，但還會殘留一定的噪聲信號。經過C-DCGAN模型增強后的語音最接近純凈語音信號。

為了測試C-DCGAN模型在低信噪比下的語音增強性能，在-10 dB、-5 dB、0 dB等3種不同信噪比條件下進行實驗。選取TIMIT中的sa1.wav純凈語音以及NOISEX-92中babble噪聲。將純凈語音和噪聲分別在信噪比-10 dB、-5 dB、0 dB條件下混合，得到帶噪語音。并將帶噪語音在訓練好的C-DCGAN模型上進行測試。C-DCGAN模型測試結果如圖3所示。圖3（a）表示純凈語音，圖3（b）從左到右分別表示信噪比為-10 dB、-5 dB、0 dB下的混合語音，圖3（c）從左到右分別表示各個信噪比下C-DCGAN模型的語音增強效果。由圖3可知，C-DCGAN模型能夠在較低信噪比下實現語音增強，并取得良好的效果。

3 結束語

本文提出了條件深度卷積生成對抗網絡（C-DCGAN）模型，利用條件信息以及卷積層提取特征的能力生成高質量的純凈語音，從而實現語音增強。對于深度學習模型，含有大量噪聲的訓練集對于學習語音特征至關重要。本文在TIMIT數據集和不同噪聲集中進行了實驗，結果表明，相對于譜減法、DNN模型，C-DCGAN模型的語音聽覺質量和語音可懂度都有提高。

參考文獻

[1]XU Yong ， DU Jun， DAI Lirong ， et al. An experimental study on speech enhancement based on deep neural networks[J]. IEEE Signal Processing Letters， 2014， 21（1）：65-68.

[2] KOIZUMI Y ， NIWA K ， HIOKA Y ， et al. DNN-based source enhancement to increase objective sound quality assessment score[J]. IEEE/ACM Transactions on Audio， Speech & Language Processing， 2018，26（10）：1780-1792.

[3]PALIWAL K， WJCICKI K， SHANNON B. The importance of phase in speech enhancement[J]. Speech Communication， 2011， 53（4）：465-494.

[4] GOODFELLOW I J， POUGET-ABADIE J， MIRZA M， et al. Generative adversarial nets[C]// International Conference on Neural Information Processing Systems. USA：MIT Press， 2014：2672-2680.

[5] PASCUAL S， BONAFONTE A， SERR J. SEGAN：Speech enhancement generative adversarial network[J]. arXiv preprint arXiv：1703.09452，2017.

[6] MIRZA M， OSINDERO S. Conditional generative adversarial nets[J]. arXiv preprint arXiv：1411.1784，2014.

[7] GAROFOLO J S. Getting started with the DARPA TIMIT CD-ROM：An acoustic phonetic continuous speech database[R]. Gaithersburgh， MD：National Institute of Standards and Technology （NIST）， 1988.

[8] VARGA A， STEENEKEN H J M. Assessment for automatic speech recognition：II. NOISEX-92：A database and an experiment to study the effect of additive noise on speech recognition systems[J]. Speech Communication， 1993，12（3）：247-251.

[9]PEARCE D，HIRSCH H G. The Aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions[C]//Sixth International Conference on Spoken Language Processing， ICSLP 2000 / INTERSPEECH 2000. Beijing， China：dblp， 2000：1-5.

[10]HU G. 100 nonspeech environmental sounds，2004 [EB/OL].[2017-12-04]. http：//web.cse.ohio-state.edu/pnl/corpus/HuNonspeech/HuCorpus.html.

[11]ITU-T Recommendation P.862 . Perceptual evaluation of speech quality （PESQ）：An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs[S]. Geneva：International Telecommunication Union-Telecommunication Standardisation Sector，2001.

[12]TAAL C H ， HENDRIKS R C ， HEUSDENS R ， et al. A short-time objective intelligibility measure for time-frequency weighted noisy speech[C]// 2010 IEEE International Conference on Acoustics， Speech and Signal Processing （ICASSP）.Dallas， TX， USA：IEEE， 2010：4214-4217.