劉鵬



摘要:針對基于混合深度神經網絡的語音增強方法展開研究,闡述了該方法提出的背景、模型原理和實施過程。搭建了基于混合深度神經網絡的深度學習語音增強模型,并與僅基于DNN的語音增強模型進行了對比實驗,驗證了基于混合深度神經網絡的語音增強方法,進一步提高了增強語音的質量。
關鍵詞:混合深度神經網絡;語音增強;深度學習;語音質量
0引言
近幾十年來,語音增強(speech enhancement)由于其在移動電話、語音識別、助聽器設計等實時應用方面的重要性而受到研究者的關注。語音增強方法的主要目的是在不失真的情況下提高退化語音(deteriorated speech)信號的語音質量。為此,各國學者設計了許多算法。比如,譜減法是帶噪語音減去短期噪聲頻譜的估計值,從而產生純凈語音的估計值頻譜。信號子空間法是將帶噪語音信號通過矩陣分解的方法分解為信號子空間和噪聲子空間,進而獲得純凈語音信號的頻譜估值。但是,在這些傳統方法中經常遇到的問題是:由此產生的增強語音經常受到一種人為因素的影響,即“音樂噪聲”。而且,由于傳統的語音增強方法往往假設噪聲信號是平穩的并且噪聲信號與語音信號不存在相關關系,這使得傳統語音增強算法無法適用于非平穩噪聲的現實情況。
上世紀90年代,考慮到噪聲對語音干擾的復雜過程,部分學者開始采用神經網絡等非線性模型來建立帶噪語音與純凈語音信號之間的映射關系。文獻[4]和文獻[5]利用淺層神經網絡(shallow neuralnetworks)作為非線性濾波器來預測時域或頻域內的純凈信號。然而,淺層神經網絡的網絡規模小,不能充分學習帶噪語音特征與目標信噪比之間的關系。不僅如此,淺層神經網絡的隨機初始化常常會出現明顯的局部極小值或停滯,對于包含更多隱藏層的體系結構,問題會更為明顯。2006年Hinton等學者在其論文“A fast learning algorithm for deepbelief nets”和“Reducing the dimensionality of datawith neural networks”中提出了一種貪婪的分層學習算法,為訓練深度架構帶來了突破,同時也迎來深度學習技術的大繁榮。深度學習模型的每一層都進行預訓練,以學習其輸入(或前一層的輸出)的高級表示。對于回歸任務,深度學習已被應用于多個語音合成任務中。在文獻[11]和[12]中,堆疊降噪自編碼器(stacked denoising autoencoders)作為一種深度模型來建立帶噪語音和純凈語音信號特性之間的關系,為了捕捉語音信號的時間特性,部分學者還引入了循環神經網絡(recurrent neuralnetworks),從而消除了多層感知器(muhilayerperceptrons)中對上下文窗口的顯式選擇,文獻[13]和[14]采用深度循環神經網絡(deep recurrentneural networks)為魯棒語音識別(robust speechrecognition)進行特征增強。但在有限噪聲類型下訓練的深度循環神經網絡泛化能力較弱。此外,近年來基于對帶噪語音頻譜圖(spectrograms)處理的語音增強算法也不斷被提出。Fu等學者使用卷積神經網絡(convolutional neural networks)直接從帶噪語音的頻譜圖中估計出了純凈語音的頻譜圖,該方法較基于深度神經網絡(deep neural networks)的幅度處理方法相比性能有了很大提高。
隨著學者對深度學習模型研究的不斷深入,人們開始嘗試將深度學習模型與原有機器學習模型(如SVM或GMM)或者不同深度學習模型之間進行聯合,構建出混合的深度學習模型結構,比如:DNN-HMM結構、DNN-GMM結構、CNN-RNN結構、CNN-HMM結構以及RNN-HMM結構等。研究發現,使用這些混合網絡相較于單一網絡結構能夠獲得更好的性能和實驗效果。
1 基本方法概述
1.1 語音增強的概念
語音增強是指通過抑制噪聲來改善聽眾對帶噪語音某方面的感知體驗。在實際應用中,語音增強對帶噪語音感知體驗的改善主要有質量(quality)和可懂度(intelligibility)兩個方面。針對帶噪語音質量的改善是非常必要的,特別是在其長時間暴露于諸如工廠生產車間或航空飛機場等高分貝噪音環境下,語音質量的改善可以減少聽眾的聽覺疲勞。使用語音增強算法可以在一定程度上降低或抑制背景噪聲,因此有時也稱其為噪聲抑制算法(noisesuppression algorithms)。
1.2 深度學習模型
深度學習指的是廣泛的機器學習技術以及基于多層非線性信息處理的體系結構,這些信息處理本質上被認為是分層的,深度學習的模型結構可以分為單一獨立(Standalone)結構(通常包括DNNs、CNNs和RNNs等)和混合(hybrid)結構(包括DNN-HMM、DNN-GMM、CNN-RNN、CNN-HMM和RNN-HMM等)。
卷積神經網絡(CNNs)被認為是一個由多個特征提取階段所構成的深層體系結構,其中每個階段都包含一個卷積層和一個池化層以及非線性激活函數(ReLU),通過這樣的組合方式力求接近復雜的非線性模型函數。卷積層共享了權值,而池化層對來自卷積層的輸出進行采樣,降低了數據維度。CNNs假設特征具有不同層次結構并可以通過卷積內核提取。在監督訓練過程中,通過學習層次特征來完成既定的任務。
循環神經網絡(RNNs)是一類允許通過網絡的不同層共享參數的深度神經網絡。RNNs是基于類似樹的結構上循環地使用相同的權值集來開發的,該樹按拓撲順序遍歷。RNNs主要用于利用已有的數據樣本預測未來的數據序列。當涉及到語音或文本等序列數據的建模時,RNNs是非常流行的。
將卷積神經網絡(CNNs)與循環神經網絡(RNNs)相結合,用于對音頻信號或單詞序列等序列數據進行建模,這種混合模型稱為卷積循環神經網絡(CRNNs)。通過用RNNs替換最后一層卷積,可以將CRNNs描述為一個經過修改的CNNs。在CRNNs中,CNNs和RNNs分別扮演著特征提取器和時間歸納器的角色。采用RNNs對特征進行聚類,使得網絡能夠考慮全局結構,而局部特征由卷積層提取。這種結構最初是在文獻[17]中提出用于文檔分類,文獻[18]采用該結構進行了音樂標注。
2 基于混合深度神經網絡的語音增強方法
2.1模型概述
基于混合深度神經網絡的語音增強模型由三個部分組成:首先,將帶噪語音頻譜圖與若干個卷積核(kemel)進行卷積,形成特征圖(feature maps),并將所有特征圖拼接成一個二維特征圖:然后,利用雙向RNNs在時間維度對二維特征圖進行進一步的變換,建立連續幀之間的動態關聯;最后,建立預測頻譜圖和純凈語音頻譜圖之間的成本函數(costfunction),利用全連接層(Fully Connected Layer)對純凈語音頻譜圖逐幀進行預測。與已有的DNNs和RNNs模型相比,由于卷積內核的稀疏性,該混合網絡具有更高的數據效率和處理效率。此外,雙向循環網絡使得模型能夠自適應地對連續幀之間的動態關聯進行建模。
2.2 模型建立
假定y和x分別為帶噪語音和其所對應的純凈語音頻譜圖,其維度均為d×t。其中,d表示頻譜圖的頻帶數目,t表示頻譜圖的長度。假定Z為卷積核,其維度為b×w。將帶噪語音頻譜圖y與內核z進行卷積,所形成的特征圖如公式(1)所示。
3 基于混合深度神經網絡的語音增強實驗
將基于混合深度神經網絡所建立的語音增強模型與僅基于DNN的語音增強模型在語音增強的質量效果進行了實驗對比。
3.1實驗過程
3.1.1 數據準備
分別搭建基于混合深度神經網絡和僅基于DNN的語音增強模型。純凈語音選自TIMIT數據庫,噪聲信號選取NOISEX-92中的babble、ca、street和train四種噪聲,按照-5dB、0dB和5dB分別加噪。
兩種模型的訓練數據集均由TIMI了數據庫中的全部訓練集4620個句子,按照不同噪聲類型(4種)結合不同信噪比(3種)所產生的不同加噪條件(12種)的帶噪語音和與之對應的純凈語音組成。所以,采用了55440個語音對來構成兩種模型的訓練數據集。
兩種模型的測試數據集均由TIMIT數據庫中的全部測試集1680個句子,按照不同噪聲類型(4種)結合不同信噪比(3種)所產生的不同加噪條件(12種)的帶噪語音和與之對應的純凈語音組成。所以,采用了20160個語音對來構成兩種模型的測試數據集,
3.1.2模型參數配置
基于混合深度神經網絡的語音增強模型實驗中,作為預處理步驟,首先使用短時傅里葉變換(STFT)從每個話語中提取頻譜圖。每個頻譜圖中有256個頻帶(d=256)和500幀(t=500)。模型卷積層中有256個維度為32×11的卷積核,滑動步長(stride)頻率維度為16.時間維度為1.邊緣外自動補0。在卷積層之后使用了兩層雙向LSTMs.每層都有1024個隱藏單元。
僅基于DNN的語音增強模型實驗中,DNN模型包含3個隱藏層,每個層都有2048個隱藏單元。
3.2 實驗結果及分析
實驗中語音質量的評價選用PESQ方法,語音質量的PESQ評價結果見表1-表3所示。
語音質量的PESQ值越高說明對應的語音主觀聽覺質量越好,從表1-表3語音PESQ測試值可以看出:相較于僅基于DNN的語音增強模型,基于混合深度神經網絡的語音增強模型進一步提高了增強語音的質量,
由于在所構建的混合深度神經網絡中,CNNs和RNNs分別扮演了特征提取器和時間歸納器的角色。采用雙向LSTMs對特征進行聚類,使得網絡能夠考慮語音的全局結構,而局部特征可以由卷積層提取。因此,基于混合深度神經網絡的語音增強方法較僅基于DNN的語音增強方法能夠學習到語音中更多的上下文全局信息,表現出更好的語音質量增強效果,
4 結束語
本文針對基于混合深度神經網絡的語音增強方法展開了研究,闡述了該方法提出的背景、模型原理和實施過程,搭建了基于混合深度神經網絡的語音增強模型和僅基于DNN的語音增強模型,進行了對比實驗,驗證了基于混合深度神經網絡的語音增強方法,進一步提高了增強語音的質量。