房慧保,馬建芬+,田玉玲,張朝霞
(1.太原理工大學 信息與計算機學院,山西 晉中 030600; 2.太原理工大學 物理與光電工程學院,山西 晉中 030600)
為了解決傳統(tǒng)單通道語音增強方法存在的語音失真和殘留噪聲過多問題,多名研究者提出了基于深度神經(jīng)網(wǎng)絡(DNN)的語音增強算法[1-6],但是,這些算法都是通過最小化干凈語音和增強語音之間的均方誤差(MSE)標準來訓練網(wǎng)絡的,而MSE標準并不是基于人耳聽覺感知的標準。針對這一問題,一些研究者提出了在DNN訓練期間引入基于人類聽覺感知特性的心理聲學標準[7,8]。由于在不同頻帶上,相同的MSE可能對語音質(zhì)量及可懂度有不同的影響,一些研究者提出了對MSE代價函數(shù)進行加權的方法,他們將絕對聽閾、聽覺掩蔽等作為聽覺感知特征,引入代價函數(shù)的計算中[9-12]。
除了對MSE進行加權外,一種更為直接的方法是將已有的語音質(zhì)量和語音可懂度客觀評價標準作為代價函數(shù)來訓練網(wǎng)絡[13,14]。所以,可以通過將這些評價標準解讀為合適的損失函數(shù)來建立恰當?shù)拇鷥r函數(shù)用于端到端的語音增強。本文提出了一種基于頻域加權分段信噪比標準[15]的感知相關代價函數(shù)。在此基礎上,將頻域加權分段信噪比和感知加權均方誤差結合,得到一種聯(lián)合優(yōu)化代價函數(shù)。接下來分別將這兩種代價函數(shù)用于DNN訓練,通過實驗對比,探討感知相關代價函數(shù)的應用是否可以進一步提高深度神經(jīng)網(wǎng)絡語音增強性能。
語音增強的目標是在給定含噪語音信號的情況下,估計出干凈語音信號。假設受噪聲干擾的輸入信號y(t) 是由干凈語音信號x(t) 和噪聲d(t) 疊加而成,即
y(t)=x(t)+d(t)
(1)
其中,t表示離散時間變量。兩邊同時做K點離散傅里葉變換(DFT)后,就可以得到第l幀上的第k個頻帶的含噪語音信號頻譜,即
Y(l,k)=X(l,k)+D(l,k),k=1,…,K
(2)
其中,Y(l,k)、X(l,k) 和D(l,k) 分別表示含噪語音頻譜、干凈語音頻譜和噪聲頻譜。l表示幀,k表示頻帶。此外,可以將式(2)以極坐標的形式表示,即
|Y(l,k)|ejφy(l,k)=|X(l,k)|ejφx(l,k)+|D(l,k)|ejφd(l,k)
(3)
其中,|Y(l,k)|、|X(l,k)| 和 |D(l,k)| 分別表示含噪語音信號、干凈語音信號和噪聲的幅度譜。φy(l,k)、φx(l,k) 和φd(l,k) 分別表示含噪語音信號、干凈語音信號和噪聲的相位譜。
在傳統(tǒng)的MSE-DNN框架中,DNN的輸入是含噪語音的對數(shù)功率譜(LPS)特征,它包含了2τ+1個相鄰幀的聲學上下文信息,訓練目標是干凈語音的LPS特征,訓練階段優(yōu)化的代價函數(shù)為
(4)

但是,MSE代價函數(shù)和語音可懂度沒有必要的關聯(lián)性。MSE不關注干凈語音幅度譜和網(wǎng)絡輸出幅度譜之間的正負差異,正差異表示估計的幅度譜被衰減了,而負差異表示估計的幅度譜被放大了,這兩種失真對人耳聽覺感知的影響不一定相同。也就是說,簡單的通過最小化干凈語音和增強語音之間的MSE,并不能保證增強語音的可懂度一定提高。
為了克服上述MSE代價函數(shù)的問題,本文提出了感知相關代價函數(shù),并將其用于網(wǎng)絡訓練,以提高語音質(zhì)量和語音可懂度?;诟兄嚓P代價函數(shù)的深度神經(jīng)網(wǎng)絡語音增強方法實驗框架如圖1所示。它包括兩個階段:訓練階段和增強階段,本文主要對特征提取、感知相關代價函數(shù)的構建和DNN訓練進行介紹。

圖1 所提方法實驗框架
2.2.1 特征提取
在訓練階段,通過將語料庫中的干凈語音和噪聲逐幀地相加得到含噪語音信號。由于語音信號的時間連續(xù)性,我們將相鄰時間幀的聲學特征合并為一個向量作為DNN的輸入。因此輸入特征是含噪語音的當前幀、3個過去幀和3個未來幀的所有頻帶的幅度譜特征,并將這7個幀的幅度譜特征合并成一個向量,即
Y=[y(l-3,1),…,y(l-3,K),…,y(l,1),…,
y(l,K),…,y(l+3,1),…,y(l+3,K)]
(5)
其中,y(l,k) 表示含噪語音信號的第l幀位于頻帶k的幅度譜分量。訓練目標是干凈語音當前幀的每個頻帶的幅度譜特征,即
X=[x(l,1),…,x(l,K)]
(6)
其中,x(l,K) 表示干凈語音信號的第l幀位于頻帶K的幅度譜分量。得到輸入特征和訓練目標后,將這些數(shù)據(jù)進行標準化,使它們服從均值為0、方差為1的高斯分布。接下來需要構建感知相關代價函數(shù),將其用于DNN訓練。
2.2.2 感知相關代價函數(shù)的構建
頻域加權分段信噪比是一種語音可懂度客觀評價標準,它的優(yōu)點主要包括:使用臨界帶頻率間隔可以對聽力正常聽眾的頻率選擇性進行恰當?shù)慕?,并且可以將感知激勵加權函?shù)施加于各個頻帶。頻域加權分段信噪比的計算如下
(7)


(8)
具體來講,當某個頻帶的信噪比大于0時,設為1,反之設為0,這樣做考慮的是,當語音的能量超過噪聲能量一定數(shù)值時,噪聲將被掩蔽,并且不被人耳聽覺感知[16]。因此本文提出了在DNN訓練過程中通過最小化以下感知相關代價函數(shù)來優(yōu)化網(wǎng)絡參數(shù)
(9)

在MSE代價函數(shù)的計算中,每一幀的均方誤差是通過對所有頻帶的干凈語音和增強語音對數(shù)功率譜之間的誤差平方和取平均值得到的,也就是說不同頻帶對基于梯度的網(wǎng)絡訓練有相同的貢獻。但是,不同頻帶的誤差對人耳聽覺感知的影響是不同的,這些誤差不應該被均勻加權,而是應該根據(jù)它們對聽覺的影響,對不同的頻帶的均方誤差施加不同的權重。此外,DNN應該更加關注對人耳聽覺感知更為重要的頻帶。根據(jù)這些理論分析,有研究者提出了一種感知加權均方誤差代價函數(shù)[17],即
(10)
其中,Lm表示第m條干凈語音信號的頻帶個數(shù),W(l,k) 是對不同頻帶施加的權重,仍然根據(jù)式(8)來動態(tài)選擇,以最小化所有頻帶的誤差之和的幾何平均。
在此基礎上,本文將上述感知加權誤差和頻域加權分段信噪比結合,提出了一種聯(lián)合優(yōu)化代價函數(shù),即

(11)
其中,感知加權誤差和頻域加權分段信噪比這兩項的權重都設為固定值1。構建出代價函數(shù)后,接下來通過訓練一個DNN來得到干凈語音的幅度譜估計。
2.2.3 DNN訓練
DNN模型的搭建參考了文獻[3],它的輸入為7×257維的含噪語音幅度譜特征;然后經(jīng)過3個全連接層(或隱藏層),每個全連接層有2048個神經(jīng)元;最后經(jīng)過一個257維的全連接層,獲得神經(jīng)網(wǎng)絡的輸出。除了輸出層的激活函數(shù)為線性(linear)函數(shù)以外,其它層的激活函數(shù)均為整流線型單元(relu)。為了防止過擬合,在3個隱藏層后面添加了0.2的Dropout,網(wǎng)絡訓練過程使用的自適應調(diào)整參數(shù)學習率的算法為Adam,學習率為0.0001。
基于感知相關代價函數(shù)的DNN訓練如圖2所示。首先對網(wǎng)絡的權重ω和偏差單元b進行初始化,再利用前饋神經(jīng)網(wǎng)絡(FNN)得到每個頻帶的幅度譜估計,即

圖2 基于感知相關代價函數(shù)的DNN訓練流程
(12)
接下來利用干凈語音的幅度譜xm(l,k),根據(jù)式(9)和式(11),求出感知相關代價函數(shù)值。為了最小化MSSNR和wMSE+MSSNR代價函數(shù)值,通過反向傳播算法對DNN的權重進行訓練,由此得到訓練好的DNN。
在本研究中,訓練語音和測試語音都來自TIMIT數(shù)據(jù)集。TIMIT數(shù)據(jù)集是由630名說話人(男性438名,女性192名)每人說10句所組成的語音集合,它分為訓練集和測試集,訓練集中有4620句,測試集中有1680句,一共6300條干凈語音。訓練噪聲和測試噪聲分別來自Aurora2數(shù)據(jù)庫和NOISEX-92數(shù)據(jù)庫。在6種信噪比(-5 dB、0 dB、5 dB、10 dB、15 dB、20 dB)條件下,通過將 TIMIT 訓練集中的所有4620條干凈語音與Aurora2數(shù)據(jù)庫中的100種噪聲類型疊加,可以得到2 772 000(4620×100×6)條含噪語音,這些含噪語音信號和對應的干凈語音信號共同形成一個多條件訓練集。在測試階段,為了使實驗條件更接近真實環(huán)境,使用一些和訓練集不匹配的噪聲類型。在上述6種信噪比條件下,將TIMIT測試集中的100條干凈語音信號與2種可見噪聲(汽車噪聲、鈴聲)和NOISEX-92數(shù)據(jù)庫中的8種未見噪聲(比如:exhibition、pink、Factory1等)疊加,得到一個包含1000(2×100+8×100)條含噪語音信號的測試集。實驗中所有語音波形文件和噪聲的采樣率均為16 KHz。然后對信號進行分幀、加漢明窗,其中幀長為32 ms(512個采樣點),幀移為16 ms(256個采樣點),再對每一幀做257點DFT,就可以將時域信號轉換為信號的頻譜,由此可以得到257維的幅度譜特征。
為了驗證本文提出的兩種代價函數(shù)可以進一步提高語音增強性能,將MSSNR和wMSE+MSSNR代價函數(shù)分別用于DNN訓練,并將這兩種方法與3種對比方法進行比較,3種對比方法分別是:傳統(tǒng)的最小均方誤差對數(shù)譜幅度估計(LogMMSE方法)、基于MSE代價函數(shù)的深度學習語音增強算法(MSE-DNN方法)和基于感知加權均方誤差代價函數(shù)的深度神經(jīng)網(wǎng)絡語音增強算法(wMSE-DNN方法)。為了方便,將這3種對比方法用方法A、方法B和方法C來表示。將本文提出的基于MSSNR代價函數(shù)的深度神經(jīng)網(wǎng)絡語音增強算法(MSSNR-DNN方法)和基于wMSE+MSSNR代價函數(shù)的深度神經(jīng)網(wǎng)絡語音增強算法(wMSE+MSSNR-DNN方法)用方法D和方法E來表示。為了減少算法的復雜度,4種深度學習方法使用相同的網(wǎng)絡結構。
本文利用語音質(zhì)量感知評價(PESQ)和短時客觀可懂度(STOI)兩種語音評價方法對增強語音進行客觀評價。PESQ用來對語音信號的感知質(zhì)量進行客觀評價,取值范圍是-0.5到4.5。通過比較增強語音和干凈語音,可以計算出PESQ分數(shù)。PESQ越高,語音質(zhì)量越高。STOI用來對增強語音的可懂度進行客觀評價,取值范圍是0到1,也是關于干凈語音和增強語音的函數(shù)。STOI值越高,表明增強語音的可懂度越高。
表1列出了在6種信噪比條件下,含噪語音以及通過傳統(tǒng)的LogMMSE方法、4種基于不同代價函數(shù)的深度神經(jīng)網(wǎng)絡語音增強方法得到的增強語音的平均PESQ結果。從表中可以看出,基于DNN的語音增強方法和傳統(tǒng)方法相比,在PESQ上實現(xiàn)了顯著的增益。wMSE-DNN方法和MSE-DNN方法相比,增強語音的質(zhì)量提高,表明對均方誤差進行感知加權,并將其用于DNN訓練,可以進一步提高語音質(zhì)量。在大多數(shù)情況下,本文提出的MSSNR-DNN方法得到的PESQ分數(shù)都優(yōu)于MSE-DNN方法和wMSE-DNN方法,這表明在DNN的訓練過程中最小化基于頻域加權分段信噪比的感知相關代價函數(shù),可以提高增強語音的質(zhì)量。但是當SNR=20 dB時,MSSNR-DNN方法得到的PESQ分數(shù)略有下降,這表明在輸入信噪比高的情況下,通過這種方法會造成輕微的語音失真問題,但這種失真不會對人耳聽覺造成影響。此外,在6種信噪比環(huán)境下,wMSE+MSSNR-DNN方法可以得到比另外3種深度學習方法更好的語音質(zhì)量,這是由于MSE沒有考慮人耳聽覺系統(tǒng)的感知特性,根據(jù)理想二值掩蔽對MSE加權,將其和頻域加權分段信噪比結合,作為代價函數(shù)來優(yōu)化DNN,可以進一步提高增強語音的感知質(zhì)量。

表1 不同信噪比下的平均PESQ結果
表2列出了在6種信噪比條件下,含噪語音以及通過傳統(tǒng)的LogMMSE方法、4種基于不同代價函數(shù)的深度神經(jīng)網(wǎng)絡語音增強方法得到的增強語音的平均STOI結果。從表中很明顯可以看出,4種基于DNN的語音增強方法和傳統(tǒng)方法相比,STOI值顯著提高。在低信噪比條件下,基于感知加權均方誤差代價函數(shù)的DNN訓練有利于語音可懂度的提高。大多數(shù)信噪比下,經(jīng)過wMSE+MSSNR-DNN方法處理以后的增強語音的STOI值高于其它3種深度學習方法,這是由于利用人耳聽覺系統(tǒng)的感知特性,對均方誤差進行感知加權,并將其和頻域加權分段信噪比結合,可以進一步提高增強語音的可懂度。但是,當SNR=5 dB時,wMSE+MSSNR-DNN方法得到STOI值下降,這可能是由于該方法通過采用感知加權,在一定程度上造成了語音信息丟失。在大多數(shù)信噪比條件下,MSSNR-DNN方法優(yōu)于MSE-DNN方法和wMSE-DNN方法。但是,在高信噪比環(huán)境中,特別是當SNR=20 dB時,雖然通過MSSNR-DNN方法得到的語音質(zhì)量和MSE-DNN方法、wMSE-DNN方法相比略有下降,但是增強語音的可懂度分別提高了0.012和0.003,這是由于頻域加權分段信噪比和語音可懂度高度相關。
圖3表示TIMIT語料庫中的一條干凈語音,SNR=-5 dB 的含噪語音,以及通過5種不同的方法得到的增強語音的語譜圖。從圖3(b)可以看出當SNR=-5 dB時,語音信息被噪聲掩蓋。從圖3(c)看出傳統(tǒng)的LogMMSE方法存在的殘留噪聲和語音失真問題嚴重。從圖3(e)可以看出wMSE-DNN方法和其它4種方法相比,殘留噪聲最少,但是語音信息的損失情況最為嚴重,因此難以提高語音可懂度。通過比較圖3(d)、圖3(e)和圖3(f)可以看出,MSSNR-DNN方法可以有效地恢復語音信息,從而提高增強語音的可懂度,但是語音段間仍然存在殘留噪聲。從圖3(g)可以看出,利用wMSE+MSSNR-DNN方法,可以進一步抑制殘留噪聲,同時保留更多的語音信息,這表明該方法可以保留更多對人耳聽覺感知有重要作用的語音段,因此語音可懂度進一步提高。

圖3 語音信號的語譜圖比較
本文提出了一種基于感知相關代價函數(shù)的深度神經(jīng)網(wǎng)絡語音增強算法。在基于DNN的語音增強回歸問題中,使用基于本文提出的兩種感知相關代價函數(shù)進行DNN訓練,可以保留對人類聽覺感知更為重要的頻帶,并且有效提高增強語音的質(zhì)量和可懂度。
今后可以嘗試將其它能夠表征人類聽覺感知特性的心理聲學特征引入代價函數(shù)的計算中。此外,下一步可以將本文提出的聯(lián)合優(yōu)化代價函數(shù)中的wMSE和MSSNR進行權重設置,探究不同權重因子對語音增強性能的影響。