周 彬 鄒 霞 張雄偉
(解放軍理工大學指揮自動化學院 南京 210007)
語音增強是現代語音信號處理中的關鍵技術。實際環境中的語音不可避免地受到各種噪聲源的干擾,語音增強的目的就是盡可能地消除噪聲的影響,從帶噪語音中提取出純凈的原始語音。目前,各種語音增強算法已廣泛應用于語音通信、語音編碼和語音識別等諸多領域。其中,基于短時譜估計的語音增強算法具有較好的噪聲抑制效果,且復雜度低易于實現,因而得到了廣泛關注和研究。
在短時譜估計語音增強算法中,首先要對語音和噪聲信號的先驗分布進行合理假設。經典的算法如最小均方誤差短時譜幅度估計(MMSE-STSA)[1]假設語音信號的短時譜服從高斯分布,且不同譜分量之間相互獨立。近幾年的研究表明,超高斯分布更符合語音信號的實際分布[2]。因此,文獻[3-7]提出基于超高斯分布的語音短時譜估計算法,包括基于Laplace分布模型的 MMSE短時譜估計,基于Gamma分布模型的 MMSE短時譜估計,基于Laplace分布模型的最大后驗概率(MAP)短時譜估計等。文獻[8]進一步將上述Gauss, Laplace, Gamma等分布模型進行一般化推廣,提出語音信號的廣義Gamma分布模型。文獻[8,9]據此提出基于廣義Gamma分布的語音信號MMSE估計。
上述改進算法雖取得了一定的效果,但仍然采用傳統的語音譜分量獨立性假設。實際上,由于分幀、加窗等影響,以及語音信號內在的諧波結構,語音的短時譜分量之間存在相關性[10]。因此,這一獨立性假設是不準確的。針對這一問題,文獻[10]提出分塊的線性最小均方誤差估計方法,主要通過語音信號的協方差矩陣描述濁音諧波結構的譜相關性,以此改進短時譜估計,取得了一定的效果。但該方法的增益因子估計仍基于傳統的 Wiener濾波法,沒有更好地利用語音的先驗分布信息。文獻[11,12]提出多維貝葉斯短時幅度譜估計方法,對具有相關性的譜分量進行聯合最優估計,從而改進語音增強性能,但該方法仍采用傳統的Gauss分布假設,且作者沒有給出MMSE估計的解析解。
針對上述問題,本文提出采用多元Laplace分布對語音信號進行建模,以此利用語音短時譜分量間的相關性。考慮離散余弦變換(DCT)相對于離散傅里葉變換(DFT)具有更好的能量壓縮特性,且不存在相位失真問題,本文將語音信號變換到DCT域進行處理。在假設語音信號的 DCT系數服從多元Laplace分布的基礎上,推導了語音短時譜的MMSE估計和語音存在概率。與傳統的語音增強算法相比,本文提出的算法能夠利用語音譜分量之間的相關性,更有效地抑制背景噪聲,減少語音失真,從而取得更好的語音增強效果。
本文第 2節描述了基于語音先驗分布模型的短時譜估計語音增強算法的基本框架。第 3節介紹了多元Laplace分布模型,推導了最小均方誤差準則下基于多元Laplace分布模型的語音短時譜估計,以及語音存在概率修正因子。第 4節給出實驗結果和分析。第5節進行總結。
設s(n)和d(n)分別表示純凈語音信號和加性高斯白噪聲,帶噪語音信號y(n) =s(n) +d(n)。其中,s(n)和d(n)相互獨立。經過分幀、加窗和DCT變換后,得到

其中Y(k,l),S(k,l),D(k,l)分別表示帶噪語音、純凈語音和噪聲的DCT變換系數,k表示頻帶序號,l表示時間幀序號。為簡化表示,下文中將序號k和l省略。
語音增強的目的就是從帶噪語音譜Y中恢復得到盡可能純凈的語音信號譜。假設純凈語音和噪聲的DCT變換系數相互獨立,且其概率密度函數分別為pS(S)和pD(D),則根據貝葉斯估計原理,在已知帶噪語音信號Y的條件下,純凈語音信號的MMSE估計為

以式(2)為基礎,在不同的先驗分布假設條件下,可以得到不同的估計器。例如,假設語音信號服從方差為的零均值高斯分布:

并假設噪聲服從方差為的零均值高斯分布:

則語音的MMSE估計為

研究表明,超高斯分布更符合語音信號在變換域的統計特性,據此,文獻[3]假設語音信號服從Laplace分布,即

而噪聲仍服從零均值高斯分布,推導得到語音信號的MMSE估計為


由于實際的語音譜分量間存在著相關性,而傳統的一元分布模型假設譜分量相互獨立,難以較好地描述語音信號的先驗分布。為了克服這一問題,本文提出采用多元 Laplace分布對語音信號先驗分布進行建模,并據此推導語音短時譜的MMSE估計。
對于服從d元球形輪廓 Laplace分布的隨機矢量S,其聯合概率密度函數為

其中Kl(u)為修正的第2類貝塞爾函數,其表達式為

為便于推導計算,實際中通常采用S的高斯尺度模型表示[13],即,

其中,隨機矢量X服從均值為零,協方差矩陣為s2Id的d元高斯分布,其概率密度函數為

Z與X相互獨立,且Z服從指數分布,其概率密度函數為

設a=,則S=aX,通過變量代換得到d元Laplace概率密度函數的高斯尺度混合表示為

其中pa(a) = 2apZ(a2)為a的概率密度函數。
圖1給出了s=1時的二元Laplace概率密度函數圖。S中的每個元素Si(1 ≤i≤d)均服從方差為s2的一元零均值Laplace邊緣分布,相對于Gauss分布其峭度更大,具有重拖尾、尖峰特性,因而更加符合實際的語音先驗分布[3],且能夠表示不同分量間的相關性。

圖1 多元Laplace概率密度函數圖(s=1,d=2)
假設語音的DCT系數矢量S服從d元球形輪廓Laplace分布:



假設S和D相互獨立,則帶噪信號Y=S+D的概率密度函數可以通過多元卷積求得[14]

其中 Γ (a,x;b)為廣義不完全Gamma函數,其表達式為

則語音信號DCT系數的MMSE估計可通過式(18)得到

其中Si(1 ≤i≤d)為d維矢量S中的元素。利用S的高斯尺度混合表示,將式(13),式(15),式(16)代入式(18)并化簡后得到

其中Yi( 1 ≤i≤d)為帶噪語音矢量Y中的元素。
在式(19)中,當d=1時,得到一元 Laplace分布模型下的MMSE估計,與文獻[3]中的推導結果相一致。由此可見,本文得到的 MMSE估計為一元Laplace分布模型算法的多元推廣,而文獻[3]中的MMSE估計子為一元分布條件假設下的特殊形式。
假設H1表示語音信號存在,H0表示語音信號不存在,則修正后的語音信號MMSE估計可表示為

其中E{Si|Y,H1}為假設語音必然存在條件下的MMSE估計,其表達式由式(19)給出;P(H1|Y)表示在給定帶噪語音頻譜Y的條件下語音信號的存在概率,根據貝葉斯原理,

其中L(Y,q)表示廣義似然比,其表達式為

其中p(Y|H1) =pS(Y) ,p(Y|H0) =pD(Y),q為先驗語音不存在概率。在多元Laplace語音分布假設和多元Gauss噪聲分布假設條件下, 將式(14)和式(15)代入式(22)可得

在實驗仿真中,基于Matlab實現本文所提出的語音增強算法,并與其他兩種算法進行比較,包括文獻[3]中提出的基于一元Laplace分布的MMSE語音增強算法,文獻[11]中提出的基于多元Gauss分布的語音增強算法,下文中分別用 UniLap,MultiGauss表示這兩種算法。為便于比較,3種算法實現中的噪聲參數均采用最小統計量方法估計得到[15]。實驗仿真中的參數設置為:幀長L=256,幀移M= 1 28;維數d=16,先驗語音不存在概率q= 0 .2;最小統計量搜索窗參數D= 1 20,U=8,V= 1 5。
從標準噪聲庫 Noisex92 中選取白噪聲、M109坦克噪聲、F16飛機噪聲作為原始噪聲,并將采樣率轉換為8 kHz。干凈語音選取采樣率為8 kHz的標準漢語語音信號,其中男女聲各 6 句,每句時間長度約為8 s。通過MATLAB 對噪聲信號和干凈語音混和,信噪比分別為-5 dB, 0 dB, 5 dB 和10 dB。
采用信噪比衡量語音增強算法的噪聲抑制效果。圖2給出了3種算法增強后語音的信噪比比較結果。從圖中可以看出,本文算法比基于一元Laplace分布的算法有較大提高,與文獻[11]中提出的基于多元Gauss分布的估計算法相比也有一定的提升。
表1給出了3種算法增強后語音的對數頻譜距離比較結果。從中可以看出,相對于一元 Laplace模型估計和多元Gauss模型估計算法,本文算法的增強語音具有更小的語音失真,尤其是在低信噪比條件下改進幅度較大。
圖3給出了3種算法增強后語音的感知語音質量評估(PESQ)比較結果。從中可以看出,與其他兩種算法相比,本文所提算法的輸出語音具有更好的語音質量,非正式的主觀聽覺測試與上述結果相一致。
圖4給出了在白噪聲條件下、輸入信噪比為5 dB時的原始語音、帶噪語音、以及 3種算法增強后語音的波形和語譜圖。從圖中可以看出,本文算法能夠有效抑制噪聲,恢復語音信號的頻譜結構。

圖2 3種算法增強后語音的信噪比比較

表1 3種算法增強后語音的對數頻譜距離(LSD)比較

圖3 3種算法的PESQ評估結果

圖4 3種算法增強語音信號的波形和語譜圖(左:波形圖,右:語譜圖)
本文提出一種基于多元Laplace分布模型的DCT域語音增強算法。采用多元Laplace分布模型對語音信號的 DCT系數進行建模,以此利用語音譜分量間的相關性,在此基礎上實現語音信號DCT系數的最小均方誤差(MMSE)估計。當該分布模型中的參數d=1時,本文方法退化為傳統的基于一元Laplace分布的MMSE估計。因此,本文方法可視為對傳統MMSE譜估計方法的一種推廣。實驗結果表明,與傳統的基于一元分布模型的語音增強算法和近幾年提出的基于多維貝葉斯估計的語音增強算法相比,本文算法在多種背景噪聲條件下能夠取得更好的語音增強效果。
[1]Ephraim Y and Malah D. Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator[J].IEEE Transactions on Acoustic,Speech and Signal Processing, 1984, 32(6): 1109-1121.
[2]Gazor S and Zhang W. Speech probability distribution[J].IEEE Signal Processing Letters, 2003, 10(7): 204-207.
[3]Martin R. Speech enhancement based on minimum mean square error estimation and supergaussian priors[J].IEEE Transactions on Speech and Audio Processing, 2005, 13(5):845-856.
[4]Lotter T and Vary P. Speech enhancement by MAP spectral amplitude estimation using a super-gaussian speech model[J].EURASIP Journal on Applied Signal Processing, 2005,2005(7): 1110-1126.
[5]Hendriks C R, Heusdens R, and Jensen J. Log-spectral magnitude MMSE estimators under super-gaussian densities[C]. INTERSPEECH, Brighton, UK, 2009:1319-1322.
[6]Paliwal K, Schwerin B, and Wojcicki K. Single channel speech enhancement using MMSE estimation of short-time modulation magnitude spectrum[C]. INTERSPEECH,Florence, Italy, 2011: 1209-1212.
[7]Esch T and Vary P. Model-based speech enhancement using SNR dependent MMSE estimation[C]. IEEE International Conference on Acoustics, Speech and Signal Processing,Prague, Czech, 2011: 4652-4655.
[8]Erkelens S J, Hendriks C R, Heusdens R,et al.. Minimum mean-square error estimation of discrete fourier coeffcients with generalized Gamma priors[J].IEEE Transactions on Audio,Speech and Language Processing, 2007, 6(15):1741-1752.
[9]Borgstrom J B and Alwan A. Log-spectral amplitude estimation with generalized Gamma distributions for speech enhancement[C].IEEE International Conference on Acoustics, Speech and Signal Processing, Prague, Czech,2011: 4756-4759.
[10]Li C and Andersen V S. A block-based linear MMSE noise reduction with a high temporal resolution modeling of the speech excitation[J].EURASIP Journal on Applied Signal Processing, 2005, 2005(18): 2965-2978.
[11]Plourde E and Champagne B. A family of Bayesian STSA estimators for the enhancement of speech with correlated frequency components[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, Dallas, USA, 2010:4766-4769.
[12]Plourde E and Champagne B. Multi-dimensional Bayesian STSA estimators for the enhancement of speech with correlated frequency components[J].IEEE Transactions on Signal Processing, 2011, 59(7): 3013-3024.
[13]Selesnick W I. The estimation of Laplace random vectors in additive white Gaussian noise[J].IEEE Transactions on Signal Processing, 2008, 56(8): 3482-3496.
[14]Plourde E and Champagne B. Bayesian spectral amplitude estimation for speech enhancement with correlated spectral components[C]. IEEE Workshop on Statistical Signal Processing, Cardiff, UK, 2009: 397-400.
[15]Martin R. Noise power spectral density estimation based on optimal smoothing and minimum statistics[J].IEEE Transactions on Speech and Audio Processing, 2001, 9(5):504-512.