周偉力 賀前華 王亞樓 龐文豐
?
基于自適應逼近殘差的稀疏表示語音降噪方法
周偉力 賀前華*王亞樓 龐文豐
(華南理工大學電子與信息學院 廣州 510640)
該文提出一種基于自適應逼近殘差的稀疏表示語音降噪方法。在字典學習階段基于K奇異值分解(K-Singular Value Decomposition, K-SVD)算法獲得干凈語音譜的過完備字典,在稀疏表示階段基于權重因子調整后的噪聲譜和估計的交叉項對逼近殘差持續(xù)自適應地更新,并采用正交匹配追蹤(Orthogonal Matching Pursuit, OMP)方法對干凈語音譜進行稀疏重構。最后結合估計的干凈語音譜與帶噪語音相位,通過傅里葉逆變換獲得重構的干凈語音。實驗結果表明所提方法在不同噪聲和信噪比條件下相比標準的譜減法,稀疏表示語音降噪算法和基于自回歸隱馬爾可夫模型的降噪方法有更好的降噪效果。
語音降噪;稀疏表示;K奇異值分解;正交匹配追蹤
在實際環(huán)境中語音信號往往會受到各種噪聲的干擾,語音降噪的目的是從帶噪語音中恢復出原始的干凈語音,從而改善受損語音的質量和可懂度。語音降噪可應用于多個領域,例如在語音識別系統(tǒng)中,語音降噪算法的引入降低了待識別語音的背景噪聲干擾,有助于提高語音識別的準確率[1];另外,在無參考語音的情況下,語音質量客觀評價方法基于語音降噪算法構造“準干凈語音”,采用有參考源模型對帶噪語音進行客觀質量評價,獲得了良好的效果[2]。
目前常用的語音降噪方法主要有維納濾波法(Wiener Filter, WF)[3],譜減法(Spectrum Subtraction, SS)[4],基于統(tǒng)計模型方法(model- based)[5]和基于隱馬爾可夫模型(Hidden Markov Model, HMM)的語音降噪方法[6]。而譜減算法由于運算量較少并且易于實現(xiàn),因此常用于語音信號處理領域。然而傳統(tǒng)譜減算法存在一些影響降噪性能的因素,如噪聲譜估計誤差(noise magnitude errors)和交叉項誤差(cross-correlation errors)等。目前已有一些工作[7,8]分析了這些因素對信號處理系統(tǒng)性能的影響,但是這些工作主要集中于語音識別的性能分析上,而針對這些因素的補償方法目前仍有待進一步研究。
近年來,稀疏表示作為信號處理的一種新方法,旨在給定的過完備字典中用盡可能少的原子表示信號的主要信息。由于語音信號在正交基變換中具有近似稀疏性,因此可以通過構造符合語音信號結構的過完備字典,使得字典原子可以線性表達語音信號,從而獲得較好的重構精度。語音信號具有稀疏性的特點為稀疏表示方法應用于語音降噪提供了可能性[9]。不同于傳統(tǒng)降噪方法通過減少或去除噪聲來獲得干凈語音,基于稀疏表示的語音降噪方法從過完備字典中選取原子表達干凈語音信號,從而把干凈語音從帶噪信號中分離出來,達到剔除噪聲的目的。目前發(fā)展的算法中,孫林慧等人[10]提出基于數(shù)據驅動字典的稀疏表示語音降噪方法。而Zhao等人[11]則在頻域上采用近似K-SVD算法訓練純凈語音的過完備字典,采用最小角回歸(Least Angle Regression, LARS)方法獲得純凈信號譜的稀疏表示。文獻[12]基于K-SVD算法和帶噪語音構建時域信號字典,利用OMP方法重構干凈語音。Sigg等人[13]則提出一種基于generative dictionary的語音降噪方法,采用語音、噪聲的組合字典以及改進的LARS算法重構干凈語音信號。
稀疏表示降噪方法在信號重構階段通過限定稀疏編碼(如MP, OMP)的逼近殘差,從而選取出有意義的原子,使得重構的信號逼近干凈語音而非帶噪語音。逼近殘差與噪聲密切相關,而目前發(fā)展的基于稀疏表示的降噪算法主要通過帶噪信號的初始段估計噪聲譜[11]或者利用話音活動檢測(Voice Activity Detection, VAD)方法估計信號非語音段的噪聲方差來計算逼近殘差[10,12],并且在逼近殘差計算中沒有考慮噪聲譜估計誤差等因素[14]。而現(xiàn)實場景下大多數(shù)的噪聲信號是非平穩(wěn)的,僅在信號的無聲段估計和更新噪聲譜并不足夠,非平穩(wěn)環(huán)境下的低信噪比魯棒VAD算法目前仍是研究的熱點。另外雖然利用語音和噪聲的組合字典可以獲得噪聲成分的有效估計[13],但是這類方法需要單獨訓練噪聲字典,而現(xiàn)實環(huán)境中噪聲類型不可預知,因此噪聲字典的離線訓練并不適用于實際應用中。基于稀疏表示的語音降噪需要以短時幀為單位從帶噪信號中重構干凈語音,而由于噪聲譜具有時變特性,在話音間隙估計的逼近殘差對于話音活動期間可能并不準確。因此如果逼近殘差能夠根據噪聲譜的變化進行持續(xù)自適應的更新,那么稀疏表示提取的原子能夠更好地表征干凈信號,使得重構語音更接近原始純凈信號。為此,本文提出一種自適應逼近殘差的語音降噪算法,該算法基于過完備字典和稀疏表示實現(xiàn)噪聲消除。逼近殘差采用連續(xù)估計方式進行更新,同時為了補償噪聲譜估計誤差和交叉項誤差,提高逼近殘差計算準確性,該算法對噪聲譜估計值進行自適應調整,并對交叉項誤差進行了估計。更新的逼近殘差最后應用于干凈信號的稀疏重構中。

兩邊同時作離散傅里葉變換:
(2)

(4)
(5)

而該假設引入交叉項誤差為
(7)
(8)
基于以上分析,為了提升噪聲譜估計的準確性,需要對交叉項進行合理的估計。帶噪語音復數(shù)譜可以通過幅度與相位表示為極坐標形式:

(10)
將式(10)代入到式(7),可以近似獲得交叉項:

圖1 帶噪語音和交叉項頻譜曲線,嵌入噪聲為0 dB 白噪聲

為了對逼近殘差進行持續(xù)更新,通過連續(xù)噪聲估計方法[16]獲得噪聲譜估計值,并采用與當前幀瞬時后驗信噪比相關的權重因子[17]進行自適應調整。權重因子主要解決估計噪聲譜與瞬時語音譜中實際噪聲分量之間可能會存在偏差的問題,通過在低信噪比幀(例如語音的低能量段或沒有語音時)對估計的噪聲譜施加大的估計權重,而在高信噪比幀(語音成分較大時)施予小的權重,從而達到更好地估計噪聲譜的目的。將式(3)表示為第幀帶噪信號:

(13)


(16)

(18)
本文方法步驟總結如表1所示。
5.1 實驗設置
使用TIMIT數(shù)據庫對本文算法進行性能評估,并且采用NOISEX-92噪聲數(shù)據庫作為噪聲的疊加源。從TIMIT數(shù)據庫訓練集中選取300段語音,并進行8k降采樣,幀長取256點,幀移50%,共約50000幀樣本參與干凈語音功率譜字典訓練。字典大小為,字典訓練和語音稀疏重構采用K-SVD工具箱[20]實現(xiàn),字典初始化數(shù)據從訓練樣本中隨機選取,訓練迭代次數(shù)為40。測試樣本從TIMIT數(shù)據庫測試集中選取,并使用White, Babble, F16, Pink等4種不同類型噪聲與語音數(shù)據合成低信噪比語音樣本,信噪比分別為-5 dB, 0 dB, 5 dB和10 dB,共3200段樣本參與實驗評測。將本文方法與文獻[4]的標準譜減法(SS),文獻[6]的自回歸HMM方法(AR-HMM)和文獻[11]的頻域稀疏表示降噪方法(SRDN)進行比較。其中AR-HMM干凈語音模型訓練數(shù)據選自TIMIT數(shù)據庫訓練集,持續(xù)時長為20 min,語音AR譜階為10,狀態(tài)數(shù)為8,混合態(tài)數(shù)為16;而噪聲訓練數(shù)據持續(xù)時長為10 min,每類噪聲HMM模型AR譜階為6,狀態(tài)數(shù)為3,混合態(tài)數(shù)為3。通過時域波形和語譜圖分析以及客觀性能評測兩方面驗證算法的有效性。

表1 基于自適應逼近殘差的稀疏表示語音降噪
5.2 時域波形和語譜圖分析
圖2為原始語音,含噪語音和降噪后的語音時域波形圖。其中圖2(a)為TIMIT數(shù)據庫選取的原始語音(Her wardrobe consists of only skirts and blouses),圖2(b)帶噪語音為原始語音疊加10 dB白噪聲,圖2(c),圖2(d),圖2(e)和圖2(f)分別為文獻[4]方法、文獻[6]方法、文獻[11]方法和本文方法重構后的干凈語音。圖3(a),圖3(b),圖3(c),圖3(d),圖3(e)分別為原始語音,文獻[4]方法、文獻[6]方法、文獻[11]方法和本文方法降噪后語音信號對應的語譜圖。
從時域波形可以看到,相對于圖2(c)(文獻[4]方法)、圖2(d)(文獻[6]方法)和圖2(e)(文獻[11]方法),圖2(f)(本文方法)降噪后的語音更加干凈,并且與圖2(a)(原始語音)更為接近。而語譜圖方面,圖3 (e)的語音間隙部分有更少的殘留噪聲,并且相對于圖3(b),圖3(c)和圖3(d),圖3 (e)的語音部分更加干凈。上述結果表明本文方法相對于比較算法能較好地消除噪聲。從時域波形與語譜圖發(fā)現(xiàn),相對于原始語音,基于稀疏表示降噪后的語音(圖3(d),圖3(e))可能會忽略原始語音的某些非語音部分(如句尾的清音‘s’)。其原因可能是清音與白噪聲的結構類似,因此在稀疏表示時沒有提取表征清音相關的原子,導致重構語音忽略該部分的信息。

圖2 原始,含噪語音與重構語音波形對比????????圖3原始語音與重構語音語譜圖
5.3 客觀性能評測
采用目前廣泛應用的PESQ評分[21]和分段信噪比(Segment SNR)客觀測度[15]對各種降噪方法進行客觀性能評測。圖4和圖5為各種降噪算法在不同噪聲和信噪比下PESQ和Segment SNR平均提升幅度的比較結果。Segment SNR和PESQ的提升幅度定義為降噪語音相對干凈語音的Segment SNR和PESQ,與原帶噪語音相對干凈語音的Segment SNR和PESQ之間的偏差。所有測試樣本提升幅度的算術平均作為平均提升幅度。平均提升幅度越大,說明算法的降噪效果越佳。
可以看到,在PESQ提升幅度方面,本文方法在-5dB, 0dB和5 dB信噪比下,4種類型噪聲相對于對比算法都有更大的提升幅度。而在10 dB信噪比下,4種噪聲中有3類噪聲相對其他比較方法性能更優(yōu)。在-5dB, 0dB和5 dB信噪比下,本文方法所有噪聲的平均提升幅度為0.31, 0.40和0.38。而在10 dB信噪比下,所有噪聲的平均提升幅度為0.26。在Segment SNR方面,本文方法在-5 dB和0 dB信噪比下,4種類型噪聲相對其他比較方法有更大的提升幅度。而在5 dB, 10 dB信噪比,4種噪聲下有3類噪聲性能更優(yōu)。所有噪聲在-5dB, 0dB和5 dB信噪比下的平均提升幅度為3.79 dB, 3.18 dB和2.02 dB,而在10 dB信噪比下的平均提升幅度為1.26 dB。實驗結果表明,本文方法在大部分條件下相對其他比較算法有更好的性能,并且在低信噪比下(-5dB, 0dB和5 dB),相對高信噪比(10 dB)性能提升更明顯。主要原因可能在于AR系數(shù)只能模擬語音信號的譜包絡,并不能對譜細節(jié)成分進行較好的描述,故基于AR-HMM降噪算法的語音重構信號在譜細節(jié)間仍存在一定的殘余噪聲;而相對于SS和SRDN方法,自適應估計的逼近殘差使得稀疏表示提取的原子能夠更好地表征干凈語音,重構后語音更接近原始純凈信號。在低信噪比下,交叉項和權重因子調整后的噪聲譜對提高噪聲譜估計準確性的作用更大,因此獲得的重構語音對帶噪語音的改善相對在高信噪比下會更加明顯。

圖4 各種算法PESQ平均提升幅度比較 (柱狀圖代表平均提升的幅度,誤差線代表提升幅度95%的置信區(qū)間)
本文從信號稀疏重構的角度提出一種自適應逼近殘差的稀疏表示語音降噪方法。該方法基于相位不會對語音可懂度造成影響的原則對交叉項進行了近似估計,并通過瞬時后驗信噪比相關的權重因子對估計的噪聲譜進行調整。在字典訓練階段,基于K-SVD算法訓練干凈語音譜的過完備字典,在稀疏表示時,基于調整后的噪聲譜和估計的交叉項自適應地更新逼近殘差,并采用OMP算法對干凈語音譜進行稀疏重構。最后結合重構的干凈語音譜和帶噪語音相位,通過逆傅里葉變換獲得干凈語音。在不同噪聲和信噪比條件下對重構的干凈語音進行主客觀評測,實驗表明本文方法的有效性。
從實驗結果可以看到,算法對于Babble(多人說話)類型噪聲的降噪效果雖然有一定的提高,但是提高幅度并不如其他類型的噪聲。有可能Babble是一種跟語音相似的結構形背景噪聲,其頻譜結構與語音有一定的重疊部分,在稀疏表示時提取的原子會表征Babble噪聲的部分信息,導致重構語音包含部分噪聲。因此如果能夠在線獲得噪聲的結構知識(例如在線噪聲字典學習),那么結合這些噪聲結構信息可以進一步提高降噪效果,這也是我們下一步的工作。

圖5 各種算法Segment SNR平均提升幅度比較 (柱狀圖代表平均提升的幅度,誤差線代表提升幅度95%的置信區(qū)間)
[1] BABY D, VIRTANEN T, GEMMEKE J F,. Coupled dictionaries for exemplar-based speech enhancement and automatic speech recognition[J].,,, 2015, 23(11): 1788-1799.doi: 10.1109/TASLP.2015.2450491.
[2] ZHOU W L and HE Q H. Non-intrusive speech quality objective evaluation in high-noise environments[C]. IEEE China Summit and International Conference on Signal and Information Processing, Chengdu, China, 2015: 50-54.doi: 10.1109/ChinaSIP.2015.7230360.
[3] KODRASI I, MARQUARDT D, and DOCLO S. Curvature-based optimization of the trade-off parameter in the speech distortion weighted multichannel wiener filter[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, South Brisbane, Australia, 2015: 315-319.doi: 10.1109/ICASSP.2015.7177982.
[4] MARTIN R. Noise power spectral density estimation based on optimal smoothing and minimum statistics[J]., 2001, 9(5): 504-512.doi: 10.1109/89.928915.
[5] GERKMANN T. MMSE-optimal enhancement of complex speech coefficients with uncertain prior knowledge of the clean speech phase[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, Florence, Italy, 2014: 4478-4482.doi: 10.1109/ICASSP.2014.6854449.
[6] DAVID Y and KLEIJN W B. HMM-based gain modeling for enhancement of speech in noise[J].,,, 2007, 15(3): 882-892.10.1109/TASL.2006.885256.
[7] EVANA N, MASON J, LIU W,. An assessment on the fundamental limitations of spectral subtraction[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, Toulous, France, 2006: 145-148.doi: 10.1109/ ICASSP.2006.1659978.
[8] HILMAN F, KOJI I, and KOICHI S. Feature normalization based on non-extensive statistics for speech recognition[J]., 2013, 55(5): 587-599.doi: 10.1016/ j.specom.2013.02.004.
[9] HSIEH C T, HUANG P Y, CHEN Y H,. Speech enhancement based on sparse representation under color noisy environment[C].International Symposium on Intelligent Signal Processing and Communication Systems, Nusa Dua, Indonesia, 2015: 134-138.doi: 10.1109/ISPACS. 2015.7432752.
[10] 孫林慧, 楊震. 基于數(shù)據驅動字典和稀疏表示的語音增強[J]. 信號處理, 2011, 27(12): 1793-1800.
SUN L H and YANG Z. Speech enhancement based on data·driven dictionary and sparse representation[J]., 2011, 27(12): 1793-1800.
[11] ZHAO Y P, ZHAO X H, and WANG B. A speech enhancement method employing sparse representation of power spectral density[J]., 2013, 10(6): 1705-1714.
[12] ZHAO N, XU X, and YANG Y. Sparse representations for speech enhancement[J]., 2011, 19(2): 268-272.
[13] SIGG C D, DIKK T, and BUHMANN J M. Speech enhancement using generative dictionary learning[J].,,, 2012, 20(6): 1698-1712.doi: 10.1109/TASL.2012.2187194.
[14] ZHAO Y P and WANG B. A speech enhancement method based on sparse reconstruction of power spectral density [J].&, 2014, 40(4): 1705-1714.doi: 10.1016/j.compeleceng.2013.12.007.
[15] LOIZOU P C. Speech Enhancement: Theory and Practice [M]. Florida, US: CRC Press, 2013: 104-106.
[16] RANGACHARI S and LOIZOU P. A noise estimation algorithm for highly nonstationary environments[J]., 2006, 48(2): 220-231.doi: 10.1016/ j.specom.2006.08.005.
[17] BEROUTI M, SCHWARTZ M, and MAKHOUL J. Enhancement of speech corrupted by acoustic noise[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, Washington, US, 1979: 4478-4482.doi: 10.1109/ ICASSP.1979.1170788.
[18] CHANG L H and WU J Y. An improved RIP-based performance guarantee for sparse signal recovery via orthogonal matching pursuit[J]., 2014, 60(9): 5702-5715.doi: 10.1109/ TIT.2014.2338314.
[19] AHARON M and ELAD M. K-SVD: An algorithm for designing overcomplete dictionaries for sparse representation [J]., 2006, 54(11): 4311-4322.doi: 10.1109/TSP.2006. Signal 881199.
[20] Ron R. K-SVD ToolBox[OL]. http://www.cs.technion.ac.il /~ronrubin/software.html, 2016.
[21] ITU-T. P.862-2001. Perceptual evaluation of speech quality (PESQ): An objective method for end to end speech quality assessment of narrow-band telephone networks and speech codecs[S]. Geneva, ITU-T, 2001.
Adapted Stopping Residue Error Based Sparse Representation for Speech Denoising
ZHOU Weili HE Qianhua WANG Yalou PANG Wenfeng
(,,510640,)
A sparse representation speech denoising method based on adapted stopping residue error is proposed. Firstly, an over complete dictionary of the clean speech power spectrum is learned by the K-Singular Value Decomposition (K-SVD) algorithm. In the sparse representation stage, the stopping residue error is adaptively achieved according to the estimated cross terms and the noise spectrum which is adjusted by a weighted factor, and the Orthogonal Matching Pursuit (OMP) approach is applied to reconstruct the clean speech spectrum from the noisy speech. Finally, the clean speech is re-synthesis via the inverse Fourier transform with the reconstructed speech spectrum and the noisy speech phase. The experiment results show that the proposed method outperforms the standard spectral subtraction, sparse representation based speech denoising algorithm and the AutoRegressive Hidden Markov Model (AR-HMM) based speech denoising method in terms of subjective and objective measure.
Speech denoising; Sparse representation; K-Singular Value Decomposition (K-SVD); Orthogonal Matching Pursuit (OMP)
TN912.3
A
1009-5896(2017)02-0309-07
10.11999/JEIT160369
2016-04-18;改回日期:2016-08-25;
2016-10-21
賀前華 eeqhhe@scut.edu.cn
國家自然科學基金(61571192),廣東省公益項目(2015A010103003)
The National Natural Science Foundation of China (61571192), The Science and Technology Foundation of Guangdong Province (2015A010103003)
周偉力: 男,1986 年生,博士生,從事語音質量客觀評價、語音信號降噪的研究工作.
賀前華: 男,1965 年生,博士生導師,教授,研究方向為語音及音頻信號處理、嵌入式系統(tǒng)開發(fā).
王亞樓: 男,1991 年生,碩士生,研究方向為音頻信號處理.