蔣茂松,王冬霞,牛芳琳,曹玉東
語音增強旨在提高被各種各樣噪聲干擾的語音質量和可懂度,它是語音通信、語音編碼和語音識別等諸多領域的基礎,是語音信號處理領域重要的分支。
單通道語音增強算法包括最小均方誤差(Minimum Mean Square Error, MMSE)估計[1]、譜減法[2]、子空間[3]及近年來提出的深度神經網絡(Deep Neural Network, DNN)方法[4-5]等。這些方法在一定程度上改善了帶噪語音的質量。這些增強算法或是基于統計模型或是較少使用語音和噪聲的先驗信息,因此,在不同環境噪聲條件下,尤其是在非平穩噪聲環境下語音增強的性能下降。
非負矩陣分解(Non-negative Matrix Factorization, NMF)是一種新的矩陣分解算法[6],與傳統的矩陣分解算法相比,它具有物理意義強、實現簡單、存儲空間小等優點。基于非負矩陣分解的語音增強算法[7]充分利用了帶噪語音的先驗信息,通過提取純凈語音和噪聲信號子空間譜,建模為非負激活系數加權到基向量的線性組合,進而彌補了常規典型算法的不足。
非負矩陣分解的語音增強算法大致可分為無監督和有監督兩大類[8]。前者不需要先驗信息、簡單易實現,但在非平穩噪聲環境下性能較差;后者需要先驗信息,但在非平穩噪聲環境下,可以獲得更好的增強效果,具有更加明顯的優勢。
由于訓練數據和測試數據的不完全一致性,故有監督NMF算法存在著訓練數據和測試數據間語音特征不匹配的問題,易影響算法的性能。考慮到語音在時頻域存在稀疏性,有學者將稀疏約束引入有監督NMF中,提出了稀疏NMF(Sparse NMF, SNMF)算法,提高了收斂速度和語音與噪聲信號區分度,很好的解決了兩者之間語音特征不匹配的問題[9-10]。考慮到DNN特性,有學者提出聯合DNN和NMF的語音增強算法[11]。這些算法雖然能夠達到預期效果,但是在處理數據時產生的誤差具有隨機性且易受到異常噪聲等各種因素的影響。此外,NMF分解后的基矩陣和系數矩陣的稀疏度難以控制,容易造成過度擬合和大量殘余噪聲剩余,導致重構語音的嚴重失真和算法對噪聲魯棒性下降。
針對上述問題,文獻[12]通過在目標函數中引入噪聲約束項,提出了一種魯棒NMF(Robust NMF,RNMF)算法,以修正非負矩陣分解過程中產生的隨機誤差。考慮到數據的稀疏性,文獻[13]在目標函數中引入系數矩陣的稀疏約束項,提出了一種稀疏RNMF算法,以控制其稀疏度。但是,這兩種算法采用的是歐氏距離來度量原始數據與重構數據間的誤差,計算目標函數時存在數據點冗余的平方,造成了異常點的誤差被放大而影響算法性能。
考慮到語音信號的時間連續性[14]和幅度譜的統計先驗知識[15]的一致性,在NMF目標函數中添加由噪聲項和稀疏約束項所構成的正則項,以保證分解的數據具有原始語音信號特征,本文在文獻[12-13]的基礎上進行了改進,提出了一種稀疏正則NMF(Sparsity-regularized Robust NMF, SRNMF)的語音增強算法。該算法既能提高不同環境噪聲下的魯棒性,又能減少過度擬合,進而減小重構數據中的殘余噪聲和異常噪聲對算法的影響,加快收斂,增強語音性能。


(1)

為了使W和H的乘積結果盡可能地逼近矩陣V,定義一個度量函數D,使其產生最佳的分解結果,即

(2)
s.t.W≥0,H≥0

文獻[12-13]以歐氏距離來度量誤差散度函數,這樣易造成異常點的誤差被放大。在文獻[10]中,假設噪聲服從泊松分布,求解非負矩陣W和H的最大對數似然解,得到KL(Kullback-Leibler)散度下的目標函數。然而,標準NMF語音增強算法處理數據時產生的誤差具有隨意性,算法性能達不到預測效果。為減弱這些問題的影響,引入噪聲項E=[ek,l]∈RK×L,即:V≈WH+E,能夠保護基矩陣W和系數矩陣H免受干擾,且增強對噪聲等不利因素的抵抗能力,即KL散度下的目標函數為:

(3)
為了加強式(3)的稀疏性,在目標函數中添加噪聲項E的L0范數稀疏約束,優化目標函數為:
(4)
s.t.W≥0,H≥0,‖E‖≤τ
其中:τ是參數,表示E中最大的非零元素。因為求L0范數很困難,所以采用L1范數替代L0范數的稀疏正則,這是解決稀疏問題的標準方法。然后,式(4)的改寫形式為:
(5)
s.t.W≥0,H≥0
由于語音信號在時頻域存在稀疏性,因此通過引入稀疏因子來控制系數矩陣H的稀疏度[15],使得基矩陣W成為完備基。故在式(5)中目標函數添加系數矩陣H的稀疏懲罰項,用于控制系數矩陣的稀疏性和重構時語音的失真度,將式(3)代入式(5),目標函數為:

λ‖E‖1+γ‖H‖1
(6)
其中:P為目標函數;γ≥0為稀疏因子,決定系數矩陣H的稀疏度。
結合文獻[12],采用固定W和H更新優化噪聲項,引入軟閾值算子[16]操作能夠有效地解決更新時出現的凸優化問題,有利于對異常點的處理,使其不受噪聲形式的限制,提高算法適應性。定義軟閾值函數softλ(·)表達式為:

(7)
其中:x∈R和λ>0為閾值。式(7)可以擴展到向量和矩陣。
由于目標函數最優解沒有唯一性,所以利用文獻[17]方法對W的列和H的行進行歸一化處理,保持目標函數值不變。然后采用梯度下降法優化代價函數式(6),得到如下乘法迭代規則[12]:

(8)

(9)
E←softλ(V-WH)
(10)
其中:“.*”和“./”代表矩陣的點乘和點除,即對應元素相乘相除;T代表矩陣的轉置;1K×L∈RK×L為元素全1矩陣。
假設語音信號和噪聲信號均為加性信號且互不相關,則帶噪語音信號y(t)表示為:
y(t)=s(t)+n(t)
(11)
其中:s(t)是純凈語音信號;n(t)是加性噪聲信號。算法結構如圖1所示,即包括訓練和增強兩個階段。

圖1 SRNMF語音增強算法框架
訓練階段:首先分別利用STFT收集語料庫純凈語音和噪聲信號的信息,分別將純凈語音和噪聲信號的短時幅度譜作為目標矩陣,即VS≥0和VN≥0;然后通過SRNMF算法迭代式(8)~(10)將語音幅度譜分解為基矩陣WS、將噪聲幅度譜分解為WN,將分解的基矩陣WS和WN聯合保存起來為字典矩陣,即W=[WSWN],作為增強階段的先驗信息。
增強階段:分為系數矩陣的在線更新和語音重構兩個部分。

V≈WH=[WSWN][HSHN]T=
(12)
2)語音重構階段,在重構出語音和噪聲的幅度譜之后,利用文獻[18]的維納濾波簡單易實現的優點,以提高算法的降噪能力與適應性。求得帶噪語音增益函數G,即
G=(WSHS)./(WSHS+WNHN)
(13)
實驗中所用的純凈語音信號取自標準TIMIT語音庫,噪聲取自標準Noise-92噪聲庫,其中采樣頻率為16 kHz。采用三種背景噪聲:Factory1工廠車間噪聲1、Hfchannel高頻信道噪聲和Babble餐廳內嘈雜噪聲,這些噪聲屬于非平穩噪聲。信號采樣率均下采樣至8 kHz,用16 bit量化。選用20名說話人的語音(10名男性和10名女性),從每個說話人中選擇一個句子,即20個句子約60 s作為純凈語音的訓練數據。每個訓練和測試語音信號由6 s(2個句子)信號組成,并且所有的訓練和測試數據互不交叉。通過將純凈語音信號與噪聲信號混合,分別生成信噪比分別為-5 dB、0 dB、5 dB和10 dB的帶噪語音信號。增強算法所采用幀長為512點,幀移為128點,窗選擇漢明窗。基向量數滿足M≤K×L/(K+L)標準,在訓練階段純凈語音和噪聲維基向量數M為30,最大迭代次數為50,分別生成大小為257×30純凈語音和噪聲字典矩陣,組合成先驗聯合字典矩陣。
通過利用驗證集觀察性能來確定權衡系數λ(λ∈{0.005,0.01,0.05,0.07})和稀疏因子γ(γ∈[0,2])。圖2表示了當輸入信噪比(Signal-to-Noise Ratio,SNR)為0 dB時,Factory1噪聲背景下的帶噪語音經過增強處理后信源失真率(Source-to-Distortion Ratio, SDR)值與λ和γ之間的關系。

圖2 在輸入信噪比為0 dB時Factory1噪聲下增強語音的平均SDR值
分別對Hfchannel和Babble噪聲背景下的帶噪語音進行實驗仿真。通過分析可知,隨權衡系數λ的增加,增強信源失真率SDR平均值趨于平穩,可以通過改變稀因子γ來再度提高算法性能。最后,實驗選取λ=1.8和γ=0.05作為最佳參數,為了更好地驗證本文算法的性能,后續的算法評估均使用該參數。
將本文SRNMF算法與NMF算法、文獻[12]算法和文獻[13]算法進行性能比較。采用客觀質量評估(Perceptual Evaluation of Speech Quality, PESQ)方法[19]和信源失真率SDR[20]作為語音增強算法性能客觀評估標準。PESQ用來衡量增強語音的質量,能夠反映主觀聽覺測試結果,較高的PESQ值,說明其語音質量越好;SDR用來衡量增強語音的失真率,能夠反映增強語音中殘余噪聲所占比,SDR越大說明殘余噪聲越少,語音質量越好。

表1 不同算法訓練時間比較 s
表1為四種算法單次訓練聯合字典矩陣所耗時間情況。雖然文獻[12]算法、文獻[13]算法和本文SRNMF算法都在目標函數中引入正則項增加了計算負擔,但是NMF算法的訓練時間仍然是它們的2~3倍,而且本文SRNMF算法耗時最少。說明使用KL散度下的目標函數及其正則約束,可以提高算法收斂速度,減小字典訓練時間,提高算法實用性。
表2為三種背景噪聲和不同信噪比下的PESQ和SDR平均值比較。在實驗中,標準NMF算法沒有特別針對噪聲處理的措施,故在不同噪聲環境下的增強語音的PESQ值有明顯的差別,而文獻[12]算法和文獻[13]算法在求解目標函數時都引入了噪聲項,能夠在一定程度上削弱噪聲的影響,但是效果不是十分明顯。雖然在不同背景噪聲環境下本文SRNMF算法有一定的差別,但是這種差異不大,說明背景噪聲變化對其性能影響較弱,體現了該算法具有較好魯棒性。隨著信噪比提高,語音質量也相應地提高,且總體上高于其他算法,較穩定。

表2 不同算法增強語音的PESQ和SDR平均值比較
對各算法在不同背景噪聲環境下進行比較,由表2可知,使用這些算法增強語音的SDR值有明顯的差別,尤其是在低信噪比條件下的Factory1和Babble噪聲,且Babble噪聲最為突出。如圖3所示,通過分析實驗中的背景噪聲頻譜可知,Factory1和Babble噪聲的頻率分量功率主要分布在低頻段,而Hfchannel在中低頻段。說明這些算法主要適用于頻率分量功率分布在中低頻段的噪聲,較難對低頻段噪聲產生作用。然而,觀察SDR評估值可知,SRNMF算法增強效果明顯優于其他算法,能夠較好地保存語音特征處理低頻段噪聲,削弱了環境的變化對算法性能的影響。

圖3 三種背景噪聲頻域幅度分布
綜上所述,說明了各算法在三種背景噪聲環境和不同信噪比條件下的PESQ和SDR平均值的對比情況。可見,同一算法在相同信噪比及不同背景噪聲條件下的性能總趨勢為Hfchannel>Factory1>Babble,而且各種算法在Hfchannel噪聲背景下性能最優,SRNMF算法在該噪聲環境下表現出較強的增強效果。隨著信噪比提高,其優勢逐漸下降,而SRNMF算法仍能保證較強的增強性能。這是由于該算法在目標函數中正則項的引入,能夠較好地保護語音時頻域特性,削弱了非平穩類噪聲的影響,同時也降低了誤差隨機性,使其具有較強的魯棒性,發揮了NMF算法在低信噪比條件下的優勢。在高信噪比條件下,SRNMF算法對提高語音質量優勢較弱。在低信噪比環境下,SRNMF算法增強效果較為顯著,說明該算法對噪聲的抵抗能力較強,能夠削弱異常噪聲的影響。總體來看,雖然,SRNMF算法在所有噪聲環境下的平均PESQ值變化不大,但是該算法有較高的SDR值。可見,本文算法增強效果比其他算法要好。
圖4為不同算法在輸入信噪比為0 dB,背景噪聲為Hfchannel噪聲時的語譜圖。語譜圖上顏色的深淺反映語音數據能量的大小,顏色越深說明語音能量越強。由圖4可知,NMF、文獻[12]算法和文獻[13]算法消噪能力較低,語音段明顯存在大量的殘余噪聲。通過分析實驗數據可知,雖然在目標函數中引入噪聲約束項或稀疏項可以達到增強的目的,但是這種性能增量相對于NMF算法較低。對比圖4及圖中的矩陣框可知,SRNMF算法靜音段和幀間殘余噪聲明顯減少,說明該算法具有較好的噪聲消除能力。因此,該算法能夠有效地減少失真,提高語音質量和可懂度。

圖4 輸入信噪比為0 dB時Hfchannel噪聲下各算法的語譜圖比較
針對非負矩陣分解在單通道語音增強算法中應用存在的一些問題,本文提出了稀疏正則非負矩陣分解的語音增強算法。該算法通過在目標函數中的正則項中引入噪聲項及稀疏約束項,對帶噪語音進行增強,較好地保留了語音信號的基本信息,具有較好的噪聲抑制能力。實驗結果表明,在不同環境噪聲和不同信噪比條件下,本文算法比NMF算法和文獻[12-13]算法能夠更好地抑制背景噪聲,提高語音質量和可懂度。但是在實際應用中,語音還存在空間信息,而單通道語音增強算法缺少該項特征,需要進一步研究多通道語音增強算法下的性能。
參考文獻(References)
[1] EPHRAIM Y, MALAH D. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator [J]. IEEE Transactions on Acoustics Speech & Signal Processing, 2003, 32(6): 1109-1121.
[2] 蔡宇, 郝程鵬, 侯朝煥. 采用子帶譜減法的語音增強[J]. 計算機應用, 2014, 34(2): 567-571.(CAI Y, HAO C P, HOU C H. Speech enhancement based on subband spectrum subtraction algorithm[J]. Journal of Computer Applications, 2014,34(2): 567-571.)
[3] JABLOUN F, CHAMPAGNE B. Incorporating the human hearing properties in the signal subspace approach for speech enhancement [J]. IEEE Transactions on Speech & Audio Processing, 2010, 11(6): 700-708.
[4] XU Y, DU J, DAI L R, et al. An experimental study on speech enhancement based on deep neural networks [J]. IEEE Signal Processing Letters, 2014, 21(1): 65-68.
[5] XU Y, DU J, DAI L R, et al. A regression approach to speech enhancement based on deep neural networks [J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2015, 23(1): 7-19.
[6] LEE D D, SEUNGH S. Algorithms for non-negative matrix factorization[C]// NIPS 2000: Proceedings of the 13th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2000: 556-562.
[7] KWON K, SHIN J W, KIM N S. NMF-based speech enhancement using bases update [J]. IEEE Signal Processing Letters, 2015, 22(4): 450-454.
[8] MOHAMMADIHA N, SMARAGDIS P, LEIJON A. Supervised and unsupervised speech enhancement using nonnegative matrix factorization [J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(10): 2140-2151.
[9] 盧宏, 趙知勁, 楊小牛. 基于行列式和稀疏性約束的NMF的欠定盲分離方法[J]. 計算機應用, 2011, 31(2): 553-555.(LU H, ZHAO Z J, YANG X N. Algorithm for underdetermined blind source separation based on DSNMF [J]. Journal of Computer Applications, 2011, 31(2): 553-555.)
[10] O’GRADY P D, PEARLMUTTERB A. Discovering speech phones using convolutive non-negative matrix factorisation with a sparseness constraint [J]. Neurocomputing, 2008, 72(1/2/3): 88-101.
[11] VU T T, BIGOT B, CHNG E S. Combining non-negative matrix factorization and deep neural networks for speech enhancement and automatic speech recognition[C]// Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2016: 499-503.
[12] ZHANG L, CHEN Z, ZHENG M, et al. Robust non-negative matrix factorization [J]. Frontiers of Electrical & Electronic Engineering in China, 2011, 6(2): 192-200.
[13] HE W, ZHANG H Y, ZHANG L P. Sparsity-regularized robust non-negative matrix factorization for hyperspectral unmixing [J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing, 2016, 9(9): 4267-4279.
[14] MYSORE G J, SMARAGDIS P. A non-negative approach to semi-supervised separation of speech from noise with the use of temporal dynamics[C]// Proceedings of the 2011 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2011: 17-20.
[15] CHUNG H, PLOURDE E, CHAMPAGNE B. Regularized NMF-based speech enhancement with spectral components modeled by Gaussian mixtures[C]// Proceedings of the 2014 IEEE International Workshop on Machine Learning for Signal Processing. Piscataway, NJ: IEEE, 2014: 1-6.
[16] HALE E T, YIN W, ZHANG Y. Fixed-point continuation for l1- minimization: methodology and convergence[J]. SIAM Journal on Optimization, 2008, 19(3): 1107-1130.
[17] XU W, LIU X, GONG Y. Document clustering based on nonnegative matrix factorization [C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2003: 267-273.
[18] WILSON K W, RAJ B, SMARAGDIS P, et al. Speech denoising using nonnegative matrix factorization with priors[C]// ICASSP 2008: Proceedings of the 2008 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE,2008: 4029-4032.
[19] RIX A W, BEERENDS J G, HOLLIER M P, et al. Perceptual Evaluation of Speech Quality(PESQ) — a new method for speech quality assessment of telephone networks and codecs[C]// ICASSP 2001: Proceedings of the 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 2001: 749-752.
[20] VINCENT E, GRIBONVAL R, FEVOTTE C. Performance measurement in blind audio source separation [J]. IEEE Transactions on Audio Speech & Language Processing, 2006, 14(4): 1462-1469.
This work is partially supported by the Scientific Public Welfare Research Foundation of Liaoning Province (20170056).