章雒霏 張 銘 李 晨(南京師范大學物理與科學技術學院南京210000)
?
一種新的語音和噪聲活動檢測算法及其在手機雙麥克風消噪系統中的應用
章雒霏*張銘李晨
(南京師范大學物理與科學技術學院南京210000)
針對現有雙通道語音活動檢測(Voice Activity Detection,VAD)算法依賴于固定閾值難以在多種噪聲環境下準確地檢測語音和噪聲,應用于手機消噪系統會造成語音失真或噪聲消除不好等問題,該文提出一種基于神經網絡的VAD算法,該算法以分頻帶能量差和歸一化互通道相關為特征,采用神經網絡對語音和噪聲進行分類。在此基礎上,將神經網絡VAD與基于互通道信號功率比值的VAD相結合,提出一種新的適用于手機消噪系統的語音和噪聲活動檢測算法分別對語音和噪聲進行檢測,并以此進行噪聲抑制處理,減少了消噪系統因VAD誤判而造成的性能下降。實驗結果表明,該處理方法在抑制背景噪聲和減少語音失真等方面優于現有的消噪算法,對于方向性語音干擾也有很好的抑制效果。
語音活動檢測;語音增強;神經網絡
說話人處于噪聲環境中時,遠端接聽者往往會聽到難以忍受的噪聲[1],為了解決這個問題,現有手機集成了語音增強模塊來提高語音質量。傳統的單通道語音增強算法[26]-無法很好地處理非穩態噪聲,而多通道算法[1,713]-在利用語音與噪聲性質差異的同時也結合了兩者的空間差異性,使得算法在非穩態噪聲環境下性能得到很大改善??紤]到尺寸、功耗和計算復雜度等問題,手機主要使用的是雙麥克風語音增強系統。
語音活動檢測(Voice Activity Detection,VAD)可以從帶噪語音信號中確定出語音的起始和結束位置,準確的VAD可以幫助消噪算法對噪聲進行有效抑制同時盡可能地減少語音信號的失真。目前,各種單通道或者雙通道的VAD算法已廣泛地應用于手機消噪系統中。其中,基于雙麥克風能量差(Power Level Differences,PLD)[1]及其改進的算法[1014]-具有較好的檢測結果且復雜度低易于實現,因此得到了廣泛的關注和研究。通話時,手機底部的主麥克風接收到語音信號能量遠大于手機頂端的次麥克風接收能量,而噪聲信號的能量基本相同?;谶@樣的特性,PLD算法通過對雙麥克風信號的能量差設定閾值來區分語音和噪聲,但其算法性能會受到麥克風增益,噪聲種類和信噪比等因素的影響,在此基礎上,文獻[10]提出了基于雙麥克風后驗信噪比差異的VAD算法減少了麥克風增益的影響,文獻[14]提出了基于PLD比率(PLD Ratio,PLDR)的算法提高了PLD算法的準確率。雖然上述算法在穩態及非穩態噪聲環境中取得了一定效果,但難以同時保證語音和噪聲檢測的準確性,應用于手機消噪系統會造成語音失真,降低可懂度。
針對上述問題,本文提出了一種新的基于神經網絡的VAD算法,該算法以分頻帶能量差和歸一化互通道相關作為特征,采用神經網絡對語音和噪聲進行分類,不依賴于固定閾值,較現有的基于PLD的算法準確性更高。在此基礎上,本文將神經網絡VAD與基于互通道信號功率比值的VAD相結合,提出一種新的適用于手機消噪系統的語音和噪聲活動檢測算法,該算法分別對語音和噪聲進行檢測,減少了消噪算法因VAD的誤判而造成的性能下降,與現有的雙麥克風消噪算法相比,本算法能夠更有效地抑制噪聲,減少語音失真。

圖1 雙麥克風接收的帶噪語音信號功率
本文第2節描述神經網絡VAD的原理;第3節介紹結合神經網絡VAD提出的語音和噪聲檢測算法及其在手機消噪系統中的應用;第4節給出實驗結果和分析;第5節進行總結。
5 dB Babb le噪聲環境下,雙麥克風接收到的帶噪語音信號功率如圖1所示。
頻域上雙通道接收到的純凈語音信號的能量差幾乎都在10 dB左右[1],而背景噪聲存在時語音信號的某些頻帶受到噪聲的污染能量差下降(如圖1中1.0~1.5 kHz之間),但部分頻帶仍然保持著10 dB左右的能量差(如圖1中1.5~2.5 kHz之間)。這些頻帶的能量差可以作為表征目標語音存在的特征,為了更好地利用這些頻帶的信息,本算法對頻域進行劃分,計算子帶互通道能量差(sub-band power level difference)作為神經網絡的特征,計算過程如式(1)。首先將時域信號轉化到頻域,得到兩個通道在頻域的信號:


對每個子帶(本算法按照MEL頻帶劃分)計算互通道能量差的均值如式(3)所示。

因為目標語音距主麥克風較次麥克風近,主麥克風早于次麥克接受到語音信號,而背景噪聲到達麥克風的距離基本相等,時延較語音小,所以雙通道時延也是區分語音和噪聲的一個重要的特征,在本算法中,使用歸一化的互通道相關函數來作為表征時延的特征,計算式為

反向傳播(Back Propagation,BP)神經網絡是使用最為廣泛的神經網絡,在訓練階段,通過調整神經元之間連接的權值,BP神經網絡可以完成輸入和輸出之間復雜的映射關系。本文使用的是3層的BP神經網絡。其中輸入層為提取的兩個特征矢量,即分頻帶能量差和歸一化互通道相關函數,輸出層為對應的語音活動檢測的標簽(1:語音;0:噪聲)。
雙麥克風語音增強系統框圖如圖2所示,濾波器1將次麥克風信號作為參考,主麥克風信號作為輸入,通過VAD檢測信噪比較高的語音段控制濾波器調整參數將目標語音從次麥克風中濾除得到噪聲信號。濾波器2將主麥克風信號作為參考,濾波器1輸出噪聲信號作為輸入,通過噪聲活動檢測NAD(Noise Activity Detection)在噪聲段控制濾波器調整參數將噪聲信號從主麥克風的帶噪語音信號中濾除得到增強語音信號。

圖2 手機雙麥克風語音增強系統框圖
實際上,濾波器1和濾波器2的參數分別模擬了語音和噪聲信號在兩個麥克風之間的傳遞函數,為了避免在信噪比較低的語音和噪聲混合部分對濾波器參數進行調整造成濾波器參數與傳遞函數的失配,本文中,我們結合神經網絡VAD提出一種新的語音和噪聲活動檢測算法,該算法通過VAD檢測信噪比較高的語音段落控制濾波器1的參數調整,同時利用NAD檢測噪聲段落控制濾波器2的參數調整。

圖3 不同平滑參數計算的互通道能量的比值

圖4 5 dB Babble噪聲下利用Pf(t)和Ps(t)判斷語音信號

圖5 VAD的結果
3.1語音活動檢測(VAD)
現有的PLD算法通過設定固定閾值δ來區分語音和噪聲。但是互通道功率比值的大小會因信噪比和噪聲種類的改變而改變,固定的閾值無法得到準確結果。針對這一問題,本算法做了改進,采用不同的平滑參數α計算兩個通道信號的功率。



從圖3中可以看出,語音存在的部分,短平滑計算的互通道功率比Pf(t)比長平滑計算的比值Ps(t)大得多,可以通過比較Pf(t)與Ps(t)的大小來確定語音信號存在且信噪比較高的時域采樣點,但是通過調整判斷閾值不能夠完全地區分語音和噪聲,如圖4所示(VAD等于1表示語音信號),當設定Pf(t)>2Ps(t)的采樣點為語音時,部分噪聲被誤判為語音,而提高閾值為Pf(t)>6Ps(t)時,雖然誤判為語音的噪聲減少了,但是語音檢測的準確性也下降了。
基于神經網絡的VAD可以準確地判斷出語音存在的部分,將神經網絡VAD結果和基于長和短時平滑計算的功率比值確定的語音存在且信噪比較高的部分相結合可以去除誤判為語音的噪聲采樣點,5 dB babble噪聲環境下的結果如圖5所示。
3.2噪聲活動檢測NAD
將濾波器1輸出的噪聲信號與主麥克風中的帶噪語音信號進行比較,因語音部分能量較大,當噪聲信號與語音信號的能量相比時,比值會非常小,我們可以對噪聲與帶噪信號能量的比值設定閾值來確定噪聲段,計算過程如式(9)和式(10):


其中,ns()P t與nf()P t分別為長平滑和短平滑計算得到的噪聲與主麥克風中帶噪語音的功率比值,當語音存在的時候,噪聲與語音的比值會接近于零,而噪聲段的比值則較大且短平滑的值遠遠大于長平滑的比值,為了在噪聲段增加長時與短時平滑功率比值的差距,我們對ns()P t再次進行平滑:

其中,nss()P t為對ns()P t進行再次平滑得到的功率比值,這里的平滑系數ssα根據神經網絡VAD的結果進行調整,在語音段ssα為1保持nss()P t不變,在噪聲段ssα為0.999迭代平滑計算nss()P t,經過再次平滑后的nss()P t在噪聲段更為平緩,與nf()P t的差距更大,將nf()P t與nss()P t進行比較更有利于我們準確地判斷出噪聲采樣點。
實驗使用手機長度為13 cm,在一個7.91× 7.31×4.85 m3的房間中進行測試,房間的混響為0.3 s,使用B&K HATS仿真頭的人工嘴來播放目標語音信號,通過ACTS的8個喇叭噪聲放音系統來模擬真實的噪聲環境,人工頭放置在圓點,8個喇叭以一個環形位于人工頭的四周,距離人工頭大約為2m。信號的采樣率為8 kHz,幀長L=256,幀移M=128。實驗選取100段語音,其中80段用于神經網絡的訓練,剩余20段用于驗證神經網絡的結果。選取6種常見的噪聲環境,Babble,Car,Restaurant,O ffice,Street和方向性的語音干擾,信噪比分別為5 dB,10 dB和15 dB。神經網絡采用MATLAB 2014a的神經網絡工具箱。隱藏層為30個神經元,輸入層到隱藏層采用tansig作為激活函數,隱藏層到輸出層采用purline作為激活函數,最大迭代次數為2000次,學習步長為0.01,學習函數為traingdx。采用24個MEL頻帶計算子帶互通道能量差,同時,選取時延從-10到+10每隔1個采樣點計算歸一化互通道相關。一共45個值作為神經網絡的輸入,輸出層為對應的語音活動檢測的標簽(1:語音;0:噪聲)。
首先對神經網絡VAD算法的準確性進行驗證,將該算法與基于PLD比率(PLDR)[14]的VAD算法進行比較。分別用3個性能指標來衡量語音活動檢測的準確性,Psh為檢測正確的語音信號幀/語音信號總幀數,Pnh為檢測正確的噪聲信號幀/非語音信號總幀數,Pgh為總的準確率。

表1 10 dB信噪比噪聲環境下,PLDR和本文算法的語音活動檢測結果
從表1中可以看出,本文算法無論是在語音幀、噪聲幀還是總的準確率方面都要優于PLDR算法。干擾人聲也是手機通話中非常常見的一類噪聲,但是,由于干擾人聲是高度非平穩信號且具有方向性,現有的VAD算法無法很好地處理這類噪聲。我們選取4個不同方位的語音干擾比較兩個算法的性能。如表1所示,本文提出的算法利用了目標語音和干擾人聲的空間差異來區分兩者獲得了準確的結果。而PLDR算法在干擾人聲的噪聲環境下性能有了很大的下降。
為了測試神經網絡VAD在不同信噪比下的性能,我們分別選取5 dB,10 dB,15 dB的信噪比進行驗證,結果如表2所示。從表2中可以看到,本文算法不依賴于固定的閾值,即使在5 dB這樣的低信噪比下依舊可以取得很好的VAD結果,非常適合于手機的應用。
本文采用ACTS音頻評價系統中的對數譜距離(Logistic Spectral Distance,LSD),客觀質量評估(Perceptual Evaluation of Speech Quality,PESQ[15])和信噪比(SNR)分別對本文提出的語音增強算法和文獻[1]提出的基于PLD的手機雙麥克風語音增強算法的性能進行了衡量。
信噪比衡量了語音增強算法的噪聲抑制效果。從表3中可以看出,本文提出的消噪算法相較于PLD算法有了很大的提升,特別是在5 dB信噪比的條件下,本文算法輸出的信噪比均能夠達到15 dB左右。為了驗證算法對于方向性干擾人聲的抑制效果,我們選取了45o方位入射的干擾人聲,因為45o方位的干擾人聲與目標語音的入射方位非常接近,傳統的消噪算法很難對其進行有效的抑制,從結果中可以看出,本文算法對于45o方位的干擾人聲也有很好的效果,而PLD算法的性能則大大地下降。

表2 不同信噪比環境下,本文算法的語音活動檢測結果

表3 在不同噪聲和信噪比條件下經過語音增強處理之后的輸出信噪比(dB)
語音的可懂度在手機的通信中非常的重要,消噪算法會帶來一定程度的語音失真,LSD指標主要用來衡量增強語音的失真度,LSD值越大說明語音信號的失真越嚴重,越小表明語音信號失真越小,質量越接近于原始語音。表4給出本文算法與PLD算法增強處理后的LSD對比結果
從表4中可以看出,本文提出的消噪算法相較于PLD算法對語音信號的損失更小,說明經過本文算法處理的語音失真更小,語音質量更接近于原始語音信號,對于方向性的語音干擾也得到了較好的結果。
本文還采用PESQ來測試語音增強算法對語音客觀質量的影響,PESQ的值越高說明語音質量越高。從表5中可以看出,與PLD的算法相比,本文提出的消噪算法的輸出語音具有更好的語音質量,非正式的主觀聽覺測試與上述結果一致。
本文提出了一種新的基于神經網絡的VAD算法,結合兩個表征目標語音空間特性的特征,即分頻帶能量差和互通道相關函數作為神經網絡的輸入訓練神經網絡進行語音活動檢測。再將基于雙通道功率比值的VAD結果與神經網絡VAD的結果相結合,提出一種新的適用于手機消噪系統的語音和噪聲檢測算法,該算法分別對語音和噪聲進行檢測,減少了消噪系統因VAD的誤判而造成的性能下降。實驗結果表明,與現有的基于PLD的消噪算法相比,無論是VAD的準確率還是語音增強的效果均有了提升,避免了消噪算法對于語音信號的損害,提高了語音的可懂度,保證了手機通話的質量。

表4 本文算法與PLD算法增強處理后的LSD對比結果

表5 不同信噪比和噪聲條件下經過語音增強處理之后的PESQ
[1]JEUB M,HERGLOTZ C,NELKE C M,et al.Noise reduction for dual-m icrophone m ob ile phones exp loiting power level differences[C].IEEE International Con ference on Acoustics,Speech,and Signal Processing,Kyoto,2012: 1693-1696.doi:10.1109/ICASSP.2012.6288223.
[2]XU Y,DU J,and DA IL R.A Regression app roach to speech enhancement based on deep neural networks[J].IEEE Transactions on Audio,Speech,and Language Processing,2015,23(1):7-19.doi:10.1109/TASLP.2014.2364452.
[3]XU Y,DU J,and DAIL R.An experimental study on speech enhancement based on deep neural networks[J].IEEE Signal Processing Letters,2014,21(1):65-68.doi:10.1109/LSP. 2013.2291240.
[4]WANG Y X,NARAYANAN A,andWANG D L.On training targets for supervised speech separation[J].IEEE Transactions on Audio,Speech,and Language Processing,2014,22(12):1849-1859.doi:10.1109/TASLP.2014.2352935.
[5]王明合,張二華,唐振明,等.基于Fisher線性判別分析的語音信號端點檢測方法[J].電子與信息學報,2015,37(6): 1343-1349.doi:10.11999/JEIT 141122.
WANGM inghe,ZHANG Erhua,TANG Zhenm in,etal.Voice activity detection based on Fisher linear d iscrim inant analysis[J].Journal of Electronics&Information Technology,2015,37(6):1343-1349.doi:10.11999/JEIT141122.
[6]郭海燕,李梟雄,李擬珺.基于基頻狀態和幀間相關性的單通道語音分離算法[J].東南大學學報(自然科學版),2014,44(6): 1100-1104.
GUO Haiyan,LI Xiaoxiong,and LI Nijun.Single-channel speech separation based on pitch state and interframe correlation[J].Journal of Southeast Un iversity(Natural Science Edition),2014,44(6):1100-1104.
[7]NELKE C,BEAUGEANT C,and VARY P.Dualm icrophone noise PSD estimation for mobile phones in hands-free position exp loiting the coherence and speech p resence probability[C].IEEE International Conference on Acoustics,Speech,and Signal Processing,Vancouver,2013:7279-7283. doi:10.1109/ICASSP.2013.6639076.
[8]YOUSEFIAN N,RAHMAN I M,and AKBARI A.Power level difference as a criterion for speech enhancement[C]. IEEE International Conference on Acoustics,Speech,and Signal Processing,Taipei,2009:4653-4656.doi:dx.doi.org/ 10.1109/ICASSP.2009.4960668.
[9]YOUSEFIAN N,AKBARI A,and RAHMANI M.Usingpower level difference for near field dual-microphone speech enhancement[J].Applied Acoustics,2009,70(11/12): 1412-1421.
[10]FU Z H,FAN F,and HUANG J D.Dual-m icrophone noise reduction for mobile phone application[C].IEEE International Con ference on Acoustics,Speech,and Signal Processing,Vancouver,2013:7239-7243.doi:10.1109/ ICASSP.2013.6639068.
[11]MEYER-BAESE U.Digital Signal Processing w ith Field Programmable Gate Arrays[M].Third Edition,Berlin Heidelberg:Springer,2007:298-305.
[12]RUBIO J E,ISHIZUKA K,SAWADA H,et al.Twom icrophone voice activity detection based on the hom ogeneity of the direction of arrival estim ates[C].IEEE International Con ference on Acoustics,Speech,and Signal Processing,Honolulu,2007:385-388.doi:10.1109/ICASSP. 2007.366930.
[13]ZHAO H C,LI L G,and LI L H,et al.Dual-m icrophone adaptive noise canceller w ith a voice activity detector[C]. IEEE Region 10 Sym posium,Kuala Lum pur,2014:551-554. doi:10.1109/TENCONSp ring.2014.6863095.
[14]CHOI JH and CHANG JH.Dual-m icrophone voice activity detection technique based on two-step power level difference ratio[J]IEEE Transactions on Audio,Speech and Language Processing,2014.22(6):1069-1081.
[15]HU Y,and LOIZHOU P C.Evaluation of ob jective quality measures for speech enhancement[J].IEEE Transactions on Audio,Speech,and Language Processing,2008,16(1): 229-238.
章雒霏:女,1990年生,博士生,研究方向為信號處理、語音增強、語音識別、語音定位.
張銘:男,1963年生,博士生導師,特聘教授,研究方向為信號處理、語音增強、語音識別.
李晨:女,1980年生,博士,研究方向為信號處理、語音增強、語音識別、語音定位.
A New Voice and Noise Activity Detection A lgorithm and Its App lication to Dual Microphone Noise Suppression System for Handset
ZHANG Luofei ZHANG M ing LIChen
(School of Physics and Technology,Nanjing Normal University,Nanjing 210000,China)
Existing dualm icrophone Voice Activity Detection(VAD)algorithms use normally a fixed threshold. The fixed threshold can not provide an accu rate VAD under various noise environmen ts.In such case,it causes voice quality degradation,particularly in handset app lications.This paper p roposes a new VAD algorithm based on Neural Network(NN).Both sub-band power level difference and inter-m icrophone cross correlation are used as features.Then the NN based VAD is combined w ith themethod of inter-m icrophone signalpower ratio to get a new voice and noise activity detection algorithm.Furthermore,the algorithm is used into noise suppression in handset to avoid performance degradation caused by VAD m isjudgment.Experimental results show that the p roposed m ethod provides better noise suppression performance and lower speech d istortion com pared to the existing method.
Voice Activity Detection(VAD);Speech enhancement;Neural Network(NN)
s:Program of Natural Science Research of Jiangsu Higher Education Institutions of China,Program of Science and Technology of Jiangsu(BE2014139)
TN912.35
A
1009-5896(2016)08-2020-07
10.11999/JEIT 151302
2015-11-23;改回日期:2016-04-12;網絡出版:2016-05-31
章雒霏lincover@126.com
江蘇省自然科學基金,江蘇省聲頻技術工程重點實驗室基金項目(BE2014139)