改進的低時延語音增強算法*

2014-02-11 03:42:28張翼鵬

通信技術 2014年11期

龐亮,陳亮,張翼鵬

(1.解放軍理工大學通信工程學院,江蘇南京210007;2.解放軍南京炮兵學院,江蘇南京211132)

改進的低時延語音增強算法*

龐亮1,陳亮1,張翼鵬2

(1.解放軍理工大學通信工程學院,江蘇南京210007;2.解放軍南京炮兵學院,江蘇南京211132)

針對目前語音增強存在較大時延的問題,提出一種低時延語音增強算法。在傳統的先驗信噪比估計和噪聲估計的基礎上,對判決引導算法進行低時延的改進,并提出了一種基于語音存在概率和語音激活檢測相結合的噪聲估計方法,本文的算法采用對數MMSE估計器結合語音存在概率。采用ITU-T P.826 PESQ、分段信噪比、總信噪比和對數譜失真對該算法進行了測試,并與其他幾種算法進行了對比,實驗結果表明,該算法有效降低了時延,可以很好的跟蹤非平穩噪聲,在信噪比較低的情況小可以取得很好的增強效果,且音樂噪聲和殘留背景噪聲也可以得到很好的抑制。

語音增強判決引導先驗信噪比估計噪聲譜估計

0 引言

在實際的語音通信過程中,語音不可避免的會受到外界的各種干擾,使得原始語音受到噪聲的污染,導致許多語音處理系統性能的惡化。語音增強技術就是有效降低噪聲干擾的一個重要手段,其目標是從帶噪語音信號中提取出盡可能純凈的原始語音或原始語音參數來改善語音質量,使人們接受或者提高語音處理系統的性能。有效的語音增強技術可以大大提升系統的抗干擾能力,增加語音的可懂度。單通道語音增強技術目前應用廣泛,且一直是國內外學者廣泛研究的重要課題。

基于對數MMSE(Minimum Mean-Square Error,最小均方誤差)估計器相比較于維納濾波、小波變換、譜減法等方法[1]具有更加出色的降低音樂噪聲的能力。對數MMSE估計器的關鍵是先驗信噪比估計和噪聲估計模塊,傳統的先驗信噪比估計采用的是判決引導(DD)法,均采用前一幀的語音對該幀進行估計,存在一幀的時延,該算法后來也有很多學者對其進行了優化,主要是提高了估計的精度和收斂速度,但算法的時延并未做出改進,本文提出改進的低時延DD算法,可有效解決這一問題。

噪聲的估計在語音增強系統中至關重要,如何能夠準確的估計出噪聲的功率譜,尤其是如何能夠快速跟蹤非平穩噪聲的功率譜是目前國內外研究的一個重點和難點。傳統的方法是采用VAD判決法,在非語音幀對噪聲進行平滑更新,對于語音幀,則不進行噪聲的更新。但是在低SNR的條件下,特別當環境噪聲為非平穩噪聲時,話音活動期間也必須持續的精確噪聲估計,才能實現有效的語音增強。目前使用較多的主要是最小值控制的遞歸平均(MCRA)算法、改進的最小值控制的遞歸平均(IMCRA)算法[2]、MMSE算法[3]及利用語音存在概率[4]的噪聲估計等算法,但這些算法大都復雜度較高。本文提出一種低復雜度的噪聲估計方法,首先利用對數似然比進行VAD判決,對于非語音幀,采用傳統的平滑估計算法,對于語音幀,則采用VAD聯合語音存在概率進行噪聲更新。

1 對數MMSE估計

分別用x(n)、r(n)、y(n)表示純凈語音、噪聲和帶噪語音,則:

算法在頻域對語音信號進行處理,采用短時傅里葉變換(STFT):

式中m表示幀編號,k表示頻率點,D表示重疊的點數,ω(n)為窗函數,則純凈語音可以通過下式計算:

式中G(k,m)為對數MMSE估計器增益函數。其表達式為:

本文采用對數MMSE估計器結合語音存在概率,新的增益函數為:

式中p()表示在頻點k給定帶噪語音幅度Yk的條件下,存在語音的條件概率。Gmin為小值,具體推導過程參考文獻[5]。

2 先驗信噪比估計

傳統的先驗信噪比估計采用了判決引導(DD)法,它是基于先驗信噪比的定義及其與后驗信噪比的關系,通過遞歸得到:

式中a=0.98為平滑因子,(k,m-1)為上一幀估計的純凈語音,λr(k,m-1)為上一幀估計的噪聲功率譜,ξmin是ξ(k,m)所允許的最小值,用以限定(k,m)的下限來控制產生的音樂噪聲。可見,DD算法存在一幀的時延,且依賴于上一幀所估計的純凈語音,因此在話音的起端和終點處,DD算法并不能很好地反映出當前幀狀況,這些會對語音的質量產生較大影響[6]。針對此問題,本節提出了一種改進的低時延DD算法,使用當前幀的語音信號代替上一幀的純凈語音,增益函數仍然使用上一幀計算的增益函數,同時噪聲采用當前幀所估計的噪聲。具體表達式如下:

式中平滑因子和先驗信噪比允許的最小值均與傳統算法相同,ξmin=-25dB。

在公式(9)中,第一項沒有采用上一幀的先驗信噪比,因此不再是一個遞歸平滑的算法。這可能會導致對語音的突變會較敏感,從而產生一定的音樂噪聲。為此本文對后驗信噪比計算方法進行了改進,不再直接使用當前幀的帶噪語音,而是對當前幀的帶噪語音先進行平滑,再計算后驗信噪比,具體表達式如下:

3 噪聲估計

噪聲估計的準確與否對語音增強的性能是至關重要,如果噪聲的估計值偏大,就會造成語音信號的嚴重失真,導致語音的可懂度下降;反之,如果噪聲的估計值偏小,就會產生大量的音樂噪聲,影響語音的質量。傳統的噪聲估計使用語音激活檢測(VAD)方法,在信號的無聲段(即語音的間隙)進行噪聲的估計和噪聲譜的更新。盡管這種方法在平穩噪聲(白噪聲)環境下可以取得較好的效果,但是在更多的現實場景中(餐館、車站等),因噪聲譜特性不斷變化,其效果變得不盡理想。近年提出的一些基于語音存在概率的MCRA,IMCRA等噪聲估計算法,普遍復雜度較高。本節提出一種將VAD和語音存在概率相結合的改進算法,降低了噪聲估計的復雜度。

VAD的判決采用對數似然比,計算公式為:

將每一幀的對數似然比求均值,小于閾值τ,則判定為非語音幀,噪聲更新采用下式進行平滑:

式中μ=0.86是一個值固定的平滑因子。

對于語音幀,利用語音存在概率進行噪聲更新。

則語音存在概率為:

噪聲的更新方式同樣采用平滑公式:

式中平滑因子:αs=αd+(1-αd)p(k,m),αd=0.9,αp=0.2,判決閾值τ的選取,需要綜合考慮語音的缺損以及噪聲的跟蹤速度,如果閾值τ選取的過大,則噪聲的跟蹤速度快,但語音的缺損會增加;相反,如果閾值τ取值過小,則噪聲跟蹤速度就會變慢。本文通過大量的實驗驗證,選取閾值τ=0.11。

算法的流程圖如圖1所示。

圖1 算法流程Fig.1 Flow chart of algorithm

4 實驗結果與分析

下圖為采用DD算法,改進的DD算法以及γ-1的對比圖:

圖2 信噪比時延對比Fig.2 SNR delay comparison diagram

從圖中可以看出,原始DD算法相比較于γ-1均存在一幀的時延,而改進的DD算法有效的減小了時延。同時為了驗證本算法的增強性能,對兩種常見的非穩態噪聲babble噪聲和car噪聲進行PESQ、對數譜失真、分段信噪比和總信噪比測試,測試語音采用NOIZEUS語音庫語音。并將本算法與OMLSA算法、基于MMSE噪聲估計的增強算法以及基于非因果信噪比估計的增強算法[7]進行對比,其中OMLSA算法中的噪聲估計采用目前使用較為廣泛的IMCRA噪聲估計算法以及結合語音存在概率的對數MMSE估計器。圖3、圖4為性能測試對比結果。

圖3 car噪聲環境下的對比Fig.3 Comparison diagram in car noise environment

圖4 babble噪聲環境下的對比Fig.4 Comparison diagram in babble noise environment

可以看出,本文提出的算法在0 dB噪聲環境時PESQ得分與其他幾種算法相當,但信噪比、分段信噪比和對數譜失真的綜合效果要好于其他算法;在5 dB的噪聲環境下,其性能優于其他算法,在信噪比較高的環境下,增強效果與其他算法相當。因此本文算法可以很好地在低信噪比非穩態噪聲環境下實現語音增強,且在信噪比較高的環境下本算法依然適用。

圖(5)為一段純凈語音,加入5 dB的babble噪聲后的帶噪語音以及增強后的語音波形對比圖,從圖中可以明顯看出本算法在語音的間隙很好的抑制了音樂噪聲。

圖5 增強前后算法語音波形圖對比Fig.5 Waveform comparison before and after speech enhancement

5 結語

本文在研究了傳統的判決引導法的基礎上,針對其在話音的起始端和結束端存在時延問題,提出將本幀的帶噪語音替代前一幀的純凈語音,并對其可能產生音樂噪聲采用了帶噪語音平滑。同時結合傳統的VAD判決法和近年來基于語音存在概率的噪聲估計算法,提出了一種低復雜度的噪聲更新算法,并在噪聲更新結束后依據更新的噪聲重新估計了先驗信噪比和后驗信噪比,使得本幀的增益函數計算更加精確,延時更小。最后通過信噪比、分段信噪比和對數譜失真等多個指標將該算法與最新的幾種語音增強算法進行了對比,在信噪比較低的非穩態噪聲環境下增強的總體效果要優于另幾種算法。該算法時延較低,且結構簡單,易于實現,具有較好的實用價值。

[1] LOIZOU P C.Speech Enhancement Theory and Practice [M],CRC Press,2007:337-377.

[2] COHEN I.Noise Spectrum Estimation in Adverse Environments:Improved Minima Controlled Recursive Averaging[J].IEEE Transactions on Speech and Audio Processing,2003,11(05):466-475.

[3] GERKMANN T,HENDRIKS R C.Unbiased MMSE-based Noise Power Estimation with Low Complexity and Low Tracking Delay[J].IEEE Transaction on Speech and Language Processing,2012,20(04):1383-1393.

[4] GERKMANN T.Noise Power Estimation Based on The Probability of Speech Presence[C]//IEEE Workshop on Application of Signal Processing to Audio and Acoustics. New Paltz:USA,2011:145-148.

[5] Cohen I.Optimal Speech Enhancement Under Signal Presence Uncertainty Using Log-spectra Amplitude Estimation[J].IEEE Signal Processing Letters,2002,9 (04):113-116.

[6] YONG P C,NORDHOLM S,DAM H H.Trade-off E-valuation for Speech Enhancement Algorithms with Respect to The a Priori SNR Estimation[C]//IEEE International Conference on Speech and Signal Processing(ICASSP).Kyoto:Japan,2012:4657-4660.

[7] 張濤,李輝。基于非因果先驗信噪比估計的語音增強方法[J].通信技術,2010,43(02):60-62.

ZHANG Tao,LI Hui.Speech Enhancement Based on Noncausal A Priori SNR Estimator[J].Communications Technology,2010,43(02):60-62.

Modified Low-Delay Speech Enhancement Algorithm

PANG Liang1,CHEN Liang1,ZHANG Yi-peng2
(1.Institute of Communication Engineering,PLAUST,Nanjing Jiangsu 210007,China; 2.Nanjing Artillery Academy of PLA,Nanjing Jiangsu 211132,China)

Aiming at current long-time delay of speech enhancement algorithms,this paper proposes a low -delay speech enhancement algorithm which improves the decision-directed algorithm with low delay based on the traditional prior SNR estimation and noise estimation,and introduces a noise estimation algorithm based on the combination of speech existence probability and VAD.This algorithm combines logarithmic MMSE estimator with speech existence probability.Meanwhile,ITU-T P.826 PESQ,segmental SNR,overall SNR,and logarithmic spectrum distortion are adopted to test the proposed algorithm,and comparisons with other speech enhancement algorithms also done.Experimental results show that the new algorithm can yield good performance in reducing time-delay and tracking non-stationary noise,particularly in the case of low SNR,and can also effectively suppress musical noise and residual noise.

speech enhancement;decision-directed;priori SNR estimation;noise spectrum estimation

TN912.35

1002-0802(2014)11-1276-05

10.3969/j.issn.1002-0802.2014.11.008

2014-09-09;

2014-10-19 Received date：2014-09-09;Revised date：2014-10-19

通信技術2014年11期

通信技術的其它文章: 基于改善Tent混沌映射的寬間隔跳頻序列的構造*; 光纖通道接口通用驅動程序設計與實現*; 基于軟件無線電的多功能射頻綜合一體化設計*; 基于DDS的指揮控制系統信息共享技術研究*; 短波組網協作頻譜感知技術研究*; 基于信噪比估算的短波通信輔助決策模型研究*

改進的低時延語音增強算法*

0 引 言

1 對數MMSE估計

2 先驗信噪比估計

3 噪聲估計

4 實驗結果與分析

5 結語

0 引言