楊鶴飛 鄭成詩 李曉東
(中國科學院聲學研究所 北京 100190)
(中國科學院上海高等研究院 上海 201210)
基于譜優(yōu)勢與非線性變換混合的立體聲聲學回聲消除方法
楊鶴飛 鄭成詩 李曉東*
(中國科學院聲學研究所 北京 100190)
(中國科學院上海高等研究院 上海 201210)
立體聲聲學回聲控制系統(tǒng)中,兩通道信號間的強相關性導致自適應算法的解不唯一,濾波器失調(diào)較大。為了解決此問題,并盡可能地保留語音質(zhì)量,該文基于心理聲學上的譜優(yōu)勢效應提出一種新型的混合立體聲聲學回聲消除方法。根據(jù)譜優(yōu)勢效應,在3個低次諧頻處注入能量較弱的正弦信號,以減弱低頻相關性。同時對非線性變換法進行改進,以用于中高頻去相關處理。與傳統(tǒng)方法的多方面性能測試對比結(jié)果表明:所提方法能有效改善失調(diào)性能并提高收斂速度,且具有較小的語音失真。
語音信號處理;立體聲聲學回聲消除;去相關;譜優(yōu)勢;非線性變換
通信系統(tǒng)中由于存在聲學回聲問題而需要進行聲學回聲消除(Acoustic Echo Cancellation, AEC),可利用自適應算法[1,2]實現(xiàn)該目的。立體聲具有較強空間感,已廣泛應用于語音通信系統(tǒng)。此時,遠端房間內(nèi)的兩通道傳聲器信號間存在強相關性。這導致自適應濾波器的收斂值不唯一,從而使立體聲聲學回聲消除(Stereo AEC, SAEC)系統(tǒng)的濾波器失調(diào)較大[3]。為了改善失調(diào)性能,需對兩通道傳聲器信號進行去相關預處理。同時,為了保證通信質(zhì)量,相應處理不應引入明顯的語音失真。
目前已有大量的去相關方法可應用于SAEC。一類方法在信號中添加一部分其它信號。其中最典型的是非線性變換法,即在信號中添加一部分其本身的非線性變換[3];雖然有多種非線性變換可供選擇,但半波整流變換最有效[4]。亦有人提出在兩個通道中添加相互獨立的低強度隨機噪聲[5],但為了不影響聽覺感知,信噪比需足夠高以至于去相關效果十分有限;此時可利用聽覺掩蔽效應對添加噪聲的頻譜進行幅度調(diào)制[6],以增強去相關效果。另一類方法通過直接改變原始信號來降低通道間相關性,如全通濾波法[7]、時變的相位調(diào)制法[8]和時間反轉(zhuǎn)法[9]等。其中,時間反轉(zhuǎn)法僅選擇性地對能量足夠弱的數(shù)據(jù)幀進行時域反轉(zhuǎn)。為了在去相關與語音失真之間取得更好的折中,近年的SAEC研究開始關注心理聲學效應,并結(jié)合其它方法進行分頻段處理。文獻[10]基于聽覺掩蔽效應在低頻部分添加掩蔽噪聲,并在高頻段進行時變的全通濾波;文獻[11]等結(jié)合基頻遺失效應與非線性相位調(diào)制,其后期研究進一步將信號分為3個頻段進行不同處理[12]。
本文基于心理聲學效應提出一種混合SAEC方法。根據(jù)心理聲學譜優(yōu)勢效應在3個低次諧頻成分附近注入正弦信號,以降低低頻相關性;在高頻段則利用時變的非線性相位調(diào)制對非線性變換去相關法進行改進。為了簡潔,下文中將所提出的方法簡寫為SDNT (Spectral Dominance-Nonlinear Transformation)法。
根據(jù)人耳聽覺特性,人耳聽覺系統(tǒng)在1.5 kHz以下對相位變化比較敏感[10]。因此,為了減小語音失真需盡量保持該頻率范圍內(nèi)的信號相位不變,本文利用心理聲學效應實現(xiàn)該目的。譜優(yōu)勢效應是一種心理聲學效應,它是指:復音信號中,某些諧頻成分對音高感知的影響更顯著[13]。文獻[14]指出,當復音信號的基頻低于350 Hz時,其音高感知主要取決于四次及以上的諧頻成分。因此可通過改變立體聲某一通道信號中的3個低次諧頻成分來達到低頻去相關的目的,根據(jù)譜優(yōu)勢效應,如此操作不會引入明顯的聽覺損失。
綜合上述分析,本文將SDNT法中的分頻點取為1 kHz。在1 kHz以下的低頻段,基于譜優(yōu)勢效應改變立體聲語音信號中某一通道(本文選左通道)的3個低次諧頻成分。可利用濾波器實現(xiàn)改變諧頻的目的,但實際濾波器的旁瓣影響將引入額外的失真。本文采用注入正弦信號的方法,分別在3個低次諧頻成分附近注入能量較弱的正弦信號,且各正弦信號受相應諧頻成分控制。
在1 kHz以上的高頻段,由于雙耳聲級差對聲源定位的影響增強,處理時應盡量保持信號幅值不變。本文基于非線性相位調(diào)制得到一種改進的非線性變換法。為了進一步降低相關性,調(diào)制相位隨時間變化。考慮到人耳的相位敏感度隨頻率遞減,將非線性相位調(diào)制成分在信號中的能量占比設定為隨頻率遞增。
由此得到結(jié)合心理聲學譜優(yōu)勢效應的混合SAEC方法,即SDNT法,其實現(xiàn)框圖如圖1所示,其中x1(n)與x2(n)分別表示左、右通道信號。低頻段的譜優(yōu)勢處理僅應用于x1(n);而高頻處理則同時對兩通道信號進行,但分別對x1(n)與x2(n)采用不同的調(diào)制相位。下面分別在2.1節(jié)和2.2節(jié)中對低、高頻處理進行詳盡闡述。

圖1 SDNT法的實現(xiàn)框圖
2.1 低頻處理
2.1.1 基頻檢測 首先利用加權(quán)自相關法[15]檢測基頻。假設加權(quán)自相關函數(shù)為()ψτ,其最大值所對應的時延數(shù)0τ即為基頻周期的估計值。語音信號中,需預先限定基頻取值范圍。考慮到語音信號的基頻最高約為500 Hz[16],但位于區(qū)間[60,300] Hz內(nèi)的概率高達97%[17];另外,譜優(yōu)勢效應僅在基頻低于350 Hz時適用[14]。為了既適用于多數(shù)語音信號,又滿足譜優(yōu)勢前提,本文將基頻取值范圍限定為[60,350] Hz。如此相當于

其中,sf為信號的采樣頻率。
式(1)得到的基頻周期精度較低,僅為1個采樣周期;為了提高檢測精度,可進一步對以最大值為中心的相鄰3個()ψτ值進行插值。設所用插值間隔為τΔ,則所得基頻的估計精度為

其值隨0τ的減小而降低,因此最低基頻精度為

根據(jù)τ0可得基頻估計值為f0=fs/τ0,相應地,二、三次諧頻分別為2f0和3f0。為了改變3個低次諧頻成分,本文將f0,2f0和3f0取為待注入正弦信號的頻率。由于受基頻檢測算法的精度限制,f0存在一定的估計誤差,從而使得被改變的不再是信號的3個低次諧頻成分,這可能會引入較大的語音失真。考慮到人耳的最低可辨別特性[18],當兩個頻率之差不大于閾值df時,人耳不能對二者進行區(qū)分,其中df取值為[18]

由此易知,0f,02f和03f的估計誤差均應不高于1 Hz。由于df隨單頻信號持續(xù)時間的縮短而增大[18],且語音信號中同一基頻值的持續(xù)時間很短,本文將基頻檢測精度限定為不低于1 Hz,結(jié)合式(3)得

本文采樣頻率為16 kHz,此時Δτ≤0.13,可將插值間隔設定為0.1個采樣點。
2.1.2 基頻和二、三次諧頻處理 傅里葉變換得到左通道信號的頻譜X1(f)。利用基頻估計值檢索X1(f),分別得到基頻與二、三次諧頻信號的幅值和初相,并進行幅值加權(quán)得到

其中,i = 1, 2, 3分別對應于基頻和二、三次諧頻,A,?,σ分別表示幅值、初相和幅值加權(quán)因子,函數(shù)angle{·}表示對復數(shù)取相位,σi在[0,1]內(nèi)取值。所需注入的3個正弦信號的頻率分別為fi=i·f0,其幅值和初相采用式(6)所得結(jié)果。由此構(gòu)造出3個正弦信號si(n),并通過時域加法注入到左通道信號中。si(n)負責改變第i次諧頻,易知σi越大,第i次諧頻的改變程度越大,語音失真越明顯。
2.2 高頻處理
非線性變換法的頻域表示為

其中,Xj( f ), j=1,2為xj(n)的頻譜;β為非線性加權(quán)系數(shù),在[0,1]內(nèi)取值;函數(shù){}F·表示非線性變換,傳統(tǒng)的非線性變換去相關法中一般采用半波整流變換[3]。由于人耳聽覺系統(tǒng)在高頻對信號的幅值變化比較敏感,本文利用非線性相位調(diào)制得到一種改進的非線性變換法。
對于1 kHz以上的高頻段,根據(jù)式(7)同時對兩通道信號進行變換。函數(shù){}F·采用非線性相位調(diào)制,且兩通道的調(diào)制相位互為相反數(shù),由此得到本文所采用的高頻處理:

其中,調(diào)制相位Θ隨幀數(shù)m和頻率f非線性變化。為了保證IFFT的實數(shù)性,sf/2處的Θ值為0,因此,

其中,?=2π·m·f/fs。對于相鄰兩個數(shù)據(jù)幀,?值的相對差異為[(m+1)-m]/m=1/m,隨m遞減,即調(diào)制相位Θ的變化速度越來越慢;信號較長時,去相關效果將大為減弱。因此,將?值優(yōu)化為

其中,Λ表示變化周期,本文取為200幀,“%”表示將m對Λ求余數(shù)。
對于式(8)所示變換,變換前后信號能量幾乎不變,此時通道間相干系數(shù)與頻域互相關函數(shù)等價。下面利用互相關函數(shù)來評價高頻去相關效果。變換后,兩通道信號間的頻域互相關函數(shù)C12( f )為

其中,E{}·表示數(shù)學期望,“*”表示對復數(shù)取共軛。式(11)的推導過程中利用了如下假設:

在1~2 kHz范圍內(nèi),人耳聽覺系統(tǒng)對信號的相位和幅值均比較敏感[10],因此將此頻率范圍內(nèi)的β取為折中值0.5。由于人耳聽覺系統(tǒng)的相位敏感度隨頻率升高而降低,當頻率高于2 kHz時,令β隨f線性遞增。結(jié)合上述統(tǒng)計結(jié)果,得到非線性加權(quán)系數(shù)β的值如式(13)所示,其值在fs/2處取最大值0.9。得益于式(9)中調(diào)制相位的分段定義,β在1 kHz以下的非零值并不會對低頻信號產(chǎn)生影響。

為了對比不同的iσ取值方案,采用如下指標對其性能進行評價:
(1)通道間相干系數(shù)(Inter-Channel Correlation Coefficient, ICCC): ICCC越小,相關性越弱。其定義為

(2)失調(diào)[19](MISalignment, MIS):失調(diào)是評價自適應通道辨識能力的量化指標,其定義為

其中,hj為物理脈沖響應,(n)為第n個采樣周期內(nèi)的自適應脈沖響應,表示2范數(shù)。
(3)語音質(zhì)量感知評估[20](Perceptual Evaluation of Speech Quality, PESQ): PESQ將主觀音質(zhì)客觀量化,它在-0.5~4.5之間[20]取值,其值越大,表示失真越小。本文利用文獻[21]中的PESQ算法計算其值。
3.1 σi對低頻去相關性能的影響
首先定義函數(shù)δm(f),當頻率f在第m幀被檢測為3個低次諧頻之一時δm(f)=1,否則δm(f)=0;然后定義,以及S(f)= p。令表示不高于1 kHz的低頻部分的ICCC值。考慮X1(f)=X2(f)=X(f)的情況,未進行低頻去相關處理時ICCClow(f)≡1。為了便于觀察σi的影響機理,令σ1=σ2=σ3=σ,則處理后的低頻ICCC值為

由此得到如下結(jié)論:

由于語音信號的基頻時刻變化,對于所有數(shù)據(jù)幀m, δm(f)=1成立的次數(shù)很少,可得到Sp(f)<S(f)/ (2+σ)。此時,式(17)的值為負,ICC(f)隨Sp(f)遞減。因此,頻率f在3個低次諧頻中的出現(xiàn)概率越大,相應地有Sp(f)越大,ICC(f)越小,即結(jié)論(2)成立。

圖2 互相關函數(shù)在高頻段(>1 kHz)的平均值隨非線性加權(quán)系數(shù)的變化曲線
以一段長20 min,采樣率16 kHz的男聲語音信號做為樣本數(shù)據(jù),利用2.1.1節(jié)所述方法對濁音段進行基頻檢測,統(tǒng)計得到各頻率在基頻與二、三次諧頻中的出現(xiàn)概率如圖4所示。當頻率高于約350 Hz時,出現(xiàn)概率隨頻率升高而降低。因此,當σ1=σ2=σ3時,根據(jù)結(jié)論(2)易知ICC將近似隨頻率升高而增大。
3.2 σi的選取
為了確定σi的最佳取值,對不同取值方案進行性能對比。由于σi僅影響左通道信號的低頻處理,此處討論左通道PESQ和低頻ICCC。但MIS性能將在全頻帶討論。首先選擇3種取值方案: SDNT, σ1=0.10,σ2=0.20,σ3=0.30; SDNT-a, σ1= 0.20, σ2=0.35,σ3=0.50和SDNT-b, σ1=0.50, σ2=0.50, σ3=0.50。對男、女聲語音下的性能進行平均,得到上述3種取值方案的性能對比如圖5所示。由圖5(a)可見,σ1<σ2<σ3時能獲得較平坦的低頻ICCC性能,且σi越大,去相關效果越好,這與3.1節(jié)的結(jié)論吻合。觀察圖5(b),方案SDNT-a和SDNT-b下的失調(diào)性能并未比方案SDNT好,可能的原因是:當?shù)皖lICCC值在一定范圍內(nèi)變化時,整體ICCC-f曲線的形狀對失調(diào)性能影響更大。由于本文旨在改善失調(diào)性能,綜合圖5可將σi之間的關系設定為σ3:σ2:σ1=3:2:1。
令σ3:σ2:σ1=3:2:1,不同σ1值時的MIS曲線收斂值與PESQ如表1所示。結(jié)果顯示,當σ1從0增大至0.1時,失調(diào)得到明顯改善且PESQ降低較慢;而當σ1從0.1增大至0.2時則相反。σ1=0.1時(即方案SDNT),算法在失調(diào)性能與語音質(zhì)量間取得了較好的折中;因此可認為方案SDNT是最佳取值方案之一。實際應用時,可根據(jù)系統(tǒng)要求調(diào)節(jié)σi的值。

圖3 ICCC隨σ的變化曲線

圖4 不同頻率值在3個低 次諧頻中的出現(xiàn)概率

圖5 不同的幅值加權(quán)因子取值方案下的性能對比

表1 不同σ1值時的MIS曲線收斂值和左通道PESQ
考慮單向傳輸、遠端房間中聲源位置固定的SAEC場景。近端房間尺寸為4×3×3 m3,揚聲器分別位于{1,2,1.2} m和{3,2,1.2} m,傳聲器分別位于{1.8,1,1.2} m和{2.2,1,1.2} m。采用信噪比為30 dB的高斯白噪聲模擬近端房間內(nèi)的背景噪聲。測試用語音信號采用TIMIT數(shù)據(jù)庫[22]中所有男聲和女聲信號。采樣率取16 kHz,房間混響時間設為128 ms,利用虛源模型[23]得到揚聲器至傳聲器的物理傳遞函數(shù),長度為1024個采樣點。自適應通道辨識時采用經(jīng)典的的NLMS算法[2],步長0.4,自適應濾波器取512階。
將SDNT法與以下方法進行性能比較:
(1)NLT(NonLinear Transformation)法:即采用半波整流變換的非線性變換法[3]。
(2)MFNP(Missing Fundamental-Nonlinear Phase modulation)法[11]:在低于500 Hz的低頻段,利用心理聲學上的基頻遺失效應,在高頻段則進行非線性相位調(diào)制。
(3)STR(Selective Time-Reversal)法[9]:對左通道信號中能量低于閾值的信號幀進行時間反轉(zhuǎn),右通道信號則保持不變。幀長取256點,能量閾值為0.01。
NLT法是一種非線性方法,SDNT法的高頻處理亦是,但二者采用不同的非線性變換:NLT進行半波整流,而SDNT的高頻處理利用非線性相位調(diào)制;另外,SDNT在低、高頻進行不同處理,而NLT則在全頻帶進行相同處理。MFNP與SDNT均利用心理聲學效應進行低頻處理,但前者結(jié)合基頻遺失效應,后者則基于譜優(yōu)勢效應;同時,二者采用不同的高頻處理,前者直接進行相位調(diào)制,后者則利用非線性變換去相關法。STR法與上述方法均不同,但由于其操作簡便、技巧新穎,本文將其與SDNT法進行性能對比。
測試時,STR法直接進行幀操作,NLT法則逐點計算。其它方法均進行加權(quán)重疊求和,幀長512點,即32 ms,重疊率50%,所用窗函數(shù)w(n)如式(18)[24]所示。

其中,L等于幀長。根據(jù)第3節(jié)的結(jié)論,SDNT法中的幅值加權(quán)因子取值為:σ1=0.10,σ2=0.20和σ3=0.30。
下面分別利用ICCC,失調(diào),回聲往返損耗增益[9](Echo-Return-Loss Enhancement, ERLE)和PESQ對各種SAEC方法的通道間相干性、失調(diào)、回聲消除量和語音失真性能進行對比評價。對男、女聲語音下的性能進行平均,得到的結(jié)果見圖6,其中的“none”對應于未處理的原始信號。
4.1 通道間相干性
利用ICCC隨頻率的變化曲線檢測各方法的去相關性能。計算ICCC時,對所有數(shù)據(jù)幀進行平均以估計數(shù)學期望,幀長512點,重疊率80%。經(jīng)前述各種方法處理后的立體聲信號所對應的ICCC值如圖6(a)所示。
由于未考慮遠端房間的染色效應,未處理時,兩通道信號間的ICCC值接近1。就去相關效果而言,STR法最差,僅極低頻和中高頻相干系數(shù)略有減小;NLT法次之,極低頻與中頻段ICCC值較低。MFNP法在500 Hz以下利用基頻遺失效應,從而獲得強去相關效果;其在500~2000 Hz頻段的ICCC值較高,高頻段ICCC值再次降低。SDNT法的高頻去相關效果明顯優(yōu)于低頻。由于進行分頻段操作,SDNT法與MFNP法的ICCC值分別在約1 kHz和500 Hz處發(fā)生突變,且MFNP法幾乎在

圖6 4種方法的性能對比
全頻帶具有最低的ICCC值。SDNT法的去相關強度幾乎與頻率成正比;且由于諧頻成分改變程度較低,其低頻去相關效果差。
4.2 失調(diào)
仿真結(jié)果如圖6(b)所示,4種方法的失調(diào)學習曲線與“none”曲線的對比驗證了去相關預處理在SAEC中的必要性。SDNT法具有最快的收斂速度和最佳辨識精度,而NLT法性能最差。對照圖6(a)易知,STR法雖然去相關效果最差,但其自適應性能優(yōu)于NLT法,其收斂精度甚至高于MFNP法;MFNP法的去相關效果幾乎最佳,但失調(diào)性能則不然。由此可見,不同頻率處的通道間相干性對失調(diào)具有不同程度的影響。
4.3 回聲消除量
好的去相關方法應該在改善失調(diào)性能的同時,不損傷系統(tǒng)的噪聲消除性能。ERLE表征回聲消除量的大小,它是評價回聲消除算法性能的常用物理量,其定義為

其中,d(n)為傳聲器信號;e(n)為經(jīng)回聲消除后的誤差信號。ERLE越大,回聲消除越干凈。仿真得到不同去相關方法下的ERLE曲線如圖6(c)所示。4種去相關方法的回聲消除性能差別不大,但STR法性能最佳,其ERLE曲線幾乎與未處理時的重合。其次是SDNT法,其ERLE收斂略慢。NLT法和MFNP法的ERLE性能相似,其收斂精度較低,且收斂速度較慢。
4.4 語音失真
圖6(d)給出了經(jīng)過不同去相關方法處理后的語音信號的PESQ值。“none”方法對應于未處理,信號無失真,其PESQ值為理想值4.5。4種SAEC方法中,綜合左右通道情況,SDNT法的音質(zhì)失真最小;且由于右通道的低頻部分無處理,其所對應的PESQ值較左通道的高。STR法僅對左通道信號處理,其右通道信號無失真,但左通道信號失真大。MFNP法與NLT法同時對左右通道進行處理,在兩通道中均存在較大失真,且前者失真較后者小;MFNP法中,為了保持通道間同步,對右通道的低頻部分進行時延補償,但卻破壞了低、高頻間的信號同步,因此在圖6(d)中具有較小的右通道PESQ值。
本文基于譜優(yōu)勢效應與改進的非線性變換法提出一種新型SAEC方法,并給出了一種最佳的幅值加權(quán)因子取值方案。在不同性能方面將本文方法與傳統(tǒng)方法進行測試對比,結(jié)果表明其在去相關性、失調(diào)以及語音失真方面均具有較佳性能,能有效解決SAEC中的解失調(diào)問題。
[1] Malik S and Benesty J. Variationally diagonalized multichannel state-space frequency-domain adaptive filtering for acoustic echo cancellation[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Vancouver, 2013: 595-599.
[2] Nishiyama K. A unified view of adaptive algorithms for finite impulse response filters using the H fra∞mework[J]. Signal Processing, 2014, 97(2014): 55-63.
[3] Benesty J, Morgan D R, and Sondhi M M. A better understanding and an improved solution to the specific problems of stereophonic acoustic echo cancellation[J]. IEEE Transactions on Speech and Audio Processing, 1998, 6(2): 156-165.
[4] Morgan D R, Hall J L, and Benesty J. Investigation of several types of nonlinearities for use in stereo acoustic echo cancellation[J]. IEEE Transactions on Speech and Audio Processing, 2001, 9(6): 686-696.
[5] Romoli L, Cecchi S, and Piazza F. A combined approach for channel decorrelation in stereo acoustic echo cancellation exploiting time-varying frequency shifting[J]. IEEE Signal Processing Letters, 2013, 20(7): 717-720.
[6] Romoli L, Cecchi S, and Piazza F. Evaluation of a channel decorrelation approach for stereo acoustic echo cancellation [C]. 8th International Symposium on Image and Signal Processing and Analysis, Trieste, 2013: 783-788.
[7] Ali M. Stereophonic acoustic echo cancellation system using time varying all-pass filtering for signal decorrelation[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Seattle, 1998: 3689-3692.
[8] Herre J, Buchner H, and Kellermann W. Acoustic echo cancellation for surround sound using perceptually motivated convergence enhancement[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Honolulu, 2007: 17-20.
[9] Nguyen D Q, Gan W S, and Khong A W H. Time-reversal approach to the stereophonic acoustic echo cancellation problem[J]. IEEE Transactions on Audio, Speech and Language Processing, 2011, 19(2): 385-395.
[10] Valin J M. Perceptually-motivated nonlinear channel decorrelation for stereo acoustic echo cancellation[C]. Hands-Free Speech Communication and Microphone Arrays, Trento, 2008: 188-191.
[11] Cecchi S, Romoli L, Peretti P, et al.. A combined psychoacoustic approach for stereo acoustic echo cancellation[J]. IEEE Transactions on Audio, Speech and Language Processing, 2011, 19(6): 1530-1539.
[12] Romoli L, Cecchi S, Peretti P, et al.. A mixed decorrelation approach for stereo acoustic echo cancellation based on the estimation of the fundamental frequency[J]. IEEE Transactions on Audio, Speech and Language Processing, 2012, 20(2): 690-698.
[13] Schwartz D A and Purves D. Pitch is determined by naturally occuring periodic sounds[J]. Hearing Research, 2004, 194(1): 31-46.
[14] Plomp R. Pitch of complex tones[J]. The Journal of the Acoustical Society of America, 1967, 41(6): 1526-1533.
[15] Shimamura T and Kobayashi H. Weighted autocorrelation for pitch extraction of noise speech[J]. IEEE Transactions on Speech and Audio Processing, 2001, 9(7): 727-730.
[16] 韓紀慶, 張磊, 鄭鐵然. 語音信號處理[M]. 北京: 清華大學出版社, 2013: 86-91. Han Ji-qing, Zhang Lei, and Zheng Tie-ran. Speech Signal Processing[M]. Beijing: Tsinghua University Press, 2013: 86-91.
[17] Hu X, Wang S, Zheng C, et al.. A cepstrum-based preprocessing and postprocessing for speech enhancement in adverse environments[J]. Applied Acoustics, 2013, 74(12): 1458-1462.
[18] Zwicker E and Fastl H. Psychoacoustics: Facts and Models[M]. New York: Springer-Verlag, 1990: 185-187.
[19] Stanciu C, Benesty J, Paleologu C, et al.. A widely linear model for stereophonic acoustic echo cancellation[J]. Signal Processing, 2013, 93(2): 511-516.
[20] Hines A, Skoglund J, Kokaram A, et al.. Robustness of speech quality metrics to background noise and network degradations: Comparing ViSQOL, PESQ and POLQA[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Vancouver, 2013: 3697-3701.
[21] Loizou P C. Speech Enhancement: Theory and Practice[M]. Boca Raton, FL: CRC Press, 2007: 514-524.
[22] Garofolo J S. DAPRA TIMIT acoustic-phonetic speech database [OL]. http://web.mit.edu/course/6/6.863/share/ nltk_lite/timit/, 1990.10.
[23] Habets E A P. Room impulse response generator [OL]. http://home.tiscali.nl/ehabets/rir_generator.html, 2014.08.
[24] Montgomery C. Vorbis I specification[OL]. http://www. xiph.org/vorbis/doc/Vorbis_I_spec.html, 2013.08.
楊鶴飛: 女,1988年生,博士生,研究方向為音頻信號處理.
鄭成詩: 男,1980年生,博士,副研究員,主要研究方向為語音信號處理、音頻信號處理.
李曉東: 男,1966年生,博士,研究員,主要研究方向為語音信號處理、音頻信號處理以及非線性聲學.
A Stereo Acoustic Echo Cancellation Method Based on the Hybrid of Spectral Dominance and Nonlinear Transformation
Yang He-fei Zheng Cheng-shi Li Xiao-dong
(Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190, China)
(Shanghai Advanced Research Institute, Chinese Academy of Sciences, Shanghai 201210, China)
In stereophonic Acoustic Echo Cancellation (AEC) systems, the strong correlation between the two stereophonic channels leads to nonuniqueness of adaptive solutions and further large filter misalignment. To solve this problem and preserve speech quality, the psychoacoustic spectral dominance effect is utilized to propose a novel hybrid decorrelation method for stereo AEC. According to spectral dominance, weak sinusoids are injected at the three lowest harmonics so as to reduce low-frequency coherence. Besides, the nonlinear transformation method is modified and applied to high-frequency decorrelation. Comparison test on several performances with traditional approaches is carried out. Results show that the proposed method can effectively improve filter misalignment together with convergence rate. Moreover, low speech distortion can be achieved simultaneously.
Speech signal processing; Stereophonic Acoustic Echo Cancellation (AEC); Decorrelation; Spectral dominance; Nonlinear transformation
TN912.3
A
1009-5896(2015)02-0373-07
10.11999/JEIT140274
2014-03-04收到,2014-11-04改回
國家自然科學基金(61201403)資助課題
*通信作者:李曉東 lxd@mail.ioa.ac.cn