摘要:在研究LMS自適應(yīng)算法的基礎(chǔ)上,提出一種基于聲門脈沖的變步長LMS自適應(yīng)時(shí)延估計(jì)新方法,并在相關(guān)噪聲和混響的環(huán)境下與互功率譜相位廣義互相關(guān)法(GCCCSP)、變步長LMS自適應(yīng)算法進(jìn)行性能比較。實(shí)驗(yàn)結(jié)果表明,新方法具有很好的魯棒性,即使在低信噪比強(qiáng)混響的環(huán)境下也能獲得有效的時(shí)延估計(jì)。
關(guān)鍵詞:時(shí)延估計(jì);聲門脈沖提取;Hilbert包絡(luò);削波;自適應(yīng)
中圖分類號:TP912.3文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2008)03-0726-03
傳聲器陣列說話人定位技術(shù)具有廣闊的應(yīng)用前景。例如在無人干預(yù)的視頻會議中,一旦獲得準(zhǔn)確的說話人位置,不僅可以控制攝像機(jī)對準(zhǔn)說話人,還可以結(jié)合波束形成技術(shù)獲得高質(zhì)量的語音。目前,傳聲器陣列聲源定位方法可以分為三種類型[1],即基于最大輸出功率的可控波束形成、基于高分辨率的譜估計(jì)和基于到達(dá)時(shí)間差(TDOA)。基于最大輸出功率的可控波束形成方法的計(jì)算復(fù)雜,且缺少語音和噪聲特性的先驗(yàn)知識,因此不可能應(yīng)用在說話人定位系統(tǒng)中;基于高分辨率的譜估計(jì)方法是針對遠(yuǎn)場窄帶平穩(wěn)信號的,因此這類方法很難應(yīng)用于寬帶語音信號;基于到達(dá)時(shí)間差方法的定位精度相對較高,而且可以實(shí)時(shí)實(shí)現(xiàn),因此被廣泛使用。在這一類方法中,時(shí)延估計(jì)是其關(guān)鍵技術(shù),直接決定了整個(gè)定位系統(tǒng)的有效性。在時(shí)延估計(jì)的方法中最常用的是廣義相關(guān)法[2],但這種方法在存在相關(guān)噪聲或混響的環(huán)境下,性能會嚴(yán)重下降。倒譜技術(shù)雖然可以降低混響的影響,但由于語音信號的非平穩(wěn)性使其難以應(yīng)用在說話人定位系統(tǒng)中[3]。本文提出了一種基于聲門脈沖的自適應(yīng)時(shí)延估計(jì)算法(GPCLMS),并驗(yàn)證了新方法對噪聲和混響具有很好的魯棒性,適合在說話人定位系統(tǒng)中使用。
1聲門脈沖的提取
如圖1[4]所示,當(dāng)氣流通過聲門時(shí)聲帶的張力剛好使聲帶發(fā)生較低頻率的張馳振蕩,形成準(zhǔn)周期性的空氣脈沖(稱之為聲門脈沖),這些空氣脈沖激勵(lì)聲道便產(chǎn)生濁音[5]。根據(jù)研究表明,聲門脈沖(glottal pulses)的位置在時(shí)間軸上對應(yīng)于聲門閉合的瞬間,而且其相對位置不受背景噪聲和混響的影響而變化[6]。
聲門脈沖可以通過線性預(yù)測 (LP)分析提取[7]。在線性預(yù)測分析中,時(shí)刻n的語音樣值s(n)都用以前的P個(gè)語音樣值s(n-1),s(n-2),…,s(n-P)通過線性組合來預(yù)測。如果(n)表示n時(shí)刻的預(yù)測樣值,那么可表示為
(n)=-Pi=1ais(n-i)(1)
其中:ai為預(yù)測系數(shù),且皆為實(shí)數(shù)。預(yù)測值(n)與真值s(n)之間的預(yù)測誤差表示為
ek(n)=s(n)-(n)=s(n)+Pi=1ais(n-i)(2)
最佳線性預(yù)測系數(shù)(LPCs)可以通過一幀10~30 ms的語音在最小均方誤差的意義上估計(jì)出來。由LPCs定義的預(yù)測誤差濾波器表示為
A(z)=1+Pi=1aiz-i(3)
語音信號通過預(yù)測誤差濾波器得到的LP殘余信號,用e(n)表示。LP殘余信號包含了產(chǎn)生語音的聲門脈沖信息。這是因?yàn)樵诼曢T閉合的瞬間產(chǎn)生的空氣脈沖導(dǎo)致了在LP殘余信號中相應(yīng)地出現(xiàn)了較大的誤差。
對比圖2(b)、3(b)和4(b)可以看出,由于噪聲和混響的影響,使LPC殘留誤差e(n)中的脈沖激勵(lì)被削弱,但脈沖激勵(lì)的相對位置沒有改變,因此可用來估計(jì)時(shí)間延時(shí)。為了銳化峰值,可以利用LPC殘留誤差e(n)的包絡(luò)he(n)代替e(n)[6,8]。
he(n)=e2(n)+eh2(n)(4)
其中:eh(n)是e(n)的Hilbert變換。為了進(jìn)一步減少噪聲和混響的影響,可以采用削波的方法對he(n)進(jìn)行處理:
hp(n)=1he(n)≥C
0he(n)<C(5)
其中:削波電平C為he(n)最大值的50%~60%。
2基于聲門脈沖的自適應(yīng)時(shí)延估計(jì)算法
基于聲門脈沖的自適應(yīng)時(shí)延估計(jì)原理如圖5所示。其估計(jì)算法如下:
a)把傳聲器1和2采集的語音信號x1(n)和x2(n)分別通過相應(yīng)的預(yù)測誤差濾波器得到LP殘余信號e1(n)和e2(n)。
b)利用Hilbert變換分別提取e1(n)、e2(n)的Hilbert包絡(luò)he1(n)和he2(n)。
c)對he1(n)和he2(n)分別進(jìn)行削波處理,得到語音幀的聲門脈沖hp1(n)和hp2(n)。
d)使hp1(n)通過一個(gè)變步長LMS自適應(yīng)濾波器,并讓濾波器的輸出在均方誤差最小的意義上逼近于hp2(n)[9]。
定義n時(shí)刻的輸入向量:
X1(n)=[hp1(n-τmax),
hp1(n-τmax+1),…,hp1(n+τmax)]T(6)
FIR濾波器權(quán)系數(shù)向量:
HFIR(n)=[h0,h1,…,hl,…,h2τmax]T(7)
其中:τmax為可能的最大時(shí)延值。誤差信號可以表示為
e(n)=hp2(n)-H T FIR(n)X1(n)(8)
在均方誤差最小的意義下,權(quán)向量可通過式(9)進(jìn)行迭代。
HFIR(n+1)=HFIR(n)+μ(n)e(n)X1(n)(9)
步長參數(shù)μ(n)可由式(10)(11)進(jìn)行調(diào)整:
μ′(n+1)=α×μ(n)+γ×e2(n)(10)
μ(n+1)=μmaxμ′(n+1)>μmax
μminμ′(n+1)<μmin
μ′(n+1)其他(11)
其中:0<α<1;γ>0為控制步長的收斂因子。當(dāng)濾波器權(quán)系數(shù)收斂后,時(shí)延的估計(jì)值可由式(12)求得。
=arg maxl|hl|-τmax(12)
3仿真結(jié)果
本文的語音信號樣本來源于澳大利亞昆士蘭大學(xué),采樣頻率為8 kHz,16 bit,長度為2.5 s。考慮到實(shí)際環(huán)境下(如視頻會議),會存在風(fēng)扇、空調(diào)等噪聲源,本文采用一實(shí)錄的風(fēng)扇噪聲作為噪聲源,與語音源相距1.5 m。傳聲器1緊靠語音源,傳聲器2、3與語音源的距離分別是1和1.414 m。聲源到傳聲器的脈沖響應(yīng)函數(shù)由IMAGE模型[10]產(chǎn)生。混響時(shí)間T與反射系數(shù)β的關(guān)系[11]為
β=exp(-13.82/c[L-1x+L-1y+L-1z]T(13)
其中:Lx,Ly,Lz表示房間的大小;c表示聲速(340 m/s)。
為了檢驗(yàn)該方法的性能,把估計(jì)的時(shí)延分成有效估計(jì)和無效估計(jì)兩類[12,13]。根據(jù)文獻(xiàn)[12],定義|-τ|>Tc/2的估計(jì)時(shí)延是無效估計(jì)。其中:τ為真實(shí)時(shí)延;Tc表示信號的互相關(guān)時(shí)間。文獻(xiàn)[13]定義Tc為信號的自相關(guān)函數(shù)的主瓣寬度(-3 db點(diǎn)之間的寬度),取Tc=0.25 ms。本文在8 kHz采樣率的情況下,把|-τ|<0.125 ms(相當(dāng)于1個(gè)采樣點(diǎn))的時(shí)延估計(jì)視為有效估計(jì)。圖6~8分別給出了在混響時(shí)間T為100、200、300 ms的情況下, GPCLMS、一般變步長LMS和GCC_CSP在不同信噪比的性能比較。其中,GPCLMS和一般變步長LMS對數(shù)據(jù)采用矩形窗進(jìn)行分幀;GCC_CSP采用漢寧窗,幀長1 024點(diǎn)(相當(dāng)于128 ms的數(shù)據(jù)長度),相鄰兩幀數(shù)據(jù)重疊87.5%。文中采用短時(shí)平均過零率結(jié)合能量閾值法對每幀數(shù)據(jù)進(jìn)行有聲/無聲檢測,得到的語音幀為133幀。圖9~11給出了GPCLMS、一般變步長LMS和GCC_CSP在弱噪聲(SNR=30 db)、中等噪聲(SNR=10 db)和強(qiáng)噪聲(SNR=-10 db)環(huán)境下,混響時(shí)間T對時(shí)延估計(jì)的性能影響。
由圖6~11可以看出,在弱混響高信噪比的情況下,GPCLMS、一般變步長LMS和GCCCSP都能得到較高的有效率。但除此之外,無論是高信噪比強(qiáng)混響、低信噪比弱混響還是低信噪比強(qiáng)混響的環(huán)境下,GPCLMS的有效率都明顯高于一般變步長LMS和GCCCSP。特別在信噪比為-15 db,混響時(shí)間為300 ms的環(huán)境下,GCCCSP已不能正確估計(jì)出時(shí)延,而GPCLMS還能獲得28.36%的正確率。
4結(jié)束語
廣義相關(guān)法(GCC)假定傳聲器間接收的噪聲是互不相關(guān)的高斯白噪聲,但在實(shí)際環(huán)境下(如視頻會議)會存在風(fēng)扇、空調(diào)等噪聲源。它們產(chǎn)生的噪聲會被各傳聲器所接收,因此簡單地假設(shè)各傳聲器接收的噪聲互不相關(guān)是不現(xiàn)實(shí)的。一般的變步長LMS法也有明顯的缺陷:a)由于傳聲器接收的信號x1(k)和x2(k)都是通過房間反射形成的,直接用x1(k)逼近x2(k)來獲得正確的時(shí)延是很困難的;b)這種算法對噪聲非常敏感。
由實(shí)驗(yàn)結(jié)果可以看出,GPCLMS算法始終具有較高的有效率,其抗干擾能力明顯高于GCCCSP和變步長LMS算法,適合用于說話人實(shí)時(shí)定位系統(tǒng)。
參考文獻(xiàn):
[1]DIBIASE J,SILVERMAN H,BRANDSTEIN M.Robust localization in reverberant rooms[C]//BRANDSTEIN M,WARD D.Microphone ArraysSignal Processing Techniques and Applications. Berlin: SpringerVerlag,2001:157180.
[2]KNAPP C H,CARTER G C.The generalized correlation method for estimation of time delay[J].IEEE Trans Acoust Speech Signal Processing,1976,24(4): 320-327.
[3]STEPHENNE A,CHAMPAGNE B.Cepstral prefiltering for time delay estimation in reverberant environment[C]//Proc of IEEE ICASSP’95.Detroit:[s.n.],1995:3055-3058.
[4]RABINER L R,SCHAFER R W.Digital processing of speech signals[M].朱雪龍,等譯.北京:科學(xué)出版社,1983.
[5]張雄偉,陳亮,楊吉斌.現(xiàn)代語音處理技術(shù)及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2003.
[6]VIKAS C,RAYKAR B,YEGNANARAYANA S R,et al.Speaker localization using excitation source information in speech[J].IEEE Trans Speech Signal Processing,2005,13(5):751761.
[7]MAKHOUL J.Linear prediction:a tutorial review[J].Proc IEEE,1975,63(4): 561-580.
[8]YEGNANARAYANA B,PRASANNA S R M,DURAISWAMI R,et al.Processing of reverberant speech for timedelay estimation[J].IEEE Trans Speech and Audio Processing,2005,13(6):11101118.
[9]KWONG R H,JOHNSTON E W.A variable step size LMS algorithm[J].IEEE Trans Signal Processing,1992,40:16311642.
[10]ALLEN J B,BERKLEY D A.Image method for efficiently simulating smallroom acoustics[J].Acoust Soc Amer,1979,65(4): 943-950.
[11]EYRING C F.Reverberation time in dead rooms[J].J. Acoust Soc Amer,1930,1(2): 217-241.
[12]CHAMPAGNE B,BEDARD S,STEPHENNE A.Performance of timedelay estimation in presence of room reverberation[J].IEEE Trans Speech Audio Processing,1996,4:148152.
[13]CHEN Jingdong,HUANG Yiteng,BENESTY J.Time delay estimation via multichannel crosscorrelation[C]//Proc of ICASSP’05.2005:49-52.
“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”