基于聲門(mén)脈沖的自適應(yīng)時(shí)延估計(jì)算法

2008-01-01 00:00:00郭威曾慶寧劉慶華唐江波

計(jì)算機(jī)應(yīng)用研究 2008年3期

摘要：在研究LMS自適應(yīng)算法的基礎(chǔ)上，提出一種基于聲門(mén)脈沖的變步長(zhǎng)LMS自適應(yīng)時(shí)延估計(jì)新方法，并在相關(guān)噪聲和混響的環(huán)境下與互功率譜相位廣義互相關(guān)法（GCCCSP）、變步長(zhǎng)LMS自適應(yīng)算法進(jìn)行性能比較。實(shí)驗(yàn)結(jié)果表明，新方法具有很好的魯棒性，即使在低信噪比強(qiáng)混響的環(huán)境下也能獲得有效的時(shí)延估計(jì)。

關(guān)鍵詞：時(shí)延估計(jì)；聲門(mén)脈沖提??；Hilbert包絡(luò)；削波；自適應(yīng)

中圖分類號(hào)：TP912．3文獻(xiàn)標(biāo)志碼：A

文章編號(hào)：1001－3695(2008)03－0726－03

傳聲器陣列說(shuō)話人定位技術(shù)具有廣闊的應(yīng)用前景。例如在無(wú)人干預(yù)的視頻會(huì)議中，一旦獲得準(zhǔn)確的說(shuō)話人位置，不僅可以控制攝像機(jī)對(duì)準(zhǔn)說(shuō)話人，還可以結(jié)合波束形成技術(shù)獲得高質(zhì)量的語(yǔ)音。目前，傳聲器陣列聲源定位方法可以分為三種類型[1]，即基于最大輸出功率的可控波束形成、基于高分辨率的譜估計(jì)和基于到達(dá)時(shí)間差（TDOA）。基于最大輸出功率的可控波束形成方法的計(jì)算復(fù)雜，且缺少語(yǔ)音和噪聲特性的先驗(yàn)知識(shí)，因此不可能應(yīng)用在說(shuō)話人定位系統(tǒng)中；基于高分辨率的譜估計(jì)方法是針對(duì)遠(yuǎn)場(chǎng)窄帶平穩(wěn)信號(hào)的，因此這類方法很難應(yīng)用于寬帶語(yǔ)音信號(hào)；基于到達(dá)時(shí)間差方法的定位精度相對(duì)較高，而且可以實(shí)時(shí)實(shí)現(xiàn)，因此被廣泛使用。在這一類方法中，時(shí)延估計(jì)是其關(guān)鍵技術(shù)，直接決定了整個(gè)定位系統(tǒng)的有效性。在時(shí)延估計(jì)的方法中最常用的是廣義相關(guān)法[2]，但這種方法在存在相關(guān)噪聲或混響的環(huán)境下，性能會(huì)嚴(yán)重下降。倒譜技術(shù)雖然可以降低混響的影響，但由于語(yǔ)音信號(hào)的非平穩(wěn)性使其難以應(yīng)用在說(shuō)話人定位系統(tǒng)中[3]。本文提出了一種基于聲門(mén)脈沖的自適應(yīng)時(shí)延估計(jì)算法（GPCLMS），并驗(yàn)證了新方法對(duì)噪聲和混響具有很好的魯棒性，適合在說(shuō)話人定位系統(tǒng)中使用。

1聲門(mén)脈沖的提取

如圖1[4]所示，當(dāng)氣流通過(guò)聲門(mén)時(shí)聲帶的張力剛好使聲帶發(fā)生較低頻率的張馳振蕩，形成準(zhǔn)周期性的空氣脈沖(稱之為聲門(mén)脈沖)，這些空氣脈沖激勵(lì)聲道便產(chǎn)生濁音[5]。根據(jù)研究表明，聲門(mén)脈沖（glottal pulses）的位置在時(shí)間軸上對(duì)應(yīng)于聲門(mén)閉合的瞬間，而且其相對(duì)位置不受背景噪聲和混響的影響而變化[6]。

聲門(mén)脈沖可以通過(guò)線性預(yù)測(cè) （LP）分析提取[7]。在線性預(yù)測(cè)分析中，時(shí)刻n的語(yǔ)音樣值s(n)都用以前的P個(gè)語(yǔ)音樣值s(n-1)，s(n-2)，…，s(n-P)通過(guò)線性組合來(lái)預(yù)測(cè)。如果(n)表示n時(shí)刻的預(yù)測(cè)樣值，那么可表示為

(n)=-Pi=1ais(n-i)(1)

其中：ai為預(yù)測(cè)系數(shù)，且皆為實(shí)數(shù)。預(yù)測(cè)值(n)與真值s(n)之間的預(yù)測(cè)誤差表示為

ek(n)=s(n)-(n)=s(n)+Pi=1ais(n-i)(2)

最佳線性預(yù)測(cè)系數(shù)（LPCs）可以通過(guò)一幀10～30 ms的語(yǔ)音在最小均方誤差的意義上估計(jì)出來(lái)。由LPCs定義的預(yù)測(cè)誤差濾波器表示為

A(z)=1+Pi=1aiz-i(3)

語(yǔ)音信號(hào)通過(guò)預(yù)測(cè)誤差濾波器得到的LP殘余信號(hào)，用e(n)表示。LP殘余信號(hào)包含了產(chǎn)生語(yǔ)音的聲門(mén)脈沖信息。這是因?yàn)樵诼曢T(mén)閉合的瞬間產(chǎn)生的空氣脈沖導(dǎo)致了在LP殘余信號(hào)中相應(yīng)地出現(xiàn)了較大的誤差。

對(duì)比圖2(b)、3(b)和4(b)可以看出，由于噪聲和混響的影響，使LPC殘留誤差e(n)中的脈沖激勵(lì)被削弱，但脈沖激勵(lì)的相對(duì)位置沒(méi)有改變，因此可用來(lái)估計(jì)時(shí)間延時(shí)。為了銳化峰值，可以利用LPC殘留誤差e(n)的包絡(luò)he(n)代替e(n)[6，8]。

he(n)=e2(n)+eh2(n)(4)

其中：eh(n)是e(n)的Hilbert變換。為了進(jìn)一步減少噪聲和混響的影響，可以采用削波的方法對(duì)he(n)進(jìn)行處理：

hp(n)=1he(n)≥C

0he(n)＜C(5)

其中：削波電平C為he(n)最大值的50％～60％。

2基于聲門(mén)脈沖的自適應(yīng)時(shí)延估計(jì)算法

基于聲門(mén)脈沖的自適應(yīng)時(shí)延估計(jì)原理如圖5所示。其估計(jì)算法如下：

a)把傳聲器1和2采集的語(yǔ)音信號(hào)x1(n)和x2(n)分別通過(guò)相應(yīng)的預(yù)測(cè)誤差濾波器得到LP殘余信號(hào)e1(n)和e2(n)。

b)利用Hilbert變換分別提取e1(n)、e2(n)的Hilbert包絡(luò)he1(n)和he2(n)。

c)對(duì)he1(n)和he2(n)分別進(jìn)行削波處理，得到語(yǔ)音幀的聲門(mén)脈沖hp1(n)和hp2(n)。

d)使hp1(n)通過(guò)一個(gè)變步長(zhǎng)LMS自適應(yīng)濾波器，并讓濾波器的輸出在均方誤差最小的意義上逼近于hp2(n)[9]。

定義n時(shí)刻的輸入向量：

X1(n)=[hp1(n-τmax)，

hp1(n-τmax+1)，…，hp1(n+τmax)]T(6)

FIR濾波器權(quán)系數(shù)向量：

HFIR(n)=[h0，h1，…，hl，…，h2τmax]T(7)

其中:τmax為可能的最大時(shí)延值。誤差信號(hào)可以表示為

e(n)=hp2(n)-H T FIR(n)X1(n)(8)

在均方誤差最小的意義下，權(quán)向量可通過(guò)式(9)進(jìn)行迭代。

HFIR(n+1)=HFIR(n)+μ(n)e(n)X1(n)(9)

步長(zhǎng)參數(shù)μ(n)可由式(10)(11)進(jìn)行調(diào)整：

μ′(n+1)=α×μ(n)+γ×e2(n)(10)

μ(n+1)=μmaxμ′(n+1)＞μmax

μminμ′(n+1)＜μmin

μ′(n+1)其他(11)

其中：0＜α＜1；γ＞0為控制步長(zhǎng)的收斂因子。當(dāng)濾波器權(quán)系數(shù)收斂后，時(shí)延的估計(jì)值可由式(12)求得。

=arg maxl|hl|-τmax(12)

3仿真結(jié)果

本文的語(yǔ)音信號(hào)樣本來(lái)源于澳大利亞昆士蘭大學(xué)，采樣頻率為8 kHz，16 bit，長(zhǎng)度為2.5 s?？紤]到實(shí)際環(huán)境下（如視頻會(huì)議），會(huì)存在風(fēng)扇、空調(diào)等噪聲源，本文采用一實(shí)錄的風(fēng)扇噪聲作為噪聲源，與語(yǔ)音源相距1.5 m。傳聲器1緊靠語(yǔ)音源，傳聲器2、3與語(yǔ)音源的距離分別是1和1.414 m。聲源到傳聲器的脈沖響應(yīng)函數(shù)由IMAGE模型[10]產(chǎn)生?；祉憰r(shí)間T與反射系數(shù)β的關(guān)系[11]為

β=exp(-13.82/c[L-1x+L-1y+L-1z]T(13)

其中:Lx，Ly，Lz表示房間的大?。籧表示聲速（340 m/s）。

為了檢驗(yàn)該方法的性能，把估計(jì)的時(shí)延分成有效估計(jì)和無(wú)效估計(jì)兩類[12，13]。根據(jù)文獻(xiàn)[12]，定義|-τ|＞Tc/2的估計(jì)時(shí)延是無(wú)效估計(jì)。其中：τ為真實(shí)時(shí)延；Tc表示信號(hào)的互相關(guān)時(shí)間。文獻(xiàn)[13]定義Tc為信號(hào)的自相關(guān)函數(shù)的主瓣寬度（-3 db點(diǎn)之間的寬度），取Tc=0.25 ms。本文在8 kHz采樣率的情況下，把|-τ|＜0.125 ms（相當(dāng)于1個(gè)采樣點(diǎn)）的時(shí)延估計(jì)視為有效估計(jì)。圖6～8分別給出了在混響時(shí)間T為100、200、300 ms的情況下， GPCLMS、一般變步長(zhǎng)LMS和GCC_CSP在不同信噪比的性能比較。其中，GPCLMS和一般變步長(zhǎng)LMS對(duì)數(shù)據(jù)采用矩形窗進(jìn)行分幀；GCC_CSP采用漢寧窗，幀長(zhǎng)1 024點(diǎn)（相當(dāng)于128 ms的數(shù)據(jù)長(zhǎng)度），相鄰兩幀數(shù)據(jù)重疊87．5％。文中采用短時(shí)平均過(guò)零率結(jié)合能量閾值法對(duì)每幀數(shù)據(jù)進(jìn)行有聲/無(wú)聲檢測(cè)，得到的語(yǔ)音幀為133幀。圖9～11給出了GPCLMS、一般變步長(zhǎng)LMS和GCC_CSP在弱噪聲（SNR＝30 db）、中等噪聲（SNR＝10 db）和強(qiáng)噪聲（SNR＝-10 db）環(huán)境下，混響時(shí)間T對(duì)時(shí)延估計(jì)的性能影響。

由圖6～11可以看出，在弱混響高信噪比的情況下，GPCLMS、一般變步長(zhǎng)LMS和GCCCSP都能得到較高的有效率。但除此之外，無(wú)論是高信噪比強(qiáng)混響、低信噪比弱混響還是低信噪比強(qiáng)混響的環(huán)境下，GPCLMS的有效率都明顯高于一般變步長(zhǎng)LMS和GCCCSP。特別在信噪比為-15 db，混響時(shí)間為300 ms的環(huán)境下，GCCCSP已不能正確估計(jì)出時(shí)延，而GPCLMS還能獲得28.36％的正確率。

4結(jié)束語(yǔ)

廣義相關(guān)法（GCC）假定傳聲器間接收的噪聲是互不相關(guān)的高斯白噪聲，但在實(shí)際環(huán)境下（如視頻會(huì)議）會(huì)存在風(fēng)扇、空調(diào)等噪聲源。它們產(chǎn)生的噪聲會(huì)被各傳聲器所接收，因此簡(jiǎn)單地假設(shè)各傳聲器接收的噪聲互不相關(guān)是不現(xiàn)實(shí)的。一般的變步長(zhǎng)LMS法也有明顯的缺陷：a）由于傳聲器接收的信號(hào)x1(k)和x2(k)都是通過(guò)房間反射形成的，直接用x1(k)逼近x2(k)來(lái)獲得正確的時(shí)延是很困難的；b)這種算法對(duì)噪聲非常敏感。

由實(shí)驗(yàn)結(jié)果可以看出，GPCLMS算法始終具有較高的有效率，其抗干擾能力明顯高于GCCCSP和變步長(zhǎng)LMS算法，適合用于說(shuō)話人實(shí)時(shí)定位系統(tǒng)。

參考文獻(xiàn)：

［1］DIBIASE J，SILVERMAN H，BRANDSTEIN M.Robust localization in reverberant rooms[C]//BRANDSTEIN M，WARD D.Microphone ArraysSignal Processing Techniques and Applications. Berlin: SpringerVerlag，2001:157180.

[2]KNAPP C H，CARTER G C.The generalized correlation method for estimation of time delay[J].IEEE Trans Acoust Speech Signal Processing，1976，24(4): 320－327.

[3]STEPHENNE A，CHAMPAGNE B.Cepstral prefiltering for time delay estimation in reverberant environment[C]//Proc of IEEE ICASSP’95.Detroit:[s.n.]，1995:3055－3058.

[4]RABINER L R，SCHAFER R W.Digital processing of speech signals[M]．朱雪龍，等譯．北京：科學(xué)出版社，1983.

[5]張雄偉，陳亮，楊吉斌．現(xiàn)代語(yǔ)音處理技術(shù)及應(yīng)用[M]．北京：機(jī)械工業(yè)出版社，2003.

[6]VIKAS C，RAYKAR B，YEGNANARAYANA S R，et al.Speaker localization using excitation source information in speech[J].IEEE Trans Speech Signal Processing，2005，13(5):751761.

[7]MAKHOUL J.Linear prediction:a tutorial review[J].Proc IEEE，1975，63(4): 561－580.

[8]YEGNANARAYANA B，PRASANNA S R M，DURAISWAMI R，et al.Processing of reverberant speech for timedelay estimation[J].IEEE Trans Speech and Audio Processing，2005，13(6):11101118.

[9]KWONG R H，JOHNSTON E W.A variable step size LMS algorithm[J].IEEE Trans Signal Processing，1992，40:16311642.

[10]ALLEN J B，BERKLEY D A.Image method for efficiently simulating smallroom acoustics[J].Acoust Soc Amer，1979，65(4): 943－950.

[11]EYRING C F.Reverberation time in dead rooms[J].J. Acoust Soc Amer，1930，1(2): 217－241.

[12]CHAMPAGNE B，BEDARD S，STEPHENNE A.Performance of timedelay estimation in presence of room reverberation[J].IEEE Trans Speech Audio Processing，1996，4:148152.

[13]CHEN Jingdong，HUANG Yiteng，BENESTY J.Time delay estimation via multichannel crosscorrelation[C]//Proc of ICASSP’05.2005:49－52.

“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”

計(jì)算機(jī)應(yīng)用研究2008年3期

計(jì)算機(jī)應(yīng)用研究的其它文章: 綜合ＭＰＥＧ－７中紋理和顏色特征的圖像檢索方法; 打印文件鑒別打印機(jī)型的文字圖像模糊識(shí)別; 視頻中遮擋情況下目標(biāo)的跟蹤; 輪廓波消噪中消噪效果與噪聲強(qiáng)度的關(guān)系; 一種新的圖像圓環(huán)點(diǎn)坐標(biāo)求解方法; 旋轉(zhuǎn)、縮放、位移不變的小波域圖像水印算法