用于視頻監(jiān)控的特定聲實(shí)時(shí)定位系統(tǒng)

2010-09-17 07:53:16曾春燕竇維蓓

電視技術(shù) 2010年1期

張勇，曾春燕，竇維蓓

（清華大學(xué) 電子工程系，北京 100084）

1 引言

聲音定位技術(shù)有廣闊的應(yīng)用前景，比如多媒體安全監(jiān)控[1-2]。在多媒體安全監(jiān)控系統(tǒng)中，聲音定位系統(tǒng)可以估算出聲源方向，以此控制攝像頭的方向，可以提高攝像鏡頭對(duì)異常事件的捕捉能力，對(duì)室內(nèi)外環(huán)境進(jìn)行有效監(jiān)控。

常用的聲音定位技術(shù)主要有：基于TDoA的聲音定位技術(shù)[3-5]，基于高分辨力的空間譜估計(jì)的聲音定位技術(shù)[6-7]，基于神經(jīng)網(wǎng)絡(luò)的定位技術(shù)，基于頭相關(guān)傳遞函數(shù)的聲音定位技術(shù)[8-10]。在這些定位技術(shù)中，后3種技術(shù)的復(fù)雜度相對(duì)比較高，而基于TDoA的聲音定位技術(shù)相對(duì)來(lái)說(shuō)比較簡(jiǎn)單，適合于低成本的實(shí)時(shí)系統(tǒng)，而且性能能夠滿足大多數(shù)應(yīng)用場(chǎng)合的要求，所以應(yīng)用得比較多。

基于TDoA的定位算法的現(xiàn)有研究中，大多在努力提高定位的精度。但是，在實(shí)際的應(yīng)用中，除了希望提高定位精度，更希望系統(tǒng)只對(duì)特定的聲音進(jìn)行定位，忽略其他類(lèi)型的聲音。這可以大大提高系統(tǒng)的抗干擾能力，提高系統(tǒng)的實(shí)用性。

為此，筆者提出了一種對(duì)特定聲定位的系統(tǒng)，它利用廣義互相關(guān)（GCC）方法估算聲音到達(dá)傳聲器（即麥克風(fēng)）的時(shí)間差TDoA，以此確定聲源的方向；同時(shí)利用特定聲檢測(cè)技術(shù)，只有檢測(cè)到特定聲時(shí)，才輸出定位結(jié)果。特定聲定位系統(tǒng)框圖如圖1所示。

圖1 基于DSP的特定聲定位系統(tǒng)

在本系統(tǒng)中，首先對(duì)傳聲器的采集信號(hào)進(jìn)行預(yù)處理，然后對(duì)聲源方向進(jìn)行定位并且檢測(cè)聲音類(lèi)型，最后根據(jù)當(dāng)前幀的聲音類(lèi)別決定是否輸出定位結(jié)果。

2 基于TDoA的定位

基于TDoA的聲源定位如圖2所示，S表示聲源，m1和m2分別表示2個(gè)傳聲器，聲源相對(duì)于傳聲器連接線的方向角是θ，從S傳來(lái)的聲音到達(dá)這2個(gè)傳聲器的距離差是△d，這將帶來(lái)時(shí)間差△t。而且這個(gè)時(shí)間差△t和方向角θ密切相關(guān)，不同的θ對(duì)應(yīng)不同的時(shí)間差，當(dāng)方向角θ是0°或者180°的時(shí)候，時(shí)間差最大。當(dāng)θ角是90°的時(shí)候，時(shí)間差是0。

2.1 廣義互相關(guān)計(jì)算TDoA

在圖2所示的模型中，可以用式（1）表示2個(gè)傳聲器的接收信號(hào)

圖2 基于TDoA的聲源定位

式中： s（t）表示聲源信號(hào)；m1（t）和 m2（t）表示 2 個(gè)傳聲器接收的信號(hào)；n1（t）和 n2（t）表示 2 個(gè)傳聲器上獨(dú)立的噪聲，比如電噪聲；t0表示信號(hào)到達(dá)兩個(gè)傳聲器的時(shí)間延遲；α表示2個(gè)信號(hào)在幅度上的差別，假如傳聲器的距離不大，聲源到達(dá)2個(gè)傳聲器的路徑差別不是很大的時(shí)候，可以假定α=1。估算t0的簡(jiǎn)單有效方法就是互相關(guān)。一個(gè)信號(hào)的自相關(guān)函數(shù)在0點(diǎn)達(dá)到最大值，假如把一個(gè)信號(hào)延時(shí)t0后與原信號(hào)做互相關(guān)，它的峰值將會(huì)延時(shí)t0。所以在式（1）中，估算出 m1（t）和 m2（t）的互相關(guān)函數(shù)的峰值點(diǎn)，就知道了它們的延時(shí)t0。

然而，考慮到噪聲 n1（t）和 n2（t）或者室內(nèi)混響的影響，這種方法的定位性能不穩(wěn)定。為了提高各種復(fù)雜環(huán)境下聲音定位的性能，人們研究出了各種廣義互相關(guān)算法。

廣義互相關(guān)先對(duì)傳聲器接收信號(hào) m1（t），m2（t）進(jìn)行處理，然后再做相關(guān)，如圖3所示。

圖3 廣義互相關(guān)算法的示意圖[11]

圖3中的H1，H2表示2個(gè)濾波器的傳遞函數(shù)。濾波后的2個(gè)信號(hào)求互相關(guān)函數(shù)，最后，進(jìn)行峰值檢測(cè)，找到峰值點(diǎn)，這就是 m1（t）和 m2（t）之間的相對(duì)延時(shí)。

不同的濾波器就對(duì)應(yīng)了不同的廣義互相關(guān)算法。文獻(xiàn)中，有的互相關(guān)算法是適用于噪聲環(huán)境下的定位，比如最大似然法（HT）[12]，也有的算法適用于混響環(huán)境的定位，比如相位變換方法（PHAT）[11]。也有利用聲源本身的特點(diǎn)對(duì)聲源定位，比如利用人聲的基音[5]或者是線性預(yù)測(cè)誤差[13]。在混響環(huán)境中，人聲的頻譜會(huì)產(chǎn)生畸變，但是基音的頻率和線性預(yù)測(cè)誤差的時(shí)間規(guī)律不會(huì)改變，所以這些算法適合于混響環(huán)境。

在本文的系統(tǒng)中，要對(duì)室內(nèi)和室內(nèi)的特定聲方向進(jìn)行定位，分別采用PHAT和HT方法。PHAT方法的原理推導(dǎo)在文獻(xiàn)[11]中有詳細(xì)推導(dǎo)，這里只給出計(jì)算公式

2.2 根據(jù)時(shí)間差確定聲源方向

根據(jù)TDoA和傳聲器排列的幾何位置定位方法主要有最大似然算法和閉式表達(dá)式法。閉式表達(dá)式法算法復(fù)雜度低，其性能在實(shí)際應(yīng)用中也能滿足要求，所以得到了廣泛的應(yīng)用。閉式表達(dá)式法主要有交叉雙曲線、球插值算法等。假定聲音是遠(yuǎn)場(chǎng)信號(hào)，還可以用簡(jiǎn)單的方法得到聲源的方向角。遠(yuǎn)場(chǎng)信號(hào)示意圖如圖4所示。

圖4 系統(tǒng)實(shí)現(xiàn)框架圖

圖4中，L，R代表2個(gè)傳聲器，dm是2個(gè)傳聲器的距離，ds是到達(dá)距離差（TDoA乘以聲波速度）。方向角θ為

計(jì)算出每一幀的角度后，還需要對(duì)異常結(jié)果進(jìn)行處理。在筆者提出的特定聲定位系統(tǒng)中，計(jì)算出了聲源的方向角，就可以控制攝像機(jī)轉(zhuǎn)向聲源方向，對(duì)該方向的場(chǎng)景進(jìn)行監(jiān)控。

3 特定聲的檢測(cè)

特定聲是指在特定的應(yīng)用場(chǎng)合中需要特別關(guān)注的聲音。比如在安全監(jiān)控中，槍聲的出現(xiàn)意味著有異常事件的發(fā)生，所以槍聲就是特定聲。

為了檢測(cè)特定聲，對(duì)現(xiàn)場(chǎng)采錄的信號(hào)進(jìn)行特征提取和分析，把當(dāng)前聲音進(jìn)行分類(lèi)。在本系統(tǒng)中，采用如圖5所示的二級(jí)分類(lèi)樹(shù)。

在第一級(jí)分類(lèi)中，以過(guò)零率作為特征，把聲音分為噪聲和非噪聲。在第二級(jí)分類(lèi)中，利用子帶能量等特征把非噪聲分為槍聲和人聲。過(guò)零率和子帶能量等特征的提取過(guò)程都不復(fù)雜，適合在DSP中實(shí)現(xiàn)。

圖5 特定聲檢測(cè)用的分類(lèi)樹(shù)

4 DSP實(shí)時(shí)系統(tǒng)的構(gòu)建和試驗(yàn)結(jié)果

為了驗(yàn)證特定聲定位系統(tǒng)的精度以及特定聲檢測(cè)模塊對(duì)槍聲檢測(cè)的準(zhǔn)確性，構(gòu)建了一個(gè)基于ADI公司的Blackfin 16位定點(diǎn)處理器ADSP-BF561的特定聲定位實(shí)時(shí)系統(tǒng)。

4.1 實(shí)時(shí)定位系統(tǒng)的組成

實(shí)時(shí)定位系統(tǒng)由3個(gè)子系統(tǒng)組成，如圖1所示，聲音采集放大、數(shù)據(jù)處理和輸出結(jié)果的圖形顯示等子系統(tǒng)。

在聲音采集放大子系統(tǒng)中，使用2個(gè)型號(hào)是SMM310的硅微傳聲器，它們的間距是12.75 cm。硅微傳聲器的對(duì)稱(chēng)性比較好，信噪比64.5 dB，靈敏度-42 dB。由于傳聲器信號(hào)的輸出電壓范圍是微伏級(jí)，而后級(jí)的AD轉(zhuǎn)換器輸入的動(dòng)態(tài)范圍是0～1 V，所以設(shè)計(jì)了一個(gè)用運(yùn)放組成的負(fù)反饋放大電路，它的放大倍數(shù)是100倍。

數(shù)據(jù)處理子系統(tǒng)中，采用ADI公司的ADSP-BF561 EZkit Lite，它有AD1836作為AD轉(zhuǎn)換器，采樣頻率可以高達(dá)96 kHz。其DSP處理器是ADI公司的Blackfin系列中的雙核16位定點(diǎn)處理器，2個(gè)獨(dú)立的DSP核，可以工作到750 MHz。系統(tǒng)中，一個(gè)核做輸出結(jié)果的圖形化顯示，另外一個(gè)核做聲音定位和特定聲檢測(cè)計(jì)算。

輸出結(jié)果的圖形化顯示是由東方迪碼公司的SSK-561完成，這是ADSP-BF561 EZkit Lite的接口擴(kuò)展板，板上的TFT顯示器是TopSun公司的TS35ND1501， 24位真彩色，分辨力是240×320。

圖6是筆者設(shè)計(jì)的定位結(jié)果輸出圖形界面，圖中半圓表示聲源定位的有效范圍，本系統(tǒng)只對(duì)傳聲器前方180°范圍的聲源定位。圓上的小球指示了當(dāng)前聲源的大致方向，下面的數(shù)字表示聲源的角度。左下方的圖標(biāo)表示當(dāng)前聲音類(lèi)別是槍聲，右下方圖標(biāo)表示當(dāng)前聲音是人聲。

4.2 誤差計(jì)算方法

本測(cè)試中，為了驗(yàn)證定位系統(tǒng)的估算角度與實(shí)際角度的偏差，測(cè)量了音箱相對(duì)于傳聲器的實(shí)際角度。但是，由于直接測(cè)量音箱到傳聲器陣列的絕對(duì)角度比較困難，筆者測(cè)試的是相對(duì)角度。把傳聲器固定后，音箱先后在2個(gè)不同的方位角播放聲音，系統(tǒng)估算出2個(gè)角度，它們之間的角度差就是相對(duì)角度。最大誤差是指定位系統(tǒng)估算出聲源角度，經(jīng)過(guò)排除孤立的異常結(jié)果后，各幀結(jié)果與均值的最大差值。

4.3 室內(nèi)測(cè)試結(jié)果

在室內(nèi)測(cè)試中，混響場(chǎng)空間參數(shù)為：長(zhǎng)7 m，寬4 m，高2.9 m。測(cè)試場(chǎng)中有很多矮隔板和電腦，混響時(shí)間約為120～180 ms。聲源是漫步者電腦音箱R1900T-Ⅲ，它在不同的方位角上不斷播放槍聲、人聲和其他聲音，調(diào)整音量，使信噪比在10 dB以上。音箱距離傳聲器陣列約4 m。表1是室內(nèi)槍聲的定位結(jié)果。特定聲檢測(cè)模塊對(duì)槍聲的檢出率是89.7%，準(zhǔn)確率是78.2%。

圖6 聲音定位系統(tǒng)的界面

表1 室內(nèi)槍聲定位的誤差均值和方差

4.4 室外測(cè)試結(jié)果

室外測(cè)試中，選擇校園內(nèi)一個(gè)交通路口旁邊一小塊空曠地作為測(cè)試場(chǎng)地，測(cè)試場(chǎng)中有汽車(chē)行駛的噪聲、大功率空調(diào)主機(jī)噪聲、輕軌和火車(chē)行駛噪聲，以及一些自然風(fēng)聲等。調(diào)整音箱的音量大小，使信噪比達(dá)到10 dB。測(cè)試方法和4.2節(jié)一樣，數(shù)據(jù)處理幀長(zhǎng)是1 000個(gè)采樣點(diǎn)。定位結(jié)果見(jiàn)表2。

表2 室外槍聲的定位結(jié)果

從表2看出，在室外的聲音定位中，當(dāng)聲源偏離傳聲器正前方±30°以?xún)?nèi)，定位偏差在5°以?xún)?nèi)。如果聲源偏離角度增大，這個(gè)偏差也會(huì)增大。特定聲檢測(cè)模塊對(duì)槍聲的檢出率是90%，好于室內(nèi)測(cè)試結(jié)果，而準(zhǔn)確率是75%，略差于室內(nèi)的測(cè)試結(jié)果。這是因?yàn)槭彝飧蓴_聲比較大，有時(shí)候會(huì)有很多干擾聲被識(shí)別成槍聲。

5 小結(jié)

筆者提出的結(jié)合基于TDoA的聲音定位和特定聲檢測(cè)的特定聲方向定位系統(tǒng)可以實(shí)時(shí)地進(jìn)行特定聲的檢測(cè)和定位，它的抗干擾能力也較強(qiáng)。當(dāng)它的輸出設(shè)備是TFT顯示器的時(shí)候，可以直觀顯示聲源的方向；如果用本定位系統(tǒng)的輸出角度控制攝像機(jī)云臺(tái)，攝像機(jī)就能夠及時(shí)轉(zhuǎn)向并跟蹤特定聲聲源方向，有效提高視頻監(jiān)控的有效性。在沒(méi)有檢測(cè)到特定聲的時(shí)候，如果該系統(tǒng)關(guān)閉攝像機(jī)，就可以在很大程度上降低視頻監(jiān)控系統(tǒng)的能耗。

：

[1]YITENG H，BENESTY J，ELKO G W.Passive acoustic source localization for video camera steering[C]//Proc.2002 IEEE International Conference on Acoustics， Speech， and Signal.[S.l.]:IEEE Press，2000：909-912.

[2]CLAVEL C，EHRETTE T，RICHARD G.Events detection for an audio-based surveillance system [C]//IEEE Conference on Multimedia and Expo 2005.[S.l.]:IEEE Press，2005:1308-1309.

[3]CHAN Y， RILEY J， PLANT J.A parameter estimation approach to time-delay estimation and signal detection[J].IEEE Transactions on Acoustics， Speech， and Signal Processing， 1980， 28（1）:8-16.

[4]STEPHENNE A，CHAMPAGNE B.Cepstral prefiltering for time delay estimation in reverberant environments[EB/OL].[2009-06-02].http://eprints.kfupm.edu.sa/29439.

[5]BRANDSTEIN，M S.A pitch-based approach to time-delay estimation of reverberant speech[EB/OL].[2009-06-02].http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=625637.

[6]ARGENTRERI S，DANES P.Broadband variations of the MUSIC highresolution method for sound source localization in robotics[EB/OL].[2009-06-02].http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=4399422.

[7]LEON D F A，MARCIANO J J S.Source localization using music in a multipath environment[EB/OL].[2009-06-02].http://d.wanfangdata.com.cn/NSTLHY_NSTL_HY14773667.aspx.

[8]KEYROUZ F，MAIER W，DIEPOLD K.A novel humanoid binaural 3D sound localization and separation algorithm[EB/OL].[2009-06-02].http://d.wanfangdata.com.cn/NSTLHY_NSTL_HY17814078.aspx.

[9]ROMAN N，DELIANG W，BROWN G J.Speech segregation based on sound localization[EB/OL].[2009-06-02].http://www.cse.ohio-state.edu/～dwang/papers/RWB.jasa03.pdf.

[10]FAKHEREDINE K，KLAUS D.An enhanced binaural 3D sound localization algorithm[EB/OL].[2009-06-02].http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=4042325.

[11]KNAPP C，CARTER G.The generalized correlation method for estimation of time delay[J].IEEE Trans.Signal Acoustics， Speech， and Signal Processing， 1976,24（4）:320-327.

[12]VALENZISE G，GEROSA L，TAQLIASACCHI M，et al.Scream and gunshot detection and localization for audio-surveillance systems[EB/OL].[2009-06-02].http://www.citeulike.org/user/tiboeret/article/5095282.

[13]CHENG E， BURNETT I， RITZ C.Using spatial audio cues from speech excitation for meeting speech segmentation[EB/OL].[2009-06-02].http://ieeexplore.ieee.org/iel5/4128765/4129618/04129778.pdf?arnumber=4129778.