閆青麗,陳建峰,郭瑾,常躍躍
?
混響環境中突發聲源定向方法及性能
閆青麗,陳建峰,郭瑾,常躍躍
(西北工業大學航海學院,陜西西安710072)
針對突發性聲源在混響條件下的定向技術進行了研究。基于傳統廣義互相關時延估計的定向方法,通過對互相關函數計算結果進行判別與約束、對數據幀采用滑動方式、對時延估計結果進行能量加權選舉等措施,有效提高了聲源定向結果的穩定性。實驗結果表明,改進的算法在混響條件下能有效地對突發性聲源進行可靠定向,可用于對槍聲、爆炸聲等突發性信號進行精確定向和定位。
聲源定向;時延估計;混響
隨著國家安防、反恐形勢的日益嚴峻,利用聲音和振動進行異常事件監測的技術不斷發展,聲源目標定向技術也得到越來越多的關注,部分成果已經得到應用,如直升機探測、槍聲定向系統等[1-2]。
目前常見的聲源定向方法主要有波束形成法[3]、高分辨率譜估計法[4]、到達時間差(Time Difference of Arrival, TDOA)法[5]等。在上述三種聲源定向方法中,TDOA法運算量最小,具有較好的實時性和較高的估計精度[6],實現成本低較,得到了廣泛應用。
TDOA定向法分為兩個步驟:第一步是時延估計,第二步是基于時延估計的聲源定向。其中,時延估計方法中常用的主要是廣義互相關法(Generalized Cross Correlation, GCC)[7]。該方法根據不同的背景環境,可對輸入信號進行加權處理,銳化了互相關函數的峰值。這種對信號的預白化處理的方法具有較強的抑制噪聲的能力,在無混響和弱混響條件下均有較好的定向性能[7-8]。
TDOA定向法假設聲源為平穩隨機信號,對目標進行時延估計時,若目標靜止,可以通過增加時間積累來抑制噪聲,提高估計性能。若目標運動,可通過對估計結果的二次處理(如濾波)來排除奇異點。這在對飛機、車輛等連續性聲源目標的探測應用中獲得了較好的實踐。可是對于突發性聲源,比如槍聲、爆炸聲等,事先沒有先驗知識、沒有參考歷史數據;在大部分情況下,聲音只發生一次,短暫且唯一;因此在環境比較復雜、反射體較多的情況下,上述傳統的估計方法往往不易獲得準確結果。
本文研究基于廣義互相關的TDOA定向算法對突發性聲源信號在不同條件下的定向性能。通過對不同的參數選擇、實驗數據的分析,給出其性能結果以及其差異產生的原因。針對差異和面臨的問題,提出相應的改進方法,并得到實測數據的驗證。本文的研究結果,可用于對槍聲、爆炸聲等突發性信號在高混響條件下的精確定向和定位。

下面介紹常用的基于廣義互相關算法的時延估計過程。該方法是以基本互相關為理論基礎,通過計算兩信號之間的互功率譜,并在功率譜域內給予一定的加權來對信號和噪聲進行白化處理,增強信號中信噪比較高的頻率成分,抑制噪聲的功率,再反變換到時域得到廣義互相關函數,從而可以在一定程度上銳化互相關函數的峰值,提高時延估計精度。
在實際計算時,我們對采集到的數據分幀處理,設幀長為。
圖2中,FFT和IFFT分別表示傅里葉變換和傅里葉逆變換,( )*表示共軛運算,是頻域加權函數,框圖中的頻域插值是為了提高定向分辨率[10],|?|表示取實部運算。我們采用GCC-PHAT (General Cross Correlation with the Phase Transform)的加權函數[8]

其中
(3)

(5)
混響是指聲音被界面不斷反射而積累的結果。混響會降低聲音的清晰度。對聲源定向技術而言,混響是影響定向精度的重要因素。通常用混響時間描述環境的混響效果,它是指聲源停止發聲后,聲壓級衰減60 dB所經歷的時間[11],單位為s。混響時間越長,混響越嚴重。混響時間與周圍環境反射體的環境參數有如下關系[11]:

若環境為一個封閉的房間,則是房間體積,是房間墻面的總表面積,是房間表面的平均反射系數。可見房間體積越大混響時間越長。考慮混響時,麥克風接收到的信號與聲源信號的關系為
, (7)
在環境比較復雜、反射體較多的情況下,聲源信號與環境混響參雜。由式(7)可以看出,在混響條件下,麥克風將接收到的不同的原始聲源的復本進行疊加,文獻[10]針對平穩連續聲源研究了不同的混響時間對TDOA定向方法的性能影響。仿真結果表明,混響時間越長,定向性能越差。本文重點討論混響對突發聲源定向性能的影響。正如前文所述,該類聲源比較特殊,為非平穩信號,諸多特點造成傳統的定向方法不能滿足應用需要,有必要進行針對性的改進。
針對傳統的TDOA算法中時延估計環節受混響的影響問題,對第1節所述的方法提出以下改進措施。
(1) 滑動使用原始數據,充分展示直達波部分估計結果的可重復性。
對于突發性聲源,其持續時間較短。若各幀沒有重疊,則經常僅有一兩個幀對應著直達波,正確結果極少。為此,對采集到的數據采取分幀滑動處理,即每個幀處理完后,在使用新數據時,仍重復利用本幀的一定比例。這樣做可以充分利用短暫的直達波信號連續獲得多次的正確估計結果,為后處理提供依據。
(2) 利用對互相關函數的判別來抑制混響造成的異常估計結果。
在文獻[12]中顯示,混響條件下的信號獲得的互相關函數呈現不同的特點,有必要根據互相關函數的特征做適當的約束。這樣可以大大減少混響信號出現異常結果的可能性。采用以下約束措施:
④傳統方法一般采用平均功率作為檢測門限。對于突發信號,因聲音短暫而峰值又高,平均功率方式易造成漏報。在使用時采用平均能量和峰值檢測相結合的方法。
(3) 提升直達波對應時延估計結果的權重。
直達波能量比反射波大,針對聲源固定不變的已知條件,可將估計所得的時延結果按照所對應幀的信號能量加權,然后再通過選舉的方式進行后處理,選舉出的結果為本次的估計結果。
由于采用的是數字處理系統,因此每次估計所得結果均為確定的離散值。假設有種時延估計的結果,每種結果出現的次數分別為,每個結果對應的數據幀的信號的最大值組成的數組分別為,定義選舉參數為

通過以上措施,可以有效提升傳統算法對突發信號在混響條件下的性能。
本文的實驗環境是一個8 m×3.3 m×3.5 m的普通實驗室,室內墻壁平均反射系數為0.6,按照式(6)計算的混響時間約為228 ms。兩個麥克風組成陣列,間距為1 m。距離麥克風陣4 m處架設一個揚聲器,播放聲源信號。信號為一個人的擊掌聲,信號寬度大約為52 ms。各個點的位置的測量使用激光測距儀,精度為0.01 m。背景噪聲主要來自日光燈、個人電腦、遠處馬路汽車噪聲,信號采樣頻率為16 kHz,AD采樣精度為24 bit。聲源的真實角度為78.9°。
混響環境下兩個麥克風采集到的信號如圖3所示。可以看到,信號初期能量大,后面逐漸衰減,直達波以后的波形拖尾主要是室內混響造成的。兩路信號波形幅度有差異,這來自于兩路麥克風自身的不一致性和它們與聲源距離的差異。
下面對傳統的算法和改進后的算法的計算結果分別進行分析。
4.1 傳統的算法計算結果及分析
采用傳統的TDOA法對上述信號進行處理。對比不同幀長()條件下的結果如圖4(a)~4(d)所示。同時,統計了參與計算的幀數、可獲得有效結果的幀數(0°~180°范圍內)以及正確結果的幀數,如表1所示。
由圖4及表1可以看到,(1) 對于在混響較強環境中獲得的信號,不同幀長條件下,有效幀數僅占總數據幀數的平均為48.21%,能夠計算出正確結果的幀數又僅占有效幀數的33%~50%,正確結果比例很低;(2) 較大的幀長并沒有顯著提高定向結果的正確率和穩定性。
Fig 4 MATLAB simulation results of the traditional TDOA algorithm (Dash line indicates the right direction)

表1 傳統算法不同幀長結果
4.2 改進算法結果分析
按照第3節給出的改進方法,對同樣的信號進行計算,具體計算參數為:滑動步長32,0.6,0.5。仿真結果如圖5和表2所示。

表2 改進算法不同幀長計算結果
經過對數據結果進行分析,有如下現象:
首先,對比表1和表2可以看出,雖然因滑動造成總幀數顯著增加,但有效幀數并沒有同比例增加。那些因混響而造成的異常結果被互相關函數的判決條件有效地抑制了。這項措施使得正確幀數占有效幀數的比例大幅度增加。
其次,從圖5可以看到,在直達波部分,由于采用了滑動的方法,可以在短暫的直達波信號段連續獲得許多正確的估計方向。充分展示了估計結果的可重復性。
按照第3節的計算流程進行處理,再經加權選舉后,不同幀長的定向結果均為78.9°。表明幀長不同的情況下,均可以很好地獲得準確結果。而若對圖4所示的傳統方法計算結果進行平均處理,則距離正確值偏差很大。
對于幀長,應根據具體的聲源及環境特征合理選擇。若聲源持續時間短、周圍反射強,則應選擇較短的幀長;相反則可選擇稍長的幀長。另外,幀長越長則計算量越大,因此還需要在實際中結合硬件計算能力綜合確定。
本文針對突發性聲源的特點,提出了平滑處理、能量加權選舉、互相關函數判決等改進措施。實驗結果表明,改進后的算法可以有效地抑制混響的影響,使得該算法對幀長不再敏感,提高了定向結果的精度和穩定性,對突發性聲源有很強的適用性。
后期將進一步開展混響條件下的算法統計性能分析、不同信噪比條件下的性能分析,以及各類環境(如風、溫度等)對估計性能影響等方面的研究。
[1] Valenzise G, Gerosa L, Tagliasacchi M, et al. Scream and gunshot detection and localization for audio-surveillance systems[C]// IEEE Conference on Advanced Video and Signal Based Surveillance, 2007: 21-26.
[2] Ali P, Seyed M A. Real time high accuracy 3-D-PHAT-based source localization using a simple 4-microphone arrangement[J]. IEEE Systems Journal, 2012, 6(3): 455-468.
[3] Van veen B D, Buckley K M. Beamforming: A versatile approach to spatial filtering[J]. IEEE Trans. On Audio Speech, and Signal Processing, 1988, 5(2): 4-42.
[4] Pillai S U, Kwon B H. Forward/backward spatial smoothing techniques for coherent signal identification[J]. IEEE Trans. on Audio Speech, and Signal Processing, 1989, 37(1): 8-15.
[5] Chan Y T, HO K C. A simple and efficient estimator for hyperbolic location[J]. IEEE Transaction on Signal Processing, 1994, 42(8): 1905-1915.
[6] Brandnstein M, Ward D. Microphone Arrays: Signal Processing Techniques and Applications[M]. New York: Springer, 2001.
[7] Knapp C. Carter G.. The generalized correlation method for estimation of time delay[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1976, 24(4): 320-327.
[8] 嚴素青, 黃冰. 基于廣義互相關的時延估計算法研究[J]. 信息技術, 2005, 12(9): 26-28.
YAN Suqing, HUANG Bing. Research on time delay estimation algorithm based on generalized cross correlation[J]. Information Technology, 2005, 12(9): 26-28.
[9] 崔瑋瑋, 曹志剛, 魏建強. 聲源定位中的延時估計技術[J]. 數據采集及處理, 2007, 22(1): 90-99.
CUI Weiwei, CAO Zhigang, WEI Jianqiang. Time delay estimation techniques in source location[J]. Journal of Data Acquisition & Processing, 2007, 22(1): 90-99.
[10] Bedard S, Champagne B, Stephenne A. Effects of room reverberation on time-delay estimation performance[C]// Proc. IEEE Int. Conf. Acoust, Speech, Signal Processing, Adelaide, Australia, pp.II: 261-264, April 1994.
[11] 張麗艷, 殷福亮. 一種適用于混響環境的麥克風陣列語音增強方法[J]. 信號處理, 2009, 25(5): 720-723.
ZHANG Liyan, YIN Fuliang. A microphone array speech enhancement method for dereverberation[J]. Signal Processing. 2009, 25(5): 720-723.
[12] 程萍, 陳建峰, 馬馳, 等. 十字陣短時寬帶聲源實時定向算法[J].應用聲學, 2012, 31(2): 123-129.
CHENG Ping, CHEN Jianfeng, MA Chi, et al. A fast short-time broadband acoustic source diretion estimation algorithm using cross array[J]. Applied Acoustics, 2013, 31(2): 123-129.
Impulsive source localization technique and its performance in reverberation environment
YAN Qing-li, CHEN Jian-feng, GUO Jin, CHANG Yue-yue
(School of Marine Science and Technology,Northwestern Polytechnical University, Xi’an 710072,Shaanxi, China)
In this paper the performances of the conventional TDOA acoustic source localization method in reverberant environments are studied when the sound source is an impulsive signal. Based on the Generalized Cross-Correlation and Time Difference of Arrival estimation method (GCC-TDOA), three measures are put into use to enhance the robustness of the original method. The overlapping windowing for data batch processing is first used, and then a series of constraints on the cross-correlation function are defined to exclude the abnormal time-delay estimates. The energy-weighted voting is used as a post processing step to further increase the stability. As a result, the direction estimation performance is significantly improved in reverberation. This algorithm can be used to localize the unstationary signals like gunfire, explosions and so on.
source localization;time delay estimation; reverberation
TN92
A
1000-3630(2015)-06-0479-05
10.16300/j.cnki.1000-3630.2015.06.001
2015-01-02;
2015-04-18
閆青麗(1990-), 女, 河南安陽人, 碩士研究生, 研究方向為信號與信息處理。
閆青麗, E-mail: gongchyy@163.com