文小軍,吉建華,鐘林波,伍守豪,王艷芬
1.深圳大學 信息工程學院,廣東 深圳 518060
2.深圳市現代通信與信息處理重點實驗室,廣東 深圳 518060
基于時延估計的聲源定位算法實驗研究
文小軍,吉建華,鐘林波,伍守豪,王艷芬
1.深圳大學 信息工程學院,廣東 深圳 518060
2.深圳市現代通信與信息處理重點實驗室,廣東 深圳 518060
麥克風陣列信號處理是陣列信號處理的重要分支,其在聲源定位上的應用是目前陣列信號處理方向的一個研究熱點。目前,基于麥克風陣列的聲源定位算法,按照定位原理主要分為三大類[1]:(1)基于最大輸出功率的可控波束形成技術;(2)基于到達時間差(TDOA)定位技術;(3)基于高分辨率譜估計的定位技術。第一類方法,常基于背景噪聲和聲源信號的先驗知識限制了算法的應用;第三類算法來源于高分辨譜估計技術,其定位性能好,但計算復雜度高,不利于實時實現;第二類算法,計算復雜度較低,硬件實現成本少,因而備受關注[2-4]。目前,針對第二類算法,大部分研究都集中在理論研究與軟件仿真[5-6],針對實測數據的實驗相對較少。仿真研究中,文獻[7]分析了在時延估計時可能出現的估計偏差增加一個擾動時間差進行預估計,未有真實環境的實驗說明,對應用缺少指導,且其主要目的為減少MUSIC算法的搜索復雜度。在實測數據的研究中,對任意信號入射角度常選用相同的誤差判決門限篩選定位結果,如文獻[8]進行了大量實測數據實驗,對不同情況下算法的定位性能進行了對比分析,但對定位結果的篩選均以與參考角度的絕對誤差為10°作為篩選依據,且其陣列長度較大不利于便攜設備的應用;文獻[9]針對近場情況做了大量實驗,對定位結果均以絕對誤差為5°作為篩選依據,且陣列長度同樣較大。
本文在陣列長度較短情況下,對不同入射角度采用不同的角度篩選判決門限,利用真實語音環境中采集的人聲進行聲源定位實驗研究,希望對實際工程應用提供一定參考。
基于到達時間差的定位算法[10],主要由時延估計和聲源定位兩部分組成[11]。第一步通過不同的時延估計方法估計出兩路信號之間的相對時延,其中運用最廣泛的方法是廣義互相關函數法(Generalized Cross-Correlation,GCC)。廣義互相關函數法首先對兩路信號求傅里葉變換(FFT),對其中一路FFT數據取共軛,然后計算兩路信號之間的互功率譜,根據不同的需求選擇不同的加權因子對互功率譜進行加權,使互相關函數在兩路信號之間的時延處峰值更為明顯。將頻域信號轉換到時域,得到廣義互相關函數,找到相關函數的峰值位置,即為信號之間的相對時延。其估計過程如圖1所示。

圖1 GCC算法流程示意圖
第二步,根據第一步計算得到的時延,利用陣元與聲源位置的幾何關系得到聲源的位置[12]。以均勻直線陣列為例,假設聲源距陣列的距離滿足遠場條件,陣元拓撲結構如圖2所示。

圖2 均勻直線陣列結構示意圖(遠場)
由圖2可知,此時的聲源位置可由式(1)計算得到:

其中,τ為相鄰陣元接收信號的時延差,c為聲速,常溫下空氣中取340 m/s,d為陣元間距。
實際應用中,假定估計的峰值位置為第n個采樣點,系統的采樣率為 fs,則估計的時延結果表達式為:

由于噪聲等其他因素的影響,往往不能得到準確的時延點,且一定為整數倍采樣點對應的時延誤差。因此,本文以實際估計時延采樣點數±1點作為定位結果的判斷門限。設陣元間距為5 cm和15 cm,采樣速率均為48 kHz,則對應可能出現的時延點數范圍分別為[-7,7]和[-21,21],此時不同采樣點時延對應的估計角度是僅可能出現的定位結果,如表1、2所示。

表1 d=5 cm時不同時延點數對應的估計角度

表2 d=15 cm時不同時延點數對應的估計角度
根據三角函數的性質,負時延采樣點與對應正時延采樣點的定位角度存在互補關系,因此僅列出正時延采樣點對應時延的結果。由表1、2顯然可知,此時的判決門限不固定,且篩選條件更為合理。
該文選用ADI公司生產的ADSP-BF533開發板作為信號的采集模塊,數據采集的原理如圖3所示。

圖3 數據采集硬件結構示意圖
ADSP-BF533開發板的4個音頻接口連接4個麥克風,外界聲源信息通過內置的音頻編解碼器AD1836編碼轉化為數字信號,通過SPORT口以DMA方式輸送到SDRAM,再由UART口連接PC機的串口發送到PC機,利用Matlab軟件進行實測數據的定位實驗。
聲源定位的實驗環境為一間普通實驗室,墻壁未作任何聲學處理。實驗室內存在各種噪聲,如鍵盤敲擊聲、桌椅移動聲、計算機風扇聲及旁邊公路的汽車發動機噪聲等。本文選用的陣列由4個各向同性的麥克風組成,麥克風均勻分布在一條直線上,陣元間距5 cm,聲源(人)距離參考麥克風3 m。采集信號的時域圖形如圖4所示,選用常用典型的信號入射角度,分別測試不同陣元間距情況下第二類算法的定位性能,利用本文提到的方法,即以距離信號入射角度最近的兩個時延點對應的角度作為定位中可能出現的結果的判決門限,計算20次得到可能結果的集合,進而求得定位結果的均方根誤差如圖5所示。

圖4 采集信號的時域波形

圖5 不同陣元間距對應定位結果的均方根誤差
由圖5可以得出以下結論:(1)在陣元數較少,陣列長度較短情況下,基于時延估計的聲源定位算法在[60°,120°]范圍內具有較高的定位精度,而靠近陣列兩端(接近0°或180°)時,性能較差,符合均勻直線陣的特點[13]。(2)[60°,120°]范圍以外時,定位結果的均方根誤差將驟然上升,表明定位結果出現不穩定現象。(3)隨著陣元間距的增大,陣列的分辨力增強,此時均方根誤差變小且變化速率更平緩。
在陣元間距為15 cm,對應可能出現的定位結果見表2,對比傳統方法與本文所用方法結果如圖6所示。

圖6 與傳統方法對比結果
在圖6中,傳統方法選用固定誤差為 ±5°時:(1)[30°,150°]之間由于此時 ± 5范圍內可能出現的時延點數已多于兩個點,因此所得曲線高于本文方法曲線。(2)在30°和150°時,剛好是兩個時延點,因此與本文所得結果重合。(3)靠近0°或180°時,由于相鄰時延點對應角度差大于±5°,因此傳統方法僅可能得到一個結果,均方根誤差趨近0,但由均勻線陣的特性易知,這顯然是不合理的。(4)傳統方法中,當固定誤差增大為±15°時,各點均方根誤差明顯大于本文方法,靠近0°或180°時,呈下降趨勢,與均勻直線陣列的特點不符。
本文通過硬件采集真實語音數據,結合軟件算法實現聲源定位,通過對信號不同入射角度以±1個對應采樣點誤差范圍作為結果的判決門限,得出了不同陣元間距情況下定位結果的均方根誤差,并以此分析了第二類算法在陣元數少,陣列長度較短情況下的性能。與傳統固定誤差范圍的方法進行對比,驗證了本文方法的合理性。相比單純的理論仿真,本文所用數據為真實語音環境數據,因此得出的結論對實際工程應用具有一定的參考價值。
[1]Potanmitis I,Chen H,Tremoulis G.Tracking of multiple moving speakers with multiple microphone arrays[J].IEEE on Speech and Audio Processing,2004,12(5):520-529.
[2]Knapp C H,Carter G C.The generalized correlation method for estimation of time delay[J].IEEE,Acoust,Speech,Signal Processing,2000,24(8):320-327.
[3]Reed F A,Feintuch P L,Bershad N J.Time delay estimation using the LMS adaptive filter-dynamic behavior[J].IEEE,Acoustics,Speech,Signal Processing,2006,29:561-571.
[4]Youn D H,Ahmed N,Carter G C.On using the LMS algorithm for delay estimation[J].IEEE,Acoustics,Speech,Signal Processing,2006,30:798-801.
[5]Carter G C,Nuttall A H,Cable P G.The Smoothed Coherence Transform(SCOT)[J].Proceedings of IEEE,2005,61:1497-1498.
[6]Cadzow J A,Kim Y S,Shie D C.General direction-ofarrival estimation:a signal subspace approach[J].IEEE,Aerospace and Electronic Systems,1989,25(1):31-46.
[7]崔緯緯.基于麥克風陣列的聲源定位與語音增強方法研究[D].北京:清華大學,2008.
[8]陳穎.基于麥克風陣列的聲源定位算法研究及DSP實現[D].河北秦皇島:燕山大學,2012.
[9]蘇立娟.基于麥克風陣列的聲源定位技術研究與ARM實現[D].河北秦皇島:燕山大學,2011.
[10]Brandstein M S,Silverman H F.A practical methodology for speech source localization with microphone arrays[J]. Computer,Speech,and Language,2004,11(2):951-958.
[11]王宏禹,邱天爽.自適應噪聲抵消和時間延遲估計[M].遼寧大連:大連理工大學出版社,2003.
[12]居太亮.基于麥克風陣列的聲源定位算法研究[D].成都:電子科技大學,2006.
[13]王永良,陳輝,彭應寧,等.空間譜估計理論與算法[M].北京:清華大學出版社,2004.
WEN Xiaojun,JI Jianhua,ZHONG Linbo,WU Shouhao,WANG Yanfen
1.College of Information Engineering,Shenzhen University,Shenzhen,Guangdong 518060,China
2.Shenzhen Key Lab of Advanced Communications and Information Processing,Shenzhen,Guangdong 518060,China
In general,because the microphone array can get more information of the acoustic source,more attention is dedicated on acoustic source location.When the acoustic source near the ends of array,the uniform-linear-array’s resolution is gradually reduced.It is unreasonable that the signal incident angle is different,but the reference range is the same.By analyzing the characteristics of uniform linear array,the time delay is been used to filter the results.The experimental results verify the reasonableness of method.Because the experimental array number is less and the length of array is short, the results also have a certain reference value for the practical application.
microphone array;acoustic source location;delay estimation;uniform linear array;experimental research; ADSP-BF533
麥克風陣列因其相對于單麥克風能夠獲取更多聲源信息,在聲源定位的應用上正日益得到人們的極大關注。均勻線陣中,針對信號入射方向靠近陣列的兩端陣列分辨力將逐漸降低,利用基于時延估計的聲源定位算法時,對不同的信號入射角度以相同的角度誤差作為結果篩選的依據的做法,顯然不合理。通過分析均勻線陣的特點,當信號以不同角度入射時,以時延點數誤差作為不同角度估計結果的篩選門限,并通過實測數據實驗,驗證了方法的合理性。由于實驗使用陣元數少且陣列長度較短,因此實驗結果對陣列信號處理的實際工程應用具有一定的參考價值。
麥克風陣列;聲源定位;時延估計;均勻線陣;實驗研究;ADSP-BF533
A
TN912.3
10.3778/j.issn.1002-8331.1301-0190
WEN Xiaojun,JI Jianhua,ZHONG Linbo,et al.Experimental research of microphone array acoustic source location algorithm based on time delay estimation.Computer Engineering and Applications,2014,50(23):212-214.
深圳市基礎研究項目(No.JC201005280625A)。
文小軍(1988—),男,碩士研究生,主要研究方向:寬帶信號處理;吉建華(1970—),男,博士研究生,教授,主要研究方向:寬帶通信與網絡;鐘林波(1988—),男,碩士研究生,主要研究方向:寬帶信號處理;伍守豪(1973—),男,博士研究生,高級工程師,主要研究方向:寬帶移動通信與陣列信號處理;王艷芬(1989—),男,碩士研究生,主要研究方向:噪聲消除與語音增強。
2013-01-17
2013-03-25
1002-8331(2014)23-0212-03
CNKI網絡優先出版:2013-04-11,http://www.cnki.net/kcms/detail/11.2127.TP.20130411.1555.002.html