姜志鵬,唐加能,梁瑞宇
(1.金陵科技學院電子信息工程學院,南京 211169;2.華僑大學工學院,福建泉州 362021;3.南京工程學院通信工程學院,南京 211167)
聲源定位技術在基于麥克風陣列的語音信號處理中處于核心地位,其不但可以提供位置信息,而且對基于麥克風陣列的語音增強技術具有重要的作用。此外,利用聲源定位技術,還可以改善基本的盲源分離技術在聲音混迭的環境的性能,解決語音信號的重構問題,顯著改善恢復的語音信號的質量。基于麥克風陣列的聲源定位技術已經成為一大研究熱點,對其開展研究具有很強的理論意義和實踐價值[1]。現有的大部分定位系統使用的算法的計算量較大,實時性較差,不能滿足實時性要求高的場合。
基于麥克風陣列的聲源定位技術主要有三類[2]:基于高分辨率譜估計技術[3-4]、基于可控波束形成技術[5-6]以及基于時延估計的定位技術[7-8]。基于高分辨率譜估計技術利用特征值分解將數據的協方差矩陣分解為噪聲子空間和信號子空間,再找出與噪聲子空間正交的方向矢量來獲得聲源的方向估計。該算法主要是針對窄帶信號提出的,當聲源信號為寬帶信號時,需要將其分為多個子帶信號,然后分別用高分辨率譜估計算法進行聲源定位,最后根據得到的結果計算聲源位置。該算法復雜度較大[9-10],很難應用于實時系統。基于可控波束形成的聲源定位對麥克風接收到的信號進行濾波并加權求和來形成波束,進而通過搜索可能的聲源位置來引導該波束,使波束輸出功率最大的點就是聲源的位置。該算法需要全局搜索,運算量很大,很難實時實現[11]。而采用的一些迭代方法雖然減少了運算量,但很難得到有效的全局峰值,并且對搜索初始值十分敏感。基于時延估計的聲源定位方法是一種雙步定位法[12]。該方法首先估計聲源到達不同麥克風的時間差,再根據多個時間差通過幾何關系得到聲源位置。基于時延估計的聲源定位算法運算量小,實時性好,對硬件要求不高。但該類算法不適用于多聲源定位,而且在較強混響和噪聲的環境中,很難獲得精確的時延,從而導致后續的定位產生很大的誤差。盡管如此,由于基于時延估計的定位算法易于應用于實時系統,而且在適當改進后,在一定的噪聲和混響下也能有比較好的定位精度,被廣泛地應用于各種定位系統。
針對目前聲源定位算法的問題,本文提出一種基于變步長標準最小均方差VLMS(Variable Step Size Least Mean Square)算法。該算法利用VLMS算法自適應估計聲源到麥克風的脈沖響應系數,進而估計出各麥克風之間時延,并利用幾何方法定位聲源在3D空間的位置。此外,本文設計了基于Cor?tex-A8嵌入式平臺的聲源定位系統,并進行了相應的硬件選型與調試及算法移植工作。實時實驗顯示,本系統的方案合理有效,能夠較好的實現聲源定位。
當聲源相對于麥克風陣列運動時,時延也相應地變化,廣義互相關法不再適用。為此,有專家提出基于LMS自適應濾波時延估計算法[13-14]。LMS自適應濾波時延估計算法基于LMS自適應噪聲抵消系統,其原理如圖1所示[15]。s(n-τ)相當于語音信號s(n)經過了一個相移濾波器hs(n),hs(n)峰值處的橫坐標對應的就是信號間的時延。采用LMS自適應濾波器來估計時延,就是用一個自適應濾波器逼近hs(n)。通過加入與基本輸入端時間延遲相等的時延,使兩路信號最大程度的相似,最終由收斂的濾波器權矢量求得時延估值。
從圖1中可以看出,聲源信號s(n)經過相移濾波器hs(n)后輸出n1(n),再與環境噪聲n2(n)相加,得到輸入信號x2(n)。第二路是s(n)與n1(n)相加得到輸入信號x1(n)。自適應濾波器在自適應迭代過程中,逐步逼近相移濾波器hs(n)。當自適應濾波器收斂,x2(n)與y(n)的均方誤差最小時,s(n-τ)與其估計s(n-)的相似程度最大。此時自適應濾波器的權失量wopt就是相移濾波器hs(n)的復制。由wopt最大值的橫坐標,可得到時延估計。
圖1 LMS自適應濾波時延估計原理圖
LMS時延估計具體的算法如下:
這里,umax和umin是步長的最大值和最小值,ξ
以四元十字陣為例,陣列分別由麥克風M1、M2、M3和M4組成,陣元間距為L,以陣列中心位置為原點O,建立如圖2所示的所示的直角坐標系。
圖2 四元十字陣結構圖
在理論分析基礎上,本文設計了基于S5PV210的實時聲源定位系統。系統的硬件框圖如圖3所示。
系統采用四麥克風組成四元十字陣來估計聲源位置。考慮到空間采樣定理,本文設定的麥克風間距為15 cm。麥克風采集到模擬聲信號后,送到WM8960音頻編解碼芯片進行編碼。編碼后的數字信號送往S5PV210處理,用定位算法計算出聲源位置。再利用超級終端通過串口與嵌入式系統進行交互,最終結果打印在超級終端上。其中SD卡和USB模塊用于嵌入式系統程序的燒寫和未來系統的升級。
圖3 系統硬件框圖
S2PV210是一個32 bit處理器,采用ARMV7精簡指令集,主頻率高達1GHZ,低功耗并且高效益。內部集成ARM Cortex-A8核心,將ARMV7-A體系架構和外設支持相結合,同時也是第1個以ARMv7架構為基礎的應用處理器。芯片帶有32 bit寬度、64 bit深度,支持5.1版本的IIS協議和128 kbyte音頻播放輸出緩沖器以及硬件音頻混合器。S5PV210具有多種音頻接口,可以便捷的對音頻進行各種復雜的高速運算處理,為用戶提供性能優異的音頻解決方案。
本系統采用的WM8960是一款24 bit低功耗、高質量的立體編碼解碼器。其運行的模擬電源電壓低至2.7V,數字內核運行電壓可低至1.7V,芯片的不同部分可以通過軟件控制實現關閉,這使得能耗進一步降低。其高級的片上數字信號處理能夠實現麥克風輸入的自動電平控制,支持的采樣率有:8,11.025,12,16,22.05,24,32,44.1,48(單位:kHz)。
在仿真實驗中,房間的尺寸為6 m×6 m×3 m,聲源坐標為[4 m,4 m,1 m],兩個麥克風的坐標分別為[1 m,1 m,1 m]、[4 m,1 m,1 m]。用Image法產生房間脈沖響應,在無混響時,設置房間墻壁反射系數為0。將聲源信號與傳遞函數卷積,可得到兩個麥克風的接收信號。由圖4可以看出,兩麥克風間的時延差為59個點。
有混響時,設置虛擬聲源個數為8,房間墻壁反射系數為0.3,圖5為聲源到兩麥克風的傳遞函數。
圖4 無混響時聲源到兩個麥克風的傳遞函數
圖5 有混響時聲源到兩個麥克風的傳遞函數
利用基于VLMS的時延估計算法,并根據式(14)~式(16),對聲源進行空間定位實驗。實驗采用AV16.3數據庫中不同語音片段進行,語音采樣率為16 kHz,四元麥克風方陣中陣元之間距離d=15 cm。實驗語音信噪比為20 dB和0 dB,分別進行30次實驗,其平均定位效果如表1所示。
從表1可以看出,當語音信噪比較高(SNR=20 dB)時,3種算法都取得了較好的定位效果;而當語音信噪比較低(SNR=0 dB)時,VLMS算法定位精度最高,而基于互相關的GCC算法定位精度最低。
表1 空間聲源定位平均效果
測試設備包括:手持擴音器(用來提供聲源)、聲源定位系統(以S5PV210為核心處理器、WM8960為音頻編解碼器、電源及外圍電路組成的電路板)、筆記本電腦(用來運行超級終端以與定位系統交互并觀察結果)、支撐架(把擴音器固定在高處作為聲源)、皮尺等。
測試實驗在室外進行:地點為空曠的操場上,選取一個較為安靜且無風的時間進行測試,主要噪聲為遠處傳來的微弱噪聲。
實驗時,麥克風陣列均安放在地面上,聲源信號為語音信號,麥克風一收到的波形如圖6所示。采樣率16 kHz,采樣位數16 bit,幀長1 024。
測試時,對每個位置的聲源都進行了10次測試,取其平均值作為最終結果。其中聲源距麥克風陣的距離r為聲源到陣列中心的距離(單位:cm),方位角用符號φ表示(單位:°),仰角用符號θ表示(單位:°)。為方便觀察,統計結果均取絕對值,如表2所示。由表可知,方位角受聲源距離和仰角影響較小,與距離和仰角相比,其誤差較小。
表2 聲源定位結果
由表2可知,從實驗結果來看,該系統基本實現了聲源的空間定位功能,但距離、和仰角的精度不夠理想,需要進一步改進。因為在實際的聲源定位系統中,除了定位算法自身的局限性之外,還有很多種因素影響著定位的結果。具體因素包括:(1)硬件因素:考慮到成本,本系統采用駐極體式麥克風,其性價比較高,但性能不如專業級麥克風。另外,系統硬件性能沒有經過專業的測試,可能存在內部噪聲,導致信號失真;(2)環境因素:聲音傳播的速度是不定的,而聲速只能通過測量溫濕度、風速、風向和氣壓等推算得到,本文取聲速為340 m/s,這樣在計算時就產生了誤差。此外,在實際環境中存在不穩定的背景噪聲,有些是人耳不易察覺,而麥克風很敏感的,這些噪聲都會對最終結果造成一定的影響。(3)陣型因素:四元十字陣本身存在一些缺陷。其在估計距離時有較大的誤差;其次,估計仰角時需要聲源仰角較大時才有較高的精度。
在理論研究基礎上,本文設計了實時聲源定位系統,并針對時延估計的問題,提出一種改進的時延估計算法。仿真和實時實驗顯示,該算法能較好的定位聲源。但是,系統只能對單聲源進行定位,無法滿足對多聲源進行定位的要求,后續需要進一步研究多聲源定位的算法。本系統采用的是平面四元十字陣列,相比三維陣列,其定位精度較低,在后續的工作中可以改進麥克風陣列,用三維陣列來替代平面陣列。
[1]崔瑋瑋,曹志剛,魏建強.基于雙麥克風的2維平面定位算法[J].信號處理,2008,24(2):299-302
[2]Flanagan J L,Johnston J D,Zahn R,et al.Computer-Steered Micro?phone Arrays for Sound Transduction in Large Rooms[J].J Acoust Soc Amer,1985,78(5):1508-1518
[3]Shan T J,Wax M,Kailath T.On Spatial Smoothing for Direction-of-Arrival Estimation of Coherent Signals[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1985,33(4):806-811
[4]Haykin S S.Adaptive Filter Theory[M].Pearson Education India,2005.50-57
[5]Carter G C.Variance Bounds for Passively Locating an Acoustic Source with A Symmetric Line Array[J].The Journal of the Acous?tical Society of America,1977,62(4):922-926
[6]Hahn W,Tretter S.Optimum Processing for Delay-Vector Estima?tion in Passive Signal Arrays[J].Information Theory,IEEE Trans?actions on,1973,19(5):608-614
[7]Benesty J.Adaptive Eigenvalue Decomposition Algorithm for Pas?sive Acoustic Source Localization[J].The Journal of the Acousti?cal Society of America,2000.107(1):384-391
[8]Brandstein M S,Adcock J E,Silverman H F.A Closed-Form Loca?tion Estimator for Use with Room Environment Microphone Arrays[J].IEEE Transactions on Speech and Audio Processing,1997,5(1):45-50
[9]Wang H,Kaveh M.Coherent Signal Subspace Processing for the Detection and Estimation of Angles of Arrival of Multiple Wide-Band Sources[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1995,33(4):823-831
[10]Buckley K,Griffiths L.Broad-Band Signal Subspace Spatial Spec?trum Estimation[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1998,36(7):953-964
[11]Dibiase J.A High-Accuracy,Low-Latency Technique for Talker Localization in Reverberant Environments[D].Brown University,USA,May 2000:12-56
[12]魯佳.基于傳聲器陣列的聲源定位研究[D].天津:天津大學,2008
[13]李雪梅,陶然,王越,等.時延估計技術研究[J].雷達科學與技術,2010,8(4):362-367
[14]付學志,劉忠,胡生亮,等.低信噪比下的變步長最小均方自適應算法及其在時延估計中的應用[J].中南大學學報,2012,43(3):1010-1018
[15]陸曉燕.基于麥克風陣列實現聲源定位[D].大連:大連理工大學,2003
[16]Rotaru M,Albu F,Coanda H.A Variable Step Size Modified Decor?related NLMS Algorithm for Adaptive Feedback Cancellation in Hearing Aids[C]//2012 10th International Symposium on Electron?ics and Telecommunications,ISETC 2012.2012.Timisoara,Roma?nia:IEEE Computer Society:1011-1015.
姜志鵬(1978-),男,漢族,江蘇省金壇市人,碩士,現為金陵科技學院講師,主要研究方向為信號與信息處理、無線傳感網絡,jzp@jit.edu.cn。