孫 昊,仲維燦,劉賀洋,祖麗楠
( 河北工業大學 控制科學與工程學院,天津 300130 )
基于TDOA的聲源定位模型中陣列位姿與定位誤差之間關系的研究
孫 昊,仲維燦,劉賀洋,祖麗楠
( 河北工業大學 控制科學與工程學院,天津 300130 )
基于聲達時間差(TDOA)和正四面體麥克風陣列的聲源定位模型中,影響定位的精度的因素除了陣元安裝的位置誤差、時間延遲和環境噪聲之外,還受到陣列自身位姿的影響,麥克風陣列位姿的不確定,其直接導致聲達時間差的不確定,進而影響定位結果.以全范圍內聲源目標定位為應用背景,利用基于RBF神經網絡聲源定位模型研究麥克風陣列位姿的不確定對聲源定位誤差產生的影響.
聲達時間差;聲源定位模型;陣列位姿;RBF 神經網絡
基于麥克風陣列的語音信號處理技術早已成為研究的熱點,具有廣泛的實際意義和應用前景[1].運用麥克風陣列進行聲源定位是語音信號處理領域的重要內容,麥克風陣列是指由若干個麥克風按照一定的幾何結構排列而形成的陣列,該陣列可以接收空間聲源信號,并對接收到的聲源信號進行空時處理.基于麥克風陣列的聲源定位技術早已在軍事偵察,雷達和機器人聽覺定位等方面得到了廣泛的應用[2].
基于聲達時間差的麥克風陣列聲源定位技術分為兩個步驟進行,首先估計陣列中陣元間聲達時間差(TDOA);然后利用已獲取的 TDOA,結合陣元的空間坐標求出聲源的位置[3].然而,根據麥克風陣列的模型和聲源傳播模型構建的聲源定位模型是一組復雜的非線性方程,一般的方法是通過求解方程組得到時延和聲源坐標的數值關系.但是在解方程組的過程中進行簡化運算,從而約減得到近似的結果.但是當聲源位于近場時,即當陣列中麥克風之間的距離相對于聲源到陣列的距離不能忽略時,此時假設和約減就不能成立了,這樣也減少了聲源定位模型的適用范圍.然而人工神經網絡不僅提供了解決復雜的非線性問題的方法并且可以按照給定的精度逼近復雜的非線性系統[4].因此,可以應用神經網絡表達這種復雜的非線性方程,實驗表明該算法運算速度快、聲源定位精度高、魯棒性好.
本文采用正四面體麥克風陣列,利用基于 RBF 神經網絡聲源定位模型,研究全范圍內(即目標聲源在近場及遠場的環境下)麥克風陣列位姿的不確定對定位的方位角和俯仰角的誤差產生的影響.正四面體陣列具有結構簡單,性能優良的特點,相對于平面陣列此陣列對于二維和三維空間內的目標聲源具有良好的定位性能[5].
假設目標聲源目標 S ,空間坐標為 x,y,z ,陣列由 4 個全向型麥克風組成正四面體結構,其中每個麥克風之間的距離即正四面體的棱長 a=0.24m.圖1 表示正四面體麥克風陣列模型.
聲源 S 在平面上的投影為 S',是 OS'與 x 正方向的夾角,為聲源的方位角是與軸正方向的夾角,為聲源的俯仰角.則4個麥克風在三維空間中坐標分別為 M1(3a/3,0,6 a/12),M2(3 a/6,a/2,6 a/12),M3(3 a/6,a/2,6 a/12),M4(0,0,6 a/4).假設目標聲源 S到原點的距離為r,水平距離為 L.以麥克風 M4為參考點,d10為聲源 S 到麥克風 M1的聲程,d21,d31,d41表示聲源 S 到麥克風 M1與到麥克風 M2, M3,M4的距離差.c表示聲音傳播速度,則有 di1=SMiSM1=c × ti1,ti1表示目標聲源到達麥克風 Mi和 M1的時間差,其中(i=2,3,4).

圖1 正四面體麥克風陣列模型Fig.1 The regular tetrahedronmicrophonearraymodel
2.1 RBF 神經網絡的結構
徑向基RBF(RadialBasisFunction)神經網絡作為一種特殊類型的單隱層前饋神經網絡,它采用局部接受域來執行整函數映射的功能[6].RBF 神經網絡結構簡單、訓練時間短、學習和收斂速度快、具有最佳的逼近性質,目前廣泛應用于模式識別領域,目標預測和工程插值計算[7].
基于 RBF 神經網絡的定位模型中輸入層的 3 個數據是聲源到達麥克風 M1和 Mi的聲達時間差 ti1(i=2,3,4),網絡的輸出是聲源的位置,即方位角,俯仰角和距離.聲源定位模型中采用 RBF 神經網絡,主要利用了 RBF 神經網絡的高度非線性映射的特性,它可以映射出時延值作為網絡的輸入、聲源位置作為網絡輸出兩者之間的關系[10].網絡的隱含層非線性激活函數選用高斯函數,實現輸入層和隱含層之間的非線性變換,輸出層對應為聲源的坐標位置,選擇適當的學習算法進行訓練,獲取相應的網絡參數[11].
2.2 RBF 神經網絡的訓練數據選擇與歸一化處理
圖1 所示的麥克風陣列是正四面體結構,陣元 M1,M2,M3,M4位于以為球心,以 o 為半徑的正四面體外接球的球面上.實驗中,選取神經網絡訓練的輸出數據即聲源的位置位于以 o 為球心,半徑為 4.3m 的球的上半球球面上,聲源在 xoy 平面上投影以 o 為圓心,半徑 0.3m 到 4.3m 間隔為 0.4m 的 10 個同心圓圓周上,在同一個圓周上相鄰兩個聲源投影的間隔為 20,總 180 組位置坐標.取聲速為 340m/s,根據定位模型和聲源位置的幾何關系,計算時間差,得到 1 800 組的輸入及輸出數據作為神經網絡訓練數據.測試數據的選擇:在訓練數據聲源位置取值的上半球內,以半徑 0.3m 到 1.5m 的同心球環內的點為近場聲源位置,1.5 m 到 4.3m 的同心球環內的點為遠場聲源位置;在近場和遠場所屬的四個象限內每個象限分別隨機生成的 25組位置坐標,并計算時間差,近場和遠場分別選取 100 組作為神經網絡的測試數據,用來檢測神經網絡定位模型的性能.
訓練和測試數據采用最大最小法進行歸一化處理.數據的歸一化處理是利用神經網絡進行預測前必須完成的,其目的是為了避免由于數據的維數不同和數量級的差異而引起神經網絡預測產生較大的誤差[12].
3.1 MATLAB 仿真及分析
聲源定位采用基于RBF神經網絡以實現對目標聲源的跟蹤為目的,預測出方位角和俯仰角,確定目標聲源的空間方向從而實現對聲源的跟蹤.為了驗證設計的網絡在遠場和近場對聲源的定向情況,分別選取遠場和近場測試樣本各 100 組數據,用已訓練好的RBF網絡進行預測,實驗結果如圖2、圖3 和圖4 所示.

圖2 遠場聲源測試誤差Fig.2 Far-field sound source testerror

圖3 近場聲源測試誤差Fig.3 Near-field sound source testerror
圖2 為遠場聲源 100 組預測數據的方位角和俯仰角的預測誤差,其中方位角的誤差范圍為 ± 0.6 °之間,俯仰角的誤差范圍為 ± 0.6 °之間.圖3 近場聲源為 100 組預測數據的方位角和俯仰角的預測誤差,其中方位角的誤差范圍為 ± 2°之間,俯仰角的誤差范圍為 ± 2°之間.
分析2:由知,焦點F(1,0)為△ABC的重心,設A、B、C在拋物線y2=4x上的橫坐標分別為x1,x2,x3,則x1+x2+x3=3×1=3.根據拋物線的焦半徑公式,=+(x1+x2+x3)=3+3=6
對比圖2和圖3可知,相比于近場聲源,定位模型對于遠場聲源的定向精度較高,這是由于聲源在近場環境中,陣列中陣元間的時延值之間的差值相對較小,神經網絡的擬合與預測能力也有限.

圖4 遠場聲源定位距離誤差Fig.4 Far-field sound source localization error distance
圖4 為遠場聲源 100 組數據的距離預測誤差,由圖2和圖4可知,即使聲源位于遠場、方位角誤差很小的情況下,RBF神經網絡定位模型對聲源距離的預測誤差也很大.這是因為實驗中,麥克風陣列屬于小型陣列,陣元間的距離僅為 0.24 m,遠小于陣列與聲源之間的距離,因此,基于RBF神經網絡的定位模型無法對聲源距離參數做出準確的預測,故文中只對方位角和俯仰角誤差做出分析.
上述 MATLAB 仿真實驗證明了基于 RBF 神經網絡的聲源定位模型,在輸入相應的時延數據的條件下,無論目標聲源是處于遠場還是近場的環境下,都可以比較精確的預測其方位角和俯仰角,從而,說明了該定位模型的適用性強、定位精度高.
利用基于RBF神經網絡的聲源定位模型研究麥克風陣列位姿的不確定對聲源目標定位精度產生的影響是下一步進行的工作.首先研究聲源在近場情況下,麥克風陣列位姿的不確定對聲源定位的方位角和俯仰角誤差的影響,取聲源與陣列的水平距離 L=0.5m,實驗結果分別如圖5 和 6 所示.

圖5 近場聲源方位角誤差Fig.5 Near-field sound source azimuth error

圖6 近場聲源俯仰角誤差Fig.6 Near-field sound source pitch angle error
為了進一步驗證聲源在近場情況下,研究麥克風陣列位姿的不確定對定位的方位角和俯仰角誤差的影響,取聲源與陣列的水平距離 L=1m,實驗結果分別如圖7和8所示.
由圖8對比圖6可知:當聲源在近場的環境下,陣列位姿的不確定對俯仰角誤差的影響比較大;隨著聲源和陣列之間距離的增大,影響的程度在逐漸的減小.
為了研究聲源在遠場情況下,麥克風陣列位姿的不確定對定位的方位角和俯仰角誤差的影響,取L=2m,實驗結果分別如圖9和 10所示.
由圖9可知:相比較于聲源在近場時,當聲源位于遠場的情況下,方位角誤差也呈現出規律性的變化,但是麥克風陣列位姿的不確定對方位角誤差的影響比較小;當陣列與聲源之間的夾角的為 0°、± 60°、± 120 °、± 180 °時,此時聲源的方位角誤差最小;在方位角一定時,隨著俯仰角的增大,方位角的誤差只是略有增大.

圖7 近場聲源方位角誤差Fig.7 Near-field sound source azimuth error

圖8 近場聲源俯仰角誤差Fig.8 Near-field sound source pitch angle error

圖9 遠場聲源方位角誤差Fig.9 Far-field sound source azimuth error

圖10 遠場聲源俯仰角誤差Fig.10 Far-field sound source pitch angle error
由圖10可知,相比較于聲源在近場時,當聲源位于遠場的情況下,俯仰角一定時,誤差也呈現出規律性的變化,但是麥克風陣列位姿的不確定對俯仰角誤差的影響比較小.
3.2 仿真結果分析
由圖5~圖10可知:在全范圍聲源目標定位中,當聲源位于近場的情況下,麥克風陣列的位姿的不確定對方位角和俯仰角的定位誤差的影響比較大,隨著陣列和聲源的距離的增大,影響的程度而逐漸的減小;當聲源位于遠場時,陣列位姿的不確定對方位角和俯仰角的定位誤差的影響都比較小.
3.3 定位模型的性能評價
為了驗證上述根據理論值仿真所得出陣列位姿的不確定對定位精度產生影響的結論,采用實驗室環境作為實驗數據采集環境,采集聲達時間差,利用實測值進行仿真.實驗室房間大小為8m×6m×3m,數據采集平臺包括:正四面體麥克風陣列、數據采集卡、激光測距儀、卷尺、音箱等,聲源音頻內容為發令槍聲.
測試聲源在 xoy 平面上投影以 o 為圓心,半徑 0.5m和 1.2m 的 2 個同心圓圓周上,在同 1 個圓周上相鄰兩個聲源投影的間隔為 4 °,音箱固定在支架上,聲源相對高度約為 0.07m,2 個同心圓周上聲源的俯仰角分別為 82.3 °和 86.8 °,每個圓周取樣 90 組數據,測試數據共 180 組,激光測距儀的測量精度為 ±1.5mm.數據記錄表格如表1和表2所示.

表1 聲源在半徑為 0.5m 的圓周上時的聲達時間差值Tab.1 Sound sources in a 0.5m radiusof the circum ference of the time difference ofarrival

表2 聲源在半徑為1m的圓周上時的聲達時間差值Tab.2 Sound sources in a 1m radiusof the circum ference of the time differenceof arrival
采用已建立的基于RBF神經網絡的聲源定位模型驗證上文闡述的麥克風陣列位姿的不確定對聲源目標定位精度產生影響的結論,實驗結果分別如圖11 和 12 所示.
由圖11 可知,聲源位于半徑 0.5m 圓周上,俯仰角為 82.3 °時,根據實測數據可得出:陣列位姿的不確定對方位角誤差的影響比較大,誤差范圍為 4°~4°,并且誤差也呈現出規律性的變化;俯仰角誤差范圍 4°~ 2°;對比圖5和圖6中俯仰角為90°時的仿真曲線可以看出利用理論值和實測值仿真所得的結論是相似的.
由圖12可知,聲源位于半徑 1 m 圓周上,俯仰角為 86.8 °時,根據實測數據可得出:此時方位角的誤差范圍為 2°~ 2°,并且誤差也呈現出規律性的變化;俯仰角誤差范圍 1.5 °~0 °;對比圖7 和圖8 中俯仰角為 90 °時的仿真曲線也可以看出利用理論值和實測值仿真所得的結論是相似的.

圖11 聲源位于半徑為 0.5m圓周上的定位誤差Fig.11 Sound sources in 0.5m radiusof the circum ference of the localization error
本文首先設計了一種基于 RBF 神經網絡聲源定位模型,利用 MATLAB 仿真實驗證明了其適應性強和精確度高.然后,利用該模型研究了麥克風陣列位姿的不確定對聲源定位中方位角和俯仰角誤差的影響,最后利用實驗平臺測得數據進行了驗證,從而說明了結論的可靠性.但是由于單次定位的局限性以及神經網絡擬合能力有限,該模型并不能很好地預測聲源的空間距離.因此,如何實現對空間距離的準確預測及陣列位姿的不確定對定距產生的影響是下一步要做的工作.

圖12 聲源位于半徑為1m圓周上的定位誤差Fig.12 Sound sources in 1m radiusof the circum ferenceof the localization error
[1] 金光明,謝植,張傳義.基于麥克風陣列多聲源定位的新方法 [J].東北大學學報:自然科學版,2012,33(6):769-773.
[2] 李曉飛,劉宏.機器人聽覺聲源定位研究綜述 [J].智能系統學報,2012,7(1):9-20.
[3] 王震.基于互功率譜相位時延估計的聲源定位系統研究 [D].天津:天津大學,2010.
[4] 國蓉,何鎮安.基于多級神經網絡的被動聲定位算法研究倡 [J].計算機應用研究,2011,28(6).
[5] 陸灝銘,陳瑋,劉壽寶.基于麥克風陣列的聲源定位系統設計 [J].傳感器與微系統,2012,31(4):79-81.
[6] 彭顯剛,胡松峰,呂大勇.基于 RBF 神經網絡的短期負荷預測方法綜述 [J].電力系統保護與控制,2011,39(17):144-148.
[7] 喬俊飛,韓紅桂.RBF 神經網絡的結構動態優化設計 [J].自動化學報,2010,36(6):865-872.
[8] 張雨濃,李克訥,譚寧.中心-方差及權值直接確定的 RBF 神經網絡分類器 [J].計算技術與自動化,2009,28(3):5-9.
[9] 雷升鍇,劉紅陽,何嘉,等.動態 K-均值聚類算法在 RBF 神經網絡中心選取中的應用 [J].信息系統工程,2011 (6):83-85.
[10]Arslan G,Sakarya F A.A unified neural-network-based speaker localization technique[J].IEEE Transactionson Neural Networks,2000,11(4):997-1002.
[11]Arslan G,Sakarya F A,Evans B L.Speaker localization for far field and near field wideband sources using neural networks[J].Proc IEEE EURASIPWorkshop on Nonlinear Signal and Image Processing,1999,2:569-573.
[12] 楊鵬,邢鈺姣,孫昊,等.基于 BP 神經網絡的正四面體陣列聲源定向研究 [J].傳感器與微系統,2012,31(5):8-9.
[責任編輯 代俊秋]
Research on the relationship between the array pose of sound source localizationmodelbased on TDOA w ith localization error
SUN Hao, ZHONG Wei-can, LIU He-yang, ZU Li-nan
( School of Control Science and Engineering, Hebei University of Technology, Tianjin 300130, China )
The precision of sound source localizationmodel based on the time difference of arrival(TDOA)and tetrahedralm icrophone array is affected notonly by the installation location of the array element error,time delay and ambientnoise,butalso by themicrophonearray pose.Theunpredictability ofarray pose causesdirectly theuncertainty of time difference of arrival,and it influences further the results of localization.Taking the full range of the target sound source localization application as thebackground,the RBF neuralnetworkmodelof the sound source localization were used to research them icrophone array pose uncertainty on the impactof sound source localization error.
time difference of arrival;sound source localizationmodel;array pose;RBF neuralnetwork
1007-2373(2014)05-0008-07
TP242.6
A
10.14081/j.cnki.hgdxb.2014.05.002
2014-04-08
國家自然科學基金(61305101);河北省自然科學基金(F2014202121,F2010000137)
孫昊(1979-),男(漢族),講師,博士.