李德寶 歸達舉 葉懋
摘 要:隨著科技的進步和發展,聲源定位技術已經成為人們研究的重要課題之一。基于聲達時間差(TDOA)是陣列語音信號處理的核心技術,其作用是估算出同一聲源信號到達不同麥克風時,因為傳輸的距離不相同而引起的時間差。麥克風陣列對于室內環境噪聲抑制、聲源定位、跟蹤這些方面都比單個麥克風有優勢,從而優化語音信號采樣質量。該文主要講的是用麥克風陣列和時延估計聲源定位方法對聲源進行定位及跟蹤。
關鍵詞:麥克風陣列 聲源定位 聲達時間差(TDOA)
中圖分類號:TN912.34 文獻標識碼:A 文章編號:1672-3791(2016)05(a)-0003-02
基于麥克風陣列的聲源定位技術的研究在全國的關注度越來越高,基于麥克風陣列的聲源定位技術是指經過麥克風陣列對聲音信號進行采集,從而進行信號處理得到聲源到達陣列的波達方向。目前,在全球所有的電子產品都趨向于高度智能化發展的今天,聲源定位技術依然扮演著語音通信領域中舉足輕重的技術角色。譬如在視頻通話中,利用聲源定位技術操控攝像頭,能夠自動搜尋發言者。在20世紀70年代,就已經有很多高校和研究室在這一通信領域進行研究探索,從此基于麥克風陣列的聲源定位,語音信號處理中的說話人識別,語音合成等語音信號處理成為科技研究的熱點。與單麥克風系統相比之下,麥克風陣列系統在語音信號處理方面具有顯著優勢:多個麥克風組成的麥克風陣列能夠利用互補性能,對背景噪聲進行消除和增強語音信號,從而提高語音識別的效果,同時能在一定范圍內對聲源信號進行實時定位與跟蹤,但是單個麥克風卻沒有能力做到這一點。因此,具有良好的抗噪性、良好的抗混響性能以及簡單的計算量或較快的運算速度是一個優秀的時延估計方法所具備的優點。
1 時延估計算法
基于聲達時間差的麥克風陣列聲源定位的技術主要分為兩個步驟:第一步估算語音信號到達陣列中陣元間的時間差(TDOA),進而通過幾何關系來確定聲源的位置。首先估算時延是該定位技術中的核心內容。聲達時間差聲源定位的定位精度主要取決于對TDOA的估計。而且時延估計的技術不被陣列結構所限制,運算量少,有相對的精度,因此是當前最常用的技術。聲源在受到噪聲,混響較小的情況下,能夠利用簡易的廣義互相關方法(GCC)來估算時延,處理聲源的定位問題。然而當噪聲增大時,混響的變強,簡易的廣義互相關方法和許多常用的加權廣義互相關方法已經完全不能解決估算時延的問題。優化相位互相關方法,銳化了互相關函數的峰值,從中起到了相對的抗混響的作用,增強了估算時延的精度。利用麥克風陣列每一個麥克風接收信號的互補性,采用多信道互相關系數(MCCC)方法來估算任意一對麥克風之間的時延。這種方法能抵抗中度混響和噪音的影響,增強時延估算的性能。然而這種方法在噪音和混響復雜的應用情況中效果不是很完美,并且這種途徑對麥克風間的物理結構關系有較高的限制,倘若每個麥克風之間的結構十分繁雜,該途徑在時延估量方面也可能會被弱化。時延估計的算法有很多,但是由于該系統主要應用在室內場所,其噪聲空間相對平穩以及混響相對較小,故采用TDOA算法中運算量較小的GCC方法來對第一步的時延進行估計分析。其示意如圖1所示。
要估計出時延,余下的環節只是運用數學方法進行簡單的計算。關于二維平面定位,僅須要兩個獨立的時延估計值,相同的,對于三維空間則須要三個獨立的時延估計值,任一個時延估計值對應一個二次、三次方程,求解這些方程組就可以算出聲源的坐標,所以時延估計算法的第二步就是根據第一步計算出來的實驗估計值運用數學方法進行簡單的計算。總之,基于時延估計的聲源定位技術在數學計算量上與其他的定位算法相比具有很好的優勢,在實際應中的運用成本很低。
2 廣義互相關(GCC)時延估計算法
由于同一個聲源的語音信號中存在一定的相關性,因此利用GCC方法計算任意一個麥克風捕捉到的信號之間的相關函數來估算出時延(TDOA)值,這個互相關函數得到的峰值所對應的時間即為兩信號之間的相對時延。但是在真實應用環境下,因為噪聲和混響的干擾下,相關函數得到的最大峰值就會被減弱,甚至可能出現好幾個峰值,由于這種原因將會影響所需峰值檢測難度。經過GCC法計算出這兩個語音信號之間的互功率譜,同時在頻域內進行加權,增強需要信號的相關成分,能夠使相關函數在時延處的峰值更為突出,然后進行逆變換得出時域,進而求出兩信號間所需的互相關函數。
3 算法仿真
假設噪聲與源信號之間互相獨立。SRN1和SRN2分別為接收的信號的信噪比,仿真中采用延時為d=20,采樣點數為1 024,兩路信號的信噪比SRN1取5dB固定不變,SRN2在0~20 dB取值進行1 000此夢特卡洛廣義時延估計仿真,圖2為輸入信號波形;在仿真中,取信噪比為SRN1=5 dB,SRN2=-10 dB,所得到的相位變換廣義互相關(GCC—PHAT)波形如圖3所示。
綜合上述的理論分析以及仿真結果表明,在高斯信噪比的情況下,隨著信噪比降低,Phat權值的峰值仍然銳化效果明顯。因此,利用相位變換廣義互相關法(GCC—PHAT)的兩路信號間時延差比判斷得到最大值得到時延差的精度更高,得到的目標坐標值收斂,穩定,滿足實際需求。
4 結語
聲源定位在噪聲環境下的實現是一個難點,通過上述理論分析和仿真顯示在基于TDOA的聲音定位系統可以準確地定位聲響模塊的位置,相位變換廣義互相關算法(GCC—PHAT)在無混響或者弱混響環境下具有很好的效果和好的實時性,且Phat加權隨信噪比變化的波動性很小,主峰值相比次峰仍較為尖銳,體現出較好地抗噪聲性能。相比于傳統的方法,在保證時延估計準確的前提下,相位變換廣義互相關算法(GCC—PHAT)有效降低了計算復雜度,更適合于時延的實時估計。
參考文獻
[1] 王宏禹,岳天爽.自適應噪聲抵消和時間延遲估計[M].大連:大連理工大學出版社,1999.
[2] 丁玉美,闊永紅,高新波.數字信號處理——時域離散隨機信號處理[M].西安:西安電子科技大學出版社,2002.
[3] 劉松平,MICHAEL G,陳積懋.模態聲發射檢測技術[J].無損檢測,2002,22(1):38-41.