蔣相斌,白宗龍,孫金瑋,黃博妍
(哈爾濱工業大學,黑龍江 哈爾濱 150001)
聲源定位技術可以應用到很多方面,例如視頻會議、人工智能、語音增強以及降噪等[1-3]。常見的聲源定位方法有到達時間差法(TDOA),波束成形法(BF)以及空間譜估計算法等。基于廣義互相關算法是到達時間差法的一種,具有計算量小等優勢,實際應用廣泛。其中,廣義互相關法是指通過對兩信號的互功率譜密度函數相乘并進行加權后進行傅里葉反變換得到兩信號時延的過程。
基于廣義互相關的聲源定位算法分為兩步:首先,求出兩兩傳聲器的時間延遲;然后,結合傳聲器的空間位置信息確定聲源的位置。本文在強混響條件下結合鏡像源模型對算法進行改進,并進行仿真實驗驗證。實驗結果證明:在低信噪比(SNR)的條件下,改進后的定位準確率有一定的提高。
文章首先介紹了現有的聲源定位模型;并提出了一種利用包含在混響中空間位置信息進行聲源定位的改進方法;通過仿真實驗結果比較,最終結果表明:文中所提出的聲源定位算法提高了強混響低信噪比條件下的聲源定位正確率。
基于廣義互相關的聲源定位包含兩個步驟:時延估計以及位置估計。本節將分別介紹這兩部分。
在自由場環境下,空間位置不同的兩傳聲器接收到聲源x1(t)的數學模型如[4]
x1(t)=a1s(t-τ)+n1(t)
(1)
x1(t)=a2s(t-τ-τ0)+n2(t)
(2)
式中:x1(t),x2(t)分別為1號傳聲器2號傳聲器接收到的信號;n1(t),n2(t)分別為聲源傳播到兩傳聲器過程中的噪聲;a1,a2分別為聲源傳播到兩傳聲器過程中的衰減,并且有0 如圖1所示,本文中假設環境為室內,有較強的混響,傳聲器數量為4個,聲源為平穩寬帶聲源,則式(1)和(2)所使用的數學模型過于簡單而不能準確描述聲源傳播路徑。所以引入鏡像源模型描述強混響條件下傳聲器接收到的信號模型。該模型假設存在關于各個反射面相對稱的鏡像源,多個鏡像源產生一系列的沖擊響應,以此模擬混響的形成過程。此模型規定傳聲器接收到的信號由直達聲、混響以及噪聲組成,數學模型如式(3)、式(4)所示。 x1(t)=h1?s(t)+n1(t) (3) x2(t)=h2?s(t)+n2(t) (4) 式中:h1,h2為混響過程的沖擊響應;?卷積運算。 基于廣義互相關的聲源定位算法的關鍵問題在于計算兩兩傳聲器之間的時間差。本文介紹廣義互相關的時延獲取以及其改進方法。文中使用的物理模型假設為平穩的,因此適用于變化緩慢的環境,即信號以及噪聲的參數在整個測量階段保持平穩。 圖1 室內強混響條件下聲源定位 基于廣義互相關的聲源定位算法通過互相關函數計算兩傳聲器之間的時間差,互相關函數的定義如式(5)。 Rx1x2(τ)=(τ)E[x1(t)x2(t-τ)] (5) 式中:E[·]為求數學期望。 將式(5)最大化,峰值位置對應的x1(t)值就是兩傳聲器的時間差。在高信噪比(SNR)的情況下,由式(5)會得到明顯的峰值,但是存在混響以及噪聲以至于SNR較低時,會出現多個峰值甚至無法確定明顯的峰值,導致時延x1(t)的估計出現嚴重的偏差,最終導致聲源定位算法的失效。為了解決存在噪聲以及混響情況下互相關函數求時延失效的問題,引入了廣義互相關方法。本文在節中也提出了一種提高時延估計準確率的方法。 通過傅里葉變換可以將x1(t)和x2(t)的互相關函數與互功率譜密度函數聯系起來,如式(6)所示 (6) 式中:Gx1x2(ω)為互動率譜密度函數,定義如式(7)。 (7) 式中:(·)*為復共軛;X1(ω),X2(ω)分別為信號x1(t)和x2(t)的傅里葉變換。 為了降低噪聲以及混響的影響,利用濾波器fi(t)對xi(t)進行濾波,濾波后的信號表示為y1(t),其中i=1,2。所以,y1(t)和y2(t)的互動率譜密度函數Gy1y2(ω)表示如式(8)。 (8) 圖2 廣義互相關流程 表1列舉了應用最為廣泛的四種加權方法,分別為互相關、ROTH,SCOT以及PHAT加權。圖2顯示了廣義互相關方法的計算流程,其中,Ψ12(ω)表示在表1中選取的加權函數。 表1 常用的廣義互相關加權函數 接下來,介紹基于廣義互相關的聲源定位算法第二部分。為了方便起見,考慮二維平面的情況本文算法可推廣到三維空間之中。 式(9)表示信號源與傳聲器之間的關系,其中信號源位于S=(x0,y0),三個傳聲器位于A=(x1,y1),B=(x2,y2)以及C=(x3,y3)。 (9) 其中, (10) 式中:τ21和τ31分別為傳聲器B到傳聲器A的時延以及傳聲器C到傳聲器A的時延;c為聲速。 式(9)通過牛頓法進行求解為 (11) (12) (13) 由公式(11)可以看出聲源位置估計是由時延決定的,所以時延估計的準確度直接影響最終聲源位置估計的正確率。在第3節中給出了強混響條件下的利用鏡像源信息提高時延估計準確度的方法。 在立方體室內空間中,接收到的聲音信號存在比較強的混響。利用鏡像源模型得到立方體室內沖擊響應如式所示[6] (14) 式中:tlength為沖擊響應的長度;p(t)ijk為來自ijk鏡像源的聲壓信號;Nx,Ny和Nz分別為鏡像源的數目。 如圖3所示,如果只考慮距離聲源比較近的反射面,式(3)和(4)可以簡化為 圖3 單個鏡像源傳播模型 (15) x2(t)=a21s(t-τ21)+a22s(t-δ2-τ21)+n2(t) (16) 式中:δ1和δ2分別為鏡像源S′傳播到1號傳聲器的時延以及傳播到2號傳聲器的時延。由于反射面吸收以及傳播衰減的因素,衰減系數a11,a12,a21,a22滿足關系a11>a12,a21>a22。 由圖3中幾何關系,實際聲源與鏡像源相對于麥克風滿足式(17)和式(18)的關系 S′A-SA=cδ1 (17) S′B-SB=cδ2 (18) 將互相關函數寫為 Rx1x2(τ)=E[x1(t-τ)x2(t)] (19) 將式(17)和(18)帶入公式(19),得到 Rx1x2(τ)=E[a11a21s(t-τ)s(t-τ21)+a11a21s(t-τ)s(t-δ2-τ21)+a12a21s(t-τ-δ1)s(t-τ21)+a12a22s(t-τ-δ1)s(t-δ2-τ21)] (20) 提出衰減系數項,則 Rx1x2(τ)=a11a21E[s(t-τ)s(t-τ21)]+a11a22E[s(t-τ)s(t-δ2-τ21)]+a12a21E[s(t-τ-δ1)s(t-τ21)]+a12a22E[s(t-τ-δ1)s(t-δ2-τ21)] (21) 由互相關函數定義可知,式(21)可以改寫為 Rx1x2(τ21)=a11a21Rss(τ21)+a11a22Rss(τ21+δ2)+a12a21Rss(τ21-δ1)+a12a22Rss(τ21+δ2-δ1) (22) 式中:Rss(·)為聲源信號自相關函數。 在僅考慮距離聲源最近的反射面以及單次反射的情況下,由式(22)可知兩傳聲器接收到信號的互相關函數具有四個峰值,且由a11a21>a11a22,a11a21>a12a21,可以確定四個峰值之間的相對位置關系。最大峰值位置與其余四個峰值位置關系為 (τ21+δ2)+(τ21-δ1)-(τ21+δ2-δ1)=τ21 (23) 式(23)顯示了峰值之間位置關系,利用該關系可以判定由互相關函數確定的時延是否正確,以避免錯誤的時延導致錯誤的聲源定位結果。最終,提高聲源定位的準確率,其中,準確率的定義為 (24) 式中:Ncorrect為估計正確的實驗次數;Ntotal為實驗的總次數。 在本節中,給出傳統GCC(Generalized Cross Crorrelation廣義互相關,這種算法可用于聲源定位),GCC_ROTH,GCC_SCOT以及GCC_PHAT的隨SNR變化的時延估計準確率比較結果。然后利用式(23)分別對四種方法進行改進,并給出改進后的方法與為改進方法的比較結果。 圖4顯示了四種方法隨SNR(信噪比)變化的時延估計準確率的比較結果。其中進行了1000次實驗,快拍數為1024,信號頻率為500 Hz。通過圖4可知,隨SNR降低,四種算法的時延估計準確度都會降低,這種情況在SNR=-4 dB之后十分明顯。 圖4 基于廣義互相關時延估計準確度隨SNR的變化 為了改善在強混響低SNR下的時延估計準確度,利用式(23)對以上四種算法進行改進。圖5~8分別顯示了改進后的方法與原始方法時延估計準確度的比較結果。每次比較進行了20次蒙特卡洛實驗,每次試驗進行1000次時延估計,每次時延估計的快拍數為1024,聲源的頻率為500 Hz,且仿真在SNR=-10 dB情況下進行。 圖5 GCC與改進后GCC時延估計準確度的比較 圖6 GCC_PHAT與改進后GCC_PHAT時延估計準確度的比較 圖7 GCC_ROTH與改進后GCC_ROTH時延估計準確度的比較 圖8 GCC_SCOT與改進后GCC_SCOT時延估計準確度的比較 由圖5~8可知,再加入式(23)的限制條件之后,各個方法的時延估計準確度在強混響低SNR的情況下都有一定程度的改善。因此提高了聲源定位的準確度,避免因時延估計錯誤導致聲源定位的錯誤結果。 通過介紹基于廣義互相關的聲源定位算法的基礎上,針對該算法在強混響低信噪比的情況下時延估計準確度較低的問題,利用鏡像源模型提出了一種提高時延估計準確度的方法。同過仿真實驗結果的分析可知,本方法利用混響中的位置信息增強抵抗噪聲干擾的能力,進而提高實時延估計的準確度。混響區別于一般噪聲,原因是其含有聲源的空間位置信息,如何利用混響中的聲源位置信息進一步提高聲源定位的準確度以及進行三維空間內的鏡像源模型分析是我們下一步的主要研究內容。





2 提高時延估計準確度的方法

3 仿真實驗





4 結論