李曉飛,劉宏,2
(1.北京大學深圳研究生院集成微系統科學工程與應用重點實驗室,廣東深圳 518055;2.北京大學機器感知與智能教育部重點實驗室,北京 100871)
機器人聽覺聲源定位研究綜述
李曉飛1,劉宏1,2
(1.北京大學深圳研究生院集成微系統科學工程與應用重點實驗室,廣東深圳 518055;2.北京大學機器感知與智能教育部重點實驗室,北京 100871)
聲源定位技術定位出外界聲源相對于機器人的方向和位置,機器人聽覺聲源定位系統可以極大地提高機器人與外界交互的能力.總結和分析面向機器人聽覺的聲源定位技術對智能機器人技術的發展有著重要的意義.首先總結了面向機器人聽覺的聲源定位系統的特點,綜述了機器人聽覺聲源定位的關鍵技術,包括到達時間差、可控波束形成、高分辨率譜估計、雙耳聽覺、主動聽覺和視聽融合技術.其次對麥克風陣列模型進行了分類,比較了基于三維麥克風陣列、二維麥克風陣列和雙耳的7個典型系統的性能.最后總結了機器人聽覺聲源定位系統的應用,并分析了存在的問題和未來的發展趨勢.
機器人;機器人聽覺;聲源定位;麥克風陣列
機器人聽覺系統是一種自然、方便、有效、智能的機器人與外界系統交互的方式.由于聲音信號的衍射性能,聽覺具有全向性,相較于視覺、激光等其他的傳感信號聽覺不需要直線視野,在有視野遮蔽障礙物的情況下依然可以有效地工作.一般來講機器人聽覺包括聲源信號的定位與分離、自動語音識別、說話人識別等.機器人聽覺聲源定位是指機器人利用搭載在機器人上或者外部設備上的麥克風陣列定位出聲源的相對位置.隨著信息技術、電子科學技術、計算機科學技術和智能科學的迅速發展,自20世紀90年代中期始,人們對機器人聽覺聲源定位技術進行了深入而廣泛的研究,并取得了重要的進展.
聲源的位置信息包括軸向角、仰角和距離,其中軸向角可以確定聲源的二維方向,軸向角和仰角可以確定聲源的三維方向,軸向角、仰角和距離可以確定聲源的三維位置.在噪聲環境下,利用少量的麥克風實時地定位聲源的三維位置是一個實用的機器人聽覺聲源定位系統的目標.雖然機器人聽覺聲源定位技術的研究取得了很多成果,但是該技術的實際應用還面臨很多問題.
相較于一般的聲源定位系統,機器人聽覺聲源定位具有以下特點:
1)麥克風陣列易搭載:搭載在機器人平臺上的麥克風陣列應該盡量小,麥克風陣列的小型化可以通過減少麥克風的數量和優化陣列拓撲來實現.
2)機器人運動:搭載在機器人平臺上的麥克風陣列的運動改變了聽覺場景,給聲源定位帶來了困難.但另一方面可以通過麥克風陣列的主動運動,豐富麥克風陣列的拓撲,提高定位能力.
3)聲源移動:在大多數機器人聽覺聲源定位系統應用中,聲源是移動的,需要進行移動聲源的定位與跟蹤.
4)實時性高:機器人的運動和聲源的移動造成機器人和聲源相對位置的即時變化,要求定位具有較高的實時性.機器人與外界交互的實時性是機器人友好性和安全性的保障,是評價交互性能的重要指標,因此聲源定位系統的實時性是極其必要的.
5)抗混響和噪聲:機器人工作在真實環境中,信號混響和噪聲是難以避免的,因此聲源定位系統的抗混響和抗噪聲能力在很大程度上影響定位性能.
1995年Irie第1次將聲源定位技術用于智能機器人[1],利用短時時域、頻域特征和神經網絡技術區分攝像頭視角內的左中右3個聲源方向.其后,基于麥克風陣列的到達時間差技術(time delay of arrival,TDOA)、基于最大輸出功率的可控波束形成技術(steered beamforming,BS)、高分辨率譜估計技術(high resolution spectral estimation)、雙耳聽覺(binaural)、機器學習(machine learning)、主動聽覺技術(active audition)、視聽融合(audio-visual)等方法被用于機器人聽覺聲源定位.
基于TDOA的定位技術是一種2步定位方法,首先估計出聲源信號到達各個麥克風之間的時間延遲,然后利用幾何定位方法求出聲源位置.
穩健的時間延遲估計是精確聲源定位的基礎,常用的時延估計算法包括廣義互相關(generalized cross correlation,GCC)[2]、互功率譜相位法(crosspower spectrum phase,CSP)[3]、特征值分解[4]、聲學傳遞函數比[5]等.獲取TDOA以后,乘以聲速便可以得到距離差,這樣就可以通過聲源與麥克風的幾何關系得到聲源位置.主要的幾何定位方法包括最大似然估計(maximum likelihood estimator)[6]和最小均方估計(least square estimator)[7-8].TDOA 方法計算量小,可實時實現,但雙步估計帶來累積誤差,是一種次最優估計,為了取得較高的分辨率,對信號采樣率要求較高,適用于單聲源定位.
1997年Huang等利用3個麥克風組成平面三角陣列定位聲源的全向軸向角[9].根據聲音的優先效應,通過無回響起點檢測算法(echo-free onset detection)檢測出無回響的聲音段,利用過零點(zerocrossing point)檢測時延,然后根據幾何關系定位聲源軸向角.2002年他們利用如圖1所示的三維麥克風陣列進行聲源軸向角和仰角的定位[10],互相關函數和互功率譜相位差分別被用于時延估計.識別階段,6 個時間差組成時間差序列:Δtm=(Δt12,Δt13,Δt14,Δt23,Δt24,Δt34),時間差序列誤差為e(θ,φ)=‖Δt(θ,φ) - Δtm‖,其中 Δt(θ,φ)為理論時間差,軸向角 θ和仰角 φ 取使e(θ,φ)最小化的值.2007年文獻[11]對于多個聲源,利用6個互相關函數的幾何平均:

表示一個聲源位置存在聲源的概率,概率越大則存在聲源的可能性越大.

圖1 4通道陣列Fig.1 4-ch array
2002年Sekmen等提出一種自然的人機交互方式,把人作為一個被動的用戶,不用通過鍵盤、鼠標等人工的方式與機器人進行交互[12].機器人只是人的運動的一個直接物理再現,利用聲源定位和紅外運動跟蹤,為人臉跟蹤系統提供候選區域和機器人的注意力.2個麥克風擺放在一個開放的空間,頭部傳輸函數不用考慮.假設聲源位于仿人機器人的前方,利用互相關法估計時延,通過遠場近似幾何方法便可定位遠場聲源.
2003年Valind等放置8個麥克風在長方體支架的頂點[13],如圖2所示.該麥克風陣列搭載在Pi-oneer 2機器人上,用來進行聲源軸向角和仰角定位.利用譜加權GCC-PHAT方法提取時間差,給信噪比大的頻帶賦予更大的權值可以有效地抑制窄帶噪聲的影響.然后利用遠場幾何定位方法定位聲源的軸向角和仰角.

圖2 8通道立方體陣列Fig.2 8-ch cube array
2007年Rudzyn利用與圖1相似的麥克風陣列定位聲源三維位置[14],包括距離、軸向角和仰角.利用加權互相關函數(weighted cross correlation,WCC)估計時延:fwcc=fgcc/(famdf+ δ),其中famdf為平均幅度差函數(average magnitude difference function),用于增強GCC的性能.同樣使用近場幾何定位方法來定位三維聲源.
2008年Kwak等利用平面正三角形陣列定位聲源[15].語音信號的聲門激勵信息被用于時延估計,首先求出語音信號線性預測殘差表示聲門激勵信號,然后線性預測殘差的希爾伯特包絡(Hilbert envelop)信號被用于基于GCC-PHAT的聲源估計,再通過一種可靠的幾何定位方法定位出聲源軸向角.該系統成本低廉、實時性好,可用于家庭服務機器人.
2009年Hu等利用基于特征結構(eigen structure)的GCC方法估計多個聲源的時延[16].多聲源情況下麥克風接受信號的頻域表示為

式中:D為聲源個數.接收信號互相關矩陣的特征分解為

式中:λ為特征值,V為特征向量.與前個最大特征值對應的向量表示聲源向量,利用聲源向量的GCC方法進行時延估計.文獻[17]利用聲速的限制求出聲源個數,定位階段,利用最小均方估計求解超定線性方程組定位多個聲源,近場情況下求解聲源三維直角系坐標,遠場情況下求解聲源軸向角.圖3為該系統搭載在移動機器人平臺上的8通道麥克風陣列.

圖3 8通道麥克風陣列Fig.3 8-ch microphone array
2010年Lee等利用遠場情況下聲源角度和到達時延的幾何關系建立了 angle-TDOA 圖[18].融合該圖和互相關函數得到Cross-Angle-Correlation函數R(θ),該函數在聲源方向取較大的值.對于多個聲源,競爭 K-means 算法被用于基于 Cross-Angle-Correlation函數的聲源角度聚類,該系統利用正三角形麥克風陣列定位聲源軸向角.
該方法對麥克風接受到的聲源信號濾波并加權求和形成波束,按照某種搜索策略全局搜索可能的聲源位置來引導波束,波束輸出功率最大的位置即為聲源位置[19-20].延遲和波束形成算法(delay-andsum beamforming,DSB)[21]通過對麥克風接受信號采用時間移位以補償聲源到達各麥克風的傳播延遲,并通過相加求平均來形成波束.濾波和波束形成算法(filter-and-sum beamforming,FSB)[22]在時間移位的同時進行濾波,然后相加求平均形成波束.
可控波束形成算法的定位性能取決于麥克風陣列方向圖的主瓣和旁瓣的分布.主瓣能量越大,寬度越窄,則形成波束的分辨率越高.通常該算法要求大量的麥克風以取得較好的方向圖.該算法本質上是一種最大似然估計,需要聲源和噪聲的先驗信息,但通常這些信息在實際應用中不易獲得.最大似然估計是一種非線性優化問題,傳統搜索算法容易陷入局部最小點,而遍歷式的搜索方法的運算量極大[23].
1999年Matsui等研制出一種辦公室接待機器人 Jijo-2,它可在辦公室環境下引導客人參觀[24].該機器人視覺聲源定位系統基于波束形成算法,利用平均分布于半圓弧的平面8通道麥克風陣列定位聲源的軸向角.
2004年Valin等利用DSB定位多聲源位置,預求出所有對的麥克風信號頻域的互相關[25]:

每個波束輸出功率可以通過N(N-1)/2個互相關累積和求得.譜加權在互相關求解中給信噪比大的頻帶賦予更大的權值,有效地抑制了窄帶噪聲的影響.另外為了避免聲源的錯誤檢測,一個基于聲源存在概率的后處理算法被提出.2009年 Badali和Valin等利用如圖2所示的麥克風陣列測試了可控響應功率(steered response power)和其他算法的性能[26].運用譜加權用于抑制噪聲,方向優化算法是在DSB算法定位的結果臨近范圍內應用高分辨率方法,從而更精確地定位聲源.上述2篇文獻的麥克風陣列如圖2所示,圖4顯示了2種球形搜索網格.文獻[26]的實驗結果顯示三角網格聲源搜索策略相較于矩形網格更有效,三角網格共2 562個搜索點,每個搜索區域覆蓋2.5°.

圖4 球形搜索網格Fig.4 Spherical search grids
2004年Tamai等利用搭載在Nomad機器人上的平面圓形32通道麥克風陣列定位1~4個聲源的水平方向和垂直方向[27].由于麥克風數量較多,DSB算法可以很好地抑制環境噪聲和機器人機體噪聲.文獻[28]提出了一種3個圓形陣列組成的32通道陣列,相較于一個圓形陣列具有更好的波束方向圖分布.以上2種陣列如圖5所示.

圖5 32通道二維麥克風陣列Fig.5 32-ch 2-D microphone array
2005年Nakadai等利用64通道分布式麥克風陣列在電視等噪聲環境中檢測真實語音信號[29],并定位聲源的平面二維位置.圖6為麥克風陣列,麥克風分布在1.2 m高度的墻壁和高度為0.7 m的桌面上.加權DBS用于求解每個可能方向的方向性模式(directivity pattern),方向性模式用于檢測麥克風接收信號是否為真實的語音信號,并定位聲源.2006年他們在文獻[30]中基于MUSIC方法利用搭載在ASIMO機器人頭部的8通道麥克風陣列定位多聲源,并利用粒子濾波(particle filter)方法融合房間麥克風陣列和機器人麥克風陣列的定位結果,跟蹤多個聲源.

圖6 分布式麥克風陣列Fig.6 Distributed microphone array
2006年Sasaki等利用32通道3同心圓陣列通過機器人的運動定位多聲源的二維位置[31].首先利用基本DSB算法減弱噪聲,然后通過頻帶選擇算法(frequency band selection)消除剩余噪聲并定位出多聲源的水平方向,最后根據運動的機器人可以在不同的位置檢測同一個聲源的方向,通過三角定位方法和RANSAC算法(random sample consensus)定位出聲源的精確位置.2007年他們通過主瓣消除算法(main-lobe canceling)從DSB算法得出的空間譜中逐個檢測聲源的位置[32].每次檢測出當前具有最大能量的方向作為當前聲源的方向,然后減除該方向的主瓣繼續檢測下一個聲源.主瓣消除算法需要陣列方向圖具有較小的旁瓣.圖7顯示了同心圓陣列和八邊形32通道麥克風陣列,八邊形陣列在700~2 500 Hz的頻率范圍內旁瓣能量較小.Kagami等利用文獻[32]中的聲源方向定位和粒子濾波方法,通過機器人的運動定位靜止聲源的精確位置[33].2010年Sasaki等綜合上述的聲源定位功能,并進行短時聲音信號識別以標定聲源[34],通過跟蹤多個聲源,畫出聲源圖并定位機器人的位置.

圖7 同心圓陣列和八邊形陣列Fig.7 Concentric array and octagonal array
該方法來源于現代高分辨率譜估計技術,如自回歸模型(autoregressive)[35]、多重信號分類(multiple signal classification,MUSIC)[36]等方法,利用特征值分解(eigenvalue decomposition)將麥克風信號的協方差矩陣分解為信號子空間和噪聲子空間,然后找出與噪聲子空間正交的方向矢量來進行聲源的方向估計.
基于高分辨率譜估計的定位方法是一種超分辨率的估計技術,其空間分辨率不會受到信號采樣頻率的限制,并且在一定條件下可以達到任意定位精度[37].然而,該類方法也存在一定的不足,主要表現在:1)易受空間相關噪聲的干擾,當方向性噪聲的能量與聲源信號能量相當時,該算法容易定位到噪聲方向;2)房間的反射作用使信號和干擾之間有一定的相關性,從而降低了該方法的有效性;3)需要對整個空間進行搜索來確定聲源的位置,且其估計精度與空間的細分程度有關,計算復雜度偏高.
1999年Asano等利用搭載在辦公室機器人Jijo-2上的平均分布于半圓弧的平面8通道麥克風陣列定位多個聲源的軸向角[38].擴展的MUSIC算法被用于近場定位,近場方向向量為

式中:r和θ分別為聲源的水平距離和軸向角.
大多數機器人聽覺聲源定位系統接收的聲源信號是寬帶信號,原始的MUSIC算法只能定位窄帶信號.2007年Argentieri等給出MUSIC算法的寬帶聲源擴展[39],近場 MUSIC空間譜為


式中:b為信號頻點數,B為頻帶寬度.實驗證明該寬帶擴展方法性能很好,但計算量太大.波束空間算法利用頻率和范圍不變的波束形成聚焦頻點,生成一個對所有興趣頻點有效的空間譜.
2009年Nakamura等利用廣義特征值分解抑制空間相關噪聲的影響[40],在靜音段估計出噪聲的空間互相關矩陣,對帶噪聲源信號的互相關矩陣和噪聲的互相關矩陣進行廣義特征值分解,生成一個完全抑制噪聲的空間譜.2011年他們聯合視覺跟蹤算法,利用粒子濾波進行說話人的跟蹤[41].
2009年Ishi測試了MUSIC方法在辦公室環境和室外環境下定位軸向角的性能[42].辦公室環境存在空調噪聲和機器人機體噪聲,室外環境存在背景音樂噪聲.他們分別測試了信號分幀長度對方向估計性能和實時性的影響,寬帶MUSIC頻帶寬度和聲源個數對方向估計的影響.另外還提出了一種確定聲源個數的方法,對每個頻率采用固定聲源數,并設置寬帶MUSIC的聲源個數上限,實驗證明這種方法與已知聲源個數情況下的定位性能差不多.圖8顯示了該機器人平臺和14通道的稀疏麥克風陣列.

圖8 稀疏麥克風陣列Fig.8 Sparse microphone array
人可以通過雙耳定位3-D空間聲源方向,雙耳時間差(interaural time difference,ITD)和雙耳強度差(interaural intensity difference,IID)用于定位聲源軸向角,由耳廓衍射和散射效應帶來的聲譜特性(spectral cue)用于定位聲源仰角[43].聲音信號從聲源位置傳播至人耳鼓膜處的傳輸函數被稱為頭部相關 傳 遞 函 數 (head-related transfer functions,HRTFs)[44],影響 HRTFs的因素有耳廓、頭部、耳道、肩膀和軀體等.基于雙耳的聲源定位方法對于仿人機器人是一種自然、有效的方式,利用人工頭和人工耳廓可以有效地模仿人的聽覺定位能力[45].
Nakadai等基于仿人機器人SIG的雙耳聽覺定位聲源軸向角[46-48].由立體視覺擴展的聽覺 Epipolar幾何可以數學化地估計出特定聲源方向的IPD:Δφe=2πfr(θ+sin θ)/v,其中f、r、θ和v分別為信號頻率、頭部半徑、聲源角度和聲速,一般f小于1 500 Hz.可能聲源方向和實測信號的IPD之差最小的為聲源方向.Epipolar幾何很難確定出精確的IID,只能通過頻率大于1 500 Hz的頻帶確定出聲源的大概方向.利用物理學中的散射理論(scattering theory)也可以數學化地估計 IPD Δφs(θ,f)和 IID Δρs(θ,f) ,同樣分別采用小于和大于1 500 Hz的頻帶,相較于Epipolar幾何散射理論的IPD估計誤差更小,并且可以較精確地估計出IID.利用Dempster-Shafe理論聯合IPD和IID信息,聯合概率取最大的可能位置為聲源位置.
2005年Kumon等根據聲波在耳廓中反射決定的聲譜特性(spectral cue)設計了一個人工耳廓[49].耳廓形狀如圖9所示,耳廓必須關于聲源仰角非對稱以保證可以區分不同仰角的聲源信號.該耳廓對于仰角大于90°的聲源具有較明顯的譜峰(spectral peak).2006年Shimoda等改進了文獻[49]中設計的人工耳廓的仰角定位算法[50].由于機器人頭部運動是連續的,所以聲譜特性變化也是連續的,即相鄰時刻的聲譜特性不會產生突變.根據此特性對長時間檢測的聲譜特性進行聚類,得到更精確的聲譜特性,一定程度上抑制了噪聲的干擾.

圖9 人工耳廓Fig.9 Artificial pinnae
2006年Hornsteind等利用人工耳廓和人工頭模擬人的聽覺定位[51].人工頭模型如圖10所示,通過ITD、IID和譜谷(spectral notches)定位聲源的軸向角和仰角以控制頭部轉向聲源.

圖10 人工頭部和耳廓Fig.10 Artificial head and pinnae
2006年Keyrouz等利用人工頭和人工雙耳同時分離和定位2個聲源的軸向角和仰角[52],一種時域的盲源分離算法被用于分離2個獨立且相距不太近的聲源.令第1個聲源到第2個分離信號的沖激響應為c12,第2個聲源到第1個分離信號的沖激響應為c21,則聲源到麥克風的沖激響應h需滿足:

式中:w為解混沖激響應.通過式(1)、(2)可以分別求出2個聲源方向的HRTFs,進一步可以定位聲源的全向軸向角和仰角.
2008年Rodemann等利用仿人耳蝸和雙麥克風進行聲源的3-D方向定位[53],耳蝸和機器人如圖11所示.在提取ITD、IID和spectral cue前先進行雙耳信號的同步譜減去噪.為了消除聲源信號特性對聲譜特性的影響,用左右耳對數譜之差表示聲譜特性:(k)=lg((k)) - lg(k)).2010 年他們在文獻[54]中聯合聲音幅度、譜幅度、ITD和IID定位聲源的距離.

圖11 仿人耳廓和機器人Fig.11 Humanoid pinnae and robot
2011年Kim等為了降低基于信號相關的時延估計算法的信號采樣率對定位分辨率的影響,利用最大似然方法找出最大化互功率譜之和的聲源軸向角,分辨率達到1°[55].另外考慮機器人球形頭部帶來的多徑效應,一個基于front-back的多徑補償因子被用來修正時延估計.2011年Skaf等[56]測試了放置在一個橢球人工頭上的88對對稱雙耳的定位性能,IID和ITD被分別測試,實驗結果顯示,綜合IID和ITD性能時雙耳放置在人工頭的后下方性能最優.人工頭及雙耳位置如圖12所示.

圖12 最優雙耳位置Fig.12 Optimal position of two ears
Saxena等利用單麥克風和人工耳廓基于機器學習方法定位聲源方向[57].不同聲源方向到麥克風的傳輸函數不同,用隱馬爾可夫模型表示時變的麥克風信號Yt,則聲源方向可以通過式(3)估計,式(3)可以通過前向-后向算法求解,以15°的步長遍歷軸向角求解^θ.

文獻[58]指出機器人的感知能力應該是主動的,可以通過機器人的移動和傳感器參數的控制獲得更好的感知環境.該文基于SIG人形機器人的頭部轉動建立了主動聽覺系統,通過頭部的轉動可以調節雙耳麥克風垂直于聲源方向以取得更好的定位性能.機器人頭部和攝像機的馬達轉動、齒輪、傳送帶和滾珠會帶來內部噪聲,由于離麥克風較近,所以會極大影響聲源定位性能,因此自適應濾波器被用于抑制內部噪聲.
文獻[59]提出感知-馬達(sensory-motor)融合的概念:感知信息指導馬達的運動和導航,通過機器人的運動消除雙耳聲源定位算法的前后向混淆.
2011年Martinson等用3臺Pioneer3-AT機器人分別搭載2、1和1個麥克風組成動態可重置的麥克風陣列[60],如圖13所示.對于給定的興趣區域,吸引/排斥模型可以動態優化各麥克風位置以獲得更好的聲源定位性能.

圖13 動態麥克風陣列Fig.13 Dynamic microphone array
Portello等建立了一個動態雙耳聽覺模型[61],麥克風和聲源相對運動的動態ITD模型給無味卡爾曼濾波器提供了一個ground credible等式,以確定聲源的距離和軸向角的定位,該算法不適用于聲源和傳感器之間高速相對運動的情況.
Kumon提出一種主動軟耳廓[62],軟耳廓由具有彈性的硅橡膠制成,背面覆蓋一層皮毛,以保證耳廓的單向性.耳廓可以旋轉和變形以提供主動聽覺聲源定位能力,軟耳廓如圖14所示.

圖14 軟耳廓Fig.14 Soft pinnae
基于視覺的物體檢測與跟蹤在光照條件好、視野無遮擋的情況下具有更好的性能.融合聽覺信息與視覺信息可以極大提高各傳感器單獨的感知能力.Okuno和Nakadai等融合聽覺事件形成的聽覺流與視覺事件形成的視覺流生成聯合流,以控制SIG 機器人注意力的轉移[47,63-64],其中聽覺事件為聲源方向估計,視覺事件為多人人臉檢測.Lv等利用視覺物體檢測修正聽覺聲源定位結果[65].Lee等利用視覺信息在多個人中區分出真正的說話者[66].
聲源定位系統的麥克風數量和拓撲主要取決于聲源定位方法,一般情況下TDOA方法、高分辨率方法和波束形成方法需要的麥克風數量依次增多.麥克風陣列類型如表1所示.

表1 麥克風陣列類型Table 1 Types of microphone array
二維和三維陣列一般為規則拓撲麥克風陣列,如線性、三角形、多邊形、多面體陣列等,分別具有二維平面和三維空間聲源定位能力.面向機器人聽覺的聲源定位的麥克風陣列應該易搭載在機器人平臺上,通常要求陣列的小型化,包括麥克風數量的減少和陣列尺寸的減小.實時性是人機交互的重要特點,因此實時的機器人聽覺系統聲源定位要求選取計算復雜度低的定位方法,一般來講雙耳定位和基于到達時間差的定位具有較小的計算復雜度,其次是基于高分辨率定位方法,基于波束形成方法的定位復雜度較高.雙麥克風模擬人耳聽覺,通常需要借助人工頭和耳廓的輔助,并且精確的頭部相關傳遞函數較難獲取.
筆者利用搭載在移動機器人平臺上的二維平面4通道十字型麥克風陣列定位說話人的軸向角和距離,以進行友好、有效的人機交互.文獻[67]提出指導性譜時定位方法(guided ST position algorithm),通過粗定位結果估計的聲場條件進行二次精確定位,可以有效地消除混響的影響.文獻[68]提出一種基于時間差特征的空間柵格匹配(spatial grid matching)算法,找到與待定位聲源的時間差特征最匹配的柵格作為聲源位置.該方法可以有效地避免幾何定位方法的非線性方程組求解問題,復雜度較低,并且合理的麥克風陣列拓撲可以避免幾何定位方法可能陷入局部最優點的問題.移動機器人和麥克風陣列如圖15所示.

圖15 移動機器人和麥克風陣列Fig.15 Mobile robot and microphone array
首先,利用譜加權GCC-PHAT方法求出各個麥克風對之間的信號時間差,6個時間差組成時間差特征序列:τ =(τ12,τ13,τ14,τ23,τ24,τ34).可以證明,時間差特征與聲源位置是一一對應的,即一個特定的時間差對應一個特定位置,反之亦然;另外2個聲源位置之間的時間差特征的差與聲源的位置之差成正比,即2個聲源距離越遠,另外2個位置的時間差特征的差越大.根據這2個特點,可以把二維平面按照某種方式分割成柵格,每個柵格內的聲源看作同一類聲源,平面柵格如圖16所示.

圖16 平面柵格Fig.16 Horizontal grid
然后基于時間差特征,利用蒙特卡洛方法為每個柵格訓練一個混合高斯模型,該模型表示平均分布于柵格內的時間差特征.定位階段,聲源定位的問題可以表示為

式中:G表示柵格,Gs表示聲源柵格.計算出未知聲源的時間差特征相對于所有柵格的似然值,似然值最大的柵格被定位為聲源柵格.另外有效特征檢測算法利用信號時間差之間的約束移除錯誤的時間差,提高了定位性能.并且決策樹提供了一種由粗到細的定位方式,極大減少了未知聲源的時間差與柵格的匹配次數.
實驗測試了4 m以內的2 016組數據,軸向角柵格精度為1°,距離分為 0~1.5 m、1~2 m和1.5~4 m 3個柵格.軸向角測量誤差小于5°的定位率超過95%,距離定位率超過90%,可以有效定位說話人的方位和說話人是否處于人機交互的安全距離.而且聽覺聲源定位結果控制機器人轉向說話人,使說話人在攝像頭的視野范圍之內,基于視覺的人體檢測技術被用于更精確的目標人定位,以進行進一步的人機交互.
一個機器人聽覺聲源定位系統可以從麥克風陣列拓撲、麥克風數量、聲源定位能力、聲源個數、抗噪聲和混響能力、定位性能等方面來評價,其中定位能力指是否能進行聲源軸向角、仰角和距離的定位.表2列出了基于三維麥克風陣列、二維麥克風陣列和雙耳的7個典型聲源定位系統,其中聲源個數只是列出了相關文獻中實驗測試的聲源個數,不能完全反映該聲源定位系統的能力.因為機器人聽覺聲源定位算法發展的時間較短,并沒有公共的測試實驗數據庫或實驗平臺;所以不同系統的實驗場景和性能測量標準不同,本文只列出了相關文獻中公布的定位性能.

表2 典型機器人聽覺聲源定位系統的分析Table 2 Analysis of typical sound source localization system for robot audition
機器人聽覺聲源定位系統的應用場景主要有家庭環境、公共場所、危險環境和一些其他特定場景中,面向的聲源有人的語音和其他各種聲源,主要包括以下幾類應用:
1)服務機器人:聲源定位系統提供了一種自然、高效的人機交互方式,主要應用在家庭、商場等環境.服務機器人定位的聲源通常為人的語音,并且面臨復雜的噪聲.
2)接待機器人:在辦公室或家庭等場所接待客人,引導客人的行動,一般具有一定的語音識別能力,如文獻[24].
3)軍用機器人:戰場聲源的定位,如文獻[69]在城市環境基于軍用無人車定位槍聲、尖叫聲.
4)救援機器人:危險環境中救援任務的聲源定位,如文獻[70].在危險環境中,由于對人來說工作環境較為惡劣,因此機器人可以發揮較大的作用,比如救援、事故檢測等.
5)助殘機器人:引導殘疾人,特別是盲人的活動,如文獻[71].與機器人的語音交互和機器人的引導可以極大地提高盲人的活動能力.
自1995年,經過十幾年的研究與探索,面向機器人聽覺的聲源定位技術取得了一定的成果,但系統的實用化還面臨著一些問題,這些問題引導了未來的發展趨勢:
1)機器人的運動.機器人運動帶來的麥克風陣列的運動是機器人聽覺與傳統聲源定位技術主要的差別所在,運動的麥克風陣列會面臨即時變化的聲學環境,要求聲源定位系統具有較高的實時性.現在大多數聲源定位系統的傳感器數量較多,導致算法計算復雜度較高.少量的麥克風和低復雜度的定位算法有待進一步探索.
2)復雜的聲學環境.幾乎所有的實用聲源定位系統必然面臨著復雜的聲學環境,存在各種類型的噪聲.現有的抗噪聲技術大多只是針對某類或某幾類噪聲有效,一種魯棒的、對各種噪聲廣泛適用的抗噪聲技術或方案也還有待進一步研究.
3)陣列的小型化.機器人搭載平臺要求麥克風的數量盡量少,陣列尺寸盡量小,并且通常麥克風數量的減少會有效降低運算量.現有的麥克風陣列大多需要專門的搭載平臺,甚至需要輔助設備,實用化比較差.雙耳聲源定位的發展提供了更接近于人的定位方式和能力,但特制的人工頭和耳廓,以及它們的數學模型的建立都帶來了諸多不便.
4)友好、智能的交互方式.人機交互中人應該是被動的,即不用通過某種不方便的主動方式與機器人交互.這就要求機器人可以主動、透明地與人交互,因此,智能聲源定位技術的應用還與其他相關技術息息相關,并且一定程度上受到它們的制約,比如聲音的檢測與識別等.
本文主要依據定位算法綜述了機器人聽覺聲源定位技術,不同于傳統的聲源定位技術,智能機器人帶來了一些新的問題,比如機器人平臺對麥克風陣列結構的限制、機器人運動給聲源定位帶來的諸多問題、人機交互對實時性的要求、機器人特定的工作場景等.依據機器人技術的聲源定位系統仍然有待進一步地總結與分析.總之,實時、精確的機器人系統與外界系統的交互是機器人聽覺聲源定位技術追求的目標.聲源定位技術與機器人技術的融合帶來了很多新的挑戰,但更重要的是兩者會互相促進對方的發展.
[1]IRIE R E.Robust sound localization:an application of an auditory perception system for a humanoid robot[D].Cambridge,USA:Department of Electrical Engineering and Computer Science,MIT,1995.
[2]KNAPP C H,CARTER G C.The generalized correlation method for estimation of time delay[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1976,24(4):320-327.
[3]OMOLOGO M,SVAIZER P.Acoustic source location in noisy and reverberant environment using CSP analysis[C]//IEEE International Conference on Acoustics,Speech,and Signal Processing.Atlanta,USA,1996:921-924.
[4]BENESTY J.Adaptive eigenvalue decomposition algorithm for passive acoustic source localization[J].Journal of A-coustical Society of America,2000,107(1):384-391.
[5]DVORKIND T G,GANNOT S.Time difference of arrival estimation of speech source in a noisy and reverberant environment[J].IEEE Transactions on Signal Processing,2005,85(1):177-204.
[6]HAHN W,TRETTER S.Optimum processing for delayvector estimation in passive signal arrays[J].IEEE Transactions on Information Theory,1973,19(5):608-614.
[7]WANG H,CHU P.Voice source localization for automatic camera pointing system in videoconferencing[C]//IEEE Workshop on Applications of Signal Processing to Audio and Acoustics.New Paltz,USA,1997:187-190.
[8]SCHAU H,ROBINSON A.Passive source localization employing intersection spherical surfaces from time-of-arrival difference[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1987,35(8):1223-1225.
[9]HUANG Jie,SUPAONGPRAPA T,TERAKURA I,et al.Mobile robot and sound localization[C]//IEEE/RSJ International Conference on Intelligent Robots and System.Grenoble,France,1997:683-689.
[10]HUANG Jie,KUME K,SAJI A,et al.Robotic spatial sound localization and its 3-D sound human interface[C]//First International Symposium on Cyber Worlds(CW 2002).Tokyo,Japan,2002:191-197.
[11]LI H K,YOSIARA T,ZHAO Q F.A spatial sound localization system for mobile robots[C]//IEEE Instrumentation and Measurement Technology Conference.Warsaw,Poland,2007:1-6.
[12]SEKMEN A S,WIKES M,KAWAMURA K.An application of passive human-robot interaction:human tracking based on attention distraction[J].IEEE Transactions on Systems,Man,and Cybernetics,Part A:Systems and Humans,2002,32(2):248-259.
[13]VALIN J M,MICHAUD F,ROUAT J,et al.Robust sound source localization using a microphone array on a mobile robot[C]//IEEE/RSJ International Conference on Intelligent Robots and System.Las Vegas,USA,2003:1228-1233.
[14]RUDZYN B,KADOUS W,SAMMUT C.Real time robot audition system incorporating both 3D sound source localisation and voice characterization[C]//IEEE International Conference on Robotics and Automation.Roma,Italy,2007:4733-4738.
[15]KWAK K C,KIM S S.Sound source localization with the aid of excitation source information in home robot environments[J].IEEE Transactions on Consumer Electronics,2008,54(2):852-856.
[16]HU J S,CHAN C Y,WANG C K,et al.Simultaneous localization of mobile robot and multiple sound sources using microphone array[C]//IEEE International Conference on Robotics and Automation.Kobe,Japan,2009:29-34.
[17]HU J S,YANG C H,WANG C K.Estimation of sound source number and directions under a multi-source environment[C]//IEEE/RSJ International Conference on Intelligent Robots and System.Louis,USA,2009:181-186.
[18]LEE B,CHOI J S.Multi-source sound localization using the competitive K-means clustering[C]//IEEE Conference on Emerging Technologies and Factory Automation.Bilbao,Spain,2010:1-7.
[19]HAHN W R.Optimum signal processing for passive sonar range and bearing estimation[J].Journal of Acoustical Society of America,1975,58(1):201-207.
[20]CARTER G.Variance bounds for passively locating an acoustic source with a symmetric line array[J].Journal of Acoustical Society of America,1977,62(4):922-926.
[21]RAMOS L L,HOLM S,GUDYANGEN S,et al.Delayand-sum beamforming for direction of arrival estimation applied to gunshot acoustics[C]//Proceedings of SPIE Defense,Security,and Sensing.Orlando,USA,2011.
[22]KAJALA M.Filter-and-sum beamformer with adjustable filter characteristics[C]//IEEE International Conference on Acoustics,Speech,and Signal Processing.Salt Lake City,USA,2001:2917-2920.
[23]曹瑋瑋.基于麥克風陣列的聲源定位與語音增強方法研究[D].北京:清華大學,2008.
CAO Weiwei.Study on methods of microphone array based sound source localization and speech enhancement[D].Beijing:Tsinghua University,2008.
[24]MATSUI T,ASOH H,FRY J,et al.Integrated natural spoken dialogue system of Jijo-2 mobile robot for office services[C]//Proceedings of the Sixteenth National Conference on Artificial Intelligence and the Eleventh Conference on Innovative Applications of Artificial Intelligence.Menlo Park,USA,1999:621-627.
[25]VALIN J M,MICHAUD F,HADJOU B.Localization of simultaneous moving sound sources for mobile robot using a frequency-domain steered beamformer approach [C]//IEEE International Conference on Robotics and Automation.New Orleans,USA,2004:1033-1038.
[26]BADALI A,VALIN J M,MICHAUD F.Evaluating realtime audio localization algorithms for artificial audition in robotics[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.St.Louis,USA,2009:2033-2038.
[27]TAMAI Y,KAGAMI S,AMEMIYA Y,et al.Circular microphone array for robot’s audition[C]//IEEE International Conference on Sensors.Vienna,Austria,2004:565-570.
[28]TAMAI Y,SASAKI Y,KAGAMI S.Three ring microphone array for 3D sound localization and separation for mobile robot audition[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Edmonton,Canada,2005:4172-4177.
[29]NAKADAI K,NAKAJIMA H,YAMADA K,et al.Sound source tracking with directivity pattern estimation using a 64 ch microphone array[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Edmonton,Canada,2005:1690-1696.
[30]NAKADAI K,NAKAJIMA H,MURASE M,et al.Robust tracking of multiple sound sources by spatial integration of room and robot microphone arrays[C]//IEEE International Conference on Acoustics,Speech,and Signal Processing.Toulouse,France,2006:929-932.
[31]SASAKI Y,KAGAMI S,MIZOGUCHI H.Multiple sound source mapping for a mobile robot by self-motion triangulation[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Beijing,China,2006:380-385.
[32]SASAKI Y,KAGAMI S,MIZOGUCHI H.Main-lobe canceling method for multiple sound sources localization on mobile robot[C]//IEEE/ASME International Conference on Advanced Intelligent Mechatronics.Zurich,Switzerland,2007:1-6.
[33]KAGAMI S,THOMPSON S,SASAKI Y,et al.2D sound source mapping from mobile robot using beamforming and particle filtering[C]//IEEE International Conference on Acoustics,Speech,and Signal Processing.Taipei,China,2009:3689-3692.
[34]SASAKI Y,THOMPSON S,KANEYOSHI M,et al.Mapgeneration and identification of multiple sound sources from robot in motion[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Taipei,China,2010:437-443.
[35]SCHMIDT R O.Multiple emitter location and signal parameter estimation[J].IEEE Transactions on Antennas and Propagation,1986,34(33):276-280.
[36]WANG H,KAVEH M.Coherent signal subspace processing for the detection and estimation of angles of arrival of multiple wide-band sources[J].IEEE Transactions on A-coustics,Speech,and Signal Processing,1985,33(4):823-831.
[37]居太亮.基于麥克風陣列的聲源定位算法研究[D].成都:電子科技大學,2006.
JU Tailiang.Research on speech source localization methods based on microphone arrays[D].Chengdu:University of Electronic Science and Technology of China,2006.
[38]ASANO F,ASOH H,MATSUI T.Sound source localization and signal separation for office robot“Jijo-2”[C]//IEEE International Conference on Multisensor Fusion and Integration for Intelligent Systems.Taipei,China,1999:243-248.
[39]ARGENTIERI S.Broadband variations of the MUSIC highresolution method for sound source localization in robotics[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.San Diego,USA,2007:2009-2014.
[40]NAKAMURA K,NAKADAI K,ASANO F,et al.Intelligent sound source localization for dynamic environments[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.St.Louis,USA,2009:664-669.
[41]NAKAMURA K,NAKADAI K,ASANO F,et al.Intelligent sound source localization and its application to multimodal human tracking[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.San Francisco,USA,2011:143-148.
[42]ISHI C T,CHATOT O,ISHIGURO H,et al.Evaluation of a MUSIC-based real-time sound localization of multiple sound sources in real noisy environments[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.St.Louis,USA,2009:2027-2032.
[43]LYON R F.A computational model of binaural localization and separation[C]//IEEE International Conference on A-coustics,Speech,and Signal Processing.Boston,USA,1983:1148-1151.
[44]ALGAZU V R,DUDA R O,MORRISON R P,et al.Structural composition and decomposition of HRTFs[C]//IEEE Workshop on Applications of Signal Processing to Audio and Acoustics.New York,USA,2001:103-106.
[45]HANDZEL A A,KRISHNAPRASAD P S.Biomimetic sound-source localization[J].IEEE Journal on Sensors,2002,2(6):607-616.
[46]NAKADAI K,OKUNOT H G,KITANO H.Epipolar geometry based sound localization and extraction for humanoid audition[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Maui,USA,2001:1395-1401.
[47]NAKADAI K,HIDAI K,MIZOGUCHI H,et al.Realtime auditory and visual multiple-object tracking for humanoids[C]//Proceedings of the Seventeenth International Joint Conference on Artificial Intelligence.Seattle,USA,2001:1425-1436.
[48]NAKADAI K,MATSUURA D,OKUNO H G,et al.Applying scattering theory to robot audition system:robust sound source localization and extraction[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Las Vegas,USA,2003:1147-1152.
[49]KUMON M,SHIMODA T,KOHZAWA R.Audio servo for robotic systems with pinnae[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Edmonton,Canada,2005:1881-1886.
[50]SHIMODA T,NAKASHIMA T,KUMON M,et al.Spectral cues for robust sound localization with pinnae[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Beijing,China,2006:386-391.
[51]HOMSTEIN J,LOPES M,SANTOS-VICTOR J,et al.Sound localization for humanoid robots-building audio-motor maps based on the HRTF[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Beijing,China,2006:1170-1176.
[52]KEYROUZ F,MAIER W,DIEPOLD K.A novel humanoid binaural 3D sound localization and separation algorithm[C]//IEEE-RAS International Conference on Humanoid Robot.Genova,Italy,2006:296-301.
[53]RODEMANN T,INCE G,JOUBLIN F,et al.Using binaural and spectral cues for azimuth and elevation localization[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Nice,France,2008:2185-2190.
[54]RODEMANN T.A study on distance estimation in binaural sound localization[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Taipei,China,2010:425-430.
[55]KIM U H,MIZUMOTO T,OGATA T,et al.Improvement of speaker localization by considering multipath interference of sound wave for binaural robot audition[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.San Francisco,USA,2011:2910-2915.
[56]SKAF A.Optimal positioning of a binaural sensor on a humanoid head for sound source localization[C]//IEEE-RAS International Conference on Humanoid Robot.Bled,Slovenia,2011:165-170.
[57]SAXENA A,NG A Y.Learning sound location from a single microphone[C]//IEEE International Conference on Robotics and Automation.Kobe,Japan,2009:1737-1742.
[58]NAKADAI K,LAURENS T,OKUNO H G,et al.Active audition for humanoid[C]//Proceedings of the 17th National Conference on Artificial Intelligence.Austin,USA,2000:832-839.
[59]ANDERSSON S B,HANDZEL A A,SHAH V,et al.Robot phonotaxis with dynamic sound-source localization[C]//IEEE International Conference on Robotics and Automation.Barcelona,Spain,2004:4833-4838.
[60]MARTINSON E,APKER T,BUGAJSKA M.Optimizing a reconfigurable robotic microphone array[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.San Francisco,USA,2011:125-130.
[61]PORTELLO A.Acoustic models and Kalman filtering strategies for active binaural sound localization[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.San Francisco,USA,2011:137-142.
[62]KUMON M,NODA Y.Active soft pinnae for robots[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.San Francisco,USA,2011:112-117.
[63]OKUNO H G,NAKADAI K,HIDAI K,et al.Human-robot interaction through real-time auditory and visual multiple-talker tracking[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Maui,USA,2001:1402-1409.
[64]OKUNO H G,NAKADAI K,KITANO K.Social interaction of humanoid robot based on audio-visual tracking[C]//International Conference on Industrial and Engineering Applications of Artificial Intelligence and Expert System.Cairns,Australia,2002:1-10.
[65]LV Xiaoling,ZHANG Minglu.Sound source localization based on robot hearing and vision[C]//International Conference on Computer Science and Information Technology.Singapore,2008:942-946.
[66]LEE B,CHOI J S,KIM D,et al.Sound source localization in reverberant environment using visual information[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Taipei,China,2010:3542-3547.
[67]LIU Hong,SHEN Miao.Continuous sound source localization based on microphone array for mobile robots[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Taipei,China,2010:4332-4339.
[68]LI Xiaofei,LIU Hong,YANG Xuesong.Sound source localization for mobile robot based on time difference feature and space grid matching[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.San Francisco,USA,2011:2879-2886.
[69]YOUNG S H,SCANLON M V.Detection and localization with an acoustic array on a small robotic platform in urban environments,technical report ADA410432[R].Adelphi,USA:U.S.Army Research Laboratory,2003.
[70]SUN Hao,YANG Peng,LIU Zuojun,et al.Microphone array based auditory localization for rescue robot[C]//Chinese Control and Decision Conference.Taiyuan,China,2011:606-609.
[71]LUO R C,HUANG C H,LIN T T.Human tracking and following using sound source localization for multisensor based mobile assistive companion robot[C]//IEEE Conference on Industrial Electronics Society.Glendale,USA,2010:1552-1557.

李曉飛,男,1987年生,博士研究生,主要研究方向為語音識別、聲源定位.

劉宏,男,1967年生,教授,博士生導師,中國人工智能學會常務理事、副秘書長、青年工作委員會主任,主要研究方向為智能機器人、計算機視聽覺.先后承擔國家自然科學基金項目7項,國家“863”、“973”計劃課題項目 5項,曾獲國家航天科技進步獎.發表學術論文100余篇,其中60余篇被SCI、EI檢索.
A survey of sound source localization for robot audition
LI Xiaofei1,LIU Hong1,2
(1.Key Laboratory of Integrated Microsystems,Shenzhen Graduate School of Peking University,Shenzhen 518055,China;2.Key Laboratory of Machine Perception(Ministry of Education),Peking University,Beijing 100871,China)
The technology of sound source localization can localize the direction and position of a sound source relative to a robot.Sound source localization system for robot audition can greatly improve the ability of a robot to interact with external conditions.The summary and analysis of sound source localization for robot audition can significantly promote the development of intelligent robots.In this work,first,the characteristics of sound source localization for robot audition were summarized.The key technologies were summarized,including the time delay of arrival,steered beamforming,high resolution spectral estimation,binaural,active audition,and audio-visual.Then,the models of a microphone array were classified,and the performances of seven typical systems based on a 3-D microphone array,2-D microphone array,and binaural were compared.Finally,the applications of a sound source localization system of robot audition were summarized.Several issues that sound source localization systems face as well as development trends were analyzed.
robot;robot audition;sound source localization;microphone array
TP242.6;TN912.3
A
1673-4785(2012)01-0009-12
10.3969/j.issn.1673-4785.201201003
http://www.cnki.net/kcms/detail/23.1538.TP.20120219.2224.001.html
2012-01-10. 網絡出版時間:2012-02-19.
國家“863”計劃資助項目(2006AA04Z247);國家自然科學基金資助項目(60675025,60875050);深圳市科技計劃及基礎研究計劃資助項目(JC20090316039).
劉宏.E-mail:hongliu@pku.edu.cn.