999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于子帶可控響應功率的多聲源定位方法

2013-07-20 02:34:38倪志蓮蔡衛平張怡典
計算機工程與應用 2013年24期
關鍵詞:信號

倪志蓮,蔡衛平,張怡典

九江職業技術學院電氣工程學院,江西九江 332007

基于子帶可控響應功率的多聲源定位方法

倪志蓮,蔡衛平,張怡典

九江職業技術學院電氣工程學院,江西九江 332007

1 引言

基于麥克風陣列的聲源定位技術根據接收信號估計聲源的方位,在視頻會議[1]、語音增強[2]、機器人聽覺[3]等領域有著非常廣泛的應用。在很多場合,需要對多個聲源進行定位,如在視頻會議中,可能有多個人同時說話。近年來,多聲源定位技術已逐漸成為研究的熱點。

在真實環境中,實現多聲源定位是非常困難的,除了混響和噪聲外,聲源之間的相互干擾也將嚴重影響定位性能。多聲源定位技術必須克服這些不利因素的影響。文獻[4-5]提出的算法利用了語音信號的特點,可實現2~3個說話人的定位,但在混響較強的環境中,這類算法魯棒性較差。相位變換加權的可控響應功率(Steered Response Power-Phase Transform,SRP-PHAT)聲源定位算法[6]在混響環境中有較強的魯棒性。該算法計算陣列接收信號的可控響應功率,在聲源空間中尋找使SRP值最大的點作為聲源位置估計。當有多個聲源同時出現時,SRP函數將呈現出多個峰,每個峰對應一個聲源,結合適當的聚類算法,SRP-PHAT也可實現多聲源定位[7]。然而,由于聲源之間的相互干擾,SRP函數中,較弱聲源產生的峰可能遠低于較強聲源產生的峰,甚至完全被覆蓋。因此,傳統SRP-PHAT算法的多聲源定位性能不高。文獻[8]提出分兩步定位多個聲源的方法。該算法首先計算SRP函數并且估計出最強聲源的位置,然后根據此位置引入一個衰減函數以抑制最強聲源產生的空間譜峰,從而突出次強聲源的譜峰,再次搜索SRP-PHAT函數的最強譜峰即可得到較弱聲源的位置估計。該算法能大大提高第二個聲源的定位成功率,但由于需要重復計算SRP函數,計算量較大,而且第二個聲源的定位精度依賴于第一個聲源的定位精度。

為了克服傳統SRP-PHAT算法的缺點,本文提出一種基于子帶SRP的多聲源定位算法。該算法將語音信號頻譜劃分為若干個子帶,并在每個子帶分別計算SRP-PHAT函數,稱為子帶SRP函數。在聲源空間中,尋找每個子帶SRP函數的最大值,由此,每個子帶可得到一個聲源位置估計,稱之為初始估計。盡管最強的源通常會抑制其他源,但根據語音信號在頻域的稀疏性[9],同一個源不會在每個子帶都是最強的,也就是說,某個源在一些子帶是最強的,而其他源在另一些子帶是最強的,因此子帶SRP算法可突出較弱的聲源。使用適當的聚類算法可從初始估計中得到最終的聲源位置估計。

2 信號模型

用于語音聲源定位的麥克風陣列通常在室內環境下使用,麥克風的接收信號中除了源信號外,還有背景噪聲和混響。在有Ns個聲源情形下,第m個麥克風(m=1, 2,…,M)的接收信號可表示為:

其中si(n)為第i個聲源,hmi(n)為第i個聲源到第m個麥克風之間的房間沖激響應,“*”表示線性卷積,bm(n)是第m個麥克風的噪聲,假定各麥克風的噪聲不相關,噪聲與信號也不相關。

3 基于SRP-PHAT的多聲源定位算法

SRP-PHAT算法根據麥克風陣列接收的一幀數據估計聲源位置。仍然用xm(n)表示第m個麥克風接收的一幀數據,Xm(k)表示其DFT。用r,θ,?分別表示球坐標系統中的距離,水平角和仰角,則相位變換(Phase Transform,PHAT)加權的導引響應可表示為:

其中q=(r,θ,?)為假想聲源的球坐標,τml(q)為第m個麥克風的導引時延(麥克風l為參考基元),ω為模擬角頻率,M為麥克風的個數。在遠場假設下,麥克風陣列接收信號為平面波,τml(q)與距離r無關,其值可用下式來計算:

其中ζ為聲源的單位方向矢量,其表達式為:

rm=[x y z]T為第m個麥克風在直角坐標系中的坐標矢量,c為空氣中的聲速(約為342 m/s)。則PHAT加權的導引響應功率,即SRP-PHAT,可表示為:

其中Q表示聲源空間。在多聲源情況下,P?PHAT(q)呈現出多個峰,理想條件下,每個峰對應一個聲源,使用聚類算法可找到這些峰的位置。文獻[7]根據此原理提出了基于SRP-PHAT的多聲源定位算法。該算法首先隨機選取聲源空間中足夠多的點,計算這些點的SRP-PHAT函數值,然后在這些點中選取SRP值最高的N個點,使用會聚聚類(Agglomerative Clustering,AC)來估計每個聲源所在的區域,并在每個區域使用隨機區域收縮(Stochastic Region Contraction,SRC)最優化方法得到聲源位置估計。文獻[7]的算法考慮了三維定位情況,使用SRC的目的是為了減少計算量,但可能會降低定位性能。本文只考慮遠場情形,因此僅估計聲源的到達方向角(Direction Of Arrival,DOA)。本文將在第5章詳細描述提出的多聲源定位算法,然后進行仿真和實驗,并將結果與文獻[7]中的算法進行比較。為保證公平的比較,修改文獻[7]的算法,用全網格搜索代替SRC,即在整個聲源空間計算SRP-PHAT函數,然后找出最高SRP值的N個點,用AC聚類方法將這些點分為若干類,找出每個類中SRP值最高的點即得到聲源位置估計。

4 AC聚類算法

如引言中所述,本文定位算法根據各子帶得到聲源位置的初始估計,其中靠近的幾個點對應某個聲源,這就需要利用聚類算法將初始估計分為Nc類,每個類可能對應一個聲源。在這個問題中,Nc是未知的。AC算法不需要知道類的個數,因此正好用于解決本文的問題。對于一個N點的數據集,AC聚類算法流程可用圖1來描述。

圖1 AC聚類算法流程圖

圖1中,i表示迭代次數,C(i)(k)表示第i次迭代中得到的第k個類,(u)表示類C(i)(k)中的第u個點。此外,運算符‖·‖表示求歐氏距離(Euclidean distance),dth為歐式距離門限。考慮聲源靠近的程度,設置dth為10°。

5 基于子帶SRP的多聲源定位算法

傳統的SRP-PHAT算法難以克服聲源之間的干擾,為了改善定位性能,提出基于子帶SRP的多聲源定位算法。SRP-PHAT函數可以看成是Nsub個子帶SRP函數之和,即式(5)可寫成:

上式中,k=kn,1kn,2…kn,Nn為第n個子帶的頻率點。在聲源空間中搜索使子帶SRP值最大的點即為初始估計。

根據稀疏性假設,這些初始估計對應多個源,因此,運用AC聚類可以得到多個聲源的方位估計。

如何劃分子帶是一個關鍵的問題。應遵循的原則是高頻處的子帶較寬以避免相位纏繞,而低頻處的子帶較窄以區分不同的源。但是低頻子帶不宜分得過細,否則容易出現錯誤的估計。在本文的工作中,信號采樣頻率為16 kHz,信號頻譜分為7個子帶。子帶劃分情況如圖2所示,其中,0~2 kHz均勻地分為4個子帶。為便于描述,將這些子帶編號為1~7。

圖2 子帶劃分示意圖

AC聚類將初始估計分為Nc個類,但并非每個類都對應一個聲源。與單聲源情況類似,在一些子帶,由反射聲產生的虛假譜峰可能高于真實聲源產生的譜峰,這將導致錯誤的估計。為盡量排除這些錯誤估計,只保留元素個數不低于γth的類,因此,類的個數減少為N′c。在本文的算法中,將γth設置為2。

在多聲源定位問題中,通常假定說話人個數Ns是已知的。然而,由于語音信號時間上不連續的特點,即使知道說話人個數,一幀數據中活動說話人Na的個數仍然是未知的。也就是說只知道活動說話人的個數至多為Ns。綜上所述,提出的基于子帶SRP的多聲源定位算法流程如圖3所示。該圖中,|·|表示類的勢,即類中元素的個數,為Na的估計值。

圖3 基于子帶SRP的多聲源定位算法

6 仿真與討論

為驗證本文提出算法的性能,模擬室內環境做了不同信噪比(Signal-to-Noise Ratio,SNR)和不同混響時間(通常用T60來表示)下的計算機仿真。房間大小為5 m×4 m×3 m,麥克風陣列如圖4所示。

圖4 麥克風陣列與DOA矢量

該陣列為均勻圓陣,半徑為0.1 m,圖中黑點表示麥克風,編號1~8。需要說明的是,本文提出的算法對陣形并無特定要求。如前文所述,除了仿真外,還使用了一批真實數據來進行實驗。這批數據就是用圖4所示的小孔徑均勻圓陣采集的,為便于對照,仿真中仍使用相同的陣形。陣列放置于房間地面中心位置,坐標原點即為該陣列圓心。DOA矢量由坐標原點指向聲源。在遠場情形下,該矢量即為式(4)所表達的ζ。說話人個數為2,聲源位置qs1= (1.5 m,70°,20°),qs2=(1.5 m,-10°,21°)。聲源信號為兩段女聲英語語音,采樣頻率為16 kHz。房間沖激響應用image法[10]產生,麥克風接收信號可由式(1)得到。信號幀長512點(32 ms),幀之間不重疊,加漢寧(Hanning)窗。去除靜音幀后,共有141幀數據用于定位。

水平角θ的搜索范圍為-180°~180°,仰角?的搜索范圍為0°~90°,步長均為1°。由于小孔徑均勻圓陣對仰角的估計精度較低,定位算法的性能僅根據水平角的估計結果來評價[11]。對于每幀數據,若對某個源的水平角估計誤差不超過5°,則該次估計為正確的(correct)估計,否則為額外的(extra)估計[7]。統計所有幀的估計結果,得到估計的正確率和額外率。這兩項指標被用來評價多聲源定位算法的性能[7]。正確率定義為:

在上述兩式中,I為用于仿真的信號幀數,αc(i)和αe(i)分別表示由第i幀數據得到的正確的估計次數和額外的估計次數,Na(i)為第i幀數據中活動說話人個數的真值(該值可由源信號得到)。

用本文提出的算法和文獻[7]中的算法作了兩組仿真。第一組固定信噪比為10 dB,混響時間為100~600 ms;第二組固定混響時間為600 ms,信噪比為5~25 dB。為便于描述,將本文提出的算法記為SRP-sub,文獻[7]中的算法記為SRP-PHAT。仿真結果如圖5所示。

圖5 不同混響時間和不同信噪比下,兩種算法的定位性能比較

由圖5(a)和圖5(b)可見,在不同的混響時間下,SRP-sub算法比SRP-PHAT算法均有更高的正確率和更低的額外率。當混響時間大于400 ms,前者的額外率有更為明顯的降低。由圖5(c)可見,在信噪比為10 dB以下,20 dB以上,SRP-sub算法和SRP-PHAT算法的正確率比較接近,而在信噪比為10~20 dB之間,前者的正確率明顯高于后者。由圖5(d)可見,信噪比低于10 dB時,SRP-sub算法的額外率比SRP-PHAT有較大幅度降低,隨著信噪比升高,二者的額外率逐漸接近。以上分析表明,在中等信噪比,較強混響環境下,本文提出的SRP-sub算法比傳統的SRP-PHAT算法有較好的多聲源定位性能。

7 真實環境中的實驗

為進一步驗證本文提出算法的有效性,使用取自瑞士IDIAP研究所的真實數據[12]來作多聲源定位實驗。IDIAP提供了單聲源、多聲源、靜態和動態等多種情景的錄音。取其中編號為“seq37-3p-0001”的一組數據。該組數據是在一個小型會議室中錄制的,麥克風陣列如圖4所示。錄制時,麥克風陣列放置于會議桌上,3個說話人坐在桌旁,面對陣列。3個說話人的位置分別為:q~s1=(0.92 m,74°,21°),q~s2=(0.69 m,-7°,24°)和q~s3=(1.19 m,-50°,14°)。錄制過程中,說話人成對同時說話,即s1和s2,s1和s3,s2和s3。每種情況,取6.25 s的數據,總共有18.75 s的數據。這些數據的采樣頻率、幀長、幀重疊度、窗函數以及搜索范圍和步長均與第6章中的相同。去除靜音幀后,總計有442幀數據用于聲源定位實驗。與仿真的情況類似,仍然使用式(10)和式(11)來評價兩種算法的定位性能。值得一提的是,在錄制“seq37-3p-0001”數據時,除了會議桌上的麥克風陣列外,每個說話人衣領處還別了一支麥克風。衣領麥克風與陣列同步錄音,其采集的數據稱為“lapel recordings”。由于衣領麥克風與說話人靠得很近,因此可將“lapel recordings”當做是單個說話人的純凈語音。根據“lapel recordings”,可得到第i幀真實數據的Na(i)。

實驗結果如表1所示。由表1可見,相比文獻[7]中的算法,本文提出的算法將正確率提高了約4%,將額外率降低了約7%。這充分說明本文提出的算法在真實環境中能有效地實現多聲源定位。

表1 真實環境中兩種算法的定位性能比較(%)

8 結論

在多聲源定位中,由于聲源之間的相互干擾,傳統的SRP-PHAT算法定位性能不高。本文提出基于子帶SRP的多聲源定位算法。該算法將語音信號頻譜劃分為7個子帶,計算每個子帶的SRP函數,然后在聲源空間搜索其最大值得到初始估計。根據語音信號頻率的稀疏性,同一個源不會在每個子帶都是最強的,因此劃分子帶可突出較弱的源,即初始估計中包含不同的聲源位置,利用AC聚類可得到最終的聲源位置估計。仿真和實驗表明,在兩個說話人的情況下,本文提出的算法比傳統的SRP-PHAT算法定位性能更好。

[1]Zhang Cha,Florencio D,Ba D E,et al.Maximum likelihood sound source localization and beamforming for directional microphone arrays in distributed meetings[J].IEEE Transactions on Multimedia,2008,10(3):538-548.

[2]Cheng Ning,Liu Wenju,Li Peng,et al.Microphone array speech enhancement based on a generalized post-filter and a novel perceptual filter[C]//Proceedings of the 9th International Conference on Signal Processing(ICSP),Beijing,China,2008:370-373.

[3]Markovic I,Petrovic I.Speaker localization and tracking with a microphone array on a mobile robot using von Mises distribution and particle filtering[J].Robotics and Autonomous Systems,2010,58(11):1185-1196.

[4]Lathoud G,Magimai-Doss M.A sector-based,frequency-domain approach to detection and localization of multiple speakers[C]// IEEEInternational Conference on Acoustics,Speech,and Signal Processing(ICASSP),Philadelphia,PA,USA,2005:265-268.

[5]Kepesi M,Ottowitz L,Habib T.Joint position-pitch estimation for multiple speaker scenarios[C]//IEEE Hands-Free Speech Communication and Microphone Arrays(HSCMA),Trento,Italy,2008:85-88.

[6]Dibiase J H.A high-accuracy,low-latency technique for talker localization in reverberant environments using microphone arrays[D].Providence:Brown University,2000.

[7]Do H,Silverman H F.A method for locating multiple sources from a frame of a large-aperture microphone array data without tracking[C]//IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP),Las Vegas,NV,USA,2008:301-304.

[8]Brutti A,Omologo M,Svaizer P.Localization of multiple speakers based on a two step acoustic map analysis[C]//IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP),Las Vegas,NV,USA,2008:4349-4352.

[9]Zhang Wenyi,Rao B D.A two microphone-based approach for source localization of multiple speech sources[J].IEEE Transactions on Audio,Speech,and Language Processing,2010,18(8):1913-1928.

[10]Allen J B,Berkley D A.Image method for efficiently simulating small-room acoustics[J].Journal of Acoustical Society of America,1979,65(4):943-950.

[11]Souden M,Benesty J,Affes S.Broadband source localization from an eigenanalysis perspective[J].IEEE Transactions on Audio,Speech,andLanguageProcessing,2010,18(6):1575-1587.

[12]Lathoud G,Odobez J M,Gatica-Perez D.AV 16.3:an audiovisual corpus for speaker localization and tracking[R].Martigny:IDIAP Research Institute,2004.

NI Zhilian,CAI Weiping,ZHANG Yidian

School of Electrical Engineering,Jiujiang Vocational and Technical College,Jiujiang,Jiangxi 332007,China

To improve localization performance of microphone array in the case of multiple speakers,a method for multiple speech source localization based on sub-band steered response power is presented.In this method,speech signal is divided into seven sub-bands in frequency domain,and the steered response power-phase transform functions are computed in each sub-band. Then initial estimations of source location are generated by searching the maximum value for each function in the source space. According to the frequency sparsity characteristic for speech signal,these initial estimations include multiple source locations. The final source location estimations are produced from them using agglomerative clustering.Simulation and experiment results show that the proposed algorithm facilitates about 4%increase in localization correct rate and about 7%reduction in localization extra rate compared with the conventional algorithm under the conditions of two speakers,10 dB signal-to-noise ratio and moderate reverberation.

microphone array;multiple speech source localization;sub-band steered response power;clustering

為了提高多個說話人情況下麥克風陣列的定位性能,提出基于子帶可控響應功率的多聲源定位算法。該算法將語音信號頻域分為7個子帶,在每個子帶計算相位變換加權的可控響應功率函數,在聲源空間搜索其最大值得到聲源位置的初始估計。根據語音信號頻率的稀疏性,這些初始估計包含多個聲源的位置,運用會聚聚類算法得到最終的聲源位置估計。仿真和實驗表明,在有2個說話人,10 dB信噪比,較強混響的條件下,該算法比傳統算法的定位正確率提高了約4%,額外率降低了約7%。

麥克風陣列;多聲源定位;子帶可控響應功率;聚類

A

TN912.3

10.3778/j.issn.1002-8331.1205-0133

NI Zhilian,CAI Weiping,ZHANG Yidian.Method for multiple speech source localization based on sub-band steered response power.Computer Engineering and Applications,2013,49(24):205-209.

國家自然科學基金(No.60971098)。

倪志蓮(1973—),女,副教授,主要研究領域為自動控制;蔡衛平(1973—),男,博士,講師;張怡典(1972—),女,副教授。E-mail:cwp0826@sohu.com

2012-05-17

2012-07-16

1002-8331(2013)24-0205-05

CNKI出版日期:2012-08-16http://www.cnki.net/kcms/detail/11.2127.TP.20120816.1045.013.html

猜你喜歡
信號
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
7個信號,警惕寶寶要感冒
媽媽寶寶(2019年10期)2019-10-26 02:45:34
孩子停止長個的信號
《鐵道通信信號》訂閱單
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
基于Arduino的聯鎖信號控制接口研究
《鐵道通信信號》訂閱單
基于LabVIEW的力加載信號采集與PID控制
Kisspeptin/GPR54信號通路促使性早熟形成的作用觀察
主站蜘蛛池模板: 永久天堂网Av| 国产人成在线观看| 伊人久久婷婷五月综合97色| 67194成是人免费无码| 国产微拍精品| 欧美伊人色综合久久天天| 狠狠操夜夜爽| 久久国产精品娇妻素人| 欧美一区二区三区欧美日韩亚洲| 丁香婷婷综合激情| 成人午夜免费观看| 好紧太爽了视频免费无码| 97精品久久久大香线焦| 午夜福利无码一区二区| 怡红院美国分院一区二区| 欧美成人精品高清在线下载| 在线观看无码av免费不卡网站| 精品乱码久久久久久久| 凹凸精品免费精品视频| 婷婷久久综合九色综合88| 国产综合精品日本亚洲777| 国产成人免费视频精品一区二区| 国产最爽的乱婬视频国语对白 | 国产剧情国内精品原创| 91成人免费观看| 久久人搡人人玩人妻精品| 亚洲一区二区三区麻豆| 久久国产高清视频| 日韩色图在线观看| 精品视频第一页| 日韩黄色精品| 国产精品粉嫩| 国产三级毛片| 欧洲极品无码一区二区三区| 国产成人亚洲精品色欲AV| 日本一区二区三区精品AⅤ| 久久午夜夜伦鲁鲁片无码免费| 国产欧美在线观看一区| 亚洲人成网站在线播放2019| 99精品这里只有精品高清视频| 国产精品一线天| 一级福利视频| 99热这里只有精品免费| 2021国产乱人伦在线播放| 国产又色又刺激高潮免费看| 成人综合久久综合| 国产精品第页| 日本一本在线视频| 精品久久综合1区2区3区激情| 国产精品亚洲精品爽爽| 亚洲 成人国产| 色综合久久综合网| 日本一区中文字幕最新在线| 成人福利在线观看| 亚洲国产成熟视频在线多多 | 国产精品乱偷免费视频| 久久男人视频| 欧美成一级| 国产综合无码一区二区色蜜蜜| 国产精品私拍在线爆乳| av一区二区三区在线观看| 亚洲成a∧人片在线观看无码| 又大又硬又爽免费视频| 国产成人欧美| 五月激情综合网| 亚洲欧洲自拍拍偷午夜色| 波多野结衣中文字幕久久| 久草视频精品| 欧美色视频在线| 国产噜噜在线视频观看| 亚洲男人在线天堂| 国产av剧情无码精品色午夜| 女人18毛片水真多国产| 永久在线播放| 亚亚洲乱码一二三四区| 日韩欧美中文字幕在线韩免费| 欧美.成人.综合在线| 久精品色妇丰满人妻| 999精品在线视频| 欧美成人手机在线视频| 亚洲日本在线免费观看| 美女毛片在线|