楊 悅,顧曉瑜
(南京郵電大學 通信與信息工程學院,江蘇 南京 210003)
基于線性判別分析的室內聲源定位方法
楊 悅,顧曉瑜
(南京郵電大學 通信與信息工程學院,江蘇 南京 210003)
在小信噪比和混響時間較長的惡劣環境下,基于模式分類的手段能夠有效克服傳統的聲源定位算法魯棒能力不足的缺點,其中樸素貝葉斯分類器定位的準確率高,計算量小,魯棒能力強。在此基礎上,為了獲得更好的定位性能,提出使用線性判別分析(LDA)分類器進行聲源定位。使用Matlab進行仿真,截取聲源信號的相位變換加權廣義互相關函數(PHAT-GCC)作為特征向量,通過投影變換,找到最佳的特征空間來區分特征數據,從而訓練得到線性判別分析分類器。然后在不同的混響時間和信噪比的條件下,進行定位測試,比較了線性判別分析分類器和樸素貝葉斯分類器的性能。仿真結果表明,在環境惡劣場合更宜使用線性判別分析分類器,特別是混響嚴重時,線性判別分析分類器的定位準確率比樸素貝葉斯分類器高1%~2%。
聲源定位;相位變換加權廣義互相關函數;LDA分類器;樸素貝葉斯分類器
基于麥克風陣列的聲源定位技術一直是國內外研究的一項熱點。它的主要原理是:通過具有一定幾何拓撲結構的麥克風陣列采集聲源信號,通過陣列信號處理技術對語音信號進行處理和分析,從而確定聲源位置。基于麥克風陣列的聲源定位技術已廣泛應用于許多領域,如視頻會議、聲音檢測、語音增強、語音識別、說話人識別、智能機器人、監控監聽系統、助聽裝置等。傳統的聲源定位技術研究大體上分為三類:基于最大輸出功率可控波束形成技術、基于高分辨率譜估計技術、基于時延估計技術。其中,基于廣義互相關時延估計算法(Generalized Cross-Correlation,GCC)由于其計算量小、方法簡單、容易實現,得到了廣泛應用[1-3]。
由于房間墻壁的吸收,聲源發出的聲波在各方向來回反射,又逐漸衰減的現象,稱為室內混響。當聲源停止后,從初始的聲壓降到60 dB所需的時間稱為混響時間,在這里用T60表示室內聲音的混響時間[1-2]。室內混響的存在,對時延估計影響很大。因此,對于聲源定位算法來說,如何提高抗噪聲和抗混響能力是長久以來的研究重心,很多改進方法的提出對克服糟糕的環境影響有一定的作用,如對GCC進行加權處理[4-5],但是在信噪比很小,混響很嚴重的情況下,基于傳統算法的改進措施很難有明顯的效果;此外當麥克風無法接收到聲源的直達聲時,也難以定位。
近年來,隨著統計機器學習的發展,很多傳統的問題有了新興的解決方式[6],聲源定位領域也是如此。文獻[7-8]提出了針對頭相關函數(HRTF)特征提取并通過K-Means聚類和神經網絡進行聲源定位的方法;文獻[9-10]使用樸素貝葉斯分類器,通過鑒別互相關函數的方法進行聲源定位。這類方法能有效解決傳統聲源定位算法的缺點,不僅有很好的魯棒性,而且計算效率高。
在此基礎上,為了能夠進一步提高在惡劣條件下聲源定位的效果,提出采用LDA(線性判別分析)分類器鑒別相位變換加權廣義互相關函數來進行聲源定位的方法,并對其進行了實驗。
PHAT-GCC(PHAse Transform Generalized Cross -Correlation)方法是經典的基于時延的聲源定位技術之一。輕量級的計算復雜度和易于實現的特點使其應用廣泛。
由于來自同一聲源的信號具有一定的相關性,通過計算不同麥克風接收到的信號的相關函數,由相關函數的峰值可以確定時延差,從而計算出聲源的位置。相關函數的計算如式(1):
(1)

然而在實際環境中,由于噪聲和混響的影響,相關函數的最大峰會被弱化,有時還會出現多個峰值,給實際峰值檢測帶來了困難。因此,對于互相關函數法,常使用加權函數突出時延峰值來減小混響和噪聲的影響,其中PHAT(相位加權)能在噪聲較小時有效地抗混響。相位加權廣義互相關函數的計算如式(2):
(2)
(3)
其中,ψ1,2(ω)為相位加權,相當于白化濾波,改進后的互功率譜是一個純相位函數,它的幅值為1,因此PHAT加權是用相位的信息來求時延。
但當噪聲增大時,信噪比較低的頻率逐漸增多,PHAT-GCC的性能逐漸下降,這種方法就不管用了。對于PHAT-GCC來說,當噪聲和混響嚴重時,可能會出現多個虛假譜峰,但是在相同的室內環境下,同一位置聲源引起的混響對譜峰的干擾是類似的,如果使用模式識別的方法,將帶有混響的信號的PHAT-GCC作為特征,而非峰值檢測的方法。由混響產生的虛假譜峰也能看成是一種特征,可以一定程度上減小混響的影響,在小信噪比的情況下定位性能不至于迅速下降,比傳統的時延定位算法有更強的魯棒性。
LDA是一種經典的線性學習方法,也稱“Fisher判別分析”,常常作為特征提取和降維算法用于人臉識別、人臉檢測中[11-13],也可直接作為分類器使用[14-16]。其思想是將高維的樣本投影到最佳鑒別矢量空間,以達到抽取分類信息和壓縮特征空間維數的效果,使投影后的樣本在新的子空間有最大的類間距離和最小的類內距離,從而能更好地分辨模式類別[17]。LDA投影示例如圖1所示[18]。

圖1 LDA投影示例

則引入目標函數J:

(4)
定義“類內散度矩陣”為:

(5)
定義“類間散度矩陣”為:
Sb=(μ1-μ2)(μ1-μ2)T
(6)
則式(3)可重寫為:
(7)

計算出LDA模型參數后,即可將測試樣本數據y投影到w上,得到投影結果Z=wTy。再由判決式(8)決定類別:
(8)
(9)
其中,N1和N2分別是第一類訓練樣本和第二類訓練樣本的個數。
3.1 PHAT-GCC特征提取
在房間中放置2個麥克風的麥克風陣,位于ls的聲源S到第i個麥克風的房間脈沖響應為hi(ls,t)(i=1,2)。設聲源S發出的信號為s(t),則麥克風接收到的信號為xi(t)=hi(ls,t)*s(t),其離散傅里葉變換為Xi(k)。由式(2)可以求得長度為K幀的PHAT-GCC:Rj(τ),j=1,2,…,K。
對于任意一幀Rj(τ),截取特征數據:

(10)
(11)
其中,round為取整函數;D為麥克風間距;fs為采樣頻率;c為聲速;因子α設為1.67。
即截取PHAT-GCC譜線上所有可能取得譜峰的時延點的數據,轉化為特征數據集,最終可以得到:Y=[y1,y2,…,yK]。
3.2 訓練LDA分類器模型
聲源位于L個不同的方位角,即分類目標有多種類別,因此需要訓練多分類LDA模型。對于LDA的多分類問題,可以直接從二分類問題的求解方式推廣出來,也可以使用“One vs Rest”或“One vs All”方法[17]將多分類任務拆分成若干個二分類任務來實現。這里通過直接多分類的方式求解模型。
對于L個類別的訓練數據Yi(i=1,2,…,L),使用D個投影向量W=[w1,w2,…,wD],對K幀訓練數據進行投影,結果為Z=WTYi。此時類內散度矩陣由式(5)推廣到:
(12)
(13)
類間散度矩陣由式(6)推廣到:
(14)
其中,μ為全體樣本均值。
此時目標函數可選擇:
(15)
其中,tr(·)表示矩陣的跡。

3.3 定位測試
對于K'幀的測試數據,可以使用單幀PHAT-GCC數據測試一個方位,測試K'次;也可以同時使用多幀數據進行定位。

LDA分類器的聲源定位流程見圖2。

圖2 LDA分類器的聲源定位流程
實驗使用Matlab R2014A進行仿真。使用RoomSim工具包[19]模擬室內環境,使用LDA分類器在小信噪比和較嚴重的混響環境下進行定位,并將結果和樸素貝葉斯分類器的定位結果進行對比。
4.1 實驗數據
仿真的房間尺寸為8 m×6 m×3 m,使用2個麥克風組成麥克風陣,麥克風陣位于(4,2.5,1.5)處,麥克風間距0.3 m;對接收到的信號分幀加漢寧窗,每幀512點,幀移256點,即每幀信號長度32 ms,使用100幀訓練數據Ytrain=[y1,y2,…,y100]和400幀測試數據Ytest=[y101,y102,…,y500];聲源信號采用麻省理工學院TIMIT語音庫的語音。聲源位于以麥克風陣中點為圓心,半徑為2 m的圓弧上,方向角為10°、30°、50°、70°、90°、110°、130°、150°、170°共9個位置,如圖3所示。

圖3 仿真的房間平面圖
實驗參數如下:中等的混響時間T60=300 ms和嚴重的混響時間T60=600 ms;加性白噪聲信噪比為clean(無噪)、25 dB、20 dB、15 dB、10 dB和5 dB;特征屬性使用單幀PHAT-GCC。
4.2 結果與分析
在混響時間T60=300 ms和T60=600 ms這兩種情況下,分別比較了LDA算法和樸素貝葉斯算法在6種信噪比情況下的定位準確率,如圖4和圖5所示。

圖4 T60=300 ms時的定位準確率比較
從實驗結果中可以看出,定位準確率隨著信噪比的降低而降低,隨著混響的加強而降低。在T60=300 ms時,信噪比為25 dB,20 dB,15 dB,10 dB的情況下,使用LDA算法定位的準確率相比樸素貝葉斯算法有1%左右的小幅提升。當T60=600 ms時,6種信噪比的情況下,使用LDA算法定位的準確率相比樸素貝葉斯算法都有明顯提升,能提高2%左右的準確率。顯然,混響嚴重的情況下更宜使用LDA分類器進行定位。
為了提高惡劣環境下聲源定位的性能,提出了一種基于LDA分類器的聲源定位方法,使用PHAT-GCC作為特征。實驗中僅使用了單幀(32 ms)PHAT-GCC作為特征屬性,實際環境下可以使用多幀PHAT-GCC數據,能得到更高的準確率。實驗結果表明,LDA分類器在聲源定位的性能上優于樸素貝葉斯分類器,特別是在混響嚴重的情況下有明顯優勢,顯著改善了在惡劣環境下聲源定位的效果。
[1] 萬新旺.基于陣列信號處理與空間聽覺的聲源定位算法研究[D].南京:東南大學,2011.
[2] 周 峰.室內麥克風陣列聲源定位算法研究和實現[D].上海:復旦大學,2009.
[3] 劉 超.基于麥克風陣列的聲源定位算法研究[D].南京:南京大學,2015.
[4] 崔瑋瑋,曹志剛,魏建強.聲源定位中的時延估計技術[J].數據采集與處理,2007,22(1):90-99.
[5] 夏 陽,張元元.基于矩形麥克風陣列的改進的GCC-PHAT語音定位算法[J].山東科學,2011,24(6):75-79.
[6] 檀何鳳,劉政怡.模式分類方法比較研究[J].計算機技術與發展,2015,25(2):99-102.
[7] 馬 浩,吳鎮揚,張 杰,等.與頭相關傳遞函數的雙耳特征提取與分類[J].電路與系統學報,2007,12(5):58-64.
[8] 馬 浩,周 琳,胡紅梅,等.基于與頭相關傳遞函數的神經網絡聲源定位方法研究[J].電子與信息學報,2007,29(9):2058-2062.
[9] Wan Xinwang,Wu Zhenyang.Sound source localization based on discrimination of cross-correlation functions[J].AppliedAcoustics,2013,74(1):28-37.
[10] Wan Xinwang,Liang Juan.Improved sound source localization using classifier in reverberant noisy environment[J].Journal of Applied Science,2013,13(21):4897-4901.
[11] 李道紅.線性判別分析新方法研究及其應用[D].南京:南京航空航天大學,2004.
[12] 王建國,楊萬扣,鄭宇杰,等.一種基于ICA和模糊LDA的特征提取方法[J].模式識別與人工智能,2008,21(6):819-823.
[13] 謝永林.LDA算法及其在人臉識別中的應用[J].計算機工程與應用,2010,46(19):189-192.
[14] Mansor M N,Rejab M N,Syam S,et al.Automatically infant pain recognition based on LDA classifier[C]//International symposium on instrumentation & measurement,sensor network and automation.[s.l.]:[s.n.],2012:380-382.
[15] Zhang Y,Zhou X,Witt R M,et al.Automated spine detection using curvilinear structure detector and LDA classifier[J].Neuroimage,2007,36(2):346-360.
[16] 陳惠勤,駱德漢.基于擴散映射和LDA的辛味中藥材鑒別研究[J].計算機技術與發展,2015,25(5):192-195.
[17] 周志華.機器學習[M].北京:清華大學出版社,2016.
[18] Bishop C.Pattern recognition and machine learning[M].[s.l.]:Springer,2007.
[19] Campbell D.ROOMSIMtoolbox[EB/OL].2012-08-08.http://media.paisley.ac.uk/~campbell/Roomsim/.
Indoor Acoustic Source Localization Method with LDA
YANG Yue,GU Xiao-yu
(College of Telecommunications and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)
The method based on pattern classification can overcome the deficiency of traditional acoustic source localization algorithms which has an insufficient robust ability in the harsh environment of small SNR and severe reverberation.Among them,Naive Bayes classifier has high location accuracy with a small amount of calculation and strong robustness.In order to achieve better localization performance,Linear Discriminant Analysis (LDA) classifier is adopted to locate acoustic source on the basis of former research.It has been tested by Matlab,while the Phase Transform Generalized Cross-Correlation (PHAT-GCC) function would be used as feature vector.LDA classifier has been trained through projection transformation which could help to find a better feature space to discriminate the feature data.Subsequently,the source would be located in different reverberation and noisy conditions to compare the performance with LDA classifier and Naive Bayes classifier.The simulation results have demonstrated that LDA classifier is a better choice in harsh environment and that the location accuracy of LDA classifier is higher than that of Naive Bayes classifier by 1% to 2%,especially in severe reverberation environment.
acoustic localization;PHAT-GCC;LDA classifier;Naive Bayes classifier
2016-07-07
2016-10-13 網絡出版時間:2017-04-28
江蘇省自然科學基金(BK20140891);聲納技術國防科技重點實驗室開放研究基金(KF201503)
楊 悅(1989-),男,碩士研究生,研究方向為語音處理、聲源定位、機器學習。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170428.1703.058.html
TP301
A
1673-629X(2017)06-0187-04
10.3969/j.issn.1673-629X.2017.06.039