郭業才,侯 坤
(1.南京信息工程大學電子與信息工程學院,南京 210044;2.江蘇省大氣環境與裝備技術協同創新中心,南京 210044;3.南京信息工程大學濱江學院,江蘇無錫 214105)
波達方位(Direction of Arrival,DOA)估計是通過信號的空間特征參數,確定信號在空間域中的位置信息,如距離、方位角、俯仰角等[1-6]。聲源定位技術是波達方位估計的一種重要手段,其中多重信號分類(Multiple Signal Classification,MUSIC)算法[7]和旋轉不變性子空間(Estimating Signal Parameter Via Rotational Invariance Techniques,ESPRIT)算法[8]是傳統的DOA技術。它們在低信噪比環境下定位誤差大。隨著計算機技術的發展和智能算法的出現,聲源定位技術得到了發展。文獻[9]中提出基于局部保持投影和徑向基(Radial Basis Function,RBF)神經網絡的DOA估計算法,利用局部保持投影對神經網絡的訓練樣本進行降維,加快了神經網絡的訓練過程,但定位精度不高;文獻[10]中提出從廣義互相關(Generalized Cross Correlation,GCC)向量中提取方位特征送入多層感知器(Multi-layerperceptron,MLP)網絡學習的DOA估計算法定位準確,但抗噪性較差。
假設空間中有M個陣元組成的線性均勻陣列,窄帶聲源信號為θi(i∈[1,2,…,k]),每個信號源互不相干的入射到麥克風陣列上,第m個麥克風接收的信號為

式中:m =1,2,…,M;δm為第m個陣元對信號的增益;s(t)為t時刻聲源入射信號;τm為第m個陣元接收聲源信號相對于參考陣元的時延;vm(t)為t時刻第m個陣元的噪聲。式(1)的矩陣形式為

式中:A為信號的導向向量。假設噪聲均值為0、方差為σ2的高斯白噪聲,則麥克風陣列接收信號的協方差矩陣為

式中:*表示共軛。R的矩陣形式為

將協方差矩陣R的上三角陣中元素的實部、虛部分開后作為SSDAE-DNN的輸入,即

式中:Re(·)為取實部;Im(·)為取虛部。
本文網絡框架由SSDAE與DNN網絡組成,如圖1所示。通過SSDAE網絡進行抗噪訓練,將訓練得到的最優權重遷移給DNN網絡作為輸出訓練權重,通過損失函數優化DNN網絡模型,建立語音信號特征yn和方位角θ之間的非線性映射關系。將語音DOA估計問題視作分類問題,通過SSDAE-DNN網絡對yn進行分類,根據分類結果選取對應的角度標簽,實現對方位角θ的估計。

圖1 SSDAE-DNN網絡結構
文獻[13-15]中提出的去噪自編碼器(De-noising Self Encoder,DAE),由輸入層、隱藏層和輸出層組成。在DAE的損失函數中加入稀疏因子ρ就構成稀疏去噪自編碼器(Sparse De-noising Self-encoder,SDAE)。SDAE同時具有稀疏性和魯棒性,網絡結構如圖2所示。
日前,在美國舉行的世界啤酒品評大賽“世界啤酒錦標賽”中,青島黑啤以出色的口味與品質征服評委味蕾,一路“過關斬將”奪得金獎。無獨有偶,11月14日,“2018歐洲啤酒之星”大賽頒獎儀式在德國南部城市紐倫堡會展中心舉行,青島啤酒皮爾森從來自全球51個國家、2344款啤酒產品中脫穎而出,榮獲“歐洲啤酒之星”大獎。

圖2 SDAE算法流程圖
預處理過的訓練樣本yn分配給輸入層,隱藏層單元為

式中:Z為隱藏層單元數;W∈RM×N為編碼器權重矩陣;be為編碼偏置。輸出層單元為:

式中:f(·)為非線性激活函數;WT∈RM×N為解碼器權重;bd為解碼偏置。SDAE網絡的損失函數為

式中:NT為數據集數量;β為超參數,其值在訓練過程中通過調整最優參數時決定;KL為Kullback-Leibler散度;ρz為第z個隱藏單元的平均激活度,且

SSDAE網絡由多個SDAE堆疊而成,前一個SDAE隱藏層的輸出作為下一個SDAE的輸入,網絡結構如圖3示。

圖3 SSDAE網絡結構
SSDAE網絡采用貪婪逐層進行訓練,單獨訓練每一個SDAE網絡得到最優權值后作為SSDAE網絡的初始權值,通過反向傳播(BP)整體微調,直至得到最優參數,微調階段的損失函數為與式(10)相比,式(13)無稀疏約束項,是由于訓練單個SDAE時已包括稀疏約束。

用SSDAE網絡對語音定位進行預訓練時,添加了抗噪訓練,優化了特征選擇,稀疏因子ρ將包含無用信息的特征權重置為0,降低了訓練復雜度,提升了算法的抗噪性能與收斂速度,且可從有限的樣本中提取到更多的特征信息。
本文采用的DNN網絡如圖1(b)所示,有3層全連接隱藏層。將SSDAE網絡預訓練模型的最優權值作為DNN的初始權值,減少了DNN網絡模型的訓練時間。同時,因SSDAE網絡在編碼過程中加入了高斯白噪聲進行抗噪訓練,采取遷移策略遷移權重后,一定程度上提升了DNN網絡的抗噪性能。通過3層全連接隱藏層強化特征提取和非線性映射能力,建立DNN學習特征與DOA估計之間的非線性映射關系,獲得一個抗噪性強的穩健DOA估計系統。隱藏層為

式中,l為隱藏層的層數,l∈{1,2,3}。
DNN網絡框架的損失函數為

以均方根誤差(Root Mean Square Error,RMSE)作為算法性能評價指標,比較本文算法、基于多層感知器(Multilayerperceptron,MLP)、徑向基函數(Radial Basis Function,RBF)和MUSIC的DOA估計算法的準確性和穩定性。RMSE定義為

式中,θi、分別為真實值與估計值。
房間尺寸為5.5 m ×3.3 m ×2.3 m,麥克風陣列陣元間距為5 cm,第一個陣元為參考陣元,聲源與麥克風相距1.5 m,均勻陣列的高度為1.2 m,如圖4所示。房間內墻面(普通石灰墻)的反射系數為0.95,地板的反射系數為0.90,麥克風陣元個數為8。

圖4 仿真條件示意圖(m)
數據集聲源信號取為純凈語音信號,入射角度為0.1°,信號遍歷各個分組的定位范圍,按8∶2的比例隨機抽取制作訓練集和數據集,數據集規模約為3.6×104個。將音響放置在參考陣元的四周作為聲源,實驗數據由一個8陣元線性麥克風陣列采集。
以基于SSDAE-DNN、MLP和RBF神經網絡的DOA估計算法為互比對象,分別使用4 500、9 000和18 000個訓練樣本。3種算法的運行時間見表1。表1表明,基于SSDAE-DNN和MLP網絡的DOA估計算法的運行速度遠遠快于基于RBFNN網絡的DOA估計算法,而本文算法的運行速度又快于基于MLP網絡的DOA算法。

表1 3種算法的運行時間 s
在不同信噪比下,比較基于SSDAE-DNN、MUSIC、MLP和RBFNN的DOA估計算法的抗噪性能。信噪比范圍為-5~15 dB,其余仿真條件與前面相同。圖5表明,3種DOA估計算法的RMSE均隨信噪比增大而逐漸減小,而本文算法的RMSE均小于其他算法,有更好的精確性和抗噪性。

圖5 信噪比對系統性能的影響

圖6 陣元數對系統性能的影響
在不同陣元數下,比較基于SSDAE-DNN、MUSIC、MLP和RBFNN的DOA估計算法的RMSE。麥克風陣元個數分別為4、6、8、10和12,其余仿真條件與前面相同。圖6表明,3種算法的RMSE均隨陣元個數及輸入網絡特征個數增加而逐漸降低且變化也趨于平緩,而本文算法的RMSE在4個陣元時大于基于RBF的DOA估計算法,但隨著陣元個數的增加,RMSE逐漸減小且小于其他算法。
針對低信噪比時傳統的DOA估計算法定位誤差大問題,提出了基于SSDAE-DNN神經網絡的語音DOA估計算法。該算法通過SSDAE增強了網絡框架的抗噪性能,通過遷移學習轉移權重提升了DNN網絡框架的泛化性。仿真與實驗結果表明,在低信噪比下,本文算法的性能上優于基于MLP、RBF和MUSIC的DOA估計算法。