龐 宇,劉志偉,林嘉宇(.國防科技大學電子科學與工程學院,長沙 40073;2.武警860部隊,盤錦 2400)
?
基于波束形成器輸出比的自適應語音分離方法
龐 宇1,2,劉志偉1,林嘉宇1
(1.國防科技大學電子科學與工程學院,長沙410073;2.武警8610部隊,盤錦124010)
摘 要:運用波束形成的方法能夠有效地從干擾和噪聲中提取所需的語音信號,如最小方差無失真響應的方法。然而,為了避免應用波束形成器進行語音分離時所產生的信號抵消現象,當目標講話者處于活動狀態的時候,該波束形成器的適應性應處于暫停狀態,這就需要對目標講話者的語音活動狀態進行分類。基于這種思想,首先從信號模型和系統模型出發,介紹了“波束形成器輸出比”這個新量的相關概念和基于波束形成輸出比的“BOR-VAC”新方法。而后對窗口值、閾值的選取和VAC模塊的實現過程進行了詳述。最后通過仿真實驗實現并驗證了這種基于波束形成器輸出比的自適應語音分離新方法的高效性和可靠性。
關鍵詞:語音分離;波束形成;雙波束;語音活動性分類;波束形成器輸出比;自適應控制
語音分離的目的是從嘈雜背景中提取出目標講話者的聲音。目前用于語音分離最普遍的三種方法是:①波束形成方法;②基于獨立成分分析(ICA)的盲源分離(BSS)方法;③單聲道分離方法。其中,波束形成技術利用了空間信息,BSS利用了信號的統計獨立性,而單聲道分離則利用了二進制掩蔽或者基于混合模型的技術。
盡管從20世紀50年代后的長期發展中出現了諸多算法,但語音分離仍然是實踐中的一個難題。一個不可忽略的原因是,分離算法實際性能的好壞取決于前提條件。對目標講話者活動性的判斷作為其中重要的一項,在通常情況下仍然是一種假設[1]。這里所研究的算法就在于消除這一假設,并應用解決方案來實現基于波束形成方法的自適應語音分離系統。
眾所周知,波束形成是一個使用傳感器陣列的多功能空間濾波方法。在語音分離中,波束形成系統對輸入信號應用權向量(即波束形成器)來獲得輸出。其權向量應滿足預先定義在不同方向上的功率響應要求[2]。例如,一個MVDR波束形成器的權向量就應滿足:在與目標講話者的方向上功率響應一致的同時,化[3]。這使得MVDR波束形成器可以對非平穩信號進行高性能分離,如語音信號。然而,應用MVDR波束形成器進行語音分離時最常見的問題是信號抵消現象,即當目標講話者的狀態是活動的同時波束形成器的適應性也為開啟狀態,那么所需信號在輸出時將被抵消掉[4]。
為了減小這種現象的發生,這里提出了一種暫停策略。由于人們在交談過程中的語音活動狀態會無規律的改變,因此必須首先確定在每個輸入音段中的講話者,稱其為“語音活動性分類”(VAC)的問題。為使波束形成器擁有自適應機制,對于語音活動性分類問題的自動解決方案至關重要。
2.1信號模型
設麥克風陣列為M元,P(P≥2)個聲源中的兩個為主要講話者,hp,m為講話者p(p∈{1,2,...,P})與麥克風m(m∈{1,2,...,M})之間的室內脈沖響應,sp為來自講話者p的原始信號的矢量樣本,vm為麥克風m所接收到的噪聲,k(k∈{1,2,...,Nf})為頻率窗口指數,q(q∈{1,2,...})為幀指數,X,S,H,V為時域中相關分量的頻域系數,則其信號在頻域中的多路徑模型為:
X(k,q)=∑pp =1Sp(k,q)Hp(k)+ V(k,q)(1)
如果只使用兩個波束形成器來記錄兩個目標講話者,那么該系統被稱作“雙波束系統”(BiBeam){W1,W2},其中Wp(p∈{1,2})是目標講話者p所對應的波束形成器。
如果雙波束系統被賦予一個多路徑輸入信號X(k,p),那么該系統的輸出包含兩個波束形成器的輸出{Y1(k,p),Y2(k,p)},其中
Yp(k,p)= WHp(k,p)X(k,p)(2)
2.2系統模型
圖1展示了所提出的用于兩個主要講話者語音分離的自適應波束形成系統。該系統包含兩個模塊:①用來識別活動講話者的VAC模塊;②語音分離模塊。當給定一個多路徑輸入信號X后,VAC模塊首先識別兩個講話者的語音活動狀態。然后VAC模塊將處理結果送入第二個模塊,以便系統決定W1和W2這兩個適應性波束成形器各自的開關狀態。最后,每個適應性波束形成器從輸入信號中分離出想要的信號。
第二個模塊中的兩個適應性波束形成器是兩個MVDR波束形成器,其中波束形成器Wp負責分離講話者p的語音,其值為[2]:

圖1 自適應波束形成系統示意圖

這里的R~IpN是干擾和噪聲協方差矩陣的一個估計,Ap是講話者p的方向向量。為了保持較高的語音分離性能,MVDR的權矢量需要定期與不斷更新的R~IpN相適應。設u(u∈(0,1))為遺忘速率,則有R~IpN的更新依據下列公式[5]:

3.1波束形成器輸出比
對雙波束系統加載一個多路徑輸入信號X(k,p),則輸出信號中兩個波束形成器的輸出功率之比叫做“波束形成器輸出比”(BOR)。那么,在長度為k的頻率窗口中,幀長為q的兩個輸出信號,則一個長度為l的片段的BOR為:

這里的Ql是片段l中幀指數的集合。注意到,在此定義中,雙波束系統可以使用任何波束形成方法。
在圖2中,輸入信號中包含兩個講話者和白噪聲,它們合成一個無混響的記錄環境。上圖展示了基于MVDR雙波束系統計算出的BOR值,下圖展示了兩個講話者語音的原始參照信號。圖中的BOR值展示了兩個講話者的語音活動性不斷變化時所表現出的特性,即當只有1號講話者(SP1)是活動的時候,BOR達到一個很大的值;當只有2號講話者(SP2)是活動的時候,BOR達到一個很小的值;當兩個講話者同時是活動的時候,BOR在中間值范圍內波動。從而根據BOR的值可以辨別不同的語音活動性事件。
3.2BOR-VAC方法
進一步注意到,由于SP1-BOR和OVL的支集能被很好的分離開來,所以上面的SP1-OVL-SP2三種事件分類問題可以被簡化為SP1-OVL和SP2-OVL兩個子分類事件。特別地,將SP1中的BOR記作r1,將SP2中的BOR記作r2。每個子分類SP1-OVL(SP2-OVL)都使用一個閾值θ1(θ2)和一個頻率窗k1(k2)來實現。對于給定一個長度為l的輸入片段,VAC所做出的決策如下,并稱其為BOR-VAC方法:

圖2 MVDR雙波束系統中BOR分布示意圖

3.3窗口值和閾值選取
在頻率k下,令f(Rk0)(r),g(Rk0)(r),f(Rk2)(r),g(R
k2(r)分別為OVL-BOR和SP2-BOR的概率密度函數和累積密度函數。在一個值為k的頻率窗中,如果SP2-OVL有一個閾值θ2,令α為當OVL為真時決策為SP2的概率(誤報率),β為當SP2為真時決策為OVL的概率(漏報率),則有:


在一個分類問題中,總是試圖將誤判概率最小化。當給定一個期望的誤報率α后,遵循以下步驟可以找到最優的窗口值k2和閾值θ2:
(1)在每個值為k的頻率窗中,計算誤報點θ2(k):g(k)R0(θ2)=α
(2)在每個值為k的頻率窗中,計算β(k,θ2(k))
(3)選擇最優的窗口值k2,使得:k2= argminkβ (k,θ2(k))
(4)選擇閾值:θ2=θ2(k)
鑒于BOR的精確分布難以獲取,這里利用語音活動性事件z(z∈{0,1,2})近似為高斯分布的對數分布log-BOR[6],RL,z(k)為其隨機變量,則有RL,z(k)~N(μz(k),σ2z(k))。令erf為誤判函數,則RL,z(k)的累積密度函數為[7]:

3.4VAC模塊
圖3中的ABS系統應用BOR-VAC方法實現自動AC機制的詳細處理過程:
(1)多路徑輸入信號X通過噪聲檢測組件,其中的非純噪聲信號被長度為、重參數為的FFT變換為頻域信號;
(2)在所選擇的值為k1和k2的頻率窗(分別對應子分類SP1-OVL和SP2-OVL)中,CBF雙波束組件{W~1,W~2}對兩個講話者進行波束形成處理,而后輸出{Y~1,Y~2};
(3)在BOR-VAC組件中,計算每個長度為LS、重疊參數為L~S的片段在以上兩個頻率窗中的log-BOR值rL(k1,l)、rL(k2,l),并將其與閾值θ1、θ2比較,從而利用分類規則(6)確定該片段均衡的VAC決策。
(4)在VAC模塊的最后階段,由于log-BOR值是針對重疊參數為L~S的片段計算所得,因此結果中將出現輸入樣本與片段一對多的情況,時域轉換器根據多數投票算法從眾多片段中選取相應片段作為樣本的最終分類結果。
(5)VAC模塊將信息傳遞給AC組件,MVDR雙波束組件立即對兩個講話者進行語音分離,并得出結果。)

圖3 VAC模塊處理過程
現有兩個講話者位于距麥克風陣列中心的距離大約80cm,分開角度為50°的兩個位置。在仿真實驗中,針對SP1、OVL和SP2三類事件,BOR-VAC系統使用各事件1分鐘長的數據進行訓練。將合成數據的誤報率設定為0.01,CBF雙波束中使用的FFT長度大約32ms,具有50%的重疊。合成錄音使用的片段長度為60幀(大約1s),實驗結果如圖4所示。

圖4 基于BOR的自適應語音分離
研究并實現了一個基于語音活動性分類自適應機制的新型語音分離系統,基于新式的VAC可行性解決方案設計的自動VAC模塊是該系統的重要組成部分,該方法的核心元素是BOR這個新的量值。通過利用基于BOR-VAC方法所得的VAC結果,實現了MVDR波束形成器適應性的自動控制。這種單獨基于波束形成方法的VAC解決方案不僅具有較低的復雜性,而且分別在合成語音和真實記錄數據中都實現了較高的分類精度。
參考文獻:
[1]E Vincent,S Araki,F Theis,G Nolte,P Bofill,H Sawada,A Ozerov,V Gowreesunker,D Lutter,N Q Duong.The signal separation evaluation campaign(2007-2010):achievements and remaining challenges[J].Signal Process,2012,92(8):1928-1936.
[2]H L V Trees.Optimum Array Processing Part IV of Detection,Estimation,and Modulation Theory[M].1st ed.Wiley-Interscience,2002.
[3]K Kumatani,T Gehrig,U Mayer,E Stoimenov,J McDonough,M Wolfel.Adaptive beamforming with a minimum mutual information criterion[C].IEEE Trans.Audio Speech Lang.Proc,2007,15(8):2527-2541.
[4]H Cox.Resolving power and sensitivity to mismatch of optimum array processors[M].J.Acoust.Soc.Am.,1973,54(3):771-785.
[5]I McCowan.Robust speech recognition using microphone array(Ph.D.thesis)[D].Queensland University of Technology,Australia,2001.
[6]N T Thuy,W Cowley,A Pollok.Voice activity classification using Beamformer-Output-Ratio[J].2012 Australian Communications Theory Workshop,IEEE,2012:105-110.
[7]M H DeGroot,M J Schervish.Probability and Statistics [M].3rd ed.Addison Wesley,2002.
Automatic Adaptive Speech Seperation Method Based on Beamformer-output-ratio
Pang Yu1,2,Liu Zhiwei1,Lin Jiayu1
(1.College of Electronic Science and Engineering,National Defense Technology University,Changsha 410073,China;2.The Armed Police 8610,Panjin 124010,China)
?
Abstract:The beamforming method can be used to effectively extract the desired speech signal from interference and noise.However,to avoid signal cancellation,the classification for the speakers' voice activity status is required.In this paper,we study and implement a new method based on beamformer-output-ratio,and construct an automatic adaptive beamforming system to implement speech separation.The simulation verifies the reliablity of the algorithm.
Key words:Speech separation;Beamforming;BiBeam;Voice activity classification;Beamformer-output-ratio;Adaption control
DOI:10.3969/j.issn.1002-2279.2016.02.011
中圖分類號:TN912.3
文獻標識碼:A
文章編號:1002-2279(2016)02-0037-04
作者簡介:龐宇(1987-),男,遼寧省盤錦市人,工程碩士,主研方向:現代通信技術。
收稿日期:2015-06-25