騰瀟琦,馮 祥,張翼飛,3
(1.北京市互聯網信息辦公室,北京 100062; 2.訊飛智元信息科技有限公司,安徽合肥 230088; 3.上海大學機電工程與自動化學院,上海 200072)
一種自適應建模的VAD方法
騰瀟琦1,馮 祥2,張翼飛2,3
(1.北京市互聯網信息辦公室,北京 100062; 2.訊飛智元信息科技有限公司,安徽合肥 230088; 3.上海大學機電工程與自動化學院,上海 200072)
語音活動檢測(Voice Activity Detection,VAD)是語音前端特征處理的一個重要環節,它直接影響到后續處理的效果和效率。主流的模型VAD對訓練數據的依賴度過高,在不同場景下需要重新訓練不同的模型,這帶來的數據標注的工作量是非常驚人的。一種自適應建模的VAD方法結合了能量VAD和模型VAD的優點,成功地解決了這個問題。它對每一條語音在線地訓練出語音和非語音模型,根據每一幀在模型上的似然度得分給它們打上標簽,經過平滑后就可以很好地找到語音的起點和終點。實驗結果表明,該方法取得了很好的效果,F1指標相比傳統能量VAD提升了0.031,說話人分離錯誤率下降了0.45%。
語音活動檢測;能量VAD;模型VAD;自適應建模
端點檢測(Endpoint Detection)又稱語音活動檢測(Voice Activity Detection,VAD),是指從一段包含語音的信號中確定出語音的起止點。它廣泛應用于通信系統、語音編碼等領域,在語音識別中更是不可或缺的環節。語音信號端點的有效檢測不僅能減少語音信號后期處理的運算量,而且對后續識別的效果有極大的促進作用[1]。傳統的VAD方法主要有基于短時能量、過零率、譜熵,基于混合高斯模型以及基于隱馬爾可夫模型等方法,它們大體可分為基于能量的VAD[2-4]和基于模型的VAD[5-7]兩種。
能量VAD是使用能量以及過零率來判斷語音和非語音,該方法優點是簡單、速度快,但是由于它無法濾除噪音和一些非語意信息的聲音,所以效果并不是太理想。模型VAD比較復雜,它是利用語音的統計特性對有效語音、靜音、噪音等進行建模,比較測試語音在各種模型上的得分實現分類。這種方法在效果上要優于能量VAD,但是需要大量的人工標注過的數據進行訓練,并且在測試語音和訓練語音信道不匹配時可能會引起效果的下降。
文中提出了一種新的自適應VAD方法,它結合了能量VAD和模型VAD的優點,采用了自適應在線建模的方法,解決了測試語音和訓練語音信道不匹配的問題,并且不需要離線的訓練數據,簡化了傳統的模型VAD方法,效果上可以達到模型VAD的水準。
除去靜音外,任何一段語音都是一段能量脈沖。一般來說,有效語音擁有相對較高的能量,因此可以采用劃門限的方法來檢測語音段。最經典的能量VAD算法如圖1所示。
從語音的開始到結束階段,會有一個能量上升和下降的過程,可以利用這個過程建立一套檢測語音段的規則。首先對待測語音進行K-means聚類,得到四個能量閾值K1、K2、K3和K4。當能量脈沖到來時,E上升到大于K1,并且不會再降低到K1之下而是逐漸增大到大于K2時,語音的起點就定為S1,如果S1到S2的距離過長起點就定為S2;同樣的,在能量下降階段,當E小于K2,并且不會再上升到K2之上而是逐漸減小到小于K3時,語音的終點就為S4,如果S3到S4的距離過長終點就定為S3。當峰值能量低于K4時,該段能量脈沖被丟棄,當能量脈沖的持續時間太短時,能量脈沖也被丟棄[8]。
這種方法在信噪比高的環境下,可以準確檢測出語音的起點和終點。但是其固有的缺點還是容易引入較大能量的噪聲,包括一些持續時間較長的噪聲能量脈沖,影響了語音段標注的準確率。
2.1 混合高斯模型
一個混合高斯模型(Gaussian Mixture Model,GMM)由多個高斯概率密度函數加權求和得到,如式(1):
其中,M為高斯混合模型的混合度;x為一個D維隨機向量;wi為每個高斯函數的混合權重;Ni(x)為一個D維的聯合高斯概率分布,見式(2):其中,μi為均值矢量;Σi為協方差矩陣。
至此,整個混合高斯模型λ可由{wi,μi,Σi}來描述。
2.2 模型訓練
對于T個訓練矢量X={xt,t=1,2,…,T},在用K -means聚類確定了初始λ的參數后,可以通過經典的EM(Expectation Maximization)算法迭代出一個新的混合高斯模型。其中:
在建立模型前需要大量經過人工標注選出的語音和非語音片段,標注完成后用語音片段訓練出一個混合高斯模型λspeech,用非語音片段訓練出另一個混合高斯模型λnonpeech。比較測試幀在這兩種模型上的得分即可實現語音幀和非語音幀的分類,再加入平滑就可以很容易找到語音的端點。
由于可以將噪聲片段加入非語音片段中訓練λnonpeech,模型VAD可以很好地解決能量VAD不能解決的高能量噪聲問題。但是此方法的缺點也是很明顯的,首先是需要大量人工標注過的數據,其次它對模型的依賴性很高,模型的好壞決定了最終VAD的效果,所以對于不同的語音背景環境,需要針對性地重新訓練出相應的模型,才能保證結果的準確性。最近幾年比較流行的模型VAD是基于DNN(Deep Neural Network)的VAD[10-11],該方法使用DNN來建立模型,相比GMM模型復雜度更高,效果更佳,但是此方法面臨著和傳統模型VAD一樣的問題。
文中提出了一種自適應建模的VAD方法,該方法通過在線訓練出語音段和非語音段的混合高斯模型,有效去除了靜音段以及能量較低的噪音段,而且不像傳統模型VAD那樣需要大量的訓練數據,在信噪比高的環境下取得了較好的效果。流程如圖2所示。
算法具體步驟如下:
(1)將待測語音分幀后計算能量,能量最高的幀標記為A,能量最低的幀標記為B,計算E=(EAEB)/EB,將E與門限值M相比較,若小于M則認為此條語音整段都是靜音或者噪音,若大于M則需要進行第二步。
(2)如圖3所示,將每一幀按照能量高低排序,抽取能量較低的一部分幀用以訓練出初始的λnonpeech,抽取能量較高的一部分幀用以訓練初始的λspeech。
(3)將語音的所有幀在 λnonpeech和 λspeech上計算得分,通過比較兩種模型上的得分高低給每一幀數據打上語音或非語音的標簽。
(4)用打上非語音標簽的所有幀數據訓練一個新的λnonpeech,同樣用打上語音標簽的所有幀數據訓練一個新的λspeech。
(5)重復步驟(3)、(4)若干次,直到新模型相當于上一個模型的畸變量小于Y時停止循環。
(6)再執行一次步驟(3),將每一幀數據都打上語音或非語音的標簽。
(7)使用平滑策略去掉其中的毛刺點。
經過以上七步,可以很容易地標記出語音起始點與結束點。該方法的訓練是在線進行的,雖然在效率上相比傳統模型VAD會有所下降,但是省去了繁瑣的離線訓練過程。實驗結果表明,該方法在信噪比較高的環境下效果顯著。
實驗數據采用的是電話信道下的移動客服數據,一共3 000條,都為兩人電話中的對話,信噪比較高。其中陜西移動、安徽移動、黑龍江移動的數據各1 000條。將陜西移動和安徽移動數據作為開發集用作調參,黑龍江移動的數據作為測試集使用。
基線系統采用傳統的四門限能量VAD和傳統的GMM模型VAD,新系統采用上文介紹的自適應建模VAD。其中,特征選用39維的MFCC特征(經過RASTA和二階差分),新系統中在線訓練時所用的畸變量Y取5%,M取10,GMM的混合度在下面的開發集實驗中選取。
使用的評測指標是F1和VAD后的語音進行說話人分離[12-13]的錯誤率。其中:

其中,Recall Rate表示語音的召回率;Precision Rate表示語音的正確率。
首先看開發集中不同高斯混合度下的幾組測試結果,見表1。
從表1可以看出,128混合度的GMM無論是在F1指標還是說話人分離錯誤率上都取得了最好的效果,但是相比較64混合度的GMM提升并不明顯,然而128混合度的 GMM在運算量上大約是 64混合度GMM的兩倍。為了兼顧效率,實驗后面的測試選用混合度為64的GMM,表2是1 000條測試集在三種不同策略系統上的對比。
表2的統計結果表明,由于結合了模型VAD的優點,自適應建模VAD系統的F1指標要好于采用基于傳統能量VAD方法的系統,并且在后續的降低說話人分離錯誤率上有明顯的優勢,而在與傳統模型VAD的對比中效果略有下降。這是因為自適應建模的VAD系統并沒有在自適應訓練中將高能量的噪音加入到非語音模型的訓練中,但是在高能量噪音很少的環境中,效果上幾乎和傳統模型VAD沒有區別,而且自適應建模VAD的便利性和環境適應性彌補了效果上的不足。
文中提出了一種自適應建模的VAD方法,該方法結合了能量VAD和模型VAD的優點,采用了在線自適應訓練GMM的方法,避開了傳統模型VAD中繁雜的人工數據標注和線下模型訓練的工作,并且不用擔心不同場景下的信道以及背景音不同等問題。該方法在實驗中取得了很好的效果,F1指標比傳統能量VAD提高了0.031,說話人分離錯誤率也比傳統能量VAD降低了0.45%。但是該方法還存在一些不足,首先它對高能量噪音的過濾能力并不好,必須在較高的信噪比環境下才能很好地工作,其次由于是在線的訓練模型,所以在運算速度上要弱于傳統的能量VAD和傳統的模型VAD,這些都是后續需要解決的問題。
[1] 孫戰先,儲飛黃,王 江.一種自適應語音端點檢測算法[J].計算機工程與應用,2014,50(1):206-210.
[2] Lamel L,Rabiner L,Rosenberg A,et al.An improved endpoint detector for isolated word recognition[J].IEEE Transactions on Acoustics Speech&Signal Processing,1981,29(4):777-785.
[3] 張仁志,崔慧娟.基于短時能量的語音端點檢測算法研究[J].電聲技術,2005(7):52-54.
[4] 周明忠,吉立新.基于平均幅度和加權過零率的VAD算法及其FPGA實現[J].信息工程大學學報,2010,11(6):713 -718.
[5] Wu J,Zhang X L.An efficient voice activity detection algorithm by combining statistical model and energy detection[J]. Journal on Advances in Signal Processing,2011(2):150-154.
[6] 雷建軍,楊 震,劉 剛,等.基于復高斯混合模型的魯棒VAD算法[J].天津大學學報,2009,42(4):353-356.
[7] 朱 杰,韋曉東.噪聲環境中基于HMM模型的語音信號端點檢測方法[J].上海交通大學學報,1998,32(10):14-16.
[8] 章 釗,郭 武.話者識別中結合模型和能量的語音激活檢測算法[J].小型微型計算機系統,2010,31(9):1914-1917.
[9] 郭 武.復雜信道下的說話人識別[D].合肥:中國科學技術大學,2007.
[10] Zhang X L,Wu J.Denoising deep neural networks based voice activity detection[C]//Proc of international conference on acoustics,speech,and signal processing.[s.l.]:[s.n.],1988: 853-857.
[11] 黎 林,朱 軍.基于小波分析與神經網絡的語音端點檢測研究[J].電子測量與儀器學報,2013,27(6):528-534.
[12] Reddy A M,Raj B.Soft mask methods for single-channel speaker separation[J].IEEE Transactions on Audio Speech&Language Processing,2007,15(6):1766-1776.
[13] 張 策.電話信道下說話人分離及識別研究[D].北京:中國科學院大學,2013.
An Voice Activity Detection of Adaptive Modeling
TENG Xiao-qi1,FENG Xiang2,ZHANG Yi-fei2,3
(1.The Office of Internet Information,Beijing 100062,China; 2.Iflytek Intelligent System Co.,Ltd.,Hefei 230088,China; 3.School of Mechatronics Engineering and Automation,Shanghai University,Shanghai 200072,China)
Voice Activity Detection(VAD)is an important part of speech front-end features processing which directly affects the effectiveness and efficiency of subsequent processing.Because of over-dependence on training data,the model VAD must train different model in different scenarios that will bring many tasks of data labeling.A VAD method of adaptive modeling,which combines with the advantages of energy VAD and model VAD,solves the problem successfully.It trains speech model and non-speech model online to each voice and labels each frame according to the likelihood score of different model,then the endpoint of voice can be get.The experiments show that this method has achieved a good result.It makes the F1parameters increased 0.031 and error rate of speaker separation decreased by 0.45%compared with the traditional energy VAD.
voice activity detection;energy VAD;model VAD;adaptive modeling
TP301
A< class="emphasis_bold">文章編號:1
1673-629X(2016)09-0026-04
10.3969/j.issn.1673-629X.2016.09.006
2015-06-02
2015-10-15< class="emphasis_bold">網絡出版時間:
時間:2016-08-23
北京市科技計劃項目(Z141100006014002)
騰瀟琦(1983-),女,碩士,研究方向為新聞傳播。
http://www.cnki.net/kcms/detail/61.1450.tp.20160823.1112.010.html