999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GMM的算法在語音檢出系統中的應用研究

2015-04-12 00:00:00喬立升等
現代電子技術 2015年13期

摘 要: 高斯混合模型(GMM)由于通過改變高斯的混合度,能夠逼近任意概率分布,所以在語音識別領域應用廣泛。對高斯混合模型的訓練,常見的訓練方法是最大似然估計(MLE),這種訓練方法能最大程度擬合所有樣本的分布,但沒有考慮模型之間的相互影響,導致識別過程會出現混淆情況;區分性模型訓練算法,適合應用于大數據量復雜組合類別的區分問題。這里提出采用的區分性模型訓練方法,其原則是最小化分類錯誤風險,通過更精確細致地刻畫不同模型之間的分類面,提升識別的效果。實驗結果表明,該訓練方法比最大似然估計的訓練方法在多類別語音檢出任務中具有更好的識別效果。

關鍵詞: 高斯混合模型; 最大似然估計; 區分性模型訓練; 語音檢出

中圖分類號: TN912.3?34 文獻標識碼: A 文章編號: 1004?373X(2015)13?0059?03

Abstract: Gaussian mixture model (GMM) can approximate any probability distribution by changing Gaussian mixedness, so it is widely used in voice recognition domain. Maximum likelihood estimation (MLE) is a common training method for GMM training, which can fit the distribution of all samples to the greatest extent. The interplay between models isn′t considered in MLE, which leads to confusion appearing in recognition process. The discriminative model training algorithm is suitable for distinguishing the categories of large amount data complex combination. In this paper, application of the discrimination training algorithm is proposed, whose principle is to minimize the risk of classification errors. The recognition effect is improved through more precisely and meticulously describing classification facet between different models. The experimental results show that the training method has better recognition effect than maximum likelihood estimation in multi?class voice detection task.

Keywords: GMM; MLE; discriminative model training; voice detection

0 引 言

語音識別技術飛速發展,各種語音檢出算法的提出如雨后春筍,但都是基于語音信號特征,或基于語音信號統計特性,或是基于信號特征與統計特性相結合的方法,各種算法各有優劣,適用對象不同。綜合文獻[1?5]可知,基于短時能量和過零率的算法,適用于信噪比較高的場合,但難以區分清音和噪聲;基于自相關相似距離算法,總的來說與HMM算法的效果大致相同,但是對于結尾的判斷卻優于HMM模型,這是因為語音大多以濁音結尾,此時自相關法的判斷精度較高,但對于清音開頭的語音,尤其是[s],[ks],[n]等音節,自相關算法的檢測精度就不高;基于高斯混合模型(Gaussian Mixture Model,GMM)的算法,分類較細,提供了完整的基于數據的識別框架,具有良好的推廣性和擴展性。

在GMM框架里,主要的問題是如何根據有限的數據產生對應的GMM模型,目前常見的訓練方法是采用最大似然估計(Maximum Likelihood Estimation,MLE),該方法基于MLE規則,最大程度擬合所有樣本的分布,模型參數不斷更新,直到觀察序列的概率提高到某些極限點。實際上,由于其沒有考慮聲學模型之間的相互影響,在訓練語料量比較大時,識別過程中會出現混淆情況。

區分性的模型訓練算法,適合應用于大數據量復雜類別組合的區分問題[6]。本文提出采用的區分性模型訓練方法,其原則是最小化分類錯誤風險,將有限的模型描述能力更多用于容易錯的邊界樣本的區分,參數估計時不僅使得屬于該類別的訓練數據概率最大,同時還要使得不屬于該類別的訓練數據概率最小,通過更精確細致地刻畫不同模型之間的分類面,達到提升識別效果的目的。實驗結果表明,基于該算法的訓練方法比最大似然估計的訓練方法在多類別語音檢出任務中具有更好的識別效果。

1 高斯混合模型描述

GMM用于語音檢出[7],它直接對語音中各類數據特征的統計分布進行擬合。GMM可以看作是單狀態的HMM,GMM模型并不關注語音的時序過程,它只描述語音特征參數的靜態分布,不同類別語音特征的靜態分布不同,因此通過比較不同類數據的GMM模型,就可以區分不同的語音類別。在實際應用中,GMM高斯混合度要求比較高,一般要32個高斯函數或以上,甚至達到2 048個高斯函數。一個高斯混合模型的概率密度函數由多個高斯概率密度函數加權求和得到,如式(1)所示:

[p(xλ)=i=1MωiNi(x)] (1)

式中:[M]是高斯混合模型的混合度;[ωi]是每個高斯的權重;[x]是維數為[D]的觀測向量;[Ni(x)]是高斯分布概率密度函數,[Ni(x)]可表示為:[Ni(x)=1(2π)D2Σi12exp-12(x-μi)TΣ-1i(x-μi) λ={ωi,μi,Σi}, i=1,2,…,M] (2)

式中:[μi]為均值矢量;[Σi]為協方差矩陣。至此,整個高斯混合模型[λ]可由{[ωi,][μi,][Σi]}來描述。其中GMM的協方差矩陣[Σi]可以有多種形式,可以是每個高斯概率密度函數都有一個經過訓練得到的協方差矩陣,也可以是某一類別語音的GMM模型的所有高斯概率密度函數共用同一個協方差矩陣,還可以是所有語音類別的GMM模型都共用同一個協方差矩陣。同時,協方差矩陣既可以是滿陣也可以是對角陣,但考慮到在模型的訓練過程中需要用到協方差矩陣的逆,而矩陣求逆往往是一個非常耗時的過程,所以協方差矩陣一般采用對角陣的形式。

采用GMM作為語音聲學模型的原因如下:

(1) 一個語音類別的聲學特征參數在特征空間的分布由該類別語音不同音的特征矢量的分布組成。對于語音檢出,可以認為GMM的各個高斯成分模擬了同一類別語音不同的未知音素的聲學特征,每個高斯成分描述了不同的音素分布。

(2) 統計理論表明,用多個高斯概率密度函數的線性組合可以逼近任意分布,因此,GMM可以對任意的語音特征分布進行精確的描述。

實際上,將GMM模型應用于語音檢出任務,用每個類別語音數據單獨訓練一個GMM模型,在測試時測試語音對所有的GMM模型求對數似然度函數,得分高的模型就判斷為目標類別。同時,由于每個類別的數據可以積累較多,數據量可以得到保證,高斯數目一般較大,如128,由于這種特性,在語音檢出任務中這種方法的識別率一般較高。當然,在基于概率統計模型的識別算法中,不僅模型結構的選擇是否合適影響著最終的識別效果,模型參數的訓練估計是否準確同樣重要。模型訓練是指對模型參數進行估計,對于高斯混合模型而言,即是對[λ]進行估計。

2 最大似然估計訓練方法

對于高斯混合模型的訓練,目前最常見的訓練方法是采用MLE[7]。若給定訓練樣本為[X={x1,x2,…,xN},]則基于MLE的目標函數為:

[obj=n=1Nlnp(xnλ)] (3)

由于高斯混合模型中的權重是隱含變量,所以采用期望最大(Expectation Maximization,EM)算法,定義輔助函數如下:

[Q(λ,λ)=n=1Ni=1Mγi(xn)lnp(xnλ)] (4)

式中:[λ]是待估計參數;[λ]是初始值或上次迭代結果;[γi(xn)=ωiNi(xn)j=1MωjNj(xn)]。通過求導,可得模型更新迭代公式如下:

[ωi=1Nn=1Np(ixn,λ), μi=n=1Np(ixn,λ)xnn=1Np(ixn,λ)]

[Σi=n=1Np(ixn,λ)xnxtnn=1Np(ixn,λ), p(ixn,λ)=ωiNi(xnλ)i=1MωiNi(xnλ)]

在參數估計之前,用K均值算法初始化模型,模型參數通過反復替換[λ=λ]而提高。同時,為避免混亂,通過EM算法把整個訓練過程看作MLE方法,把單個重估過程看作MLE重估,進一步用MLE公式重估,直到滿足聚類規則的門限時終止,門限通常設置為觀察序列概率的對數的平均。通過最大似然估計訓練得到的模型參數,能夠保證訓練數據在該模型上出現的概率最大,很好地表征了訓練樣本數據。但是MLE作為爬山算法,隨意選擇初始模型[λ,]即可導致局部最優,存在目標函數不能直接最大化的問題。然而在語音檢出中,識別分類問題至少牽涉到兩個類別,因此,采用最大似然準則訓練得到的模型,對于識別分類問題并不一定是最好的。

3 區分性模型訓練方法

最小化分類錯誤(MCE)風險原則的區分性模型訓練算法,參數估計時不僅使得屬于該類別的訓練數據概率最大,同時還要使得不屬于該類別的訓練數據概率最小。本文根據文獻[6]的MCE算法,考慮多類型語音檢出任務區分復雜等特點,結合EBW(Extended Baum,Welch)算法,定義和導出具體算法如下:

假設訓練樣本數據為[X={x1,x2,…,xN},]樣本標識為[Y={y1,y2,…,yN},]其中[yn=1]表示屬于當前訓練的模型類別,[yn=0]表示屬于其他類別,定義區分性目標函數為:

[obj=n=1Nynp(xnλ)-ln1+expp(xnλ)] (5)

由于目標函數中隱含變量的影響,采用EBW算法,定義輔助目標函數:

[Q(λ,λ)=n=1Nyn-exp(p(xnλ))1+exp(p(xnλ))i=1Mγm(xnλ)lnωiNi(xnλ)+i=1MDmωmn=1Np(xnλ)lnp(xnλ)]

式中[γm(xn|λ)=ωiNi(xnλ)i=1MωiNi(xnλ)。]

令:

[Γi(xn)=yn-exp(p(xnλ))1+exp(p(xnλ))γm(xnλ)]

[Γi(1)=n=1NΓi(xn)]

[Γi(x)=n=1NΓi(xn)xn]

[Γi(x2)=n=1NΓi(xn)xnxtn]

通過對輔助函數求導,可得模型參數更新公式如下:

[ωi=Γi(1)+Diωii=1MΓi(1)+Di, μi=Γi(x)+DiωiμiΓi(1)+Diωi]

[Σi=Γi(x2)-Γi(1)+Diωiμiμti+Diω2i(Σi+μiμti)Γi(1)+Diωi]

最小化分類錯誤風險的區分性模型訓練算法,通過更精確細致地刻畫不同模型之間的分類面,達到提升識別效果的目的。

4 語音檢出系統構成

基于GMM的語音識別方法,其基本出發點是針對一般語音檢出方法中難以去除的非語音部分(如振鈴、彩鈴音等),考慮其特性類別以及通常語音的特性,然后分別進行建模,最后通過比對信號中每幀數據在每個模型上的相似度來判斷其類別。應用該方法的系統模塊圖如圖1所示。

基于GMM模型的語音識別方法,從整體可分為以下幾個步驟:

(1) 模型和特征選取

該步驟是根據具體的應用環境,確定環境噪聲的類別,并選擇相應的訓練數據特征。例如對于電話信道而言,可以將環境噪聲分為彩鈴聲、振鈴聲、掛機噪聲、信道噪聲等。而特征的選取,一般采用分幀,提取每幀的13階MFCC特征即可。然后根據確定的噪聲類別標注訓練數據,同時還需標注語音數據,以訓練各種噪聲模型和語音模型。

考慮到環境噪聲的種類較多,而實際關注的只是將語音和噪聲分開,因此,可以將語音部分標注為一類,將其他部分標注為非語音。由于非語音部分數據覆蓋范圍很廣,用一個GMM建模,模型的復雜度非常高,所以一個比較可行的方式是對非語音數據采用盲聚類的方式,生成多個類別,然后對每一個類再建立模型,這樣能夠有效地降低模型的復雜度(混合度)。根據實驗結果,GMM混合度為128較為理想。采用這種方式確定模型類別的話,可以有效地減少數據的標注工作量。

對于上面確定模型類別和訓練數據,記語音對應的模型設為[Mg],噪聲模型分別為[M1,M2,…,MN,]而相應的訓練數據表示為[Ds,D1,D2,…,DN]。

(2) 模型訓練

訓練數據和模型類別確定之后,就可以采用K?Means訓練,EM訓練或區分性的模型訓練相結合的方法來訓練模型。一般是利用前者估計GMM的初始值,然后利用后者進行迭代細化。

(3) 模型判決

該過程主要是對于信號中的每幀特征,計算它在各個GMM模型上的概率,選擇出現概率最大的GMM模型對應的類別作為判決結果。如果概率最大的模型對應語音信號,那么該幀就判斷為語音,否則判斷為非語音。

(4) 判決結果后處理

基于GMM模型,直接判斷會存在出錯的情況,因此需要對判決處理的結果進行后處理。本文所采用的后處理策略是,將當前幀左右相鄰的[L]幀作為一段,然后統計該段中出現語音幀和非語音幀的個數。如果語音幀和非語音幀的比例大于閾值[T,]則將當前幀判為語音幀,否則判為非語音幀。

5 實驗及結論

本文使用的聲學特征為經過RASTA濾波[8]、求高階差分、去除靜寂段、均值倒譜減(CMS)[9]、高斯特征化[10]一系列處理后的MFCC特征。

實驗共取錄音數據74條,945 MB,約22 h。其中經標注后用于實驗驗證的數據有49條,475 MB。將這49條數據中的9條數據作為測試集合,83 MB,其中有161 273幀語音, 387 495幀非語音。對比表見表1。

通過實驗結果對比分析可知,采用區分性算法的查準率比采用MLE算法的高8.12%,查全率略高1.77%。這充分說明,在相同的語音數據條件下,采用最小分類錯誤風險原則的區分性模型訓練方法后的語音識別效果明顯比采用最大似然估計的要好。但是,也必須認識到,由于采取的是基于GMM模型的算法,它不但要求有足夠的訓練數據,同時要求訓練數據和測試數據要比較匹配,否則識別出來的結果就有可能和預期相差較大。

參考文獻

[1] 胡航.語音信號處理(修訂版)[M].哈爾濱:哈爾濱工業大學出版社,2002.

[2] 張雄偉,陳亮,楊吉斌.現代語音處理技術及應用[M].北京:機械工業出版社,2003.

[3] 夏敏磊.語音端點檢測技術研究[D].杭州:浙江大學,2005.

[4] 朱杰,韋曉東.噪聲環境中基于HMM模型的語音信號端點檢測方法[J].上海交通大學學報,1998,22(10):14?16.

[5] 謝霞,李宏,鄭俊.基于GMM的說話人辨認系統及其改進[J].電腦與信息技術,2006(2):48?51.

[6] 劉聰.聲學模型區分性訓練及其在LVCSR系統的應用[D].合肥:中國科學技術大學,2010.

[7] 劉鑫,王炳錫.基于GMM 的說話人分類自適應算法[J].信息工程大學學報,2001(4):35?37.

[8] HERMANSKY H, MORGAN N, BAYYA A, et al. RASTA?PLP speech analysis technique [C]// Proceeding of 1992 IEEE International Conference on Acoustics, Speech, and Signal Processing. San Francisco: IEEE, 1992: 545?548.

[9] FURUI S. Cepstral analysis technique for automatic speaker verification [J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1981, 29(2): 254?272.

[10] XIANG B, CHAUDHARI U V, NAVRATIL J, et al. Short?time gaussianization for robust speaker verification [C]// Proceedings of 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing. Orlando, USA: IEEE, 2002: 681?684.

主站蜘蛛池模板: 97se亚洲| 国产亚洲精品yxsp| 久久国产亚洲欧美日韩精品| 国产精品视频久| 香蕉eeww99国产在线观看| 永久成人无码激情视频免费| 超碰91免费人妻| 日韩av无码DVD| 国产综合亚洲欧洲区精品无码| 亚洲国产成人精品一二区| 好吊妞欧美视频免费| 国产丝袜丝视频在线观看| 五月天综合婷婷| 99人妻碰碰碰久久久久禁片| 欧美一级99在线观看国产| 一级成人a毛片免费播放| 久久综合亚洲鲁鲁九月天| AⅤ色综合久久天堂AV色综合| 草逼视频国产| 久无码久无码av无码| 无码中文字幕精品推荐| 亚洲男人天堂久久| 亚洲婷婷在线视频| 国产女同自拍视频| 青青操视频在线| 日韩无码一二三区| 国产精品无码一区二区桃花视频| 国产精品视频免费网站| 露脸真实国语乱在线观看| 国产成人亚洲欧美激情| 国产成人盗摄精品| 国产福利小视频在线播放观看| www.精品国产| 国产主播喷水| 99热最新在线| 99热亚洲精品6码| www.精品国产| 欧美丝袜高跟鞋一区二区| 免费看黄片一区二区三区| 国产网友愉拍精品视频| 亚洲精品成人福利在线电影| 国产爽爽视频| 免费看黄片一区二区三区| 成人精品免费视频| 国产极品粉嫩小泬免费看| 久久精品亚洲专区| 国产91九色在线播放| 在线观看免费AV网| 日韩资源站| 美女无遮挡拍拍拍免费视频| 精品欧美一区二区三区久久久| 亚洲欧美综合在线观看| 亚洲国产欧美国产综合久久| 99热线精品大全在线观看| 玖玖精品视频在线观看| 在线观看91香蕉国产免费| 喷潮白浆直流在线播放| 亚洲免费黄色网| 午夜不卡视频| 中文字幕永久在线观看| 国产成人亚洲日韩欧美电影| 国产永久免费视频m3u8| 日韩国产综合精选| 91在线播放国产| 热久久国产| 亚洲色图综合在线| 亚洲a级毛片| 亚洲一道AV无码午夜福利| 午夜老司机永久免费看片| 午夜福利视频一区| 成人福利在线观看| 毛片最新网址| 国产成人精品日本亚洲| 91精品亚洲| 日本一区二区三区精品视频| 国产精品一区二区不卡的视频| 国产精品深爱在线| 中文字幕丝袜一区二区| 久久久久久国产精品mv| 国产精品性| 久久这里只有精品国产99| 在线亚洲精品自拍|