999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GMM非線性變換的說話人識別算法的研究*

2017-06-01 12:19:24羅文華
電子器件 2017年3期
關鍵詞:文本方法模型

羅文華,楊 彥,齊 健,趙 力

(1.江蘇鹽城工業職業技術學院汽車工程學院,江蘇 鹽城 224005;2.東南大學信息科學與工程學院,南京 210096)

基于GMM非線性變換的說話人識別算法的研究*

羅文華1*,楊 彥1,齊 健2,趙 力2

(1.江蘇鹽城工業職業技術學院汽車工程學院,江蘇 鹽城 224005;2.東南大學信息科學與工程學院,南京 210096)

針對與文本無關說話人識別GMM模型中,某些非目標模型的測試幀的模型得分可能會比較高,從而引起誤判的問題。從幀似然概率的統計特性出發,提出了一種GMM非線性變換方法。該方法通過對每幀各模型的得分賦予不同的權值,使得得分高的模型權值大,得分低的模型權值小,由于目標模型得分高的幀要多于其他非目標模型,所以這樣可以提高目標模型的總得分,降低非目標模型的得分,從而降低誤判的可能。理論推導和實驗結果表明,該變換方法能夠提高GMM說話人識別的識別率。

與文本無關說話人識別;混合高斯模型;非線性變換

語音是每個人的自然屬性之一,由于各個說話人發音器官的生理差異以及后天的發音習慣等行為差異,每個人的語音中蘊含著各個人的個人特征[1]。說話人識別就是著眼于這種個人差異性特征,利用一定的特征描述模型和特征識別方法以達到識別說話人的目的。說話人識別按其被輸入的測試語音來分可以分為與文本有關和與文本無關的說話人識別。而與文本無關的說話人識別在今天無疑有著更廣泛的應用。由于每個說話人的個人特征具有長時變動性,并且每個說話人的發音與環境、說話時的情緒和健康程度有密切關系,同時實際過程中還可能引入背景噪聲等干擾因素,這些都會影響與文本無關說話人識別系統的性能。對此,Tagashira S[2]等人提出了說話人部分空間影射的方法,提取只含有個人信息的特征進行說話人識別,但該方法對于個人信息的長時變動沒有達到滿意的效果。Liu C S[3]等提出了基于最近冒名者的模型的方法,但因為必須計算所有的冒名者的似然函數,使得計算量的變大。Reynolds[4]提出了基于說話人背景模型的平均似然函數來計算得分;Matsui和Furui[5]提出了基于后驗概率的模型。Markov和Nakagawa[6]將整個語句分成若干幀,計算每幀得分,獲得總得分,但它沒有考慮目標模型和非目標模型的幀似然概率的特性。

目前為止高斯混合模型GMM(Gaussian Mixed Model)仍然被認為是目前較優的與文本無關說話人識別的模型。由于它作為統計模型能夠吸收說話人個性特征的變化,可以提高識別性能。但是由于GMM作為統計模型對模型訓練數據量有一定的依賴性,所以對于小樣本的與文本無關說話人識別系統,要使GMM完全吸收由不同說話人引起的語音特征的變化是非常困難的。所以在實際應用中通常采用話者適應的方法使未知說話人的語音去適應已知標準說話人的語音模型。因此,近年來在說話人識別方法方面,基于高斯混合背景模型GMM-UBM(Gaussian Mixed Model-Universal Background Model)方法已成為主流的識別方法[7]。基于GMM超向量的支持向量機和因子分析方法[8-9]則代表GMM-UBM方法的新成果。其中高斯超向量是由GMM的均值統計量順序排列而成,由于該特征的維度特別高,所以稱為超向量。該特征主要用在基于支持向量機(SVM)的說話人識別系統中,且常與擾動屬性投影NAP(Nuisance Attribute Project)或聯合因子分析JFA(Joint Factor Analysis)等方法相結合,用于去除語音信號中的信道畸變噪音成分。超向量是一種基于高斯混合模型的高層語音特征,它不但繼承了高斯混合模型的魯棒性,而且還繼承了高斯混合模型呈現的說話人發音個性統計信息,是近年來說話人識別領域的研究熱點之一。由于高斯混合模型對信道畸變和絕大部分非平穩噪音的魯棒性并不明顯,所以高斯超向量對信道畸變和非平穩噪音的魯棒性并不理想[10]。因此,一些局部的改進方法和針對不同應用的改進方法也不斷被研究和被提出[11-16]。

目前針對基于GMM的說話人識別系統的改進方法的研究大多集中在特征分析和模型優化等前端處理方面,在說話人識別到分統計的后端處理方面,國內外研究的較少。本文根據基于GMM模型的與文本無關說話人識別系統的目標幀和非目標幀似然概率特性,提出了對各模型幀似然概率進行非線性變換,以提高識別率的方法。通過理論分析發現,簡單的對幀似然概率進行線性變換不能提高識別率。理論推導和實驗分析表明,該變換確實能夠提高基于高斯混合模型的與文本無關說話人識別系統的識別率。

1 基于GMM的與文本無關說話人識別方法

為了說明基于非線性變換GMM模型的說話人識別方法,首先必須介紹一下GMM模型以及傳統的基于GMM的說話人識別方法。GMM是M成員密度的加權和,可以用式(1)表示[1]:

(1)

式中:X是D維隨機向量;bi(X)(i=1,2,…,M)是成員密度;ai(i=1,2,…,M)是混合權值。完整的GMM可表示為:λi={ai,μi,Σi},(i=1,2,…,M)。每個成員密度是一個D維變量的高斯分布函數,形式如下:

(2)

對于一個長度為T的測試語音時間序列X=(x1,x2,…,xT),它的GMM概率可以寫作:

(3)

或用對數域表示為:

(4)

識別時運用貝葉斯定理,在N個未知話者的模型中,得到的似然概率最大的模型對應的話者即為識別結果:

(5)

圖1 目標模型與某非目標模型的得分情況

可以看出,以上的得分計算是逐幀進行的,一般來說,目標模型得分高的幀要多于其他非目標模型。然而,在我們的研究中發現,由于說話人的個人特征的長時變動或者噪聲等干擾的影響,存在一些測試幀對于目標模型的得分小于非目標模型的得分,我們將之稱為壞幀,這些壞幀對于非目標模型的得分可能比較高,如果壞幀大量存在的話,非目標模型的得分拉近或者有可能超過目標模型的得分,從而導致了誤判。圖1給出了某說話人識別實驗中目標模型與非目標模型的幀得分情況,從中可看出目標模型的得分高的好幀要多于非目標模型。但是也有某些壞幀的得分大于目標模型的得分。為此,我們的思路是可以通過某些變換對每幀各模型的得分賦予不同的權值,得分越高的模型權值越大,得分越低的模型權值越小,由于目標模型得分高的幀要多于其他非目標模型,所以這樣有可能提高目標模型的總得分,降低非目標模型的得分,從而提高識別率。

2 基于幀似然概率非線性變換GMM的說話人識別方法

在基于GMM的說話人識別系統中,對于任一幀矢量xt(t=1,2,…,T),假定λ0為目標用戶對應的高斯混合模型,λ1為非目標用戶對應的模型,設存在一種線性變換:

f[p(xt|λi)]=ap(xt|λi)+b(a,b為常數)

(6)

則有:

f[p(xt|λ0)]-f[p(xt|λ1)]=ap(xt|λ0)+b-

[ap(xt|λ1)+b]=a[p(xt|λ0)-p(xt|λ1)]

(7)

簡單起見,假設a>0(a<0分析類似),可得:

p(xt|λ0)≥p(xt|λ1)?f[p(xt|λ0)]≥f[p(xt|λ1)]

(8)

p(xt|λ0)

(9)

從上面分析可看出,這樣的線性變換沒有改變各模型幀得分的相對大小關系,也沒有縮小或拉大各模型幀得分差,從而也不可能影響總得分的大小關系。也就是說線性變換不能降低誤識率。因此,為了提高識別率,必須采用非線性變換。而且對于選擇的GMM幀似然概率的非線性變換應該滿足以下幾點要求:

(1)使同一說話人的各個時刻的得分差減小。

(2)使同一時刻t(0≤t≤T)不同說話人的得分差增大。

(3)不改變同一時刻各幀得分值的相對大小。

對此,本文提出了一種非線性變換f(p(xt|λi),t,i),(0≤t≤T,0≤i≤N),它的定義如下:

計算其得分:

(10)

計算當前時刻的前K個時刻該模型的得分均值:

(11)

作為S(xt,λi)的補償,令:

S′(xt,λi)=S(xt,λi)+mt,iδ[S(xt,λi)-

(12)

式中:

mt,i∈[0,1),δt,i=

則最后各模型的總得分為:

(13)

我們稱以上的變換為歸一化補償變換。下面我們來分析該變換的特性。為簡單分析起見,令只存在兩個模型λ0,λ1,其中λ0為目標模型。任取連續兩幀進行分析,即T=2:

(14)

(15)

在GMM中,當S(X|λ0)>S(X|λ1)判為λ0,如果不采用任何變換:

lnP(x1|λ0)+lnP(x2|λ0)>lnP(x1|λ1)+lnP(x2|λ1)?

P(x1|λ0)P(x2|λ0)-P(x1|λ1)P(x2|λ1)>0?

P(x1|λ0)nP(x2|λ0)n-P(x1|λ1)nP(x2|λ1)n>0

(16)

而對于歸一化補償變換:

(17)

(1)P10=1且P20=1時,即兩幀都是目標幀得分高,則式(16)可為:

P11P21<1

(18)

式(17)可為:

S(X|λ0)-S(X|λ1)=

(19)

假設式(19)的兩項都大于0,則可得:

(20)

式中:實際過程中為保證第2、第3項對第1項的影響比較小,m的取值為遠小于1的正數。下面來分析第1項:

(21)

由于p11<1,p21<1,p11p21<1,與式(16)相比,式(21)能較大地拉開目標模型與非目標模型的得分差,當m的取值為遠小于1的正數時,式的第2、第3部分對第1部分的影響比較小,不會改變相對大小。因此,采用歸一化變換后的兩個模型的總得分的相對距離拉大了。

(2)P′(x1|λ0)=1且P′(x2|λ1)=1時,即第1幀目標模型得分高,第2幀非目標模型得分高,則式(16)可為:

p20-p11>0

(22)

式(17)可為:

(23)

假設式(23)的兩項都大于0,則可得:

(24)

式(24)第1項為:

(25)

(3)當P′(x1|λ1)=1且P′(x2|λ0)=1時,即第1幀非目標模型得分高,第2幀目標模型得分高時,分析與(2)類似。

從上面的分析可得出,歸一化補償變換能夠拉大目標模型與非目標模型的相對得分比,同時也拉近了同一模型各幀得分值,使得各模型的幀得分值不僅與當前時刻有關,而且還與前K個時刻有關。參數m的選取對得分結果有著很大的影響,必須適當選取,為了計算方便我們在實際過程中選為百分之一的整數倍。

對于函數f(x)=xn/(xn+b)而言,參數n越大,曲線在區間[0,1]內越陡,也就是說對應于不同的x,f(x)的差值將拉得更大;參數b的越大,曲線越平坦。

對于歸一化補償變換而言,參數n的值不能很大,否則計算量很大,一般取參數n=2~5;參數b一般取大于1并且靠近1的值。參數K的選取對幀得分值的相對位置也有影響,過大導致計算復雜,過小影響穩健性,一般K選取為2~5。

通過上面的分析,歸一化補償變換具有了非線性變換的3個要求,與線性變換相比,可以進一步降低誤識別率。

3 實驗結果與分析

語音數據為在實驗室內錄制的語音,采樣頻率是8 kHz,采樣位數8 bit,共20人(青年男女),每人40句不同的話作為純凈語音,在純凈語音上疊加高斯白噪聲和非平穩噪聲(噪聲源由英國TNO感知學會所屬的荷蘭RSRE語音研究中心提供)。數據每幀幀長N=256,50%的幀重疊。選取12階MFCC倒譜參數作為說話人識別的特征參數。

圖2給出了混合數M=16時采用歸一化補償變換的GMM的識別率。令m′=100m。由圖2可以看出,與不采用變換相比,歸一化變換可以得到比較高的識別率。當n,K,b一定時,隨著m′參數的增大,歸一化變換的識別率相應增加,同時我們注意到,當m′值超出一定范圍后,識別率增加趨緩,因此合理選擇參數m′,可以進一步提高識別率。

圖2 同一時期歸一化變換識別率

實驗1是在無噪聲環境下給出的,為了在噪聲環境下測試歸一化補償變換的性能,我們進行了實驗2。識別結果如圖3所示。

圖3 20名說話人的平均識別率(%)

圖3中歸一化變換的參數為n=3,K=4,b=1.1,m′=8。由圖3可以看出,雖然在信噪比增加的情況下,未經過歸一化變換和經過歸一化變換處理的識別率都會增加,并在信噪比提高到一定程度之后,識別率增加趨勢變緩。但是,在信噪比較低的情況下,歸一化補償變換的識別率要比未經過歸一化變換識別率提高很多。由此可見歸一化變換處理的方法提高了基于GMM的與文本無關的說話人識別的識別率。

4 小結

在基于GMM的與文本無關的說話人識別中,實際環境和個人因素一直是影響識別率提高的原因,大多數研究集中在前端處理,但在說話人識別后端處理方面,國內外研究比較少。本文從各模型幀似然概率的統計特性出發,分析了線性變換不能夠提高識別率,并提出了一種新的非線性變換方法——歸一化變換。理論分析和實驗結果表明,與GMM常用的最大似然變換相比,歸一化變換能夠拉大目標模型與其他非目標模型的幀得分比。因此,我們認為該變換能夠提高與文本無關說話人識別系統識別率。

[1] 趙力. 語音信號處理[M]. 北京:機械工業出版社,2003:236-253.

[2] Tagashira S,Ariki Y. Speaker Recognition and Speaker Normalization by Projection to Speaker Subspace,IEICE,Technical Report,1995,SP95-28,25-32.

[3] Liu C S,Wang H C. Speaker Verification using Normalization Log-Likelihood Score[J]. IEEE Trans. Speech and Audio Precessing,1980,4:56-60.

[4] Douglas A Reynolds. Speaker Identification and Verification Using Gaussian Mixture Speaker Models[J]. Speech Communication,1995,17:91-108.

[5] Matsui T,Furui S. Concatenated Phoneme Models for Text Variable Speaker Recognition[C]//Proc IEEE Inter Conf on Acoustics,Speech,and Signal Processing(ICASSP’93)1993:391-394.

[6] Markov Knakagawa S. Text-Independent Speaker Recognition System Using Frame Level Likelihood Processing[J]. Technical Report of IEICE,1996,SP96-17:37-44.

[7] Dehak N,Dehak R,Kenny P,et al. Comparison between Factor Analysis and GMM Support Vector Machines for Speaker Verification[C]//The Speaker and Language Recognition Workshop(Odyssey 2008). Stellenbosch,South Africa:ISCA Archive,January 2008:21-25.

[8] Campbell W M,Sturim D E,Reynolds D A,et al. SVM Based Speaker Verificationusing a GMM Supervector Kernel and NAP Variability Compensation[C]//IEEEInternational Conference on Acoustics,Speech and Signal Processing. Toulouse:IEEE,2006,1:97-100.

[9] Ferras M,Shinoda K,Furui S. Structural MAP Adaptation in GMM Super Vector Based Speaker Recognition[C]//IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP). Prague:IEEE,2011:5432-5435.

[10] Yessad D,Amrouche A. SVM Based GMM Supervector Speaker Recognition Using LP Residual Signal[C]//Image and Signal Processing. Sichuan,China:Springer,2012:579-586.

[11] Yadav R,Mandal D. Speaker Recognition:A Research Direction[J]. InternationalJournal of Advances in Electronics Engineering,2012,1(1):87-93.

[12] Bousquet P M,Matrouf D,Bonastre J F. Intersession Compensation and Scoring Methods in the i-Vectors Space for Speaker Recognition[C]//International Conferenceon Speech Communication and Technology. Azerbaijan,Baku:IEEE,2011:485-488.

[13] Karafi′at M,Burget L,Matejka P,et al. iVector-Based Discriminative Adaptation for Automatic Speech Recognition[C]//IEEE Workshop on Automatic Speech Recognitionand Understanding(ASRU). HAWAⅡ:IEEE,2011:152-157.

[14] Lei Y,Burget L,Scheffer N. Bilinear Factor Analysis for iVector Based Speaker Verification[C]//Interspeech Portland,OR,USA:ISCA,2012,2:1588-1591.

[15] Rao W,Mak M W. Boosting the Performance of I-Vector Based Speaker Verificationvia Utterance Partitioning[J]. IEEE Transaction on Audio,Speech,andLanguage Processing,2013,21(5):1012-1022.

[16] Lei Y,Burget L,Ferrer L,et al. Towards Noise-Robust Speaker Recognition Using Probabilistic Linear Discriminant Analysis[C]//IEEE International Conferenceon Acoustics,Speech and Signal Processing(ICASSP). Kyoto,Japan:IEEE,2012:4253-4256.

[17] Reynolds D A,Rose R C. Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models[J]. IEEE Trans on Speech and Audio Processing,1995,3(1):72-83.

[18] Matsui T,Furui S. Likelihood Normalization for Speaker Verification Using a Phoneme- and Speaker-Independent Model[J]. Speech Communication,1995;17(1-2):97-116.

Text-Independent Speaker Recognition Using GMM Non-Linear Transformation*

LOUWenhua1*,YANGYan1,QIJiang2,ZHAOLi2

(1.YanchengInstitute of Industry Technology,Yancheng Jiangsu 224005,China;2.School of Information Science and Engineering,Southeast University,Nanjing 210096,China)

For the text independent speaker recognition GMM model,some non-target models of the test frame of the model score may be relatively high,thus causing the problem of false.Based on the statistical properties of the frame likelihood probability,a GMM nonlinear transformation method is proposed.This method gives different weights to each frame model,which makes the model with high score and low weights,as the target model score higher than other non target frame model,so it can improve the total score of the target model,reduce the score of non target model,thus reducing the possibility of false positives.Theoretical results and experimental results show that the proposed method can improve the recognition rate of GMM speaker recognition.

text-independent speaker recognition;Gaussian mixture model;non-linear transformation

項目來源:國家自然科學基金項目(61301219);2014年青藍工程資助項目;2015年農業科技創新專項引導資金項目;2015年鹽城市農業科技指導性項目(YKN2015031)

2016-05-10 修改日期:2016-06-09

TN912.3

A

1005-9490(2017)03-0545-06

C:6130;1160

10.3969/j.issn.1005-9490.2017.03.006

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 91在线高清视频| 一区二区在线视频免费观看| 国产乱人激情H在线观看| 国内a级毛片| 国产精品吹潮在线观看中文| 日韩高清在线观看不卡一区二区| 久草热视频在线| av大片在线无码免费| 国产系列在线| 亚洲午夜天堂| 国产免费a级片| 精品视频福利| 亚洲天堂777| 伊人久久大香线蕉影院| 中国丰满人妻无码束缚啪啪| 成年片色大黄全免费网站久久| 国产日本视频91| 久久人与动人物A级毛片| 亚洲精品777| 青草国产在线视频| 美女啪啪无遮挡| 欧美日韩精品在线播放| 亚洲第一福利视频导航| 天天色天天操综合网| 国产精品视频久| 亚洲综合香蕉| 毛片免费在线视频| 国模视频一区二区| 98精品全国免费观看视频| 国产成人精品日本亚洲| 久久免费视频播放| 一级一级特黄女人精品毛片| 99人妻碰碰碰久久久久禁片| 国产一在线| 亚洲精品视频在线观看视频| 国产日本欧美在线观看| 欧美精品一二三区| 国产亚洲欧美在线中文bt天堂| 色天天综合久久久久综合片| 久久a级片| 一本一道波多野结衣一区二区| 婷婷丁香在线观看| 国产精品永久不卡免费视频 | 亚洲天堂自拍| 在线观看免费国产| 亚洲国产综合自在线另类| 亚洲精品欧美日本中文字幕| 91毛片网| 亚洲AV色香蕉一区二区| 在线观看国产精美视频| 精品国产一区二区三区在线观看| 日韩精品亚洲精品第一页| 天天综合网色中文字幕| 在线精品视频成人网| 亚洲欧美综合精品久久成人网| 国产91在线|中文| 99视频在线免费看| 波多野结衣视频一区二区| 夜夜爽免费视频| 国产毛片一区| 在线va视频| 日本亚洲成高清一区二区三区| 在线va视频| 日本成人不卡视频| 亚洲第一在线播放| 亚洲三级a| 国产男女免费完整版视频| 欧美www在线观看| 夜夜操国产| 激情六月丁香婷婷| 国产在线视频欧美亚综合| 久久这里只精品国产99热8| 东京热一区二区三区无码视频| 久久福利片| 亚洲欧美日韩精品专区| 国产综合欧美| 91精品人妻一区二区| 久久99热这里只有精品免费看| 国产精品太粉嫩高中在线观看| 一级毛片在线播放免费| 国产精品爽爽va在线无码观看| 天天综合亚洲|