999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

用說話人相似度i-vector的非負(fù)值矩陣分解說話人聚類

2017-04-24 10:38:25哈爾肯別克木哈西達(dá)瓦伊德木草
關(guān)鍵詞:實(shí)驗(yàn)方法模型

哈爾肯別克·木哈西 鐘 珞 達(dá)瓦·伊德木草

1(武漢理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 湖北 武漢 430070)2(新疆大學(xué)多語言技術(shù)重點(diǎn)實(shí)驗(yàn)室 新疆 烏魯木齊 830046)

用說話人相似度i-vector的非負(fù)值矩陣分解說話人聚類

哈爾肯別克·木哈西1鐘 珞1達(dá)瓦·伊德木草2

1(武漢理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 湖北 武漢 430070)2(新疆大學(xué)多語言技術(shù)重點(diǎn)實(shí)驗(yàn)室 新疆 烏魯木齊 830046)

基于貝葉斯或者全貝葉斯準(zhǔn)則的說話人自動(dòng)聚類或者識(shí)別方法,主要采取重復(fù)換算全發(fā)話語音段的相似量度,再組合相似性較大的語音片段實(shí)現(xiàn)說話人的聚類。這種方法中如果發(fā)話語音片段數(shù)越多,組合計(jì)算時(shí)間就越長(zhǎng),系統(tǒng)實(shí)時(shí)性變差,而且各說話人模型用GMM方法建立,發(fā)話語音時(shí)間短暫時(shí)GMM的信賴性降低,最終影響說話人聚類精度。針對(duì)上述問題,提出引用i-vector說話人相似度的非負(fù)值矩陣分解的高精度快速說話人聚類方法。

說話人分割及聚類 非負(fù)值矩陣分解i-vectorGMM電話語音

0 引 言

隨著信息技術(shù)和存儲(chǔ)技術(shù)的發(fā)展,音頻數(shù)據(jù)量呈現(xiàn)爆炸式增長(zhǎng)。面對(duì)如此海量數(shù)據(jù),人們迫切希望能準(zhǔn)確快速搜索到需要的信息,因而對(duì)相關(guān)語音技術(shù)的需求也與日俱增。會(huì)議講演(語音)的有聲記錄,或者為國(guó)家安全、社會(huì)穩(wěn)定、犯罪嫌疑人追蹤控制、身份確認(rèn)以及加強(qiáng)反腐力度等目的,錄制保留的多人長(zhǎng)時(shí)間說話語音數(shù)據(jù)媒體規(guī)模逐年增多[1]。在這種大規(guī)模音頻文件中自動(dòng)提取(誰在說話、什么時(shí)間說話、說了什么等)不同發(fā)話人,不同時(shí)間及不同內(nèi)容的話語信息需要進(jìn)行自動(dòng)分析分割,并進(jìn)行數(shù)字化整理,作為有聲數(shù)據(jù)資源管理。多說話人識(shí)別技術(shù)的目的是在上述某種音頻文件中分割出或者分類出不同的說話人技術(shù)。和傳統(tǒng)的說話人識(shí)別技術(shù)相比,多說話人識(shí)別技術(shù)不僅能夠分割出不同的說話者,而且還能判斷每個(gè)說話人發(fā)話時(shí)間及內(nèi)容。它是說話人識(shí)別技術(shù)的一種延伸。

針對(duì)基于貝葉斯信息準(zhǔn)則(BIC)的說話人分割算法[2-3]對(duì)語音信號(hào)的分布估計(jì)較粗糙的缺點(diǎn),以及高斯混合模型GMM說話人模型在發(fā)話時(shí)間短暫時(shí)信賴性底等問題,提出基于非負(fù)值矩陣分解NMF(Non-negative Matrix Factorization)的、引用i-vector說話人相關(guān)性模型組合方法的、高精度快速分割或聚類說話人方案。該方案主要利用i-vector說話人向量間的距離,計(jì)算相似量度,生成說話人相似矩陣,將K均值算法的聚類結(jié)果作為NMF的初始因子矩陣,并對(duì)超圖的鄰接矩陣進(jìn)行NMF,獲得基矩陣和系數(shù)矩陣;最后根據(jù)系數(shù)矩陣獲得最終的聚類結(jié)果。由于抽出i-vector作為知識(shí)事先利用大量的實(shí)驗(yàn)數(shù)據(jù),因此相比于GMM,i-vector方法不受發(fā)話語音短暫的影響。另外由于i-vector方法很難受到聲道的影響、可以作為有效的說話人特征量使用[4-5]。

1 說話人識(shí)別研究工作現(xiàn)狀

2014年,在說話人識(shí)別(也稱聲紋識(shí)別)領(lǐng)域的國(guó)際頂級(jí)會(huì)SpeakerOdyssey2014專家學(xué)者報(bào)告討論表明,i-vector已是說話人識(shí)別的主流技術(shù),成為其他算法的參照標(biāo)準(zhǔn)。洪青陽介紹了國(guó)內(nèi)把i-vector說話人識(shí)別技術(shù)率先應(yīng)用到公安部聲紋識(shí)別行業(yè)中大幅度提高了系統(tǒng)識(shí)別的效率情況報(bào)告[6]。栗志意等學(xué)者報(bào)告了系統(tǒng)融合以及對(duì)未知數(shù)據(jù)的聚類和自適應(yīng)提升性能的有效方法[7]。Tawara等學(xué)者提出的狄利克雷分布過程混合模型全貝葉斯準(zhǔn)則的說話人自動(dòng)聚類或者識(shí)別的新嘗試也受到了研究人員的關(guān)注[8]。

2 基于非負(fù)值矩陣分解方法的說話人聚類

2.1 非負(fù)值矩陣分解

NMF法是把非負(fù)值矩陣V分解為基底矩陣W和系數(shù)矩陣H的方法。即:

V?WH

(1)

式中W、H分別通過Kullback-Leibler[9]信息量(簡(jiǎn)稱K-L信息量)D(q‖p)獲取。它表示對(duì)于真分布q推測(cè)出分布p,距離q的偏離程度。如果這兩個(gè)分布是一致的,那么偏離程度為0。要確定W和H,可以假設(shè):當(dāng)推測(cè)分布設(shè)為WH,而真分布設(shè)為V時(shí),K-L信息量由式(2)定義:

(2)

再經(jīng)過式(3)和式(4)的更換,可以獲得式(2)的最小化方程,即:

(3)

(4)

其中,Vij、Hij、Wij分別表示矩陣V、W及H的第i行j列元素。

2.2 說話人聚類方法

基于NMF法的說話人聚類是分解發(fā)話語音片段間的相似量度U×U矩陣V而實(shí)現(xiàn)的[10]。這里U為語音片段總數(shù)。如圖1所示,相似矩陣(similarity)可以分解成基底矩陣W(basis)和系數(shù)矩陣H(activation)的乘積。其中矩陣W為R×U類的基底矩陣,其各列表示各說話人;矩陣H也是R×U矩陣,其行表示對(duì)于各語音片段對(duì)應(yīng)的說話人比重;R為類數(shù)。按照說話人的不同,首先從矩陣H中選出比重較大的語音片段,然后將相同說話人的語音片段聚類在一起,實(shí)現(xiàn)說話人聚類。

圖1 NMF方法說話人聚類示意圖

3 說話人建模

在本節(jié)討論說話人建模以及通過說話人模型算出說話人間的相似量度方法。也就是,在多說話人語音流文件中生成各發(fā)話語音片段所表現(xiàn)的說話人模型,計(jì)算語音片段間的相似量度。本節(jié)討論常見基于GMM的說話人模型的交叉似然比CLR(CrossLikelihoodRatio) 距離的建模聚類方法和利用i-vector說話人模型余弦算相似量度建模聚類方法。

3.1 基于GMM的說話人建模

對(duì)于各發(fā)話語音片段,經(jīng)優(yōu)化學(xué)習(xí)法建GMM說話人模型。GMM的概率密度p(x|λ)由下式算出:

(5)

(6)

3.2 基于CLR方法的說話人相似量度計(jì)算

CLR方法可以通過兩個(gè)GMM參數(shù)的對(duì)數(shù)似然密度比算出。因?yàn)镚MM兩個(gè)似然密度相近時(shí)CLR取值為零。因此,CLR可以作為說話人間的距離尺度。基于NMF的聚類方法是利用相似度矩陣法,可以取CLR的倒數(shù)變換算出相似量度。第i個(gè)和第j個(gè)語音片段的CLR可以通過下式算出,即:

(7)

(8)

3.3 基于i-vector的說話人相似度計(jì)算

常見UBM(Universalbackgroundmodel)方法[12]對(duì)于不特定說話人全部特征空間概率模型,利用多說話人在不同內(nèi)容的話語,在不同說話環(huán)境以及不同實(shí)驗(yàn)條件下收集整理的大量語音數(shù)據(jù)學(xué)習(xí)GMM混合參數(shù)建模。而i-vector法是對(duì)于上述語音流按語音片段從UBM獲取話語依存UBM超級(jí)向量、再通過維數(shù)壓縮的方法獲得向量,既稱為i-vector。這種話語依存GMMm(u)超級(jí)向量可以表示為:

m(u)=m+Tw(u)

(9)

式(9)中,w(u)代表i-vector。m(u),m分別表示話語依存GMM和UBM超級(jí)向量、而T為部分空間映射矩陣。一般對(duì)i-vector實(shí)施FLDA分解(Fisherlineardiscriminantanalysis)法消除參數(shù)聲道影響。

3.4 基于余弦相似量度的說話人相似度計(jì)算

兩個(gè)向量間的相似性常用余弦相似量度尺度測(cè)量[13]。因此,該文中兩個(gè)語音片段i-vector間的相似性通過余弦相似量度獲取。因?yàn)橛嘞页叨热≈捣秶?1到+1之內(nèi),而NMF(非負(fù)值矩陣)只能取正數(shù)。所以,本研究中對(duì)于余弦相似量度向量進(jìn)行下式變換,再實(shí)施NMF法。即:

(10)

4 多說話人聚類實(shí)驗(yàn)

針對(duì)NMF方法的說話人聚類實(shí)驗(yàn),為便于比較,本文分別利用常見GMM方法和i-vector生成相似量度矩陣,通過兩種實(shí)驗(yàn)進(jìn)行討論。

4.1 實(shí)驗(yàn)條件及數(shù)據(jù)

本次多說話人聚類實(shí)驗(yàn)選用新疆大學(xué)多語言信息技術(shù)重點(diǎn)實(shí)驗(yàn)室開發(fā)的100個(gè)人電話語音錄用數(shù)據(jù),從中選用50個(gè)發(fā)話人數(shù)據(jù)[14-16]。其中,男女性分別為25人,每人在不同時(shí)間段發(fā)話5次、每次發(fā)話語音片段長(zhǎng)度5~10秒時(shí)間不等。特征量為12維的MFCC參數(shù),幀長(zhǎng)25ms,周期10ms。GMM用混合數(shù)設(shè)定8。

4.2 實(shí)驗(yàn)評(píng)估方法

本次試驗(yàn)結(jié)果的評(píng)估,我們采用各語音片段追加說話人標(biāo)簽,取標(biāo)簽平均聚類純度ACP(averageclusterpurity)及平均說話人純度ASP(averagespeakerpurity)的幾何K均值進(jìn)行評(píng)估。

假設(shè)ST為實(shí)際發(fā)話人數(shù),S為說話人類數(shù),nij為發(fā)話人j在全發(fā)話語音中分配到第i個(gè)說話人類的發(fā)話語音數(shù),nj為發(fā)話人j的全發(fā)話數(shù),ni為分配到說話人i類的發(fā)話數(shù),U表示發(fā)話總數(shù)時(shí),類純度pi和說話人純度qj分別由式(11)算出,即:

(11)

類純度表示,對(duì)各類分配到的發(fā)話語音中屬于同一個(gè)說話人的比例,而說話人純度表示,每個(gè)發(fā)話人所發(fā)話語音中屬于同一個(gè)類的發(fā)話語音比例。這樣,平均類純度VACP及平均說話人純度VASP分別表示為:

(12)

因此,ACP和ASP的幾何K均值設(shè)定為:

(13)

4.3 實(shí)驗(yàn)結(jié)果

本次試驗(yàn)結(jié)果如圖2所示。

圖2 GMM-CLR及-vector-COS相似度獲取說話人聚類的比較

從圖2可以看出,用i-vector-COS余弦相似量度生成相似矩陣所獲得的實(shí)驗(yàn)效果明顯好于用CLR方法生成相似矩陣的效果。為了便于比較,圖3中顯示了上述實(shí)驗(yàn)中追加標(biāo)簽的10個(gè)說話人在不同實(shí)驗(yàn)過程中聚類效果。

圖3 GMM-CLR及提按方法說話人聚類結(jié)果演示

從演示結(jié)果可以觀察到,各語音片段在不同類中分配聚類實(shí)況。其中每個(gè)矩形圖表示各說話人發(fā)話語音片段,橫坐標(biāo)代表各發(fā)話語音片段聚類的正確說話人標(biāo)簽,而縱坐標(biāo)代表推測(cè)出的說話人標(biāo)簽。從圖3可以觀察到,在GMM-CLR試驗(yàn)中,同一個(gè)說話人發(fā)話語音片段被分配到多個(gè)類中,而采用i-vector-Cos聚類試驗(yàn)中同一個(gè)說話人的發(fā)話語音基本上被正確地分配到同一個(gè)類中。因此,可以肯定本文提出的NMF算法及i-vector組合方法運(yùn)行高效,并且獲得了比其他常見的聚類集成算法更加優(yōu)越的結(jié)果。

5 結(jié) 語

針對(duì)小規(guī)模語音實(shí)驗(yàn)數(shù)據(jù),對(duì)基于NMF(非負(fù)值矩陣分解)方法的說話人聚類中導(dǎo)入i-vector說話人相似度模型,實(shí)現(xiàn)短暫發(fā)話語音能夠獲取高速并高精度的說話人聚類方法。并探討了常見基于CLR相似量度矩陣算法說話人聚類與基于i-vector相似量度矩陣的說話人聚類方法,再利用K均值法對(duì)系統(tǒng)性能進(jìn)行了比較評(píng)估。實(shí)驗(yàn)結(jié)果顯示,i-vector說話人相似矩陣模型及NMF算法組合方法不僅可以獲得高精度說話人聚類效果,而且對(duì)于數(shù)據(jù)變動(dòng)也具有較強(qiáng)魯棒性。

進(jìn)一步擴(kuò)大實(shí)驗(yàn)人數(shù)以及實(shí)驗(yàn)數(shù)據(jù)環(huán)境,確認(rèn)提出方法對(duì)于無限說話人分割及聚類的推測(cè)效果是后期研究工作重點(diǎn)。

[1]NishidaM,IshigawaY,YamamotoS.SpeakerDiarizationBasedonNon-negativeMatrixFactorizationinMulti-partyConversations[J].SLP,2011,85(7):1-6.

[2] 伊·達(dá)瓦,吾守爾·斯拉木,匂坂芳典.LPC及F0參數(shù)組合基于GMM電話語音說話人識(shí)別[J].中文信息學(xué)報(bào),2011,25(4):105-109.

[3]KanagasundaramA,VogtR,DeanD,etal.i-vectorbasedspeakerrecognitiononshortutterances[C]//12thAnnualConferenceoftheInternationalSpeechCommunicationAssociation(ISCA),2011:2341-2344.

[4]GeigerJ,WallhoffF,RigollG.GMM-UBMbasedopen-setonlinespeakerdiarization[C]//11thAnnualConferenceoftheInternationalSpeechCommunicationAssociation(ISCA),2010:2330-2333.

[5] 伊·達(dá)瓦,匂坂芳典,中村哲.語料資源缺乏的連續(xù)語音識(shí)別方法的研究[J].自動(dòng)化學(xué)報(bào),2010,36(4):550-557.

[6]JessenM.Currentdevelopmentsinforensicspeakeridentification[C]//Odyssey2010:TheSpeakerandLanguageRecognitionWorkshop,2010:378-394.

[7] 栗志意,張衛(wèi)強(qiáng),何亮,等.基于總體變化子空間自適應(yīng)的i-vector說話人識(shí)別系統(tǒng)研究[J].自動(dòng)化學(xué)報(bào),2014,40(8):1836-1840.

[8]TawaraN,WatanabeS,OgawaT,etal.SpeakerClusteringBasedonUtterance-OrientedDirichletProcessMixtureModel[C]//12thAnnualConferenceoftheInternationalSpeechCommunicationAssociation(ISCA),2011:2905-2908.

[9]WatanabeS,MochihashiD,HoriT,etal.Gibbissamplingbasedmulti-scalemixturemodelforspeakerclustering[C]//Proceedingsofthe2011IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP),2011:4524-4527.

[10] 達(dá)瓦·伊德木草,木合亞提·尼亞孜別克,吾守爾·斯拉木.語音技術(shù)在少數(shù)民族語言的應(yīng)用研究[J].新疆大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,31(1):88-96.

[11]MurtazaM,BSharifM,RazaM,etal.FaceRecognitionUsingAdaptiveMarginFisher’sCriterionandLinearDiscriminantAnalysis(AMFC-LDA)[J].TheInternationalArabJournalofInformationTechnology,2014,11(2):149-158.

[12] Dehak N,Kenny P J,Dehak R,et al.Front-End Factor Analysis for Speaker Verification[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(4):788-798.

[13] Ye J.Cosine similarity measures for intuitionistic fuzzy sets and their applications[J].Mathematical and Computer Modelling,2011,53(1/2):91-97.

[14] 武曉敏,達(dá)瓦·伊德木草,吾守爾·斯拉木.自然預(yù)料缺乏的民族語言連續(xù)語音識(shí)別[J].計(jì)算機(jī)工程,2012,38(12):129-131,135.

[15] 李曉陽,伊·達(dá)瓦,吾守爾·斯拉木,等.基于GMM-UBM/SVM的維吾爾語電話語音監(jiān)控系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(1):46-48,77.

[16] Yidemucao D,Zhao Z,Silamu W.Sound scene clustering without prior knowledge[C]//2012 Chinese Conference on Pattern Recognition (CCPR),2012:613-621.

A SPEAKER CLUSTERING METHOD BASED ON NON-NEGATIVE MATRIX FACTORIZATION AND I-VECTOR OF SPEAKER SIMILARITY

Harhenbek Muhaxov1Zhong Lou1Dawa Idomucao2

1(SchoolofComputerScienceandTechnology,WuhanUniversityofTechnology,Wuhan430070,Hubei,China)2(KeyLaboratoryofXinjiangMulti-LanguageTechnology,XinjiangUnivrsity,Urumqi830046,Xingjiang,China)

Based on Bayesian or full Bayesian criterion, the speaker clustering or recognition method is mainly used to repeat the similarity measure of the whole utterance segment, and then combine the similar utterance segment to realize speaker clustering. In this method, if the number of utterance segment is increased, the combined computation time is longer and the system real-time property is worse. Moreover, the speaker model is established by GMM. The reliability of GMM is reduced when the speech time is short, which affects the accuracy of speaker clustering. Aiming at the above problems, this paper proposes a high-accuracy fast speaker clustering method based on non-negative matrix factorization and i-vectorofspeakersimilarity.

Speaker segmentation and clustering Non-negative matrix factorization I-vector GMM Telephone speech

2016-03-01。國(guó)家自然科學(xué)基金項(xiàng)目(61163030)。哈爾肯別克·木哈西,博士生,主研領(lǐng)域:語音信號(hào)處理。鐘珞,教授。達(dá)瓦·伊德木草,教授。

TP

ADOI:10.3969/j.issn.1000-386x.2017.04.028

猜你喜歡
實(shí)驗(yàn)方法模型
一半模型
記一次有趣的實(shí)驗(yàn)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 91无码网站| 国产jizzjizz视频| 色成人亚洲| 91免费片| 欧洲亚洲一区| 日韩在线欧美在线| 成人在线不卡| 国产综合欧美| 国产91蝌蚪窝| 欧美精品导航| 国产成人一区免费观看| 一区二区三区在线不卡免费| 欧美福利在线| 狠狠亚洲婷婷综合色香| 免费不卡视频| 国产人碰人摸人爱免费视频| 99视频国产精品| 欧美亚洲中文精品三区| 农村乱人伦一区二区| www.99在线观看| 日韩国产亚洲一区二区在线观看| 亚洲综合狠狠| 国产理论精品| 久久一色本道亚洲| 日本高清免费一本在线观看| 中文一级毛片| 免费欧美一级| 亚洲精品中文字幕无乱码| 久久99国产综合精品1| 亚洲侵犯无码网址在线观看| 日韩精品高清自在线| 婷婷亚洲最大| 久久香蕉国产线看精品| 成人欧美日韩| 欧美成人在线免费| 色婷婷成人| 国内精品小视频福利网址| 国产高潮流白浆视频| 伊人91视频| 久久www视频| 亚洲人成网线在线播放va| 日韩专区欧美| 日本高清在线看免费观看| 男女男免费视频网站国产| 午夜视频www| 亚洲精品视频免费| 一区二区三区成人| 全午夜免费一级毛片| 欧美日本不卡| 亚洲天堂2014| 国产福利影院在线观看| 精品黑人一区二区三区| 中文字幕无码电影| 97超爽成人免费视频在线播放| 亚洲高清在线播放| 综合亚洲网| a色毛片免费视频| 亚洲黄色视频在线观看一区| 亚洲精品少妇熟女| 亚洲精品黄| 欧美激情网址| 免费jizz在线播放| 在线免费亚洲无码视频| 久久一级电影| 亚洲国语自产一区第二页| 成人看片欧美一区二区| 欧美日韩国产成人高清视频| 婷婷亚洲视频| 日韩最新中文字幕| aaa国产一级毛片| 久久精品国产精品国产一区| 极品性荡少妇一区二区色欲| 国产亚洲欧美日韩在线观看一区二区| 成人免费黄色小视频| 综合色区亚洲熟妇在线| 亚洲AV无码精品无码久久蜜桃| 97se亚洲综合在线韩国专区福利| 美女内射视频WWW网站午夜| 国产精品嫩草影院视频| 亚洲 欧美 日韩综合一区| 亚洲精品麻豆| 国产精品永久久久久|