999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模糊聚類決策樹的分布式語者識別算法

2017-09-01 15:54:43黃繼鵬王宇虹
計算機技術與發展 2017年8期
關鍵詞:分類特征

黃繼鵬,陳 志,芮 路,王宇虹

(南京郵電大學 計算機學院,江蘇 南京 210023)

基于模糊聚類決策樹的分布式語者識別算法

黃繼鵬,陳 志,芮 路,王宇虹

(南京郵電大學 計算機學院,江蘇 南京 210023)

為解決大規模語者識別問題中普遍存在的加性噪聲、高計算復雜度等問題,提高大規模語者識別算法的抗噪性和魯棒性,利用模糊聚類決策樹,提出了一種分布式語者識別算法。該算法將訓練數據等分成幾個部分,對這幾個部分分別使用基于模糊聚類的決策樹算法進行訓練;對于輸入的測試樣本,用建好的決策樹進行分類,判斷它屬于哪棵樹的哪個葉節點;在該選定的葉節點上使用梅爾頻率倒譜系數和高斯混合模型識別方法識別該語者身份。對訓練數據進行模糊聚類的過程主要包括四個步驟:根據相應的層提取語音特征;計算特征數據的均值和標準差得到信任間距集合;對集合使用Lloyd算法得到分隔向量;以分隔向量為基礎進行聚類分組得到下一層的節點。實驗結果表明,與傳統的硬聚類算法相比,該算法能夠提高語者識別的準確率和分類效率,對加性噪聲具有良好的抗干擾能力。

語者識別;模糊聚類;決策樹;分布式計算

0 引 言

在語者識別中,給出一個輸入語音,要求從系統提供的所有語者中選擇一個來確定未知語者的身份[1],這個過程通常用到梅爾頻率倒譜系數、高斯混合模型等方法[2-4]。上述方法在低噪聲條件下對小型語者表現非常好,但是在高噪聲條件下會嚴重地降低識別性能,并且當語者數量明顯增時,識別錯誤的可能性將大大增加[5]。Kenny等提出基于I向量的語音識別和語者身份確認方法,該方法通常需要大量表現良好的數據,但當把I向量應用于大規模語者識別時,計算復雜度可能會很高[6]。Graves等提出使用遞歸神經網絡進行語者識別的方法,在噪聲較小的情況下,該方法準確率較高,但對于高噪聲的數據效果不盡如人意,并且使用深度網絡在數據量較大時計算復雜度很高[7]。Chorowski等研究了使用機器翻譯模型進行語音識別錯誤率較高的原因,提出了一種基于注意力模型的方法該方法可以防止單幀過于集中,提高了語音識別的魯棒性和抗噪聲性,但計算復雜度較高[8]。

可見,普遍存在的加性噪聲和大規模語者識別的應用需求使得語者識別算法設計需要解決以下問題:

(1)語音數據的噪聲可能會導致訓練和測試之間的錯誤匹配,降低語者識別的正確性。

(2)當識別的語者數量顯著增加時,識別的錯誤率也將可能提高。在傳統的梅爾頻率倒譜系數和高斯混合模型的方法中,語者規模增長時,識別準確性持續減小,當規模增長到100時,準確性發生最大下降;與10個語者的案例相比,630個語者大約有30%的準確性損失[4]。

(3)當語者規模變大時,識別效率隨之下降,而計算復雜性相應提高[9]。

良好的語者識別算法需要有較強的魯棒性和抗噪性,能夠克服大規模語者識別錯誤率高、計算復雜度高等問題。為此,結合決策樹[10]和模糊聚類[11],設計了一種分布式語者識別算法,以解決上述問題。

1 分布式語者識別框架設計

基于模糊聚類決策樹的分布式語者識別包括四個過程:將訓練數據等分成三個部分;對等分過的數據分別使用基于模糊聚類的決策樹分類;決定測試語者屬于哪棵樹的哪個葉節點;對該選定的葉節點使用梅爾頻率倒譜系數和高斯混合模型識別技術識別該語者身份。在決策樹的每一層的建樹過程中采用模糊聚類,即在每一層上一個語者可能屬于多個節點。圖1給出了基于模糊聚類決策樹的分布式語者識別框架。

1:輸入樣本S2:將樣本分為3份,s1,s2,s3∈S3:forallsi∈S4:使用模糊聚類算法建成決策樹ti5:輸入測試語音6:決定該語者屬于哪個葉節點7:使用MFCC+GMM算法進行識別8:輸出語者身份9:endfor

圖1 基于模糊聚類決策樹的分布式語者識別框架

在該框架中,首先輸入樣本S,將其分為s1,s2,s3用于分布式處理;對每個樣本,使用模糊聚類算法建成一棵決策樹ti,將大量的語者分類到不同的葉子節點,縮小語者規模;對于輸入的測試語音,先判斷該語者屬于哪個葉節點,再在所屬葉節點的人群中使用梅爾頻率倒譜系數和高斯混合模型的算法進行識別,最后輸出語者身份。上述分布式策略用于降低計算復雜度,而用模糊聚類決策樹分類將目標語者縮小,制造出傳統語者識別方法適合的語者規模,以提高對加性噪聲的抗性和識別精確性。

此外,在分布式語者識別框架中,決策樹建樹過程會從語者語音信號提取語音的音調、語音信號正脈沖的均值、語音信號正脈沖的偏度、語音信號負脈沖的均值、語音信號負脈沖的偏度、語音信號正脈沖的寬度等六種特征,決策樹每一層將提取一個特征。給定一個連續的語音輸入,使用YIN算法[12]將語音分解成等長的NF幀,一幀的長度是25 ms,幀移位長度是10 ms。在語者語音信號提取中,音調的提取方法為:獲得第i幀的音調值Pi和有聲概率Pri(i=0,1,…,NF);去掉50~550 Hz范圍之外的音調值,同時去掉從有聲概率低于0.8的幀中提取的音調值;得到音調值的集合。其他五個語音特征的提取方法:計算每一幀的能量Ei和過零率Zi,并判斷該幀是否有聲,若不是,不進行操作,若是,則用Levinson-Durbin算法[13-15]計算線性預測系數;通過使用線性預測系數得到線性預測剩余信號;從LP剩余信號中提取五個聲源特征。

提取的特征表示為Fi,j,i是當前節點上的語者索引,j是特征索引,j=0,1,…,Ni,Ni表示語者i的特征值總數。

2 基于模糊聚類決策樹的分布式語者識別算法設計

根據分布式語者識別框架,從節點模糊聚類分類、識別語者身份兩個方面,設計基于模糊聚類決策樹的分布式語者識別算法。

2.1 節點模糊聚類分類

在圖1的框架中,語音樣本數據等分成三個部分,這些等分后的語音樣本數據分別作為一棵決策樹的根節點C1進行建樹;每一個語音樣本都來自不同的語者,Cn1,n2,…,nL,nL+1表示L層的第nL+1個節點。此外,使用基于模糊聚類的決策樹對等分過的數據進行分類,對已建好的一棵樹,先對根節點進行分組,得到的子節點執行相同的步驟繼續進行分組直到建成決策樹。圖2給出了一個節點的模糊聚類分類過程。

1:if節點上的語者數>預設值2:提取特征值3:計算μi,δi4:構建信任間距集合{μi-λδi,μi+λδi}5:使用Lloyd的算法得到分隔向量[P0,P1,…,PM]和下面組群數M6:創建M個子節點7:forall語者i∈C18:索引mi=19:whilem!=M+110:if[μi-λδi,μi+λδi]∩[Pm-1Pm]>011:語者i∈C1,m12:endif13:m=m+114:endwhile15:endfor16:endif

圖2 一個節點的模糊聚類分類過程

根據圖2,在節點的模糊聚類分類中,首先判斷當前節點中的樣本數量是否大于預設值,若不大于則該節點為葉節點,不需要再進行分組;然后對節點上的樣本進行特征提取,每一層只提取一種特征,依次提取音調、語音信號正脈沖的均值、語音信號正脈沖的偏度、語音信號負脈沖的均值、語音信號負脈沖的偏度和語音信號正脈沖的寬度。

在完成節點樣本特征提取后,根據式(1)、式(2)計算每個語者特征數據的平均值和標準差。

(1)

(2)

其中,μi為語者i的特征數據的平均值;δi為語者i的特征數據的標準差;Fi,j為提取出的特征,i是當前節點上的語者索引,j(j=0,1,…,Ni)是特征索引,Ni為語者i的特征值總數。

構建一個可信任的間距[μi-λδi,μi+λδi],λ是一個預定的系數;得到所有語者兩個統計數據μi±λδi的集合D={μi-λδi,μi+λδi}。

在獲得每個語者特征數據的平均值和標準差后,對集合D使用Lloyd算法[16]得到分隔向量[P0,P1,…,PM],M為Lloyd算法采用的語者組的總數。以此分隔向量為基礎,創建全部M個子節點。對每個語者i(i∈C1)進行分組,判斷其屬于C1,m(m=1,2,…,M)中的哪一個,m初始為1,若[μi-λδi,μi+λδi]∩[Pm-1,Pm]>0,則語者i屬于C1,m,如此直到m等于M,所有語者都分組完畢,所得的C1,m即是決策樹的下一層。

2.2 識別語者身份

根據基于模糊聚類決策樹的分布式語者識別框架,對已建好的三棵決策樹,分別同時從決策樹的根節點開始,對測試語者進行分類,直到其中一棵樹分類完成,即識別出該語者身份。識別過程如圖3所示。

1:while該節點不為葉節點2:特征值提取3:異常值去除4:計算特征平均值μ5:m=16:while!(Pm-1≤μ≤Pm)7:m=m+18:endwhile9:endwhile10:使用MFCC+GMM識別語音身份

圖3 語者身份識別過程

在圖3中,從樹的根節點開始,對測試語者進行分類直到結束或找到測試語者屬于的葉節點,每個節點上執行的分類步驟相同。首先判斷該節點是否為葉節點,若是則對該節點使用梅爾頻率倒譜系數和高斯混合模型進行身份識別;對測試語者的語音進行特征提取和異常值去除,且相應的層只提取相應特征,得到特征集合{Fk},k=1,2,…,K,K為特征值總數。使用式(3)計算特征值的平均值:

(3)

此后,通過比較平均值和從模糊聚類中的Lloyd算法得到的分隔向量[P0,P1,…,PM]來做分類決定,令m=1,判斷是否有Pm-1≤μ≤Pm,若不是,則令m=m+1,重復此步驟繼續判斷直到m等于M;若是,則該測試語者被分類到子節點且此層分類結束。在比較的基礎上,當有且僅有一個節點在L層是可用的且L層的基于決策樹的分類結束時,分類將會從L層的該可用節點上以相同的方式繼續進行,直到一個葉節點最終可用。最終,對選中的葉節點使用梅爾頻率倒譜系數和高斯混合模型識別技術識別測試語者身份。

3 實驗結果及分析

實驗采用從www.audible.com等在線有聲讀物網站收集的數據,將所有的mp3樣例以11.025 kHz的抽樣率轉換成wav格式,假設這些語者都不相同,共得到1 300個語者的語音,每個語音的時長為20 s,在高斯白噪聲下的信噪比為25 dB。

在實驗中,1 300段語音用來構建一棵六層決策樹,音調特征的參數包括構建信任間距的λ值和Lloyd算法采用的聚類數量;對于另外五個聲源特征,除了以上列出的兩個參數,還有一個額外的關于異常值去除的比例參數。表1給出了決策樹每一層所構建信任間距的λ值和Lloyd算法采用的聚類數量以及每一層語者縮減率和準確率。

表1 決策樹每一層參數和性能指標

實驗將1 300段語音通過訓練的決策樹做分類測試,在某一層的分類精確性是以在該層上被分到正確節點的語者所占百分比計算的。為了計算某一層的語者縮減率,給該層的節點加權并且所加權重是由該層上語音被分到正確節點的百分比決定的。例如,1 000個語者全部被正確的分到樹的某一層,其中有100個語者被正確地分到該層上語者規模(容量)為200的節點上,那么當計算該層所有節點的加權平均語者時,該節點分配的權重是100/1 000=10%。根據表1,從樹的高層到低層,分類精確性持續下降,語者縮減率持續增加。在25 dB的情況下,實驗中六層決策樹在底層能夠獲得97.01%的分類精確性和94.75%的語者縮減率,性能表現很好。

下面比較模糊聚類決策樹和傳統聚類決策樹的性能表現。實驗使用與表1相同的六個特征構建兩棵樹,圖4和圖5給出了兩種不同聚類方法的實驗結果。

圖4 模糊聚類決策樹和傳統聚類決策樹語者縮減率對比

從圖4和圖5可以看出,模糊聚類決策樹的分類精確性比傳統聚類決策樹的精確性高得多,而兩棵樹的語者縮減率基本相同。可見,模糊聚類對構造所采用的決策樹好于傳統的硬聚類方法。

圖5 模糊聚類決策樹和傳統聚類決策樹準確率對比

4 結束語

為解決存在加性噪聲的大規模語者識別問題,提出了一種基于模糊聚類決策樹的分布式語者識別算法。該算法劃分訓練數據,使用基于模糊聚類的決策樹分別進行分類,通過決定測試語者屬于哪棵樹的哪個葉節點,縮小識別語者的規模,結合梅爾頻率倒譜系數和高斯混合模型來識別未知語者的身份。實驗結果表明,利用基于模糊聚類的決策樹能夠顯著提高分類準確率,而分布式建樹極大地提高了分類效率,同時對加性噪聲有良好的抗干擾力。

在后續研究中,可以考慮對分類算法、語音特征提取算法等進行優化。此外,設計脫離梅爾頻率倒譜系數和高斯混合模型的新識別算法,尋找合適的深度學習架構來進行語者身份識別等也是值得探索的方向。

[1] Togneri R,Pullella D.An overview of speaker identification:accuracy and robustness issues[J].IEEE Circuits and Systems Magazine,2011,11(2):23-61.

[2] Reynolds D A,Rose R C.Robust text-independent speaker identification using Gaussian mixture speaker models[J].IEEE Transactions on Speech and Audio Processing,1995,3(1):72-83.

[3] Reynolds D A,Quatieri T F,Dunn R B.Speaker verification using adapted Gaussian mixture models[J].Digital Signal Processing,2000,10(1):19-41.

[4] Reynolds D A. Speaker identification and verification using Gaussian mixture speaker models[J].Speech Communication,1995,17(1):91-108.

[5] Hasan M R,Jamil M,Rahman M G,et al.Speaker identification using mel frequency cepstral coefficients[C]//Proceedings of the 3rd international conference on electrical & computer engineering.[s.l.]:IEEE,2004:565-568.

[6] Kenny P,Boulianne G, Ouellet P,et al. Joint factor analysis versus eigenchannels in speaker recognition[J].IEEE Trans-actions on Audio,Speech,and Language Processing,2007,15(4):1435-1447.

[7] Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks[C]//Proceedings of the 2013 IEEE international conference on acoustics, speech and signal processing.[s.l.]:IEEE,2013:6645-6649.

[8] Chorowski J K, Bahdanau D, Serdyuk D, et al.Attention-based models for speech recognition[C]//Advances in neural information processing systems.[s.l.]:Neural Information Processing Systems Foundation,2015:577-585.

[9] Hu Y,Wu D,Nucci A.Fuzzy-clustering-based decision tree approach for large population speaker identification[J].IEEE Transactions on Audio,Speech,and Language Processing,2013,21(4):762-774.

[10] Safavian S R,Landgrebe D.A survey of decision tree classifier methodology[J].IEEE Transactions on Systems,Man,and Cybernetics,1991,21(3):660-674.

[11] 孫吉貴,劉 杰,趙連宇.聚類算法研究[J].軟件學報,2008,19(1):48-61.

[12] de Cheveigné A,Kawahara H.YIN,a fundamental frequency estimator for speech and music[J].Journal of the Acoustical Society of America,2002,111(4):1917-1930.

[13] Musicus B R.Levinson and fast Choleski algorithms for Toeplitz and almost Toeplitz matrices[D].[s.l.]:Massachusetts Institute of Technology,1988.

[14] Sim K S,Lim M S,Yeap Z X.Performance of signal-to-noise ratio estimation for scanning electron microscope using autocorrelation Levinson-Durbin recursion model[J].Journal of Microscopy,2016,263(1):64-77.

[15] Selvaperumal S K,Nataraj C,Thiruchelvam V,et al.Speech to text synthesis from video automated subtitling using levinson durbin method of linear predictive coding[J].International Journal of Applied Engineering Research,2016,11(4):2388-2395.

[16] Lloyd S P.Least squares quantization in PCM[J].IEEE Transactions on Information Theory,1982,28(2):129-137.

Distributed Speaker Identification Algorithm with Fuzzy Clustering Decision Tree

HUANG Ji-peng,CHEN Zhi,RUI Lu,WANG Yu-hong

(College of Computer,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)

In order to solve the problems of additive noise and high computational complexity in speaker identification and to improve the robustness and anti-noise ability of the large scale speaker identification algorithm,a distributed speaker identification algorithm with fuzzy clustering decision tree has been presented,which divides training data into several parts,and builds fuzzy clustering decision trees for these parts.For testing data,fuzzy decision trees has been employed,which are built in the previous step to decide which leaf node the people’s speech belongs to.The speaker is identified by using the Mel-Frequency Cepstral Coefficients and the Gauss mixture model identification method on the selected leaf nodes.The process of fuzzy clustering on training data mainly includes four parts,i.e.extracting feature data from the corresponding layer,calculating the mean and standard deviation of the feature data,using Lloyd algorithm to get the separation vector,clustering to get the nodes of the next layer.The experimental result shows that compared with the traditional hard clustering algorithm,the proposed algorithm has improved the accuracy and classification efficiency of speaker identification,with the good anti-interference ability to the additive noise.

speaker identification;fuzzy clustering;decision tree;distributed computing

2016-04-18

2016-08-03 網絡出版時間:2017-06-05

國家自然科學基金資助項目(61501253);江蘇省“六大人才高峰”第十一批高層次人才選拔培養資助項目(XXRJ-009);江蘇省基礎研究計劃(自然科學基金)項目(BK20131382,BK20151506);江蘇省重點研發計劃(社會發展)項目(BE2016778);江蘇省高等教育教學改革“重中之重”立項研究課題(2013JSJG005);國家級大學生創新創業訓練計劃項目(201410293011,201510293014);江蘇省高等學校大學生創新創業訓練計劃立項項目(201410293011Z、201510293014Z);南京郵電大學大學生創新訓練計劃立項項目(SZDG2014011,SZDG2015014,XYB2015036,XYB2015265)

黃繼鵬(1994-),男,研究方向為數據挖據;陳 志,副教授,通信作者,CCF會員(200014587M),研究方向為數據挖掘、傳感器網絡。

http://kns.cnki.net/kcms/detail/61.1450.TP.20170605.1506.010.html

TP391

A

1673-629X(2017)08-0079-04

10.3969/j.issn.1673-629X.2017.08.016

猜你喜歡
分類特征
抓住特征巧觀察
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 成人韩免费网站| 欧美精品导航| 福利视频久久| 久久人搡人人玩人妻精品一| 国产欧美中文字幕| 国产精品亚洲片在线va| 国产乱子伦精品视频| 国产精品v欧美| 国产第一色| 亚洲国产精品久久久久秋霞影院| 国产AV无码专区亚洲精品网站| 亚洲高清在线播放| 在线看AV天堂| 亚洲综合18p| 毛片a级毛片免费观看免下载| 久久久久九九精品影院| 婷婷五月在线| 天堂在线www网亚洲| 国产成年女人特黄特色毛片免| 激情爆乳一区二区| 亚洲欧美成人在线视频| 国产二级毛片| 色网站免费在线观看| 成年女人a毛片免费视频| 色亚洲成人| 亚洲天堂视频网站| 亚洲天堂精品在线| 国产麻豆福利av在线播放| 午夜毛片免费观看视频 | 国产精品污污在线观看网站| 色婷婷国产精品视频| 亚洲精品人成网线在线| 色天天综合| 成人中文字幕在线| 影音先锋丝袜制服| 日韩乱码免费一区二区三区| 伊人久综合| 老色鬼欧美精品| 国产免费好大好硬视频| 老司机久久99久久精品播放 | 91精品国产自产91精品资源| 亚洲色图另类| 一区二区三区高清视频国产女人| 新SSS无码手机在线观看| 亚洲国产日韩视频观看| 久久成人免费| 国产极品粉嫩小泬免费看| 天天婬欲婬香婬色婬视频播放| a级毛片免费网站| 久久不卡精品| 国产精品亚洲а∨天堂免下载| 久久久久亚洲av成人网人人软件 | 日本免费a视频| 亚洲精品综合一二三区在线| 91国语视频| 黄色网在线| 久久精品人人做人人爽电影蜜月| 一区二区三区四区在线| 国产精品自拍合集| 国产97公开成人免费视频| 2021国产乱人伦在线播放 | 中文字幕在线观看日本| 久久亚洲美女精品国产精品| 国产精品吹潮在线观看中文| 国产成人h在线观看网站站| 免费看美女自慰的网站| 1级黄色毛片| 国产亚洲精品91| 亚洲欧美自拍一区| 国产精品毛片一区视频播| 成年人国产网站| 人妻丝袜无码视频| 免费看黄片一区二区三区| 超碰精品无码一区二区| 久青草国产高清在线视频| 伊人丁香五月天久久综合 | 亚洲av日韩综合一区尤物| 国产日本欧美在线观看| 日韩a级片视频| 国产凹凸一区在线观看视频| 久久久久免费精品国产| 全部无卡免费的毛片在线看|