999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于加權混合特征的話者識別算法

2017-11-23 08:22:29,,
浙江工業大學學報 2017年6期
關鍵詞:特征

,,

(浙江工業大學 信息工程學院,浙江 杭州 310023)

基于加權混合特征的話者識別算法

徐志江,趙夢娜,盧為黨

(浙江工業大學 信息工程學院,浙江 杭州 310023)

用多窗譜估計和伽馬通濾波改進經典的梅爾倒譜特征(MFCC)的識別性能,并與delta特征相結合,提出了一種基于加權參數設置策略的混合特征話者識別算法.該算法解決了梅爾倒譜系數方差過大、聽覺特征不明顯及話者識別算法特征單一的問題.仿真結果表明:與MFCC和線性預測的提取方法相比,該算法魯棒性能更優,對不同噪聲環境的適應性更好.

多窗譜估計;伽馬通濾波器組;加權函數;加權混合特征

說話人特征提取算法從話者語音中提取能夠表征話者個性特征的參數,是話者識別算法中的核心技術之一.目前,在話者識別算法中應用最為廣泛的特征參數有梅爾倒譜系數(Mel frequency cepstral coefficient MFCC),線性預測倒譜系數(Linear prediction cepstrum coefficient LPCC),基音周期等[1].梅爾倒譜系數是基于人耳聽覺特征的特征參數,具有較好的區分度,是當前話者識別的主流參數[2].實驗表明人耳具有特別優異的語音識別性能和抗噪性能.研究結果表明:相對于Mel濾波器組,伽馬通濾波器組可以更好地模擬人耳耳蝸聽覺模型.因此,筆者采用伽馬通濾波器組優化Mel倒譜提取算法.進一步針對MFCC頻譜具有高方差,且有時延性的缺點[3],摒棄傳統譜估計,利用多窗譜估計來提取基于伽馬通濾波器組和多窗譜估計的改進MFCC.改進的梅爾倒譜參數具有實時性,且其譜估計值具有低方差性,相對于利用特征彎折、RASTA濾波等算法提取的MFCC,具有更好的魯棒性.同時,新型MFCC特征也具有缺點,其只反映語音靜態特性,缺失動態信息[4],因此筆者提取該特征的二次特征即Delta特征加入特征向量.

在對經典梅爾倒譜系數進行深入研究后,發現該特征參數的各個分量對語音的表征能力不同.進一步針對改進的基于伽馬通濾波器組和多窗譜估計的MFCC的參數特性,分析特征的各維系數對語音表征的貢獻度,提出一種基于加權函數的改進Mel倒譜混合特征參數.

1 文獻算法概要

1.1 經典MFCC提取

人耳聽到的聲音高低與聲音本身的頻率并不是線性成正比關系[5].一般使用Mel刻度來描述不同頻率的聲音對聽覺系統的作用.梅爾頻率與聲音頻率的公式[6]為

Mel(f)=2 595ln(1+f/700)

(1)

MFCC的提取流程圖如圖1所示.

圖1 MFCC提取過程Fig.1 MFCC extraction process

1.2 多窗譜估計

多窗口譜估計是一種采用不同權值的多個窗函數,用它們頻域的平均值來獲得語音信號的頻譜估計的算法.設X=[x(0),…,x(N-1)]為一幀有N個采樣點的語音信號,多窗譜估計[7]的定義為

(2)

式中:K為正交窗函數的個數;ωj(t)為正交窗函數;λ(j)為第j個窗函數對應的權值;M為語音幀個數.

1.3 伽馬通濾波器

伽馬通濾波器組是一個標準的耳蝸聽覺濾波器,其濾波器組的沖激響應的典型模式[8]為

gk(t)=AtT-1exp(-2πbkt)cos(2πfkt+φk)t≥0,1≤k≤T

(3)

式中:A為濾波器增益;T為濾波器階數;fk為中心頻率;φk為相位;bk為衰減因子,其決定了濾波器沖激響應的衰減速度,并與相應濾波器的帶寬有關,bk=1.019ERB(fk).

ERB(fk)為等效矩形帶寬,即

(4)

這里設定T=24,即由24個濾波器疊加成伽馬通濾波器組來實現耳蝸濾波器模型.

2 加權改進特征提取

2.1MFCC缺陷分析

頻譜的估計是MFCC提取過程中的重要步驟.然而,經典的譜估計一般采用單窗對語音進行加窗,這使得到的頻譜具有高方差值,引起巨大的MFCC偏差,降低識別的準確性.筆者采用多窗譜估計來解決該問題.此外,MFCC是基于人耳聽覺特性的特征,具有良好的區分性.但梅爾濾波器組卻不能很好地模擬人耳耳蝸的聽覺模型,從而嚴重影響到梅爾倒譜特征的識別性能.因此,采用伽馬通濾波器替代梅爾濾波器組來模擬耳蝸聽覺模型,提出一種基于多窗譜和伽馬通濾波器組的改進MFCC特征(RMFCC,Reformative MFCC).

語音信號具有時變特性,但RMFCC并不能表征幀間相關性.而各人發音的習慣差異主要表現在語音信號頻譜結構的時間變化上,因此應充分利用語音的動態特征以彌補RMFCC的缺陷.將RMFCC的動態特征(Delta)加入特征向量.

實驗證明:倒譜特征各維分量的均方差差異十分明顯,參數的各個分量對系統識別率的貢獻并不相同[9].特征參數分量中對語音的表征能力微弱的部分不僅不能提高識別率,反而會降低識別性能.若僅將特征各維分量直接進行簡單組合,這是一種比較粗糙的方法.進一步,加權參數是一種至關重要的參數,與加入向量的特征特性以及環境有關,對說話人識別算法具有很大的影響,筆者將根據RMFCC和Delta的特性和噪聲環境,提出加權參數設定策略.

2.2 改進MFCC特征提取

RMFCC算法拋棄傳統的譜估計,利用多窗譜估計,且將三角濾波器組改為伽馬通濾波器組.多窗譜估計在減小語音頻譜方差上的性能優越.而伽馬通濾波器組是基于人耳耳蝸聽覺模型建立的,可以很好地模擬人耳基底膜的分頻特性,并可進一步抑制語音的背景噪聲,具有一定的抗噪性.因此,RMFCC既可以減小頻譜方差,提高特征的準確性,又可以更好地模擬人耳特性,還使倒譜特征具有一定的抗噪性能,因此將兩者相結合得到新型聽覺特征參數.圖2為RMFCC特征的提取流程圖.

圖2 RMFCC提取流程圖Fig.2 RMFCC extraction process

2.3 Delta參數的提取

Delta特征是通過將特征向量在語音幀序列的時序上做一次傅里葉變換就得到了該特征向量的Delta特征.筆者采用RMFCC進行二次提取以得到魯棒性更佳的語音幀間動態信息.

Delta公式[10]定義為

(5)

2.4 加權參數的設定

各維特征參數分量對說話人識別的表征能力是不同的,為增強特征參數的區分性,對加入特征向量的特征進行加權.加權參數能夠更好地突出說話人的個性特征,將對識別率貢獻較低的特征分量進行衰減處理.在將特征加入特征向量之前,將特征各維分量與相應加權系數相乘,使之最大程度反映出特征的個性信息.筆者采用升半正弦函數對特征進行加權,傳統采用的升半正弦函數[11]為

r=0.5+0.5sin(π(m-1)/L)m∈[1,L]

(6)

式中L為特征參數的維數.傳統的升半正弦加權參數分布如圖3所示.由圖3可知:傳統升半正弦函數值在第13維左右時最大,但在第2維左右趨近于0.

圖3 升半正弦函數加權參數分布Fig.3 Weighted half-sine function

實驗采用TIMIT標準語音數據庫[12]中dr1~dr5(其中,dr為TIMIT語音庫中的分類文件夾名稱)部分的前20個說話人(男女各10人)的語音進行RMFCC提取.進而深入研究不同噪聲環境下RMFCC的特性.RMFCC特征參數圖如圖4所示.圖5為在信噪比為5 dB的babble,car,factory,white等四種噪聲環境下,最大幅度值的RMFCC在維數上的分布圖.

圖4 RMFCC的參數分布Fig.4 Parameter distribution of RMFCC

圖5 RMFCC最大幅值位置分布Fig.5 Maximum amplitude position distribution of RMFCC

分析圖4可以得到:RMFCC特征參數在第2維和第13維左右的特征參量值達到最大,而在第10維到第12維左右趨近于0.從圖5可以得到:在4種噪聲中,RMFCC的最大幅值大多分布在第1~3維,其余基本集中在第12~15維,還有少部分集中于第15~17維.由此可得語音能量主要集中在低頻.研究表明:幅值較小甚至趨近于0部分對語音的表征能力較弱,為使特征參數的區分性突出,加權函數的最大值位置應與特征參數的最大幅值位置相匹配,顯然,式(6)所示的加權函數并不理想.因此提出另一種加權函數為

(7)

式中:L為特征參數的維數,設定L=24;a為加權函數的靜態分量,根據試驗結果,設定a=0.35,目的是保證系數不會完全衰減,同時保證低維分量的作用比高維分量更大.

加權函數分布圖如圖6所示,得到的加權特征如圖7所示.對比圖5,6可以得到:改進加權函數的峰值位置與RMFCC最大幅值的位置分布基本一致.由于幅值大小與該維特征對語音的表征能力成正比,因此改進加權函數能夠提升特征的魯棒性.分析圖7可得:說話人特征進行加權函數處理后,在保留特征參數較大幅值的同時,對可能由噪聲引起的幅值較小的波動進行一定的弱化,從而使加權特征參數能夠更精確地反映不同說話人的區別.

圖6 改進的加權函數參數分布Fig.6 Improved weight function parameter distribution

圖7 加權RMFCC的參數分布Fig.7 Weighted RMFCC parameter distribution

現實環境中的語音必然會包含噪聲,而去噪也是語音特征處理的一個重要的過程,分析圖8可知:RMFCC特征參數的第4~6維特征以及14,15維特征受噪聲影響較大,會一定程度降低識別性能.因此,為優化識別性能,采用維度篩選,選擇表征說話人個性能力良好,且受噪聲影響較小的特征.在進行參數組合時,選擇1~3,7~13,16~24維特征.將RMFCC和delta特征相組合得到38維混合特征向量.

圖8 受噪的RMFCC參數分布Fig.8 The parameter distribution of noisy RMFCC

3 實驗結果與分析

3.1 實驗參數的設定

本實驗采用TIMIT標準語音實驗庫中的語音數據.語音庫中具有多人的純凈語音,每段語音時長為3~6 s.語音采樣率為16 kHz,采樣精度為16 bit,語音分幀長度為16 ms.NOIZEX-92是一種標準的噪聲語音庫,具有多種常用的噪聲[13].筆者采用庫中car,restaurant,street這三種噪聲,每種噪聲的信噪比分別為15,10,5,0 dB.針對話者識別而言,識別結果只有正確和錯誤這兩種情況,且正確概率和錯誤概率總和為1,由此實驗采用正確識別概率作為評價算法性能的指標.

3.2 特征提取實驗

實驗一測試RMFCC聽覺特征對話者語音的區別性能.采用隨機從純凈TIMIT語音庫中dr3,dr5兩個語音數據集中選取的24個說話人(男女各12個),對每個說話人語音,隨機選擇一段作為測試音,其他語音作為訓練語音.

實驗二測試RMFCC聽覺特征對噪聲環境的抗噪性能,采用TIMIT語音庫中的語音,分別在car,street,restaurant環境下進行試驗.

實驗三測試在三種噪聲環境下,測試加權混合特征的改進的有效性和魯棒性.

試驗首先將語音進行預加重、分幀,對每幀語音提取RMFCC,Delta兩種參數.對兩種特征參數進行加權,并將加權特征進行組合得到加權混合特征向量.采用高斯混合模型——支持向量機混合模型對特征參數進行建模和分類[14-15].其中高斯混合模型混合階數為16.

3.3 結果與分析

實驗一的話者識別結果如表1所示.

表1 純凈TIMIT語音下的識別率Table 1 The recognition rate of pure TIMIT speech

分析表1的結果,得到RMFCC與MFCC在純凈語音下的性能相當,而LPCC相比這兩者魯棒性較差,RMFCC和MFCC均比LPCC高約3%左右.這個結果表明新型聽覺特征RMFCC對語音具有識別性能.

實驗二的話者識別結果見圖9~11.分析圖9~11可以看出:在三種噪聲情況下,RMFCC的識別性能明顯比MFCC,LPCC更好.在語音環境惡劣的情況下(信噪比在0~5 dB時),RMFCC隨著信噪比的增長,識別率增長速度遠大于MFCC和LPCC,且識別率也高于其他兩種特征參數.這說明RMFCC的抗噪性比MFCC,LPCC更強,在低信噪比環境下,魯棒性更為優異.信噪比為10~15 dB時,圖9~11中傳統MFCC和LPCC的識別性能相對近似,但同比MFCC性能較好.這是因為MFCC能更好地描述元音,而LPCC對輔音的描述效果較優,基于不同的語音,識別率略有變化.此外,MFCC參數強調低頻信息,且參數無任何前提假設,因此抗噪性比LPCC參數更強,在0~5 dB環境下性能更優.RMFCC與MFCC,LPCC識別率相差不多,這說明在環境優良時,三種參數的性能相差不多,這表示RMFCC同樣適合在信噪比良好的情況下作為話者識別算法的特征參數.這個結果證明不同的語音環境下,RMFCC的魯棒性都比MFCC,LPCC更好.

圖9 Car噪聲下的識別結果Fig.9 Recognition results under car noise

圖10 Street噪聲下的識別結果Fig.10 Recognition results under street noise

圖11 Restaurant噪聲下的識別結果Fig.11 Recognition results under restaurant noise

實驗三的話者識別結果見圖12~14.對圖12~14的識別結果分析可以得到:加權混合特征的識別率總體要明顯高于RMFCC,MFCC,LPCC.這證明該特征的識別性能比其他三種更優,加權函數對說話人算法特征的優化是有效的.此外,在低信噪比環境下,加權混合特征不僅在識別性能上表現良好,并且在識別性能的提升速度方面也比其他三種特征更優異.這表明該特征的抗噪性和對語音環境的適應性比RMFCC,MFCC,LPCC更好.在語音環境較好的情況下,雖然加權混合特征的識別率的增長速度變慢,但識別率明顯仍高于其他三種語音特征參數.這表明加權混合特征的識別性能和抗噪性均優于其他三種特征.

圖12 Car噪聲下的識別結果Fig.12 Recognition results under car noise

圖13 Street噪聲下的識別結果圖Fig.13 Recognition results under street noise

圖14 restaurant噪聲下的識別結果圖Fig.14 Recognition results under restaurant noise

4 結 論

在研究多窗譜估計和MFCC時,針對傳統MFCC方差過大和區分性能不佳的缺陷,采用多窗譜提取特征頻譜,并利用伽馬通濾波器替代三角濾波器模擬人耳耳蝸濾波模型,彌補MFCC特征的缺陷.從而得到一種基于多窗譜估計和伽馬通濾波器組的新型聽覺特征參數RMFCC.由于RMFCC是靜態特征,缺失語音的動態信息,因此為保證說話人特征信息的完整性,提取說話人語音的動態特征即Delta特征.進一步,分析RMFCC特征參數的幅值位置分布的特性,提出改進的加權函數.對特征進行加權并組合,由此提出一種基于新型聽覺特征和加權函數的加權混合特征.實驗結果表明:提出的加權混合特征與MFCC,LPCC相比,不僅在良好語音環境下具有優良的魯棒性,并且在低信噪比環境下具有更好的識別性能和抗噪性.

[1] SAHIDULLAH M, SAHA G. A novel windowing technique for efficient computation of MFCC for speaker recognition[J]. IEEE signal processing letters,2013,20(2):149-152.

[2] ALAM M J, KINNUNEN T, KENNY P, et al. Multitaper MFCC and PLP features for speaker verification using i-vectors[J]. Speech communication,2013,55(2):237-251.

[3] 曾祺,甘濤,曾紅斌.改進的多窗譜MFCC在說話人確認中的應用[J].計算機系統應用,2014,23(11):192-195.

[4] 方志剛,胡國興,吳曉波.基于非語音聲音的聽覺用戶界面研究[J].浙江大學學報(工學版),2003,37(6):684-688.

[5] TRANGOL J, HERRERA A. Traditional method and multi-taper to feature extraction using Mel frequency cepstral coefficients[J]. International journal of information and electronics engineering,2015,5(1):27.

[6] ALAM M J, KENNY P, O’SHAUGHNESSY D. Low-variance multitaper Mel-frequency cepstral coefficient features for speech and speaker recognition systems[J]. Cognitive computation,2013,5(4):533-544.

[7] SANDBERG J, HANSSON-SANDSTEN M, KINNUNEN T, et al. Multitaper estimation of frequency-warped cepstra with application to speaker verification[J]. IEEE signal processing letters,2010,17(4):343-346.

[8] LI M, NARAYANAN S. Simplified supervised i-vector modeling

with application to robust and efficient language identification and speaker verification[J]. Computer speech & language,2014,28(4):940-958.

[9] ZHU L, YANG Q. Speaker recognition system based on weighted feature parameter[J]. Physics procedia,2012,25:1515-1522.

[10] ZHAO X, SHAO Y, WANG D L. CASA-based robust speaker identification[J]. IEEE transactions on audio, speech, and language processing,2012,20(5):1608-1616.

[11] SAHIDULLAH M, SAHA G. Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition[J]. Speech communication,2012,54(4):543-565.

[12] ZUE V, SENEFF S, GLASS J. Speech database development at MIT: TIMIT and beyond[J]. Speech communication,1990,9(4):351-356.

[13] VARGA A, STEENEKEN H J M. Assessment for automatic speech recognition: II NOISEX-92: a database and an experiment to study the effect of additive noise on speech recognition systems[J]. Speech communication,1993,12(3):247-251.

[14] 姚明海,何通能.一種基于模糊積分的多分類器聯合方法[J].浙江工業大學學報,2002,30(2):156-159.

[15] 湯一平,嚴海東.非約束環境下人臉識別技術的研究[J].浙江工業大學學報,2010,38(2):155-161.

(責任編輯:陳石平)

Speakerrecognitionalgorithmbasedonweightedmixturefeatures

XU Zhijiang, ZHAO Mengna, LU Weidang

(College of Information Engineering, Zhejiang University of Technology, Hangzhou 310023, China)

Multi-window spectrum estimation and gamma-pass filtering are used to improve the recognition performance of classical Mel-cepstral feature (MFCC). Combined with the delta feature, a mixed feature speaker recognition algorithm based on weighted parameter setting strategy is proposed. The algorithm solves the problem that the Mel-cepstral coefficient variance is too large, the auditory features are not obvious, and the feather of speaker recognition algorithm is simple. The simulation results show that the proposed algorithm has better robust performance and better adaptability to different noise environments than MFCC and linear predictive extraction methods.

multi-window spectrum estimation; gamma-pass filter bank; weighted parameter; weighted mixed characteristic parameters

2016-12-14

國家自然科學基金資助項目(61471322,61402416)

徐志江(1973—),男,浙江紹興人,副教授,研究方向為信道編譯碼、網絡測量與建模、計算機網絡及應用等,E-mail: zyfxzj@zjut.edu.cn.

TP391

A

1006-4303(2017)06-0628-06

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 亚洲bt欧美bt精品| 国产成人免费高清AⅤ| 极品av一区二区| 欧美a在线看| 精品国产三级在线观看| 国产欧美日韩另类精彩视频| 亚洲天堂伊人| 国产亚洲精品97AA片在线播放| 97在线免费视频| 无码人妻热线精品视频| 午夜毛片免费看| 热热久久狠狠偷偷色男同| yjizz视频最新网站在线| 一边摸一边做爽的视频17国产| 中国丰满人妻无码束缚啪啪| 欧美在线伊人| 毛片在线播放网址| 国产精品流白浆在线观看| 大香网伊人久久综合网2020| 国产尹人香蕉综合在线电影 | 国产精品美女网站| 美女视频黄频a免费高清不卡| 在线观看欧美国产| 亚洲国产系列| 国产成人凹凸视频在线| 国产人人干| 九九免费观看全部免费视频| 久久情精品国产品免费| h视频在线播放| 日韩欧美国产另类| 亚洲综合色婷婷中文字幕| 免费看美女毛片| 91啦中文字幕| 麻豆国产在线观看一区二区| 国产精品亚洲а∨天堂免下载| 天堂网亚洲系列亚洲系列| 欧美激情一区二区三区成人| 无码网站免费观看| 国产va在线| 亚洲an第二区国产精品| 天堂在线亚洲| 性色在线视频精品| 91久久国产热精品免费| 毛片三级在线观看| 青青热久麻豆精品视频在线观看| 亚洲成人福利网站| 国产人成网线在线播放va| 真实国产精品vr专区| 久久先锋资源| 凹凸国产熟女精品视频| 天堂岛国av无码免费无禁网站 | 欧美福利在线| 精品国产美女福到在线直播| 国产无码网站在线观看| AV网站中文| 国产精品亚洲αv天堂无码| 在线观看亚洲国产| 日本免费一级视频| 久久久久无码精品| 毛片免费视频| 国产成人高清在线精品| 992Tv视频国产精品| 国产女人综合久久精品视| 最新国产网站| 中文字幕久久波多野结衣| 久久亚洲高清国产| 亚洲人成网18禁| 青青青草国产| 亚洲精品天堂在线观看| 欧美第二区| 91精品在线视频观看| 国产手机在线观看| 亚洲 欧美 偷自乱 图片 | 91国内在线视频| 婷婷六月激情综合一区| 欧美三级不卡在线观看视频| 欧美国产在线看| 国产亚洲欧美日韩在线观看一区二区 | 免费观看三级毛片| 日韩高清成人| 亚洲综合二区| 91欧美亚洲国产五月天|