999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

說話人識別綜述

2012-01-19 12:15:02戚銀城劉明軍張華芳子武軍娜
電子科技 2012年6期
關鍵詞:特征方法模型

楊 迪,戚銀城,劉明軍,張華芳子,武軍娜

(華北電力大學電子與通信工程系,河北保定 071003)

說話人識別綜述

楊 迪,戚銀城,劉明軍,張華芳子,武軍娜

(華北電力大學電子與通信工程系,河北保定 071003)

在分析說話人識別原理和方法的基礎上,對近年來說話人識別技術的發展進行了綜述。分析了當前說話人識別技術中使用的多種特征和模式識別方法,并對其今后的研究前景和發展方向進行了展望。

說話人識別;特征提取;模式識別

說話人識別(Speaker Recognition,SR)又稱話者識別[1],是指通過對說話人語音信號的分析處理,自動確認說話人的技術。其綜合了生理學、語音學、數字信號處理、模式識別、人工智能等學科知識的一個研究課題,以獨特的方便性、經濟性和準確性等優勢,在相關領域內發揮著重要作用,并有著廣闊的市場應用前景。

1 說話人識別原理

說話人識別的基本原理,是利用說話人的語音為每個說話人建立一個能夠描述此說話人特點的模型,作為此說話人語音特征參數的標準模板,然后針對測試的語音信號進行比對,實現判別說話人身份的目的。說話人識別的原理框圖,如圖1所示。

圖1 說話人識別原理框圖

1.1 特征提取

人的發聲器官由3部分組成:(1)肺和氣管產生氣源。(2)喉和聲帶組成聲門。(3)由咽腔、口腔、鼻腔組成聲道。空氣由肺部排入喉部,經聲帶進入聲道,最后由嘴輻射出聲波,這就形成了語音。當發不同性質的語音時,激勵和聲道的情況不同,其對應的模型也不同。根據提取的算法不同,將語音信號特征可分為聲門特征、聲道特征。語音信號是一維時域信號,具有簡單易懂、清晰直觀、便于計算等優點,基于聲門特征的分析是最早應用于說話人識別的方法之一,而基于聲道特征的分析是目前說話人識別中識別效果較好的方法。

1.1.1 聲門特征

由于聲帶振動的不同,對應于聲帶之間切口形狀時變區域的變化,即為聲門。研究顯示[2],通過聲門聲帶流的差異反映了聲帶張開閉合的速率、聲帶在通常情況下的形狀以及聲帶振動時刻的寬度和速調范圍;與基于聲道性質的倒譜特征一樣,說話人生理上這些固有的特征也具有個體差異,因而可以在說話人識別系統中用于區分說話人。基于聲門特性的基本說話人識別特征主要包括:

(1)基頻[3]:濁音信號是一種準周期性信號,其周期稱為基音周期。語音上的基音高低決定于聲帶的長短、松緊、厚薄。長、松、厚的,基音就低;短、緊、薄的,基音就高。鑒于對人生理特性的良好表現力,以及較傳統倒譜特征優良的環境魯棒性,基音周期被廣泛應用于說話人識別中。目前基音周期的估計算法主要有自相關法、平均幅度差函數法、并行處理法、倒譜法、簡化逆濾波法、小波變換法等。

(2)能量:語音的能量通常指的是語音的短時能量,它反映了語音信號的強度;同時,語音能量的變化反映了語音信號停頓以及重音所在。

(3)語音速率:語音速率指單位時間內發出音節的個數,它反映了說話人發音的快慢。由于音素的知識與語音識別緊密相關,因而在文本無關的說話人識別中,語音速率特征使用的并不多。

1.1.2 聲道特征

人在說話的時候,聲門處氣流沖擊聲帶產生振動,然后通過聲道響應變成語音。數字化的語音信號是聲道頻率特性和激勵信號源二者的共同結果,后者對于某幀而言常帶有一定的隨機性,而說話人的個性特征一定程度上體現在說話人的發音聲道變化上,即聲道特征可以更好地對說話人進行識別。基于聲道的特征主要有:

(1)美爾倒譜系數(Mel-frequency Cepstral Coefficients,MFCC),是基于聽覺系統的臨界帶效應、在Mel標度頻率域提取出來的一種倒譜參數,它能夠比較充分利用人耳這種特殊的感知特性,這種特征具有比較強的魯棒性,得到了廣泛應用。近年來,學者們為提高識別率,在MFCC特征的基礎上,提出了一些改進參數,如:△MFCC、DMFCC、MFSC、FMFCC 等。其中一階差分系數△MFCC[4]以其能夠擬合人發聲和人耳聽覺的動態特性的優點,和MFCC結合后能得到很好的應用和識別效果。

(2)線性預測倒譜系數(Linear Prediction Cepstrum Coefficient,LPCC),1947年維納首次提出了線性預測這一術語,而板倉等人在1967年首先將線性預測技術應用到了語音分析和合成中。LPCC是最早被應用到語音識別中的一種倒譜參數,其主要優點是比較徹底地去掉了語音產生過程中的激勵信息,主要反映聲道響應,計算量小,并且對元音有較好地描述能力,而且往往只需要十幾個倒譜系數就能較好地描述語音的共振峰特性,因此在說話人識別中得到了良好的應用。

考慮到單獨使用某種特征所存在的問題,越來越多的說話人識別系統開始將聲門特征與基于聲道特征的倒譜特征相結合,以進一步提高說話人系統性能,而如何將這兩種特征有效地結合起來成為目前的一個熱門話題。通常融合的方法是將聲門信息特征線性疊加到同一幀的倒譜特征,以形成維度更高的語音特征[5];或者分別在倒譜特征系統和聲門特征系統中進行識別,然后將它們的得分進行加權組合[6],利用聲門信息特征和倒譜特征在區分說話人上的互補性,有利于提高系統性能,對說話人識別技術是一個重大突破。

此外,研究者為提高說話人識別系統的性能,提出對特征進行變換的方法,以降低特征的維數和計算的復雜度。主要的特征變換方法有:主成份分析法(PCA)[7]、線性判別分析法(LDA)[8]、獨立分量分析法(ICA)[9]。主成份分析法利用其最優的降維性質,在保證說話人識別性能的前提下減少說話人識別特征的維數,進而降低計算復雜度。相比主成份分析法,經過線性判別分析法得到的特征有更好的噪聲魯棒性。獨立分量分析是解決盲源分離問題的一個有效的方法,它能夠更好地去除噪聲,在提取MFCC特征時,將ICA代替DCT對信號求取頻譜,得到的特征參數對非高斯噪聲信號有更好的識別率。

1.2 識別方法

采用不同說話人模型結構對應于說話人識別的不同方法。隨著計算機和數字信號處理、人工智能等的不斷發展,說話人識別已從單一的模板模型向非參數模型、參數模型、人工神經網絡模型以及支持向量機模型方向發展,并且混合模型應用于說話人識別也成為熱點。

1.2.1 非參數模型方法

典型的非參數模型包括動態時間規整法(Dynamic Time Warping,DTW)和矢量量化法(Vector Quantization,VQ)。

(1)動態時間規整法:說話人信息不僅有穩定因素,而且有時變因素。將識別模板與參考模板進行時間對比,按照某種距離測度得出兩模板間的相似程度。常用的方法是基于最近鄰原則的動態時間規整(DTW)。

(2)矢量量化法:最早用于聚類分析的數據壓縮編碼技術。Helms首次將其用于說話人識別,它把每個人的特定文本訓練成碼本,識別時將測試文本按此碼本進行編碼,以量化產生的失真度作為判決標準。Bell實驗室的Rosenberg和Soong用矢量量化進行了孤立數字文本的說話人識別研究,得到了較好的識別結果。利用矢量量化的說話人識別方法的判斷速度快,而且識別精度較高。

1.2.2 參數模型方法

參數模型是指采用某種概率密度函數來描述說話人的語音特征空間的分布情況,并以該概率密度函數的一組參數作為說話人模型。這些參數可以用從訓練語音中提取的特征參量來估計,說話人識別系統中經常采用的參數模型有:隱馬爾可夫模型(Hidden Markov Model,HMM)、高斯模型、高斯混合模型(Gaussian Mixture Model,GMM)等。

(1)隱馬爾可夫模型法:是一種基于轉移概率和輸出概率的隨機模型,最早CMU和IBM被用于語音識別。它把語音看成由可觀察到的符號序列組成的隨機過程,符號序列則是發聲系統狀態序列的輸出。在使用隱馬爾可夫模型識別時,為每個說話人建立發聲模型,通過訓練得到狀態轉移概率矩陣和符號輸出概率矩陣。識別時計算未知語音在狀態轉移過程中的最大概率,根據最大概率對應的模型進行判決。對于與文本無關的說話人識別一般采用各態歷經型HMM;對于與文本有關的說話人識別一般采用從左到右型HMM。HMM不需要時間規整,可節約判決時的計算時間和存儲量,在目前被廣泛應用。缺點是訓練時計算量較大。

(2)高斯混合模型法:GMM是一種統計模型,它能很好地刻畫參數空間中訓練數據的空間分布及其特性,可以表示成為多個高斯概率密度函數的加權和的形式。GMM模型實際上是連續HMM模型的一種特例,即單個狀態的HMM。也就是說GMM模型只有一個狀態,它并不去刻畫語音的時序過程,因為在與文本無關的話者識別中,用于訓練的語音和用于測試的語音的語義完全可以不同,即時序過程在訓練和測試時是不同的。所以,GMM模型只刻畫語音特征參數的靜態分布,也即通過高斯分布來描述不同的因素類,而不考慮時序信息。不同說話人之間語音特征的靜態分布也是不同的。因此通過比較不同話者的GMM模型,就可以區分不同的說話人。

1.2.3 人工神經網絡方法

人工神經網絡(Artificial Neural Network,ANN):在某種程度上模擬了生物的感知特性,是一種分布式并行處理結構的網絡模型,具有自組織和自學習能力、很強的復雜分類邊界區分能力以及對不完全信息的魯棒性,其性能近似理想的分類器。其缺點是訓練時間長,動態時間規整能力弱,網絡規模隨說話人數的增加,可能大到難以訓練的程度。ANN由神經元、網絡拓樸、學習算法3個基本要素構成,訓練過程中是將已知語音信號的特征參數作為學習樣本,并將其代入到神經網絡中進行多次循環網絡學習,網絡通過對這些特征參數的學習將最終得到一組能代表說話人特征的網絡連接權和偏置,說話人識別測試過程就是將待測說話人的語音特征參數代入到網絡中,通過網絡的相似計算準測得出判決結果。

1.2.4 支持向量機方法

支持向量機(Support Vector Machine,SVM):是Vapnik提出的旨在改善傳統神經網絡學習理論弱點的一種重要的學習方法,它是在統計學習理論(Statistical Learning Theory,SLT)基礎上發展起來的。SVM的基本思想是將輸入空間的向量映射到高維SVM擴展空間,然后在高維的擴展空間中采用分類方法構造最優超平面分界面,以解決說話人識別問題。SVM致力于尋找一個既滿足分類要求,并且使它距離最近的樣本分隔區域最大的超平面,這樣就能從最優分類超平面中得到決策函數,也就是支持向量機。它是一種泛化能力很強的分類器,在國際模式識別領域受到廣泛的關注。

近幾年,說話人的識別方法已經由單一的模式識別轉向為多模式的識別,每種識別都有各自的優缺點,采用多種識別模式的組合不僅可以克服單一模式的缺點、彌補單一模式識別的不足,最主要的是可以提高說話人的識別效率。鮑煥軍,鄭方[10]將GMM-UBM與SVM結合,利用GMM-UBM能突出說話人個性特征,而SVM對信道的魯棒性較好,彌補了GMM-UBM受信道影響較大的缺點,該融合方法提高了系統的性能,接著,郭武等人[11]也證實了相應的結果;鄭建煒等人[12]利用GMM與RVM融合的方法,既有效地提取話者特征信息,解決大樣本數據下的RVM訓練問題,又結合統計模型魯棒性高和分辨模型辨別效果好的優點,比GMM/SVM系統具有更高的稀疏性。

2 說話人識別技術展望

從當今的趨勢看來,說話人識別技術主要集中于如何將語音信息與說話人個人特征信息有效地區分開、如何提取出能很好地表征說話人個性的特征參數、如何有效利用不同特征參數之間的互補性等方面,并在基于人耳聽覺的基礎上也提出了一些有效參數。在識別模型上,人工神經網絡模型、支持向量機模型、多模式組合的方法將逐漸深入到說話人識別過程中。隨著各相關學科的迅速發展,說話人識別技術將會有更多的理想算法出現,也將會有更廣闊的前景。

[1]QUATIERI F T.離散時間語音信號處理—原理與應用[M].趙勝輝,劉家康,謝湘,等,譯.北京:電子工業出版社,2004.

[2]PLUMPE M D,QUATIERI T F,REYNOLDS D A.Modeling of the glottal flow derivative waveform with application to speaker identification[J].IEEE Transactions on Speech and Audio Processing,1999,7(5):569 -586.

[3]GURUPRASAD S,YEGNANARAYANA B.Performance of an event-based instan-taneous fundamental frequency estimator for distant speech signals[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(7):1853-1864.

[4]郭春霞.說話人識別算法的研究[J].西安郵電學院學報,2010,15(5):104 -106.

[5]ZHENG Rong,ZHANG Shuwu,XU Bo.Improvement of speaker identification by combining prosodic features with acoustic features[C].Guangzhou:5th Chinese Conference on Biometric Recognition(SINOBIOMETRICS 2004),2004,3338:569-576.

[6]葉寒生,陶進緒,張東文,等.噪聲環境下基于特征信息融合的說話人識別[J].計算機仿真,2009,26(3):325 -328.

[7]GAN Zhigang.An improved feature extraction method in speaker identification[C].Hangzhou:2011 Third International Conference on Intelligent Human-Machine Systems and Cybernetics,2011:218 -222.

[8]MITCHELL M L,DAVID V L.Source- normalised - and -weighted LDA for robust speaker recognition using i-vectors[C].Prague Congress Ctr:2011 IEEE International Conference on Acoustics,Speech and Signal Processing,2011:5456-5459.

[9]DU Jun,ZOU Xin,HAO Jie,et al.The efficiency of ICA -based representation analysis:application to speech feature extraction[J].Chinese Journal of Electronics,2011,20(2):287-292.

[10]鮑煥軍,鄭方.GMM-UBM和SVM說話人辨認系統及融合的分析[J].清華大學學報:自然科學版,2008(S1):100-105.

[11]郭武,戴禮榮,王仁華.采用高斯概率分布和支持向量機的說話人確認[J].模式識別與人工智能,2008,21(6):794-798.

[12]鄭建煒,王萬良,鄭澤萍.GMM與RVM融合的話者辨識方法[J].計算機工程,2010,36(15):168-170.

Overview on Speaker Recognition

YANG Di,QI Yincheng,LIU Mingjun,ZHANG Huafangzi,WU Junna
(Department of Electronic and Communication Engineering,North China Electric Power University,Baoding 071003,China)

Based on the analysis of the principles and methods of speaker recognition,the development of speaker recognition in recent years is reviewed.Several features and pattern recognition methods in the mainstream speaker recognition technologies are summarized and analyzed.Finally,the research prospects and development trends in the future are given.

speaker recognition;feature extraction;pattern recognition

TP391.9

A

1007-7820(2012)06-162-04

2012-01-03

楊迪(1988—),女,碩士研究生。研究方向:說話人識別。戚銀城(1968—),男,博士,教授。研究方向:信息系統與信息安全。劉明軍(1987—),男,碩士研究生。研究方向:視頻監控。張華芳子(1988—),女,碩士研究生。研究方向:電力系統通信。武軍娜(1986—),女,碩士研究生。研究方向:智能信息處理。

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
可能是方法不對
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产极品美女在线播放| 欧美一区二区三区欧美日韩亚洲 | 国产欧美亚洲精品第3页在线| 精品亚洲国产成人AV| 亚洲日本www| 久久午夜影院| 黄色片中文字幕| 草草影院国产第一页| 乱人伦视频中文字幕在线| 丰满人妻被猛烈进入无码| 国产精品任我爽爆在线播放6080 | 日本妇乱子伦视频| 亚洲av无码牛牛影视在线二区| av大片在线无码免费| 国产综合无码一区二区色蜜蜜| 美女国产在线| 国产精品欧美日本韩免费一区二区三区不卡 | 成人国产精品视频频| 欧美精品亚洲精品日韩专| 欧美成人二区| 波多野结衣一级毛片| 国产成人午夜福利免费无码r| 狠狠操夜夜爽| 国产爽妇精品| 色偷偷一区| 国产精品偷伦在线观看| 777午夜精品电影免费看| a毛片在线免费观看| 亚洲人在线| 国产一区二区三区在线观看视频| 综合五月天网| 一级毛片在线播放免费| 亚洲综合香蕉| 免费在线观看av| 亚洲精品自在线拍| 老司机久久精品视频| 亚洲综合网在线观看| 亚洲AV人人澡人人双人| 欧美不卡视频一区发布| 国产男女XX00免费观看| 狠狠躁天天躁夜夜躁婷婷| 熟女视频91| 色综合久久久久8天国| 亚洲伦理一区二区| 精品人妻一区二区三区蜜桃AⅤ| 国产免费久久精品99re不卡| 亚洲区欧美区| 欧美啪啪视频免码| 亚洲区视频在线观看| 亚洲欧美精品在线| 97在线国产视频| 国产精品黑色丝袜的老师| 一级毛片免费不卡在线视频| 亚洲天堂久久| 伊伊人成亚洲综合人网7777| 国产无码在线调教| 亚洲精品视频免费| 国产H片无码不卡在线视频| 欧美国产在线精品17p| 国产91高跟丝袜| 色网在线视频| 久久国产av麻豆| 国产香蕉在线| 婷婷色婷婷| 亚洲视频色图| 亚洲国产欧美自拍| AV不卡在线永久免费观看| 免费一级毛片在线播放傲雪网| 在线视频亚洲色图| 91午夜福利在线观看| 精品视频第一页| 中文字幕天无码久久精品视频免费 | 亚洲av综合网| 青草视频在线观看国产| 精品人妻一区二区三区蜜桃AⅤ| 亚洲天堂精品在线| 青草精品视频| 黄色污网站在线观看| 五月婷婷丁香色| 亚洲 欧美 日韩综合一区| 无码av免费不卡在线观看| 国产成人高清精品免费软件|