基于改進MFCC和VQ識別的說話人識別系統(tǒng)

2014-04-29 00:00:00周春暉

東方教育 2014年12期

1.說話人識別概述

說話人識別是指對一段語音進行處理，確定該段語音是誰所說，或者是否是某個人所說。根據識別系統(tǒng)的職能。由于在安全訪問控制，身份自動鑒別相關領域的現實意義以及現代設施的硬件支持，近年來說話人識別系統(tǒng)得到了社會以及各種企業(yè)的大量關注和研究，近年來，隨著Internet和計算機通信行業(yè)的迅猛發(fā)展，說話人確認系統(tǒng)正廣泛應用到Internet的訪問控制，計算機認證和無線電話認證等領域。

通過組合MFCC和基音周期特征參數的方法，來提高系統(tǒng)的識別率，但是組合的特征參數缺少動態(tài)特性，在噪聲等外界干擾下，系統(tǒng)的識別率容易受到影響[1]。文獻2通過提取MFCC特征參數然后對其進行加權，能夠提高系統(tǒng)識別率，但是仍然沒有使用動態(tài)特性，缺乏抗干擾性。文獻3提出了一種基于MFCC系數分析和仿生模式識別的語音識別方法，該方法旨在減少計算量并且提高識別率。雖然取得了一定的效果，但是仿生模式的識別方法僅適用于小詞匯量的語音識別中。

本文通過提取MFCC的一階差分特征參數，并且與原參數進行組合，提高了特征參數的動態(tài)特性，使參數有更好的魯棒性和更強的抗噪能力，然后對參數加權可以使識別率得到進一步提高，最后采用矢量量化識別，該方法既減少了計算量，并且適用于更廣泛的語音識別中。

2、系統(tǒng)描述

本文說話人識別系統(tǒng)在對原始語音提取MFCC參數、MFCC一階差分參數并且對其進行矢量加權。說話人識別系統(tǒng)的框架，包括語音輸入、特征參數提取、模型建立以及相似度比較。說話人識別系統(tǒng)分為兩個部分：訓練部分和識別部分。現階段主要研究的是特征提取部分、說話人識別模型建立部分。

2.1改進的MFCC特征參數

本文改進的MFCC參數的提取和計算過程如下，因為標準MFCC參數只反映語音參數的靜態(tài)特性，MFCC的差分參數反映的是動態(tài)特性，而人耳對語音的動態(tài)特性更加敏感，本文在MFCC的基礎上在最后計算一階差分倒譜系數反映語音動態(tài)的變化，然后與原有MFCC參數進行組合，得到新的24維的組合特征參數。

2.2 VQ識別過程

矢量量化（Vector Quantization，VQ）具有良好的分類特性，能夠通過對長時語音特征參數統(tǒng)計信息的量化來區(qū)分不同的說話人，并且可以減少數據量，使用該方法建立識別模型，能有效減少數據存儲量和計算量。

VQ的關鍵是設計一個矢量化分類器來對輸入的信息進行分類。在訓練階段，采用LBG算法，由說話人語音的訓練樣本序列，前面所述的12維MFCC參數和12維一階差分參數作為特征矢量，聚類生成不同碼字組成的碼書，每個說話人都對應一個碼書，每個碼書具有M個碼字。這些碼書在特征空間的分布相互不重疊或者重疊但是有較好的區(qū)分度。

2.3特征參數加權

由于用矢量量化的方法僅僅得到說話人語音特征在特征空間的聚類中心，而忽略了特征參數矢量每一維分量對識別的貢獻大小，也就是說只描述了特征空間的形狀，而沒有顧忌具體參數分量對不同說話人的區(qū)分程度，因此這種模擬比較粗糙。通過對參數的加權，可以增強說話人的區(qū)分程度，減少這種粗糙程度，因此本文對前文提取出的各特征參數矢量進行加權處理，改進的方法如下：令，其中a（t）表示第t維分量的加權系數，P是特征矢量的維數。

3、實驗結果

實驗中采取錄音的方式來獲得聲音文件，總共有15個不同人聲音的wav文件，錄音采用12.5k采用率，16bit采樣精度，在普通實驗室環(huán)境下進行，錄音人員隨便讀任何文字，每個人讀不同的文字兩遍，一次用來作為訓練數據，一次用來作為測試數據。在參數提取時取幀長為256個采樣點，幀移是100個采樣點，提取12階MFCC和12階一階差分MFCC結合作為特征矢量，用LBG算法訓練碼書。識別采用相同算法生成特征矢量，然后計算與碼本之間的距離，根據改進公式作為距離測度。

實驗結果中采用MFCC特征參數，碼書大小為16時，識別率為66.71%，而采用加權MFCC時識別率稍有提升。當碼書大小升為64時，識別率達到87.32%。本文所改進的加權MFCC與一階差分MFCC參數的結合識別率達到了94.53%。

實驗結果表明，Mel頻率倒譜系數（MFCC）能很好的反應說話人的個體特征，在不同碼書大小的環(huán)境下，對不同的參數進行加權以后提高了一些識別率，MFCC與一階差分MFCC參數（MFCC）的結合比單一MFCC特征參數識別率高出很多，尤其是在碼書比較小得時候提升效果更佳明顯。該系統(tǒng)VQ矢量技術的使用，有效減少了整個說話人識別系統(tǒng)在訓練跟識別時的計算量。

4、總結

本文在MFCC基礎上，提取了一階差分MFCC，并將他們進行組合，有效的利用了靜態(tài)與動態(tài)的參數特征，然后通過加權的方法，提高識別效果。實驗證明矢量量化識別的方法能有效的減少該方法在識別過程中的計算量并且能保證足夠的識別精度。最后對不同特征參數在不同碼書的矢量識別下進行對比，證明了動靜態(tài)組合的特征參數優(yōu)于單一的特征參數，加權處理的方法能夠進一步提高系統(tǒng)的識別率。

參考文獻

[1]孫水發(fā)，朱建偉，劉曉麗。基于MFCC等組合特征的說話人識別模型[J]。三峽大學學報（自然科學版），2009，12（31）No.6.

[2]邵央，劉丙哲，李宗葛。基于MFCC和加權矢量量化的說話人識別系統(tǒng)。計算機工程與應用，2002，05：128.

[3]王憲保，陳勇，湯麗平。結合MFCC分析和仿生模式識別的語音識別研究。計算機工程與應用，2011，47（12）.

[4]蔡蓮紅，黃德智，蔡銳。現代語音技術基礎與應用[M].北京：清華大學出版社，2003

[5]趙力。語音信號處理[M].北京：機械工業(yè)出版社，2003.

[6]周明義，周昆湘，余伶俐。一種基于VQ的說話人確認的閾值設計方法[J].計算機工程與應用，2007，43（13）：117-119.

[7]Sridevi V.Sarma.A Segment-based Speaker Verification System Using SUMMIT，MIT，1997

[8]Tanprasert C，Achariyakulporn V.Comparative study of GMM，DTW and ANN on ThaiSpeakeridentificationsys-tem.Proc.ICSLP，2000（Paper No.00718）.

東方教育2014年12期

東方教育的其它文章: 基于DECO解碼指令在PLC設計中的應用; 淺談可凈化數字簽名; 數碼相機的知識剖析; 對建筑工程造價審計若干問題的思考; 國有企業(yè)當前黨員干部思想狀況調查分析; 二維碼設計與應用