郭 超,張雪英,劉曉峰
1.太原理工大學 信息工程學院,太原 0300242.太原理工大學 理學院 數學系,太原 030024
支持向量機在低信噪比語音識別中的應用
郭 超1,張雪英1,劉曉峰2
1.太原理工大學 信息工程學院,太原 030024
2.太原理工大學 理學院 數學系,太原 030024
語音識別技術的目的是使計算機能聽懂人類的語言,實現人機語言通信,方便自然快捷地操作計算機。傳統的語音識別模型,如隱馬爾可夫模型(Hidden Markov Models,HMM)和人工神經網絡(Artificial Neural Network,ANN)都是基于統計學理論的,只有當訓練樣本集充分大時,識別性能才會最好。但實際問題中樣本數目有限,因而實際應用中往往難以達到理想的效果。
支持向量機是20世紀90年代中期興起的一種模式識別方法,其理論基礎是統計學習的理論(Statistical Learning Theory)中的結構風險最小化(Structural Risk Minimization)原理和VC(Vapnik-Chervonenkis)維理論。與HMM、ANN等傳統的模式識別方法相比,SVM能較好地解決小樣本、過學習和局部極小點等實際問題,具有更好的泛化能力和分類精確性。
支持向量機具有很強的非線性分類能力。它通過引入核函數(需滿足Mercer條件),將輸入空間的非線性劃分問題轉化為高維特征空間的線性劃分問題,有效解決了有限樣本條件下構建高維數據模型的問題[1]。此外,采用核函數計算代替了高維空間中的內積計算,避免了因維數升高而導致的計算困難,從而簡化了計算。利用不同的核函數,可以構造不同的支持向量機。
當訓練樣本集為線性近似可分時,需引入非負松弛變量ξi≥0,i=1,2,…,l,上述最優(yōu)分類超平面的求解問題變?yōu)椋?/p>

其中,C>0稱為懲罰參數,C越大表示對錯誤分類的懲罰越大。引入Lagrange乘子法可以將上述最優(yōu)化問題轉化為一個二次規(guī)劃對偶問題,即

其中,αi為與第i個樣本對應的Lagrange乘子,非零αi對應的樣本點就是支持向量。對問題(2)求解后,可以得到相應的決策函數:

其中,α*i(至少有一個α*i≠0)為最優(yōu)解,b*為分類閾值,x為待識別的樣本。
對于非線性可分的數據集,可以通過一個非線性函數φ()·將訓練集數據x映射到一個高維線性特征空間Z,其對應的決策函數變?yōu)椋?/p>

其中,K(x ,xi)=φ(x)·φ(xi)稱為核函數,它是輸入空間中的兩個樣本矢量映射到高維線性空間的像的內積,即用核函數來代替映射函數φ(·)的內積運算。因此,只需要知道核函數K(x ,xi)就可以確定一個支持向量機,而無需顯式地知道特征空間Z和映射函數φ(·)。
目前常用的核函數有以下幾種:(1)多項式核函數

(2)Gaussian徑向基(Radial Basis Function)核函數

(3)Sigmoid核函數

典型的語音識別系統包括預處理、特征提取和訓練識別網絡等三個部分。對語音信號的預處理主要包括反混疊失真濾波、預加重以及端點檢測等內容。經過預處理后,對語音信號進行特征提取。將這些特征數據保存成特定的特征文件作為SVM的輸入來進行訓練和識別。
本實驗預處理包括對原始語音信號進行預加重、加窗和分幀等處理。預加重通過一個傳遞函數為H() z= 1-αz-1( ) 0.9<α<1.0的濾波器進行濾波;加窗分幀選用Hamming窗。
經過預處理后,本實驗提取改進的MFCC參數作為語音特征參數。傳統的MFCC特征提取算法過程如下:語音信號在預處理分幀加窗后,通過離散傅里葉變換(DFT)得到其頻譜,然后將語音能量譜通過一組Mel頻率上均勻分布的濾波器,求出各個濾波器輸出,對其取對數,并作離散余弦變換(DCT),即可得到MFCC參數。改進的MFCC參數是將Bark小波變換取代DCT,由此得到的Mel頻率離散小波倒譜系數(Mel-Frequency Discrete Wavelet Cepstral Coefficients,MFDWCs)更符合人耳的聽覺特性,魯棒性更好[3]。MFDWCs特征參數經動態(tài)時間調整進行時間歸一化處理后,得到統一的1 024維的語音特征矢量序列,即每個輸入樣本維數為1 024。改進的MFCC參數與傳統的MFCC參數,利用SVM進行語音識別的結果見表1。

表1 改進的MFDWCs參數與傳統MFCC參數識別率比較(%)
提取出語音特征參數后,對特征參數進行歸一化處理。歸一化的最大優(yōu)點在于統一基本度量單位,這樣可以避免同一維參數中,過大參數的權值作用掩蓋掉較小參數的權值作用。此外,歸一化還可以有效簡化計算過程中的數值復雜度,加快收斂速度[4]。本文采用將參數值歸一化到[-1,1]的最大最小線性歸一法,對應公式為:

其中x和y分別為歸一化前后的原始值和目標值,MinValue 和MaxValue為同一維屬性中的最小值和最大值。
SVM本身是一個兩類問題的判別方法。對于小詞匯量的非特定人語音識別,需要將k個詞匯分開( ) N>2。這是一個多類分類問題,因此涉及到多類問題到二類問題的轉換。本實驗采用一對一分類法來進行SVM多類分類[5],即在k個不同類別訓練集中找出所有不同類別的兩兩組合,構建M=k( ) k-1 2個兩類分類器。將待識別樣本分別用M個SVM子分類器進行測試,統計在M個決策函數結果中各類別的得票數。最后,得票數最多的類別為該待識別樣本的類別。若有兩個以上類別的得票數相等且最多,則判定該待識別樣本為標號最小的類別。
本實驗使用9人在不同SNR(0 dB,5 dB,10 dB,15 dB,20 dB,25 dB,30 dB,無噪音)下的發(fā)音作為訓練數據庫,語音樣本分別為10詞、20詞、30詞、40詞、50詞韓語發(fā)音,且每人每個詞發(fā)音3次。因此,整個數據庫在不同SNR下分別有10、20、30、40、50個類別,對應的訓練樣本分別有270、540、810、1 080、1 350個。語音信號采樣率為11.025 kHz,語音幀長為256點,幀移為128點。語音中的噪聲為高斯白噪聲。使用另外7人在相應SNR下的發(fā)音樣本作為識別數據庫。實驗平臺為VC++6.0,實驗工具為開放源碼的LIBSVM[4]。
實驗中首先對SVM的懲罰參數C和Gaussian核參數γ利用網格搜索法進行參數尋優(yōu)。將C分別取{20,21,22,…,214,215}等16個值,γ分別取{20,2-0.5,2-1,…,2-9.5,2-10}等21個值,使用這16×21對( ) C,γ組合分別利用訓練數據庫訓練SVM,從而將在不同詞匯量和不同信噪比情況下,綜合識別率最高的( ) C,γ組合作為最終的SVM參數。實驗最終選定的參數為(C ,γ)=(29,2-9),得到如表1的不同信噪比和不同詞匯量下的識別準確率,并與基于RBF神經網絡語音識別(輸入的特征參數為相同的MFDWCs)結果作比較。
從表2中可以看到,基于SVM識別網絡的語音識別系統比基于RBF人工神經網絡更高的識別準確率。在0~30 dB以及純凈語音的情況下,SVM的平均識別率均高于RBF人工神經網絡的識別率。特別是在0 dB、5 dB低信噪比的情況下,SVM的識別率分別為87.53%、94.22%,而RBF的識別率分別為82.14%、91.98%,這表明SVM的識別精度下降比RBF要小很多,充分證明SVM具有非常良好的魯棒性和泛化性能。圖1是SVM與RBF在不同信噪比下的平均識別率的對比圖。
本文主要研究了基于支持向量機的小詞匯量語音識別系統。與RBF人工識別網絡相比,特別是在低信噪比情況下,支持向量機具有更高的識別率。今后的工作中,需要進一步從理論上研究SVM具有優(yōu)良抗噪性能的原因。此外,將對支持向量機在更大詞匯量語音識別系統中的性能進行實驗研究。

表2 不同信噪比下SVM與RBF識別準確率的比較(%)

圖1 SVM與RBF平均識別準確率的比較
[1]Vapnik V N.Statistical learning theory[M].New York:John Wiley and Sons,1998.
[2]鄧乃揚,田英杰.支持向量機——理論、算法與拓展[M].北京:科學出版社,2009.
[3]Zhang Xueying,Bai Jing,Liang Wuzhou.The speech recognition system based on bark wavelet MFCC[C]//8th International Conference on Signal Processing.Beijing:[s.n.],2006:16-20.
[4]Chang Chih-Chung,Lin Chih-Jen.LIBSVM:a library for support vector machines[EB/OL].[2010-10-15].http://www.csie. ntu.edu.tw/~cjlin/libsvm.
[5]Hsu Chih-Wei,Lin Chih-Jen.A comparison of methods for multiclass support vector machines[J].IEEE Transactions on Neural Networks,2002,13(2).
GUO Chao1,ZHANG Xueying1,LIU Xiaofeng2
1.College of Information Engineering,Taiyuan University of Technology,Taiyuan 030024,China
2.Department of Math,College of Science,Taiyuan University of Technology,Taiyuan 030024,China
A low SNR speech recognition system for isolated words and non-specific speakers is constructed in this paper.Improved MFCC speech features(Mel-Frequency Discrete Wavelet Cepstral Coefficients,MFDWCs)are adopted and Support Vector Machines(SVM)is utilized as classification algorithm.The system obtains higher recognition accuracy,comparing to the results based on RBF Artificial Neural Network(ANN).The experimental results show SVM possesses better robustness than RBF ANN,especially in low SNRs.
support vector machines;Gaussian kernel;speech recognition;low Signal Noise Ratio(SNR)
采用改進的MFCC語音特征參數(Mel頻率離散小波倒譜系數),使用支持向量機作為分類算法,構建了低信噪比環(huán)境下的孤立詞非特定人語音識別系統,取得了較高的識別率。將實驗結果與基于RBF神經網絡的識別結果進行比較,結果表明在低信噪比時,SVM的識別率比使用RBF神經網絡有較大提高,具有非常好的魯棒性。
支持向量機;Gaussian核;語音識別;低信噪比
A
TN912
10.3778/j.issn.1002-8331.1107-0460
GUO Chao,ZHANG Xueying,LIU Xiaofeng.Application of support vector machines in low SNR speech recognition. Computer Engineering and Applications,2013,49(5):213-215.
國家自然科學基金(No.61072087)。
郭超(1987—),男,碩士研究生,主要研究領域為語音信號處理;張雪英(1964—),女,教授,博士生導師,主要研究領域為語音信號處理;劉曉峰(1979—),男,博士研究生,講師,主要研究領域為智能算法、數值計算。E-mail:tyzhangxy@163.com
2011-07-22
2011-09-23
1002-8331(2013)05-0213-03
CNKI出版日期:2011-11-14 http://www.cnki.net/kcms/detail/11.2127.TP.20111114.0939.030.html