基于SVM的語音特征提取及識別模型研究＊

2014-04-12 08:02:34吳皓瑩

武漢理工大學學報(交通科學與工程版) 2014年2期

吳皓瑩程晶范凱

（武漢理工大學信息工程學院1）武漢 430070）（湖北工業大學信息技術中心2）武漢 430068）

0 引言

語音識別技術廣泛應用于信息論、人工智能、數字信號處理、語言聲學、模式識別、生物學、心理學和認知科學等學科.其中語音特征提取是語音識別的關鍵技術，研究特征提取對提高語音識別系統的識別率的正確率起著十分關鍵的作用，特征提取的目的是為了找出反映語音本質特征的參數，其基本思想是對經過預處理后的語音信號，提取出具有代表意義且穩定可靠的參數序列，濾除無關的冗余信息，為后面的訓練和預測提供數據，從而提高識別的精度和系統的性能.另外支持向量機是建立在統計學習理論的結構風險最小化原理基礎上，比起傳統的分類器，它可以很好地解決模型選擇與過學習問題，解決小樣本、非線性和高維數以及局部極小點等問題［1－4］.本文以智能推車系統中人機交互和智能控制的應用為背景，主要研究了語音信息的不同特征參數組合，支持向量機（SVM）中的不同模型的選取對語音識別率的影響，從而提高智能推車的人機交互性能.

基于SVM的語音識別系統的整體框圖見圖1.

圖1 語音識別整體框圖

1 特征參數

1.1 線性預測倒譜系數（linear predictive cepstrum coefficient，LPCC）

線性預測分析是在語音產生的數字模型基礎上建立的，其基本思想是：每個語音信號采樣值都可以用若干個它過去的取樣值的加權線性組合來逼近.各加權系數應使實際語音采樣值與線性預測采樣值之間的差值的平方和達到最小，即進行最小均方誤差的逼近［5］.在線性組合中的加權系數稱為預測器系數，即線性預測系數LPC.

式中：x（n）為實際采樣值；s（n）為實際采樣值與線性預測值之間的差值；ai為加權系數，即LPC參數.在使式（1）最小的條件下求解ai.

14階的線性預測信號語言信號的對比見圖2，圖中橫軸為1幀信號（30ms）的不同采樣點（采樣頻率為8kHz，采樣點數為240個）.

圖2 原始信號波形與預測信號波形對比

由LPC推導LPCC，其中clpcc（n）為第n個LPCC系數；clpc（n）為第n個LPC系數.

使用線性預測倒譜可以提升參數的穩定性，主要反映聲道響應，計算量小，易于實現，但由于LPCC參數是通過線性逼近得到的，只是反映了說話人的聲道特征而沒有充分利用人耳的聽覺特性因此并不能很好的反映出人耳聽覺特性.

1.2 Mel頻率倒譜系數（Mel frequency cepstrum coefficient，MFCC）

梅爾頻率倒譜系數是將人耳的聽覺感知特性和語音產生相結合的一種特征參數，實際上人耳聽到的聲音的高低與聲音的頻率并不是成線性正比關系的.實驗表明：在頻率為1kHz以下時Mel與頻率成線性關系，高于1kHz時，Mel與頻率成對數關系.因此符合人的聽覺系統的頻率刻度劃分應該在低頻部分具有較高的頻率分辨率，而在高頻部分具有較低的頻率分辨率.

Mel頻率與實際頻率的具體轉換關系式為

MFCC特征在靜態條件下能取得較高識別率，為了更好地消除語音幀之間的相關性，更好地逼近語音動態特征，提高語音識別率，在特征參數中引入動態參數.語音的信息大多集中在低頻部分，外界環境噪聲很容易干擾高頻部分.梅爾倒譜參數將線性頻率轉化為非線性的Mel下的頻率，突出要識別的信息，強調語音的低頻信息，能夠有效的屏蔽噪聲的干擾.MFCC充分考慮了人耳的聽覺特性，因此具有良好的識別性能和抗噪能力［6－7］.

2 支持向量機模型選取及參數優化

在SVM中，核函數選擇、核參數選擇、懲罰參數的選擇統稱為模型選擇.SVM學習性能的好壞與核函數類型及其參數選擇有著直接的關系，選擇恰當的SVM模型可以獲得更好的分類性能和泛化能力（推廣能力）.核函數類型及核參數確定了映射空間的數據分布.核參數的變化會改變樣本特征子空間分布的復雜程度.對于使用不同的核函數類型及核參數得到的子空間中數據分布不同，其經驗風險隨VC維的變化不同，將導致在不同子空間得到的最優SVM不同，因此需要對SVM核參數和誤差懲罰參數同時進行優化.即除了在同一子空間中優化懲罰參數c以獲得最優SVM外，還要優化核參數以獲得全局最優SVM模型.

目前，對SVM的參數進行優化并沒有公認的最好的方法［8］.現在使用較普遍的是網格搜索法.網格搜索法是一種最基本的參數優化算法.其基本過程是在一定的空間范圍內按照規定的步長對待搜索的參數進行劃分網格，然后遍歷網格內所有點取值，并將每次取出的參數組帶入系統中驗證其性能，最終取出使系統性能達到最優的參數組作為最優參數組.這種方法的缺點是當網格范圍大且步長小時尋優過程需要很長時間，但其他方法操作復雜且易陷入局部最優［9］.

3 仿真實驗

3.1 實驗語音庫的建立

本文所采用的語音都是在實驗室環境下通過個人電腦聲卡錄制的.錄取了12個人的語音，6個男生，6個女生，每個人錄兩段語音樣本，每段40～60s，一段用于訓練，一段用于測試.然后對訓練和測試語音做預處理工作.預加重過程采用的傳遞函數為：H （z）＝1－μz－1，預加重系數μ＝0.9375.分幀加窗過程：幀長取240個采樣點（30ms），幀移取80個采樣點（10ms），加hamming窗.最后采用過零率和短時能量兩者配合采用雙門限的方法進行端點檢測.

3.2 實驗方案與結果分析

經預處理后的語音信號，本文提取不同的特征參數.為研究不同的語音特征參數及特征參數的不同處理對語音識別效果的影響，采用支持向量機算法分別實驗數據分類，分析實驗分類結果.

1）語音識別中特征參數的對比實驗不同階數LPCC和MFCC在語音識別中的識別率及所需時間.取LPCC和MFCC階數分別為12～16，利用SVM算法進行說話人識別，數據采集及分類過程所用時間見表1.

表1 不同維數MFCC和LPCC特征的識別率及時間

通過表1對比可以看出，相同維數下基于人耳聽覺的MFCC比基于聲道模型的LPCC的識別效果好，且整個訓練測試過程所需時間更短.縱向對比可看出，一定范圍內隨著維數的上升，說話人識別率有所增大，所花費的時間相差不大.但總體時間上隨維數的增大所花的時間增大，增加特征維數能有效提高識別性能.然而特征維數的增加，意味著需要更多的模型參數來描述說話人的特征分布，從而加大了時空復雜度.一般情況下，取維數為16.

2）針對不同特征組合在語音識別中的識別率分析不同特征組合下，說話人的識別率.取MFCC和LPCC特征維數為16，分別取MFCC＋ΔMFCC，LPCC＋ΔLPCC，MFCC＋ΔMFCC＋E，LPCC＋ΔLPCC＋E，MFCC＋ΔMFCC＋LPCC＋ΔLPCC＋E 5種特征組合，實驗結果見表2.

表2 不同特征組合下的識別結果

對比表1～2可看出，加上對應動態特征后的MFCC＋ΔMFCC和LPCC＋ΔLPCC比只反應語音幀內信息的靜態特征MFCC和LPCC的識別效果好，再加上短時能量E，識別效果又有所增加.MFCC＋ΔMFCC＋LPCC＋ΔLPCC＋E的識別效果最好，但由于其選擇的特征量多，計算量大，訓練測試所需的時間長.針對說話人識別，MFCC＋ΔMFCC＋E能取得較好的識別效果且識別所需時間短.

3）語音識別中不同SVM核函數的仿真實驗

在SVM語音識別系統中，采用不同的核函數會直接影響SVM 的分類能力.使用 MFCC＋ΔMFCC＋E特征參數，選取不同核函數，實驗結果見表3.

表3 不同SVM核函數下的識別率和所用時間

觀察表3可以看出，使用不同的核函數SVM分類的效果不同，所需的時間也不同.對比可以看出，RBF核函數（徑向基）的分類效果最好，最適用于語音識別.對比所花費時間可看出，線性核函數所需時間最短，sigmoid核函數所需時間最長且識別效果最差，即核函數越簡單建模測試所需時間越短.

4）語音識別中不同SVM參數的仿真實驗為進一步提高識別率，本文對核參數（RBF核函數對應gamma參數g）和懲罰參數C對識別率的影響做了對比實驗，實驗結果見表4.

表4 同一核函數不同參數下的識別率

觀察表4的實驗結果可以看出，語音識別中使用相同的核函數不同的參數SVM分類的效果不同.表中說話人識別率最大相差了9.1%，可見選取合適的參數進行SVM訓練對識別結果來說具有重要的意義.

5）改進網格算法的仿真實驗由上述實驗可知使用SVM算法時，能選取合適的參數，對識別率有很大的提升.而3中介紹的網絡搜尋法，由于數據多，尋找范圍大，耗時長.作為網格搜索法的一種改進，可以設定：首先用一個步長為4的（C，g）組合，得到學習精度最高的C和g的值.然后在這2個值旁的一定范圍內進行一次更細致的網格搜索.采用K 折交叉驗證（K－fold CV）對系統性能進行測試（一般取K＝5）.具體過程：將原始數據分成K份，每次測試時都采用其中K－1組數據作為訓練集，另外的一組數據作為測試集，共進行K（K＞＝2）次測試，最后將這K 次測試得到的結果求平均值作為判斷此分類器性能的指標.K－CV 可以十分有效地解決欠學習和過學習問題，同時也使得測試結果更具有說服性.本文對于所有學習精度的估計，均采用K＝5.C取2－6～26，g取2－5～25，對測試集和訓練集分別用改進前后算法尋優所花時間見表5.

表5 改進前后尋優所需時間 ms

由表5可看出改進前后尋優時間相差很多，改進前所花時間是改進后的19倍左右.改進后的尋優算法能有效地提高語音識別系統性能.

4 結束語

通過仿真，驗證了在語音識別中使用MFCC＋ΔMFCC＋E特征組合的方法可以提高支持向量機的綜合識別性能；對SVM中核函數及參數的選取對識別率的影響進行了深入研究，仿真結果表明，選取RBF核函數及適當的相關參數可以提高語音識別的正確率；另外采用改進的網格尋優算法可以有效縮短識別時間，提高系統的實時性.今后可以將該語音識別方法進一步應用到智能推車的人機交互模塊中，從而實現其人性化智能控制.

［1］XUE Hui，YANG Qiang，CHEN Songcan.SVM：Support vector machines，in The top ten algorithms in data mining［M］.Boca Raton：CRC Press，2010.

［2］MALDONADO S，WEBER R，BASAK J.Simultaneous feature selection and classification using kernelpenalized support vector machines［J］.Information Sciences，2011，181（1）：115－128.

［3］VLADIMIR N V.The nature of statistical learning theory［D］.New York：Springer，1999.

［4］ARUN K M，GOPAL M.Reduced one－against－all method formulticlass SVM classification［J］.Expert Systems with Application，Acta Electronica Sinica，2010，38（7）：1626－1633.

［5］吳艷艷.孤立詞語音識別的關鍵技術研究［D］.青島：青島大學，2012.

［6］張志霞.語音識別中的個人特征參數提取研究［D］.廣州：中山大學，2009.

［7］葉慶石，蔣佳.基于語音 MFCC特征的改進算法［J］.武漢理工大學學報，2007：29（5）：150－152.

［8］鄧乃楊，田英杰.支持向量機：理論、算法與拓展［M］.北京：科學出版社，2009.

［9］劉新宇，黃德啟.基于SVM分類器的道路濕滑圖像分類方法研究［J］.武漢理工大學學報：交通科學與工程版，2011：35（4）：786－787.