【摘要】將小波變換的多分辨率特性用于改進Mel頻率倒譜系數MFCC的前端處理中,給出了一種新的語音特征參數——小波MFCC。其特點在于采用小波變換、分層FFT和頻率合成代替原來MFCC中的FFT部分,使頻譜分辨率提高了一倍。試驗證明,小波MFCC特征參數在較大詞匯量情況下,其識別率優于MFCC特征參數的結果。
【關鍵詞】小波分析;語音識別;MFCC
Abstract:The multi resolution characteristic of wavelet is used to improve the front end processing of MFCC.So,a new feature parameter wavelet MFCC is presented in this paper.It uses wavelet transform,multi degree FFT and frequency synthesis to replace original FFT of MFCC,and increases spectrum resolution by 2.The experiments demonstrate that robustness and recognition rate of wavelet MFCC feature are better than one of MFCCs in large vocabulary.
Key words:wavelet transformation;speech recognition;MFCC
1.引言
在語音識別和說話人識別中,基于Mel頻率的倒譜系數MFCC(mel frequency cepstrum cofficient)是將人耳的聽覺感知特性和語音的產生機制相結合,與其他特征參數相比較,體現了較優越的性能,在無噪聲情況下能得到較高的識別率,因此是目前使用最廣泛的特征參數。但是,隨著識別詞匯量的增大,這種參數的識別性能急劇地下降。說明這種特征不適合大詞匯量識別。
近年來,小波變換被廣泛應用于語音處理中,主要包括:利用小波變換對聽覺感知系統進行模擬,對語音信號去噪,進行清、濁音判斷。因為小波變換的局部化性質,可以在很小的分幀長下對語音信號仍具有較高的頻譜分辨率,本文將小波變換技術引入到MFCC特征參數中,來進行語音識別系統的特征提取,可以提高對輔音區的識別效果。因此,用WMFCC特征參數作為隱馬爾可夫(HMM)識別網絡的輸入信號,識別效果明顯提高。
2.MFCC特征參數
圖1所示為MFCC特征參數的計算流程圖。
圖1 MFCC特征參數的提取
人類聽覺系統對聲音高低的感知與實際頻率是一種非線性映射關系[1],而與Mel頻率成線性關系。根據人的聽覺機理來進行Mel濾波器組的頻帶劃分,模擬不同頻率下人耳對語音的感知特性。實際頻率和Mel頻率的轉換關系用公式(1)表示。
其中Fmel是感知頻率,單位美(Mel),F是以HZ為單位的實際頻率。將語音的實際頻率變換到感知頻率中,能更好地模擬人的聽覺處理過程。
首先,將輸入語音信號進行預處理,包括預加重、加窗分幀,然后作快速傅立葉變換,獲得頻譜分布信息;
其次,將頻域信號通過按Mel頻率坐標分布的三角濾波器組。
每個Mel三角帶通濾波器的傳遞函數為:
3.基于小波分析特征參數提取
3.1 小波理論在語音識別應用基礎
傳統的語音信號頻譜是采用固定窗的傅立葉變換,在短時平穩的假設基礎上得到的。
傅立葉變換能夠對窗內平穩信號(整個窗長度內信號特性相同)提供精確的頻率分量。由于語音信號是短時平穩信號,由不確定性原理[2]可知,基于短時平穩假設的固定窗傅立葉變換將會模糊語音的細節特征,從而引起一些非常重要的信息丟失。小波理論是一種非平穩信號的分析方法,采用多分辨分析的思想,非均勻的劃分時——頻空間,能夠有效地從信號中提取信息。具有時域局部性和頻域局部性,并且其時頻窗口可以根據不同頻率自適應地調節,從而能精確地反映非平穩信號的瞬間變化。將小波變換引入語音信號的特征提取中,系統的識別性能能夠得到一定的改善。
與傅立葉變換類似,小波變換是將信號s(t)分解為若干基函數的線性組合。其基函數是。如果是正交小波基,那么信號可分解成小波基的組合:
其中j為不同分辨率下標,j越大,表示分析的分辨率越低;j0表示最低分辨率;k為時間局部性下標;wjk代表信號在2jk時刻附近,2-jf0頻率附近的值。尺度系數uk代表信號在2j0k附近平均值。隨著分辨率的變化,能夠在不同分辨率上得到小波細節,也就是高分辨的小波系數用來表示語音信號的快變分量,低分辨的小波系數用來表示語音信號的慢變分量。
3.2 基于離散小波變換的征參數提取
要將小波變換應用在語音識別中,關鍵是將小波系數歸整成維數不大的高效特征參數[3]。本文把傅里葉變換用離散小波變換代替,將小波變換引入到特征參數提取過程中。WMFCC特征參數提取框圖如圖2所示。與MFCC相比,其主要不同在其前端處理。WMFCC的特點在于采用小波變換、分層FFT和頻率合成。
圖2 WMFCC特征參數提取方框圖
具體實現方法如下:
(1)本文試驗中,先把語音信號用Matlab中的DB3小波進行預處理變換,256個樣點為一幀,幀移為128個樣點,進行6層小波變換,得到的小波系數為7層。從第1層到第6層,語音信號的頻段逐次升高,得到個數分別為12、12、20、36、67、130、249的6層小波系數。
(2)將分層后的小波系數做FFT變換,獲得其頻率響應。把上述各層小波系數補零,得到2的整數次方,進行快速FFT變換。經FFT變換后,得到樣點數分別為:16、16、32、64、128、256、512的7層小波系數。
(3)頻率合成,按照頻率高低把各層小波系數頻率響應組合成完整的頻譜(頻譜最高位對應第1層小波系數),最終得到有1024個樣點的頻譜。因為以便進行快速傅里葉變換,在小波系數后補零,所以頻譜分辨率和Mel濾波器組的分辨率分別比MFCC提高了一倍。
表1 MFCC和WMFCC特征的識別結果比較(%)
4.仿真結果與分析
本文采用隱馬爾科夫(HMM)網絡模型對孤立詞、非特定人語音信號進行模式識別。系統的字表依次為10詞、20詞、30詞、40詞、50詞,每字采集60次發音,共15人,每人發音4次,前10人的發音作為訓練集,其余5人發音作為測試集。表1是仿真試驗結果。
由表1分析得到:(1)通過對表中所有識別率的對比,兩種特征的識別率都在90%以上,WMFCC的識別率基本在95%左右,明顯高于MFCC;(2)從上到下看結果,隨詞匯量增大,兩種特征參數的識別率差值最高達到2.49,并且WMFCC特征的識別率下降幅度較小,從而說明了在較大詞匯量識別中,WMFCC有更好的識別效果。
本文在MFCC特征參數提取的基礎上引入了小波分析技術,得到了WMFCC語音識別特征參數。通過仿真試驗表明,在較大詞匯量情況下,有更好的識別結果。
參考文獻
[1]趙力.語音信號處理[M].北京:機械工業出版社,2003.
[2]張震,王化清.語音信號特征提取中Mel倒譜系MFCC的改進算法[J].計算機工程與應用,2008,44(22).
[3]俸云,景新幸,葉懋.MFCC特征改進算法在語音識別中的應用[J].計算機工程與科學,2009,31(12):146-148.
[4]趙姝彥,張雪英.基于ZCPA和DHMM的孤立詞語音識別系統[J].太原理工大學學報,2005,3(36):246-249.
[5]Loizou P C.NOIZEUS:a Noisy Speech Corpus for Evaluation of Speech Enhancement Algorithms.www.utdallas.edu/~loizou/speech/noizeus/,2011-4-23.