收稿日期:2007-12-07;修回日期:2008-03-10
基金項目:上海市2007年科技攻關(guān)重點項目(075115002);華東師范大學(xué)優(yōu)秀博士研究生配陽基金
作者簡介:吳翔(1982-),男,博士,主要研究方向為信號處理(52061202003@ecnu.cn);唐煥華(1984-),女,江蘇蘇州人,碩士,主要研究方向為數(shù)字信號處理;劉錦高(1948-),男,教授,博導(dǎo),主要研究方向為高頻地波雷達(dá)海洋遙感、光纖通信、移動通信*
(華東師范大學(xué) 電子科學(xué)與技術(shù)系,上海 200241)
摘 要:提出了一種基于小波變換的新型語音參數(shù)提取算法,提高語音識別系統(tǒng)對環(huán)境噪聲的魯棒性。由于引入了多分辨率小波分析技術(shù),識別既在高頻提供高的頻率分辨又在低頻提供高的時間分辨率。這樣,提出的改進(jìn)算法在語音詞匯的識別更準(zhǔn)確的同時,還大大簡化了計算。將該算法和傳統(tǒng)提取MFCC系數(shù)的算法進(jìn)行了比較,實驗結(jié)果表明,利用小波計算語音特征具有更優(yōu)的性能。
關(guān)鍵詞:語音識別;離散小波變換;漢明窗;動態(tài)時間彎折算法
中圖分類號:TP391
文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2008)10-2984-03
Robust algorithm for speech feature extraction based on wavelet transform
WU Xiang, TANG Huan-hua, LIU Jin-gao
(Dept. of Electronic Science Technology, East China Normal University, Shanghai 200241, China)
Abstract:This paper proposed a novel approach for speech feature extraction, which promoted the robustness of speech recog-nition to noise. Wavelet transform was adopted to get both highest temporal resolution and frequency resolution in different position. So the algorithm not only yield accurate measurements, but also exhibit a low computational cost. The experiment compared traditional MFCC algorithm and this method, results demonstrate that the proposed algorithm is robust and efficient for applications in speech recognition.
Key words:speech recognition; discrete wavelet translation; Hamming window; dynamic time warping
在模式識別中,語音的識別是一個很重要的內(nèi)容。而參數(shù)的提取一直是構(gòu)成整個識別系統(tǒng)最重要的一環(huán)。基于感知的參數(shù)如梅爾倒譜系數(shù)是特定人語音識別的一個重要特征參數(shù)[1],但運(yùn)算復(fù)雜度和噪聲魯棒性都有待進(jìn)一步提高。開發(fā)魯棒性強(qiáng)的語音識別系統(tǒng)是這項技術(shù)走向?qū)嵱玫年P(guān)鍵所在。因此近年關(guān)于魯棒性的語音識別研究正逐漸成為研究熱點。
近年來,小波變換被廣泛應(yīng)用于數(shù)據(jù)壓縮和編碼[2~4],小波分析是一種非平穩(wěn)信號分析的有力數(shù)學(xué)工具,它可以看做是一種廣義信號時頻分析方法,具有多分辨率分析的特點,而且在時頻兩域都具有表征信號局部特征的能力。因此當(dāng)前小波分析在眾多研究領(lǐng)域已得到重視與應(yīng)用[5]。
本文將小波變換用于語音參數(shù)的提取,就如何構(gòu)建特征參數(shù)這一問題進(jìn)行了深入的討論。與傳統(tǒng)的梅爾倒譜系數(shù)計算相比,這里提出的算法無須在時域內(nèi)將語音分塊及FFT運(yùn)算[6],而是充分利用小波變換本身具備時間刻度的特性,簡化了復(fù)雜度。另一方面,由于時間和頻率的局部變換,能有效地從信號中提取信息。通過小波變換,在信號的高頻域部分,可以取得較好的時間分辨率;在信號的低頻域部分,可以取得較好的頻率分辨率。
1 語音信號的小波處理
對語音信號進(jìn)行處理前先需要進(jìn)行電壓放大、A/D轉(zhuǎn)換、去除噪聲等措施。值得指出的是,小波變換在語音去噪算法中使用效果很好[7],本文所使用算法可在基本不增加復(fù)雜度情況下較好的去噪,這是傳統(tǒng)算法所不具備的。語音信號小波處理框圖如圖1所示,在DWT之前先通過分幀、加窗及預(yù)加重等預(yù)處理方法,使信號更適合后面的數(shù)據(jù)處理。
離散小波變換(DWT)的快速算法由Mallat算法給出[8]。設(shè)f(x)為語音輸入信號,記
jk(x)=2-j/2(2-jx-k)(1)
ψjk(x)=2-j/2ψ(x-jx-k)(2)
這里(x)與ψ(x)分別為定標(biāo)函數(shù)與子波函數(shù),{jk(x)}與{ψjk(x)}為兩個正交基函數(shù)的集合。記P0f=f,在第j級上的一維離散小波變換通過正交投影Pjf與Qjf將Pj-1f分解為Pj-1f=Pjf+Qjf=∑kcjkjk+∑kdjkψjk(3)其中:cjk=∑p-1n=0h(n)cj-12k+n,djk=∑p-1n=0g(n)cj-12k+n
j=1,2,…,L;k=0,1,…,N/2j-1(4)
這里,{h(n)}與{g(n)}分別為低通與高通權(quán)系數(shù),它們由基函數(shù){jk(x)}與{ψjk(x)}來確定,p為權(quán)系數(shù)的長度。{C0n}為語音信號的輸入數(shù)據(jù),N為輸入信號的長度,L為所需的級數(shù)。由上式可見,每級一維DWT除了間隔取樣外與一維卷積計算很相似。
經(jīng)過上述DWT運(yùn)算后,得到一個關(guān)于j和k的二維矩陣。這里變量j決定不同尺度的小波對信號進(jìn)行分解,是語音頻率成分的表征量。其中:j=1對應(yīng)于分析中最低分辨率,j從小到大表示了語音頻譜從高到低各段的特征。而k是表示時間局部性的參數(shù),由于各個頻段k的取值不同,得到的參數(shù)個數(shù)逐層遞減,得到金字塔形的結(jié)構(gòu)。正是這種結(jié)構(gòu),一方面減少了需要進(jìn)行匹配運(yùn)算的數(shù)據(jù)量;另一方面由于在低時間分辨率上有高的頻率分辨率,低頻率分辨率上有高的時間分辨率的多分辨率性質(zhì)[9],保證提取的參數(shù)作為識別的可靠性。
對一段語音“7”小波處理后各級波形如圖2所示,顯然不同頻段有著不同的時間—能量曲線。由此可得到特征參數(shù),計算方法將在下章中詳述。
2 特征參數(shù)的獲取與匹配
21 計算特征參數(shù)矩陣
為了準(zhǔn)確識別,作為表征語音特征的參數(shù)要求在文獻(xiàn)[10]中闡明:a)提取的特征參數(shù)能有效地代表語音特征,具有很好的區(qū)分性;b)各階參數(shù)之間有良好的獨立性;c)特征參數(shù)要計算方便,最好有高效的計算方法,以保證語音識別的實時實現(xiàn)。
傳統(tǒng)采用的特征參數(shù)為Mel倒譜頻率參數(shù)MFCC(另外還可以用線性預(yù)測系數(shù)和線性預(yù)測倒譜系數(shù)),是以“bark”為其頻率基準(zhǔn)的,它與線性頻率的轉(zhuǎn)換關(guān)系在文獻(xiàn)[11]中提到,如式(5)所示。fmel=2 595 log10(1+f/700)(5)
傳統(tǒng)算法利用24個在頻率軸上處于不同位置的帶通濾波器組對各個特征進(jìn)行篩選。事實上這一系列帶通濾波器的作用就是取各個頻率段的信號能量作為這個短時語音的特征。這種方法既要將信號分成許多短時塊又要在頻域中對各個頻段進(jìn)行分離。計算涉及到了時域信息和頻域分離,直接利用小波變換輸出結(jié)果更加理想。特征參數(shù)矩陣為
d00 d01 … d0N/2 … d0N
d10d11…d1N/2
dL1…dLN/2L-1
cL1…cLN/2L-1(6)
對于嵌入式系統(tǒng)實現(xiàn),為了盡量使用少的資源,可用串行處理策略。因為每級的d系數(shù)都由上級c系數(shù)分離出來,可以完成一級匹配運(yùn)算后立刻計算下一級,始終占用一層的內(nèi)存空間。
22 參數(shù)匹配
在孤立詞語音識別中,最為簡單有效的方法就是DTW算法[11,12]。本文提出的方法具有一些與傳統(tǒng)匹配不同的特性。通過小波變換語音中不同尺度上的變化趨勢被提取出來,由于小波的壓縮特性[13],小波系數(shù)將是稀疏的,在大多數(shù)點系數(shù)的值相對很小,而少數(shù)點的值比較大。另外高斯噪聲的各級小波系數(shù)方差均等于原信號的方差,實際上小波變換對語音信號進(jìn)行了壓縮,并且噪聲的系數(shù)方差等于原信號方差可知其平均幅度很小,這樣量化可以去噪,提高分析信噪比。這也正是前面提到的本算法的優(yōu)勢之一。
匹配階段,將特征參數(shù)序列依次與模板庫中的每一個模板進(jìn)行相似度的比較,相似度最高者作為識別結(jié)果輸出。通過時間規(guī)整和距離測度計算結(jié)合的非線性規(guī)整技術(shù)解決孤立詞說話速度不均勻的問題。一個I幀矢量{T(i)}和J幀的模板矢量{R(j)}進(jìn)行匹配,其中,I和J不等。匹配算法尋求時間規(guī)整函數(shù)j=f(i),將測試矢量時間軸i非線性映射到模板時間軸j上。規(guī)整函數(shù)應(yīng)滿足:D=minIw(i) i=1∑d[T(i), R(ω(i))](7)其中:d[T(i), R(ω(i))]是第i幀測試矢量T(i)和第j幀模板矢量R(ω(i))之間的距離測量。根據(jù)式(7)可得到最優(yōu)時間規(guī)整的兩矢量距離。通過不斷計算兩矢量的距離并尋找最優(yōu)匹配路徑。
或者,在精度要求不是非常高而對算法速度有要求的場合,也可以采取對低頻特征系數(shù)先進(jìn)行一次匹配,當(dāng)匹配距離處于不明確的范圍時,再取高頻系數(shù)匹配。這種有條件漸進(jìn)精確匹配的方法,可以有效提高效率。本算法這種靈活的方式也是傳統(tǒng)算法中采用FFT所不具備的。
3 實驗結(jié)果
在本實驗中,測試語音信號采用8 kHz的抽樣率,每個采樣值用16 bit進(jìn)行編碼。如果采用更高精度的采樣,識別效果也會更好,但是以增加運(yùn)算復(fù)雜度為代價。與本文算法性能作比較的是使用傳統(tǒng)MFCC參數(shù)的算法, MFCC的階數(shù)選12階,模板匹配使用動態(tài)時間彎折(DTW)算法,動態(tài)參數(shù)選取1階和2階差分MFCC,即特征參數(shù)選用c+Δc(共24維)[14]。在小波處理中,選10階的Db6小波[15],門限值由上述公式所定。
圖3是分別用FFT算法和小波算法獲得的二維系數(shù)圖比較。小波處理的參數(shù)分布更稀疏,這是由于它的多分辨率的性質(zhì),計算量也大大減少。
圖4是兩者和文獻(xiàn)[16]中提到的RAS-MFCC參數(shù)在加入服從高斯分布的不同背景噪聲后對相同語音片段識別錯誤率的比較。顯然,本文提出的改進(jìn)算法在性能上優(yōu)于傳統(tǒng)算法,完全可以作為特征參數(shù)用于語音識別,且省去多個帶通濾波器的設(shè)計,計算量簡化很多。
4 結(jié)束語
本文利用離散小波變換的特性,結(jié)合多分辨率分析技術(shù)在時間—頻率域上提出一種具有魯棒性的新型語音特征參數(shù)。并對這種算法與傳統(tǒng)的識別算法的性能進(jìn)行了比較。實驗結(jié)果證明了本算法的優(yōu)越性,在提高識別率的同時大大縮短了識別速度。
利用小波變換對語音信號進(jìn)行處理本身有很大的潛力,尤其在去噪方面有其不可比擬的優(yōu)勢[17~19]。但是傳統(tǒng)MFCC系數(shù)是考慮了人耳聽覺特性的一種特征參數(shù)。所以如何在小波處理的參數(shù)中放大人耳敏感的頻率部分,使多分辨率和人的主觀感知頻域達(dá)到一致,是本文將來值得進(jìn)一步研究的地方。
參考文獻(xiàn):
[1]NASERSHARIF B, AKBARI A. SNR-dependent compression of enhanced Mel sub-band energies for compensation of noise effects on MFCC features[J]. Pattern Recognition Letters , 2007,11(1):1320-1326.
[2]WANG Da-kai. The application of wavelet in signal processing[M]. Beijing: Publishing House of Electronics industry, 2006:157-173.
[3]YANG L H. Wavelet analysis and its applications[M].[S.l.]:Springer, 2002:234-305.
[4]MEYER Y. Wavelets: algorithms and applications, society for industrial and applied mathematics[M]. Philadelphia:[s.n.],1993:13-31, 101-105.
[5]YAO Tian-ren. Digital voice processing[M]. Shanghai: East China
University of Science Technology Press,2002:40-64.
[6]崔錦泰.小波分析導(dǎo)論[M].西安:西安交通大學(xué)出版社,1995:15-18.
[7]KOTNIK B, KACIC Z. A noise robust feature extraction algorithm using joint wavelet packet subband decomposition and AR modeling of speech signals[J]. Signal Processing, 2007,87(6):1202-1223.
[8]DWIGHTF M. Wavelets for engineer[M].[S.l.]: Wiley-Interscience, 2006:234-305.
[9]李建平.小波分析與信號處理[M].重慶:重慶出版社,1997:157-173.
[10]楊行峻,遲惠生.語音信號數(shù)字處理[M].北京:電子工業(yè)出版社,1995:40-64.
[11]何強(qiáng),何英. MATLAB擴(kuò)展編程 [M]. 北京:清華大學(xué)出版社,2002:330-349.
[12]FURLANELLO C, MERLER S, JURMAN G. Combining feature selection and DTW for time-varying functional genomics[J]. IEEE Trans on Signal Processing, 2006,54(6):2436-2443.
[13]YANG L H. Wavelet theory and its application to pattern recognition[M].[S.l.]: World Scientific,1995:15-18.
[14]ABDULLA W H. Robust speaker modeling using perceptually motivated feature[J]. Pattern Recognition Letters, 2007,28(11):1333-1342.
[15]HE Qiang, HE Ying. MATLAB extended programme[M]. Beijing: Tsinghua University Press,2002:330-349.
[16]劉鳴,戴蓓倩,李輝.基于離散小波變換和感知頻域濾波的語音特征參數(shù)[J].電路與系統(tǒng)學(xué)報,2000,5(1):21-25.
[17]GHANBARI Y, KARAMI-MOLLAEI M R. A new approach for speech enhancement based on the adaptive thresholding of the wavelet packets[J]. Speech Communication,2006,48(8):927- 940.
[18]YAN Long, LIU Gang, GUO Jun. A study on robustness of large vocabulary mandarin Chinese continuous speech recognition system based on wavelet analysis[C]//Proc of ICAPR’05. Berlon: Springer-Verlag, 2005:497-504.
[19]ZHANG Xue-ying, JIAO Zhi-ping, ZHAO Zhe-feng. The speech recog-nition based on the bark wavelet front-end processing[C]//Proc of the 2nd Conference on Fuzzy Systems and Knowledge Discovery. Changsha: [s.n.], 2005:302-305.