包永強(qiáng)
(南京工程學(xué)院通信工程學(xué)院,南京210096)
目前的一些語音信號識別系統(tǒng)在安靜的實(shí)驗(yàn)室環(huán)境下已達(dá)到很高的性能,但在實(shí)際的帶有噪聲的環(huán)境下,由于訓(xùn)練模型和識別環(huán)境的失配,系統(tǒng)的識別性能往往會(huì)有較大幅度的下降。為了提高語音識別系統(tǒng)的抗噪性,研究者提出了很多方法,除了對語音識別模型進(jìn)行噪聲補(bǔ)償?shù)确椒ㄍ猓?],許多學(xué)者致力于研究更具魯棒性的語音特征。Hwang T H和Lee L M[2]研究了噪聲對LPC倒譜系數(shù)的影響,并對其進(jìn)行噪聲補(bǔ)償,提高了其抗噪性。Mansour和Juang[3]提出了短時(shí)修正的相干系數(shù) SMC(Short-Time Modified Coherence Coefficient)作為語音特征參數(shù),Javier Hernadot[4]提出了 OSALPC(One-Sided Autocorr-elation Linear Predictive Coding)倒譜系數(shù)作為語音特征參數(shù),它們都是基于單邊自相關(guān)函數(shù)序列的線性預(yù)測技術(shù),實(shí)驗(yàn)證明它們對加性白噪聲具有較好的抗噪性。
由于通過單一的變換很難實(shí)現(xiàn)語音和噪聲完全分離,1999年,Agarwal A[5]等人提出了兩級維納濾波的方法用于克服有色噪聲的干擾,獲得了很好的效果。兩級維納濾波方法的提出從某種程度上說明了采用兩種抗噪算法的系統(tǒng)普遍比只采用一種算法的要好,這種以復(fù)雜度換取性能飛躍的算法成為了歐洲電信標(biāo)準(zhǔn)化協(xié)會(huì)2002年10月頒布的分布式語音識別前端標(biāo)準(zhǔn)中的語音降噪的核心算法[5]。
兩級維納濾波算法的思路說明了存在著這樣一種可能——以其尋找一種復(fù)雜的變換,達(dá)到語音和噪聲的最大可能分離,不如將兩種普通的降噪算法通過某種方法結(jié)合起來,同樣可以達(dá)到很好的效果。目前國際上正展開對這方面的研究[5-6],因此,尋找這樣一種結(jié)合方法同時(shí)又兼顧其復(fù)雜度的算法成為本章討論的主要內(nèi)容。
分?jǐn)?shù)階的概念最早應(yīng)用于傅里葉變換中,1980年Namias V用Hermite多項(xiàng)式構(gòu)建了分?jǐn)?shù)傅里葉變換[7-8],第一次給出了分?jǐn)?shù)傅里葉變換的定義,20世紀(jì)90年代,Shih C C基于態(tài)函數(shù)重新給出了一種分?jǐn)?shù)傅里葉變換的新定義[9],Qzatkas H M[10]等人研究發(fā)現(xiàn)信號的冪次為α的分?jǐn)?shù)傅里葉變換相當(dāng)于信號在時(shí)頻面內(nèi)角度απ/2的旋轉(zhuǎn)。分?jǐn)?shù)傅里葉變換成為了研究熱點(diǎn),在量子力學(xué)、光學(xué)、信號處理等領(lǐng)域內(nèi)得到了廣泛的應(yīng)用。
分?jǐn)?shù)階理論的引入使得傅里葉變換成為分?jǐn)?shù)階傅里葉變換的特例,通過改變分?jǐn)?shù)階值,可使傅里葉變換的內(nèi)涵得以擴(kuò)展。由于傅里葉變換在信號處理領(lǐng)域內(nèi)有著極其廣泛的應(yīng)用,可以預(yù)見,分?jǐn)?shù)傅里葉變換具有非常廣闊的應(yīng)用前景[11]。
分?jǐn)?shù)階變換的提出為兩級濾波的研究提供了一個(gè)發(fā)展方向,可以更加靈活地定義兩級維納濾波中的變換的定義。
本文把ETSI ES 202 050 V.1.1.3版本規(guī)定的Mel域上的兩級維納濾波結(jié)構(gòu)推廣到分?jǐn)?shù)Mel域上,提出了分?jǐn)?shù)Mel域上的兩級維納濾波結(jié)構(gòu),獲得了性能的提高。
針對語音和噪聲在時(shí)域和頻域重合,而在分?jǐn)?shù)余弦變換域上可能分離的特點(diǎn),基于分?jǐn)?shù)Mel域上的兩級維納濾波結(jié)構(gòu),提出了基于態(tài)函數(shù)的分?jǐn)?shù)余弦變換域上的兩級最優(yōu)濾波器;與Mel域上的兩級維納濾波結(jié)構(gòu)中反復(fù)的時(shí)域-頻域轉(zhuǎn)換帶來計(jì)算量的急劇上升相比,其計(jì)算復(fù)雜度得以下降了,并且由于直接在分?jǐn)?shù)余弦變換域上進(jìn)行濾波,避免了由于Mel域參數(shù)較少導(dǎo)致的頻域不連續(xù)性帶來的時(shí)域截?cái)嘣肼暋?/p>
系統(tǒng)由MIC語音輸入模塊、音頻模塊和處理模塊組成,系統(tǒng)框圖如圖1所示。語音信號由麥克風(fēng)輸入至TLV320AIC23對語音信號進(jìn)行AD轉(zhuǎn)換和濾波后,再通過DSP芯片TMS320VC5502對信號進(jìn)行預(yù)處理、特征參數(shù)提取、建模及識別構(gòu)成。

圖1 語音系統(tǒng)框圖
DSP芯片TMS320VC5502最高可在300 MHz主頻下工作,具有16 kbyte的緩存和17 bit×17 bit雙乘法器,并帶有32 kbit×16 bit的RAM和16 kbit×16 bit的ROM。其片上外設(shè)主要包括時(shí)鐘發(fā)生器、DMA控制器、外部存儲(chǔ)器接口(EMIF)、主機(jī)接口(HPI)、I2C總線、通用輸入輸出GPIO口、3個(gè)多通道緩沖串行端口(McBSP)、兩個(gè)64 bit通用定時(shí)器(GPT)和一個(gè)可編程看門狗定時(shí)器、通用異步收發(fā)器(UART),外部尋址空間達(dá)8 Mbyte,可擴(kuò)展大容量SDRAM。音頻編解碼芯片TLV320AIC23是可編程芯片,內(nèi)置耳機(jī)輸出放大器,內(nèi)部有11個(gè)16 bit寄存器,編程設(shè)置這些寄存器可得到所需的采樣頻率、輸入輸出增益和傳輸數(shù)據(jù)格式等。AIC23通過外圍器件對其內(nèi)部寄存器進(jìn)行編程配置,其配置接口支持SPI總線和I2C總線接口數(shù)據(jù)傳輸格式支持右判斷模式、左判斷模式、I2S模式和DSP模式,其中DSP模式專門針對TI公司的DSP設(shè)計(jì)。降噪算法為本文所研究的主要內(nèi)容。
圖2給出了在兩次濾波的示意圖,圖中白色不規(guī)則圖形的為有用信號,灰色不規(guī)則圖形為干擾信號,有用信號和干擾信號在時(shí)域和離散余弦變換(DCT)域都重疊在一起。無論從時(shí)域還是DCT域都無法簡單分離有用信號和干擾信號,除非采用復(fù)雜的方法。
從圖中可以看出,對于時(shí)域和DCT域都重疊的有用信號和干擾信號,在分?jǐn)?shù)余弦變換域上,通過簡單的兩次濾波可以最大程度地消除干擾。
圖2說明了這樣一個(gè)事實(shí),兩次簡單的變換和濾波能夠更有效地消除干擾和噪聲。對于噪聲環(huán)境下的語音信號而言,我們分析它的時(shí)域和DCT域的特性,不難發(fā)現(xiàn),語音信號和干擾、噪聲無論在時(shí)域還是DCT域都是存在著重疊的可能。因此,靠一次降噪處理很難消除干擾和噪聲。

圖2 分?jǐn)?shù)余弦變換(FCT)域上的兩級濾波示意圖
對于含噪語音而言,由于噪聲的非平穩(wěn)性,噪聲與語音在時(shí)域和DCT域都有可能重疊,如果變換到分?jǐn)?shù)余弦域上,可以最大程度地將其分開。
對于3周期的離散分?jǐn)?shù)余弦變換而言

考慮到Mel域上的兩級維納濾波結(jié)構(gòu),可由兩次不同的分?jǐn)?shù)階余弦變換替換其兩次傅立葉變換。具體思路如下:
首先對輸入信號進(jìn)行分?jǐn)?shù)離散余弦變換(FDCT)fa,然后進(jìn)行濾波Ha(x);對濾波后的信號再進(jìn)行分?jǐn)?shù)余弦變換fb,再進(jìn)行濾波Hb(x),然后將輸出信號進(jìn)行分?jǐn)?shù)余弦變換f3-a-b,這樣又返回到了時(shí)域,取其實(shí)部為濾波后的輸出語音。
分?jǐn)?shù)Mel域上的兩級維納濾波沿用了ETSI ES 202 050 V.1.1.3版本規(guī)定的Mel域上的兩級維納濾波結(jié)構(gòu)。與ETSI ES 202 050 V.1.1.3版本規(guī)定的Mel域上的兩級維納濾波不同的是,分?jǐn)?shù)Mel域上的兩級維納濾波的頻譜估計(jì)的是獲取分?jǐn)?shù)幅度譜。不同區(qū)域如圖2中的灰色部分所示。
在分?jǐn)?shù)余弦變換域上,最佳線性濾波比維納濾波效果要好。無論是ETSI的Mel域上的兩級維納濾波結(jié)構(gòu)還是分?jǐn)?shù)Mel域上的兩級維納濾波結(jié)構(gòu),它們的結(jié)構(gòu)都比較復(fù)雜,反復(fù)的時(shí)域-頻域轉(zhuǎn)換帶來計(jì)算量的急劇上升,并且不能夠避免由于Mel域參數(shù)較少導(dǎo)致的頻域不連續(xù)性帶來的時(shí)域截?cái)嘣肼暋?/p>
為了進(jìn)一步降低計(jì)算量并提高性能,本節(jié)用最佳線性濾波器來代替維納濾波器;為了避免由于Mel域參數(shù)較少導(dǎo)致的頻域不連續(xù)性帶來的時(shí)域截?cái)嘣肼暎苯釉诜謹(jǐn)?shù)余弦變換域上進(jìn)行最優(yōu)線性濾波,該方法稱為分?jǐn)?shù)傅立葉域上的兩級最佳線性濾波結(jié)構(gòu)TSOFF(Two Stage Optimal Filter Based on FDCT:TSOFF)。
分?jǐn)?shù)余弦變換域上的兩級最佳線性濾波流程如圖3所示。

圖3 分?jǐn)?shù)余弦變換域的兩級最優(yōu)線性濾波的結(jié)構(gòu)圖
與分?jǐn)?shù)Mel域上兩級維納濾波相比,分?jǐn)?shù)余弦變換域上兩級最優(yōu)濾波有以下不同:
(1)采用3周期的離散分?jǐn)?shù)余弦變換代替了分?jǐn)?shù)傅里葉變換;
(2)相關(guān)值估計(jì)代替了頻譜估計(jì);
(3)最優(yōu)濾波代替了維納濾波;
(4)濾波直接在分?jǐn)?shù)余弦變換域上進(jìn)行,省去了一次傅立葉變換,從而使得結(jié)構(gòu)更加簡單。
為了分析上提出的分?jǐn)?shù)余弦變換域上TSMWFF、TSOFF濾波器的性能,本節(jié)針對不同噪聲環(huán)境下的語音進(jìn)行分析。
在本章所有實(shí)驗(yàn)中,語音數(shù)據(jù)為在實(shí)驗(yàn)室內(nèi)錄制的語音,采樣頻率是8 kHz,采樣位數(shù)8 bit。在純凈語音上疊加高斯白噪聲和非平穩(wěn)噪聲(噪聲源由英國TNO感知學(xué)會(huì)所屬的荷蘭RSRE語音研究中心提供)。
Mel域上的兩級維納濾波在各種實(shí)際噪聲環(huán)境下可以取得良好的性能,本章將其作為基線系統(tǒng),將本章提出的分?jǐn)?shù)Mel域上的兩級維納濾波與之比較。
表1給出了Mel域兩級維納濾波器(TSMWF)、分?jǐn)?shù)Mel域兩級維納濾波器(TSMWFF)、分?jǐn)?shù)余弦變換域上的兩級最佳線性濾波(TSOFF)在高斯白噪聲(White Noise)、粉紅色噪聲(Pink Noise)、Volvo汽車噪聲(Volvo Noise)和工廠車間噪聲(Factory Noise)下的性能比較。

表1 濾波器性能比較 單位:dB
對照表1可以看出,TSOFF法最佳,TSMWFF法其次,TSMWF法最差。與 TSMWF相比,TSMWFF對pink噪聲的降噪效果要比其他噪聲要更好一些。
本文針對語音和噪聲在時(shí)域和變換域重合,而在分?jǐn)?shù)余弦變換域上可能分離的特點(diǎn),把ETSI ES 202 050 V.1.1.3版本規(guī)定的Mel域上的兩級維納濾波結(jié)構(gòu)推廣到分?jǐn)?shù)Mel域上,提出了分?jǐn)?shù)Mel域上的兩級維納濾波結(jié)構(gòu),獲得了性能的提高。
[1]Ivandro Sanches.Noise-Compensated Hidden Markov Models[J].IEEE Trans on Speech and Audio Processing,2000,8(5):533-540.
[2]Hwang T H,Lee L M,Wang H C.Cepstral Behavior Due to Additive Noise and a Compensation Scheme for Noisy Speech Recognition[J].IEE Proc on Vis Image Signal Process,1998,145(5):316-321.
[3]Mansour D,Juang B H.The Short-Time Modified Coherence Representation and Its Application for Noisy Speech Recognition[J].IEEE Trans Acoust,Speech,Signal Processing,1980,28(4):357-366.
[4]Javier Hernando,Climent Nadeu.Linear Prediction of the One-Sided Autocorrelation Sequence for Noisy Speech Recognition[J].IEEE Transactions on Speech and Audio Processing,1997,5(1):80-84.
[5]Agarwal A,Cheng Y M.Two-Stage Mel Warped Wiener Filter for RobustSpeech Recognition[C]//The 1999 International Workshop on Automatic Speech Recognition and Understanding(ASRU’99),December,1999,Keystone,Colorado,USA.
[6]Li Jinyu,Liu Bo,Wang Renhua,et al.A Complexity Reduction of ETSI Advanced Front-End for DSR[C]//Acoustics,Speech,and Signal Processing,2004.Proceedings.(ICASSP '04).IEEE International Conference on Volume 1,17-21 May 2004:I-61-4.
[7]Namias V.The Fractional Order Fourier Transform and Its Application to Quantum Mechanics[J].J Inst Math Applic,1980,25:241-265.
[8]Shih C C.Fractionalization of Fourier Transform[J].Opt Commun,1995,118:495-498.
[9]Pei S C,Tseng C C,Yeh M H,et al.Discrete Fractional Hartley and Fourier Transforms[J].IEEE Trans Circuit SystⅡ,1998,45:665-675.
[10]Pei S C,Yeh M H.Discrete Fractional Hadamard Transform[C]//IEEE Int Symp Circuits Syst,June 1999,1485-1488.
[11]Lohmann A W,Mendlovic D,Zalevsky Z,et al.Some Important FractionalTransformations for SignalProcessing[J].Opt Commun,2003,125:18-20.