魏 勛,耿志輝,王曉攀
(1.中國人民解放軍63891部隊,河南洛陽471003;2.中國人民解放軍63888部隊,河南濟源454650)
當前的很多語音識別系統在實驗室環境下都可以達到相當高的識別正確率,但在實際環境中,性能會急劇下降。其根本原因在于不同環境下語音的畸變引起了訓練環境和測試環境的不匹配,導致訓練數據所獲得的語音信息無法正確表達測試環境的數據,即噪聲魯棒性問題。因此,如何提高系統的魯棒性是語音識別的一個關鍵難點,語音識別的魯棒性特征提取方法可以很好地解決這一問題。
語音識別就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的技術,它包含2種含義:①將口述語言逐字逐句地轉換成相應的文字;②對說的話所包含的要求或詢問做出正確的響應,而不拘泥于轉換成書面文字。典型語音識別系統的實現過程如圖1所示。
實際語音識別環境復雜多變,在此主要考慮其中最重要的因素,即加性噪聲和卷積噪聲。
假設干凈語音用序列x[m]表示,卷積噪聲用濾波器h[m]表示,加性噪聲用n[m]表示,帶噪語音用y[m]表示。在時域、頻域,分別有以下關系:


圖1 語音識別系統基本原理框圖
在等式(2)兩邊取模平方,則其幅度譜之間的關系為:

式(3)中忽略了 2|X[k]|?|H[k]|?|N[k]|cosθk,θk表示復變量N[k]和X[k]?H[k]之間夾角。
對于倒譜域,倒譜參數定義如下:

式中,C為離散余弦變換矩陣。對式(3)兩邊取對數,有:

根據式(4)的定義,容易得到:

其中非線性函數:

MFCC是基于人耳聽覺,加入了與人類聽覺系統有關的Mel濾波器組,流程如圖2所示。
Wnt/β-catenin通路的活性決定了MPCs是分化為成骨細胞還是軟骨細胞。實驗表明[23],敲除βcatenin的間充質細胞,會向軟骨方向分化,而使骨生成受到抑制,生成異位的軟骨。

圖2 MFCC流程
設濾波器組的個數為M,每個濾波器的定義如下:

Mel域頻率定義為:

式中,f為線性域頻率;m為Mel域頻率。式(8)中f[m]由下式計算:

式中,N為快速傅里葉變換點數;Fs為采樣率;fl和fh分別為濾波器組的最低頻率和最高頻率;M為濾波器組的維數。則濾波器組輸出為:

語音識別所使用的參數,例如MFCC,本身都是隨機變量,因而有相應的概率分布,訓練環境和測試環境的不匹配也就表現為概率分布上的差異。一般可以通過對參數進行規整或歸一化來減小這種差異,最經典和常用的累計分布函數匹配的方法就正是基于這一點。下面給出的3種方法是對這一思想的引伸。
式(6)中若不考慮加性噪聲,則有
下標t表示第t幀,對于干凈倒譜序列X={x0,x1,…xT-1},均值ˉx為:

然后對每一幀減去這個均值,即歸一化,有


可以看出,歸一化后的帶噪倒譜是原來干凈倒譜的歸一化結果,完全去除信道h的影響,補償了信道畸變。
MVN不僅考慮倒譜均值的歸一化,同時也考慮了方差,它是CMN的一個擴展。大量實驗表明,噪聲的影響往往表現為干凈語音分布參數的變化,最常見的是均值的偏移和方差的壓縮和擴張。定義方差:

則MVN的計算公式為:

人類對語音的聽覺感知可以抑制相對平穩、變化緩慢的非語言背景。通常來說,信道相對于語音的變化是平緩的甚至常量,因此可以通過一個低端截止頻率非常低的帶通濾波器,抑制住頻帶上緩變的部分。RASTA濾波方法采用的帶通濾波器傳遞函數為:

仿真平臺采用歐洲電信標準委員會(ETSI)發行的Aurora 2.0數據庫,基于ETSI_ES _201 _108標準,采用14維特征向量(13維MFCC和對數能量),語音采用幀輸入,幀長為25 ms,幀移長度為10 ms,加窗為漢明窗,Mel濾波器組為23維,最低頻率64 Hz,最高頻率4 kHz,采樣率8 kHz。選用Aurora 2.0的數據庫的性能評測標準,即相對于ETSI標準參考MFCC提取程序訓練識別結果的性能提升。相對性能提升計算公式為:

Aurora 2.0數據組織可分為兩部分:訓練集和測試集。訓練集包括干凈訓練集和帶噪訓練集。干凈訓練集沒有加入噪聲,用來訓練一個對應用于干凈語音的模型;帶噪訓練集加入了不同信噪比的噪聲,用于訓練一個帶噪聲數據的模型。測試集按照不同的測試目的,分為A、B、C三個部分。
CMN的識別結果相對于MFCC的性能提升如表1所示。可以看出,在帶噪模型訓練方式下,CMN的識別性能都有所提升,特別對測試集C這種不可見信道的情形,這說明CMN對消除信道影響很有效。但在干凈模型下的測試集C,結果有些異常,這與干凈模型下環境的高度不匹配有關。

表1 CMN的仿真結果
MVN的識別結果相對于MFCC的性能提升如表2所示。和CMN相比較,MVN可能削弱了它在去除信道影響方面的優勢(如帶噪模型下的測試集C),但對其他測試集的識別結果以及平均性能都有一定的提高。

表2 MVN的仿真結果
RASTA濾波的識別結果相對于MFCC的性能提升如表3所示。通過RASTA濾波后,識別性能有了普遍的提升,說明RASTA濾波對去除信道噪聲的低頻成分中人耳聽不到的部分是有效的。

表3 RASTA濾波的仿真結果
訓練環境和測試環境的不匹配是造成實際情況下語音識別性能下降的主要原因,CMN可以補償信道畸變,但當信道出現非平穩加性噪聲時,性能會有較大下降;MVN雖在語音識別中較有效,但由于噪聲的多變而影響其應用范圍;RASTA濾波通過一個低端截止頻率非常低的帶通濾波器抑制頻帶上緩變的部分,是一種用于減小傳輸通道影響的方法。實際應用中,可以針對不同的噪聲環境采用不同的算法。
[1]GONG Y F.Speech Recognition in Noisy Environment:a Survey[J].Speech Communication,1995,16(3):261-291.
[2]ZHANG Jun,WEIGang.RobustMulti-stream Speech Recognition Based on Weighting the Output Probabilities of Feature Components[J].聲學學報(英文版),2009,33(3):269-279.
[3]關 勇,李 鵬.基于計算聽覺場景分析和語者模型信息的語音識別魯棒前端研究[J].自動化學報,2009,35(4):410-460.
[4]惠 博.語音識別特征提取算法的研究及實現[D].陜西:西北工業大學碩士論文,2008:34-37.
[5]趙 力.語音信號處理[M].北京:機械工業出版社,___2009.