基于自適應心理聲學模型的智能語音識別系統*

2017-11-14 08:07:11熊笑顏黃燦英南昌大學科學技術學院南昌330029

沈陽工業大學學報 2017年6期

關鍵詞：效應

熊笑顏，陳栩，黃燦英，陳艷(南昌大學科學技術學院，南昌 330029)

熊笑顏，陳栩，黃燦英，陳艷
(南昌大學科學技術學院，南昌 330029)

針對包含環境噪聲和信道失真等噪聲的語音處理問題，提出了一種基于自適應心理聲學模型的智能語音識別系統，并建立了聽覺模型.該模型將心理聲學和耳聲發射(OAE)合并到了自動語音識別(ASR)系統中，利用AURORA2數據庫分別在清潔訓練條件和多訓練條件下進行試驗.結果表明，所提出的特征提取方法可以顯著提高詞識別率，優于梅爾頻率倒譜系數(MFCC)、前向掩蔽(FM)、側向抑制(LI)和倒譜平均值及方差歸一化(CMVN)算法，能夠有效地提高智能語音識別系統的性能.

梅爾頻率倒譜系數；耳聲發射；自適應；心理聲學濾波器；自動語音識別； AURORA2數據庫；前向掩蔽；側向抑制

語音是人類通信中最重要的形式，近年來，自動語音識別(ASR)已受到廣泛的關注.經過多年發展，ASR已經能夠有效地解碼語音，例如，在高于20 dB信噪比(SNR)的情況下，小詞匯語境中可以實現超過95%的詞精確度，大詞匯語境中達到超過90%的詞精確度.然而，隨著SNR下降(例如至0 dB)，識別精度會降低到50%以下，這對于許多典型應用是不可接受的[1].對于人類而言，語音感知是一種感覺和感知過程[2-4]，本文專注于該過程的心理聲學和耳聲發射(OAE)方面研究.心理聲學是對人類語言感知的廣泛研究，包括聲壓級和響度、人對不同頻率響應以及各種掩蔽效應，在一定程度上，梅爾頻率倒譜系數(MFCC)的普及是這一研究領域的成果[5-7]；OAE是在耳蝸中產生的聲學信號，其廣泛用于新生兒聽力損失的檢測[8-10]，但并未真正應用于ASR.

之前在心理聲學中的工作已經系統地研究了語音信號如何由人類聽覺系統處理并轉換成神經尖峰[11]，并且已經提出了幾種不同的數學模型用于有效實現掩蔽效應，通過并入時間積分對系統進行了改進[12].本文在此基礎上對聽覺模型進行了改進，將心理聲學和耳聲發射合并到了自動語音識別系統中，顯著提高詞識別率.

1 聽覺模型

本文研究了聽覺神經科學的兩個分區，即心理聲學和OAE[13].心理聲學涵蓋諸多不同的主題，包括聲音定位和掩蔽效應.掩蔽效應主要是由時間和頻率上的神經元信號處理機制引起的[14-15]，為了定量測量掩蔽效應，通常需要確定掩蔽閾值.掩蔽閾值是測試聲音的聲壓級，當存在掩蔽物的情況下幾乎不可聽見，信號可能被前面的聲音(前向掩蔽(FM))或后續聲音(后向掩蔽)所掩蔽.

OAE是從內耳產生的聲信號，其可以使用靈敏的麥克風記錄在耳道中，OAE是耳蝸中聲音的非線性和主動預處理結果.經過實驗已經證明，OAE是通過眾多不同的機械原因在內耳產生的[16].

2 算法描述

本文所提出的聽覺系統數學模型主要由兩部分組成：自適應2D心理聲學濾波和OAE濾波.

2.1 自適應2D心理聲學濾波

聽覺系統對不同頻率的響應不同，且掩蔽效應同樣依賴于頻率，即掩蔽物的頻率影響掩蔽的總量.圖1給出了前向掩蔽的特性曲線[17]，其描述了掩蔽總量Mtotal隨時間變化過程，其中，1和4 kHz參數分別用于低頻帶和高頻帶時間掩蔽.

掩蔽效應參數隨頻率改變而變化，理想算法則是對于不同頻率應當存在不同的2D心理聲學濾波器，但顯然在計算中無法實現.在本文的實現方案中，將每個語音樣本劃分為兩個部分，即低頻帶和高頻帶，可表示為

圖1 前向掩蔽的特性曲線Fig.1 Characteristic curve for FM

(1)

式中，Ys1和Ys2分別定義為

(2)

(3)

式中，Es和Ts分別為語音信號的頻率和時間矩陣.

每個頻帶由不同的2D心理聲學濾波器處理，掩蔽量為時間積分參數與Ys矩陣的乘積，最佳時間積分參數是根據經驗獲得的.低頻帶和高頻帶下語音的時間積分參數分別為4、3；低頻帶和高頻帶下非語音的時間積分參數分別為3、2.圖2給出了自適應2D心理聲學濾波的流程框圖.語音在經過離散傅里葉變換(DFT)之后，語音頻譜圖均等地分成高頻帶和低頻帶，語音活動檢測器(VAD)用于區分語音/非語音幀.對于每個頻帶，使用兩個不同的時間積分參數，因此，在實現方案中總共有4個不同的2D心理聲學濾波器.

2.2 耳聲發射濾波

OAE被認為與耳蝸的放大功能相關，且在內耳中產生，OAE與諸多其他心理聲學效應(例如掩蔽效應、初步頻帶等)一同改變語音的頻譜，這有助于增強或抑制原始語音的某些區域.

圖2 自適應2D心理聲學濾波框圖Fig.2 Block diagram of adaptive 2Dpsychoacoustic filtering

本文算法主要目的是將語音轉換為可由聽覺系統神經尖峰來識別的信號，因此，新版本OAE可被建模為

(4)

式中：f和t分別為語音信號的頻率和時間；MOAE為OAE的總量，MOAE計算表達式為

MOAE=μMtotal=

(5)

式中：μ為經驗系數；-Tbm≤Δt≤Tfm，Tfm和Tbm分別為前向掩蔽和后向掩蔽的有效范圍；-F1≤Δf≤F2，F1和F2為同時掩蔽的有效范圍；α(Δf，Δt)為時間積分參數.新語音的最終版本可通過心理聲學和OAE的聯合效應來計算.對于聽到的聲學信號Y(f，t)，其首先通過OAE濾波，濾波后信號為

YOAE(f，t)=Y(f，t)?Mask

(6)

式中，Mask表達式為

(7)

之后信號通過掩蔽效應進一步處理可得

Y(f，t)?Mask?Mpsy

(8)

式中，Mpsy為心理聲學濾波器，其計算參見文獻[18].OAE和心理聲學濾波器在式(8)中依次實現，這是因為OAE主要由內耳產生，而心理聲學(掩蔽)效應主要由緊鄰的聽覺神經限制產生，即在混合語音通過整個聽覺系統之前，首先將OAE添加到原始語音中.

3 實驗與分析

分別在AURORA2數據庫上進行清潔訓練條件和多訓練條件的識別實驗，實驗中將本文所提出的算法與MFCC、前向掩蔽(FM)、側向抑制(LI)和倒譜平均值(包含TW-2D和TFW-2D)及方差歸一化(CMVN)算法進行比較.清潔訓練條件集中沒有添加噪聲，其包括從55個男性和55個女性成年人記錄的8 440個語音；在多訓練條件集中，記錄語音中添加了數據庫中包含的4種白噪聲.

在SNR等級分別為20、15、10、5、0和-5 dB條件下添加8種類型的噪聲(地鐵、人群、汽車、展覽會、餐廳、街道、飛機場和火車)進行識別率實驗.表1、2為本文所提算法對兩種不同訓練條件語音的識別實驗結果；表3、4為不同算法對兩種不同訓練條件語音在SNR等級為-5 dB及平均值(信噪比為0～20 dB之間取得)條件下的相對提高率對比，相對提高率被定義為

(9)

式中：rp為所提出算法的識別率；rt為比較算法的識別率.

在清潔訓練條件下，所提出的算法明顯優于其他方法，其對比圖如圖3a所示.與MFCC、FM、LI和CMVN相比，本文所提算法的平均識別率相對提高了19.62%、10.27%、15.29%和9.64%；在噪聲等級為-5 dB時，相對提高率分別為90.03%、16.34%、45.17%和78.27%.TW-2D和TFW-2D心理聲學濾波器參見文獻[2].與TW-2D和TFW-2D算法相比，本文所提出算法的平均識別率相對提高了6.12%和1.04%；在噪聲等級為-5 dB時，相對提高率分別為71.84%和1.68%.

圖3b為多訓練條件下，所提出算法相對于其他算法的比較結果.與MFCC、FM、LI和CMVN相比，本文所提算法的平均識別率相對提高了5.22%、5.67%、4.73%和0.76%；在噪聲等級為-5 dB時，相對提高率分別為71.93%、81.19%、73.49%和8.18%.與TW-2D和TFW-2D算法相比，本文所提算法的平均識別率相對提高了1.08%和0.69%；在噪聲等級為-5 dB時，相對提高率分別為19.60%和5.18%.

4 結論

本文提出了基于MFCC的混合特征提取算法，該種方法設法反映了人類聽覺系統的不對稱性質.所提出算法的關鍵特征是結合了自適應方案，其更好地反映掩蔽效應的頻率相關屬性.語音頻譜被分成多個頻帶，不同的心理聲學濾波器被設計成更適合特定頻帶.此外，所提出的方法無需任何額外的訓練過程，使得計算負擔較低.由于所提算法的簡單性，故其可輕易地與其他算法進行組合.

表1 清潔訓練條件下所提出算法的識別結果Tab.1 Recognition results of proposed algorithm under clean training condition %

表2 多訓練條件下所提出算法的識別結果Tab.2 Recognition results of proposed algorithm under multiple training condition %

表3 清潔訓練條件下的相對提高Tab.3 Relative improvement underclean training condition %

表4 多訓練條件下的相對提高Tab.4 Relative improvement undermultiple training condition %

圖3 清潔和多訓練條件下的對比結果Fig.3 Test results under clean andmultiple training conditions

[1] Heimrath K，Breitling C，Krauel K，et al.Modulation of pre-attentive spectro-temporal feature processing in the human auditory system by HD-tDCS [J].European Journal of Neuroscience，2015，41(12)：1580-1586.

[2] Dai P，Soon I Y.A temporal frequency warped (TFW) 2D psychoacoustic filter for robust speech recognition system [J].Speech Communication，2012，54(3)：402-413.

[3] Kleinschmidt D F，Jaeger T F.Robust speech perception：recognize the familiar，generalize to the similar，and adapt to the novel [J].Psychological Review，2015，122(2)：148-153.

[4] Bidelman G M，Weiss M W，Moreno S，et al.Coordinated plasticity in brainstem and auditory cortex contributes to enhanced categorical speech perception in musicians [J].European Journal of Neuroscience，2014，40(4)：2662-2673.

[5] Jeong K H，Lee J W，Park J.Chatter diagnosis using mel-frequency cepstral coefficient of vibrational signal for various operating conditions [J].Journal of the Acoustical Society of America，2016，140：124-131.

[6] Sch?dler M R，Kollmeier B.Separable spectro-temporal gabor filter bank features：reducing the complexity of robust features for automatic speech recognition [J].Journal of the Acoustical Society of America，2015，137(4)：2047-2059.

[7] Govindan S M，Duraisamy P，Yuan X.Adaptive wavelet shrinkage for noise robust speaker recognition [J].Digital Signal Processing，2014，33：180-190.

[8] Sisto R，Moleti A，Shera C A.On the spatial distribution of the reflection sources of different latency components of otoacoustic emissions [J].Journal of the Acoustical Society of America，2015，137(2)：768-776.

[9] Christensen A T，Ordoez R，Hammersh?i D.Stimulus ratio dependence of low-frequency distortion-product otoacoustic emissions in humans [J].Journal of the Acoustical Society of America，2015，137(2)：679-689.

[10]Jedrzejczak W W，Konopka W，Kochanek K，et al.Otoacoustic emissions in newborns evoked by 0.5kHz tone bursts [J].International Journal of Pediatric Otorhinolaryngology，2015，79(9)：1522-1526.

[11]Ekanadham C，Tranchina D，Simoncelli E P.A unified framework and method for automatic neural spike identification [J].Journal of Neuroscience Methods，2014，222(1)：47-55.

[12]Oxenham A J，Plack C J.Effects of masker frequency and duration in forward masking：further evidence for the influence of peripheral nonlinearity [J].Hearing Research，2000，150：258-266.

[13]Oetjen A，Verhey J L.Spectro-temporal modulation masking patterns reveal frequency selectivity [J].Journal of the Acoustical Society of America，2015，137(2)：714-717.

[14]Li N，Osborn M，Wang G，et al.A digital multichannel neural signal processing system using compressed sensing [J].Digital Signal Processing，2016，55(3)：64-77.

[15]Azad A K，Wang L，Guo N，et al.Signal processing using artificial neural network for BOTDA sensor system [J].Optics Express，2016，24(6)：67-69.

[16]Kujawa S G，Fallon M，Skellett R A，et al.Time-varying alterations in the f2-fl DPOAE response to continuous primary stimulation II.influence of local calcium-dependent mechanisms [J].Hearing Research，1996，97(1/2)：153-164.

[17]Jesteadt W，Bacon S P，Lehman J R.Forward masking as a function of frequency，masker level，and signal delay [J].Journal of the Acoustical Society of America，1982，71(2)：950-962.

[18]Oxenham A J.Forward masking：adaptation or integration [J].Journal of the Acoustical Society of America，2001，109(2)：732-741.

Intelligentspeechrecognitionsystembasedonself-adaptionpsychoacousticmodel

XIONG Xiao-yan, CHEN Xu, HUANG Can-ying, CHEN Yan
(School of Science and Technology, Nanchang University, Nanchang 330029, China)

Aiming at such noise speech processing problems as environmental noise and channel distortion, an intelligent speech recognition system based on adaptive psychoacoustic system was proposed, and an auditory model was established. In the proposed model, the psychoacoustics and otoacoustic emission (OAE) were integrated into an automatic speech recognition (ASR) system. With the AURORA2 database, the experiments were performed under both clean and multiple training conditions, respectively. The results show that the proposed feature extraction method can significantly improve the word recognition rate, is superior to those of Mel-frequency cepstral coefficients (MFCCs), forward masking (FM), lateral inhibition (LI) and cepstral mean & variance normalization (CMVN) algorithms, and can effectively enhance the performance of intelligent speech recognition system.

Mel-frequency cepstral coefficient (MFCC); otoacoustic emission (OAE); self-adaption; psychoacoustic filter; automatic speech recognition(ASR); AURORA2 database; forward masking (FM); lateral inhibition (LI)

2016-12-12.

江西省教育廳科學技術研究項目(GJJ151504，GJJ151505)；江西省教育改革課題資助項目(JXJG-14-28-3，JXJG-14-28-1，JXJG-14-28-6，JXJG-14-28-8).

熊笑顏(1974-)，女，湖北房縣人，講師，碩士，主要從事聲學數據處理、電子技術及嵌入式系統等方面的研究.

* 本文已于2017-10-25 21∶13在中國知網優先數字出版. 網絡出版地址： http：∥www.cnki.net/kcms/detail/21.1189.T.20171025.2113.066.html

10.7688/j.issn.1000-1646.2017.06.14

TP 511

1000-1646(2017)06-0675-05

(責任編輯：景勇英文審校：尹淑英)

基于自適應心理聲學模型的智能語音識別系統*

1 聽覺模型

2 算法描述

3 實驗與分析

4 結 論

4 結論