基于MFCC的混響效果識別研究

2017-07-05 12:59:28馬賽謝茜劉嘉胤

中國傳媒大學學報(自然科學版) 2017年4期

關鍵詞：信號效果模型

馬賽，謝茜，劉嘉胤

(1.中國傳媒大學媒介音視頻教育部重點實驗室，北京 100024；2.山東省煙草公司信息中心，濟南 250101)

基于MFCC的混響效果識別研究

馬賽1，謝茜1，劉嘉胤2

(1.中國傳媒大學媒介音視頻教育部重點實驗室，北京 100024；2.山東省煙草公司信息中心，濟南 250101)

直達聲/混響聲能量比(Direct-to-Reverberant Ratio，DRR)和混響時間(Reverberation Time，RT)是判斷混響效果的兩個重要參數。針對合成有聲語音及元音EH，在給定的混響時間下，提取不同直達聲/混響聲能量比的混響語音信號的MFCC(Me-Frequency Cepstral Coefficients)特征，分別對其進行混響效果識別的10折交叉驗證。利用高斯混合模型對訓練集進行聚類分析，得到其概率分布函數，通過馬氏距離(Mahalanobis Distance，MD)計算測試集的每個樣本的混響效果概率，進而判斷其混響效果等級。實驗結果證明，合成有聲語音基于MFCC的混響效果識別準確率可以達到90%以上，元音EH可以達到80%以上。

混響；MFCC；交叉驗證；高斯混合模型

1 引言

語音通過聲道產生，聲道可以看作改變聲帶振動頻譜形狀的濾波器。當聲帶處于發聲狀態時生成有聲語音，發聲狀態指聲帶繃緊并周期振動，聲道濾波器被周期脈沖激勵，產生的語音波形具有準周期性；當聲帶處于無聲狀態時生成無聲語音，無聲狀態指聲帶不振動，聲道濾波器被噪聲源激勵，產生的語音波形無規則[1][2]。語音信號生成的源-濾波器模型(Source-Filter Model，SFM)[3]如圖1所示，聲帶的兩種狀態通過切換開關實現，聲道通過時不變濾波器模擬，濾波器參數可以對語音信號進行線性預測分析獲得[4]。本文只關注有聲語音信號。

混響存在于任何封閉環境中。當語音信號在房間等封閉環境中傳播時，房間的聲學屬性使語音信號產生失真，這些屬性包括房間的尺寸，聲音的反射路徑和墻壁的吸聲系數等，這種失真的語音信號稱之為混響語音信號。混響不僅能夠影響語音信號的質量和清晰度[5][6]，其作用還涉及到很多其他的實際應用方面，比如降低自動語音識別(Automatic Speech Recognition，ASR)系統的性能[7]，干擾學生的課堂學習質量[8]，妨礙耳蝸佩戴者的聽覺感知[9]等等。因此，混響效果的判斷對于語音應用的各個領域具有重要意義。

聲像源模型(Image-Source Model，ISM)[10]是一種常用的混響語音信號處理模型，很多聲學相關領域的研究工作都是基于ISM進行的，例如盲源分離[11]，信道識別與均衡[12]，聲源定位與追蹤[13]，語音增強[14]，語音識別[15]。通過ISM生成的房間脈沖響應(Room Impulse Response，RIR)函數代表聲源與麥克風之間的系統傳遞函數，許多混響參數可以通過RIR預測獲得，其中直達聲/混響聲能量比(Direct-to-Reverberant energy Ratio，DRR)[16]和混響時間(Reverberation Time，RT)[17]是房間混響特性的兩個重要指標。DRR是聲源直接到達麥克風的聲音能量與經各種反射到達的聲音能量之比，是對聲源距離感知的主要線索；RT指聲源停止發聲以后聲壓級衰減60dB所用的時間，是聲學環境的基本屬性。

本文提出了一種基于MFCC特征的混響效果識別算法。在給定的RT下，以DRR代表不同混響效果等級，提取混響語音信號的MFCC特征，以高斯混合模型對其進行聚類分析，通過10折交叉驗證檢驗基于MFCC的混響效果識別的有效性。本文結構如下：第二部分介紹合成有聲語音和元音EH的混響語料庫；第三部分介紹混響效果識別算法結構；第四部分介紹混響效果識別實驗結果；第五部分為本文結論。

圖1 語音信號源-濾波器模型

2 混響語料庫

2.1 房間脈沖響應函數

通過ISM生成不同的房間脈沖響應函數。混響時間是房間尺寸的近似函數(常系數反射時)，選擇三組不同的混響時間，如RT=300ms，RT=600ms，RT=1000ms，改變聲源與麥克風距離(Source-Microphone Distance，SMD)使得DRR的范圍從15dB到0dB(3dB步階)，如表1所示。模擬房間尺寸為長×寬×高=9×4×6m3，共得到18個房間脈沖響應函數。

2.2 合成有聲語音信號

利用線性預測模型分析一段純凈語音信號，為了獲得更好的諧波結構以描繪聲道的諧振特性，選擇基頻在100Hz左右的短時語音信號。為了不失一般性，選擇3種線性預測分析階數，分別為=12，20，28。通過3組線性預測分析系數構成的全極點濾波器模擬聲道響應函數，即獲得3個聲道模型。根據人類基頻范圍[18]，我們選擇基頻為150到350Hz(50Hz步階，共5個基頻)對應周期的脈沖序列作為有聲語音激勵信號作用于聲道模型，合成語音信號的持續時間控制在5秒，期間沒有停頓或者靜音，一共可以獲得3×5=15個合成有聲語音信號。全極點濾波器是零狀態濾波器，為了排除濾波器起始與終止響應的影響，我們從50ms開始采集，在4.55s停止采集，即最后所得到的合成語音信號長度控制在4.5秒。

表1 SMD及相應DRR

2.3 合成元音EH

因為女性元音EH的頻譜結構與所獲得的聲道模型較為接近，選擇其作為含有語義的研究實例，通過共振峰級聯濾波器的方法進行合成，其中女性元音EH的參數如表2所示。

表2 女性元音EH參數

從共振峰的頻率到帶寬有三套經驗公式[19][20]，本文選擇對前三個共振峰頻率最準確的一組

B1=15*(500/F1)2+20*(F1/500)1/2
+5*(F1/500)2

(1)

B2=22+16*(F1/500)2
+12000/(F3-F2)

(2)

B3=25*(F1/500)2+4*(F2/500)2
+10*F3/(Fa-F3)

(3)

其中，女性Fa=3700。

通過純凈語音信號與房間脈沖響應函數的卷積獲得混響語音信號，對于有聲語音信號，共有15*18=270個混響語音；對于女性元音EH，共有18個混響語音。使用前3s的有聲混響語音，混響元音EH的長度控制在2.5～3s之間。至此，本文所需混響語料庫構造完成。

3 混響效果識別算法設計

在給定的混響時間下，根據不同的DRR為混響語音信號添加混響效果等級標簽，分幀(幀長25ms)提取混響語音信號的MFCC(12階)特征，與對應標簽共同構成數據集。將該數據分為訓練集(training dataset)與測試集(test dataset)，利用高斯混合模型對訓練集進行訓練，得到訓練集在不同混響效果等級下的概率分布函數。計算測試集與不同混響效果等級概率分布函數的距離得到測試集屬于某混響效果等級的最大似然概率，對測試集數據所屬混響效果等級進行判斷，通過與測試集混響效果等級標簽的對比，得到混響效果識別的準確率，算法流程如圖2所示。

圖2 混響效果識別算法流程

假設有種混響效果等級，分別對其用模型數為M=(M=16)的高斯混合模型[21]進行訓練，得到第n種等級的高斯混合模型中每個聚類的概率密度函數為

gn(xn|μni，∑ni)，λn={ωni，μni，∑ni}，i∈M

(4)

馬氏距離(MahalanobisDistance)[22]用來測量一個離散點與一個分布的距離，測試集為Y={y1，…，yl}，其中第l個測試樣本到第n種高斯混合分布中第i個聚類的馬氏距離為

(5)

則測試樣本屬于該聚類的概率定義為

Plni=e-MDlni

(6)

測試樣本yl屬于第n種高斯混合分布的概率即為屬于各聚類概率的加權和

(7)

該測試樣本的混響效果等級判斷為

Levell=argmax{Pl1，…，Pln}

(8)

由此完成對所有測試樣本所屬混響效果等級的識別，并與測試集標簽作對比，得到識別準確率。

交叉驗證一種模型驗證方法[23]，將對統計過程的判斷引用到獨立數據集。本實驗采取10折交叉驗證的方法，將混響語音特征矢量隨機劃分成10個大小相等的子樣本，其中9個樣本作為訓練集，1個樣本作為測試集。交叉驗證過程重復10次，保證每個樣本都遍歷一次測試集，將10次驗證結果取平均值，作為混響效果識別的最終結果。

4 混響效果識別實驗結果

實驗環境：MATLAB2011b，DellVostro220s臺式計算機，2.6GHzPentium(R)Dual-CoreE5300處理器，2GB內存。迭代時間定義為完成一次10折交叉驗證的運算時間。

4.1 有聲語音信號混響效果識別

將合成的有聲混響語音信號根據混響時間分為三組：RT=300ms，RT=600ms，RT=1000，為了獲得更好的統計效果，我們將10折交叉驗證實驗重復100次。以MFCC為特征的混響效果識別準確率和迭代時間的100次交叉驗證結果如表3所示。

表3 有聲語音MFCC混響效果識別準確率與迭代時間

4.2 元音EH混響效果識別

同樣按照混響時間分為三組，分別為RT=300ms，RT=600ms，RT=1000ms。與有聲語音的驗證過程相同，分別將10折交叉驗證重復100次以獲得更好的統計結果。將混響效果識別的100次交叉驗證的準確率作為參量，可以得到識別準確率的概率分布如圖3所示。

可以明顯看出其服從自由度是99的t分布，置信度是90%的置信區間與100次交叉驗證的平均迭代時間如表4所示。

圖3 MFCC混響效果識別準確率概率分布

表4 元音EH混響效果識別準確率與迭代時間

5 結論

MFCC可以有效的用于混響效果識別，對合成有聲語音其識別準確率在90%以上，對合成元音EH其識別準確率在80%以上，本文算法可以與語音信號去混響以及語音質量/清晰度客觀評價等方面的研究進一步結合。但是，對于有聲語音信號，當基頻提高至350Hz時，MFCC的識別準確率有一個明顯衰減，其對于高基頻的語音信號表現不夠穩定。另外，由實驗結果可以看出MFCC的識別迭代時間較高。如何在保證識別準確率的情況下獲得更穩定的表現，以及降低識別過程的運算成本是下一步研究工作的重點。

[1]Dimitar D D.Acoustic Model and Evaluation of Pathological Voice Production [C].3rd Conference on Speech Communication and Technology EUROSPEECH，Berlin，Germany，1993：1969-1972.

[2]Abberton E R M，Howard D M，Fourcin A J.Laryngographic assessment of normal voice：A tutorial [J].Clinical Linguistics & Phonetics，1989，3(3)：281-296.

[3]Fant G.The source filter concept in voice production [J].STL-QPSR，KTH，1981，22(1)：21-37.

[4]Vaidyanathan P.The theory of linear prediction [J].Synthesis Lectures on Signal Processing，2007，2(1)：1-184.

[5]Nábělek A K，Letowski T R，Tucker F M.Reverberant overlap and self‐masking in consonant identification[J].Journal of the Acoustical Society of America，1989，86(4)：1259-65.

[6]Kokkinakis K，Loizou P C.The impact of reverberant self-masking and overlap-masking effects on speech intelligibility by cochlear implant listeners(L)[J].Journal of the Acoustical Society of America，2011，130(3)：1099-1102.

[7]Kinoshita K，Delcroix M，Yoshioka T，et al.The reverb challenge：A common evaluation framework for dereverberation and recognition of reverberant speech[C].Applications of Signal Processing to Audio and Acoustics，IEEE，2014：1-4.

[8]Crandell C C，Smaldino J J.Classroom Acoustics for Children With Normal Hearing and With Hearing Impairment[J].Lang Speech Hear Serv Sch，2000，31(31)：362-370.

[9]Hazrati O，Loizou P C.The combined effects of reverberation and noise on speech intelligibility by cochlear implant listeners[J].International Journal of Audiology，2012，51(6)：437-443.

[10]Allen J B，Berkley D A.Image method for efficiently simulating small‐room acoustics [J].Journal of the Acoustical Society of America，1979，65(4)：943-950.

[11]Ikram M Z，Morgan D R.A multiresolution approach to blind separation of speech signals in a reverberant environment[C].2001 IEEE International Conference on Acoustics，Speech，and Signal Processing，2001，5：2757-2760.

[12]Radlovic B D，Williamson R C，Kennedy R A.Equalization in an acoustic reverberant environment：robustness results [J].IEEE Transactions on Speech & Audio Processing，2000，8(3)：311-319.

[13]Lehmann E A，Johansson A M.Particle Filter with Integrated Voice Activity Detection for Acoustic Source Tracking [J].EURASIP Journal on Advances in Signal Processing，2007，Article ID 50870，11pages.

[14]Aarabi P，Shi G.Phase-based dual-microphone robust speech enhancement [J].IEEE Transactions on Systems Man & Cybernetics-Part B：Cybernetics，2004，34(4)：1763-1773.

[15]Kalle J.Palom?ki，Brown G J，et al.A binaural processor for missing data speech recognition in the presence of noise and small-room reverberation[J].Speech Communication，2004，43(4)：361-378.

[16]Jeub M，Nelke C，Beaugeant C，et al.Blind estimation of the coherent-to-diffuse energy ratio from noisy speech signals[C].2011 European Signal Processing Conference，IEEE，2011：1347-1351.

[17]Lehmann E A，Johansson A M，Nordholm S.Reverberation-Time Prediction Method for Room Impulse Responses Simulated with the Image-Source Model[C].2007 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics，2007：159-162.

[18]Peterson G E，Barney H L.Control Methods Used in a Study of the Vowels [J].Journal of the Acoustical Society of America，1952，24(1)：175-184.

[19]Fant G.Vocal Tract Wall Effects，Losses，and Resonance Bandwidths [J].STL-QPSR，1972，13(2-3)：28-52.

[20]Fant G.the Vocal Tract in Your Pocket Calculator [J].STL-QPSR，1985，1：001-019.

[21]Dr D R.Gaussian Mixture Models [J].Encyclopedia of Biometrics，2008，03(4)：93-105.

[22]Xiang S，Nie F，Zhang C.Learning a Mahalanobis distance metric for data clustering and classification [J].Pattern Recognition，2008，41(12)：3600-3612.

[23]Kohavi R.A study of cross-validation and bootstrap for accuracy estimation and model selection[C].IJCAI’95 Proceedings of the 14th international joint conference on Artificial intelligence，1995，2：1137-1143.

(責任編輯：王謙)

Reverberation Level Recognition Based on MFCC

MA Sai1，XIE Xi1，LIU Jia-yin2

(1.Key Laboratory of Media Audio & Video，Ministry of Education，Communication University of China，Beijing 100024，China；2.Information Center of Shandong Tobacco Company，Jinan 250101，China)

Direct-to-Reverberant energy Ratio(DRR)and Reverberation Time(RT)are the primary parameters for reverberation strength judgement.Given some selected RT，cluster reverberant synthesized voiced speech and vowel EH at different DRR based on MFCC，and use 10-fold cross validation for reverberation level recognition，respectively.Train the training dataset by Gaussian Mixture Model to obtain the probability distribution，and calculate the test dataset probability via Mahalanobis Distance in order to achieve the recognition purpose.Experiments show that reverberant voiced speech recognition accuracy is higher than 90%，and reverberant vowel EH is higher than 80%.

reverberation；MFCC；cross validation；gaussian mixture model

2017-04-13

馬賽(1980-)，男(漢族)，山東壽光人，中國傳媒大學助理研究員.E-mail：saima@cuc.edu.cn

TN912.3

1673-4793(2017)04-0018-06