基于聲學參數(shù)測量的語音清晰度預測系統(tǒng)

2018-05-30 04:36:40章斯宇孟子厚

演藝科技 2018年5期

靳源，章斯宇，孟子厚

(中國傳媒大學傳播聲學研究所，北京 100024)

1 引言

語音清晰度是衡量語音傳輸系統(tǒng)性能優(yōu)劣的一項重要指標，受到很多因素的影響，其中噪聲混響和頻率失真尤為重要。語音清晰度的測量方法主要有主觀測量方法和客觀測量方法。主觀測量是以人為主體來對語音的質(zhì)量進行評價，需要大量的人力，方法繁瑣，重復性和穩(wěn)定性均不佳，但優(yōu)點是能真實反映語音質(zhì)量的優(yōu)劣。客觀測量是基于算法直接對語音傳輸系統(tǒng)的語言傳輸質(zhì)量進行評價，目前國際上應用較為廣泛的是語言傳輸指數(shù)STI法[1]，雖然客觀評價方法解決了費時費力等問題，但現(xiàn)行語音清晰度客觀評價方法得出的漢語清晰度水平與人的實際聽感存在差異。筆者所在的聲學所曾對語言傳輸指數(shù)STI在評價漢語清晰度存在失效的問題[2]做了研究，但還需要針對漢語語言學和語音學特點、漢語知覺心理特點、傳輸通道傳遞條件的多樣性等方面建立一種符合實際聽覺感受的漢語清晰度客觀評測方法。筆者查閱相關(guān)文獻發(fā)現(xiàn)，尚楠通過主觀實驗探討了混響時間和信噪比與語音聽感清晰度之間的關(guān)系[3]；宋慧在頻帶失真條件下探討了漢語聽感清晰度隨濾波截止頻率的變化規(guī)律[4]，發(fā)現(xiàn)語音清晰度與各聲學參數(shù)的關(guān)系是非線性的，且影響語音清晰度的各種因素是相互聯(lián)系、相互影響的。支持向量機（Support Vector Machine，SVM）是一種比較優(yōu)秀的機器學習算法，它不僅具有記憶性、自學性等一般機器學習算法的優(yōu)點，而且算法簡單，“魯棒性”強，解決小樣本問題、非線性問題都具有較強的優(yōu)勢[5]。筆者在此研究基礎(chǔ)上，采用支持向量機的機器學習算法，對噪聲、混響和頻帶失真條件下語音清晰度主觀測量數(shù)據(jù)進行訓練，建立了語音清晰度的預測模型，在MATLAB平臺上設(shè)計了一套漢語語音清晰度預測系統(tǒng)。該系統(tǒng)集成了信噪比、混響時間以及系統(tǒng)截止頻率的測量，根據(jù)這些聲學參數(shù)的測量結(jié)果可以實現(xiàn)對語音清晰度的預測，為漢語語音清晰度客觀測量的工程實現(xiàn)提供參考方法。

2 基于SVM的語音清晰度預測模型

本文主要使用支持向量機做回歸預測分析，其原理是通過核函數(shù)將低維線性問題轉(zhuǎn)換為高維的線性問題，應用有限樣本的學習訓練，獲得全局最優(yōu)解[6]。參考文獻[7]敘述了粒子群尋找支持向量機最優(yōu)參數(shù)的原理。

如圖1所示，本文基于SVM建立語音清晰度預測模型基本思路是：

（1）對樣本數(shù)據(jù)進行預處理：由于語音清晰度主觀實驗的波動性，某些聲學條件下的語言清晰度會產(chǎn)生異常值，所以采用相鄰條件下的語音清晰度值進行替換修正。而單一條件和雙重條件影響下的數(shù)據(jù)缺少聲學條件參數(shù)。這些聲學參數(shù)可以默認為理想值。相關(guān)文獻顯示，宋慧發(fā)現(xiàn)當聲學條件參數(shù)超過臨界值時，其變化對語音清晰度不構(gòu)成影響[8]，因此，本文采用臨界值進行數(shù)據(jù)補全。當信噪比大于20 dB時，設(shè)置其20 dB，信噪比小于-14 dB時，設(shè)置其為-14 dB。當混響時間大于6 s，設(shè)置其為6 s，無混響設(shè)置為0 s。當系統(tǒng)下限截止頻率小于160 Hz時，設(shè)置其為160 Hz，當系統(tǒng)上限截止頻率大于10 kHz時，設(shè)置其為10 kHz。最后將數(shù)據(jù)歸一化，對信噪比、混響時間參數(shù)采用線性歸一化的方式。由于系統(tǒng)截止頻率數(shù)量級相差過大，則采用對數(shù)歸一化的方式。

（2）初始化粒子群算法的默認參數(shù)，對模型參數(shù)進行尋優(yōu)。

（3）使用尋優(yōu)得到的參數(shù)構(gòu)建目標函數(shù)，然后利用預處理后的樣本數(shù)據(jù)進行訓練，得到預測模型。

最終建立語音清晰度預測模型預測值與實際值散點圖如圖2所示。

計算均方誤差M S E和擬合精度R2得到：MSE=0.0055；R2=0.9282。

可以發(fā)現(xiàn)，該預測模型具有較小均方誤差和較高的擬合精度。后續(xù)在第4部分中，通過主觀實驗驗證了該預測模型的有效性和一致性。

3 系統(tǒng)設(shè)計

該測量系統(tǒng)主要由計算機、專業(yè)聲卡、功率放大器、十二面體無指向聲源和測量傳聲器組成，系統(tǒng)連接框圖如圖3所示。

該測量系統(tǒng)主要分三個步驟進行：

（1）計算機生成MLS序列信號，通過聲卡D/A轉(zhuǎn)換饋給被測擴聲系統(tǒng)，由測量傳聲器接收信號，通過聲卡A/D轉(zhuǎn)換饋給計算機處理，得出擴聲系統(tǒng)的頻率特性。

（2）計算機生成混響時間測量信號，通過聲卡D/A轉(zhuǎn)換饋給功率放大器，然后功率放大器經(jīng)過信號放大饋給十二面體聲源，由測量傳聲器接收信號通過聲卡A/D轉(zhuǎn)換饋給計算機處理，得出混響時間。

（3）計算機播放純凈語音信號通過被測擴聲系統(tǒng)，由測量傳聲器接收信號通過聲卡A/D轉(zhuǎn)換饋給計算機處理得出該傳輸系統(tǒng)的信噪比。

如圖4所示，該測量系統(tǒng)程序設(shè)計主要包括五個功能模塊：

圖1 支持向量機回歸模型訓練流程圖

圖2 漢語語音清晰度的預測值與實際值散點圖

圖3 測量系統(tǒng)組成框圖

（1）信號發(fā)生與參數(shù)設(shè)置模塊主要包括對信號的選取（掃頻信號、MLS偽隨機噪聲），信號的參數(shù)設(shè)置（信號時長、掃頻類型、掃頻上下限頻率、MLS序列的介數(shù)），硬件設(shè)置（聲卡設(shè)備設(shè)置、輸入/輸出通道設(shè)置）。

（2）混響時間測量模塊主要包括1/n倍頻程濾波器的選取，T10、T20、T30的選取，房間脈沖響應計算方法的選取（互相關(guān)、解卷積）。

（3）系統(tǒng)頻率特性測量模塊主要包括中心頻率的設(shè)置、截止頻率閾限的設(shè)置。

（4）信噪比測量模塊主要包括短時能量及過零率閾限的設(shè)置、幀長幀移的設(shè)置。

（5）漢語語音清晰度預測模塊主要包括對數(shù)據(jù)的預處理和語音清晰度值的計算。

本文系統(tǒng)的軟件界面主要基于MATLAB開發(fā)。MATLAB不僅在數(shù)值分析、矩陣運算、信號處理等領(lǐng)域展現(xiàn)出了強大的優(yōu)勢，還提供了用戶與計算機程序之間的交互方式。通過GUI，用戶不需要輸入命令行或腳本，不需要理解程序內(nèi)部的運行方式，只需要通過點擊窗口中的按鈕，就可以輕松完成自己想要的結(jié)果。該系統(tǒng)主界面設(shè)計如圖5所示。

圖4 系統(tǒng)功能模塊框架圖

3.1 頻率特性測量模塊

系統(tǒng)結(jié)合不同截止頻率濾波條件下的漢語普通話主觀聽感實驗[4]，并依據(jù)GB7347-87《漢語標準頻譜》中功率譜密度級的分布規(guī)律[9]，設(shè)置了160 Hz起以1/3倍頻程為步進遞增至10 kHz所涵蓋的19個頻率點，并插入了7 kHz和9 kHz兩個頻點。通過對這21個頻率點進行1/3倍頻程分析，可以得到被測聲傳輸系統(tǒng)的截止頻率。其原理簡述如下：

原始信號為MLS偽隨機噪聲，將原始信號進行時域翻轉(zhuǎn)并與采集信號卷積即可得到系統(tǒng)的脈沖響應。對系統(tǒng)的脈沖響應加漢寧窗，并乘以能量恢復系數(shù)[10]，利用快速傅里葉變換（FFT）得到其頻譜密度，根據(jù)1/3倍頻程截取得到各頻帶頻譜，然后將其進行快速傅里葉反變換（IFFT）得到各個頻帶的系統(tǒng)脈沖響應，通過計算其算術(shù)均方根值（RMS）得到各個頻帶能量，最后通過查找衰減-3 dB的頻點作為該系統(tǒng)的截止頻率。其程序流程圖如圖6所示。

圖5 測量系統(tǒng)界面設(shè)計

圖6 頻率特性測量程序流程圖

3.2 混響時間測量模塊

包括混響時間在內(nèi)的很多聲學測量都依賴于對房間脈沖響應的測量，而不同的激勵聲源測得的房間脈沖響應都會對聲學參數(shù)的計算產(chǎn)生影響，孟子厚、趙躍英等人就探討了不同激勵聲源對房間脈沖響應測量的影響[11][12]，其中指數(shù)掃頻信號測量房間脈沖響應有著高抗干擾性，能夠提高測量的房間脈沖響應信噪比，且能避免揚聲器非線性失真對測量結(jié)果的影響。因此，本文系統(tǒng)采用指數(shù)掃頻信號作為原始信號進行測量。卷積、滑移窗截斷、Schorder反向積分、斜率計算是本文系統(tǒng)的主要算法，其原理簡述如下：

將原始指數(shù)掃頻信號進行時域翻轉(zhuǎn)，并對其頻率進行修正得到翻轉(zhuǎn)信號與采集信號進行卷積得到房間脈沖響應，其中翻轉(zhuǎn)信號與原始信號滿足卷積為狄拉克函數(shù)。然后，將得到的房間脈沖響應進行1/3倍頻程濾波得到不同頻帶的房間脈沖響應。為了避免噪聲對混響時間計算的影響，本文系統(tǒng)采用短時滑移窗計算短時能量，并自適應調(diào)節(jié)閾限來截取有效房間脈沖響應范圍。然后利用Schroder反向積分得到聲能衰減曲線，進一步利用最小二乘法擬合曲線并計算斜率，從而得到混響時間。其程序流程圖如圖7所示。

3.3 信噪比測量模塊

標準的信噪比定義為：

式中，為純凈語音信號的功率，為噪聲信號的信號功率。

它適用于所有的信號計算，但對于語音信號，只有測量語音存在的信號片段的信噪比才有意義。因此，本系統(tǒng)利用語音活動檢測算法（VAD）計算語音信號的有效信噪比[13]，原理簡述如下：

利用最小值控制的遞歸平均（MCRA）算法[14]對帶有噪聲語音信號進行噪聲估計，得到該語音信號的各幀的短時噪聲功率譜，利用譜減算法得到各幀近似純凈的語音信號。同時對帶有噪聲語音信號進行語音活動檢測（VAD），得到語音存在與否的時間標注信息（VAD i）。然后利用各幀純凈語音信號功率和短時噪聲功率得到各幀信噪比，最后根據(jù)語音活動信息截取語音活動片段計算能量平均，即可得到最終有效信噪比。其程序流程圖如圖8所示。

4 實際測量驗證

為了驗證混響時間測量模塊測量精度，設(shè)計了與Audition3.0音頻編輯軟件中aurora插件進行對比測量的實驗。測量方法參照國家標準GB/T 50076-2013《室內(nèi)混響時間測量規(guī)范》[15]，測試環(huán)境選擇在混響室中進行的，室內(nèi)放置了不同數(shù)量的吸聲材料以改變混響時間。測量結(jié)果如圖9所示。從圖中可以看出，本文混響時間測量結(jié)果與aurora測量結(jié)果較為一致。

為了驗證本文信噪比測量模塊的測量精度，本文依照國家標準GB-T 15508-1995《聲學語言清晰度測試方法》[16]錄制了純凈語音信號，并分別與粉噪聲（pink noise）、白噪聲（white noise）)和多人語噪聲（babble noise）疊加構(gòu)造不同信噪比的實驗信號進行測量，其中粉噪聲與白噪聲由Audition 3.0軟件直接生成，多人語噪來自噪聲數(shù)據(jù)庫NoiseX-92，測量結(jié)果如圖10所示。

可以發(fā)現(xiàn)本系統(tǒng)信噪比測量模塊在低信噪比條件下對粉噪和白噪聲測量更為準確。整體上在-5 dB至20 dB范圍內(nèi)，不同信號的信噪比測量值與實際值都相對吻合。

圖7 混響時間測量程序流程圖

圖8 信噪比測量程序流程圖

圖9 本文系統(tǒng)與aurora混響時間測量對比圖

為了驗證本文系統(tǒng)頻率特性測量效果，本文將設(shè)計的頻率特性測量模塊與意大利AUDIOMATICA公司的CLIO電聲測試系統(tǒng)進行了對比實驗。實驗環(huán)境選擇消聲室內(nèi)進行，被測揚聲器選用Genelec 8030A。測量方法依據(jù)國家標準GB/T 12060.5—2011《聲系統(tǒng)設(shè)備第5部分：揚聲器主要性能測試方法》[17]。從圖11可以發(fā)現(xiàn)，在50 Hz～20 000 Hz范圍內(nèi)，本文系統(tǒng)與CLIO系統(tǒng)測量的幅頻響應曲線較為吻合。

圖10 不同噪聲下信噪比測量結(jié)果圖

圖11 本文系統(tǒng)與CLIO幅頻響應曲線測量對比圖

圖12 漢語語音清晰度的預測值與實際值散點圖

為了驗證語音清晰度預測模型的可靠性，本文設(shè)計了主觀語音清晰度實驗，將主觀實驗結(jié)果與語音清晰度預測模型的預測結(jié)果進行了對比。實驗方法參照前人的研究成果[3][4][8]。實驗條件設(shè)置如表1所，實驗結(jié)果如圖12所示。

經(jīng)計算得到：MSE=0.0042；R2=0.9141；

可以發(fā)現(xiàn)，本文建立的漢語語音清晰度預測模型可以獲得較低的均方誤差以及較高的擬合精度。主觀實驗得到的實測清晰度與本文設(shè)計漢語清晰度預測模型預測清晰度值基本吻合。

表1 實驗信號干擾條件的選擇

5 總結(jié)

本文提出了一種基于支持向量機回歸模型的漢語語音清晰度預測方法，其中支持向量機的參數(shù)采用粒子群算法尋優(yōu)得到；同時，在MATLAB GUI平臺上，設(shè)計了一套集成聲學參數(shù)測量的語音清晰度預測系統(tǒng)；并通過實際測量實驗驗證了系統(tǒng)的有效性和一致性。

[1]Steeneken H J M, Houtgast T. A physical method for measuring speech-transmission quality[J]. Journal of the Acoustical Society of America,1980,67(1):318-326.

[2]章斯宇,孟子厚. 語言傳輸指數(shù)STI評價漢語清晰度的失效性[J]. 中國傳媒大學學報:自然科學版,2015,22(1):20-25.

[3]尚楠,章斯宇,孟子厚. 混響和噪聲對漢語語音清晰度影響的等效關(guān)系[J]. 聲學技術(shù),2015,34(6):446-449.

[4]宋慧.高低通濾波條件下漢語普通話的聽感清晰度[J]. 聲學技術(shù),2015, 34(6):454-457.

[5]方瑞明. 支持向量機理論及其應用分析[M]. 北京:中國電力出版社,2007.

[6]Vapnik V N. 統(tǒng)計學習理論的本質(zhì)[M]. 張學工,譯.北京:清華大學出版社,2000.

[7]Kennedy J, Eberhart R. Particle swarm optimization[C]// IEEE International Conference on Neural Networks. Perth Australia: Proceedings.IEEE,1995,4(8):1942-1948.

[8]宋慧. 漢語聽感清晰度的聲學傳遞要素分析與客觀評測[D]. 中國傳媒大學,2016.

[9]GB7347-1987 漢語標準頻譜[S]. 1987.

[10]焦新濤,丁康, 加窗頻譜分析的恢復系數(shù)及其求法[J].汕頭大學學報(自然科學版),2003,18(03):26-30+38.

[11]孟子厚. 廳堂聲學測量中不同激勵聲源的比較[J]. 應用聲學,2005,24(01):19-23.

[12]趙躍英,盛勝我,劉海生. 室內(nèi)聲學測量中常用聲源性能的比較[J]. 聲學技術(shù),2003,22(02):76-79.

[13]Vondrasek M, Pollak P. Methods for Speech SNR Estimation: Evaluation Tool and Analysis of VAD Dependency[J]. Radioengineering,2005,14(1):6-11.

[14]Martin R. Noise power spectral density estimation based on optimal smoothing and minimum statistics[J].IEEE Trans Speech & Audio Processing,2001,9(5):504-512.

[[15]GB/T 50076-2013 室內(nèi)混響時間測量規(guī)范[S]. 2014.

[[16]GB/T15508-1995 聲學-語言清晰度測試方法[S].1995.

[17]GB/T 12060.5—2011 聲系統(tǒng)設(shè)備第5部分：揚聲器主要性能測試方法[S]. 2011.