婁英丹,徐靜林,黃麗霞,張雪英
太原理工大學 信息與計算機學院,太原 030024
遠場語音識別是目前研究的熱門方向,它可以很方便地實現人機交互,而不需用人戴麥克風[1],其在智能家居、辦公環境、人形機器人、汽車和語音翻譯等研究領域都有廣泛應用[2]。然而,墻壁、地板、天花板及其他物體的反射和干擾噪聲源都會很大程度地降低遠場語音信號的質量,致使語音識別的性能急劇下降。目前國內外主要從信號域、特征域、模型域幾個層次來提高遠場語音識別的魯棒性。Mirsamadi 等人[3]提出使用分布式麥克風的魯棒的多聲道頻譜增強方法,該方法使用非負張量因子分解(Nonnegative Tensor Factorization,NTF)技術從一組不同通道的混響聲譜圖中識別出干凈的語音分量。胡玥[4]將寬帶頻域不變波束形成器和一種改進的相干梳狀濾波器結合起來增強遠距離語音信號。Uluskan 等人[5]提出基于音素類的特征適應(Phoneme-Class Based Feature Adaptation,PCBFA),使遠距離語音的音素類的分布近似于多維MFCC(Mel Frequency Cepstrum Coefficient)空間中的近距離聲學模型,從而提高了語音識別性能。張宇等人[6]提出基于注意力機制和多任務學習框架的長短時記憶(Long Short-Term Memory,LSTM)遞歸神經網絡聲學模型,顯著提升了模型對遠場語音的建模能力。
以上提到的三個層次的方法都有其弊端,如:基于麥克風陣列的噪聲抑制、盲源分離和波束形成的語音增強方法所用的麥克風陣列體積很大,設備成本較高;特征規整方法處理效果不如信號域理想,且過于復雜的處理算法影響系統的實時性;訓練帶有混響的語音數據得到的模型能比較精確地描述混響環境的特征,但所需數據量大,且在其他實驗中不適用,造成資源的大量浪費;非線性模型參數補償方法以及基于混響模型的補償方法,這幾種模型域的補償方法原理和具體實施方式各不相同,且各自的應用場合與方法復雜度也各不相同[7]。
聲學模型自適應技術是從非特定人(Speaker Independent,SI)模型開始,通過調整模型參數來適應當前語音特征,從而以少量的數據獲得類似于特定人(Speaker Dependent,SD)模型的更好的識別性能,很好地解決了在有些情況下得不到大量語音數據的問題,例如自動電話熱線。聲學模型自適應技術應用在很多語音領域,如口令識別[8]、跨性別語音識別[9]、維吾爾語語音識別[10]及不同發聲力度語音識別[11]。最大似然線性回歸(Maximum Likelihood Linear Regression,MLLR)和最大后驗概率(Maximum A Posteriori,MAP)是兩種經典的聲學模型自適應技術。Kumatani 等人[1]將MLLR 用在遠場語音中,尚未涉及到MAP。本文將兩種經典的聲學模型自適應技術MLLR、MAP用在遠場環境下,比較它們對帶噪帶混響的遠場語音識別的性能。

圖1 具有自適應技術的遠場連續語音識別系統
典型的連續語音識別系統框架通常由預處理和特征提取模塊、聲學模型模塊、語言模型模塊、語音解碼和搜索算法模塊幾部分組成,本文所研究的遠場連續語音識別系統框架如圖1[12]。
首先,對連續純凈語音進行加噪加混響處理,再將噪聲混響語音的一部分數據用來進行聲學模型自適應,另一部分用來測試,即所做實驗為開集實驗。用來進行自適應的語音經過MLLR 或MAP 自適應后,生成適合當前環境的新的HMM 聲學模型。測試用的語音經過預處理、MFCC特征提取、語音解碼和Viterbi搜索算法,再結合自適應后的HMM 聲學模型、N-gram 語言模型和字典,就可以得到語音識別結果。
MLLR是一種模型自適應技術,它可以從少量的適應數據中收集統計數據,用于計算線性回歸變換的平均向量,以最接近自適應數據,并且可以使用前向-后向算法來估計變換矩陣。該方法的一個重要特征是可以使用任意適應數據而不需要特殊的句子。利用這種轉換和數據共享,MLLR可以用少量的適應數據改進語音識別性能[13]。
MLLR的自適應流程圖如圖2所示。其中語音特征向量空間劃分中,如果僅有少量適應數據,則全局變換用于系統中的所有模型,如果有更多數據可用,則變換的數量增加,此時將會根據聲學模型的不同高斯分布分量的均值來進行聚類[10]。這樣就保證了即使沒有可用的模型特定數據,也可以調整所有模型狀態。用于估計變換參數的統計量是使用自適應數據的前向-后向對齊生成的。

圖2 MLLR流程圖

其中,R為狀態數,γsr(t)表示在時間t處占用狀態sr的概率,為狀態sr輸出高斯概率分布函數的協方差矩陣,ot為第t幀語音的特征矢量,為擴展均值向量,ω為偏移量,ω=1 表示回歸中包含偏
變換矩陣可以通過下式來獲得:移量,ω=0 表示忽略偏移量,Ws是n×(n+1)維的擴展變換矩陣。

如果式(2)的右側由元素為yij的n×(n+1)矩陣Y表示,則V(r)、Ws和D(r)的各個矩陣元素分別為和,則:

完全協方差對于捆綁矩陣中的估計公式沒有封閉形式,因此僅考慮對角協方差分布的情況,又由于D是對稱的,則:


如果式(2)的左側由元素為zij的n×(n+1)矩陣Z表示,則Z=Y并且

應當注意,zij和不依賴于,并且兩者都可以從觀察矢量和模型參數計算。因此,可以聯立如下方程組計算:

其中,wi和zi分別是Ws和Z的第i行。可以使用高斯消元法或LU分解法來解這些方程。由式(3)可得到。
估計出變換矩陣Ws后,再對聲學模型的參數進行變換。
自適應技術是減小語音識別系統與測試環境之間差異的一組有效方法[14]。
MAP 自適應方法基于貝葉斯決策理論,它將新的語音數據與原有模型相結合,獲得新的模型參數。給定觀測數據ο,MAP 方法將模型參數看作是一個隨機變量,引入模型參數的先驗分布,利用最大后驗概率準則對模型參數進行重估,即MAP 基于后驗概率最大化準則。MAP的目標函數為:

對應的模型參數為:

式中,P(λ)是模型參數的先驗分布,一般通過已有的SI模型的參數估計,此先驗項在參數估計過程中起約束作用,將自適應數據較少的聲學模型的參數限制在SI模型參數附近,從而保證自適應后的模型參數不會產生較大偏差。通過對MAP 的目標函數進行推導,得到均值的更新公式為:

式中,μk與分別表示第k個高斯自適應前后的均值向量,μk是從P(λ)中得到的先驗均值,τk是控制先驗權重的系數,γt(j,k)是t時刻的觀察矢量ot由狀態j中的第k個混合分量產生的概率,t表示自適應語音的幀數,N表示狀態數。從式(6)可以看出,MAP估計結果實際上是SI模型參數與SD模型參數的加權平均,加權系數隨著自適應數據的變化而變化。當自適應數據較少時,SI模型參數所占比重大,估計結果接近于SI模型參數;當自適應數據增多時,SD 模型參數所占比重增大,估計結果向SD 模型參數靠近,從而使系統性能提高。理論上當自適應數據趨于無窮時,MAP 估計得到的模型與用充分語料采用最大似然估計得到的模型相等價,因此MAP算法具有理論上的漸進性,即適應數據越多,MAP得到的聲學模型越好。
4.1.1 MLLR、MAP仿真實驗
本文所用語音為CMU ARCTIC 語料庫中bdl 組語音,它是男性標準口音連續英語語音,識別引擎為CMU輕量級語音識別器pocketsphinx,其中采樣頻率為16 kHz,聲學特征包括13 維的MFCC 以及它們的一階二階差分,預加重系數設置為0.97,采用漢明窗進行分幀,幀長為25 ms,幀移為10 ms,測試語料是與自適應語句不同的25 句語音。本實驗用IMAGE 模型生成房間脈沖響應,來模擬遠場噪聲混響環境,聲源到單麥克風距離設置為2.29 m[15-16],混響環境設置為墻壁6個面的反射系數都為0.6,不同噪聲環境下語音識別詞錯率(Word Error Rate,WER)結果如表1~表3所示。
當SNR為15 dB時,經過不同方法進行聲學模型自適應后,遠場語音識別的WER 如表1 所示。由表中數據可得,在所有的自適應句數中,MAP 自適應算法的WER都是最小的,且其所有WER都小于自適應句數為0(未自適應)時的情況;MLLR 自適應算法的WER 在各種自適應句數下都是最大的,主要原因可能是語音數據在劃分特征空間時比較粗糙。說明在各個墻壁反射系數為 0.6,SNR 為 15 dB 這種遠場條件下,MLLR 自適應方法不適用,而MAP 自適應方法得到了最好的聲學模型和最好的語音識別性能。

表1 SNR為15 dB時兩種自適應方法的語音識別WER

表2 SNR為10 dB時兩種自適應方法的語音識別WER

表3 SNR為5 dB時兩種自適應方法的語音識別WER
表2和表3分別列出了SNR為10 dB和5 dB時不同自適應方法的語音識別結果。同SNR 為15 dB 時的結果相同,MAP 自適應效果優于MLLR,這就說明,在遠場噪聲混響環境中不論是在大噪聲還是小噪聲的情況下,MAP方法都適用,且在兩種方法中效果最好。
圖3 顯示了每種算法在各自適應句數下的平均WER。由圖可得,不論是否進行自適應,SNR 越小,WER 越大。在 SNR 分別為 15 dB、10 dB、5 dB 時,MAP算法的平均詞錯率分別為6.75%、40.34%、93.00%,比未自適應時分別降低了2.95%、12.82%、1.51%,而MLLR算法的平均詞錯率都比未自適應時高,說明MAP 能很好地適應遠場噪聲混響環境,而MLLR 不適用,且只有在SNR適中的時候,MAP才有最好的自適應效果。

圖3 不同SNR下兩種算法在各自適應句數下的平均WER
4.1.2 MAP真實實驗
為了評估MAP 算法在真實環境下的可行性,在一個小型會議室中采集了語音。其中房間大小為7 m×6 m×4 m,房間內擺放的沙發、桌椅以及墻壁造成了一定的混響,語音采集過程中還存在電腦運轉以及房間外人員走動等噪聲。采集卡為SKC 公司的USB 數據采集卡Q801,這是一款基于USB 總線的高性能多功能數據采集卡,其采樣頻率為8 kHz,具有8路單端16位高速同步模擬信號采集功能。所用麥克風為MP40傳聲器,是1/4英寸預極化自由場測量傳聲器,無需極化電壓,是一款與前置放大器不可分離的產品,具有靈敏度高、穩定性好、可靠性高等特點。語音采集設備如圖4所示。

圖4 真實環境下的語音采集系統
所錄制語音及其余參數同4.1.1 小節,真實環境下語音識別WER如表4所示。

表4 真實環境下MAP自適應語音識別WER
由表4可以看出,真實環境下錄制的噪聲混響語音識別WER為94.09%,經過MAP自適應后,WER都有所下降,當自適應句數為10 句時,語音識別WER 已經下降了11.81%,自適應句數為100時,WER下降幅度達到了37.13%,說明在真實的噪聲混響環境下,MAP有良好的自適應性能。
4.1.3 仿真實驗和真實實驗結果對比
上述實驗表明,在噪聲混響條件下,MAP在模擬環境和真實環境下都能有效提高遠場語音識別性能。在信噪比分別為15 dB、10 dB、5 dB 的仿真環境下,MAP使WER最多降低了3.06%、21.09%、2.10%;而在真實環境下,MAP使WER最多降低了37.13%。造成這種結果的主要原因是仿真環境所加噪聲和真實環境下不完全相同,本實驗所加噪聲為高斯白噪聲[4]。
在4.1.1小節實驗中已經證實了在遠場噪聲混響環境下,兩種自適應方法中MAP 有最好的聲學模型自適應性能,因此本實驗采用MAP 自適應算法,來驗證MAP的漸進性。其噪聲大小如表4所示,所用語料庫為CMU ARCTIC下的bdl分組,總共包括1 132句語音,因此本實驗自適應句數最大選擇到1 000 句,測試語句為與自適應語句不同的132 句語音。其余實驗條件同4.1節實驗。從10句到1 000句,各種不同自適應句數進行聲學模型自適應后語音識別實驗結果如表5所示。

表5 不同自適應句數和SNR下MAP自適應后語音識別WER
表5 中Ave 表示每種自適應句數下三種SNR 的平均WER。從表5 可以看出,同一種自適應語句數下,SNR 越大,語音識別WER 越小;對于同一種SNR,隨著自適應句數的增多,識別WER雖然不是絕對地降低,但是有降低的趨勢,且從Ave結果來看,自適應句數越多,識別的WER越小,即MAP有良好的漸進性。在自適應句數為1 000 句時,經過自適應后的語音識別率比自適應前平均提高12.50%。
本文在遠場噪聲混響環境下比較了MLLR和MAP兩種自適應方法進行聲學模型自適應后的語音識別性能。實驗結果表明,在房間反射系數為0.6 時各種噪聲環境下MLLR 自適應效果很差,MAP 因引入了模型參數的先驗信息自適應效果較好。本文還驗證了MAP良好的漸進性及其在真實環境下的適用性。
本文所做自適應實驗沒有對語音進行增強處理,將遠場語音增強和聲學模型自適應結合起來進行語音識別是接下來要研究的主要內容。