999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

噪聲魯棒語音識別研究綜述

2009-01-01 00:00:00雷建軍
計算機應用研究 2009年4期

(1. 天津大學 電子信息工程學院, 天津 300072; 2. 北京工業大學 計算機學院, 北京 100124; 3. 北京郵電大學 信息工程學院, 北京 100876)

摘 要:

針對噪聲環境下的語音識別問題,對現有的噪聲魯棒語音識別技術進行討論,闡述了噪聲魯棒語音識別研究的主要問題,并根據語音識別系統的構成將噪聲魯棒語音識別技術按照信號空間、特征空間和模型空間進行分類總結,分析了各種魯棒語音識別技術的特點、實現,以及在語音識別中的應用。最后展望了進一步的研究方向。

關鍵詞:魯棒語音識別; 語音增強; 特征補償; 模型補償

中圖分類號:TN912文獻標志碼:A

文章編號:10013695(2009)04121007

Review of noise robust speech recognition

LEI Jianjun1, YANG Zhen2, LIU Gang3, GUO Jun3

(1. School of Electronic Information Engineering, Tianjin University, Tianjin 300072, China; 2. College of Computer Science, Beijing University of Technology, Beijing 100124, China; 3. School of Information Engineering, Beijing University of Posts Telecommunications, Beijing 100876, China)

Abstract:

According to the problems of speech recognition in adverse acoustical environments, this paper reviewed the state of the art of robust speech recognition, and expounded the main problems of noise robust speech recognition. Based on the structure of speech recognition system, classified and summarized robust speech recognition technologies into the signalspace, featurespace and modelspace technologies, and outlined the main ideas of the approaches. Finally, pointed out the problems to be further studied and the trends of developments in this field.

Key words:robust speech recognition; speech enhancement; feature compensation; model compensation

0 引言

近年來,伴隨著語音識別技術的不斷發展,語音識別系統的性能不斷提高,純凈語音條件下識別系統取得了較高的識別率。然而,大多數語音識別系統應用于實際噪聲環境時,系統性能會大大下降。大量實驗表明,如果大多數現有的非特定人語音識別系統,使用不同于訓練所處的環境或使用不同于訓練時使用的麥克風,性能都會嚴重下降。而對于馬路、餐館、商場、汽車、飛機等環境中的語音信號來說,現有語音識別系統的魯棒性更差。語音識別的噪聲魯棒性是指在輸入語音質量退化,語音的音素特性、分割特性或聲學特性在訓練和測試環境中不同時,語音識別系統仍然保持較高識別率的性質。

基于統計模型的語音識別系統中,訓練的數據必須具有充分的代表性。然而,當識別系統應用于噪聲環境時,純凈的訓練數據與被噪聲污染的測試數據之間存在著不匹配,識別系統在噪聲環境下的性能下降主要歸因于這種不匹配。噪聲魯棒語音識別的研究目標就是消除或減少這種不匹配的影響,使識別系統的性能盡量接近匹配條件下的性能。由噪聲引起的訓練和測試的不匹配可以從信號空間、特征空間和模型空間三個層次來分析[1]。圖1描述了語音識別中訓練和測試時信號空間、特征空間和模型空間存在的不匹配。其中,S表示訓練環境下的語音數據;X表示從訓練環境下的語音數據中提取的特征; ΛX表示根據訓練數據得到的語音模型;T、Y、ΛY分別表示測試環境下的語音、特征和語音模型。當訓練與測試環境不匹配時,噪聲使T、Y、 ΛY發生失真,從S、X、ΛX到T、Y、ΛY的失真函數分別用 D1(#8226;)、D2(#8226;)、D3(#8226;)來表示。各種噪聲魯棒語音識別技術正是從信號空間、特征空間和模型空間三個層次來消除由于訓練環境和測試環境不同所帶來的影響。

1 信號空間魯棒語音識別技術

信號空間魯棒語音識別技術關注對原始語音信號的處理,主要包括語音增強和語音激活檢測等。

1.1 語音增強

語音增強是信號空間魯棒語音識別技術中重要的技術之一,多年來一直受到廣泛的關注,尤其是在單話筒采集條件下如何消除背景噪聲的影響更是許多人研究的課題。語音增強的目的是從含噪語音中提取盡可能純凈的原始語音信號[2]。因為噪聲來源很多,特性各不相同,而語音增強處理系統的應用場合又千差萬別[3],所以不存在一種可以通用于各種噪聲環境的語音增強算法。實際應用時需針對不同的噪聲采取特定的語音增強算法,從處理方法上分類,語音增強算法大體上可以分為基于語音周期性的增強算法[4]、基于全極點模型的增強算法[5,6]、基于短時譜估計的增強算法、基于信號子空間的增強算法[7]和基于HMM的增強算法[8]等。從目前的發展上看,語音增強最常用的方法是基于短時譜估計的方法,主要包括:

a)譜減法。該方法及其改進算法總體上看運算量較小,易于實時實現,增強效果也較好,是目前常用的一類方法。Boll[9]假設噪聲是平穩的或變化緩慢的加性噪聲,并在語音信號與噪聲信號不相關的情況下,從帶噪語音的功率譜中減去噪聲功率譜,從而得到較為純凈的語音頻譜,建立了譜減法(spectral subtraction,SS)。Berouti等人[10]在傳統譜減法的基礎上增加了調節噪聲功率大小的系數和增強語音功率譜的最小值限制,提高了譜減法的性能。Lockwood等人[11]在譜減法的基礎上提出了非線性譜減法(nonlinear spectral subtraction,NSS),它根據語音信號的信噪比自適應調整語音增強的增益系數,提高了語音的信噪比。Virag[12]將人耳的掩蔽效應應用到非線性譜減法語音增強算法中,部分解決了譜減法殘留音樂噪聲大的問題。

b)Wiener濾波。它是一種比較傳統的算法。采用Wiener濾波的好處是增強后的殘留噪聲類似于白噪聲,幾乎沒有音樂噪聲的殘留[13],可以看做時域波形的最小均方誤差估計。歐洲電信標準化協會(ETSI)于2002年10月發布了分布式語音識別的基于兩級維納濾波算法的噪聲魯棒性算法[14,15]。該算法應用Mel域三角濾波器組將維納濾波系數轉換到與語音感知相關的Mel域,然后在時域對語音信號進行濾波,并采用兩次維納濾波來實現噪聲的消除,使得殘余噪聲較小,且信號各幀之間有較好的連續性,在噪聲魯棒語音識別應用中取得了較好的性能。

c)最小均方誤差估計。Ephraim等人[16]對最小均方誤差(MMSE)估計進行了詳盡的描述和改進,并通過實驗驗證了相應的一些改進算法,如最小均方誤差對數譜幅度(MMSELSA)估計[17]。目前,對非平穩環境下的語音增強算法研究還較少。Cohen等人[18]首先估計語音信號概率密度分布函數,然后在此基礎上改進了對數譜幅度估計算法,使得改進的算法對非平穩的噪聲具有良好的抑制作用。該算法的缺點是語音信號的概率密度函數較難估計。

國內外的許多學者對語音增強算法進行了研究,在平穩的聲學環境及信噪比較高的情況下,語音增強得到了較好的效果。但是在低信噪比以及非平穩的噪聲環境下,含噪語音信號的增強仍然是一項非常有挑戰性的工作。

1.2 語音激活檢測

語音激活檢測的目的在于從數字語音信號中區分出語音信號和非語音信號。在語音識別時通過語音激活檢測準確的區分出語音信號和非語音信號,對于提高語音識別率、節省處理時間是非常重要的。在早期的基于實驗室背景的孤立詞識別系統中,采用基于能量和過零率的方法可以準確地區分語音信號和噪聲。但現實中的語音常常被較大的環境噪聲所污染。在這種情況下,上面的方法性能開始惡化,甚至無法區分語音和噪聲。在傳統的基于短時能量和短時過零率的語音激活檢測算法的基礎上,針對不同的應用需求,研究者提出了諸多語音激活檢測的改進算法,包括基于基頻、譜熵、倒譜特征、高階統計量、似然比測試等方法。另外,文獻[19,20]中還研究了如何確定綜合規則,綜合多種方法的檢測結果,以提高系統檢測性能。

1)基于基頻的方法 基頻是一個重要的代表語音生成模型的激勵源周期性的參數[21],它表示語音信號的韻律信息。由于濁音有明顯的周期性,可以通過檢測濁音來檢測語音信號的端點。計算基頻的方法很多,常用的是短時自相關法和短時平均幅度差函數法。實驗結果證明,在安靜的背景下,這種方法有較高的準確度;但是隨著信噪比的降低,性能下降很大,而且在某些噪聲環境下很難準確提取基頻參數,因此不能解決這種噪聲環境下的檢測問題。

2)基于譜熵的方法 廣泛應用于編碼理論的信息熵代表信源的平均不確定性,語音的熵必定與噪聲的熵存在較大差異。基于譜熵的方法[22]首先計算每幀信號的FFT系數,然后將每個頻率點的頻譜能量除以所有頻帶的能量總和的值作為概率密度函數。通過計算信息熵的公式得到譜熵。譜熵的方法較能量方法在低信噪比和非平穩噪聲下,尤其是機器噪聲環境下更為有效。但是譜熵不能解決babble 噪聲和音樂噪聲背景下的檢測,因為babble 噪聲和音樂噪聲的譜熵與語音近似。結合能量和譜熵兩種特征的方法[23],以能量彌補譜熵在babble 噪聲和音樂噪聲背景下的不足,檢測準確度較能量方法有顯著提高。在基于譜熵的方法中引入正常數K,改變原有的頻譜概率密度函數計算形式 [24,25],使得檢測門限更加易于優化和確定,算法更加準確實用。

3)基于倒譜特征的方法 由于倒譜特征參數比短時能量等其他參數對語音環境的適應力強,可以利用語音信號的倒譜特征作為判決抽樣信號幀是否為語音信號的依據,并使用倒譜距離測量法或循環神經網絡法[26]完成對語音信號的檢測。

4)基于高階統計量的方法 由于高階統計量本身具有的對高斯信號的抑制和相位保持的特性,使得高階統計量被用于語音信號的處理中[27]。實驗證明,基于高階統計量的方法優于ITU 的G.729B[28] 的性能,但在周期型噪聲環境下性能有所下降,原因是這種噪聲有非零的高階統計量。

5)基于似然比測試的方法 基于似然比測試的語音激活檢測算法[29,30]基于假設檢驗理論,引入對噪聲的降噪處理,表現出較好的噪聲魯棒性。基于平滑LRT的檢測算法[31]引入平滑參數,對基于LRT的方法進行改進,得到更加平穩的似然比。基于多觀測的LRT檢測算法[32,33]利用多個觀測矢量進行判決,改進了LRT算法的性能。基于多統計模型的LRT算法[34]采用多個分布對語音進行建模并在線選擇模型,提高了LRT算法的適用范圍,改進了系統性能。

如何在噪聲環境下準確地區分出語音信號和噪聲至今仍是一個難題,目前已有的算法能夠適用于一定的應用環境,但是在強背景噪聲下,已有算法仍無法準確地區分出語音信號和噪聲。

2 特征空間魯棒語音識別技術

特征空間魯棒語音識別技術力求在特征空間減小訓練和測試的不匹配所帶來的影響,包括魯棒特征提取、特征補償和特征規整等。

2.1 魯棒特征提取

魯棒特征提取主要研究噪聲對語音的影響,試圖找出抗噪能力強的特征參數。這類技術的優點是對于噪聲的假設很弱,所以適用于大多數噪聲環境;缺點是不能充分地利用特定噪聲的性質。基于人耳聽覺特性的魯棒特征提取方法,通過對人耳聽覺系統的仿真和研究,獲得符合人耳聽覺特性的語音特征表示,取得了較好的效果。當今,很多基于人耳聽覺的特征提取方法,如MFCC、PLP已經成為主流的魯棒性特征提取方法[35]。由于PLP特征的提取是基于語音短時譜,易受傳輸信道的影響。RASTAPLP可用來抑制這種線性譜失真。實驗表明這種特征能夠有效降低錯誤率[36]。線性鑒別分析(linear discriminant analysis,LDA)也被引入到語音特征提取中[37]。LDA通過線性變換一方面可以最小化類內差距、最大化類間差距;另一方面可以降低特征的維數,在保證系統識別性能的基礎上,提高特征的環境魯棒性。

2.2 特征補償

特征補償通過對訓練與測試環境之間差異的研究,在特征空間中修改測試語音的特征,使得修改后的測試語音特征能夠更加接近訓練語音特征。特征補償可以分為如下兩大類方法[38]:

a)基于數據驅動的特征補償。該方法事先需要stereo數據庫,即同時在訓練環境和多個具有代表性的測試環境下錄制相同內容的多套語音庫,并對訓練環境與這些測試環境的每一幀語音倒譜特征作比較,將差值存儲起來。當系統應用到實際測試環境中,找出差值,對實際測試環境進行補償。這樣的補償常常只適合于對應的噪聲環境,測試環境變化會導致補償效果不佳,具有較大的局限性。補償方法主要有SDCN、FCDCN、PDCN、RATZ和SPLICE等[39,40]。SDCN(SNRdependent cepstral normalization)事先將測試環境的每一幀語音按照瞬時信噪比的不同分成多個子集,然后在特定信噪比下計算測試環境與訓練環境特征參數之間的平均差值。測試環境中,首先估計出瞬時SNR,然后根據瞬時SNR將平均差值加入到含噪語音倒譜特征中,得到純凈語音特征估計值。FCDCN(fixed codeworddependent cepstral normalization)[41]對差值作進一步細化,在特定信噪比下,將測試環境與訓練環境特征之間的差值用VQ聚類量化得到碼本,這樣不同的SNR對應一套碼本,因此在實際應用中可調入相應的碼本。PDCN(phonedependent cepstral normalization)[42]原理上與SDCN、FCDCN相似,事先需要確定每個聲學單元的補償矢量。當系統應用于實際環境中,先利用解碼器解碼獲取假定的聲學單元序列,并提取給定的補償矢量補償實際環境。RATZ對純凈語音的倒譜矢量分布建立更為精確的高斯混合模型。在補償前計算出每個混合分量所對應的均值和方差的校正項。補償時,根據含噪語音得到不同混合分量的后驗概率,從而在最小均方誤差意義下計算出純凈語音特征的估計值。SPLICE(stereobased piecewise linear compensation for environments)[43]是在FCDCN基礎上發展起來的,不同的是它對含噪語音的倒譜矢量建立高斯混合模型,并利用stereo數據得到對應的每個混合分量的校正項。識別階段根據含噪語音選擇最優的混合分量,從而由該分量的校正項計算得到純凈語音特征的估計值。

b)基于統計模型的特征補償。該方法將語音描述為參數化的統計模型,根據環境模型和最優準則估計純凈語音特征值,不需要特定環境下錄制的stereo數據,因此具有廣泛的適用性,成為當前特征補償研究的主流。補償方法主要有VTS、VPS和SLA等[44]。Moreno等人[45]采用VTS(vector Taylor series)方法補償噪聲環境對語音識別系統性能的影響。該方法假設純凈語音和噪聲分別服從高斯混合模型(Gaussian mixture model,GMM)和單一高斯分布,利用矢量泰勒級數展開方法對非線性環境模型進行線性化,保證含噪語音也服從GMM分布。在給定測試環境下的含噪語音序列和假設環境為平穩的基礎上,利用基于最大似然的批處理EM算法估計噪聲統計量,然后根據MMSE準則估計出純凈語音特征。在用VTS方法線性化的過程中,高階項的忽略會帶來一定的誤差。VPS(vector polynomial series)[46]采用了更為一般的函數即分段三次函數去逼近非線性函數;SLA(statistical linear approximation)[47]采用了統計線性近似方法去逼近非線性函數。在一些噪聲環境下,噪聲明顯與語音相關,因此采用簡單的環境模型無法刻畫復雜的環境。Deng等人[48]采用基于相位敏感性的環境模型描述噪聲對語音干擾的過程,將噪聲和語音信號的相關性進行了細致的分析研究。近年來,基于統計模型的特征補償方法不斷發展,針對非平穩噪聲環境下的環境參數估計問題,提出了一些使用序列EM算法的補償方法[49,50],在非平穩噪聲環境下取得了較好的效果。

2.3 特征規整

為了減小訓練環境與測試環境之間不匹配的程度,可以對訓練或者測試的語音特征進行某種變換,以使得它們的概率分布盡量接近,從而減小訓練和測試的不匹配程度。特征規整也稱為特征歸一化、特征后處理等,是指在提取特征后,通過對特征的歸一化等處理,進一步降低訓練語音特征與測試語音特征之間的不匹配,提高識別系統的噪聲魯棒性。可以通過使得兩者的概率密度函數的積分——累積分布函數匹配[51]來做到這一點。根據這個原理,變換函數可以由數據的累積分布函數獲得。設參數變換函數為 x=T[y]。其中:y是規整前的特征參數;x是規整后的特征參數。設 x的累積分布函數為CX(x), y的累積分布函數是CY(y),則參數變換函數應該使得

CY(y)=CX(x)

由此可以得到

x=T[y]=C-1X(CY(y))

實際應用中,為了算法實現的方便,經常把訓練和測試的數據概率分布都變換到同一個事先給定的標準分布。這一過程即實現了對特征參數的規整。

特征規整算法主要包括倒譜均值歸一化(cepstrum mean normalization,CMN)、倒譜方差歸一化(cepstrum variance normalization,CVN)、倒譜均值、方差歸一化(meanvariance normalization,MVN)、倒譜直方圖均衡(cepstral histogram equalization,HEQ)、MVA(meanvariance normalization,ARMA filter)特征規整等。CMN方法[52]是特征規整算法的一個典型代表,它通過歸一化處理,使得處理后倒譜特征的均值為0,一般只能用來補償信道畸變的影響,這是它的局限。CVN通過歸一化處理,使得倒譜特征的方差為1,它通常與CMN同時使用,構成了MVN方法[53]。MVN方法同時歸一化特征矢量的均值和方差,因而對加性噪聲也有一定的效果。HEQ [54]是一種利用特征參數的累積直方圖的規整算法,它提供一個變換將含噪語音概率密度分布轉換為純凈語音的標準參考概率密度分布(一般均值為0,方差為1),取得了比MVN更好的結果。此外也有人將直方圖均衡方法進一步發展,提出了基于分位數的直方圖均衡方法[55] 。這種方法只用少量的數據便可獲得數據分布的累積直方圖,或者將直方圖均衡與其他方法(如譜減法[56] 、VTS[57] 等)結合起來,綜合提高系統性能。MVA[58,59]在歸一化特征矢量的均值和方差之后,采用ARMA 濾波對特征進一步進行平滑處理,提高了特征的噪聲魯棒性。將MVA用于不同語音特征的規整實驗[60]表明,MVA算法在多種特征后端都取得了較好的效果。

3 模型空間魯棒語音識別技術

模型空間魯棒語音識別技術改變訓練模型的參數以適應測試語音,包括模型補償和自適應技術等。

3.1 模型補償

模型補償通過對訓練與測試環境之間差異的研究,在模型空間通過調整純凈語音模型參數來適應含噪的測試語音。常用的模型補償方法有PMC(parallel model combination)、Jacobian自適應和VTS方法等。PMC[61,62]將純凈語音模型和噪聲模型組合,產生與噪聲環境匹配的含噪語音模型。常規的PMC中,對純凈語音和噪聲分別建立各自的HMM模型,然后將它們的參數轉換到對數頻譜域和線性頻譜域中。倒譜域中高斯分布的矢量在線性譜域中為LogNormal分布。對于加性噪聲,可以假設兩個LogNormal分布的變量之和也是LogNormal分布。根據這個假設,只需估計含噪語音數據在對數頻譜域的均值和方差,然后經過適當的逆變換即可得到含噪語音在倒譜域的分布。PMC 的優點在于純凈語音模型和噪聲模型是獨立并行的,單獨的噪聲模型可以處理很多非穩態噪聲情形,同時當背景噪聲發生變化時,無須獲得含噪語音數據,僅僅對背景噪聲進行重估即可;缺點是當噪聲很復雜時,噪聲模型的狀態會變多,由此帶來的運算量會非常大,并且這種方法很難直接用于動態倒譜參數的補償。文獻[63]討論了把動態倒譜參數引入到PMC的情況,將靜態參數的連續時間導數作為動態參數以推導補償的形式。VTS[64,65]在對數頻譜域或倒譜域中采用有限長泰勒級數展開來近似計算含噪語音模型的參數。VTS的計算量取決于泰勒級數的長度和模型參數的維數,增加泰勒級數的長度可以取得更精確的結果,但計算量也會相應增加。實驗表明,VTS要比PMC方法中的LogNormal分布近似精確,大多情況下VTS方法的性能優于PMC方法。Jacobian自適應[66]假設純凈語音受加性噪聲的干擾,含噪語音的特征可以看成純凈語音特征和噪聲特征的二元函數,后者的變化可以通過Jacobian行列式以反映含噪語音特征的變化。因此對于模型參數來說,含噪語音對應的模型參數就可以用噪聲模型的均值和方差通過Jacobian行列式轉換得到。Jacobian自適應可以看做一個簡化的VTS算法,適合模型參數的快速調整,有著與PMC接近的性能。

3.2 自適應技術

傳統的說話人自適應技術同樣可以用于噪聲環境下的模型自適應。自適應技術可以利用針對使用環境的一些自適應數據對純凈語音模型參數進行更新,使得系統在該使用環境中的識別性能顯著提高。目前自適應技術主要分成兩大類[67],即基于變換的方法和基于最大后驗概率(maximum a posteriori,MAP)的方法。前者估計非特定模型與被適應模型之間的變換關系,對非特定模型作變換,減少非特定模型與被適應環境之間的差異;后者是基于后驗概率的最大化,利用貝葉斯學習理論,將非特定模型的先驗信息與被適應環境的信息相結合實現自適應。還可以將兩類方法結合起來,充分發揮各自的優點。

1)基于變換的方法 目前常用的基于變換的方法主要是MLLR(maximum likelihood linear regression)[68,69]。HMM 模型中最重要的參數是混合高斯的均值和方差,MLLR的思想就是通過一組線性回歸變換函數對均值和方差進行變換,使得自適應數據的似然值能最大化。由于變換函數的參數只需較少的數據就可以估計出來,能有效地實現快速自適應。MLLR 應用最廣泛的場合是將一個新的說話人或者新的環境加入到現有的模型中。一般來說,MLLR自適應的速度要比MAP 快,而且在數據量較少時,MLLR要好于MAP,但隨著數據增多,MAP 會表現出一定的優勢。

2)基于MAP的方法 基于MAP的自適應算法[70,71]采用基于最大后驗概率準則,具有理論上的最優性,它僅對自適應語音數據出現過的語音模型進行更新,而對未出現過的語音模型不能作自適應調整。MAP的一個明顯優點是能夠解決數據稀少的問題,因為它能夠很好地利用模型的先驗信息。對于有限的訓練數據,MAP 在模型先驗概率的輔助下調整模型參數。一般來說,在這種情況下,模型參數不會發生大的變化,除非這些訓練數據提供了強有力的證據。MAP其實可以看做最大似然的結果和先驗知識的一個加權平均,反映了先驗知識與訓練數據之間的相互平衡。MAP的缺點在于實際中一般難以得到精確的先驗知識,而且只有在自適應數據中能觀測到的模型參數才會被調整。當自適應數據非常多時,MAP估計會非常接近最大似然估計,因為此時先驗知識的影響已經很小了。

4 其他技術

4.1 區分性訓練技術

傳統聲學模型訓練采用基于最大似然準則(maximum likelihood estimate,MLE)的訓練方法[72],算法比較成熟,語音訓練時有快速算法;但MLE只使用與被訓練模型相關的數據,忽略了模型之間的相互區分性,因此這種方法并不一定能夠獲得最佳的分類性能,而且對于噪聲環境中的語音信號來說,其分布有可能與高斯分布的假設相差較遠。為了提高聲學模型在噪聲環境的魯棒性,可采用區分性訓練方法,如基于最大互信息(maximum mutual information estimation,MMIE)[73]、基于最小分類誤差準則(minimum classification error,MCE)[74]、基于最小音素錯誤率(minimum phone error,MPE)[75]等。其中,MMIE通過最大化所有句子的期望辨識率來優化模型參數;MCE通過直接最小化損失函數來達到最小化分類錯誤的目標;MPE最大化所有句子的期望辨識率,強調音素層次的正確率,借著最大化所有可能語句的音素正確率,達到最大化所有句子辨識率的效果。

4.2 采用含噪語音進行模型訓練

造成語音識別系統在噪聲環境中性能下降的根本原因是在純凈環境中訓練的語音模型與噪聲環境中語音的統計特性不匹配。為了減少這種不匹配,一種解決方法是將實際環境的噪聲疊加到訓練語音數據中,用含噪的語音數據來訓練語音模型。如果已知測試噪聲環境,采用測試環境下的含噪語音數據進行訓練可以取得較好的效果。文獻[76]中采用了多種噪聲數據訓練方法,實驗表明,語音識別系統的性能得到明顯的改善。采用含噪語音直接進行訓練,在小詞表的情況下效果比較理想,但對于大詞匯量連續語音識別效果有限。因為在大詞匯的情況下,很多語音單元本身比較接近,被噪聲污染后,這些語音單元的特征會發生變化,導致不同語音單元之間的區分度下降,影響系統的識別性能;而且訓練和測試噪聲類型、噪聲水平的匹配情況將直接影響識別系統的性能,在無法預知實際應用環境的情況下,為了構造包容不同噪聲類型、噪聲水平的聲學模型,訓練數據就需要包含不同類型、不同信噪比的噪聲數據。

5 結束語

本文對多年來噪聲魯棒語音識別技術進行了綜合闡述,并根據語音識別系統的基本框架及訓練和測試的不匹配層次,將噪聲魯棒語音識別技術按照信號空間、特征空間和模型空間的魯棒語音識別技術進行了分類總結,詳細討論了各種魯棒語音識別技術的特點、實現以及在語音識別中的應用。可以看到,盡管人們已經提出了多種噪聲魯棒語音識別技術,但噪聲環境下的語音識別性能還遠遠沒有達到實用的要求,特別是在低信噪比、非平穩噪聲環境下,如何提高系統的識別率以及如何針對不同環境利用不同的魯棒性方法仍需要進一步研究。近幾年噪聲魯棒語音識別技術發展迅速,根據目前發展的現狀,需要進一步研究的工作主要包括以下幾個方面:

a)現有方法主要針對加性噪聲進行研究,利用加性噪聲模型實現語音模型和特征參數的建模。實際環境往往是非常復雜的,語音識別系統除了要考慮加性噪聲的影響外,還需考慮卷積噪聲的影響。

b)噪聲魯棒語音識別研究中,對噪聲的性能研究是至關重要的,現有的研究工作主要針對平穩噪聲,而對非平穩噪聲考慮不多。應針對非平穩噪聲環境,研究相應的噪聲估計算法及魯棒語音識別技術,以提高語音識別系統的實用性。

c)現有方法主要研究語音與噪聲不相關的情況,而有些噪聲與語音信號是相關的,例如在一些會議場所,語音信號會沿著墻壁的不同路徑反射,產生很多與語音信號相關的干擾噪聲,因此有必要考慮信號之間的相關信息。

d)信號空間和特征空間的魯棒語音識別技術與識別系統的詞匯量無關,無須對識別軟件進行自適應,具有廣泛的適用性。模型補償更接近識別核,能夠取得較好的效果,因此應考慮對語音增強、特征補償、模型補償結合算法的研究,通過對多空間算法的有效結合以綜合提高識別系統的噪聲魯棒性,特別是低信噪比情況下的識別性能。

e)語音識別面臨的一個重要挑戰是對真實口語語音的識別,這一任務有一些區別于朗讀式連續語音識別任務的問題。因為在真實的口語環境下,詞匯不受約束、語音是自然的、有重疊、使用的是不明顯的麥克風設備,這都對語音識別的魯棒性產生了更高的要求,需要研究更具魯棒性的語音識別技術。

參考文獻:

[1]SANKAR A, LEE C H. A maximumlikelihood approach to stochastic matching for robust speech recognition[J]. IEEE Trans on Speech and Audio Processing, 1996, 4(3):190202.

[2]EPHRAIM Y, LEVARI H, ROBERTS W J J. A brief survey of speech enhancement[K]//The electronic handbook.[S.l.]: CRC Press, 2005.

[3]EPHRAIM Y, COHEN I. Recent advancements in speech enhancement[K]//The electrical engineering handbook.[S.l.]: CRC Press, 2006.

[4]MALAH D, COX R. A generalized comb filtering technique for speech enhancement[C]//Proc of ICASSP. 1982:160163.

[5]LIM J S, OPPENHEIM A V. Allpole modeling of degraded speech[J]. IEEE Trans on Acoustics, Speech and Signal Processing, 1978, 26(3):179210.

[6]PELLOM B L, HANSEM J H L. An improved (Auto:I, LSP:T) constrained iterative speech enhancement for colored noise environments[J]. IEEE Trans on Speech and Audio Processing, 1998, 6(6): 573579.

[7]EPHRAIM Y, TREES H L van. A signal subspace approach for speech enhancement[J]. IEEE Trans on Speech and Audio Processing, 1995, 3(7): 251266.

[8]EPHRAIM Y. A Bayesian estimation approach for speech enhancement using hidden Markov models[J]. IEEE Trans on Signal Processing, 1992, 40(4): 725735.

[9] BOLL S F. Suppression of acoustic noise in speech using spectral subtraction[J]. IEEE Trans on Acoustics, Speech, and Signal Processing, 1979, 27(2): 113120.

[10]BEROUTI M, SCHWARTZ R, MAKHOUL J. Enhancement of speech corrupted by acoustic noise[C]// Proc of ICASSP. Washington DC:[s.n.], 1979:208211.

[11]LOCKWOOD P, BOUDY J. Experiments with a nonlinear spectral subtractor (NSS), hidden Markov models and the projection, for robust recognition in cars[J]. Speech Communication,1992,11(23): 215228.

[12]VIRAG N. Single channel speech enhancement based on masking properties of human auditory system[J]. IEEE Trans on Speech and Audio Processing, 1999, 7(2): 126137.

[13]LIM J S, OPPENHEIM A V. Enhancement and bandwidth compression of noisy speech[J]. Proceedings of the IEEE, 1979, 67(12): 15861604.

[14]AGARWAL A, CHENG Yanming. Twostage Melwarped wiener filter for robust speech recognition[C]//Proc of International Workshop on Automatic Speech Recognition and Understanding. 1999:6770.

[15]ETSI. ETSI ES 202 050 V1.1.1, Speech processing, transmission and quality aspects (STQ); distributed speech recognition; advance frontend feature extraction algorithm; compression algorithms[S]. 2002.

[16]EPHRAIM Y, MALAH D. Speech enhancement using a minimum mean square error short time spectral amplitude estimator[J]. IEEE Trans on Acoustics, Speech, Signal Processing, 1984, 32(6): 11091121.

[17]EPHRAIM Y, MALAH D. Speech enhancement using a minimum mean square error logspectral amplitude estimator[J]. IEEE Trans on Acoustics, Speech, Signal Processing, 1985, 33(2): 443445.

[18]COHEN I, BERDUGO B. Speech enhancement for nonstationary noise environments[J]. Signal Processing, 2001, 81(11): 24032418.

[19]SHIN W H, LEE B S, LEE Y H, et al. Speech/nonspeech classification using multiple features for robust endpoint detection[C]// Proc of ICASSP. 2000:13991402.

[20]YUSKE K, TATSUYA K. Voice activity detection based on optimal weighted combination of multiple features[C]//Proc of Inter Speech. 2005:26212624.

[21]CHENGALVARAYAN R. Robust energy normalization using speech/nonspeech discriminator for German connected digit recognition[C]// Proc of Eurospeech. 1999:6164.

[22]SHEN Jialin, HUNG J W, LEE L S. Robust entropybased endpoint detection for speech recognition in noisy environments[C]//Proc of ICSLP. 1998:232235.

[23]HUANG Liangsheng, YANG C H. A novel approach to robust speech endpoint detection in car environments[C]// Proc of ICASSP. 2000:17511754.

[24]賈川. 噪聲環境下的魯棒語音識別研究[D]. 北京:中國科學院自動化研究所,2003.

[25]JIA Chuan, XU Bo. An improved entropybased endpoint detection algorithm[C]// Proc of ISCSLP. 2002.

[26]韋曉東,胡光銳,任曉林. 應用倒譜特征的帶噪語音端點檢測方法[J]. 上海交通大學學報,2001, 34(2): 185188.

[27]NEMER E, GOUBRAN R, MAHMOUD S. Robust voice activity detection using higherorder statistics in the LPC residual domain[J]. IEEE Trans on Speech and Audio Processing, 2001, 9(3): 217231.

[28]ITU. ITUT Recommendation G.729Annex B, A silence compression scheme for G.729 optimized for terminals conforming to recommendation v.70[S]. 1996.

[29]SOHN J, SUNG W. A voice activity detector employing soft decision based noise spectrum adaptation[C]// Proc of ICASSP. 1998:365368.

[30]SOHN J, KIM N S, SUNG W. A statistical modelbased voice activity detection[J]. IEEE Signal Processing Letters, 1999, 6(1): 13.

[31]CHO Y D, ALNAIMI K, KONDOZ A. Improved voice activity detection based on a smoothed statistical likelihood ratio[C]// Proc of ICASSP. 2001:737740.

[32]RAMIREZ J, SEGURA J C, BENITEZ C. Statistical voice activity detection using a multiple observation likelihood ratio test[J]. IEEE Signal Processing Letters, 2005, 12(10): 689692.

[33]RAMIREZ J, SEGURA J C, GORRIZ J M, et al. Improved voice activity detection using contextual multiple hypothesis testing for robust speech recognition[J]. IEEE Trans on Audio, Speech and Language Processing, 2007, 15(8): 21772189.

[34]CHANG J H, KIM N S, MITRA S K. Voice activity detection based on multiple statistical models[J]. IEEE Trans on Signal Processing, 2006, 54(6): 19651976.

[35]HERMANSKY H. Perceptual linear predictive (PLP) analysis for speech[J]. Journal of Acoustical Society of America, 1990, 87(4): 17381752.

[36]HERMANSKY H, MORGAN N, BAYYA A, et al. RastaPLP speech analysis[C]// Proc of ICASSP. 1992:121124.

[37]BOCCHIERI E L, WILPON J G. Discriminative feature selection for speech recognition[J]. Computer Speech and Language, 1993, 7(3): 229246.

[38]MORENO P J. Speech recognition in noisy environments[D]. [S.l.]:ECE Department, Carnegie Mellon University, 1996.

[39]ACERO A. Acoustic and environmental robustness in automatic speech recognition[D]. [S.l.]:ECE Department, Carnegie Mellon University, 1990.

[40]LIU Fuhua. Environmental adaptation for robust speech recognition[D]. [S.l.]:ECE Department, Carnegie Mellon University, 1994.

[41]ACERO A, STERN R M. Environmental robustness in automatic speech recognition[C]// Proc of ICASSP. 1990:849852.

[42]LIU Fuhua, STERN R M, MORENO P J, et al. Environment normalization for robust speech recognition using direct cepstral comparison[C]// Proc of ICASSP. 1994:6164.

[43]DENG Li, AECRO A, PLUMPE M. et al. Largevocabulary speech recognition under adverse acoustic environments[C]// Proc of ICSLP. 2000:806809.

[44]MORENO P J. Speech recognition in noisy environments[D]. [S.l.]:ECE Department, Carnegie Mellon University, 1996.

[45]MORENO P J, RAJ B, STERN R M. A vector Taylor series approach for environmentindependent speech recognition[C]// Proc of ICASSP.1996:733736.

[46]RAJ B, GOUVEA E B, MORENO P J, et al. Cepstral compensation by polynomial approximation for environmentindependent speech recognition[C]// Proc of ICSLP. 1996:23402343.

[47]KIM N S. Statistical linear approximation for environment compensation[J]. IEEE Signal Processing Letters, 1998, 5(1): 810.

[48]DENG Li, DROPPO J, ACERO A. Enhancement of log Mel power spectra of speech using a phasesensitive model of the acoustic environment and sequential estimation of the corrupting noise[J]. IEEE Trans on Speech and Audio Processing, 2004, 12(3): 133143.

[49]KIM N S. Feature domain compensation of nonstationary noise for robust speech recognition[J]. Speech Communication, 2002, 37(34):231248.

[50]AFIFY M, SIOHAN O. Sequential estimation with optimal forgetting for robust speech recognition[J]. IEEE Trans on Speech and Audio Processing, 2004, 12(1): 1926.

[51]De LATORRE A, SEGURA J C, BENITEZ M C, et al. Nonlinear transformations of the feature space for robust speech recognition[C]//Proc ofICASSP. 2002:401404.

[52]ATAL B S. Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification[J]. Journal of Acoustical Society of America, 1974, 55(6): 13041312.

[53]VIIKKI O, LAURILA K. Cepstral domain segmental feature vector normalization for noise robust speech recognition[J]. Speech Communication, 1998, 25(13): 133147.

[54]MOLAU S, PITZ M, NEY H. Histogram based normalization in the acoustic feature space[C]// Proc of IEEE Workshop on Automatic Speech Recognition and Understanding. 2001:2124.

[55]HILGER F, MOLAU S, NEY H. Quantile based histogram equation for online application[C]// Proc of ICSLP. 2002:237240.

[56]SEGURA J C, BENITEZ M C, De LA TORRE A, et al. Feature extraction combining spectral noise reduction and cesptral histogram equalization for robust ASR[C]// Proc of ICSLP. 2002:225228.

[57]SEGURA J C, BENITEZ M C, De LA TORRE A, et al. VTS residual noise compensation[C]// Proc of ICASSP. 2002:409412.

[58]CHEN C P, BILMES J, KIRCHHOFF K. Lowresource noiserobust feature postprocessing on Aurora 2.0[C]// Proc of ICSLP. 2002:24452448.

[59]CHEN C P, FILALI K, BILMES J A. Frontend postprocessing and backend model enhancement on the Aurora 2.0/3.0 databases[C]// Proc of ICSLP. 2002:241244.

[60]CHEN C P, BILMES J, ELLIS D P W. Speech feature smoothing for robust ASR[C]// Proc of ICASSP. 2005:525528.

[61]GALES M J F. Modelbased techniques for noise robust speech recognition[D]. Cambridge: University of Cambridge, 1995.

[62]GALES M J F, YOUNG S J. Robust speech recognition using parallel model combination[J]. IEEE Trans on Speech and Audio Processing, 1996, 4(5): 352359.

[63]GONG Yifan. A comparative study of approximations for parallel model combination of static and dynamic parameters[C]// Proc of ICSLP. 2002:10291032.

[64]KIM D Y, UN C K, KIM N S. Speech recognition in noisy environments using firstorder Taylor series[J]. Speech Communication, 1998, 24(1):3949.

[65]ACERO A, DENG Li, KRISTJANSSON T, et al. HMM adaptation using vector Taylor series for robust speech recognition[C]// Proc of ICSLP. 2000:869872.

[66]SAGAYAMA S, YAMAGUCHI Y, TAKAHASHI S, et al. Jacobian approach to fast acoustic model adaptation[C]// Proc of ICASSP. 1997:835838.

[67]李虎生,劉加,劉潤生. 語音識別說話人自適應研究現狀及發展趨勢[J]. 電子學報,2003, 31(1): 103108.

[68]LEGGETTER C J, WOODLAND P C. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models[J]. Computer Speech and Language, 1995, 9(2): 171185.

[69]DIGALAKIS V V, RTISCHEV D, NEUMEYER L G. Speaker adaptation using constrained estimation of Gaussian mixtures[J]. IEEE Trans on Speech and Audio Processing,1995, 3(5): 357365.

[70]GAUVAIN J L, LEE C H. Maximum a posteriori estimation for multivariate Gaussian observations[J]. IEEE Trans on Speech and Audio Processing, 1994, 2(2): 291298.

[71]CHENGALVARA A N, DENG Li. A maximum a posteriori approach to speaker adaptation using the trended hidden Markov model[J]. IEEE Trans on Speech and Audio Processing, 2001, 9(5): 549557.

[72]CHOU W, JUANG B H. Pattern recognition in speech and language processing[M]. Boca Raton, FL: CRC Press, 2003.

[73]BAHL L R, BROWN P F, De SOUZA P V, et al. Maximum mutual information estimation of HMM parameters for speech recognition[C]// Proc of ICASSP. 1986:4952.

[74]JUANG B H, CHOU W, LEE C H. Minimum classification error rate methods for speech recognition[J]. IEEE Trans on Speech and Audio Processing, 1997, 5(3): 257265.

[75]POVEY D, WOODLAND P C. Minimum phone error and Ismoothing for improved discriminative training[C]//Proc of ICASSP. 2002:105108.

[76]MIZUTA S, NAKAJIMA K. Optimal discriminative training for HMMs to recognize noisy speech[C]// Proc of ICSLP. 1992:15191522.

主站蜘蛛池模板: 久久亚洲天堂| 国禁国产you女视频网站| 欧美一级夜夜爽| 一级毛片在线播放| 蝴蝶伊人久久中文娱乐网| 九色视频最新网址| 天堂成人在线视频| 91年精品国产福利线观看久久| 丁香五月激情图片| 国产精品99一区不卡| 青青草原国产| 露脸真实国语乱在线观看| 99久久精品无码专区免费| 伊人久热这里只有精品视频99| 亚洲国内精品自在自线官| 国产杨幂丝袜av在线播放| 国产成人久视频免费| 在线观看无码av免费不卡网站 | 成人一级免费视频| 成人字幕网视频在线观看| 欧美成人一级| 国产乱子伦一区二区=| 国产一区二区丝袜高跟鞋| 亚洲中久无码永久在线观看软件 | 久热99这里只有精品视频6| 亚洲男人天堂2020| 欧美国产在线看| 国产激情无码一区二区APP | 日韩精品专区免费无码aⅴ| 国产亚洲视频在线观看| 91在线高清视频| 欧美亚洲国产一区| 国产精品三级专区| 人妖无码第一页| 国产精品人成在线播放| 国内丰满少妇猛烈精品播| 亚洲欧美不卡视频| a在线观看免费| 精品国产自| 国产成+人+综合+亚洲欧美| 成人字幕网视频在线观看| 91娇喘视频| 国产高清精品在线91| 亚洲日韩图片专区第1页| 九色国产在线| 国产白浆一区二区三区视频在线| 婷婷亚洲视频| 丝袜国产一区| 欧美高清视频一区二区三区| 午夜精品久久久久久久无码软件 | 免费 国产 无码久久久| 婷婷亚洲综合五月天在线| 波多野结衣AV无码久久一区| 第一页亚洲| 国产爽歪歪免费视频在线观看| 第一页亚洲| 国产三级精品三级在线观看| 天天摸夜夜操| 国产精品午夜福利麻豆| 一本大道视频精品人妻 | 97国产在线播放| 日本欧美午夜| 国产美女91呻吟求| 99re这里只有国产中文精品国产精品 | 99九九成人免费视频精品| 日本在线国产| 日本午夜影院| 97se亚洲综合不卡| 日本a∨在线观看| 久久99精品国产麻豆宅宅| 免费人欧美成又黄又爽的视频| 国内精品自在欧美一区| 亚洲第一页在线观看| 久久亚洲精少妇毛片午夜无码| 性喷潮久久久久久久久| 亚洲综合二区| www精品久久| 国产人妖视频一区在线观看| 巨熟乳波霸若妻中文观看免费| 久久精品无码中文字幕| 亚洲中文字幕在线一区播放| 天天综合天天综合|