摘 要:端點檢測是語音信號處理過程中非常重要的一步,它的準確性直接影響語音信號處理的速度和結果,因此端點檢測方法的研究,特別是在噪聲環境下端點檢測的研究,一直是語音信號處理中的熱點。從基于時域參數、頻域參數、時頻參數、模型匹配等方法的角度,較全面地回顧了端點檢測方法的發展歷程,對各種方法的優缺點進行了比較分析,并給出了這些方法的改進意見,對端點檢測未來的研究方向進行了展望。
關鍵詞:語音信號處理; 端點檢測; 魯棒性
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2008)08-2278-06
Summary and survey of endpoint detection algorithm for speech signals
LIU Hua-ping1, LI Xin1, 2, 3, XU Bo-ling3, JIANG Ning1
(1.School of Electromechanical Engineering Automation, Shanghai University, Shanghai 200072, China; 2. State Key Lab of Pattern Recog-nition, Institute of Automation, Chinese Academy of Sciences, Beijing 100080,China; 3. Dept. of Electronic Science Engineering, Nanjing University, Nanjing 210093, China)
Abstract:Endpoint detection, whose accuracy directly affects the speed and the results, is a very important step for speech signals processing. The research of endpoint detection algorithm is a hotspot of speech signals processing, especially in adverse environment. This paper introduced different methods based on time domain, frequency domain, time-frequency domain parameters and model matching algorithms. Meanwhile, it analyzedthe advantages, drawbacks and improvements of those algorithms. It also discussed the prospects of endpoint detection.
Key words:speech signals processing; endpoint detection; robustness
語音是人類最自然的信息載體,很可能成為未來人機交互的主要方式,而語音端點檢測是語音分析、語音合成、語音編碼、說話人識別中的一個重要環節[1,2],直接影響到后續工作的準確性。實際環境中沒有完全純凈的語音信號,往往都伴有噪聲或其他干擾,而語音識別系統的處理對象是有效語音信號,即排除了純噪聲段的語音信號段,這就需要從輸入信號中找到語音部分的起止點。端點檢測的目的就是從包含語音的一段信號中確定出語音的起點及終點,又稱語音活動檢測 (voice activity detection,VAD)。
在語音識別中,通常是先根據一定的端點檢測算法對語音信號中的有聲片段和無聲片段進行分割,再針對有聲片段,依據語音的某些特征進行識別。研究表明[3],即使在安靜的環境中,語音識別系統一半以上的識別錯誤來自端點檢測。因此,作為語音識別系統的第一步,端點檢測的關鍵性不容忽視,尤其是噪聲環境下語音的端點檢測,它的準確性很大程度上直接影響著后續工作能否有效進行。可以說,語音信號的端點檢測至今天為止仍是有待進一步深入的研究課題。
一個優秀的端點檢測方法應該具有以下性能[4]:a)門限值應該對背景噪聲的變化有一定的適應性,并且決策時能將超過門限的短時沖激噪聲,如人的咂嘴聲等,納入非語音段。b)對于一些能量較低的弱摩擦爆破音、鼻音,如 f、t、k、n 等,避免在檢測中丟失這些音的有效成分,否則會對識別結果造成影響。c)能有效地對字間隙進行平滑,消除字間隙對端點檢測可能造成的影響。d)低信噪比的各種環境 (如汽車噪聲、有嘈雜人聲等) 中,仍具有端點的準確檢測能力。
1 時域參數端點檢測
傳統的端點檢測方法主要是應用語音信號的時域特征參數[1,5],如短時能量、過零率、相關性和基音等。在實際應用中往往把幾個時域特征參數結合起來作為語音信號端點檢測的特征參數,這種方法在信噪比較高的環境下,得到的端點檢測結果較為理想。
1.1 短時能量
語音和噪聲、語音和非語音的區別可以體現在它們的能量上,語音段能量比噪聲段能量大,語音段的能量是噪聲段能量疊加語音聲波能量之和。在信噪比很高時,如果環境噪聲和系統輸入噪聲較小,那么只要計算輸入信號的短時能量或短時平均幅度就能夠把語音段與噪聲背景區分開;但在低信噪比的情況下,這種算法的效果就會顯著失效。
語音信號的能量隨著時間變化比較明顯,一般清音部分的能量比濁音能量小得多。語音信號的短時能量分析給出反映這些幅度變化的描述方法。對于{x(n)},短時能量的定義為
En=∑∞m=-∞[x(m)w(n-m)]2=∑∞m=-∞x2(m)h(n-m)=
x2(n)×h(n)(1)
其中:h(n)=w2(n); En表示在信號的第n個點開始加窗函數時的短時能量。
1.2 短時平均過零率
短時過零率表示一幀語音中信號越過橫軸(零電平)的次數。對于離散信號,如果相鄰的取樣值改變符號則稱為過零。定義語音信號xn(m)的短時過零率為
Zn=1/2 ∑n-1m=0|sgn[xn(m)]-sgn[xn(m-1)]|(2)
為使語音過零率和靜音、噪聲的過零率具有明顯的區別,現實應用中對過零率計算進行了改進,設定一個很小的閾值zv。 Zn的過零率為
Zn=1/2 ∑n-1m=0|sgn[xn(m)-zv]-sgn[xn(m-1)-zv]|(3)
這種方法對抑制低直流漂移也很有效,避免了用防混疊帶通濾波器抑制電源以及將直流分量從信號中扣除。
濁音的能量主要集中于低頻段,而清音的能量則主要集中在高頻段,短時平均過零率可以在一定程度上反映頻率高低,因而可以用短時平均過零率來初步判斷清音和濁音。
1.3 短時相關分析
定義語音信號xn(m)的短時自相關函數為
Rn(k)=∑n-1-km=0xn(m)xn(m+k); 0<k≤K(4)
這里K是最大延遲點數。
噪聲和語音具有不同的相關性,噪聲的相關性呈下降趨勢,因而在語音和噪聲的判決上可以采用判斷其走向的方法。
在實際應用中,往往綜合幾個時域特征參數來檢測端點,如基于短時能量和過零率的雙門限檢測方法。在信噪比高的環境下,端點檢測能得到較為準確的結果;但信噪比較低時,準確率就會變得很差。有的學者在這方面做了很多工作,例如在雙門限檢測的基礎上再加一時間特征參數——短時相關性,用來判斷語音和噪聲,因為語音和噪聲的相關趨勢不一樣。雖說這種方法有助于提高端點檢測的準確性,但是在信噪比很低的情況下也會失效。
Lu Lie等人[2]提出一種比較新的基于時域特征參數端點檢測方法——用短時能量變化率來進行端點檢測。這種算法采用的不是短時能量而是短時能量的變化率,在信噪比較高的情況下,在噪聲和語音的區分點區域,由于信號幀的變化較劇烈,該方法選取的參數是一個小于1的正數;而在噪聲區間或者語音區間由于信號不同,幀間的能量較平穩,變化不大,參數為0值。此方法的優點是具有一定的魯棒性,但仍然存在信噪比低時的失效問題。
張仁志和崔慧娟[6]提出了一種改進的短時能量端點檢測方法,在采用短時全帶能量為特征的基礎上,將短時高頻能量作為輔助特征,同時使用了最優邊沿檢測濾波以及雙門限——三態轉換判決機制,從而保證了算法在噪聲環境下的端點檢測準確性和對信號絕對幅度變化的穩健性。實驗表明,與其他一些端點檢測算法相比,更加簡單、有效和穩健,并且能夠在低信噪比環境下保持良好的性能。
肖述才和王作英[7]提出了端點檢測中的一種新的對數能量特征。該方法分析了端點檢測中常用的短時線性能量和短時對數能量的優缺點,提出了一種新的對數能量特征,綜合利用前兩者的優點而克服了它們的不足之處,并對端點檢測的閾值設置采用了基于模糊聚類的門限估計算法。該算法實驗得到較好的效果,與采用短時線性能量和短時對數能量相比,系統的識別率分別提高了62.33%和8.87%。
李明遠和李建東[8]提出利用語音的相關性進行端點檢測。陳斐利和朱杰[9]也利用了自相關性提出了一種新的基于自相關相似距離的語音端點檢測方法,對給出的自相關法、HMM模型、人工端點檢測的結果進行了比較,驗證了其新方法的可行性。
利用時域特征參數來進行端點檢測的方法很多,其研究總的趨勢有兩種:a)將多個語音時域特征參數結合在一起[3,9~11];b)對已有的端點檢測方法進行改進,如劉慶升等人[12]提出的方法就是對已有的基于短時能量和過零率的雙門限檢測方法的改進。
2 頻域參數端點檢測
時域參數端點檢測方法提出得最早,從提出至今,產生了很多新的時域參數端點檢測方法和一些對已有時域參數端點檢測的改進方法。但這種方法由于噪聲的影響很大,當信噪比很低時,端點檢測結果的準確性就變得很差,進而影響了識別系統的識別率。為了能得到魯棒性較好的端點檢測方法,人們就把注意力轉移到語音信號的頻域特性上來。
2.1 基于LPC歐氏距離測度的端點檢測
Rabiner 等人 [13] 在1977年提出了一種基于LPC歐氏距離測度的端點檢測方法。該算法是Rabiner 等人在解決信號輸出的語音很難用一般的算法來區分無語音、靜默音和語音而提出來的。其主要思路是:先對這三種語音各自進行訓練,得到各自的頻域特性;然后利用LPC的測度和能量的非線性組合來對這三種語音進行檢測。
利用自相關法求出第i 幀的LPC系數,LPC的階數取8:
ai={ai(1),a(2),…,ai(8)}(5)
利用下式算出第i幀的對數能量:
Ei=10log[∑n0+149n=n0x2(n)](6)
進而得出了兩個距離公式,對三種語音信號進行計算,并存儲結果用于將來的檢測。
DE(j)=|Ej-E[j]|/σE(j)(7)
Da(j)=(α-mj)()(a-mj)′/(αα′)(8)
具體的參數含意可以查閱文獻[13]。
算法框圖如圖1所示。Rabiner 等人提出的方法在高信噪比時能有效地區別非語音、靜默音和語音,但在低信噪比時效果也不理想[14]。
于迎霞和史家茂[15]提出了一種改進的基于倒譜特征的帶噪端點檢測方法,針對基于倒譜特征的帶噪端點檢測算法提出了三點改進:a)將語音信號經濾波后分成高、低頻兩子帶,分別進行分析;b)用LPC美爾倒譜特征(LPCCMCC)代替常規倒譜特征作為特征參數;c)改進噪聲估計,使其具有自適應性。實驗結果表明該方法在低信噪比下有較好的檢測性能。
2.2 譜熵端點檢測
以上端點檢測方法都是以語音幀為最小處理單元,大多數均使用與能量相關的參數,這樣就很難消除語音幀內的噪聲信號的影響,從而影響了端點檢測的結果。
Shen等人[14]提出了基于信息熵的端點檢測方法。此后很多學者都采用信息熵與其他語音特征參數相結合方法來進行端點檢測。熵是由Shannon[16]引用到信息理論中來的。譜熵的基本原理如下:
定義1 對帶噪語音信號s(n)經分幀、加窗, 按幀間50%的重疊求解FFT變換, 得到其某頻率分量fi的能量譜為Ym(fi),則每個頻率分量的歸一化譜概率密度函數(pdf)定義為
Pi=Ym(fi)/∑N-1k=0Ym(fk); i=1,2,…,N(9)
其中:Pi為某頻率分量i對應的概率密度;N為FFT變換長度;m為分析的某一幀語音。由于語音的能量主要集中在250~4 500 Hz ,為了增強區分語音和非語音段的能力,對式(9)引入約束條件:
Y(fi)=0,if fi<250 Hz or fi>4 500 Hz(10)
考慮上述約束條件后,每個分析語音幀的短時譜熵定義為
Hm=-∑Nk=1Pk log Pk(11)
按照式(11),譜熵具有如下特征:
a)語音信號的譜熵不同于噪聲信號的譜熵。
b)理論上,如果譜的分布保持不變,語音信號幅值的大小不會影響式(9)的歸一化。但實際上, 語音譜熵隨語音隨機性而變化,與能量特征相比, 譜熵的變化是很小的, 如圖1 所示。如圖2所示,雖然前段“two”語音的幅值比后段語音的幅值大很多,但譜熵的變化不大。
c)從某種程度上講,譜熵對噪聲具有一定的魯棒性。圖2為同一語音段在不同噪聲干擾下的譜熵曲線。從圖3中可知,當SNR下降時譜熵的形狀保持不變,但譜熵降低,利用譜熵進行端點檢測變得較為困難。
從以上對譜熵特征的分析可知,即使在很低的信噪比下, 語音幀仍然具有很多較高信噪比的頻點(或子帶),而噪聲幀卻沒有。因此人們就利用這一特性提出了基于譜熵的端點檢測方法及相應的改進方法。
Wu Bing-fei等人 [17]提出了子帶譜熵 (BSE) 語音信號端點檢測方法。該方法結合了Wu Gin-Der等人[18]的自適應子帶選擇 (RABS) 方法,得出一種新型的端點檢測方法——自適應子帶譜熵端點檢測方法。
子帶譜熵改進了Shen等人提出的用譜熵進行端點檢測的方法。
X(k,l)=∑Nn=1H(n)×S(n,l)×exp(-j2πkn/N); 1≤k≤N(12)
其中:X(k,l)是語音幀的S(n,l)的短時傅里葉變換。對每幀的前半段計算出信息熵:
H(l)=∑N/2i=1P(i,l)×log[1/P(i,l)](13)
其中:H(l)是第l幀的譜熵。H(l)計算是基于譜的能量變化而不是譜的能量,所以在不同水平噪聲環境下譜熵參數具有一定的魯棒性,但每一譜點的幅值易受噪聲的污染進而影響端點檢測的魯棒性。Wu Bing-fei等人對這一問題提出了解決方法,即子帶譜熵的概念。其思想是將一幀分成若干個子帶,再對每一子帶求譜熵,這樣就消除了每一譜點的幅值受噪聲影響的問題。
Eb(m,l)=∑k=1+(m-1)×4+3k=1+(m-1)×4Xenergy(k,l); 1≤m≤Nb(14)
其中:Nb是每一幀的子帶數(如Nb=32);Eb(m,l)表示第m子帶的子帶能量。再引入一權值系數w(m,l)來彌補式(14)不能反映出的譜熵在語音聲譜圖的自然特性,得出子帶譜熵的最終計算公式:
Hb(l)=∑Nbm=1w(m,l)×Pb(m,l)×log[1/Pb(m,l)](15)
Wu Bing-fei等人還將文獻 [18] 中子帶自適應選擇應用進來,使得Nb會在每一幀中數值都不一樣,這樣更加適合于語音信號的本質,并對自適應子帶譜熵的閾值自適應選擇作出了較為詳細的討論。
自適應子帶譜熵在多種噪聲環境下和不同的信噪比下的實驗表明,該算法具有較好的魯棒性,在不同的噪聲環境下的準確性都很高,且能在線檢測端點。
譜熵端點檢測算法的研究國內學者也做了很多工作。李曄等人 [19]為提高語音端點檢測系統在低信噪比情況下(0 dB以下)檢測的準確率,提出了一種基于譜熵的端點檢測算法。將每幀信號分為16個子帶,選取頻譜分布在250 Hz~3.5 kHz且能量不超過該幀總能量90%的子帶;計算經過語音增強后的子帶能量以及各子帶信噪比,根據各子帶信噪比的不同調整其在整個譜熵計算過程中的權重;然后平滑譜熵, 以最終的譜熵作為端點檢測的依據。實驗結果表明,此方法在較低的信噪比下能夠顯著提高端點檢測的準確率。對坦克噪聲,檢測效果明顯優于G.729中的端點檢測算法,即使在-5 dB的信噪比下,仍然可以達到95%以上的檢測率。
吳軍和王作英[20]對漢語信息熵作了大量的語料統計,給出了漢語信息熵的一個上界,并以此為基礎給出了一種用低階語言模型逼近高階模型的方法。田野等人[21] 提出了基于子帶能量線性映射的噪聲中端點檢測算法。該算法采用線性映射的方法將Mel濾波器組的子帶能量特征空間映射到噪聲和語音最有區分性的一維子空間,得到新的特征參數ELMBE進行語音檢測。實驗結果表明,在噪聲環境下,基于線性映射的能量參數比時域能量、基于時間——頻率的能量有更好語音檢測性能。王讓定等人[22]和陳四根等人[23]也對信息熵端點檢測進行了研究。
3 時頻相結合的端點檢測
時域和頻域端點檢測的方法有各自的優勢。例如語音信號時域特征參數—基頻就能很好地反映漢語的音調;利用能量和過零率在信噪比高的情況下能快速且準確地檢測出語音。頻域端點檢測方法,如自適應子帶譜熵端點檢測算法能很好地消除每幀內的噪聲對端點的影響。端點檢測的另一個發展方向是語音的時頻特征參數的結合方法。Sheng 等人結合時域能量和譜熵得出一種的特征參數(EE-feature)來作端點檢測。該方法是對譜熵單一參數進行改進的算法。僅僅用譜熵來作端點檢測時,在多人說話的環境下或有背景音樂時端點檢測效果會變得很差,而時域能量的一個特性就是語音加噪聲的能量比單一噪聲的能量大很多,這樣就彌補了單一譜熵的不足,所以將時頻特征參數相結合能得到很好的效果。但文獻[17]中也指出了這種算法的不足,就是當背景噪聲的能量比語音信號本身能量都高很多時,即信噪比很低時,端點檢測效果就很差。
文獻[25]也提出了一種基于時頻特征參數的端點檢測方法(TF)。文獻[18]對TF方法進行了改進,提出了一種自適應時頻特征參數法(ATF)。郭繼云等人[26]對基于頻能比的端點檢測算法進行了改進。
4 基于模型匹配的端點檢測
隨著對識別模型的深入研究,各種識別模型也被應用于端點檢測。朱杰等人[27]
就將HMM模型應用于噪聲環境下的語音端點檢測。HMM是目前語音識別技術中應用最廣泛的一種模型。在訓練階段,訓練語音對模型各狀態的統計特性進行訓練,得出模型參數;在測試階段,待測語音與訓練模型進行匹配,選擇得分最高的作為識別結果。
噪聲環境中基于HMM模型語音信號端點檢測的基本原理是:根據HMM的處理方法,直接用于語言信號的端點檢測。所謂端點,無非就是把被測信號看做由背景(background 或silence)和廢料(garbage,在語音處理中,習慣上把有用或無用的發音統稱為廢料)兩部分組成,而廢料就是上述兩部分的分界處。在訓練階段,分別得出背景噪聲和廢料的模型參數。在測試階段,用Viterbi解碼方法在訓練模型基礎上對被測語音進行分解,求出語音的哪些幀與背景噪聲匹配,哪些幀與廢料匹配,從而得出端點的所在。
基于HMM 方法的端點檢測系統圖參見文獻[27]。實驗表明,基于HMM的端點檢測方法的優點是:a)檢測準確率明顯高于基于能量的方法。在信噪比逐漸降低的情況下,效果更加明顯。b)檢測低能量的清音或爆破音、鼻音的端點位置時,性能明顯高于基于能量的方法,很少出現截去音節有效成分的現象。其不足和今后的發展方向是,HMM的訓練環境與實際被測信號的語音環境會有很大差異。比如,當訓練是在安靜的環境下進行,而實際測試環境是在汽車噪聲中進行時,由于背景噪聲模型與實際情況很不相符,其性能會顯著下降,必須采用能自適應調節的背景噪聲模型。其具體的實現方法也是正在研究的課題。此外,特征矢量維數的大小對檢測性能的影響也值得研究,因為這關系到在實時處理時該算法的實用性。
徐筱麟和張興國[28]根據語音的特點,以一階馬可夫過程統計模型對語音進行建模,并在此基礎上對語音激活檢測進行了性能分析。在方案的實現過程中,采用了多種平滑因子,進一步改進了語音判決的正確性,與通常所用的檢測方法相比,在性能上有了一定程度的提高。該方法的缺點是算法較為復雜,且在抗單音干擾方面能力較弱。如果再采用一定的措施,減小單音的干擾,將會對短波通信的應用起到很大的作用。
另一種基于統計模型的端點檢測方法是由董恩清等人[29]提出的。他們提出將支持向量機(SVM) 方法應用于語音激活檢測 (VAD) ,并驗證SVM方法在VAD 檢測中的有效性。實驗結果表明,支持向量機方法應用在端點檢測中是可行的,但其運算量較大,SVM-VAD 算法的計算復雜度主要在訓練支持向量機的過程中,而在實際的分類中計算量是很小的,甚至可以忽略。所以訓練支持向量機的算法還應該有所改進。SVM-VAD運行流程圖如圖4所示。
在文獻[30,31]中提到基于模型匹配進行端點檢測的方法。基于神經網絡模型的端點檢測的方法[32~34],其思想是利用多層神經網絡將語音信號分成語音、非語音、靜默段,但在實際應用中會遇到難以確定網絡結構的問題。基于模型進行端點檢測的方法共同優點在于,端點檢測的準確性高、有較好的魯棒性;但缺點是方法的復雜度高、運算量大,很難應用到實時語音信號處理系統。該方法實用化還需要有更簡單、更快速的算法。
5 其他端點檢測方法
由于語音信號處理是一門交叉學科,涉及到數字信號處理、語音學、語言學、生理學等,相關學科的發展都會促進語音數字信號處理各個環節的發展。端點檢測方法也是如此,除了上面所介紹的幾種端點檢測方法外,在還有與相應的語種和使用環境相關的一些特殊的語音端點檢測方法。
魏濤和顧涵錚[35]通過分析國際電信聯盟的G.729B 標準, 提出了一種適用于三速率語音編碼方式的VAD算法。該端點檢測方法是針對特殊應用且結合了聲學分類,對噪聲、清音和濁音加以區分。在G.729B中,端點檢測的目的是將無聲段與語音段區分開,語音段按正常速率傳輸,無聲部分用平穩噪聲產生算法 (CNG) 描述,并以15 bps進行編碼。VAD 算法是用來檢測線路中是否有話音存在,是變速率編碼中的關鍵部分,作為速率的選擇,判斷的正確與否會直接影響語音質量。某些話音信號能量較低,極易與無聲段的噪聲混淆, 要求VAD 算法盡可能減少此類誤判,以保證語音質量。
該算法的主要思路是在G.729B 的基礎上,提出一種基于語音段分類的VAD算法。該算法結合能量分布曲線和聲學特征, 可將語音段分為清音、濁音和靜音三類。判決過程由三步組成:功率初判、聲學特征的修正和結果的平滑。從實驗結果來看,該方法適用于三速率的語音編碼方式,且復雜度不是很高,但還需在聲學分類問題上作進一步的研究,嘗試使用其他參數或算法,以提高分類的準確性,達到實用的目的。
利用語音學特性來作端點檢測的方法。鄺航宇等人[36]提出了基于檢測元音的端點檢測算法,主要目的是克服一些突發性的、沒有規律的噪聲干擾。其原理在于首先檢測語音中必不可少和最穩定的部分(元音)的端點,然后按照一定的規則前后搜索確定語音的起止點。相比其他端點檢測算法,其主要優點在于新算法改善了端點檢測對于一些常見噪聲的魯棒性,特別是對非周期性噪聲的抵抗能力,因為這些噪聲一般都不包含元音。此外,很多端點檢測算法不能把摩擦音和爆破音這些輔音檢測出來,這些輔音容易被噪聲掩蔽,但這些輔音對一個語音識別系統的識別率也有很大影響,特別是對基于DTW的系統,所以一個好的端點檢測算法必須能把這些輔音部分檢測到。文獻[36] 提出的端點檢測算法并沒有拋棄這些輔音部分,而是在檢測到元音的端點后,利用修改的基于能量算法去搜索出這些輔音。
基于檢測元音的端點檢測算法相比其他端點檢測算法的主要優點在于對非周期噪聲具有非常強的抵抗能力,在低信噪比的環境下,新算法仍然能夠準確地檢測到語音端點,從而提高語音識別率。該算法的局限性主要是,當一個孤立詞同時含有多個元音,而人的發音拉得比較長時,可能會丟失某些元音。另外,算法暫時只適用于孤立詞的檢測。
在語音信號處理系統中,基于幀能量的語音端點檢測往往受到語音段能量不平穩及噪聲的影響。為了解決這一問題,提高端點檢測的準確性,劉鵬和王作英[37]將多模式交互系統[38]的思想應用到端點檢測中,引入視覺信息,提出了一種多模式語音端點檢測方法,采用基于數據驅動的線性變換生成視覺特征,提出一個基于統計的VAD一般模型的基礎上構建兩個單模式的VAD系統,通過兩步式的融合方法,得到了多模式的VAD系統。實驗表明,同時利用音頻和視覺信息的多模式VAD 比基于幀能量的聽覺VAD在幀錯誤率上有55.0%的相對下降,在斷句錯誤率上有98.5%的相對下降。這一結果說明多模式VAD方法基本可以避免斷句錯誤,也能夠顯著改善幀檢測性能,是一種相當有效的方法。
視覺信息的引入為VAD系統提供了嶄新而有效的思路。在對一般VAD系統框架進行研究以后,筆者將其前端特征換成能反映嘴唇動態和靜態特性的視覺特征,即得到了基于視覺的VAD系統。實驗表明,其性能尤其是斷句性能已經比基于幀能量的音頻VAD系統有明顯提高。進一步將視覺信息和音頻信息結合起來使用,充分利用兩者的優勢構建的雙模式VAD 系統在幀錯誤率指標上得到了進一步的改善,可以將雙模式流相當精確地分成句子并得到其起始結束位置。
端點檢測就是判斷語音與非語音,相當于一個二分器,也可以用模式識別中的很多知識。應用模式識別的方法也有人提出了其他的端點檢測方法[39,40]。
6 結束語
語音信號端點檢測準確與否,對任何一個語音信號處理系統都有很大的影響,所以語音信號端點檢測的方法研究仍然是今后語音信號處理中的一大熱點和難點。
本文對當前主流的且檢測效果好、具有代表性的端點檢測方法作了論述,并對各個方法特點進行比較歸納。設計一個成功的語音端點檢測模塊時,會遇到下列一些實際困難[4,41]:
a)信號取樣時,由于電平的變化,難以設置對各次實驗都適用的閾值;取樣數據中,有時存在突發性干擾,使短時參數變得很大,持續很短時間后又恢復,應該記入噪聲段而非語音段。
b)發音時,人的咂嘴聲或其他某些雜音會使語音波形產生一個很小的尖鋒,并可能超過所設計的門限值。此外人呼吸時的氣流也會產生電平較高的噪聲。
c)起點處是弱摩擦音或終點處是鼻音時,語音的特性與噪聲極其相似,其中鼻韻還拖得很長。
d)若輸入信號中有 50 Hz 工頻干擾或變換點的工作點偏移時,選用某些短時特征進行區分噪聲和清音就顯得不可靠。
解決上述語音端點檢測實際困難是端點檢測研究的方向,研究的途徑主要有三個方面:(a)深入研究語音信號的特性,提出更能反映語音本質且魯棒性好的特征參數;(b)提出更有效、更快速的算法,如自適應算法應用語音端點檢測,使得端點檢測的方法能適用于不同的信噪比環境;(c)突破現有的端點檢測方法研究框架,應用交叉學科的知識提出新穎的端點檢測方法,如劉鵬等人的多模式語音端點檢測,能有效地融合語音和視覺圖像信息,進行語音感知和識別時會收到意想不到的效果。目前,視覺信息正逐漸被用于語音感知和識別中,也受到越來越多人對視覺與語音結合技術研究[42~45]的關注。
有效的語音端點檢測可以減少實時系統中的大量計算,使該系統僅處理語音輸入,不至于在靜音段白白浪費計算量和存儲量,有利于系統的實時準確識別工作。因此端點檢測算法本身不僅要求精確的結果,還應具有實現算法簡單的特點。
參考文獻:
[1]LAMEL L F, RABINER L R, ROSENBERG A E, et al. An improved endpoint detector for isolated word recognition [J]. IEEE Trans on Acoust, Voice, Signal Processing,1981,29(8):777-785.
[2]LU Lie, JIANG Hao, ZHANG Hong-jiang. A robust audio classification and segmentation method[C]// Proc of the 9th ACM Internatio-nal Conference on Multimedia. 2001.
[3]SAVOJI M H. A robust algorithm for accurate endpointing of speech[J]. Speech Communications,1989, 8(1):45-60.
[4]賈川, 張健, 陳振標,等. 噪聲環境下的端點檢測算法研究[C]// 第六屆全國人機語音通信學術會議論文集.2001:441-445.
[5]RABINER L R, SAMBUR M R. An algorithm for determining the endpoints of isolated utterances [J]. Bell System Technical Journal, 1975, 54(2):297-315.
[6]張仁志,崔慧娟. 基于短時能量的語音端點檢測算法研究 [J]. 電聲技術, 2005(7):52-54.
[7]肖述才,王作英. 端點檢測中的一種新的對數能量特征[J]. 電聲技術, 2004(6):37-41.
[8]李明遠,李建東. 基于相關性的語音激活檢測器[J].電聲技術, 1995(11):6-9.
[9]陳斐利,朱杰. 一種新的基于自相關相似距離的語音信號端點檢測方法[J]. 上海交通大學學報, 1999,33 (9):1097-1099.
[10]盧艷玲,侯榆青,王賓,等.一種基于多特征的帶噪語音信號端點檢測與音節分割算法[J]. 電聲技術, 2005(7):60-62.
[11]NEY H. An optimization algorithm for determining the endpoints of isolated utterances[C]// Proc of ICASSP. 1981:720-723.
[12]劉慶升,徐霄鵬,黃文浩.一種語音端點檢測方法的探究[J]. 計算機工程, 2003,29(3):120-121.
[13]RABINER L R, SAINBUR M R.Voiced unvoiced silence detection using the Itakura LPC distance measure[C]// Proc of ICASSP. 1977:323-326.
[14]SHEN J L, HUNG J W, LEE L S. Robust entropy-based endpoint detection for speech recognition in noisy environments[C]// Proc of International Conference on Spoken Language Processing. Sydney:[s.n.], 1998:232-238.
[15]于迎霞,史家茂. 一種改進的基于倒譜特征的帶噪端點檢測方法[J]. 計算機工程,2004,30(19):85-87.
[16]SHANNON C E. A mathematical theory of communication[J]. Bell Syst Technical Journal,1948,27:379-423.
[17]WU Bing-fei,WANG Kun-ching. Robust endpoint detection algorithm based on the adaptive band-partitioning spectral entropy in adverse environments[J].IEEE Trans onSpeech andAudio Processing, 2005,13(5):762-775.
[18]WU G D, LIN C T. Word boundary detection with Mel-scale frequency bank in noisy environment[J]. IEEE Trans on Speech and Audio Processing, 2000,8(5):541-554.
[19]李曄, 張仁智, 崔慧娟, 等.低信噪比下基于譜熵的語音端點檢測算法[J].清華大學學報:自然科學版,2005,45(10):1397-1400.
[20]吳軍,王作英. 漢語信息熵和語言模型的復雜度[J]. 電子學報,1996,24(10):69-71.
[21]田野, 王作英, 陸大金.基于子帶能量線性映射的噪聲中端點檢測算法[J].清華大學學報:自然科學版,2002,42(7):953-956.
[22]王讓定,柴佩琪. 一種基于譜熵的語音端點檢測改進方法[J].信息與控制,2004,33(1):77-81.
[23]陳四根,和應民.一種基于信息熵的語音端點檢測方法[J].應用科技,2001,28(3):13-14.
[24]HUANG Liang-sheng, YANG C H.A novel approach to robust speech endpoint detection in carenvironments[C]// Proc of ICASSP. 2000:1751-1754.
[25]JUNQUA J C, MAK B, REAVES B. A robust algorithm for word boundary detection in the presence of noise[J]. IEEE Trans Speech Audio Processing,1994,2(3):406-412.
[26]郭繼云,王守覺,劉學剛. 一種改進的基于頻能比的端點檢測算法[J].計算機工程與應用, 2005,41(29):91-93.
[27]朱杰,韋曉東.噪聲環境中基于HMM模型的語音信號端點檢測方法[J].上海交通大學學報, 1998,32 (10):14-16.
[28]徐筱麟, 張興國.一種基于馬可夫過程統計模型的語音激活檢測方法[J].解放軍理工大學學報:自然科學版,2003,4(1):7-10.
[29]董恩清,趙鶴鳴,周亞同,等. 支持向量機在語音激活檢測中的應用研究[J]. 通信學報,2003,24(3):70-77.
[30]范萬春, 施仁, 孫煜, 等. 應用統計模型的地震信號端點檢測方法[J]. 西安交通大學學報, 2001,35(4):365-369.
[31]SOHN J, KIMM N S,SUNG W. A statistical model-based voice activitydetection[J]. IEEE SignalProcessing Letters, 1999,6(1):1-3.
[32]QI Ying-yong, HUNT B R. Voiced-unvoiced-silence classification of speech using hybrid features and a network classifier[J]. IEEE Transon Speech and Audio Processing, 1993,1(2):250-255.
[33]KIA S J, COGHILL G G. A mapping neural network and its application to voiced-unvoiced-silence classification[C]// Proc of the 1st New Zealand Int Two-Stream Conf Artificial Neural Networks Expert Systems. 1993:104-108.
[34]GHISELLI-CRIPPA T, EL-JAROUDI A.A fast neural net training algorithm and its application to voiced-unvoiced-silence classification of speech[C]// Proc of Int ConfonSpeech Language Processing. 1991:441-444.
[35]魏濤, 顧涵錚.一種基于聲學分類的語音激活檢測算法[J].合肥工業大學學報:自然科學版,2001,24(2):222-225.
[36]鄺航宇,張軍,韋崗.一種基于檢測元音的孤立詞端點檢測算法[J].電聲技術,2005(3):40-43.
[37]劉鵬, 王作英.多模式語音端點檢測[J].清華大學學報:自然科學版, 2005,45(7):896-899.
[38]VATIKIOTI-BATESON E, BAILLY G, ERRIER P. Audio visual speech processing [M]. [S.l.]: MIT Press, 2007.
[39]丁琦, 徐望, 王炳錫. 基于模糊分類器的能量可變噪聲環境下的詞邊界檢測[J]. 電聲技術,2003(5):45-49.
[40]BERITELLI F. A robust endpoint detector based on differential parameters and fuzzy pattern recognition[C]// Proc of ICSP. 1998:601-604.
[41]趙力. 語音信號處理[M].北京: 北京機械工業出版社, 2003.
[42]張蕾.電腦也能讀唇語[EB/OL].http://www.people.com.cn/GB/it/53/142/20030501/983126.html.
[43]英特爾推出讀唇語的AVSR軟件[EB/OL].(2003-04-30). http://article.pchome.net/content-6819. htm.
[44]可讀唇語手機[EB/OL]. (2002-04-11). http://www.zaobao.com/special/newspapers/2002/04/hfwb110402.html.
[45][EB/OL]. (2004-04-09). http://computer.online.sh.cn/compu-ter/gb/content/2002-04/09/content_32581 2.htm.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文