


摘 要:預(yù)處理過程在語音識別中起著至關(guān)重要的作用。對于藏語語音識別的預(yù)處理研究借鑒的是英語單音節(jié)的語音處理方法,在語音識別系統(tǒng)中正確的判定輸入語音的起點、終點對于提高識別率是非常重要的。在高信噪比情況下,濾除噪聲是很容易的,用短時能量幅度就可以獲得較好的檢測結(jié)果。但在低信噪比情況下要想有效的去噪就必須采用短時能量幅度和短時平均過零率結(jié)合的方法。這篇文章采用兩種方法的結(jié)合來處理藏語單音節(jié),可以做到準確率較高的確認語音的端點,并能在低信噪比情況下濾除噪聲,識別清濁音。實驗證明了此種方法不僅正確,而且提高了檢測的準確度。
關(guān)鍵詞:語音識別;端點檢測;預(yù)處理
1 引言
端點檢測就是把給出的一段語音找出該信號的起點和終點。預(yù)處理在語音識別系統(tǒng)中起著至關(guān)重要的作用,決定著識別率的高低,其中端點檢測的作用是對不必要的噪聲直接除去,減少存儲空間,提高計算機運算的效率以及減少運算量。更重要的是端點檢測可以增加語音識別的精確度,對語音段噪聲進行特征識別,進而除去噪聲所占有的能量盡量確保語音識別過程不受噪聲的干擾。對于藏語語音的端點檢測采用傳統(tǒng)的方法即短時平均過零率和短時能量。在背景噪聲較小的情況下,短時能量比較準確,但當背景噪聲較大時,短時平均過零率可以獲得較好的檢測結(jié)果。因此一般的識別系統(tǒng),其前端的端點檢測過程都是將這兩個參數(shù)結(jié)合用于檢測語音的。
2 語音系統(tǒng)中端點檢測的方法
語音信號是時域上的非平穩(wěn)信號,所以處理平穩(wěn)信號的數(shù)字信號處理技術(shù)是不能直接使用了。但是在一段較短時間范圍內(nèi)(10ms-30ms)語音信號的特性基本相對穩(wěn)定,即語音信號具有短時平穩(wěn)性,也就是短時性。
2.1 預(yù)加重
(1)在處理不同的對象時,語音識別系統(tǒng)就會有相應(yīng)的處理方法,語音信號的特性決定了處理方法和模式基本相同,因此對于所有藏語語音單音節(jié)的處理就具有了解決方案,本文以單音節(jié)‘’為例進行端點檢測。
首先確定語音信號的頻率范圍,一般的語音信號都在300-3400Hz之間,采樣過程取采樣頻率為8kHz,160個采樣點為一幀,80個采樣點為步長。對輸入的藏語單音節(jié)‘’的數(shù)字語音信號進行預(yù)加重,增加了高頻分辨率而且便于分析。本文采用傳遞函數(shù)為H(z)=1-αz-1的一階FIR高通數(shù)字濾波器來實現(xiàn)預(yù)加重,其中α為預(yù)加重系數(shù),0.9<α<1.0。經(jīng)預(yù)加重處理后的結(jié)果為
3 雙門限端點檢測
基于短時能量和短時過零率共同決定端點的方法,短時能量能分辨出清音和濁音,短時平均過零率能分辨出清音和靜音。一般的對參數(shù)設(shè)兩個門限值,設(shè)置的第一個低門限值用來粗略估計語音信號是否進入語音階段,第二個門限值則確定語音信號進入語音階段。
要通過多次實驗確定檢測的高低門限,根據(jù)當時的信噪比環(huán)境結(jié)合共同確定檢測的高低門限。信噪比的差異是由于語音的開始和結(jié)束由于時間上的差異造成的,所以門限選擇的復(fù)雜性也就產(chǎn)生了。
具體步驟是把一個語音信號分成四個階段:靜音、開始、過渡、結(jié)束四個階段。在編程過程中為了決定下一個是什么階段就設(shè)置一個量來辨別當下的狀態(tài)。整個過程是在靜音階段開始超過門限,則進入語音段,而后低于門限進入結(jié)束。判斷是以門限值為根據(jù),最短語音作為輔助來提高整體精度。為了防止一些突發(fā)性的噪聲,我們設(shè)置的最短語音和最短靜音就可以起到很好的作用。
在MATLAB環(huán)境下雙門限語音端點檢測,對于語音信號的樣本,是采用麥克風采集的語音信號‘’,保存方式是以wav格式存儲。開始語音端點檢測之前,預(yù)處理采集到的語音信號,包括分幀,加窗等。本文用漢明窗,通過窗函數(shù)特性為(1-0.93Z-1)的濾波器進行預(yù)加重。而后設(shè)置參數(shù),設(shè)置語音幀長,幀移,F(xiàn)FT,門限閥值設(shè)置等。在環(huán)境比較安靜的條件下采集語音,為了更加有效的得出仿真結(jié)果,加隨機幅度序列與原始語音信號匹配,這樣提高了噪聲信號的短時能量,以及過零率,基于短時能量和過零率的語音端點檢測結(jié)果如圖2所示,基本可以反映有效的檢測效果。如果加高斯白噪聲以降低信號的信噪比,得出的結(jié)果就不能夠進行有效的檢測了。
4 結(jié)語
語音端點檢測是語音識別中至關(guān)重要的部分,決定著識別的效果,而且減少了大量的計算。本文對于藏語語音的端點檢測算法進行了研究,選擇了兩種不同特征參數(shù)的算法,并在MATLAB下進行了仿真,其主要成果如下:
(1)首先進行了傳統(tǒng)的基于短時能量和過零率的語音端點算法研究,進行了實驗仿真。
(2)選擇了藏語單音節(jié)進行了研究,在不同噪聲的環(huán)境下進行了仿真實驗。
(3)根據(jù)同一語音信號分別在不同算法下進行了仿真實驗比較,評述了每一種端點檢測算法的優(yōu)點和缺點。實驗證明藏語語音的端點檢測同樣可以得到很好的結(jié)果。
參考文獻
[1]胡光銳,韋曉東.基于倒譜特征的帶噪語音端點檢測[J].電子學(xué)報,2000,28(10):95-97.
[2]張仁志,崔慧娟.基于短時能量的語音端點檢測算法研究[J]. 電聲技術(shù),2005(07):52-54.
[3]劉慶升,徐霄鵬,黃文浩.一種語音端點檢測方法的探究[J]. 計算機工程,2003,29(03):120-121.
[4]江官星,王建英.一種改進的檢測語音端點的方法[J].微計算機信息,2006(05S):138-139.
[5]陳玉忠,俞士汶.藏文信息處理技術(shù)的研究現(xiàn)狀與展望[J].中國藏學(xué),2003(04).
[6]陳振標,徐波.基于子帶能量特征的最優(yōu)化語音端點檢測算法研究[J].聲學(xué)學(xué)報,2005,30(02):171-176.
[7]劉華平,李昕,鄭宇等.一種改進的自適應(yīng)子帶譜熵語音端點檢測方法[J].系統(tǒng)仿真學(xué)報, 2008,20(05):1366-1371.
[8]徐大為,吳邊,趙建偉等.一種噪聲環(huán)境下的實時語音端點檢測算法[J].計算機工程與應(yīng)用,2003,39(01):115-117.
[9]劉曉明,覃勝,劉宗行等.語音端點檢測的仿真研究[J].系統(tǒng)仿真學(xué)報,2005,17(08):1974-1976.
[10]李曄,張仁智,崔慧娟等.低信噪比下基于譜熵的語音端點檢測算法[J].a(a+1),2005(10):1.
[11]嚴劍峰,付宇卓.一種新的基于信息熵的帶噪語音端點檢測方法[J].計算機仿真,2006,22(11):117-119.
[12]朱淑琴,裘雪紅.一種精確檢測語音端點的方法[J].計算機仿真,2005,22(03):214-216.
[13]陳四根,和應(yīng)民.一種基于信息熵的語音端點檢測方法[J].應(yīng)用科技,2001,28(03):13-14.
[14]張德祥,吳小培,呂釗等.基于經(jīng)驗?zāi)B(tài)分解和 Teager 峭度的語音端點檢測[J].儀器儀表學(xué)報,2010(03):493-499.
[15]王博,郭英,韓立峰.基于熵函數(shù)的語音端點檢測算法研究[J].信號處理,2009,25(03):368-373.