


摘 要:預(yù)處理過(guò)程在語(yǔ)音識(shí)別中起著至關(guān)重要的作用。對(duì)于藏語(yǔ)語(yǔ)音識(shí)別的預(yù)處理研究借鑒的是英語(yǔ)單音節(jié)的語(yǔ)音處理方法,在語(yǔ)音識(shí)別系統(tǒng)中正確的判定輸入語(yǔ)音的起點(diǎn)、終點(diǎn)對(duì)于提高識(shí)別率是非常重要的。在高信噪比情況下,濾除噪聲是很容易的,用短時(shí)能量幅度就可以獲得較好的檢測(cè)結(jié)果。但在低信噪比情況下要想有效的去噪就必須采用短時(shí)能量幅度和短時(shí)平均過(guò)零率結(jié)合的方法。這篇文章采用兩種方法的結(jié)合來(lái)處理藏語(yǔ)單音節(jié),可以做到準(zhǔn)確率較高的確認(rèn)語(yǔ)音的端點(diǎn),并能在低信噪比情況下濾除噪聲,識(shí)別清濁音。實(shí)驗(yàn)證明了此種方法不僅正確,而且提高了檢測(cè)的準(zhǔn)確度。
關(guān)鍵詞:語(yǔ)音識(shí)別;端點(diǎn)檢測(cè);預(yù)處理
1 引言
端點(diǎn)檢測(cè)就是把給出的一段語(yǔ)音找出該信號(hào)的起點(diǎn)和終點(diǎn)。預(yù)處理在語(yǔ)音識(shí)別系統(tǒng)中起著至關(guān)重要的作用,決定著識(shí)別率的高低,其中端點(diǎn)檢測(cè)的作用是對(duì)不必要的噪聲直接除去,減少存儲(chǔ)空間,提高計(jì)算機(jī)運(yùn)算的效率以及減少運(yùn)算量。更重要的是端點(diǎn)檢測(cè)可以增加語(yǔ)音識(shí)別的精確度,對(duì)語(yǔ)音段噪聲進(jìn)行特征識(shí)別,進(jìn)而除去噪聲所占有的能量盡量確保語(yǔ)音識(shí)別過(guò)程不受噪聲的干擾。對(duì)于藏語(yǔ)語(yǔ)音的端點(diǎn)檢測(cè)采用傳統(tǒng)的方法即短時(shí)平均過(guò)零率和短時(shí)能量。在背景噪聲較小的情況下,短時(shí)能量比較準(zhǔn)確,但當(dāng)背景噪聲較大時(shí),短時(shí)平均過(guò)零率可以獲得較好的檢測(cè)結(jié)果。因此一般的識(shí)別系統(tǒng),其前端的端點(diǎn)檢測(cè)過(guò)程都是將這兩個(gè)參數(shù)結(jié)合用于檢測(cè)語(yǔ)音的。
2 語(yǔ)音系統(tǒng)中端點(diǎn)檢測(cè)的方法
語(yǔ)音信號(hào)是時(shí)域上的非平穩(wěn)信號(hào),所以處理平穩(wěn)信號(hào)的數(shù)字信號(hào)處理技術(shù)是不能直接使用了。但是在一段較短時(shí)間范圍內(nèi)(10ms-30ms)語(yǔ)音信號(hào)的特性基本相對(duì)穩(wěn)定,即語(yǔ)音信號(hào)具有短時(shí)平穩(wěn)性,也就是短時(shí)性。
2.1 預(yù)加重
(1)在處理不同的對(duì)象時(shí),語(yǔ)音識(shí)別系統(tǒng)就會(huì)有相應(yīng)的處理方法,語(yǔ)音信號(hào)的特性決定了處理方法和模式基本相同,因此對(duì)于所有藏語(yǔ)語(yǔ)音單音節(jié)的處理就具有了解決方案,本文以單音節(jié)‘’為例進(jìn)行端點(diǎn)檢測(cè)。
首先確定語(yǔ)音信號(hào)的頻率范圍,一般的語(yǔ)音信號(hào)都在300-3400Hz之間,采樣過(guò)程取采樣頻率為8kHz,160個(gè)采樣點(diǎn)為一幀,80個(gè)采樣點(diǎn)為步長(zhǎng)。對(duì)輸入的藏語(yǔ)單音節(jié)‘’的數(shù)字語(yǔ)音信號(hào)進(jìn)行預(yù)加重,增加了高頻分辨率而且便于分析。本文采用傳遞函數(shù)為H(z)=1-αz-1的一階FIR高通數(shù)字濾波器來(lái)實(shí)現(xiàn)預(yù)加重,其中α為預(yù)加重系數(shù),0.9<α<1.0。經(jīng)預(yù)加重處理后的結(jié)果為
3 雙門限端點(diǎn)檢測(cè)
基于短時(shí)能量和短時(shí)過(guò)零率共同決定端點(diǎn)的方法,短時(shí)能量能分辨出清音和濁音,短時(shí)平均過(guò)零率能分辨出清音和靜音。一般的對(duì)參數(shù)設(shè)兩個(gè)門限值,設(shè)置的第一個(gè)低門限值用來(lái)粗略估計(jì)語(yǔ)音信號(hào)是否進(jìn)入語(yǔ)音階段,第二個(gè)門限值則確定語(yǔ)音信號(hào)進(jìn)入語(yǔ)音階段。
要通過(guò)多次實(shí)驗(yàn)確定檢測(cè)的高低門限,根據(jù)當(dāng)時(shí)的信噪比環(huán)境結(jié)合共同確定檢測(cè)的高低門限。信噪比的差異是由于語(yǔ)音的開(kāi)始和結(jié)束由于時(shí)間上的差異造成的,所以門限選擇的復(fù)雜性也就產(chǎn)生了。
具體步驟是把一個(gè)語(yǔ)音信號(hào)分成四個(gè)階段:靜音、開(kāi)始、過(guò)渡、結(jié)束四個(gè)階段。在編程過(guò)程中為了決定下一個(gè)是什么階段就設(shè)置一個(gè)量來(lái)辨別當(dāng)下的狀態(tài)。整個(gè)過(guò)程是在靜音階段開(kāi)始超過(guò)門限,則進(jìn)入語(yǔ)音段,而后低于門限進(jìn)入結(jié)束。判斷是以門限值為根據(jù),最短語(yǔ)音作為輔助來(lái)提高整體精度。為了防止一些突發(fā)性的噪聲,我們?cè)O(shè)置的最短語(yǔ)音和最短靜音就可以起到很好的作用。
在MATLAB環(huán)境下雙門限語(yǔ)音端點(diǎn)檢測(cè),對(duì)于語(yǔ)音信號(hào)的樣本,是采用麥克風(fēng)采集的語(yǔ)音信號(hào)‘’,保存方式是以wav格式存儲(chǔ)。開(kāi)始語(yǔ)音端點(diǎn)檢測(cè)之前,預(yù)處理采集到的語(yǔ)音信號(hào),包括分幀,加窗等。本文用漢明窗,通過(guò)窗函數(shù)特性為(1-0.93Z-1)的濾波器進(jìn)行預(yù)加重。而后設(shè)置參數(shù),設(shè)置語(yǔ)音幀長(zhǎng),幀移,F(xiàn)FT,門限閥值設(shè)置等。在環(huán)境比較安靜的條件下采集語(yǔ)音,為了更加有效的得出仿真結(jié)果,加隨機(jī)幅度序列與原始語(yǔ)音信號(hào)匹配,這樣提高了噪聲信號(hào)的短時(shí)能量,以及過(guò)零率,基于短時(shí)能量和過(guò)零率的語(yǔ)音端點(diǎn)檢測(cè)結(jié)果如圖2所示,基本可以反映有效的檢測(cè)效果。如果加高斯白噪聲以降低信號(hào)的信噪比,得出的結(jié)果就不能夠進(jìn)行有效的檢測(cè)了。
4 結(jié)語(yǔ)
語(yǔ)音端點(diǎn)檢測(cè)是語(yǔ)音識(shí)別中至關(guān)重要的部分,決定著識(shí)別的效果,而且減少了大量的計(jì)算。本文對(duì)于藏語(yǔ)語(yǔ)音的端點(diǎn)檢測(cè)算法進(jìn)行了研究,選擇了兩種不同特征參數(shù)的算法,并在MATLAB下進(jìn)行了仿真,其主要成果如下:
(1)首先進(jìn)行了傳統(tǒng)的基于短時(shí)能量和過(guò)零率的語(yǔ)音端點(diǎn)算法研究,進(jìn)行了實(shí)驗(yàn)仿真。
(2)選擇了藏語(yǔ)單音節(jié)進(jìn)行了研究,在不同噪聲的環(huán)境下進(jìn)行了仿真實(shí)驗(yàn)。
(3)根據(jù)同一語(yǔ)音信號(hào)分別在不同算法下進(jìn)行了仿真實(shí)驗(yàn)比較,評(píng)述了每一種端點(diǎn)檢測(cè)算法的優(yōu)點(diǎn)和缺點(diǎn)。實(shí)驗(yàn)證明藏語(yǔ)語(yǔ)音的端點(diǎn)檢測(cè)同樣可以得到很好的結(jié)果。
參考文獻(xiàn)
[1]胡光銳,韋曉東.基于倒譜特征的帶噪語(yǔ)音端點(diǎn)檢測(cè)[J].電子學(xué)報(bào),2000,28(10):95-97.
[2]張仁志,崔慧娟.基于短時(shí)能量的語(yǔ)音端點(diǎn)檢測(cè)算法研究[J]. 電聲技術(shù),2005(07):52-54.
[3]劉慶升,徐霄鵬,黃文浩.一種語(yǔ)音端點(diǎn)檢測(cè)方法的探究[J]. 計(jì)算機(jī)工程,2003,29(03):120-121.
[4]江官星,王建英.一種改進(jìn)的檢測(cè)語(yǔ)音端點(diǎn)的方法[J].微計(jì)算機(jī)信息,2006(05S):138-139.
[5]陳玉忠,俞士汶.藏文信息處理技術(shù)的研究現(xiàn)狀與展望[J].中國(guó)藏學(xué),2003(04).
[6]陳振標(biāo),徐波.基于子帶能量特征的最優(yōu)化語(yǔ)音端點(diǎn)檢測(cè)算法研究[J].聲學(xué)學(xué)報(bào),2005,30(02):171-176.
[7]劉華平,李昕,鄭宇等.一種改進(jìn)的自適應(yīng)子帶譜熵語(yǔ)音端點(diǎn)檢測(cè)方法[J].系統(tǒng)仿真學(xué)報(bào), 2008,20(05):1366-1371.
[8]徐大為,吳邊,趙建偉等.一種噪聲環(huán)境下的實(shí)時(shí)語(yǔ)音端點(diǎn)檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(01):115-117.
[9]劉曉明,覃勝,劉宗行等.語(yǔ)音端點(diǎn)檢測(cè)的仿真研究[J].系統(tǒng)仿真學(xué)報(bào),2005,17(08):1974-1976.
[10]李曄,張仁智,崔慧娟等.低信噪比下基于譜熵的語(yǔ)音端點(diǎn)檢測(cè)算法[J].a(a+1),2005(10):1.
[11]嚴(yán)劍峰,付宇卓.一種新的基于信息熵的帶噪語(yǔ)音端點(diǎn)檢測(cè)方法[J].計(jì)算機(jī)仿真,2006,22(11):117-119.
[12]朱淑琴,裘雪紅.一種精確檢測(cè)語(yǔ)音端點(diǎn)的方法[J].計(jì)算機(jī)仿真,2005,22(03):214-216.
[13]陳四根,和應(yīng)民.一種基于信息熵的語(yǔ)音端點(diǎn)檢測(cè)方法[J].應(yīng)用科技,2001,28(03):13-14.
[14]張德祥,吳小培,呂釗等.基于經(jīng)驗(yàn)?zāi)B(tài)分解和 Teager 峭度的語(yǔ)音端點(diǎn)檢測(cè)[J].儀器儀表學(xué)報(bào),2010(03):493-499.
[15]王博,郭英,韓立峰.基于熵函數(shù)的語(yǔ)音端點(diǎn)檢測(cè)算法研究[J].信號(hào)處理,2009,25(03):368-373.