藏語(yǔ)單音節(jié)的語(yǔ)音端點(diǎn)檢測(cè)

2015-04-29 00:00:00王振東黃鶴鳴

山東工業(yè)技術(shù) 2015年10期

摘要：預(yù)處理過(guò)程在語(yǔ)音識(shí)別中起著至關(guān)重要的作用。對(duì)于藏語(yǔ)語(yǔ)音識(shí)別的預(yù)處理研究借鑒的是英語(yǔ)單音節(jié)的語(yǔ)音處理方法，在語(yǔ)音識(shí)別系統(tǒng)中正確的判定輸入語(yǔ)音的起點(diǎn)、終點(diǎn)對(duì)于提高識(shí)別率是非常重要的。在高信噪比情況下，濾除噪聲是很容易的，用短時(shí)能量幅度就可以獲得較好的檢測(cè)結(jié)果。但在低信噪比情況下要想有效的去噪就必須采用短時(shí)能量幅度和短時(shí)平均過(guò)零率結(jié)合的方法。這篇文章采用兩種方法的結(jié)合來(lái)處理藏語(yǔ)單音節(jié)，可以做到準(zhǔn)確率較高的確認(rèn)語(yǔ)音的端點(diǎn)，并能在低信噪比情況下濾除噪聲，識(shí)別清濁音。實(shí)驗(yàn)證明了此種方法不僅正確，而且提高了檢測(cè)的準(zhǔn)確度。

關(guān)鍵詞：語(yǔ)音識(shí)別；端點(diǎn)檢測(cè)；預(yù)處理

1 引言

端點(diǎn)檢測(cè)就是把給出的一段語(yǔ)音找出該信號(hào)的起點(diǎn)和終點(diǎn)。預(yù)處理在語(yǔ)音識(shí)別系統(tǒng)中起著至關(guān)重要的作用，決定著識(shí)別率的高低，其中端點(diǎn)檢測(cè)的作用是對(duì)不必要的噪聲直接除去，減少存儲(chǔ)空間，提高計(jì)算機(jī)運(yùn)算的效率以及減少運(yùn)算量。更重要的是端點(diǎn)檢測(cè)可以增加語(yǔ)音識(shí)別的精確度，對(duì)語(yǔ)音段噪聲進(jìn)行特征識(shí)別，進(jìn)而除去噪聲所占有的能量盡量確保語(yǔ)音識(shí)別過(guò)程不受噪聲的干擾。對(duì)于藏語(yǔ)語(yǔ)音的端點(diǎn)檢測(cè)采用傳統(tǒng)的方法即短時(shí)平均過(guò)零率和短時(shí)能量。在背景噪聲較小的情況下，短時(shí)能量比較準(zhǔn)確，但當(dāng)背景噪聲較大時(shí)，短時(shí)平均過(guò)零率可以獲得較好的檢測(cè)結(jié)果。因此一般的識(shí)別系統(tǒng)，其前端的端點(diǎn)檢測(cè)過(guò)程都是將這兩個(gè)參數(shù)結(jié)合用于檢測(cè)語(yǔ)音的。

2 語(yǔ)音系統(tǒng)中端點(diǎn)檢測(cè)的方法

語(yǔ)音信號(hào)是時(shí)域上的非平穩(wěn)信號(hào)，所以處理平穩(wěn)信號(hào)的數(shù)字信號(hào)處理技術(shù)是不能直接使用了。但是在一段較短時(shí)間范圍內(nèi)（10ms-30ms）語(yǔ)音信號(hào)的特性基本相對(duì)穩(wěn)定，即語(yǔ)音信號(hào)具有短時(shí)平穩(wěn)性，也就是短時(shí)性。

2.1 預(yù)加重

（1）在處理不同的對(duì)象時(shí)，語(yǔ)音識(shí)別系統(tǒng)就會(huì)有相應(yīng)的處理方法，語(yǔ)音信號(hào)的特性決定了處理方法和模式基本相同，因此對(duì)于所有藏語(yǔ)語(yǔ)音單音節(jié)的處理就具有了解決方案，本文以單音節(jié)‘’為例進(jìn)行端點(diǎn)檢測(cè)。

首先確定語(yǔ)音信號(hào)的頻率范圍，一般的語(yǔ)音信號(hào)都在300-3400Hz之間，采樣過(guò)程取采樣頻率為8kHz，160個(gè)采樣點(diǎn)為一幀，80個(gè)采樣點(diǎn)為步長(zhǎng)。對(duì)輸入的藏語(yǔ)單音節(jié)‘’的數(shù)字語(yǔ)音信號(hào)進(jìn)行預(yù)加重，增加了高頻分辨率而且便于分析。本文采用傳遞函數(shù)為H（z）=1-αz-1的一階FIR高通數(shù)字濾波器來(lái)實(shí)現(xiàn)預(yù)加重，其中α為預(yù)加重系數(shù)，0.9<α<1.0。經(jīng)預(yù)加重處理后的結(jié)果為

3 雙門限端點(diǎn)檢測(cè)

基于短時(shí)能量和短時(shí)過(guò)零率共同決定端點(diǎn)的方法，短時(shí)能量能分辨出清音和濁音，短時(shí)平均過(guò)零率能分辨出清音和靜音。一般的對(duì)參數(shù)設(shè)兩個(gè)門限值，設(shè)置的第一個(gè)低門限值用來(lái)粗略估計(jì)語(yǔ)音信號(hào)是否進(jìn)入語(yǔ)音階段，第二個(gè)門限值則確定語(yǔ)音信號(hào)進(jìn)入語(yǔ)音階段。

要通過(guò)多次實(shí)驗(yàn)確定檢測(cè)的高低門限，根據(jù)當(dāng)時(shí)的信噪比環(huán)境結(jié)合共同確定檢測(cè)的高低門限。信噪比的差異是由于語(yǔ)音的開(kāi)始和結(jié)束由于時(shí)間上的差異造成的，所以門限選擇的復(fù)雜性也就產(chǎn)生了。

具體步驟是把一個(gè)語(yǔ)音信號(hào)分成四個(gè)階段：靜音、開(kāi)始、過(guò)渡、結(jié)束四個(gè)階段。在編程過(guò)程中為了決定下一個(gè)是什么階段就設(shè)置一個(gè)量來(lái)辨別當(dāng)下的狀態(tài)。整個(gè)過(guò)程是在靜音階段開(kāi)始超過(guò)門限，則進(jìn)入語(yǔ)音段，而后低于門限進(jìn)入結(jié)束。判斷是以門限值為根據(jù)，最短語(yǔ)音作為輔助來(lái)提高整體精度。為了防止一些突發(fā)性的噪聲，我們?cè)O(shè)置的最短語(yǔ)音和最短靜音就可以起到很好的作用。

在MATLAB環(huán)境下雙門限語(yǔ)音端點(diǎn)檢測(cè)，對(duì)于語(yǔ)音信號(hào)的樣本，是采用麥克風(fēng)采集的語(yǔ)音信號(hào)‘’，保存方式是以wav格式存儲(chǔ)。開(kāi)始語(yǔ)音端點(diǎn)檢測(cè)之前，預(yù)處理采集到的語(yǔ)音信號(hào)，包括分幀，加窗等。本文用漢明窗，通過(guò)窗函數(shù)特性為（1-0.93Z-1）的濾波器進(jìn)行預(yù)加重。而后設(shè)置參數(shù)，設(shè)置語(yǔ)音幀長(zhǎng)，幀移，F(xiàn)FT，門限閥值設(shè)置等。在環(huán)境比較安靜的條件下采集語(yǔ)音，為了更加有效的得出仿真結(jié)果，加隨機(jī)幅度序列與原始語(yǔ)音信號(hào)匹配，這樣提高了噪聲信號(hào)的短時(shí)能量，以及過(guò)零率，基于短時(shí)能量和過(guò)零率的語(yǔ)音端點(diǎn)檢測(cè)結(jié)果如圖2所示，基本可以反映有效的檢測(cè)效果。如果加高斯白噪聲以降低信號(hào)的信噪比，得出的結(jié)果就不能夠進(jìn)行有效的檢測(cè)了。

4 結(jié)語(yǔ)

語(yǔ)音端點(diǎn)檢測(cè)是語(yǔ)音識(shí)別中至關(guān)重要的部分，決定著識(shí)別的效果，而且減少了大量的計(jì)算。本文對(duì)于藏語(yǔ)語(yǔ)音的端點(diǎn)檢測(cè)算法進(jìn)行了研究，選擇了兩種不同特征參數(shù)的算法，并在MATLAB下進(jìn)行了仿真，其主要成果如下：

（1）首先進(jìn)行了傳統(tǒng)的基于短時(shí)能量和過(guò)零率的語(yǔ)音端點(diǎn)算法研究，進(jìn)行了實(shí)驗(yàn)仿真。

（2）選擇了藏語(yǔ)單音節(jié)進(jìn)行了研究，在不同噪聲的環(huán)境下進(jìn)行了仿真實(shí)驗(yàn)。

（3）根據(jù)同一語(yǔ)音信號(hào)分別在不同算法下進(jìn)行了仿真實(shí)驗(yàn)比較，評(píng)述了每一種端點(diǎn)檢測(cè)算法的優(yōu)點(diǎn)和缺點(diǎn)。實(shí)驗(yàn)證明藏語(yǔ)語(yǔ)音的端點(diǎn)檢測(cè)同樣可以得到很好的結(jié)果。

參考文獻(xiàn)

[1]胡光銳，韋曉東.基于倒譜特征的帶噪語(yǔ)音端點(diǎn)檢測(cè)[J].電子學(xué)報(bào)，2000，28（10）：95-97.

[2]張仁志，崔慧娟.基于短時(shí)能量的語(yǔ)音端點(diǎn)檢測(cè)算法研究[J]. 電聲技術(shù)，2005（07）：52-54.

[3]劉慶升，徐霄鵬，黃文浩.一種語(yǔ)音端點(diǎn)檢測(cè)方法的探究[J]. 計(jì)算機(jī)工程，2003，29（03）：120-121.

[4]江官星，王建英.一種改進(jìn)的檢測(cè)語(yǔ)音端點(diǎn)的方法[J].微計(jì)算機(jī)信息，2006（05S）：138-139.

[5]陳玉忠，俞士汶.藏文信息處理技術(shù)的研究現(xiàn)狀與展望[J].中國(guó)藏學(xué)，2003（04）.

[6]陳振標(biāo)，徐波.基于子帶能量特征的最優(yōu)化語(yǔ)音端點(diǎn)檢測(cè)算法研究[J].聲學(xué)學(xué)報(bào)，2005，30（02）：171-176.

[7]劉華平，李昕，鄭宇等.一種改進(jìn)的自適應(yīng)子帶譜熵語(yǔ)音端點(diǎn)檢測(cè)方法[J].系統(tǒng)仿真學(xué)報(bào)， 2008，20（05）：1366-1371.

[8]徐大為，吳邊，趙建偉等.一種噪聲環(huán)境下的實(shí)時(shí)語(yǔ)音端點(diǎn)檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用，2003，39（01）：115-117.

[9]劉曉明，覃勝，劉宗行等.語(yǔ)音端點(diǎn)檢測(cè)的仿真研究[J].系統(tǒng)仿真學(xué)報(bào)，2005，17（08）：1974-1976.

[10]李曄，張仁智，崔慧娟等.低信噪比下基于譜熵的語(yǔ)音端點(diǎn)檢測(cè)算法[J].a（a+1），2005（10）：1.

[11]嚴(yán)劍峰，付宇卓.一種新的基于信息熵的帶噪語(yǔ)音端點(diǎn)檢測(cè)方法[J].計(jì)算機(jī)仿真，2006，22（11）：117-119.

[12]朱淑琴，裘雪紅.一種精確檢測(cè)語(yǔ)音端點(diǎn)的方法[J].計(jì)算機(jī)仿真，2005，22（03）：214-216.

[13]陳四根，和應(yīng)民.一種基于信息熵的語(yǔ)音端點(diǎn)檢測(cè)方法[J].應(yīng)用科技，2001，28（03）：13-14.

[14]張德祥，吳小培，呂釗等.基于經(jīng)驗(yàn)?zāi)B(tài)分解和 Teager 峭度的語(yǔ)音端點(diǎn)檢測(cè)[J].儀器儀表學(xué)報(bào)，2010（03）：493-499.

[15]王博，郭英，韓立峰.基于熵函數(shù)的語(yǔ)音端點(diǎn)檢測(cè)算法研究[J].信號(hào)處理，2009，25（03）：368-373.

山東工業(yè)技術(shù)2015年10期

山東工業(yè)技術(shù)的其它文章: 涔天河水電站大波動(dòng)水力過(guò)渡過(guò)程電算與分析; 學(xué)科群資源庫(kù)管理流程的設(shè)計(jì); 建筑工程類專業(yè)實(shí)習(xí)實(shí)訓(xùn)評(píng)價(jià)體系的構(gòu)建; 智能化技術(shù)在電氣工程自動(dòng)化控制中的應(yīng)用; 煤礦頂板事故與地質(zhì)構(gòu)造關(guān)系探討; 關(guān)于電梯的安全管理及維修保養(yǎng)探析