王鐘斐
(寶雞文理學院 數(shù)學與信息科學學院,陜西 寶雞 721013)
基于雙門限-頻帶方差的語音端點檢測方法研究
王鐘斐
(寶雞文理學院 數(shù)學與信息科學學院,陜西 寶雞 721013)
為了提高語音信號端點檢測的準確率,提出了一種基于雙門限-頻帶方差的檢測方法。該方法將語音信號短時能量、短時過零率和頻帶方差結(jié)合起來,作為檢測語音信號起始位置和終止位置的參數(shù)。仿真實驗表明,該方法比傳統(tǒng)方法更有效、更優(yōu)越,能夠比較準確地檢測語音信號。
端點檢測;短時能量;短時過零率;頻帶方差;語音信號
在對語音信號進行分析處理之前必須把要分析的語音信號從輸入信號中找出來,這項工作叫語音信號的端點檢測[1]。而端點就是語音信號的有效起始位置和終止位置,其中含有音節(jié)、因素、詞素等的起始位置和終止位置。端點檢測工作就是把信號中有用的部分、感興趣的部分從原始信號中提取出來,與其他無關(guān)聯(lián)的部分分離開。通俗地講,端點檢測就是找出輸入信號中攜帶語音信息的部分信號,為進行各種分析處理工作提高操作對象,這就是語音端點檢測工作的目的。
目前,在語音信號處理系統(tǒng)中有很多端點檢測方法[2],這些方法在信噪比較高的環(huán)境下效果還是比較不錯的。但是,當信噪比比較低時,這些傳統(tǒng)的檢測方法效果不太理想,不能較準確的檢測出攜帶語音信息的部分信號。一般情況下,用短時能量鑒別端點在背景噪聲較小時比較為有效,而使用短時平均過零率鑒別端點在背景噪聲較大時比較為有效。
語音和噪聲的頻譜特性差異是很大的。在噪聲的頻譜中,各頻帶之間變化很平緩,這與“白噪聲”的稱謂相符;而語音則是有“色”的,各頻帶之間變化比較激烈。根據(jù)這一特征可以很明顯的區(qū)分語音和噪聲[3]。頻帶方差檢測法是將每幀信號的短時頻帶方差作為參數(shù),利用了信號的頻率信息。
為提高語音信號端點檢測效果,文中提出了一種基于雙門限—頻帶方差的檢測方法,該方法將語音信號短時能量、短時過零率和頻帶方差結(jié)合起來,作為檢測語音信號起始位置和終止位置的參數(shù),最后通過仿真實驗說明了該法取得了較好的效果。
傳統(tǒng)雙門限的端點檢測方法把語音短時能量和過零率結(jié)合起來,利用二者進行檢測。該方法采用兩級判別法,首先用語音的短時能量E判別,在此基礎(chǔ)上再用過零率進行第二次判別。做第一級判別時,通常采用雙門限方法。如圖1所示,根據(jù)短時能量首先選擇一個較高的門限R1,信號的能量大多在門限R1之上。可知:語音的起始位置和終止位置在該門限與短時能量包絡(luò)交點所對應的時間間隔之外 (即AB段向外)[4]。然后根據(jù)噪聲平均能量確定一個較低的門限R2,找到短時能量包絡(luò)與門限R2的兩個交點C和D,而CD段就是所判定的語音段。接下來作第二級判別,這次以短時平均過零率Z為依據(jù),從CD段之外的信號段去搜索短時平均過零率包絡(luò)與某個門限M3的交點E、F,如圖2。E和F就是語音段的起始位置和終止位置。

圖1 基于短時能量端點檢測原理

圖2 基于短時過零率端點檢測原理
計算某一幀信號的各頻帶能量的方差,將這種以短時頻帶方差作為參數(shù)檢測語音段起止端點的方法稱為頻帶方差檢測法[3]。
定義一個矢量X={x(ω0),x(ω1),…,x(ωn)},其中的分量x(ωi)定義為中心頻率為ωi的濾波器的輸出能量,它可以根據(jù)一幀信號通過一帶通濾波器來計算,也可以首先計算一幀信號的FFT,然后把幾個頻率分量組合而得。對于數(shù)字信號,最低頻是0,最高頻是π,其余各中心頻率按一定規(guī)則從0至π通增。
定義均值為

則頻帶方差為

檢測門限M,在實際應用中,具體門限值可以根據(jù)實際環(huán)境的背景噪聲特性來確定。一般取M=(3~5)Dr,Dr為背景噪聲的頻帶方差值。
為了更為準確的檢測語音信號的起止位置,文中提出了一種基于雙門限—頻帶方差的檢測方法,該方法將語音信號短時能量、短時過零率和頻帶方差結(jié)合起來,作為檢測語音信號起始位置和終止位置的參數(shù),其計算步驟如下:
1)對語音信號進行分幀加窗處理。
語音信號是時變的,為便于對其進行分析,要將其分成一段一段的,每段信號稱為一幀,每幀長度一般為10~30ms,認為在這個小時間段內(nèi)語音信號是平穩(wěn)的。用加窗函數(shù)來將語音信號分幀,文中采用漢明窗來處理。
2)計算每幀信號的短時能量。
短時能量是語言信號強度的度量參數(shù),反映語音信號的幅度變換。語音信號{x(n)}的短時能量定義為如下的表達式:

其中,h(n)為線性濾波器的單位沖擊響應,且h(n)=ω2(n),En表示在信號的第n個點開始加窗函數(shù)時的短時能量。
3)計算每幀信號的短時平均過零率。
短時平均過零率指每幀信號通過零值的次數(shù),可在一定程度上反映語音信號{x(n)}的頻譜性質(zhì)。其定義如下:

其中,sgn[·]是符合函數(shù),即

4)計算每幀信號的短時頻帶方差。
以信號的短時能量、短時過零率和短時頻帶方差作為參數(shù),按照本文的基于雙門限—頻帶方差的語音端點檢測方法檢測語音段起止端點。
用普通計算機麥克風錄入說話人的語音,將其保存為.wav文件,以漢語拼音a的.wav文件為例,進行說明。首先對給語音a以randn函數(shù)加入隨機噪聲,然后分別用基于短時能量、基于過零率和文中的基于雙門限—頻帶方差的方法對染噪語音進行端點檢測。得到結(jié)果如圖3~圖7。

圖3 原始語音波形

圖4 染噪語音波形

圖5 基于短時能量端點檢測

圖6 基于過零率端點檢測

圖7 本文的端點檢測方法

表1 不同端點檢測方法的準確率
從上面圖中波形和表中數(shù)據(jù)可知:文中方法無論對原始信號還是對染噪信號進行端點檢測,都有很好的效果,在波形上要比基于短時能量、過零率的方法清晰,在數(shù)據(jù)上要更加的準確,從而說明了文中方法的有效性和優(yōu)越性。
首先,文中介紹了傳統(tǒng)雙門限端點檢測方法;其次,討論了頻帶方差端點檢測方法[5];再次,提出了基于雙門限—頻帶方差的語音端點檢測方法[6-9],該方法在傳統(tǒng)基于能量和過零率的端點檢測方法基礎(chǔ)上,再加入每幀信號的頻帶方差;最后,用MATLAB軟件做仿真實驗,依次用4種方法對語音信號進行端點檢測,實驗表明文中的方法取得了比傳統(tǒng)方法更為理想的結(jié)果。
當然,文中的方法還有一定的不足之處,如:文中方法在較高噪聲下能否也得到較為準確的檢測結(jié)果?這是今后工作中亟待解決的問題。
[1]趙力.語音信號處理[M].北京:機械工業(yè)出版社,2003.
[2]顧亞強,趙暉,昊波.一種語音信號端點檢測的改進方法[J].計算機仿真,2010,27(5):340-343.
[3]王炳錫,屈丹,彭煊等.實用語音識別基礎(chǔ)[M].北京:國防工業(yè)出版社,2005.
[4]侯周國.基于HMM的漢語數(shù)字語音識別系統(tǒng)研究[D].湖南:湖南師范大學,2006.
[5]戴秋芳,吳曉軍.基于諧波分析的頻帶方差端點檢測方法[J].計算機仿真,2009,26(8):330-333.
[6]韓紀慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學出版社,2004.
[7]朱旭東.低成本播放大功率高保真數(shù)字語音的信號方法及快速驗證方法[J].電子設(shè)計工程,2016(7):125-128.
[8]張震,王化清.語音信號特征提取中Mel倒譜系MFCC的改進算法[J].計算機工程與應用,2008(22):54-55.
[9]趙力,王治平,盧韋 ,等.全局和時序結(jié)構(gòu)特征并用的語音信號情感特征識別方法[J].自動化學報,2004(3):423-429.
Speech endpoint detection m ethod research based on double threshold-frequency band variance
WANG Zhong-fei
(School ofMathematics and Information Science,BaojiUniversity of Arts and Sciences,Baoji721013,China)
In order to increase the accuracy of speech endpoint detection,the speech endpoint detection method based on double threshold-frequency band variance is proposed.The speech signal short-time energy,short-time zero-crossing rate and frequency band variance is combined asa parameter to detect the starting position and ending position ofspeech signals in this method.Simulation experiment shows that thismethod ismore effective and more superior than traditionalmethods,which could comparative accuratly detectspeech signal.
endpoint detection;short-time energy;short-time zero-crossing rate;frequency band variance;speech signal
TN912.3
A
1674-6236(2016)19-0086-03
2015-10-11稿件編號:201510055
陜西省教育廳科研計劃項目資助(2013JK0601);寶雞文理學院院級重點項目(ZK12093)
王鐘斐(1983—),女,陜西咸陽人,碩士,講師。研究方向:數(shù)據(jù)挖掘與網(wǎng)絡(luò)安全等。