董 胡
(長沙師范學院 電子與信息工程系,湖南 長沙 410100)
低信噪比環境下改進的語音端點檢測算法
董 胡
(長沙師范學院 電子與信息工程系,湖南 長沙 410100)
端點檢測在語音識別中具有非常重要的作用,其準確性將直接影響語音識別系統的正確率。為了提高低信噪比環境下語音端點檢測的正確率,提出了一種基于多窗譜估計的改進譜減法和能量譜熵的端點檢測算法。該算法首先利用多窗譜估計改進譜減法對含噪語音進行去噪以提高語音信號信噪比,接著對去噪后的語音信號使用新的能量譜熵算法進行端點檢測。仿真實驗結果表明,同常見端點檢測算法相比較,該算法在低信噪比環境下具有較好的端點檢測正確率且有一定的魯棒性,證明了該算法的有效性。
多窗譜估計;改進譜減法;譜熵;語音增強;端點檢測
語音端點檢測是信號處理的一個重要方面[1]。特征參數的提取是一些常見的端點檢測方法所普遍重視的方面,卻往往忽略了之前的語音增強工作,這將會對端點檢測的準確度產生影響[2-5]。相對于短時能量特征,文獻[6]提出了對數能量特征。它較好地解決了小幅度的輔音和靜音混淆問題,更不會出現短時能量中噪聲段特征值過大的情況,能較好地區別語音、噪聲和靜音。然而,在非平穩含噪環境下,能量較難區分語音與背景噪聲,而譜熵可克服能量這一缺點[7-8]。但是,在嘈雜噪聲和音樂噪聲之下,譜熵變得不穩定,而能量卻可抑制該不足之處。根據能量的加性性質,語音與噪聲的能量之和大于噪聲能量。
基于上述考慮,文中提出了多窗譜估計[9-10]改進譜減和能量譜熵相結合的語音端點檢測算法。首先,通過多窗譜估計改進譜減法對含噪語音信號進行譜減增強;接著,使用新的能量譜熵算法進行端點檢測。仿真結果表明,在低信噪比環境下,文中提出的新算法與文獻[11]提出的改進語音端點檢測法相比,有更好的端點檢測效果及魯棒性。
針對同一數據序列,周期圖法僅用單個數據窗,而多窗譜用多個正交的數據窗依次求直接譜,接著求平均以得到譜估計,從而能得到較小的估計方差[12]。多窗譜與周期圖相比是一種更準確的譜估計方法。
多窗譜定義為:
(1)
式中:L為數據窗個數;Smt為第k個數據窗的譜。
(2)
式中:x(n)為數據序列;N為序列長度;ak(n)為第k個數據窗,滿足多個數據窗互相正交。
(3)
數據窗也叫Slepian窗。Riedal和Siderenko提出下面的正弦窗:

(4)
正弦窗產生的局部偏差比Slepian窗更小,但卻具有大致一樣的頻譜集中度。
利用Matlab軟件對多窗譜估計函數和周期圖跟真實譜的差異進行對比。其中,周期圖使用Hamming窗,真實譜采用AR模型來估計。對比實驗采用兩個正弦信號疊加:
x(n)=cos(2π×50n)+3cos(2π×200n)
(5)
周期圖與多窗譜譜估計性能對比見圖1。

圖1 多窗譜與周期圖法譜估計性能對比
從圖1可知,周期圖法的方差性能要劣于多窗譜法。所以,采用多窗譜進行功率譜估計來實現語音增強,能更好地降低音樂噪聲。
利用Matlab的信號處理工具箱中的多窗譜功率譜估算函數pmtm,可估算多窗譜的功率譜密度,進而獲得譜減法中的增益因子,實現譜減語音增強運算[13]。具體步驟如下:
(1)令x(n)為帶噪語音,xi(n)為加窗分幀后信號,鄰幀之間有重疊。

(6)
以i幀為中心前后各取M幀,共有2M+1幀進行平均。實際中取M為1,即在3幀中進行平均。
(3)對分幀后的信號xi(m)進行多窗譜估計,可得多窗譜功率譜密度P(k,i)(i表示第i幀,k表示第k條譜線):
P(k,i)=PMTM[xi(m)]
(7)
式中,PMTM表示進行多窗譜功率譜密度估計。
(4)對多窗譜功率譜密度估計值也進行相鄰幀間平滑處理,計算平滑功率譜密度Py(k,i):
(8)
以i幀為中心前后各取M幀,共有2M+1幀進行平均。實際中取M為1,即在3幀中進行平均。
(5)已知前導無話段(噪聲)占有NIS幀,可以計算出噪聲的平均功率譜密度值Pn(k):
(9)
(6)利用譜減關系。
g(k,i)=

(10)
式中:α為過減因子;β為增益補償因子。
選擇恰當的α值能有效消除音樂噪聲,但α值過大則會引起語音失真。
(11)

(12)
多窗譜估計的改進譜減算法見圖2。
3.1 對數能量


圖2 多窗譜估計的改進譜減算法示意圖
LE(i) =lg(E(i)+a)-lga
(13)
(14)

文獻[14]實驗表明,當a=5×105時,取得了較好的端點檢測性能。
3.2 譜 熵
令x(n)為含噪的時域信號,加窗分幀之后得到第i幀信號xi(m),通過FFT變換,得到第k條譜線頻率分量fk的能量譜Yi(k)。定義每個信號頻率分量的歸一化譜概率密度函數為[15]:
(15)
式中:pi(k)為第i幀中第k個頻率分量fk的概率密度;N為FFT長度。
語音幀的譜熵定義為[15]:
(16)
3.3 能量譜熵特征計算
首先,將含噪語音信號通過多窗譜估計的改進譜減法進行降噪處理;接著,對降噪后的信號進行分幀與加窗,再分別計算對數能量與譜熵;最后,將對數能量與譜熵作除法運算,其結果記為B(i)。具體計算表達式定義如下:

(17)
最終能量譜熵特征計算公式定義如下:
(18)
低信噪比環境下可利用譜熵進行端點檢測,而語音信號能量大小的變化則可通過對數能量反映。在無噪聲情況下,噪音幀和語音幀的對數能量區別非常明顯,因此將兩者相除,形成了新的特征參數——能量譜熵。結合兩種算法自身一定的抗噪能力,將二者結合起來,在低信噪比環境下的檢測能力也有了一定程度的提高,魯棒性得到增強。
實驗語音樣本使用TIMIT語音庫中450條連續語音,16 kHz采樣頻率,16 bit量化,單聲道wav格式。加噪數據使用NOISEX 92標準噪聲庫,分別添加white、pink、volvo噪聲至純凈語音樣本中,分別形成-5dB、0dB、5dB和10dB的含噪語信號1 500條。
含噪語音信號經多窗譜估計改進譜減法增強之后,接著采用能量譜熵法進行端點檢測。為了檢驗文中提出的端點檢測算法的效果,分別在white、pink及volvo噪聲環境下,將其和文獻[11]提出的端點檢測法作比較,具體見圖3~5。

圖3 SNR=-5 dB時white環境下端點檢測效果比較

圖4 SNR=-5 dB時pink環境下端點檢測效果比較

圖5 SNR=5 dB時volvo環境下端點檢測效果比較
從圖3、圖5及表1可知,文中提出的能量譜熵算法和文獻[11]提出的端點檢測算法均可在低信噪比環境下檢測出語音的起止端點,但文獻[11]提出的端點檢測算法的端點檢測正確率卻低于文中提出的能量譜熵端點檢測法。

表1 端點檢測正確率比較
從圖4可知,文獻[11]提出的端點檢測算法能檢測出語音端點位置但存在漏檢,而文中提出的能量譜熵算法卻不存在。說明能量譜熵算法有更好的端點檢測特性,在低信噪比環境下有更高的端點檢測正確率。端點檢測正確率定義如下:
錯誤幀數=語音誤判為噪聲的幀數+噪聲誤判為語音的幀數
(19)
正確率=(總幀數-錯誤幀數)/總幀數
(20)
文中提出了一種低信噪比環境下的語音端點檢測算法。該算法通過對含噪語音信號先用多窗譜估計改進譜減法進行增強,提高了語音信號的信噪比,接著采用能量譜熵算法進行端點檢測。仿真實驗結果表明,該算法在低信噪比環境下能較好地實現語音端點檢測,具有良好的抗噪性能,魯棒性較強,適于實際端點檢測應用,從而證明該算法是一種較有效的低信噪比端點檢測算法。但是,由于實際背景噪聲變化性大,如何進一步改善算法,使其適應更復雜的低信噪比環境將是今后研究工作的重點。
[1] 董 胡.倒譜距離和短時能量的語音端點檢測方法研究[J].計算機技術與發展,2014,24(7):77-79.
[2]RabinerLR,SamburMR.Analgorithmfordeterminingtheendpointsofisolatedutterances[J].BellSystemTechnicalJournal,1975,54(2):297-315.
[3] 武 薇,范影樂,龐 全.基于廣義維數距離的語音端點檢測方法[J].電子與信息學報,2007,29(2):465-468.
[4] 閆潤強,朱貽盛.基于信號遞歸度分析的語音端點檢測方法[J].通信學報,2007,28(1):35-39.
[5]JiaChuan,XuBo.Animprovedentropy-basedendpointdetectionalgorithm[C]//ProceedingsofISCSLP.Taiwan,China:[s.n.],2002:96-99.
[6] 肖述才,王作英.端點檢測中的一種新的對數能量特征[J].電聲技術,2004(6):37-41.
[7]HuangLS,YangCH.Anovelapproachtorobustspeechendpointdetectionincarenvironments[C]//ProcofIEEEinternationalconferenceonacoustics,speechandsignalprocessingproceedings.Istanbul,Turkey:IEEE,2000:1751-1754.
[8] 李榮榮,胡昌奎,余 娟.基于譜熵的語音端點檢測算法改進研究[J].武漢理工大學學報,2013,35(7):134-139.
[9] 武鵬鵬,趙 剛,鄒 明.基于多窗譜估計的改進譜減法[J].現代電子技術,2008,31(12):150-152.
[10] 彭 軍,王 忠,劉興濤,等.基于多窗譜相關加權語音增強[J].計算機仿真,2011,28(3):142-145.
[11] 魯遠耀,周 妮,肖 珂,等.強噪聲環境下改進的語音端點檢測算法[J].計算機應用,2014,34(5):1386-1390.
[12]ThomsonDJ.Spectrumestimationandharmonicanalysis[J].ProcofIEEE,1982,70(9):1055-1096.
[13]HuYi,LoizouPC.Incorporatingapsychoacousticalmodelinfrequencydomainspeechenhancement[J].IEEESignalProcessingLetters,2004,11(2):270-273.
[14] 王 民,孫 廣,沈利榮,等.基于對數能量倒譜特征的端點檢測算法[J].計算機工程與應用,2014,50(16):198-201.
[15]ZhaoH,ZhaoLX,ZhaoK,etal.Voiceactivitydetectionbasedondistanceentropyinnoisyenvironment[C]//Procof5thinternationaljointconferenceonINC,IMS,andIDC.Seoul,Korea:IEEEComputerSociety,2009:1364-1367.
Improved Speech Endpoint Detection under Low SNR Environment
DONG Hu
(Department of Electronic and Information Engineering,Changsha Normal University,Changsha 410100,China)
Endpoint detection has a very important role in speech recognition,its accuracy will directly affect the accuracy of speech recognition system.In order to improve the accuracy of speech endpoint detection under low SNR environment,an endpoint detection algorithm based on spectral subtraction of multitaper spectrum estimation and spectral entropy is proposed.Firstly,it uses improved spectral subtraction of multitaper spectrum estimation to denoise speech signal in order to improve signal to noise ratio,and then it utilizes energy-entropy-ratio algorithm to make endpoint detection for speech signal denoised.Simulation experiment results show that compared with common endpoint detection algorithm,this algorithm has good endpoint detection accuracy and certain robustness in low SNR environment.It proves the effectiveness of the proposed algorithm.
multitaper spectrum estimation;improved spectral subtraction;spectral entropy;speech enhancement;endpoint detection
2015-06-22
2015-09-24
時間:2016-02-18
湖南省科技計劃項目(2012FJ3010);湖南省教育科研項目(12C0952);長沙師范學院科研基金項目(XXZD201218);長沙師范學院大學生研究性學習和創新性實驗計劃項目(DXYC201510)
董 胡(1982-),男,講師,碩士,研究方向為信號處理及嵌入式設計。
http://www.cnki.net/kcms/detail/61.1450.TP.20160218.1636.064.html
TN912.35
A
1673-629X(2016)03-0071-04
10.3969/j.issn.1673-629X.2016.03.017