摘要:本文選取短時(shí)能量、短時(shí)過零率、幅度信息熵三種經(jīng)典的特征分析方法,并結(jié)合BP神經(jīng)網(wǎng)絡(luò)作為特征分類系統(tǒng)進(jìn)行斷點(diǎn)檢測分析。將客觀檢測和以聽覺判斷對(duì)語音端點(diǎn)的主觀評(píng)測進(jìn)行誤差分析,比較各算法的效果,實(shí)驗(yàn)結(jié)果表明采用BP網(wǎng)絡(luò)和動(dòng)態(tài)閾值的雙門限法進(jìn)行端點(diǎn)判斷效果較好,而采用雙門限法檢測結(jié)果優(yōu)于使用特征值加BP神經(jīng)網(wǎng)絡(luò)。
關(guān)鍵字:雙門限法;信息熵;BP神經(jīng)網(wǎng)絡(luò);動(dòng)態(tài)閾值端點(diǎn)檢測;Matlab
中圖分類號(hào):TN915.5 文獻(xiàn)標(biāo)識(shí)碼:A
前言
語音端點(diǎn)檢測是語音分析、語音合成和語音識(shí)別中的一個(gè)必要環(huán)節(jié)。目前典型的三種端點(diǎn)檢測方法有三種:基于能量的端點(diǎn)檢測方法[6]、MFCC倒譜距離測量方法和基于譜熵[2]的語音端點(diǎn)檢測方法。但不同單一特征值對(duì)端點(diǎn)檢測的效果各有優(yōu)劣,并考慮到BP神經(jīng)網(wǎng)絡(luò)易于實(shí)現(xiàn)、良好的學(xué)習(xí)性、訓(xùn)練性及端點(diǎn)判斷的高準(zhǔn)確性等特點(diǎn),設(shè)法結(jié)合多種特征值綜合作為神經(jīng)網(wǎng)絡(luò)的輸入端內(nèi)容進(jìn)行端點(diǎn)檢測分析測試。通過實(shí)驗(yàn)測試來分析這三種方法的特點(diǎn)驗(yàn)證使用雙門限法檢測結(jié)果優(yōu)于使用特征值加BP神經(jīng)網(wǎng)絡(luò)。
一、雙門限法、信息熵法和BP神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)方法
本文建立一個(gè)包含語音短時(shí)能量En、短時(shí)過零率Zn和幅度信息熵H三種特征值作為特征輸入的BP神經(jīng)網(wǎng)絡(luò)。采用Matlab工具箱里的函數(shù)來建立BP網(wǎng)絡(luò),采用音頻段是在實(shí)驗(yàn)室條件下錄制5組音頻。采樣率為22050Hz,選擇每幀大概20ms以內(nèi)。具體測試步驟如下:
1.設(shè)計(jì)提取特征值數(shù)據(jù):
(1)利用En和短時(shí)過零率Zn結(jié)合的雙門限方法[3]進(jìn)行特征參數(shù)提取和檢測。
(2)對(duì)每幀求其幅度信息熵,計(jì)算出每幀信息熵為:(幅度值歸一化到[-10,10])。
2.建立訓(xùn)練樣本和測試樣本:選取a組中兩段音頻,分別采集3行400列共1200個(gè)語音段特征數(shù)據(jù)點(diǎn)作為訓(xùn)練輸入樣本,選相應(yīng)的1/0對(duì)應(yīng)語音段/非語音段為訓(xùn)練輸出樣本。提取整個(gè)音頻段m幀的過零率,短時(shí)能量和信息熵,產(chǎn)生3行Xm列的測試樣本。
3.建立BP網(wǎng)絡(luò),并訓(xùn)練網(wǎng)絡(luò):不同類的特征數(shù)據(jù)在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中需要轉(zhuǎn)換成統(tǒng)一標(biāo)尺的數(shù)據(jù),將歸一化處理提取的特征值樣本值和理想輸出值輸入到BP網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。
4.網(wǎng)絡(luò)測試:將訓(xùn)練好的網(wǎng)絡(luò)作用于測試數(shù)據(jù),這里用tramnmx函數(shù)做測試數(shù)據(jù)的歸一化處理。
5.根據(jù)測試結(jié)果判斷語音端點(diǎn)。
二、實(shí)驗(yàn)結(jié)果及分析
1.動(dòng)態(tài)閾值的雙門限法:測試結(jié)果見圖1(a),其中實(shí)線是由靜態(tài)閾值確定,虛線是有自適應(yīng)閾值確定。處理后對(duì)語音端點(diǎn)檢測可明顯看出一些噪音被濾除,端點(diǎn)檢測準(zhǔn)確性提高。雙門限法中閾值初始值和權(quán)值的確定不同則截取的起止點(diǎn)效果也不同,本文是對(duì)整個(gè)語音段數(shù)據(jù)做了平均值處理并乘以權(quán)值。
2.幅度信息熵法:比較圖1(b)和圖1(c),可以觀察信息熵方法比雙門限法對(duì)語音終止點(diǎn)的判斷結(jié)果更準(zhǔn)確,這是因?yàn)檎Z音幅度信息熵對(duì)于語音清濁音的特性反應(yīng)較好。
3.BP神經(jīng)網(wǎng)絡(luò)法:如圖1(d)。
起止點(diǎn)數(shù)據(jù)統(tǒng)計(jì):采用雙門限法、信息熵法和BP神經(jīng)網(wǎng)絡(luò)法測得的端點(diǎn)記錄摘取部分見表1。第b組語音采用音頻混音剪輯大師主觀截取并計(jì)算的端點(diǎn)幀數(shù)(起始點(diǎn)t1,終止點(diǎn)t2)見表2。
4.數(shù)據(jù)誤差:記錄第k組用算法客觀測試的起始點(diǎn)時(shí)刻為tk1,終止點(diǎn)時(shí)刻為tk2,采用音頻工具主觀測試的起始點(diǎn)時(shí)刻為t1,終止點(diǎn)時(shí)刻為t2,以主觀測試數(shù)據(jù)作為起止端點(diǎn)時(shí)刻的真值,計(jì)算起始點(diǎn)主客觀測試的相對(duì)誤差(終止點(diǎn)誤差算法相同),誤差圖見圖5、圖6。絕對(duì)誤差:;相對(duì)誤差:
5.根據(jù)語音端點(diǎn)幀數(shù)可計(jì)算出端點(diǎn)對(duì)應(yīng)的時(shí)刻t(分幀誤差暫忽略)。圖5、圖6是對(duì)四組語音段(每組5個(gè)詞)的起始點(diǎn)、終止點(diǎn)做出的誤差曲線圖。觀察圖5、圖6,看出動(dòng)態(tài)雙門限法測試結(jié)果較準(zhǔn)確,而BP網(wǎng)絡(luò)的方法檢測誤差比信息熵法的檢測誤差小,在第15~20點(diǎn)是女生語音段,因?yàn)閷?duì)神經(jīng)網(wǎng)絡(luò)做訓(xùn)練的語音組是男生語音,而該測試組聲音是女生的語音,所以主客觀測試誤差較大。
三、實(shí)驗(yàn)結(jié)論
從實(shí)驗(yàn)中發(fā)現(xiàn)采用改進(jìn)的動(dòng)態(tài)閾值雙門限法在起始點(diǎn)的判斷中效果較好。幅度信息熵法在語音終止點(diǎn)測試中效果較好。BP神經(jīng)網(wǎng)絡(luò)將這三種特征值結(jié)合判斷相對(duì)于單獨(dú)用信息熵方法增大了的端點(diǎn)檢測準(zhǔn)確性。本文采用BP網(wǎng)絡(luò)和動(dòng)態(tài)閾值的雙門限法進(jìn)行端點(diǎn)判斷效果較好,而采用雙門限法檢測結(jié)果優(yōu)于使用特征值加BP神經(jīng)網(wǎng)絡(luò)。在實(shí)驗(yàn)中存在BP網(wǎng)絡(luò)測試誤差較大主要因?yàn)榫W(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)量不多,并需要對(duì)訓(xùn)練集合數(shù)據(jù)進(jìn)行零均值處理。通過實(shí)驗(yàn)在第g組(g組為女生語音段)語音端點(diǎn)檢測的相對(duì)誤差較大,可以證實(shí)了男女聲音特點(diǎn)標(biāo)準(zhǔn)的不同。
參考文獻(xiàn):
[1]喬峰.基于信息熵和神經(jīng)網(wǎng)絡(luò)的語音端點(diǎn)檢測算法研究[D].太原理工大學(xué).2007.5
[2]張鐵威.基于小波分析與神經(jīng)網(wǎng)絡(luò)的語音端點(diǎn)檢測研究[D].大連理工大學(xué).2008.5
[3]朱青松,崔健,王凱,李勇.動(dòng)態(tài)閾值雙門限語音端點(diǎn)檢測研究[J]..科技創(chuàng)新導(dǎo)報(bào)-工程技術(shù).2009.No.14
[4]張震宇.基于MATLAB的語音端點(diǎn)檢測實(shí)驗(yàn)研究[N],浙江科技學(xué)院學(xué)報(bào),第19卷第3期,2007年9月
[5]AiniHussain,SalinaAbdulSamad,LiewBanFah,EndpotintDetectionofSpeechsignalUsingNeuralNetwork,TENCON2000,Proceedings,Malaysia,2000:271-274
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文