陳愛華,張石清
(臺州學院 電子與信息工程學院,浙江 臺州 318000)
語音端點檢測(Voice Activity Detection)是語音識別領(lǐng)域一個重要內(nèi)容,是語音信號處理的第一步,它主要是從音頻文件中確定語音片段的起止點,進而分辨出語音信號和非語音信號區(qū)域[1]。研究表明,即使是在理想條件下,語音識別技術(shù)的錯誤大部分都是由語音端點檢測不準確造成的[2],因此語音端點檢測在語音信號處理中具有重要的意義。
當前,語音端點檢測的方法很多,早期算法主要是基于時域特征進行檢測[3],如最早的語音端點檢測是以語音的短時能量和過零率特征來實現(xiàn)的[4],后來人們又將語音信號從時域轉(zhuǎn)換到頻域,并將熵特征引入到語音端點檢測中[5],提出了基于頻帶方差的檢測[6]、基于共振諧波的檢測[7]、基于倒譜域特征的檢測[8]等等。隨著人工智能的不斷發(fā)展,新的算法不斷涌現(xiàn),小波分析、人工神經(jīng)網(wǎng)絡(luò)、支持向量機等技術(shù)也應(yīng)用到了語音端點檢測中[9-11],取得了較好的效果。但在實際語言環(huán)境中,由于語音背景環(huán)境復(fù)雜,單一的語音端點檢測算法難以適應(yīng)各種環(huán)境,算法的魯棒性和準確性不高。近年來,新發(fā)展起來的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)通過采用多層網(wǎng)絡(luò)結(jié)構(gòu)進行層次化特征學習,表現(xiàn)出強大的非線性學習能力和預(yù)測能力[12],特別是在語音信號識別和增強方面表現(xiàn)出了優(yōu)越的性能[13-15][16]211。音頻文件的耳蝸特征具有較好的語音識別能力和噪聲魯棒性[17]168;短時特征可以有效地區(qū)分音頻信號的清音段和濁音段[18]755;……