999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BP神經(jīng)網(wǎng)絡(luò)的語音端點檢測算法研究

2019-04-19 12:42:10
數(shù)字通信世界 2019年3期
關(guān)鍵詞:檢測

李 震

(西安工業(yè)大學(xué),西安 710021)

1 神經(jīng)網(wǎng)絡(luò)算法及語音端點檢測背景

神經(jīng)網(wǎng)絡(luò)也稱人工神經(jīng)網(wǎng)絡(luò),是上世紀(jì)80年代興起的人工智能領(lǐng)域的研究熱點。它是以模擬生物神經(jīng)網(wǎng)絡(luò)進行信息處理得到的數(shù)學(xué)模型。神經(jīng)網(wǎng)絡(luò)的特點是并行分布式處理數(shù)據(jù),非線性處理,擁有自學(xué)能力且大多數(shù)神經(jīng)網(wǎng)絡(luò)可以硬件實現(xiàn),這就使得神經(jīng)網(wǎng)絡(luò)擁有更快的速度。由于神經(jīng)網(wǎng)絡(luò)算法的飛速發(fā)展,其應(yīng)用也越來越廣泛,比如圖像處理,語音識別領(lǐng)域,實時語言翻譯,等。本文著重研究分析神經(jīng)網(wǎng)絡(luò)在語音端點檢測(voice activity detection)方面的應(yīng)用。神經(jīng)網(wǎng)絡(luò)經(jīng)過幾十年的發(fā)展,網(wǎng)絡(luò)模型在不斷更新,ANN(arti fi cial neural networks)人工神經(jīng)網(wǎng)絡(luò),BP(back propagation)神經(jīng)網(wǎng)絡(luò),DNN(deep neural networks)深度神經(jīng)網(wǎng)絡(luò),CNN(convolutional neural networks)卷積神經(jīng)網(wǎng)絡(luò)等都是人工神經(jīng)網(wǎng)絡(luò)算法不斷發(fā)展的產(chǎn)物。本文將以BP神經(jīng)網(wǎng)絡(luò)算法為主研究其在語音端點檢測方面的應(yīng)用。[1]

語音端點檢測(voice activity detection)又稱VAD是語音識別或者語音處理系統(tǒng)中的預(yù)處理的步驟,主要是準(zhǔn)確的檢測出來非語音段和語音段,目的是為了更為準(zhǔn)確的處理語音段的內(nèi)容,使得語音處理更為高效。[2]VAD算法的發(fā)展歷史最早可以追溯到上世紀(jì)50年代,經(jīng)過幾十年的研究發(fā)展,VAD算法已經(jīng)比較成熟,常用的有基于短時能量和平均過零率法,頻譜的子帶方差法,以及在低信噪比條件下的譜減聯(lián)合方差法的VAD算法等,但是由于ANN的發(fā)展,近些年來人們發(fā)現(xiàn)ANN應(yīng)用于VAD上會有不錯的檢測識別率,速度較快且低信噪比條件下檢測識別率同樣較為穩(wěn)定。

2 BP神經(jīng)網(wǎng)絡(luò)算法

BP神經(jīng)網(wǎng)絡(luò)是上世紀(jì)80年代科學(xué)家提出的一種誤差反向傳播的多層前饋神經(jīng)網(wǎng)絡(luò),是目前應(yīng)用較為廣泛的神經(jīng)網(wǎng)絡(luò),本章主要分析其算法原理,對其發(fā)展背景及其歷史不再做闡述。[3]分析BP神經(jīng)網(wǎng)絡(luò)的算法原理首先從神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分析,如圖1所示,基本的BP神經(jīng)網(wǎng)絡(luò)大體上分為三層,從左向右分別為輸入層,隱藏層,以及輸出層。

輸入層只承擔(dān)輸入節(jié)點的作用,將特征值輸入即可,在正式算法中,輸入特征值要做歸一化處理,這樣會避免神經(jīng)網(wǎng)絡(luò)訓(xùn)練不擬合或者過擬合現(xiàn)象發(fā)生。

輸入層的輸出輸入到隱藏層的過程中要各自乘以不同的權(quán)值,初始權(quán)值的選擇建議選擇0~1之間的隨機數(shù)(權(quán)值的更新后面再分析),之后再乘以激活函數(shù)Sigmod(激活函數(shù)還有其他函數(shù),可根據(jù)需要選擇),激活函數(shù)的作用是使網(wǎng)絡(luò)更加強大,增加它的能力,使它可以學(xué)習(xí)復(fù)雜數(shù)據(jù),以及表示輸入輸出之間非線性的復(fù)雜的任意函數(shù)映射。因此,使用非線性激活函數(shù),我們便能夠從輸入輸出之間生成非線性映射,在網(wǎng)絡(luò)中向后推進以計算相對于權(quán)重的誤差(丟失)梯度時執(zhí)行反向優(yōu)化策略,然后相應(yīng)地使用梯度下降或任何其他優(yōu)化技術(shù)優(yōu)化權(quán)重以減少誤差。[4]

圖1 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

隱藏層的輸入來自輸入層的輸出乘以權(quán)重和激活函數(shù),輸出層的輸入同樣來自于隱藏層的輸出乘以權(quán)重和激活函數(shù),原理和上述類似,不再贅述。

BP神經(jīng)網(wǎng)絡(luò)的初始節(jié)點數(shù),隱藏層節(jié)點數(shù)和輸出層節(jié)點數(shù)都是可以靈活選擇的,這也可以適應(yīng)輸入特征值向量的變化。

BP神經(jīng)網(wǎng)絡(luò)權(quán)值的更新依賴于目標(biāo)值的選擇以及誤差的反向傳播,假設(shè)設(shè)定目標(biāo)值X,輸出值為X1,那么誤差值為|X-X1|,那么每個輸出節(jié)點都會產(chǎn)生誤差,并且會根據(jù)此輸出節(jié)點的上一層網(wǎng)絡(luò)連接的權(quán)值,進行比例分配。神經(jīng)網(wǎng)絡(luò)通過調(diào)整鏈接權(quán)重進行學(xué)習(xí),這種方法由誤差引導(dǎo),誤差就是訓(xùn)練數(shù)據(jù)所給出的正確答案和實際輸出之間的差值。上述權(quán)值更新只是簡單的原理表述,事實上,真正意義上的權(quán)值更新和反向傳播誤差要復(fù)雜得多,每次權(quán)值的更新都會受學(xué)習(xí)率也就是學(xué)習(xí)因子的影響,而學(xué)習(xí)率的更新采用的算法為梯度下降法和基于梯度下降法改進的方法。

3 MFCC參數(shù)提取

MFCC也就是梅爾頻率倒譜系數(shù),是語音識別中廣泛使用的特征,本文將使用MFCC參數(shù)結(jié)合BP神經(jīng)網(wǎng)絡(luò)進行語音端點檢測,下面分析MFCC參數(shù)提取的過程以及原理。[6]

MFCC是在mel標(biāo)度頻率域提取出來的倒譜參數(shù),mel標(biāo)度描述了人耳頻率的非線性特性,與頻率的關(guān)系如公式(1)所示:

完整的提取MFCC參數(shù)的過程如圖2所示:

圖2 提取MFCC參數(shù)的過程

原始信號假設(shè)為x(t),純凈噪音為h(t),噪音為e(t)那么有公式(2):

它們之間是一種卷積的關(guān)系,經(jīng)過fft變換之后

卷積變?yōu)槌朔e的關(guān)系,然后再經(jīng)過mel公式輸出:

然后對公式(4)兩邊取對數(shù)能量之后再對其進行離散余弦變換即可得到需要的特征值,要注意DCT系數(shù)取濾波器系數(shù)的一半。

MFCC參數(shù)提取出來,進行歸一化之后就可以輸入到BP神經(jīng)網(wǎng)絡(luò)輸入層,然后確定輸出層節(jié)點以及目標(biāo)值,即可進行訓(xùn)練。

4 實驗分析及總結(jié)

對于一段含噪聲的語音信號,先對其進行預(yù)處理,分幀之后,利用matlab進行MFCC參數(shù)提取,提取出來的參數(shù)進行歸一化處理便于神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,數(shù)值保留為32位浮點數(shù)。在訓(xùn)練之前要對訓(xùn)練數(shù)值進行標(biāo)記,標(biāo)記出目標(biāo)值,然后對神經(jīng)網(wǎng)絡(luò)的權(quán)值進行初始化操作,建議權(quán)值選擇0~1之間的數(shù)值,對于語音端點檢測來說,輸出層節(jié)點為一個,語音或者非語音,兩種結(jié)果,輸入層節(jié)點建議選擇為256,這樣一次可以輸入256個特征值。最后進行訓(xùn)練等待輸出結(jié)果,如果輸出值減去目標(biāo)值的絕對值大于0.5則認(rèn)為識別失敗,否則識別成功,訓(xùn)練完之后,進行端點檢測時候每次檢測一段語音則輸出識別率。

對于神經(jīng)網(wǎng)絡(luò)訓(xùn)練,采用低信噪比信號和高信噪比信號兩組,每組1000個樣本,每次五秒,采樣率16kHz,分男女聲和遠(yuǎn)近場聲,訓(xùn)練2000次,每次循環(huán)60次,學(xué)習(xí)率設(shè)置為0.01,訓(xùn)練完成之后自然錄制人聲進行端點檢測,檢測樣本為100個,平均檢測成功率93%,總體檢測效果較好。

VAD是語音處理系統(tǒng)的預(yù)處理步驟,有著十分重要的作用,雖然VAD技術(shù)發(fā)展較為成熟,但是在超低信噪比信號環(huán)境下傳統(tǒng)算法仍然束手無策,隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,以及GPU訓(xùn)練速度的加快,利用神經(jīng)網(wǎng)絡(luò)進行語音端點檢測是以后發(fā)展的趨勢,希望今后可以有更好的算法應(yīng)用于VAD上。

猜你喜歡
檢測
QC 檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
“有理數(shù)的乘除法”檢測題
“有理數(shù)”檢測題
“角”檢測題
“幾何圖形”檢測題
主站蜘蛛池模板: 天天色综合4| 国产精品一区二区无码免费看片| 国产亚洲欧美日韩在线一区| 亚洲欧洲免费视频| 亚洲视频黄| 国产精品免费露脸视频| 手机在线看片不卡中文字幕| 午夜视频在线观看免费网站| 国产精品亚洲综合久久小说| 美女扒开下面流白浆在线试听| 人妻精品久久无码区| 国产电话自拍伊人| 人妻丰满熟妇av五码区| 四虎在线观看视频高清无码| 91青青在线视频| 国产精品综合色区在线观看| 久久国产精品嫖妓| 国产91视频免费观看| 中文国产成人精品久久| 久操中文在线| 国产永久无码观看在线| 久久久久久国产精品mv| 日韩精品无码一级毛片免费| 日本高清有码人妻| 亚洲天堂网2014| 国产人免费人成免费视频| 免费高清a毛片| 伊人色在线视频| 天堂av高清一区二区三区| 免费国产一级 片内射老| 婷婷99视频精品全部在线观看| 天天色综合4| 四虎影视国产精品| 在线人成精品免费视频| 国产成人免费高清AⅤ| 啪啪啪亚洲无码| 国产经典免费播放视频| 亚洲国产看片基地久久1024| 91精品国产一区自在线拍| 久久国产精品波多野结衣| 欧美日韩激情在线| 欧美日韩精品在线播放| 四虎精品免费久久| 久久无码av三级| 91美女视频在线| 91欧美亚洲国产五月天| 国产凹凸视频在线观看| 二级特黄绝大片免费视频大片| 免费激情网站| 欧美日韩va| 亚洲色欲色欲www网| 国产亚洲精品自在线| AV天堂资源福利在线观看| 国产精品林美惠子在线播放| 亚洲视频免| 人妻丰满熟妇αv无码| 97视频精品全国免费观看| 婷婷六月综合网| 国产欧美日韩一区二区视频在线| 欧美日韩国产在线观看一区二区三区| 成人久久精品一区二区三区 | 色哟哟国产精品| 久无码久无码av无码| 日韩成人在线一区二区| 亚洲视频一区| 色久综合在线| 91人人妻人人做人人爽男同 | 亚洲国产综合自在线另类| 91国语视频| 日韩精品无码免费一区二区三区| 久久国产拍爱| 亚洲国产黄色| 成人午夜久久| 又黄又湿又爽的视频| 国产人妖视频一区在线观看| 亚洲欧美成人网| 国产全黄a一级毛片| 国产乱肥老妇精品视频| 国产美女自慰在线观看| 日本在线视频免费| 久久人妻xunleige无码| 特级aaaaaaaaa毛片免费视频|