999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

復(fù)雜環(huán)境下基于自適應(yīng)深度神經(jīng)網(wǎng)絡(luò)的魯棒語音識別*

2022-06-23 03:10:06張開生趙小芬
計算機(jī)工程與科學(xué) 2022年6期
關(guān)鍵詞:特征模型

張開生,趙小芬

(陜西科技大學(xué)電氣與控制工程學(xué)院,陜西 西安 710021)

1 引言

隨著人工智能的迅速發(fā)展,語音識別技術(shù)作為人機(jī)接口的關(guān)鍵技術(shù),受到國內(nèi)外學(xué)者的廣泛關(guān)注[1 - 4]。近年來,深度神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network)因其強(qiáng)大的建模能力逐漸發(fā)展為語音識別領(lǐng)域的主流模型[5]。相比于傳統(tǒng)的高斯混合-隱馬爾科夫模型GMM-HMM(Gaussian Mixture Model-Hidden Markov Model)[6],DNN在語音識別任務(wù)中具有顯著的優(yōu)勢。然而,在連續(xù)語音識別系統(tǒng)中,由于說話人及環(huán)境噪聲具有多變性,造成訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)之間的不匹配,導(dǎo)致語音識別效果往往難以令人滿意[7]。針對這個問題,自適應(yīng)技術(shù)應(yīng)運(yùn)而生,它被證明能有效減少說話人差異及環(huán)境變化帶來的影響[8]。目前,主流自適應(yīng)技術(shù)主要分為基于最大后驗(yàn)概率MAP(Maxumum A Posteriori)準(zhǔn)則的自適應(yīng)方法、基于最大似然回歸MLLR(Maximum Likelihood Linear Regression)和基于說話人聚類的方法[9]。其中,基于MAP的說話人自適應(yīng)通常是假設(shè)說話人相關(guān)SD(Speaker Dependent)模型的參數(shù)服從某種假定的先驗(yàn)分布。基于MLLR自適應(yīng)方法,通常是在最大似然準(zhǔn)則下,利用經(jīng)過變換后的說話人無關(guān)SI(Speaker Independent)模型得到SD模型,雖然這種自適應(yīng)方式所需數(shù)據(jù)量相對較少,但是漸進(jìn)性能較差。基于本征音自適應(yīng)方法是說話人聚類的典型方法,該方法通過模型參數(shù)進(jìn)行主分量分析PCA(Principal Component Analysis)得到SD模型參數(shù)的一組基,在自適應(yīng)階段對得到的新的SD模型參數(shù)進(jìn)行限制,從而達(dá)到說話人自適應(yīng)的目的。

針對上述說話人識別自適應(yīng)技術(shù),相關(guān)學(xué)者進(jìn)行了大量的研究,屈丹等[10]將本征音子說話人空間說話人自適應(yīng)算法用于克服自適應(yīng)數(shù)據(jù)量不足時引起的過擬合現(xiàn)象,使用高斯混合模型對本征音子說話人進(jìn)行建模,在數(shù)據(jù)量極少的情況下,在一定程度上克服了過擬合的現(xiàn)象,提升了語音識別率。2018年,金超等[11]將i-vector向量作為說話人輔助信息融入DNN聲學(xué)模型中,在特征空間中進(jìn)行說話人自適應(yīng),將系統(tǒng)單詞錯誤率降低了7.7%。2019年,婁英丹等[12]將MAP和MLLR 2種自適應(yīng)技術(shù)相結(jié)合,并將結(jié)合后的自適應(yīng)技術(shù)應(yīng)用于遠(yuǎn)場噪聲混響條件下的語音識別,在一定程度上降低了詞錯誤率。

結(jié)合上述語音識別自適應(yīng)技術(shù)的思路及優(yōu)缺點(diǎn),本文提出一種新的基于自適應(yīng)神經(jīng)網(wǎng)絡(luò)的語音識別算法,改進(jìn)自適應(yīng)準(zhǔn)則及特征空間,將說話人身份信息i-vector向量及噪聲感知融入系統(tǒng)模型,并將其應(yīng)用到復(fù)雜環(huán)境下的語音識別,消除說話人特征的差異性及環(huán)境噪聲變化的影響,通過提高模型訓(xùn)練數(shù)據(jù)集及測試數(shù)據(jù)集間的匹配度,進(jìn)一步提升語音識別率。

2 基于DNN的聲學(xué)模型建立

深度神經(jīng)網(wǎng)絡(luò)其本質(zhì)上是一個具有多個隱藏層的多層感知器MLP(MultiLayer Perceptron),包含輸入層、隱藏層和輸出層[13]。圖1所示為一個5層結(jié)構(gòu)DNN,最開始的一層為輸入層,記為第0層,輸出層記為第L層。在第L層中,有:

αl=f(Wlαl-1+βl),0

(1)

其中,αl∈RNl×1,Wl∈RNl×Nl-1,βl∈RNl×1,Nl∈R分別為激活向量、權(quán)重矩陣、偏差系數(shù)矩陣和一層神經(jīng)元的個數(shù)。f(·)為對激勵向量進(jìn)行計算的激活函數(shù),一般選用Sigmoid函數(shù),其表達(dá)式如式(2)所示:

(2)

tanh函數(shù)為Sigmoid函數(shù)的調(diào)節(jié)版本,二者建模能力相當(dāng),其表達(dá)式如式(3)所示:

(3)

Figure 1 Typical DNN structure 圖1 典型DNN結(jié)構(gòu)

另外,還可以采用Relu、Maxout或者一些新興激活函數(shù)。在DNN的計算中,每一層的輸出都只受到前一層輸入的影響,假設(shè)一個特征向量記為γ,計算出從第1層到第L-1層的激活向量,并通過分類計算,得到最終的輸出結(jié)果,這個過程稱為前向計算。傳統(tǒng)的DNN分類函數(shù)一般選用Softmax函數(shù)來進(jìn)行特征的歸一化,其表達(dá)式如式(4)所示:

(4)

在進(jìn)行DNN參數(shù)訓(xùn)練的時候,常用的訓(xùn)練方法為誤差反向傳播方法BP(Back Propagation),將擁有一定隱藏層的DNN從一個輸入空間映射到輸出空間,其表示如式(5)所示:

RI→RO

(5)

其中,R表示向量空間。

在訓(xùn)練的過程中需要一定的訓(xùn)練準(zhǔn)則及學(xué)習(xí)算法。常用的訓(xùn)練準(zhǔn)則有均方誤差MSE(Mean Square Error)準(zhǔn)則和交叉熵CE(Cross Entropy)準(zhǔn)則。根據(jù)不同的應(yīng)用場景,訓(xùn)練準(zhǔn)則的選取也有差異,對于回歸任務(wù),一般采用MSE準(zhǔn)則,如式(6)所示:

(6)

其中,S={(om,ym)|1≤m

(7)

確定了訓(xùn)練準(zhǔn)則后,通過誤差反向傳播算法進(jìn)行學(xué)習(xí)。假設(shè)隱藏層采用的激活函數(shù)為Sigmoid函數(shù),誤差經(jīng)過i層回傳,此時第l層誤差的表達(dá)式如式(8)所示:

(8)

其中Q為損失函數(shù)。采用梯度下降算法更新參數(shù),迭代更新表達(dá)式如式(9)和式(10)所示:

(9)

(10)

其中ξ為學(xué)習(xí)率,通常根據(jù)經(jīng)驗(yàn)獲得。進(jìn)而可求得網(wǎng)絡(luò)參數(shù)的梯度如(11)和式(12)所示:

(11)

(12)

3 DNN聲學(xué)模型

DNN系統(tǒng)通常基于訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)滿足一個相同的概率分布的假設(shè)條件,該特性類似于其它機(jī)器學(xué)習(xí)技術(shù)。然而在語音識別時,由于說話人和說話環(huán)境通常處于一個多變的狀態(tài),這個假設(shè)通常難以滿足,導(dǎo)致訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)之間不匹配。基于該原因,DNN自適應(yīng)技術(shù)應(yīng)運(yùn)而生。不同于傳統(tǒng)混合高斯模型,DNN為鑒別性模型,應(yīng)用于二者的自適應(yīng)方式有所不同。通常DNN自適應(yīng)方式可歸結(jié)為線性變換、保守訓(xùn)練及子空間法[14],如圖2所示。

Figure 2 Classification of DNN adaptive technology 圖2 DNN自適應(yīng)技術(shù)分類

(13)

其中N0為輸入層大小。其變換后的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,圖中方框中的部分為添加的線性隱藏層。

Figure 3 DNN structure after linear changed圖3 線性變化后的DNN結(jié)構(gòu)

線性變換法雖然取得了不錯的自適應(yīng)效果,但是仍然無法突破DNN固有特性的限制,有學(xué)者提出通過調(diào)整所有參數(shù)來改善這種限制,但是該種方式被證實(shí)會破壞DNN之前學(xué)習(xí)到的信息。保守訓(xùn)練是解決該問題的方式,一般采用L2正則項(xiàng)或者KL(Kullback-Leibler)距離正則項(xiàng)的方式對自適應(yīng)準(zhǔn)則進(jìn)行約束。另外一種DNN的自適應(yīng)方式為子空間方法,子空間法將說話人特征信息映射到一個特定的子空間中,利用神經(jīng)網(wǎng)絡(luò)的權(quán)值或自適應(yīng)變換將其作為參數(shù)空間的一個數(shù)據(jù)點(diǎn),然后進(jìn)行自適應(yīng)網(wǎng)絡(luò)的構(gòu)建。主成分分析法、噪聲感知和張量基等都是這個領(lǐng)域中比較有前景的技術(shù)。

3.1 改進(jìn)正則化自適應(yīng)準(zhǔn)則

L2正則化通過添加懲罰項(xiàng)來約束自適應(yīng)準(zhǔn)則,假設(shè)自適應(yīng)模型W是由說話人無關(guān)模型VS經(jīng)過一個自適應(yīng)準(zhǔn)則J(W,β;S)得到的,則:

(14)

其中,vec(VS-W)是矩陣VS-W中所有的列向量連接起來得到的向量。引入L2正則項(xiàng)約束,得到約束后的自適應(yīng)準(zhǔn)則,如式(15)所示:

JL2(W,β;S)=J(W,β;S)+ηR2(VS,W)

(15)

其中,η為正則項(xiàng)參數(shù),通過L2正則項(xiàng)約束后,自適應(yīng)后的模型與說話人無關(guān)模型之間參數(shù)的波動范圍將得到有效限制。

KL距離正則項(xiàng)的目的在于避免自適應(yīng)模型估計的senone后驗(yàn)概率與未自適應(yīng)模型估計的后驗(yàn)概率差距過大。KL距離可以良好地衡量概率間差異,與DNN輸出為概率分布特性相吻合。因此,將KL距離作為一個約束項(xiàng)添加到自適應(yīng)準(zhǔn)則中,去除模型無關(guān)項(xiàng)后,得到KL正則化優(yōu)化準(zhǔn)則,如式(16)所示:

JKL(W,β;S)=(1-η)J(W,β;S)+

ηRKL(VS,βS;W,β;S)

(16)

其中:

RKL(VS,βS;W,β;S)=

(17)

其中,PS(i|om;VS,βS)為說話人無關(guān)DNN中估計出的第m個觀測樣本屬于類別i的概率,P(i|om;W,β)為自適應(yīng)DNN第m個觀測樣本om屬于類別i的概率。概率可通過交叉熵準(zhǔn)則得到。為了充分結(jié)合L2正則項(xiàng)及KL正則項(xiàng)的優(yōu)點(diǎn),本文對正則化自適應(yīng)準(zhǔn)則進(jìn)行改進(jìn),突破傳統(tǒng)單一正則約束的限制,將二者進(jìn)行結(jié)合,提出加權(quán)平均正則化方法,得到新型正則化約束表達(dá)式,如式(18)所示:

RKL(VS,βS;W,β;S)]}

(18)

其中,λ′為改進(jìn)后的正則化權(quán)重。

3.2 特征子空間估計參數(shù)建模

在改進(jìn)正則化自適應(yīng)準(zhǔn)則后,利用自適應(yīng)后的權(quán)值估計一個特定說話人矩陣,記為FA∈Rm×n,該矩陣可被認(rèn)為是在m×n維說話人子空間中的一個隨機(jī)變量的觀察值。假設(shè)n個說話人的均值超矢量如式(19)所示:

(19)

則所有說話人超矢量表示為f={τ(d)|d=1,2,…,n}構(gòu)成了一個說話人子空間,然后對f進(jìn)行主分量分析,由PCA近似得到的特征向量線性組合來表示新的說話人自適應(yīng)矩陣。在這個特征子空間中維數(shù)最大為n,主分量分析之后得到p個基矢量。為了突破傳統(tǒng)說話人子空間只能在自適應(yīng)前確定的局限性,本文借鑒文獻(xiàn)[15]中的子空間動態(tài)選擇方式,采用最大似然準(zhǔn)則代替?zhèn)鹘y(tǒng)加權(quán)系數(shù)的選擇方式[15],針對每個說話人選擇最優(yōu)的子空間,得到說話人的超矢量最大似然估計。

3.3 改進(jìn)DNN輸出層分類激活函數(shù)

前文提到,DNN在訓(xùn)練完畢后,通過輸出層得到最終的結(jié)果輸出,可以把這個輸出結(jié)果理解為概率,一般選用Softmax函數(shù)進(jìn)行歸一化處理,因此多分類之后的概率之和也為1。圖4所示為Softmax歸一化處理的過程。

Figure 4 Softmax normalization process圖4 Softmax歸一化過程

假設(shè)x0,x1,…,xn為若干個輸入語音特征,經(jīng)過Softmax函數(shù)之后得到若干個[0,1]的數(shù)字輸出,且P(x0)+P(x1)+…+P(xn)=1。Softmax函數(shù)表示如式(20)所示:

(20)

其中,q為訓(xùn)練數(shù)據(jù)所屬類別。Softmax降低了訓(xùn)練的難度,并且在一定程度上抑制了過擬合現(xiàn)象的發(fā)生,但是并未保證類內(nèi)緊湊、類間分離的特性。因此,僅僅使用限定的訓(xùn)練集顯得微不足道。由于Softmax損失采用cosine距離作為分類預(yù)測標(biāo)準(zhǔn),因此預(yù)測標(biāo)簽由各個類的角度相似性決定,因此本文引入文獻(xiàn)[16]中的L-Softmax方式進(jìn)一步優(yōu)化Softmax,從而使所學(xué)特性之間存在更大的角分離性[16]。優(yōu)化后的Softmax表達(dá)式如式(21)所示:

LL-Softmax=

(21)

其中,Wyi表示全連接層W的yi列,xi表示第i個輸入。θj是Wj和xi之間的角度,θyi是Wyi與xi之間的角度。

(22)

經(jīng)過優(yōu)化之后的L-Softmax不僅有利于分類,并且保證了樣本類內(nèi)緊湊、類間分離的特性。另外,考慮到Softmax函數(shù)涉及指數(shù)運(yùn)算,在計算機(jī)上進(jìn)行運(yùn)算時,可能會出現(xiàn)數(shù)據(jù)溢出導(dǎo)致結(jié)果異常的情況,因此對式(22)實(shí)行進(jìn)一步的改進(jìn),通過分子分母同乘一個常數(shù)的方式,既能限制數(shù)據(jù)帶寬又能保持結(jié)果不變。改進(jìn)后的Softmax函數(shù)記為LC-Softmax函數(shù),其表達(dá)式如式(23)所示:

LLC-Softmax=

(23)

其中H為常數(shù)。

4 復(fù)雜環(huán)境下的DNN語音識別

在搭建完整的模型框架之后,需要進(jìn)一步考慮說話人及環(huán)境變化對系統(tǒng)產(chǎn)生的影響。在傳統(tǒng)的GMM-HMM系統(tǒng)中,采用聲道長度歸一化VTLN(Vocal Tract Length Normalization)和特征空間最大似然回歸fMLLR(feature-space Maximum Likelihood Linear Regression)克服說話人多樣性[17]帶來的問題。fMLLR本質(zhì)上是作用在特征向量上的仿射變換,將其運(yùn)用在測試集上,輸入原始特征生成識別結(jié)果,利用識別結(jié)果估計fMLLR,變換后得到新的特征再進(jìn)行識別。為了克服環(huán)境變化,傳統(tǒng)的GMM系統(tǒng)通常采用向量泰勒級數(shù)VTS (Vector Taylor Series)、自適應(yīng)和最大似然線性回歸。然而由于DNN本質(zhì)上為生成鑒別式模型,傳統(tǒng)的克服說話人及環(huán)境多樣性的方式需要進(jìn)一步擴(kuò)展。依據(jù)DNN特性,本文引入i-vector技術(shù)來克服說話人差異信息對特征的影響,此過程不僅可以減少說話人差異產(chǎn)生的影響,同時可將語義信息進(jìn)行保留。引入噪聲感知訓(xùn)練自動學(xué)習(xí)帶噪語音與噪聲到狀態(tài)標(biāo)注的映射關(guān)系,在一定程度上可減輕環(huán)境變化對語音識別率的影響。

4.1 i-vector技術(shù)分析及應(yīng)用

i-vector技術(shù)的基本原理可以表述為:首先將描述說話人最重要的特征信息進(jìn)行壓縮,然后將壓縮后的特征信息在一個低維固定長度中表示出來。利用i-vector良好的區(qū)分說話人信息的能力,去除語音特征中的說話人信息,保留需要的語義信息。另外,i-vector構(gòu)建了一個獨(dú)立的變換子空間來對語音信號的變化進(jìn)行建模,其中語音信息包括說話人信息及信道信息變換。其表達(dá)式如式(24)所示:

Cs=k+Dws

(24)

其中,Cs為說話人均值超矢量;k為UBM(Universal Background Model)超矢量,UBM表示一個通用的背景模型;D表示總體變化子空間矩陣,將均值超矢量映射到低維,得到低維矢量ws。關(guān)于i-vector的計算文獻(xiàn)[18,19]中有詳細(xì)描述。將i-vector向量融入DNN結(jié)構(gòu)中,如圖5所示,圖中w1,w2,…,wn為提取出的特定人i-vector,并且都相等。x1,x2,…,xn為說話人每一幀輸入語音信息,然后將i-vector與原始輸入語音信息進(jìn)行拼接。如前所述,融合i-vector后的DNN結(jié)構(gòu)由于保留了需要的語義信息,因此對說話人變化識別具有更強(qiáng)的魯棒性,在一定程度上降低了語音識別錯誤率。

Figure 5 DNN structure fused with i-vector 圖5 融合i-vector的DNN結(jié)構(gòu)

4.2 噪聲感知訓(xùn)練

前文提到,在傳統(tǒng)的基于GMM的聲學(xué)模型中,采用VTS、MLLR等方法可在一定程度上克服復(fù)雜多變環(huán)境的影響。在VTS方法中,自適應(yīng)語音識別器的高斯參數(shù)常用一個估計噪聲模型進(jìn)行自適應(yīng),假設(shè)帶噪語音信號表示為XN,純凈語音信號為Xc,噪聲信號表示為N,那么語音和噪聲之間的關(guān)系在對數(shù)頻域中可近似表示為:

XN=Xc+log(1+exp(N-Xc))

(25)

在GMM系統(tǒng)中采用一階VTS來近似表示這個非線性關(guān)系,然而,DNN具有多層的非線性變換,可以對任意的非線性關(guān)系直接進(jìn)行建模。實(shí)際上我們關(guān)心的是帶噪語音信號及噪聲信號到純凈語音之間的非線性映射。通過噪聲估計帶噪語音信號與噪聲信號到純凈語音信號的映射關(guān)系,克服多變噪聲環(huán)境對識別系統(tǒng)產(chǎn)生的影響。

5 實(shí)驗(yàn)結(jié)果及分析

5.1 實(shí)驗(yàn)數(shù)據(jù)集及評估指標(biāo)

為了驗(yàn)證本文算法的有效性,選取TIMIT和微軟語料庫作為實(shí)驗(yàn)數(shù)據(jù)來源。其中TIMIT為英文語料庫,包含630個不同說話人信息,為評價說話人識別系統(tǒng)中最權(quán)威的語音數(shù)據(jù)庫[20]。本文選取430個說話人語音組成訓(xùn)練集,選取40個說話人語音組成測試集,并且訓(xùn)練集與測試集間無重疊。中文語料庫選擇微軟語料庫,微軟語料庫是由微軟亞洲研究院在2001年發(fā)布的用于搭建、測試中文連續(xù)語音識別系統(tǒng)的中文語料庫。該語料庫的訓(xùn)練集包含100個男性說話人信息,其中每個人說話語音為200段,共19 688段,總時長為33 h。說話人籍貫遍布全國26個省,測試集為北京方言口音,采用漢語有調(diào)音節(jié)進(jìn)行標(biāo)注[21]。

實(shí)驗(yàn)采用詞錯率WER(Word Error Rate)作為算法的評價指標(biāo),其表達(dá)式如式(26)所示:

(26)

其中,SW為語音解碼時,連續(xù)語音與人工標(biāo)注統(tǒng)計出的替換詞的個數(shù);DW為刪除詞的個數(shù);IW為插入詞的個數(shù);NW為語音庫中正確詞的總數(shù)量。該指標(biāo)數(shù)值越低,系統(tǒng)性能越高,語音識別率越高。

5.2 實(shí)驗(yàn)環(huán)境及參數(shù)配置

本文在Kaidi語音識別工具上進(jìn)行開發(fā)和實(shí)驗(yàn)。首先搭建GMM-HMM模型,選取13維MFCC特征與其一階差分、二階差分共39維作為GMM-HMM的輸入量。針對淺層模型,如HMM、GMM等一般采用MFCC、LPCC等特征參數(shù),F(xiàn)BANK特征因其攜帶更多的特征信息,更加適合作為深層訓(xùn)練模型的特征參數(shù),因此DNN模型及本文自適應(yīng)DNN模型皆選取FBANK特征。一般來說,語音信號窗長在10~30 ms認(rèn)為是穩(wěn)態(tài)的,即語音信號具有短時平穩(wěn)性,因此窗長選擇一般在這個范圍即可,本文取窗長為25 ms,幀移選取通常在5~15 ms,本文取其中間值10 ms作為幀移長度。實(shí)驗(yàn)中整個DNN框架輸入層、隱藏層和輸出層的個數(shù)分別為1,5和1。其中隱藏層包含2 048個節(jié)點(diǎn),輸出層采用LC-Softmax進(jìn)行歸一化處理。另一方面,在對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)調(diào)節(jié)的過程中,需要根據(jù)訓(xùn)練集與測試集識別率的比對來控制迭代次數(shù),參數(shù)初始化完畢后,對自適應(yīng)模型進(jìn)行迭代,訓(xùn)練集與測試集得到的語音識別率與迭代次數(shù)的關(guān)系如圖6所示。

Figure 6 The relationship between the recognition rate and the number of iterations圖6 識別率與迭代次數(shù)關(guān)系

5.3 對照實(shí)驗(yàn)及分析

本文采用目前語音識別中常見的GMM-HMM及傳統(tǒng)DNN聲學(xué)模型作為對照組,與本文自適應(yīng)DNN模型進(jìn)行比較。在訓(xùn)練GMM-HMM時,將上下文相關(guān)的三音素融入模型中,訓(xùn)練完畢后,將輸出特征進(jìn)行解碼。在采用自適應(yīng)DNN模型時,為了保證在詞錯誤率盡可能低的情況下訓(xùn)練時間也不至于過長,對DNN隱藏層數(shù)量及節(jié)點(diǎn)個數(shù)的選取進(jìn)行了若干組實(shí)驗(yàn)。隱藏層數(shù)對詞錯誤率的影響如圖7所示。從圖7可以看出,隨著隱藏層數(shù)量的增加,單詞錯誤率明顯降低,說明在一定范圍內(nèi)增加隱藏層數(shù)可以提升語音的識別率。但是,當(dāng)隱藏層數(shù)量繼續(xù)增加的時候,錯誤率又呈現(xiàn)上升的趨勢,可見過多的隱藏層數(shù)會導(dǎo)致數(shù)據(jù)出現(xiàn)過擬合的現(xiàn)象,導(dǎo)致識別率降低。因此,本文選擇自適應(yīng)DNN聲學(xué)模型結(jié)構(gòu)中的隱藏層數(shù)為5。

Figure 7 The influence of hidden layers on word error rate of the model圖7 隱藏層數(shù)對模型詞錯誤率的影響

為了確定隱藏層節(jié)點(diǎn)個數(shù),實(shí)驗(yàn)在5層隱藏層時,分別對隱藏層節(jié)點(diǎn)個數(shù)為1 024,2 048和4 096進(jìn)行耗時和語音識別率的統(tǒng)計,結(jié)果如圖8所示。由圖8可以看出,當(dāng)隱藏層節(jié)點(diǎn)個數(shù)增加時,系統(tǒng)耗時和識別正確率均處于上升的趨勢,但是當(dāng)節(jié)點(diǎn)數(shù)目大于2 048時,實(shí)驗(yàn)耗時急劇增加,而識別正確率雖然呈現(xiàn)上升的趨勢,但是上升幅度不大。綜合時間及識別性能等多種因素,本文選擇隱藏層節(jié)點(diǎn)個數(shù)為2 048,在保證識別性能的前提下,避免過多的時間消耗。

Figure 8 The influence of the number of hidden nodes on the system model圖8 隱藏層節(jié)點(diǎn)數(shù)對系統(tǒng)模型的影響

為了驗(yàn)證多噪聲下系統(tǒng)的語音識別性能,在進(jìn)行性能測試時,引入NoiseX-92噪聲庫中的Babble、F16、Street和Factory 4種類型的噪聲作為背景噪聲。NoiseX-92噪聲庫是由英國感知技術(shù)研究院在實(shí)地測量所得到的噪聲數(shù)據(jù)庫,能夠很好地模擬現(xiàn)實(shí)環(huán)境中的噪聲干擾。然后對不同聲學(xué)模型分別在4種噪聲下調(diào)節(jié)不同信噪比進(jìn)行多次對照實(shí)驗(yàn),表1和表2分別為在TIMIT英文語音數(shù)據(jù)集和微軟中文語音數(shù)據(jù)集上不同模型的詞錯誤率統(tǒng)計。

Table 1 Comparison of WER of different models on the TIMIT data set

由表1和表2可以看出,2種數(shù)據(jù)集上,WER的變化趨勢基本一致。相對于GMM-HMM模型,深度神經(jīng)網(wǎng)絡(luò)模型以及本文自適應(yīng)深度神經(jīng)網(wǎng)絡(luò)模型的WER均呈現(xiàn)下降的趨勢。整體上看,無論是在TIMIT英文語音數(shù)據(jù)集還是微軟中文語音數(shù)據(jù)集,在多種背景噪聲下,WER隨著信噪比的增加而增大,說明環(huán)境信噪比低會嚴(yán)重影響系統(tǒng)的語音識別率。高斯混合模型和傳統(tǒng)DNN模型,未考慮說話人及環(huán)境噪聲變化引起的噪聲訓(xùn)練與測試數(shù)據(jù)不匹配,因此WER普遍偏高。將i-vector及噪聲感知融入DNN模型后,得到的模型能夠自適應(yīng)處理訓(xùn)練及測試數(shù)據(jù)之間不匹配的問題,因此WER相對較小。對比可知,TIMIT數(shù)據(jù)集上,在Babble、F16、Street和Factory 4種噪聲下本文算法相較于GMM-HMM模型平均WER分別下降了3.818%,5.653%,5.257%和5.875%。相較于傳統(tǒng)DNN模型平均WER分別下降了1.030%,3.740%,3.798%和3.885%。可以看出無論是在中文語音數(shù)據(jù)集還是英文語音數(shù)據(jù)集上,詞錯誤率均有所下降,本文自適應(yīng)DNN模型的泛化性能及魯棒性相較于對比模型均有一定程度的提高。

Table 2 Comparison of WER of different models on the Microsoft voice data set

6 結(jié)束語

本文提出了一種復(fù)雜環(huán)境下基于自適應(yīng)深度神經(jīng)網(wǎng)絡(luò)的語音識別。針對說話人及環(huán)境多變性造成訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)不匹配造成的識別率低的問題,改進(jìn)自適應(yīng)準(zhǔn)則并與特征空間相結(jié)合,提高數(shù)據(jù)的匹配度。通過對GMM-HMM及傳統(tǒng)DNN模型分別在多種背景噪聲下進(jìn)行對比實(shí)驗(yàn),結(jié)果表明本文自適應(yīng)DNN聲學(xué)模型在TIMIT中文語音數(shù)據(jù)集、微軟中文語音數(shù)據(jù)集上,平均WER分別下降了5.151%和3.113%,表明本文自適應(yīng)DNN模型擁有更強(qiáng)健的建模能力。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學(xué)特征認(rèn)識
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 欧洲日本亚洲中文字幕| 精品国产香蕉伊思人在线| 国产SUV精品一区二区6| 露脸一二三区国语对白| 久久婷婷六月| 丰满人妻被猛烈进入无码| a网站在线观看| 99ri精品视频在线观看播放| 真人免费一级毛片一区二区| 亚洲区一区| 国产精品成人一区二区不卡| 国产成人精品第一区二区| 亚洲视频色图| 人妻丰满熟妇αv无码| 欧美天堂在线| 中国国产高清免费AV片| 亚洲永久色| 99这里精品| 日本国产在线| 蜜臀AVWWW国产天堂| 国产在线精品人成导航| 国产日韩AV高潮在线| 久久综合五月婷婷| 美女被操91视频| 狂欢视频在线观看不卡| 久久久久亚洲AV成人人电影软件 | 精品久久久久成人码免费动漫| 欧美午夜小视频| 免费a级毛片18以上观看精品| 伊人欧美在线| 天天干天天色综合网| 成人亚洲天堂| 国产91丝袜在线播放动漫| 在线观看国产精美视频| 欧美97欧美综合色伦图| 99国产精品国产| 在线精品欧美日韩| 在线精品亚洲国产| 日韩无码白| 亚洲爱婷婷色69堂| 欧美综合区自拍亚洲综合天堂| 国产成+人+综合+亚洲欧美| 亚洲人成在线精品| 国产精品网曝门免费视频| 久久久久无码精品| 国产精品第一区在线观看| a级毛片免费网站| 国产精品欧美激情| 亚洲精品无码在线播放网站| 日韩亚洲综合在线| 澳门av无码| 狠狠综合久久| 日韩最新中文字幕| 在线视频精品一区| 青青草综合网| 四虎国产在线观看| 久久久久久久久亚洲精品| 极品性荡少妇一区二区色欲| 亚洲精品在线91| 亚洲人成网站在线播放2019| 蜜桃视频一区二区三区| 色网站在线视频| 亚洲成a人片77777在线播放| 成人av专区精品无码国产 | 精品一区二区三区自慰喷水| 国产综合精品日本亚洲777| 天天综合亚洲| 欧美日韩福利| 国产成人精品18| 秋霞国产在线| 久久精品最新免费国产成人| 国产高清毛片| 狠狠干欧美| 久久综合伊人77777| 中字无码精油按摩中出视频| 91娇喘视频| 999福利激情视频| 在线另类稀缺国产呦| 精品视频在线一区| 日韩激情成人| 小蝌蚪亚洲精品国产| 国产免费羞羞视频|