陳 雷,楊俊安,王 龍,李晉徽
(1.電子工程學院,安徽 合肥 230037;2.電子制約技術安徽省重點實驗室,安徽 合肥 230037)
一種新的基于DBN的聲學特征提取方法
陳 雷1,2,楊俊安1,2,王 龍1,2,李晉徽1,2
(1.電子工程學院,安徽 合肥 230037;2.電子制約技術安徽省重點實驗室,安徽 合肥 230037)
大詞匯量連續(xù)語音識別系統(tǒng)中,為了進一步增強網(wǎng)絡的魯棒性、提升深度置信網(wǎng)絡的識別準確率,提出一種基于區(qū)分性和ODLR自適應瓶頸深度置信網(wǎng)絡的特征提取方法。該方法首先使用魯棒性較強的瓶頸深度置信網(wǎng)絡進行初步特征提取,進而進行區(qū)分性訓練,使網(wǎng)絡的區(qū)分性更強、識別準確率更高,在此基礎上引入說話人自適應技術對網(wǎng)絡進行調(diào)整,提高模型的魯棒性。利用提出的聲學特征在多個噪聲較強、主題風格較為隨意的多個公共連續(xù)語音數(shù)據(jù)庫上進行了測試,識別結(jié)果取得了22.2%的提升。實驗結(jié)果表明所提出的特征提取方法有效性。
連續(xù)語音識別;瓶頸深度置信網(wǎng)絡;區(qū)分性訓練;ODLR
語音識別技術是指機器通過識別和理解把人類的語音信號轉(zhuǎn)變?yōu)橄鄳奈谋净蛎畹募夹g。
目前主流的語音識別系統(tǒng)主要由三部分組成,分別是:特征提取、聲學模型以及解碼。對于特征提取部分而言,它的主要功能是從輸入的原始語音中提取出有利于后續(xù)識別的語音特征。本文主要針對上述語音識別系統(tǒng)存在的識別準確率偏低、復雜環(huán)境中魯棒性的問題,重點從特征提取展開研究。但是目前基于BN+DBN的特征提取方法在識別準確率、魯棒性上的表現(xiàn)仍不盡如人意。本文通過對現(xiàn)有BN+DBN網(wǎng)絡的深入分析,找出現(xiàn)存特征提取方法存在的問題及其問題產(chǎn)生的原因,提出一種使用區(qū)分性和ODLR自適應的瓶頸深度置信網(wǎng)絡進行特征提取的方法。
1.1 深度置信網(wǎng)絡
與傳統(tǒng)神經(jīng)網(wǎng)絡訓練方法不同的是,DBN采用預訓練與微調(diào)相結(jié)合的方式來訓練神經(jīng)網(wǎng)絡,其中預訓練過程使用了一種基于受限波爾茲曼機(Re-stricted Boltzmann Machine,RBM)[1]的非監(jiān)督訓練方法;微調(diào)階段使用BP網(wǎng)絡進行監(jiān)督式的訓練。通過非監(jiān)督的訓練將網(wǎng)絡的權(quán)重調(diào)整到了合適的初始值,進而采用傳統(tǒng)的BP算法對權(quán)重進行微調(diào),便得到了一個DBN模型。
1.2 基于BN+DBN的特征提取方法
特征提取模塊是連續(xù)語音識別系統(tǒng)的基本組成模塊,對系統(tǒng)起著底層支撐的作用。
傳統(tǒng)的特征提取方法都有著相應的問題,MFCC方法難以提取語音數(shù)據(jù)中深層次的特征,并且相對于噪聲的魯棒性不強。而運用SDC進行特征提取的過程中需要對倒譜參數(shù)個數(shù)、差分倒譜的幀間間隔、計算差分倒譜的相鄰塊的幀移以及差分到普塊的個數(shù)進行調(diào)整,這種通過人工對參數(shù)進行調(diào)整的方式更多地依賴于研究人員的經(jīng)驗,而且操作流程較為復雜,需要大量的計算機資源和訓練時間。
瓶頸(Bottle Neck,BN)的思想初次進入視野是在2007年,BN+ANN的特征提取方法在連續(xù)語音數(shù)據(jù)集中取得了較為理想的效果,DBN取代了ANN成為語音識別領域的主流方法之后,相關學者考慮BN+DBN的特征提取方法能否同樣給DBN的性能帶來相應的提升,最終提出了BN+DBN這一性能出色的神經(jīng)網(wǎng)絡模型。BN+DBN在訓練的過程中通常將網(wǎng)絡的結(jié)構(gòu)設置為相對于中間層對稱,將中間層命名為瓶頸層,瓶頸層所含節(jié)點數(shù)較少,隨后丟棄中間層之后的網(wǎng)絡結(jié)構(gòu),將瓶頸層作為網(wǎng)絡的輸出。盡管瓶頸層含有較少的神經(jīng)元,但是通過選取合適的神經(jīng)元數(shù)目,瓶頸層特征能夠很好地對語音進行表征,同時由于較少的節(jié)點數(shù)去除了數(shù)據(jù)冗余,大大提升了識別速率。BN+DBN的特征提取方法在擁有DBN較強的表征能力、較強的魯棒性的同時,由于瓶頸層的引入擁有著較高的識別速率[2]。
基于BN-DBN的特征提取兼顧了DBN和BN的出色性能,目前已經(jīng)得到廣泛應用,其在連續(xù)語音識別中的優(yōu)越性主要體現(xiàn)在[3]:
①能夠從不同的語音數(shù)據(jù)集中提取出具有代表性的特征,這些特征成為后續(xù)識別過程中的重要依據(jù);
②DBN特有的非監(jiān)督預訓練使網(wǎng)絡的傳輸權(quán)重調(diào)整到合適的初值,同時也使系統(tǒng)能夠充分地利用未標注的數(shù)據(jù)進行訓練,更全面有效地提取語音特征;
③DBN的微調(diào)優(yōu)化部分利用標注數(shù)據(jù)對網(wǎng)絡進行監(jiān)督訓練,對網(wǎng)絡模型進行更加精細的調(diào)整,提取更有效的特征;
④BN+DBN在原有深度置信網(wǎng)絡基礎上進行降維處理,這種策略對于系統(tǒng)去冗余有著重大意義,提升了訓練速度;
⑤相對于傳統(tǒng)的特征提取方法,需要人工調(diào)整的參數(shù)較少,具有更加廣泛的適應性。
2.1 基于區(qū)分性深度置信網(wǎng)絡的特征提取方法
區(qū)分性訓練在語音識別系統(tǒng)中的應用已經(jīng)有幾十年的歷史。隨著相關算法的不斷提出以及計算機性能的大幅提升,區(qū)分性訓練不僅僅局限于小詞匯量數(shù)據(jù)集,更是將應用的領域擴展到了大詞匯量連續(xù)語音識別系統(tǒng)。區(qū)分性策略首先選取與模型分類特性緊密相關的目標函數(shù),隨后直接對目標函數(shù)進行優(yōu)化來實現(xiàn)模型調(diào)整。這種訓練方式不僅能夠降低模型假設錯誤,而且更直接地關注系統(tǒng)的識別和優(yōu)化效果,為構(gòu)建更為有效的聲學模型提供了有力的保證[4,5]。下面本文對DBN準則下的區(qū)分性訓練理論進行重點介紹。
DBN區(qū)分性訓練的代價函數(shù)和目標函數(shù)分別使用符號DSEQ和FMMIE表示,則有:

式中,R為訓練樣本句子數(shù)的總和,θ表示訓練過程中的參數(shù)的集合,Or表示聲學特征序列,Wr則表示詞序列。Mr表示訓練樣本中競爭序列的集合,即混淆集,表示所有可能句子的近似集合。k為聲學規(guī)整因子。
為了使DBN的輸出對應于各個綁定狀態(tài)的后驗概率,首先要將各個狀態(tài)的后驗概率轉(zhuǎn)換成似然值,使用如下公式進行:

通過鏈式法則,結(jié)合:

進一步得到區(qū)分性準則下DBN輸出層誤差的分量:

式中,等式右側(cè)第一個表達式的求解可以使用傳統(tǒng)GMM+HMM區(qū)分性訓練中的導數(shù)求解方法。

等號右側(cè)第2個表達式使用式得到:

第3個表達式使用如下公式求得:

δs,s′為克羅內(nèi)克δ函數(shù);s′=s時,δs,s′=1;其他情況下δs,s′=0。
綜上,式子的最終形式為:

最終得到;

至此完成了DBN準則下的區(qū)分性訓練,訓練的流程與傳統(tǒng)的GMM+HMM的聲學模型基礎上進行的區(qū)分性訓練極為相似。主體思路為首先使用lattice得到分子和分母的狀態(tài)占有率,隨后使用上述公式進行計算,最后通過BP算法使誤差在隱含層傳播,使用SGD算法對DBN參數(shù)進行更新。在區(qū)分性訓練的優(yōu)化階段,使用EBW優(yōu)化算法進行,同時結(jié)合i-smoothing平滑技術增強區(qū)分性訓練的擴展性。
區(qū)分性訓練流程:
根據(jù)最大互信息的目標函數(shù),本文可以分兩步實現(xiàn)上述過程:第一步是增加分子項,實現(xiàn)與最大似然準則一樣,都是要增加相關特征對模型的相似度;第二步是減少分母項,也就是要降低競爭句子的特征對模型的相似度。這也就是區(qū)分性訓練準則與最大似然準則的差異之處,要設法降低競爭句子與正確句子的混淆度,以顯示正確句子的區(qū)分度。
在算法實現(xiàn)上,較為經(jīng)典的方法為擴展的Baum-Welch算法,具體實現(xiàn)步驟如下:
①瓶頸深度置信網(wǎng)絡的訓練;
②利用訓練好的瓶頸深度置信模型進行標注的強制對齊,使用瓶頸特征的深度置信網(wǎng)絡模型做強制切分,使得每一幀特征嚴格對應到模型的各個音素上;
①采用Filter Bank特征作為輸入,使用瓶頸深度置信網(wǎng)絡進行訓練,分別產(chǎn)生正確句子與競爭句子的詞圖;
②忽略原來的聲學得分,根據(jù)詞圖進行有限制的識別,識別后在詞圖上產(chǎn)生新的聲學分數(shù);
③利用擴展的Baum-Welch算法計算前向及后向概率,以此計算出的概率判斷競爭句子與正確句子的混淆度;
④根據(jù)步驟③計算出反向概率,可知每個詞段所必須做的反向訓練程度,這便是正向與反向統(tǒng)計信息;
⑤根據(jù)統(tǒng)計信息對當前模型做參數(shù)更新求取新的模型。
2.2 ODLR自適應深度置信網(wǎng)絡的特征提取方法
ODLR(Output-space Discrininative Linear Re-gression)是一種直接對DBN網(wǎng)絡進行自適應的方法,其基本思想是針對每個具體的說話人,使用少量的數(shù)據(jù)對DBN網(wǎng)絡的最后一個隱含層輸出進行變換,具體原理如圖1所示。[6-8]:
假設最后一個隱含層的輸出特征變換為:

MLP的輸出層的激活值表示為:

變換陣M的梯度表示為:

圖1 ODLR自適應深度置信網(wǎng)絡

偏置B的梯度表示為:

3.1 數(shù)據(jù)庫
本文使用的數(shù)據(jù)集規(guī)模較大,信噪比普遍較低,背景噪聲多樣,使用該數(shù)據(jù)庫對所提出的基于區(qū)分性和ODLR自適應BN+DBN的特征提取方法進行驗證。

表1 數(shù)據(jù)庫
3.2 實驗結(jié)果及分析
實驗一
實驗一主要對區(qū)分性訓練的基本理論進行驗證,首先在BN+DBN基線系統(tǒng)上進行了區(qū)分性訓練;隨后在此基礎上對VTLN[9]、網(wǎng)絡結(jié)構(gòu)調(diào)整和狀態(tài)輸出對系統(tǒng)性能帶來的影響進行實驗[10];最終將各個技術點與區(qū)分性訓練相結(jié)合,測試總體性能實驗結(jié)果如表2所示:

表2 區(qū)分性DBN實驗結(jié)果
由上述結(jié)果,首先,在信噪比較高的數(shù)據(jù)集上學者已經(jīng)證明了區(qū)分性訓練的有效性,表2的實驗結(jié)果說明在噪聲水平較高的數(shù)據(jù)集上進行區(qū)分性訓練同樣能夠增強網(wǎng)絡的區(qū)分性,達到較為理想的效果。新特征提取方法方法使識別系統(tǒng)的識別準確率平均提升10.6%,說明在瓶頸深度置信網(wǎng)絡上進行區(qū)分性訓練能夠達到預期效果。
其次,聲道長度規(guī)整技術能夠?qū)δP彤a(chǎn)生積極的效果,識別準確率取得了一定提升,表明了VTLN技術從一定程度上濾除了說話人對識別造成的不利影響;第三組實驗在第二組的基礎上進行了網(wǎng)絡狀態(tài)調(diào)整和狀態(tài)輸出累積,識別準確率又取得了進一步的提升,證明了網(wǎng)絡狀態(tài)調(diào)整和狀態(tài)輸出能夠有效地提升DBN網(wǎng)絡的魯棒性,更加精細的網(wǎng)絡結(jié)構(gòu)保證了識別性能的提升;最終第四組實驗提升效果最為明顯,表明了VTLN、網(wǎng)絡結(jié)構(gòu)調(diào)整和狀態(tài)輸出能夠與區(qū)分性DBN完美地結(jié)合,這些技術的引入最終使區(qū)分性DBN的識別準確率取得了19.5%提升。
實驗二
實驗二中本文主要針對自適應技術進行實驗,驗證在瓶頸深度置信網(wǎng)絡中引入自適應技術的可行性。
在區(qū)分性訓練之后進行自適應的實驗,進行了ODLR自適應的實驗,在測試集上得到如表3結(jié)果。

表3 區(qū)分性自適應DBN特征提取方法的實驗結(jié)果
表3的結(jié)果表明,在區(qū)分性瓶頸深度置信網(wǎng)絡的基礎上進行說話人自適應又取得了3.3%的效果提升。新的特征提取方法總體取得了22.2%的識別準確率提升,性能提升效果較為明顯。實驗結(jié)果表明在基線系統(tǒng)下區(qū)分性訓練和說話人自適應能夠比較完美的共存。
由于要使用到切分、解詞圖等技術,本文所提出的特征提取方法需要多個程序分步運行,因此特征提取的時間難以準確測算。此外,雖然模型訓練階段耗時較長,但考慮到模型預先訓練完成之后,識別時可直接使用,無需反復訓練,引入?yún)^(qū)分性訓練和說話人自適應對實際測試過程的耗時影響不大,所以這里沒有對訓練時長做定量分析。
針對現(xiàn)有BN+DBN特征提取方法存在的區(qū)分性不強和自適應能力較差的問題,將區(qū)分性訓練和ODLR自適應技術與瓶頸深度置信網(wǎng)絡相結(jié)合,提出了基于區(qū)分性和自適應瓶頸深度置信網(wǎng)絡的特征提取方法,區(qū)分性訓練的引入使BN+DBN網(wǎng)絡更直接地強調(diào)模型的分類特性,為系統(tǒng)識別準確率的提升提供了依據(jù);自適應技術有效地提升了系統(tǒng)的泛化能力,同時考慮區(qū)分性和自適應能否在BN+DBN模型上取得協(xié)同作用,在區(qū)分性訓練的基礎上進行了說話人自適應的訓練,通過不同背景噪聲,會話主題風格的數(shù)據(jù)庫上進行的實驗驗證了新的特征提取方法的有效性。
[1]Mohamed A,Dahl G,Hinton G.Acoustic Modeling Using Deep Belief Networks[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):14-22.
[2]Mohamed A,Sainath T,Dahl G,et al.Deep Belief Networks Using Discriminative Features for Phone Recog-nition[C]∥Proceedings of the IEEE International Con-ference on Acoustics,Speech,and Signal Processing. 2011,Prague,Cech Republic,2011:5060-5063.
[3]Sainath T,Kingsbury B,Ramabhadran B.Auto-Encoder Bottleneck Features using Deep Belief Networks[C]∥Proceedings of the IEEE International Conference on A-coustics,Speech,and Signal Processing,Kyoto,Japan. 2012:4153-4156.
[4]Valtchev V,Odell J J,Woodl P C.Lattice-Based Discrimi-native l Yaining for Large Vocabulary Speech Recognition[C]∥Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),1996(2):605-608.
[5]Kingsbury B.Lattice-based Optimization of Sequence Clas-sification Criteria for Neural-Network Acoustic Modeling[C]∥Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2009:3761-3764.
[6]Hinton G,Srivastava N,Krizhevsky A,et al.Improving Neural Networks by Preventing Co-adaptation of Feature Detectors[C]∥CoRR,2012:1207-1210.
[7]Kuhn R,Junqua J C,Nguyen P,et al.Rapid Speaker Ad-aptation in Eigenvoice Space[J].IEEE Transactions on Speech and Audio Processing,2000,8(6):695-707.
[8]張志華.說話人自適應技術研究及其在電話信道下的關鍵詞檢出系統(tǒng)應用[D].鄭州:解放軍信息工程大學,2005:112-116.
[9]Siniscalchi S M,Dong Yu,Li Deng,et al.Speech Recogni-tion Using Long-Span Temporal Patterns in a Deep Network Mode[J].IEEE Signal Processing Letters,2013:20(3):201-204.
[10]BaoYebo,Jiang Hui,Liu Cong,et al.Investigation on Di-mensionality Reduction of Concatenated Features with Deep Neural Network for LVCSR Systems[C]∥Pro-ceedings of the IEEE 11th International Conference on Signal Processing(ICSP2012),Beijing,China,2012:562-566.
A New Feature Extraction Method Based on Bottleneck Deep Belief Network
CHEN Lei1,2,YANG Jun-an1,2,WANG Long1,2,LI Jin-hui1,2
(1.Electronic Engineering Institute,Hefei Anhui 230037,China;2.Key Laboratory of Electronic Restriction,Hefei Anhui 230037,China)
In order to further improve the robustness and recognition rate of deep belief network in Large Vocabulary Continuous Speech Recognition system,this paper presented a novel bottleneck deep belief network to extract new features,which was based on speaker adaptation and discriminative training.Firstly,a bottleneck deep belief network was adopted to get the feature.And discriminative training performed on this basis gave a more distinguished network to improve the recognition accuracy.Simultaneously,a more robust speaker adaptation method was introduced to adjust the network.The proposed method was tested on several public continuous speech databases with strong noise and casual themes and a relative 6.9%promotion of the recognition accuracy was obtained.The result proves the superiority of the proposed method compared to the conventional one.
Continuous Speech Recognition;Bottleneck Deep Belief Network;Discriminative Training;ODLR
TN912.34
A
1003-3114(2015)06-41-5
10.3969/j.issn.1003-3114.2015.06.11
陳 雷,楊俊安,王龍,等.一種新的基于DBN的聲學特征提取方法[J].無線電通信技術,2015,41(6):41-45.
2015-07-13
國家自然科學基金項目(60872113)
陳 雷(1990―),男,碩士研究生,主要研究方向:語音識別。楊俊安(1965―)男,教授,博士生導師,主要研究方向:信號處理、智能計算等。