范正光 屈 丹 閆紅剛 張文林
(解放軍信息工程大學信息系統工程學院 鄭州 450002)(fanzg11@163.com)
基于深層神經網絡的多特征關聯聲學建模方法
范正光 屈 丹 閆紅剛 張文林
(解放軍信息工程大學信息系統工程學院 鄭州 450002)(fanzg11@163.com)
針對不同聲學特征之間的信息互補性以及聲學建模中各任務間的關聯性,提出了一種多特征關聯的深層神經網絡聲學建模方法,該方法首先借鑒深層神經網絡(deep neural network, DNN)多模態以及多任務學習思想,通過共享DNN部分隱含層為不同特征聲學模型間建立關聯,從而挖掘不同學習任務間隱含的共同解釋性因素,實現知識遷移以及性能的相互促進;其次利用低秩矩陣分解方法減少模型估計參數的數量,加快模型訓練速度,并對不同特征的識別結果采用ROVER(recognizer output voting error reduction)融合算法進行融合,進一步提高系統識別性能.基于TIMIT的連續語音識別實驗表明,采用關聯聲學建模方法,不同特征的識別性能均要優于獨立建模時的識別性能.在音素錯誤率(phone error rates, PER)指標上,關聯聲學建模下的ROVER融合結果要比獨立建模下的ROVER融合結果相對降低約4.6%.
語音識別;深層神經網絡;聲學模型;低秩矩陣分解;融合
在現代連續語音識別(continuous speech recognition, CSR)系統中,聲學特征提取是一個必不可少的模塊,其性能直接影響系統的識別能力和魯棒性.理想的聲學特征應一方面能表征不同識別基元的聲學差異,另一方面又能表征不同樣本間相同識別基元的聲學相似性信息等[1].然而,要得到一種滿足這些特性的聲學特征往往是不可能的,因此也就出現了多種差異性的特征,如Mel頻率倒譜系數(Mel-frequency cepstral coefficients, MFCC)、感知線性預測系數(perceptual linear predictive coefficients, PLP)等.
不同特征參數表征著不同的聲學和物理意義,在識別性能上也存在一定的差別.針對不同特征間的差異性,通過融合方法來有效利用他們之間的互補信息、提高識別精度,已被成功用于語音識別任務中.例如文獻[2-4]分別在特征層、聲學模型層以及識別結果層對不同特征進行融合從而利用它們之間的互補性來提升識別性能,但這些方法均是基于傳統的高斯混合模型(Gaussian mixture model, GMM)框架,性能提升并不明顯.
近年來,深層神經網絡(deep neural network, DNN)在語音識別領域取得了巨大成功[5-10],通過深層神經網絡對聲學模型的狀態輸出概率進行建模已成為主流方法.用于聲學建模時,DNN將分類以及對輸入特征內在結構的學習結合在一起,其多個隱層可以視為對輸入特征的多次非線性變換,從而提取高層特征.利用DNN能夠深度整合不同信息源的能力,文獻[6-7]提出基于DNN的特征融合方法,該方法將語音信號提取的多種特征進行拼接作為DNN的輸入,通過DNN提取“最相關”信息用于音素分類.實驗表明融合特征的識別性能要高于使用單一特征時的識別性能.但是采用拼接特征作為DNN的輸入時,對特征的選取有較高要求,特征選擇不當會對系統性能產生負面影響.
在機器學習和數據挖掘領域,基于DNN的多模態(multimodal)學習以及多任務(multitask)學習表現出優異性能.例如文獻[8-9]利用DNN進行兩感交叉(cross-modality)特征學習,通過共享中間層增強不同模態數據(音頻和視頻)特征的魯棒性和泛化能力;文獻[10]則利用DNN多任務學習框架,通過共享隱層實現跨語言聲學數據中共有隱藏因素的共享;文獻[11]將深度卷積神經網絡架構應用到拉丁文和中文的字符識別中,利用中文字符上訓練得到的卷積神經網絡輕易地識別大寫拉丁字母.為了利用不同特征間的互補信息,本文借鑒DNN多模態以及多任務學習思想,提出一種基于多聲學特征流共享隱層的DNN聲學建模方法.該方法在對不同聲學特征進行DNN聲學建模時,通過共享部分隱含層,從而建立不同聲學特征間的內在關聯,實現信息共享.同時通過設置不同的輸出層,以實現對不同特征識別任務的區分,并采用ROVER[12]融合方法對不同輸出結果融合以進一步提高識別性能.此外,針對聯合后的DNN最后一層參數較多、訓練較慢問題,采用低秩矩陣分解(low-rank matrix factorization, LRMF)方法減少模型參數,提高模型訓練效率.在TIMIT語料庫上的實驗表明:多特征關聯聲學建模相比于單特征獨立聲學建模方法可以獲得更好的識別性能.
深度神經網絡DNN是具有多隱含層的神經網絡,比傳統的高斯混合模型GMM具有更強的聲學建模能力.DNN與隱Markov模型(hidden Markov model, HMM)結合的方法已經成為語音識別領域的主流框架.圖1為一個DNN-HMM模型結構,該模型共有L-1個隱含層,每個隱含層的輸出為
yi=σ(xi)=σ(Wiyi-1+bi),1≤i≤L-1,
其中,Wi和bi分別為i層和i-1層之間的權重矩陣和偏移矢量;σ(·)為Sigmoid激活函數,定義為σ(x)=1(1+exp(-x)).輸出層為Softmax層,實現對三音子綁定狀態(senones)后驗概率的估計,定義為


Fig. 1 DNN-HMM structure diagram圖1 DNN-HMM結構示意圖
對DNN直接使用誤差反向傳播(back propa-gation, BP)算法進行訓練容易使得DNN的參數陷入局部最優解,所以實際中往往是先通過無監督訓練的方法預先訓練一個深置信網絡(deep belief networks, DBN),再利用DBN初始化DNN.完成DNN初始化后,借助BP算法對DNN進行訓練,其基本思想是將DNN的訓練過程視為一個誤差反向傳播的過程,在這過程中采用隨機梯度下降(stochastic gradient descent, SGD)對網絡參數進行更新:
其中,ε為學習速率(learning rate),由于SGD對學習速率比較敏感,因此ε一般設置成一個非常小的數值,以保證DNN的訓練收斂;D為代價函數,常用DNN計算得到的預估概率分布與類別的真實概率分布之間的交叉熵(cross entropy, CE)作為代價函數,定義為
其中,dt(j)分別為輸入οt對應的第j個senone的目標值.給定代價函數的具體形式后,DNN會在最小化交叉熵準則的指導下完成參數的訓練.
2.1 聲學特征的提取與處理
本文對Mel頻率倒譜系數MFCC、感知線性預測系數PLP以及基于Gammatone的倒譜系數[13](Gammatone frequency cepstral coefficients, GFCC)三種不同的倒譜聲學特征進行研究.所有的特征參數采用13維的原始特征及其一階、二階差分,總矢量維數為39維.為了增強聲學特征的區分性,或降低聲學特征的維度以降低聲學模型復雜度,原始聲學特征在輸入DNN前往往需要進行特征變換、特征降維等.圖2為本文的聲學特征處理流程,首先通過基于說話人的倒譜均值方差規整[14](cepstral mean and variance normalization, CMVN)對倒譜特征的一階矩和二階矩(即均值和方差)進行規整,以減小訓練數據和測試數據倒譜特征的概率密度函數間的差異,補償識別中特征參數不匹配造成的影響.規整后的特征與相鄰幀(左右5幀)進行拼接得到高維特征矢量,這樣每幀特征就含有更多的長時信息.線性判別分析(linear discriminant analysis, LDA)用于對拼接后的超矢量進行降維,從而降低聲學模型復雜度提高訓練效率.最后,采用特征空間最大似然線性回歸(feature-space maximum likelihood linear regression, fMLLR)實現特征參數自適應,以消除測試語音聲學特征與聲學模型參數間的不匹配.經過上述處理后的特征作為DNN的輸入,用于聲學模型訓練.

Fig. 2 Processing of acoustic features圖2 聲學特征處理
2.2 多特征關聯聲學建模

Fig. 3 Acoustic model of multi-features based on DNN圖3 基于DNN的多特征關聯聲學模型
在機器學習中,通過對多個相關任務聯合學習來提高各子任務性能的方法稱為多任務學習(multi-task learning, MTL)方法.利用該思想,文獻[15]采用多語言識別任務共享同一個DNN隱層,實現了不同語言識別任務間的優勢互補,從而增強了DNN的泛化能力提升了各語言的識別性能.文獻[8]中的多模態DNN特征提取也可以看作多任務學習的一種,即通過不同任務間共享DNN部分隱層實現各特征間的關聯,從而增強特征的魯棒性.采用不同特征進行DNN聲學建模時各任務間同樣具有很強的聯系性,如都是表示的同一組音頻數據的信息,具有相近的識別性能以及采用相同的神經網絡結構等.綜合上述,本文提出多特征流共享隱層(shared hidden layer, SHL)的DNN聲學建模方法,如圖3所示.利用不同特征進行DNN聲學建模時,通過共享部分隱含層,從而為不同特征間建立關聯,實現性能的相互促進.這與文獻[15]中的MTL-DNN不同,文獻[15]中針對不同語言采用相同的輸入特征并且隱含層全部共享,而本文針對同一種語言采用不同的輸入特征并進行部分隱層共享.進行DNN聲學建模時,不同特征并不是直接輸入共享隱層,而是首先經過獨立隱層的非線性變換,這些變換可以認為是將不同特征向同一特征空間的映射(實驗部分將會說明),同時,后端保留各自的輸出層以區分不同任務.
2.3 多特征關聯DNN的訓練
聯合后的DNN相比于單任務下的DNN模型參數增多,訓練數據增大,這會導致DNN的訓練速度變慢.為了加快DNN訓練速度,在訓練算法方面,除了設置變步長的學習速率外,針對誤差曲面“平坦區(plateau)”導致的學習變慢,通過在隨機梯度下降(SGD)算法中嵌入“沖量(momentum)” 項,減少總體梯度方向的偏離,從而加快學習速度.令Δθ(i)為第i輪訓練參數更新值,則帶有沖量項的參數更新公式為
(Wi+1,bi+1)←(Wi,bi)+(1-α)×
ε×η×Δθ(i)+αΔθ(i-1),
其中,ε為學習速率,η為衰減因子,引入“沖量”項后,將隨機反向傳播中的學習規則修改為包含了以前權值更新量的α倍,“平均化”了隨機學習過程中權值的隨機更新,增加了穩定性.
在模型結構方面,聯合DNN的輸出層包含了多個單任務的輸出層,因此最后一層的參數數量要遠遠多于單任務DNN.這也限制了聯合DNN的訓練速度,并且參數過多在訓練時也會占用更多的內存.為了降低DNN的計算和空間復雜度,文獻[16]提出了一種低秩矩陣分解LRMF的方法.令最后一層的權重矩陣為A,其維數為m×n.若A的秩為r,則存在滿秩分解A=B×C,其中B為m×r的滿秩矩陣,C為r×n的滿秩矩陣.因此可以考慮將最后一層的權重矩陣A,用具有較少元素(即參數)的矩陣B和C代替.具體實現上,該方法即在輸出層與最后一個隱含層之間引入了一個節點為r的線性層,如圖3所示,其中r的大小可以通過實驗確定.該線性層實為一個線性的瓶頸(bottleneck, BN)層,它的引入一方面減少了最后一層的模型參數,另一方面通過限制最優化目標函數時的搜索空間提高了模型訓練效率.
聯合DNN的訓練采用“預訓練+參數調優(fine-tuning)”方式.預訓練階段,在單任務(非共享隱層)DNN結構基礎上,利用無監督逐層訓練方法(即散度對比方法)完成初始參數估計,在此階段中訓練數據采用所有特征數據.參數調優階段,網絡隱含層分為共享層和非共享層,首先利用預訓練階段得到的權重參數完成初始化,此時非共享隱層的初始參數相同,然后通過基于Mini-Batch的隨機梯度下降(SGD)算法[17]實現最終參數估計.具體流程如算法1所示:
算法1. 聯合DNN參數訓練算法.
輸入:特征數據(x1,x2,…,xN)l,l={1,2,3};
輸出:DNN權重參數θ=(W,b).



2.4 基于ROVER的系統融合
不同特征的輸出結果可以采用融合方法以進一步降低錯誤率.本文采用ROVER實現不同特征系統間的融合.ROVER通過“投票”機制來利用不同系統間的互補性從而得到更好的識別結果,該系統主要包括2個模塊:詞對齊(word alignment)和投票(voting).通過詞對齊實現不同系統線性輸出結果的強制對齊并得到詞轉移網絡(word transition network, WTN).對詞轉移網絡進行重打分,從而得到更好的識別結果,重打分計算為
其中,N(wi)為詞w在WTN的第i個對齊位置出現的次數,C(wi)是詞置信度得分,α為權重.置信度得分有2種選擇:最大置信度得分和平均置信度得分,即分別對各系統輸出的置信度取最大值或平均值作為重估后的置信度打分.本文將在實驗中對2種置信度得分進行討論.
3.1 實驗數據及設置
為了驗證本文方法的有效性,本節針對一個典型的連續語音識別系統進行實驗.實驗數據采用TIMIT語料庫[18],訓練集(TEST)包含462個說話人,共3 696句話,約為3.14 h的數據;開發集(DEV)共有50個說話人、400句話、總時長約為0.34 h;測試集包含24個說話人、192句話、總時長約為0.2 h.實驗主要基于開源工具包Kaldi以及Pdnn*http://www.cs.cmu.edu/~ymiao/kaldipdnn.html搭建.所有聲學特征為13維的原始特征及一階和二階差分系數,總的特征矢量維數為39,幀長為25ms,幀移為10ms.HMM-GMM模型采用最大似然估計(maximum likelihood estimate, MLE)方法得到,其中HMM模型為包含3個發射狀態的、自左向右無跨越的三音素模型.對MFCC,PLP,GFCC特征分別采用決策樹進行狀態聚類后,系統最終包含2 024,2 035,2 037個不同的上下文相關狀態.用GMM對各狀態建模,特征不同,各狀態GMM的混元數也不同.最終,3種特征的聲學模型中分別包含15 021(MFCC),15 015(PLP),15 018(GFCC)個高斯混元.實驗中所有的DNN模型設置4個隱含層,每層包含1 024個節點.輸入為2.1節所述特征矢量,輸出節點與聚類狀態數一致.預訓練過程中,mini-Batch設置為128,對于底層的高斯-伯努利以及其余4個伯努利-伯努利均采用5個epoch訓練.高斯-伯努利RBM(restricted Boltzmann machine)的學習速率為0.005,伯努利-伯努利RBMs的學習速率為0.08.在精細調整過程中,采用BP算法進行參數更新,學習速率初始設為0.08,并根據校驗集的性能改善,進行折半調整.實驗平臺為4核Intel Core i7-3770@3.40 GHz CPU.所有實驗采用音素錯誤率(phones error rates, PER)作為評價指標.
3.2 實驗結果與分析
1) 基于LDA拼接特征的性能對比實驗
表1給出了不同特征下的識別性能對比,其中,前3行采用單特征,后4行為采用基于LDA降維的拼接特征(降維后的特征矢量為60維).從實驗結果來看,3種聲學特征因特性存在差異故而具有不同的識別性能.當聲學模型采用GMM模型時,拼接特征并沒有帶來識別性能上的改善,但是當采用基于DNN進行聲學建模時,可以得到略優于單特征的識別性能,這與文獻[13]中的結果基本一致.利用GMM模型進行聲學建模時,協方差矩陣一般采用對角陣,因此特征矢量各維分量間的相關性越小則估計得到的協方差矩陣越準確.拼接特征雖然含有更多的信息,但是由于不同特征間可能存在一定的相關性,這會造成對角矩陣的假設不合理,并且也會對LDA投影矩陣的估計造成一定影響(文獻[2]中也指出了這個問題),從而降低識別性能.DNN對輸入特征維數以及各分量間的相關性并不敏感,拼接特征含有更多的信息,就會更有利于提取準確的高層抽象特征,從而獲得性能的提升,但從實驗結果來看拼接特征對系統性能的提升有限.

Table 1 PER of Different Acoustic Features表1 不同特征下的音素識別錯誤率 %
2) 共享隱層下的各特征性能對比實驗
為了探討共享隱含層數的多少對系統性能的影響,我們采用MFCC特征以及PLP特征進行聲學模型訓練,表2給出了共享隱含層數分別為1(表示僅最后一層共享,以此類推),2,3,4下的2種特征的識別性能.可以看出,系統的識別性能確實受到共享隱層數的影響,共享隱含層數少則可能無法有效學習到各特征間的關聯性,而共享隱含層數多則對于某種特征,其優勢可能受其他特征影響而掩蓋.通過比較MFCC與PLP這2種特征在不同隱含層數下識別性能可知,通過共享部分隱層,除PLP特征在共享隱層數為4時測試集性能略微下降外,其余情況下2種特征的識別性能都要優于非共享隱層時的最佳識別性能(開發集最低PER為18.3%,測試集最低PER為19.7%),這證明了所提方法的有效性.如表2所示,當共享隱層數為2時,2種特征均取得了較好的識別性能,因此我們采用共享隱含層數為2進行其他特征的共享隱層實驗.

Table 2 PER of Different Number of Shared Hidden Layers表2 不同共享隱層數下的音素識別錯誤率 %
表3為當共享隱含層數為2時不同特征的識別性能對比.從實驗結果可以看出,通過共享隱層,各聲學特征的識別性能普遍優于單任務下的識別性能.其中,MFCC,PLP特征的性能提升更為明顯.PLP特征與GFCC特征共享隱層時,采用PLP特征測試集得到最低的錯誤率(18.8%),性能提升約7%(相比于單任務下的20.2%).值得注意的是,根據表1,這2種特征拼接也具有最佳識別性能,說明GFCC特征可以為PLP特征提供更有效的互補信息.3種特征共享隱層,可以看到PLP特征的識別性能有所降低,說明進行關聯建模時并不是采用特征越多,對所有特征的性能改善就越好.在何種情況下能夠得到最佳識別性能要根據實際情況通過實驗來確定.

Table 3 PER of Different Features When Sharing the Hidden Layers



Fig. 4 Distance between the mean and variance vectors of the outputs at the 2nd hidden layers of different features圖4 特征矢量在第2隱含層輸出均值和方差間的距離
采用LRMF進行DNN加速訓練時,需要確定最后一層權重矩陣秩r的大小,即確定線性層的節點數量.表4給出了采用3種聲學特征進行共享隱層DNN訓練時,r在不同取值下的各特征的識別性能以及訓練時間.可以看出,通過在輸出層前引入節點數較少的線性層,模型訓練時間大大縮短,r越小則訓練速度越快.當節點數為128時,系統的識別性能已與不采用LRMF時的系統性能相當,但是訓練時間縮短了16 h左右.增加節點數,系統性能有略微的提升,但是訓練時間也會增大.在模型參數上,不引入線性層時隱含層與輸出層間共有1 024×(2 024+2 035+2 037)=6 242 304個參數,約占系統總參數的55%.引入節點數為128的線性層后隱含層與輸出層間的參數變為1 024×128+128×(2 024+2 035+2 037)=911 360,參數總規模減少約47%.因此通過采用LRMF在不降低系統性能的前提下,大大提高了模型的訓練速度并減少了參數規模.

Table 4 Performance of Recognition and Training Time by Using Different Linear Layer Nodes表4 線性層節點數對識別性能以及訓練時間的影響
3) 基于ROVER的融合實驗
3種不同聲學特征系統融合的實驗結果如表5所示.表5中給出了基于GMM聲學模型、基于單任務(single-task,STL) DNN聲學模型以及基于3種特征共享隱層DNN聲學模型的測試集融合實驗結果.實驗采用開發集PER作為指標,利用格點搜索方法確定重打分公式中的權重α.表5中分別列舉了2種不同的置信度融合策略: 最大置信度準則(max confidence standard, MCS)和平均置信度準則(average confidence standard, ACS)對系統性能的影響.顯然,通過系統融合各系統性能進一步提升,共享隱層DNN改進最為顯著,其融合最優結果為18.5%,相比于單任務DNN融合結果(19.4%),提高約4.6%.就置信度融合方法來講,2種融合準則性能相近,ACS方式略優于MCS,其原因可能在于MCS選擇用最大置信度得分,當某一錯誤識別結果置信度過大時,采用MCS無法避免該錯誤,而ACS通過將多個系統輸出結果的置信度進行平均,可以在一定程度上降低這種錯誤,從而降低系統錯誤率.

Table 5 PER of the Test Data Sets by Using ROVER Combination
本文提出了一種基于深層神經網絡的多特征關聯聲學建模方法.新方法在利用不同的聲學特征進行DNN聲學建模過程中,通過共享部分隱層,建立不同模型間的關聯關系,實現不同特征間的信息傳遞.采用ROVER算法對不同特征識別結果進行融合以進一步提高識別性能,同時針對聯合后的DNN網絡參數過多、訓練較慢問題,在最后一層采用低秩矩陣分解方法,減少參數規模,提高運算效率.實驗證明,新方法的識別性能要優于原采用單特征進行DNN聲學建模時的識別性能.在未來研究中,可進一步考慮更深層網絡結構的隱層共享、中間隱層共享以及對噪聲情況下的識別影響等問題.
[1]Bao Yebo. Deep neural network based acoustic feature extraction for LVCSR systems[D]. Hefei: University of Science and Technology of China, 2014 (in Chinese)(包葉波. 基于深層神經網絡的聲學特征提取及其在LVCSR系統中的應用[D]. 合肥: 中國科學技術大學, 2014)
[2]Schluter R, Zolnay A, Ney H. Feature combination using linear discriminant analysis and its pitfalls[C] //Proc of the 7th Annual Conf of the Int Speech Communication Association. Grenoble, France: ISCA, 2006: 345-348
[3]Andras Z, Ralf S, Hermann N. Acoustic feature combination for robust speech recognition[C] //Proc of Int Conf on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 2005: 457-460
[4]Kumar M, Aggarwal K, Leekha G. Ensemble feature extraction modules for improved Hindi speech recognition [J]. International Journal of Computer Science Issues, 2012, 9(3): 175-181
[5]Yu Dong, Deng Li. Automatic Speech Recognition: A Deep Learning Approach[M]. Berlin: Springer, 2015: 57-77
[6]Tuske Z, Golik P, Nolden D, et al. Data augmentation, feature combination, and multilingual neural networks to improve ASR and KWS performance for low-resource languages[C] //Proc of the 15th Annual Conf of the Int Speech Communication Association. Grenoble, France: ISCA, 2014: 1420-1424
[7]Andros T, Sakriani S, Graham N, et al. Combination of two-dimensional cochleogram and spectrogram features for deep learning-based ASR[C] //Proc of the 40th IEEE Int Conf on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 2015: 4525-4529
[8]Ngiam J, Khosla A, Kim M. Multimodal deep learning[C] //Proc of the 22nd Int Conf on Machine Learning. New York: ACM, 2011: 689-696
[9]Ngiam J, Chen Z, Koh P. Learning deep energy models[C] //Proc of the 22nd Int Conf on Machine Learning. New York: ACM, 2011: 1105-1112
[10]Chen D, Brian M, Leung C C. Joint acoustic modeling of triphones and trigraphemes by multi-task learning deep neural networks for low-resource speech recognition[C] //Proc of the 39th IEEE Int Conf on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 2014: 5629-5633
[11]Ciresan D C, Huval B, Wang T, et al. Transfer learning for Latin and Chinese characters with deep neural networks[C] //Proc of the 2012 Int Joint Conf on Neural Networks. Piscataway, NJ: IEEE, 2012: 1-6
[12]Fiscus J G. A post-processing system to yield reduced word error rates: Recognizer output voting error reduction (ROVER)[C] //Proc of IEEE Automatic Speech Recognition and Understanding Workshop. Piscataway, NJ: IEEE, 1997: 347-354
[13]Plahl C, Schluter R, Ney H. Improved acoustic feature combination for LVCSR by neural networks[C] //Proc of the 12th Annual Conf of the Int Speech Communication Association. Grenoble, France: ISCA, 2011: 1237-1240
[14]Prasad N V, Umesh S. Improved cepstral mean and variance normalization using bayesian framework[C] //Proc of Automatic Speech Recognition and Understanding Workshop. Piscataway, NJ: IEEE, 2013: 156-161
[15]Mohan A, Rose R. Multi-lingual speech recognition with low-rank multi-task deep neural networks[C] //Proc of the 40th IEEE Int Conf on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 2015: 4994-4998
[16]Sainath T N, Kingsbury B, Sindhwani V, et al. Low-rank matrix factorization for deep neural network training with high-dimensional output targets[C] //Proc of the 38th IEEE Int Conf on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 2013: 6655-6659
[17]Li Muli, Zhang Tong, Chen Yuqiang, et al. Efficient mini-batch training for stochastic optimization[C] //Proc of the 20th ACM Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2014: 661-670
[18]Zue V, Seneff S, Glass J. Speech database development at MIT: TIMIT and beyond[J]. Speech Communication 1990, 9(1): 351-356
Joint Acoustic Modeling of Multi-Features Based on Deep Neural Networks
Fan Zhengguang, Qu Dan, Yan Honggang, and Zhang Wenlin
(Institute of Information System Engineering, PLA Information Engineering University, Zhengzhou 450002)
In view of the complementary information and the relevance when training acoustic modes of different acoustic features, a joint acoustic modeling method of multi-features based on deep neural networks is proposed. In this method, similar to DNN multimodal and multitask learning, part of the DNN hidden layers are shared to make the association among the DNN acoustic models built with different features. Through training the acoustic models together, the common hidden explanatory factors are exploited among different learning tasks. Such exploitation allows the possibility of knowledge transferring across different learning tasks. Moreover, the number of the model parameters is decreased by using the low-rank matrix factorization method to reduce the training time. Lastly, the recognition results from different acoustic features are combined by using recognizer output voting error reduction (ROVER) algorithm to further improve the performance. Experimental results of continuous speech recognition on TIMIT database show that the joint acoustic modeling method performs better than modeling independently with different features. In terms of phone error rates (PER), the result combined by ROVER based on the joint acoustic models yields a relative gain of 4.6% over the result based on the independent acoustic models.
speech recognition; deep neural network (DNN); acoustic models; low-rank matrix factorization; fusion

Fan Zhengguang, born in 1990. Postgraduate of PLA Information Engineering University. His research interests include pattern recognition and speech recognition.

Qu Dan, born in 1974. PhD. Associate professor of PLA Information Engineering University. Her main research interests include machine learning, intelligent information processing and speech recognition (qudanqudan@sina.com).

Yan Honggang, born in 1975. Master, assistant professor. His main research interests include communication signals processing and signal analysis (yanhonggang@gmail.com).

Zhang Wenlin, born in 1982. Received his PhD degree from PLA Information Engineering University. His main research interest include machine learning, intelligent information processing and speech recognition (zwlin_2004@163.com).
2016-01-18;
2016-07-05
國家自然科學基金項目(61175017,61403415,61302107) This work was supported by the National Natural Science Foundation of China (61175017, 61403415, 61302107).
TP391.4; TN912.3