999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

低資源語音識別中融合多流特征的卷積神經網絡聲學建模方法

2016-11-01 18:26:27秦楚雄張連海
計算機應用 2016年9期
關鍵詞:特征模型

秦楚雄 張連海

摘要:

針對卷積神經網絡(CNN)聲學建模參數在低資源訓練數據條件下的語音識別任務中存在訓練不充分的問題,提出一種利用多流特征提升低資源卷積神經網絡聲學模型性能的方法。首先,為了在低資源聲學建模過程中充分利用有限訓練數據中更多數量的聲學特征,先對訓練數據提取幾類不同的特征;其次,對每一類類特征分別構建卷積子網絡,形成一個并行結構,使得多特征數據在概率分布上得以規整;然后通過在并行卷積子網絡之上加入全連接層進行融合,從而得到一種新的卷積神經網絡聲學模型;最后,基于該聲學模型搭建低資源語音識別系統。實驗結果表明,并行卷積層子網絡可以將不同特征空間規整得更為相似,且該方法相對傳統多特征拼接方法和單特征CNN建模方法分別提升了3.27%和2.08%的識別率;當引入多語言訓練時,該方法依然適用,且識別率分別相對提升了573%和4.57%。

關鍵詞:

低資源語音識別;卷積神經網絡;特征規整;多流特征

中圖分類號:

TN912.34

文獻標志碼:A

Abstract:

Aiming at solving the problem of insufficient training of Convolutional Neural Network (CNN) acoustic modeling parameters under the lowresource training data condition in speech recognition tasks, a method for improving CNN acoustic modeling performance in lowresource speech recognition was proposed by utilizing multistream features. Firstly, in order to make use of enough acoustic information of features from limited data to build acoustic model, multiple features of lowresource data were extracted from training data. Secondly, convolutional subnetworks were built for each type of features to form a parallel structure, and to regularize distributions of multiple features. Then, some fully connected layers were added above the parallel convolutional subnetworks to incorporate multistream features, and to form a new CNN acoustic model. Finally, a lowresource speech recognition system was built based on this acoustic model. Experimental results show that parallel convolutional subnetworks normalize different feature spaces more similar, and it gains 3.27% and 2.08% recognition accuracy improvement respectively compared with traditional multifeature splicing training approach and baseline CNN system. Furthermore, when multilingual training is introduced, the proposed method is still applicable, and the recognition accuracy is improved by 5.73% and 457% respectively.

英文關鍵詞Key words:

lowresource speech recognition; Convolutional Neural Network (CNN); feature normalization; multistream feature

0引言

隨著人們對于語音識別水平需求越來越多樣,語音識別對于聲學模型的要求越來越高。在低資源訓練數據條件下,訓練樣本數量有限,聲學模型參數訓練嚴重不足,淺層的高斯混合模型——隱馬爾可夫聲學模型(Gaussian Mixture ModelHidden Markov Model, GMMHMM)已經無法滿足建模要求。隨著深度學習(Deep Learning)技術的深入發展,人們陸續提出使用深層神經網絡(Deep Neural Network,DNN)、卷積神經網絡(Convolutional Neural Network,CNN)等模型取代傳統的GMM,它們可以有效地對數據進行更深層次的建模,在多種連續語音識別任務中[1-3]取得了更優的識別效果。尤其是CNN,作為一種具有更為復雜的非線性變換能力的深層網絡結構,在近幾年來廣泛應用于語音識別中,并在連續語音識別任務中取得了顯著優于DNN的識別率[3]。

從模型訓練原理的角度來說,CNN的語音建模能力優于高斯混合模型(Gaussian Mixture Model, GMM)和DNN,具體表現在如下幾點。

首先,CNN具有局部感受性(locality),特征映射的每個節點是通過上一層局部頻帶的F個節點卷積計算得到的,這種方法帶來兩點優勢:第一,利用干凈頻譜可計算出性能優異的特征,僅有少量特征會受到噪聲成分的影響,因此模型的魯棒性得到提升;第二,局部卷積實際是對語音局部特性的一種增強,而網絡的較高層通過將每個頻帶計算值組合起來,起到了平均的作用,因此該方法綜合并且平衡了鄰近頻帶的語音信息。

其次,CNN中的池化采樣處理減弱了語音中頻移的影響。由于不同說話人不同的聲道長度會引起語音信號的頻移,即使對于相同的說話人,也會產生較小的頻移現象[4]。當使用GMM或者DNN模型解決這類問題時,需要大幅增加高斯混元或者隱含層節點的數量,即使對DNN的隱含層采用池化降采樣以減少節點數,全連接計算方式也很難緩解頻移問題。而在CNN中,由于相鄰位置卷積計算得到的特征值是池化為一組的,因此當輸入特征在頻率軸上有頻移時,這種差異得以最小化。

最后,CNN中同一特征映射的權值共享性導致參數總量受限,由于低資源條件下訓練數據也是有限的,因此模型訓練的稀疏程度會得到一定程度的減弱,網絡參數訓練相對更加充分,性能也就得到了相對提升。

雖然從模型訓練的角度分析,CNN有著比其他模型更大的優勢,但是當受限于訓練數據量時,所得到的聲學模型依然存在嚴重的訓練不足問題。

針對CNN在語音識別中的研究有很多,文獻[5-7]驗證了CNN在大規模連續語音識別任務中的優越性;文獻[8]驗證了CNN在特征提取方面優于DNN;而文獻[9]則通過大量實驗詳細地驗證了CNN聲學模型在低資源語音識別任務中優于DNN聲學模型。CNN的局部卷積處理和池化采樣處理不僅可以從有限的特征中提取更為細致的分類信息,還可以有效去除一些干擾信息,這些對訓練數據有限的低資源聲學模型訓練過程尤為重要。

在有限的訓練條件下,充分利用更多的特征進行建模是一種有效的方法,傳統的融合多特征的訓練方法是直接對多種特征進行拼接構成超矢量訓練數據,該方法適用于DNN模型,并不適用于CNN模型,因為當卷積核跨越特征拼接交界處時,計算所得結果毫無意義。

為了在低資源條件下充分利用更多特征進行CNN聲學建模,本文提出一種可行的融合多特征的訓練方法。該方法充分利用不同表達形式的特征,通過并行子網絡對多流特征進行獨立的處理,最后使用全連接層對子網絡進行融合。通過多特征流數據對網絡的并行訓練,得到一種適合于低資源語音識別的CNN聲學模型。實驗結果表明,并行的卷積層能夠將分布差異較大的不同特征空間規整到分布更為相近的特征空間,以利于后續處理,從而增加了聲學模型的有效訓練數據,該方法在未明顯增加訓練參數的情況下,識別率不但優于單特征識別系統的識別率,還優于傳統的多特征拼接建模方法;其次,對每個子網絡均使用高資源語料進行共享式的輔助訓練時,系統的識別率得到進一步提升,驗證了模型的泛化性。

1融合多流特征的CNN聲學模型

CNN是標準神經網絡的一種變體網絡結構,不同于傳統神經網絡全連接層的結構,卷積神經網絡包含了卷積(convolution)處理和池化(pooling)處理。

使用CNN對語音進行建模時,需要將輸入聲學特征組織成特征映射的形式,特征映射既可以是一維的也可以是二維的。根據文獻[9],通過提取特征的靜態、一階差分和二階差分三個分量形成初始的輸入特征映射。

根據文獻[5,9],頻移不變性比時移不變性更為重要,因此本文采用沿頻率軸的一維卷積形式建立CNN卷積層,通過卷積核在特征映射上的移動實現對語音特征的卷積計算。如圖1所示,一個典型的CNN的卷積層通常包含卷積和池化采樣過程。

在訓練數據有限的條件下,使用單一特征不足以訓練得到良好的網絡參數,進而無法估計出較為準確的后驗概率。對此本文提出使用多種特征訓練CNN。由于不同語音聲學特征的提取原理、算法不盡相同,通過卷積計算等深度處理,能夠從多角度獲取不同表達形式的同類語音信息,即獲取到具有互補性表達形式的同類聲學信息,因此有利于聲學建模。

1.1特征選擇與模型建立

當前最經典、使用最廣泛的多特征訓練方法是將多類特征進行拼接,應用倒譜均值方差規整(Cepstral Mean and Variance Normalization, CMVN)技術對拼接特征預處理,然后對網絡進行訓練。該方法對于全連接層的DNN較為有效,然而當使用CNN建模時,卷積核跨越特征拼接交界計算所得結果毫無意義,因此常規的多特征訓練方法不適用。為了更為有效地利用多特征信息進行CNN聲學建模,提出一種基于并行式多特征訓練的網絡結構(如圖2)。首先使用多流特征進行獨立的、并行式的子網絡訓練,子網絡由卷積層構成,它們分別對不同特征進行深度處理,實現特征值規整;然后使用全連接層將多流子網絡的輸出匯聚在一起,使用三音子綁定狀態作為訓練目標,構成一個完整的聲學模型。

在特征選擇時,考慮到底層聲學特征之間的互補性與相似性,為了使訓練更具有實際意義,本文使用四種特征。具體來說,針對40維濾波器組(filter banks, fbanks)特征、257維功率譜(spectrogram)特征、13維梅爾頻率倒譜系數(MelFrequency Cepstral Coefficient, MFCC)特征和3維的基音周期(pitch)特征制定不同的CNN多訓練方案。這些特征有的基于頻帶濾波計算,有的基于能量計算,還有的基于離散余弦變換(Discrete Cosine Transformation, DCT),表達形式較為不同,涵蓋長時信息與短時信息,特征空間差異較大。

在特征輸入網絡前進行預處理時,首先對于維數較小的fbanks、MFCC、pitch等特征提取一階、二階差分分量并進行前后5幀的拼接,這樣輸入時的特征映射數量均為33個;對于維數較大的spectrogram特征,提取一階、二階差分分量,并只進行前后1幀的拼接,這樣該特征進行卷積時的輸入特征映射數量為9個。總之,對于維數小的特征,單幀的細節信息較少,幀間的局部相關性較大,拼接幀數也就設置大一些;對于維數大的特征,單幀細節信息豐富,卷積時幀間的局部相關性較小,因此將拼接幀數設置小一些。

在模型構建時,對于并行網絡部分,將fbanks、MFCC、pitch等部分的子網絡均設置為 “卷積層池化采樣層卷積層”結構;對于spectrogram特征的子卷積網絡,由于spectrogram特征維數很大,因此當卷積映射的節點太多時,其輸出向量存在冗余,導致參數過多不利于訓練,因此對高維特征的子網絡部分再添加一個池化層進行降采樣處理,這樣一來,spectrogram特征子網絡結構為“卷積層池化采樣層卷積層池化采樣層”。

1.2模型參數訓練

為使CNN的訓練過程更容易描述,將1×F卷積核用F個權值表示。這樣每一層卷積計算可以用矩陣相乘形式表示,設第k流特征的第l個卷積層的權值描述矩陣為Wk,l,該矩陣由所有局部卷積權值矩陣構成,矩陣包含I×F行、J列,其中:F是一維卷積核所涵蓋節點數(構成一個頻帶);I是每個頻帶內對應輸入特征映射的數量;J為卷積計算得到下一層的特征映射的數量。整體權值矩陣如式(1)所示。

1.3系統搭建方法

為了驗證所提出模型的推廣性,本文不僅考慮單語言訓練的情況,還借助文獻[10]的思想,考慮多語言條件下(目標低資源+高資源輔助語言)中間層共享訓練的方案。融合多流特征的CNN聲學建模方法主要由以下幾個步驟構成:

步驟1構建子網絡。

對每類特征(只考慮特征種類,不考慮語言)建立相應的子網絡, fbanks、MFCC、pitch等部分的子網絡均設置為 “卷積層池化采樣層卷積層”結構;spectrogram特征子網絡結構為“卷積層池化采樣層卷積層池化采樣層”。

步驟2構建完整的網絡。

在并行子網絡之上串接兩個全連接層,然后按如下方法設置輸出層:

1)對于低資源單語言的情況,利用MFCC特征訓練GMM,通過強制對齊(forcealignment),使用其中的三音子綁定狀態(senones)作為CNN的訓練目標;

2)對于多語言的情況,對低資源語料和輔助訓練語料分別使用MFCC特征訓練隱馬爾可夫模型(Hidden Markov Model, GMM),通過強制對齊得到CNN的多輸出層。

步驟3模型參數訓練。

按照1.1節的特征選擇方案對每類特征進行預處理,組織成特征映射的形式,準備訓練。

1)低資源單語言訓練時,對目標訓練集的每一幀語音提取所需的四種特征,將四種特征同時送入子網絡,按照1.2節所描述的方法進行參數訓練,各自的特征訓練對應的子網絡,全連接層則是共同訓練。

2)多語言訓練時,對每種參與訓練的語言的每一幀提取所需的四種特征,每種特征的子網絡接受來自所有參與訓練的語言的數據。使用多語言特征共同訓練中間層參數,方法同文獻[10-11],在此不作贅述。其中多語言同類特征獨立訓練對應的子網絡,每種語言特征訓練對應的輸出層參數。

步驟4測試識別系統。

通過訓練HMM,得到基于多特征訓練的CNN聲學模型,然后搭建識別系統,使用低資源測試數據完成識別性能測試。

2不同特征空間的相似性度量

之所以對不同特征采用不同子網絡并行處理,而不是直接將所有特征拼接在一起,是因為不同聲學特征的分布差異大,總體分布不規則。由于不同類別的特征其維度不同,無法按傳統的歐氏距離進行直接比較。但是在網絡參數的訓練中,如果特征間的均值、方差相差較大,則訓練樣本之間的幅值相差較大,進而造成訓練時的誤差信號波動較大,不利于基于梯度下降的收斂;反之,若特征間的均值、方差越接近,則訓練效果越好。因此,本文定義向量間的平均維度間距作為衡量不同特征空間相似度的評價指標,該指標的計算類似于歐氏距離的計算。dμ(i, j)為平均維度間均值距離,它表示第i類和第j類輸入聲學特征均值矢量的差異。對于維度為1×Ni的第i類特征, fik(k=1,2,…,N1)表示該類特征第k維數據的均值,這樣第i類聲學特征中各維特征均值的向量fi=(fi1, fi2,…, fiNi);dσ2(i, j)為平均維度間方差距離,表示第i類和第j類輸入聲學特征方差矢量的差異,設vi表示第i類聲學特征各維度方差的向量,這樣vi=(vi1,vi2,…,viNi)。它們的計算如式(9)所示:

由于一維卷積計算針對語音頻帶的局部信息進行處理,因此在網絡底層設置合適的卷積核可以將原本在分布上相差很大的多種特征映射規整到更為相似的特征空間內。使用Fi表示第一類特征在子網絡中前向傳遞后的激活元輸出的均值向量,同理有Fi=(Fi1,Fi2,…,FiMi);用Dμ(i, j)表示第i類和第j類子網絡激活元輸出特征平均維度間均值距離;使用Vi表示第一類特征在子網絡中前向傳遞后的激活元輸出的均值向量, Vi=(Vi1,Vi2,…,ViMi),用Dσ2(i, j)表示第i類和第j類子網絡激活元輸出特征平均維度間方差距離。它們計算方法如式(10)所示:

正是由于不同流特征所包含元素的幅值得到了相似性的規整,因此多特征訓練效果才優于單特征訓練效果,本文在實驗部分也驗證了這一點。

經過子網絡規整后的特征進入全連接層進行融合訓練時,CNN高層網絡部分的參數可接受更多有效訓練數據的訓練,因此所得聲學模型的性能優于單特征訓練時的情況。訓練時,當誤差信號傳遞至并行網絡部分時,對應的誤差信號傳遞至對應的子網絡進行相互獨立的訓練,即子網絡的參數更新只與對應特征計算得到的梯度相關,串行的全連接層部分則由所有特征共同參與訓練。

3實驗與分析

3.1實驗語料與評價指標

實驗采用Vystadial 2013 English data和Vystadial 2013 Czech data兩種語料。Vystadial 2013 English data(Vystadial_en)是一類開源的英語語料庫[12],全部時長41h,來源于人工信息服務系統的對話語音數據;Vystadial 2013 Czech data(Vystadial_cz)是開源的捷克語語料庫[13],全部時長15h,來源于:Call Friend電話服務的語音數據、Repeat After Me的語音數據和Public Transport Info的口語對話系統的語音數據。

實驗評價指標有三個。

第一個是識別性能指標,使用連續語音識別中的詞錯誤率(Word Error Rate,WER)來表示。設N為語料庫人工標注文本中詞(全部正確詞)的數量,W為解碼連續語音與人工標注作對比統計出的插入詞、刪除詞、替代詞的個數,r表示WER,將r定義為兩者的比值,并化為百分率,如式(12)所示:

分兩部分計算參數數量P:一部分為卷積層的參數,一部分為全連接層和Softmax層參數。對于第一部分的權值與偏移量的計算,式中ci為該層一維卷積核所包含的節點數,Ni表示該層特征映射的個數;第二部分較為簡單,只需根據層間節點數即可計算得到全連接層參數數量。

第三個評價指標為多特征間的平均特征維度差異,使用2.1節中定義的平均維度間均值距離和平均維度間方差距離兩個指標來衡量。

3.2實驗工具與硬件條件

實驗使用Kaldi工具包[14]進行數據準備、底層聲學特征和高層聲學特征的提取、語言模型的聲學模型的訓練與解碼。聲學模型訓練、解碼矩陣分解的過程基于12核3.07GHz Xeon CPU實現,神經網絡的訓練則基于單核Quadro 600 GPU進行計算。

3.3基線系統

首先設定低資源語料環境,選取Vystadial_cz中的1h訓練語料作為訓練集,總共1504句話;再選取Vystadial_cz語料庫測試語音部分的30min左右的數據作為測試集,包含666句話,共3910個待識別詞。基于Vystadial_cz語料庫中全部訓練語料的標注文本構建發音字典并訓練二元語言模型(Bigram Language Model);輔助訓練語料為全部Vystadial_en訓練語料的一半(約19.7h)。

為得到基線低資源單特征訓練的DNN與CNN聲學模型,首先訓練GMM聲學模型以獲取網絡訓練目標,對1h 的Vystadial_cz語料數據提取13維MFCC特征,訓練基于線性判別分析(Linear Discriminant Analysis, LDA)和最大似然線性變換(Maximum Likelihood Linear Transform, MLLT)的三音子GMM聲學模型(13維MFCC特征進行9幀拼接,LDA降到40維),該模型高斯混元數為19200個;然后利用特征空間最大似然線性回歸(featurespace Maximum Likelihood Linear Regression, fMLLR)技術進行說話人自適應訓練(Speaker Adaptive Training,SAT),從而構成LDA+MLLT+SAT的GMM聲學模型。通過對該模型強制對齊的方式,得到DNN和CNN的訓練目標。這樣,它們的Softmax層均含有915個節點。

訓練基線DNN,將fbanks特征進行左右五幀的拼接,因此輸入層有440個節點,設置4個隱含層,每個隱含層節點均為1024個。訓練集和交叉驗證(crossvalidation)集各占訓練數據的90%和10%。對每個隱含層(包含BN層)進行20輪的受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)預訓練,然后利用BP算法進行全局參數的微調,在訓練過程中,學習速率設置初始值為0.08,每當相鄰兩輪訓練的驗證誤差小于0.1%時就將學習速率衰減一半,當衰減之后相鄰兩輪的驗證誤差再次小于0.1%時訓練停止。此外minibatch尺寸設為256。

訓練基線CNN,首先提取fbanks特征的一階、二階差分量,然后進行5幀的拼接,這樣輸入的特征映射節點共有1320個。網絡同樣設置4個中間計算層,其中包含底層的兩個卷積層和高層的兩個全連接層。全連接層的節點數為1024;對于第一個卷積層,設置卷積核尺寸為1×8,沿頻帶的卷積移動步長為1,設置卷積特征映射的數量為128(即卷積所得特征映射數量);對于第二個卷積層,設置卷積核尺寸為1×4,沿頻帶的卷積移動步長為1,設置卷積特征映射的數量為256。在第一個卷積層和第二個卷積層之間設置一個池化采樣層,池化采樣尺寸為3,移動步長也為3,這樣節點數降采樣為原節點數的三分之一。學習速率和minibatch設置同DNN基線系統,網絡不進行預訓練。

此外,訓練基于傳統多特征拼接方法的神經網絡作為對比的多特征基線系統。根據1.2節的分析,CNN不適用于多特征拼接的訓練方法,因此將該方法應用于DNN。為得到最優結果,使用fbanks、spectrogram、MFCC、pitch等四種特征進行多特征拼接,實驗表明當fbanks、MFCC、pitch特征進行11幀拼接,spectrogram特征進行3幀拼接時可得最優結果。拼接后對特征超矢量作CMVN,DNN訓練設置與基線DNN相同。

表1前三行為基線系統實驗結果,可知在輸入相同、網絡結構相似的情況下,基于CNN聲學模型識別系統的詞錯誤率相對DNN聲學模型識別系統的詞錯誤率降低了272%(6276%→6105%),且參數數量降低約2169%(544×106→426×106);而傳統的多特征拼接訓練方法使得DNN識別系統詞錯誤率相對降低155%(6276%→6180%),但是參數規模增大很多。

3.4基于多流特征訓練的實驗結果

在多流特征訓練聲學模型的實驗中,根據1.2節圖2所描述的CNN網絡結構,引入3維pitch、13維MFCC以及257維spectrogram特征,訓練聲學模型搭建識別系統。設計五個實驗方案,每種實驗方案均在基線系統網絡的基礎上加入并行子網絡。

方案一引入3維pitch特征與13維MFCC特征(11幀拼接,計算一階、二階差分量,下同),加入一個并行的全連接子網絡(與卷積子網絡作對比),包含兩層,節點數均為200,其余參數設置與基線CNN相同。

方案二引入13維MFCC特征構建并行卷積層,結構為“卷積池化采樣卷積”,設置第一層和第二層的卷積核分別為1×5和1×2,卷積特征映射數量分別為64和128,卷積移動步長均為1,采樣尺寸為3,采樣移動步長為3,其余參數設置與基線CNN相同。

方案三引入13維MFCC特征與3維pitch特征,將兩類特征視為同一流特征,構建共同的卷積層,訓練參數設置與方案二相同。

方案四引入257維spectrogram特征(實驗表明該特征維數過大,當拼接幀數多時性能反而會降低,因此只進行3幀的拼接,計算一階、二階差分量),同樣對該特征設置兩個并行卷積層和一個采樣層,第一層和第二層的卷積核分別為1×9和1×3,卷積特征映射數量分別為8和16,卷積移動步長均為1,采樣尺寸為3,采樣移動步長為3,其余參數設置與基線CNN相同。

方案五引入257維spectrogram特征、13維MFCC特征和3維pitch特征加號改成“和”?不知道后兩者是表示一組么還是?---作者表示無誤,對基線系統網絡添加兩個并行的卷積子網絡,其中spectrogram特征對應的子網絡與方案四相同,而13維MFCC+3維pitch特征對應的子網絡與方案三相同,其余參數設置與基線CNN相同。

方案一到方案五的實驗結果如表1所示。比較方案一和方案三可知,全連接層對特征的規整變換效果不如卷積層;比較方案二、三、四、五,可知隨著特征流的增多,聲學模型性能越來越好,并且網絡的訓練參數并沒有顯著增多。當引入四種特征對CNN聲學模型進行改進時(即方案五)識別率最優,對比基線CNN系統,以增加1972%(426×106→510×106)參數數量為代價換取了詞錯誤率208%(6105%→5978%)的相對降低,而且由于在低資源數據條件下進行訓練,因此CNN訓練時間并未明顯增加。對比基線多特征拼接DNN,不但識別詞錯誤率降低327%(6180%→5978%),而且還減少了2044%(641×106→510×106)的參數數量。

再根據平均特征維度均值、方差距離的計算方法,對比各特征間的差異性,結果如表2。對比表中卷積前后的結果,發現卷積子網絡(CONV)有效降低了不同維度特征之間的均值、方差差異性,尤其每一維特征方差間差異得到極大降低。而特征元素幅值的差異性越小,特征分布越相似,因此該方法能有效起到規整特征空間的作用。對于低資源語音識別而言,該方法等效于增加有效訓練樣本,低資源聲學模型的訓練效果必然會得到提升。綜上所述,使用多特征構建并行子網絡的方法有利于提升低資源下CNN聲學模型訓練效果。

3.5引入多語言訓練時多特征CNN模型的擴展實驗

在該部分實驗中,引入高資源訓練語料進行多語言共享訓練,驗證該多特征訓練CNN模型對多語言訓練的擴展性。

設計兩種實驗方案,方案六在基線CNN的基礎上引入約19.7h的英語輔助語料,網絡的中間層參數共享,且擁有兩個輸出層;方案七在方案五的基礎上引入同樣的英語輔助語料,

不同語料的相同種特征混合在一起,送入同一個子網絡進行共享訓練。對于高資源英語語料部分的網絡的構造,首先對該部分訓練數據訓練基于LDA+MLLT+SAT的英語GMM聲學模型,然后通過模型強制對齊得到輸出層的訓練目標,這樣英語部分的CNN輸出層節點數為1031個。

對比基線CNN與方案六,可以證明使用單特征時多語言訓練對CNN的有效性;對比方案五和方案七,說明基于多特征訓練結構的CNN在引入多語言訓練后得到了更大的識別性能增益。這些實驗都說明本文所提出的基于多特征的CNN聲學模型對于單語言、多語言訓練數據都適用,具有一定的泛化能力。此外,對比實驗方案五和方案六,發現多特征訓練與多語言訓練的結果相差無幾,更加說明子網絡對不同特征進行規整等效于增加了有效的訓練數據。

綜上所述,方案七得到了最好的識別率,它的詞錯誤率相對基線DNN系統降低了717%(6276%→5826%),體現了CNN建模相對DNN建模的模型優越性;將詞錯誤率相對基線CNN系統降低了457%(6105%→5826%),體現了多特征訓練相對于單特征訓練的優越性;同時相對基線多特征拼接DNN系統的識別詞錯誤率和參數規模分別降低了573%(6180%→5826%)和390%(641×106→616×106),體現出本文多特征訓練方法相對于傳統特征拼接方法的優越性。

4結語

本文針對低資源條件下的CNN聲學模型進行改進,從網絡結構入手,提出了一種可行的融合多流特征的訓練方法。為了充分利用低資源訓練數據的多種特征表達,在底層構建并行卷積子網絡,然后通過全連接的方式進行多特征流的融合,得到一種適用于CNN的多特征網絡結構。實驗表明,并行的子網絡對不同特征起到了特征空間規整的作用,該方法相對所有單特征基線系統的識別率實現了有效的提升,相對于傳統的多特征拼接融合訓練方法,不但有效提升了識別率,還降低了參數規模。實驗還表明,該方法對多語言共享訓練方式同樣適用,驗證了該模型具有一定的擴展性。

參考文獻:

[1]

HINTON G, LI D, DONG Y, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups [J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.

[2]

DAHL G E, YU D, DENG L, et al. Contextdependent pretrained deep neural networks for large vocabulary speech recognition [J]. IEEE Transactions on Audio, Speech and Language Processing, 2012, 20(1): 30-42

[3]

ABDELHAMID O, MOHAMED AR, JIANG H, et al. Applying convolutional neural networks concepts to hybrid NNHMM model for speech recognition [C]// ICASSP 2012: Proceedings of the 2012 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2012: 4277-4280.

[4]

ABDELHAMID O, MOHAMED AR, JIANG H, et al. Convolutional neural networks for speech recognition [J]. IEEE Transactions on Audio, Speech, and Language Processing, 2014, 22(10): 1533-1545.

[5]

ABDELHAMID O, LI DENG, YU D. Exploring convolutional neural network structures and optimization techniques for speech recognition [C]// INTERSPEECH 2013: Proceedings of the International Speech Communication Association Annual Conference. Lyon, France: International Speech Communication Association, 2013: 3366-3370.

ABDELHAMID O, DENG L, YU D. Exploring convolutional neural network structures and optimization techniques for speech recognition [EB/OL]. [20160105]. https://www.researchgate.net/publication/264859599_Exploring_Convolutional_Neural_Network_Structures_and_Optimization_Techniques_for_Speech_Recognition.

[6]

SAINATH T N, MOHAMED AR, KINGSBURY B, et al. Deep convolutional neural networks for LVCSR [C]// ICASSP 2013: Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2013: 8614-8618.

[7]

SAINATH T N, MOHAMED AR, KINGSBURY B, et al. Improvements to deep convolutional neural networks for LVCSR [C]// ASRU 2013: Proceedings of the 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway, NJ: IEEE, 2013: 315-320.

[8]

MIAO Y J, METZE F. Improving languageuniversal feature extraction with deep maxout and convolutional neural networks [C]// INTERSPEECH 2014: Proceedings of the 2014 International Speech Communication Association Annual Conference. Singapore: International Speech Communication Association, 2013: 800-804.

MIAO Y J, METZE F. Improving languageuniversal feature extraction with deep maxout and convolutional neural networks [EB/OL]. [20151122]. http://isl.anthropomatik.kit.edu/cmu-kit/downloads/Improving_Language-Universal_Feature_Extractions_with_Deep_Maxout_and_Convolutional_Neural_Networks.pdf.

[9]

CHAN W, LANE I. Deep convolutional neural networks for acoustic modeling in low resource languages [C]// ICASSP 2015: Proceedings of the 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2015: 2056-2060.

[10]

HUANG J T, LI J Y, YU D, et al. Cross language knowledge transfer using multilingual deep neural network with shared hidden layers [C]// ICASSP 2013: Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2013: 7304-7308.

[11]

MIAO Y J, METZE F. Improving lowresource CDDNNHMM using dropout and multilingual DNN training [C]// INTERSPEECH 2013: Proceedings of the International Speech Communication Association Annual Conference. Lyon, France: International Speech Communication Association, 2013: 2237-2241.

MIAO Y, METZE F. Improving lowresource CDDNNHMM using dropout and multilingual DNN training [EB/OL]. [20151122]. http://www.iscaspeech.org/archive/archive_papers/interspeech_2013/i13_2237.pdf.

[12]

KORVAS M, PLTEK O, DUEK O, et al. Vystadial 2013—English data [EB/OL]. [20151012]. https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00097C0000002346714.

[13]

KORVAS M, PLTEK O, DUEK O, et al. Vystadial 2013—Czech data [EB/OL]. [20151112]. https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00097C0000002346706?localeattribute=cs.

[14]

POVEY D, GHOSHAL A, BOULIANNE G, et al. The Kaldi speech recognition toolkit [C]// ASRU 2013: Proceedings of the IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway, NJ: IEEE, 2011: 1-4.

POVEY D, GHOSHAL A, BOULIANNE G, et al. The Kaldi speech recognition toolkit [EB/OL]. [20151112]. https://www.researchgate.net/publication/228828379_The_Kaldi_speech_recognition_toolkit.

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 四虎免费视频网站| 天天综合网色| 日韩123欧美字幕| 亚洲国产日韩视频观看| 婷婷午夜天| 精品国产Av电影无码久久久| 久久久久久尹人网香蕉| 97国产在线观看| 婷婷综合在线观看丁香| 国产精品私拍99pans大尺度| 亚洲无码久久久久| 亚洲第七页| 国产亚洲欧美在线中文bt天堂| 欧美日韩中文字幕在线| 日韩欧美国产综合| 欧美亚洲欧美| 丁香六月综合网| 亚洲一区波多野结衣二区三区| 免费无码又爽又黄又刺激网站 | 成人av专区精品无码国产| 欧洲成人在线观看| 69av在线| 成人国产一区二区三区| 国产人成乱码视频免费观看| 久久免费精品琪琪| 精品超清无码视频在线观看| 国产精品太粉嫩高中在线观看 | 一区二区无码在线视频| 99热这里只有精品5| 亚洲午夜综合网| 在线一级毛片| 国产成人毛片| 国内精品小视频在线| 成人午夜视频在线| 99无码中文字幕视频| 91精品国产麻豆国产自产在线| 久久久久国色AV免费观看性色| 成人午夜亚洲影视在线观看| 伊人国产无码高清视频| 欧美啪啪一区| 91精品小视频| 亚洲成人免费在线| 婷婷亚洲视频| 亚洲综合精品香蕉久久网| 九色视频最新网址| 午夜精品区| 尤物在线观看乱码| 激情五月婷婷综合网| 亚洲一级毛片| 狠狠亚洲五月天| 呦系列视频一区二区三区| 无码aaa视频| 成人日韩视频| 日本黄色不卡视频| 成年人视频一区二区| 丁香婷婷久久| 中文字幕永久在线看| 亚洲αv毛片| 亚洲国产中文在线二区三区免| 国产白浆视频| 在线免费看黄的网站| 亚洲欧美色中文字幕| 国内丰满少妇猛烈精品播| 久久青草精品一区二区三区| 成年人国产视频| 幺女国产一级毛片| www.亚洲色图.com| 国产精品久久久免费视频| 亚洲成aⅴ人在线观看| 亚洲国产日韩视频观看| 97超爽成人免费视频在线播放| 国产毛片基地| 欧美精品影院| 曰AV在线无码| 香蕉久人久人青草青草| 亚洲一区二区三区麻豆| 欧洲极品无码一区二区三区| 中文成人无码国产亚洲| 亚洲精品国产日韩无码AV永久免费网 | 99久视频| 国产区免费精品视频| 午夜日b视频|