金 浩,朱文博,段志奎,陳建文,李艾園
(佛山科學技術學院,廣東佛山 528000)
在近十幾年中,深度學習技術一直保持著飛速發展的狀態,極大地推動了語音識別技術的不斷發展。在大數據條件下,無論是傳統語音識別技術、基于深度學習的語音識別技術,還是端到端語音識別技術、都已經相當成熟,各種商業化產品也相應落地實現。但在小樣本數據下,由于系統對時序數據的上下文建模能力不足,導致語音識別效果仍不理想。為解決此問題,研究者們主要從豐富數據特征及優化建模方法等方向做了相應的研究。
在豐富數據特征方面,Saon等[1]引入了身份認證矢量(Identity Authentication Vector, IVA) i-vector,它能夠有效表征說話人和信道信息,并能提高低資源條件下語音識別的準確率[2];Ghahremani等[3]提出一種結合i-vector特征的音調提取算法,被證明能夠豐富語音數據特征,提高模型上下文建模能力;Gupta等將基于i-vector矢量的說話人自適應算法成功應用在廣播音頻轉錄上[4],得到了良好的識別率。
在優化建模方法方面,有研究者提出了不同于傳統高斯混合建模(Gaussian Mixture Model, GMM)的深度神經網絡建模方法,如時延神經網絡[5](Time Delay Nerual Network, TDNN)、長短時記憶網絡[6](Long Short Term Memory, LSTM)以及端到端[7]等基于深度學習的建模方法。但由于訓練數據匱乏,時序特征重要程度的差異性在模型上難以體現,導致模型對時序數據的上下文建模能力仍不足。例如時延神經網絡在對幀級特征信息進行時序拼接時,如果不能區分重要信息和非重要信息,則容易出現無效信息被重復計算和有效信息丟失的問題[8]。并且對LSTM來說,雖然其對長距離時序數據有一定的信息挖掘能力,但是當輸入的時序數據包含的無效信息過長,訓練模型時則會出現不穩定性和梯度消失的問題,導致模型捕捉時序依賴能力降低[9]。
由于注意力模型[10]具有使模型能夠在有限資源下關注最有效的信息的優點,所以被廣泛應用于機器翻譯、圖像識別等各種不同類型的深度學習任務中,具有較大的研發潛力。近年來,注意力機制開始被用于語音識別領域,Povey等[11]和Carrasco等[12]提出一種受限的自我注意力機制層并應用于語音識別領域,有效提高了英語的語音識別率。有研究者提出了一種含有注意力模塊的卷積神經網絡,成功用在語音情感識別上,并取得了不錯的效果[13]。Yang等結合注意力機制能夠關注有效信息的優點,提出了一種應用在情感分類上的注意力特征增強網絡[14]。
因此,本文通過聯合TDNN和LSTM聲學模型并嵌入注意力機制,借助速度擾亂技術擴增數據同時引入說話人聲道信息特征,并結合基于區分性訓練的無詞格的最大互信息訓練準則來訓練模型。針對小樣本馬來西亞方言數據集進行實驗,深入分析不同輸入特征、隱藏節點個數以及注意力結構對模型效果的影響。實驗表明,本文提出的基于注意力機制的TDNN-LSTM混合模型整體表現良好,相比于基線模型詞錯率降低了3.37個百分點。
本文提出了一種基于注意力機制的TDNNLSTM混合聲學模型,即TLSTM-Attention模型,如圖1所示。利用注意力機制處理特征重要度的差異,有效結合粗細粒度特征,充分提高LSTM捕捉時序特征依賴的能力,并結合無詞格最大互信息訓練準則[15](Lattice Free Maximum Mutual Information,LFMMI)對模型進行訓練,以增強模型上下文的建模能力。
TLSTM-Attention模型共有8層結構組成,主要由時延神經網絡模塊、長短時記憶網絡模塊以及注意力模塊三個部分組成。采用時延神經網絡模塊和長短時記憶網絡模塊以及注意力模塊的交叉連接。該模型整體架構如圖1所示,TDNN模塊對原始輸入數據進行時序拼接,以多尺度方式提取更豐富的局部短序列特征。注意力層對多尺度特征進行差異性篩選,既能增強有效信息的利用率,又能減少計算參數、精簡模型。LSTM以注意力層抽取出帶有重要程度差異性的粗粒度特征作為輸入,再度抽取具有長依賴關系的細粒度特征,實現粗細粒度特征有效融合,能夠在一定程度上避免因LSTM層步長過長,造成記憶丟失和梯度彌散的問題。最后結合注意力機制能夠關注有效信息的優點,用于對輸出結果進行分類以及預測。

圖1 TLSTM-Attention模型架構Fig.1 Structural diagram of TLSTM-Attention model
1.2.1 時延神經網絡原理
時延神經網絡是一種多層的前饋神經網絡,網絡結構如圖2所示。與傳統前饋神經網絡采用全連接的層連方式不同,TDNN將每層的輸出都與前后若干時刻的輸出拼接起來,相較于傳統只能處理幀窗口中固定長度信息的前饋神經網絡,TDNN的輸出不僅與當前時刻有關,還與前后若干時刻有關,因此能夠有效描述上下層節點之間的時序關系,并且表現出更強的數據上下文信息建模能力和能夠適應動態時域特征變化的優勢。每層隱藏層都可以和任意時刻輸出進行拼接,體現了TDNN可以對更長的歷史信息進行建模的能力。但是這也意味著TDNN在每一個時間步長,隱藏層的激活函數都會被計算一次,并且TDNN相鄰節點之間的變化很小,可能包含了大量的無效信息,在訓練的過程中容易出現反復計算且保留無效信息的問題。

圖2 時延神經網絡結構Fig.2 The structure of time delay neural network
1.2.2 時延神經網絡模塊設計
TLSTM-Attention模型共包含4個TDNN層,分別命名為TDNN 1,2,3,4。TDNN中通過設置每層參數來表示每一層輸出拼接的時間步長以及依賴關系。使用{-m,n}表示將當前幀的歷史第m幀、當前幀的未來第n幀和當前幀拼接在一起作為下一個網絡層的輸入,0表示最后一層沒有拼接的輸入。假設t表示當前幀,在TDNN 1層,模型將原始數據的時序信號轉換成特定的幀級特征向量作為輸入,將幀進行{t-2,t-1, 0,t+1,t+2}時序拼接,處理后作為下一個隱藏層的輸入。在TDNN2層,將上一層拼接后的幀進行{t-3,t-2,t-1,0,t+1,t+2,t+3}拼接,并將學習到的過去5幀及未來5幀的信息分類后作為注意力層的輸入。在TDNN 3處,將對處理后賦予了注意力特性的幀級特征信息進行{t-3,t-2,t-1, 0,t+1,t+2,t+3}拼接,作為下一層的輸入,在TDNN 4處,將幀進行{t-1, 0,t+1}拼接,拼接后的時序特征包含了過去及未來的9幀信息,作為下一個隱藏層的輸入。
1.3.1 注意力機制原理
注意力機制(Attention Mechanism)被認為是一種資源分配的機制,在深度神經網絡的結構設計中,注意力機制所關注的資源就是權重參數。注意力機制總體可分為硬注意力機制與軟注意力機制。硬注意力機制的核心是通過直接限制輸入來達到聚焦有效信息的能力,但是對于時序數據的特性,直接限制輸入則意味著數據完整性的缺失,將直接導致模型的上下文建模能力不足。與硬注意力機制不同,軟注意力機制通過對特征信息進行注意力打分,并將其作為特征信息的權重參數,從而實現對特征信息差異性的關注。對于具有時序信息的語音數據,其中的特征信息包含的重要程度存在差異,重要的顯著特征往往會包含更多的關聯信息,對建模的影響程度更大。基于上述原理,本文將軟注意力機制引入TDNN-LSTM模型中,為所有輸入特征逐個加權進行打分,將歸一化的平均打分作為特征的權重參數,有效地實現了粗細粒度特征的結合。
1.3.2 注意力層模塊設計
TLSTM-Attention模型嵌入了兩層注意力層,分別設在整體結構的第三層和第八層。第一層注意力層,由前端TDNN 2網絡進行時序拼接后的輸出,作為注意力層的輸入。首先計算每個幀級特征的標量分數et,其表達式為

其中:ht為前端TDNN網絡的輸出,vT為轉移概率參數矩陣,W為幀級特征的權重,b為特征輸出偏置項,k為特征標量分數偏置項,F(·)為ReLU激活函數。為減少異常數據影響,將得到的標量分數et進行歸一化處理得到αt,其表達式為



計算得到的平均權重向量系數與幀級特征信息結合,賦予模型關注重要度更高的特征,更好地實現時間序列的粗粒度特征的提取以及對LSTM輸入信息的優化。在模型輸出前的注意力層,將包含18幀的幀級特征信息,簡化分類及預測,有效地精簡模型并提高模型訓練速度。
1.4.1 長短時記憶網絡原理
長短時記憶網絡是由循環神經網絡(Recurrent Neural Network, RNN)衍生而來的時序卷積神經網絡,并在隱藏層的內部作了改進,增加了三個特殊的門控結構,通過權重參數的更新來選擇有效的歷史信息進行傳遞,實現對重要信息的保留和非重要信息的過濾,內部結構如圖3所示。相較于RNN能更好地從輸入數據學習,獲得更好的上下文建模能力并能夠挖掘時間序列中的時序變化規律。

圖3 長短時記憶遞歸網絡內部結構圖Fig.3 Internal structure of LSTM recurrent network
其中xt為t時刻的輸入,lt為t時刻的輸出,c為長短時記憶單元信息的狀態,維持信息的傳遞,i代表輸入門,決定當前信息xt保留多少信息給ct;f代表遺忘門,遺忘門結構根據具有注意力特性的特征信息,決定保存多少前一時刻的單元狀態ct-1;o代表輸出門,決定t-1時刻的隱層狀態有多少傳遞至當前狀態的輸出lt。
1.4.2 長短時記憶網絡模塊設計
LSTM模塊設計如圖4所示,模型整體包含兩層LSTM,分別為LSTM 1、LSTM 2。經過注意力層處理后的平均權重向量與特征信息結合得到xt,作為LSTM 1層的輸入。通過LSTM特有門控結構處理,對賦有注意力特征的時序特征進行長序列依賴發掘,進一步增強模型上下文信息的建模能力。設σ(·)表示門控sigmoid激活函數,Wx·為與輸入層連接的權重參數矩陣,Wc·為與記憶單元連接的權重參數矩陣,上述流程對應公式為LSTM 1通過學習前端TDNN網絡模塊的11幀賦予了注意力特性的特征,能夠充分利用有效信息的權重比,對特征信息進行精準分類。并且通過TDNN 4層對特征數據進行時序拼接后,LSTM 2層至少可以學習到上下文相關的9幀歷史信息及9幀未來信息,整體提高模型上下文建模能力以及預測分類能力。


圖4 LSTM模塊設計結構Fig.4 Structure of LSTM module
本實驗采用基于區分性訓練的改進無詞格最大互信息準則(Lattice Free Maximum Mutual Information, LFMMI),建模單元如圖5所示。改進的LFMMI準則由于降低神經網絡對齊后的輸出幀率,幀移從10 ms增加為30 ms,因此音素狀態數從3降為1,用sp表示,另外加上了一個用于自旋可重復0次或多次的空白狀態sb。這樣對于1幀的聲學特征就要遍歷整個隱馬爾科夫模型(HiddenMarkov Model, HMM),相較于傳統的LFMMI[16]中HMM在音素狀態級別建模,改進的LFMMI,在音素級別建模,直接計算出相應的最大互信息(Maximum Mutual Information, MMI)和所有正確路徑和混淆路徑的后驗概率。

圖5 改進的Lattice-free MMI建模單元Fig.5 Improved lattice-free MMI modeling unit
相比于標準語音識別系統,采用隱馬爾科夫狀態圖(Hidden Markov, H)、音素上下文(Phone Context, C)、發音詞典(Pronunciation Lexicon, L)、語言模型(Grammer Model, G)四部分有限狀態轉換器(Finite State Transducer, FST)組合成HCLG靜態解碼網絡。改進的LFMMI針對小樣本數據在音素級別建模,用音素語言模型(Phone Grammer Model,PGM)來代替詞語言模型(Word Grammer Model,WGM)。由于小樣本條件下音素個數比詞個數少很多,因此PGM產生的FST圖很小,最后得到的HCP解碼網絡也會小很多,P代表PGM,真正做到純序列區分性訓練,可以動態更新MMI部分的統計量并且減少模型訓練時間。
實驗采用的是由Sarah Samson Juan 和 Laurent Besacier收集的開源伊班語(IBAN)語料庫。伊班語是婆羅洲的一種語言,并且是馬來語和波利尼西亞語的一個分支,主要在馬來西亞、加里曼丹和文萊等地普及。該語料庫是由23個說話人錄制完成的,采樣率設為16 kHz,每個采樣點進行16 bit量化,聲道為單聲道。該語料庫總時長大約有8 h,共包含3 132句伊班語語音數據,每句話時長約為9 s。實驗中隨機選擇17個說話人的語音數據作為訓練集,6個說話人的語音數據作為測試集。發音詞典包含大概3.7萬個單詞。本文從網上的新聞演講收集了大約104萬個單詞的文本進行3元語言模型訓練。
為避免語料庫不足而產生過擬合的問題,本實驗在訓練集采用速度擾亂技術進行數據擴增[17]。為保證音頻質量,語速調整應保持在0.85倍和1.25倍之間,因此本實驗將扭曲因子參數設置為0.9和1.1。每次訓練期間會隨機根據扭曲因子的參數,生成不同量的扭曲訓練數據擴充訓練集。同時由于采用速度擾亂技術后信號長度發生了變化,需要使用GMM-HMM系統對生成數據對齊,并將對齊后的低精度聲學特征額外加入音量擾動以提取高精度聲學特征,以40維梅爾頻率倒譜系數(Mel Frequency Cepstrum Coefficient, MFCC)作為基礎特征參數,同時添加說話人聲道信息特征用于聲學模型訓練。將深度神經網絡(Deep Neural Networks,DNN)模型作為基線模型,使用基于加權有限狀態轉換器(Weight Finite State Transducer, WFST)作為系統解碼器,以KALDI[18]為平臺搭建了一個馬來西亞方言語音識別系統。
每組實驗在測試集上運行3次,以3次實驗的平均詞錯誤率為最終實驗結果。詞錯誤率的計算方法為

式中:S代表替換錯誤詞數,D代表刪除錯誤詞數,I代表插入錯誤詞數,T為句子中的總詞數。RWE結果越小,表示識別性能越好。
本實驗將TLSTM-Attention模型與4種模型進行對比實驗:(1) DNN模型包含六個隱藏層,一個輸入層,一個輸出層,每層節點數為2 048個,激活函數為tanh。固定15幀上下文窗口,每幀提取40維MFCC特征,共計600維特征向量作為網絡輸入。(2) TDNN聲學模型包含六個隱藏層,一個輸入層,一個輸出層。每個隱藏層包含256個節點,激活函數為tanh,分別采用{0},{-1,1},{-1,1},{-3,3},{-3,3},{-3,3}配置進行時序拼接,其中{0}表示不進行時序拼接,{-1,1}表示對當前時刻的前后各一幀拼接。固定5幀上下文窗口,每幀提取40維MFCC特征,共計200維特征向量作為網絡輸入。(3) LSTM聲學模型包含六個隱藏層,一個輸入層,一個輸出層。每個隱藏層包含256個節點,包含5幀歷史信息和5幀未來信息,后三個隱藏層為常規隱藏層,激活函數為tanh。固定3幀上下文窗口,共計120維特征向量作為網絡輸入。(4) TDNN-LSTM包含六個隱藏層,一個輸入層,一個輸出層。第一個隱藏層為包含256個節點的TDNN,固定5幀上下文窗口,每幀提取40維MFCC特征,共計200維特征向量。第2、4和6隱藏層為包含256個節點的LSTM,模塊包含5幀歷史信息和5幀未來信息。第三層和第五層是TDNN隱層,配置信息為{-3,3}。
表1為馬來西亞方言在不同神經網絡的聲學模型的識別結果。從實驗結果可以看出,TDNN-LSTM-Attention得到的識別性能明顯優于基線DNN模型,RWE從18.20%下降到15.06%,實驗表明,基于TDNN-LSTM-Attention的聲學模型能夠有效提高模型上下文建模能力。

表1 不同神經網絡的詞錯誤率對比結果Table 1 Comparison of word error rates between different neural networks
3.2.1 不同隱層個數和節點數的比較實驗
在本實驗中,分別對TDNN和LSTM神經網絡不同隱藏層個數和節點數進行對比試驗,其配置信息如表2所示。實驗中分別設置隱藏層個數為3、4、5和6,每個隱藏層包含256個節點。當隱藏層個數為3時,第2層為LSTM隱藏層;當隱藏層個數為4時,第3為LSTM隱藏層;當隱藏層個數為5時,第3層和第5層為LSTM隱藏層。當隱藏層個數為6時,第3層、第6層為LSTM隱藏層,其余層均為TDNN隱藏層。例如,使用TDNN-LSTM-6-2表示TDNN-LSTM包含 6個隱藏層,對當前時刻前后兩幀進行降采樣。

表2 不同隱層個數和節點數的詞錯誤率對比結果Table 2 Comparative of word error rates for different numbers of hidden layers and nodes
實驗結果如表2所示,其中TDNN-LSTM隱層數為5時,TDNN降采樣節點配置為{-2,2}的網絡結構得到的實驗結果最好,單詞錯誤率為17.05%,與基線DNN模型相比降低1.15個百分點。實驗表明,隨著隱藏層個數增加隱藏層節點數增加,單詞錯誤率明顯降低。這是因為隨著層數和節點數的增加,將使TDNN-LSTM在訓練過程中可以獲得更多固定長度的時間上下文關聯信息。
3.2.2 不同注意力層結構的比較實驗
本實驗以上面實驗中表現最好的 TDNNLSTM-5-2模型為基準,模型基礎結構不變,對注意力層的個數以及位置結構進行對比實驗。實驗中分別設置注意力層數為1、2及3。當注意力層個數為1時,注意力層有兩個位置結構,1-3表示模型有1個注意力層結構,且位于該模型第3層;1-6表示模型1個注意力層結構,且位于該模型第6層。當注意力層個數為2時,注意力層分別位于模型的第3、8層,用2-3-8表示。當注意力層個數為3時,注意力層分別位于模型的第3、6、8層,用3-3-6-8表示。
實驗結果如表3所示,當注意力層個數為2時,即Attention2-3-8網絡結構得到的實驗結果最好,單詞錯誤率為14.83%,與基線DNN模型相比相對降低3.37個百分點。實驗表明,適當嵌入注意層能夠有效提高識別效果。這是因為模型中的注意力層能夠關注特征的差異性,有效結合粗細粒度特征,但當注意層增加時模型將會過多的關注信息差異性,造成數據的原始性缺失進而導致識別率不佳。

表3 注意力層的層數和位置不同的詞錯誤率對比結果Table 3 Comparison of word error rates for different layer numbers and positions of attention layers
本實驗以13維MFCC作為模型輸入的基礎特征,將基礎特征進行二階差分處理得到26維差分特征和1維的音高特征組合得到40維MFCC,同時添加100維的i-vector特征作為附帶特征。提取特征后對特征計算倒譜均值并在模型訓練時動態進行歸一化處理,減少異常特征信息數據對模型訓練的影響。訓練所用模型為TDNN-LSTM-5-2-Attention2-3-8模型,實驗結果如表4所示。

表4 不同聲學特征的TLSTM-Attention模型詞錯誤率對比結果Table 4 Comparison of word error rates for TLSTM-Attention model with different acoustic features
表4的實驗結果顯示,對于基礎特征來說,高維的MFCC能夠更好地擬合基于注意力機制的TDNN-LSTM模型,并且基于40維的MFCC特征和i-vector特征組合的多輸入特征,使得神經網絡可以獲取不同說話人特點和信道信息進行訓練,比單輸入特征在測試集上取得更好的識別率。能夠在更長時序的語音序列建模,充分挖掘了上下文信息,從而提高模型的魯棒性。
本文針對小樣本資源下,模型上下文能力不足的問題,以基于注意力機制的TDNN-LSTM的模型為核心構建了一個馬來語方言的語音識別系統,同時添加說話人聲道信息特征,結合LFFMI訓練準則,讓模型在有限資源下充分對音素進行建模。實驗結果表明,相比于DNN基線模型,基于注意力機制的TDNN-LSTM模型可以有效提高上下文建模能力,并且由于添加了說話人聲道信息特征,在特征層面克服了用說話人無關的語音特征進行聲學模型訓練的不足。另外,本文的主要任務是從提高上下文建模能力角度來提高低資源下的語音識別效果,對于如何更有效提高小樣本資源下語音識別的效果仍需要繼續深入研究和探討。