
















摘 要:基于Transformer的端到端語音識別系統獲得廣泛的普及,但Transformer中的多頭自注意力機制對輸入序列的位置信息不敏感,同時它靈活的對齊方式在面對帶噪語音時泛化性能較差。針對以上問題,首先提出使用時序卷積神經網絡(TCN)來加強神經網絡模型對位置信息的捕捉,其次在上述基礎上融合連接時序分類(CTC),提出TCN-Transformer-CTC模型。在不使用任何語言模型的情況下,在中文普通話開源語音數據庫AISHELL-1上的實驗結果表明,TCN-Transformer-CTC相較于Transformer字錯誤率相對降低了10.91%,模型最終字錯誤率降低至5.31%,驗證了提出的模型具有一定的先進性。
關鍵詞:端到端語音識別;Transformer;時序卷積神經網絡;連接時序分類
中圖分類號:TN912.34 文獻標志碼:A
文章編號:1001-3695(2022)03-009-0699-05
doi:10.19734/j.issn.1001-3695.2021.08.0323
基金項目:國家自然科學基金面上項目(61672263)
作者簡介:謝旭康(1998-),男,湖南邵陽人,碩士研究生,主要研究方向為語音識別、機器學習等;陳戈(1996-),女,河南信陽人,碩士研究生,主要研究方向為語音識別、語音增強等;孫俊(1971-),男(通信作者),江蘇無錫人,教授,博導,博士,主要研究方向為人工智能、計算智能、機器學習、大數據分析、生物信息學等(junsun@jiangnan.edu.cn);陳祺東(1992-),男,浙江湖州人,博士,主要研究方向為演化計算、機器學習等.
TCN-Transformer-CTC for end-to-end speech recognition
Xie Xukang,Chen Ge,Sun Jun?,Chen Qidong
(School of Artificial Intelligence amp; Computer Science,Jiangnan University,Wuxi Jiangsu 214122,China)
Abstract:Recently,the end-to-end automatic speech recognition system based on Transformer has been widely popularized,but the multi-head self-attention mechanism in Transformer is not sensitive to the position information of the input sequence,and its flexible alignment has poor generalization performance in the face of noisy speech.To solve the above problems,firstly,this paper proposed to use TCN to enhance the capture of location information by neural network model.Secondly,on the basis of the above,it proposed the TCN-Transformer-CTC model by fusing CTC.Without using any language model,the experimental results on AISHELL-1,an open source speech database of Mandarin Chinese,show that the word error rate of TCN-Transformer-CTC is relatively reduced by 10.91% compared with Transformer,and the final word error rate of the model is reduced to 5.31% which verifies that the proposed model has a certain degree of advancement.
Key words:end-to-end speech recognition;Transformer;temporal convolutional neural network;connectionist temporal classification
0 引言
自動語言識別(automatic speech recognition,ASR) 技術可以讓人與人、人與機器更順暢地交流。目前,隨著語音識別技術快速發展,語音識別技術在智能客服、智能家具、車載系統、機器人等領域廣泛應用[1,2]。傳統的連續語音識別系統是由多個復雜的模塊組成,包括訓練基于隱馬爾可夫模型(HMM)的聲學模型[3]、構建發音字典以及語言模型,因此是一項復雜的工程。其一般步驟為:首先需要專業語言學家設計的發音字典,然后將聲學模型產生的音素序列映射到單詞序列,進而使用大量文本數據訓練的語言模型對單詞序列進行打分,最終得出最后的預測文本[2]。
傳統語音識別模型的處理流程復雜,近年來,伴隨著計算能力的提高以及數據資源的擴展,端到端的語音識別系統將聲學模型、發音字典、語言模型集成到單個系統中共同訓練,極大地簡化了訓練和推理過程,因此成為當前的研究熱點[4~6]。一般的端到端語音識別系統主要有連接主義時序分類(connectionist temporal classification,CTC)和基于注意力機制(attention)的系統,基于這兩種方法的ASR系統都可以解決語音識別中輸入和輸出序列的變化長度的問題。基于CTC的模型將語音識別看做分類問題,每一聲學輸入幀對應一個輸出標簽,利用重復標簽和空白標簽來鑒別沒有輸出標簽的聲學幀,可以很好地解決對齊問題[7],但CTC在輸出標簽之間有很強的獨立性假設,忽略了上下文聯系,因此在沒有強大的語言模型情況下表現不足;另一方面,基于attention的編解碼器模型[8,9]直接將聲學幀序列映射到標簽序列,同時在解碼器中考慮了輸出標簽的上下文關系,所以比單純基于CTC的模型效果好。但在實際場景中,噪聲的影響會導致注意力的對齊機制崩潰,從而結果不如預期。由于它們單獨訓練的弊端,結合CTC和attention模型優勢的混合CTC/attention端到端模型引起了研究人員的關注,在訓練過程中,CTC作為基于attention的編解碼器模型的輔助訓練任務,在加快模型收斂速度的同時提高了模型準確度[10,11]。CTC首先應用于基于attention的循環神經網絡(recurrent neural network,RNN)編解碼器模型中,但RNN的順序性限制了訓練的計算并行化,在處理語音這種長序列輸入時相當耗時。Dong等人[12]提出基于Transformer的端到端語音識別模型,其編碼器、解碼器基本模塊都是基于自注意力(self-attention),不同于RNN一一計算位置鏈來繪制位置之間的依賴關系,self-attention通過位置對獲取時序信息,只需要計算一次即可獲得變換表示,省去了RNN中的逐個計算步驟,通過并行化訓練獲得更快的訓練速度,同時獲得與基于RNN編解碼器的模型相媲美的識別率[12,13]。Transformer[14]中,self-attention不包含如RNN等對序列位置信息敏感的網絡結構,所以引入了相應的位置編碼(positional encoding)來傳遞位置關系。隨后Bie等人[15]指出positional encoding賦予的位置信息會隨著網絡層的增加而逐漸丟失,提出使用卷積神經網絡(CNN)獲取隱式的位置信息來替代positional encoding,但是在不去掉positional encoding的條件下,為模型設計相應的卷積模塊來學習隱式的位置信息的效果如何尚未有驗證。
受以上前人工作的啟發,本文提出TCN-Transformer-CTC端到端語音識別模型。a)在不改變模型并行性的前提下,利用時序卷積神經網絡(temporal convolutional neural,TCN)[16]的優勢學習隱含的位置信息,維護后序層之間位置信息的流動,相比只用卷積模塊代替positional encoding的模型[17]表現效果更好;b)利用多任務學習思想,使用CTC聯合TCN-Transformer訓練來減輕基于attention的TCN-Transformer模型對齊問題,提高模型魯棒性,加快收斂速度。實驗結果表明,本文最好的模型配置在無外部語言模型或者超參數調整的情況下,在開源數據集AISHELL-1、Aidatatang上相比其它模型均得到了相應的提升,測試集字錯誤率分別為5.31%和6.19%。
1 連接時序分類與注意力機制
1.1 連接時序分類
CTC模型是由Graves等人[18]提出的一種時序分類方法,相比傳統語音識別需要進行預先對齊的操作,它直接將輸入音頻序列映射到單詞或其他建模單元(如音素和字符)的系統,極大簡化了語音識別模型的構建和訓練。同時CTC引入了空白標簽,讓網絡在判斷當前輸入語音幀時可以得到緩沖,解決了重復字符和連續標簽對齊的問題。CTC引入了一個潛在變量CTC路徑π=(π1,π2,…,πL)作為輸入序列的幀級別標簽,并在相鄰的相同標簽中插入特殊的空白符號表示空輸出。通過去除相同標簽的重復以及空白符號,可以將不同的輸出路徑映射到特定的標簽序列。假定不同幀上的標簽是條件獨立的,然后分別計算每個幀對應標簽的條件概率,最后一條CTC路徑的概率為每個幀對應標簽概率的積,計算公式如下:
其中:x為輸入聲學幀序列;T表示聲學幀長度;qt(πt)表示在第t的聲學幀時,應輸出標簽πt的softmax概率。
進而得出最終輸出的標簽序列的概率為
其中:y是輸出標簽序列;φ(y)表示所有CTC路徑π中能映射到標簽序列y的集合。
采用一種前向后向算法可以快速地對所有可能的CTC路徑求和,標簽y的概率可以通過前向變量計算:
其中:i是輸出標簽索引;t是輸入幀索引;αt(i)是前向變量,表示在時刻t狀態為i時,前面的時刻觀察到標簽y的前一部分狀態的概率;βt(i)是后向變量,表示時刻t從狀態i開始觀察到標簽y的后一部分狀態的概率。
CTC損失定義為輸出標簽序列概率的負對數似然:
1.2 多頭注意力
注意力(attention)是指對于某個時刻的輸出在輸入上各部分的權重。區別于序列到序列(seq2seq)模型里使用的加性注意力(additive attention),本文模型選擇了按比例縮放的點積注意力(scaled dot-product attention),模型結構如圖1所示[13]。三個輸入分別為查詢Q、鍵K、值V,Q和每個K遵循點積相似度函數計算方法來獲得權重,同時通過除以一個K的維度進行放縮,采用softmax函數對這些權重進行歸一化處理,以解決內積值太大的問題:
(multi-head attention)由Google機器翻譯團隊于2017年提出[13],作為注意力機制的一種變體,它由多個scaled dot-product attention的基礎單元堆疊而成,可以對輸入信息進行并行處理,由點積注意力提取多組不同信息并進行拼接處理。其優點在于可以從不同的子空間中獲取到多種維度的相關信息。多頭注意力結構如圖2所示[13]。通過式(6)計算出h頭點積注意力,再將各子空間的輸出進行concat拼接并投影,輸出注意力后的特征矩陣為
2 TCN-Transformer-CTC模型架構
本文提出的TCN-Transformer-CTC模型結構如圖3所示,它由前置處理模塊(聲學前置模塊、文本前置模塊)、編解碼器(encoder-decoder)、混合CTC/attention loss組成。它將ASR看做序列到序列任務,encoder將輸入的幀級別聲學特征x=(x1,…,xT)映射到一種序列高級表示(h1,h2,…,hN),decoder通過已經生成的文本(y1,y2,…,yl-1)聯合經過注意力調節的隱藏狀態(h1,h2,…,hN)解碼生成yl,最終生成目標轉錄序列(y1,y2,…,yL)。
2.1 前置處理模塊
前置處理模塊分為聲學前置模塊和文本前置模塊。在聲學前置模塊中使用K個2D卷積模塊,每個卷積模塊包含一個2D convolution層、一個ReLU激活層,最后使用positional encoding獲取聲學特征的絕對位置信息,具體結構如圖4(a)所示。文本前置模塊中,使用J個TCN模塊來學習隱含的位置關系,具體結構如圖4(b)所示。
2.2 編解碼器(encoder-decoder)
編碼器和解碼器的結構如圖5所示,由若干個相同的模塊堆疊組成,每個模塊具有兩個主要的子層結構,分別是multi-head attention層和前饋網絡層(feed forward),在每個子層后都使用殘差連接(skip connection)[19]和層歸一化(layer norm)[20]。解碼器與編碼器不同的是使用了掩蓋未來信息的多頭注意力機制,使解碼時不能看見未來的標簽信息,以及在第二個multi-head attention層使用的是跨越注意力(cross-attention)[13]。區別于Transformer模型[12],首先,本文對編碼器/解碼器結構進行調整,在編碼器部分,使用并行TCN結構,其作用是與multi-head attention層處理后的特征進行融合,提取更多特征的同時減緩位置信息的消失;其次,編碼器輸出部分還會輸入到CTC結構中,旨在加快模型訓練收斂速度以及提高魯棒性。
2.3 混合CTC/attention 損失
本文使用CTC目標函數作為輔助任務,與注意力模型不同,CTC的前向后向算法可以使語音和標簽序列之間進行強制單調對齊,彌補attention對齊機制的不足,使模型在嘈雜的外部環境中魯棒性更好。TCN-Transformer-CTC模型結合了CTC以及attention的優勢,總的損失函數定義為CTC和attention損失的加權和:
Tloss=λCTCloss+(1-λ)ATTloss(8)
其中:λ∈[0,1],用來衡量CTC損失和attention損失的重要程度。
3 實驗結果及其分析
3.1 實驗數據
本文在希爾貝殼中文普通話開源數據庫AISHELL-ASR0009-OS1(AISHELL-1)[21]和數據堂開源的中文語音數據集(Aidatatang_200zh)[22]上進行模型驗證。其中AISHELL-1語料庫是由400名來自中國不同口音區域的發言人參與錄制,時長178 h,錄音準確率在95%以上;Aidatatang_200zh語料庫是由600位來自中國不同口音區域的發言人參與錄制,時長200 h,錄音準確率不低于98%。兩種數據集都按照無交疊原則劃分為訓練集、開發集以及測試集。
3.2 實驗環境
實驗硬件環境為IntelXeonCPU E5-2620 v3 @ 2.40 GHz處理器,64 GB運行內存,GPU顯卡為NVIDIA Tesla K80(四顯卡);軟件環境為64位CentOS 7操作系統下搭建的PyTorch深度學習框架。
3.3 實驗步驟
對于輸入音頻特征,統一采用80維對數梅爾濾波器特征(Fbank),25 ms每幀,移動窗口為10 ms,并在特征輸入之前進行了全局歸一化(global-CMVN)。對于輸出,其中AISHELL-1采用了4 233個大小的詞匯集,該詞匯集包括訓練集文本的4 230個中文普通話字符;Aidatatang_200zh采用了3 944個大小的詞匯集,該詞匯集包括訓練集文本的3 941個字符。另外,兩個數據集的詞匯集中都加入了額外的三個令牌字符,分別為空白字符〈blank〉、未知字符〈unk〉以及開始結束標志〈sos/eos〉。對于驗證集和測試集的標簽,本文將集外詞(OOV)全部處理為〈unk〉標簽。為了產生更多的訓練數據以及提高模型魯棒性,本文在訓練集的音頻上應用0.9、1.1的在線速度擾動[23],以及在時域和頻域上掩蓋掉一部分信息[24]等語音增強技術。
本文實驗模型具有以下配置:a)聲學前置模塊中使用兩個2D CNN模塊,每個模塊都有一個CNN層以及ReLU激活函數,每個CNN都有256個濾波器組,每個濾波器內核大小為3×3,步長為1,進行下采樣減少語音特征冗余信息;b)encoder-decoder模塊中,encoder由12層相同子層組成,所有子層由TCN與multi-head attention并行層以及feed-forward層構成,其中,TCN卷積核大小為3,填充為2,膨脹因子為1,multi-head attention層均產生維度為256的輸出,注意力頭H為4,在feed-forward中,內部維度為2 048;decoder由六層相同子層組成,multi-head attention、feed-forward層模塊結構、參數設置與編碼器相同;c)在文本前置處理模塊中,本文使用三個相同TCN模塊,每個模塊都使用圖4(b)中描述的結構組成,其中一維卷積輸入濾波器為256,卷積核為3,步長為1,填充為2,膨脹因子為1。
在訓練過程,將樣本根據音頻長度升序排序進行訓練,batchsize為26,實驗使用超參數β1=0.9,β2=0.98,ε=10-9的Adam[25]優化器,并在整個訓練過程中根據式(9)動態地調節學習率:
其中:n為訓練步數;k為縮放因子;warmup_n為熱身步數;dmodel為注意力中矩陣維度。本文中,k=10,dmodel=256,warmup_n=25 000步,訓練240個epoch。為了防止過擬合,在每個子層中設置比率為0.1的dropout[26]。在訓練完成后,本文使用模型參數平均方法[27],將在驗證集表現最好的30個epoch的參數進行平均作為最終模型的參數,使模型權重更接近最近的局部最小值。在推理過程中,采用寬度為10的集束搜索方法(beam search)[28]得到最后預測文本。所有實驗結果都是在無外部語言模型或者超參數調整下獲得的最佳性能。
3.4 評價標準及實驗分析
本文所有實驗都是基于端到端語音識別工具WeNet[30]開展的,分別在AISHELL-1和Aidatatang_200zh數據集的訓練集上進行訓練,在各自的驗證集和測試集上評價實驗結果。評價標準采用字錯率(character error rate,CER),即
其中:S為替換;D為刪除;I為插入;N為句子字數。為了驗證本文模型的識別性能,將改進后最新模型的attention解碼結果與前人的相關工作以及開源語音工具包ESPnet[31] 、WeNet中相關模型在AISHELL-1數據集上獲得的結果進行比較,并在Aidatatang_200zh數據集上進一步驗證所提出模型的泛化能力。
3.4.1 AISHELL-1實驗結果分析
本文將所有對比的基線聲學模型,包括ESPnet中的Transformer模型[31]、Transformer(CTC權重為0)[12]以及WeNet中Transformer-CTC(CTC權重為0.3)[30]在AISHELL-1數據集上進行了基于字符為建模單元的聲學模型實驗并進行對比分析,除此之外,本文展示了更多的最新實驗結果以供比較。結果如表1所示。從表1可以看出,TCN-Transformer相對于ESPnet(Transformer)[31]和本文基線系統Transformer[12]錯誤率分別下降了15.1%和3.9%。本文最終模型TCN-Transformer-CTC相比Transformer-CTC[30]也下降了6.7%,相比最近相關工作[17,29,32~34]的實驗結果也有相應的提升,驗證了TCN這一結構的有效性。
為了更好地體現各模型之間的差異,本文在訓練集損失集中每隔1 000步選取一個損失值,驗證集中選取50 epoch后的損失曲線作為展示。其中各模型在訓練集以及驗證集上的損失曲線如圖6(a)(b)所示。
從圖6中聲學模型在AISHELL-1上訓練集和驗證集損失曲線可以看出,TCN-Transformer相比Transformer聲學模型loss下降更快、更平穩;從驗證集損失圖可以看到,由于加入CTC聯合訓練的原因,Transformer-CTC loss比Transformer的最終loss大,基于Transformer-CTC改進的TCN-Transformer-CTC結合了CTC、attention、TCN三者的優點,在訓練集上能學到更多的信息,從而泛化性更好,驗證集上的loss相比Transformer-CTC的loss可以進一步降低,最終模型在測試集達到5.31%的錯誤率。因此可以看出,融入TCN模塊的聲學模型識別效果更好。
3.4.2 Aidatatang_200zh實驗結果分析
本文在Aidatatang_200zh數據集上重新訓練Transformer[12]以及TCN-Transformer聲學模型,訓練完成后,分別在Transformer和TCN-Transformer中引入CTC(權重為0.3)混合訓練微調80 epoch來驗證TCN-Transformer和TCN-Transformer-CTC聲學模型在不同數據集上的泛化能力,結果如表2所示。
由表2可以看出,TCN-Transformer-CTC相比本實驗的基線系統Transformer[12]在測試集上有著相對13.03%的字錯誤率下降,在測試集上的最終模型結果可以達到6.19%字錯誤率,相比ESPnet(Transformer)[31]上的實驗結果以及最近在此數據集上的相關工作DFSMN-T[17],CTC/attention(character)[35]也分別有7.61%、20.64%、1.59%相對字錯誤率下降,驗證了本文提出的聲學模型的泛化能力。
4 結束語
本文提出了TCN-Transformer以及TCN-Transformer-CTC兩種端到端語音識別模型,前者將TCN結構引入到Transformer模型來加強模型對特征的捕捉以及對隱含位置信息的學習;后者在此基礎上進一步融合CTC的優勢,使模型訓練收斂更快,魯棒性更好。通過大量的實驗對比驗證了本文提出的聲學模型具有更低的錯誤率和更好的泛化性能。后續的研究會探索更多的訓練策略以及使用無監督學習來進一步提高識別率和模型的魯棒性。
參考文獻:
[1]Huang Xuedong,Baker J,Reddy R.A historical perspective of speech recognition[J].Communications of the ACM,2014,57(1):94-103.
[2]俞棟,鄧力.解析深度學習:語音識別實踐[M].余凱,錢彥旻,譯.5版.北京:電子工業出版社,2017:78-89.(Yu Dong,Deng Li.Deconstruct deep learning:speech recognition practices[M].Yu Kai,Qian Yanmin,trans.5th ed.Beijing:Publishing House of Electronics Industry,2017:78-89.
[3]Rabiner L R.A tutorial on hidden Markov models and selected applications in speech recognition[J].Proceedings of the IEEE,1989,77(2):257-286.
[4]Yu Dong,Li Jinyu.Recent progresses in deep learning based acoustic models[J].IEEE/CAA Journal of Automatica Sinica,2017,4(3):396-409.
[5]高建清,萬根順,吳重亮.端到端語音識別的研究進展與挑戰[J].中國安防,2020(11):39-45.(Gao Jianqing,Wan Genshun,Wu Chongliang.Research progress and challenges of end-to-end speech recognition[J].China Security amp; Protection,2020(11):39-45.
[6]Prabhavalkar R,Rao K,Sainath T N,et al.A comparison of sequence-to-sequence models for speech recognition[C]//Proc of InterSpeech.2017:939-943.
[7]Amodei D,Ananthanarayanan S,Anubhai R,et al.Deep speech 2:end-to-end speech recognition in English and Mandarin[C]//Proc of the 33rd International Conference on International Conference on Machine Learning.2016:173-182.
[8]Chorowski J,Bahdanau D,Cho K,et al.End-to-end continuous speech recognition using attention-based recurrent NN:first results[EB/OL].(2014-12-04).https://arxiv.org/pdf/1412.1602.pdf.
[9]Chan W,Jaitly N,Le Q V,et al.Listen,attend and spell[EB/OL].(2015-08-20).https://arxiv.org/pdf/1508.01211v1.pdf.
[10]Xiao Zhangyu,Ou Zhijian,Chu Wei,et al.Hybrid CTC-attention based end-to-end speech recognition using subword units[C]//Proc of the 11th International Symposium on Chinese Spoken Language Processing.Piscataway,NJ:IEEE Press,2018:146-150.
[11]Watanabe S,Hori T,Kim S,et al.Hybrid CTC/attention architecture for end-to-end speech recognition[J].IEEE Journal of Selected Topics in Signal Processing,2017,11(8):1240-1253.
[12]Dong Linhao,Xu Shuang,Xu Bo.Speech-Transformer:a no-recurrence sequence-to-sequence model for speech recognition[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2018:5884-5888.
[13]Zhou Shiyu,Dong Linhao,Xu Shuang,et al.Syllable-based sequence-to-sequence speech recognition with the Transformer in Mandarin Chinese[EB/OL].(2018-06-04).https://arxiv.org/pdf/1804.10752.pdf.
[14]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000-6010.
[15]Bie A,Venkitesh B,Monteiro J,et al.A simplified fully quantized Transformer for end-to-end speech recognition[EB/OL].(2020-03-24).https://arxiv.org/pdf/1911.03604.pdf.
[16]Hewage P,Behera A,Trovati M,et al.Temporal convolutional neural(TCN) network for an effective weather forecasting using time-series data from the local weather station[J].Soft Computing,2020,24(11):16453-16482.
[17]徐冬冬.基于Transformer的普通話語聲識別模型位置編碼選擇[J].應用聲學,2021,40(2):194-199.(Xu Dongdong.Transformer based position coding selection of Mandarin speech recognition model[J].Journal of Applied Acoustics,2021,40(2):194-199.)
[18]Graves A,Fernández S,Gomez F,et al.Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks[C]//Proc of the 23rd International Conference on Machine Learning.New York:ACM Press,2006:369-376.
[19]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:770-778.
[20]Ba J L,Kiros J R,Hinton G E.Layer normalization[EB/OL].(2016-07-21).https://arxiv.org/pdf/1607.06450v1.pdf.
[21]Bu Hui,Du Jiayu,Na Xingyu,et al.AISHELL-1:an open-source Mandarin speech corpus and a speech recognition base-line[C]//Proc of the 20th Conference of the Oriental Chapter of the Interna-tional Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment.Piscataway,NJ:IEEE Press,2017:1-5.
[22]Beijing DataTang Technology Co.,Ltd..Aidatatang-200zh[DB/OL].http://www.openslr.org/62/.
[23]Ko T,Peddinti V,Povey D,et al.Audio augmentation for speech re-cognition[C]//Proc of the 16th Annual Conference of International Speech Communication Association.2015:3586-3589.
[24]Park D S,Chan W,Zhang Yu,et al.SpecAugment:a simple data augmentation method for automatic speech recognition[EB/OL].(2019-04-18).https://arxiv.org/pdf/1904.08779v1.pdf.
[25]Kingma D P,Ba J L.Adam:a method for stochastic optimization[EB/OL].(2017-01-30).http://de.arxiv.org/pdf/1412.6980.
[26]Srivastava N,Hinton G,Krizhevsky A,et al.Dropout:a simple way to prevent neural networks from overfitting[J].Journal of Machine Learning Research,2014,15(1):1929-1958.
[27]Izmailov P,Podoprikhin D,Garipov T,et al.Averaging weights leads to wider optima and better generalization[EB/OL].(2019-02-25).https://arxiv.org/pdf/1803.05407.pdf.
[28]Kumar A,Vembu S,Menon A K,et al.Beam search algorithms for multilabel learning[J].Machine Learning,2013,92(7):65-89.
[29]Yu Fuhao,Chen Kuanyu.Non-autoregressive Transformer-based end-to-end ASR using BERT[EB/OL].(2021-04-10).https://arxiv.org/ftp/arxiv/papers/2104/2104.04805.pdf.
[30]Zhang Binbin,Wu Di,Yang Chao,et al.WeNet:production first and production ready end-to-end speech recognition toolkit[EB/OL].(2021-02-02).https://arxiv.org/pdf/2102.01547v1.pdf.
[31]Watanabe S,Hori T,Karita S,et al.ESPnet:end-to-end speech processing toolkit[EB/OL].(2018-03-30).https://arxiv.org/pdf/1804.00015v1.pdf.
[32]Shan Changhao,Weng Chao,Wang Guangsen,et al.Component fusion:learning replaceable language model component for end-to-end speech recognition system[C]//Proc of IEEE International Confe-rence on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2019:5361-5635.
[33]胡章芳,蹇芳,唐珊珊,等.DFSMN-T:結合強語言模型Transformer的中文語音識別[J/OL].計算機工程與應用.[2021-10-12].http://kns.cnki.net/kcms/detail/11.2127.TP.20210419.1433.059.html.(Hu Zhangfang,Jian Fang,Tang Shanshan, et al.DFSMN-T:mandarin speech recognition with language model Transformer[J/OL].Computer Engineering and Applications.[2021-10-12].http://kns.cnki.net/kcms/detail/11.2127.TP.20210419.1433.059.html.)
[34]Zhou Xinyuan,Lee G,Yilmaz E,et al.Self-and-mixed attention decoder with deep acoustic structure for transformer-based LVCSR[J].(2020-09-15).https://arxiv.org/pdf/2006.10407.pdf.
[35]Chen Shunfei,Hu Xinhui,Li Sheng,et al.An investigation of using hybrid modeling units for improving end-to-end speech recognition system[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2021:6743-6747.