999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合Transformer的輕量化中文語音識別

2023-01-01 00:00:00沈逸孫俊
計算機應用研究 2023年2期

摘 要:近年來,深度神經網絡模型在語音識別領域成為熱門研究對象。然而,深層神經網絡的構建依賴龐大的參數和計算開銷,過大的模型體積也增加了其在邊緣設備上部署的難度。針對上述問題,提出了基于Transformer的輕量化語音識別模型。首先使用深度可分離卷積獲得音頻特征信息;其次構建了雙半步剩余權重前饋神經網絡,即Macaron-Net結構,并引入低秩矩陣分解,實現了模型壓縮;最后使用稀疏注意力機制,提升了模型的訓練速度和解碼速度。為了驗證模型,在Aishell-1和aidatatang_200zh數據集上進行了測試。實驗結果顯示,與Open-Transformer相比,所提模型在字錯誤率上相對下降了19.8%,在實時率上相對下降了32.1%。

關鍵詞:語音識別;Transformer;低秩矩陣分解;輕量卷積;模型壓縮;稀疏注意力

中圖分類號:TN912.34 文獻標志碼:A 文章編號:1001-3695(2023)02-018-0424-06

doi: 10.19734/j.issn.1001-3695.2022.06.0340

Lightweight Chinese speech recognition with Transformer

Shen Yiwen, Sun Jun

(School of Artificial Intelligence amp; Computer Science, Jiangnan University, Wuxi Jiangsu 214122, China)

Abstract:Recently, deep neural network model has become a hot research object in the field of speech recognition. How-ever, the deep neural network relies on huge parameters and computational overhead, the excessively large model size also increases the difficulty of its deployment on edge devices. Aiming at the above problems, this paper proposed a lightweight speech recognition model based on Transformer. This method used depthwise separable convolution to obtain the feature information. Secondly, this method constructed a two half-step feed-forward layers,namely Macaron-Net, and introduced the low-rank matrix factorization to realize the model compression. Finally, it used a sparse attention mechanism to improve the trai-ning speed and decoding speed of the model. It tested on the Aishell-1 and aidatang_200zh datasets. The experimental results show that compared with Open-Transformer, the word error rate and" real time factor of LM-Transformer decrease by 19.8% and 32.1%, respectively.

Key words:speech recognition; Transformer; low-rank matrix factorization; lightweight convolution; model compression; sparse attention

0 引言

語音識別(automatic speech recognition,ASR)作為一個由計算機科學和計算機語言學(computational linguistics)組成的跨學科分支,搭建起人與機器溝通的橋梁。深度學習在語音領域興起之前,主流識別模型是基于高斯模型和隱馬爾可夫模型的混合模型(Gaussian mixture model-hidden Markov model,GMM-HMM)[1,2]。然而,GMM-HMM對頻譜圖的修改會導致原始語音信息的丟失,深度學習技術能夠深入挖掘聲學特征之間的關聯,通過合并的方式來進行訓練,并從原始數據中搜索更有效的音頻特征表示[3,4]。通過這些方式,深度學習成功減少了信息的缺失,因此,由深度學習發展而來的深度神經網絡(deep neural network,DNN)開始成為主流模型,整體框架變為DNN-HMM。然而,以HMM為代表的傳統模型有著處理流程復雜和訓練時間長的缺陷,延緩了語音識別技術研究的進程。隨著計算機算力的提高,端到端的語音識別系統將聲學模型與字典結合到一起,縮短了模型的訓練時間,簡化了訓練流程,端到端的模型因此成為了熱門研究對象[5,6]。2017年,Vaswani等人[7]提出了模型Transformer,該模型擯棄了傳統模型中的卷積神經網絡結構(convolutional neural network,CNN)和循環神經網絡結構(recurrent neural network,RNN),將注意力機制融入到模型中,Transformer在自然語言處理、情感分析等領域展現出了強大的識別能力[8]。隨后,Lin等人[9]將Transformer應用到語音識別領域,提出了Speech-Transformer模型,基于Transformer的端到端語音識別系統也開始興起。由于Transformer沒有在其結構中顯式地建模位置信息,所以使用了位置編碼(positional encoding)來捕捉位置關系。然而絕對位置編碼在過長的文本中會丟失相對位置信息,于是Dai等人[10]提出了相對位置編碼,極大地提高了訓練文本的長度。Gulati等人[11]發現Transformer的注意力機制善于捕捉全局信息,而使用CNN來提取局部信息能夠彌補注意力機制的不足,并因此提出了將CNN與Transformer相結合的模型,即Conformer[10,11]。

然而,Transformer出色的識別能力和訓練速度都需要大量的參數來支撐。例如,單個Transformer模型需要10 以上的乘加運算(mult-adds)才能翻譯出一個只有30個單詞的句子[12],這種極高的計算資源需求大大超出了物聯網和智能手機等邊緣設備的能力,限制了Transformer模型在該類設備上部署的可能性。因此,設計出一種用于邊緣設備的輕量、快速的語音識別Transformer架構有重要的意義。Wu等人[13]提出了用動態卷積(dynamic convolutions)來代替自注意力機制,動態卷積核會隨各時刻的學習函數而變化,因此需要占用大量的GPU內存來計算。為了解決這個問題,模型中使用了輕量卷積來減少參數和運算量,使動態卷積有了可行性。然而,輕量卷積僅和其他卷積結構相結合,未能單獨應用;因此,本文將輕量卷積應用到語音識別中,用其輕量結構加快聲學特征的提取速度。

另外,低秩分解算法作為一種有效的模型壓縮方法,將其加入深度學習模型也取得了成效。Tara等人提出了最終加權層的低秩分解,在大詞匯量的連續語音識別任務中大幅減少了參數量;Genta等人提出了使用一種非負矩陣分解的LSTM訓練后壓縮方法來壓縮大型預訓練模型,然而該方法未能加快訓練速度;Winata等人將低秩矩陣分解(low-rank matrix factorization)應用到Transformer的特征矩陣中,由此減少模型的參數,并加快模型的訓練速度和推理速度[14~17]。低秩矩陣分解算法雖然壓縮了模型,但是對模型的識別能力會產生影響。上述工作未能做到針對特定模型進行優化來減少該算法對模型的負面影響。因此,本文針對Transformer模型,對低秩矩陣分解算法進行優化,在保持壓縮模型的優點的同時,減少該算法對模型識別能力的影響。

基于前人的工作研究,為了將高性能的語音識別模型Transformer在邊緣設備上進行部署,本文在以上模型輕量化的工作基礎上進一步深入,在保持識別精度的同時保持較快的推理速度,提出了基于輕量Transformer的中文語音識別系統LM-Transformer(low rank Macaron-Transformer)。首先在聲學特征處理模塊使用了深度可分離卷積(depthwise separable convolution,DS conv)[16],將逐通道卷積與逐點卷積相結合;與常規卷積相比,該方法降低了參數量與運算量。其次,LM-Transformer在前人低秩矩陣分解思想的基礎上進行優化,使該算法更適合Transformer模型,LM-Transformer在編碼器部分使用了低秩Macaron-Net結構。在減少低秩矩陣分解對模型識別準確率影響的同時,保留該算法的優點,減少了模型的參數,提高了模型的推理速度。最后,LM-Transformer將稀疏注意力機制(sparse attention,SATT)應用到語音識別解碼中,與Transformer相比減少了模型中的冗余數據,加快了訓練速度。本文通過實際數據集Aishell-1和aidatatang_200zh對上述模型進行了實驗驗證,結果表明該模型的字錯誤率降低至9.66%,實時率降低至0.020 1。

1 注意力機制

與傳統語音識別系統中的RNN結構不同,本文將Transformer的自注意力機制融入模型。自注意力是模仿人類大腦的注意力思想構造而成[18]。注意力函數的作用可以描述為將一項查詢值Q和一系列的鍵K和值V對映射輸出[7]。

目前主流注意力機制為加性注意力機制[18]和點積注意力機制。其中點積注意力機制中的乘性函數在優化的矩陣乘法算法下具有計算速度更快的優勢,逐漸替代加性注意力機制,因此本文在編碼器模塊中使用了點積注意力。點積注意力的輸入由查詢值、鍵的維度dk和值的維度dv組成,通過計算查詢值與所有鍵的點積,除以dk,并應用softmax函數來獲得值的權重。隨著dk的增長,softmax函數計算后的結果會趨向于0。為了抵消這種影響,Transformer將dk縮放成dk,并將其稱為縮放點積注意力,如圖1所示。縮放點積注意力的計算公式如式(1)所示。

多頭注意力(multi-head attention)如圖2所示,由h個縮放點積注意力堆疊而成,能對輸入信息并行處理。相比單頭的注意力,多頭注意力模型能夠通過每個單獨的注意力頭獲取獨立的位置信息。多頭注意力機制通過式(2)計算出h頭縮放點積注意力,再將各注意力頭的輸出結果進行整合。本文的編碼器和解碼器模塊均通過多頭注意力結構獲取具有區分性的隱層序列。具體計算公式分別如式(2)和(3)所示。

2 輕量化語音識別系統

傳統的語音識別系統通常由聲學模型處理音頻特征,再聯合語言模型進行解碼。然而,聯合模型針對語音識別方案中各部分無法做到任務獨立,并且難以進行聯合優化。因此,本文構建端到端模型來解決傳統語音識別系統的多模塊訓練和工程復雜度高等問題。基于注意力機制的端到端模型Transformer識別能力強,并行計算快,為了實現在邊緣設備上部署高性能的語音識別系統,本文提出了一種新的端到端的輕量化語音識別模型LM-Transformer。本文利用Transformer的注意力機制獲取更準確的語義關系;通過輕量卷積獲取聲學特征,構建低秩Macaron網絡結構和稀疏注意力解碼模塊代替Transformer的編解碼器。本章首先介紹模型的整體架構,之后對輕量卷積特征處理、低秩Macaron網絡編碼器、稀疏注意力解碼器三個模塊進行詳細闡述。

2.1 模型架構

本文提出的輕量化模型LM-Transformer具體模型結構如圖3所示,主要由聲學處理模塊、編碼器和解碼器組成。與序列到序列(seq2seq)模型相似,本文通過聲學處理模塊獲取音頻特征,并由編碼器中的多頭注意力結構將語音特征序列(x1,…,xT)轉換為隱藏層序列表示hs=(h1,…,hT),將該結果送入解碼器;在確定hs后,解碼器通過注意力結構每次生成一個單字符的輸出序列(y1,…,ys),并將已生成輸出序列作為附加輸入。

2.2 輕量卷積特征處理

語音識別模型需要將語音特征序列轉換為相應的字符序列。語音特征序列可以描述為具有時間和頻率軸的二維頻譜圖,通常比字符序列長幾倍,在閱讀頻譜圖時,人類根據不同的頻率隨時間變化的相關性來預測其發音。因此,本文選擇對時域和頻域進行卷積。一方面是符合人類的頻譜閱讀習慣提升模型獲取時域信息的能力,另一方面利用頻譜圖的結構局部性[9]。由于時間維度與頻率的變化相關,所以可以通過控制頻譜圖改變頻率,從而獲得時間維度的變化。通過對頻譜圖的特征序列進行卷積操作來縮短特征序列長度,使其與目標序列對齊,由此能夠減少特征序列和目標序列長度的不適配性。

本文使用深度可分離卷積代替普通卷積獲取音頻特征,以達到壓縮聲學處理模塊體積和加快計算速度的效果。如圖4所示,深度可分離卷積在逐通道卷積后拼接逐點卷積。逐通道卷積對輸入層的每個通道進行獨立卷積計算,然后重新進行堆疊。然而,不同通道投影到特定位置的信息同樣重要,逐通道卷積無法捕獲這些位置信息,因此在逐通道卷積后引入了逐點卷積。逐點卷積的卷積核大小都是1×1,會將從逐通道卷積整合的特征圖在深度向上進行加權拼接操作,最后輸出處理的特征圖。

設WI和WO分別為輸入和輸出特征圖的寬度,HI和HO分別為輸入和輸出特征圖的高度,CI和CO分別為輸入和輸出通道數,卷積核尺寸為D2K,則單張輸入特征圖尺寸為WI×HI,單張輸出特征圖尺寸為WO×HO。因此,標準卷積的參數量如式(4)所示。

本文模型在僅改變卷積網絡的情況下,通過對比處理同一段長度約5 s的音頻特征時的表現,發現兩種卷積的處理效率有很大差距。表1為實驗的結果,其中mult-adds為卷積網絡完成的乘加運算次數,flops為卷積網絡完成的浮點運算次數。由表1所示,本文使用輕量卷積特征處理模塊精簡模型參數,并提高了計算速度,從而加快了模型的特征提取速度。

2.3 低秩Macaron網絡編碼器

本文編碼器的結構如圖3所示,使用了Transformer編碼器的多頭注意力結構,將聲學特征轉換到不同的注意力子空間分別學習特征表達,最后輸出具有區分性的隱層序列。在此基礎上,本文使用了Macaron-Net[11],在多頭注意力結構的前后各增加了一個半步剩余權重的前饋神經網絡層。對于編碼器模塊i的輸入xi,該模塊的輸出yi如式(10)所示。

其中:FFN(·)指前饋神經網絡結構;MHSA(·)指多頭自注意力結構;layernorm(·)為歸一化操作;x′i、x″i分別為經過第一個FFN模塊、MHSA模塊的輸出。每個子層在使用殘差連接后都進行了層歸一化,降低了深層神經網絡的訓練時梯度爆炸和梯度消失的可能,提升了訓練的穩定性。與單前饋神經網絡層相比,該結構在識別能力上有一定的提升。

Transformer的編碼器—解碼器體系結構[19]通過并行計算提高了模型的識別性能和訓練速度;然而,該結構依賴深層的網絡和大量的參數,這使模型的推理速度變慢,也違背了本文在輕量級設備上部署模型的初衷。因此,本文利用Transformer編碼器的多頭注意力機制提高模型的識別性能,同時借鑒前人在深度學習使用低秩矩陣分解的思想,在編碼器模塊中引入了低秩矩陣分解算法,并在此基礎上進行優化,最終將該結構命名為LM結構(low-rank Macaron-Net)。

LM結構使用低秩分解單元來替代原先的單一全連接層;自注意力模塊負責處理信息,而低秩分解會導致部分信息的丟失,所以在自注意力模塊應用低秩分解會導致抓取信息的能力下降,從而影響整個模型的識別能力。文獻[17]在自注意力模塊中使用低秩矩陣分解,導致最終的識別效果較低。由于多頭注意力會直接評估句中詞匯在不同位置的語義和相關性,并使用這些信息來捕捉句子的內部結構和表示;而前饋神經網絡結構更新多頭注意力中輸出向量的狀態信息[20],或逼近學習函數,并不直接參與上下文信息的獲取。因此本文僅在前饋神經網絡結構中應用低秩矩陣分解,構建了低秩前饋神經網絡(low-rank feed forward network,LR-FFN),具體結構如圖5所示。該結構可減輕低秩分解算法對模型識別能力的影響,同時壓縮模型,降低參數量。

3 實驗結果與分析

3.1 實驗數據

本文使用的數據集為中文普通話開源語音數據庫Aishell-1[21]和aidatatang_200zh。Aishell-1錄音時長178 h,錄音文本涉及智能家居、無人駕駛、工業生產等11個領域,由400名來自中國不同口音區域的發言者參與錄制,經過專業語音人員轉寫標注,并通過嚴格的音頻質量檢驗,文本正確率在95%以上。aidatang_200zh包含多種中文口音,錄音時長充足。

3.2 實驗環境

本文實驗均使用的操作系統為Windows 10,并使用深度學習庫PyTorch。硬件環境使用了Intel CoreTM i7-10870H CPU @2.20 GHz(處理器),NVIDIA GeForce RTX 2060 @ 6 GB(顯卡)。語音處理庫主要使用了Torchaudio、Kaldi和Scipy。

3.3 實驗步驟

實驗先對數據集音頻數據進行預處理,通過預加重、分幀(25 ms每幀)、加窗(漢明窗)、短時傅里葉變換、Mel濾波獲得Fbank音頻特征;然后使用全局倒譜均值方差歸一化(global_cmvn)對特征進行處理,使輸入的聲學特征符合正態分布。Aishell-1的字典共有4 233個字符,aidatatang_200zh的字典共有3 944個字符;兩個字典均包含〈PAD〉(空白符)、〈S/E〉(起始/結束符)和〈UNK〉(未知字符)共計三個特殊字符。本文在模型訓練時使用了頻譜增強(spec augment[22]),用于提升模型的魯棒性。

本文模型主要分為聲學處理模塊、編碼器和解碼器。聲學處理模塊由兩個深度可分離卷積組成,分別對時域和頻域進行處理。單個卷積中,逐通道卷積步長為2,卷積核大小為(3,3);逐點卷積步長為1,卷積核大小為(1,1)。編碼器由6個相同的子模塊組成。單個子模塊中包含一個LM結構和一個多頭自注意力模塊,注意力頭數為4,輸出的特征維度為256,自注意力模塊中使用了相對位置編碼[23]。解碼器由3個相同的子模塊組成,單個子模塊包含一個masked multi-head attention、一個多頭自注意力模塊和一個前饋神經網絡結構,參數設置與編碼器相同。

本文訓練輪數為80,累計梯度accum_steps為4,為了防止梯度爆炸,設置了梯度閾值clip_grad為5。訓練時使用動態調整學習率,具體如式(14)所示。

lrate=η×d-0.5model×min(n-0.5e,ne×warm_up-1.5)(14)

其中:ne為訓練步數;縮放因子η為10;注意力模塊矩陣維度dmodel為256;熱身步數warm_up為12 000。

本文使用自適應矩估計(adaptive moment estimation,Adam[24])作為模型的優化器,其超參數設置為β1=0.9,β2=0.98,ε=10-9。每個子模塊中的dropout[25]為0.1。

3.4 模型對比實驗

為了檢驗本文模型的性能,通過實驗與當前主流中文語音識別模型進行對比,測試內容為模型的參數量、識別能力、推理速度。其中識別能力的評價標準為字錯誤率(word error rate,WER),計算方式如式(15)所示。

WER=100%×S+D+Inse(15)

其中:S為被替換的字數;D為被刪除的字數;I為新插入的字數;nse為句子字數。

推理速度的評價標準為實時率(real time factor,RTF),計算方式如式(16)所示。

RTF=WaT1(16)

其中:Ta為音頻的時長;Wa為處理音頻的時間。實時率越低,模型解碼速度越快,推理速度越快。

為了驗證提出的模型框架識別效果,本文將LM-Transformer與聲學模型Open-Transformer在數據集Aishell-1進行對比實驗,并同時與當前其他端到端模型和融合模型進行對比。實驗結果如表3所示。

由表3可知,本文模型LM-Transformer相較于其他模型在保持較小的參數量時,識別能力較高。DFSMN-T將DFSMN作為聲學模型、Transformer作為語言模型,通過聯結時序分類算法(connectionist temporal classification,CTC[29])來進行輸入輸出標簽序列的對齊,從而實現聯合訓練;由于在聲學模型中均使用了深層網絡,該融合模型的參數量比基于Transformer的端到端模型大,不適于邊緣設備的模型部署。LRT在Vanilla Transformer的編碼器、解碼器上均引入了低秩矩陣分解,極大程度地壓縮了模型體積。然而,在多頭自注意力模塊使用低秩分解,導致了該模塊捕獲信息的能力下降,使模型的識別能力偏低。Deep Speech2將語音識別模塊和語音增強模塊進行聯合訓練,并通過門控遞歸融合(gated recurrent fusion,GRF)模塊將原始的帶噪語音信號和增強后的語音信號在音頻特征層面進行融合;在獲得原始語音的保真信息的同時,也能獲取增強語音信號中的降噪信息。然而Deep Speech2需要獲取原始和增強后的語音信號特征,大大增加了模型的推理時間,阻礙了流式語音識別在移動設備上的應用。Speech-Transformer和Open-Transformer均為基于Transformer的語音識別系統。Speech-Transformer通過2D-Attention結構對時域和頻域的位置信息進行建模,增強了模型對時域和頻域的不變性。Open-Transformer基于Speech-Transformer的模型結構,并通過CTC產生的尖峰個數預測目標語句的長度,從而實現非自回歸的語音識別系統。本文模型LM-Transformer改變LM結構中秩的大小,發現在秩為64時模型的識別效果最好,字錯誤率減少至9.66%,與Open-Transformer相比,有19.8%的相對下降幅度。

為了進一步驗證模型的泛化性,本文在不改變模型參數設置的情況下,在aidatatang_200zh數據集上重新訓練LM-Transformer和Open-Transformer。如表4所示,與Aishell-1的實驗結果類似,當LM結構中的秩為64時模型的字錯誤率最低,為10.51%。本文模型LM-Transformer與Open-Transformer相比,字錯誤率有31%的相對下降幅度,驗證了本文模型具有一定的泛化能力。

為了實現模型在邊緣設備上的部署,除了降低模型的參數量,還需考慮模型的推理速度;過久的響應速度會影響設備的可使用性。因此,本文在Aishell-1和aidatatang_200zh兩個數據集上測試了本文模型的實時率,具體結果如表5和6所示。

本文模型在測試中發現,當LM結構中的秩為64和32時,實時率基本相同,因此最終選擇秩為64時的模型。LM-Transformer在兩個數據集上與Open-Transformer相比,實時率分別下降32.1%和38.2%。其主要原因是LM-Transformer使用了深度可分離卷積,相對常規卷積減少了計算量;引入低秩矩陣分解后的編碼器模塊壓縮了體積,降低了計算消耗,加快了聲學特征處理的時間,減少了模型處理時間;解碼器使用了稀疏注意力,減少了模型中信息流的分析量,最終加快了解碼速度。

4 結束語

本文提出了輕量化語音識別模型LM-Transformer;針對基于Transformer的語音識別系統模型過大、難以在邊緣設備部署的問題,進行了針對性研究。本文在輕量卷積模塊使用深度可分離卷積,降低了參數,提高了特征提取速度;構建了低秩Macaron網絡編碼器,降低了低秩矩陣分解算法的負面影響,在保持模型識別性能的同時實現了模型壓縮、易于在邊緣設備部署的目的;最后構建了稀疏注意力解碼器模塊,提高了模型的訓練速度和解碼速度。

本文在兩個數據集上進行實驗,通過與當前主流語音識別模型對比,驗證了本文模型具有的識別能力和推理速度。在保證識別精度的同時,壓縮了模型,實現了模型壓縮的目標。在后續的研究中會繼續研究語音識別領域的輕量化模型,同時探索優化適合語音識別的模型壓縮算法,將高性能的深度學習模型應用到邊緣設備。

參考文獻:

[1]Rabiner R L. A tutorial on hidden Markov models and selected applications in speech recognition [J]. Proceedings of the IEEE,1989,77(2): 257-286.

[2]呂坤儒,吳春國,梁艷春,等. 融合語言模型的端到端中文語音識別算法 [J]. 電子學報,2021,49(11): 2177-2185. (Lyu Kunru,Wu Chunguo,Liang Yanchun,et al. An end-to-end Chinese speech recognition algorithm integrating language model [J]. Acta Electro-nica Sinica,2021,49(11): 2177-2185.)

[3]Huang Xuedong,Baker J,Reddy R. A historical perspective of speech re-cognition [J]. Communications of the ACM,2014,57(1): 94-103.

[4]陳晉音,葉林輝,鄭海斌,等. 面向語音識別系統的黑盒對抗攻擊方法 [J]. 小型微型計算機系統,2020,41(5): 1019-1029. (Chen Jinyin,Ye Linhui,Zheng Haibin,et al. Black-box adversarial attack toward speech recognition system [J]. Journal of Chinese Computer Systems,2020,41(5): 1019-1029.)

[5]謝旭康,陳戈,孫俊,等. TCN-Transformer-CTC的端到端語音識別 [J]. 計算機應用研究,2022,39(3): 699-703. (Xie Xukang,Chen Ge,Sun Jun,et al. TCN-Transformer-CTC for end-to-end speech recognition [J]. Application Research of Computers,2022,39(3): 699-703.)

[6]丁楓林,郭武,孫健. 端到端維吾爾語語音識別研究 [J]. 小型微型計算機系統,2020,41(1): 19-23. (Ding Fenglin,Guo Wu,Sun Jian. Research on end-to-end speech recognition system for Uyghur [J].Journal of Chinese Computer Systems,2020,41(1): 19-23.)

[7]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need [C]// Proc of the 31st Conference on Neural Information Processing Systems. 2017: 5998-6008.

[8]史占堂,馬玉鵬,趙凡,等. 基于CNN-Head Transformer編碼器的中文命名實體識別 [J]. 計算機工程,2021,48(10):73-80. (Shi Zhantang,Ma Yupeng,Zhao Fan,et al. Chinese NER using CNN-Head Transformer encoder [J]. Computer Engineering,2021,48(10):73-80.)

[9]Lin Dong,Xu Shuang,Xu Bo. Speech-Transformer: a no-recurrence sequence-to-sequence model for speech recognition [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2018: 5884-5888.

[10]Dai Zihang,Yang Zhilin,Yang Yiming,et al. Transformer-XL: attentive language models beyond a fixed-length context [C]// Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: ACL,2019: 2978-2988.

[11]Gulati A,Qin J,Chiu C C,et al. Conformer: convolution-augmented Transformer for speech recognition [C]// Proc of the 21st Annual Conference of the International Speech Communication Association. 2020: 5036-5040.

[12]Wu Zhanghao,Liu Zhijian,Lin Ji,et al. Lite Transformer with long-short range attention [C]// Proc of International Conference on Learning Representations.2020.

[13]Wu F,Fan A,Bae A,et al. Pay less attention with lightweight and dynamic convolutions [C]//Proc of Interantional Conference on Lear-ning Representations.2019.

[14]Tara N S,Brian K,Vikas S,et al. Low-rank matrix factorization for deep neural network training with high-dimensional output targets [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2013: 6655-6659.

[15]Genta I W,Andrea M,Jamin S,et al. On the effectiveness of low-rank matrix factorization for LSTM model [C]// Proc of the 33rd Pacific Asia Conference on Language,Information and Computation. Stroudsburg: ACL,2019.

[16]Winata G I,Cahyawijaya S,Lin Zhaojiang,et al. Lightweight and efficient end-to-end speech recognition using low-rank transformer [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2020: 6144-6148.

[17]Sainath T N,Kingsbury B,Sindhwani V,et al. Low-rank matrix factorization for deep neural network training with high-dimensional output targets [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2013: 6655-6659.

[18]Chollet F. Xception: deep learning with depthwise separable convolutions [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 1800-1807.

[19]張曉旭,馬志強,劉志強,等. Transformer在語音識別任務中的研究現狀與展望 [J]. 計算機科學與探索,2021,15(9): 1578-1594. (Zhang Xiaoxu,Ma Zhiqiang,Liu Zhiqiang,et al. Research status and prospect of Transformer in speech recognition [J]. Journal of Frontiers of Computer Science and Technology,2021,15(9): 1578-1594.)

[20]Bahdanau D,Cho K,Bengio Y. Neural machine translation by jointly learning to align and translate [C]// Proc of the 3rd International Conference on Learning Representations. 2015.

[21]Devlin J,Chang M W,Lee K,et al. BERT: pre-train-ing of deep bidirectional transformers for language understanding [C]//Proc of Annual Conference of the North American Chapter of the Association for Computational Linguistics.Stroudsburg:ACL,2019:4176-4183.

[22]Bu Hui,Du Jiayu,Na Xingyu,et al. AISHELL-1: an open-source mandarin speech corpus and a speech recognition baseline [C]// Proc of the 20th Conference of the Oriental Chapter of the Internatio-nal Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment. Piscataway,NJ: IEEE Press,2017:1-5.

[23]Park D S,Chan W,Zhang Yu,et al. SpecAugment: a simple data augmentation method for automatic speech recognition [C]// Proc of InterSpeech. 2019: 2613-3617.

[24]Shaw P,Uszkoreit J,Vaswani A. Self-attention with relative position representations [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg: ACL,2018: 464-468.

[25]Kingma D,Ba J. Adam: a method for stochastic optimization [C]//Proc of International Conference on Learning Representations. 2015.

[26]Srivastava N,Hinton G,Krizhevsky A,et al. Dropout: a simple way to prevent neural networks from overfitting [J]. Journal of Machine Learning Research,2014,15(1): 1929-1958.

[27]胡章芳,蹇芳,唐珊珊,等. DFSMN-T: 結合強語言模型Transformer的中文語音識別 [J]. 計算機工程與應用,2022,58(9):187-194. (Hu Zhangfang,Jian Fang,Tang Shanshan,et al. DFSMN-T: mandarin speech recognition with language model transformer [J]. Computer Engineering and Applications,2022,58(9):187-194.)

[28]Fan Cunhang,Yi Jiangyan,Tao Jianhua,et al. Gated recurrent fusion with joint training framework for robust end-to-end speech recognition [J]. IEEE/ACM Trans on Audio,Speech,and Language Processing,2021,29: 198-209.

[29]Auvolat A,Mesnard T. Connectionist temporal classification: labelling unsegmented sequences with recurrent neural networks [C]//Proc of International Conference on Machine Learning. New York: ACM Press,2006: 369-376

[30]Tian Zhengkun,Yi Jiangyan,Tao Jianhua,et al. Spike-triggered non-autoregressive transformer for end-to-end speech recognition [C]// Proc of the 21st Annual Conference of the International Speech Communication Association. 2020: 5026-5030.

收稿日期:2022-06-23;修回日期:2022-08-20 基金項目:國家自然科學基金資助項目(61672263);國家自然科學基金委員會聯合基金資助項目(U1836218)

作者簡介:沈逸文(1996-),男,江蘇無錫人,碩士研究生,主要研究方向為語音識別;孫俊(1971-),男(通信作者),江蘇無錫人,教授,博導,博士,主要研究方向為人工智能、計算智能、機器學習、大數據分析、生物信息學等(junsun@jiangnan.edu.cn).

主站蜘蛛池模板: 国产免费好大好硬视频| 青青操国产| 国产精品视频3p| 九九视频免费在线观看| 国产91精品最新在线播放| 欧美国产日韩另类| 亚洲美女一区| 一边摸一边做爽的视频17国产| 久久精品这里只有国产中文精品| 欧美日韩综合网| 国产sm重味一区二区三区| 无码国产偷倩在线播放老年人| 国产成人精品一区二区| 拍国产真实乱人偷精品| 国产成人精品综合| 久久久久免费精品国产| 日韩少妇激情一区二区| 5555国产在线观看| 日韩少妇激情一区二区| 91丝袜乱伦| 最新精品久久精品| 免费A∨中文乱码专区| 精品無碼一區在線觀看 | 福利在线免费视频| 亚洲欧美成人综合| 国产电话自拍伊人| 91啪在线| 欧美中文字幕无线码视频| 亚洲综合国产一区二区三区| 色吊丝av中文字幕| 亚洲欧美日本国产专区一区| 奇米影视狠狠精品7777| 日本在线欧美在线| 啦啦啦网站在线观看a毛片| 一级毛片免费高清视频| 国产成人高清亚洲一区久久| 直接黄91麻豆网站| 欧美国产日韩另类| 国产www网站| 一本一道波多野结衣一区二区| 精品国产www| 亚洲男人的天堂久久香蕉| 国产99视频精品免费观看9e| 国产精品高清国产三级囯产AV| 国产99视频精品免费观看9e| 久996视频精品免费观看| 国产尤物在线播放| 日本午夜视频在线观看| 99热这里只有精品免费国产| 操国产美女| 亚洲无码电影| 国产白浆在线| 国产一区二区三区免费观看| 日韩精品专区免费无码aⅴ| 五月激情婷婷综合| 日韩在线中文| 日本91视频| 久久亚洲美女精品国产精品| 国产成人啪视频一区二区三区| 老司机久久99久久精品播放| 最近最新中文字幕在线第一页| 国产精品香蕉在线| 精品三级在线| 精品剧情v国产在线观看| 国产对白刺激真实精品91| 欧美成人日韩| 国语少妇高潮| 一级毛片高清| 国产亚洲欧美在线人成aaaa| 漂亮人妻被中出中文字幕久久 | 国产交换配偶在线视频| 中文字幕欧美日韩高清| 福利片91| 成AV人片一区二区三区久久| 在线无码九区| 亚洲人成人无码www| 国产精品手机视频一区二区| 久久香蕉国产线看观看精品蕉| 日本不卡在线视频| 国产精品视频系列专区| 亚洲乱码在线播放| 香蕉伊思人视频|