基于Conformer的端到端語音識別方法

2024-08-17 00:00:00胡從剛申藝翔孫永奇趙思聰

計算機應用研究 2024年7期

摘要：針對Conformer編碼器的聲學輸入網絡對FBank語音信息提取不足和通道特征信息缺失問題，提出一種RepVGG-SE-Conformer的端到端語音識別方法。首先，利用RepVGG的多分支結構，增強模型的語音信息提取能力，而在模型推理時通過結構重參數化將多分支融合為單分支，以降低計算復雜度、加快模型推理速度。然后，利用基于壓縮和激勵網絡的通道注意力機制彌補缺失的通道特征信息，以提高語音識別準確率。最后，在公開數據集Aishell-1上的實驗結果表明：相較于Conformer，所提出方法的字錯誤率降低了10.67%，驗證了方法的先進性。此外，RepVGG-SE聲學輸入網絡能夠有效提高多種Transformer變體的端到端語音識別模型的整體性能，具有很好的泛化能力。

關鍵詞：語音識別； Conformer； RepVGG；壓縮和激勵網絡

中圖分類號：TP912.34 文獻標志碼：A 文章編號：1001-3695（2024）07-014-2018-07

doi：10.19734/j.issn.1001-3695.2023.11.0563

End-to-end method based on Conformer for speech recognition

Abstract：The acoustic input network based on the Conformer encoder has the problem of insufficient extraction of FBank speech information and missing channel feature information. This paper proposed an end-to-end method based on RepVGG-SE-Conformer for speech recognition to solve these problems. Firstly， the proposed model used the multi-branch structure of RepVGG to enhance the speech information extraction capability， and using the structural re-parameterization fused the multi-branch into a single branch to reduce the computational complexity and speed up the model inference. Then， based on the squeeze-and-excitation network， the channel attention mechanism made up for the missing channel feature information to improve speech recognition accuracy. Finally， the experimental results on the public dataset Aishell-1 show that the proposed method’s character error rate is reduced by 10.67% compared with Conformer， and the advancement of the method is verified. In addition， the proposed RepVGG-SE acoustic input network has good generalization ability in the end-to-end scene， which can effectively improve the overall performance of speech recognition models based on Transformer variants.

Key words：speech recognition; Conformer; RepVGG; squeeze-and-excitation network

0 引言

自動語音識別（automatic speech recognition，ASR），簡稱語音識別，是人與人、人與機器順暢交流的關鍵技術［1］。隨著智能通信設備的蓬勃發展，語音識別技術早已轉換成產品，并被廣泛應用于會議、客服電話、出行駕駛、教育醫療等各種場景。主流的語音識別技術主要包括基于機器學習的方法（如GMM-HMM［2］）和基于深度學習的方法（如DNN-HMM［3，4］）。但由于GMM-HMM不僅要求幀內元素之間相互獨立，而且沒有利用幀間上下文信息，致使模型無法充分刻畫聲學特征的空間狀態分布［5］，識別率較低。而DNN-HMM是有監督訓練，由于訓練數據人工無法標注，需要借助GMM-HMM來實現幀與狀態的對齊，所以DNN-HMM模型依然存在一定局限性。在訓練架構上，以上兩種主流語音識別模型在聲學模型、語言模型和發音詞典三大組件上都需要單獨設計和訓練，步驟比較煩瑣。而且這種分階段系統還需要聲學、語言學等專業知識和技術的積累，存在入門門檻高、開發成本高和難維護等問題。

近年來，隨著計算能力的快速發展，出現了將傳統語音識別技術的三大組件融合成一個模型的端到端語音識別技術，實現了語音到文本的直接映射。為解決語音輸入序列和輸出序列長度不一致的問題，端到端語音識別技術可分為連接時序分類（connectionist temporal classification，CTC）［6，7］、循環神經網絡轉換器（RNN-Transducer，RNN-T）［8］以及基于注意力機制（attention）的方法［9～11］。Wang等人［12］不僅對這三種模型的發展趨勢進行了詳細總結，而且深入分析了相關技術的優缺點。隨著Transformer［13］在機器翻譯領域的廣泛應用，Dong等人［14］首次將Transformer模型架構引入到語音識別領域，進一步提升了語音識別的準確率。謝旭康等人［15］提出了一種TCN-Transformer-CTC模型，通過時序卷積（TCN）加強Transformer對位置信息的捕捉能力。盡管Transformer在捕獲長距離上下文信息上具有較大的優勢，但提取局部特征的能力較弱。為解決這個問題，Gulati等人［16］提出了Conformer模型，該模型在Transformer編碼器的基礎上加入卷積模塊，通過卷積捕獲局部細粒度特征，同時保留了Transformer的全局表征能力。Burchi等人［17］提出了一種更為高效的 Conformer模型，進一步降低了計算復雜度。Gao等人［18］提出了一種快速并行的Transformer模型——Paraformer，將模型的解碼速度提升了10倍以上。Peng等人［19］提出了一種Branchformer模型，進一步研究了局部特征和全局特征的關系及其對語音識別準確率的影響。Radford等人［20］提出了一種Whisper模型，該模型支持多任務學習，在解碼器里通過引入prefix prompt［21～23］來支持任務切換，從而實現多種語言到文本的轉換。

針對圖像分類任務，Ding等人［24］提出了一種簡單高效的輕量化VGG卷積網絡——RepVGG，以降低模型推理時的資源開銷。Hu等人［25］提出了一種包含通道注意力機制的網絡模型——SENet，增強了網絡模型的表征能力。受他們工作及文獻［16］的啟發，本文提出了一種端到端語音識別模型RepVGG-SE-Conformer，以進一步提高語音識別準確率。主要貢獻如下：

a）在語音識別模型中首次引入RepVGG網絡，在訓練階段通過多分支結構來增強模型對FBank信息的提取能力，在推理階段通過結構重參數化降低了計算復雜度。

b）為彌補缺失的通道特征信息，在RepVGG網絡中融合壓縮和激勵模塊（SENet）以及通道注意力機制，通過優化融合方式充分利用空間特征，提高了語音識別準確率。

c）在公開數據集Aishell-1［26］上的實驗結果表明：與Conformer相比，本文模型的語音識別準確率提高了10.67%，而且RepVGG-SE聲學輸入網絡能夠有效提高多種Transformer變體的端到端語音識別模型的整體性能，具有很好的泛化能力。

1 相關知識

利用Transformer在捕獲長距離上下文信息上的優勢可以提升語音識別的準確率，但其提取局部特征的能力較弱。為了解決這個問題，谷歌團隊提出了一種融合卷積操作的Transformer網絡模型——Conformer。該模型保留了原有的Transformer解碼器部分，主要對Transformer的編碼器部分進行了改進，模型總體架構如圖1所示。

1.1 編碼器聲學輸入網絡

語音信號在進入編碼器聲學輸入網絡之前，首先需要經過預加重、分幀、加窗、傅里葉變換等信號預處理來獲取振幅譜，再對其幅度求平方；最后通過一組梅爾（Mel）濾波器來仿真人耳感知特性進行信息壓縮，進一步生成編碼器聲學輸入網絡所需要的對數功率譜——FBank特征圖。語音信號預處理過程如圖2所示。

編碼器聲學輸入網絡結構如圖1（a）所示，主要由四部分組成：specaugment模塊［27］、卷積模塊（convolution subsampling）、線性層（linear）以及一個dropout。其中：specaugment模塊負責對FBank進行數據增強；convolution subsampling負責降采樣；linear負責特征維度的降維操作；dropout層負責緩解過擬合現象的發生，達到正則化的效果。

1.2 Conformer編碼器和解碼器

Conformer編碼器結構如圖1（b）所示，主要由五部分組成：兩個前饋網絡層（feedforward module）、一個多頭注意力層（multi-head self-attention）、一個卷積模塊層（convolution module）以及一個層歸一化（layernorm）。其中，編碼器采用了Macaron Net架構［28］，且兩個前饋網絡層在輸出時均乘以1/2，編碼器的每個子層均以殘差方式進行連接。

Conformer解碼器直接采用了Transformer解碼器結構，如圖1（c）所示，主要由三部分組成：一個屏蔽未來標簽信息的掩碼多頭注意力層（multi-head self-attention）、一個混合編碼器和解碼器的注意力層（encoder-decoder attention）、一個前饋網絡層（feedforward module）。其中，解碼器的每個子層同樣均以殘差方式進行連接。

1.3 RepVGG

為了降低模型推理時的資源開銷，文獻［24］基于VGG［29］單路模型和ResNet［30］多分支網絡，提出了一種結構重參數化思想，設計了一種訓練網絡和推理網絡相解耦的模型——RepVGG。其中，訓練網絡結構如圖3所示，包含兩種多分支結構，分別用RS1和RS2表示。RS1的結構為：一個3×3卷積平行添加一個1×1卷積分支，每個卷積步幅取值為2，padding為1，且輸出后均經過批量歸一化（batch normalization，BN）處理。RS2的結構為：一個3×3卷積平行添加一個1×1卷積分支和一個恒等映射（identity）分支，每個卷積步幅取值為1，padding為1，輸出后同樣經過批量歸一化（BN）處理。RepVGG訓練網絡主要由一個RS1和N個RS2串行組成，通過這種多分支結構增強了模型的表征能力。

推理網絡結構如圖4所示，包含兩種單路結構，通過結構重參數化將多分支結構的RepVGG訓練網絡轉換成單路的推理網絡。其中，Con1單路卷積層由RS1訓練多分支結構轉換得到，Con2單路卷積層由RS2訓練多分支結構轉換得到。在推理階段利用這種單路模型，可以減少顯存占用、降低計算復雜度，從而加快推理速度。

1.4 SE通道注意力機制

在多通道特征圖中通常包含兩種特征：第一種是每個通道特征圖內部的空間特征；第二種是反映通道間相互依賴關系的通道特征。為了進一步增強網絡模型的表征能力，文獻［25］提出了一種包含通道注意力機制的網絡模型——SENet。該模型通過一種壓縮和激勵（squeeze-and-excitation，SE）網絡模塊引入了通道注意力機制，學習了每個通道的重要程度，從而進一步刻畫了通道間的相互依賴關系。SE模塊結構如圖5所示，其主要由四部分組成：普通卷積網絡Ftr、壓縮操作Fsq、激勵操作Fex以及特征重標定Fscale。其中，Fsq利用全局平均池化（global avgpooling）對經過Ftr卷積后的特征圖進行壓縮，捕獲全局特征；激勵操作則是由全連接層、非線性激活ReLU、全連接層、sigmoid函數串行組成，用于表征不同通道的權重信息；Fscale負責將Ftr的輸出和Fex的輸出通過乘法進行逐通道加權，實現在通道維度上對原始特征的重標定操作。本質上，SE網絡利用了通道注意力機制，使得網絡模型增加對包含信息量最大的通道特征的關注度，同時抑制不重要的通道特征信息。

2 RepVGG-SE-Conformer模型

在Conformer編碼器聲學輸入網絡中，如圖6所示，FBank經過卷積降采樣（convolution subsampling）模塊進行連續兩次降采樣，會造成特征信息提取不充分的問題。此外，卷積模塊輸出是一個多通道特征圖，在進入linear層之前，需先將所有通道的特征圖沿特征維度方向依次拼接，形成一個高維度的單通道特征圖，這種拼接操作會導致通道特征信息的缺失。

為解決上述問題，本節對Conformer編碼器聲學輸入網絡進行改進，提出一種融合RepVGG和注意力機制的模型——RepVGG-SE-Conformer，以進一步提高語音識別準確率。下面首先對該模型的整體架構進行介紹；然后，詳細說明聲學輸入網絡中掩碼降采樣策略的優化方法，再對聲學輸入網絡的訓練與推理兩個階段以及模型的損失函數進行說明；最后，對模型的主要算法實現部分進行簡要概述。

2.1 模型架構

RepVGG-SE-Conformer模型總體架構如圖7所示，主要由三部分組成：編碼器聲學輸入網絡、共享的N層Conformer編碼器模塊和Two-Pass［31］方式解碼器。其中，編碼器聲學輸入網絡和Conformer編解碼器的詳細結構已在第1章進行了詳細描述。Two-pass解碼器由CTC解碼器和M個Transformer解碼器組成。本文的主要創新是在編碼器聲學輸入網絡中，用兩個RepVGG 模塊替換原來的convolution subsampling模塊；并且對第二個RepVGG 模塊進行改造，通過添加壓縮和激勵（SE）模塊引入通道注意力機制，該模塊簡稱為RepVGG-SE。

2.2 聲學輸入網絡中掩碼降采樣策略優化

FBank語音特征序列可以看成一個單通道的二維圖像，但與計算機視覺領域中以固定尺寸圖像作為輸入不同，FBank作為語音識別領域的輸入，其長度具有時序性。為了保持每個batch內部FBank時間長度一致性，在數據預處理過程使用padding將每個batch內的語音均填充到當前batch內部最大的FBank時間長度。如圖8所示，假設batch_size設置為4，填充前每個FBank時間長度分別為T1、T、T2、T3；填充后batch內每個FBank時間長度均變為內部的最大長度T。

為了避免padding引發的均值計算偏移誤差問題，Conformer引入掩碼（mask）操作，且mask掩碼時間長度初始值也為T。在Conformer編碼器聲學輸入網絡的convolution subsampling模塊中包含兩種降采樣。第一種降采樣：FBank降采樣。FBank以步幅為2、padding為0的3×3卷積進行連續兩次降采樣，如圖6（a）所示。其中，FBank特征圖時間維度發生了改變，第一次卷積后特征圖時間維度上的長度T1為

第二次卷積后特征圖時間維度上的長度T2為

第二種降采樣：mask掩碼降采樣。在FBank連續兩次降采樣后，mask掩碼連續兩次從第3列開始，以步幅為2的策略進行降采樣。這種mask掩碼降采樣策略簡稱Mask1，該策略等效于構建一個特殊的1×3卷積核：前兩個元素值為0，第三個元素值為1，步幅為2，降采樣策略如圖9所示。顯然，mask掩碼和FBank在時間維度的長度變化數學公式相同，即經過降采樣輸出的特征圖和掩碼在時間維度上長度仍然保持一致。

在聲學輸入網絡中引入計算機視覺領域的RepVGG網絡模型后，由于RepVGG網絡中二維卷積的padding參數值均為1，使得FBank在經過RepVGG網絡的RS1結構進行降采樣后，輸出的特征圖在時間維度上長度發生改變。第一個RS1后，的特征圖時間維度上的長度T′1為

第二個RS1后，特征圖時間維度上的長度T′2為

這時，mask掩碼在時間維度上的長度為T2，與FBank的長度T′2不一致，導致在模型的掩碼計算過程中出現維度不一致，使模型在訓練過程中出現錯誤。此外，對比式（2）（4）可以看出，當T1為奇數時，兩種FBank降采樣后的輸出在時間維度上的長度相差1幀；但當T1為偶數時，兩種FBank降采樣后的輸出在時間維度上的長度相差2幀。由于mask使用的是單一的掩碼降采樣策略，所以很難解決這種奇偶性引發的輸出長度波動問題。

為了解決上述時間長度不一致的問題，本部分在RepVGG網絡降采樣的基礎上對原來的mask降采樣策略進行了優化，提出一種新的mask降采樣策略，如圖10所示。在每次執行mask掩碼降采樣前，首先獲取mask掩碼的時間長度T，然后判斷T的奇偶性。若為偶數，則mask從第2列開始，以步幅為2的方式進行降采樣；若為奇數，則mask從第1列開始，以步幅為2的方式進行降采樣。與原始的降采樣策略不同，改進后的降采樣策略不能等效為任何1×3卷積。

2.3 聲學輸入網絡的訓練

聲學輸入網絡在訓練階段，如果采用淺層單分支卷積模塊進行降采樣會造成FBank特征提取不充分。為解決這個問題，本部分在卷積降采樣模塊中引入RepVGG的訓練網絡。通過增加卷積網絡層數使模型能夠學習到更為復雜的語音特征；同時利用RepVGG訓練網絡的多分支結構來進一步提升模型的表征能力，改進后的卷積降采樣模塊結構如圖11（a）所示。該卷積降采樣模塊使用兩個RepVGG訓練模塊來構成一個串行結構，簡稱RepVGG-CS。其中，每個RepVGG訓練模塊由一個RS1結構和三個RS2結構組成。為了驗證RepVGG多分支結構在訓練階段的優勢，本部分還設計了一種基于兩個VGG串行的單路卷積降采樣模塊——VGG-CS進行對比，如圖11（b）所示。其中，每個VGG由一個Con1結構和三個Con2結構組成。在第三部分實驗中將對RepVGG-CS、VGG-CS和基線模型Conformer進行分析對比。

為了解決拼接操作造成的通道特征信息損失問題，本部分在RepVGG訓練網絡中，通過融合壓縮和激勵（SE）模塊引入通道注意力機制。在不破壞RepVGG網絡結構的情況下，設計了第一種融合方式：在圖11（a）中第二個RepVGG模塊后直接加入SE模塊，如圖12（a）所示。其中，SE模塊通過一個全局池化層進行壓縮，再依次通過全連接層、ReLU、全連接層、sigmoid進行激勵。這種融合方式簡稱為RepVGG-SE-1。

在Conformer原有的卷積降采樣模塊中僅包含兩層卷積，而在本部分設計的RepVGG-CS降采樣模塊中包含八層卷積以增強對FBank特征圖的信息提取能力。但是，網絡模型層數的增加會帶來模型退化問題［30］。此外，第一種融合方式RepVGG-SE-1可能存在過度側重通道特征、削弱空間特征等問題。為了解決上述問題，本部分設計了第二種融合方式：在RepVGG-SE-1的基礎上，將經過RS1層和SE模塊的輸出以跳躍連接的方式進行殘差融合，如圖12（b）所示。這種融合方式簡稱為RepVGG-SE-2，在第三部分實驗中將對以上兩種融合方式進行對比分析。

2.4 聲學輸入網絡的推理

推理階段，為了降低語音識別模型在部署階段的計算資源開銷、加快推理速度，本部分對RepVGG-SE-Conformer模型進行等效壓縮：通過結構重參數化將訓練階段RepVGG-CS包含的多分支結構——RS1和RS2分別轉換成Con1與Con2單路結構。

為了實現模型的等效壓縮，結構重參數化過程需要進行以下操作：卷積和批歸一化（BN）的融合、不同尺度的卷積核的轉換以及所有3×3卷積分支的融合。第一步是卷積和BN的融合，其中卷積公式如下：

Conv（x）=Wx+b（5）

其中：x為語音特征序列；W為卷積權重；b為偏置。在不考慮b的情況下，式（5）變為

Conv（x）=Wx（6）

BN的計算公式為

其中：y為x通過卷積處理后的語音特征序列；γ為可學習的縮放系數；β為可學習平移系數；ε是為防止除零所設置的一個極小值；μ和σ 2表示的是在整個語音訓練集上總體期望和方差，且這兩個值是在訓練過程中利用每個batch上的均值和方差，使用滑動窗口求平均的方式進行更新得到的［32］。當模型進入推理階段后，μ和σ 2直接作為已知常數參與計算。將式（6）代入式（7），化簡得

至此，卷積和批量歸一化（BN）融合操作完成。

第二步，不同尺度的卷積轉換。對于1×1卷積分支，在融合BN之后，通過周邊補零的方式構建3×3卷積，如圖13所示。

但是在RS2多分支結構中，由于恒等映射（identity）分支不存在實際的卷積核，無法進行BN融合。為解決這個問題，首先構建了一種特殊的3×3卷積核，如圖14所示。該卷積核構建方法如下：對于當前通道，中心權重值設置為1，周邊用0填充；對于其他通道，所有權重均設置為0。通過這種特殊的卷積核可以實現語音特征序列的自身映射。然后，再結合式（10）將新構建的卷積核與BN進行融合。

最后基于卷積操作的可加性，三個3×3卷積分支融合為一個3×3卷積。RepVGG-CS的多分支結構等效壓縮后的單路結構效果與圖11（b）所示的VGG-CS結構一致。

2.5 混合CTC/Attention loss

由于基于Attention機制的Conformer模型在輸入語音序列和輸出字符序列的對齊關系上沒有限制，所以需要更多的語音數據來訓練這種對齊關系。因此，本部分采用CTC的前向-后向方法來強制文本序列與語音序列在時間維度上進行對齊，以達到輔助Attention進行模型訓練的效果。同時，采用多任務學習方式，加速模型訓練過程。針對RepVGG-SE-Conformer模型設計的損失函數如下：

L=λ×LossCTC+（1-λ）LossAttention（11）

其中：λ∈［0，1］用于平衡CTC和Attention損失的權重。

2.6 RepVGG-SE-Conformer算法

在圖7所示的RepVGG-SE-Conformer模型架構中，主要包含聲學輸入網絡、共享Conformer編碼器、CTC解碼器、Transformer解碼器以及CTC/Attention loss。其中，本文的創新點主要體現在聲學輸入網絡中的卷積降采樣模塊。受篇幅限制，本部分僅給出訓練階段和推理階段的卷積降采樣算法描述。

訓練階段的卷積降采樣過程實現如算法1所示。輸入為語音特征圖x和掩碼序列x_mask，輸出為降采樣后的語音特征圖x″和掩碼n_mask。

算法1 訓練階段的卷積降采樣算法

推理階段的卷積降采樣過程如算法2所示。輸入為語音特征圖x和掩碼序列x_mask，輸出為降采樣后的語音特征圖x″和掩碼n_mask。

算法2 推理階段的卷積降采樣算法

3 實驗結果及分析

3.1 實驗數據和實驗環境

本文實驗數據選用由希爾貝殼開源的中文普通話數據集Aishell-1，該數據集是由400位來自國內不同地域的發音人，在安靜的室內環境中通過麥克風（44.1 kHz，16 bit）、Android或iOS手機（16 kHz，6 bit）錄制而成。其中，為平衡麥克風數據，其數據格式降采樣為16 kHz；錄音內容涉及財經、體育、科技、娛樂、時事新聞五大領域。數據集由三部分組成：150 h的訓練集、18 h的驗證集和10 h的測試集，數據集總時長共計178 h。

本文實驗環境為IntelXeonPlatinum 8255C CPU，主頻2.5 GHz的處理器，單顆NVIDIATeslaT4 GPU，顯存為16 GB，運行內存為32 GB，磁盤空間100 GB。在Ubuntu Server 18.04 LTS 64位操作系統上搭建基于Pytorch的深度學習框架，并基于Wenet［33］語音識別工具包進行各項實驗。

3.2 評價標準

語音識別準確率的評價標準采用字錯誤率（character error rate，CER），其計算公式如下：

其中：D表示刪除錯誤的字數量；S表示替換錯誤的字數量；I表示插入錯誤的字數量；N表示所有字數量。

對于模型推理速度的評價采用實時率（real time factor，RTF），其計算公式如下：

其中：TASR表示解碼時長；T為音頻時長，實時率越小解碼速度越快、推理速度也越快。

3.3 訓練過程

首先，進行數據預處理。對于音頻特征，本文選用幀長為25 ms，幀移為10 ms的FBank作為模型輸入特征，其中FBank特征維度取80，不使用全局倒譜均值方差歸一化（Global-CMVN）［34］處理。另外，本文分別采用0.9和1.1的音頻速度擾動技術對訓練數據集進行擴充，使用語音增強技術來提升模型魯棒性。對于文本輸出，使用的Aishell-1字典共有4 233個字符。其中，除了訓練集4 230個字符外，還包含開始結束字符〈sos/eos〉、空白符〈bank〉以及未知字符〈unk〉。

然后是模型的聲學輸入網絡、編碼器、解碼器的配置。a）在聲學輸入網絡的卷積降采樣模塊中，第一個RepVGG模塊輸出通道維度為128；第二個RepVGG模塊輸出通道維度為256；SE的降維系數為16；Linear輸出特征維度為256。b）編碼器包含12個Conformer 模塊，其中每個模塊輸出維度為256，注意力頭數設置為4；前饋網絡內部維度設置為2 048；卷積模塊中的深度卷積（depthwise-convolution）卷積核大小為15；每個子層的dropout取值為0.1。c）解碼器包含6個Transformer decoder解碼塊，除編碼器中的卷積模塊外，參數配置與編碼器相同。

最后，在訓練階段batch_size為16，采用梯度累計accum_grad為4，梯度閾值grad_clip為5，訓練輪數epoch為100，CTC損失輔助權重 λ為0.3。采用動態調整學習率策略，其中熱身步數warmup_steps取35 000，最高學習率lr為0.000 5。采用Adam作為優化器，其中超參數β1為0.9，β2為0.98，ε為10-9。在訓練結束后，選取驗證集表現最好的10個epoch模型，對其參數求平均得到一個訓練模型。在推理階段，將訓練模型中RepVGG模塊的分支進行合并，得到最終的推理模型。然后再將beam設置為10，通過Two-pass進行解碼得到最后的預測文本序列。

3.4 實驗結果與分析

3.4.1 識別率實驗結果分析

本文以字符為建模單元，在Aishell-1數據集上對RepVGG-SE-Conformer的語音識別效果進行了驗證。

1）模型精度

以原始的Conformer為基線（baseline）模型，將圖11提出的RepVGG-CS、VGG-CS和圖12提出的RepVGG-SE-1、RepVGG-SE-2分別作為聲學輸入網絡，再與Conformer組合進行對比實驗。不同聲學輸入網絡組合Conformer的實驗結果如表1所示。從表中結果可以看出， RepVGG-SE聲學輸入網絡提升模型識別能力的效果最好，與基線模型相比測試集字錯誤率降低了10.67%；與RepVGG-SE-1融合方式相比，RepVGG-SE-2方式能夠將字錯誤率降低到4.52%，模型的魯棒性最好。

為進一步評估不同聲學輸入網絡對模型精度的影響，在驗證集中取后60 epoch的損失值進行分析，各組合模型的驗證集損失曲線如圖15所示。

從圖15可以看出，使用RepVGG-SE-2輸入網絡的模型整個驗證集損失最低；同時RepVGG-SE-2融合方式的損失曲線普遍低于RepVGG-SE-1。

2）模型的泛化性

為驗證以RepVGG-SE-2融合方式的聲學輸入網絡（簡稱RepVGG-SE）的泛化性，本文將該輸入網絡分別與Transformer、Paraformer、Branchformer模型組合，并在Aishell-1數據集上進行實驗，實驗結果如表2所示。

從表2可以看出，RepVGG-SE輸入網絡使Transformer的字錯誤率相對降低了16.02%，Paraformer的字錯誤率相對降低了5%，Branchformer相對降低了8.1%。實驗結果表明，本文提出的RepVGG-SE聲學輸入網絡能夠有效提高多種Transformer變體的端到端語音識別模型的整體性能，具有很好的泛化能力。

3.4.2 實時率實驗結果分析

實時率（RTF）是反映語音識別模型性能的另一個重要評價指標。本文將RepVGG-SE聲學輸入網絡分別與Transformer、Conformer、Paraformer以及Branchformer進行組合，并在Aishell-1的測試集上進行推理實驗。為了體現多分支訓練網絡融合成單分支推理網絡的加速效果，本部分對訓練網絡（多分支結構）的實時率和推理網絡（單分支結構）的實時率進行對比，模型推理速度的對比結果如表3所示。

從表3可以看出，融合RepVGG-SE單分支結構的識別速度明顯優于多分支結構，在Transformer、Conformer、Paraformer、Branchformer上的單分支實時率相比于多分支分別下降了2.24%、4.65%、3.42%、1.98%。融合RepVGG-SE單分支結構后的Transformer變體的端到端語音識別模型與原始模型相比，實時性有所降低，實時率稍微增加了0.000 3～0.000 6。但是融合模型在語音識別率方面提升較高，比如RepVGG-SE-Conformer模型相比于Confomer在識別率方面提升了10.67%，而實時率的降低則相對較小。綜合來看，融合RepVGG-SE網絡的模型能夠均衡識別精度和實時性兩方面的性能，具有一定的先進性。

4 結束語

RepVGG是一種輕量級的卷積神經網絡，本文基于該網絡提出了一種RepVGG-SE-Conformer端到端語音識別模型。首先，通過對mask降采樣策略進行優化，使掩碼和語音特征圖在降采樣后時間長度保持一致。然后，在聲學輸入網絡中利用RepVGG的多分支結構提升了模型的表征能力，并通過融合基于SE的通道注意力機制，使模型彌補了缺失的通道特征信息，提高了語音識別準確率。最后，在使用聲學輸入網絡進行推理時，通過結構重參數化將多分支結構轉換為單分支結構，降低了計算復雜度、加快了模型推理速度。在公開數據集Aishell-1上的實驗結果表明：以殘差方式融合的RepVGG-SE聲學輸入網絡能夠使模型的語音識別性能最好。而且，本文提出的RepVGG-SE聲學輸入網絡能夠有效提高多種Transformer變體的端到端語音識別模型整體性能，具有很好的泛化能力。未來的研究將結合Conformer探索端到端語音識別的輕量化技術，進一步提高模型推理速度，使其能夠更好地應用于邊緣設備。

參考文獻：

［1］俞棟，鄧力. 解析深度學習：語音識別實踐［M］.俞凱，錢彥旻，譯. 北京：電子工業出版社， 2016：1-7. （Yu Dong， Deng Li. Deconstruct deep learning： speech recognition practices［M］. Yu Kai， Qian Yanmin， trans. Beijing： Publishing House of Electronics Industry， 2016：1-7.）

［2］9f3eed88627b9c25fe7114350ad2b6f2鄧江云，李晟. 基于GMM-HMM的語音識別垃圾分類系統［J］. 現代計算機， 2020（26）：27-32. （Deng Jiangyun， Li Sheng. Speech recognition garbage classification system based on GMM-HMM［J］.Modern Computer， 2020（26）：27-32.）

［3］Dahl G E， Yu Dong， Deng Li， et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition［J］. IEEE Trans on Audio， Speech， and Language Processing， 2011， 20（1）： 30-42.

［4］Graves A， Mohamed A， Hinton G. Speech recognition with deep recurrent neural networks［C］//Proc of IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway，NJ：IEEE Press， 2013： 6645-6649.

［5］洪青陽，李琳. 語音識別：原理與應用［M］. 2版. 北京：電子工業出版社， 2020：138-142. （Hong Qingyang， Li Lin. Principle and application of speech recognition［M］. 2nd ed. Beijing： Publishing House of Electronics Industry， 2020：138-142.）

［6］Graves A， Fernández S， Gomez F， et al. Connectionist temporal classification： labelling unsegmented sequence data with recurrent neural networks［C］//Proc of the 23rd International Conference on Machine Learning. 2006： 369-376.

［7］楊威，胡燕. 混合CTC/attention架構端到端帶口音普通話識別［J］.計算機應用研究， 2021，38（3）：755-759. （Yang Wei，Hu Yan.Hybrid CTC/attention architecture for end-to-end multi-accent mandarin speech recognition［J］. Application Research of Computers， 2021，38（3）：755-759.）

［8］Graves A. Sequence transduction with recurrent neural networks［EB/OL］. （2012）.https：//arxiv.org/abs/1211.3711.

［9］Chorowski J K， Bahdanau D， Serdyuk D， et al. Attention-based mo-dels for speech recognition［C］//Advances in Neural Information Processing Systems. 2015.

［10］Bahdanau D， Chorowski J， Serdyuk D， et al. End-to-end attention-based large vocabulary speech recognition［C］//Proc of IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway，NJ：IEEE Press， 2016： 4945-4949.

［11］Chan W， Jaitly N， Le Q， et al. Listen， attend and spell： a neural network for large vocabulary conversational speech recognition［C］//Proc of IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway，NJ：IEEE Press， 2016： 4960-4964.

［12］Wang Dong， Wang Xiaodong， Lyu Shaohe. An overview of end-to-end automatic speech recognition［J］. Symmetry， 2019， 11（8）： 1018.

［13］Vaswani A， Shazeer N， Parmar N， et al. Attention is all you need［C］//Advances in Neural Information Processing Systems. Cambridge，MA： MIT Press， 2017：5998-6008.

［14］Dong Linhao， Xu Shuang， Xu Bo. Speech-transformer： a no-recurrence sequence-to-sequence model for speech recognition［C］//Proc of IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway，NJ：IEEE Press， 2018： 5884-5888.

［15］謝旭康，陳戈，孫俊，等. TCN-Transformer-CTC的端到端語音識別［J］.計算機應用研究， 2022，39（3）：699-703. （Xie Xukang，Chen Ge，Sun Jun，et al. TCN-Transformer-CTC for end-to-end speech recognition［J］.Application Research of Computers，2022，39（3）：699-703.）

［16］Gulati A， Qin J， Chiu C C， et al. Conformer： convolution-augmented transformer for speech recognition［EB/OL］. （2020-05-16）. https：//arxiv.org/abs/2005.08100.

［17］Burchi M， Vielzeuf V. Efficient conformer： progressive downsampling and grouped attention for automatic speech recognition［C］//Proc of IEEE Automatic Speech Recognition and Understanding Workshop （ASRU）. Piscataway，NJ：IEEE Press， 2021： 8-15.

［18］Gao Zhifu， Zhang Shiliang， McLoughlin I， et al. Paraformer： fast and accurate parallel transformer for non-autoregressive end-to-end speech recognition［EB/OL］. （2023-03-30）.https：//arxiv.org/abs/2206.08317.

［19］Peng Yifan， Dalmia S， Lane I， et al. Branchformer： parallel MLP-attention architectures to capture local and global context for speech recognition and understanding［C］//Proc of International Conference on Machine Learning. New York：ACM Press， 2022： 17627-17643.

［20］Radford A， Kim J W， Xu Tao， et al. Robust speech recognition via large-scale weak supervision［C］//Proc of International Conference on Machine Learning. New York：ACM Press， 2023： 28492-28518.

［21］Schick T， Schütze H. Exploiting cloze questions for few shot text classification and natural language inference［EB/OL］. （2021-01-25）. https：//arxiv.org/abs/2001.07676.

［22］Shin T， Razeghi Y， Logan IV R L， et al. Autoprompt： eliciting knowledge from language models with automatically generated prompts［EB/OL］. （2020-11-07）.https：//arxiv.org/abs/2010.15980.

［23］Li X L， Liang P. Prefix-tuning： optimizing continuous prompts for generation［EB/OL］. （2021-01-01）. https：//arxiv.org/abs/2101.00190.

［24］Ding Xiaohan， Zhang Xiangyu， Ma Ningning， et al. RepVGG： ma-king VGG-style convnets great again［C］//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway，NJ：IEEE Press， 2021： 13733-13742.

［25］Hu Jie， Shen Li， Sun Gang. Squeeze-and-excitation networks［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway，NJ：IEEE Press， 2018： 7132-7141.

［26］Bu Hui， Du Jiayu， Na Xingyu， et al. Aishell-1： an open-source mandarin speech corpus and a speech recognition baseline［C］//Proc of Conference of Oriental Chapter of International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment. Piscataway，NJ：IEEE Press， 2017： 1-5.

［27］Park D S， Chan W， Zhang Yu， et al. Specaugment： a simple data augmentation method for automatic speech recognition［EB/OL］. （2019-12-03）. https：//arxiv.org/abs/1904.08779.

［28］Lu Yiping， Li Zhuohan， He Di， et al. Understanding and improving transformer from a multi-particle dynamic system point of view［EB/OL］. （2019-06-06）. https：//arxiv.org/abs/1906.02762.

［29］Simonyan K， Zisserman A. Very deep convolutional networks for large-scale image recognition［EB/OL］. （2015-04-10）. https：//arxiv.org/abs/1409.1556.

［30］He Kaiming， Zhang Xiangyu， Ren Shaoqing， et al. Deep residual learning for image recognition［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway，NJ：IEEE Press， 2016： 770-778.

［31］Sainath T N， Pang Ruoming， Rybach D， et al. Two-pass end-to-end speech recognition［EB/OL］. （2019-08-29）.https：//arxiv.org/abs/1908.10992.

［32］Ioffe S， Szegedy C. Batch normalization： accelerating deep network training by reducing internal covariate shift［C］// Proc of International Conference on Machine Learning. New York：ACM Press， 2015： 448-456.

［33］Yao Zhuoyuan， Wu Di， Wang Xiong， et al. WeNet： production oriented streaming and non-streaming end-to-end speech recognition toolkit［EB/OL］. （2021-12-29）.https：//arxiv.org/abs/2102.01547.

［34］Rehr R， Gerkmann T. Cepstral noise subtraction for robust automatic speech recognition［C］//Proc of IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway，NJ：IEEE Press， 2015： 375-378.

計算機應用研究2024年7期

計算機應用研究的其它文章: 融合多粒度注意力特征的小樣本分類模型; 深度掩膜布朗距離協方差小樣本分類方法; 具有性能感知排序的深度監督哈希用于多標簽圖像檢索; 基于全局與序列變分自編碼的圖像描述生成; 一種在線更新的單目視覺里程計; 基于語義一致性約束與局部-全局感知的多模態3D視覺定位