基于門控卷積網絡與CTC的端到端語音識別

2020-09-29 08:08:50楊德舉馬良荔譚琳珊裴晶晶

計算機工程與設計 2020年9期

楊德舉，馬良荔，譚琳珊，裴晶晶

(1.海軍工程大學電子工程學院，湖北武漢 430033；2.中國人民解放軍91001部隊，北京 100841)

0 引言

傳統的自動語音識別(automatic speech recognition，ASR)系統使用混合高斯模型-隱馬爾科夫模型(GMM-HMM)[1]作為聲學模型進行訓練，然后利用外部語言模型對單詞序列進行重核，生成合理的句子。系統一般包含聲學模型、發音詞典和語言模型等多個模塊，設計過程中需要運用語音學、語言學等不同的領域知識，訓練過程中各模塊根據各自的優化目標單獨進行訓練，導致在推斷階段各模塊的誤差會不斷累積。更重要的是，這些模型需要高質量的數據集來進行訓練，數據集中的訓練數據必須強制預對齊，保證每個輸入幀必須有一個對應的標簽，構建這樣一個數據集需要大量的時間、精力。因此，設計和訓練一個性能良好的ASR系統是極其復雜和困難的。

端到端的ASR系統是一種序列到序列(seq2seq)模型，它直接將輸入的聲學信號映射到字符或單詞等輸出，而不需要任何預定義的標簽對齊。它將大多數模塊包含到一個深度神經網絡(deep neural network，DNN)中，使用一個整體的目標函數來優化模型[2-5]。基于此，本文提出了一種融合門控線性單元(gated linear units, GLU)[6]的卷積神經網絡(convolutional neural network，CNN)模型。該模型使用一維CNN(1D-CNN)[7,8]聯合上下文信息進行特征抽象，提高特征表達能力，利用鏈接時序分類(connectionist temporal classification，CTC)[9]技術實現端到端的語音識別。

1 相關研究

端到端的語音識別系統直接將輸入的語音映射到字母或單詞序列，并在單個系統中聯合訓練聲學和發音等建模組件，其實現方法主要分為兩類，分別為基于CTC的方法和基于注意力機制[10]的方法。基于CTC的方法通過引入CTC準則，解決了輸入序列長度大于輸出序列長度的問題，與DNN結合可直接用于端到端的模型建模。基于注意力機制的方法通常包括一個編碼器網絡和一個解碼器網絡，編碼器將輸入的語音映射到更高層次的特征表示，然后注意力機制決定應該注意哪些編碼器特性，以便預測下一個輸出符號，從而生成上下文向量，最后解碼器獲取注意力上下文向量和前一個預測的嵌入，以生成下一個輸出的預測。

1.1 基于CTC的方法

語音識別數據集是語音文件和對應標簽文本的集合，將數據集中的語音幀和文本字符進行對齊是一項艱難的任務。CTC算法是專門用于解決seq2seq模型中數據對齊問題的，它引入了一個blank標簽代表靜音幀和字符間隔。在空白標簽的基礎上，設計了路徑的中間結構，通過刪除路徑中所有重復的和空白的標簽，可以將一些路徑包含到最終的標簽序列中。因此，沒有分割和對齊，CTC仍然可以將輸入序列映射到輸出序列。Maas A等[9]在對話語音轉錄任務中利用CTC訓練了一個深度雙向循環神經網絡(deep bidirectional recurrent neural network，DBRNN)，通過結合字符級語言模型，達到了與GMM-HMM基線系統相當的識別率。姚煜等[11]提出了基于雙向長短時記憶神經網絡(bidirectional long short-term memory，BLSTM)的聲學模型構建方法，并將CTC應用于聲學模型訓練中，搭建出基于BLSTM-CTC的端到端中文語音識別系統。張立民等[12]將CTC作為目標函數，改進深度雙向長短時記憶網絡架構，以音素為基本建模單元，構建了一種基于序列級轉錄的端到端語音識別系統。通過在解碼過程中引入詞典和語言模型，并利用序列區分度訓練技術提升CTC模型的建模效果。Wang等[13]提出一個CNN+BLSTM+CTC端到端普通話語音識別模型，采用CNN學習局部語音特征，BLSTM學習上下文信息，使用CTC進行解碼。

1.2 基于注意力機制的方法

Chan等[3]提出的LAS(listen, attend and spell)神經網絡結構包含一個監聽器和一個拼寫器，監聽器是一個金字塔式的BLSTM網絡，拼寫器是一種基于注意力的循環網絡解碼器，它根據所有之前的字符和整個聲音序列發出每個字符。與DNN-HMM、CTC等模型相比，LAS對給定的聲序列輸出字符序列的概率分布沒有獨立的假設。針對LAS在普通話語音識別中效果不佳的問題，Shan等[5]對其進行了改進，使用字符嵌入來處理大量的詞匯，采用L2正則化、高斯權值噪聲和跳幀等方法對模型進行有效訓練，并在注意力模型中使用注意力平滑方法來覆蓋更長的上下文。Chiu等[14]使用多頭注意力機制對LAS模型進行了結構的優化改進，顯著提高了性能。Zhou等[15]將Transformer擴展到語音識別領域，提出了一個貪婪級聯解碼器Transformer模型，在普通話語音識別上效果良好。

2 模型結構

本文設計的1D-CNN+GLU+CTC的深度神經網絡模型結構如圖1所示。首先對輸入的原始音頻序列x進行預處理和特征提取。然后通過4類共10個卷積塊(CNN blocks)，每個CNN block包含3個操作，分別為一維卷積、門控線性單元和Dropout，每類CNN block設置不同的參數。之后，經過一個卷積核大小和步長均為1的一維卷積層，將輸出映射為在每個時間步輸出不同漢字的概率，最后由CTC層進行解碼，輸出標簽序列y。

圖1 模型結構

2.1 特征提取

在端到端的語音識別系統中，最常用的特征為梅爾頻率倒譜系數(Mel-frequency cepstral coefficient，MFCC)和基于濾波器組的特征Fbank(Filter bank)。MFCC基于人耳聽覺特性進行設計，是在梅爾刻度頻率提取出來的倒譜參數。Fbank特征相當于去掉MFCC提取過程最后一步的離散余弦變換操作，與MFCC相比，Fbank特征保留了更多的原始語音信息。最近的研究中也出現了直接使用語譜圖(Spectrogram)和原始語音波形進行建模的方法[4]。本文分別使用Spectrogram、Fbank、MFCC特征進行了研究和實驗，特征提取的流程如圖2所示。

圖2 音頻特征提取流程

2.2 門控卷積神經網絡

卷積神經網絡最先在圖像識別領域得到廣泛的應用，之后被引入到自然語言處理和語音識別領域。將CNN用于語音識別，不僅可以精確控制依賴項的長度，通過堆疊CNN來標識長序列還可以使鄰近的輸入元素在較低的層進行交互，而遠處的元素在較高的層進行交互，從而提取更高層、更抽象的特征。本文使用融合了GLU的一維門控卷積神經網絡，訓練將一系列音頻特征映射到對應的漢字。門控卷積神經網絡結構如圖3所示。

圖3 一維門控卷積神經網絡結構

設輸入層的輸入序列x=(x1,x2,…,xT)，其中xi∈Rdx，即每一幀的輸入為dx維的特征向量。其與寬度為kw，步長為s，深度為m的卷積核進行卷積計算的公式如式(1)所示

(1)

式中：w∈Rm×dx×kw和b∈Rm為模型需要學習的參數。在圖3 中我們可以看到，當T=6,dx=4,kw=2,s=1,m=3時，經計算輸出張量的大小為size=(3,5)。

對于門控線性單元，其計算公式如式(2)所示

h(x)=(x*W+b)?σ(x*V+c)

(2)

式中：*為卷積運算，?為矩陣對應元素相乘，σ是sigmoid函數。通過門控機制，網絡可以控制在層次結構中傳遞的信息，使更有價值的信息通過網絡，抑制無用的信息，提高網絡的學習能力。門控卷積在保持非線性能力的同時為梯度提供了線性路徑，可以減少梯度彌散問題[6]。

2.3 鏈接時序分類

鏈接時序分類(CTC)是一種將輸入序列x轉換為輸出序列y的技術，其中x的長度大于y。它可以將音頻數據直接轉換為文本，而不需要中間語音表示。此外，不需要在輸入序列和目標序列之間進行任何預對齊。

y=F(x)，F∶(Rdx)T→(RN+1)T

(3)

在每個時間步t取字典L′中的一個元素并按時序排列，則可得到一個輸出序列π，我們稱之為一條路徑。在輸入為x的條件下，輸出路徑為π的概率如式(4)所示

(4)

即在每個時間步輸出路徑π的相應標簽字符的概率乘積。以上為路徑概率計算的過程，該過程中路徑與輸入序列的長度T相同，而實際上標簽文本的長度通常比輸入序列要短得多。因此，我們應該將一些相關的路徑合并到一個更短的標簽序列中，路徑合并一般分為兩步：

(1)刪除重復的標簽。如果在連續的時間步驟中有多個相同的輸出，則只保留其中的一個。例如：對于6個時間步的路徑“cc-aat”、“c-attt”，移除重復標簽后的路徑均為“c-at”。

(2)從路徑中移除空白標簽“-”。“-”表示這一幀沒有輸出，應該刪除它以獲得最終的標簽序列。第一步得到的標簽“c-at”移除“-”之后得到最終輸出為“cat”。

通常，一個很短的輸出序列可以由多條路徑π合并得到。圖4的籬笆圖給出了當路徑長度為6時，標簽序列“cat”的全部合法路徑。

圖4 CTC籬笆網格

除了從路徑中獲取最終標簽序列外，路徑合并過程還旨在計算最終標簽序列的概率。定義變換B為從序列中刪除空白和重復，則B(cc-aat)=B(c-attt)=cat。對于給定輸入x的情況下，輸出為l的概率如式(5)所示

(5)

從上面描述的計算可以看出，標簽序列的概率是可微的。因此，我們可以利用反向傳播算法訓練模型，使真標簽的概率最大化，并利用訓練后的模型，將概率最大的標簽序列作為最終結果來識別語音。

3 實驗與分析

3.1 實驗環境

本文實驗在i7 CPU和NVIDIA TITAN Xp GPU構建的硬件計算平臺上，使用PyTorch深度學習框架進行。具體配置見表1。

表1 實驗的軟硬件環境

3.2 數據集與評價指標

本文使用希爾貝殼開源的AISHELL-1中文普通話語音數據集[16]進行模型訓練和實驗，數據集包含400個說話人的141 600條錄音文件，錄音時長共計165 h，涉及常用的4000多個漢字。數據集被劃分為訓練集、驗證集和測試集三部分，具體分布見表2。

表2 數據集劃分

英語語音識別任務中評價指標通常為WER，中文普通話語音識別任務中通常為字錯誤率(character error rate，CER)。本文使用CER作為評價指標，其計算公式如式(6)所示

(6)

式中：I為插入錯誤字數，D為刪除錯誤字數，R為替換錯誤字數，L為真標簽的總字數。

3.3 不同輸入特征的比較

本文對Spectrogram、Fbank、MFCC這3類輸入特征進行了實驗比較，語音數據采用原始的16 KHz采樣率，設置時間窗寬度為20 ms，時移10 ms，使用漢明窗對原始語音進行分幀、加窗，經FFT和譜線能量計算得到161維的Spectrogram特征，經Mel濾波得到40維的Fbank特征，MFCC使用常見的包含一階、二階差分的共39維特征。

不同輸入特征下的系統最佳CER性能見表3，可以看出Fbank特征的CER最低，為15.9%。Spectrogram特征次之，MFCC效果最差。這是因為MFCC特征經過了更多的人工特征提取操作，不可避免地會造成信息的丟失，從而降低系統性能。而Spectrogram雖然最大限度保留了語音的原始特征，但也使冗余的無用信息得以保留，受其影響，在數據集規模沒有足夠大時，模型還不足以學習到真正有用的音頻信息。

表3 不同輸入特征的比較

3.4 與基線模型的性能比較

本文將文獻[12,13]的模型作為基線模型，使用Fbank作為輸入特征，在均不外接語言模型的情況下，將本文模型與基線模型在測試集上進行了性能對比，結果見表4，本文提出的1D-CNN+GLU+CTC模型在AISHELL-1數據集上比BLSTM+CTC[12]模型和CNN+BLSTM+CTC[13]模型的CER分別降低了4.8%和3.3%，取得了更好的效果。

表4 與基線模型的比較

4 結束語

本文提出了一個基于一維門控卷積神經網絡和CTC的中文普通話語音識別系統，直接使用漢字作為輸出標簽，簡化了系統訓練和解碼流程。嘗試了不同的系統輸入特征，驗證了不同音頻特征對系統性能的影響。在AISHELL-1數據集上的實驗結果表明，與基線系統相比，該系統明顯地降低了識別錯誤率。在今后的工作中，擬嘗試進一步改進模型架構，并在現有數據集的基礎上通過數據增強的方式彌補數據不足的問題，進一步提高系統的識別率。