999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于門控卷積網絡與CTC的端到端語音識別

2020-09-29 08:08:50楊德舉馬良荔譚琳珊裴晶晶
計算機工程與設計 2020年9期
關鍵詞:特征模型

楊德舉,馬良荔,譚琳珊,裴晶晶

(1.海軍工程大學 電子工程學院,湖北 武漢 430033;2.中國人民解放軍91001部隊,北京 100841)

0 引 言

傳統的自動語音識別(automatic speech recognition,ASR)系統使用混合高斯模型-隱馬爾科夫模型(GMM-HMM)[1]作為聲學模型進行訓練,然后利用外部語言模型對單詞序列進行重核,生成合理的句子。系統一般包含聲學模型、發音詞典和語言模型等多個模塊,設計過程中需要運用語音學、語言學等不同的領域知識,訓練過程中各模塊根據各自的優化目標單獨進行訓練,導致在推斷階段各模塊的誤差會不斷累積。更重要的是,這些模型需要高質量的數據集來進行訓練,數據集中的訓練數據必須強制預對齊,保證每個輸入幀必須有一個對應的標簽,構建這樣一個數據集需要大量的時間、精力。因此,設計和訓練一個性能良好的ASR系統是極其復雜和困難的。

端到端的ASR系統是一種序列到序列(seq2seq)模型,它直接將輸入的聲學信號映射到字符或單詞等輸出,而不需要任何預定義的標簽對齊。它將大多數模塊包含到一個深度神經網絡(deep neural network,DNN)中,使用一個整體的目標函數來優化模型[2-5]。基于此,本文提出了一種融合門控線性單元(gated linear units, GLU)[6]的卷積神經網絡(convolutional neural network,CNN)模型。該模型使用一維CNN(1D-CNN)[7,8]聯合上下文信息進行特征抽象,提高特征表達能力,利用鏈接時序分類(connectionist temporal classification,CTC)[9]技術實現端到端的語音識別。

1 相關研究

端到端的語音識別系統直接將輸入的語音映射到字母或單詞序列,并在單個系統中聯合訓練聲學和發音等建模組件,其實現方法主要分為兩類,分別為基于CTC的方法和基于注意力機制[10]的方法。基于CTC的方法通過引入CTC準則,解決了輸入序列長度大于輸出序列長度的問題,與DNN結合可直接用于端到端的模型建模。基于注意力機制的方法通常包括一個編碼器網絡和一個解碼器網絡,編碼器將輸入的語音映射到更高層次的特征表示,然后注意力機制決定應該注意哪些編碼器特性,以便預測下一個輸出符號,從而生成上下文向量,最后解碼器獲取注意力上下文向量和前一個預測的嵌入,以生成下一個輸出的預測。

1.1 基于CTC的方法

語音識別數據集是語音文件和對應標簽文本的集合,將數據集中的語音幀和文本字符進行對齊是一項艱難的任務。CTC算法是專門用于解決seq2seq模型中數據對齊問題的,它引入了一個blank標簽代表靜音幀和字符間隔。在空白標簽的基礎上,設計了路徑的中間結構,通過刪除路徑中所有重復的和空白的標簽,可以將一些路徑包含到最終的標簽序列中。因此,沒有分割和對齊,CTC仍然可以將輸入序列映射到輸出序列。Maas A等[9]在對話語音轉錄任務中利用CTC訓練了一個深度雙向循環神經網絡(deep bidirectional recurrent neural network,DBRNN),通過結合字符級語言模型,達到了與GMM-HMM基線系統相當的識別率。姚煜等[11]提出了基于雙向長短時記憶神經網絡(bidirectional long short-term memory,BLSTM)的聲學模型構建方法,并將CTC應用于聲學模型訓練中,搭建出基于BLSTM-CTC的端到端中文語音識別系統。張立民等[12]將CTC作為目標函數,改進深度雙向長短時記憶網絡架構,以音素為基本建模單元,構建了一種基于序列級轉錄的端到端語音識別系統。通過在解碼過程中引入詞典和語言模型,并利用序列區分度訓練技術提升CTC模型的建模效果。Wang等[13]提出一個CNN+BLSTM+CTC端到端普通話語音識別模型,采用CNN學習局部語音特征,BLSTM學習上下文信息,使用CTC進行解碼。

1.2 基于注意力機制的方法

Chan等[3]提出的LAS(listen, attend and spell)神經網絡結構包含一個監聽器和一個拼寫器,監聽器是一個金字塔式的BLSTM網絡,拼寫器是一種基于注意力的循環網絡解碼器,它根據所有之前的字符和整個聲音序列發出每個字符。與DNN-HMM、CTC等模型相比,LAS對給定的聲序列輸出字符序列的概率分布沒有獨立的假設。針對LAS在普通話語音識別中效果不佳的問題,Shan等[5]對其進行了改進,使用字符嵌入來處理大量的詞匯,采用L2正則化、高斯權值噪聲和跳幀等方法對模型進行有效訓練,并在注意力模型中使用注意力平滑方法來覆蓋更長的上下文。Chiu等[14]使用多頭注意力機制對LAS模型進行了結構的優化改進,顯著提高了性能。Zhou等[15]將Transformer擴展到語音識別領域,提出了一個貪婪級聯解碼器Transformer模型,在普通話語音識別上效果良好。

2 模型結構

本文設計的1D-CNN+GLU+CTC的深度神經網絡模型結構如圖1所示。首先對輸入的原始音頻序列x進行預處理和特征提取。然后通過4類共10個卷積塊(CNN blocks),每個CNN block包含3個操作,分別為一維卷積、門控線性單元和Dropout,每類CNN block設置不同的參數。之后,經過一個卷積核大小和步長均為1的一維卷積層,將輸出映射為在每個時間步輸出不同漢字的概率,最后由CTC層進行解碼,輸出標簽序列y。

圖1 模型結構

2.1 特征提取

在端到端的語音識別系統中,最常用的特征為梅爾頻率倒譜系數(Mel-frequency cepstral coefficient,MFCC)和基于濾波器組的特征Fbank(Filter bank)。MFCC基于人耳聽覺特性進行設計,是在梅爾刻度頻率提取出來的倒譜參數。Fbank特征相當于去掉MFCC提取過程最后一步的離散余弦變換操作,與MFCC相比,Fbank特征保留了更多的原始語音信息。最近的研究中也出現了直接使用語譜圖(Spectrogram)和原始語音波形進行建模的方法[4]。本文分別使用Spectrogram、Fbank、MFCC特征進行了研究和實驗,特征提取的流程如圖2所示。

圖2 音頻特征提取流程

2.2 門控卷積神經網絡

卷積神經網絡最先在圖像識別領域得到廣泛的應用,之后被引入到自然語言處理和語音識別領域。將CNN用于語音識別,不僅可以精確控制依賴項的長度,通過堆疊CNN來標識長序列還可以使鄰近的輸入元素在較低的層進行交互,而遠處的元素在較高的層進行交互,從而提取更高層、更抽象的特征。本文使用融合了GLU的一維門控卷積神經網絡,訓練將一系列音頻特征映射到對應的漢字。門控卷積神經網絡結構如圖3所示。

圖3 一維門控卷積神經網絡結構

設輸入層的輸入序列x=(x1,x2,…,xT), 其中xi∈Rdx, 即每一幀的輸入為dx維的特征向量。其與寬度為kw, 步長為s, 深度為m的卷積核進行卷積計算的公式如式(1)所示

(1)

式中:w∈Rm×dx×kw和b∈Rm為模型需要學習的參數。在圖3 中我們可以看到,當T=6,dx=4,kw=2,s=1,m=3時,經計算輸出張量的大小為size=(3,5)。

對于門控線性單元,其計算公式如式(2)所示

h(x)=(x*W+b)?σ(x*V+c)

(2)

式中:*為卷積運算,?為矩陣對應元素相乘,σ是sigmoid函數。通過門控機制,網絡可以控制在層次結構中傳遞的信息,使更有價值的信息通過網絡,抑制無用的信息,提高網絡的學習能力。門控卷積在保持非線性能力的同時為梯度提供了線性路徑,可以減少梯度彌散問題[6]。

2.3 鏈接時序分類

鏈接時序分類(CTC)是一種將輸入序列x轉換為輸出序列y的技術,其中x的長度大于y。它可以將音頻數據直接轉換為文本,而不需要中間語音表示。此外,不需要在輸入序列和目標序列之間進行任何預對齊。

y=F(x),F∶(Rdx)T→(RN+1)T

(3)

在每個時間步t取字典L′中的一個元素并按時序排列,則可得到一個輸出序列π, 我們稱之為一條路徑。在輸入為x的條件下,輸出路徑為π的概率如式(4)所示

(4)

即在每個時間步輸出路徑π的相應標簽字符的概率乘積。以上為路徑概率計算的過程,該過程中路徑與輸入序列的長度T相同,而實際上標簽文本的長度通常比輸入序列要短得多。因此,我們應該將一些相關的路徑合并到一個更短的標簽序列中,路徑合并一般分為兩步:

(1)刪除重復的標簽。如果在連續的時間步驟中有多個相同的輸出,則只保留其中的一個。例如:對于6個時間步的路徑“cc-aat”、“c-attt”,移除重復標簽后的路徑均為“c-at”。

(2)從路徑中移除空白標簽“-”。“-”表示這一幀沒有輸出,應該刪除它以獲得最終的標簽序列。第一步得到的標簽“c-at”移除“-”之后得到最終輸出為“cat”。

通常,一個很短的輸出序列可以由多條路徑π合并得到。圖4的籬笆圖給出了當路徑長度為6時,標簽序列“cat”的全部合法路徑。

圖4 CTC籬笆網格

除了從路徑中獲取最終標簽序列外,路徑合并過程還旨在計算最終標簽序列的概率。定義變換B為從序列中刪除空白和重復,則B(cc-aat)=B(c-attt)=cat。 對于給定輸入x的情況下,輸出為l的概率如式(5)所示

(5)

從上面描述的計算可以看出,標簽序列的概率是可微的。因此,我們可以利用反向傳播算法訓練模型,使真標簽的概率最大化,并利用訓練后的模型,將概率最大的標簽序列作為最終結果來識別語音。

3 實驗與分析

3.1 實驗環境

本文實驗在i7 CPU和NVIDIA TITAN Xp GPU構建的硬件計算平臺上,使用PyTorch深度學習框架進行。具體配置見表1。

表1 實驗的軟硬件環境

3.2 數據集與評價指標

本文使用希爾貝殼開源的AISHELL-1中文普通話語音數據集[16]進行模型訓練和實驗,數據集包含400個說話人的141 600條錄音文件,錄音時長共計165 h,涉及常用的4000多個漢字。數據集被劃分為訓練集、驗證集和測試集三部分,具體分布見表2。

表2 數據集劃分

英語語音識別任務中評價指標通常為WER,中文普通話語音識別任務中通常為字錯誤率(character error rate,CER)。本文使用CER作為評價指標,其計算公式如式(6)所示

(6)

式中:I為插入錯誤字數,D為刪除錯誤字數,R為替換錯誤字數,L為真標簽的總字數。

3.3 不同輸入特征的比較

本文對Spectrogram、Fbank、MFCC這3類輸入特征進行了實驗比較,語音數據采用原始的16 KHz采樣率,設置時間窗寬度為20 ms,時移10 ms,使用漢明窗對原始語音進行分幀、加窗,經FFT和譜線能量計算得到161維的Spectrogram特征,經Mel濾波得到40維的Fbank特征,MFCC使用常見的包含一階、二階差分的共39維特征。

不同輸入特征下的系統最佳CER性能見表3,可以看出Fbank特征的CER最低,為15.9%。Spectrogram特征次之,MFCC效果最差。這是因為MFCC特征經過了更多的人工特征提取操作,不可避免地會造成信息的丟失,從而降低系統性能。而Spectrogram雖然最大限度保留了語音的原始特征,但也使冗余的無用信息得以保留,受其影響,在數據集規模沒有足夠大時,模型還不足以學習到真正有用的音頻信息。

表3 不同輸入特征的比較

3.4 與基線模型的性能比較

本文將文獻[12,13]的模型作為基線模型,使用Fbank作為輸入特征,在均不外接語言模型的情況下,將本文模型與基線模型在測試集上進行了性能對比,結果見表4,本文提出的1D-CNN+GLU+CTC模型在AISHELL-1數據集上比BLSTM+CTC[12]模型和CNN+BLSTM+CTC[13]模型的CER分別降低了4.8%和3.3%,取得了更好的效果。

表4 與基線模型的比較

4 結束語

本文提出了一個基于一維門控卷積神經網絡和CTC的中文普通話語音識別系統,直接使用漢字作為輸出標簽,簡化了系統訓練和解碼流程。嘗試了不同的系統輸入特征,驗證了不同音頻特征對系統性能的影響。在AISHELL-1數據集上的實驗結果表明,與基線系統相比,該系統明顯地降低了識別錯誤率。在今后的工作中,擬嘗試進一步改進模型架構,并在現有數據集的基礎上通過數據增強的方式彌補數據不足的問題,進一步提高系統的識別率。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲国产成人超福利久久精品| 日韩毛片在线视频| 日本道中文字幕久久一区| 久久青青草原亚洲av无码| 国产精品视频a| 国产精品2| 久久成人18免费| 欧美午夜精品| 国产福利免费在线观看| 国产偷倩视频| 亚洲三级影院| 亚洲国产精品日韩专区AV| 永久天堂网Av| 超清无码熟妇人妻AV在线绿巨人| 40岁成熟女人牲交片免费| 日本爱爱精品一区二区| 在线网站18禁| 2021国产精品自产拍在线| 青草视频免费在线观看| 97se亚洲综合在线| 日本色综合网| 免费a级毛片视频| 毛片基地美国正在播放亚洲| 久久精品人妻中文视频| 色精品视频| 久久综合亚洲色一区二区三区| 丁香婷婷综合激情| 国产成人亚洲综合A∨在线播放 | 天堂亚洲网| 精品人妻无码中字系列| 91蝌蚪视频在线观看| 国产麻豆另类AV| 欧美爱爱网| 国产成人禁片在线观看| 香蕉伊思人视频| 国产视频一区二区在线观看| 亚洲成人黄色在线| 1级黄色毛片| 日本精品αv中文字幕| 色天堂无毒不卡| 国产波多野结衣中文在线播放| 高清欧美性猛交XXXX黑人猛交| 亚洲天堂在线免费| 人妻精品久久久无码区色视| 亚洲欧美色中文字幕| 欧美一区精品| 国产在线一区视频| 成人字幕网视频在线观看| 中文字幕免费视频| 色综合久久88| 精品成人一区二区三区电影 | 国产毛片基地| 亚洲国产欧美中日韩成人综合视频| 国产特一级毛片| 国产成人亚洲无码淙合青草| 欧美不卡二区| 91久久大香线蕉| 全部无卡免费的毛片在线看| 在线a视频免费观看| 亚洲人成人无码www| 国产欧美日韩视频怡春院| 国产在线视频导航| 国产人在线成免费视频| 国产爽妇精品| 国产第四页| 国产主播福利在线观看| 亚洲综合久久成人AV| 91成人免费观看在线观看| 波多野结衣第一页| 欧洲成人在线观看| 国产综合精品日本亚洲777| 国产精品黄色片| 2021亚洲精品不卡a| 国产香蕉一区二区在线网站| 91国内在线观看| 成人小视频网| 久久中文字幕不卡一二区| 免费看的一级毛片| 国产幂在线无码精品| 亚洲高清资源| 91麻豆精品视频| 九色在线视频导航91|