









摘要: 針對語音識別任務(wù)中出現(xiàn)的未登錄詞問題, 提出一種帶閾值的BPE-dropout多任務(wù)學(xué)習(xí)語音識別方法. 該方法采用帶隨機(jī)性的字節(jié)對編碼算法, 在
形成子詞時引入帶字?jǐn)?shù)閾值的策略, 將子詞作為建模單元, 編碼器部分采用Conformer結(jié)構(gòu), 與鏈接時序分類和注意力機(jī)制相結(jié)合. 為進(jìn)一步提升模型性能, 引入動態(tài)
參數(shù)對損失函數(shù)進(jìn)行動態(tài)調(diào)節(jié), 并同時進(jìn)行多任務(wù)訓(xùn)練和解碼. 實(shí)驗(yàn)結(jié)果表明, 該方法采用子詞作為建模單元可有效解決未登錄詞問題, 在多任務(wù)學(xué)習(xí)框架下進(jìn)一步提升了模型的識
別性能. 在公開數(shù)據(jù)集THCHS30和ST-CMDS上, 該模型實(shí)現(xiàn)了超過95%的識別準(zhǔn)確率.
關(guān)鍵詞: 語音識別; 多任務(wù)學(xué)習(xí); 字節(jié)對編碼; 動態(tài)調(diào)節(jié)參數(shù)
中圖分類號: TP391; TN912.3"" 文獻(xiàn)標(biāo)志碼: A" 文章編號: 1671-5489(2024)03-0674-09
End-to-End" Speech Recognition Based on Threshold-BasedBPE-Dropout Multi-task Learning
MA Jian, DUO Lin, WEI Guixiang, TANG Jian
(Faculty of Information Engineering and Automation,Kuming University of Science and Technology, Kunming 650500, China)
Abstract: Aiming at" the problem of unknown words in speech recognition tasks, we proposed a threshold based\|BPE-dropout multi-task learning speech recognition method.
This method adopted a random byte pair coding algorithm. When forming sub-words, a strategy with word number threshold was introduced. The sub-words were used as modeling units, and the encoder
part adopted Conformer structure, which was combined with link timing classification and attention mechanism. In order to further improve the performance of the model," dynamic parameters
were" introduced to dynamically adjust the loss function, and" multi-task training and decoding were performed simultaneously. The experimental results show that the proposed method can
effectively solve the problem of unknown words by using sub-words as modeling units, and further improve the recognition performance of the model under the multi-task learning framework. On the public
datasets THCHS30 and ST-CMDS, the model achieves more than 95% recognition accuracy.
Keywords: speech recognition; multi-task learning; byte pair coding; dynamic adjustment parameter
收稿日期: 2023-06-16.
第一作者簡介: 馬" 建(1998—), 男, 漢族, 碩士研究生, 從事語音識別和信號處理的研究, E-mail: 2703729898@qq.com.
通信作者簡介: 朵" 琳(1974—), 女, 彝族, 博士, 副教授, 從事語音識別和信號處理的研究, E-mail: duolin2003@126.com.
基金項(xiàng)目: 國家自然科學(xué)基金(批準(zhǔn)號: 61962032).
自動語音識別(automatic speech recognition, ASR)技術(shù)是將人類可懂語音轉(zhuǎn)換為可讀性的文本, 是實(shí)現(xiàn)人機(jī)交互的關(guān)鍵技術(shù)[1]. 目前, ASR產(chǎn)品已廣泛應(yīng)用于人們的日
常生活, 如蘋果的Siri、 亞馬遜的Alexa、 訊飛語音輸入法、 叮咚智能音箱等. 語音識別是模式識別的一部分, 它主要利用模型算法檢測語音向量, 即語音特征
參數(shù), 并最終傳遞識別結(jié)果[2]. 語音識別的最終目標(biāo)是準(zhǔn)確識別不同環(huán)境下的語音內(nèi)容.
傳統(tǒng)的高斯混合-隱Markov模型(GMM-HMM)是語音識別序列系統(tǒng)的主流方法. HTK[3]是一種基于隱Markov模型(HMM)的語音識別工
具. 近年來, 由于深度學(xué)習(xí)框架的崛起及神經(jīng)網(wǎng)絡(luò)處理非線性模型和大數(shù)據(jù)的能力, 語音識別模型取得了許多研究成果, 其中深度置信網(wǎng)絡(luò)[4](deep
belief network, DBN)與HMM相結(jié)合的聲學(xué)模型在小詞匯量連續(xù)語音識別中取得成功, 深度神經(jīng)網(wǎng)絡(luò)與HMM結(jié)合的聲學(xué)模型DNN-HMM在大量詞匯連續(xù)語音
識別(large vocabulary continuous speech recognition, LVCSR)中取得成功[5], 開啟了利用深度學(xué)習(xí)進(jìn)行語音識別的新時代. 同時卷積神經(jīng)網(wǎng)絡(luò)(con
volutional neural network, CNN)[6]和深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)[7]也廣泛應(yīng)用于自動語音識別任務(wù)中[8]. 相比DNN, CNN能有效利用圖像
特征以及權(quán)值分布和池化操作, 為模型提供更好的圖像和不變性, 從而提高卷積神經(jīng)網(wǎng)絡(luò)在語音識別中的準(zhǔn)確率.
近年來, 語音識別領(lǐng)域通過引入端到端語音識別模型取得了顯著進(jìn)展. 端到端語音識別模型簡化了傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 采用單一的結(jié)構(gòu), 不再需要傳統(tǒng)的發(fā)音字典單元, 可直接預(yù)
測字和單詞. 這種簡化結(jié)構(gòu)使端到端語音識別模型在準(zhǔn)確率方面超過了傳統(tǒng)的語音識別模型. 目前, 有兩種主要算法可用于實(shí)現(xiàn)端到端語音識別模型: 一種是
基于鏈接時序分類(connectionist temporal classification, CTC)[9]的語音識別結(jié)構(gòu); 另一種是基于注意力機(jī)制的語音識別結(jié)構(gòu).
目前, 基于注意力機(jī)制的Transformer模型[10]在各種語音識別任務(wù)中逐漸取代了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型. 這是因?yàn)門ransformer模型具有捕獲長距離語音特
征信息和高度并行訓(xùn)練的能力, 而卷積神經(jīng)網(wǎng)絡(luò)則擅長提取局部細(xì)粒度特征. 通過引入注意力機(jī)制, Transformer模型能同時處理整個輸入序列, 而不像RNN模型需要按
順序逐步計算, 使得Transformer模型能高效地并行計算, 從而顯著加快了訓(xùn)練速度和推理速度. 在此基礎(chǔ)上研究者們提出了Conformer模型[11],
該模型既能捕獲長距離信息又能提取局部特征信息, 在端到端語音識別任務(wù)中識別性能優(yōu)異.
中文作為一個漢字文字系統(tǒng), 具有非常龐大的詞匯量, 任何一個固定的詞匯表都無法涵蓋所有可能的中文詞匯. 隨著時代的發(fā)展和社會的變遷
, 又不斷創(chuàng)造出新的詞匯, 特別是在科技、 互聯(lián)網(wǎng)和流行文化等領(lǐng)域. 這些新詞匯可能在現(xiàn)有的詞匯表中沒有被包含, 因此被稱為未登錄詞. 此外, 在實(shí)際語音交流中, 人們可
能會存在語音模糊、 省略、 連讀等現(xiàn)象, 這些現(xiàn)象會導(dǎo)致詞匯的發(fā)音發(fā)生變化, 使某些詞匯在語音識別中被錯誤地認(rèn)為是未登錄詞.
針對上述問題, 本文提出一種帶閾值的BPE-dropout多任務(wù)學(xué)習(xí)的端到端語音識別模型, 該模型采用帶隨機(jī)性字節(jié)對編碼算法, 在形成子詞時引入帶字?jǐn)?shù)閾值的策略, 將子詞和字
作為建模單元進(jìn)行多任務(wù)訓(xùn)練和解碼, 其中字任務(wù)作為輔助任務(wù). 編碼器部分采用Conformer結(jié)構(gòu), 與鏈接時序分類和注意力機(jī)制相結(jié)合. 為進(jìn)一步提升模型性能, 引入
動態(tài)參數(shù)對損失函數(shù)進(jìn)行動態(tài)調(diào)節(jié), 并同時進(jìn)行多任務(wù)訓(xùn)練和解碼. 測試結(jié)果表明, 本文方法能有效解決未登錄詞問題, 并提升了語音識別性能.
1" 語音特征提取
特征提取是語音識別的重要組成部分. 針對目前語音識別率低、 收斂慢等問題, 本文采用Mel語譜圖特征作為輸入特征, 提取該特征的過程如圖1所示.
1.1" Mel語譜的生成
在語音識別領(lǐng)域研究中, 特征參數(shù)提取非常關(guān)鍵. 為有效捕捉語音信號的時頻特性, 本文使用語譜圖作為一種有效的表示方式, 它直接展示了語音信號在時域和
頻譜上的變化[12]. 由于人類耳蝸結(jié)構(gòu)的特殊性, 決定了聽覺頻率的空間分布呈對數(shù)關(guān)系. 因此采用Mel語譜[13]
可以更好地模擬人類聽覺系統(tǒng)對聲音頻率的感知方式, 與人耳的聽覺特征相匹配. Mel語譜特征提取步驟如下:
1) 使用漢明窗對語音信號x(n)分幀加窗, 分幀加窗后的第i幀信號為xi(n);
2) 對xi(n)進(jìn)行離散Fourier變換(DFT), 有
Si(k)=∑N-1n=0xi(n)e-j2πkn/N,
其中N為離散Fourier變換的點(diǎn)數(shù);
3) Si(k)的能量譜密度為
Pi(k)=Si(k)2;
4) 在能量譜上應(yīng)用Mel濾波器組, 其公式為
Yt(m)=∑N-1k=0Hm(k)Pi(k)2,
對Yt(m)取對數(shù)變換, 有
YdBt(m)=10lg Yt(m),
其中k表示DFT變換后的編號, m表示Mel濾波器的編號.
5) 以時間為橫軸、 對數(shù)化頻率為縱軸, 二維圖像繪制的Mel語譜如圖2所示.
1.2" Mel濾波器組
由于人耳聽到的聲級與聽覺頻率不呈線性關(guān)系, 因此Mel頻率標(biāo)度更符合人耳的聽覺特性. Mel頻率與實(shí)際頻率的關(guān)系如下:
m=2 595×lg(1+700f),(1)f=100(10m/2 595-1),(2)
其中m是以Mel為單位的感知頻率, f是以Hz為單位的實(shí)際頻率. 如果以e為對數(shù), 則系數(shù)為1 125. Mel濾波器組是一系列三角形濾波器, 中心頻率響應(yīng)為1, 線性度降低
至0, 直到兩個相鄰濾波器的中心頻率響應(yīng)為0. 計算公式為
Hm(k)=0,k≤f(m-1),k-f(m-1)f(m)-f(m-1),f(m-1)≤k≤f(m),
f(m+1)-kf(m+1)-f(m),f(m)≤k≤f(m+1),0,k≥f(m+1),(3)
f(m)=NfsF-1MelFMel(f
l)+mFMel(fh)-FMel(fl)M+1.(4)
2" 模型結(jié)構(gòu)及方法
2.1" 連接時序分類
連接時序分類(CTC)算法作為一個目標(biāo)函數(shù), 可直接對標(biāo)簽函數(shù)和語音函數(shù)之間的映射進(jìn)行建模, 而無需在幀級對輸入和輸出信息進(jìn)行預(yù)對齊. 在語音CTC的識別任務(wù)中, 輸入序列X=
{xtt=1,2,…,T}, 標(biāo)簽序列Z={zii=1,2,…,I}, 其中目標(biāo)序列的長度不能超過輸入序列的長度. 設(shè)L為語音識別任務(wù)建模中最小的建模單元, 即字典.
在CTC網(wǎng)絡(luò)中, 除最小建模單元L外, 還在其輸出層添加了一個“—
”字符, 對輸入序列X={xtt=1,2,…,T}中存在的重復(fù)標(biāo)簽和空白標(biāo)簽進(jìn)行建模, 以完成對齊任務(wù)[14].
CTC通常應(yīng)用于遞歸神經(jīng)網(wǎng)絡(luò)上, 每個RNN輸出單元被解釋為在特定時間觀察到相應(yīng)標(biāo)簽的概率. 標(biāo)簽序列P(πx)的概率被建模為與網(wǎng)絡(luò)輸出的乘積條件無關(guān):
P(πx)≈∏Tt=1P(πtx)=∏Tt=1qt(πt),(5)
其中qt(πt)表示時間t時RNN輸出層q中πt標(biāo)簽的最大激活.
用CTC訓(xùn)練模型以最大化P(yx), 即所有可能標(biāo)簽序列的概率分布為
P(yx)=∑π∈φ(y′)P(πx),(6)
其中y′是y的修改標(biāo)簽序列, 其通過在每個標(biāo)簽的開始和結(jié)束之間插入空白標(biāo)簽實(shí)現(xiàn), 例如若y=(aa,abb), 則y′=(—aa—,—abb—). 概率分布P(πx)可使用向前向后算法有效地計算為
P(πx)=∑y′u=1at(u)bt(u)qt(y′u),(7)
其中: at(u)為正向變量, 表示以第u個標(biāo)簽結(jié)尾的所有可能(y′1: u)的總概率; bt(u)是通過對任何標(biāo)簽(包括空標(biāo)簽)
的損失函數(shù)求導(dǎo), 可使用標(biāo)準(zhǔn)反向傳播對網(wǎng)絡(luò)進(jìn)行訓(xùn)練.
2.2" Conformer模型
Conformer模型已在當(dāng)前主流的端到端語音識別任務(wù)中廣泛應(yīng)用, 其整體結(jié)構(gòu)可分為3個模塊: 前饋網(wǎng)絡(luò)模塊、 多頭注意力模塊和卷積網(wǎng)絡(luò)模塊, 如圖3所示.
Conformer模型是一種序列建模架構(gòu), 它融合了多個關(guān)鍵組件, 并通過殘差連接實(shí)現(xiàn)它們之間的連接. 這些組件包括多頭注意力模塊、 卷積網(wǎng)絡(luò)模塊和前饋網(wǎng)絡(luò)模塊. 多頭注意力模
塊使用類似于Transformer-XL的方法計算序列中的位置編碼信息, 可以有效捕捉輸入語音特征序列中的重要語音特征信息. 在多頭注意力模塊前后, 使用批歸一化層和Dropout層
進(jìn)行正則化處理, 這些正則化技術(shù)有助于提高模型的魯棒性和泛化能力, 確保模型在不同輸入樣本上性能穩(wěn)定.
卷積網(wǎng)絡(luò)模塊由逐點(diǎn)卷積網(wǎng)絡(luò)、 ReLU激活函數(shù)和一維深度卷積網(wǎng)絡(luò)組成, 它能有效捕捉輸入特征序列中的局部細(xì)節(jié)語音特征信息. 逐點(diǎn)卷積網(wǎng)絡(luò)通過在輸入序列上進(jìn)行逐點(diǎn)操作,
提取出每個位置的特征表示; ReLU激活函數(shù)則引入非線性性質(zhì), 增強(qiáng)模型對不同語音特征的區(qū)分能力; 一維深度卷積網(wǎng)絡(luò)通過多層卷積操作, 逐漸擴(kuò)大感受野, 學(xué)習(xí)到輸入序列中更
復(fù)雜和抽象的特征表示. 同理, 在卷積網(wǎng)絡(luò)模塊內(nèi)部也使用批歸一化層和Dropout層進(jìn)行正則化處理.
前饋網(wǎng)絡(luò)模塊在Conformer模型中扮演重要角色, 它由兩個線性變換層和Swish激活函數(shù)構(gòu)成. 該模塊引入了非線性變換, 以更好地捕捉輸入特征的復(fù)雜關(guān)系. 為提高模型的魯棒性
和泛化能力, 在前饋網(wǎng)絡(luò)模塊中采用層歸一化和Dropout層進(jìn)行正則化處理. 這些正則化技術(shù)有助于平衡模型的輸入分布, 并減少過擬合的風(fēng)險. Conformer模型借鑒了Macaron-Ne
t網(wǎng)絡(luò)結(jié)構(gòu)的思想, 將前饋網(wǎng)絡(luò)模塊分別放置在多頭注意力模塊之前和卷積網(wǎng)絡(luò)模塊之后. 這種設(shè)計使模型充分利用多頭注意力模塊對全局上下文的建模能力, 以及卷積網(wǎng)絡(luò)模塊對
局部細(xì)節(jié)的建模能力. 同時, 通過在各模塊之間添加殘差連接, 有助于信息的傳遞并減輕梯度消失問題.
2.3" 建模單元
在語音識別任務(wù)中, 所選擇的建模單元對模型的識別性能具有重要影響, 因?yàn)樗赡軐?dǎo)致大量未登錄詞的出現(xiàn). 如果選擇以字為建模單元, 可能會遇到序列過長的問題, 使模
型難以學(xué)習(xí)到序列之間的依賴關(guān)系. 針對該問題, 本文選擇子詞作為建模單元. 這種選擇既有助于減小詞匯量的規(guī)模, 又能有效解決未登錄詞的問題. 通過將語言單
位劃分為更小的子詞, 能更好地捕捉單詞內(nèi)部和單詞之間的語義信息, 從而提高模型對復(fù)雜文本的理解能力.
目前廣泛使用的方法是采用字節(jié)對編碼(byte pair encoding, BPE)算法生成子詞. 字節(jié)對編碼是一種用于數(shù)據(jù)壓縮和自然語言處理的算法,
BPE的基本思想是通過反復(fù)合并出現(xiàn)頻率最高的字節(jié)對(byte pairs)構(gòu)建一個編碼表, 從而實(shí)現(xiàn)對數(shù)據(jù)的壓縮或表示. 字節(jié)對編碼算法的步驟如下:
1) 初始化, 將輸入數(shù)據(jù)按字節(jié)(byte)進(jìn)行劃分, 形成初始的詞匯表;
2) 構(gòu)建頻率表, 統(tǒng)計所有字節(jié)對的出現(xiàn)頻率, 字節(jié)對可以是相鄰的字節(jié)或字符;
3) 選擇合并, 選擇出現(xiàn)頻率最高的字節(jié)對, 并將它們合并成一個新的字節(jié)或符號;
4) 重復(fù)步驟3), 直至達(dá)到指定的合并次數(shù)或者達(dá)到某個停止條件;
5) 生成編碼表, 將輸入數(shù)據(jù)中的每個字節(jié)映射到對應(yīng)的合并后的字節(jié)或符號中.
本文使用改進(jìn)的BPE算法——BPE-dropout, 它在字節(jié)對編碼算法中引入了一定的隨機(jī)性元素, 通過構(gòu)造高頻字符片段, 使這些子詞在語料庫中的出現(xiàn)頻率足夠高, 從而能有效
訓(xùn)練并生成最佳的翻譯模型. 在進(jìn)行迭代合并頻繁出現(xiàn)的字符對時, BPE-dropout會以一
定的概率p丟棄某些合并操作. 當(dāng)p=0時, 采用普通字節(jié)編碼算法的方式形成子詞; 當(dāng)p=1時, 不進(jìn)行任何合并操作, 只保留原始的字.
首先初始化詞匯表, 將訓(xùn)練數(shù)據(jù)中的字符作為初始詞匯表的元素, 每個字符都是一個獨(dú)立的詞, 然后統(tǒng)計每個字符對(由相鄰字符組成)的出現(xiàn)頻率. 從字符對頻率表中選擇出現(xiàn)
頻率最高的字符對, 將兩個字符合并成一個新的字符. 同時更新詞匯表, 將合并后的字符加入到詞匯表中, 逐步增加詞表. 更新字符對頻率表, 將原始字符對替換為合并后的字符, 重新計算字符對的頻率.
通過分析使用傳統(tǒng)BPE算法生成的子詞長度分布, 發(fā)現(xiàn)在處理漢文時, 最長的子詞長度
為21字節(jié). 因此在實(shí)驗(yàn)中設(shè)置了一個子詞字?jǐn)?shù)閾值, 只提取長度不超過該閾值的子詞. 帶閾值的DPE-dropout算法流程如圖4所示.
3" 多任務(wù)學(xué)習(xí)模型
本文提出一種多任務(wù)學(xué)習(xí)模型, 其結(jié)構(gòu)如圖5所示. 該模型通過結(jié)合Conformer和CTC-Attention的多層編碼器-解碼器網(wǎng)絡(luò)構(gòu)建而成. 每個編碼器層包括多頭注意力機(jī)
制、 卷積網(wǎng)絡(luò)和前饋網(wǎng)絡(luò). 通過在不同層之間進(jìn)行歸一化和隨機(jī)失活處理,
可提高模型的穩(wěn)健性和泛化能力. 解碼器部分采用鏈接時序分類和注意力機(jī)制, 以實(shí)現(xiàn)快速訓(xùn)練和聯(lián)合解碼.
該過程首先對輸入的語音信號進(jìn)行特征提取, 并對其進(jìn)行降采樣. 然后通過一個線性層將特征x={x1,x2,…,xT}送入到Conformer編碼器, 在編碼器中, 經(jīng)過前饋網(wǎng)絡(luò)、
多頭注意力和卷積網(wǎng)絡(luò)的處理, 產(chǎn)生一個中間特征序列h={h1,h2,…,hT}. 最后將中間特征序列h分別送入不同解碼器中進(jìn)行處理, 在每個子詞解碼器和字解碼器中
分別輸出標(biāo)簽y={y1,y2,…,ym}和y*={y*1,y*2,…,y*n}, 其中yi表示子詞建模單元, y*i表示字建模單元.
在本文實(shí)驗(yàn)中, 將子詞任務(wù)作為主任務(wù), 字任務(wù)作為輔助任務(wù)同時訓(xùn)練多任務(wù)模型, 使用CTC解碼器和Attention解碼器聯(lián)合解碼優(yōu)化模型參數(shù), 因此在訓(xùn)練過程中采用多任務(wù)框架定義
損失函數(shù)為
LMTL=λLCTC+(1-λ)LAttention, 0≤λ≤1,(8)
其中λ表示用于設(shè)置損失函數(shù)的參數(shù). 在解碼過程中, 采用波速搜索算法對得到的Attention和CTC的分量進(jìn)行解碼[15]. 波束大小為20, 以降低計算成本
. 在式(8)中, 加權(quán)系數(shù)的參數(shù)λ須在訓(xùn)練開始前手動調(diào)整, 并且不能在整個訓(xùn)練過程中更改, 因此本文提出了動態(tài)權(quán)重調(diào)節(jié)的方法解決該問題:
λ=ln sig(LAttention-LCTC) =11.0+exp{LCTC-LAttention}.(9)
改進(jìn)后, 當(dāng)λ=0時為BiLSTM架構(gòu), 當(dāng)λ=1時為CTC架構(gòu). 在訓(xùn)練期間無需手動調(diào)整, 且動態(tài)持續(xù)調(diào)整可更好地支持校準(zhǔn)過程.
4" 實(shí)驗(yàn)配置
4.1" 數(shù)據(jù)集
利用PyCharm進(jìn)行仿真實(shí)驗(yàn), 使用的軟件為TensorFlow1.15版, Window10操作系統(tǒng), 12 GB內(nèi)存, 處理器為Intel-i5-12400F. 本文使用的數(shù)據(jù)集是中文數(shù)據(jù)集TH
CHS30和ST-CMDS, 其中數(shù)據(jù)集THCHS30總持續(xù)時間超過30 h, 采樣頻率為16 kHz, 采樣大小為16 bit. 數(shù)據(jù)集ST-CMDS是一個人工智能數(shù)據(jù)公司發(fā)布的中文語音數(shù)據(jù)集, 約為100 h的語音數(shù)
據(jù), 數(shù)據(jù)內(nèi)容主要包括在線語音聊天和智能語音控制指令. 數(shù)據(jù)集THCHS30信息列于表1.
為使識別出的單詞序列與默認(rèn)序列匹配, 必須插入、 替換或刪除某些單詞. 插入、 替換或刪除的總字?jǐn)?shù)除以標(biāo)準(zhǔn)序列中總字?jǐn)?shù)的百分?jǐn)?shù)即為詞錯誤率(word error rate, WER
), 本文采用WER作為評價指標(biāo), 其計算公式為
WER=S+D+IN×100%,(10)
其中S表示替換, D表示刪除, I表示插入, N表示詞數(shù)目.
4.2" 模型參數(shù)配置
在本文給定模型下, 通過優(yōu)化學(xué)習(xí)率確定模型的最佳訓(xùn)練系數(shù), 并研究學(xué)習(xí)系數(shù)對模型識別精度的影響, 結(jié)果如圖6所示. 由圖6可見,
當(dāng)學(xué)習(xí)率從0.000 7提高到0.001時, 發(fā)現(xiàn)學(xué)習(xí)率為0.000 8時, 在數(shù)據(jù)集THCHS30中模型的識別準(zhǔn)確率最高, 而當(dāng)學(xué)習(xí)率為0.000
85時, 在數(shù)據(jù)集ST-CMDS中模型的識別準(zhǔn)確率最高. 而當(dāng)學(xué)習(xí)率過低或過高時, 模型易出現(xiàn)過擬合現(xiàn)象, 因此需要進(jìn)行適當(dāng)?shù)恼{(diào)整, 以取得最佳的模型性能.
然后進(jìn)行模型訓(xùn)練迭代周期的調(diào)試, 以降低損失率. 圖7為迭代周期與損失函數(shù)的變化關(guān)系. 由圖7可見, 從第28次迭代開始曲線變
得平緩, 表示模型已經(jīng)收斂. 迭代周期從25~33次相對合理, 繼續(xù)增加將導(dǎo)致過擬合. 因此, 本文選擇訓(xùn)練迭代周期為30次.
本文采用Conformer為編碼器模型, 以子詞任務(wù)為主任務(wù), 字任務(wù)為輔助任務(wù), 采用多任務(wù)
(MOL)框架優(yōu)化損失函數(shù), 提升系統(tǒng)魯棒性. 在式(8)中,
將加權(quán)系數(shù)λ作為一個調(diào)整參數(shù), 對兩個目標(biāo)函數(shù)進(jìn)行調(diào)整, 結(jié)果如圖8所示.
不同的λ取值對WER的影響不同. 由圖8可見, 當(dāng)λ取值接近0.5時, 語音識別模型的錯誤率最低. 實(shí)驗(yàn)結(jié)果表明, 使用多任務(wù)學(xué)習(xí)框架能有效提高語音識別準(zhǔn)確率.
4.3" 不同模型下的識別性能
在語音識別領(lǐng)域, GMM-HMM[16],DNN-HMM[17]和CNN-HMM[18]等都是目前流行的語音識別模型. 在真
實(shí)環(huán)境下都采用Fbank特征作為語音輸入特征. GMM訓(xùn)練速度快, 聲學(xué)模型較小, 但無法利用幀的上下文信息, 每一步迭代的計算量均較大; DNN能利用上下文信息, 但無法利用歷史信
息輔助當(dāng)前任務(wù); CNN-HMM為DNN-HMM的改進(jìn)優(yōu)化模型, CNN比其他神經(jīng)網(wǎng)絡(luò)更能捕捉到特征的不變性. 本文為測試Confor
mer-CTC-Attention多任務(wù)學(xué)習(xí)模型與其他不同模型的性能, 設(shè)計7組實(shí)驗(yàn), 驗(yàn)證Conformer-CTC-Attention多任務(wù)學(xué)習(xí)模型的識別效果. 實(shí)驗(yàn)結(jié)果列于表2.
由表2可見, CNN-HMM相比于GMM-HMM,DNN-HMM模型, 在兩個數(shù)據(jù)集上的識別準(zhǔn)確率分別提高了2.80,0.92個百分點(diǎn)和3.27,1.26個百分點(diǎn).
BiLSTM-CTC/Attention模型[19]由編碼器-解碼器網(wǎng)絡(luò)組成, 編碼器由3層雙向LSTM和全連接層組成, 解碼器將CTC和多頭注意力連接進(jìn)行聯(lián)合
訓(xùn)練解碼. 由表2可見, 相比于CNN-HMM模型, 在兩種數(shù)據(jù)集上的識別準(zhǔn)確率分別提高了6.70,5.28個百分點(diǎn). Transformer-CTC模型[10]采用編碼器-解碼器
結(jié)構(gòu), Transformer編碼器由多頭注意力、 前饋網(wǎng)絡(luò)和歸一化網(wǎng)絡(luò)組成. Conformer-CTC模型[20]同樣采用編碼器-解碼器結(jié)構(gòu), Conformer編碼器內(nèi)包含
多頭注意力、 卷積網(wǎng)絡(luò)、 前饋網(wǎng)絡(luò)、 歸一化網(wǎng)絡(luò). 二者皆以鏈接時序分類CTC作為解碼器, 解碼過程中采用集束搜索算法. Conformer-CTC-Attention-MTL模型采用多任務(wù)學(xué)習(xí)框架,
采用39維Mel特征作為輸入, 以BPE-dropout方法形成子詞作為主任務(wù)建模單元, 動態(tài)地調(diào)整詞匯表, 以更好地適應(yīng)具體任務(wù)或數(shù)據(jù)集的特點(diǎn), 以字任務(wù)作為輔助任務(wù). 采用Conformer
結(jié)構(gòu)作為編碼器, 以鏈接時序分類和注意力機(jī)制進(jìn)行聯(lián)合解碼, 引入動態(tài)權(quán)重調(diào)節(jié)算法以提升模型性能. 實(shí)驗(yàn)結(jié)果表明, 多任務(wù)學(xué)習(xí)模型的性能明顯高于傳統(tǒng)模型性能,
相比于GMM-HMM模型, 錯誤率分別降低了14.49,13.31個百分點(diǎn). 這是由于共享層注意力和卷積神經(jīng)網(wǎng)絡(luò), 能有效捕捉長距離和細(xì)粒度特征信息.
表3列出了模型深度對識別性能(WER)的影響. 由表3可見, 隨著編碼器層數(shù)的增加, 模型的性能也相應(yīng)提升, 進(jìn)一步驗(yàn)證了網(wǎng)絡(luò)層數(shù)對模型學(xué)習(xí)輔助特征信息的影響. 當(dāng)編碼器層數(shù)達(dá)到6時, 模型識別性能較好,
而當(dāng)編碼器層數(shù)增加到9時, 模型性能開始下降. 這是因?yàn)殡S著網(wǎng)絡(luò)層數(shù)的增加, 模型所需訓(xùn)練的參數(shù)數(shù)量也隨之增加, 導(dǎo)致模型易出現(xiàn)過擬合, 識別性能下降.
表4列出了BPE和BPE-dropout形成的建模單元對識別性能(WER)的影響. 由表4可見, 使用BPE-dropout方法生成的子詞作為建模單元, 識別性能較好.
相比于普通的字節(jié)編碼算法(BPE), BPE-dropout方法在不同數(shù)據(jù)集上錯誤率分別下降了1.98,0.75個百分點(diǎn). 此外, 丟棄率對識別性能也有一定的影響.
綜上所述, 針對中文語音識別中經(jīng)常出現(xiàn)未登錄詞的問題, 本文提出了一種基于帶閾值的BPE-dropout多任務(wù)學(xué)習(xí)的端到端語音識別模型. 該模型采用帶隨機(jī)性字節(jié)對編碼算法, 在形成
子詞時引入了帶字?jǐn)?shù)閾值的策略, 將子詞和字作為建模單元進(jìn)行多任務(wù)訓(xùn)練和解碼, 其中字任務(wù)作為輔助任務(wù). 編碼器部分采用了Conformer結(jié)構(gòu), 與鏈接時序分類和注意力機(jī)
制相結(jié)合. 為進(jìn)一步提升模型性能, 引入了動態(tài)參數(shù)對損失函數(shù)進(jìn)行動態(tài)調(diào)節(jié), 并同時進(jìn)行多任務(wù)訓(xùn)練和解碼. 測試結(jié)果表明, 本文方法能有效解決未登錄詞問題, 提升了語音識別性能, 并指出了丟棄率對識別性能的影響.
參考文獻(xiàn)
[1]" ALDARMAKI H, ULLAH A, RAM S, et al. Unsupervi
sed Automatic Speech Recognition:" A Review [J]. Speech Communication, 2022, 139: 76-91.
[2]" JUNG H Y, LEE S Y. On the Temporal Decorrelation of
Feature Parameters for Noise-Robust Speech Recognition [J]. IEEE Transactions on Speech amp; Audio Processing, 2000, 8(4): 407-416.
[3]" YOUNG S. The HTK Hidden Markov Model Toolkit: Design and Philosophy [R]. Cambidge: Cambridge University, 1993.
[4]" GEORGESCU A L, CUCU H, BURILEANU C. Kaldi-Based DNN
Architectures for Speech Recognition in Romanian [C]//2019 International Conf
erence on Speech Technology and Human-Computer Dialogue (SpeD). Piscataway, NJ: IEEE, 2019: 1-6.
[5]" SAMIN A M, KOBIR M H, KIBRIA S, et al. Deep Learnin
g Based Large Vocabulary Continuous Speech Recognition of an Under-Resourced La
nguage Bangladeshi Bangla [J]. Acoustical Science and Technology, 2021, 42(5): 252-260.
[6]" YALTA N, WATANABE S, HORI T, et al. CNN-Based Mult
ichannel End-to-End Speech Recognition for Everyday Home Environments [C]//2019 27th European Signal Proc
essing Conference (EUSIPCO). Piscataway, NJ: IEEE, 2019: 1-5.
[7]" CHAN W, LANE I. Deep Convolutional Neural Networks for Acoustic Modeling in Low Resource Languages [C]//2015 IEEE International Conferenc
e on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2015: 2056-2060.
[8]" DAI Y J, WU Z W. Mobile-Assisted Pronunciation Learning with Feedback from Peers
and/or Automatic Speech Recognition: A Mixed-Methods Study [J]. Computer Assisted Language Learning, 2023, 36(5/6): 861-884.
[9]" GRAVES A, MOHAMED A R, HINTON G. Speech Recognition with Deep Recurrent Ne
ural Networks [C]//IEEE International Conference on Acoustics. Piscataway, NJ: IEEE, 2013: 6645-6649.
[10]" MIAO H R, CHENG G F, GAO C F, et al. Transformer-Based Online CTC/Attention End-to
-End Speech Recognition Architecture [C]//2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2020: 6084-6088.
[11]" ZHANG Y, PUVVADA K C, LAVRUKHIN V, et al. Conformer-Based Target-Speaker Automatic Speech Recognition for Single-Channel Audio [C]//2023 IE
EE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2023: 1-5.
[12]" LI J L, WANG H X, HE P S, et al. Long-Term Variable Q Transform: A Novel Time
-Frequency Transform Algorithm for Synthetic Speech Detection [J]. Digital Signal Processing, 2022, 120: 103256-103267.
[13]" GAO T, PAN Q, ZHOU J, et al. A Novel Attention-Guided Generative Adversarial
Network for Whisper-to-Normal Speech Conversion [J]. Cognitive Computation, 2023, 15: 773-792.
[14]" ZHANG Z Y, ZHOU P. End-to-End Contextual ASR Based on Posterior Distribution
Adaptation for Hybrid CTC/Attention System [EB/OL]. (2022-02-18)[2023-01-25]. https://arxiv.org/abs/2202.09003.
[15]" KIM S, HORI T, WATANABE S. Joint CTC-Attention Based End-to-End Speech Reco
gnition Using Multi-task Learning [C]//2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2017: 4835-4839.
[16]" AMOOLYA G, HANS A S A, LAKKAVALLI V R, et al. Automatic Speech Recognition f
or Tulu Language Using GMM-HMM and DNN-HMM Techniques [C]//2022 Internationa
l Conference on Advanced Computing Technologies and Applications (ICACTA). Piscataway, NJ: IEEE, 2022: 1-6.
[17]" ZHAO J, LI X, LIU W H, et al. DNN-HMM Based Acoustic Model for Continuous Pig
Cough Sound Recognition [J]. International Journal of Agricultural and Biological Engineering, 2020, 13(3): 186-193.
[18]" LI T X. Study on a CNN-HMM Approach for Audio-Based Musical Chord Recognitio
n [J]. Journal of Physics: Conference Series, 2021, 1802(3): 032033-1-032033-8.
[19]" ZHANG X Y, WANG J P, JIN L W, et al. CMT-Co: Contrastive Learning with Charac
ter Movement Task for Handwritten Text Recognition [C]//Proceedings of the Asian Conference on Computer Vision. Berlin: Springer, 2022: 3104-3120.
[20]" GUO H Z, CHEN Y S, XIE X K, et al. Efficient Conformer-Based CTC Model for In
telligent Cockpit Speech Recognition [C]//2022 13th International Symposium on Chin
ese Spoken Language Processing (ISCSLP). Piscataway, NJ: IEEE, 2022: 522-526.
(責(zé)任編輯: 韓" 嘯)