999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HOPE-CTC的端到端語音識(shí)別

2021-02-25 05:51:24徐冬冬蔣志翔
關(guān)鍵詞:特征提取特征模型

徐冬冬,蔣志翔

(中國航天科工集團(tuán)第二研究院 七〇六所,北京 100854)

0 引 言

由于傳統(tǒng)語音識(shí)別系統(tǒng)[1]的流程繁瑣,不能高效地結(jié)合語言模型與聲學(xué)模型,端到端方法開始流行。目前端到端模型[2]主要基于兩種:一是連接時(shí)序分類(CTC);二是注意力機(jī)制。CTC模型與傳統(tǒng)的DNN-HMM聲學(xué)模型不同,不需要在幀級(jí)別上對(duì)齊標(biāo)簽,但算法的實(shí)現(xiàn)基于假設(shè)每幀的解碼條件獨(dú)立。純基于注意力機(jī)制的解碼過程則與幀的順序無關(guān),忽略了語音的單調(diào)時(shí)序性,但預(yù)對(duì)齊過程會(huì)受噪聲影響。

針對(duì)上述兩種端到端模型缺乏先驗(yàn)知識(shí),不能有效進(jìn)行參數(shù)初始化的問題,考慮到聯(lián)合優(yōu)化正交投影和估計(jì)[3](HOPE)具有潛在特征交叉效果。本文提出采用基于HOPE-CTC的混合端到端模型。該模型首先采用CTC作為損失函數(shù),在HOPE基礎(chǔ)上訓(xùn)練獲得瓶頸特征,然后將具有高維表示的語音特征輸入注意力網(wǎng)絡(luò),最后解碼輸入目標(biāo)音素標(biāo)簽。其中,HOPE的關(guān)鍵是融合了特征提取和數(shù)據(jù)建模,采用線性正交投影作特征提取實(shí)質(zhì)上是降維處理,將原始相關(guān)性高的輸入特征映射成維度較低且線性無關(guān)的特征向量;采用有限的混合模型來逼近數(shù)據(jù)模型分布任務(wù)精度。并且將基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)置于注意力網(wǎng)絡(luò)的前端,可以有效減少編碼網(wǎng)絡(luò)中循環(huán)神經(jīng)網(wǎng)絡(luò)的層數(shù),加快模型訓(xùn)練速度。該方法實(shí)現(xiàn)了兩種不同端到端模型的融合,并通過實(shí)驗(yàn)驗(yàn)證了該模型的有效性。

1 聯(lián)合優(yōu)化正交投影和估計(jì)模型

聯(lián)合優(yōu)化正交投影和估計(jì)被提出是為了探索神經(jīng)網(wǎng)絡(luò)內(nèi)部各隱層之間密切的相關(guān)性,并且發(fā)現(xiàn)對(duì)于有監(jiān)督和無監(jiān)督DNN的學(xué)習(xí)都非常有效。采用基于最大似然準(zhǔn)則(maximum likelihood estimation,MLE)的HOPE學(xué)習(xí)算法,對(duì)無標(biāo)注數(shù)據(jù)種進(jìn)行DNN無監(jiān)督學(xué)習(xí)輸出的特征,能夠作為SVM等簡單分類器的輸入,與使用帶標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行有監(jiān)督訓(xùn)練的結(jié)果相比,可以取得一定的性能提升。

對(duì)于一個(gè)HOPE模型[4],可以用如圖1所示的兩層網(wǎng)絡(luò)進(jìn)行表示。其中,正交投影層借鑒了主成分分析的思想,將輸入數(shù)據(jù)映射到低維隱特征空間;輸出層采用有限個(gè)基于指數(shù)的混合模型,逼近隱狀態(tài)特征的分布精度。

圖1 HOPE模型表示為網(wǎng)絡(luò)結(jié)構(gòu)

根據(jù)PCA[5]的理論,利用正交變換把線性相關(guān)的高維數(shù)據(jù)變量轉(zhuǎn)換為線性無關(guān)的主成分變量,其余的那些數(shù)據(jù)可以認(rèn)為是噪聲數(shù)據(jù),以達(dá)到高維樣本數(shù)據(jù)的特征降維。

對(duì)于任意的M維特征語音數(shù)據(jù)樣本x,通過線性投影得到N維的向量z,z=Ux。投影得到的(M-N)維噪音組成部分c,c=Vx。其中V和U均是正交投影矩陣,且相互正交。即滿足UUT=I、VVT=I和VUT=0。因此可以得到該投影過程表達(dá)公式如下

(1)

(1)首先,我們考慮如何學(xué)習(xí)投影矩陣U。假設(shè)上映射得到的z和c在隱特征空間相互獨(dú)立,可以將原始數(shù)據(jù)x的概率分布表示為

(2)

(2)最后,求信號(hào)投影成分的分布p(z)。本文的做法是假設(shè)z服從一個(gè)基于指數(shù)分布族的有限混合模型分布,使用一定數(shù)目的混合組成成分,無線逼近隱特征空間數(shù)據(jù)分布。由此可以得到信號(hào)成分z的分布

(3)

(4)

其中,μk表示第k個(gè)單峰指數(shù)分布的模型參數(shù),CN(k)是相應(yīng)N維特征向量上的概率規(guī)整項(xiàng)

(5)

Id(k)是d階修正的第一類Bessel函數(shù),分布公式如下

(6)

這樣就得到了正交投影矩陣U和信號(hào)投影成分z在混合模型隱特征空間上的分布。理論上,HOPE模型中映射模型和混合模型的所有參數(shù)均可以使用最大似然估計(jì)訓(xùn)練更新,然而由于混合模型分布的復(fù)雜性,使得無法直接計(jì)算參數(shù)的解析解。因此,模型訓(xùn)練采用隨機(jī)梯度下降法,使分布函數(shù)的似然值[6]逐步最大化,從而聯(lián)合更新優(yōu)化投影矩陣U和混合模型的參數(shù)。

為了應(yīng)對(duì)輸入語音數(shù)據(jù)樣本的多樣性,能夠充分提取突出顯著特征,合理調(diào)整輸入和輸出特征維度顯得尤為重要。因此有些模型參數(shù)的選擇需要人為進(jìn)行控制,選擇合適的N值將噪聲成分從目標(biāo)信號(hào)中濾除,有效防止模型過擬合;單獨(dú)選擇K值,即上述公式中指數(shù)分布函數(shù)的個(gè)數(shù),保證模型在對(duì)大量數(shù)據(jù)建模時(shí),有一定的泛化能力。

2 基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)

瓶頸特征[7]是在多層感知(multiplayer perceptron,MLP)的瓶頸層中產(chǎn)生的特征,經(jīng)過一定數(shù)目的非線性模型層之后,輸出前后相關(guān)的且有助于輸出分類的語音特征。一開始經(jīng)常使用的深度信念網(wǎng)絡(luò)模型中神經(jīng)元數(shù)量很少,隨著網(wǎng)絡(luò)模型深度逐步加深,在語音識(shí)別任務(wù)模型中引入瓶頸特性,以改善和簡化系統(tǒng)的性能。

本文提出的基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)訓(xùn)練過程中,不依賴字典,將CTC[8]作為目標(biāo)準(zhǔn)則函數(shù),擺脫對(duì)先驗(yàn)對(duì)齊信息的依賴,網(wǎng)絡(luò)提取的HOPE瓶頸特征具有更強(qiáng)的區(qū)分性和有效性。

這里采用CTC,是因?yàn)閭鹘y(tǒng)的混合神經(jīng)網(wǎng)絡(luò)通常在語音識(shí)別中被訓(xùn)練為幀級(jí)分類器,這需要對(duì)每個(gè)幀有單獨(dú)的訓(xùn)練目標(biāo)以及輸入音頻序列和轉(zhuǎn)錄序列之間保證對(duì)齊。由于語音信號(hào)的非穩(wěn)定性,輸入語音特征序列的長度比音頻對(duì)應(yīng)的文本序列的長度大得多,CTC函數(shù)層卻實(shí)現(xiàn)了直接預(yù)測(cè)從輸入語音幀特征序列到句子標(biāo)簽序列的后驗(yàn)概率的功能。CTC模型通常使用循環(huán)神經(jīng)網(wǎng)絡(luò)的softmax層[9]的輸出作為CTC的輸入,并設(shè)置一個(gè)指示空白的附加標(biāo)簽,用于估計(jì)在某些幀時(shí)刻不輸出標(biāo)簽的可能性,進(jìn)而保證輸出層中的節(jié)點(diǎn)與訓(xùn)練樣本數(shù)據(jù)中的標(biāo)簽序列一一對(duì)應(yīng)。因此所有可能的句子標(biāo)簽后驗(yàn)概率都可以由softmax層節(jié)點(diǎn)分類輸出表示。引入空白標(biāo)簽,讓網(wǎng)絡(luò)對(duì)當(dāng)前輸入語音幀的判斷得到緩沖,很好解決了重復(fù)字符和連續(xù)標(biāo)簽對(duì)齊的問題,真實(shí)句子標(biāo)簽序列的后驗(yàn)概率則為基于幀輸入的特征能映射成相應(yīng)標(biāo)簽序列的后驗(yàn)概率的總和。

基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)系統(tǒng)結(jié)構(gòu)如圖2所示。

圖2 基于HOPE-CTC瓶頸特征提取

原基于循環(huán)神經(jīng)網(wǎng)絡(luò)的CTC模型包含四層LSTM層和一層softmax投影層。疊加多層循環(huán)神經(jīng)網(wǎng)絡(luò)目的是提取輸入音頻幀相鄰序列的前后相關(guān)性,最后一層循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出經(jīng)過softmax層映射到句子標(biāo)簽序列。投影層神經(jīng)元數(shù)目與輸入數(shù)據(jù)序列標(biāo)簽個(gè)數(shù)相關(guān),一般小于LSTM單元個(gè)數(shù)。

為了訓(xùn)練基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò),在原模型四層循環(huán)神經(jīng)網(wǎng)絡(luò)后面添加HOPE瓶頸特征層和全連接層。由于本文選用漢語拼音的58個(gè)聲韻母作為音素標(biāo)簽,所以投影層節(jié)點(diǎn)數(shù)等同于包含空白標(biāo)簽在內(nèi)的59個(gè)所有可能標(biāo)簽數(shù)。為了獲得有利于輸出分類的瓶頸特征,設(shè)置HOPE瓶頸層輸出維度與投影層節(jié)點(diǎn)數(shù)相接近。連接在第四層中的LSTM單元后的HOPE瓶頸特征層輸出維度為50,即上述K值是50,通過設(shè)置相對(duì)較小的瓶頸層,可以更緊密地壓縮顯著特征。增加的全連接層神經(jīng)元數(shù)目為1024,這與循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層節(jié)點(diǎn)數(shù)相同。

在訓(xùn)練過程中,HOPE瓶頸層可以盡可能地還原循環(huán)神經(jīng)網(wǎng)絡(luò)層中的特征信息。采用標(biāo)簽同步解碼算法[10],通過與給定的真實(shí)標(biāo)簽進(jìn)行比較,獲得最終的CTC損失函數(shù)。通過不斷降低CTC損失值的訓(xùn)練,預(yù)測(cè)結(jié)果逐漸接近真實(shí)標(biāo)簽。

為了將將網(wǎng)絡(luò)中的知識(shí)遷移至注意力模型中,對(duì)于訓(xùn)練好的基于CTC的連續(xù)語音識(shí)別系統(tǒng),刪除網(wǎng)絡(luò)HOPE的瓶頸特征層之后的所有網(wǎng)絡(luò)單元狀態(tài)和連接權(quán)重參數(shù),并將瓶頸層的狀態(tài)作為網(wǎng)絡(luò)的輸出,此時(shí)獲得基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)。

3 基于HOPE-CTC的混合注意力模型

基于注意力機(jī)制的端到端模型[11]主要包括編碼網(wǎng)絡(luò)、注意力子網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)3個(gè)模塊。特征輸入和序列輸出同以上基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)模型設(shè)置。編碼網(wǎng)絡(luò)中的循環(huán)神經(jīng)網(wǎng)絡(luò)由雙向GRU單元構(gòu)成,可以同時(shí)接收和傳遞幀序列前后信息,增強(qiáng)輸入語音幀序列的長時(shí)相關(guān)性。

假定編碼網(wǎng)絡(luò)中輸入原始音頻特征序列(x1,x2,…,xT)時(shí),輸出是高層表征的特征序列(h1,h2,…,hU)。

注意力子網(wǎng)絡(luò)主要是計(jì)算出編碼網(wǎng)絡(luò)的輸出h的權(quán)重分布。首先將解碼網(wǎng)絡(luò)當(dāng)前步的隱藏向量si和hj進(jìn)行計(jì)算得到一個(gè)能量系數(shù)eij,可以使用疊加神經(jīng)網(wǎng)絡(luò)層或者求內(nèi)積的方式。再經(jīng)softmax層歸一化處理得到注意力系數(shù)αij,最后將高層特征序列和注意力系數(shù)加權(quán)求和得到注意力網(wǎng)絡(luò)輸出向量ci。具體計(jì)算公式如下

eij=Energy(si,hj)

(7)

(8)

(9)

解碼網(wǎng)絡(luò)的作用類似于語言模型,RNN當(dāng)前位置的輸入包括上一位置的輸出,因此可以有效利用上下文信息。首先當(dāng)前步的隱藏隱藏向量si是由上一步的隱藏隱藏向量si-1、輸出音素yi-1和注意力網(wǎng)絡(luò)輸出向量ci-1計(jì)算得到。最后使用當(dāng)前步的注意力網(wǎng)絡(luò)輸出向量ci和隱藏隱藏向量si進(jìn)一步獲得當(dāng)前步的輸出音素yi。

然而,CTC模型輸出單元間作了的獨(dú)立性假設(shè),導(dǎo)致在模型訓(xùn)練過程中丟失了幀前后的聯(lián)系,而基于注意力機(jī)制的模型卻沒有假定獨(dú)立性。結(jié)合了CTC和注意力機(jī)制的端到端模型有助于解決輸入幀和輸出標(biāo)簽序列不規(guī)則對(duì)齊的問題。基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)可以充分表達(dá)相鄰幀之間的聯(lián)系,并抽象出最有利于輸出分類的顯著特征。基于HOPE-CTC的混合注意力模型對(duì)輸入樣本序列沒有嚴(yán)格要求,并且對(duì)說話人和噪聲等干擾信息具有一定程度的魯棒性,從而提高了語音序列識(shí)別性能。這種混合模型將兩個(gè)主流端到端模型集成在一起,并且可以有效地將信息從基于CTC的連續(xù)語音識(shí)別系統(tǒng)轉(zhuǎn)移到注意力模型。

改進(jìn)后基于HOPE-CTC的混合注意力模型框架如圖3所示。①特征輸入為Fbank特征序列x=(x1,x2,…,xT),對(duì)應(yīng)的輸出分類是音素標(biāo)簽序列y=(y1,y2,…,yO)。②編碼網(wǎng)絡(luò)中添加了本文提出的算法框架,即將以上經(jīng)過訓(xùn)練的基于HOPE-CTC網(wǎng)絡(luò)提取到的瓶頸特征作為循環(huán)神經(jīng)網(wǎng)絡(luò)層的輸入,并減少循環(huán)神經(jīng)網(wǎng)絡(luò)層數(shù)為1層,得到具有更好區(qū)分度和表征能力的高層抽象特征序列h=(h1,h2,…,hU)。③注意力網(wǎng)絡(luò)同以上描述,是用來量化是編碼網(wǎng)絡(luò)得到的高層特征序列hj和解碼器隱藏狀態(tài)向量si之間的關(guān)聯(lián)程度,并計(jì)算出高層表征向量的加權(quán)和ci。解碼網(wǎng)絡(luò)由單層循環(huán)神經(jīng)網(wǎng)絡(luò)和softmax層組成。解碼RNN第i步輸出的隱藏狀態(tài)向量si=RNN(si-1,yi-1,ci-1),最后softmax層由隱藏狀態(tài)向量si預(yù)測(cè)分類當(dāng)前步音素標(biāo)簽yi。

圖3 基于HOPE-CTC的混合注意力模型

模型訓(xùn)練采用梯度下降法,不難看出整個(gè)融合系統(tǒng)訓(xùn)練目標(biāo)是最大化標(biāo)簽序列的后驗(yàn)概率,目標(biāo)函數(shù)可以表示為

(10)

其中,θ是模型參數(shù),N是訓(xùn)練集總數(shù)。

最后需要注意的是,聯(lián)合訓(xùn)練優(yōu)化整個(gè)融合系統(tǒng)時(shí),固定基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)參數(shù),不需要調(diào)整基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)中參數(shù),只對(duì)注意力模型中剩下的1層循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力子網(wǎng)絡(luò)以及解碼網(wǎng)絡(luò)的全部參數(shù)進(jìn)行更新調(diào)整。

4 實(shí)驗(yàn)過程

4.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)評(píng)估了分別采用純凈和含噪的數(shù)據(jù)集的方案效果。純凈語音數(shù)據(jù)來自中文語音數(shù)據(jù)集AISHELL-1,包含178小時(shí)來自400個(gè)說話人的普通話音頻和相應(yīng)文本信息。AISHELL-1中的音頻數(shù)據(jù)重采樣為16 kHz、16 bit的WAV格式。開發(fā)人員將數(shù)據(jù)集分為3個(gè)部分:訓(xùn)練集、驗(yàn)證集和測(cè)試集。含噪語音是由加入NOISEX-92數(shù)據(jù)庫的工廠噪聲合成而來,其中純凈和含噪信號(hào)的平均信噪比約為6 dB。

4.2 參數(shù)設(shè)置

HOPE-CTC瓶頸特征網(wǎng)絡(luò):以幀長25 ms、幀移為10 ms提取語音原始信息。音頻特征預(yù)處理設(shè)置濾波器組數(shù)目為40,得到高相關(guān)性的Fbank特征,前后拼接5幀共440維。輸出層單元數(shù)為59,分別對(duì)應(yīng)59個(gè)聲韻母,其中一共有23個(gè)聲母、35個(gè)韻母和1個(gè)空白符。除輸入層外,4層LSTM均含有1024個(gè)單元。全連接層的維度為1024。HOPE網(wǎng)絡(luò)結(jié)構(gòu)中M和K值分別選取90和50。

基于HOPE-CTC的混合注意力模型:GRU單元數(shù)目設(shè)置為256;設(shè)maxout網(wǎng)絡(luò)中隱含層數(shù)目為64;解碼網(wǎng)絡(luò)最后softmax層需要輸出58個(gè)聲韻母、空白符和序列終止符共計(jì)60個(gè)分類標(biāo)簽的后驗(yàn)概率,因此softmax層單元數(shù)設(shè)置為60。

4.3 訓(xùn)練過程與評(píng)價(jià)指標(biāo)

HOPE-CTC瓶頸特征網(wǎng)絡(luò)的訓(xùn)練過程:采用CTC損失函數(shù),觀察并記錄訓(xùn)練過程中識(shí)別錯(cuò)誤率有無收斂趨勢(shì)。模型訓(xùn)練采用適應(yīng)性動(dòng)量估計(jì)算法(adaptive moment estimation,Adam),加快網(wǎng)絡(luò)的收斂速度。再進(jìn)行微調(diào),將學(xué)習(xí)速率設(shè)置為0.000 01,采用隨機(jī)梯度下降算法用作模型的優(yōu)化器,通過設(shè)置較低的學(xué)習(xí)速率,使得網(wǎng)絡(luò)優(yōu)化更加穩(wěn)定。

基于HOPE-CTC的混合注意力模型的訓(xùn)練過程:通過上述目標(biāo)函數(shù)式(10),同上也采用Adam算法進(jìn)行模型參數(shù)優(yōu)化更新。整個(gè)訓(xùn)練包括3個(gè)階段:第一階段,設(shè)置批大小(batch size)為16,使模型參數(shù)盡快收斂,提高訓(xùn)練效率。到了第二階段,批大小為1,將隨機(jī)高斯噪聲添加到模型的所有參數(shù)中,然后再計(jì)算梯度,以增強(qiáng)模型的抗噪性能。HOPE-CTC瓶頸特征提取網(wǎng)絡(luò)的參數(shù)始終保持不變。第三階段的批處理大小為32。訓(xùn)練HOPE-CTC瓶頸特征提取網(wǎng)絡(luò)參數(shù)時(shí),學(xué)習(xí)率依次降低為原來的1/2。在上述3個(gè)階段中,若連續(xù)5次都沒有降低音素識(shí)別錯(cuò)誤率,則判定模型收斂,自動(dòng)停止訓(xùn)練或者進(jìn)入下一階段。

評(píng)價(jià)指標(biāo):考慮到輸出的音素序列為中文語音數(shù)據(jù)集AISHELL-1的識(shí)別結(jié)果,采用音素錯(cuò)誤率(phone error rate,PER)進(jìn)行評(píng)估

(11)

其中,I為插入錯(cuò)誤,表示插入了一個(gè)標(biāo)注序列中沒有的音素輸出;D為刪除錯(cuò)誤,表示分類輸出序列中的音素被丟失;R為替代錯(cuò)誤,表示標(biāo)注序列中的音素被一個(gè)錯(cuò)誤音素替代;N為訓(xùn)練數(shù)據(jù)中的標(biāo)簽序列音素總數(shù)。

5 實(shí)驗(yàn)結(jié)果分析

為了驗(yàn)證和測(cè)試基于HOPE-CTC的混合注意力模型的性能,對(duì)AISHELL-1數(shù)據(jù)集進(jìn)行了音素識(shí)別實(shí)驗(yàn),并記錄了在純凈和嘈雜語音數(shù)據(jù)集上不同模型系統(tǒng)的音素錯(cuò)誤率。在訓(xùn)練音頻數(shù)據(jù)過程中,每次更新模型參數(shù)之前,都要記錄網(wǎng)絡(luò)輸出標(biāo)簽的音素錯(cuò)誤率,通過繪制圖像來比較原始模型和使用HOPE-CTC瓶頸特征提取網(wǎng)絡(luò)模型訓(xùn)練的收斂速度快慢。同時(shí)更改HOPE-CTC網(wǎng)絡(luò)輸出的瓶頸特征維度,即混合模型個(gè)數(shù)K,比較使用不同結(jié)構(gòu)瓶頸特征提取網(wǎng)絡(luò)獲得的抽象特征對(duì)模型識(shí)別效果的影響,并找出音素識(shí)別錯(cuò)誤率最低的模型。

(1)基于HOPE-CTC的混合注意力模型與其它模型性能對(duì)比

表1列出采用不同結(jié)構(gòu)網(wǎng)絡(luò)模型對(duì)應(yīng)的音素錯(cuò)誤率。通過表中縱向數(shù)據(jù)可得,在注意力模型編碼網(wǎng)絡(luò)中添加HOPE-CTC瓶頸特征提取網(wǎng)絡(luò)后,模型的識(shí)別性能得到了提升。分析原因是,編碼網(wǎng)絡(luò)采用深層結(jié)構(gòu)后,輸入的語音數(shù)據(jù)樣本特征被映射為具有更強(qiáng)表征能力的顯著特征,有利于音素標(biāo)簽輸出分類預(yù)測(cè),從而有效地提高了識(shí)別性能。還可以得到,增加HOPE-CTC瓶頸特征提取網(wǎng)絡(luò)后分別在純凈和噪聲環(huán)境下最大有9.32%和15.31%的音素識(shí)別錯(cuò)誤率降低,驗(yàn)證了HOPE模型結(jié)構(gòu)在語音識(shí)別上的有效性。其中線性正交分解,高度相關(guān)的高維原始數(shù)據(jù)被投影到較低維度的隱特征空間,有效保證了純凈語音和噪聲特征的線性無關(guān)性,有助于將信號(hào)中的噪聲成分濾除;有限的指混合模型逼近與音素相關(guān)的特征數(shù)據(jù)分布精度,盡可能描述對(duì)應(yīng)標(biāo)簽不同特征維度的差異性,有助與提高音素識(shí)別率。

表1 不同結(jié)構(gòu)網(wǎng)絡(luò)模型在純凈和帶噪語音數(shù)據(jù)集上的音素識(shí)別錯(cuò)誤率/%

(2)不同模型在訓(xùn)練過程中音素識(shí)別錯(cuò)誤率性能對(duì)比

圖4顯示了訓(xùn)練期間不同模型的音素識(shí)別錯(cuò)誤率的下降曲線。可以看出,圖中黑色實(shí)線,即融合HOPE-CTC瓶頸特征提取網(wǎng)絡(luò)的模型,與原始聯(lián)合CTC和注意力的混合端到端模型相比,音素錯(cuò)誤率下降速度更快,收斂所需的迭代次數(shù)從136減少到87。這表明,在注意力模型前端添加HOPE-CTC瓶頸特征提取網(wǎng)絡(luò),可以有效地提供語音特征的先驗(yàn)信息,使得模型訓(xùn)練收斂更快,融合HOPE-CTC瓶頸特征提取網(wǎng)絡(luò)一定程度上提高了注意力模型的訓(xùn)練效率。

圖4 原始模型和融合HOPE-CTC模型在訓(xùn)練過程中訓(xùn)練集音素識(shí)別錯(cuò)誤率

(3)不同HOPE瓶頸層特征維度對(duì)系統(tǒng)性能的影響

表2展示了使用不同維度的HOPE-CTC瓶頸特征提取網(wǎng)絡(luò),即改變瓶頸特征輸出維數(shù)K值的大小,然后在AISHELL-1語料庫下一起訓(xùn)練整個(gè)模型,得到的音素錯(cuò)誤率數(shù)據(jù)。由表中數(shù)據(jù)可以得出,隨著K值的不斷增加,音素錯(cuò)誤率呈現(xiàn)先下降后上升的趨勢(shì),并且在K值為70時(shí),達(dá)到音素錯(cuò)誤率最低點(diǎn)。它表明適當(dāng)增加瓶頸特征輸出維數(shù)可以得到更好的系統(tǒng)識(shí)別性能,但是當(dāng)將其增加到一定數(shù)量時(shí),結(jié)果反而將降低。由于本文設(shè)置AISHELL-1語料庫標(biāo)簽為58個(gè)漢語聲韻母,能夠看出,當(dāng)HOPE-CTC瓶頸特征提取網(wǎng)絡(luò)中瓶頸層特征數(shù)目與音素標(biāo)簽數(shù)量相接近時(shí),網(wǎng)絡(luò)結(jié)構(gòu)具有更強(qiáng)的建模能力,進(jìn)而有利于提升語音識(shí)別準(zhǔn)確率。

表2 不同K取值對(duì)系統(tǒng)性能的影響

6 結(jié)束語

本文結(jié)合基于CTC和注意力機(jī)制的兩種端到端模型的優(yōu)勢(shì),提出將基于HOPE-CTC的瓶頸特征提取網(wǎng)絡(luò)與注意力模型融合的方法,充分考慮不同語音數(shù)據(jù)樣本分布的復(fù)雜性和差異性,有效提升系統(tǒng)識(shí)別的準(zhǔn)確率。在純凈和帶噪的AISHELL-1 數(shù)據(jù)集中音素識(shí)別錯(cuò)誤率分別低至10.31%和13.43%。同時(shí),可以減少原注意力模型編碼網(wǎng)絡(luò)中堆疊多層的循環(huán)神經(jīng)網(wǎng)絡(luò),加快模型訓(xùn)練速度。但是網(wǎng)絡(luò)的泛化能力很差,沒有驗(yàn)證在不同數(shù)據(jù)集和低信噪比語音數(shù)據(jù)集上的識(shí)別效果。因此,結(jié)合深度學(xué)習(xí)的優(yōu)勢(shì),設(shè)計(jì)更加泛化能力更強(qiáng)的模型,克服環(huán)境因素帶來的影響,還是非常必要且很有價(jià)值的課題。

猜你喜歡
特征提取特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個(gè)特征
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
3D打印中的模型分割與打包
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 国产免费a级片| 中文字幕有乳无码| 最新国产你懂的在线网址| 中日韩一区二区三区中文免费视频 | 久久久久亚洲av成人网人人软件| 亚洲国产精品日韩av专区| 中文字幕精品一区二区三区视频| 婷婷综合色| 国产精品久久久久婷婷五月| 精品无码一区二区在线观看| 欧美三级视频网站| 97视频在线观看免费视频| 777午夜精品电影免费看| 欧美成人精品高清在线下载| 免费看a毛片| 色婷婷成人| 色九九视频| 久久精品中文字幕免费| 人妖无码第一页| 巨熟乳波霸若妻中文观看免费| 成人噜噜噜视频在线观看| 成人va亚洲va欧美天堂| 亚洲女同一区二区| 999国内精品久久免费视频| 国产aaaaa一级毛片| 中国一级特黄大片在线观看| 欧美日韩在线亚洲国产人| 视频国产精品丝袜第一页| 午夜综合网| 99在线观看精品视频| 亚洲精品黄| 色综合日本| 在线欧美一区| 久久国产免费观看| 国产亚洲精久久久久久无码AV| 国产成人av一区二区三区| 久久综合成人| 国产成人亚洲毛片| 成年人福利视频| 亚洲国产综合精品中文第一| 成年人福利视频| 亚洲精品成人片在线播放| 99热这里只有免费国产精品| 国产一级妓女av网站| 国产成人免费| 国产成人在线无码免费视频| 欧美自慰一级看片免费| 天天综合网色| 国产一级毛片高清完整视频版| 午夜福利在线观看成人| 国产精品开放后亚洲| 无码久看视频| 精品国产乱码久久久久久一区二区| 亚洲午夜18| 亚洲无码高清视频在线观看| 一级毛片在线播放| 亚洲三级片在线看| 国产精品视频白浆免费视频| 久久青草视频| 青青青亚洲精品国产| 国产一在线观看| 丝袜国产一区| 亚洲男人天堂久久| 国产剧情伊人| 亚洲欧洲免费视频| 99久久精品国产麻豆婷婷| 国产日韩精品欧美一区喷| 亚洲国产无码有码| 欧美中文字幕在线二区| 激情六月丁香婷婷四房播| 色婷婷综合在线| 国产肉感大码AV无码| 欧美高清日韩| 91精品免费久久久| 欧美色视频日本| 无码有码中文字幕| 精品少妇人妻一区二区| 国产麻豆va精品视频| 亚洲第一天堂无码专区| 香蕉综合在线视频91| 中文无码伦av中文字幕| 国产精品成人第一区|