999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多噪聲環(huán)境下的層級(jí)語音識(shí)別模型

2018-08-28 08:53:02曹晶晶許潔萍邵聖淇
計(jì)算機(jī)應(yīng)用 2018年6期
關(guān)鍵詞:分類模型

曹晶晶,許潔萍,邵聖淇

(中國(guó)人民大學(xué)信息學(xué)院,北京100872)

(*通信作者電子郵箱xjieping@ruc.edu.cn)

0 引言

目前關(guān)于噪聲魯棒性的語音識(shí)別技術(shù)研究可劃分為特征空間和模型空間兩個(gè)方面[1],特征空間的研究不對(duì)模型參數(shù)進(jìn)行調(diào)整,而模型空間的研究通過調(diào)整模型參數(shù)從而增強(qiáng)魯棒性。

特征空間的研究從語音特征的角度出發(fā),對(duì)語音特征進(jìn)行增強(qiáng)即降低噪聲或是噪聲消減,特征映射技術(shù)[2-3]是為了降低噪聲,該技術(shù)主要研究?jī)深?一是帶噪聲特征到無噪聲特征的映射[2];二是頻域上,帶噪聲信號(hào)到無噪聲信號(hào)的映射[3]。噪聲消減技術(shù)是通過估計(jì)噪聲信號(hào)的頻域能量將噪聲信號(hào)從源信號(hào)中減去從而達(dá)到消除噪聲的目的[4],文獻(xiàn)[5]研究了對(duì)含噪音頻進(jìn)行降低噪聲的方法,完成了在0 dB白噪聲、汽車噪聲、咖啡館噪聲下的語音識(shí)別研究,其識(shí)別詞錯(cuò)率(Word Error Rate,WER)在汽車噪聲環(huán)境下表現(xiàn)最佳,為32.13%,但在白噪聲和咖啡館噪聲下識(shí)別 WER高達(dá)75.01%和56.37%,并且此種方法針對(duì)穩(wěn)定噪聲,不適用于噪聲不穩(wěn)定的情況。

對(duì)模型空間的研究是通過調(diào)整聲學(xué)模型的參數(shù)來整合噪聲的影響[1]。多類型訓(xùn)練[6]是模型空間研究的一個(gè)常用方法,該方法基于多類噪聲音頻訓(xùn)練聲學(xué)模型,但是由于訓(xùn)練數(shù)據(jù)噪聲類型多,聲學(xué)模型的參數(shù)需要適應(yīng)各類噪聲環(huán)境,導(dǎo)致在某些噪聲下性能可能下降。高斯混合模型 隱馬爾可夫模型(Gaussian Mixture Model-Hidden Markov Model,GMMHMM)[7]混合模型是語音識(shí)別的主導(dǎo)聲學(xué)模型[8],隨著深度學(xué)習(xí)的興起,深度神經(jīng)網(wǎng)絡(luò)也被應(yīng)用到聲學(xué)模型建模中[8-9],并取得了良好的成效。近年來特征空間和模型空間的研究都引入了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN),有學(xué)者提出混合模型,同時(shí)在特征空間和模型空間進(jìn)行參數(shù)調(diào)整。文獻(xiàn)[10]從降低噪聲角度出發(fā),提出了一個(gè)基于DNN的聯(lián)合訓(xùn)練語音識(shí)別模型,前端使用DNN進(jìn)行特征映射降低噪聲,后端使用深度神經(jīng)網(wǎng)絡(luò) 隱馬爾可夫模型(DNN-HMM)作為聲學(xué)模型,將前端特征映射的DNN與后端聲學(xué)模型的DNN調(diào)參過程相結(jié)合,即識(shí)別的誤差會(huì)對(duì)特征映射部分DNN的參數(shù)產(chǎn)生影響,在訓(xùn)練集含噪語音信噪比為10 dB~15 dB、測(cè)試集信噪比為5 dB~15 dB的實(shí)驗(yàn)下取得了良好的成效,但對(duì)信噪比更小的情況下(如0 dB),沒有進(jìn)行實(shí)驗(yàn)研究。過往的研究[5]表明信噪比小、噪聲類型干擾大的情況下,降噪和消噪技術(shù)難以取得好效果。

環(huán)境噪聲由于產(chǎn)生場(chǎng)所或者干擾因素的不同有若干類別,比如咖啡館噪聲、辦公室噪聲、飛機(jī)噪聲等。不同類別的環(huán)境噪聲差異較大,對(duì)語音信號(hào)的干擾也有很大差別,環(huán)境噪聲分類的研究已取得良好的效果[11-12]。

本文提出了將環(huán)境噪聲作為語音識(shí)別上下文考慮的層級(jí)語音識(shí)別模型,將噪聲分類與語音識(shí)別相結(jié)合,探討了含噪語音分類對(duì)多噪聲環(huán)境語音識(shí)別的影響。模型選取有代表性的五類噪聲環(huán)境,旨在使含噪音頻由與其噪聲最相似的噪聲環(huán)境下的聲學(xué)模型進(jìn)行識(shí)別,從而提高聲學(xué)模型對(duì)含噪音頻的適應(yīng)度,提高識(shí)別準(zhǔn)確率。

層級(jí)語音識(shí)別模型分為上下兩層,上層采用詞袋(Bag-of-Words,BOW)模型[13]和支持向量機(jī)(Support Vector Machine,SVM)[14]進(jìn)行噪聲語音分類,下層采用深度神經(jīng)網(wǎng)絡(luò) 隱馬爾可夫模型(DNN-HMM)作為各環(huán)境噪聲下的聲學(xué)模型。現(xiàn)有降噪方法在處理較穩(wěn)定且類型單一的噪聲上有所改進(jìn),但在處理多類型噪聲上,易導(dǎo)致在某些噪聲環(huán)境下處理效果較差,本文模型避免了現(xiàn)有降噪方法在分離噪聲和語音上的問題,消除了特征空間研究中對(duì)噪聲穩(wěn)定性的限制要求,從模型空間出發(fā),不限制噪聲穩(wěn)定性,既通過噪聲分類以尋找最相似噪聲環(huán)境解決了多類型訓(xùn)練的弊端,又通過特定噪聲環(huán)境下聲學(xué)模型減少了含噪音頻與聲學(xué)模型的訓(xùn)練數(shù)據(jù)的差異。在此基礎(chǔ)上,本文探討了在語音識(shí)別任務(wù)之前進(jìn)行噪聲環(huán)境分類的有效性以及如何設(shè)置模型超參數(shù)以提高識(shí)別的準(zhǔn)確率。

1 層級(jí)語音識(shí)別模型

1.1 總框架

層級(jí)語音識(shí)別模型的結(jié)構(gòu)如圖1所示。該模型旨在將環(huán)境噪聲作為語音上下文信息來輔助語音識(shí)別,針對(duì)不同類別的噪聲構(gòu)建特定噪聲下的聲學(xué)模型,使得每類噪聲環(huán)境下的聲學(xué)模型的參數(shù)更適應(yīng)該類噪聲。對(duì)于含噪語音,首先區(qū)分其噪聲所屬類別,再通過與該噪聲最為相似的噪聲類別下的聲學(xué)模型進(jìn)行識(shí)別。

圖1 層級(jí)語音識(shí)別模型總框架Fig.1 General framework of hierarchical speech recognition model

1.2 含噪語音分類模型

環(huán)境噪聲與說話人語音的區(qū)別在于,說話人語音只有一個(gè)來源,而環(huán)境噪聲的聲音來源是多方的[11]。比如咖啡館的環(huán)境噪聲可能包含來自各個(gè)方向的客人的說話聲、人來回走動(dòng)的聲音、杯子勺子碰撞的聲音、鍵盤敲擊聲等噪聲。噪聲包含元素復(fù)雜,因此,噪聲分類的基礎(chǔ)是更好地表示噪聲。

BOW模型是一種常見的通過碼本來表示文檔、圖像、音頻的方法,通過稀疏化特征從而更好地表示目標(biāo)。它起初被用于文檔分類[13]中,基本思想是構(gòu)建一個(gè)碼本,其中包含若干詞匯,將每個(gè)文檔看作碼本中詞匯的集合,通過詞匯的分布來對(duì)文檔進(jìn)行分類。由于BOW模型的有效性,它在圖像和音頻的分類[15-16]中也得到廣泛應(yīng)用。

本文將BOW模型應(yīng)用于含噪語音分類模型中,訓(xùn)練過程如圖2所示。首先對(duì)訓(xùn)練集中的含噪音頻的梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)特征進(jìn)行k-means聚類,形成k=N的碼本。接著對(duì)于每個(gè)含噪語音音頻,通過計(jì)算其每一幀的MFCC特征與碼本中單詞MFCC特征的距離來判斷該幀屬于哪一個(gè)單詞,統(tǒng)計(jì)音頻對(duì)應(yīng)單詞的個(gè)數(shù),從而形成這個(gè)音頻關(guān)于碼本的直方圖向量。這樣,每一個(gè)音頻都得到一個(gè)關(guān)于碼本的N維直方圖向量。用向量對(duì)〈直方圖向量,噪聲類別〉訓(xùn)練SVM,從而得到含噪語音分類模型。

圖2 含噪語音分類模型的訓(xùn)練Fig.2 Training of noisy speech classification model

1.3 DNN-HMM 聲學(xué)模型

本文使用的DNN-HMM聲學(xué)模型如圖3所示。

在DNN-HMM聲學(xué)模型中,HMM狀態(tài)的后驗(yàn)概率由DNN產(chǎn)生[17]。DNN的輸入層為當(dāng)前幀與前后5幀,共11幀的特征拼接。實(shí)驗(yàn)中識(shí)別所用的特征均為40維的MFCC增強(qiáng)特征(Enhanced MFCC features,EMFCC)。EMFCC特征是對(duì)MFCC特征進(jìn)行倒譜均值歸一化處理后,將當(dāng)前幀的13維MFCC特征與前后3幀的13維MFCC進(jìn)行拼接,再使用線性判別分析投射到40維并進(jìn)行最大似然線性轉(zhuǎn)換后而得到,研究表明,使用相鄰語音幀的信息可顯著提高識(shí)別準(zhǔn)確率[18];因此,實(shí)驗(yàn)中DNN的輸入層節(jié)點(diǎn)個(gè)數(shù)為40×11=440個(gè)節(jié)點(diǎn)。

2 實(shí)驗(yàn)與分析

2.1 數(shù)據(jù)集

本文使用的數(shù)據(jù)集是基于清華大學(xué)發(fā)布的THCHS-30普通話語音數(shù)據(jù)集[12]構(gòu)造的,數(shù)據(jù)集描述見表1。THCHS-30數(shù)據(jù)集提供了白噪聲、汽車噪聲、咖啡館噪聲三種較有代表性的噪聲,在本文實(shí)驗(yàn)中,為了進(jìn)一步擴(kuò)充代表性噪聲類別,在這三種噪聲的基礎(chǔ)上增加了飛機(jī)噪聲(噪聲來源:真實(shí)飛機(jī)噪聲)。另外出于驗(yàn)證模型泛化性的考慮,選取了超市噪聲(噪 聲 來 源:http://sc.chinaz.com/yinxiao/161122278270.htm)作為測(cè)試噪聲。

圖3 DNN-HMM聲學(xué)模型Fig.3 DNN-HMM acoustic model

表1 實(shí)驗(yàn)所用數(shù)據(jù)集Tab.1 Dataset used in experiment

實(shí)驗(yàn)數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分。訓(xùn)練集包括6種訓(xùn)練語料:train_clean即為THCHS-3數(shù)據(jù)集中提供的無噪聲訓(xùn)練集;train_white、train_car、train_cafe、train_plane 分別由該無噪聲訓(xùn)練集與白噪聲、汽車噪聲、咖啡館噪聲和飛機(jī)噪聲按照信噪比為零進(jìn)行混合得到;最后的train_mix5訓(xùn)練集中的每個(gè)音頻則是隨機(jī)選擇不混合噪聲或是與上述4種噪聲中的任意一種按照信噪比為零進(jìn)行混合得到。測(cè)試集包含兩類語料:test_mix5是將THCHS-30數(shù)據(jù)集中的無噪聲測(cè)試集每個(gè)音頻隨機(jī)選擇不混合噪聲或是與上述4種噪聲中的任意一種按照信噪比為零進(jìn)行混合;test_market則是將該無噪聲測(cè)試集每個(gè)音頻與超市噪聲按照信噪比為零進(jìn)行混合得到。訓(xùn)練集音頻包含10 000個(gè)句子,時(shí)長(zhǎng)約25 h,測(cè)試集音頻包含2495個(gè)句子,時(shí)長(zhǎng)約 6.25 h。

2.2 含噪語音分類

詞袋模型中碼本包含的單詞數(shù)量k直接影響了表達(dá)能力,從而影響分類準(zhǔn)確率。為了達(dá)到較好的分類效果,k取值通常趨于龐大,同時(shí)k值的設(shè)置通常隨著目標(biāo)類別的增加而加大。

為了研究k的取值對(duì)本文提出的含噪語音分類模型的分類準(zhǔn)確率的影響,分別從 train_white、train_car、train_cafe、train_plane、train_clean中選取前1000個(gè)含噪語音,組成包含5000個(gè)含噪語音的訓(xùn)練集。考慮到本文目標(biāo)類別僅設(shè)置了5類,將測(cè)試 k 值分別設(shè)置為 8、16、32、64、128、256、512,按照?qǐng)D2所示的訓(xùn)練過程分別訓(xùn)練這7種k取值下的含噪語音分類模型。

上述5個(gè)數(shù)據(jù)集在各個(gè)k值的含噪語音分類模型下的分類準(zhǔn)確率以及5類噪聲環(huán)境(包括4類噪聲環(huán)境和無噪聲情況)下語音在各個(gè)k值的含噪語音分類模型下的平均分類準(zhǔn)確率如圖4所示。圖4結(jié)果顯示:1)除無噪聲環(huán)境以外的其他4類噪聲環(huán)境分類準(zhǔn)確率僅在k=8時(shí)差距較大,隨著k值增加差距縮小,在k=64時(shí)達(dá)到最高,同時(shí)趨于平穩(wěn)。2)無噪聲語音的分類準(zhǔn)確率明顯低于其他4類噪聲環(huán)境,當(dāng)k=128時(shí),分類準(zhǔn)確率比其他4類的平均低了15.3%,而當(dāng)k增加到256、512時(shí),準(zhǔn)確率略微回升。

圖4 分類準(zhǔn)確率隨k值變化Fig.4 Change of classification accuracy with k value

通過分析噪聲分類準(zhǔn)確率混淆矩陣(如表2所示),發(fā)現(xiàn)無噪聲語音易被誤分到咖啡館噪聲和汽車噪聲中,這種現(xiàn)象可能是由于無噪聲音頻不具備明顯特征導(dǎo)致,混有其他噪聲的音頻既具有噪聲的顯著特征,也具有音頻本身的特征,而無噪聲音頻僅具有音頻本身的特征,導(dǎo)致其易于與含噪音頻發(fā)生混淆。

表2 k=128時(shí)含噪語音分類準(zhǔn)確率混淆矩陣 %Tab.2 Obfuscation matrix of noisy speech classification accuracy with k=128 %

2.3 DNN 參數(shù)

本文選取白噪聲、汽車噪聲、咖啡館噪聲、飛機(jī)噪聲和無噪聲這五種較有代表性的噪聲環(huán)境進(jìn)行實(shí)驗(yàn),基于從train_white、train_car、train_cafe、train_plane、train_clean 訓(xùn)練集中提取的EMFCC特征分別訓(xùn)練這五類噪聲環(huán)境下的DNN-HMM聲學(xué)模型。

出于最優(yōu)化DNN-HMM聲學(xué)模型識(shí)別準(zhǔn)確率的考慮,本文對(duì)DNN的超參數(shù)進(jìn)行實(shí)驗(yàn),設(shè)立了若干組DNN關(guān)于隱層數(shù)和節(jié)點(diǎn)數(shù)的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)在每類噪聲環(huán)境下各訓(xùn)練了16個(gè)DNN-HMM聲學(xué)模型,聲學(xué)模型中DNN的隱層個(gè)數(shù)分別設(shè)置為2至9,隱層節(jié)點(diǎn)個(gè)數(shù)分別設(shè)置為1024和2048。由于2.2節(jié)實(shí)驗(yàn)可知,含噪語音分類模型在碼本單詞量k為64時(shí)分類準(zhǔn)確率最高,因此本節(jié)層級(jí)語音識(shí)別模型中上層含噪語音分類模型的k值取64。

實(shí)驗(yàn)基于test_mix5數(shù)據(jù)集對(duì)16組DNN-HMM聲學(xué)模型進(jìn)行測(cè)試,結(jié)果如圖5所示。由圖5可以看出,通常情況下,DNN-HMM聲學(xué)模型中DNN的隱層個(gè)數(shù)相同時(shí),隱層節(jié)點(diǎn)個(gè)數(shù)為2048時(shí)WER更低,說明一定范圍下提升隱層節(jié)點(diǎn)個(gè)數(shù)有助于提高識(shí)別準(zhǔn)確率;同時(shí),WER在DNN隱層為5層時(shí)達(dá)到最低,在隱層個(gè)數(shù)進(jìn)一步增加時(shí),WER急劇增加,說明過多的隱層易導(dǎo)致過擬合,削弱模型在測(cè)試集上的表現(xiàn)。

圖5 詞錯(cuò)率隨隱層個(gè)數(shù)和節(jié)點(diǎn)個(gè)數(shù)的變化Fig.5 Change of WER with numbers of hidden layers and nodes

一般認(rèn)為通過增加隱層節(jié)點(diǎn)個(gè)數(shù)來降低誤差,其訓(xùn)練效果較增加隱層個(gè)數(shù)好。因此,在隱層個(gè)數(shù)為5時(shí),增加一組節(jié)點(diǎn)個(gè)數(shù)為4096的實(shí)驗(yàn),在隱層個(gè)數(shù)為5,隱層節(jié)點(diǎn)個(gè)數(shù)分別為1024、2048和4 096 時(shí),詞錯(cuò)率分別為 48,9%、48.47%和48.38%,由此可見,在節(jié)點(diǎn)個(gè)數(shù)繼續(xù)提升的情況下,識(shí)別誤差可達(dá)到更低。因而進(jìn)一步對(duì)這三種隱層節(jié)點(diǎn)個(gè)數(shù)下的DNN-HMM模型的訓(xùn)練耗時(shí)進(jìn)行了統(tǒng)計(jì),在節(jié)點(diǎn)個(gè)數(shù)為1024、2048、4096下模型的訓(xùn)練總時(shí)長(zhǎng)分別為123 277 s、328 747 s、1112785 s。

以節(jié)點(diǎn)個(gè)數(shù)為1024時(shí)的WER和耗時(shí)作為基準(zhǔn),得到隱層個(gè)數(shù)為5,節(jié)點(diǎn)個(gè)數(shù)分別為1024、2048、4096的DNN-HMM聲學(xué)模型的識(shí)別WER和模型耗時(shí)的變化趨勢(shì)如圖6所示。由圖6所示,節(jié)點(diǎn)個(gè)數(shù)從2048增加到4096,WER降低甚小,但是模型訓(xùn)練耗時(shí)卻顯著增加。因此,綜合WER和模型訓(xùn)練耗時(shí),本文實(shí)驗(yàn)中,層級(jí)語音識(shí)別模型DNN-HMM聲學(xué)模型在DNN隱層個(gè)數(shù)為5、隱層節(jié)點(diǎn)個(gè)數(shù)為2 048時(shí)模型表現(xiàn)最優(yōu)。

圖6 節(jié)點(diǎn)個(gè)數(shù)對(duì)WER和耗時(shí)的影響Fig.6 Influence of node number on WER and time consuming

2.4 結(jié)果分析

層級(jí)語音識(shí)別模型的實(shí)驗(yàn)數(shù)據(jù)來源于THCHS-30數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果表明層級(jí)語音識(shí)別模型在白噪聲和汽車噪聲環(huán)境下,識(shí)別誤差率較文獻(xiàn)[12]模型相對(duì)降低了14.0%和0.78%,說明含噪語音通過本文提出的層級(jí)語音識(shí)別模型能得到更好的處理。

實(shí)驗(yàn)對(duì)層級(jí)語音識(shí)別模型的兩層結(jié)構(gòu)進(jìn)行研究,分別研究了含噪語音分類模型的優(yōu)化和特定噪聲環(huán)境下聲學(xué)模型的優(yōu)化,結(jié)果顯示含噪語音分類模型最優(yōu)分類準(zhǔn)確率可達(dá)到97.28%,實(shí)現(xiàn)了含噪語音的正確噪聲環(huán)境分類,而層級(jí)語音識(shí)別模型在多個(gè)噪聲環(huán)境下的語音中的識(shí)別表現(xiàn)也明顯優(yōu)于常見的多類型訓(xùn)練方案,證明了噪聲環(huán)境分類對(duì)語音識(shí)別任務(wù)準(zhǔn)確率提高的有效性和可行性。

在此基礎(chǔ)上,對(duì)比實(shí)驗(yàn)研究進(jìn)一步驗(yàn)證了本文模型的可行性。

1)與GMM-HMM比較。

作為比較,實(shí)驗(yàn)將基于train_mix5數(shù)據(jù)集提取出EMFCC特征多類型訓(xùn)練[14]得到的GMM-HMM聲學(xué)模型作為基準(zhǔn)模型,test_mix5數(shù)據(jù)集在基準(zhǔn)模型上的WER為60.79%,本文提出的層級(jí)語音識(shí)別模型較該基準(zhǔn)模型識(shí)別誤差率相對(duì)降低20.3% 。

2)與無噪聲分類比較。

為了進(jìn)一步說明噪聲環(huán)境分類對(duì)含噪語音識(shí)別任務(wù)的有效性,基于train_mix5數(shù)據(jù)集提取的EMFCC特征訓(xùn)練得到一個(gè)DNN隱層個(gè)數(shù)為5、節(jié)點(diǎn)個(gè)數(shù)為2048的DNN-HMM模型,test_mix5在該模型上的WER為51.50%,層級(jí)語音模型較該模型的WER相對(duì)降低了5.9%,說明噪聲環(huán)境分類可有效提高含噪語音的識(shí)別準(zhǔn)確率。

3)泛化性實(shí)驗(yàn)比較。

本文提出的層級(jí)語音識(shí)別模型考慮了五類較有代表性的噪聲環(huán)境。實(shí)際應(yīng)用中,當(dāng)處理一類新噪聲下的含噪語音時(shí),該模型會(huì)將其劃分到五類噪聲環(huán)境中與其最相似的一類噪聲環(huán)境中,以此來減小模型訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的差異,使得模型更適應(yīng)數(shù)據(jù),從而提高識(shí)別準(zhǔn)確率。

為了驗(yàn)證本文所提出的層級(jí)語音識(shí)別模型的現(xiàn)實(shí)可行性,實(shí)驗(yàn)以含超市噪聲的test_market數(shù)據(jù)集作為測(cè)試集,從分析上發(fā)現(xiàn)超市噪聲對(duì)語音的干擾程度很大。實(shí)驗(yàn)研究比較了層級(jí)語音識(shí)別模型與基準(zhǔn)模型對(duì)超市語音識(shí)別的結(jié)果,層級(jí)語音識(shí)別模型下的WER較基準(zhǔn)模型相對(duì)降低了2.12%。

3 結(jié)語

本文提出了由含噪語音分類模型和特定噪聲下聲學(xué)模型這兩層構(gòu)成的層級(jí)語音識(shí)別模型,避免了特征空間去噪研究對(duì)含噪語音噪聲穩(wěn)定性的限制,對(duì)噪聲本身不作要求,通過噪聲環(huán)境分類和特定環(huán)境下聲學(xué)模型減小了含噪語音與聲學(xué)模型訓(xùn)練集的差異,解決了多類型訓(xùn)練[14]導(dǎo)致的某類噪聲下語音識(shí)別準(zhǔn)確率降低的問題,更進(jìn)一步通過神經(jīng)網(wǎng)絡(luò)提高了識(shí)別準(zhǔn)確率。

在未知噪聲(超市噪聲)上對(duì)層級(jí)語音識(shí)別模型進(jìn)行驗(yàn)證,結(jié)果顯示在層級(jí)語音識(shí)別模型的WER較基準(zhǔn)模型相對(duì)有一定的降低。但進(jìn)一步的實(shí)驗(yàn)研究發(fā)現(xiàn):該超市噪聲的數(shù)據(jù)在多環(huán)境訓(xùn)練得到的DNN-HMM聲學(xué)模型下的WER略微優(yōu)于本文的層級(jí)語音識(shí)別模型。因此,為了進(jìn)一步優(yōu)化本文的層級(jí)語音識(shí)別模型,考慮在后續(xù)實(shí)驗(yàn)中設(shè)立噪聲環(huán)境分類閾值,來劃分最相似噪聲環(huán)境。模型結(jié)構(gòu)上在五類噪聲環(huán)境下聲學(xué)模型的基礎(chǔ)上,增加一類由五種噪聲環(huán)境下數(shù)據(jù)進(jìn)行多環(huán)境訓(xùn)練得到的聲學(xué)模型。在含噪語音分類模型中,只有當(dāng)某混噪語音的噪音類型與一類噪聲的相似度大于閾值時(shí),才由該類噪聲下的聲學(xué)模型對(duì)其進(jìn)行識(shí)別,否則將其歸類到多類型訓(xùn)練得到的聲學(xué)模型進(jìn)行識(shí)別。

信噪比為零情況下,是較強(qiáng)噪聲干擾下的語音識(shí)別任務(wù)。本文僅針對(duì)信噪比為零下的含噪語音進(jìn)行研究,實(shí)驗(yàn)結(jié)果表明層級(jí)語音識(shí)別模型在信噪比為零下的含噪語音識(shí)別任務(wù)中較常見多類型訓(xùn)練方法取得了較大改進(jìn);但隨著信噪比進(jìn)一步降低,層級(jí)語音識(shí)別模型的兩層結(jié)構(gòu)含噪語音分類模型和特定噪聲環(huán)境下聲學(xué)模型的反應(yīng)相異,理論上噪聲干擾越大,分類模型準(zhǔn)確率越好,但聲學(xué)模型的識(shí)別準(zhǔn)確率則會(huì)有較大程度的降低,因此對(duì)信噪比更低情況下的語音識(shí)別任務(wù),有待進(jìn)一步的實(shí)驗(yàn)研究。

綜上所述,在現(xiàn)階段,本文提出的層級(jí)語音識(shí)別模型可在已知多噪聲環(huán)境下的語音識(shí)別任務(wù)中取得較好表現(xiàn),并不受限于干擾噪聲的穩(wěn)定性。在后續(xù)的研究中,我們會(huì)根據(jù)上述實(shí)驗(yàn)計(jì)劃和改進(jìn)策略對(duì)模型進(jìn)行進(jìn)一步的實(shí)驗(yàn)優(yōu)化,使其能夠在未知噪聲環(huán)境下和更低信噪比下的語音識(shí)別任務(wù)中取得更好的表現(xiàn)。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 性69交片免费看| 最新无码专区超级碰碰碰| 免费毛片全部不收费的| 大乳丰满人妻中文字幕日本| 91麻豆国产精品91久久久| 91九色最新地址| 色妞永久免费视频| 国产91线观看| 日本高清成本人视频一区| 国产人妖视频一区在线观看| 野花国产精品入口| 东京热av无码电影一区二区| 人妻无码一区二区视频| 狠狠色综合久久狠狠色综合| 91精品专区| 国产精欧美一区二区三区| 啦啦啦网站在线观看a毛片| 一本综合久久| 99国产在线视频| 国产理论精品| 久久亚洲AⅤ无码精品午夜麻豆| 亚洲AV成人一区国产精品| 丁香婷婷在线视频| 99在线视频免费| 亚洲啪啪网| 国产清纯在线一区二区WWW| 国产欧美精品午夜在线播放| 秋霞一区二区三区| 日韩东京热无码人妻| 99热这里只有精品2| 国产成人高清精品免费| 极品av一区二区| 久久综合九九亚洲一区| 四虎亚洲精品| 欧美精品一区在线看| 狠狠色丁婷婷综合久久| www亚洲天堂| 国产成人综合久久精品尤物| 国产日韩av在线播放| 久996视频精品免费观看| 亚洲国产精品无码久久一线| 成人一区在线| 免费视频在线2021入口| 在线日韩日本国产亚洲| 免费高清毛片| 久久综合丝袜长腿丝袜| 永久免费无码日韩视频| 青青国产成人免费精品视频| 中文字幕资源站| 亚洲一区毛片| 一级在线毛片| 亚洲天堂久久| 激情影院内射美女| 国产十八禁在线观看免费| 亚洲人成日本在线观看| 国产精品综合久久久| 天天综合网色| 中文字幕有乳无码| 日韩高清无码免费| 欧美色综合网站| 国产成人a毛片在线| 久久久久无码精品| 97久久超碰极品视觉盛宴| 91偷拍一区| 亚洲第一黄色网| 国产黄在线观看| 欧美五月婷婷| 色爽网免费视频| 日韩成人午夜| 青草视频网站在线观看| 69综合网| 香蕉久久国产超碰青草| 亚洲精品老司机| 亚洲第一成人在线| 亚洲三级电影在线播放| 亚洲无码视频喷水| 国产精品香蕉在线观看不卡| 日韩在线欧美在线| 国内精品视频| 青青草原偷拍视频| 99这里只有精品免费视频| 亚洲乱码在线播放|