多噪聲環(huán)境下的層級(jí)語音識(shí)別模型

2018-08-28 08:53:02曹晶晶許潔萍邵聖淇

計(jì)算機(jī)應(yīng)用 2018年6期

關(guān)鍵詞：分類模型

曹晶晶，許潔萍，邵聖淇

(中國(guó)人民大學(xué)信息學(xué)院，北京100872)

(*通信作者電子郵箱xjieping@ruc.edu.cn)

0 引言

目前關(guān)于噪聲魯棒性的語音識(shí)別技術(shù)研究可劃分為特征空間和模型空間兩個(gè)方面［1］，特征空間的研究不對(duì)模型參數(shù)進(jìn)行調(diào)整，而模型空間的研究通過調(diào)整模型參數(shù)從而增強(qiáng)魯棒性。

特征空間的研究從語音特征的角度出發(fā)，對(duì)語音特征進(jìn)行增強(qiáng)即降低噪聲或是噪聲消減，特征映射技術(shù)［2－3］是為了降低噪聲，該技術(shù)主要研究?jī)深?一是帶噪聲特征到無噪聲特征的映射［2］;二是頻域上，帶噪聲信號(hào)到無噪聲信號(hào)的映射［3］。噪聲消減技術(shù)是通過估計(jì)噪聲信號(hào)的頻域能量將噪聲信號(hào)從源信號(hào)中減去從而達(dá)到消除噪聲的目的［4］，文獻(xiàn)［5］研究了對(duì)含噪音頻進(jìn)行降低噪聲的方法，完成了在0 dB白噪聲、汽車噪聲、咖啡館噪聲下的語音識(shí)別研究，其識(shí)別詞錯(cuò)率(Word Error Rate，WER)在汽車噪聲環(huán)境下表現(xiàn)最佳，為32.13%，但在白噪聲和咖啡館噪聲下識(shí)別 WER高達(dá)75.01%和56.37%，并且此種方法針對(duì)穩(wěn)定噪聲，不適用于噪聲不穩(wěn)定的情況。

對(duì)模型空間的研究是通過調(diào)整聲學(xué)模型的參數(shù)來整合噪聲的影響［1］。多類型訓(xùn)練［6］是模型空間研究的一個(gè)常用方法，該方法基于多類噪聲音頻訓(xùn)練聲學(xué)模型，但是由于訓(xùn)練數(shù)據(jù)噪聲類型多，聲學(xué)模型的參數(shù)需要適應(yīng)各類噪聲環(huán)境，導(dǎo)致在某些噪聲下性能可能下降。高斯混合模型隱馬爾可夫模型(Gaussian Mixture Model-Hidden Markov Model，GMMHMM)［7］混合模型是語音識(shí)別的主導(dǎo)聲學(xué)模型［8］，隨著深度學(xué)習(xí)的興起，深度神經(jīng)網(wǎng)絡(luò)也被應(yīng)用到聲學(xué)模型建模中［8－9］，并取得了良好的成效。近年來特征空間和模型空間的研究都引入了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network，DNN)，有學(xué)者提出混合模型，同時(shí)在特征空間和模型空間進(jìn)行參數(shù)調(diào)整。文獻(xiàn)［10］從降低噪聲角度出發(fā)，提出了一個(gè)基于DNN的聯(lián)合訓(xùn)練語音識(shí)別模型，前端使用DNN進(jìn)行特征映射降低噪聲，后端使用深度神經(jīng)網(wǎng)絡(luò) 隱馬爾可夫模型(DNN-HMM)作為聲學(xué)模型，將前端特征映射的DNN與后端聲學(xué)模型的DNN調(diào)參過程相結(jié)合，即識(shí)別的誤差會(huì)對(duì)特征映射部分DNN的參數(shù)產(chǎn)生影響，在訓(xùn)練集含噪語音信噪比為10 dB～15 dB、測(cè)試集信噪比為5 dB～15 dB的實(shí)驗(yàn)下取得了良好的成效，但對(duì)信噪比更小的情況下(如0 dB)，沒有進(jìn)行實(shí)驗(yàn)研究。過往的研究［5］表明信噪比小、噪聲類型干擾大的情況下，降噪和消噪技術(shù)難以取得好效果。

環(huán)境噪聲由于產(chǎn)生場(chǎng)所或者干擾因素的不同有若干類別，比如咖啡館噪聲、辦公室噪聲、飛機(jī)噪聲等。不同類別的環(huán)境噪聲差異較大，對(duì)語音信號(hào)的干擾也有很大差別，環(huán)境噪聲分類的研究已取得良好的效果［11－12］。

本文提出了將環(huán)境噪聲作為語音識(shí)別上下文考慮的層級(jí)語音識(shí)別模型，將噪聲分類與語音識(shí)別相結(jié)合，探討了含噪語音分類對(duì)多噪聲環(huán)境語音識(shí)別的影響。模型選取有代表性的五類噪聲環(huán)境，旨在使含噪音頻由與其噪聲最相似的噪聲環(huán)境下的聲學(xué)模型進(jìn)行識(shí)別，從而提高聲學(xué)模型對(duì)含噪音頻的適應(yīng)度，提高識(shí)別準(zhǔn)確率。

層級(jí)語音識(shí)別模型分為上下兩層，上層采用詞袋(Bag-of-Words，BOW)模型［13］和支持向量機(jī)(Support Vector Machine，SVM)［14］進(jìn)行噪聲語音分類，下層采用深度神經(jīng)網(wǎng)絡(luò) 隱馬爾可夫模型(DNN-HMM)作為各環(huán)境噪聲下的聲學(xué)模型。現(xiàn)有降噪方法在處理較穩(wěn)定且類型單一的噪聲上有所改進(jìn)，但在處理多類型噪聲上，易導(dǎo)致在某些噪聲環(huán)境下處理效果較差，本文模型避免了現(xiàn)有降噪方法在分離噪聲和語音上的問題，消除了特征空間研究中對(duì)噪聲穩(wěn)定性的限制要求，從模型空間出發(fā)，不限制噪聲穩(wěn)定性，既通過噪聲分類以尋找最相似噪聲環(huán)境解決了多類型訓(xùn)練的弊端，又通過特定噪聲環(huán)境下聲學(xué)模型減少了含噪音頻與聲學(xué)模型的訓(xùn)練數(shù)據(jù)的差異。在此基礎(chǔ)上，本文探討了在語音識(shí)別任務(wù)之前進(jìn)行噪聲環(huán)境分類的有效性以及如何設(shè)置模型超參數(shù)以提高識(shí)別的準(zhǔn)確率。

1 層級(jí)語音識(shí)別模型

1.1 總框架

層級(jí)語音識(shí)別模型的結(jié)構(gòu)如圖1所示。該模型旨在將環(huán)境噪聲作為語音上下文信息來輔助語音識(shí)別，針對(duì)不同類別的噪聲構(gòu)建特定噪聲下的聲學(xué)模型，使得每類噪聲環(huán)境下的聲學(xué)模型的參數(shù)更適應(yīng)該類噪聲。對(duì)于含噪語音，首先區(qū)分其噪聲所屬類別，再通過與該噪聲最為相似的噪聲類別下的聲學(xué)模型進(jìn)行識(shí)別。

圖1 層級(jí)語音識(shí)別模型總框架Fig.1 General framework of hierarchical speech recognition model

1.2 含噪語音分類模型

環(huán)境噪聲與說話人語音的區(qū)別在于，說話人語音只有一個(gè)來源，而環(huán)境噪聲的聲音來源是多方的［11］。比如咖啡館的環(huán)境噪聲可能包含來自各個(gè)方向的客人的說話聲、人來回走動(dòng)的聲音、杯子勺子碰撞的聲音、鍵盤敲擊聲等噪聲。噪聲包含元素復(fù)雜，因此，噪聲分類的基礎(chǔ)是更好地表示噪聲。

BOW模型是一種常見的通過碼本來表示文檔、圖像、音頻的方法，通過稀疏化特征從而更好地表示目標(biāo)。它起初被用于文檔分類［13］中，基本思想是構(gòu)建一個(gè)碼本，其中包含若干詞匯，將每個(gè)文檔看作碼本中詞匯的集合，通過詞匯的分布來對(duì)文檔進(jìn)行分類。由于BOW模型的有效性，它在圖像和音頻的分類［15－16］中也得到廣泛應(yīng)用。

本文將BOW模型應(yīng)用于含噪語音分類模型中，訓(xùn)練過程如圖2所示。首先對(duì)訓(xùn)練集中的含噪音頻的梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients，MFCC)特征進(jìn)行k-means聚類，形成k=N的碼本。接著對(duì)于每個(gè)含噪語音音頻，通過計(jì)算其每一幀的MFCC特征與碼本中單詞MFCC特征的距離來判斷該幀屬于哪一個(gè)單詞，統(tǒng)計(jì)音頻對(duì)應(yīng)單詞的個(gè)數(shù)，從而形成這個(gè)音頻關(guān)于碼本的直方圖向量。這樣，每一個(gè)音頻都得到一個(gè)關(guān)于碼本的N維直方圖向量。用向量對(duì)〈直方圖向量，噪聲類別〉訓(xùn)練SVM，從而得到含噪語音分類模型。

圖2 含噪語音分類模型的訓(xùn)練Fig.2 Training of noisy speech classification model

1.3 DNN-HMM 聲學(xué)模型

本文使用的DNN-HMM聲學(xué)模型如圖3所示。

在DNN-HMM聲學(xué)模型中，HMM狀態(tài)的后驗(yàn)概率由DNN產(chǎn)生［17］。DNN的輸入層為當(dāng)前幀與前后5幀，共11幀的特征拼接。實(shí)驗(yàn)中識(shí)別所用的特征均為40維的MFCC增強(qiáng)特征(Enhanced MFCC features，EMFCC)。EMFCC特征是對(duì)MFCC特征進(jìn)行倒譜均值歸一化處理后，將當(dāng)前幀的13維MFCC特征與前后3幀的13維MFCC進(jìn)行拼接，再使用線性判別分析投射到40維并進(jìn)行最大似然線性轉(zhuǎn)換后而得到，研究表明，使用相鄰語音幀的信息可顯著提高識(shí)別準(zhǔn)確率［18］;因此，實(shí)驗(yàn)中DNN的輸入層節(jié)點(diǎn)個(gè)數(shù)為40×11=440個(gè)節(jié)點(diǎn)。

2 實(shí)驗(yàn)與分析

2.1 數(shù)據(jù)集

本文使用的數(shù)據(jù)集是基于清華大學(xué)發(fā)布的THCHS-30普通話語音數(shù)據(jù)集［12］構(gòu)造的，數(shù)據(jù)集描述見表1。THCHS-30數(shù)據(jù)集提供了白噪聲、汽車噪聲、咖啡館噪聲三種較有代表性的噪聲，在本文實(shí)驗(yàn)中，為了進(jìn)一步擴(kuò)充代表性噪聲類別，在這三種噪聲的基礎(chǔ)上增加了飛機(jī)噪聲(噪聲來源:真實(shí)飛機(jī)噪聲)。另外出于驗(yàn)證模型泛化性的考慮，選取了超市噪聲(噪聲來源:http://sc.chinaz.com/yinxiao/161122278270.htm)作為測(cè)試噪聲。

圖3 DNN-HMM聲學(xué)模型Fig.3 DNN-HMM acoustic model

表1 實(shí)驗(yàn)所用數(shù)據(jù)集Tab.1 Dataset used in experiment

實(shí)驗(yàn)數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分。訓(xùn)練集包括6種訓(xùn)練語料:train_clean即為THCHS-3數(shù)據(jù)集中提供的無噪聲訓(xùn)練集;train_white、train_car、train_cafe、train_plane 分別由該無噪聲訓(xùn)練集與白噪聲、汽車噪聲、咖啡館噪聲和飛機(jī)噪聲按照信噪比為零進(jìn)行混合得到;最后的train_mix5訓(xùn)練集中的每個(gè)音頻則是隨機(jī)選擇不混合噪聲或是與上述4種噪聲中的任意一種按照信噪比為零進(jìn)行混合得到。測(cè)試集包含兩類語料:test_mix5是將THCHS-30數(shù)據(jù)集中的無噪聲測(cè)試集每個(gè)音頻隨機(jī)選擇不混合噪聲或是與上述4種噪聲中的任意一種按照信噪比為零進(jìn)行混合;test_market則是將該無噪聲測(cè)試集每個(gè)音頻與超市噪聲按照信噪比為零進(jìn)行混合得到。訓(xùn)練集音頻包含10 000個(gè)句子，時(shí)長(zhǎng)約25 h，測(cè)試集音頻包含2495個(gè)句子，時(shí)長(zhǎng)約 6.25 h。

2.2 含噪語音分類

詞袋模型中碼本包含的單詞數(shù)量k直接影響了表達(dá)能力，從而影響分類準(zhǔn)確率。為了達(dá)到較好的分類效果，k取值通常趨于龐大，同時(shí)k值的設(shè)置通常隨著目標(biāo)類別的增加而加大。

為了研究k的取值對(duì)本文提出的含噪語音分類模型的分類準(zhǔn)確率的影響，分別從 train_white、train_car、train_cafe、train_plane、train_clean中選取前1000個(gè)含噪語音，組成包含5000個(gè)含噪語音的訓(xùn)練集。考慮到本文目標(biāo)類別僅設(shè)置了5類，將測(cè)試 k 值分別設(shè)置為 8、16、32、64、128、256、512，按照?qǐng)D2所示的訓(xùn)練過程分別訓(xùn)練這7種k取值下的含噪語音分類模型。

上述5個(gè)數(shù)據(jù)集在各個(gè)k值的含噪語音分類模型下的分類準(zhǔn)確率以及5類噪聲環(huán)境(包括4類噪聲環(huán)境和無噪聲情況)下語音在各個(gè)k值的含噪語音分類模型下的平均分類準(zhǔn)確率如圖4所示。圖4結(jié)果顯示:1)除無噪聲環(huán)境以外的其他4類噪聲環(huán)境分類準(zhǔn)確率僅在k=8時(shí)差距較大，隨著k值增加差距縮小，在k=64時(shí)達(dá)到最高，同時(shí)趨于平穩(wěn)。2)無噪聲語音的分類準(zhǔn)確率明顯低于其他4類噪聲環(huán)境，當(dāng)k=128時(shí)，分類準(zhǔn)確率比其他4類的平均低了15.3%，而當(dāng)k增加到256、512時(shí)，準(zhǔn)確率略微回升。

圖4 分類準(zhǔn)確率隨k值變化Fig.4 Change of classification accuracy with k value

通過分析噪聲分類準(zhǔn)確率混淆矩陣(如表2所示)，發(fā)現(xiàn)無噪聲語音易被誤分到咖啡館噪聲和汽車噪聲中，這種現(xiàn)象可能是由于無噪聲音頻不具備明顯特征導(dǎo)致，混有其他噪聲的音頻既具有噪聲的顯著特征，也具有音頻本身的特征，而無噪聲音頻僅具有音頻本身的特征，導(dǎo)致其易于與含噪音頻發(fā)生混淆。

表2 k=128時(shí)含噪語音分類準(zhǔn)確率混淆矩陣 %Tab.2 Obfuscation matrix of noisy speech classification accuracy with k=128 %

2.3 DNN 參數(shù)

本文選取白噪聲、汽車噪聲、咖啡館噪聲、飛機(jī)噪聲和無噪聲這五種較有代表性的噪聲環(huán)境進(jìn)行實(shí)驗(yàn)，基于從train_white、train_car、train_cafe、train_plane、train_clean 訓(xùn)練集中提取的EMFCC特征分別訓(xùn)練這五類噪聲環(huán)境下的DNN-HMM聲學(xué)模型。

出于最優(yōu)化DNN-HMM聲學(xué)模型識(shí)別準(zhǔn)確率的考慮，本文對(duì)DNN的超參數(shù)進(jìn)行實(shí)驗(yàn)，設(shè)立了若干組DNN關(guān)于隱層數(shù)和節(jié)點(diǎn)數(shù)的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)在每類噪聲環(huán)境下各訓(xùn)練了16個(gè)DNN-HMM聲學(xué)模型，聲學(xué)模型中DNN的隱層個(gè)數(shù)分別設(shè)置為2至9，隱層節(jié)點(diǎn)個(gè)數(shù)分別設(shè)置為1024和2048。由于2.2節(jié)實(shí)驗(yàn)可知，含噪語音分類模型在碼本單詞量k為64時(shí)分類準(zhǔn)確率最高，因此本節(jié)層級(jí)語音識(shí)別模型中上層含噪語音分類模型的k值取64。

實(shí)驗(yàn)基于test_mix5數(shù)據(jù)集對(duì)16組DNN-HMM聲學(xué)模型進(jìn)行測(cè)試，結(jié)果如圖5所示。由圖5可以看出，通常情況下，DNN-HMM聲學(xué)模型中DNN的隱層個(gè)數(shù)相同時(shí)，隱層節(jié)點(diǎn)個(gè)數(shù)為2048時(shí)WER更低，說明一定范圍下提升隱層節(jié)點(diǎn)個(gè)數(shù)有助于提高識(shí)別準(zhǔn)確率;同時(shí)，WER在DNN隱層為5層時(shí)達(dá)到最低，在隱層個(gè)數(shù)進(jìn)一步增加時(shí)，WER急劇增加，說明過多的隱層易導(dǎo)致過擬合，削弱模型在測(cè)試集上的表現(xiàn)。

圖5 詞錯(cuò)率隨隱層個(gè)數(shù)和節(jié)點(diǎn)個(gè)數(shù)的變化Fig.5 Change of WER with numbers of hidden layers and nodes

一般認(rèn)為通過增加隱層節(jié)點(diǎn)個(gè)數(shù)來降低誤差，其訓(xùn)練效果較增加隱層個(gè)數(shù)好。因此，在隱層個(gè)數(shù)為5時(shí)，增加一組節(jié)點(diǎn)個(gè)數(shù)為4096的實(shí)驗(yàn)，在隱層個(gè)數(shù)為5，隱層節(jié)點(diǎn)個(gè)數(shù)分別為1024、2048和4 096 時(shí)，詞錯(cuò)率分別為 48，9%、48.47%和48.38%，由此可見，在節(jié)點(diǎn)個(gè)數(shù)繼續(xù)提升的情況下，識(shí)別誤差可達(dá)到更低。因而進(jìn)一步對(duì)這三種隱層節(jié)點(diǎn)個(gè)數(shù)下的DNN-HMM模型的訓(xùn)練耗時(shí)進(jìn)行了統(tǒng)計(jì)，在節(jié)點(diǎn)個(gè)數(shù)為1024、2048、4096下模型的訓(xùn)練總時(shí)長(zhǎng)分別為123 277 s、328 747 s、1112785 s。

以節(jié)點(diǎn)個(gè)數(shù)為1024時(shí)的WER和耗時(shí)作為基準(zhǔn)，得到隱層個(gè)數(shù)為5，節(jié)點(diǎn)個(gè)數(shù)分別為1024、2048、4096的DNN-HMM聲學(xué)模型的識(shí)別WER和模型耗時(shí)的變化趨勢(shì)如圖6所示。由圖6所示，節(jié)點(diǎn)個(gè)數(shù)從2048增加到4096，WER降低甚小，但是模型訓(xùn)練耗時(shí)卻顯著增加。因此，綜合WER和模型訓(xùn)練耗時(shí)，本文實(shí)驗(yàn)中，層級(jí)語音識(shí)別模型DNN-HMM聲學(xué)模型在DNN隱層個(gè)數(shù)為5、隱層節(jié)點(diǎn)個(gè)數(shù)為2 048時(shí)模型表現(xiàn)最優(yōu)。

圖6 節(jié)點(diǎn)個(gè)數(shù)對(duì)WER和耗時(shí)的影響Fig.6 Influence of node number on WER and time consuming

2.4 結(jié)果分析

層級(jí)語音識(shí)別模型的實(shí)驗(yàn)數(shù)據(jù)來源于THCHS-30數(shù)據(jù)集，實(shí)驗(yàn)結(jié)果表明層級(jí)語音識(shí)別模型在白噪聲和汽車噪聲環(huán)境下，識(shí)別誤差率較文獻(xiàn)［12］模型相對(duì)降低了14.0%和0.78%，說明含噪語音通過本文提出的層級(jí)語音識(shí)別模型能得到更好的處理。

實(shí)驗(yàn)對(duì)層級(jí)語音識(shí)別模型的兩層結(jié)構(gòu)進(jìn)行研究，分別研究了含噪語音分類模型的優(yōu)化和特定噪聲環(huán)境下聲學(xué)模型的優(yōu)化，結(jié)果顯示含噪語音分類模型最優(yōu)分類準(zhǔn)確率可達(dá)到97.28%，實(shí)現(xiàn)了含噪語音的正確噪聲環(huán)境分類，而層級(jí)語音識(shí)別模型在多個(gè)噪聲環(huán)境下的語音中的識(shí)別表現(xiàn)也明顯優(yōu)于常見的多類型訓(xùn)練方案，證明了噪聲環(huán)境分類對(duì)語音識(shí)別任務(wù)準(zhǔn)確率提高的有效性和可行性。

在此基礎(chǔ)上，對(duì)比實(shí)驗(yàn)研究進(jìn)一步驗(yàn)證了本文模型的可行性。

1)與GMM-HMM比較。

作為比較，實(shí)驗(yàn)將基于train_mix5數(shù)據(jù)集提取出EMFCC特征多類型訓(xùn)練［14］得到的GMM-HMM聲學(xué)模型作為基準(zhǔn)模型，test_mix5數(shù)據(jù)集在基準(zhǔn)模型上的WER為60.79%，本文提出的層級(jí)語音識(shí)別模型較該基準(zhǔn)模型識(shí)別誤差率相對(duì)降低20.3% 。

2)與無噪聲分類比較。

為了進(jìn)一步說明噪聲環(huán)境分類對(duì)含噪語音識(shí)別任務(wù)的有效性，基于train_mix5數(shù)據(jù)集提取的EMFCC特征訓(xùn)練得到一個(gè)DNN隱層個(gè)數(shù)為5、節(jié)點(diǎn)個(gè)數(shù)為2048的DNN-HMM模型，test_mix5在該模型上的WER為51.50%，層級(jí)語音模型較該模型的WER相對(duì)降低了5.9%，說明噪聲環(huán)境分類可有效提高含噪語音的識(shí)別準(zhǔn)確率。

3)泛化性實(shí)驗(yàn)比較。

本文提出的層級(jí)語音識(shí)別模型考慮了五類較有代表性的噪聲環(huán)境。實(shí)際應(yīng)用中，當(dāng)處理一類新噪聲下的含噪語音時(shí)，該模型會(huì)將其劃分到五類噪聲環(huán)境中與其最相似的一類噪聲環(huán)境中，以此來減小模型訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的差異，使得模型更適應(yīng)數(shù)據(jù)，從而提高識(shí)別準(zhǔn)確率。

為了驗(yàn)證本文所提出的層級(jí)語音識(shí)別模型的現(xiàn)實(shí)可行性，實(shí)驗(yàn)以含超市噪聲的test_market數(shù)據(jù)集作為測(cè)試集，從分析上發(fā)現(xiàn)超市噪聲對(duì)語音的干擾程度很大。實(shí)驗(yàn)研究比較了層級(jí)語音識(shí)別模型與基準(zhǔn)模型對(duì)超市語音識(shí)別的結(jié)果，層級(jí)語音識(shí)別模型下的WER較基準(zhǔn)模型相對(duì)降低了2.12%。

3 結(jié)語

本文提出了由含噪語音分類模型和特定噪聲下聲學(xué)模型這兩層構(gòu)成的層級(jí)語音識(shí)別模型，避免了特征空間去噪研究對(duì)含噪語音噪聲穩(wěn)定性的限制，對(duì)噪聲本身不作要求，通過噪聲環(huán)境分類和特定環(huán)境下聲學(xué)模型減小了含噪語音與聲學(xué)模型訓(xùn)練集的差異，解決了多類型訓(xùn)練［14］導(dǎo)致的某類噪聲下語音識(shí)別準(zhǔn)確率降低的問題，更進(jìn)一步通過神經(jīng)網(wǎng)絡(luò)提高了識(shí)別準(zhǔn)確率。

在未知噪聲(超市噪聲)上對(duì)層級(jí)語音識(shí)別模型進(jìn)行驗(yàn)證，結(jié)果顯示在層級(jí)語音識(shí)別模型的WER較基準(zhǔn)模型相對(duì)有一定的降低。但進(jìn)一步的實(shí)驗(yàn)研究發(fā)現(xiàn):該超市噪聲的數(shù)據(jù)在多環(huán)境訓(xùn)練得到的DNN-HMM聲學(xué)模型下的WER略微優(yōu)于本文的層級(jí)語音識(shí)別模型。因此，為了進(jìn)一步優(yōu)化本文的層級(jí)語音識(shí)別模型，考慮在后續(xù)實(shí)驗(yàn)中設(shè)立噪聲環(huán)境分類閾值，來劃分最相似噪聲環(huán)境。模型結(jié)構(gòu)上在五類噪聲環(huán)境下聲學(xué)模型的基礎(chǔ)上，增加一類由五種噪聲環(huán)境下數(shù)據(jù)進(jìn)行多環(huán)境訓(xùn)練得到的聲學(xué)模型。在含噪語音分類模型中，只有當(dāng)某混噪語音的噪音類型與一類噪聲的相似度大于閾值時(shí)，才由該類噪聲下的聲學(xué)模型對(duì)其進(jìn)行識(shí)別，否則將其歸類到多類型訓(xùn)練得到的聲學(xué)模型進(jìn)行識(shí)別。

信噪比為零情況下，是較強(qiáng)噪聲干擾下的語音識(shí)別任務(wù)。本文僅針對(duì)信噪比為零下的含噪語音進(jìn)行研究，實(shí)驗(yàn)結(jié)果表明層級(jí)語音識(shí)別模型在信噪比為零下的含噪語音識(shí)別任務(wù)中較常見多類型訓(xùn)練方法取得了較大改進(jìn);但隨著信噪比進(jìn)一步降低，層級(jí)語音識(shí)別模型的兩層結(jié)構(gòu)含噪語音分類模型和特定噪聲環(huán)境下聲學(xué)模型的反應(yīng)相異，理論上噪聲干擾越大，分類模型準(zhǔn)確率越好，但聲學(xué)模型的識(shí)別準(zhǔn)確率則會(huì)有較大程度的降低，因此對(duì)信噪比更低情況下的語音識(shí)別任務(wù)，有待進(jìn)一步的實(shí)驗(yàn)研究。

綜上所述，在現(xiàn)階段，本文提出的層級(jí)語音識(shí)別模型可在已知多噪聲環(huán)境下的語音識(shí)別任務(wù)中取得較好表現(xiàn)，并不受限于干擾噪聲的穩(wěn)定性。在后續(xù)的研究中，我們會(huì)根據(jù)上述實(shí)驗(yàn)計(jì)劃和改進(jìn)策略對(duì)模型進(jìn)行進(jìn)一步的實(shí)驗(yàn)優(yōu)化，使其能夠在未知噪聲環(huán)境下和更低信噪比下的語音識(shí)別任務(wù)中取得更好的表現(xiàn)。