曹晶晶,許潔萍,邵聖淇
(中國(guó)人民大學(xué)信息學(xué)院,北京100872)
(*通信作者電子郵箱xjieping@ruc.edu.cn)
目前關(guān)于噪聲魯棒性的語音識(shí)別技術(shù)研究可劃分為特征空間和模型空間兩個(gè)方面[1],特征空間的研究不對(duì)模型參數(shù)進(jìn)行調(diào)整,而模型空間的研究通過調(diào)整模型參數(shù)從而增強(qiáng)魯棒性。
特征空間的研究從語音特征的角度出發(fā),對(duì)語音特征進(jìn)行增強(qiáng)即降低噪聲或是噪聲消減,特征映射技術(shù)[2-3]是為了降低噪聲,該技術(shù)主要研究?jī)深?一是帶噪聲特征到無噪聲特征的映射[2];二是頻域上,帶噪聲信號(hào)到無噪聲信號(hào)的映射[3]。噪聲消減技術(shù)是通過估計(jì)噪聲信號(hào)的頻域能量將噪聲信號(hào)從源信號(hào)中減去從而達(dá)到消除噪聲的目的[4],文獻(xiàn)[5]研究了對(duì)含噪音頻進(jìn)行降低噪聲的方法,完成了在0 dB白噪聲、汽車噪聲、咖啡館噪聲下的語音識(shí)別研究,其識(shí)別詞錯(cuò)率(Word Error Rate,WER)在汽車噪聲環(huán)境下表現(xiàn)最佳,為32.13%,但在白噪聲和咖啡館噪聲下識(shí)別 WER高達(dá)75.01%和56.37%,并且此種方法針對(duì)穩(wěn)定噪聲,不適用于噪聲不穩(wěn)定的情況。
對(duì)模型空間的研究是通過調(diào)整聲學(xué)模型的參數(shù)來整合噪聲的影響[1]。多類型訓(xùn)練[6]是模型空間研究的一個(gè)常用方法,該方法基于多類噪聲音頻訓(xùn)練聲學(xué)模型,但是由于訓(xùn)練數(shù)據(jù)噪聲類型多,聲學(xué)模型的參數(shù)需要適應(yīng)各類噪聲環(huán)境,導(dǎo)致在某些噪聲下性能可能下降。高斯混合模型 隱馬爾可夫模型(Gaussian Mixture Model-Hidden Markov Model,GMMHMM)[7]混合模型是語音識(shí)別的主導(dǎo)聲學(xué)模型[8],隨著深度學(xué)習(xí)的興起,深度神經(jīng)網(wǎng)絡(luò)也被應(yīng)用到聲學(xué)模型建模中[8-9],并取得了良好的成效。近年來特征空間和模型空間的研究都引入了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN),有學(xué)者提出混合模型,同時(shí)在特征空間和模型空間進(jìn)行參數(shù)調(diào)整。文獻(xiàn)[10]從降低噪聲角度出發(fā),提出了一個(gè)基于DNN的聯(lián)合訓(xùn)練語音識(shí)別模型,前端使用DNN進(jìn)行特征映射降低噪聲,后端使用深度神經(jīng)網(wǎng)絡(luò) 隱馬爾可夫模型(DNN-HMM)作為聲學(xué)模型,將前端特征映射的DNN與后端聲學(xué)模型的DNN調(diào)參過程相結(jié)合,即識(shí)別的誤差會(huì)對(duì)特征映射部分DNN的參數(shù)產(chǎn)生影響,在訓(xùn)練集含噪語音信噪比為10 dB~15 dB、測(cè)試集信噪比為5 dB~15 dB的實(shí)驗(yàn)下取得了良好的成效,但對(duì)信噪比更小的情況下(如0 dB),沒有進(jìn)行實(shí)驗(yàn)研究。過往的研究[5]表明信噪比小、噪聲類型干擾大的情況下,降噪和消噪技術(shù)難以取得好效果。
環(huán)境噪聲由于產(chǎn)生場(chǎng)所或者干擾因素的不同有若干類別,比如咖啡館噪聲、辦公室噪聲、飛機(jī)噪聲等。不同類別的環(huán)境噪聲差異較大,對(duì)語音信號(hào)的干擾也有很大差別,環(huán)境噪聲分類的研究已取得良好的效果[11-12]。
本文提出了將環(huán)境噪聲作為語音識(shí)別上下文考慮的層級(jí)語音識(shí)別模型,將噪聲分類與語音識(shí)別相結(jié)合,探討了含噪語音分類對(duì)多噪聲環(huán)境語音識(shí)別的影響。模型選取有代表性的五類噪聲環(huán)境,旨在使含噪音頻由與其噪聲最相似的噪聲環(huán)境下的聲學(xué)模型進(jìn)行識(shí)別,從而提高聲學(xué)模型對(duì)含噪音頻的適應(yīng)度,提高識(shí)別準(zhǔn)確率。
層級(jí)語音識(shí)別模型分為上下兩層,上層采用詞袋(Bag-of-Words,BOW)模型[13]和支持向量機(jī)(Support Vector Machine,SVM)[14]進(jìn)行噪聲語音分類,下層采用深度神經(jīng)網(wǎng)絡(luò) 隱馬爾可夫模型(DNN-HMM)作為各環(huán)境噪聲下的聲學(xué)模型。現(xiàn)有降噪方法在處理較穩(wěn)定且類型單一的噪聲上有所改進(jìn),但在處理多類型噪聲上,易導(dǎo)致在某些噪聲環(huán)境下處理效果較差,本文模型避免了現(xiàn)有降噪方法在分離噪聲和語音上的問題,消除了特征空間研究中對(duì)噪聲穩(wěn)定性的限制要求,從模型空間出發(fā),不限制噪聲穩(wěn)定性,既通過噪聲分類以尋找最相似噪聲環(huán)境解決了多類型訓(xùn)練的弊端,又通過特定噪聲環(huán)境下聲學(xué)模型減少了含噪音頻與聲學(xué)模型的訓(xùn)練數(shù)據(jù)的差異。在此基礎(chǔ)上,本文探討了在語音識(shí)別任務(wù)之前進(jìn)行噪聲環(huán)境分類的有效性以及如何設(shè)置模型超參數(shù)以提高識(shí)別的準(zhǔn)確率。
層級(jí)語音識(shí)別模型的結(jié)構(gòu)如圖1所示。該模型旨在將環(huán)境噪聲作為語音上下文信息來輔助語音識(shí)別,針對(duì)不同類別的噪聲構(gòu)建特定噪聲下的聲學(xué)模型,使得每類噪聲環(huán)境下的聲學(xué)模型的參數(shù)更適應(yīng)該類噪聲。對(duì)于含噪語音,首先區(qū)分其噪聲所屬類別,再通過與該噪聲最為相似的噪聲類別下的聲學(xué)模型進(jìn)行識(shí)別。

圖1 層級(jí)語音識(shí)別模型總框架Fig.1 General framework of hierarchical speech recognition model
環(huán)境噪聲與說話人語音的區(qū)別在于,說話人語音只有一個(gè)來源,而環(huán)境噪聲的聲音來源是多方的[11]。比如咖啡館的環(huán)境噪聲可能包含來自各個(gè)方向的客人的說話聲、人來回走動(dòng)的聲音、杯子勺子碰撞的聲音、鍵盤敲擊聲等噪聲。噪聲包含元素復(fù)雜,因此,噪聲分類的基礎(chǔ)是更好地表示噪聲。
BOW模型是一種常見的通過碼本來表示文檔、圖像、音頻的方法,通過稀疏化特征從而更好地表示目標(biāo)。它起初被用于文檔分類[13]中,基本思想是構(gòu)建一個(gè)碼本,其中包含若干詞匯,將每個(gè)文檔看作碼本中詞匯的集合,通過詞匯的分布來對(duì)文檔進(jìn)行分類。由于BOW模型的有效性,它在圖像和音頻的分類[15-16]中也得到廣泛應(yīng)用。
本文將BOW模型應(yīng)用于含噪語音分類模型中,訓(xùn)練過程如圖2所示。首先對(duì)訓(xùn)練集中的含噪音頻的梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)特征進(jìn)行k-means聚類,形成k=N的碼本。接著對(duì)于每個(gè)含噪語音音頻,通過計(jì)算其每一幀的MFCC特征與碼本中單詞MFCC特征的距離來判斷該幀屬于哪一個(gè)單詞,統(tǒng)計(jì)音頻對(duì)應(yīng)單詞的個(gè)數(shù),從而形成這個(gè)音頻關(guān)于碼本的直方圖向量。這樣,每一個(gè)音頻都得到一個(gè)關(guān)于碼本的N維直方圖向量。用向量對(duì)〈直方圖向量,噪聲類別〉訓(xùn)練SVM,從而得到含噪語音分類模型。

圖2 含噪語音分類模型的訓(xùn)練Fig.2 Training of noisy speech classification model
本文使用的DNN-HMM聲學(xué)模型如圖3所示。
在DNN-HMM聲學(xué)模型中,HMM狀態(tài)的后驗(yàn)概率由DNN產(chǎn)生[17]。DNN的輸入層為當(dāng)前幀與前后5幀,共11幀的特征拼接。實(shí)驗(yàn)中識(shí)別所用的特征均為40維的MFCC增強(qiáng)特征(Enhanced MFCC features,EMFCC)。EMFCC特征是對(duì)MFCC特征進(jìn)行倒譜均值歸一化處理后,將當(dāng)前幀的13維MFCC特征與前后3幀的13維MFCC進(jìn)行拼接,再使用線性判別分析投射到40維并進(jìn)行最大似然線性轉(zhuǎn)換后而得到,研究表明,使用相鄰語音幀的信息可顯著提高識(shí)別準(zhǔn)確率[18];因此,實(shí)驗(yàn)中DNN的輸入層節(jié)點(diǎn)個(gè)數(shù)為40×11=440個(gè)節(jié)點(diǎn)。
本文使用的數(shù)據(jù)集是基于清華大學(xué)發(fā)布的THCHS-30普通話語音數(shù)據(jù)集[12]構(gòu)造的,數(shù)據(jù)集描述見表1。THCHS-30數(shù)據(jù)集提供了白噪聲、汽車噪聲、咖啡館噪聲三種較有代表性的噪聲,在本文實(shí)驗(yàn)中,為了進(jìn)一步擴(kuò)充代表性噪聲類別,在這三種噪聲的基礎(chǔ)上增加了飛機(jī)噪聲(噪聲來源:真實(shí)飛機(jī)噪聲)。另外出于驗(yàn)證模型泛化性的考慮,選取了超市噪聲(噪 聲 來 源:http://sc.chinaz.com/yinxiao/161122278270.htm)作為測(cè)試噪聲。

圖3 DNN-HMM聲學(xué)模型Fig.3 DNN-HMM acoustic model

表1 實(shí)驗(yàn)所用數(shù)據(jù)集Tab.1 Dataset used in experiment
實(shí)驗(yàn)數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分。訓(xùn)練集包括6種訓(xùn)練語料:train_clean即為THCHS-3數(shù)據(jù)集中提供的無噪聲訓(xùn)練集;train_white、train_car、train_cafe、train_plane 分別由該無噪聲訓(xùn)練集與白噪聲、汽車噪聲、咖啡館噪聲和飛機(jī)噪聲按照信噪比為零進(jìn)行混合得到;最后的train_mix5訓(xùn)練集中的每個(gè)音頻則是隨機(jī)選擇不混合噪聲或是與上述4種噪聲中的任意一種按照信噪比為零進(jìn)行混合得到。測(cè)試集包含兩類語料:test_mix5是將THCHS-30數(shù)據(jù)集中的無噪聲測(cè)試集每個(gè)音頻隨機(jī)選擇不混合噪聲或是與上述4種噪聲中的任意一種按照信噪比為零進(jìn)行混合;test_market則是將該無噪聲測(cè)試集每個(gè)音頻與超市噪聲按照信噪比為零進(jìn)行混合得到。訓(xùn)練集音頻包含10 000個(gè)句子,時(shí)長(zhǎng)約25 h,測(cè)試集音頻包含2495個(gè)句子,時(shí)長(zhǎng)約 6.25 h。
詞袋模型中碼本包含的單詞數(shù)量k直接影響了表達(dá)能力,從而影響分類準(zhǔn)確率。為了達(dá)到較好的分類效果,k取值通常趨于龐大,同時(shí)k值的設(shè)置通常隨著目標(biāo)類別的增加而加大。
為了研究k的取值對(duì)本文提出的含噪語音分類模型的分類準(zhǔn)確率的影響,分別從 train_white、train_car、train_cafe、train_plane、train_clean中選取前1000個(gè)含噪語音,組成包含5000個(gè)含噪語音的訓(xùn)練集。考慮到本文目標(biāo)類別僅設(shè)置了5類,將測(cè)試 k 值分別設(shè)置為 8、16、32、64、128、256、512,按照?qǐng)D2所示的訓(xùn)練過程分別訓(xùn)練這7種k取值下的含噪語音分類模型。
上述5個(gè)數(shù)據(jù)集在各個(gè)k值的含噪語音分類模型下的分類準(zhǔn)確率以及5類噪聲環(huán)境(包括4類噪聲環(huán)境和無噪聲情況)下語音在各個(gè)k值的含噪語音分類模型下的平均分類準(zhǔn)確率如圖4所示。圖4結(jié)果顯示:1)除無噪聲環(huán)境以外的其他4類噪聲環(huán)境分類準(zhǔn)確率僅在k=8時(shí)差距較大,隨著k值增加差距縮小,在k=64時(shí)達(dá)到最高,同時(shí)趨于平穩(wěn)。2)無噪聲語音的分類準(zhǔn)確率明顯低于其他4類噪聲環(huán)境,當(dāng)k=128時(shí),分類準(zhǔn)確率比其他4類的平均低了15.3%,而當(dāng)k增加到256、512時(shí),準(zhǔn)確率略微回升。

圖4 分類準(zhǔn)確率隨k值變化Fig.4 Change of classification accuracy with k value
通過分析噪聲分類準(zhǔn)確率混淆矩陣(如表2所示),發(fā)現(xiàn)無噪聲語音易被誤分到咖啡館噪聲和汽車噪聲中,這種現(xiàn)象可能是由于無噪聲音頻不具備明顯特征導(dǎo)致,混有其他噪聲的音頻既具有噪聲的顯著特征,也具有音頻本身的特征,而無噪聲音頻僅具有音頻本身的特征,導(dǎo)致其易于與含噪音頻發(fā)生混淆。

表2 k=128時(shí)含噪語音分類準(zhǔn)確率混淆矩陣 %Tab.2 Obfuscation matrix of noisy speech classification accuracy with k=128 %
本文選取白噪聲、汽車噪聲、咖啡館噪聲、飛機(jī)噪聲和無噪聲這五種較有代表性的噪聲環(huán)境進(jìn)行實(shí)驗(yàn),基于從train_white、train_car、train_cafe、train_plane、train_clean 訓(xùn)練集中提取的EMFCC特征分別訓(xùn)練這五類噪聲環(huán)境下的DNN-HMM聲學(xué)模型。
出于最優(yōu)化DNN-HMM聲學(xué)模型識(shí)別準(zhǔn)確率的考慮,本文對(duì)DNN的超參數(shù)進(jìn)行實(shí)驗(yàn),設(shè)立了若干組DNN關(guān)于隱層數(shù)和節(jié)點(diǎn)數(shù)的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)在每類噪聲環(huán)境下各訓(xùn)練了16個(gè)DNN-HMM聲學(xué)模型,聲學(xué)模型中DNN的隱層個(gè)數(shù)分別設(shè)置為2至9,隱層節(jié)點(diǎn)個(gè)數(shù)分別設(shè)置為1024和2048。由于2.2節(jié)實(shí)驗(yàn)可知,含噪語音分類模型在碼本單詞量k為64時(shí)分類準(zhǔn)確率最高,因此本節(jié)層級(jí)語音識(shí)別模型中上層含噪語音分類模型的k值取64。
實(shí)驗(yàn)基于test_mix5數(shù)據(jù)集對(duì)16組DNN-HMM聲學(xué)模型進(jìn)行測(cè)試,結(jié)果如圖5所示。由圖5可以看出,通常情況下,DNN-HMM聲學(xué)模型中DNN的隱層個(gè)數(shù)相同時(shí),隱層節(jié)點(diǎn)個(gè)數(shù)為2048時(shí)WER更低,說明一定范圍下提升隱層節(jié)點(diǎn)個(gè)數(shù)有助于提高識(shí)別準(zhǔn)確率;同時(shí),WER在DNN隱層為5層時(shí)達(dá)到最低,在隱層個(gè)數(shù)進(jìn)一步增加時(shí),WER急劇增加,說明過多的隱層易導(dǎo)致過擬合,削弱模型在測(cè)試集上的表現(xiàn)。

圖5 詞錯(cuò)率隨隱層個(gè)數(shù)和節(jié)點(diǎn)個(gè)數(shù)的變化Fig.5 Change of WER with numbers of hidden layers and nodes
一般認(rèn)為通過增加隱層節(jié)點(diǎn)個(gè)數(shù)來降低誤差,其訓(xùn)練效果較增加隱層個(gè)數(shù)好。因此,在隱層個(gè)數(shù)為5時(shí),增加一組節(jié)點(diǎn)個(gè)數(shù)為4096的實(shí)驗(yàn),在隱層個(gè)數(shù)為5,隱層節(jié)點(diǎn)個(gè)數(shù)分別為1024、2048和4 096 時(shí),詞錯(cuò)率分別為 48,9%、48.47%和48.38%,由此可見,在節(jié)點(diǎn)個(gè)數(shù)繼續(xù)提升的情況下,識(shí)別誤差可達(dá)到更低。因而進(jìn)一步對(duì)這三種隱層節(jié)點(diǎn)個(gè)數(shù)下的DNN-HMM模型的訓(xùn)練耗時(shí)進(jìn)行了統(tǒng)計(jì),在節(jié)點(diǎn)個(gè)數(shù)為1024、2048、4096下模型的訓(xùn)練總時(shí)長(zhǎng)分別為123 277 s、328 747 s、1112785 s。
以節(jié)點(diǎn)個(gè)數(shù)為1024時(shí)的WER和耗時(shí)作為基準(zhǔn),得到隱層個(gè)數(shù)為5,節(jié)點(diǎn)個(gè)數(shù)分別為1024、2048、4096的DNN-HMM聲學(xué)模型的識(shí)別WER和模型耗時(shí)的變化趨勢(shì)如圖6所示。由圖6所示,節(jié)點(diǎn)個(gè)數(shù)從2048增加到4096,WER降低甚小,但是模型訓(xùn)練耗時(shí)卻顯著增加。因此,綜合WER和模型訓(xùn)練耗時(shí),本文實(shí)驗(yàn)中,層級(jí)語音識(shí)別模型DNN-HMM聲學(xué)模型在DNN隱層個(gè)數(shù)為5、隱層節(jié)點(diǎn)個(gè)數(shù)為2 048時(shí)模型表現(xiàn)最優(yōu)。

圖6 節(jié)點(diǎn)個(gè)數(shù)對(duì)WER和耗時(shí)的影響Fig.6 Influence of node number on WER and time consuming
層級(jí)語音識(shí)別模型的實(shí)驗(yàn)數(shù)據(jù)來源于THCHS-30數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果表明層級(jí)語音識(shí)別模型在白噪聲和汽車噪聲環(huán)境下,識(shí)別誤差率較文獻(xiàn)[12]模型相對(duì)降低了14.0%和0.78%,說明含噪語音通過本文提出的層級(jí)語音識(shí)別模型能得到更好的處理。
實(shí)驗(yàn)對(duì)層級(jí)語音識(shí)別模型的兩層結(jié)構(gòu)進(jìn)行研究,分別研究了含噪語音分類模型的優(yōu)化和特定噪聲環(huán)境下聲學(xué)模型的優(yōu)化,結(jié)果顯示含噪語音分類模型最優(yōu)分類準(zhǔn)確率可達(dá)到97.28%,實(shí)現(xiàn)了含噪語音的正確噪聲環(huán)境分類,而層級(jí)語音識(shí)別模型在多個(gè)噪聲環(huán)境下的語音中的識(shí)別表現(xiàn)也明顯優(yōu)于常見的多類型訓(xùn)練方案,證明了噪聲環(huán)境分類對(duì)語音識(shí)別任務(wù)準(zhǔn)確率提高的有效性和可行性。
在此基礎(chǔ)上,對(duì)比實(shí)驗(yàn)研究進(jìn)一步驗(yàn)證了本文模型的可行性。
1)與GMM-HMM比較。
作為比較,實(shí)驗(yàn)將基于train_mix5數(shù)據(jù)集提取出EMFCC特征多類型訓(xùn)練[14]得到的GMM-HMM聲學(xué)模型作為基準(zhǔn)模型,test_mix5數(shù)據(jù)集在基準(zhǔn)模型上的WER為60.79%,本文提出的層級(jí)語音識(shí)別模型較該基準(zhǔn)模型識(shí)別誤差率相對(duì)降低20.3% 。
2)與無噪聲分類比較。
為了進(jìn)一步說明噪聲環(huán)境分類對(duì)含噪語音識(shí)別任務(wù)的有效性,基于train_mix5數(shù)據(jù)集提取的EMFCC特征訓(xùn)練得到一個(gè)DNN隱層個(gè)數(shù)為5、節(jié)點(diǎn)個(gè)數(shù)為2048的DNN-HMM模型,test_mix5在該模型上的WER為51.50%,層級(jí)語音模型較該模型的WER相對(duì)降低了5.9%,說明噪聲環(huán)境分類可有效提高含噪語音的識(shí)別準(zhǔn)確率。
3)泛化性實(shí)驗(yàn)比較。
本文提出的層級(jí)語音識(shí)別模型考慮了五類較有代表性的噪聲環(huán)境。實(shí)際應(yīng)用中,當(dāng)處理一類新噪聲下的含噪語音時(shí),該模型會(huì)將其劃分到五類噪聲環(huán)境中與其最相似的一類噪聲環(huán)境中,以此來減小模型訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的差異,使得模型更適應(yīng)數(shù)據(jù),從而提高識(shí)別準(zhǔn)確率。
為了驗(yàn)證本文所提出的層級(jí)語音識(shí)別模型的現(xiàn)實(shí)可行性,實(shí)驗(yàn)以含超市噪聲的test_market數(shù)據(jù)集作為測(cè)試集,從分析上發(fā)現(xiàn)超市噪聲對(duì)語音的干擾程度很大。實(shí)驗(yàn)研究比較了層級(jí)語音識(shí)別模型與基準(zhǔn)模型對(duì)超市語音識(shí)別的結(jié)果,層級(jí)語音識(shí)別模型下的WER較基準(zhǔn)模型相對(duì)降低了2.12%。
本文提出了由含噪語音分類模型和特定噪聲下聲學(xué)模型這兩層構(gòu)成的層級(jí)語音識(shí)別模型,避免了特征空間去噪研究對(duì)含噪語音噪聲穩(wěn)定性的限制,對(duì)噪聲本身不作要求,通過噪聲環(huán)境分類和特定環(huán)境下聲學(xué)模型減小了含噪語音與聲學(xué)模型訓(xùn)練集的差異,解決了多類型訓(xùn)練[14]導(dǎo)致的某類噪聲下語音識(shí)別準(zhǔn)確率降低的問題,更進(jìn)一步通過神經(jīng)網(wǎng)絡(luò)提高了識(shí)別準(zhǔn)確率。
在未知噪聲(超市噪聲)上對(duì)層級(jí)語音識(shí)別模型進(jìn)行驗(yàn)證,結(jié)果顯示在層級(jí)語音識(shí)別模型的WER較基準(zhǔn)模型相對(duì)有一定的降低。但進(jìn)一步的實(shí)驗(yàn)研究發(fā)現(xiàn):該超市噪聲的數(shù)據(jù)在多環(huán)境訓(xùn)練得到的DNN-HMM聲學(xué)模型下的WER略微優(yōu)于本文的層級(jí)語音識(shí)別模型。因此,為了進(jìn)一步優(yōu)化本文的層級(jí)語音識(shí)別模型,考慮在后續(xù)實(shí)驗(yàn)中設(shè)立噪聲環(huán)境分類閾值,來劃分最相似噪聲環(huán)境。模型結(jié)構(gòu)上在五類噪聲環(huán)境下聲學(xué)模型的基礎(chǔ)上,增加一類由五種噪聲環(huán)境下數(shù)據(jù)進(jìn)行多環(huán)境訓(xùn)練得到的聲學(xué)模型。在含噪語音分類模型中,只有當(dāng)某混噪語音的噪音類型與一類噪聲的相似度大于閾值時(shí),才由該類噪聲下的聲學(xué)模型對(duì)其進(jìn)行識(shí)別,否則將其歸類到多類型訓(xùn)練得到的聲學(xué)模型進(jìn)行識(shí)別。
信噪比為零情況下,是較強(qiáng)噪聲干擾下的語音識(shí)別任務(wù)。本文僅針對(duì)信噪比為零下的含噪語音進(jìn)行研究,實(shí)驗(yàn)結(jié)果表明層級(jí)語音識(shí)別模型在信噪比為零下的含噪語音識(shí)別任務(wù)中較常見多類型訓(xùn)練方法取得了較大改進(jìn);但隨著信噪比進(jìn)一步降低,層級(jí)語音識(shí)別模型的兩層結(jié)構(gòu)含噪語音分類模型和特定噪聲環(huán)境下聲學(xué)模型的反應(yīng)相異,理論上噪聲干擾越大,分類模型準(zhǔn)確率越好,但聲學(xué)模型的識(shí)別準(zhǔn)確率則會(huì)有較大程度的降低,因此對(duì)信噪比更低情況下的語音識(shí)別任務(wù),有待進(jìn)一步的實(shí)驗(yàn)研究。
綜上所述,在現(xiàn)階段,本文提出的層級(jí)語音識(shí)別模型可在已知多噪聲環(huán)境下的語音識(shí)別任務(wù)中取得較好表現(xiàn),并不受限于干擾噪聲的穩(wěn)定性。在后續(xù)的研究中,我們會(huì)根據(jù)上述實(shí)驗(yàn)計(jì)劃和改進(jìn)策略對(duì)模型進(jìn)行進(jìn)一步的實(shí)驗(yàn)優(yōu)化,使其能夠在未知噪聲環(huán)境下和更低信噪比下的語音識(shí)別任務(wù)中取得更好的表現(xiàn)。