999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語音識別研究綜述①

2022-02-15 06:39:22唐柔冰張巧靈
計算機系統(tǒng)應用 2022年1期
關(guān)鍵詞:信號語言模型

馬 晗,唐柔冰,張 義,張巧靈

(浙江理工大學 信息學院,杭州 310018)

語言是人類最原始直接的一種交流方式,通俗易懂、便于理解.隨著科技的發(fā)展,語言交流不再只存在于人與人之間,如何讓機器“聽懂”人類的語言并做出反應成為人工智能的重要課題,語音智能交互技術(shù)應運而生.作為其中重要一環(huán)的語音識別技術(shù)近年來不斷發(fā)展,走出了實驗室,隨著人工智能進入人們的日常生活中.當今市場上語音識別技術(shù)相關(guān)的軟件、商品涉及人類生活的方方面面,語音識別的實用性已經(jīng)得到充分的印證.如今語音識別技術(shù)已經(jīng)成為人類社會智能化的關(guān)鍵一步,能夠極大提高人們生活的便捷度.

1 語音識別技術(shù)的發(fā)展歷程

語音識別技術(shù)始于20世紀50年代,貝爾實驗室研發(fā)了10 個孤立數(shù)字的語音識別系統(tǒng),此后,語音識別相關(guān)研究大致經(jīng)歷了3 個發(fā)展階段.第1 階段,從20世紀50年代到90年代,語音識別仍處于探索階段.這一階段主要通過模板匹配—即將待識別的語音特征與訓練中的模板進行匹配—進行語音識別.典型的方法包括動態(tài)時間規(guī)整(dynamic time warping,DTW)技術(shù)和矢量量化(vector quantification,VQ).DTW 依靠動態(tài)規(guī)劃(dynamic programming,DP)技術(shù)解決了語音輸入輸出不定長的問題;VQ 則是對詞庫中的字、詞等單元形成矢量量化的碼本作為模板,再用輸入的語音特征矢量與模板進行匹配.總體而言,這一階段主要實現(xiàn)了小詞匯量、孤立詞的語音識別.20世紀80年代至21世紀初為第2 階段,這一階段的語音識別主要以隱馬爾科夫模型(hidden Markov model,HMM)為基礎(chǔ)的概率統(tǒng)計模型為主,識別的準確率和穩(wěn)定性都得到極大提升.該階段的經(jīng)典成果包括1990年李開復等研發(fā)的SPHINX 系統(tǒng)[1],該系統(tǒng)以GMM-HMM (Gaussian mixture model-hidden Markov model)為核心框架,是有史以來第一個高性能的非特定人、大詞匯量、連續(xù)語音識別系統(tǒng).GMM-HMM 結(jié)構(gòu)在相當長時間內(nèi)一直占據(jù)語音識別系統(tǒng)的主流地位,并且至今仍然是學習、理解語音識別技術(shù)的基石.此外,劍橋推出了以HMM為基礎(chǔ)的語音識別工具包HTK (hidden Markov model toolkit)[2].21世紀至今是語音識別的第3 階段.這一階段的語音識別建立在深度學習基礎(chǔ)上,得益于神經(jīng)網(wǎng)絡(luò)對非線性模型和大數(shù)據(jù)的處理能力,取得了大量成果.2009年Mohamed 等[3]提出深度置信網(wǎng)絡(luò)(deep belief network,DBN)與HMM 相結(jié)合的聲學模型在小詞匯量連續(xù)語音識別中取得成功.2012年深度神經(jīng)網(wǎng)絡(luò)與HMM 相結(jié)合的聲學模型DNN-HMM 在大詞匯量連續(xù)語音識別(large vocabulary continuous speech recognition,LVCSR)中取得成功[4],掀起利用深度學習進行語音識別的浪潮.此后,以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)等常見網(wǎng)絡(luò)為基礎(chǔ)的混合識別系統(tǒng)和端到端識別系統(tǒng)都獲得了不錯的識別結(jié)果和系統(tǒng)穩(wěn)定性.迄今為止,以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的語音識別系統(tǒng)仍舊是國內(nèi)外學者的研究熱點.

我國的語音識別則起步于國家的“863 計劃”和“973 計劃”,中科院聲學所等研究所以及頂尖高校嘗試實現(xiàn)長時語音的漢語識別工作,如今中文語音識別技術(shù)已經(jīng)達到了國際水準.2015年清華大學建立了第一個開源的中文語音數(shù)據(jù)庫THCHS-30[5].2016年上海交通大學提出的非常深卷積網(wǎng)絡(luò)(very deep convolutional neural networks,VDCNN)[6]提高了噪聲語音識別的性能,并在此基礎(chǔ)上進一步提出了非常深卷積殘差網(wǎng)絡(luò)(very deep convolutional residual network,VDCRN)[7].百度于2014年、2016年依次推出了DeepSpeech[8]及其改進版本[9],并在2017年提出Cold Fusion[10]以便于更好地利用語言學信息進行語音識別,該系統(tǒng)以LSTMCTC (long short-term memory-connectionist temporal classification)的端到端模型為基礎(chǔ),在不同的噪聲環(huán)境下實現(xiàn)了英語和普通話的語音識別.2018年科大訊飛提出的深度全序列卷積神經(jīng)網(wǎng)絡(luò)(deep full-sequence convolution neural networks,DFCNN)[11]直接對語音信號進行建模,該模型采用的大量疊加卷積層能夠儲存更多歷史信息,獲得了良好的識別效果.同年,阿里巴巴提出低幀率深度前饋記憶網(wǎng)絡(luò)(lower frame ratedeep feed forward sequential memory networks,LFRDFSMN)[12],將低幀率算法和DFSMN 算法相結(jié)合,使錯誤率降低了20%,解碼速度卻提升了近3 倍.

總體而言,當前主流語音識別技術(shù)主要在大詞匯量連續(xù)語音數(shù)據(jù)集上,基于深度神經(jīng)網(wǎng)絡(luò)進行模型構(gòu)建和訓練,面向不同應用場景需求和數(shù)據(jù)特點對現(xiàn)有的神經(jīng)網(wǎng)絡(luò)不斷改進,相比于傳統(tǒng)的統(tǒng)計方法取得了極大的性能提升.

2 語音識別基礎(chǔ)

2.1 語音識別概念

語音識別是利用機器對語音信號進行識別和理解并將其轉(zhuǎn)換成相應文本和命令的技術(shù),涉及到心理學、信號處理、統(tǒng)計學、數(shù)學和計算機等多門學科.其本質(zhì)是一種模式識別,通過對未知語音和已知語音的比較,匹配出最優(yōu)的識別結(jié)果.

根據(jù)面向的應用場景不同,語音識別存在許多不同的類型:從對說話人的要求考慮可分為特定人和非特定人系統(tǒng);從識別內(nèi)容考慮可分為孤立詞識別和連續(xù)語音識別、命令及小詞匯量識別和大詞匯量識別、規(guī)范語言識別和口語識別;從識別的速度考慮還可分為聽寫和自然語速的識別等[13].

2.2 傳統(tǒng)語音識別基本原理

通常,語音識別過程大致分為兩步:第1 步,首先對語音信號提取特定的聲學特征,然后對聲學特征進行“學習”或者說是“訓練”,即建立識別基本單元的聲學模型和進行語言文法分析的語言模型;第2 步是“識別”,根據(jù)識別系統(tǒng)的類型選擇能夠滿足要求的識別方法,采用語音分析方法分析出這種識別方法所要求的語音特征參數(shù),按照一定的準則和測度與系統(tǒng)模型進行比較,通過判決得出識別結(jié)果.

設(shè)一段語音信號經(jīng)過特征提取得到特征向量序列為X=[x1,x2,…,xN],其中xi是一幀的特征向量,i=1,2,…N,N為特征向量的數(shù)目.該段語音對應的文本序列設(shè)為W=[w1,w2,…,wM],其中wi為基本組成單元,如音素、單詞、字符,i=1,2,…,M,M為文本序列的維度.從貝葉斯角度,語音識別的目標就是從所有可能產(chǎn)生特征向量X的文本序列中找到概率最大的W*,可以用公式表示為下式優(yōu)化問題:

由上式可知,要找到最可能的文本序列必須使兩個概率P(X|W)和P(W)的乘積最大,其中P(X|W)為條件概率,由聲學模型決定;P(W)為先驗概率,由語言模型決定.聲學模型和語言模型對語音信號的表示越精準,得到的語音系統(tǒng)效果越準確.

從語音識別系統(tǒng)的構(gòu)成來講,一套完整的語音識別系統(tǒng)包括預處理、特征提取、聲學模型、語言模型以及搜索算法等模塊,其結(jié)構(gòu)示意圖如圖1所示.其中較為重要的特征提取、聲學模型和語言模型將在第2.2節(jié)中詳細闡述.

圖1 語音識別系統(tǒng)結(jié)構(gòu)圖

預處理包括預濾波、采樣、模/數(shù)轉(zhuǎn)換、預加重、分幀加窗、端點檢測等操作.其中,信號分幀是將信號數(shù)字化后的語音信號分成短時信號作為識別的基本單位.這主要是因為語音信號是非平穩(wěn)信號,且具有時變特性,不易分析;但其通常在短時間范圍(一般為10–30 ms)內(nèi)其特性基本不變,具有短時平穩(wěn)性,可以用來分析其特征參數(shù).

搜索模塊是指在訓練好聲學模型和語言模型后,根據(jù)字典搜索最優(yōu)路徑,即最可能的輸出詞序列.傳統(tǒng)的語音識別解碼建立在加權(quán)有限狀態(tài)轉(zhuǎn)換器(weighted finite state transducer,WFST)所構(gòu)成的動態(tài)網(wǎng)絡(luò)上,將HMM 狀態(tài)、詞典和語法等結(jié)合起來.目前端到端模型中主流的搜索算法為Beam Search 等.

2.2.1 特征提取

通常,在進行語音識別之前,需要根據(jù)語音信號波形提取有效的聲學特征.特征提取的性能對后續(xù)語音識別系統(tǒng)的準確性極其關(guān)鍵,因此需要具有一定的魯棒性和區(qū)分性.目前語音識別系統(tǒng)常用的聲學特征有梅爾頻率倒譜系數(shù)(Mel-frequency cepstrum coefficient,MFCC)、感知線性預測系數(shù)(perceptual linear predictive cepstrum coefficient,PLP)、線性預測倒譜系數(shù)(linear prediction cepstral coefficient,LPCC)、梅爾濾波器組系數(shù)(Mel filter bank,Fbank)等.

MFCC是最為經(jīng)典的語音特征,其提取過程如圖2所示.MFCC的提取模仿了人耳的聽覺系統(tǒng),計算簡單,低頻部分也有良好的頻率分辨能力,在噪聲環(huán)境下具有一定的魯棒性.因此,現(xiàn)階段語音識別系統(tǒng)大多仍采用MFCC 作為特征參數(shù),并取得了不錯的識別效果.

圖2 MFCC的特征提取過程

2.2.2 聲學模型

聲學模型是對等式(1)中的P(X|W)進行建模,在語音特征與音素之間建立映射關(guān)系,即給定模型后產(chǎn)生語音波形的概率,其輸入是語音信號經(jīng)過特征提取后得到的特征向量序列.聲學模型整個語音識別系統(tǒng)中最重要的部分,只有學好了發(fā)音,才能順利和發(fā)音詞典、語言模型相結(jié)合得到較好的識別性能.

GMM-HMM是最為常見的一種聲學模型,該模型利用HMM 對時間序列的建模能力,描述語音如何從一個短時平穩(wěn)段過渡到下一個短時平穩(wěn)段;此外,HMM的隱藏狀態(tài)和觀測狀態(tài)的數(shù)目互不相干,可以解決語音識別中輸入輸出不等長的問題.該聲學模型中的每個HMM 都涉及到3 個參數(shù):初始狀態(tài)概率、狀態(tài)轉(zhuǎn)移概率和觀測概率,其中觀測概率依賴于特征向量的概率分布,采用高斯混合模型GMM 進行建模.

GMM-HMM 聲學模型在語音識別領(lǐng)域有很重要的地位,其結(jié)構(gòu)簡單且區(qū)分度訓練成熟,訓練速度也相對較快.然而該模型中的GMM 忽略時序信息,每幀之間相對孤立,對上下文信息利用并不充分.且隨著數(shù)據(jù)量的上升,GMM 需要優(yōu)化的參數(shù)急劇增加,這給聲學模型帶來了很大的計算負擔,淺層模型也難以學習非線性的特征變換.

深度學習的興起為聲學建模提供了新途徑,學者們用深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)代替GMM 估計HMM的觀測概率,得到了DNN-HMM 語音識別系統(tǒng),其結(jié)構(gòu)如圖3所示.DNN-HMM 采用DNN的每個輸出節(jié)點來估計給定聲學特征的條件下HMM 某個狀態(tài)的后驗概率.DNN 模型的訓練階段大致分為兩個步驟:第1 步是預訓練,利用無監(jiān)督學習的算法訓練受限波爾茲曼機(restricted Boltzmann machine,RBM),RBM 算法通過逐層訓練并堆疊成深層置信網(wǎng)絡(luò)(deep belief networks,DBN);第2 步是區(qū)分性調(diào)整,在DBN的最后一層上面增加一層Softmax層,將其用于初始化DNN的模型參數(shù),然后使用帶標注的數(shù)據(jù),利用傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的學習算法(如BP 算法) 學習DNN的模型參數(shù).相比于GMM-HMM,DNN-HMM 具有更好的泛化能力,擅長舉一反三,幀與幀之間可以進行拼接輸入,特征參數(shù)也更加多樣化,且對所有狀態(tài)只需訓練一個神經(jīng)網(wǎng)絡(luò).文獻[4]證實了神經(jīng)網(wǎng)絡(luò)在大詞匯量語音識別領(lǐng)域的出色表現(xiàn).

圖3 基于DNN-HMM的語音識別系統(tǒng)框架

通過將DNN 取代GMM 對HMM 觀測概率進行聲學建模,DNN-HMM 相比GMM-HMM 在語音識別性能方面有很大提升;然而,DNN 對于時序信息的上下文建模能力以及靈活性等方面仍有欠缺.針對這一問題,對上下文信息利用能力更強的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN[14]和卷積神經(jīng)網(wǎng)絡(luò)CNN[15]被引入聲學建模中.在RNN的網(wǎng)絡(luò)結(jié)構(gòu)中,當前時刻的輸出依賴記憶與當前時刻的輸入,這對于語音信號的上下文相關(guān)性建模非常有優(yōu)勢.然而,RNN 存在因梯度消失和梯度爆炸而難以訓練的問題,于是研究人員引入門控機制,得到梯度傳播更加穩(wěn)定的長短時記憶(long short-term memory,LSTM)網(wǎng)絡(luò).LSTM-RNN 對語音的上下文信息的利用率更高,識別的準確率與魯棒性也均有提升,這些在文獻[16]中能得到證實.CNN的優(yōu)勢在于卷積的不變性和池化技術(shù),對上下文信息有建模能力,對噪聲具有魯棒性,并且可以減少計算量.時延神經(jīng)網(wǎng)絡(luò)(time delay neural network,TDNN)是CNN 對大詞匯量連續(xù)語音識別的成功應用[17].CLDNN (CNN-LSTMDNN)綜合了三者的優(yōu)點,實驗結(jié)果也證明了三者的結(jié)合得到了正向的收益[18].

總體而言,近年來語音識別中對聲學模型的研究仍集中在神經(jīng)網(wǎng)絡(luò),針對不同的應用場景和需求對上述經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)進行綜合和改進[19–21],以期訓練更復雜、更強大的聲學模型.

2.2.3 語言模型

語言模型是用來預測字符(詞)序列產(chǎn)生的概率,判斷一個語言序列是否為正常語句,也就是解決如何計算等式(1)中的P(W).傳統(tǒng)的語言模型n-gram[22]是一種具有強馬爾科夫獨立性假設(shè)的模型,它認為任意一個詞出現(xiàn)的概率僅與前面有限的n–1 個字出現(xiàn)的概率有關(guān),其公式表達如下:

然而,由于訓練語料數(shù)據(jù)不足或者詞組使用頻率過低等常見因素,測試集中可能會出現(xiàn)訓練集中未出現(xiàn)過的詞或某個子序列未在訓練集中出現(xiàn),這將導致n-gram 語言模型計算出的概率為零,這種情況被稱為未登錄詞(out-of-vocabulary,OOV)問題.為緩解這個問題,通常采用一些平滑技術(shù),常見的平滑處理有Discounting、Interpolation和Backing-off 等.n-gram 模型的優(yōu)勢在于其參數(shù)易訓練,可解釋性極強,且完全包含了前n–1 個詞的全部信息,能夠節(jié)省解碼時間;但難以避免維數(shù)災難的問題,此外n-gram 模型泛化能力弱,容易出現(xiàn)OOV 問題,缺乏長期依賴.

隨著深度學習的發(fā)展,語言模型的研究也開始引入深度神經(jīng)網(wǎng)絡(luò).從n-gram 模型可以看出當前的詞組出現(xiàn)依賴于前方的信息,因此很適合用循環(huán)神經(jīng)網(wǎng)絡(luò)進行建模.Bengio 等將神經(jīng)網(wǎng)絡(luò)用于語言模型建模[23],提出用詞向量的概念,用連續(xù)變量代替離散變量,利用神經(jīng)網(wǎng)絡(luò)去建模當前詞出現(xiàn)的概率與其前n–1 個詞之間的約束關(guān)系.這種模型能夠降低模型參數(shù)的數(shù)量,具有一定的泛化能力,能夠較好地解決數(shù)據(jù)稀疏帶來的問題,但其對取得長距離信息仍束手無策.為進一步解決問題,RNN 被用于語言模型建模[24].RNNLM中隱含層的循環(huán)能夠獲得更多上下文信息,通過在整個訓練集上優(yōu)化交叉熵來訓練模型,使得網(wǎng)絡(luò)能夠盡可能建模出自然語言序列與后續(xù)詞之間的內(nèi)在聯(lián)系.其優(yōu)勢在于相同的網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù)可以處理任意長度的歷史信息,能夠利用神經(jīng)網(wǎng)絡(luò)的表征學習能力,極大程度避免了未登錄問題;但無法任意修改神經(jīng)網(wǎng)絡(luò)中的參數(shù),不利于新詞的添加和修改,且實時性不高.

語言模型的性能通常采用困惑度(perplexity,PPL)進行評價.PPL 定義為序列的概率幾何平均數(shù)的倒數(shù),其公式定義如下:

PPL 越小表示在給定歷史上出現(xiàn)下一個預測詞的概率越高,該模型的效果越好.

2.3 端到端語音識別

傳統(tǒng)的語音識別由多個模塊組成,彼此獨立訓練,但各個子模塊的訓練目標不一致,容易產(chǎn)生誤差累積,使得子模塊的最優(yōu)解并不一定是全局最優(yōu)解.針對這個問題,學者們提出了端到端的語音識別系統(tǒng),直接對等式(1)中的概率P(W|X)進行建模,將輸入的語音波形(或特征矢量序列)直接轉(zhuǎn)換成單詞、字符序列.端到端的語音識別將聲學模型、語言模型、發(fā)音詞典等模塊被容納至一個系統(tǒng),通過訓練直接優(yōu)化最終目標,如詞錯誤率(word error rate,WER)、字錯誤率(character error rate,CER),極大地簡化了整個建模過程.目前端到端的語音識別方法主要有基于連接時序分類(connectionist temporal classification,CTC)[25]和基于注意力機制(attention model)[26]兩類方法及其改進方法.

CTC 引入空白符號(blank)解決輸入輸出序列不等長的問題,主要思想是最大化所有可能對應的序列概率之和,無需考慮語音幀和字符的對齊關(guān)系,只需要輸入和輸出就可以訓練.CTC 實質(zhì)是一種損失函數(shù),常與LSTM 聯(lián)合使用.基于CTC的模型結(jié)構(gòu)簡單,可讀性較強,但對發(fā)音詞典和語言模型的依賴性較強,且需要做獨立性假設(shè).RNN-Transducer 模型[27]是對CTC的一種改進,加入一個語言模型預測網(wǎng)絡(luò),并和CTC網(wǎng)絡(luò)通過一層全連接層得到新的輸出,這樣解決了CTC 輸出需做條件獨立性假設(shè)的問題,能夠?qū)v史輸出和歷史語音特征進行信息累積,更好地利用語言學信息提高識別準確率.

基于注意力機制的端到端模型最開始被用于機器翻譯,能夠自動實現(xiàn)兩種語言的不同長度單詞序列之間的轉(zhuǎn)換.該模型主要由編碼網(wǎng)絡(luò)、解碼網(wǎng)絡(luò)和注意力子網(wǎng)絡(luò)組成.編碼網(wǎng)絡(luò)將語音特征序列經(jīng)過深層神經(jīng)網(wǎng)絡(luò)映射成高維特征序列,注意力網(wǎng)絡(luò)分配權(quán)重系數(shù),解碼網(wǎng)絡(luò)負責輸出預測的概率分布.該模型不需要先驗對齊信息,也不用音素序列間的獨立性假設(shè),不需要發(fā)音詞典等人工知識,可以真正實現(xiàn)端到端的建模.2016年谷歌提出了一個Listen-Attend-Spell (LAS)模型[28],其結(jié)構(gòu)框圖如圖4所示.LAS 模型真正實現(xiàn)了端到端,所有組件聯(lián)合訓練,也無獨立性假設(shè)要求.但LAS 模型需要對整個輸入序列之后進行識別,因此實時性較差,之后也有許多學者對該模型不斷改進[29–31].

圖4 LAS 模型框架圖

目前端到端的語音識別系統(tǒng)仍是語音識別領(lǐng)域的研究熱點,基于CTC[32–34]、attention 機制[35]以及兩者結(jié)合的系統(tǒng)[36,37]都取得了非常不錯的成果.其中Transformer-Transducer 模型[38]將RNN-T 模型中的RNN 替換為Transformer 提升了計算效率,還控制attention 模塊上下文時間片的寬度,滿足流式語音識別的需求.2020年谷歌提出的ContextNet 模型[39],采用Squeeze-and-Excitation 模塊獲取全局信息,并通過漸進降采樣和模型縮放在減小模型參數(shù)和保持識別準確率之間取得平衡.在Transformer 模型捕捉長距離交互的基礎(chǔ)上加入了CNN 擅長的局部提取特征得到Conformer模型[40],實現(xiàn)以更少的參數(shù)達到更好的精度.實際上端到端的語音識別系統(tǒng)在很多場景的識別效果已經(jīng)超出傳統(tǒng)結(jié)構(gòu)下的識別系統(tǒng),但距其落地得到廣泛商業(yè)應用仍有一段路要走.

3 語音識別的難點與熱點

語音識別作為人機交互的關(guān)鍵技術(shù)一直是科技應用領(lǐng)域的研究熱點.目前,語音識別技術(shù)從理論研究到產(chǎn)品的開發(fā)都已取得了很多的成果,然而,相關(guān)研究及應用落地仍然面臨很大挑戰(zhàn),具體可歸納為以下幾方面:

魯棒性語音識別:目前,理想條件下(低噪聲加近場)的語音識別準確率已經(jīng)達到一定程度.然而,在實際一些復雜語音環(huán)境下,如聲源遠場等情景,低信噪比、房間混響、回聲干擾以及多聲源信號干擾等因素,使得語音識別任務面臨很大挑戰(zhàn).因此,針對復雜環(huán)境研究魯棒語音識別是目前語音識別領(lǐng)域的研究難點和熱點.當前,針對復雜環(huán)境下的語音識別研究大致可以分為4 個方向:(1)在語音識別前端,利用信號處理技術(shù)提高信號質(zhì)量:采用麥克風陣列技術(shù)采集遠場聲源信號,然后通過聲源定位[41]、回聲消除[42]、聲源分離或語音增強[43]等提高語音信號質(zhì)量.例如,文獻[44]在基于深度學習的自適應聲學回聲消除(acoustic echo cancellation,AEC)中加入了背景關(guān)注模塊以適應部署環(huán)境的變化,以提高語音信號質(zhì)量;文獻[45]以深度聚類為框架提出了結(jié)合頻譜和空間信息的盲源分離方法;文獻[46] 利用以基于生成式對抗網(wǎng)絡(luò)(generative adversial networks,GAN)為基礎(chǔ)框架的增強網(wǎng)絡(luò)進行噪聲抑制,從而提高目標語音信號質(zhì)量;(2)尋找新的魯棒性特征,盡可能消除非目標語音信號的影響:例如,伽馬通濾波器倒譜系數(shù)(Gammatone frequency cepstrum coefficient,GFCC)[47]等聽覺特征參數(shù)更適合擬合人耳基底膜的選擇性,符合人耳聽覺特征;或者,采用自動編碼器[48]、遷移學習[49]等多種方式提取更魯棒的特征;(3)模型的改進與自適應[50]:上海交通大學提出的VDCNN[6]以及VDCRN[7]通過加深卷積層提升算法的魯棒性,文獻[51]利用GAN中生成器與判別器的相互博弈和瓶頸特征構(gòu)建聲學模型,文獻[52] 采用teacher-student learning的方式以干凈語音訓練的聲學模型作為教師模型訓練噪聲環(huán)境下的學生模型;(4)多模態(tài)數(shù)據(jù)融合[53]:當在高噪聲環(huán)境或多說話人造成語音重疊的情況下,目標語音信號容易被噪聲或其他非目標聲源(干擾信號)“淹沒”,這時僅憑拾音設(shè)備捕捉的“語音”信號往往無法獲得良好的識別性能;這時,將語音信號和其他信號如聲帶的振動信號[54]、嘴部的圖像信號[55]等進行融合,更好地提升識別系統(tǒng)的魯棒性.例如,文獻[56]以RNN-T為框架,提出多模態(tài)注意力機制對音頻和視頻信息進行融合,以提高識別性能;文獻[57]同樣基于RNN-T,但利用vision-to-phoneme model(V2P)提取視覺特征,連同音頻特征以相同的幀頻輸入至編碼器,取得了良好的識別性能.

低資源語音識別:這是對各種小語種語言識別研究的統(tǒng)稱.小語種不同于方言,有獨立完整的發(fā)音體系,各異性較強但數(shù)據(jù)資源匱乏,難以適應以漢語、英語為主的語音識別系統(tǒng),聲學建模需要利用不充分的數(shù)據(jù)資源訓練得到盡可能多的聲學特征.解決這一問題的基本思路可以概括為從主流語言的豐富資源中提取共性訓練出可以公用的模型,在此基礎(chǔ)上訓練小語種模型.文獻[58]為解決共享隱藏層中會學到不必要的特定信息這一問題,提出了一個共享層和特有層平行的模型,它通過對抗性學習確保模型能夠?qū)W習更多不同語種間的不變特征.然而,小語種種類繁多,為了單獨一種建立識別系統(tǒng)耗費過多資源并不劃算,因此現(xiàn)在主要研究多語種融合的語音識別系統(tǒng)[59,60].

語音的模糊性:各種語言中都存在相似發(fā)音的詞語,不同的講話者存在不同的發(fā)音習慣以及口音、方言等問題,母語者和非母語者說同一種語言也存在不同的口音,難以針對單獨的口音構(gòu)建模型.針對多口音建模[61]的問題,現(xiàn)有的方法一般可以分為與口音無關(guān)和與口音相關(guān)兩大類,其中與口音無關(guān)的模型普遍表現(xiàn)更好一些.文獻[62]嘗試通過特定口音模型的集合建立統(tǒng)一的多口音識別模型;文獻[63]通過多任務學習將聲學模型和口音識別分類器聯(lián)合;文獻[64]則基于GAN 構(gòu)建了預訓練網(wǎng)絡(luò)從聲學特征中區(qū)分出不變的口音.

低計算資源:精度高效果好的神經(jīng)網(wǎng)絡(luò)模型往往需要大量的計算資源且規(guī)模巨大,但移動設(shè)備(如手機、智能家居等)計算能力和內(nèi)存有限,難以支撐,因此需要對模型進行壓縮及加速.目前針對深度學習模型采用的壓縮方法有網(wǎng)絡(luò)剪枝、參數(shù)量化、知識蒸餾等.文獻[65]采用網(wǎng)絡(luò)剪枝的方法構(gòu)建了動態(tài)稀疏神經(jīng)網(wǎng)絡(luò)(dynamic sparsity neural networks,DSNN),提供不同稀疏級別的網(wǎng)絡(luò)模型,通過動態(tài)調(diào)整以適應不同資源和能量約束的多種硬件類型的能力.文獻[66]通過量化網(wǎng)絡(luò)參數(shù)減少內(nèi)存占用并加快計算速度.知識蒸餾能夠?qū)碗s模型的知識遷入小模型,已應用于對語音識別系統(tǒng)的語言模型[67]、聲學模型[68]和端到端模型[29,69,70]等進行壓縮.文獻[71]利用知識蒸餾將視聽兩模態(tài)的識別系統(tǒng)遷移至單聽覺模型,縮小了模型規(guī)模,加快了訓練速度,卻并不影響精度.

4 總結(jié)與展望

4.1 總結(jié)

本文主要對語音識別的發(fā)展、系統(tǒng)結(jié)構(gòu)研究、熱點及難點進行了闡述.目前主流的語音識別方法大多基于深度神經(jīng)網(wǎng)絡(luò).這些方法大體分為兩類:一類是采用一定的神經(jīng)網(wǎng)絡(luò)取代傳統(tǒng)語音識別方法中的個別模塊,如特征提取、聲學模型或語言模型等;另一類是基于神經(jīng)網(wǎng)絡(luò)實現(xiàn)端到端的語音識別.相比于傳統(tǒng)的識別方法,基于深度神經(jīng)網(wǎng)絡(luò)的語音識別方法在性能上有了顯著的提升.在低噪音加近場等理想環(huán)境下,當前的語音識別技術(shù)研究已經(jīng)達到了商業(yè)需求.然而,在實際應用中存在各種復雜情況,如聲源遠場、小語種識別、說話人口音、專業(yè)語言場景等,這些情況使得復雜場景下的語音識別應用落地仍面臨挑戰(zhàn).此外,盡管當前深度學習在語音識別的應用確實提高了識別率等性能,但效果好的模型往往規(guī)模復雜且龐大、需要的數(shù)據(jù)資源較為冗余,不適合用于移動設(shè)備(如手機、智能穿戴設(shè)備等);此外,小語種、多口音、不同方言等的識別性能仍然差強人意.總之,當前語音識別領(lǐng)域已取得豐富的研究成果,但仍有很長一段路要走.

4.2 展望

在未來很長一段時間內(nèi),基于深度神經(jīng)網(wǎng)絡(luò)的語音識別仍是主流;面向不同應用場景,根據(jù)語音信號特點對現(xiàn)有神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行改進仍是未來研究重點.大體上,未來語音識別領(lǐng)域的研究方向可大致歸納如下.

(1)模型壓縮與加速.盡管當前深度學習在語音識別的應用確實提高了識別率等性能,但效果好的模型往往規(guī)模復雜且龐大、需要的數(shù)據(jù)資源較為冗余,不適合用于移動設(shè)備(如手機、智能穿戴設(shè)備等),因此對基于深度神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)進行網(wǎng)絡(luò)模型壓縮和加速,將是未來語音識別的研究方向之一.

(2)數(shù)據(jù)遷移.在面對小樣本數(shù)據(jù)或復雜問題時,遷移學習是一種有效的方式.在語音識別領(lǐng)域中,采用遷移學習的方式對小語種、方言口音或含噪語音進行識別也是未來的研究方向之一.

(3)多模態(tài)數(shù)據(jù)融合.對于一些復雜的語音場景(高噪聲、混響、多源干擾等),可以利用語音信號和其他信號(如圖像信號、振動信號等)進行融合,以提高語音識別性能,也是未來研究研究方向之一.

(4)多技術(shù)融合,提高認知智能.當前大多數(shù)語音識別算法只關(guān)注識別文字內(nèi)容的正確性;然而,許多智能語音交互的應用(如QA 問答、多輪對話等)還涉及到語義的理解.因此,將語音識別技術(shù)結(jié)合其他技術(shù)[72–75]如自然語言處理(natural language processing,NLP)相結(jié)合以提升識別性能也是未來研究方向之一.

猜你喜歡
信號語言模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
基于FPGA的多功能信號發(fā)生器的設(shè)計
電子制作(2018年11期)2018-08-04 03:25:42
讓語言描寫搖曳多姿
累積動態(tài)分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲综合片| Aⅴ无码专区在线观看| 永久免费精品视频| 国产福利观看| 天天综合网亚洲网站| 欧洲精品视频在线观看| 亚洲天堂网在线播放| 亚洲性影院| a毛片基地免费大全| 欧美特黄一级大黄录像| 三上悠亚精品二区在线观看| 88国产经典欧美一区二区三区| 2022国产无码在线| 国产福利大秀91| 少妇被粗大的猛烈进出免费视频| 国产欧美亚洲精品第3页在线| 国产超碰一区二区三区| 成人噜噜噜视频在线观看| 日韩国产无码一区| 国产美女无遮挡免费视频网站 | 日韩AV手机在线观看蜜芽| 亚洲精品视频免费| 国产亚洲精品自在线| 欧美a级在线| 精品色综合| 日本黄色a视频| 丝袜高跟美脚国产1区| 极品私人尤物在线精品首页| 国产资源免费观看| 国产成人高清在线精品| 毛片免费试看| 久久国产高清视频| 日本亚洲成高清一区二区三区| 国产三区二区| 午夜国产理论| 亚洲综合狠狠| 国产交换配偶在线视频| 91偷拍一区| 国产成人精彩在线视频50| 国产另类视频| 亚洲热线99精品视频| 国产黄色片在线看| 日韩成人在线一区二区| 自拍偷拍一区| 777午夜精品电影免费看| 国产又大又粗又猛又爽的视频| 亚洲一区二区日韩欧美gif| 国产极品美女在线播放| 亚洲精品人成网线在线| 国产网友愉拍精品| 永久成人无码激情视频免费| 精品无码国产一区二区三区AV| 国产视频一区二区在线观看| 免费无码在线观看| 国产一级妓女av网站| 国产在线自乱拍播放| 日韩av无码DVD| 亚洲毛片网站| 国产人碰人摸人爱免费视频| 成年av福利永久免费观看| 波多野结衣在线一区二区| 成人无码一区二区三区视频在线观看| 在线观看亚洲国产| 亚洲色图另类| 97综合久久| 国产欧美日韩专区发布| 精品国产中文一级毛片在线看| 色网在线视频| 青青青国产在线播放| 国产精品永久免费嫩草研究院| 欧美精品三级在线| 在线日本国产成人免费的| 日韩毛片基地| 日本高清免费一本在线观看| 欧美不卡二区| 亚洲男人的天堂在线| 中文字幕欧美成人免费| 日韩成人在线一区二区| 国产成人精品综合| 亚洲女人在线| 成人毛片免费观看| 成人一级黄色毛片|