葉 碩,褚 鈺,王 祎,李田港
(武漢郵電科學研究院,湖北 武漢 430000)
隨著社會快速發(fā)展,計算機與人類社會聯(lián)系越來越密切,面臨的任務(wù)越來越復雜,運用人機交互的場合也越來越多。人機交互可以分為語言交互與視覺交互,其中語言作為最直接的信息交互方式,承載了人們?nèi)粘I钪薪^大部分信息交換的任務(wù)。
智能語音技術(shù)作為構(gòu)建智能化、信息化社會的重要一環(huán),主要分為三個方面的內(nèi)容:語音識別(automatic speech recognition,ASR)、自然語言處理(natural language processing,NLP)、語音合成(speech synthesis,SS)[1]。語音識別側(cè)重于將人類語言編譯成計算機可讀的數(shù)據(jù),自然語言處理側(cè)重讓計算機理解語言內(nèi)容,而語音合成則是將計算機理解的結(jié)果以語音的方式反饋給人類,為下一步交互或操作做準備。
語音識別技術(shù)始于20世紀50年代,貝爾實驗室率先研發(fā)出了10個孤立數(shù)字的識別系統(tǒng)[2]。20世紀70年代,蘇聯(lián)科學家首次提出用動態(tài)規(guī)劃方法解決語音信號不等長問題,并在此基礎(chǔ)上發(fā)展出了動態(tài)時間規(guī)整(dynamic time warping,DTW)算法[3]。與此同時,語音信號線性預(yù)測編碼(linear predictive coding,LPC)[4]的提出有效解決了提取語音信號何種參數(shù)作為特征的問題。
20世紀80年代,以隱馬爾可夫模型(hidden Markov model,HMM)方法[5]為代表的基于統(tǒng)計模型的方法逐漸在語音識別研究中占據(jù)主導地位。隨后興起的人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)[6]也為語音識別提供了一個新的研究思路。
2006年,Hinton[7]使用受限波爾茲曼機(restricted Boltzmann machine,RBM)對神經(jīng)網(wǎng)絡(luò)的節(jié)點做初始化,深度置信網(wǎng)絡(luò)(deep belief network,DBN)應(yīng)運而生。該網(wǎng)絡(luò)通過一種非監(jiān)督貪婪逐層方法,在盡可能保留建模對象特征信息的基礎(chǔ)上,不斷擬合獲得權(quán)重。該方法由于結(jié)構(gòu)上具備多層非線性變換[8]而具有更強的建模能力,可以用來處理諸如語音的復雜信號。此后,深度學習與傳統(tǒng)方法相結(jié)合的手段占據(jù)主流,語音識別進入一個快速發(fā)展的階段。
語音識別系統(tǒng)由多個模塊組成,通過建立聲學模型(acoustic model,AM)和語言模型(language model,LM)完成識別,如圖1所示,其中聲學模型和語言模型由數(shù)據(jù)訓練得到。

圖1 語音識別模型框圖
作為人機交互的前端,語音識別衍生出的方向很多,一段語音中通常包含說話人的三部分內(nèi)容:語言內(nèi)容信息、聲音特征信息、語音情感信息。因此,語音識別的方向也可以分為:文本識別,將語音中的內(nèi)容轉(zhuǎn)換成文本,用于人類閱讀或為計算機進一步提取內(nèi)容理解內(nèi)容做準備;聲紋識別,該方向研究說話人身份或特定文本,常用于安防等領(lǐng)域;情緒識別的目標則是對語音中包含的情感進行識別。常用語言模型N-Gram刻畫某一字序列發(fā)生的概率,該統(tǒng)計語言模型認為任意一個字出現(xiàn)的概率僅與前面有限的N-1個字出現(xiàn)的概率有關(guān),是一種具有強馬爾可夫獨立性假設(shè)的模型[9]。理論上N取值越大效果越好,實際工程發(fā)現(xiàn),N取值增加到一定程度后,反而會影響識別性能;而聲學模型則根據(jù)不同任務(wù)發(fā)展出多種模型,文中接下來將對語音識別任務(wù)中的不同聲學模型進行分析總結(jié)。
文本識別的目的是盡可能實現(xiàn)長時語音的實時識別,其識別任務(wù)可以根據(jù)語音文本的長短分為孤詞語音、詞匯語音、連續(xù)語音識別三個階段。孤詞語音發(fā)音時間最短,就漢語而言,一段語音中往往只有一個字或者一個詞匯,識別起來最為容易;詞匯語音則包含多個詞匯,語音持續(xù)時間稍長;連續(xù)語音識別起來最為困難,通常由一整句或多句話組成,每句話彼此之間還可能存在邏輯聯(lián)系,且漢語具有同音不同字的情況,因此為了提高識別的準確率,還需要聲學模型能夠聯(lián)系上下文語境,這給識別帶來極大難度。早期文本識別常以HMM作為聲學模型,該模型對語音的最小單位——音素進行建模,實現(xiàn)了由孤詞語音到詞匯語音的突破。由于語音識別任務(wù)中的聲學特征矢量取值是連續(xù)的,為降低量化誤差對識別造成的影響,有學者[10]使用可對任意的概率密度函數(shù)進行擬合逼近的高斯混合模型(Gaussian mixture models,GMM)與HMM相結(jié)合的手段構(gòu)建聲學模型,該方式取得了良好效果并在很長一段時間里被作為語音識別任務(wù)的主流。但由于HMM的轉(zhuǎn)移概率只與前一時刻有關(guān),因此無法充分利用上下文信息,在對長時依賴性語音進行建模時存在缺陷,隨著數(shù)據(jù)量的增加識別性能會受到限制,且在增強GMM擬合能力的同時,需要優(yōu)化的參數(shù)也急劇上升,給聲學模型的訓練帶來極大負擔。
連續(xù)語音識別的進一步發(fā)展,得益于深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)的運用,深度學習是一種訓練深層結(jié)構(gòu)模型來表示數(shù)據(jù)之間復雜關(guān)系的方法[11],不需要對語音數(shù)據(jù)分布進行假設(shè)[1]。有學者[12]將深度學習引入聲學建模,利用更多的網(wǎng)絡(luò)層數(shù)來提取語音的深層次特征,并通過拼幀的方式獲得更長時的結(jié)構(gòu)信息,這在一定程度上提高了可識別語音的輸入長度,且其輸入特征多樣,因此利用DNN對聲學特征矢量和狀態(tài)關(guān)系進行建模的方式,極大提升了文本識別的準確率。DNN-HMM的聲學模型在TIMIT數(shù)據(jù)庫上獲得了優(yōu)異表現(xiàn)[13],國內(nèi)有學者提出了一種深度置信網(wǎng)絡(luò)結(jié)合深度玻爾茲曼機的改進DNN-HMM語音識別算法,將原先模型的隱藏層改為DBM和DBN的混合形式,有效降低了該模型的錯誤識別率。還有學者[14-16]將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)引入DNN-HMM,利用其局部卷積、權(quán)值共享和池化的特點,通過迭代的方式從低級特征中提取出更復雜的特征用以增加模型穩(wěn)定性。
為識別大詞匯量連續(xù)語音,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[17]以其較強的時序數(shù)據(jù)樣本處理能力而成為國內(nèi)外學者的研究對象,該模型克服了傳統(tǒng)DNN-HMM難以對長時語音進行識別的問題。RNN與其他神經(jīng)網(wǎng)絡(luò)的不同之處在于,它的每一層信息不僅輸出給下一層,同時還輸出一個隱狀態(tài)參與下一次決策,但RNN的聲學模型訓練使用隨機梯度下降法(stochastic gradient descent,SGD),該方法會帶來梯度消失問題[18]。有學者[19]改進了RNN為長短時記憶(long short-term memory,LSTM)網(wǎng)絡(luò),使用輸入門、輸出門和遺忘門來控制信息流,使得梯度能在相對更長的時間跨度內(nèi)穩(wěn)定地傳播。LSTM網(wǎng)絡(luò)通常由3-5個LSTM層組成,有學者[20]在DNN的隱藏層引入LSTM結(jié)構(gòu)單元,獲得了能記憶更長時序的能力,LSTM-DNN模型在噪聲環(huán)境中獲得了優(yōu)異表現(xiàn),隨后形成了CNN-LSTM-DNN(CLDNN)[21]的架構(gòu)。
為提高聲學模型的性能,避免網(wǎng)絡(luò)退化[22],有學者進一步優(yōu)化LSTM的結(jié)構(gòu),提出Highway LSTM[23](HLSTM),Residual LSTM[24](RLSTM)。HLSTM相比傳統(tǒng)LSTM,額外增加了一個控制門(carry gate),通過在相鄰LSTM層的神經(jīng)元間建立一個線性連接,制造出空間上的快速通道,將底層神經(jīng)元中的表達添加到高層神經(jīng)元中。該方法為構(gòu)筑更深層次的LSTM提供了思路。RLSTM借鑒HLSTM的思路,直接利用輸出門代替carry gate,該種方法不但有效減少了網(wǎng)絡(luò)參數(shù),同時也避免了梯度流之間的沖突,具有構(gòu)建更深層次LSTM網(wǎng)絡(luò)的能力。
可以看出,文本識別任務(wù)的發(fā)展經(jīng)歷了GMM-HMM到DNN-HMM,再到LSTM-DNN的聲學模型演化,逐步實現(xiàn)了長時連續(xù)語音的識別,但在實時語音識別任務(wù)中,依賴上下文的LSTM網(wǎng)絡(luò)反而不具備太大優(yōu)勢,在利用較長時刻信息提升識別準確率的同時也帶來了時延。為此,有學者[23]提出延遲受控BLSTM(latency control-BLSTM,LC-BLSTM)對LSTM進行優(yōu)化,大大提升了識別速度。
聲紋識別(voiceprint recognition,VPR)也被稱為說話人識別,其方向可分為兩大類:說話人辨認(speaker identification)和說話人驗證(speaker verification)。前者的目標是從一眾說話人群中找到那個特定的說話人,后者則是確認當前說話人是否是目標說話人;聲紋識別也可以分為文本相關(guān)的(text-dependent)和文本無關(guān)的(text-independent)兩種[25]。
人的聲音不是恒定的,通常會隨著說話人的情緒、年齡[26]、身體的健康狀況[27]的變化而變化。此外,環(huán)境噪聲也會對聲紋識別造成一定的影響。
在聲紋識別領(lǐng)域中,早期學者通過DTW算法[28]進行聲紋識別,該種方式只是用于特定說話人的特定文本,具有較大局限性。Reynolds等[29]率先提出高斯混合模型-通用背景模型(Gaussian mixture model-universal background model,GMM-UBM),其結(jié)構(gòu)如圖2所示。該模型使用大量非目標用戶語音作為背景數(shù)據(jù),訓練出一個不具備表征具體身份能力的模型,對語音特征的空間分布給出一個預(yù)估的概率模型,然后使用目標用戶的聲紋數(shù)據(jù),在該模型上使用最大后驗概率(maximum posterior probability,MAP)進行參數(shù)微調(diào),在不需要大量目標說話人數(shù)據(jù)的情況下即可訓練出良好的聲學模型,實現(xiàn)說話人識別。該模型極大地推動聲紋識別的發(fā)展,相比于虹膜、指紋等生物特征具有更易獲得的優(yōu)勢,因而廣泛應(yīng)用于社保、金融部分公共場所。

圖2 GMM-UBM聲學模型
但實際中,除了說話人之間有差異,采集語音的設(shè)備也有差異,這導致了系統(tǒng)性能不穩(wěn)定,而GMM-UBM聲學模型又無法克服這種信道間的差異,為此,Dehak[30]提出i-vector模型,將說話人和信道的差異作為一個整體,對全局差異進行建模,該模型將說話人模型投影到低維空間,克服了高斯分量相互獨立的局限性。但針對持續(xù)時間較短的語音,GMM-UBM模型很難在單一特征中尋找到用于區(qū)分特定人的信息,因而識別率不理想。有研究者[31]通過特征融合的方式,將語音的主成分分析和常用特征聯(lián)系起來,獲得了更優(yōu)良的特征參數(shù)。與文本識別任務(wù)一樣,CNN憑借其出色的特征提取能力,也被應(yīng)用在聲紋識別任務(wù)中。在對如何將輸入卷積神經(jīng)網(wǎng)絡(luò)的一維語音信號轉(zhuǎn)變成二維信號的問題上,胡青等[32]提出利用分幀的方法對原始語音信號進行規(guī)整,將語音分幀再拼接成二維表達,以滿足卷積操作對輸入信號的要求;張晴晴等[33]則提出語音信號的兩個維度,分別為時域維度和頻域維度,時域維度采用多幀串聯(lián)構(gòu)成長時特征,頻域維度則采用梅爾域的濾波帶系數(shù)作為參數(shù)。
隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,國內(nèi)外學者也將目光投向基于神經(jīng)網(wǎng)絡(luò)的說話人識別。有學者[34]使用DNN網(wǎng)絡(luò),從最后一個隱藏層提取說話人的特征并構(gòu)筑模型,在識別精度上相比i-vector模型具有更好的表現(xiàn)。有學者[35]針對噪聲環(huán)境,設(shè)計一個預(yù)處理步驟來解決噪音問題,通過語音分離手段訓練一個DNN來估計噪聲語音,然后對i-vector模型進行特征增強,進一步提高強噪聲環(huán)境下說話人識別的精度。
語音情緒識別方向具有廣闊的應(yīng)用前景,可用于醫(yī)療監(jiān)護、電子安防等諸多領(lǐng)域,作為語音識別的一個難點,如何提取語音情感的有效特征,使用何種特征刻畫何種情緒一直是一個重要的研究方向[36],此外,使用深度神經(jīng)網(wǎng)絡(luò)進行特征提取也越來越受到重視[37]。
心理學將情感分為了離散和連續(xù)兩種類型[38-39],最早的情緒識別是基于統(tǒng)計特征進行的離散情感分類[40-41],使用支持向量機(support vector machine,SVM)[42]、K最近鄰(K-nearest neighbor,K-NN)、隱馬爾可夫模型(hidden Markov model,HMM)[43]、GMM(Gaussian mixture model)[44]等淺層學習方式。
針對連續(xù)型情感,Grimm等人[45]最早提出三維情感描述模型,將維度情感識別問題建模為標準的回歸預(yù)測問題。由于人類情感的時間邊界模糊,一段語音中可能包含不止一種情感[46],因此有學者借鑒循環(huán)神經(jīng)網(wǎng)絡(luò)長時建模能力,對連續(xù)型情感語音進行識別,并很快改進為LSTM[47]。在語音情緒識別任務(wù)中,國內(nèi)太原理工大學張雪英團隊[48-49]建立了TYUT語音庫,并使用了心理學標注的PAD(愉悅度、激活度、優(yōu)勢度)三維情緒模型對情感語音進行描述,實現(xiàn)了基于連續(xù)維度的情感語音識別。該方法基于猶豫模糊信息的決策級融合,根據(jù)不同特征的識別權(quán)重,預(yù)測了語音在PAD情緒空間模型中的三個維度值,得出情感語音在連續(xù)維度角度的數(shù)值。
隨著數(shù)據(jù)量的增長,數(shù)據(jù)集與數(shù)據(jù)集之間的差別也愈發(fā)明顯,不同語種在某些情緒表達方面受文化、地域等諸多因素的影響,導致適用于某一數(shù)據(jù)集的模型在其他數(shù)據(jù)集上不一定表現(xiàn)優(yōu)良,跨越數(shù)據(jù)集的語音情緒識別也越發(fā)受到重視。針對這一問題,國內(nèi)外學者提出基于遷移學習的語音情緒識別模型。遷移學習可以實現(xiàn)從一個或多個源域中遷移有用的信息到相關(guān)的目標域,從而幫助改善目標域的分類性能[50-51]。
不難發(fā)現(xiàn),文本識別和情緒識別的發(fā)展有相似之處,識別內(nèi)容都從短時語音發(fā)展到長時語音,聲學模型也由RNN過渡到具有更長時序建模能力的LSTM。但無論何種形式的神經(jīng)網(wǎng)絡(luò),模塊之間的訓練獨立進行,比如聲學模型的訓練就是基于監(jiān)督性學習,目的是最大化訓練語音的概率,對于每一幀訓練數(shù)據(jù),需要事先知道其所對應(yīng)的標簽才能進行有效的學習,為此,在預(yù)處理階段需要對語音幀進行強制對齊。對于待識別語音的處理,往往也是先對波形進行加窗分幀,然后再提取特征。這種做法使得以不同目的為導向的損失函數(shù)不能共享信息,訓練出的網(wǎng)絡(luò)也很難達到最優(yōu)。
端到端的語音識別(end-to-end speech recognition)將整個語音識別過程視為序列分類的整體問題,能夠直接把一個目標序列映射為另一個結(jié)果序列[52],這種做法使得模型可以更自由地根據(jù)數(shù)據(jù)自動調(diào)節(jié)參數(shù),增加模型的契合度。
端到端的做法分為兩種,一種是端到端訓練(end-to-end training),將訓練好的聲學模型與語言模型連接在一起,再以某一目標函數(shù)訓練其中的聲學模型部分,計算系統(tǒng)整體的輸出;另一種是端到端模型(end-to-end models),將聲學模型、語言模型都集成在一個神經(jīng)網(wǎng)絡(luò)中,所有參數(shù)在訓練過程中一起優(yōu)化[9]。
目前主流的端到端模型有兩個,分別為連接時序分類(connectionist temporal classification,CTC)準則[53]和注意力機制(attention mechanism,AM)。
CTC用來衡量輸入數(shù)據(jù)經(jīng)過神經(jīng)網(wǎng)絡(luò)運算后和真實的輸出相差有多少,因此并不會關(guān)心預(yù)測輸出序列中每個結(jié)果在時間點上是否和輸入的序列正好對齊,其獨特的blank空格符的引入,使網(wǎng)絡(luò)對每一個音素的持續(xù)時長并不敏感,可以對停頓、遲疑、靜音等因個人語言習慣而導致的空白語音進行建模,因而克服了每個人發(fā)音特點不同的問題。有學者將CTC與LSTM聯(lián)系在一起,提出LSTM-CTC模型[22],獲得了較HMM-LSTM模型更高的識別精度。
注意力機制實質(zhì)上是一種權(quán)重矩陣,其過程為:計算每個特征的權(quán)值,然后對特征進行加權(quán)求和,權(quán)值越大,該特征對當前識別的重要程度就越大[54]。它模仿人類處理信息方式,將更多注意力集中于某一部分敏感信息而不是全局信息,這不僅提高了識別準確率,也避免了因上下文相關(guān)的輸入信息被限制在有限的長度當中而導致的模型泛化能力不足的問題[55]。
目前基于Attention機制的端到端語音識別模型已成為研究熱點。
主要介紹了語音識別領(lǐng)域中三個大類方向的發(fā)展現(xiàn)狀與其使用模型,不難發(fā)現(xiàn),端到端的訓練方式將是未來的主流。無論是文本識別、說話人識別,還是情緒識別,都是在實驗室環(huán)境或者相對安靜的環(huán)境中進行的,與實際應(yīng)用有一定差別。現(xiàn)實環(huán)境中充滿了噪聲,如何實現(xiàn)復雜噪聲環(huán)境下的語音識別,是一個熱門話題。而進一步,復雜噪聲環(huán)境往往和聲源距離有關(guān),隨著距離的增加,噪聲種類上升,并且將引入混響等一系列問題,致使信噪比急劇下降,如何提高遠場環(huán)境下的語音識別效果,是長期的熱點。
雖然當前的語音技術(shù)已經(jīng)可以在實驗室環(huán)境較好地識別一個人的語音,但面對說話人不止一個的雞尾酒會問題,依然沒有辦法將語音有重疊的說話人準確分離出來。此外,在情緒識別領(lǐng)域,盡管已經(jīng)發(fā)掘了較多情緒語音的特征,但這些特征對該種情緒貢獻多大并未有一個定量的研究,特征之間的相互聯(lián)系也需要大量工作去發(fā)現(xiàn)證明。隨著神經(jīng)網(wǎng)絡(luò)的快速興起,如何使用神經(jīng)網(wǎng)絡(luò)找到更有效的情緒特征,也是一個需要深入研究的問題。相信隨著計算機技術(shù)的發(fā)展,更快速更準確的識別手段將被發(fā)現(xiàn)并應(yīng)用,人機交互的方式將更加便捷。