付 英,劉增力,湯 輝
(1.昆明理工大學(xué),云南 昆明 650504;2.江西省科技基礎(chǔ)條件平臺中心,江西 南昌 330003)
全球化的今天,不同國家不同地區(qū)的人們跨語種交流的機(jī)會越來越多,隨著深度學(xué)習(xí)技術(shù)趨于成熟,語種識別研究也成為眾多研究者關(guān)注的重點(diǎn)。語種辨識逐漸應(yīng)用到各個領(lǐng)域,而能否迅速、準(zhǔn)確判斷說話者所說的語言是其他功能正常運(yùn)行的基礎(chǔ)[1]。方言語種識別是語種識別中的一個特例,由于方言之間具有相似性,因此針對方言語種識別的研究更具挑戰(zhàn)性。
語種識別是通過給定一段語音并判別所屬區(qū)域的過程,其作為語音信號處理的前端技術(shù),在語音識別等相關(guān)領(lǐng)域發(fā)揮著重要作用,主要應(yīng)用在語音翻譯、公共安全、多語言對話系統(tǒng)等方面[2]。到目前為止,許多技術(shù)已成功應(yīng)用于語種識別中,特別是針對易混淆的方言語種辨識。傳統(tǒng)的聲學(xué)模型如高斯混合—通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)[3]、隱馬爾可夫模型(Hidden Markov Model,HMM)[4]等常用于語種辨識中,但這些聲學(xué)模型往往結(jié)構(gòu)復(fù)雜且訓(xùn)練時間長。
近年來,深度學(xué)習(xí)依靠快速的計(jì)算能力以及對大數(shù)據(jù)的分析處理能力,在語音研究領(lǐng)域被廣泛應(yīng)用。早期,眾多研究者利用深度學(xué)習(xí)提取語音深度瓶頸特征(Deep Bottleneck Feature,DBF)[5],替代了傳統(tǒng)的GMM-UBM結(jié)合聲學(xué)特征的方法,該特征能高效表征語種信息,使語種更具有區(qū)分性,但模型結(jié)構(gòu)較為復(fù)雜。之后,基于各種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搭建端到端語種辨識系統(tǒng)的方法應(yīng)運(yùn)而生。最早Lopez-Moreno等人[6]將深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)應(yīng)用在短時語種識別中。……