龍星延 屈 丹 張文林 徐思穎
(戰(zhàn)略支援部隊(duì)信息工程大學(xué)信息系統(tǒng)工程學(xué)院, 河南鄭州 450001)
聲學(xué)模型(Acoustic Model, AM)是連續(xù)語(yǔ)音識(shí)別系統(tǒng)的核心模塊,也是語(yǔ)音識(shí)別熱門研究領(lǐng)域。由于隱馬可夫模型(Hidden Markov Model, HMM) 能描述語(yǔ)音信號(hào)時(shí)變性和非平穩(wěn)性,同時(shí)擁有完成的理論體系和高效的模型參數(shù)估計(jì)與解碼算法,它與高斯混合模型(Gaussian Mixture Model, GMM)組合成的GMM-HMM模型一直是主流的聲學(xué)模型。伴隨深度學(xué)習(xí)和人工智能技術(shù)等的興起,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)與HMM組合的聲學(xué)模型進(jìn)一步提升識(shí)別率[1]。但基于HMM的聲學(xué)模型存在以下缺陷:HMM假設(shè)當(dāng)前狀態(tài)的先驗(yàn)概率只受上一狀態(tài)影響,不能充分記錄和利用音素序列的時(shí)序信息;HMM建模依賴發(fā)音字典、決策樹聚類等相關(guān)語(yǔ)言學(xué)知識(shí)。
為彌補(bǔ)HMM模型的缺陷,文獻(xiàn)[2]提出在GMM-HMM框架上采用序列區(qū)分性準(zhǔn)則重新訓(xùn)練模型,充分學(xué)習(xí)特征序列的時(shí)序信息以提高識(shí)別準(zhǔn)確率。在GMM-HMM框架下有效序列區(qū)分性準(zhǔn)則包括最大互信息準(zhǔn)則[3](Maximum Mutual Information, MMI)、增強(qiáng)型最大互信息準(zhǔn)則[4](boosted MMI, bMMI)、最小音素錯(cuò)誤[5](Minimum Phone Error, MPE)和最小貝葉斯風(fēng)險(xiǎn)[6](Minimum Bayes Risk, MBR)。文獻(xiàn)[7]提出基于MMI準(zhǔn)則的瓶頸深置信網(wǎng)絡(luò)特征提取方法改進(jìn)GMM-HMM系統(tǒng)性能。文獻(xiàn)[8]在DNN-HMM模型中引入序列區(qū)分性準(zhǔn)則,進(jìn)一步提升聲學(xué)模型的識(shí)別性能。Graves等人提出連接時(shí)序分類算法[9](Connectionist Temporal Classification, CTC),實(shí)現(xiàn)語(yǔ)音特征序列到音素序列的直接映射,建立基于CTC的端到端聲學(xué)模型[10]。文獻(xiàn)[11]在此基礎(chǔ)上通過(guò)加權(quán)有限狀態(tài)機(jī)將其與語(yǔ)言模型相結(jié)合并用于連續(xù)語(yǔ)音識(shí)別。與基于HMM聲學(xué)模型相比,端到端模型不需要先驗(yàn)對(duì)齊信息和建立決策樹等步驟,并且通過(guò)將字素作為建模對(duì)象可以擺脫對(duì)發(fā)音字典的依賴,但識(shí)別性能存在一定差距。……