張 威,劉 晨,費鴻博,李 巍,俞經虎,曹 毅?
1) 江南大學機械工程學院,無錫 214122 2) 江蘇省食品先進制造裝備技術重點實驗室,無錫 214122 3) 蘇州工業職業技術學院,蘇州 215104
語音識別是人機交互的一項關鍵技術,近年來,基于深度學習的語音識別技術取得了跨越式的發展[1-2],其在語音搜索、個人數碼助理及車載娛樂系統[3]等領域得到了廣泛應用. 鑒于聲學建模是語音識別技術的關鍵,因此國內外學者對其開展了廣泛研究[4-15],主要可劃分為4類:(1)隱馬爾科夫模型[4-7](Hidden Markov model, HMM);(2)連接 時 序 分 類[8-11](Connectionist temporal classification, CTC);(3)序列到序列(Sequence to sequence,S2S)模型[12];(4) 循環神經網絡轉換器[13-15](Recurrent neural network-transducer, RNN-T).
(1) 第1類基于HMM構建聲學模型,用神經網絡描述聲學特征的概率分布,有效彌補了高斯混合模型對于語音特征建模能力不足的缺點,從而提升聲學模型準確率[4]. 其中,Peddinti等[5]探索了神經網絡-隱馬爾可夫模型(Neural networkhidden Markov model, NN-HMM)的聲學模型;Povey等[6]構建了因式分解的時延神經網絡模型;刑安昊等[7]提出了深度神經網絡(Deep neural network, DNN)裁剪方法,使得DNN性能損失降低. (2)第2類方法基于CTC構建端到端聲學模型,無需時間維度上幀級別對齊標簽,極大地簡化了聲學模型訓練流程[8-11]. Graves[8]首次構建了神經網絡-連接時序分類(Neural network-CTC,NN-CTC)聲學模型并驗證了其對于聲學建模的有效性;Zhang等[9]探索了深度卷積神經網絡-連接時序分類(DCNN-CTC)模型;Zhang等[10]構建了多路卷積神經網絡-連接時序分類聲學模型,使得音節錯誤率相對降低12.08%;Zhang等[11]提出了連接時序分類-交叉熵訓練方法. (3)第3類方法旨在將聲學特征編碼成高維向量,再解碼成識別結果. 基于自注……