王 輝,趙 悅,劉曉鳳,徐曉娜,周 楠,許彥敏
(中央民族大學信息工程學院,北京100081)
基于深度特征學習的藏語語音識別
王 輝,趙 悅,劉曉鳳,徐曉娜,周 楠,許彥敏
(中央民族大學信息工程學院,北京100081)
根據聽覺語音學的知識,提出使用稀疏自動編碼器在MFCC特征基礎上進行深度學習,提取了深度特征模仿聽覺神經的稀疏觸動信號,有利于HMM模型語音識別精度的提高.實驗結果顯示,學習到的深度特征較MFCC特征在藏語語音識別正確率方面有明顯提高.
深度特征學習;稀疏自動編碼器;藏語語音識別;MFCC特征

圖1 聲音傳入聽覺中樞過程
根據聽覺語音學、心理語言學理論及人耳構造知識可知,耳蝸實質上相當于一個濾波器組,耳蝸的濾波作用是在對數頻率尺度上進行的;耳蝸中有一個重要的部分稱為基底膜,在基底膜之上是柯蒂氏器官,它相當于一種傳感裝置,耳蝸內的流體速度變化,可影響柯蒂氏器官上的毛細胞膜兩邊電位變化,在一定條件下造成聽覺神經的發放和抑制,最后聲音經聽神經傳入大腦的聽覺中樞完成語音的感知功能.[1]其過程如圖1所示.
在語音識別研究中,由于美爾倒譜系數(Mel Frequency Cepstrum Coefficient,MFCC)模擬了人耳對聲音頻率的感知,反映了人耳的聽覺特性,因此被廣泛用來作為語音識別模型的輸入特征,而大多數的識別模型采用了HMM (Hidden Markov Model)模型.目前,在藏語語音識別研究中,多數的研究者也是采用了這種淺層學習的建模方法,例如文獻[2-4]采用了39維的MFCC特征,構建了藏語拉薩話的音素和聲韻母HMM識別模型.淺層模型的一個共性是僅含單個將原始輸入信號轉換到特定問題空間特征的簡單結構[5].考慮到人腦對語音識別的機理,這種淺層語音識別建模并不能模擬出人腦的語音識別機理,主要是未能反映出聲音的頻率如何轉變為聽覺神經的觸動信號,因此基于淺層學習的語音識別系統的識別率仍有待提高.
盡管人們利用了人工神經網絡模擬人腦的語音識別過程[6-7],但是受限于后向傳播算法的梯度擴散、學習的局部最優和非稀疏性等問題,它不能夠很好地模擬人腦語音識別的過程.
近年來,深度學習方法克服了傳統人工神經網絡訓練中的缺點,采用無監督的學習機制和隱層神經元的稀疏性限制,建立了和模擬人腦進行分析學習的神經網絡,更為合理地刻畫了人腦的機制來解釋數據.[8-10]因此,本文提出使用稀疏自動編碼器(sparse auto-encoder,SA)在MFCC特征上進行深度學習,提取深度特征,以模擬聲音頻率轉化為聽覺神經稀疏觸動信號的過程,即代表人耳聽覺特性的MFCC特征,經過稀疏自動編碼器轉化為稀疏聽覺神經信號,最后傳入代表聽覺中樞的HMM模型,實現語音識別.
本文描述了基于深度特征學習的語音識別系統框架,介紹了一種簡單而有效的深度學習方法——稀疏自動編碼器,給出了基于深度特征學習的藏語語音識別聲學建模算法.
目前,已有的基于MFCC特征和HMM模型的語音識別系統采用了如圖2所示的框架.

圖2 基于MFCC特征和HMM模型的語音識別系統
該系統將語音的MFCC特征作為HMM模型的輸入觀測特征,建立各個語音類別模型,它屬于淺層學習,并沒有模擬出人腦分析和解釋輸入數據的過程.
另一種語音識別方法采用了人工神經網絡和HMM模型構建聲學識別模型,如圖3所示.該系統中神經網絡由包括輸入層、隱層、輸出層組成的多層網絡,只有相鄰層節點之間有連接,同一層以及跨層節點之間相互無連接,這種分層結構比較接近人類大腦的結構.但是傳統的神經網絡的訓練采用反向傳播的方式進行,其迭代訓練于整個網絡,隨機設定初值,計算當前網絡的輸出,然后根據當前輸出和真實類值的差去改變前面各層的參數,直到收斂.這種訓練方式的主要缺陷:受初值設定影響較大,容易陷入局部最優和過擬合[11];殘差傳播到最前面的層會變得太小,出現梯度擴散;隱層神經元的觸發不受稀疏性制約,因為人腦雖有大量的神經元,但對于某些聲音只有很少的神經元興奮,其他都處于抑制狀態,因此每層神經元的觸發信號應該是稀疏的.
本文引入了深度學習機制,通過自下而上的逐層無監督預訓練(認知過程)和自上而下的權重調優(生成過程)獲取語音輸入數據的深度特征,學習避免了傳統神經網絡陷入局部最優、梯度發散和非稀疏性等問題.深度學習方法讓認知和生成達成一致,保證了生成的最頂層表示(高層特征),能夠盡可能正確地復原底層的結點(低層特征),也就是說高層的特征是低層特征的組合,從低層到高層的特征表示越來越抽象,越來越能表現數據的語義或者意圖.而抽象層面越高,存在的可能猜測就越少,就越有利于分類.比如頂層的一個結點表示某個字(詞),那么所有該字(詞)的語音應該激活這個結點,并且這個結果向下生成的語音應該能夠表現為一個大概的字(詞)語音.本文使用了一種簡單而有效的深度學習方法(稀疏自動編碼器)來學習深度特征,模擬人腦聽覺神經對語音的感知信號,進而再將信息匯集到HMM模型進行語音類別的區分.
基于深度學習的語音識別系統框架見圖4,其中深度特征提取器利用稀疏自動編碼方法構建,語音類別校驗器是基于HMM的語音識別模型.

圖3 基于MFCC特征、人工神經網絡和HMM的語音識別系統

圖4 基于深度特征學習的語音識別系統
稀疏自動編碼器是一種無監督的學習算法,它讓輸出值等于輸入值.首先介紹只含1個隱層的稀疏自動編碼器(見圖5),然后再介紹棧式稀疏自動編碼器(見圖6).

圖5 含1個隱層稀疏自動編碼器

圖6 含2個隱層的棧式稀疏自動編碼器
設輸入向量x∈RD,隱向量h∈RN代表深度特征,輸入層和隱層之間的映射關系為
h=σ(W(1)x+b(1)).
(1)

(2)
求得.其中W(2)∈RN×D是解碼矩陣,b(2)∈RD為解碼偏置向量.新的非線性特征可以通過最小化有稀疏約束網絡的損失函數

(3)


(4)
棧式稀疏自動編碼器是由多個單層稀疏自動編碼器組成的神經網絡,其前一層稀疏自編碼器的輸出作為后一層稀疏自編碼器的輸入.對于一個含有n層的棧式稀疏自動編碼器,h(n)代表第n層的深度特征.
為了得到更好的實驗結果,我們在棧式稀疏自動編碼器的最頂層加上一個softmax分類節點,作為語音類別層,將該層的類別后驗概率作為學習得到的高層特征輸入HMM模型.
使用逐層貪心訓練算法訓練稀疏自動編碼器的參數,主要有預訓練和微調兩步.預訓練中使用無標簽的數據樣本,采用無監督的方法訓練第1層網絡,獲得參數W(1,1),W(1,2),b(1,1)和b(1,2),然后網絡第1層將原始輸入轉化成由隱藏單元激活值組成的向量.把上層輸出的向量作為第2層的輸入,繼續訓練得到第2層的參數W(2,1),W(2,2),b(2,1)和b(2,2).對后面的各層采用同樣的策略,即將前層的輸出作為下一層輸入的方式依次訓練.預訓練后,利用帶標簽的數據,使用后向傳播算法對稀疏自動編碼器的所有層參數同時進行微調.
利用含2個隱層的棧式稀疏自動編碼器模型提取輸入語音數據特征的算法描述如下:
(1) 使用無監督的方法,基于輸入語音數據U的MFCC特征訓練稀疏自動編碼器的第1隱層網絡參數,并用訓練好的參數計算出隱層的輸出,將其作為輸入語音數據的深度特征h(1);
(2) 把步驟(1)的輸出特征h(1)作為稀疏自動編碼器第2層的輸入,采用步驟(1)同樣的方法得到第2層深度特征h(2);
(3) 把步驟(2)的輸出特征h(2)輸入到softmax分類層,訓練softmax分類器,以便輸出語音類別的后驗概率;
(4) 使用輸入數據U的類別標簽微調具有兩層隱層加softmax分類層的稀疏自動編碼器各層參數;
(5) 輸出訓練好的稀疏自動編碼器;
(6) 把原始數據U輸入到訓練好的稀疏自動編碼器,獲得語音類別的后驗概率輸出,然后把后驗概率作為HMM模型的輸入觀測值,訓練各語音類別的HMM模型.
評估了在MFCC特征基礎上使用稀疏自動編碼器提取深度特征并用于藏語孤立詞語音的識別.在實驗中比較了MFCC特征、單層稀疏自動編碼器、兩層稀疏自動編碼器和多層感知器神經網絡(multi-layer perceptron neural networks,MLP neural netwoks)的輸出特征訓練HMM模型的識別結果.
本文采用了2個數據集:第1個是34類藏語音素的音頻數據集,其中每類音素讀7遍,前5遍作為訓練數據集,后2遍用于測試,該數據集為無噪音語音數據;第2個是包含270句話的藏語連續語音數據集,從中提取了29類藏語單音素數據進行訓練和測試.
所有語音數據的采樣頻率為8 000 Hz,提取以32 ms為幀長,10 ms為幀移的39維MFCC特征(12維濾波器輸出加上一維對數能量及其一階差分和二階差分).稀疏自動編碼器和MLP輸入層含有39個節點,隱層節點數都設為100個,隱層節點為sigmoid型.稀疏自動編碼器的稀疏值懲罰度權重β=3,稀疏性參數ρ=0.1,權重衰減系數λ=0.003.表1給出了藏語語音識別的實驗結果.

表1 藏語語音識別的正確率 %
從表1的實驗結果可以看出,使用MLP在MFCC特征基礎上提取的新特征和傳統的MFCC特征相比,在識別性能方面有明顯地提高.其中,在34個音素數據集上識別率提高了25%;在29類藏語音素數據集上的識別正確率提升了4.22%.然而,使用稀疏自動編碼器在MFCC特征基礎上提取深度特征進行語音識別的正確率,更高于使用MLP提取新特征識別的正確率.實驗證明,與MFCC特征相比,雖然MLP神經網絡模擬了人腦的語音識別過程,識別率有了明顯提高,但是考慮到其本身存在梯度擴散、非稀疏性等缺點,其識別效果不如深度學習方法.本文使用的稀疏自動編碼器在MFCC特征基礎上進行深度學習,很好地模擬了人腦聽覺神經對語音信號的稀疏觸發過程,學習得到的深度特征更能提高HMM模型的語音識別精度.
本文應用稀疏自動編碼器提取深度語音特征,在藏語孤立詞語音識別應用的實驗中,這種深度學習方法提取的語音特征比MFCC特征和MLP特征能更好地模擬聲音頻率信號轉化為聽覺神經稀疏觸動信號,使語音識別模型的性能有了進一步地提升.
以后我們將使用更大規模的數據集,測試藏語連續語音識別的準確率,進一步驗證語音深度特征學習方法的有效性.
[1] 韓紀慶,張磊,鄭鐵然. 語音信號處理[M]. 北京:清華大學出版社,2013:11-12,24-25.
[2] 裴春寶. 基于標準拉薩語的藏語語音識別技術研究[D].拉薩:西藏大學,2009.
[3] MENG MENG.藏語拉薩話大詞表連續語音識別聲學模型研究.[J].計算機工程,2012,38(5):189-191.
[4] 徐慧. 基于隱馬爾科夫模型的拉薩話語音撥號技術研究[D].西北民族大學,2013.
[5] MORGAN N,BOURLARD H. Continuous speech recognition[J]. Signal Processing Magazine,1995,12(3):24-42.
[6] DEDE G,SAZLI M H. Speech recognition with artificial neural networks[J]. Digital Signal Processing,2010,20(3):763-768.
[7] FU G. A novel isolated speech recognition method based on neural network[C]//Proceedings of the International Conference on Information Engineering and Applications (IEA) 2012,Springer:London,2013:429-436.
[8] SIVARAM G S V S,NEMALA S K,ELHILALI M,et al. Sparse coding for speech recognition[C]//Acoustics Speech and Signal Processing (ICASSP),Texas:IEEE,2010:4346-4349.
[9] AHMADI S,AHADI S M,CRANEN B,et al. Sparse coding of the modulation spectrum for noise-robust automatic speech recognition[J]. EURASIP Journal on Audio,Speech,and Music Processing,2014(1):1-20.
[10] O’DONNELL F,TRIEFENBACH F,MARTENS J P,et al. Effects of architecture choices on sparse coding in speech recognition[M]//Artificial Neural Networks and Machine Learning-ICANN,Springer:Berlin Heidelberg,2012:629-636.
[11] SUN ZHI-JUN,XUE LEI,XU YANG-MING,et al. Overview of deep learning[J]. Application Research of Computers,2012(8):2806-2810.
(責任編輯:石紹慶)
Deep feature learning for tibetan speech recognition
WANG Hui,ZHAO Yue,LIU Xiao-feng,XU Xiao-na,ZHOU Nan,XU Yan-min
(School of Information Engineering,Minzu University of China,Beijing 100081,China)
HMM models based on MFCC features are widely used by researchers in Tibetan speech recognition. Although the shallow models of HMM are effective,they cannot reflect the speech perceptual mechanism in human beings’ brain. In this paper,It is proposed to apply sparse auto-encoder to learn deep features based on MFCC for speech data. The deep features not only simulate sparse touches signal of the auditory nerve,and are significant to improve speech recognition accuracy with HMM models. Experimental results show that the deep features learned by sparse auto-encoder perform better on Tibetan speech recognition than MFCC features and the features learned by MLP.
deep feature learning; sparse auto-encoder; Tibetan speech recognition; MFCC features
1000-1832(2015)04-0069-05
10.16163/j.cnki.22-1123/n.2015.04.015
2014-12-12
國家自然科學基金資助項目(61309012);教育部人文社科基金資助項目(12YJA630123);中央民族大學一流大學一級學科資助項目.
王輝(1961—),男,教授,主要從事機器學習、數據挖掘、語音識別研究.
TP 391;TN 912.34 [學科代碼] 520·20
A