999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度特征學(xué)習(xí)的藏語語音識別

2015-05-08 00:55:03劉曉鳳徐曉娜許彥敏
關(guān)鍵詞:深度特征模型

王 輝,趙 悅,劉曉鳳,徐曉娜,周 楠,許彥敏

(中央民族大學(xué)信息工程學(xué)院,北京100081)

基于深度特征學(xué)習(xí)的藏語語音識別

王 輝,趙 悅,劉曉鳳,徐曉娜,周 楠,許彥敏

(中央民族大學(xué)信息工程學(xué)院,北京100081)

根據(jù)聽覺語音學(xué)的知識,提出使用稀疏自動編碼器在MFCC特征基礎(chǔ)上進行深度學(xué)習(xí),提取了深度特征模仿聽覺神經(jīng)的稀疏觸動信號,有利于HMM模型語音識別精度的提高.實驗結(jié)果顯示,學(xué)習(xí)到的深度特征較MFCC特征在藏語語音識別正確率方面有明顯提高.

深度特征學(xué)習(xí);稀疏自動編碼器;藏語語音識別;MFCC特征

0 引言

圖1 聲音傳入聽覺中樞過程

根據(jù)聽覺語音學(xué)、心理語言學(xué)理論及人耳構(gòu)造知識可知,耳蝸實質(zhì)上相當(dāng)于一個濾波器組,耳蝸的濾波作用是在對數(shù)頻率尺度上進行的;耳蝸中有一個重要的部分稱為基底膜,在基底膜之上是柯蒂氏器官,它相當(dāng)于一種傳感裝置,耳蝸內(nèi)的流體速度變化,可影響柯蒂氏器官上的毛細胞膜兩邊電位變化,在一定條件下造成聽覺神經(jīng)的發(fā)放和抑制,最后聲音經(jīng)聽神經(jīng)傳入大腦的聽覺中樞完成語音的感知功能.[1]其過程如圖1所示.

在語音識別研究中,由于美爾倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)模擬了人耳對聲音頻率的感知,反映了人耳的聽覺特性,因此被廣泛用來作為語音識別模型的輸入特征,而大多數(shù)的識別模型采用了HMM (Hidden Markov Model)模型.目前,在藏語語音識別研究中,多數(shù)的研究者也是采用了這種淺層學(xué)習(xí)的建模方法,例如文獻[2-4]采用了39維的MFCC特征,構(gòu)建了藏語拉薩話的音素和聲韻母HMM識別模型.淺層模型的一個共性是僅含單個將原始輸入信號轉(zhuǎn)換到特定問題空間特征的簡單結(jié)構(gòu)[5].考慮到人腦對語音識別的機理,這種淺層語音識別建模并不能模擬出人腦的語音識別機理,主要是未能反映出聲音的頻率如何轉(zhuǎn)變?yōu)槁犛X神經(jīng)的觸動信號,因此基于淺層學(xué)習(xí)的語音識別系統(tǒng)的識別率仍有待提高.

盡管人們利用了人工神經(jīng)網(wǎng)絡(luò)模擬人腦的語音識別過程[6-7],但是受限于后向傳播算法的梯度擴散、學(xué)習(xí)的局部最優(yōu)和非稀疏性等問題,它不能夠很好地模擬人腦語音識別的過程.

近年來,深度學(xué)習(xí)方法克服了傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的缺點,采用無監(jiān)督的學(xué)習(xí)機制和隱層神經(jīng)元的稀疏性限制,建立了和模擬人腦進行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),更為合理地刻畫了人腦的機制來解釋數(shù)據(jù).[8-10]因此,本文提出使用稀疏自動編碼器(sparse auto-encoder,SA)在MFCC特征上進行深度學(xué)習(xí),提取深度特征,以模擬聲音頻率轉(zhuǎn)化為聽覺神經(jīng)稀疏觸動信號的過程,即代表人耳聽覺特性的MFCC特征,經(jīng)過稀疏自動編碼器轉(zhuǎn)化為稀疏聽覺神經(jīng)信號,最后傳入代表聽覺中樞的HMM模型,實現(xiàn)語音識別.

本文描述了基于深度特征學(xué)習(xí)的語音識別系統(tǒng)框架,介紹了一種簡單而有效的深度學(xué)習(xí)方法——稀疏自動編碼器,給出了基于深度特征學(xué)習(xí)的藏語語音識別聲學(xué)建模算法.

1 基于深度特征學(xué)習(xí)的語音識別系統(tǒng)

目前,已有的基于MFCC特征和HMM模型的語音識別系統(tǒng)采用了如圖2所示的框架.

圖2 基于MFCC特征和HMM模型的語音識別系統(tǒng)

該系統(tǒng)將語音的MFCC特征作為HMM模型的輸入觀測特征,建立各個語音類別模型,它屬于淺層學(xué)習(xí),并沒有模擬出人腦分析和解釋輸入數(shù)據(jù)的過程.

另一種語音識別方法采用了人工神經(jīng)網(wǎng)絡(luò)和HMM模型構(gòu)建聲學(xué)識別模型,如圖3所示.該系統(tǒng)中神經(jīng)網(wǎng)絡(luò)由包括輸入層、隱層、輸出層組成的多層網(wǎng)絡(luò),只有相鄰層節(jié)點之間有連接,同一層以及跨層節(jié)點之間相互無連接,這種分層結(jié)構(gòu)比較接近人類大腦的結(jié)構(gòu).但是傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練采用反向傳播的方式進行,其迭代訓(xùn)練于整個網(wǎng)絡(luò),隨機設(shè)定初值,計算當(dāng)前網(wǎng)絡(luò)的輸出,然后根據(jù)當(dāng)前輸出和真實類值的差去改變前面各層的參數(shù),直到收斂.這種訓(xùn)練方式的主要缺陷:受初值設(shè)定影響較大,容易陷入局部最優(yōu)和過擬合[11];殘差傳播到最前面的層會變得太小,出現(xiàn)梯度擴散;隱層神經(jīng)元的觸發(fā)不受稀疏性制約,因為人腦雖有大量的神經(jīng)元,但對于某些聲音只有很少的神經(jīng)元興奮,其他都處于抑制狀態(tài),因此每層神經(jīng)元的觸發(fā)信號應(yīng)該是稀疏的.

本文引入了深度學(xué)習(xí)機制,通過自下而上的逐層無監(jiān)督預(yù)訓(xùn)練(認知過程)和自上而下的權(quán)重調(diào)優(yōu)(生成過程)獲取語音輸入數(shù)據(jù)的深度特征,學(xué)習(xí)避免了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)陷入局部最優(yōu)、梯度發(fā)散和非稀疏性等問題.深度學(xué)習(xí)方法讓認知和生成達成一致,保證了生成的最頂層表示(高層特征),能夠盡可能正確地復(fù)原底層的結(jié)點(低層特征),也就是說高層的特征是低層特征的組合,從低層到高層的特征表示越來越抽象,越來越能表現(xiàn)數(shù)據(jù)的語義或者意圖.而抽象層面越高,存在的可能猜測就越少,就越有利于分類.比如頂層的一個結(jié)點表示某個字(詞),那么所有該字(詞)的語音應(yīng)該激活這個結(jié)點,并且這個結(jié)果向下生成的語音應(yīng)該能夠表現(xiàn)為一個大概的字(詞)語音.本文使用了一種簡單而有效的深度學(xué)習(xí)方法(稀疏自動編碼器)來學(xué)習(xí)深度特征,模擬人腦聽覺神經(jīng)對語音的感知信號,進而再將信息匯集到HMM模型進行語音類別的區(qū)分.

基于深度學(xué)習(xí)的語音識別系統(tǒng)框架見圖4,其中深度特征提取器利用稀疏自動編碼方法構(gòu)建,語音類別校驗器是基于HMM的語音識別模型.

圖3 基于MFCC特征、人工神經(jīng)網(wǎng)絡(luò)和HMM的語音識別系統(tǒng)

圖4 基于深度特征學(xué)習(xí)的語音識別系統(tǒng)

2 稀疏自動編碼器

稀疏自動編碼器是一種無監(jiān)督的學(xué)習(xí)算法,它讓輸出值等于輸入值.首先介紹只含1個隱層的稀疏自動編碼器(見圖5),然后再介紹棧式稀疏自動編碼器(見圖6).

圖5 含1個隱層稀疏自動編碼器

圖6 含2個隱層的棧式稀疏自動編碼器

設(shè)輸入向量x∈RD,隱向量h∈RN代表深度特征,輸入層和隱層之間的映射關(guān)系為

h=σ(W(1)x+b(1)).

(1)

(2)

求得.其中W(2)∈RN×D是解碼矩陣,b(2)∈RD為解碼偏置向量.新的非線性特征可以通過最小化有稀疏約束網(wǎng)絡(luò)的損失函數(shù)

(3)

(4)

棧式稀疏自動編碼器是由多個單層稀疏自動編碼器組成的神經(jīng)網(wǎng)絡(luò),其前一層稀疏自編碼器的輸出作為后一層稀疏自編碼器的輸入.對于一個含有n層的棧式稀疏自動編碼器,h(n)代表第n層的深度特征.

為了得到更好的實驗結(jié)果,我們在棧式稀疏自動編碼器的最頂層加上一個softmax分類節(jié)點,作為語音類別層,將該層的類別后驗概率作為學(xué)習(xí)得到的高層特征輸入HMM模型.

3 基于深度特征學(xué)習(xí)的藏語語音識別聲學(xué)建模算法

使用逐層貪心訓(xùn)練算法訓(xùn)練稀疏自動編碼器的參數(shù),主要有預(yù)訓(xùn)練和微調(diào)兩步.預(yù)訓(xùn)練中使用無標簽的數(shù)據(jù)樣本,采用無監(jiān)督的方法訓(xùn)練第1層網(wǎng)絡(luò),獲得參數(shù)W(1,1),W(1,2),b(1,1)和b(1,2),然后網(wǎng)絡(luò)第1層將原始輸入轉(zhuǎn)化成由隱藏單元激活值組成的向量.把上層輸出的向量作為第2層的輸入,繼續(xù)訓(xùn)練得到第2層的參數(shù)W(2,1),W(2,2),b(2,1)和b(2,2).對后面的各層采用同樣的策略,即將前層的輸出作為下一層輸入的方式依次訓(xùn)練.預(yù)訓(xùn)練后,利用帶標簽的數(shù)據(jù),使用后向傳播算法對稀疏自動編碼器的所有層參數(shù)同時進行微調(diào).

利用含2個隱層的棧式稀疏自動編碼器模型提取輸入語音數(shù)據(jù)特征的算法描述如下:

(1) 使用無監(jiān)督的方法,基于輸入語音數(shù)據(jù)U的MFCC特征訓(xùn)練稀疏自動編碼器的第1隱層網(wǎng)絡(luò)參數(shù),并用訓(xùn)練好的參數(shù)計算出隱層的輸出,將其作為輸入語音數(shù)據(jù)的深度特征h(1);

(2) 把步驟(1)的輸出特征h(1)作為稀疏自動編碼器第2層的輸入,采用步驟(1)同樣的方法得到第2層深度特征h(2);

(3) 把步驟(2)的輸出特征h(2)輸入到softmax分類層,訓(xùn)練softmax分類器,以便輸出語音類別的后驗概率;

(4) 使用輸入數(shù)據(jù)U的類別標簽微調(diào)具有兩層隱層加softmax分類層的稀疏自動編碼器各層參數(shù);

(5) 輸出訓(xùn)練好的稀疏自動編碼器;

(6) 把原始數(shù)據(jù)U輸入到訓(xùn)練好的稀疏自動編碼器,獲得語音類別的后驗概率輸出,然后把后驗概率作為HMM模型的輸入觀測值,訓(xùn)練各語音類別的HMM模型.

4 實驗結(jié)果

評估了在MFCC特征基礎(chǔ)上使用稀疏自動編碼器提取深度特征并用于藏語孤立詞語音的識別.在實驗中比較了MFCC特征、單層稀疏自動編碼器、兩層稀疏自動編碼器和多層感知器神經(jīng)網(wǎng)絡(luò)(multi-layer perceptron neural networks,MLP neural netwoks)的輸出特征訓(xùn)練HMM模型的識別結(jié)果.

本文采用了2個數(shù)據(jù)集:第1個是34類藏語音素的音頻數(shù)據(jù)集,其中每類音素讀7遍,前5遍作為訓(xùn)練數(shù)據(jù)集,后2遍用于測試,該數(shù)據(jù)集為無噪音語音數(shù)據(jù);第2個是包含270句話的藏語連續(xù)語音數(shù)據(jù)集,從中提取了29類藏語單音素數(shù)據(jù)進行訓(xùn)練和測試.

所有語音數(shù)據(jù)的采樣頻率為8 000 Hz,提取以32 ms為幀長,10 ms為幀移的39維MFCC特征(12維濾波器輸出加上一維對數(shù)能量及其一階差分和二階差分).稀疏自動編碼器和MLP輸入層含有39個節(jié)點,隱層節(jié)點數(shù)都設(shè)為100個,隱層節(jié)點為sigmoid型.稀疏自動編碼器的稀疏值懲罰度權(quán)重β=3,稀疏性參數(shù)ρ=0.1,權(quán)重衰減系數(shù)λ=0.003.表1給出了藏語語音識別的實驗結(jié)果.

表1 藏語語音識別的正確率 %

從表1的實驗結(jié)果可以看出,使用MLP在MFCC特征基礎(chǔ)上提取的新特征和傳統(tǒng)的MFCC特征相比,在識別性能方面有明顯地提高.其中,在34個音素數(shù)據(jù)集上識別率提高了25%;在29類藏語音素數(shù)據(jù)集上的識別正確率提升了4.22%.然而,使用稀疏自動編碼器在MFCC特征基礎(chǔ)上提取深度特征進行語音識別的正確率,更高于使用MLP提取新特征識別的正確率.實驗證明,與MFCC特征相比,雖然MLP神經(jīng)網(wǎng)絡(luò)模擬了人腦的語音識別過程,識別率有了明顯提高,但是考慮到其本身存在梯度擴散、非稀疏性等缺點,其識別效果不如深度學(xué)習(xí)方法.本文使用的稀疏自動編碼器在MFCC特征基礎(chǔ)上進行深度學(xué)習(xí),很好地模擬了人腦聽覺神經(jīng)對語音信號的稀疏觸發(fā)過程,學(xué)習(xí)得到的深度特征更能提高HMM模型的語音識別精度.

5 總結(jié)

本文應(yīng)用稀疏自動編碼器提取深度語音特征,在藏語孤立詞語音識別應(yīng)用的實驗中,這種深度學(xué)習(xí)方法提取的語音特征比MFCC特征和MLP特征能更好地模擬聲音頻率信號轉(zhuǎn)化為聽覺神經(jīng)稀疏觸動信號,使語音識別模型的性能有了進一步地提升.

以后我們將使用更大規(guī)模的數(shù)據(jù)集,測試藏語連續(xù)語音識別的準確率,進一步驗證語音深度特征學(xué)習(xí)方法的有效性.

[1] 韓紀慶,張磊,鄭鐵然. 語音信號處理[M]. 北京:清華大學(xué)出版社,2013:11-12,24-25.

[2] 裴春寶. 基于標準拉薩語的藏語語音識別技術(shù)研究[D].拉薩:西藏大學(xué),2009.

[3] MENG MENG.藏語拉薩話大詞表連續(xù)語音識別聲學(xué)模型研究.[J].計算機工程,2012,38(5):189-191.

[4] 徐慧. 基于隱馬爾科夫模型的拉薩話語音撥號技術(shù)研究[D].西北民族大學(xué),2013.

[5] MORGAN N,BOURLARD H. Continuous speech recognition[J]. Signal Processing Magazine,1995,12(3):24-42.

[6] DEDE G,SAZLI M H. Speech recognition with artificial neural networks[J]. Digital Signal Processing,2010,20(3):763-768.

[7] FU G. A novel isolated speech recognition method based on neural network[C]//Proceedings of the International Conference on Information Engineering and Applications (IEA) 2012,Springer:London,2013:429-436.

[8] SIVARAM G S V S,NEMALA S K,ELHILALI M,et al. Sparse coding for speech recognition[C]//Acoustics Speech and Signal Processing (ICASSP),Texas:IEEE,2010:4346-4349.

[9] AHMADI S,AHADI S M,CRANEN B,et al. Sparse coding of the modulation spectrum for noise-robust automatic speech recognition[J]. EURASIP Journal on Audio,Speech,and Music Processing,2014(1):1-20.

[10] O’DONNELL F,TRIEFENBACH F,MARTENS J P,et al. Effects of architecture choices on sparse coding in speech recognition[M]//Artificial Neural Networks and Machine Learning-ICANN,Springer:Berlin Heidelberg,2012:629-636.

[11] SUN ZHI-JUN,XUE LEI,XU YANG-MING,et al. Overview of deep learning[J]. Application Research of Computers,2012(8):2806-2810.

(責(zé)任編輯:石紹慶)

Deep feature learning for tibetan speech recognition

WANG Hui,ZHAO Yue,LIU Xiao-feng,XU Xiao-na,ZHOU Nan,XU Yan-min

(School of Information Engineering,Minzu University of China,Beijing 100081,China)

HMM models based on MFCC features are widely used by researchers in Tibetan speech recognition. Although the shallow models of HMM are effective,they cannot reflect the speech perceptual mechanism in human beings’ brain. In this paper,It is proposed to apply sparse auto-encoder to learn deep features based on MFCC for speech data. The deep features not only simulate sparse touches signal of the auditory nerve,and are significant to improve speech recognition accuracy with HMM models. Experimental results show that the deep features learned by sparse auto-encoder perform better on Tibetan speech recognition than MFCC features and the features learned by MLP.

deep feature learning; sparse auto-encoder; Tibetan speech recognition; MFCC features

1000-1832(2015)04-0069-05

10.16163/j.cnki.22-1123/n.2015.04.015

2014-12-12

國家自然科學(xué)基金資助項目(61309012);教育部人文社科基金資助項目(12YJA630123);中央民族大學(xué)一流大學(xué)一級學(xué)科資助項目.

王輝(1961—),男,教授,主要從事機器學(xué)習(xí)、數(shù)據(jù)挖掘、語音識別研究.

TP 391;TN 912.34 [學(xué)科代碼] 520·20

A

猜你喜歡
深度特征模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
主站蜘蛛池模板: 美女国产在线| 亚洲成a人片| 亚洲人成网18禁| 色综合天天视频在线观看| 国产精品自在自线免费观看| 国产在线无码av完整版在线观看| 九九视频在线免费观看| 亚洲香蕉久久| 色天天综合久久久久综合片| 真实国产乱子伦高清| 日韩黄色在线| 日本少妇又色又爽又高潮| 国产素人在线| 久久99热66这里只有精品一| 国内老司机精品视频在线播出| 操美女免费网站| 欧美国产综合视频| 欧美不卡在线视频| 99热精品久久| 亚洲第一视频网站| 色成人综合| 欧美va亚洲va香蕉在线| 91美女视频在线| a级毛片一区二区免费视频| 精品久久综合1区2区3区激情| 中文字幕一区二区视频| 日本免费新一区视频| 伊人狠狠丁香婷婷综合色| 国产成人综合在线视频| 2022国产91精品久久久久久| 亚洲中文字幕无码mv| 久久影院一区二区h| 免费不卡视频| 波多野结衣亚洲一区| 99在线视频免费| 九九免费观看全部免费视频| 久久99国产精品成人欧美| 亚洲无码日韩一区| 久久人午夜亚洲精品无码区| 97超级碰碰碰碰精品| 97视频精品全国免费观看 | 最新日韩AV网址在线观看| 国产欧美精品一区二区| 欧美成人区| 精品无码人妻一区二区| 中文字幕在线播放不卡| 国内精品久久人妻无码大片高| 日韩无码视频播放| 亚洲一区二区精品无码久久久| a级毛片在线免费观看| 一本大道无码高清| www亚洲天堂| 777午夜精品电影免费看| 国产高潮流白浆视频| 亚洲色无码专线精品观看| 91精品国产一区| 人妻少妇久久久久久97人妻| 国产精品尤物铁牛tv| 国产免费久久精品44| 久久黄色免费电影| 88av在线看| 人妻中文久热无码丝袜| 99精品国产自在现线观看| 婷婷六月综合| 1级黄色毛片| 18禁色诱爆乳网站| 无码精品一区二区久久久| 一本无码在线观看| 91小视频在线观看免费版高清| 久久永久精品免费视频| 国产99精品久久| 国产成人精品亚洲77美色| 97人人模人人爽人人喊小说| 欧美日本在线一区二区三区| 国产女人爽到高潮的免费视频| 美美女高清毛片视频免费观看| 欧美日韩高清| 亚洲永久色| 亚洲无码精品在线播放| 在线播放精品一区二区啪视频| 精品一区二区无码av| 精品国产美女福到在线不卡f|