999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

用于孤立數字語音識別的一種組合降維方法

2016-12-23 02:03:23宋青松田正鑫孫文磊吳小杰安毅生
西安交通大學學報 2016年6期
關鍵詞:方法

宋青松,田正鑫,孫文磊,吳小杰,安毅生

(長安大學信息工程學院,710064,西安)

?

用于孤立數字語音識別的一種組合降維方法

宋青松,田正鑫,孫文磊,吳小杰,安毅生

(長安大學信息工程學院,710064,西安)

針對孤立數字語音識別的噪聲魯棒性問題,提出了一個組合降維方法。該方法由梅爾頻率倒譜系數(MFCC)特征提取、線性降維、受限玻爾茲曼機(RBM)、Softmax分類器4個功能模塊依次組成;基于主成分分析(PCA)基本原理對MFCC特征向量實現了降維并且統一維度的目的;通過RBM對降維后的特征向量進行學習,改善了后端Softmax分類器的分類性能,RBM的預訓練由對比散度算法完成,微調過程使用共軛梯度算法。采用TI-46孤立數字語音庫和NOISEX-92典型噪聲數據庫對方法進行了測試,實驗結果表明,該方法可以獲得96.09%的正確識別率,相對于常規神經網絡識別方法,噪聲魯棒性得到了提高。

語音識別;主成分分析;受限玻爾茲曼機

孤立數字語音識別有著廣闊的研究和應用價值,諸如動態時間規整(dynamic time warping,DTW)、隱馬爾科夫(hidden markov model,HMM)、矢量量化(vector quantization,VQ)、主成分分析(principal component analysis,PCA)、人工神經網絡(artificial neural network,ANN)等方法用于求解孤立數字語音識別問題[1-3]。DTW算法基于動態規劃的思想解決發音長短不一的模板匹配問題,但是存在運算量大、識別性能依賴端點檢測精度等不足。VQ算法基于聚類識別,運算量小但是最優碼書較難得到。PCA算法可以實現數據降維,并且能夠統一數據維數,但本質上是一種基于最優正交變換的線性降維方法,對于非線性問題難以得到滿意的結果。ANN算法特別是Hinton等提出的受限波爾茲曼機(restricted Boltzmann machine,RBM)及其快速學習算法,在模式識別與分類問題中表現出良好的非線性降維與特征表征能力,但是通常需要適當的特征參數提取等預處理手段配合使用[4]。常用的數字語音信號特征通常是高維的,分類前需要對數據進行降維處理。因此,為改善數字語音識別效果,本文基于PCA線性降維和RBM特征學習基本原理,提出了一種用于孤立數字語音識別的組合降維方法,待分類的數字語音信號依次經過線性降維和RBM非線性特征表征處理,最終識別性能得到改善。

首先闡述組合降維識別方法涉及的線性降維、RBM、Softmax分類器等功能模塊,然后給出用于RBM預訓練和微調的學習算法,最后在TI-46數據庫和NOISEX-92噪聲數據集上驗證了所提算法的先進性。

1 組合降維識別方法

1.1 功能模塊組成

組合降維識別方法由梅爾頻率倒譜系數(Mel-frequency cepstral coefficients,MFCC)特征提取、線性降維、RBM、Softmax分類器4個功能模塊組成,如圖1所示。首先提取MFCC及其一階差分作為原始語音信號的特征參數,然后對MFCC進行線性降維,再將降維后的特征參數輸入RBM進行特征學習,學習的結果作為后端Softmax分類器模塊的輸入,Softmax輸出分類結果。

圖1 組合降維語音信號識別方法的功能模塊

1.1.1 MFCC特征提取 MFCC[5]是將人耳的聽覺特性與語音產生機制相結合的一種特征參數,在語音識別領域具有廣泛應用。標準MFCC參數只反映語音參數的靜態特性,MFCC差分則反映語音參數的動態特性,在語音特征中加入表征語音動態特性的MFCC差分,通常能提高系統的識別性能。因此,本文提取標準MFCC及其一階差分共同作為待識別語音信號的特征參數。MFCC特征提取的結果是得到一個F行24列大小的特征向量矩陣T,F為當前語音信號的幀數。

1.1.2 線性降維 MFCC特征提取結果存在兩個問題:一是每個語音信號由不同數量的幀組成,導致矩陣T大小不同;二是F取值大導致矩陣T過大,存在降維計算需要。因此,基于PCA基本原理對特征矩陣T作進一步變換,實現其降維并且大小一致的目的。使用的方法是將T轉置,再與原矩陣T相乘,得到24×24的方陣S;求S的特征值并從大到小排序,取前兩個特征值對應的特征向量并串接,得到一個48維的特征向量,作為線性降維后當前語音信號的特征向量。

1.1.3 受限波爾茲曼機 降維后的特征向量輸入RBM模塊進行特征學習,學習結果輸出到后端Softmax分類器中。

RBM本質上是通過無監督學習最大可能地對輸入數據進行特征表征。RBM由可見層和隱含層構成,如圖2所示??梢妼佑梢唤M可見單元v構成,用于輸入數據;隱含層由另一組隱藏單元h構成,用于輸出無監督學習獲得的對輸入數據的特征表示。RBM的特點是層內無連接,層間全連接。

圖2 RBM結構示意圖[6]

1.1.4 Softmax分類器 采用Softmax分類器實現RBM輸出特征分類。記類標y可以取r個不同的值,對于訓練集{(x(1),y(1)),…,(x(m),y(m))},類標簽為y(n)∈{1,2,…,r},r為分類數。對于給定的輸入x(n),用假設函數hλ(x(n))針對每一個類k估算出概率值p(y(n)=k|x(n)),k=1,…,r。hλ(x(n))輸出一個r維的列向量(和為1),每行表示為當前類的概率。

定義假設函數hλ(x(n))[7]為

(1)

式中:λ1,λ2,…,λr是模型參數。將x(n)分為第k類的概率記為

(2)

對于樣本x(n),選擇概率p(y(n)=k|x(n);λ)值最大的對應的類別k作為當前樣本的分類標簽,并與樣本本身的標簽做比對,如果一致則分類正確,否則分類錯誤。

1.2 學習算法

組合降維識別方法的學習分為RBM預訓練和微調兩部分。

1.2.1 RBM預訓練 預訓練的目的是對線性降維后的特征向量作無監督學習,以獲取更好的特征表征。鑒于可見層節點語音特征向量服從高斯分布的特點,使用高斯-伯努利RBM,定義能量函數[6]

(3)

式中:θ={ai,bj,wij}是RBM模型參數;ai和bj分別是可見層節點i和隱含層節點j的偏置;wij是可見層節點i和隱含層節點j之間的連接權值。當參數確定時,可以得到聯合概率分布

P(v,h;θ)=exp(-E(v,h;θ))/Z

(4)

(5)

RBM的模型參數使用最大似然準則通過無監督訓練得到,訓練的目標函數為

(6)

對目標函數求偏導,可以得到權值的更新公式

Δwij=Edata(vihj)-Emodel(vihj)

(7)

式中:Edata(vihj)是訓練集數據對應的可見層和隱含層狀態的期望值;Emodel(vihj)是對所有可能的(v,h)的模型期望值。

Emodel(vihj)直接計算很困難,通常采用對比散度進行近似計算[4]。可見層單元的狀態被設置為任取一個訓練樣本,算法開始,通過一步吉布斯采樣獲得“重構”的可見單元狀態〈vi〉recon,再用〈vi〉recon更新隱含層單元狀態,得到〈hj〉recon。學習率ε大使收斂速度快,但過大會引起算法不穩定,ε小可消除不穩定,但會減慢收斂速度,為克服該矛盾,在更新參數時增加動量項c,使得本次參數修改的方向由上一次參數修改方向和本次的梯度方向一起決定,而不是完全由當前樣本下的似然函數梯度方向決定。因此,各參數的更新準則為

Δwij=cΔwij+ε(〈vihj〉data-〈vihj〉recon)

(8)

Δbi=cΔbi+ε(〈vi〉data-〈vi〉recon)

(9)

Δaj=cΔaj+ε(〈hj〉data-〈hj〉recon)

(10)

使用重構誤差對RBM進行評估。重構誤差就是以訓練數據作為初始狀態,根據RBM的分布進行一次吉布斯采樣所獲得的重構樣本與原始樣本的差異。

1.2.2 微調 RBM預訓練完成之后,對RBM和Softmax進行微調。為改善學習效率,在微調開始的前5次,只對Softmax分類器的模型參數進行有監督學習,從第6次開始對RBM和Softmax的全部參數進行學習。

代價函數定義為

J(λ)=

(11)

式中:1{·}是一個指示性函數,當{·}中的值為真時,該函數值為1,否則為0。采用PRP共軛梯度算法求解minJ(λ)無約束最優化問題[8]。

微調結束后得到RBM和Softmax最終的模型參數。給定任意的孤立數字語音信號,依次通過圖1所示的各個功能模塊,可以輸出分類結果。

2 實驗設計與結果分析

2.1 實驗設計

組合降維識別方法的性能測試在TI-46數字語音數據庫上進行,語音信號的采樣頻率為12.5 kHz,16 b量化。選擇3 000個樣本作為訓練集,0~9共10個數字各300個樣本,選擇另外的1 000個樣本作為測試集,每個數字各100個[9]。

MFCC特征提取模塊中幀長取256,幀移為80,窗函數使用漢明窗。RBM預訓練過程中,可見層輸入數據歸一化到(0,1)之間,連接權重初始化為正態分布N(0,0.01)隨機數,可見層和隱含層的偏置均初始化為0。將數據集分成小批量進行預訓練,每個批量為50個。學習率ε為0.001,最大訓練次數為50次,動量項c在前5次訓練中取0.5,之后取0.9。微調過程PRP共軛梯度算法中線性搜索步長為3,微調次數為200次。

計算機配置為內存4 GB、雙核i5、處理器2.67 GHz、GPU為 NVIDIA GT540。

設計一個3層前饋神經網絡(feedforward neural network,FNN)取代圖1中RBM和Softmax分類器兩個功能模塊,采用相同的訓練集和測試集,相同的MFCC特征提取模塊和線性降維模塊,訓練采用經典的誤差反向傳播算法作對比實驗。通過交叉驗證確定隱層神經元數量為78的FNN對應最佳識別性能,即FNN模型結構取為48-78-10。記錄FNN識別結果,與本文方法結果作對比。

2.2 結果分析

本文方法與FNN方法各自獨立完成10次實驗,測試結果見表1。在無噪聲情形下,FNN方法正確識別率平均為93.07%,而本文方法為96.09%,優于前者。圖3給出了無噪聲情形下本文方法和FNN方法針對0~9單個數字語音信號的正確識別率及其標準差,針對數字0、1、3、5、6、7、8、9,本文方法正確識別率均高于FNN方法,而且正確識別率的標準差均小于FNN的,表明無噪聲情形下本文方法與FNN方法相比,不僅正確識別率高而且性能更加平穩。

圖3 本文方法與FNN方法針對10個孤立數字語音信號的性能測試結果

對測試集以20 dB的信噪比(signal-noise ratio,SNR)分別加入白噪聲、汽車噪聲、工廠噪聲及F16機艙噪聲等4類典型噪聲用于評價方法的噪聲魯棒性[10],結果見表1,FNN方法4類噪聲情形下正確識別率的平均結果由93.07%降低為91.44%,降低了1.63%,而本文方法的正確識別率從96.09%降低為95.08%,降低了1.01%,小于前者,表明有噪聲情形下本文方法性能下降慢于FNN,并且降低后本文方法的正確識別率為95.08%,仍然高于FNN的91.44%。

表1 本文方法與FNN方法正確識別率測試結果

(a)白噪聲情形

(b)汽車噪聲情形

(c)工廠噪聲情形

(d)F16機艙噪聲情形圖4 典型噪聲情形下本文方法與FNN方法性能測試結果

圖4給出了5~40 dB信噪比范圍內本文方法和FNN方法在上述4類典型噪聲情形下正確識別率的測試結果。如圖4a~圖4c所示,白噪聲、汽車噪聲、工廠噪聲3種情形下,本文方法的正確識別率均高于FNN方法,而且前者的正確識別率標準差比后者要小,說明本文方法的性能更加平穩。圖4d表明F16機艙噪聲情形下兩種方法在10~20 dB范圍內的正確識別率無明顯差別,但是本文方法獲取的正確識別率標準差更小,性能更平穩。

上述實驗結果表明,針對孤立數字語音識別問題,在有、無噪聲兩種情形下,本文方法均能夠獲得優于FNN方法的正確識別率,具有一定的噪聲魯棒性,并且性能平穩。

3 結 論

針對孤立數字語音識別問題,基于PCA線性降維和RBM特征學習基本原理,提出一種組合降維語音識別方法。該方法具有MFCC特征提取、線性降維、RBM特征自動表征等方法的綜合優勢,特別地,基于PCA基本原理對MFCC特征向量實現了降維并且統一維度的目的,通過RBM非線性特征學習,改善了后端Softmax分類器的分類性能?;赥I-46孤立數字語音庫和NOISEX-92典型噪聲數據庫的測試結果表明,本文方法能夠獲得優于常規前饋神經網絡的正確識別率,并且識別性能更平穩,具有改善的噪聲魯棒性。

[1] SCHAFER P B, JIN D Z. Noise-robust speech recognition through auditory feature detection and spike sequence decoding [J]. Neural Computation, 2014, 26(3): 523-556.

[2] SLOIN A, BURSHTEIN D. Support vector machine training for improved hidden Markov modeling [J]. IEEE Transactions on Signal Processing, 2008, 56(1): 172-188.

[3] TAKIGUCHI T, ARIKI Y. PCA-based speech enhancement for distorted speech recognition [J]. Journal of Multimedia, 2007, 2(5): 13-18.

[4] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks [J]. Science, 2006, 313(5786): 504-507.

[5] FANG Z, ZHANG G, SONG Z. Comparison of different implementations of MFCC [J]. Journal of Computer Science and Technology, 2001, 16(6): 582-589.

[6] 張春霞, 姬楠楠, 王冠偉. 受限波爾茲曼機 [J]. 工程數學學報, 2015(2): 159-173. ZHANG Chunxia, JI Nannan, WANG Guanwei. Restricted Boltzmann machines [J]. Chinese Journal of Engineering Mathematics, 2015(2): 159-173.

[7] SALAKHUTDINOV R, HINTON G E. Replicated Softmax: an undirected topic model [C]∥Proceedings of the Advances in Neural Information Processing Systems. Cambridge, MA, USA: MIT Press, 2009: 1607-1614.

[8] 黃海, 林穗華. 一個PRP型共軛梯度法的收斂性 [J]. 西南大學學報: 自然科學版, 2012, 34(3): 28-31. HUANG Hai, LIN Suihua. Convergence of a PRP type conjugate gradient method [J]. Journal of Southwest University: Natural Science Edition, 2012, 34(3): 28-31.

[9] DODDINGTON G R, SCHALK T B. Speech recognition: turning theory to practice [J]. IEEE Spectrum, 1981, 18(9): 26-32.

[10]VARGA A, STEENEKEN H J M. Assessment for automatic speech recognition: II. NOISEX-92: a database and an experiment to study the effect of additive noise on speech recognition systems [J]. Speech Communication, 1993, 12(3): 247-251.

(編輯 武紅江)

Combined Dimension Reduction Method for Isolated Digital Speech Recognition

SONG Qingsong,TIAN Zhengxin,SUN Wenlei,WU Xiaojie,AN Yisheng

(School of Information Engineering, Chang’an University, Xi’an 710064, China)

A combined dimension reduction method is proposed to improve the noise-robustness in isolated digital speech recognition. The method consists of four functional modules in sequence: a Mel frequency cepstrum coefficient (MFCC) module for feature extraction, a linear dimension reduction module, a restricted Boltzmann machine (RBM) module, and a Softmax classifier module. The dimension of the MFCC feature vector is reduced and its dimensionality is unified based on the basic principle of the principal component analysis (PCA); the obtained reduced features are learned by RBM in order to improve the classification performance of the end Softmax classifier module. The pretraining of the RBM is completed by the contrastive divergence algorithm and the finetuning process is fulfilled by the conjugate gradient algorithm. The proposed method is verified on the TI-46 isolated digital speech corpus and the NOISEX-92 noise datasets. The experimental results and comparisons with the conventional feedforward neural network methods show that the proposed method achieves at a 96.09% recognition accuracy and obtains improved noise robustness.

speech recognition; principal component analysis; restricted Boltzmann machine

2015-11-30。 作者簡介:宋青松(1980—),男,副教授。 基金項目:國家自然科學基金資助項目(61201406);中國博士后科學基金資助項目(2013M531998);中央高?;究蒲袠I務費專項資金資助項目(310824162022,310824162021)。

時間:2016-04-15

10.7652/xjtuxb201606007

TP301.6

A

0253-987X(2016)06-0042-05

網絡出版地址:http:∥www.cnki.net/kcms/detail/61.1069.T.20160415.1612.008.html

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 午夜老司机永久免费看片| 日韩国产高清无码| 视频国产精品丝袜第一页| 精品一区二区三区波多野结衣 | 欧美色视频网站| 日本AⅤ精品一区二区三区日| 亚洲国产欧美中日韩成人综合视频| 久久久久青草大香线综合精品| 最新国产网站| 国模在线视频一区二区三区| 99久久国产综合精品女同| 看你懂的巨臀中文字幕一区二区| 凹凸国产分类在线观看| 丁香六月激情综合| 免费aa毛片| 看国产一级毛片| 欧美精品v欧洲精品| 日韩精品一区二区三区大桥未久| 色呦呦手机在线精品| 91国语视频| 国产精品亚洲欧美日韩久久| 久久福利网| a级免费视频| 日韩色图区| 自拍欧美亚洲| 制服丝袜在线视频香蕉| 成人亚洲天堂| 日本91视频| 欧美色视频日本| 精品久久蜜桃| 91色爱欧美精品www| 欧美日本不卡| 国模私拍一区二区| 91色在线观看| 国产国语一级毛片在线视频| 欧美日韩另类在线| 国产日韩欧美在线播放| 国产对白刺激真实精品91| 最新国产你懂的在线网址| 亚洲天堂在线视频| 国产成人久久综合777777麻豆 | 久热中文字幕在线| 国产精品网拍在线| 国产特一级毛片| 久久99国产精品成人欧美| 国产成人无码AV在线播放动漫| 91久久偷偷做嫩草影院电| 欧美www在线观看| 国产一级在线观看www色 | 免费a级毛片视频| 亚洲天堂久久新| 国产自在线拍| 久久这里只精品热免费99| 99在线国产| 国产精品专区第1页| 免费播放毛片| 国产成人精品优优av| 亚洲国产综合自在线另类| 特级做a爰片毛片免费69| 蜜臀av性久久久久蜜臀aⅴ麻豆| 日韩精品专区免费无码aⅴ| 欧美精品一区二区三区中文字幕| 欧美不卡在线视频| 成人午夜久久| 色天堂无毒不卡| 亚洲自拍另类| 亚洲日产2021三区在线| 亚洲动漫h| 伊人大杳蕉中文无码| 制服丝袜一区| 亚洲人成人伊人成综合网无码| 91精品国产自产在线老师啪l| 国产靠逼视频| 国产麻豆永久视频| 日本欧美在线观看| 久久亚洲国产最新网站| 欧美亚洲一二三区| 中国国产高清免费AV片| 在线国产你懂的| 国产精品一区二区不卡的视频| 亚洲另类第一页| 成人另类稀缺在线观看|