999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GMM-HMM和深層循環神經網絡的復雜噪聲環境下的語音識別

2016-07-09 06:30:58劉旺玉SHIRAISHIHIROSHI
制造業自動化 2016年5期

劉旺玉,SHIRAISHI HIROSHI

(華南理工大學 機械與汽車工程學院,廣州 510640)

?

基于GMM-HMM和深層循環神經網絡的復雜噪聲環境下的語音識別

劉旺玉,SHIRAISHI HIROSHI

(華南理工大學機械與汽車工程學院,廣州 510640)

摘 要:探索了工廠實時環境下控制平臺使用語音輸入代替鍵盤輸入的一種新型語音識別算法。目前,在無噪聲情況下,語音識別已經獲得了很好的效果。但一旦考慮實時環境下的噪聲,它的識別精度會大幅下降。本文結合混合高斯分布的隱馬爾科夫模型與深層循環神經網絡模型提出了一種新型語音識別混合模型,可以有效去除工廠復雜環境下的噪音干擾,提高語音識別的有效性。實驗結果表明,此方法在噪聲環境下具有良好的適應性能。

關鍵詞:隱馬爾科夫模型;深層循環神經網絡;抗噪;混合模型;MATLAB

0 引言

工廠自動化技術誕生于20世紀40年代。迄今為止,隨著計算機技術,無線通訊技術,現場總線技術,工業以太網技術,信息技術,機器人技術,傳感器技術以及安全技術等科學技術的不斷發展與創新,在經歷了單機自動化,車間自動化,中央集中控制等幾個重要階段之后,工廠自動化正向工廠綜合自動化發展[1]。但現階段,鍵盤操作依然使用手控而不是聲控。雖然個人電腦和移動終端已能部分實現聲音輸入與識別,但工廠實時環境下的噪聲十分復雜,會嚴重影響到控制系統的語音識別[2]。因此,如何消除工廠噪音,在人機交互控制系統中實現敏捷的語音識別,是實現工廠自動化需要解決的關鍵問題之一。

抗噪語音識別技術可以分為兩種。一種是適應在噪聲環境下的語音適應性模型,第二種是從輸入信號中除去噪聲成分的去噪模型[3]。前者有并行模型結合處理算法(PMC),矢量泰勒級數法(VTS)等適應算法。語音適應性方法可以獲得較高的精度,但是計算量大[4]。本文重點討論去噪模型,實現帶噪語音識別。

去噪模型也可以分為兩種:一種是在能量譜領域中除去噪聲的方法,另一種是通過語音特征量除去噪聲的方法。前者有減譜法(SS),維納濾波等方法,但該方法去噪后頻率偏差大[5]。后者有SPLICE(Stereo Piecewise Linear Compensation for Environments),DAE (Denoising Auto Encoder)等方法,該類方法需要提前學習純語音特征量的信息表達,然后實現適合語音特征的噪聲去除[6, 7]。

近年來出現了一種新的語音識別算法,即DAE的復雜噪音去除模型RDAE(Recurrent Denoising Auto Encoder)[8]。該方法解決了語音識別中前后連續性問題。但這個模型中依然存在過度學習的問題。為了避免識別效率下降,本文提出深層循環神經網絡結合高斯混合模型和隱馬爾科夫模型的混合模型,可提高語音識別效果。在本文中,利用深層循環神經網絡的自適應能力以及隱馬爾科夫模型的良好的動態建模能力,結合高斯混合模型的魯棒性來合成,提出混合高斯分布的隱馬爾科夫模型與深層循環神經網絡的混合模型,實現噪聲環境下的語音識別。

本文先介紹循環神經網絡及其深層學習特點,然后提出與高斯混合分布相結合的隱馬爾科夫模型的混合模型合成方法,最后通過實驗方法驗證本文結果。

1 深層循環神經網絡

深層神經網絡基于上世紀50年代出現的人工神經網絡,其特點是自學習和自適應性、非線性、魯棒性和容錯性、計算平行性和存儲分布性。但它占用計算機的存儲空間大。當數據量不足時,造成推理依據不足,無法解釋自己的推理過程,甚至運算無法進行。上世紀90年代后期人工神經網絡研究領域開始凋謝,隱馬爾科夫模型取代了神經網絡在語音識別上的地位[9]。直到2006年出現了深層神經網絡。深層神經網絡可以逼近人的思維,可包含多個隱藏層的神經網絡[10, 11]。

1.1循環神經網絡

由于聲音是時間序列,其過去的狀態會直接影響到將來的狀態,因此循環神經網絡是一種動態神經網絡。通常,普通神經網絡模型沒有考慮時間維度,所以使用循環神經網絡更適合于處理語音信號。在本文中循環神經網絡的功能是使帶噪語音接近純語音[12]。

式(1)中,V是跟偏差向量c有關的權重矩陣。表示隱藏層的函數是h(1),它是非線性函數,其函數是以下式:

W是與偏差向量b(1)有關的權重矩陣。激活函數σ()在實驗中使用Tanh-Sigmoid[13]。

訓練網絡后取最小誤差。

因為輸入值x的長度不一樣,輸入維度會很高,所以輸入時采用多個輸入框,以提高計算效率。為了解決前后輸入框的獨立性,把式(2)改成式(4)。

t表示時間,xt為當前的輸入框,xt-1為前一個輸入框,U為權重矩陣,輸入框在時間序列上連續。其循環過程如圖1所示。

圖1 循環神經網絡循環過程

1.2深層循環神經網絡結構

雖然循環神經網絡是非線性的,但該模型不能足夠接近噪聲環境下的復雜信號。在本研究中擬引入更多非線性的隱藏層。我們稱引入更多循環過程的神經網絡模型為深層循環神經網絡,是一種比單層隱藏層多的多隱藏層模型。深層循環神經網絡的循環過程如圖2所示。

圖2 深層循環神經網絡過程

在圖中,i表示多層神經網絡中網絡的隱藏層的層數。例如i=1時候,隱藏層h就是h(1),表示第一層的隱藏層。深層神經網絡的隱藏層大于1。

所以式(4)改為:從式(5)中可以看出,隱藏層h(i)與權重矩陣W(i),偏差向量b(i)之前的隱藏層的輸出值h(i-1)(xt)有關。如使用深層循環神經網絡模型時,式(5)可改寫為:

2 混合模型

混合模型的去噪步驟包含兩個重要部分:首先把帶噪語音處理為接近純語音的信號,然后對近純語音進行識別。去噪步驟使用深層循環神經網絡,需要確定隱馬爾科夫模型的維數(或特征值的維數),為了防止過擬合,確定是否用隨機退出技術(drop out),另外,需要確定輸入框數,權重,隱藏層單元個數,隱藏層的層數,σ的激活函數,網絡的初始值,訓練的迭代次數等量值。一般地,輸入深層神經網絡的特征值維數和輸入隱馬爾科夫模型的維數設定是一樣的。Drop out是每次訓練開始時隨機地刪除一半的隱層單元,即每次訓練的網絡不一樣。最后測試時所有的節點都用上[14]。為了前后連續,輸入框數為奇數。例如n為當前的框時,n-1為之前狀態,n+1為之后狀態。所以至少需要3個輸入框。隱層單元個數由語音樣本及特征值的維數來決定。雖然它的值越大越能得到更好的效果,但計算量多,訓練速度也降低。隱藏層越多,效果也越好,但導致計算量多,訓練速度降低。σ的激活函數可以從以下函數中選擇,logistic-sigmoid,tanh-sigmoid,ReLu(Rectified Linear Units)。Logistic函數[13]為:

tanh函數為:

ReLu函數[15]為:

網絡的初始值從zeros(矩陣都是零),ones(矩陣都是一),rand(隨機地從0到1之內選矩陣的值)選擇。訓練的迭代次數越多效果越好,但計算量增加。

我們可以在網絡中訓練多個帶噪語音,但訓練語音越多計算量也越大。所以在不同類型的噪聲環境下,重新讓網絡訓練模型生成新模型。這樣就可以減少計算量,而且不會出現平臺停機的問題。

在已知噪聲的環境下,增加網絡的層數,去噪效果會更好。但在未知噪聲的環境下,加多隱藏層并不能從帶噪語音下完全去掉噪聲,因為存在網絡過度學習的問題[16]。使用高斯混合分布的隱馬爾科夫模型可以有效解決此類問題,它具有強大的動態性,容錯性和魯棒性。由于它有分類歸并的功能,對于輕微噪聲環境下不同個體的語音也可以獲得較好的識別結果。所謂高斯混合模型就是指對樣本的概率密度分布進行估計,而估計的新模型是幾個高斯模型加權之和。每個高斯模型就代表了一個類。高斯混合模型是從幾個單高斯分布模型中產生出來的,定義為:

其中K是模型個數。第k個高斯的概率密度函數中μk為均值,σk為方差。對概率密度的估計就是對每個變量求和。每個求和結果就分別代表樣本x屬于第k個高斯的概率。K需要先確定。如果K取得很大,模型就會變得很復雜,但可以用來逼近任意連續的概率密度分布。正是因為高斯函數具有良好的計算性能,所以高斯混合模型應用廣泛。

在隱馬爾科夫模型的狀態中,每個狀態都有一個高斯混合模型,包括K個高斯模型參數。只要知道這些參數,就可以在識別時計算出一串狀態轉移的概率。

在噪聲環境下使用隱馬爾科夫模型時,它的識別率會大大降低。所以在本文中使用深層循環神經網絡與混合高斯隱馬爾科夫模型相結合的混合模型。獲得噪音環境下的語音特征值后,先通過深層循環神經網絡使特征值接近純語音。深層循環神經網絡輸出的特征值輸入到混合高斯分布的隱馬爾科夫模型里,得到最終識別結果。混合模型的結構圖如下。

圖3 混合模型的結構

首先把帶噪語音特征值(noise speech)和純語音特征值(test speech)輸入到深層神經網絡中訓練網絡的權值、偏差等參數。然后在神經網絡模型里輸入noise speech,這樣可以得到接近test speech的特征值predict speech。

在混合高斯分布的隱馬爾科夫模型里先訓練純語音的特征值(train speech)。模型訓練后輸入predict speech,最終得到識別結果。

3 實驗

3.1實驗方法

本論文中使用的訓練語音數據樣本為:男性38人,女性57人。在識別語音樣本中男性56人,女性57人的語音樣本。在訓練語音和識別語音中使用不同人的聲音。在訓練語音中共有2090個單詞,識別語音中有2486個單詞,總共4576個單詞。在實驗中使用在噪音環境下分別給出四種不同噪音強度0dB,5dB,10dB,20dB。噪音來自機加工車間,含車削加工、磨削加工、焊接加工等三種噪音。使用語音合成法把每個噪音和強度調整后跟識別語音合成起來,共有32318個識別語音數據。從語音數據中使用MFCC取出特征值。提取特征值前,先通過預加重,分幀,加窗處理。在實驗中分幀的幀長為25毫秒,幀長重復部分為10毫秒。加窗處理使用漢明窗。提取MFCC為12階,并提取它的一階差分系數和二階差分系數。每個系數取能量譜,總共取39階的特征值。在高斯混合模型中使用11個模型,訓練迭代次數為10次。隱馬爾科夫模型是無跨越的從左向右模型,它的狀態數為10個,訓練迭代次數為10次。深層循環神經網絡的層數為5個,其中隱藏層為3個,隱藏層的第二層定為循環神經網絡。輸入框為3個,隱層單元為500個,訓練迭代次數為2000次。使用不同強度0dB,5dB,10dB,20dB 等4種模式,共有3種不同的噪音環境A,B,C。先采用神經網絡優化,然后通過混合高斯隱馬爾科夫模型識別。其過程在MATLAB系統中運行。

3.2實驗結果

在實驗中使用的語音波形及它的噪聲環境中的語音波形如圖4所示。

圖4 在不同的信噪比條件下男性說“one”的語音波形

SNR是信噪比。從圖4中可以看到它的值越大信號也越清楚。所以0dB時識別率是最低。圖4中的數據長度為3360。分幀,加窗處理后可以分到40個數據。然后使用MFCC提取特征值。它的數據如圖5所示。

圖5 在不同的信噪比條件下男性說“one”的特征值

從圖5中可以看到從0到15的區間變化很大。有明顯的噪聲干擾。我們與使用深層循環神經網絡去噪后的特征值進行對比。去噪后的特征值如圖6所示。

圖6 去噪后的特征值

從圖6中可以看到帶噪的特征值逼近純語音的特征值。雖然還有微小的差別,但使用高斯混合分布的隱馬爾科夫模型可以獲得較高的精度。

為了比較混合模型的優點,在實驗時,用混合高斯分布的隱馬爾科夫模型(GMM-HMM)、隱藏層是單層的循環神經網絡(RNN-GMM-HMM)、不循環的深層神經網絡(DNN-GMM-HMM)進行比較。實驗結果如表1所示。

表1 隱馬爾科夫模型與混合模型的識別率

A是車削加工的噪音。B是磨削加工的噪音。C是焊接加工的噪音。GMM-HMM是隱馬爾科夫模型。DRNN-GMM-HMM是深層循環神經網絡與混合高斯分布的隱馬爾科夫混合模型。從表中也可以看出:識別純語音的時候,隱馬爾科夫模型和混合模型都超過99%.但是一旦帶上噪音時,隱馬爾科夫模型的識別率開始大大降低,0dB時已經低于50%,在噪聲環境C中降低到21%。然而,在混合模型中雖然識別率也降低,但是大大高于隱馬爾可夫模型。到了0dB時它的識別率仍達到90%左右,是隱馬爾科夫的2倍以上。

4 結論

本文探索了在工廠實時噪音背景中如何進行語音識別的解決方案。通過使用深層循環神經網絡,把帶噪語音處理到接近純語音,然后通過混合高斯分布的隱馬爾可夫模型進行語音識別,可以獲得較高的識別精度。通過理論分析和實驗驗證,證明了該方法具有明顯的優點。本文研究結果對于在工廠實時噪音環境下高效、敏捷實現語音控制的人機交互控制系統的實現提供了一種解決途徑。

參考文獻:

[1] 自動化在線.探求工廠自動化技術的發展史[EB/OL].(2012-06-08)[2015-09-15].http://ww.autooo.net/classid119-id95581.html.

[2] 糟谷敏宏,村上憲也.音聲認識における背景雑音の影響[J].全國大會講演論文集,1991,42(2):116-117.

[3] Cui X, Afify M, Gao Y,et al.Stereo hidden Markov modeling for noise robust speech recognition[J].Computer Speech & Language,2013,27(2):407-419.

[4] 山口耕市, 森尾智一,赤羽俊夫,等.コンパクトな単語音聲認識,テキスト音聲合成 (特集: ユーザインタフェース)[J]. シャ-プ技報, 2000 (77): 26-32.

[5] 松本弘.雑音環境下の音聲認識手法[J].情報科學技術フォーラム FIT2003,2003.

[6] Stouten V,Wambacq P.Model-based feature enhancement with uncertainty decoding for noise robust ASR[J].Speech communication,2006,48(11):1502-1514.

[7] Bengio Y, Yao L,Alain G,et al.Generalized denoising autoencoders as generative models[A].Advances in Neural Information Processing Systems[C].2013:899-907.

[8] Maas A L, Le Q V,O'Neil T M, et al. Recurrent Neural Networks for Noise Reduction in Robust ASR[A].INTERSPEECH[C].2012.

[9] 清水亮.ディープラーニングはビジネスにどう使えるか? [EB/OL].(2015-05-20)[2015-09-20]. https://wirelesswire. jp/2015/05/30505.

[10] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.

[11] Hinton G E,Osindero S, Teh Y W.A fast learning algorithm for deep belief nets[J].Neural computation,2006,18(7):1527-1554.

[12] Vincent P, Larochelle H, Bengio Y,et al. Extracting and composing robust features with denoising autoencoders[A]. Proceedings of the 25th international conference on Machine learning.ACM[C].2008:1096-1103.

[13] 史峰,王小川,郁磊,等.MATLAB 神經網絡30個案例分析[M].北京:北京航空航天大學出版社,2010.

[14] Srivastava N, Hinton G, Krizhevsky A,et al. Dropout:A simple way to prevent neural networks from overfitting[J].The Journal of Machine Learning Research,2014,15(1):1929-1958.

[15] Nair V,Hinton G E. Rectified linear units improve restricted boltzmann machines[A].Proceedings of the 27th International Conference on Machine Learning(ICML-10)[C].2010:807-814.

[16] 柏木陽佑,齋藤大輔,峯松信明,等.Deep Learningに基づくクリーン音聲狀態識別による雑音環境下音聲認識[J].日本音響學會講演論文集,2013:1-8-3.

Speech recognition in complex noise environment based on GMM-HMM and deep recurrent neural network

LIU Wang-yu, SHIRAISHI HIROSHI

中圖分類號:TN912.34;TH18

文獻標識碼:A

文章編號:1009-0134(2016)05-0142-05

收稿日期:2016-01-26

基金項目:國家自然科學基金資助項目(51375178)

作者簡介:劉旺玉(1966 -),女,陜西西安人,教授,博士,研究方向為現代加工方法與結構優化設計。

主站蜘蛛池模板: 亚洲第一视频区| 丁香婷婷综合激情| 丁香亚洲综合五月天婷婷| 亚洲欧洲日韩综合色天使| 丁香婷婷久久| 亚洲视频欧美不卡| 国产97视频在线| 99视频在线精品免费观看6| 国产精品v欧美| 日韩精品无码免费一区二区三区 | 亚洲国模精品一区| 在线国产91| 国产毛片不卡| 成人在线亚洲| 国产福利一区二区在线观看| 久久精品亚洲专区| 嫩草在线视频| 国产91无码福利在线| 欧美三级自拍| av尤物免费在线观看| 日韩区欧美区| 91视频99| 亚洲一区二区精品无码久久久| 午夜毛片免费观看视频 | 国产精品无码一区二区桃花视频| 日韩毛片免费观看| 波多野结衣国产精品| 日本a级免费| 国产三级视频网站| 国产va视频| www中文字幕在线观看| 日本黄色不卡视频| 亚洲国产AV无码综合原创| 国产精品极品美女自在线网站| 国产极品美女在线| 尤物国产在线| 五月婷婷伊人网| 亚洲日韩每日更新| 久久精品无码国产一区二区三区| 女人天堂av免费| 激情综合网激情综合| 中文国产成人精品久久| 国产毛片基地| 极品国产一区二区三区| 久久亚洲综合伊人| 久久a毛片| 波多野结衣久久高清免费| 国模在线视频一区二区三区| 亚洲国产欧美国产综合久久| 欧美高清三区| 亚洲中文字幕国产av| 亚洲av综合网| 国产一区二区在线视频观看| 88国产经典欧美一区二区三区| 亚洲精品视频网| 熟妇丰满人妻av无码区| 国产精品久久久久久久伊一| 国产精品所毛片视频| 婷婷久久综合九色综合88| 色妞永久免费视频| 99久久人妻精品免费二区| 国产欧美高清| 亚洲国产中文在线二区三区免| 欧美高清国产| 9啪在线视频| 亚洲中文字幕在线一区播放| 亚洲成a人片| 久草视频中文| 国产女人在线视频| 国产最新无码专区在线| 欧美一级夜夜爽www| 久久影院一区二区h| 女高中生自慰污污网站| 久久情精品国产品免费| 日韩欧美国产区| 欧美专区日韩专区| 国产成人精品一区二区秒拍1o| 亚洲有码在线播放| 欧美成人综合视频| 一区二区三区国产| 青青青亚洲精品国产| 美女无遮挡拍拍拍免费视频|