999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于小波混沌神經網絡的語音識別

2008-12-31 00:00:00韓志艷薛麗芳
計算機應用研究 2008年7期

摘 要:基于語音信號的時變特性,提出了一種新型神經網絡語音識別方法——小波混沌神經網絡方法,即把小波變換和混沌特性引入到神經元,構成小波混沌神經網絡,將這種神經網絡用于語音識別,并與常用的BP神經網絡識別方法進行了比較。實驗結果表明,小波混沌神經網絡的平均識別率要高于同等條件下常用的神經網絡方法的識別率。

關鍵詞:語音識別;小波變換;混沌;神經網絡

中圖分類號:TP391.42 文獻標志碼:A

文章編號:1001-3695(2008)07-1986-02

Speech recognition based on wavelet chaotic neural network

WANG Xu,HAN Zhiyan,WANG Jian,XUE Lifang

(College of Information Science Engineering, Northeastern University, Shenyang 110004, China)

Abstract:This paper proposed a new speech recognition method of neural network,introduced wavelet transform and chaotic characteristic to neurons, and built a wavelet chaotic neural network(WCNN).It applyed the class of neural network to speech recognition and compared the performance of the network with BP neural network.The experimental results show that chaotic neural network method outperforms the BP method. 

Key words:speech recognition;wavelet transformation;chaotic;neural network

從20世紀60年代人類便開始了語音識別技術的研究,其目的就是使機器能夠理解人類的自然語言。語言信號本身非常復雜,加上人類對語音學知識還很缺乏, 因而目前的任何一種語音識別方法在識別率和實時反應速度上都還很難達到人類本身的聽覺效果[1]。人工神經網絡方法[2]自80年代起開始應用于語音識別,為該課題注入了新的活力。然而,目前神經網絡方法仍受到各種條件的限制,無法充分發揮其優勢。為了改善這一狀態,本文提出了一種新型的神經網絡——小波混沌神經網絡(wavelet chaotic neural network,WCNN),即將小波分析作為神經網絡的前置處理,為神經網絡隱含層提供輸入特征向量、它具有響應速度快、識別精度高等優點;然后再提供給混沌神經元部分進行識別。采用人工神經網絡技術進行語音識別的過程包含兩部分,即網絡學習過程和語音識別過程。網絡學習過程是將已知語音信號作為學習樣本, 通過神經網絡的自學習, 最終得到一組連接權和偏置; 語音識別過程是將待測語音信號作為網絡輸入, 通過網絡的聯想得出識別結果。這兩個過程中的關鍵是求取語音特征參數和神經網絡學習。

1 語音特征參數提取

MFCC(MelScald cepstrum coefficients)參數是基于人的聽覺特性利用人的聽覺臨界帶效應[3]。Mel標度頻率域提取出來的倒譜特征參數提取過程如下[4]:

a)對輸入的語音信號進行分幀、加窗,然后作離散傅里葉變換,獲得頻譜分布信息。

b)再求頻譜幅度的平方,得到能量譜。 

c)將能量譜通過一組Mel尺度的三角形濾波器組,濾波器的個數M和臨界帶的個數相近,中心頻率為f(m),0≤m<M,本文取M=24。

d)計算每個濾波器組輸出的對數能量。

e)經離散余弦變換(DCT)得到MFCC系數。本文取倒譜系數個數為12。

2 動態時間規整

將特征提取后的數據進行壓縮,充分利用語音模式中的時間相關性作為識別的線索,通過動態規劃方法可以對語音的時間失真加以規整,規整到特定幀數,以此作為神經網絡輸入。

3 小波混沌神經網絡結構

3.1 小波混沌神經網絡模型

神經網絡是靠學習來實現某種映射功能的。BP算法作為神經網絡的學習算法, 是目前的前饋神經網絡最廣泛使用的算法。但這種算法所存在的收斂速度慢、容易陷入局部極小值等缺陷,使該網絡的性能受到影響。由于其他方法也有它們各自的優點,將神經網絡與其他方法相結合,取長補短,繼而可以獲得更好的應用效果。本文所提出的小波混沌神經網絡,就是將神經網絡的自學習特性與小波[5]的局部特性及混沌神經元的混沌特性有機地相結合起來,不僅具有神經網絡自學習、自適應和魯棒性等特性,而且具有小波變換良好的時頻局部特性和混沌神經元的動力學特性。

針對語音識別問題,本文設計了一種能適應像短時語音信號一類的時間序列識別網絡WCNN,網絡共有四層,如圖1所示。預處理層把輸入層輸入的數據進行若干級的小波分解,預處理層中不同的節點代表了不同的分解,對應于小波樹中的葉節點。預處理層輸出小波分解的結果給隱含層,在隱含層和輸出層含有混沌神經元,即每層的神經元內部存在相互反饋輸入, 而整個網絡則通過每層之間單向的連接權構成一個多層的前饋網絡。

3.2 WCNN學習算法

3.2.1 小波神經網絡部分學習算法

小波神經網絡部分是以小波函數為預處理層節點的基函數的一種函數連接型網絡,它作為一種前向神經網絡,與普通的前向神經網絡相比具有結構可設計性、收斂精度可控制性和收斂速度快等優點,目前已經用于信號處理、數據壓縮和故障診斷等領域。

1)小波基函數 將小波母函數Ψ(x)進行伸縮和平移,得到一組連續小波函數基,即

φa,b(x)=a-1/2Ψ(x-b/a)(1)

其中:a、b分別為伸縮、平移因子。本文中使用Morlet小波作為母小波,即

其中:r取為1.75。

2)小波神經網絡模型 設xi為輸入層的第i個輸入值,ft為輸出層的第t個輸出值,wjh為連接預處理層節點j到隱含層節點h的權重,whi為輸入層節點i到預處理層節點j的權重,ak、bk分別為第j個預處理層節點的伸縮因子,n為輸入層節點個數,T為預處理層節點個數,則小波神經網絡部分即隱含層輸出為

ft(x)=Tk=1wjhφ[nt=1(whixi(i)-bk)/ak](3)

3.2.2 混沌神經網絡部分學習算法

本文采用的混沌神經網絡部分是通過修改和擴展的NagumoSato model[6]。其方程如下:

x(t+1)=f[A(t)-αtd=0kdg(x(t-d))-θ](4)

其中:x(t)為離散時刻神經元的輸出,其值為0~1; f為輸出函數;A(t)為t時刻的外部激勵即預處理層的輸出;g為不應性函數;α為不應性度量參數;k為不應性衰減參數;θ為閾值。

由靜態神經元組成的多層前饋神經網絡的誤差反向傳播(BP)算法已經成熟,但一般的BP算法不能直接應用于混沌神經網絡(chaotic neural network,CNN)的權值學習。這是因為混沌神經元中含有自反饋輸入,無法直接計算其梯度。本文利用變分的方法[7],將BP算法推廣到CNN的學習。那么CNN輸出層中第i個神經元的動力學方程可以寫成

其中:xi(t+1)為t+1時刻第i個混沌神經元的輸出;M為混沌神經元的個數;wij為第j個混沌神經元到第i個神經元的連接權;N為混沌神經元外部輸入的個數;vij為第j個外部輸入到第i個神經元的連接權; Aj(t)為t時刻第j個外部輸入;k、α分別為神經元的參數。假設輸入一特定類別的語音序列, 則在[t0,t1]時間間隔內,總誤差代價函數為

采用離散時間形式,CNN輸出層的學習算法描述如下:

a)給定初始條件xi(0)和外部輸入(上一層的輸出)Aj(t),初始化權值wij和vij;

b)計算0~T時間內網絡的實際輸出xi(t);

c)在給定教師信號di(t)下,依據

后向計算Lagrange乘子;

d)修改權值

上面用變分的方法得出了網絡輸出層的權值訓練算法,這是整個CNN部分學習算法的基本單元和重要組成部分。因為其他各層可以按照輸出層類似的方法來訓練權值。

4 實驗結果及結論

實驗中選用0~9十個漢語數字音作為待識別語音,實驗數據取自五名學生在實驗室環境下的錄音,每人每個數字各發音40次。其中:30次作為訓練樣本;10次作為測試樣本。采樣頻率為11.025 kHz,量化精度為16 bit,語音的幀長取為256個采樣點。幀移為80個采樣點,分幀后的語音進行端點檢測;然后提取12階MFCC系數和DWTMFCC系數作為語音識別的特征,所用神經網絡的輸入層為48個,輸出層為10個,預處理層和隱含層的神經元個數通過仿真實驗來確定,通過實驗選擇隱含層數為60個。表1為仿真實驗的結果。

從實驗結果可以看出,用小波混沌神經網絡的識別率明顯優于用BP神經網絡識別率。然而用不同小波基函數其識別率也不一樣。在以后的研究中,為了進一步提高語音識別率,可以考慮以下幾個方面:不斷改進神經網絡的結構;更合理地選擇較多的輸入樣本;更好地對輸入數據進行處理,提取較好的特征參數等。這樣神經網絡語音識別的研究將會提高到一個全新的水平。

5 結束語

本文針對語音信號的特點,綜合應用了混沌與小波分析等理論,設計了新型的神經網絡來進行語音識別,大大提高了語音識別的準確率。

參考文獻:

[1]JUANG B H.The past,present,and future of speech proceesing[J].IEEE Signal Processing Magzine,1998.

[2]RYEU J K,CHUNG H S.Chaotic recurrent neural networks and their application to speech recognition[J].Neuro Computing,1996,13(2-4):281-294.

[3]RABINEER L R,JUANG B H.Fundamentals of speech processing and Recognition[M].[S.1]:PrenticeHall,1993.

[4]何強,何英.MATLAB擴展編程[M].北京:清華大學出版社,2002.

[5]RIOUL O,VETTERLI M.Wavelets and signal processing[J].IEEE Signal Processing Mag,1991,8(4):14-38.

[6]AIHARA K,TAKABE T,TOYODA M.Chaotic neural networks[J].Phys Lett A,1990,144:333-340.

[7]任曉森,胡光銳.基于混沌神經網絡的語音識別方法[J].上海交通大學學報,1999,33(12):1517-1520.

注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。”

主站蜘蛛池模板: 伊在人亚洲香蕉精品播放| 国产青榴视频| 无码 在线 在线| 青青网在线国产| 色呦呦手机在线精品| 又爽又黄又无遮挡网站| 国产AV毛片| 日韩精品一区二区深田咏美| 久久国产高潮流白浆免费观看| 亚洲91在线精品| 国模粉嫩小泬视频在线观看| 真人高潮娇喘嗯啊在线观看| 二级特黄绝大片免费视频大片| 亚洲精品另类| YW尤物AV无码国产在线观看| 狠狠色综合久久狠狠色综合| 99re这里只有国产中文精品国产精品| 特级aaaaaaaaa毛片免费视频| 国产欧美日韩专区发布| 亚洲欧洲综合| 精品一区二区三区中文字幕| 欧美丝袜高跟鞋一区二区| 国产一级精品毛片基地| 免费在线看黄网址| 在线观看精品自拍视频| 欧美日韩精品一区二区视频| 亚洲中久无码永久在线观看软件| 国产97视频在线观看| 久一在线视频| 伊人查蕉在线观看国产精品| 国产人免费人成免费视频| 9久久伊人精品综合| 午夜国产理论| 日本国产一区在线观看| 亚洲人在线| 免费AV在线播放观看18禁强制| 波多野结衣一区二区三区四区视频| 亚洲欧美精品一中文字幕| 午夜国产大片免费观看| 性欧美久久| 亚洲国产看片基地久久1024 | 国产亚洲视频中文字幕视频| 日韩精品视频久久| 免费a级毛片18以上观看精品| 成年看免费观看视频拍拍| 91视频免费观看网站| 国产高清在线丝袜精品一区| 第一页亚洲| 日日碰狠狠添天天爽| 成人噜噜噜视频在线观看| 夜夜操狠狠操| 婷婷综合亚洲| 久久久久青草线综合超碰| 亚洲日韩国产精品无码专区| 丁香婷婷激情网| a级毛片网| 久久国产V一级毛多内射| 福利姬国产精品一区在线| 日韩精品欧美国产在线| 91麻豆精品国产高清在线| 欧美一区精品| 国产午夜精品一区二区三区软件| 高清无码一本到东京热| 久久成人免费| 日韩欧美高清视频| 亚洲欧美自拍视频| 精品一区国产精品| 色男人的天堂久久综合| 国产一区二区三区精品欧美日韩| 三上悠亚在线精品二区| 精品国产成人a在线观看| 亚洲欧美另类日本| 亚洲精品国产精品乱码不卞 | 人人澡人人爽欧美一区| 99久久精彩视频| 国内精品久久人妻无码大片高| 国精品91人妻无码一区二区三区| 国产香蕉国产精品偷在线观看| 在线a视频免费观看| 97se亚洲综合不卡| 97免费在线观看视频| 婷婷亚洲最大|