【摘要】 語音識別是語音信號處理領域的研究熱點,其訓練效果的優劣直接關系到系統的整體性能。本文針對HMM和BP神經網絡各自的優缺點,將兩種方法有機地結合起來并應用于語音識別,進一步提高了語音識別的魯棒性和準確率。
【關鍵詞】 語音識別;HMM;BP神經網絡
【中圖號】 TN912.34 【文獻標示碼】 A 【文章編號】 1005-1074(2008)12-0172-02
The Research of Speech Recognition Based on HMM and BP Neural Network
ZHANG PingZHANG Qiong
(Electrical Engineering department,Shaanxi Electronic Industry School, Baoji Shaanxi, 721001)
【Abstract】 Speech recognition is a hot issue in the field of speech signal processing, the training unit is a very important part in speech recognition, and it determines the entire properties of the system. This article in view of HMM and the BP neural network respective good and bad points, organically unifies two methods and applies in the speech recognition, further enhanced the speech recognition robustness and the rate of accuracy.
【Keywords】 Speech recognition;HMM;BP Neural Network
1 引言
隨著信息時代的到來,計算機己成為人類不可缺少的日常工具,人與機器之間的交流也越來越廣泛和深入。從科學研究到日常生活,計算機己經滲透到人們生活的各個方面,人們逐漸習慣借助計算機來完成各項任務。這樣一來,如何讓計算機智能化地與人進行通信,使人機交互更加方便快捷就成為現代通信與計算機科學研究的重要課題之一。語言是人類進行思想、觀點和情感交流最自然便捷的交互形式,是人類特有的功能,而聲音是人類常用的工具,是相互傳遞信息的最主要的手段。因此,語音信號是人們構成思想溝通和感情交流最主要途徑。如果計算機能夠聽懂語言,能夠說話,那么就不會有鍵盤,不同語言的人們交流也就會更容易,這個愿望實現的技術基礎就是語音識別。語音識別(Speech Recognition)主要是指讓機器聽懂人說的話,即在各種情況下,準確地識別出語音的內容,從而根據其信息,執行人的各種意圖。它是一門涉及面很廣的交叉學科,與計算機、通信、語音語言學、數理統計、信號處理、神經心理學和人工智能等學科都有著密切的關系。隨著計算機技術、模式識別和信號處理技術及聲學技術等的發展,使得能滿足各種需要的語音識別系統實現成為可能。近二三十年來,語音識別在工業、軍事、交通、醫學、民用諸方面,特別是在計算機、信息處理、通信與電子系統、自動控制等領域中有著廣泛的應用。當今,語音識別產品在人機交互應用中,已經占到越來越大的比例[1]。
2 語音識別系統的基本原理
語音識別一般分兩個步驟。第一步是系統“學習”階段,主要任務是根據識別系統的類型選擇能夠滿足要求的一種識別方法,采用語音分析方法分析出這種識別方法所要求的語音特征參數,這些參數作為標準模式由機器存儲起來,形成標準模式庫,而這個語音參數庫就稱為“模板”。第二步是“識別”階段,即按一定的準則與系統模型比較,通過判決得出識別結果。根據模式匹配原理構成的語音識別系統如圖1所示。

如圖所示,語音識別系統包含預處理、特征提取、模式匹配、參考模式和后處理幾部分。預處理指在特征提取之前,先對原始語音進行處理,部分地消除噪聲和不同說話人帶來的影響,使處理后的信號更能反映語音的本質特征,它包括預濾波、采樣、模/數變換、自動增益控制、預加重、分幀加窗及端點檢測等;特征參數提取指求取語音信號特征的參數,如短時幅度、能量過零率、自相關函數、LPC系數等;每個參考模式對應系統詞匯表中每個識別單元的特征參數;模式匹配指度量待識別詞的特征構成的測試模式與系統所儲存的每個參考模式之間的距離[2][3];后處理僅對語音信號進行處理,從而對提高模型的精確度和識別正確率有重要作用。
3 HMM
隱馬爾可夫模型(Hidden Markov Model,HMM)是一種用概率統計的方法來描述時變信號過程的模型,是馬爾可夫過程的模型化,是一個雙內嵌式隨機過程。它由兩個隨機過程組成,一個是狀態轉移序列,對應著一個單純Markov過程;另一個是一系列隨機函數所組成的集合,其中每個函數都與一個狀態相聯系。這兩個隨機過程相互關聯,共同描述信號的統計特性。之所以稱為隱馬爾可夫模型,是因為觀察者只能看到每一狀態相關聯的隨機函數的輸出值,而不能觀察到馬爾可夫鏈的狀態。HMM模型是語音信號時變特征的有參表示法,它可以用一系列狀態表示語音,每一個狀態表示輸入信號的一部分。假設每一種狀態對應一個字母,則每一種狀態都有一個概率分布,這是針對每一個可能出現的字母及向下一個狀態轉變的可能性得出的,隨后的語音識別過程即可歸結為找出通過節點網絡最可能的路徑。HMM較為完整地表達了語音的聲學模型,并且采用統計的訓練方法將底層的聲學模型和上層的語音模型融入統一的語音識別搜索算法中,可以獲得較好的識別效果,并且可用于連續語音的識別,但缺點是需要很精深的計算和較長的訓練序列。
4 BP神經網絡
BP(Back-Propagation)神經網絡又稱多層前饋神經網絡,是人工神經網絡中較著名且最常用的一種訓練算法,是1974年由Werbos針對多層感知器提出并由Rumelhart等人的工作得到完善而推廣的學習算法,用于修正連接權。該算法通常有一個或多個隱層,上下層之間各神經元實現權連接,即下層的每一個單元與上層的每一個單元都實現權連接,而每層各神經元之間無連接[4]。典型的BP網絡是三層前饋階層網絡,由三層組成,即:輸入層、隱含層和輸出層。各層之間實行權連接。BP算法的基本思想是:學習過程由信號的正向傳播與誤差的反向傳播兩個過程組成。正向傳播時,輸入樣本從輸入層傳入,經各隱層逐層處理后,傳向輸出層,每一層的神經元狀態只影響下一層神經元狀態,但如果輸出層的實際輸出與期望輸出不符,則轉入誤差的反向傳播階段;誤差反傳是將輸出誤差以某種形式通過隱層向輸入層逐層反傳,并將誤差分攤給各層的所有單元,從而獲得各單元的誤差信號,此誤差信號即作為修正各單位權值的依據。在此過程中,信號正向傳播與誤差反向傳播的各層權值調整是周而復始地進行的。權值不斷調整的過程就是網絡的學習訓練過程。這個過程一直進行到網絡輸出的誤差減少到可接受的程度,或進行到預先設定的學習次數為止。BP網絡的主要優點是可以逼近任意的非線性映射關系,具有并行分布處理能力、自學習和自適應能力、容錯能力及較好的泛化能力。但它同時也具有收斂速度慢、局部極小值、難以確定隱層和隱節點的個數等缺點。正是由于BP網絡很好的逼近非線性的能力,因而它可應用于信息處理、圖像識別、模型辨識、系統控制等多個方面。
5 語音識別系統的實現
針對HMM和BP神經網絡各自的缺點,將具有較強時間校準功能的HMM和具有較好非線性逼近能力的BP神經網絡兩種方法有機地結合起來,進一步提高了語音識別的魯棒性和準確率。本文就是綜合了隱馬爾可夫模型和BP神經網絡兩者的優點,采用兩者相結合的方法應用于語音識別。具體的方法是首先對語音信號預處理,包括信號采樣、預加重、分幀加窗和端點檢測;之后進行特征提取得到特征參數,本文特征參數采取MFCC,需要對每一幀語音信號進行處理;然后利用這些參數建立語音信號的HMM模型并使用Viterbi算法得到識別概率值;最后通過BP神經網絡對信號的非線性映射能力,將HMM的識別結果進行非線性映射,從而得出識別結果。本系統的實現流程如圖2所示。

本文提出的基于HMM和BP神經網絡的語音識別系統對噪聲的適應能力較強,尤其是在信噪比較低的情況下,識別率并沒有大幅度的降低。不足之處是該模型對于純凈語音的識別率仍有一定的降低,但基本上不影響該識別系統的總體性能。總的說來,實驗證明了該方法的可行性和有效性。
6 結束語
語音識別是一門內涵豐富、應用廣泛的信息技術,已經發展的較為成熟的語音信號特征提取算法和語音識別算法都只是在某個方面上應用的較為成功,但是由于語音信號的特殊性,目前,語音識別的研究中還存在許多有待解決的問題,比如:噪聲環境下語音信號的訓練和識別;提高語音識別系統的魯棒性和自適應性問題等。有所創新,才能有所發展。在今后的研究工作中,需要注意吸取其它學科的理論知識,勇于挑戰科技前沿,使語音識別的研究工作再上一個新的臺階。
7 參考文獻
[1] 趙 力.語音信號處理[M].北京:機械工業出版社,2003.
[2] 胡航編.語音信號處理[M].哈爾濱:哈爾濱工業大學出版社,2002.5.
[3] 姚天任.數字語音處理[M].武漢:華中科技大學出版社,2002.7.
[4] Haykin S.神經網絡的綜合基礎[M].北京:清華大學出版社,2001.