洪淑月, 施曉鐘, 徐 皓
(1.浙江師范大學數理與信息工程學院,浙江 金華 321004;2.浙江師范大學 行知學院,浙江 金華321004)
語音識別是一個多學科交叉的領域,它與聲學、語音學、語言學、數字信號處理理論、信息論、計算機科學等眾多學科緊密相連[1].隨著人們對語音識別認識的深入,人們對語音識別也提出了越來越高的要求.小波分析作為一種強有力的信號分析工具,近年來被廣泛地應用于圖像處理和語音處理中,它是時間和頻率的局部變換,能有效地從信號中提取信息.通過小波變換,在信號的高頻域部分,可以取得較好的時間分辨率;在信號的低頻域部分,可以取得較好的頻率分辨率,這種特性使得小波特別適合于語音信號處理[2].隱馬爾可夫模型(Hidden Markov Models:HMM),作為語音信號的一種統計模型,目前正在語音處理各個領域中獲得廣泛的應用[3-4].語音識別系統的識別率十分依賴基于HMM模型的訓練技術,然而經典的訓練算法(Baum-Welch算法)有一個致命的缺陷,即所得最終解依賴于初始值的選取,故只得局部最優解,影響了系統的最終識別率,尤其高噪聲環境下語音識別進展困難,必須尋找新的信號分析處理方法[5-6].本文改進思路,將進化算法尋找最優B初值與Baum-Welch算法相結合來訓練HMM模型,使得整個語音識別系統的識別率大大提升.
在實際運用中,去除語音信號中的背景噪聲顯得尤為重要.小波變換是時間和頻率的局域變換,能夠有效地從信號中提取信息.它不但可以檢測到低信噪比信號中的邊緣信號,而且可以濾去噪聲從而恢復原信號.小波變換的語音降噪原理如下,令觀察信號為





W是正交陣,且Q=σ2uI,所以P=σ2uI.因此,可得到一個重要的結論:平穩白噪聲的正交小波變換仍然是平穩的白噪聲[7].
由該結論可知,對于如同式(1)的加噪聲模型,經正交小波變換后,最大程度地去除了s(n)的相關性,其能量將集中在少數小波系數上.小波變換具有一種“集中”的能力,能使信號和噪聲在不同尺度上所表現出的特征不同,對于信號函數,隨著尺度的增大,小波變換系數也增大;對于噪聲,其小波變換系數隨著尺度的增大而減小.選擇一個合適的閾值對小波系數進行閾值處理,就可以達到濾除噪聲而保留有用信號的目的.
HMM模型作為語音信號的一種統計模型,今天正在語音處理各個領域中獲得廣泛的應用.語音識別系統的原理圖1所示[8].
HMM過程是一個雙重隨機過程:一重用于描述非平穩信號的短時平穩段的統計特征(信號的瞬態特征);另一重隨機過程描述了每個短時平穩段如何轉變到下一個短時平穩段,即短時統計特征的動態特性(隱含在觀察序列中).人的言語過程本質上也是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列.可見,HMM合理地模仿了這一過程,是一種較為理想的語音信號模征參量.HMM模型通常表示成



圖1 HMM語音識別系統
這3個問題目前都已解決,通常情形下評估問題使用“前向-后向”算法解決,解碼問題使用Viterbi算法解決,訓練問題使用Baum-Welch算法解決[9].
語音識別系統的識別率十分依賴基于HMM模型的訓練技術,經典的訓練算法(Baum-Welch算法)有一個致命的缺陷,即所得最終解依賴于初始值的選取,故往往只得局部最優解,影響了系統的最終識別率.改進思路是將遺傳算法尋找最優B初值與Baum-Welch算法相結合來訓練HMM模型,使得整個語音識別系統的識別率大大提升.
進化Baum-Welch算法的設計如下:

因此,A中只需5個參數形成染色體的一部分,即


所以在遺傳操作后還需對B部分作歸一化操作.
2)適應函數.遺傳算法中,適應函數作為區分個體優劣的標準,需保證優秀個體的適應度比差的個體的適應度高.這里個體的適應度用各個訓練樣本的對數似然概率表示,即

式(3)中:O(k)表示用于訓練模型的第k個觀測序列;P(O(k)|λ)由Viterbi算法求出.
3)選擇策略.文中采用了基于排名的非線性選擇.在每一代中,將群體成員按適應值從高到低依次排列,按照排名分配選擇概率,適應值高的個體選擇概率也就相應地高.
4)遺傳算子和控制參數.遺傳算子包含雜交算子和變異算子,它直接影響到算法的最終解.雜交算子相當于一個局部搜索操作,它產生父代附近的2個子代,而變異算子則使得個體能夠跳出當前的局部搜索區域,兩者的結合正好體現了進化算法的精髓所在.實驗中采用了3個單點雜交,一點對應一個狀態.在個體中A部分隨機取一點,將2個父體該點的對應值互換;再對每一狀態在B的兩部分中個體隨機選取一個點,將2個父體該點后的分量進行互換,這樣就完成了雜交的操作.變異算子采用均勻性變異.實驗中種群大小取40,雜交概率取0.7,變異概率取0.001.
5)終止策略.常用的終止準則是預先設置最大進化的代數或預先設置一個適應值改善的門限值.對于前一種準則,在進化代數到達預置值時進化終止.后一種情況下,在適應值改善低于該門限值時進化停止.本系統取最大進化代數為100.
基于小波變換和改進型HMM的系統設計模型如圖2所示.
改進后的系統在預處理之后加入小波變換,可以對瞬間突變的語音信號進行檢測與分析,有效降低原始語音信號中的噪聲.小波降噪后進行端點檢測,之后對語音信號進行特征參數提取MFCC,然后進行矢量量化和編碼,再將編碼得到的碼本使用改進后的算法訓練HMM,最后得到輸出結果.

圖2 改進型系統設計框圖
實驗基于HMM對人體語音識別系統進行.訓練數據取自10人,在不同SNR(高斯白噪聲)下,詞匯量分別為10,20,30,40,50個,共600個實驗樣本,其中300個樣本用于訓練,另外300個用于檢測實驗結果.時間長度為5~10 s,采樣頻率為8 kHz,A/D轉換精度為16 bit,并采用單聲道語音進行識別測試.實驗結果如表1所示.

表1 4種系統的識別率比較
表1中,系統Ⅰ為基于HMM的語音識別系統;系統Ⅱ為基于小波變換和HMM的語音識別系統;系統Ⅲ為基于改進HMM的語音識別系統;系統Ⅳ為基于小波變換和改進HMM的語音識別系統.因此,可得到以下一些結論:
1)在高噪聲環境下,小波降噪對語音系統識別率可提升5% ~7%.隨著語音質量(信噪比)的提高,小波降噪對識別率的改善越來越小,當信噪比大于35 dB時,小波降噪系統識別率的改善并不明顯.圖3是利用表1中的實驗數據(詞匯量為20)制成的小波降噪的識別率比較圖.

圖3 小波變換對系統影響比較

圖4 系統受詞匯量影響比較
2)基于遺傳算法的改進HMM模型對系統語音識別率有較大改善,平均提高了4個百分點,且由圖4可以看出改進后的系統識別率受詞匯量大小影響不大.
3)改進后的語音識別系統,即系統Ⅳ在實驗中表現最優,各種環境下其識別率都是最高的,基本達到了理論預期結果.
提出一種語音識別系統的改進方法,通過小波變換和遺傳算法對傳統語音識別方法作了一定改進.改進后的語音識別算法性能提升明顯,尤其是在惡劣噪聲環境下,該算法基本達到了設計目的和現實要求.所提出的方法綜合性能優于單獨應用HMM模型和小波變換與HMM模型結合的語音識別方法.
[1]劉么和.語音識別與控制應用技術[M].北京:科學出版社,2008:1-35.
[2]Zhou Dexiang,Wang Xianrong.The improvement of HMM algorithm using wavelet dek-noising in speech recognition[C]//2010 3rd International Conference on Advanced Computer Theory and Engineering(Ⅳ),Chengdu:Int Assoc Comput Sci Inf Technol,2010:4438-4441 .
[3]García-Moral A I,Solera-Ure?a R,Peláez-Moreno C.Data balancing for efficient training of hybrid ANN/HMM automatic speech recognition system[J].IEEE Transactions on Audio,Speech and Language Processing,2011,19:468-481.
[4]Terashima R,Yoshimura T,Wakita T.Prediction method of speech recognition performance based on HMM-based speech synthesis technique[J].IEEJ Transactions on Electronics,Information and Systems,2010,130:557-564.
[5]Borgstrom B J,Alwan A.HMM-based reconstruction of unreliable spectrographic data for noise robust speech recognition[J].IEEE Transactions on Audio:Speech and Language Processing,2010,18:1612-1623.
[6]Hahm S J,Ohkawa Y I.Speech recognition under multiple noise environment based on multi-mixture HMM and weight optimization by the aspect model[J].IEICE Transactions on Information and Systems,2010,93(9):2407-2416.
[7]胡廣書.現代信號處理教程[M].北京:清華大學出版社,2004:397-398.
[8]Rabiner L R,Juang B H.Fundamentals of Speech Recognition[M].New Jersey:Prentice-Hall,1999:321-370.
[9]吳朝暉,楊瑩春著.說話人識別模型與方法[M].北京:清華大學出版社,2009:21-76.