陳 科, 林江莉
(四川大學 材料科學與工程學院, 四川 成都 610065)
?
基于MFCC與CHMM的方向指令語音識別
陳 科, 林江莉
(四川大學 材料科學與工程學院, 四川 成都 610065)
隨著科學技術尤其是計算機技術的不斷發展,語音識別被廣泛應用到各個領域.針對方向指令的語音,使用梅爾倒譜系數(Mel-Frequency Cepstrum Coefficient,MFCC)作為特征參數,連續馬爾科夫模型(Continuous Hidden Markov Model,CHMM)作為識別模型,對語音信號進行識別處理.實驗結果顯示,此方法在方向指令語音識別中取得了良好的結果,有較高的識別準確率.
語音識別;連續馬爾可夫模型;方向指令;梅爾頻率倒譜系數
通常意義上,語音識別指的是將語音信號轉換成文字的一個過程[1].計算機應用中,語音識別技術是指利用各種數字信號處理、模式識別以及數理統計學等技術,將人類的語音轉變為可以被機器識別的數字信號,從而達到讓人類利用語言來控制機器的目的.據分析,基于對語音識別技術強大的需求及其巨大的應用前景,該技術將是未來十年信息技術領域十大重要的科技發展技術之一[2].語音識別通常包含預處理、特征參數提取、聲學建模及模式匹配等環節.圖1展示了語音識別系統的基本構成.

圖1 語音識別系統基本構成
目前,在語音識別技術中,使用的特征參數主要有線性預測編碼(Linear Predictive Coding,LPC)系數、線性預測編碼倒譜(Linear Predictive Cepstral Coding,LPCC)系數及梅爾頻率倒譜系數(Mel-Frequency Cepstrum Coefficient,MFCC).其中,LPC和LPCC著重發音模型,MFCC著重于人耳的聽覺特征.近年來,MFCC的應用比較廣泛,其識別率和魯棒性都較前2種系數好[3].據此,本研究的方向指令語音識別系統也選用MFCC作為特征參數.此外,模型訓練和識別技術主要有動態時間規整(DTW)技術、隱式馬爾可夫模型(Hidden Markov Model,HMM)技術及人工神經網絡(Artificial Neural Network,ANN)技術.DTW技術出現的時間較早,識別率和魯棒性都不如HMM技術和ANN技術.ANN技術是近年來語音識別研究的熱點,有較好的學習特性、魯棒性和自適應性,但其學習訓練時間偏長,短時內無法與語音信號進行最佳匹配.HMM技術是目前語音識別技術中使用最普遍的技術,其識別精度高,并且能應用于大詞匯量的語音識別[4].由于本研究的語音識別方法屬于小詞匯量非特定人的孤立詞語音識別,故本研究選取MFCC特征并使用HMM作為聲學建模和模式匹配的算法來實現不同的方向語音指令的識別.
1.1 預濾波
預濾波,其目的在于濾除語音信號中夾雜的工頻信號以及高于1/2采樣頻率的信號成分或噪音[3].濾除工頻信號,是為了排除50 Hz的電源干擾;濾除高頻部分信號,是為了將后面分析的信號控制在一定范圍內,避免造成信號中的高頻成分失真.
1.2 預加重
由于人類發音時受口鼻輻射的影響,在800 Hz以上頻段的信號會有6 dB/oct(倍頻程)的衰減[5],所以隨著頻率增高,語音信號的高頻部分會越來越小.預加重的目的就在于將語音信號的高頻部分加重,以便于其后的頻譜分析.
1.3 加窗分幀
語音信號是隨時間不斷變換的,是一種典型的非平穩信號,但是將信號劃分到非常小的時間段內,即10~20 ms,語音信號的變化就會很緩慢,可看成短時平穩,此時語音信號的物理特征參量和頻譜特性可看作是不變的.基于這樣的特征,將預濾波與預加重后的信號進行分幀,每1幀代表10~20 ms時間段的語音信號,1幀的信號就可看成恒定的信號,以便于進行頻譜分析等操作.
1.4 端點檢測
語音樣本的起始點并不一定是有效語音段的真正起始點,在其始末端都有一段無用的語音段,所以需要進行端點檢測,提取出有效的語音段.端點檢測是語音識別中一個重要的基本操作,它可以減少系統的運算時間.
MFCC與LPC思路有本質的不同,相比較于LPC著重發音模型,MFCC著重的是基于人耳的聽覺特征[6].由于耳蝸獨特的構造,人類聽到的聲音頻率的高低程度和聲音實際的頻率大小不是成正比的.因此,以Mel頻率為單位來描述人類聽到的頻率,這樣人類聽到的聲音頻率的高低程度就和Mel頻率成正比了.
要將聲音的線性頻率頻譜轉變到以Mel頻率為單位的非線性頻譜上來,需要先設置1個濾波器組,其由若干個三角濾波器組成,相鄰三角濾波器的中心位置的差距隨頻率的增大而逐漸變得稀疏.具體的轉換關系為,
Fmel=2 595lg((1+fHz)/700)
(1)
其中,Fmel代表Mel頻率,fHz代表線性頻率.
實際應用時,MFCC的計算過程如下:
1)首先對端點檢測后得到的語音幀進行前述的預加重和加權明窗的操作,再對每1幀信號做快速傅里葉變換,將其轉變為頻域信號.
2)求出頻域信號的能量譜,即計算其頻譜的平方,然后用包含L個濾波器的Mel濾波器組對其濾波,得到每個Mel頻帶內的能量的分量,并將1個濾波器得到的能量疊加,得到L個參數Pm(m=0,1,…,L-1).
3)對每個Pm取對數,得到對應的對數功率譜Lm(m=0,1,…,L-1),然后進行離散余弦變換,將信號又變換到倒譜域,得到Dm(m=0,1,…,L-1).
4)去掉表示直流的分量D0,取D1,D2,….
5)標準的MFCC系數只反映了語音信號的靜態特征,要反映動態特征,還要加上差分倒譜參數.
模式是根據所選取的模型對語音信號的建模,是在模型的基礎上經過訓練得到的某語音信號的標準樣式.模式識別以距離測度為準則,對于傳統的語音識別系統來說,就是按一定測度算法實現特征參數與模式庫中的模板進行最優模式匹配的過程[7].
3.1 HMM基本原理
HMM是一種用于描述隨機過程的信號統計理論模型,由馬爾可夫鏈理論演變而來.該理論有以下的一些假設:
1)存在一離散的時間序列t=0,t=1,…;在每個時刻t,系統只能處于惟一狀態qt;下一時刻的狀態是隨機的;當前狀態qt只與其前面相鄰的qt-1有關,和其他狀態無關.
2)系統從時刻0到時刻T會經過一系列的狀態,這就構成了1個狀態序列{q0,q1,…,qT},這個狀態序列就是1個馬爾可夫鏈.這個過程中得到的狀態序列是可觀測的,觀測值為每一時刻系統所處的狀態qt.
隱式馬爾可夫模型HMM包含2個隨機序列:一個是狀態轉移序列,其是無法被觀測的;另一個是狀態轉移后輸出符號形成的觀測序列,其可用前述的特征矢量參數表示.
3.2 HMM的分類
根據HMM參數中的輸出觀測值概率表示方法的不同,可將HMM分為以下幾類:離散型隱式馬爾可夫模型(Discrete Hidden Markov Model,DHMM)、連續型隱式馬爾可夫模型(Continuous Hidden Markov Model,CHMM)及半連續型隱式馬爾可夫模型(Semi-Continuous Hidden Markov Model,SCHMM).
相比DHMM,CHMM系統識別率更高,這是由于在CHMM中的輸入向量(即為觀測值向量),不需要經過矢量量化轉變.輸入向量就是每1幀語音信號的特征矢量[8].
本研究將CHMM應用到方向指令語音識別系統中.方向指令語音識別系統要求能識別非特定人的“前"、“后"、“左"、“右"、“停"5個語音,采集到的語音樣本分別為來自20個男性(年齡階段20~40歲)和20個女性(年齡階段20~40歲)的“前"、“后"、“左"、“右"、“停"總共200個語音.
方向指令語音識別系統實現的具體步驟如下:
1)提取每一個語音樣本的MFCC作為特征參數,并將其作為CHMM模型的觀測序列.
2)對“前"、“后"、“左"、“右"、“停"語音利用Baum-Welch算法分別進行模式訓練,得到每個語音的CHMM模型最優解λ*=argmax{P(O|λ)}.
3)將測試語音樣本對建立好的模型庫中的每個模型進行匹配,匹配度最高的模型便是最終的識別結果.
4.1 預處理與特征提取
本研究采集到的語音樣本的屬性為,8 000 Hz采樣率,單聲道,16 bit采樣精度.圖2顯示了1個語音“前"的信號波形圖,圖3是它的頻譜圖.

圖2 “前"原始語音樣本幅度譜

圖3 “前"原始語音樣本頻譜圖
樣本的預處理先通過1個帶通濾波器,下截止頻率設置為100 Hz.由于采樣率為8 000 Hz,上截止頻率設置為4 000 Hz.濾波后進行預加重處理,然后將每個樣本的語音信號分幀,幀長為256,也就是每幀256個點,幀移為0.3倍幀長.計算每幀的短時能量,接著用雙門限法進行端點檢測,截出有用的語音信號進行MFCC特征參數的提取.圖4為經過端點檢測“后"的語音波形圖.
MFCC特征向量的維度有24維,包括12維靜態MFCC參數和12維一階差分參數.將所有語音樣本的MFCC特征向量提取出來后,進行CHMM模型訓練.
4.2 CHMM的訓練
使用CHMM模型的語音識別, 語音信號一般設為3~6個狀態,本研究采用4個狀態及3個高斯概率密度函數的模型.模型的訓練步驟大致如下:

圖4 端點檢測后提取出的有效語音段
1)對模型參數λ=(A,B,π)進行初始化;
2)根據初始化參數進行一遍Baum-Welch訓練,得到新的模型參數λ=(A',B',π');
3)根據新的模型參數λ=(A',B',π'),計算模型產生訓練樣本的概率P(Ok|λ'),并和上次訓練的結果對比,判斷是否收斂,若不滿足條件,則重復步驟2),否則訓練過程完畢.
4.3 CHMM的識別
對測試語音樣本的識別過程就是一個模板匹配的過程.先讀取模型庫,利用對數Viterbi算法,依次計算每個模型產生測試樣本的輸出概率,選擇輸出概率最大的模型作為最終結果輸出.
4.4 測試結果及分析
全部模型訓練完成后,開始測試過程.測試過程分為2部分:第1部分對參與訓練的人重新采集的40個語音進行測試;第2部分選用另外不在訓練集中的5人25個語音樣本.利用這些樣本對方向指令的語音識別系統進行測試,并觀察最終輸出結果.實驗結果如表1所示.

表1 測試結果
從表1可知,訓練集中的人的再采集樣本作為測試樣本時識別率達到100%;對不在訓練集中的人,只有1個語音識別錯誤,識別率為96%.測試結果說明,本語音識別系統識別穩定,有較高的識別精度.
本研究實現了針對孤立字的方向指令的語音識別,其中特征參數向量為24維的MFCC,包括12維MFCC和12維MFCC一階差分,且選用了CHMM技術進行聲學建模和模式匹配,得到了滿意的識別率,達到了預期效果.但由于實驗中錄制的樣本數較少,因此并不能完全保證系統識別的穩定性.下一步的研究需要進一步擴充訓練樣本數,并且保證訓練樣本聲音比較多樣,既包含不同性別、不同年齡階段的聲音樣本,也要考慮低沉的聲音及高亢的聲音,以此來完善本方向指令語音識別系統的穩定性.
[1]張衛清,周淑閣.語音識別算法的研究[D].南京:南京理工大學,2004.
[2]Scharenborg O.Reachingoverthegap:Areviewofeffortstolinkhumanandautomaticspeechrecognitionresearch[J].Speech Comm,2007,49(5):336-347.
[3]張延盛.孤立詞語音識別算法研究及DSP實現[D].南京:南京信息工程大學,2011.
[4]李秀珍.語音識別算法及應用技術研究[D].重慶:重慶大學,2010.
[5]趙力.語音信號處理[M].北京:機械工業出版社,2003.
[6]Vergin R,O'shaughnessy D,Farhat A.Generalizedmelfrequencycepstralcoefficientsforlarge-vocabularyspeaker-independentcontinuous-speechrecognition[J].IEEE Trans Speech Audio Proc,1999,7(5):525-532.
[7]王稚慧.基于HMM建模的語音識別算法的研究[D].西安:西安建筑科技大學,2005.
[8]劉伶俐,王朝立,于震.CHMM語音識別初值選擇方法的研究[J].上海理工大學學報,2012,34(4):323-326.
Speech Recognition of Direction-command Based on MFCC and CHMM
CHENKe,LINJiangli
(School of Materials Science and Engineering, Sichuan University, Chengdu 610065, China)
With the development of science and technology,especially the development computer technology,speech recognition is widely used in various fields.In this paper,targeting at direction-command speech,the MFCC(Mel-Frequency Cepstrum Coefficient) and CHMM(Continuous Hidden Markov Model) are selected as characteristic parameter and recognition model respectively for speech recognition of direction-command.Experimental results show that the characteristic parameter of MFCC and the modeling of CHMM are very effective to direction-command speech recognition with a high accuracy rate.
speech recognition;MFCC;direction-command;CHMM
1004-5422(2017)02-0157-04
2017-05-11.
國家自然科學基金(81301286)、 教育部博士點基金(20130181120001)、 四川省科技廳科技支撐計劃(2014GZ0005-7)資助項目.
陳 科(1982 — ), 男, 博士, 講師, 從事計算機圖像處理相關技術研究.
TN912.34
A