戴增輝,李光布
(1.上海立達職業技術學院 機電與信息工程學院,上海 201609;2.上海師范大學,上海 150300)
20世紀50年代,語音識別技術主要由我國科學院聲學所開始研究,在當時條件下,語音識別受制硬件設施,語音識別的發展一直都比較落后。隨著計算機的快速發展和普及,許多人開始研究語音識別技術。國內中科院聲學所、清華大學、哈爾濱工業大學、中國科技大學等機構和院校也增設語音識別研究課題,我國的“863計劃”啟動后,語音識別被專門列出來研究[1-3]。
語音識別控制系統的前處理就是把收集到的語音信號進行能量的放大、去噪和分割等,得到有效語音段;在有效語音段中提取語音識別分析時所需要的特征信號,排除對語音信號中多余的信息,達到提取語音識別需要信息的目的。在正常情況下,計算機采集的語音信號會有噪音,計算機無法識別語音指令,造成語音技術的推廣應用受到很大的限制。本文的語音識別控制系統采集語音信號,經前處理并從中提取特征參數,與參考數據庫參進行特征信號匹配,并指示正確的識別結果,完成語音指令[4-14]。
為此,設計了基于英語語音識別的水果采摘機器人控制系統,進行了語音信號的前端處理、特征參數提取和參數匹配及語音指令輸出,并驗證了語音識別控制的可操作性和實用性。
基于英語語音識別的水果采摘機器人控制系統研究的是英語語音的識別,識別提取特征參數,是該控制系統可否實現重點。在語音識別控制系統工作程序(見圖1)中,需要不斷進行調試才能分析出正確的特征參數。語音識別系統作為一個模型識別系統,包括前處理、特征提取、匹配比較、識別決策及數據庫等。語音識別有調試、識別兩個階段:首先進行是識別系統“調試”階段,目的是建立語音識別特征參數的聲學模型,完成參數數據庫的建立;然后是識別階段,按照設定的規則將提取的語音特征信號與數據庫貯存的參數模式相比較,決策出語音識別結果,通過語音輸出設備發送語音指令,完成作業。
采集到語音信號是非平穩信號,加上人在呼吸時產生的氣流噪音、外界環境的噪音和計算機中的電流干擾噪音,造成采集的信號不能直接用于特征提取,需將語音信號進行前處理。前處理程序主要包括采樣、預濾波、分幀和加窗等內容,經過前處理的英語語音信號便可以提取特征參數數據。在調試階段,取得的特征參數進行處理后,每一個特征參數就可以獲得一個模型,同一個特征參數需要進行多次調試,將得到的模型保存到數據庫中。在識別階段,采集的信號經過同一條的通道,得到的語音特征參數,與數據庫貯存中的特征模板進行匹配比較,將匹配后得分最高的作為識別最終結果。

圖1 語音識別控制系統流程圖
采摘機器人的語音采集設備將語音輸送至語音識別控制系統。語音信號的前處理就是將采集到的初始語音信號通過能量的增大而放大,分辨出信號中的噪音并將噪音去除;將去除噪音的語音信號分割為小段后,便可以對經過處理的各小段語音信號進行特征信號提取;在提取時可以分辨出有效信號并提取出來,去除多余的冗余信息,獲得的有效語音信號便是語音識別的重要信息。語言信號前處理程序主要包括采樣、預濾波、分幀和加窗等。
2.1.1 語音信號采集
語音識別控制系統是以計算機來分析的,故需要將語音信號轉換成數字信號。人類說話的頻譜寬度范圍是有一定限度的,試驗分析表明:人類話語中濁音的頻譜超過4kHz時就會下降,而話語中清音的頻譜超過4kHz時仍然上升,超過8kHz都沒有下降的趨勢。因此,在所采集的語音信號中需要采集到10kHz以下所有的頻譜才可以分析到全部信號,也利于后續語音特征信號的提取工作。由于需要采集到10kHz以下的所有頻譜,為保證采集工作進行,實際采集頻譜要大于10kHz,因此設計采集頻率為15kHz以下所有頻譜。
2.1.2 語音信號預濾波
將采集的語音信號預濾波化就是為了達到以下目的:①壓制采集語音信號中個頻譜分量中頻率過大的分量,本系統設計為壓制超過采集頻率的1/2的頻譜。②壓制采摘機器人作業時使用的電源干擾。電源頻譜的干擾在所有干擾中是最大的,壓制電源頻率的干擾可以更大程度上消除語音識別誤差。
為了達到上面的目標,本控制系統采用的濾波器就需要使用帶通濾波器。在濾波器中設置上下限,濾除上下限范圍外的頻率,設置上限為m,下限為n,采集n-m范圍的頻譜。語音信號由設備上的麥克風采集,以設置頻率范圍采集語音樣本,將語音樣本進行A/D轉換。鑒于人類發聲器官的特性,聲音從嘴巴發出后會有一定程度的衰減,衰減會造成語音信號頻譜的畸化,主要是語音信號中高頻信號的損失,會為后期語音特征提取添加障礙,因此需要對衰減的頻譜進行補償措施,補償程度可根據衰減情況而定,補償后的語音信號會比較平坦,利于后期特征的提取。
2.1.3 語音信號分幀
試驗發現:在比較短的時間內,語音信號的頻譜比較平穩。因此,在語音識別分析中將一個語音信號劃分為多個小的時間段,這種小的時間稱之為“幀”。 “幀”是語音信號分析中最小單元,幀與幀之間會存在一些空白部分,這部分稱之為幀移。幀移的范圍在語音信號時間段是不確定的,分幀的內容就是將語音信號分成若干個幀。劃分的幀越小,越能清楚地提取特征信號,但會導致計算量大;劃分的幀大,計算量會比較少,但容易造成信號丟失,無法提取到有效特征信號。研究發現:幀劃分為20ms時,幀與幀之間的幀移會比較大,最大可達到幀的1/2。幀移太大,就會丟失有效特征信號。本系統設計劃分的幀取10ms,幀移的范圍比較小,易于提取有效特征語音信號。
2.1.4 語音信號加窗
語音信號在分幀后,因為存在幀移,故幀與幀之間是不連續的,因此分幀后的語音信號會偏離原始信號。為了減少信號的偏離,需要采用窗函數來減少信號處理中出現的Gibbs效應。因此,語音信號的加窗處理的目的就是減少幀與幀之間信號斷裂問題。
語音信號通過前處理后,得到短時段的語音幀,從這些幀中提取語音識別有效特征。經典的特征提取方法主要有LPCC、MFCC(美爾頻率倒譜系數)、HMM、DTW等。其中,用美爾頻率倒譜系數提取有比較好的效果。MFCC提取過程如圖2所示。
語音信號前處理后,得到有效分幀段就可以進行分析處理。從語音段中提取語音識別所需要的特征語音信號,去除語音信號中會干擾識別的多余信息。獲得有效語音特征信號是語音能否識別的關鍵,語音信號特征提取的選擇需滿足以下條件:
1)語音信號特征是有效的代表,且可以很好地區分該特征,特征包括了聲道和聽覺兩個方面;
2)特征參數應是獨立的,可單獨進行特征分析;
3) 計算應盡可能簡單、方便,確保語音識別控制系統的實時性。

圖2 MFCC提取過程
對于英語語音控制的采摘機器人來說,根據水果采摘特點,需要識別的指令有采摘機器人的前進、后退、停止、左右移動,以及采摘機械臂的采摘指令等。這些都是獨立的語音指令,不需要進行語義分析,故采摘機器人可以直接采用語音模板,不用做大量的特征檢測分割工作。調試工作主要是為了確定數據庫中模板樣本是否能滿足特征匹配分析,只有將模板樣本調試到足夠充分,得到的模板才能滿足語音特征信號匹配分析要求,達到更明確的語音識別效果。
數據庫中貯存的樣本經過充足的調試后,就可進行語音特征信號與樣本的匹配。兩者的匹配就是將提前的未知信號與數據庫中的已知特征參數進行匹配比較,比較的結果可以根據失真測度及失真測度程度判斷。失真測度對語音特征信號具有較好的魯棒性,目前各種特征參數匹配方法中DTW算法對于短時間的語音識別來說,語音的識別率相對比較高,適用本語音識別控制系統。在調試階段,將英語指令中的每個單詞依次說3遍,作為模板樣本存入數據庫中;在識別階段,將提取得到的語音特征與貯存的所有樣本進行比較,將匹配度最高的語音作為識別決策輸出。
在安靜的環境錄制30個英語語音數據,對其進行處理和提取,驗證英語語音識別控制系統可行性和可靠性。30個英語語音數據進行5次實驗,數據如表1所示。

表1 英語語音識別率
實驗結果表明:英語語音識別控制系統的識別率在90%以上。這說明,基于英語語音識別的水果采摘機器人控制系統可以滿足采摘要求。由于輸入的各個單詞的清濁音存在差異,語音頻譜的大小也會不一樣,故識別效果存在差異。調試的次數同樣會影響識別率:調試次數少,后期語音識別的準確會比較低;調試次數多時,語音識別的正確率會提高。
設計了基于英語語音識別的水果采摘機器人控制系統進行研究,對語音信號進行了分析處理及特征提取,并進行仿真實驗驗證。結果表明:本設計識別率在90%以上,可靠性較高。語音識別控制為農業生產中提供了一種更安全、更方便的機器控制方法,可提高農業生產的效率,節省農業采摘的時間,為農戶爭取更多的經濟效益。