董胡
(長沙師范學(xué)院 信息與工程系, 長沙 410100)
基于嵌入式語音識(shí)別的家用服務(wù)機(jī)器人控制系統(tǒng)
董胡
(長沙師范學(xué)院 信息與工程系, 長沙 410100)
語音是人類最自然便捷的交流方式,也是人機(jī)交互中最直接的交互模式之一。對(duì)語音識(shí)別的基本理論進(jìn)行了介紹,包括語音信號(hào)的預(yù)處理、特征提取、模型匹配3個(gè)方面,給出了基于MFCC+ΔMFCC的語音特征參數(shù)提取方法。在實(shí)驗(yàn)室環(huán)境下提取了特定人的若干語音數(shù)據(jù),利用MATLAB對(duì)語音特征參數(shù)MFCC+ΔMFCC進(jìn)行了仿真識(shí)別實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該方法識(shí)別率高達(dá)94.54%,具有較強(qiáng)的魯棒性。在實(shí)驗(yàn)基礎(chǔ)上,通過搭建設(shè)計(jì)4個(gè)自由度的Arduino雙臂機(jī)器人和ASR M08-A語音識(shí)別模塊等硬件電路,實(shí)現(xiàn)了語音控制機(jī)器人完成各種規(guī)劃動(dòng)作。
嵌入式; 語音識(shí)別; 機(jī)器人; 特征參數(shù); 控制系統(tǒng)
眾所周知,語音是人與人之間最自然便捷的交流方式之一[1][2][3]。同樣,在人類發(fā)明電子計(jì)算機(jī)之后,人們也一度夢想通過“語音交互”這種方便快捷的方式和機(jī)進(jìn)行溝通。倘若能把具有語音信息處理和識(shí)別能力的機(jī)器納入人的語音交互對(duì)象,并為人類服務(wù),使之像人一樣具備聽、說功能并對(duì)語音做出理解和動(dòng)作反應(yīng),同時(shí)在交互方式上不受地點(diǎn)和時(shí)間的限制,那么將使人類的工作和生活方式產(chǎn)生革命性的變化[4]。進(jìn)入21世紀(jì),機(jī)器人愈來愈進(jìn)入到人們生產(chǎn)、生活的各個(gè)方面。由于人口老齡化的比例越來越嚴(yán)重,相應(yīng)的社會(huì)保障和服務(wù)也更加緊迫。而與之相應(yīng)的將是更廣大的具有語音識(shí)別功能的家用服務(wù)機(jī)器人市場。工業(yè)機(jī)器人之父約瑟夫.恩格爾伯格,他說:“常識(shí)告訴我們,家用服務(wù)機(jī)器人最終將擁有比工業(yè)機(jī)器人更大的市場”。一方面具有語音識(shí)別功能的家用服務(wù)機(jī)器人將更加廣泛地代替人從事各種機(jī)械反復(fù)的、繁重的、和危險(xiǎn)的生產(chǎn)作業(yè)。另一方面具有語音識(shí)別功能的家用服務(wù)機(jī)器人更多的進(jìn)入到普通家庭中幫助人們、照顧老人,以及完成各種各樣的任務(wù)。機(jī)器語音識(shí)別技術(shù)研究,將突破由于語種、腔調(diào)、方言不同,造成人與機(jī)器之間口語溝通和交流的障礙,并使機(jī)器語音交互系統(tǒng)成為普通民眾人機(jī)對(duì)話的工具。如今,隨著機(jī)器語音識(shí)別技術(shù)研究的不斷深入發(fā)展,語音識(shí)別技術(shù)對(duì)人們生活的影響和重要性也逐步凸現(xiàn)出來。而如今用機(jī)器語音識(shí)別技術(shù)開發(fā)出非常多的產(chǎn)品,比如聲控玩具、語音翻譯系統(tǒng)、電話訂票系統(tǒng)、語音自動(dòng)撥號(hào)和回復(fù)軟件等幾乎我們社會(huì)生活中的各個(gè)方面,而其本身潛在的市場和經(jīng)濟(jì)效益也都將促使該門技術(shù)不斷向前推進(jìn)。
由于語音識(shí)別技術(shù)的不斷發(fā)展,面向不同任務(wù)的語音識(shí)別系統(tǒng),就有多種不同的系統(tǒng)設(shè)計(jì)方案,但系統(tǒng)的整體結(jié)構(gòu)和模型的思想都是大致相同的。即采集語音信號(hào)后,經(jīng)過語音特征提取模塊的處理,得到一組反映該段語音特征的參數(shù)模型,然后再將提取的語音特征參數(shù)導(dǎo)入語音模型庫的模塊,進(jìn)行語音訓(xùn)練和模式匹配,最后得出正確的識(shí)別結(jié)果。語音識(shí)別系統(tǒng)實(shí)質(zhì)是一種模式識(shí)別系統(tǒng),包括語音預(yù)處理、特征提取、模式匹配以及參考模型庫等基本單元,其基本結(jié)構(gòu)原理圖,如圖1所示。

圖1 語音識(shí)別系統(tǒng)原理圖
預(yù)處理模塊主要包括對(duì)語音的采樣、A/D 轉(zhuǎn)換、預(yù)加重、分幀、端點(diǎn)檢測。預(yù)加重一般是在語音信號(hào)數(shù)字化以后,在語音特征參數(shù)分析之前。特征提取模塊主要是計(jì)算語音的聲學(xué)參數(shù),進(jìn)行特征的計(jì)算,取出反映信號(hào)特征的關(guān)鍵特征參數(shù),其本質(zhì)是在降低或很少降低語音分類結(jié)果性能的情況下來降低特征空間的維數(shù)。
語音訓(xùn)練階段,將輸入的語音信號(hào)經(jīng)過多次訓(xùn)練后,經(jīng)過預(yù)處理和特征提取得到相應(yīng)的特征矢量參數(shù)序列,最后建立語音參考模式庫。在識(shí)別階段,將輸入語音的特征參數(shù)和語音參考模式庫中的語音進(jìn)行匹配,將匹配的最佳結(jié)果輸出。這種最佳的結(jié)果與語音特征的提取、語音模型的好壞以及模板是否準(zhǔn)確都有很大的關(guān)系。
1.1 語音信號(hào)的預(yù)處理
一般而言,語音信號(hào)在進(jìn)行分析和處理之前,首先要將語音信號(hào)進(jìn)行預(yù)處理。語音信號(hào)預(yù)處理包括:預(yù)濾波、采樣、A/D轉(zhuǎn)換、預(yù)加重和端點(diǎn)檢測等。語音信號(hào)經(jīng)過預(yù)處理以后,提取語音特征參數(shù),之后語音信號(hào)的所有處理都是基于語音特征矢量序列的。
語音信號(hào)是一種典型的非平穩(wěn)、隨時(shí)間而變的一維信號(hào)。眾所周知,語音信號(hào)在數(shù)字化之前,為了濾除噪聲或高于 1/2 采樣頻率的語音信號(hào),需進(jìn)行防混疊濾波。通常將這種防混疊濾波與模數(shù)轉(zhuǎn)換器做在一個(gè)集成塊內(nèi),用來保證語音信號(hào)數(shù)字化的質(zhì)量。
1.2 語音信號(hào)的特征提取
語音特征參數(shù)的選擇是整個(gè)識(shí)別系統(tǒng)的基礎(chǔ),對(duì)正確的識(shí)別率有著直接影響。語音特征一般包括基音周期(Pitch)、主分量分析(PCA)、獨(dú)立分量分析(ICA)、線性預(yù)測系數(shù)(LPC)、美爾頻率倒譜系數(shù)(MFCC)[5]。美爾頻率倒譜系數(shù)[6],其實(shí)是把信號(hào)的頻譜將頻率軸變換為Mel頻率刻度,然后再變換到倒譜域得到我們想要的倒譜系數(shù)。Mel是音高的單位,它是人們耳朵聽覺系統(tǒng)對(duì)聲音頻率的感覺,Mel頻率刻度與頻率的表達(dá)式關(guān)系,[7]如式(1)。
(1)
其中f是實(shí)際的線性頻率,而fmel是美爾頻率。
由于傳統(tǒng)的MFCC一般只反映語音特征參數(shù)的靜態(tài)特性,而我們?nèi)硕鷮?duì)語音動(dòng)態(tài)的特征卻更為敏感,語音特征提取參數(shù)中 MFCC進(jìn)行差分后是一種動(dòng)態(tài)參數(shù),通過分析LPCC[8]、MFCC特征參數(shù)提取的方法,給出一種MFCC+ΔMFCC相結(jié)合的方法,將此方法應(yīng)用于嵌入式語音識(shí)別系統(tǒng)中,以期獲得較好的魯棒性。


(2)
其中dCeP表示動(dòng)態(tài)特征,CeP表示倒譜,k是求差分的幀的范圍,k取常數(shù)2。
假設(shè)接收天線陣列中各個(gè)天線單元都是匹配的,則[ar]=0。若整個(gè)N+M端口傳輸系統(tǒng)的傳輸效率達(dá)到最大,式(1)可以化簡為[9-10]
1.3 語音信號(hào)的模型匹配
目前常用的語音識(shí)別方法有基于特定人的動(dòng)態(tài)時(shí)間規(guī)整法(DTW)、基于統(tǒng)計(jì)模型的隱馬爾柯夫模型法[9]( HMM) 、基于小波變換以及神經(jīng)網(wǎng)絡(luò)的識(shí)別法(DNN,NPN)。模板匹配法是多維模式識(shí)別系統(tǒng)中最常用的一種相似度計(jì)算方法。說話人的模型是每個(gè)說話人對(duì)應(yīng)于一個(gè)特征分布的概率密度函數(shù)。模型訓(xùn)練是在遵循一定的準(zhǔn)則下,從己知模式中提取出隨時(shí)間變化的語音特征序列,建立語音參考模型并存儲(chǔ)。語音模板匹配是指未知的語音模式根據(jù)相應(yīng)的準(zhǔn)則與已有的聲學(xué)參考模型庫中某一模型獲得最佳的匹配結(jié)果。基于模式識(shí)別的語音識(shí)別算法中最重要的部分是聲學(xué)模型,其可以有效地描述語音特征信號(hào)空間的概率分布,合理地表達(dá)聲學(xué)特征及決定語音識(shí)別的性能。在語音識(shí)別的過程中,首先要根據(jù)一定的模式匹配原則,來計(jì)算未知的語音模式與語音參考模板庫中的每個(gè)模板的距離測度,最終得到最佳的匹配結(jié)果。本文采用動(dòng)態(tài)時(shí)間規(guī)整法進(jìn)行模型匹配。
2.1 機(jī)器人機(jī)械臂自由度
機(jī)器人手臂的一個(gè)重要技術(shù)參數(shù)指標(biāo)就是自由度,它直接關(guān)系到機(jī)器人的機(jī)動(dòng)性,是傳動(dòng)執(zhí)行裝置的機(jī)械組合,本文設(shè)計(jì)的家用服務(wù)機(jī)器人機(jī)械臂由關(guān)節(jié)、臂和末端執(zhí)行裝置組成,自由度為4個(gè)。家用服務(wù)機(jī)器人手臂結(jié)構(gòu)設(shè)計(jì)主要由關(guān)節(jié)間連接部件的尺寸大小以及關(guān)節(jié)自由度配置所決定。自由度越多,則結(jié)構(gòu)越復(fù)雜,家用服務(wù)機(jī)器人手臂的運(yùn)動(dòng)學(xué)、動(dòng)力學(xué)分析就更加的復(fù)雜[10-11]。
2.2 服務(wù)機(jī)器人手臂關(guān)節(jié)旋轉(zhuǎn)
家用服務(wù)機(jī)器人手臂關(guān)節(jié)坐標(biāo)位置的表示以及旋轉(zhuǎn)變換,正運(yùn)動(dòng)學(xué)問題是通過已知的機(jī)器人各個(gè)關(guān)節(jié)變量來求解末端執(zhí)行器的位姿;逆運(yùn)動(dòng)學(xué)問題根據(jù)機(jī)器人末端執(zhí)行器的位置和姿態(tài)要求,通過運(yùn)動(dòng)學(xué)逆解求得各個(gè)關(guān)節(jié)轉(zhuǎn)角。而在家用服務(wù)機(jī)器人動(dòng)作的實(shí)現(xiàn)上將主要是運(yùn)動(dòng)學(xué)逆解問題,通過控制機(jī)器人手臂關(guān)節(jié)各個(gè)舵機(jī)轉(zhuǎn)動(dòng)的角度實(shí)現(xiàn)機(jī)器人預(yù)定動(dòng)作路徑的規(guī)劃。然后將規(guī)劃動(dòng)作存儲(chǔ)在Arduino控制板程序中,通過語音識(shí)別模塊的輸出結(jié)果觸發(fā)相應(yīng)的動(dòng)作。
2.3 家用服務(wù)機(jī)器人語音識(shí)別系統(tǒng)硬件模塊構(gòu)成
其中,ASRM08-A模塊主要實(shí)現(xiàn)傳遞控制命令給機(jī)器人機(jī)械臂完成預(yù)定的規(guī)劃動(dòng)作以及人機(jī)對(duì)話功能;ASRM08-A模塊,如圖2所示:

圖2 ASRM08-A硬件模塊
1) ASRM08-A語音識(shí)別模塊串口與單片機(jī)相連時(shí)接線方式如下:
模塊GND端口、TXD端口、RXD端口分別與單片機(jī)對(duì)應(yīng)端口相連,若模塊和單片機(jī)系統(tǒng)共用電源,則模塊3.3 V端口連接單片機(jī)3.3 V輸入端。
2) 語音識(shí)別模塊自帶功放電路輸出,可直接連接0.5W的揚(yáng)聲器。SPK+接揚(yáng)聲器的正極,SPK-接揚(yáng)聲器的負(fù)極。
3) MIC為外置麥克風(fēng)接口,插入外置麥克風(fēng)時(shí)內(nèi)置麥克風(fēng)自動(dòng)斷路,此時(shí)只有外置麥克風(fēng)起作。
Arduino MEGA2560、ArduinoMEGA傳感器擴(kuò)展板模塊和傳感器模塊主要完成機(jī)器人傳感數(shù)據(jù)的采集和顯示功能;繼電器模塊主要實(shí)現(xiàn)機(jī)器人機(jī)械臂動(dòng)作的開始和停止功能;WE-40C藍(lán)牙模塊連接在ASRM08-A模塊和串口TTL4路繼電器控制板模塊之間,實(shí)現(xiàn)語音識(shí)別無線控制功能;16路伺服舵機(jī)控制模塊電路和動(dòng)作存儲(chǔ)卡模塊實(shí)現(xiàn)機(jī)器人動(dòng)作的路徑規(guī)劃和存儲(chǔ)。
其中,16路伺服舵機(jī)控制模塊主電路采用RISC結(jié)構(gòu)的Atmega8 AVR單片機(jī)作為主控芯片,具體主控電路,如圖3所示。
機(jī)器人機(jī)械臂模塊則為完成動(dòng)作的硬件條件,由RB-04M14伺服舵機(jī)組成,機(jī)械臂自由度為四個(gè)。家用服務(wù)機(jī)器人硬件模塊構(gòu)成,如圖4所示。
2.4 語音識(shí)別控制家用服務(wù)機(jī)器人動(dòng)作的實(shí)現(xiàn)
在所述的ASRM08-A語音識(shí)別模塊中,先通過語音合成建立語音識(shí)別模塊的語音庫,語音庫的大小和內(nèi)容可根據(jù)需要而設(shè)定。ASRM08-A模塊的識(shí)別原理是通過預(yù)先設(shè)定的關(guān)鍵字與從麥克風(fēng)輸入的語音對(duì)比,輸出想要的語音識(shí)別內(nèi)容。
ASRM08-A模塊與串口TTL4路繼電器控制板模塊連接,串口TTL4路繼電器控制板模塊中嵌入了隱馬爾科夫算法,使得ASRM08-A模塊的輸出與繼電器模塊的輸入對(duì)應(yīng),從而可以通過語音控制串口TTL4路繼電器控制板模塊的通斷。ASRM08-A語音識(shí)別模塊中含有三種語音檢測模式,分別是循環(huán)檢測模式、口令檢測模式、按鈕檢測模式。這里采用語音識(shí)別模塊采用口令檢測模式。
串口TTL4路繼電器控制板模塊中繼電器輸出為三位的接線端子,分別以1、2、3代替,其中1、2是常閉觸點(diǎn),即繼電器不通電的時(shí)候是通的,通電之后斷開;而2、3是常開觸點(diǎn),即繼電器不通電的時(shí)候是斷開的,通電之后是閉合的。串口TTL4路繼電器控制板模塊與16路伺服電機(jī)控制器模塊連接,所以在16路伺服舵機(jī)控制板供電端和電源端之間連接串口TTL4路繼電器模塊時(shí),將16路伺服電機(jī)控制板的電源供電端連接在2、3常開觸點(diǎn)上。同時(shí)為了實(shí)現(xiàn)無線語音控制,ASRM08-A模塊和串口TTL4路繼電器控制板模塊分別加裝藍(lán)牙模塊。其中ASRM08-A模塊3.3V電源線與藍(lán)牙模塊3.3接口連接,ASRM08-A模塊RX端與WE-40C藍(lán)牙模塊的TX端相連,ASRM08-A模塊TX端與WE-40C藍(lán)牙模塊的RX端相連,ASRM08-A模塊GND端與WE-40C藍(lán)牙模塊的GND端相連;而串口TTL4路繼電器控制板模塊與WE-40C藍(lán)牙模塊連接時(shí),串口TTL4路繼電器模塊3.3V接口與WE-40C藍(lán)牙模塊的3.3V連接,串口TTL4路繼電器模塊RX端與WE-40C藍(lán)牙模塊TX端連接,串口TTL4路繼電器模塊TX端與WE-40C藍(lán)牙模塊RX端連接,串口TTL4路繼電器模塊GND端與WE-40C藍(lán)牙模塊GND端連接。
16路伺服舵機(jī)控制模塊電路與機(jī)器人機(jī)械臂模塊連接,16路伺服電機(jī)控制模塊電路上位機(jī)軟件規(guī)劃機(jī)器人機(jī)械臂的運(yùn)動(dòng)路徑,而運(yùn)動(dòng)路徑規(guī)劃是通過分別控制每個(gè)RB-04M14伺服航機(jī)的旋轉(zhuǎn)角度來實(shí)現(xiàn)的。在本文中,規(guī)劃的運(yùn)動(dòng)路徑是“前進(jìn)”、“后退”、“左拐”、“右拐”、“直行”等。然后將規(guī)劃運(yùn)動(dòng)路徑的代碼存入動(dòng)作存儲(chǔ)卡模塊。動(dòng)作存儲(chǔ)卡模塊與16路伺服舵機(jī)控制模塊電路相互接。
家用服務(wù)機(jī)器人嵌入式語音識(shí)別系統(tǒng)的軟件設(shè)計(jì)平臺(tái)是基于Linux系統(tǒng)平臺(tái)的設(shè)計(jì),本系統(tǒng)的核心部分是軟件控制系統(tǒng)的模塊化設(shè)計(jì)。控制系統(tǒng)模塊化設(shè)計(jì)主要包括語音識(shí)別的系統(tǒng)初始化、語音訓(xùn)練、語音識(shí)別三部分。首先進(jìn)行語音的訓(xùn)練,從采樣好的訓(xùn)練語音中提取出隨著時(shí)間變化的語音特征序列、建立語音參考模型庫并存儲(chǔ);然后進(jìn)行語音模式匹配,再次輸入語音,從待識(shí)別的語音中提取語音特征參數(shù),將相同的語音特征與已經(jīng)訓(xùn)練好并存儲(chǔ)的語音參考模型庫中的語音特征進(jìn)行匹配和比較,如果識(shí)別匹配不成功,則提示錯(cuò)誤的原因以后,重復(fù)的進(jìn)行匹配和比較,直至識(shí)別最佳語音結(jié)果,成功后即可執(zhí)行用戶的命令。嵌入式語音識(shí)別系統(tǒng)程序流程圖,如圖5所示。
在實(shí)驗(yàn)室環(huán)境下,錄制30個(gè)特定人的語音數(shù)據(jù),對(duì)其進(jìn)行預(yù)處理和特征提取,存儲(chǔ)計(jì)算30個(gè)特征矩陣作為語音參考模板,并且對(duì)語音幀進(jìn)行預(yù)加重和加漢明窗處理,預(yù)加重系數(shù)為 0.95。其余3組作為待測語音模板,之后分別提取LPCC、MFCC、MFCC+ΔMFCC的特征參數(shù)并進(jìn)行語音識(shí)別測試,如圖6所示。

圖3 16路伺服舵機(jī)控制模塊主電路

圖4 家用服務(wù)機(jī)器人硬件模塊構(gòu)成
由圖6分析可知,LPCC方法的識(shí)別率為88.52%、MFCC方法的識(shí)別率為91.56%、MFCC+ΔMFCC方法的識(shí)別率為94.54%。比較實(shí)驗(yàn)結(jié)果可知識(shí)別率最高的是MFCC+ΔMFCC特征提取方法。因此通過實(shí)驗(yàn)研究證明,MFCC+ΔMFCC相結(jié)合的方法能有效地適用于語音特征參數(shù)的提取及識(shí)別。在上述語音識(shí)別的基礎(chǔ)上,通過搭建四個(gè)自由度的Arduino雙臂機(jī)器人和ASR M08-A語音識(shí)別模塊等硬件電路,可實(shí)現(xiàn)語音控制機(jī)器人完成各種規(guī)劃動(dòng)作。
本文使用MFCC+ΔMFCC的語音特征參數(shù)提取方法,實(shí)現(xiàn)了語音識(shí)別。實(shí)驗(yàn)結(jié)果表明,該方法具有較高的識(shí)別正確率,魯棒性強(qiáng)。在語音識(shí)別實(shí)驗(yàn)基礎(chǔ)上,通過搭建設(shè)計(jì)四個(gè)自由度的Arduino雙臂機(jī)器人和ASR M08-A語音識(shí)別模塊等硬件電路,將該語音識(shí)別方法應(yīng)用在家用服務(wù)機(jī)器人上,能夠做到實(shí)時(shí)控制家用服務(wù)機(jī)器人完成相關(guān)的規(guī)劃動(dòng)作,具有一定的實(shí)用性與參考性。

圖5 嵌入式語音識(shí)別系統(tǒng)流程圖

圖6 特征參數(shù)提取實(shí)驗(yàn)結(jié)果分析
[1] 李書貞,施玉霞.基于語音指令的遠(yuǎn)程控制機(jī)器人系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].微型電腦應(yīng)用,2008,24(11):1-3.
[2] Reinisch E. Natural Fast Speech is Perceived as Faster than Linearly Time-compressed Speech [J].Attention Perception & Psychophysics,2016,78 (4):1-15.
[3] Di C P. Systems and methods for Responding to Natural Language Speech Utterance[J]. Journal of the Acoustical Society of America, 2016,130(3):1781.
[4] 張?zhí)锓?劉幺和,譚保華.基于語音識(shí)別的遠(yuǎn)程機(jī)器人控制系統(tǒng)[J].湖北工業(yè)大學(xué)學(xué)報(bào),2007,22(2):45-47.
[5] 谷志偉,漢峰.基于改進(jìn)的DTW算法的變電站巡檢機(jī)器人語音識(shí)別的實(shí)現(xiàn)[J].機(jī)電信息,2014(6):139-141.
[6] 李麟.家用機(jī)器人語音識(shí)別及人機(jī)交互系統(tǒng)的研究[D].哈爾濱工業(yè)大學(xué),2007.
[7] 趙力.語音信號(hào)處理(第2版)[M].北京:機(jī)械工業(yè)出版社,2009.
[8] 黃羿博,張秋余,袁占亭,楊仲平.融合MFCC和LPCC的語音感知哈希算法[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015,43(2):124-128.
[9] 李建文,張晉平.基于改進(jìn)語音特征提取方法的語音識(shí)別[J].微電子學(xué)與計(jì)算機(jī), 2009,26(7):230-233.
[10] 郝宗波.家庭移動(dòng)服務(wù)機(jī)器人的若干關(guān)鍵技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2006.
[11] Amal Punchihewa.Voice Command Interpretation for Robot Control[C].IEEE the 5th International Conference On Automation,Robotics and Applications,2011, 5:90-95.
Control System of Home Service Robot Based on Embedded Speech Recognition
Dong Hu
(Information and Engineering Department, Changsha Normal University, Changsha 410100, China)
Speech is the most natural and convenient way of communication, it is also one of the most direct interaction pattern of human-computer interaction. Firstly, we introduce the basic theory of speech recognition, including speech signal preprocessing, feature extraction, and model matching. A speech feature parameter extraction method is then presented based on MFCC and delta MFCC. We get some speech data in laboratory environment, and use Matlab to make simulated experiment for speech feature parameters of MFCC and delta MFCC. The experiment result proves that this method can get 94.54% recognition accuracy and it has high robustness. On the basis of the experiment, by constructing and designing four degrees of freedom of the Arduino robot arms and ASR M08-A speech recognition module and hardware circuits, the voice control of robot and planned actions are achieved.
Embedded; Speech recognition; Robot; Characteristic parameters; Control system
長沙師范學(xué)院院級(jí)科研項(xiàng)目(XYYB201517);湖南省教育廳項(xiàng)目 (12C0952);湖南省自然科學(xué)基金項(xiàng)目(2015JJ6007)
董胡(1982-),男,漢,湖北黃岡,長沙師范學(xué)院電子與信息工程系,講師,研究方向:嵌入式技術(shù)、機(jī)器人技術(shù)及信號(hào)處理.
1007-757X(2017)04-0015-05
TP311
A
2016.04.05)