雷 花,邵文婷
(江西機(jī)電職業(yè)技術(shù)學(xué)院,南昌 330013)
隨著現(xiàn)代人工智能技術(shù)的發(fā)展,語音識(shí)別被應(yīng)用在各種智能機(jī)器人自動(dòng)控制系統(tǒng)中,多聲學(xué)建模和多語言建模是現(xiàn)代化語音識(shí)別算法中重要的組成部分。其中,具有代表性的是隱馬爾可夫模型。對(duì)于語音識(shí)別系統(tǒng),為了實(shí)現(xiàn)語音信號(hào)的識(shí)別,其輸出值一般是從語音信號(hào)各幀中提取聲學(xué)特征,然后HMM刻畫語音信號(hào)。在多語言識(shí)別系統(tǒng)中,可以直接建立多語混合聲學(xué)模型,將混合模型合并,然后按照單一的聲學(xué)建模方法訓(xùn)練多語言識(shí)別系統(tǒng)。在語音識(shí)別系統(tǒng)訓(xùn)練過程中,需要采用專門用途的語音和語言識(shí)別技術(shù),而ESP便是針對(duì)專門用途英語的一種思想,可以將其引入到采摘機(jī)器人語音識(shí)別系統(tǒng)設(shè)計(jì)過程中,設(shè)計(jì)出多語言混合識(shí)別系統(tǒng),提高采摘機(jī)器人的語音識(shí)別能力和效率。
ESP是English for Specific Purposes的縮寫,即專門用途的英語,是一種目標(biāo)性強(qiáng)、實(shí)用價(jià)值高的教學(xué)途徑,采用ESP教學(xué)理論可以得到較好的學(xué)習(xí)效果?;贓SP理論的英語教學(xué)在實(shí)施過程中首先要建立需求分析,包括目標(biāo)需求分析和學(xué)習(xí)需求分析,也可以分為社會(huì)需求和個(gè)人需求。在實(shí)際教學(xué)過程中,可以結(jié)合電子商務(wù)英語的特點(diǎn),采用ESP理論進(jìn)行教學(xué)研究。
ESP理論可以擴(kuò)展到各種語言應(yīng)用領(lǐng)域,如語音識(shí)別系統(tǒng)的設(shè)計(jì)過程。如果要實(shí)現(xiàn)語音的準(zhǔn)識(shí)別,則需要建立多種專門用途語言的識(shí)別模型。建立過程可以參考ESP思想理論,其流程如圖1所示。

圖1 基于ESP的語音識(shí)別系統(tǒng)
采摘機(jī)器人的多語言識(shí)別系統(tǒng)主要是通過對(duì)比語音參考模板和采集語音信號(hào)的相似程度來識(shí)別控制指令。其中,參考模板需要進(jìn)行不斷的訓(xùn)練,以得到合理的相似度閾值,其訓(xùn)練過程可以參考ESP思想理論。樣本訓(xùn)練完成后,通過設(shè)定相似度閾值的方法,來判斷語音指令。當(dāng)采集得到的語音指令和參考模板相似度最大時(shí),便可以識(shí)別到指令。
為了提高采摘機(jī)器人的自動(dòng)化程度,在設(shè)計(jì)過程中引入了智能語音識(shí)別系統(tǒng)。同ESP英語翻譯類似,采摘機(jī)器人的語音識(shí)別系統(tǒng)采用相關(guān)算法,可以識(shí)別特定的語音,最簡(jiǎn)單的算法是DWT算法。DWT算法是一種簡(jiǎn)單、有效的語音識(shí)別算法,相比其他算法該算法可以識(shí)別發(fā)音長(zhǎng)短不一的語音,而且在相同的條件下比其他算法更為簡(jiǎn)單。在智能訓(xùn)練過程中,DWT算法不需要額外的計(jì)算,所需語音樣本較少,對(duì)于采摘機(jī)器人的智能控制大部分都是一些孤立的語音識(shí)別,而DWT算法對(duì)于這類語音的識(shí)別具有明顯的優(yōu)勢(shì)。
采摘機(jī)器人智能語音識(shí)別系統(tǒng)的設(shè)計(jì)主要分3個(gè)階段,包括訓(xùn)練樣本、建立模版和語音識(shí)別,這3個(gè)階段首先都要確定語音的起點(diǎn)和終點(diǎn)。參考模版可以表示為{R(1),R(2),...,R(m),...,R(M)},其中時(shí)序標(biāo)號(hào)用m表示。當(dāng)m=1時(shí),表示參考語音的起點(diǎn);當(dāng)m=M時(shí),表示參考語音的終點(diǎn)位置。R(m)為第m幀語音特征矢量。輸入的測(cè)試數(shù)據(jù)可以表示為{T(1),T(2),...,T(n),...,T(N)}。其中,測(cè)試語音時(shí)序標(biāo)號(hào)用n表示。當(dāng)n=1時(shí),表示測(cè)試控制語音的起點(diǎn);當(dāng)n=N時(shí)表示測(cè)試語音的終點(diǎn)位置。
采摘機(jī)器人在進(jìn)行語音識(shí)別時(shí),可以通過計(jì)算測(cè)試語音模版T和參考語音模版R的距離D[T,R]來進(jìn)行語音識(shí)別。當(dāng)計(jì)算得到的距離較小時(shí),證明測(cè)試語音和參考語音的相似程度較高,識(shí)別成功。假設(shè)T和R中的任意一幀用n和m表示,則兩個(gè)語音信號(hào)特征向量直接的距離可以表示為D[T(n),R(m)]。距離函數(shù)和實(shí)際采用的距離度量相關(guān),在DWT算法中一般采用歐氏距離。
在n和m相同時(shí),可以直接計(jì)算語音信號(hào)樣板;如果n和m不相同,則需要T(n),R(m)進(jìn)行對(duì)齊。對(duì)齊時(shí),可以采用線性擴(kuò)張算法。采用映射的方法將兩個(gè)樣本映射為幀數(shù)相同的序列,再計(jì)算序列之間的距離,不過這種方法計(jì)算精度不高,因此還可以采用動(dòng)態(tài)規(guī)劃的方法。DTW語音識(shí)別的基本原理圖如圖2所示。一般一個(gè)規(guī)整的函數(shù)可以表示在一個(gè)四邊形網(wǎng)格內(nèi),其中一邊的斜率為2,另一條邊斜率為1/2,規(guī)整函數(shù)的起點(diǎn)為(0,0),終點(diǎn)是(N,M)。采用DTW算法的主要目的是由起點(diǎn)到終點(diǎn)尋找一個(gè)規(guī)整函數(shù),使其具有最小的代價(jià)函數(shù),保證參考語音信號(hào)和采摘機(jī)器人測(cè)試語音信號(hào)具有最大的相似性。

圖2 DTW語音識(shí)別的基本原理圖
在實(shí)際計(jì)算時(shí),網(wǎng)格外的節(jié)點(diǎn)可以不進(jìn)行計(jì)算,匹配計(jì)算只用到前一列的3個(gè)網(wǎng)格。因此,匹配過程對(duì)于矩陣的保存數(shù)量大大減少,形成了高效的DTW算法。圖2中,動(dòng)態(tài)彎折可以分為3部分,即(1,xa)、(xa+1,xb)、(xb+1,N),其中
xa=(2M-N)/3
xb=(2N-M)/3
(1)
xa和xb都取最相近的整數(shù),由此可得出對(duì)M和N長(zhǎng)度的限制條件為
2M-N≥3
2N-M≥2
(2)
在x軸上的每一幀不再需要與y軸上的每一幀進(jìn)行比較,而只是與y軸上[ymin,ymax]間的幀進(jìn)行比較。ymin和ymax的計(jì)算公式為
ymin=x/2 (0≤x≤xb) (3) 如果出現(xiàn)xa>xb的情況,則彎折匹配的3段為(1,xb)、(xb+1,xa)、(xa+1,N)。對(duì)于x軸上每前進(jìn)一幀,雖然所要比較的y軸上的幀數(shù)不同,但彎折特性是一樣的,累積距離的更新都是用下式實(shí)現(xiàn)的,即 D(x,y)=d(x,y)+min[D(x-1,y),D(x-1,y-1),D(x-1,y-2)] (4) 在采摘機(jī)器人進(jìn)行語音信號(hào)識(shí)別時(shí),可以采用對(duì)比累計(jì)距離來判斷測(cè)試信號(hào)和參考信號(hào)的匹配程度,信號(hào)也可以作為各種控制指令。當(dāng)指令匹配成功后,采摘機(jī)器人做出相應(yīng)的指令動(dòng)作,自主完成各種采摘作業(yè)任務(wù)。 為了驗(yàn)證基于ESP翻譯理論的多語言識(shí)別系統(tǒng)的可行性,本次利用采摘機(jī)器人的智能語言系統(tǒng)對(duì)其可行性進(jìn)行驗(yàn)證。為了簡(jiǎn)化實(shí)驗(yàn),只驗(yàn)證采摘機(jī)器人的語言識(shí)別準(zhǔn)確性。隨著現(xiàn)代人工智能技術(shù)的發(fā)展,機(jī)器人被應(yīng)用在很多領(lǐng)域。近年來,在農(nóng)業(yè)領(lǐng)域也引入了采摘機(jī)器人,并逐步具有了自主作業(yè)能力。圖3為一款具有自主作業(yè)能力的采摘機(jī)器人。 圖3 采摘機(jī)器人作業(yè)示意圖 采摘機(jī)器人作業(yè)過程中,一般靠編程來實(shí)現(xiàn)自動(dòng)化控制,在遇到特殊情況時(shí)需要特殊指令來進(jìn)行控制,而采用語音控制指令可以高效地對(duì)采集機(jī)器人的突發(fā)狀況進(jìn)行控制。本次實(shí)驗(yàn)采摘機(jī)器人使用的語言識(shí)別算法主要是采用ESP專門性語言原理,采用DTW算法對(duì)語音進(jìn)行識(shí)別。DTW算法的流程如圖4所示。 圖4 DTW算法流程 在實(shí)驗(yàn)過程中,采摘機(jī)器人首先對(duì)輸入的語音信號(hào)進(jìn)行采集,然計(jì)算采集輸入語音信號(hào)和參考模板信號(hào)的距離,來識(shí)別語音指令,并通過動(dòng)態(tài)規(guī)劃來識(shí)別不同長(zhǎng)度的語音指令,識(shí)別后將結(jié)果輸出。語音識(shí)別的主要流程如圖5所示。 圖5 語音識(shí)別流程圖 采摘機(jī)器人通過硬件和軟件程序控制,讀取識(shí)別采集到的語音信號(hào)保存為wav文件,然后進(jìn)行端點(diǎn)檢測(cè),計(jì)算非線性預(yù)測(cè)系數(shù)MFCC,并保存為測(cè)試庫;然后與參考庫進(jìn)行對(duì)比,計(jì)算匹配計(jì)算,最后得到距離結(jié)果,輸出最終結(jié)果。 通過對(duì)采摘機(jī)器人多種語言識(shí)別的測(cè)試,得到了如表1所示的測(cè)試結(jié)果。結(jié)果表明:采用基于ESP理論的多語言識(shí)別系統(tǒng)可以讓采摘機(jī)器人具有較高的語音識(shí)別準(zhǔn)率,能夠滿足較高精度的控制需求,使用在采摘機(jī)器人語言識(shí)別系統(tǒng)上是可行的。 表1 語音識(shí)別結(jié)果匯總表Table 1 Summary of speech recognition results 續(xù)表1 為了提高采摘機(jī)器人自動(dòng)化程度,將語音指令控制方法引入到了采摘機(jī)器人控制系統(tǒng)設(shè)計(jì)過程中?;贓SP思想理論,提出了多語言語音識(shí)別系統(tǒng),并對(duì)系統(tǒng)的可行性進(jìn)行了實(shí)驗(yàn)驗(yàn)證。為了簡(jiǎn)化實(shí)驗(yàn),只針對(duì)采摘機(jī)器人的語音識(shí)別準(zhǔn)確率進(jìn)行了實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)過程采用DTW算法計(jì)算語音識(shí)別的準(zhǔn)確性。結(jié)果表明:采摘機(jī)器人具有較高的語音識(shí)別準(zhǔn)率,能夠準(zhǔn)確地識(shí)別指令語音信號(hào)模板,將其使用在采摘機(jī)器人語音識(shí)別系統(tǒng)上是可行的。
2x+(M-2N) (xb
x/2+(M-N/2) (xa3 采摘機(jī)器人多語言樣本智能識(shí)別測(cè)試





4 結(jié)論