鄢 艷
(宜春學院,江西 宜春 336000)
聲音是人類交換信息最方便、最快捷的一種方式,在高度發達的信息社會中,用數字化的方法進行聲音的傳送、存儲、識別、合成和增強等是整個數字化通信網中最重要、最基本的組成部分之一。在孤立字語音識別中,如語音密碼鎖、汽車控制等領域,都運用到了特定的語音識別技術(即DTW算法)。相對于HMM算法,DTW算法具有操作簡單的特性。如果將DTW算法引入到農業機器人語音識別系統中,可以有效提高機器人語音識別的效率和準確性,對于提高農業機器人的協同作業能力具有重要的意義。
對于不同的音樂,其聲音特征是不相同的。特別是男生和女生唱歌時的發聲不相同,高音和低音唱法時音樂信號特征也不相同。音樂高頻成分音質非常尖銳,齒音中聲音有些暗淡;音樂低頻成分音質沉穩,空間感覺強,語音渾厚;音樂中頻成分音質有力度,有通透感。因此,在不同唱法時,可以通過對音樂信號特征的提取和識別來提高音樂的演唱效果。
音樂信號是一種非平穩的時變信號,它帶著各種信息,在音樂編碼、音樂合成、音樂識別和音樂增強等音樂處理中無一例外需要提取音樂中包含的各種信息。與音樂信號特征提取和識別的過程類似,如果將聲音源目標信號作為搜索識別的對象,而在聲音源信號上嵌入控制指令,則通過對聲音信號的識別實現不同的控制指令。
農業機器人編隊作業如圖1所示。隨著農業自動化和智能化技術的不斷發展,農業機器人被使用到了農業生產作業過程中。在多機器人協同作業時,需要通過指令控制的方式協調每個機器人的作業,最快捷有效的方法就是語音信號指令。與音樂信號特征提取的方法類似,機器人對于語音信號的識別也可以通過特征提取和匹配的方法。具體流程如圖2所示。

圖1 農業機器人編隊作業Fig.1 The formation operation of agricultural robots

圖2 基于語音信號識別的機器人動作執行Fig.2 The robot action execution based on speech recognition
基于語音信號識別技術,農業機器人語音識別系統可以對語音指令進行識別。在語音指令識別時,首先需要對模板信號的訓練,發出語音指令后,機器人對指令信息化進行采集;然后通過信號處理系統進行預處理;通過信號處理可以得到信號特征,將其和模板庫里的信號進行對比后,利用專家經驗知識庫識別信號指令,從而執行動作指令。
在多農業機器人作業過程中,為了使機器人之間的作業既不相互干擾又能進行協作,可以利用語音聲源目標識別技術,對機器人進行控制。目前,在語音識別方面常用的算法有HMM算法和DTW算法。相比而言,DTW算法比較簡單,也可以得到和HMM算法類似的效果,且DTW算法可以解決語音長短不一模板匹配的問題。所以,選擇DTW算法作為語音聲源目標信號識別的算法。
語音信號起點和終點的識別主要通過端點檢測來實現,檢測過程主要分為3個階段,包括訓練階段、建立模板階段和識別階段。模板的建立主要是建立參考模板,參考模板可以表示為{R(1),R(2),...,R(m),...,R(M)}。其中,m表示模板語音的時序標號,m表示語音幀的起點,M表示語音幀的終點,模板語音幀的總數也是M,待識別語音的特征矢量為R(m)。為了檢測機器人對語音識別的有效性,可以采用測試模板進行檢驗,測試模板可以表示為{T(1),T(2),...,T(n),...,T(N)}。其中,n表示模板語音的時序標號,n表示語音幀的起點,N表示語音幀的終點,模板語音幀的總數也是N,待識別語音的特征矢量為T(n)。
為了識別測試模板,可以對測試模板和參考模板的相似性進行檢測,通過對相似度的比較,確定兩者之間的距離D[T,R],距離越小則相似度越高。為了求得信號不同幀之間的距離,可以采用規整函數的方法。規整函數可以采用網格的形式表示,如圖3所示。其中,一條邊斜率為2,另一條邊斜率為1/2,規整函數的起點是(1,1),終點為(N,M)。利用DTW算法主要是在平行四邊形內部尋找規整函數,使規整函數具有最小的代價函數,這樣測試模板和參考模板可以具有最大的聲學相似性。

圖3 DTW語音信號識別基本原理Fig.3 The basic Principle of DTW speech recognition
在模板匹配過程中,斜率是限定的,只需要計算四邊形之內的網格點對應的語音幀即可。在匹配過程中,不需要將所有的網點進行匹配,只需要匹配前1列的3個網格點,這樣可以有效降低計算量,減輕計算存儲的負擔,提高DTW算法的效率。圖3中,在進行DTW算法的計算時,把實際的動態彎折分為3段,即(1,xa)、(xa+1,xb)、(xb+1,N)。
(1)
其中,xa和xb都取最相近的整數,由此可得出對M和N長度的限制條件為

(2)
在x軸上的每一幀不再需要與y軸上的每一幀進行比較,而只是與y軸上[ymin,ymax]間的幀進行比較。ymin和ymax的計算公式為
(3)
如果出現xa>xb的情況,則彎折匹配的3段為(1,xb)、(xb+1,xa)、(xa+1,N)。累積距離的更新用以下公式實現,即
D(x,y)=d(x,y)+min[D(x-1,y),D(x-1,y-1),D(x-1,y-2)]
基于DTW算法對聲源目標信號識別的流程如圖4所示。

圖4 聲源目標信號識別的流程Fig.4 The procedure of sound source target signal recognition
在聲源目標信號輸入后,通過幀匹配距離矩陣和動態規劃計算出測試信號和模板信號的距離。如果距離較小,并滿足之前設定的閾值,則表示測試性和模板信號類似,從而識別出測試信號。
基于DTW算法的聲源目標搜索算法,可以對控制聲音信號進行識別。如果將其使用在農業機器人協同控制上,可以有效提高農業機器人的作業效率及每個機器人的利用率。以采摘機器人為例,將聲源目標搜索算法以編程的形式嵌入到了機器人控制的硬件和軟件系統上,利用測試庫對機器人進行了測試。聲源目標識別的流程如圖5所示。

圖5 聲源目標識別流程圖Fig.5 The flow chart of sound source target recognition
采用DTW算法可以依據參考模板對測試模板進行識別,一旦識別匹配成功,采摘機器人將按照參考模板指令內容執行相關動作。為了驗證方案的可靠性,在信號識別的過程中加入了噪聲高干擾,信號曲線如圖6所示。

圖6 加噪聲后聲源信號曲線Fig.6 The sound source signal curve after adding noise
加入噪聲后聲源信號會受到干擾,為了避免干擾,更好地識別聲源控制指令,需要對聲源信號進行濾波操作,從而去除干擾信號。系統處理后的聲音信號曲線如圖7所示。
通過采摘機器人聲音信號識別系統的處理,可以有效地去除噪聲干擾,恢復原始聲源控制信號。為了驗證聲源目標信號識別的準確率,對多個聲源信號進行了測試,結果如表1所示。

表1 聲源目標信號識別測試結果Table 1 The acoustic source target signal recognition test results
測試結果表明:不同編隊的農業機器人可以對測試信號進行成功識別,可以將其使用在農業機器人聲源目標搜尋協助控制系統上,以提高控制系統的效率和精度。
為了提高農業機器人控制系統的效率和準確性,實現多機器人協同化作業,將聲源目標搜尋方法引入到了機器人控制系統的設計上,并引入了聲音識別的DTW算法,實現了農業機器人的遠程控制。為了驗證方案的可行性,以采摘機器人語音識別系統的設計為例,對系統進行了測試。結果表明:采摘機器人語音識別控制系統可以成功地識別語音控制指令,且識別的準確性較高,對于提高農業機器人的自動化和智能化程度具有重要的意義。