盧軍波,何 偉,潘昌財,肖正奎
(重慶凱瑞特種車有限公司,重慶 400900)
近年來,隨著中國經(jīng)濟的飛速發(fā)展,城市文明建設(shè)需求的凸顯,城市道路清掃保潔、垃圾收運、揚塵抑制等成為城市文明建設(shè)的重要組成部分。環(huán)衛(wèi)洗掃車是一種承擔(dān)城市主干路掃地、吸塵、洗地、垃圾回收、運輸?shù)裙δ転橐惑w的經(jīng)濟實用型車輛,在城市道路清潔過程中得到廣泛應(yīng)用。但是,目前環(huán)衛(wèi)洗掃車駕駛員既要保證車輛行駛安全,同時還要根據(jù)路面或周邊情況手動操作控制面板或?qū)嶓w按鍵來選擇適當(dāng)?shù)淖鳂I(yè)模式,很容易導(dǎo)致駕駛員分心,視線離開路面而發(fā)生安全事故。為解決這一實際運用問題,特別提出了一種環(huán)衛(wèi)洗掃車上裝智能語音識別控制系統(tǒng)裝置,通過語音控制方式完成對車輛上裝作業(yè)的操作和控制,從而讓駕駛員可以甩掉原有的手動操作、觸屏操作,有效提升路面行車安全性及作業(yè)時的便捷性。
本文以環(huán)衛(wèi)洗掃車為例,介紹上裝智能語音識別系統(tǒng)的設(shè)計及驗證。
智能語音識別系統(tǒng)構(gòu)成:麥克風(fēng)、語音處理模塊、顯示屏主板(前操作面板總成)、液晶屏、上裝控制模塊、揚聲器、執(zhí)行模塊。
智能語音識別系統(tǒng)原理框圖如圖1所示。

圖1 智能語音識別系統(tǒng)構(gòu)成和原理框圖
麥克風(fēng)獲取語音信息后,將語音信息傳輸至語音處理模塊,語音處理模塊處理完成后與預(yù)存的作業(yè)指令表進行比對,根據(jù)對比結(jié)果,輸出相應(yīng)的指令到顯示屏和上裝控制模塊,完成顯示和動作驅(qū)動,各關(guān)鍵部件工作原理如下。
1)麥克風(fēng):用于獲取外部輸入的語音數(shù)據(jù),并將語音信號轉(zhuǎn)換為電信號;
2)語音處理模塊:①負(fù)責(zé)驅(qū)動麥克風(fēng);②將轉(zhuǎn)換為電信號的語音波形進行數(shù)字濾波、自適應(yīng)降噪、回聲消除等處理;③對處理后的語音波形與預(yù)存的語音命令通過DNN算法,進行比對識別語音特征。
3)顯示屏主板(前操作面板總成):顯示屏內(nèi)會預(yù)存作業(yè)語音指令表(表1),通過語音處理模塊發(fā)出的語音指令,其結(jié)果是相對應(yīng)的語音指令的序號,顯示屏只需要解析出與之相對應(yīng)的序號,同主板內(nèi)預(yù)存的語音序號進行比對,即可獲知當(dāng)前語音指令并完成顯示。
4)上裝控制模塊:用于分解顯示屏(前操作面板總成)輸出的數(shù)據(jù)信息,并轉(zhuǎn)換為各個執(zhí)行模塊的控制指令。

表1 作業(yè)語音指令表
5)執(zhí)行模塊:在接收到上裝控制模塊指令后,根據(jù)指令準(zhǔn)確控制各個執(zhí)行對象(電機、風(fēng)機、電磁閥等)。
6)揚聲器:對預(yù)設(shè)的語音指令進行聲音播報,實現(xiàn)語音交互體驗。
雖然語音識別技術(shù)已經(jīng)有了飛速的發(fā)展,但環(huán)衛(wèi)車在作業(yè)時,副發(fā)動機以及作業(yè)裝備仍會產(chǎn)生巨大的噪聲,為保證強噪聲下系統(tǒng)的識別成功率,音頻信號識別和降噪處理就成為該套系統(tǒng)的關(guān)鍵技術(shù)。
系統(tǒng)在采集到音頻數(shù)據(jù)輸入后,通過特征算法將聲音進行分幀和疊加數(shù)字化處理,然后將聲音數(shù)據(jù)的首尾端做靜音切除,降低后續(xù)步驟的干擾。再對處理后的數(shù)據(jù)進行人聲提取,把提取的數(shù)據(jù)通過算法變成一個包含聲音信息的多維向量,形成一個特定矩陣。同時,建立語言模型,對回聲進行估算,通過修改濾波器參數(shù)值,使估算值更接近真實的回聲,然后將回聲估算值在輸入信號中減去,從而達到消除回聲,避免自激。再運用聲學(xué)模型和語言模型對語音數(shù)據(jù)進行訓(xùn)練,確定特征向量,將輸出的音素信息與提取人聲特征后的音頻數(shù)據(jù)進行比對,輸出適合的語言編碼。音頻信號識別流程如圖2所示。

圖2 音頻信號識別流程
4.2.1 調(diào)整麥克風(fēng)靈敏度與信噪比
麥克風(fēng)的靈敏度和信噪比兩個參數(shù)直接影響語音識別效果,靈敏度太高將會采集到更多的背景噪聲,使得語句難以判斷;太低則采集的信號強度不夠,無法進行有效的信號分離。同理,信噪比太低,信號與噪聲分離困難;太高,各個頻率的音頻分量過大,將直接影響識別進度和效果。結(jié)合臺架測試及洗掃車實車測試驗證,本系統(tǒng)選擇的麥克風(fēng)靈敏度為-28dB,信噪比為70dB。
4.2.2 調(diào)整電源潔凈度
音頻處理過程中,電源的潔凈度將直接影響整個系統(tǒng)的信噪比。而車載電源在工作中由于發(fā)動機轉(zhuǎn)速變化、液壓系統(tǒng)負(fù)載變化、大功率設(shè)備的啟停等各種外部原因會導(dǎo)致系統(tǒng)電源有較大程度的波動。針對這種情況,對語音識別系統(tǒng)供電電源進行二次處理,將電源紋波從200mV調(diào)至50mV,有效降低了電源波動對系統(tǒng)的影響。
4.2.3 靜態(tài)軟件濾波
一般人說話的語音范圍大概在300~3400Hz的頻率范圍內(nèi),而環(huán)衛(wèi)洗掃車的噪聲主要來源于風(fēng)機噪聲以及發(fā)動機噪聲。經(jīng)過駕駛室隔離之后,風(fēng)機噪聲多集中在500Hz以下,發(fā)動機的噪聲一般集中在200Hz,針對這一特點,通過軟件靜態(tài)濾波,著重提取人聲段信號進行處理。
4.2.4 動態(tài)軟件濾波
環(huán)衛(wèi)洗掃車的環(huán)境噪聲在一定的作業(yè)模式下是相對固定的,針對這一特點,通過軟件動態(tài)濾波,在人未發(fā)聲的情況下進行環(huán)境噪聲信號采集,以此作為當(dāng)前的噪聲基頻再通過聲波疊加原理,將噪聲信號通過加權(quán)反向疊加到采集的信號中,從而達到降低噪聲分量的目的。
通過對系統(tǒng)進行臺架及實車驗證,確保系統(tǒng)功能滿足設(shè)計要求,同時在驗證過程中及時進行修正和優(yōu)化,使產(chǎn)品識別效果達到最佳。測試結(jié)果如表2所示。

表2 測試結(jié)果
該智能語音識別控制系統(tǒng)產(chǎn)品已完成可靠性驗證和試驗工作,并已經(jīng)實現(xiàn)市場銷售,環(huán)衛(wèi)洗掃車智能語音識別系統(tǒng)功能得到客戶的認(rèn)可好評。智能語音識別控制系統(tǒng)產(chǎn)品裝車效果如圖3所示。

圖3 智能語音識別控制系統(tǒng)產(chǎn)品裝車效果
隨著國內(nèi)環(huán)衛(wèi)行業(yè)的快速發(fā)展,安全性和高端性也越來越被重視,環(huán)衛(wèi)洗掃車智能化應(yīng)用需求日趨明顯。在人們原有的依靠手動操作、觸屏操作,現(xiàn)在只需通過語音智能控制方式即可完成車輛上裝的操作與控制,可有效提升行車的安全性和便捷性,因此智能語音識別系統(tǒng)更凸顯在環(huán)衛(wèi)車型中的應(yīng)用價值。同時,可為整車提升產(chǎn)品檔次,增加銷售亮點。