徐 偉 侍中樓
(江漢大學(xué)工程訓(xùn)練中心 武漢 430056)
機(jī)器人研究領(lǐng)域一直關(guān)注如何在未知環(huán)境中利用傳感器反饋信息對(duì)目標(biāo)進(jìn)行檢測(cè)、識(shí)別與定位,也是移動(dòng)機(jī)器人適應(yīng)周邊環(huán)境、實(shí)現(xiàn)自身設(shè)計(jì)功能的重要體現(xiàn)。近些年,廣泛應(yīng)用于移動(dòng)機(jī)器人的視覺(jué)感知目標(biāo)識(shí)別技術(shù)取得了大量的研究成果[1]。通過(guò)機(jī)器人視覺(jué)技術(shù),可以對(duì)既定目標(biāo)進(jìn)行直接觀測(cè),可以測(cè)量到較廣的范圍,可以獲得較全面的目標(biāo)信息,目標(biāo)圖像分辨率較高。但機(jī)器人視覺(jué)感知技術(shù)也具有一定的局限性,如光強(qiáng)度變化會(huì)引起結(jié)果數(shù)據(jù)諸如顏色色值、對(duì)比度的變化等等,尤其當(dāng)周邊環(huán)境能見(jiàn)度較低時(shí),視覺(jué)感知往往會(huì)失效。而在實(shí)際應(yīng)用中,聲音信號(hào)則具有視覺(jué)信號(hào)所不具備的特點(diǎn)[2]和優(yōu)勢(shì),如聲音信號(hào)不具備特定方向性,聲音信號(hào)的時(shí)間分辨率高,特別是能見(jiàn)度較低時(shí)聲音信號(hào)可以不受限制等。所以機(jī)器人聲音聽(tīng)覺(jué)感知技術(shù)的研究,可以有效改善視覺(jué)、聲納等傳感器在特定環(huán)境下應(yīng)用的局限性。
人類通過(guò)聽(tīng)覺(jué)系統(tǒng)接收并處理聲音信息,聽(tīng)覺(jué)系統(tǒng)包含外周和中樞兩部分。聽(tīng)覺(jué)外周接收器官是耳,外周聽(tīng)覺(jué)系統(tǒng)通過(guò)聽(tīng)覺(jué)纖維與中樞聽(tīng)覺(jué)系統(tǒng)相連,對(duì)聲音進(jìn)行由機(jī)械能向生物電能的轉(zhuǎn)換,以生物電能的形式傳遞到神經(jīng)系統(tǒng)中[3]。聲音經(jīng)過(guò)外耳道進(jìn)入聽(tīng)覺(jué)系統(tǒng)后被逐級(jí)感知,最終到達(dá)最頂層的聽(tīng)覺(jué)大腦皮層。大腦皮層接收到聲音信號(hào)的輸入后,經(jīng)過(guò)一系列處理,使生物個(gè)體可以感知聲音,包括聲音傳遞中所包含的信息[4]。聽(tīng)覺(jué)外周對(duì)聲音信息的傳遞和處理極為重要的,是生物聽(tīng)覺(jué)系統(tǒng)處理聲音信息的基礎(chǔ),并且實(shí)現(xiàn)聲音信息由機(jī)械能向生物電能的能量轉(zhuǎn)換,哺乳類動(dòng)物(包括人類)具有一對(duì)對(duì)稱的聽(tīng)覺(jué)外周接收器官,可以擴(kuò)大生物體聽(tīng)覺(jué)的空間范圍、實(shí)現(xiàn)聲源的定位等功能[5]。
在本實(shí)驗(yàn)研究中,利用聲音傳感器接收聲波,然后通過(guò)電子器件和程序軟件將聲音信號(hào)進(jìn)行處理,從而實(shí)現(xiàn)仿人機(jī)器人對(duì)聲源進(jìn)行定位、跟蹤的基本功能。
聲音定位(sound localization)是聽(tīng)覺(jué)系統(tǒng)根據(jù)聽(tīng)覺(jué)線索確定聲源物理位置的能力。機(jī)器人的聽(tīng)覺(jué)感知技術(shù)的研究,與它的視覺(jué)感知技術(shù)研究相比,目前處于相對(duì)較弱的階段。先前機(jī)器人導(dǎo)航主要使用測(cè)距傳感器(如聲納),而跟蹤主要依靠視覺(jué)[6]。但是像生物個(gè)體那樣,視覺(jué)被限制在小于180°的范圍內(nèi),而聽(tīng)覺(jué)能帶來(lái)360°的全方位感知。由于聲音的衍射、反射等特性,它能定位不在視覺(jué)范圍內(nèi)的聲音目標(biāo),特別是能見(jiàn)度較低時(shí)。在多信息采集的位置環(huán)境系統(tǒng)中,將聽(tīng)覺(jué)感知技術(shù)與視覺(jué)感知技術(shù)兩者相互結(jié)合,可以很大程度上彌補(bǔ)機(jī)器人的視覺(jué)局限性。近年來(lái),機(jī)器人聽(tīng)覺(jué)感知的研究已經(jīng)成為機(jī)器人研究領(lǐng)域的重要分支。實(shí)現(xiàn)聽(tīng)覺(jué)功能是機(jī)器人智能化程度的重要標(biāo)志之一,也是實(shí)現(xiàn)人機(jī)對(duì)話、環(huán)境交互等功能的重要技術(shù)手段[7]。因此,研究機(jī)器人聽(tīng)覺(jué)定位跟蹤聲源目標(biāo)具有重要的理論意義和實(shí)際價(jià)值[8]。
為了使仿人機(jī)器人在生理習(xí)慣上更接近于人類聽(tīng)覺(jué)習(xí)慣,在本實(shí)驗(yàn)研究中將以心理聲學(xué)理論模型為基礎(chǔ),使仿人機(jī)器人具備對(duì)人類心理聲學(xué)的部分特性。
某些人類聽(tīng)覺(jué)系統(tǒng)的性質(zhì)不能嚴(yán)格按照生理學(xué)或解剖學(xué)進(jìn)行解釋,而從人類對(duì)聲音的感覺(jué)或心理聲學(xué)(psychacoustic)角度卻能很好地理解這些性質(zhì)[9]。
心理聲學(xué),是使用噪聲能量平均的方法來(lái)評(píng)價(jià)噪聲對(duì)人的影響,這就是時(shí)間平均聲級(jí)或等效連續(xù)聲級(jí),用Leq表示,通用的有A、B、C和D四個(gè)計(jì)權(quán)聲級(jí)。A計(jì)權(quán)聲級(jí)能夠較好地反映人耳對(duì)噪聲的強(qiáng)度與頻率的主觀感覺(jué),對(duì)一個(gè)連續(xù)的穩(wěn)態(tài)噪聲,它是一種較好的評(píng)價(jià)方法,故亦稱等效連續(xù)A聲級(jí)L(A)eq[10]。等效連續(xù)A聲級(jí)定義為在聲場(chǎng)中某一定位置上,用某一段時(shí)間能量平均的方法,將間歇出現(xiàn)的變化的聲音以一個(gè)聲級(jí)來(lái)表示該段時(shí)間內(nèi)的噪聲大小,稱這個(gè)聲級(jí)為此時(shí)間段的等效連續(xù)聲級(jí),即:

其中,PA(t)是瞬時(shí)A計(jì)權(quán)聲壓;P0是參考聲壓(2×10-5Pa);LA是變化A聲級(jí)的瞬時(shí)值,單位分貝(dB);T是測(cè)量時(shí)間段的值[11]。
在上面公式中,聲音感知強(qiáng)度(perceived intensity)是聲音信號(hào)持續(xù)時(shí)間的函數(shù),通過(guò)A計(jì)權(quán)聲級(jí)值所反映出來(lái)的。在現(xiàn)實(shí)生活中,輕按一下汽車?yán)炔粫?huì)顯得那么響亮,但持續(xù)十幾秒鐘所造成的效果卻讓聲音非常刺耳。定量的說(shuō),如果某段聲音持續(xù)時(shí)間增加十倍,比如從50ms增加到500模式,等效為在強(qiáng)度上增加了10dB。
如果數(shù)據(jù)符合正態(tài)分布,其累積分布在正太概率紙上為一直線,則可用下面近似公式計(jì)算:

L10、L50、L90為累積百分聲級(jí),其定義如下。
L10為測(cè)量時(shí)間內(nèi),10%的時(shí)間超過(guò)的噪聲級(jí),相當(dāng)于噪聲的平均峰值;
L50為測(cè)量時(shí)間內(nèi),50%的時(shí)間超過(guò)的噪聲級(jí),相當(dāng)于噪聲的平均值;
L90為測(cè)量時(shí)間內(nèi),50%的時(shí)間超過(guò)的噪聲級(jí),相當(dāng)于噪聲的背景值[12]。
在本實(shí)驗(yàn)系統(tǒng)中,將以式(2)作為程序設(shè)計(jì)的理論基礎(chǔ)公式。
本系統(tǒng)通過(guò)分布在機(jī)器人頭部的左、中、右方向上的3個(gè)采用以NE5532為核心的LY-901拾音器來(lái)對(duì)外界產(chǎn)生的聲音信號(hào)進(jìn)行采集(如圖1),單片機(jī)根據(jù)不同信號(hào)的來(lái)源對(duì)聲音信號(hào)進(jìn)行分析,該仿生機(jī)器人模仿人類并不會(huì)對(duì)任何聲音造成的反饋都去轉(zhuǎn)動(dòng)頸部脖子去定位聲源,僅僅通過(guò)分析確定聲音信號(hào)的來(lái)源方向,控制機(jī)器人眼睛LED對(duì)聲音來(lái)源造成一定的反應(yīng);只有通過(guò)被動(dòng)紅外傳感器對(duì)某個(gè)特定的物體(比如一個(gè)人體)所造成的聲音信號(hào)才會(huì)有特定的反應(yīng)(轉(zhuǎn)動(dòng)頸部),形成對(duì)聲音信號(hào)的定位。

圖1 機(jī)器人頭部的拾音器裝置
本系統(tǒng)所使用的單片機(jī)為Arduino Uno R3,是Arduino系列的主力開(kāi)發(fā)板。該單片機(jī)芯片是AVR系列的Atmega328P,該芯片提供了如下接口:14路數(shù)字I/O接口、6路模擬輸入接口、6路PWM信號(hào)接口、1路I2C接口、1路SPI接口、1路UART接口,其內(nèi)部閃存(Flash)有32KB,靜態(tài)訪問(wèn)存儲(chǔ)器(SRAM)2KB,可擦寫存儲(chǔ)器(EEPROM)1KB[13~14]。
LY-901拾音器按AA類放大器原理進(jìn)行設(shè)計(jì),以NE5532芯片為核心,從而消除了拾音器由于與后級(jí)負(fù)載之間連線長(zhǎng)短、連線上分布電容大小、負(fù)載輸入阻抗等原因而對(duì)拾音質(zhì)量造成的影響。其電器參數(shù)如下:工作電壓(直流),6V~12V;頻率響 應(yīng),100Hz~5500Hz;輸 出 信 號(hào) 幅 度,2.5Vpp/-25dB;輸出阻抗600Ω。采集到的3路音頻信號(hào)進(jìn)入單片機(jī)系統(tǒng)的數(shù)—模轉(zhuǎn)換模塊,進(jìn)行模擬信號(hào)到數(shù)字信號(hào)的轉(zhuǎn)換,以進(jìn)行后續(xù)的數(shù)字信號(hào)處理[15]。
機(jī)器人聽(tīng)覺(jué)感知實(shí)驗(yàn)電路原理圖2所示。

圖2 機(jī)器人聽(tīng)覺(jué)實(shí)驗(yàn)電路原理圖
仿生機(jī)器人最后完成圖如圖3所示。

圖3 機(jī)器人完成圖



在程序void setup()部分,對(duì)各硬件結(jié)構(gòu)的引腳分配做了說(shuō)明。其中,對(duì)常數(shù)項(xiàng)glanceMillis定義了一個(gè)以毫秒為單位的最小延時(shí),一旦觸發(fā),機(jī)器人LED眼睛會(huì)向聲源做出“瞟一眼”的動(dòng)作,但不會(huì)轉(zhuǎn)動(dòng)頸部做出定位聲源的動(dòng)作。
在主循環(huán)程序中,在對(duì)經(jīng)過(guò)時(shí)間變量current-Mills清零以前,讀入聲音傳感器和PIR傳感器的返回值,通過(guò)比較三個(gè)聲音傳感器的振幅大小差異來(lái)確定聲源的位置。
PIR傳感器(以右側(cè)PIRR為例),其邏輯是:PIRR為高電平且右邊檢測(cè)到聲音:機(jī)器人頸部向右轉(zhuǎn)動(dòng);僅僅PIRR為高電平時(shí),頸部不轉(zhuǎn)動(dòng);PIRR為高電平且左邊檢測(cè)到聲源時(shí),頸部不轉(zhuǎn)動(dòng)。換言之,當(dāng)PIR傳感器和聲音傳感器同時(shí)滿足時(shí),機(jī)器人頸部才會(huì)轉(zhuǎn)動(dòng)。
在程序中,利用心理聲學(xué)模型,使機(jī)器人能夠?qū)Ω≌穹掷m(xù)時(shí)間更長(zhǎng)的聲音做出反應(yīng)。對(duì)于常量MicTriglow和MicTrighigh分別定義了與持續(xù)時(shí)間有關(guān)的觸發(fā)電平和與持續(xù)時(shí)間無(wú)關(guān)的觸發(fā)電平,當(dāng)檢測(cè)到聲音振幅等于或大于由MicTrighigh定義的觸發(fā)電平時(shí),該系統(tǒng)就觸發(fā),這是機(jī)器人不考慮心理聲學(xué)關(guān)于聲音的持續(xù)時(shí)間。但如果聲音振幅大于MicTriglow且小于MicTrighigh的定義值,則機(jī)器人需要考慮心理聲學(xué)關(guān)于聲音的持續(xù)時(shí)間,即聲源的持續(xù)時(shí)間必須大于或等于常數(shù)Lowsound-Millis所限定的時(shí)間。
機(jī)器人聽(tīng)覺(jué)定位跟蹤聲源系統(tǒng)研究是當(dāng)前國(guó)際上的前沿課題。它是機(jī)器人實(shí)現(xiàn)智能化必不可少的一部分,是智能科學(xué)研究成果在機(jī)器人上的體現(xiàn)。要進(jìn)一步發(fā)展仿人機(jī)器人的聲音定位及聽(tīng)覺(jué)的問(wèn)題或設(shè)計(jì)新的模型,還需要一個(gè)不斷改進(jìn)和持續(xù)研究的過(guò)程。在本課題實(shí)驗(yàn)研究中,以心理聲學(xué)模型為基礎(chǔ),實(shí)現(xiàn)了仿生機(jī)器人聲源定位功能、聽(tīng)覺(jué)的正常行為功能,特別是使機(jī)器人具有了基于心理聲學(xué)的聲源識(shí)別功能。從聽(tīng)覺(jué)生理學(xué)、聽(tīng)覺(jué)心理學(xué)、人工智能等專業(yè)實(shí)現(xiàn)跨學(xué)科領(lǐng)域綜合研究方面做了有效的探索研究。本文研究成果為機(jī)器人仿人生物體特性研究提供了一定的借鑒。