中國海洋大學
王鵬皓,高林林,房凱昌,楊仕倢,鞏 坤
智能設備的普及帶來應用場景的拓展,人們需要更多不同的人機交互方式來應對不同的應用場景。現存基于視覺的和基于射頻信號的被動式目標追蹤都存在不足。基于視覺的隔空手勢識別和追蹤技術利用攝像頭對目標進行圖像識別,存在諸多缺點,例如:識別精度受攝像頭視角范圍、像素、環境光照等因素影響。基于射頻信號的手部追蹤和識別技術雖然能夠克服基于視覺方案的限制,但需要特定的傳感器硬件支撐,且因無線信號傳播速度快而無法實現細粒度手勢追蹤。
基于聲音信號的方案顯現出了獨特的優勢:聲波傳播不受光照等環境條件的限制,可以適應更多應用場景;聲波傳播速度較慢,更容易實現細粒度的追蹤。此外,當前很多智能設備都配備了多麥克風和多揚聲器,基于聲學信號的方案在無需添加額外硬件的情況下部署在這些設備上,具有良好的兼容性。
本作品提供了一種基于智能設備多揚聲器和多麥克風的利用超聲波實現的隔空多目標追蹤技術,并利用該技術追蹤多個目標位置,實現隔空滑動、旋轉等手勢操作,提出全新的隔空多點人機交互方式,彌補了傳統基于觸摸屏交互方式的不足。與目前已有的目標定位方案相比,本作品僅依靠智能設備現有硬件和相應軟件即可實現高精度的多目標追蹤。本作品利用特制超聲信號實現相關功能,不會對用戶的正常生活產生影響,極大地提高了用戶與智能設備之間的交互體驗。
作品總體思路:識別經用戶手部反射的由不同揚聲器發送的特制超聲信號;測量信號的飛行時間并通過計算獲得信號在用戶手部和智能設備之間傳播路徑的長度;以不同的揚聲器和麥克風為焦點結合超聲信號的傳播路徑長度繪制多個橢圓,利用多個橢圓的焦點確定目標位置。實現流程如圖1所示。

圖1 實現流程
設計了一類具有強自相關和弱互相關的超聲信號并通過揚聲器連續發送,減少了揚聲器間的相互干擾。
本作品選擇恒包絡零自相關序列(Const Amplitude Zero Auto-Correlation, CAZAC)作為基帶信號。常見的CAZAC序列有:Zadoff-Chu序列、廣義Chirp-Like(Generalized Chirp-Like, GCL)序列、Frank序列和Golomb序列等。CAZAC序列被廣泛應用于脈沖壓縮雷達、擴頻通信系統、OFDM系統(例如LTE和WiMAX)等,具有恒包絡特性、理想的自相關特性、良好的互相關特性等。作品為多個揚聲器分別分配不同的CAZAC序列,以此區分、識別不同的揚聲器信號。
對選擇基帶信號后,需利用特殊的調制方法生成可直接發送的同樣具有良好互相關性和理想自相關性的超聲信號。調制過程:將設備可用的頻段均勻分成多個子載波,利用FFT和IFFT將不同的基帶信號對應調制到子載波上,生成超聲波信號。
獲取精確的直射信號到達時間對于后續的定位過程至關重要。為確定直射信號的到達時間,本作品一邊利用麥克風連續接收聲音信號,一邊利用需要確定的超聲信號與接收信號進行相關操作。由于信號良好的互相關性和理想的自相關性,相關操作的結果僅會在接收到對應的超聲信號時出現明顯峰值,在無對應信號到達和其他信號到達時都近似為零,相關函數圖像如圖2所示。系統通過遍歷相關操作的結果,根據峰值下標便可初步確定直射信號的到達時間。觀察圖2可以發現,最高峰值所對應的下標不穩定,需要做進一步修正。最終利用估計到達時間與實際到達時間的誤差對接收信號相位造成的偏轉進行修正,以獲得準確的直射信號到達時間。

圖2 相關函數R11的圖像
聲音信號在揚聲器與麥克風間傳輸時,如果反射物體保持靜止且其反射路徑不變,信號到達時間、幅值和相位都不會發生改變。由于揚聲器以周期連續發送,所以將接收信號與發送信號的相關操作結果與其延遲一個信號周期的結果錯位相減后,靜止物體的影響相互抵消,相關操作差的值趨近于零。物體移動時,從發射端經該物體反射到接收端信號的傳播路徑發生改變,導致信號到達時間改變,因此相關操作差在由移動目標反射的反射信號到達時,值不為0。相關操作差僅在反射路徑發生變化的反射信號到達時出現峰值,如圖3所示。通過遍歷相關操作的差進行識別,可捕獲所有被移動目標反射的超聲信號的到達時間。

圖3 相關操作差D[n]的圖像
如圖4所示,在獲得直射信號到達時間td和對應目標反射信號到達時間tr后,由于直射信號傳播路徑確定,通過對不同手機進行測量便可獲得直射信號在空中傳播的時間Td。直射信號的到達時間減去直射信號的飛行時間,獲得信號的發送時間ts。反射信號的到達時間tr減去超聲信號的發送時間ts,獲得反射信號在空氣中的傳播時間Tr。利用反射信號的飛行時間乘以聲速,獲得對應反射信號的傳播路徑長度。

圖4 理想情況下的發送和接收信號示意圖
完成反射信號傳播路徑測量后,系統以發出信號的揚聲器和接收信號的麥克風作為橢圓的2個焦點,結合來自目標的反射信號傳播路徑長度繪制一個目標橢圓。因為利用不同組合的揚聲器和麥克風繪制橢圓會在目標位置相交,故通過識別多個橢圓的交點便可以確定目標位置。具體定位示意圖如圖5所示。

圖5 橢圓交點定位示意圖
本作品被應用在型號為Razer Phone 2的Android智能手機上進行測試評估。首先對一維手指測距進行測試評估,測試過程中對比目前已有的CC-TOF方案與本作品的誤差,同時考慮環境噪音與測試距離對測距誤差的影響;第二部分對二維的手指跟蹤進行測試評估,獲得并分析跟蹤誤差;第三部分對作品實際運行時所需功耗以及響應時延進行測試評估;第四部分通過2個演示應用程序在Samsung Note 10+和Razer Phone 2手機上的運行情況進行測試評估。
4.1.1 本作品與CC-TOF的平均測距誤差對比
實驗在安靜的室內進行,先將手機和尺子平放在桌面,矯正初始誤差后,10個用戶用手掌在相同的起始位置(距離麥克風20 cm)沿麥克風垂直方向靠近手機移動5 cm,距離手機15 cm處,重復上述操作40次。累計誤差分布函數圖(CDF)如圖6所示,從圖中可以觀察到,本作品運行時的平均測距誤差為6.4 mm。由于通過消除多徑效應獲得了準確的信號到達時間,因此本作品實現了更低的測距誤差。

圖6 一維手指測距的累計誤差分布函數圖(CDF)
4.1.2 不同噪聲水平下的平均測距誤差
為探究噪聲對測距誤差的影響,在3種情況下進行測試:聲壓約45 dB的安靜水平;聲壓約60 dB的中級水平;聲壓約75 dB的噪聲水平。為保持穩定的噪音水平,反復播放一小段音樂或語音。如圖7所示,AMT的測距誤差隨噪聲水平而增加。中級水平和噪聲水平的平均測距誤差分別為7.5 mm和8.8 mm。

圖7 不同噪聲水平下的累計誤差分布函數圖(CDF)
4.1.3 不同距離下的箱線測距誤差
實驗中,志愿者需將一根手指放在距離智能手機15 cm處來回移動,最后停在距離智能手機20 cm,35 cm,50 cm,65 cm距離處。箱形圖測距誤差如圖8所示,可知本作品在上述不同距離下的平均誤差分別為6.8 mm,7.2 mm,8.7 mm,9.5 mm,在不同距離下仍能保持較高的定位精度。

圖8 不同距離下的箱形圖測距誤差
設計的實驗環境如圖9所示。先將Razer Phone 2橫向豎起固定在用戶正前方,隨后在手機和用戶間的桌子上分別貼2張繪有起點、終點和軌跡的A4白紙。軌跡的平均長度為15 cm,相互不平行。系統運行前10 s,要求實驗者將手指移動到起點,并在隨后5 s內兩手手指先后沿軌跡從起點向終點移動,上述操作進行40次。系統每8 mm采樣一次手指運動,并將每次運動的跟蹤誤差計算為所有采樣位置到筆直軌跡的平均垂直距離。追蹤不同個數目標的CDF圖如圖10所示。追蹤2個目標的軌跡如圖11所示。單目標/雙目標/三目標跟蹤的平均誤差分別為1.13 cm,2.46 cm,2.92 cm。相比單目標,雙/三目標的平均誤差相對較高,原因是存在針對多目標情況的阻擋。

圖9 實驗環境搭建

圖10 追蹤不同個數目標的CDF圖

圖11 追蹤2個目標的軌跡
測試開始前,將手機充滿電,清空后臺應用程序,關閉所有無線接口,屏幕鎖定且無光,在手機端安裝功耗測試軟件測量應用程序的功耗,運行本作品1 h的功耗低至總電量的2.4%。因此可見,本作品擁有極佳的功耗表現,不會對智能設備的續航造成較大壓力,可用性大幅提升。將多個線程同時分配給每個麥克風,本作品使用的每個麥克風在一個線程中執行信號處理、校正檢測、主回波檢測等操作,同時在另一個線程中采樣。10 384位符號的處理延遲小于80 ms。由此可知,本作品響應時延較低。
為了能夠更加直觀地展示本作品的實際表現,我們在Razer Phone 2和Samsung Note 10+智能手機上開發了2個應用本作品的移動應用程序:雙人彈球游戲和雙手交互式相冊。
彈球游戲如圖12所示。將控制區域擴展到手機兩側,2個玩家面對面坐在智能設備旁,將一只手放在單獨區域,通過推動和拉動來控制自己的橫板。球擊中移動板和側邊界時被反彈。球的移動速度隨時間增加,錯過球的玩家輸掉比賽。經測試,橫板控制靈敏,大多玩家成功反彈球10次以上。

圖12 彈球游戲
如圖13所示的雙向交互式相冊應用支持對圖片進行3個主要操作,即向前/向后切換,順時針/逆時針旋轉和放大/縮小。無需觸摸屏幕即可識別6種交互式手勢來控制圖片。用戶左手在智能設備的左側左/右移動實現前/后切換照片。用戶右手在手機右側右/左移動,可將當前圖片順時針/逆時針旋轉。用戶通過進一步移動雙手來放大/縮小當前圖片。

圖13 相冊應用
與傳統利用觸摸屏的人機交互方式相比,用戶可以在不觸碰設備的情況下完成操作,且交互范圍不受觸摸屏尺寸限制,交互更為自然;基于超聲波實現定位操作,作品工作時不會對用戶的正常工作和生活產生影響;作品僅需使用設備普遍集成的多個揚聲器和多個麥克風便可工作,相較于需要集成特制傳感器(如手勢傳感器、深度攝像頭)的方案,可移植性、兼容性和適應性更好;利用特殊的信號設計方案,使得作品可以同時使用設備的多個揚聲器共同完成定位工作,也可以使得同一區域內多個設備在互不影響的情況下同時工作;可以避免多目標相互遮擋導致僅使用一個麥克風無法工作的現象,同時追蹤多個目標,并以此實現多點交互,實現更加復雜的手勢操作。