馮琳
摘 要:文章對車載多媒體手勢識別系統中的手勢設計和手勢識別技術兩個方面進行了討論和研究。手勢的設計是建立系統的前提,關系著用戶體驗、駕駛安全和系統后續開發等問題。手勢識別技術是獲取手勢圖像的關鍵技術,獲取圖像的好壞對后續圖像處理處理工作有很大影響,要能夠很好的適應車內環境,獲取高質量圖像。
關鍵詞:手勢設計;手勢識別技術;圖像處理
Abstract: This paper discusses and studies the gesture design and gesture recognition technology in vehicle-mounted multimedia gesture recognition system. The design of gesture is the premise of establishing the system, which is related to user experience, driving safety and subsequent development of the system. Gesture recognition technology is the key technology to acquire gesture images. The quality of acquired images has a great impact on subsequent image processing. Therefore, it is necessary to be able to adapt to the in-car environment and acquire high-quality images.
Keywords: Gesture design; Gesture recognition technology; The image processing
前言
在目前車載多媒體系統中,使用了手勢識別技術并實現量產的車型,有寶馬、君馬等,很多車企也逐步推出新車型試圖使用手勢識別技術。加入了手勢識別的車載多媒體系統提升了駕駛的安全性和用戶的操作樂趣等,多種交互方式融合的車載多媒體系統成為了未來發展的方向。但是手勢識別在使用中也存在著一些問題,識別精度低,交互感受差,甚至可能影響駕駛的安全等。下面就手勢設計和手勢識別技術兩個大方面進行了討論和研究。
1 手勢設計
根據操作時手的運動狀態,手勢交互方式可分為靜態和動態兩種。而要想實現更加人性、智能、趣味的指令手勢,動態手勢的識別是主要的研究方向。動態手勢交互需要通過在識別范圍內建立手勢與指令之間的映射,達到正確完成操作的目的。在目前車載多媒體系統中采用手勢識別技術的控制手勢不超過十種,在手勢設計的過程中需要考慮很多的問題,并不是簡單的將生活中的手勢一一照搬。在手勢設計時首先要考慮的是手勢的通用性,一方面要符合絕大多數人的認知規律,手勢和功能的對應關系要通俗易懂,避免使用者的過度學習和習慣性的誤操作,牽扯過多的精力,影響正常的駕駛;另一方面,相同的手勢在多媒體系統的不同模塊或功能下都可以使用,比如菜單中的上下選擇和音樂播放的音量調節可以使用同一套手勢,這需要系統先判斷當前的工作狀態。這樣可以縮小系統的手勢集,使用者學習難度降低,識別系統的復雜程度也會降低。其次,盡量采用容差性較強的手勢捕捉方案,以實現手勢的大范圍模糊操作,降低錯誤率,減少駕駛中的分心,手勢應具有較好的抗干擾的能力。最后,手勢的設計要尋求技術和用戶的平衡,應用到市場上得到越多用戶的認可越好,但也不能盲目滿足用戶需求而不計成本,產品發展的過程還是需要企業和用戶之間的磨合。
2 手勢識別技術
手部動作可以是靜態的,也可以是動態的。有些動作還兼具有靜態和動態元素,如手語。自然連續動作的自動識別需要將它們進行時間分割,通常需要指定動作的起始點和結束點,構建在時間和空間上的運動框架。為了確定所有這些方面,需要感知手的位置、結構(角度、旋轉等)和運動(速度、軌跡等)。這可以通過使用感測設備傳遞給用戶,可以是磁場跟蹤器,儀器(數據)手套,或通過使用相機和計算機視覺技術。
早期的手勢識別主要是利用機器設備對人手的直接檢測,獲取人手以及手部關節的空間變換信息,再對信息進行分析,從而達到識別手勢的目的,其典型代表設備有數據手套等。每種傳感技術都會在幾個方面發生變化,包括精度、分辨率、延遲、運動范圍、用戶舒適度和成本。基于手套的手勢識別通常需要用戶佩戴笨重的設備,并攜帶大量連接設備與計算機的電纜,這妨礙了用戶與計算機交互的方便性和自然性,顯然不適合在車內使用,會給駕駛員、乘客、車輛造成不必要的負擔。
基于視覺的技術克服了這一問題,但同時需要應對遮擋、復雜背景等其他問題。基于視覺的技術也可以在以下方面有所不同:使用的相機數量;它們的速度和延遲;環境的結構(例如照明或移動速度的限制);所使用的低級特征(邊緣、區域、輪廓、矩、直方圖);使用的是2D表示還是3D表示;是否表示時間等。跟蹤器還需要處理不斷變化的形狀和大小的手勢生成對象(不同的個體),其他移動對象的背景和噪音。
視覺技術的發展歷經了從黑白到彩色,從模擬到數字,從靜態到動態,從2D到3D。目前的3D視覺技術還處于初期發展階段,較多處于實驗室階段,較早出現在工業應用中,其中在汽車上的應用也將是重要的應用場景,但暫時沒有完全落地和普及。真正開始進入到人們的生活中是2017年蘋果在iPhone中使用了3D結構光攝像頭。而隨著具有3D感知能力的硬件設備逐漸普及,3D人臉重建與識別、3D虛擬世界重建、機器人與工業自動化、3D物體識別和體感游戲與動作交互等應用都獲得飛速的發展[1]。常見的3D感知技術有三種:TOF、結構光和RGB雙目成像。
TOF(Time of flight),飛行時間法3D成像,通過給目標連續發送光脈沖,再用傳感器接收從物體返回的光,通過探測光脈沖的飛行(往返)時間來得到目標物距離。屬于主動測距傳感器,激光光源呈均勻面,所以不依賴環境的光照和紋理,計算量較小,對基線無要求,但量程越遠其精度越低。
結構光,是一組由投影儀和攝像頭組成的系統結構。用投影儀投射特定的光信息到物體表面后及背景后,由攝像頭采集。根據物體造成的光信號的變化來計算物體的位置和深度等信息,進而復原整個三維空間。屬于主動測距傳感器,激光光源是上萬個散斑,所以不依賴環境的光照和紋理,但不適用強光照,所以比較適合在室內環境中使用;計算量適中,但量程和識別精度受基線大小的影響。
雙目立體視覺(Binocular Stereo Vision),是機器視覺的一種重要形式,它是基于視差原理并利用成像設備從不同的位置獲取被測物體的兩幅圖像,通過計算圖像對應點間的位置偏差,來獲取物體三維幾何信息的方法。存在的問題是:對環境光照的依賴較大,不適合較暗的環境,同時要求環境紋理清晰;系統計算量非常大;量程和識別精度受基線大小的影響。
關于三種技術的其他特點見下表1。
綜合上述三種技術的特點,最適合車內環境采用的是結構光,其精度高,成本低,開發難度較低等。結構光目前較成熟的產品是微軟開發的Kinect,應用于Xbox 360和Xbox One,也陸續有研究人員在其基礎上開發,應用不同的算法實現手勢識別、人體姿態識別等。
3 結束語
車載多媒體系統中的手勢識別系統是一個綜合而復雜的系統:系統前端包括了紅外傳感器、紅外激光光源、光學組件、光學鏡頭、圖像傳感器等,中端包括了傳感器模組、攝像頭模組、光源檢測、圖像算法等,最后才是終端廠商以及應用。所以想要達到用戶良好的體驗感受,每個環節都不容忽視。
參考文獻
[1] 中國手機聯盟.光鑒科技汪博:不止于ToF,再造新視界的3D感知技術[EB/OL].https://www.sohu.com/a/393752415_166680, 2020 -05-08/2020-05-24.
[2] GeekCar.手勢識別:車內交互方式的新寵?[EB/OL].https://chejia hao.autohome.com.cn/info/3291266#pvareaid=28086821202,2019-01-29/2020-05-22.
[3] 景春暉,張晶,鄧椿山.汽車手勢交互設計研究[J].包裝工程,2018,39 (8):74-79.
[4] 劉春榮,朱旭.基于手勢交互的車載信息娛樂系統設計綜述[J].個案點擊,2016,(277):100-102.
[5] LOEHMANN S, KNOBEL M, LAMARA M, et al. Culturally Inde -pendent Gestures for In-Car Interactions[C]. Human-Computer Interaction-INTERACT 2013, 2013.
[6] WAHL H,GROH R.User Interface and Interaction Design in Future Auto-Mobility[M].Springer International Publishing, 2016.
[7] TANJA D,KERN D,MARSHALL P,et al.Gestural Interaction on the Steering Wheel:Reducing the Visual Demand[C].International Con -ference on Human Factors in Computing Systems,CHI 2011, 2011.
[8] SHNEIDERMAN B.Designing the User Interface:Strategies for Effective Human-computer Interaction[M]. Pearson Education India, 2010.
[9] HEYDEKORN J, FRISCH M, DACHSELT R. Prospects of User Elicited Gestural Interaction Techniques[C]. CHI 2010 Workshop on Natural User Interfaces: the Prospect and Challenge of Touch and Gestural Computing, 2010.