摘 要:基于視覺的手勢識別系統(tǒng)能夠使操作者徒手以更加自然的方式進行人機交互,無需設(shè)備費用,且操作方便,是手勢識別未來的發(fā)展趨勢。本文從專利的角度出發(fā),分析了該項技術(shù)專利申請的年代、地域分布情況以及技術(shù)發(fā)展路線。
關(guān)鍵詞:視覺手勢;識別;交互;專利
一、引言
人機交互是手勢識別成功應(yīng)用的一個重要領(lǐng)域,其在對機器人的控制、汽車駕駛、操縱圖形對象等場景中都有豐富的應(yīng)用。最初的手勢識別主要是利用機器設(shè)備的直接檢測來獲取人手與各個關(guān)節(jié)的空間信息,其典型代表設(shè)備如數(shù)據(jù)手套等。
外部設(shè)備的介入雖使得手勢識別的準(zhǔn)確度和穩(wěn)定性得以提高,但卻掩蓋了手勢自然的表達方式,為此,基于視覺的手勢識別方式應(yīng)運而生?;谝曈X的手勢識別系統(tǒng),相比于穿戴設(shè)備手勢識別系統(tǒng),其能夠使操作者徒手以更加自然的方式進行人機交互,這種方法不但不需要花費高昂的設(shè)備費用,而且在操作時也更加方便,是手勢識別未來的發(fā)展趨勢。
二、專利技術(shù)發(fā)展?fàn)顩r分析
(一)專利申請量趨勢及地域分布
如圖1所示,早在20世紀(jì)90年代就出現(xiàn)了視覺手勢識別的專利申請,而中國國內(nèi)最早的關(guān)于視覺手勢識別的專利申請則出現(xiàn)于2000年??傮w看來國內(nèi)外關(guān)于視覺手勢識別的專利申請數(shù)量大致呈現(xiàn)增長趨勢:在1997-2007年期間,全球?qū)@暾埩砍尸F(xiàn)較平穩(wěn)的狀態(tài),其中,在2003-2006年期間有所下降,其原因可能是受到手勢采集設(shè)備和計算機視覺發(fā)展的限制;自2008年之后進入迅猛增長期,在2016年專利申請量達到545件(注:由于專利公開需要18個月的時間,2017-2018年期間提出的部分專利申請尚未公布,因此雖然檢索到的2017-2018年期間的專利申請數(shù)量相較于2016年有所減少,但不能說明專利申請數(shù)量在下降);與此同時,中國的專利申請數(shù)量與全球趨勢大致相同,在2000-2009年處于較平穩(wěn)的狀態(tài),自2010年之后進入迅猛增長期,在2016年專利申請量達到315件。從圖1的發(fā)展趨勢看來,基于視覺的手勢識別在未來幾年仍然會處于快速發(fā)展期。
圖2為全球范圍內(nèi)視覺手勢識別的專利申請量地域分布情況,從圖中可以看出,專利申請量較多的國家為中國、美國、日本和韓國。結(jié)合圖1和2可以看出,雖然中國在視覺手勢識別方面的發(fā)展較晚,但發(fā)展迅速,一方面是因為中國經(jīng)濟的迅速發(fā)展,國內(nèi)各企業(yè)和研發(fā)機構(gòu)的科研力度加大,專利申請的數(shù)量也隨之大幅上升;另一方面則是因為國內(nèi)各企業(yè)和研發(fā)機構(gòu)的專利意識加強,積極申請專利以保護各種新技術(shù)。
(二)專利技術(shù)發(fā)展路線
基于視覺的手勢識別技術(shù)的發(fā)展是一個從二維到三維的過程。早期的手勢識別是基于二維彩色圖像的識別技術(shù),就是指通過普通攝像頭拍出場景后,得到二維的靜態(tài)圖像,然后再通過計算機圖形算法進行圖像中內(nèi)容的識別。隨著攝像頭和傳感器技術(shù)的發(fā)展,可以捕捉到手勢的深度信息,三維的手勢識別技術(shù)就可以識別各種手型、手勢和動作。隨著這個發(fā)展脈絡(luò),基于視覺的手勢識別的關(guān)鍵技術(shù)也發(fā)生了變化,如圖3所示。
二維手型識別,也稱靜態(tài)二維手勢識別,只能識別出幾個靜態(tài)的手勢動作,比如握拳或者五指張開。這種技術(shù)只能識別手勢的狀態(tài),而不能感知手勢的持續(xù)變化,采用的是模板匹配技術(shù),基于徒手表觀特征(例如膚色)對圖像進行手勢分割,利用通過計算機視覺算法分析圖像,和預(yù)設(shè)的圖像模型進行比對,從而理解手勢的含義。因此,二維手型識別技術(shù)只可以識別預(yù)設(shè)好的狀態(tài),拓展性差、控制感較弱,用戶只能實現(xiàn)最基礎(chǔ)的人機交互功能。
二維手勢識別,仍停留在二維的層面上,比起二維手型識別,不僅可以識別手型,還可以識別一些簡單的二維手勢動作,比如對著攝像頭揮揮手等。二維手勢識別擁有了動態(tài)的特征,可追蹤手勢的運動,進而識別將手勢和手部運動結(jié)合在一起的復(fù)雜動作。這種技術(shù)在硬件要求上和二維手型識別并無區(qū)別,但得益于更加先進的計算機視覺算法,基于手部的運動信息進行手勢分割,可以獲得更加豐富的人機交互內(nèi)容。
三維手勢識別,相較于二維手勢識別,其增加了一個Z軸的信息,可識別各種手型、手勢和動作。這種包含一定深度信息的手勢識別,需要特別的硬件來實現(xiàn),常見的有通過傳感器和光學(xué)攝像頭來完成。發(fā)展至今,主要有3種硬件實現(xiàn)方式:結(jié)構(gòu)光,即通過激光的折射以及算法計算出物體的位置和深度信息,進而復(fù)原整個三維空間;飛行時間,對目標(biāo)場景發(fā)射連續(xù)的光脈沖,然后用傳感器接收從物體返回的光,通過探測光脈沖的飛行時間得到目標(biāo)物體的深度信息;多角成像,使用兩個或者兩個以上的攝像頭同時采集圖像,通過比對不同攝像頭在同一時刻獲得的圖像的差別,使用算法來計算深度信息。
三、結(jié)語
本文結(jié)合國內(nèi)外專利申請的狀態(tài)對基于視覺的手勢識別技術(shù)的發(fā)展歷程進行了回顧,由最初只能通過簡單的模板匹配識別二維的手型,發(fā)展到基于三維手勢的交互方式。在未來的幾年內(nèi),基于視覺的手勢識別將更加豐富于人們的生活,帶來無限的便利。
作者簡介:
王晨霞(1990-),女,籍貫:浙江嘉興,職稱和學(xué)歷:研究實習(xí)員,工學(xué)碩士,研究方向或?qū)I(yè):人機交互領(lǐng)域?qū)@麑彶椤?/p>