999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智能人機交互中第一視角手勢表達的一次性學習分類識別

2021-07-25 17:49:34秦世引李連偉張鼎豪
自動化學報 2021年6期
關鍵詞:檢測模型

鹿 智 秦世引 , 李連偉 張鼎豪

面向視覺感知與人機智能交互的工具已逐漸向可穿戴式相機轉變,如Google Glass、GoPro Hero和Narrative Clip 等逐漸成為大眾的新寵,并不斷地打入到消費者市場.這類頭戴式相機可用于拍攝運動愛好者的戶外探險活動、幫助患有間歇性失憶癥的病人記錄日常活動、收集用于研究人類行為的數據和研究以用戶為中心的智能人機交互等,并可以在短時間內記錄大量的圖像或視頻數據.例如,Narrative Clip 每天能從第一視角拍攝2 800 多張照片.因此,如何幫助人們高效地瀏覽、搜索和分析第一視角下采集的圖像數據,更好地為人機交互服務變的尤為重要.隨著機器視覺技術的發展,為解決第一視角下處理圖像/視頻數據面臨的挑戰性問題,包括較差的光照條件和復雜的運動背景等,提供了新的研究方法.

雖然第一視角下拍攝的視頻中包含大量的物體、場景和活動等,但幾乎每幀都包含手這一特定的對象.這是由于手是我們與物理世界進行交互的主要渠道,例如,操作物體、環境感知和人與人之間的肢體交互等.手總是不斷地出現在視野之內,它的外形和姿勢反映出人們正在做什么以及下一步打算做什么.因此,手勢目標的存在性檢測、分割和手勢的識別是理解第一視角下人機交互和人人交互的關鍵性問題.隨著深度學習理論的發展,大量基于深度CNN (Convolutional neural network)的研究工作開始關注于第一視角下手的檢測[1]、跟蹤[2]、分割[3]和識別[4]等問題.然而網絡性能在不斷提升的同時,兩個挑戰性問題阻礙了深度神經網絡在便攜式移動系統中的應用.1)如何在一些特殊的應用領域(醫療圖像、軍事衛星圖像等)獲取到訓練深度神經網絡所需的大規模數據集;2)計算資源的約束.通常情況下,更高的網絡性能依賴于大量有標簽訓練數據對千萬級網絡參數不斷地迭代優化.而且在便攜式移動系統中部署新的網絡模型存在許多不可避免的問題,尤其是在計算資源受限的情況下,大量的可訓練參數、較高的模型計算復雜度和較大的存儲空間占用等.因此,如何設計輕型高效的網絡和如何利用單樣本進行高效地分類識別是本文的研究重點.

本文提出了一種基于深度神經網絡級聯組合解決復雜應用場景中第一視角下的一次性學習手勢識別 (One-shot learning hand gesture recognition,OSLHGR)的算法.首先,針對如何快速判定第一視角下手勢目標是否出現在相機感受野內的問題,借助采集的手勢目標樣本對改進的輕量級SSD(Single shot multibox detector)[5]網絡進行遷移式強化訓練,一方面可彌補手工制作數據集的不足,另一方面借助改進SSD 網絡的強實時性的性能優勢實現對視頻圖像序列中手勢目標的高效檢測.接著,在包含手勢目標的圖像中,利用改進的U-Net[6]模型對復雜背景下的手勢目標實施高效精準分割,以降低無關目標對手勢識別結果的影響.在此基礎上,為實現第一視角下的OSLHGR,本文借助于端到端2D 關系網絡(Relation network,RN)[7],并將其擴展為處理視頻序列輸入的3D 關系網絡,同時采用3D 殘差卷積神經網絡(Residual convolutional neural network)作為視頻數據的特征提取模塊.在對相關類別的大樣本數據集進行深度訓練的基礎上,使用預訓練模型初始化目標網絡參數,提升網絡的學習能力,減少過擬合的風險并加速網絡收斂.在手勢目標存在性檢測、分割和分類識別的各個階段,本文都充分考慮了實際應用對模型高效性與實時性的需求.

本文的主要貢獻如下:1)在SSD 目標檢測模型的基礎上對其進行改進,以MobileNetV2[8]部分網絡結構作為SSD 網絡的特征提取模塊,并結合編?解碼的思想融合上下文信息,提出了一種沙漏型的輕量級SSD 目標檢測網絡架構.對比于幾種典型的輕量級目標檢測模型,取得了較高的檢測性能.2)在U-Net 語義分割模型的基礎上,修改編碼網絡和解碼網絡對應層的跳躍連接(Skip connection),并使用1×1 卷積對并置(Concatenate)后的特征圖進行融合.改進的U-Net 相比于輕量級M2UNet[9]在分割精度上有明顯的提升,訓練時間略有增加,但比U-Net 和MultiResUNet[10]模型有明顯的速度優勢.3)創新性地將用于少樣本圖像識別的2D 關系網絡模型擴展成3D 關系神經網絡并應用到第一視角下的手勢識別領域,通過深度神經網絡的自主學習進行特征提取和相似性度量,降低了網絡模型對海量數據的依賴,首次實現了端到端的OSLHGR 算法.4)為了評估OSLHGR 算法的分類性能,使用SoftKinetic DS325 采集并構建了第一視角下的手勢數據集.該數據集對驗證本文提出的第一視角下OSLHGR 算法的技術路線提供了一個很好的試驗基地.

本文的組織結構如下:第1 節對智能人機交互與手勢表達的優勢進行了概述;第2 節簡要介紹了第一視角手勢人機交互的基本環境和約束條件;第3 節詳細闡述了改進的SSD 網絡結構和基于該模型的手勢目標快速檢測算法;第4 節提出了改進的U-Net 模型并實現對復雜背景圖像中手勢目標的高效分割與提取;第5 節提出了3D 關系神經網絡并實現了端到端的第一視角下OSLHGR 算法;第6節對數據集的構建、網絡參數的設置和實驗結果的性能評價進行了詳細介紹;最后,對本文的研究工作進行了總結和展望.

1 智能人機交互與手勢表達的優勢

人機交互 (Human-computer interaction,HCI)是指人和計算機之間通過某種對話語言,按照特定的交互方式為完成確定任務而進行的信息交換過程.在智能化時代,人與計算機間的交互模式發生了重大的變化,不再局限于傳統的鍵盤、鼠標/觸控盤和顯示屏等交互媒介,而是逐漸轉向集傳統交互方式和手勢、腦電、眼動和語音等新興交互方式于一體的多模態交互.這些交互方式的轉變在增加了人機互動的同時,也獲得了更好的享受.

1.1 智能人機交互的應用領域和前沿研究動態

隨著計算機、物聯網、云計算和人工智能等新興技術的迅猛發展,智能人機交互在自動駕駛、醫療、教育、智能機器人、居家和軍事等領域有著廣泛的應用.彭玉青等[11]針對人機交互過程中復雜背景導致手勢識別率低、算法魯棒性差的問題,提出使用改進的YOLO[12]網絡完成復雜背景下手勢區域的提取并結合CNN 進行識別.在醫療領域,Yip 等[13]提出一種基于眼球追蹤眼鏡實現手術機械臂的眼動控制界面,該交互界面允許外科醫生通過眼睛觀察監視器特定的邊緣或角落來控制手術機械臂的運動.在智能控制機器人方面,Wanluk 等[14]提出一種專為障礙人群設計的基于眼動跟蹤的智能輪椅,通過對眼球的運動情況進行分析進而控制輪椅的運動.楊觀賜等[15]提出改進的YOLO 特征提取算法解決特征提取過程中存在信息丟失的問題,在隱私情境數據集和服務機器人平臺上的實驗結果表明了該算法可以較好地識別智能家居環境中涉及隱私的情境.李昌嶺等[16]提出一種面向未來戰場指揮決策的多通道多智能體的人機交互模型,實現由機器為中心向以人為中心交互的轉變,使得指揮人員和機器間更加自然、無障礙地進行信息交互.隨著技術的不斷進步,未來還會出現更多類型的交互模式,應用到更多的領域.

1.2 面向人機交互的手勢表達的主要方式及人稱關系

在人機交互過程中,手勢交互被認為是人與機器間最自然、最便捷的非接觸式交互模式.手勢是由人表演的特定姿勢或動作來定義,分為靜態和動態手勢.根據相機所處的位置不同,將基于手勢表達的交互方式分為第一視角、第二視角和第三視角下的人機交互[17].第一視角下的手勢交互由于計算機和表演者的視角是一致的,計算機看到的也是穿戴者見到的,可以讓計算機更直觀地理解操作者的意圖.第二視角下相機是信息接收者,操作者近距離的面對相機并和計算機進行交互.對于第三視角下的手勢交互,計算機與操作者的視角不同,計算機同第三人觀察操作者表演手勢的視角相同.操作者可以遠離并且背對著相機,多用于視頻監控中.近年來,已存在大量的工作對傳統視角下的手勢識別進行了深入研究.而隨著虛擬現實(Virtual reality,VR)和增強現實(Augmenting reality,AR)技術的發展,尤其以Google Glass 等智能頭戴式虛擬現實設備的出現,第一視角下的手勢識別技術也受到了學術界的廣泛關注.Hegde 等[18]為廉價頭戴式相機提出了一種可靠且直觀的手勢交互技術.在他們的工作中,首先基于高斯混合模型的手部膚色建模進行前景區域提取,并利用Shi-Tomasi 算法計算圖像中的特征點,之后結合Lukas-Kanade 光流法跟蹤前景區域的特征點,最后對檢測到的前景中運動目標進行分類.隨著深度學習理論的發展,基于深度神經網絡的方法也廣泛應用于解決第一視角下手勢目標的檢測、識別等問題.Bambach 等[19]提出了一種在第一視角下采集的視頻中檢測和區分不同手勢目標的算法,并在構建的大規模數據集上驗證了方法的有效性.Pandey 等[20]提出使用MobileNet[21]作為特征提取的前置網絡,并將SSD 目標提取網絡接在其后,在移動頭戴式顯示系統上實現了可靠的手勢目標檢測和定位.

1.3 第一視角在人機交互中的特點和必要性

隨著智能可穿戴設備(微軟 HoloLens、Magic Leap One 等)的出現并受到越來越多消費者的關注,第一視角下的人機交互在日常生活中更加普及.它可以使得人們不會受到任何時間、任何地點和任何環境背景的條件限制,使用簡單定義的手勢和頭戴式顯示系統進行友好交互.因此,識別第一視角下的手勢動作為我們提供了一種更加自然的與頭戴設備中虛擬元素進行交互的模式,并賦予了人們貼近現實生活的手勢導航和控制能力,建立了與計算機間最直接的交互方式.在未來智能化的社會中,第一視角下的手勢識別會遍布人們生活的各個角落,如無人駕駛、智能家居、全息投影、戶外運動、機器人控制和體感游戲等.因此,第一視角下的手勢交互技術需要更多的研究者投入更多的關注,以解決面臨的佩戴者相機抖動、運動模糊、光照變化和背景混雜等問題,提升人機交互系統在實際應用中的魯棒性.

1.4 第一視角條件下手勢人機交互的優越性

第一視角條件下的手勢交互不同于傳統視角,能夠感知穿戴者所感知的、看到穿戴者所看到的和理解穿戴者所理解的.第一視角下的視頻是由同一人在連續的時空下錄制的,不需要在環境中放置多個固定的相機,因此不會受到地理環境、空間和時間的限制,可以準確記錄穿戴者看到的內容,建立持續、自然的人機交互接口.此外,物體和手勢是直接呈現在第一視角下的,不易于被遮擋.該系統可以識別穿戴者周圍的人并了解危險狀況,還可為手術、運動和娛樂等活動提供幫助.在自主和可穿戴平臺上,對個人工作空間進行有效地監控也是很多機器人系統的基本要求.對用戶鄰近空間內的活動進行可靠、準確和實時的感知也有助于及時做出有意義的決策.這些都是傳統視角條件下的人機交互無法企及的.因此,開展第一視角下的手勢人機交互具有重要的現實意義.

2 第一視角手勢人機交互的基本環境和約束條件

隨著智能可穿戴設備逐漸在消費者群體中流行起來,第一視角下的手勢人機交互給人們帶來了新的交互方式和交互體驗,擺脫了傳統人機交互模式對空間和時間的約束,拓寬了應用空間.

2.1 面向常規應用的第一視角手勢人機交互的基本環境

相比于傳統視角下基于手勢的智能人機交互,在第一視角下可以實現全天候的人機交互,很少會受到時間和空間的制約,這也促進了第一視角下基于手勢人機交互的廣泛應用.如圖1 所示,展示了在不同光照條件和背景下的第一視角手勢人機交互的基本環境.實際應用中,用戶所處的環境和攝像頭固定的位置等因素還是會對第一視角手勢人機交互的魯棒性產生一定程度的干擾.因此,如何對人機交互環境中的不利因素進行抑制或消除從而改善智能人機交互系統的整體性能,是提升良好人機交互體驗的關鍵.

圖1 不同場景下第一視角手勢人機交互圖示Fig.1 HCI demonstration of gestures from the egocentric viewpoint in different scenarios

2.2 實現高性能智能人機交互的第一視角手勢表達的約束條件

本文針對第一視角下的OSLHGR 算法展開研究,目的是解決復雜背景下依靠單個手勢樣本的學習實現高性能的智能人機交互.借助于SoftKinetic DS325 完成手勢數據的采集和測試,采集示意圖如圖2 所示.深度相機固定在操作者頭部正前方的位置,右半部分由若干線條包圍的部分是用于人機交互的區域.操作者穿戴頭部相機的同時,在規定的區域內執行完預定義的手勢動作后,手離開交互區域并等待下一個動作的執行.為了對每個動作進行有效地識別,本文只針對包含單個動作的視頻片段進行分類,并輸出相應類別.計算機再根據輸出的類別信息做出相應的響應,完成一次人機交互過程.為了使本文所提的算法具有較強的魯棒性,采集手勢時對表演者手部的配飾品無任何強制要求.整個手勢數據的采集過程是在自然環境中完成的.

圖2 第一視角下智能人機交互的活動區域圖示Fig.2 Demonstration of active area of intelligent HCI from the egocentric viewpoint

3 第一視角下的手勢目標快速檢測

針對頭戴式移動設備存在計算能力和存儲資源有限的約束問題,本節在權衡模型精度和計算效率的基礎上,提出一種端到端輕量級目標檢測模型,實現對第一視角下手勢目標的快速精準檢測.本節中,首先對快速檢測的要求和工具選擇進行分析.然后對改進的SSD 網絡結構、參數設置和離線監督訓練等進行詳細地闡述.最后通過與多種輕量級模型在基準數據集上的檢測結果進行對比,驗證了本文提出的檢測模型的高效性.

3.1 快速檢測的要求與工具選擇

第一視角下手勢目標的快速精準檢測在降低系統響應時間的同時,還可提升智能人機交互過程中的用戶體驗.因此,本節將針對如何設計高效的目標檢測算法,實現手勢目標的快速檢測進行研究.

3.1.1 快速檢測的性能要求

隨著以人為中心的智能交互技術的不斷發展,越來越多的交互設備更加注重用戶的體驗.因此,低延時、高效能的交互系統更受大眾青睞.對于第一視角下基于一次性學習的手勢識別算法而言,實現較快的手勢目標檢測速度和較高的召回率有助于提升系統整體的響應時間和分類性能.隨著深度學習理論取得了突破性進展,基于深度神經網絡的目標檢測算法在檢測性能上要明顯優于傳統的檢測方法[22].然而這類算法是通過使用大量訓練樣本對千萬級網絡參數不斷迭代優化達到較高的檢測性能.因此,體量大、參數多和復雜性高制約著這些算法在便攜式移動系統中的應用.針對上述問題,本文通過對SSD 網絡進行輕量化設計,在實現手勢目標快速檢測的同時,大幅降低模型對計算資源的消耗,實現目標的實時檢測.

3.1.2 SSD 網絡的檢測效能與必要的改進

SSD 是由Liu 等[5]提出的一種端到端的目標檢測網絡模型,相比于兩階段的目標檢測網絡(RCNN[23],Fast R-CNN[24]和Faster R-CNN[25])具有明顯的速度優勢,而相比于一階段的YOLO 網絡具有更高的檢測精度.因此,基于SSD 在檢測速度和精度兩方面的性能優勢,本文選取該模型進行輕量化設計.SSD 由兩部分組成:基礎網絡部分和附加的輔助網絡部分.其中,基礎網絡是在VGG-16[26]模型的基礎上,用計算量更小的卷積層替換全連接層,并去除了分類層.輔助網絡是在基礎網絡部分的基礎上新增的8 個卷積層,以進一步對基礎網絡輸出的特征圖(Feature map)進行卷積運算,并得到多種尺度的特征圖.因此,可以在多尺度特征圖上進行目標類別和位置的預測,有利于提高目標檢測的準確率和增強對低分辨率圖像的魯棒性.在SSD 網絡中,輸入大小為300 像素×300 像素的圖像,經過一系列的卷積運算,從基礎網絡和輔助網絡部分選擇部分卷積層來實現預測目標邊界框的位置和類別.針對選擇的卷積層,以特征圖中每個細胞(Cell)單元為中心定義多個包圍框(Default box),同時用兩個卷積層并列的對特征圖進行卷積運算,分別輸出預測目標的包圍框修正值(相對于原始包圍框的位置偏移量)和包圍框內目標的概率.基于預測的修正值和原始的包圍框,經過適當變換獲得最終的包圍框.訓練階段,將最終包圍框和標注框(Ground truth)進行匹配,計算包括位置誤差和置信度誤差在內的損失函數,并使用隨機梯度下降算法(Stochastic gradient descent,SGD)進行端到端的網絡訓練.在預測階段,檢測模型會生成大量的預測框,故需使用非極大值抑制(Non-maximum suppression,NMS)方法保留具有極大置信度的預測窗口,即為最終的檢測結果.

針對SSD 網絡以VGG-16 作為基礎網絡進行特征提取存在著參數多、計算復雜度高和存儲消耗大的問題,改進的SSD 以輕量級MobileNetV2 作為基礎網絡,并將網絡中的標準卷積替換為深度可分離卷積.此外,對于SSD 中不同尺度特征圖之間相互獨立、低層特征幾何細節信息表征能力強而語義信息表征能力弱和高層特征語義表征能力強而幾何信息表征能力弱等問題,本文借鑒文獻[27]設計出了不對稱的沙漏型SSD 網絡結構,充分融合淺層和深層特征的語義信息,以此彌補低層次特征語義信息差的問題,而大多數小目標的檢測是依賴于低層次特征圖實現的,因此可提高對小目標的檢測和分類精度.同時將輔助網絡中的卷積層替換為Inception[28]單元和感受野區塊(Receptive fields block,RFB)[29]對特征圖進行降采樣,增加特征表達能力和魯棒性.最后,受文獻[30]中采用的基于SENet[31]注意力機制的啟發,本文將門控(Gate)單元加入到網絡中的每個預測層,自適應地選擇有用的特征,進一步增強模型的表達能力.改進的SSD 目標檢測模型系統架構如圖3 所示.圖中Depth-wise(DW)和Point-wise (PW)分別表示深度可分離卷積和逐點卷積.

圖3 改進的SSD 目標檢測網絡架構Fig.3 The network architecture of improved SSD object detection

3.1.3 改進SSD 網絡在基準數據集上的性能評價

在第3.1.2 節的基礎上,按照文獻[5]中關于目標損失函數的定義,本文將沿用該損失函數來衡量目標檢測的定位損失和目標預測的分類損失,即

其中,N表示和標注框相匹配的默認框的數目.若N等于0,表示沒有匹配的默認框,則設置L為0.Lclass(x,c)表示分類損失,采用交叉熵損失函數,如式(2)所示.Lloc(x,l,g),如式(4)所示.α表示權值系數,默認為1.

其中,

其中,

由于改進的SSD 檢測模型是一種新型網絡結構,為防止訓練手勢目標檢測網絡時模型過擬合,通常需使用大規模數據集上的預訓練模型初始化目標檢測網絡的參數,增強模型的泛化性能.首先,在Pascal VOC 2012 基準數據集上對新型目標檢測網絡進行充分訓練,并保存檢測結果最優的網絡模型.然后,基于遷移學習[32?33]的方法使用預訓練模型初始化訓練手勢數據的目標檢測網絡,利用SGD 對損失函數進行優化.初始學習率設為 10?3,200 到250 輪之間,學習率為 10?4,250 到300 輪之間為 10?5,動量因子為0.9.

在上述參數設置的基礎上,為了公平地對改進SSD 模型的效能進行對比分析,本文以Pascal VOC 2007 (20 類,9 963 張圖片)和VOC 2012(20 類,17 125 張圖片)的trainval 作為訓練集,從頭開始訓練本文提出的目標檢測網絡,并在test 數據集上進行測試,實驗結果如表1 所示.可以看出,在相似的計算資源約束下,本文提出的目標檢測模型在VOC 2007 測試數據集上取得了最高的均值平均精度(Mean average precision,mAP),達到73.6%.盡管相比于原始的SSD 網絡模型,在檢測精度上仍存在差距,然而改進的SSD 僅需較少的內存消耗和較低的計算成本.對比實驗結果表明,改進的SSD 在計算資源(模型大小和計算復雜度)和目標檢測精度之間實現了很好的平衡,更易于滿足便攜式移動系統的應用需求.

表1 輕量級目標檢測模型在VOC 2007 測試集上的檢測結果對比 (? 表示引用文獻[34]中的實驗結果)Table 1 Comparison of detection results of lightweight target detection model on VOC 2007 test set(? represents the experimental results in [34])

3.2 基于改進SSD 網絡的手勢目標快速檢測算法

借助上一節中提出的網絡結構和在Pascal VOC 2012 大規模數據集上的離線監督訓練.本文改進的SSD 網絡在目標檢測精度和效率上達到了同級別下的較高水平,基本能夠滿足對遷移模型的性能需求.為了充分利用改進SSD 網絡的性能優勢,我們在搭建的實驗平臺上采集了數百幀第一視角下包含手勢目標的圖像序列,并采用LabelImg開源標注工具手工制作訓練和測試樣本集.在此基礎上,利用遷移學習的策略使用訓練集對改進的輕量級SSD 網絡進行微調,從而實現對第一視角下手勢目標的高效和精確檢測.

3.2.1 樣本的采集與標注

首先,針對第一視角下手勢目標存在性檢測的問題,我們在搭建的數據采集實驗平臺上采集了600 幀(共10 類手勢)含有手勢目標的深度圖像,數據采集實驗平臺見第6 節.然后,使用開源標注工具LabelImg 對圖像中手的位置進行人工標注,并自動生成對應的XML 標簽數據文件.標注前后含有手勢目標的樣本如圖4 所示.從原始圖像中可以看出,除手外還含有較為復雜的桌面背景,如顯示屏、鍵盤和鼠標等,以及出現在第一視角下形狀、尺度各異的手勢目標都會對手的精確檢測帶來一定的干擾.此外,在標注框內除了手之外,還有其他對象的干擾.這說明在檢測到手存在的基礎上,需進一步進行精細分割提高手勢分類的準確率.

圖4 第一視角下手勢樣本數據的標注結果Fig.4 Annotation results of gesture samples from the egocentric viewpoint

3.2.2 基于大樣本數據集的強化訓練與功能遷移

本節將使用手工標注的600 幅包含手勢目標的圖像數據對改進的SSD 目標檢測網絡進行深度訓練和測試,其中訓練集和測試集按照5:1 進行隨機劃分.由于手工標注的數據集無論是在數據規模和目標類別上都無法和Pascal VOC 2012 相提并論,直接用于訓練本文提出的目標檢測網絡模型,存在過擬合的風險.鑒于在大規模數據集上提取的淺層視覺特征,如邊緣、紋理、點和線等,與標注的手勢目標數據集之間存在較強的相似性.因此,利用第3.1.3 節在大規模數據集上離線監督訓練得到的預訓練模型,并使用遷移學習的策略將預訓練模型應用到手勢目標檢測的任務中,從而克服手工標注數據的不足,實現第一視角下手勢目標的高效檢測.如圖5 所示,對比了基于網絡模型遷移和He 等[38]正態分布兩種不同的網絡參數初始化策略下,目標函數隨迭代輪次的變化曲線.從中可以看出,基于遷移學習的強化訓練機制可以使網絡的損失函數以更快的速度收斂到較低的值,實現更高的目標檢測和分類預測的性能.

圖5 遷移強化訓練和隨機初始化兩種方式下損失函數變化曲線對比Fig.5 Comparison of loss function change curves between transfer reinforcement training and random initialization

3.2.3 第一視角下手勢目標的快速檢測實驗結果和性能評價

在本節中,首先運用第3.1.3 節中對改進SSD網絡進行遷移強化訓練而獲得的檢測模型在100 幀測試圖像上進行手勢目標檢測.我們從檢測結果中隨機選出5 幅圖像,如圖6 所示.從中可以看出,本文改進的輕量級SSD 對第一視角下采集的包含手的圖像,無論是剛進入到相機感受中尺寸較小的手勢目標,還是完全呈現在感受中形狀各異的手勢目標,均能精確地進行檢測和定位.這為第一視角下準確高效的判斷手在感受野中的存在性提供了重要保障,也為后續高性能的手勢識別奠定了基礎.

圖6 第一視角下改進SSD 目標檢測網絡的檢測結果Fig.6 The detection results of improved SSD target detection network from the egocentric viewpoint

為了綜合衡量本文提出的目標檢測算法在采集圖像數據集上的檢測性能,我們選擇精確率(Precision)和召回率(Recall)作為目標檢測精度的評價指標.其中,精確率表示所有檢測到的目標中真實手勢目標正確檢測數所占的比例,而召回率則表示真實手勢目標正確檢測數占所有手勢目標總數目的比例.計算表達式分別為

其中,Tp表示被正確檢測為手勢目標的幀數,Fp表示被錯誤檢測為手勢目標的幀數,Fn表示被錯誤檢測為背景的幀數.

將100 幅測試圖像輸入訓練好的網絡模型,對圖像中的手勢目標進行檢測并記錄結果.當模型輸出的預測邊界框和測試集中標注的手勢目標邊界框的交并比(Intersection over union,IoU)大于設定閾值時,檢測結果有效.本文設定閾值為0.5,并給出了該閾值下使用預訓練模型初始化和隨機初始化兩種情況下的精確率?召回率變化曲線,如圖7 所示.由于只有單類目標,故 mAP 和 AP 的值相同且均為曲線下方和橫縱坐標軸包圍區域的面積.由圖中可以看出檢測模型在大樣本數據集的強化訓練下取得了更高的檢測性能.本文在預訓練模型初始化網絡參數和隨機初始化網絡參數兩種條件下計算mAP的值分別為96.3% 和94.9%,這表明改進的SSD 網絡對第一視角下手勢目標的檢測取得了較高的精度.

圖7 第一視角下手勢目標檢測結果的召回率?精確率變化曲線Fig.7 Recall and precision curves of gesture target detection results from the egocentric viewpoint

4 基于改進U-Net 網絡的手勢目標快速分割與提取

在第3 節中檢測到手勢目標存在于相機感受野后,本節在U-Net 語義分割模型的基礎上提出了一種新的端到端的網絡架構,實現復雜背景下手勢目標的高性能分割,濾除無關目標對手勢識別結果的影響.改進U-Net 模型結構的設計、參數設置以及深度網絡模型的訓練在后續小節中分別被詳細闡述.最后對多個語義分割模型在采集圖像數據集上的分割結果進行對比,驗證了本文提出的分割模型的高效性.

4.1 改進的輕量級U-Net 網絡模型

隨著深度學習理論的發展,基于深度卷積神經網絡的圖像分割方法,如FCN[39]、U-Net 和SegNet[40]等,相比于傳統的分割算法在分割精度上取得了顯著地提升.然而,這些網絡模型普遍存在著參數多、內存消耗大的問題,無法應用于頭戴式移動設備上.本文在結構簡潔、性能更為突出的U-Net 模型基礎上,設計一種輕量級的全卷積U 型網絡結構用于復雜場景下手勢目標的高效分割與提取.針對U-Net存在的問題,本文提出了三點改進:1)將編碼端包含大量參數的特征提取網絡使用輕量級的Mobile-NetV2 替換;2)針對編碼端和解碼端對應層級特征圖直接疊加的方式可能存在語義鴻溝的問題,本文借鑒MultiResUNet 中使用的Res path 的思想,在跳躍連接的支路上通過增加卷積模塊來加深低層次卷積層提取深層特征的能力;3)在解碼端,對直接疊加的特征圖使用1×1 卷積進行特征融合.改進后的U-Net 網絡結構如圖8 所示,其中在編碼器部分考慮到模型參數和內存占用等因素選擇使用MobileNetV2 的前14 層用于特征提取,同時去除解碼器網絡中接在雙線性插值上采樣(Bilinear interpolation upsampling)運算后的2×2 卷積層,并使用參數量更少的反向殘差模塊(Inverted residual block)將輸入通道數減半,以進一步對網絡進行壓縮.對于跳躍連接中使用殘差單元的數目是根據編碼網絡在第一層卷積運算之后進行了三次下采樣,因此在三條跳躍連接支路中從淺層到深層分別增加3、2 和1 個殘差單元.

圖8 改進的輕量級U-Net 網絡結構Fig.8 Improved lightweight U-Net network architecture

改進的輕量級U-Net 網絡模型采用了端到端的對稱型網絡結構設計,所有標準卷積都用深度可分離和逐點卷積替代,極大地降低了網絡的參數量和內存消耗.在采集的圖像數據集上對網絡模型進行充分訓練后,輸入第一視角下采集的原始圖像即可快速輸出相應大小的分割結果,因而具備簡單、高效的特性.下一節將對數據的標注、網絡模型的深度訓練和多種語義分割模型對手勢目標的分割結果進行對比分析.

4.2 手勢樣本數據的標注和網絡模型的深度訓練

為了對改進的U-Net 網絡模型進行離線監督訓練,我們以第3 節中使用的600 幅圖像作為網絡輸入,并使用LabelMe 對這些原始圖像中的手勢目標進行人工標注.圖9 給出了部分在復雜背景下手勢目標的人工標注結果和生成的手勢目標區域正樣本示例.圖 9(a)是采集的原始圖像,分別從前五類手勢中隨機選擇的一幅圖像.圖 9(b)是對圖像中手勢目標人工標注后的結果.圖 9(c)手輪廓以外的區域表示為背景,而輪廓以內區域為手勢目標的正樣本區域.對改進的U-Net 網絡進行訓練之前,我們將人工標注的600 幅圖像分為兩部分:500 幅圖像作為訓練集,100 幅圖像用于測試和評估分割模型的性能.

圖9 第一視角下手勢目標輪廓的人工標注結果Fig.9 Manual annotation results of gesture target contours from the egocentric viewpoint

為了對網絡參數進行有效地更新和優化,本文使用二元交叉熵(Binary cross entropy)作為損失函數用于度量模型預測輸出和期望輸出的近似程度.同時,使用自適應矩估計(Adaptive moment estimation,Adam)算法對網絡參數進行更新,交叉熵的計算表達式為

其中,Nn表示圖像中像素點數,y(i)表示第i個像素的類別,h(·)使用Sigmoid 激活函數.

深度神經網絡在線訓練過程中,本文對圖像進行簡單數據增廣:水平翻轉、平移變換、旋轉變換和縮放變換等,在不改變訓練樣本實際數目的同時增加數據的多樣性,使得訓練得到的模型泛化性能更好.為了對不同網絡模型的分割結果進行公平地比較,每個模型都經過500 輪的迭代訓練,以充分優化網絡參數.

4.3 基于改進U-Net 網絡的手勢目標快速分割與提取算法

在復雜場景中,第一視角下采集的手勢目標圖像包含較多無關的背景干擾,這對于只通過一次性學習實現高性能手勢識別的算法而言會帶來較大的挑戰.本文借助于深度學習理論,利用輕量級MobileNetV2 網絡作為編碼端的特征提取模塊,并引入反向殘差單元降低卷積層的輸入通道數.此外,通過在跳躍連接支路上引入不同數目的殘差模塊,降低編解碼端對應層級特征間的語義鴻溝.在此基礎上,我們設計出了性能更加優越的目標分割網絡模型,可以實現復雜背景下手勢目標的高性能分割.本文提出的改進U-Net 網絡模型對圖像中手勢目標分割算法的系統架構如圖10 所示.

圖10 基于改進U-Net 的手勢目標快速分割和提取算法系統架構Fig.10 Architecture of fast segmentation and extraction algorithm of gesture targets based on improved U-Net

在圖10 中,首先利用建立的數據采集實驗平臺采集了訓練深度神經網絡所需的手勢樣本,并使用LabelMe 開源標注工具對采集的包含手勢目標圖像序列進行人工標注.將訓練數據集和標注后的圖像輸入網絡,并利用二元交叉熵損失函數計算網絡輸出結果和人工標注數據間的誤差值.然后使用Adam 算法對深度網絡的參數進行優化,直至損失函數的值下降到不再變化為止.在完成對手勢目標分割網絡模型的訓練之后,實際測試時將獲取的手勢目標圖像輸入到訓練好的模型,便可預測輸出和輸入圖像同等大小的手勢目標分割結果.

4.4 實驗結果與對比分析

為了對測試圖像的分割結果有直觀的認識,我們使用第4.2 節得到的預訓練模型對100 幅測試圖像進行預測,并從分割結果中隨機挑選5 幅圖像,如圖11 所示.圖 11(a)是原始采集的圖像,圖 11(b)是使用改進的輕量級U-Net 網絡分割的結果.從中可以看出,本文提出分割網絡模型能夠從復雜的圖像背景中對手勢目標進行有效地分割和提取.

圖11 第一視角下改進U-Net 網絡模型的分割結果Fig.11 The segmentation results of improved U-Net network model from the egocentric viewpoint

為了綜合評估本文提出的網絡模型的分割性能,我們分別對原始的U-Net 網絡、MultiResUNet 網絡和輕量級的M2U-Net 網絡在標注的數據集上進行充分訓練,并分別將測試圖像輸入到訓練好的模型中.并根據式(9),計算100 幅測試圖像的平均交并比.

其中,RoIT表示不同語義分割模型對原始圖像中手勢目標的分割結果,RoIG表示人工標注的手勢目標正樣本區域.IoU 的值越大,說明模型的分割性能越好.由不同網絡模型的分割結果計算出得分如表2 所示.同時,我們還分別給出了各個模型的參數量、計算復雜度和單幀圖像的處理時間.從表2中可以看出,改進的輕量級U-Net 各項指標均優于原始的U-Net 網絡.相比于輕量級的M2U-Net,本文提出的網絡模型以增加較少的計算代價換來模型分割精度的提升.此外,對比不同模型處理單幅圖像耗費的時間,可以發現模型的理論計算復雜度和實際的運算時間并不是嚴格的正相關,還與網絡結構的設計有很大的關系.

表2 不同網絡模型分割結果和模型參數對比Table 2 Comparison of segmentation results and model parameters of different network models

由式(6)和式(7),我們分別計算了不同網絡模型在100 幅測試圖像上手勢目標分割結果的召回率和精確率變化曲線,如圖12 所示.圖12 中與主對角線交點為A的曲線是由本文提出的改進U-Net網絡模型分割結果計算得到的.從曲線與坐標軸包圍區域的面積和圖中標注的4 個均衡點位置可以看出本文提出的網絡結構對第一視角下手勢目標的分割結果要明顯優于其他幾種網絡模型.

圖12 第一視角下手勢目標分割結果的召回率?精確率變化曲線Fig.12 Recall and precision curves of gesture target segmentation results from the egocentric viewpoint

為了對比第3 節與本文提出的輕量級SSD+U-Net 組合架構和經典的Mask R-CNN v3[41]方法在手勢目標檢測和分割方面的性能,本節將從定性和定量兩個方面闡述所提算法的優越性.我們使用文獻[41] 中的方法對本文標注的數據進行實驗.Mask R-CNN v3 是由He 等[41]在Faster RCNN[25]網絡模型的基礎上增加了目標分割子網絡,在實現有效檢測目標的同時輸出高質量的目標分割結果.為了與本文提出的方法進行公平比較,實驗過程中仍使用500 幀圖像進行網絡訓練和其余100幀圖像對模型的檢測和分割性能進行評價,測試結果如表3 所示.從表3 中可知,本文提出的手勢目標檢測與分割算法相比于經典的Mask R-CNN v3方法在保持檢測精度無明顯損失的情況下取得了較高的分割性能.此外,網絡參數量大幅度降低也使得模型的檢測速度得到了顯著提高,在滿足實時檢測任務需求的同時也提升了智能人機交互中的用戶體驗.

表3 本文提出的目標檢測和分割方法與Mask R-CNN v3 的性能對比Table 3 Performance comparison of the proposed object detection and segmentation method and Mask R-CNN v3

此外,為了進一步定性地評估本文提出的方法和Mask R-CNN v3 在手勢目標檢測與分割結果上的性能,圖13 中給出了兩種方法在本文采集圖像數據集上的檢測與分割的測試結果.從圖13 中可以看出,兩種方法均能對手勢目標進行精確地檢測,而本文提出的方法在含有手勢目標圖像上的分割效果要明顯優于Mask R-CNN v3.因此,通過對實驗結果的定性和定量分析,可以看出本文提出的輕量級SSD+U-Net 方法在檢測和分割的速度與精度上都能保持在滿意的水平.

圖13 本文提出的SSD+U-Net 組合方法與Mask R-CNN v3 檢測和分割結果對比Fig.13 Comparison of detection and segmentation results between SSD+U-Net and Mask R-CNN v3

5 基于3D 深度神經網絡的一次性學習手勢識別

隨著手勢識別技術的應用在人們日常活動中逐漸增多,就會不斷地出現一些新的賦予不同含義的手勢,這就要求手勢識別系統能夠快速地對新出現手勢進行有效識別.然而,在許多實際應用場景中獲取大量有標簽的訓練樣本是不切實際的,這是由于收集或標注數據是非常昂貴和乏味的過程.本節提出一種新的端到端3D 關系卷積神經網絡用于解決單樣本的手勢識別問題.該算法主要是使用SoftKinetic DS325 采集的第一視角下的深度手勢視頻數據進行實驗.

5.1 3D 深度神經網絡結構設計

人類能夠通過對單幅樣本圖像快速學習新類別的原因在于我們大腦中的視覺系統能夠非常迅速地提取到圖像中物體的顯著性特征,如顏色特征、紋理特征和形狀特征等,再通過比對圖像和圖像之間的特征差異來實現對目標的識別.受此啟發,Sung等[7]提出了一種新穎的關系網絡,通過模擬人類的識別過程來實現對少樣本的有效分類.該網絡在訓練過程中能夠學習一種特征度量方式,在測試階段通過計算查詢樣本和每個新類中單個支撐樣本之間的相似度實現對測試圖像的分類識別.

在此基礎上,本文將處理圖像分類任務的2D關系網絡修改為解決單樣本動態手勢分類任務的3D 關系網絡.本文提出的3D 關系神經網絡系統架構如圖14 所示,主要包括數據輸入單元、特征提取模塊、特征相似性度量模塊和預測分數輸出四個部分.其中,輸入網絡的測試數據集是在第一視角下采集并經過第3 節和第4 節處理后的手勢視頻,而訓練數據是采用文獻[42]中用于訓練網絡的19 類手勢數據集,并確保和測試數據集之間沒有相互重疊的類.關于訓練和測試網絡模型所用數據劃分的細節將在第5.2 節中詳細敘述.圖中特征提取模塊使用易于優化和訓練的殘差網絡結構,本文選擇ResNet9,并將每一層修改成處理視頻序列輸入的3D 卷積運算用于提取時空特征.特征相似性度量模塊是由特征圖級聯操作和特征度量子網絡(兩個3D 卷積層和全連接層)組成.網絡的輸出是一個值在[0,1]區間內的數,0 表示查詢樣本和支撐樣本對極不相似,1 則表示完全相同.

圖14 5-way 1-shot 3D 關系神經網絡系統架構Fig.14 5-way 1-shot 3D relation neural network system architecture

5.2 3D深度神經網絡的訓練策略和參數優化

為了便于敘述,本文首先對用于網絡訓練和測試的數據進一步細分.總體上,我們有三部分數據集:訓練集(Training set)、支撐集(Support set)和測試集(Testing set).其中支撐集作為對比學習的樣例,和測試集共享相同的標簽.而訓練集的標簽則與其他數據集完全不同.根據測試時的數據結構劃分,本文將具有大量樣本的訓練集(Training set)劃分成樣本集(Sample set)和查詢集(Query set)兩部分來模擬測試時的支撐集和測試集.對包含C個不同的類,每類有K個帶標簽樣本的支撐集,稱為C-wayK-shot (本文只考慮K=1 的情況)少樣本學習問題.本文在訓練方式上采用和文獻[7]相同的基于 episode 的策略.在每次迭代訓練網絡的過程中,隨機從訓練集中選擇C類且每類包含K個帶標簽的數據樣本組成樣本集(m=C×K),以及從被選出類別的剩余樣本中隨機選擇一部分樣本作為查詢集.在此基礎上對網絡反復進行訓練,不斷優化模型參數.此外,每隔預先設定的迭代次數,使用支撐集和測試集對當前的網絡模型進行測試.如圖15 所示,實驗中使用的數據集遵循基于 episode 訓練方式下的數據劃分模式.圖中,左半部分的元訓練集通過多次的 episodes 迭代來模擬一次性學習任務.在每次迭代過程中,每類僅含一個正樣本(Positive sample),用矩形框包圍的手勢序列表示.訓練階段,通過不斷地優化網絡模型實現對查詢樣本的最佳分類.測試階段,直接使用優化后的網絡模型對測試episodes中的查詢樣本進行預測,并輸出分類結果.

圖15 OSLHGR 任務的數據集劃分圖示Fig.15 Illustration of dataset partitioning for OSLHGR tasks

對于單樣本學習的手勢識別 (K=1),首先將圖14 中的特征提取模塊和相似性度量模塊分別表示為fφ和gφ,并將樣本集S中的xi和查詢集Q中的xj輸入特征提取網絡,并輸出特征圖fφ(xi)和fφ(xj).然后,經過特征圖級聯運算輸出特征圖C[fφ(xi),fφ(xj)],并輸入特征度量模gφ.最終經過Sigmoid 激活函數輸出一個值在[0,1]區間內且表示xi和xj相似性程度的關系分數.因此,對于C-way單樣本學習任務而言,網絡輸出的關系分數si,j為

本文使用均方誤差(Mean square error,MSE)來衡量預測值和真實值的差異程度,并使用Adam優化器不斷地對網絡參數進行優化.其參數優化的決策模型為

其中,(φ?,φ?)為最優參數集合.I(·)表示示性函數,當查詢集中樣本的標簽yj和樣本集中樣本的預測標簽yi相同時,則I(True)=1,否則為0.

5.3 一次性學習手勢識別算法體系的綜合集成與優化

對于第一視角場景下采集的包含手勢目標的圖像而言,存在背景復雜、光照變化和頭戴式相機抖動等問題.為了實現高效的OSLHGR 算法,首先對手勢目標在相機感受野中的存在性進行快速判別,節省資源的消耗;其次需對圖像中的手勢目標進行高效地分割和提取,從而去除復雜背景對動態手勢識別性能的干擾;最后對分割后的動作序列進行類別判定.因此,基于手勢目標快速檢測、分割和識別的級聯組合對第一視角下基于單個手勢樣本的高效識別是很有必要的.

在SSD 目標檢測模型的基礎上進行輕量化設計,以期在檢測精度無明顯下降的條件下,降低模型的計算復雜度并提升目標檢測的速度.此外,基于遷移學習的方法對改進的SSD 進行強化訓練,并對第一視角下手勢目標進行高效檢測.然后使用改進的U-Net 模型對圖像中的手勢目標進行精準分割.相比于其他圖像分割算法,本文提出的網絡模型在分割精度和速度上實現了很好的平衡.最終將檢測和分割處理后的圖像序列輸入到3D 關系神經網絡,并輸出動態手勢的預測結果.檢測、分割和識別相集成的級聯組合方案能夠滿足第一視角下單樣本動態手勢識別高效性的應用需求,因此該方案是可行的.

根據第3~5 節的研究結果,本節給出了智能人機交互中第一視角手勢表達的一次性學習分類識別算法,具體見算法1.

6 綜合測試與性能評價

本節利用DS325 采集的第一視角下手勢數據集對本文提出的OSLHGR 算法性能進行實驗驗證.首先,對用于評估算法性能的手勢數據集進行簡要介紹,包括采集環境設置和手勢種類.然后,對實驗方案和網絡參數的設置進行說明.最后,對實驗結果進行綜合分析并對算法性能進行評估.

6.1 第一視角手勢人機交互的實驗測試平臺

本文所有實驗均使用Python 作為開發語言,實驗硬件平臺是由Nvidia GTX 1 080 GPU 為手勢目標的檢測和分割模型提供加速運算,而動態手勢分類網絡使用Nvidia Titan Xp 顯卡來加速網絡模型的訓練.第一視角下手勢數據的采集和算法測試是使用DS325 深度相機完成的.此外,我們還基于TensorFlow 1.3 的Keras 2.1 和PyTorch 0.4 的深度學習框架進行深度神經網絡模型的開發和應用,并在Ubuntu 14.04 上對模型進行深度訓練和測試.

6.2 測試數據集的構建

為了評估本文提出的第一視角下基于3D 卷積神經網絡OSLHGR 算法的性能,我們利用搭建的手勢數據采集實驗平臺進行了大規模的數據采集工作,數據采集環境如圖16(a)所示.手勢數據采集平臺搭建和數據采集過程如下:1)首先基于SoftKinetic DS325 (圖16(b))深度相機進行二次開發,實現對捕獲大小為320 像素×240 像素的深度圖像以30 幀/s 的速率進行本地存儲;2)將深度相機固定在安全帽的正前方,并穿戴在數據采集者的頭部,同時對深度相機的角度進行微調;3)啟動應用程序,受試者在觀察實時顯示手勢電腦桌面的同時,使用單手或雙手進入深度相機的感受野內表演預定義的手勢動作,執行完單個動態手勢后雙手遠離相機感受野區域,并準備表演第二個手勢動作.如此循環,直至完成10 類測試數據的采集工作,并關閉應用程序.實際采集的深度圖像如圖16(c)所示.

圖16 數據采集實驗平臺Fig.16 Experimental platform for data collection

不同于文獻[42]中以純凈的桌面作為表演手勢的背景,本文針對更加實用的應用場景探索基于一次性學習進行手勢識別的高效算法.為此,在圖16實驗平臺的基礎上,采集了10 類共500 個第一視角下連續的手勢動作作為評估本文算法性能的數據集.圖17 展示了每一類手勢動作示意圖.這些手勢的種類和文獻[42]中選擇用于測試算法性能的10種手勢類別相同,區別在于數據采集時的環境背景不同.從圖中可以看出,本文采集的手勢數據背景較為復雜,這會對單樣本手勢識別算法的性能產生不利的影響.此外,按照第5.2 節中對訓練3D 關系神經網絡所使用數據的劃分方式,本文以文獻[42]中使用的19 類共1 995 個手勢樣本作為訓練集,這19 種手勢的類別和本文采集的手勢類別無相互重疊的類.

圖17 10 種用于驗證OSLHGR 算法性能的動態手勢數據集.每一列從上向下表示手勢核心階段從起始到結束的變化過程.圖中箭頭用于描述動態手勢運動的方向Fig.17 Ten dynamic gesture datasets to verify the classification performance of OSLHGR algorithm.From top to bottom,each column represents the change process from the beginning to the end of the core phase of gestures.The arrows are used to describe the motion direction of dynamic gestures

6.3 測試方案與條件設置

為了對本文提出的第一視角下OSLHGR 算法的分類性能進行綜合分析,實驗方案設計如下.在使用本文提出的目標檢測網絡判定手勢目標出現在人機交互區域之后,利用文獻[42?43]中提出的兩階段算法和本文提出的基于3D 關系神經網絡的單階段分類算法對第一視角下采集的原始圖像序列以及手勢目標分割處理后的圖像序列分別進行基于一次性學習的動態手勢分類實驗,并對比三種算法在手勢目標分割前后OSLHGR 分類的準確率,驗證在復雜背景下基于改進U-Net 網絡模型的手勢目標分割與提取對單樣本手勢識別性能提升的有效性.同時對文獻[42?43]和本文算法的分類結果進行對比,以驗證本文提出的算法在模型復雜度、分類準確率和實時性方面的優勢.所有實驗輸入原始圖像的大小均為320 像素×240 像素.為了進行公平比較,改進的SSD 檢測網絡將原圖調整為300 像素×300 像素,手勢目標分割網絡輸入為224 像素×224 像素.此外,由于計算機顯存的限制,3D 關系神經網絡將原圖調整為112 像素×112 像素,并將連續16 幀圖像組成一個視頻片段用于訓練網絡模型.在所有基于3D 關系神經網絡的OSLHGR 實驗中,初始學習率均設為 10?3,每迭代5×104個episodes學習率衰減為原來十分之一,共迭代1×105次.

6.4 測試結果與性能評價

本節使用第6.2 節采集的第一視角下動態手勢數據集來驗證本文提出的OSLHGR 算法的性能.首先,基于第4 節提出的輕量級U-Net 網絡對復雜背景下的手勢目標區域進行提取.在此基礎上,使用不同的OSLHGR 算法對預處理后的動態手勢進行分類識別,測試結果如表4 所示.同時,表4 中還給出了未經分割處理的手勢分類結果.通過對比可以得知,手勢目標的精確分割可以大幅降低復雜背景對分類結果的影響,提升分類準確率,這對于只有單樣本的分類任務而言是至關重要的.此外,為了進一步說明本文方法在分類準確率和實時性方面的性能優勢,按照本文使用的測試策略對文獻[42?43]中的測試方法進行了修改.表4 中分別給出了在5-way 1-shot 和10-way 1-shot 下的分類結果.通過與文獻[42]的分類結果對比可以看出,本文方法在手勢目標分割后數據集上的分類結果明顯優于后者,而在原始圖像上10-way 1-shot 卻不及后者.這主要由于文獻[42]使用了連續微調的訓練機制,每次都從新的手勢類中隨機選擇單個樣本微調網絡的分類層,故在元訓練集和元測試集背景不同的情況下,表現出較好的分類性能.此外,該方法的網絡參數量、時間開銷和內存占用遠超本文提出的分類算法.與文獻[43]的分類結果對比發現,本文算法在手勢目標分割提取后的數據樣本上10-way 1-shot 分類準確率要低于前者.而在原始圖像上10-way 1-shot的分類準確率同文獻[43]具有相當的分類性能,且5-way 1-shot 的分類準確率89.44%遠高于80.70%.這是由于文獻[43]采用兩階段的分類策略,在訓練網絡的基礎類數據和驗證模型性能的測試數據背景不一致時,無法對預訓練模型參數進行調節,導致分類性能大幅降低.而本文采用了單級式基于 episode 的訓練策略,可有效地降低因數據差異對分類性能產生的影響.通過對三種分類算法的對比可知,本文提出的算法在保持較低參數量和較高實時性的同時,在分類準確率上也保持在較為滿意的水平,本文算法的有效性得到了充分的驗證.

表4 OSLHGR 算法的分類結果和模型性能對比Table 4 Comparison of classification results and model performance of OSLHGR algorithms

7 總結與展望

本文提出了一種基于深度神經網絡的級聯組合進行OSLHGR 的分類算法,以實現第一視角下手勢動作的快速和精確分類,提升智能人機交互中的用戶體驗.在該算法中,為了滿足在便攜式移動系統中的應用和實現手勢目標快速精準檢測的需求,運用MobilenetV2 對端到端SSD 目標檢測模型進行輕量化設計,并將編?解碼架構、感受野區塊和門控單元加入到檢測網絡,在Pascal VOC 2012數據集和SoftKinetic DS325 采集的手勢目標檢測數據集上分別達到73.6%和96.3%的均值平均精度,實現了輕量級模型檢測性能的大幅提升.進而,為了有效降低復雜背景的干擾,提升OSLHGR 算法的性能,本文提出的輕量級U-Net 網絡在手勢目標分割數據集上的交并比為94.53%且計算復雜度和處理速度等性能指標均表現優異.在精確分割手勢目標的基礎上,本文提出的3D 關系深度神經網絡實現了對第一視角下動態手勢的有效分類,取得了94.64%的5-way 1-shot 識別準確率,這為復雜應用環境下便捷式智能人機交互提供了可靠的技術保障.

本文提出的基于深度神經網絡級聯組合實現第一視角下一次性學習手勢識別的算法還可推廣到車載影音控制系統、垃圾分類的體感游戲等智能人機交互場景.此外,針對交互過程中在完成某個動作后手需離開相機感受野這一限制,在后續工作中,我們將針對復雜場景下連續動作的OSLHGR 展開研究,以降低手勢表達的約束條件,實現更加便捷自然的智能人機交互.

猜你喜歡
檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 亚洲V日韩V无码一区二区| 伊人激情综合网| 狠狠色噜噜狠狠狠狠奇米777| 国产精品香蕉在线观看不卡| 色视频国产| 丁香亚洲综合五月天婷婷| 欧美.成人.综合在线| 亚洲综合中文字幕国产精品欧美| 亚洲激情99| 国产91精选在线观看| 国产91特黄特色A级毛片| 国产欧美日韩在线一区| 性视频一区| 色妺妺在线视频喷水| 国产精品无码制服丝袜| 国产色偷丝袜婷婷无码麻豆制服| 激情综合图区| 91色在线观看| 青青青国产视频| 日韩A级毛片一区二区三区| 午夜a视频| 国产成人永久免费视频| 五月婷婷综合在线视频| 色综合热无码热国产| 黄片在线永久| 欧美在线精品怡红院| 91年精品国产福利线观看久久| aaa国产一级毛片| 国产好痛疼轻点好爽的视频| 欧美国产日韩在线观看| 国产成人亚洲毛片| 日本道综合一本久久久88| www.av男人.com| 国产区免费| 丁香五月亚洲综合在线| 国产日韩欧美在线视频免费观看| 老司机精品久久| 国产黄在线免费观看| 日本妇乱子伦视频| 国产精品欧美在线观看| 一本大道香蕉中文日本不卡高清二区 | 欧美在线三级| 1769国产精品免费视频| 天天综合网在线| 欧美专区日韩专区| 亚洲视频影院| 91无码网站| 国产国模一区二区三区四区| 在线亚洲小视频| 思思99热精品在线| 国产精品手机在线观看你懂的| 午夜激情福利视频| 日本不卡在线视频| 欧美三级视频网站| 极品尤物av美乳在线观看| 免费看a毛片| 国内精品视频| 国产免费高清无需播放器| 国产第八页| 亚洲色图狠狠干| 国产精品va| 国产一二视频| 99视频在线免费| 国产午夜不卡| 久久性视频| 国产又爽又黄无遮挡免费观看 | 欧美中出一区二区| 国产理论精品| 日本影院一区| 亚洲国产第一区二区香蕉| 亚洲精品图区| 午夜国产精品视频黄| 国产成人精品一区二区不卡| 2021国产精品自产拍在线| 国产特级毛片aaaaaa| 综合色在线| 亚洲最大情网站在线观看| 亚洲av片在线免费观看| 免费无码网站| 亚洲国产精品美女| 日本尹人综合香蕉在线观看 | 91在线一9|永久视频在线|