999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于手勢特征融合的操作動作識別

2021-07-28 12:36:54周小靜陳俊洪楊振國劉文印
計算機工程與應用 2021年14期
關鍵詞:分類動作特征

周小靜,陳俊洪,楊振國,劉文印

廣東工業大學 計算機學院,廣州510006

隨著計算機技術的不斷發展與深入研究,操作行為的理解作為建立任意動作機制的基礎激發了廣大科研工作者的研發興趣,在智能家居、智能監控、人機交互等多種應用方面具備廣闊的應用前景,使得人類行為識別成為了一個很活躍的研究領域,并成為計算機領域中的前沿方向之一。

當前針對多種應用,如視頻監控、視頻搜索與人機交互等,有相當多的研究者對人體動作的識別進行了研究。文獻[1]提出了一種基于部位密集軌跡的行為識別算法,通過人體姿態估計模塊檢測人體并定位后,對人體進行密集點采樣,使用部位關鍵點軌跡來提升識別精度。文獻[2]提出了一種新穎的時空融合網絡(STFN),對整個視頻的外觀與運動信息的時間動態進行整合,然后聚合捕獲的時間動態信息,從而獲取更好的視頻級動作表示。文獻[3]提出一種基于低分辨率紅外陣列傳感器并使用VGGNet進行分類識別的方法,能夠有效地識別出人的身份與動作。但是上述這些工作更多的是針對人類全身動作的識別,在處理更為精細的操作動作時可靠性較低,尤其是針對家庭或工作環境中手部的操作動作。手部操作動作對于學習人類行為的重要性不容小覷,從視覺感知中自動理解手部操作動作的能力在機器人領域具備多種潛在的應用,對日常任務中手部的抓取行為的研究可以為機器人手部設計與開發工作提供手部功能的重要信息[4-6]。通過對操作任務中不同組件,如手部、物體、動作等之間的關系進行研究,可以模擬抽象人類行為并將操縱功能轉移至機器人來執行任務,能有效促進機器人的動作學習[7-8]。手部操作動作與抓取方式具有較強的關聯性,手部抓取中包含了人類行為的細粒度信息,對詳細地分析人類手部操作動作至關重要,除此之外,還有助于對人類的行動意圖進行預測。Yang 等人[9]提出抓取類型是表征人類操作行為必不可少的一部分,人類在執行操作任務時手部對物體執行的特定的動作與此時手部的抓取方式具備相關性。文獻[10]指出抓取方式包含了有關動作本身的信息,并且可以將其用于預測或作為識別動作的功能。

為了更好地識別手部操作動作,本文提出了一個基于手勢特征融合的操作動作識別框架,該框架主要包含三個模塊,分別為RGB視頻特征提取網絡、手勢特征提取網絡和動作分類器。其中第一個模塊主要利用I3D網絡對動作進行初步檢測與識別,結果作為動作特征;第二個模塊利用Mask R-CNN 網絡檢測識別手部抓取類型并將結果作為手勢特征;最后一個模塊用于融合動作特征與手勢特征,并使用SVM 分類器對動作進行識別分類。與其他動作識別方法相比,本文所提出的框架無論是性能還是識別效果均取得了最好的結果,證明了手勢特征在動作識別中的可行性與有效性。

1 相關研究

近年來,人類動作的識別與理解是人們在計算機視覺領域的一個研究熱點,根據使用的特征信息的差異動作識別方法大致可以劃分為三個類別。第一類是基于深度圖像與骨骼數據對人體動作進行識別[11-13],這些方法都是使用基于深度圖像模態信息的時空興趣點特征或人體關節點位置特征對動作建模,能夠較為準確地識別出人體動作,但這類方法僅適用于動作數據集相對較小的特定動作類別的識別問題,在實際的日常操作中應用的可能性較小且可用數據集較少。第二類方法的研究內容更多地集中于以運動與姿態變化(如走路、奔跑)為特征的全身運動,這類方法中的絕大多數通常是通過視頻序列來分析人類的動作姿態[14-15]。第三類方法為使用人體運動軌跡來進行動作識別[16-18],由于使用到了人體姿態信息來助于識別,人們通常認為這種方法更為可靠,但是在日常實際操作中,人類與物體進行交互時會產生遮擋,這種方法很容易識別失敗。目前動作識別的研究內容更多地集中于從人體全身來識別分類動作,仍然缺乏表現執行細微操作動作的能力。

手勢的識別更接近于物體操作動作識別的問題,目前的手勢識別方法根據訓練數據的不同大致可以劃分為三類。第一種方法是使用傳感器對手勢信息進行感知與識別[19-20],通常這種方式具備較高的識別率并能夠對復雜動態的手勢具備較好的可識別性,但這種識別方式成本較高,訓練數據珍貴。第二種方式為使用RGB-D圖像數據訓練學習手勢識別模型[21-22],通常使用Kinect等深度攝像機采集到的視覺信息,從手形、軌跡、點云等特征識別手勢,這類識別方法的計算復雜度較高,難度較大。第三種方式為基于RGB圖像的二維特征來識別分類手勢[23-24],由于訓練數據采集簡單,研究者們更傾向于使用這種方式來研究手勢識別問題。上述這些方法的目的通常是為了識別出手語手勢,如揮手、握拳等,而不是人類的手部與物體交互時的姿態(即抓取方式)。為了解決這個問題,更好地理解人類對手部的使用,許多學者對抓取已經進行了數十年的研究[8,25-26],還提出了抓取分類的方法來促進對手部抓取的分析[27-29]。Cai 等人[30]于2015年首次提出了一種基于外觀的方法,能夠在現實場景中使用可穿戴式相機識別出操作任務中的抓取類型。

目前,僅有少量的研究者使用抓取信息來進行動作識別工作[9,31-32]。Yang等人[32]基于語義,使用抓取信息將人類動作意圖劃分為三個粗略的抽象類別,然后使用卷積神經網絡識別出抓取類型從而理解推斷動作類別,但這種動作模型相對較為簡單,僅需要學習三個類別,無法在更精細的級別上對操作動作進行識別分類,導致識別日常操作動作并將處理復雜任務能力傳遞給機器人操作的可行性降低。為了解決該缺陷,本文提出手勢特征與細粒度動作特征相融合后識別操作動作,有效地提升了日常操作動作的識別精度。

2 本文方法

圖1 是本文提出的方法框架。將整個模型劃分為手勢特征提取模塊、RGB 視頻特征提取模塊與動作分類模塊三個部分。手勢特征提取模塊用于檢測識別出當前執行的細粒度動作所對應的手部抓取類型并將結果作為手勢特征;RGB 視頻特征提取模塊用于初步檢測識別視頻中細粒度動作并將結果作為動作特征;最后在動作分類模塊將動作特征與操作手勢特征相融合后輸入分類器推斷預測操作動作類別。

圖1 基于手勢特征融合的操作動作識別框架

2.1 抓取方式識別

抓取方式對于理解手部的操作非常重要,因為它決定了操作過程中手部如何抓取物體以及表征了要實現的動作功能。已經有大量的工作將抓取的分類劃分為離散類型[27,33],以便于對抓取的研究。根據Feix 等人[27]提出的廣泛使用的抓取分類,選擇了6種常用抓取類型,這些抓取類型的日常使用頻率都很高,并且能基本涵蓋不同的抓取分類標準。這些抓取類型不但能夠用于分析大量的操作任務,還能夠從圖像外觀中自動地識別。

手部抓取類型識別的輸入是從視頻中分割出的RGB 圖像片段序列。首先將圖像統一裁剪為224×224的尺寸,然后使用Mask R-CNN網絡[34]對圖像中演示者的手部進行檢測分割。Mask R-CNN為兩階段程序,第一階段使用區域提議網絡(RPN)對候選對象生成邊界框,在第二階段,網絡對對象進行分類并輸出標簽、置信度、蒙版與邊界框。由于該網絡較為成熟且需要識別的對象單一,采用了網絡的默認配置。作為識別輸出,獲得抓取類型的置信分布(或給定圖像證據表示為P(G|I)的抓取類型的后驗概率)以及具備最高概率得分的預測抓取類型。抓取類型的識別可提供有關在操作過程中手部如何抓取操作物體的信息,在動作分類部分將作為手勢特征。

2.2 操作動作識別

動作所實現的功能是影響人類手部抓取方式選擇的重要因素[35],因此可以從抓取類型來推斷動作。假設抓取類型可以提供用于描述操作動作的補充信息,所以在這項工作中,在識別分類操作動作時,除了使用分類網絡從動作的視覺圖像信息中進行視覺特征的提取與識別分類,還對手部抓取的語義特征進行了應用。

將抓取類型的語義信息用作訓練動作分類器的中間特征,對操作動作的識別分類進行補充,提出了如圖1所示的語義動作模型,該模型建立在抓取類型的語義信息與動作的視覺特征信息的基礎上,獲取到二者的置信分布后,為每個動作學習線性映射函數,該函數使用抓取類型與初步識別的動作來進一步識別分類當前動作,表示為公式(1):

PA=f(P(a|I),P(G|I)|θ) (1)

其中,PA為操作動作的概率估計,P(G|I)為給定圖像下手部抓取類型的置信分布,P(a|I)為根據給定圖像中視覺特征所得的動作的置信分布,θ則為衡量每個動作與抓取類型之間關系的一組參數。

在根據圖像中視覺特征進行動作初步識別時,由于動作是在時間與空間兩個維度上進行變化的序列,考慮從時序與空間信息中共同提取動作特征,從而有效地提高動作識別的準確性。主要采用了I3D 雙流網絡(Two-Stream Inflated 3D ConvNets)[36]對動作進行視覺特征的提取與分類。

與傳統的雙流卷積網絡類似,分別對RGB 數據與光流信息進行分開訓練,在測試時將它們的預測結果進行平均。3D 卷積網絡能高精度獲取動作的空間特征,還能學習RGB 流的時間模式,通過可見光流信息還能大大提高它們的性能。I3D網絡是基于Inception-V1架構進行了擴展所得,該網絡中的2D 卷積核與池化均增加了一個時間維度,由原本的N×N擴展為N×N×N,具體實現方式為沿著時間維度將2D濾波器權重重復N次,并通過除以N進行歸一化,該模型通過將ImageNet上的二維圖像重復疊加為一個連續的視頻實現了從預先訓練好的ImageNet模型來學習3D卷積核的參數。

網絡結構細節為第一個卷積層步長為(2,2,2),卷積核大小為7×7×7,并連接到BN(Batch Normalization,批處理歸一化)層,與一個步長為(1,2,2),大小為1×3×3的最大池化層;第二個卷積層步長為(1,1,1),卷積核大小為1×1×1,并連接到BN 層;第三個卷積層步長為(1,1,1),卷積核大小為3×3×3,并連接到BN層,與一個步長為(1,2,2),大小為1×3×3的最大池化層;接下來為兩個連續的Mixed層(結構如圖2所示),連接到BN層,與一個步長為(2,2,2),大小為3×3×3的最大池化層;經過5個連續的Mixed層,連接到BN層與一個步長為(2,2,2),大小為2×2×2的最大池化層;經過兩個Mixed層,連接到BN層與一個步長為(1,1,1),大小為2×7×7的平均池化層;最后為一個步長為(1,1,1),卷積核大小為1×1×1的卷積層。整個網絡模型中,除了最后一個生成每一類別分數的卷積層,其他卷積層后均使用一個ReLU激活函數。

圖2 I3D網絡中Mixed層結構圖

I3D 模型在TensorFlow 中實現,訓練過程中,將原始視頻幀尺寸修改為256×256,然后隨機裁剪為尺寸224×224的圖像后,分別對RGB流圖像與光流圖像進行訓練,每個流都使用了softmax分類損失。在訓練期間,使用動量值為0.9的同步SGD作為優化器,dropout設置為0.5,應用最小批量大小為6的Batch Norm,使用的權重衰減值為1E-7,對RGB 流與光流分別以115 000 和155 000 步進行訓練,初始學習速率為1E-1,當驗證損失達到飽和時,學習速率降低10倍。

進一步來說,對于每個訓練圖像,視覺識別層被用于提取手部的語義信息與動作視覺特征,結果表示為一個22 維特征向量,其中12 維由左右兩手的抓取置信度分布組成,剩下的10 維則由初步識別的動作的置信分布組成,基于獲取的22 維特征向量,針對不同的動作,使用線性SVM 對融合特征進行分類,最終獲得操作動作類別。

3 實驗

在該章主要了介紹數據集的細節與實驗設置,然后進行了三組實驗來驗證所提出的方法的不同組成部分:(1)抓取類型識別;(2)動作的初步識別;(3)抓取類型對動作識別分類的改善。

3.1 EPIC-Kitchens數據集

烹飪是一項復雜而多樣的活動,它可以很好地揭示機器人的靈活性并有效地驗證本文的框架性能。對從不受修飾的真實環境中收集的大型公開烹飪視頻數據集進行了實驗,該數據集稱為EPIC Kitchens,為最大的第一人稱視角數據集[37]。EPIC-Kitchens記錄了來自4個城市的32 位參與者使用頭戴式相機所捕獲的在廚房的一些日常活動,記錄的視頻總時長達55 h,共包含11 500 000 幀圖像,數據集作者對數據集進行了密集標記,以表示39 594個動作片段。每一個動作片段都有一個具備時間間隔的復合標簽,標簽內容包括活動描述、活動的開始時間與結束時間、細粒度的動作與所操作的一組物體。

本文實驗設置的一些細節如下:(1)選擇了如圖3所示的最常用的6 種手勢與表1 所示的10 種常用烹飪動作來表示抓取方式與動作;(2)一共選取了26 711 個動作片段作為本文的數據集,其中隨機選取了24 040個(90%)動作片段作為訓練集來訓練動作識別網絡I3D,剩余的2 671 個(10%)片段作為測試集,用于評估本文的框架性能;(3)從訓練集中隨機選取了3 000 幀圖像并對其標注手部輪廓與用于訓練Mask R-CNN 的抓取類型。

表1 EPIC-Kitchens中10種常用烹飪動作

圖3 選定的6種常用抓取手勢

3.2 抓取方式識別性能

為了從EPIC-Kitchens 中識別手部抓取類型,對數據集中隨機選取的3 000 張圖像進行了抓取類型標注,用來訓練抓取分類器。在本文方法中,采用了Mask R-CNN作為抓取識別分類器,在訓練時將epochs 設置為100。在對抓取類型進行分類時,為了證明所提議的Mask RCNN方法的有效性,使用了一些常用的經典分類方法,如支持向量機(SVM)、隨機森林(Random Forest)、決策樹(Decision Tree)來進行了比較。表2總結了應用不同方法時抓取類型的分類性能,根據該表格內容,可以觀察到所提出的方法在抓取分類上取得了最好的性能,識別抓取類型的準確性達到了89.63%的性能。

表2 不同方法的抓取類型分類結果

3.3 操作動作識別性能

在本節中,主要展示了基于視覺特征的動作識別模型的性能與基于抓取類型的語義信息對操作動作理解的有效性。采用EPIC-Kitchens中原始動作標簽的動詞部分作為本工作中的動作標簽,例如,圖4 所顯示的一些視頻幀,盡管場景人物都不相同,但由于主要專注于需要雙手協調的運動,不論是“切芝士”還是“切番茄”被認為是相同的動作,因此這些視頻幀均表示動作“切”。

圖4 EPIC-Kitchens數據集中的一些視頻幀

在對手部動作進行初步識別時,為了驗證所采用的動作識別網絡的有效性,除了本文所介紹的動作識別網絡,還采用了另外三種常用的與一種較新的動作識別模型來進行評估與比較,結果如表3 所示,在沒有應用抓取類型信息對動作進行識別時,與其他的動作識別模型CNN3D[38]、LSTM[39]、Two-stream[40]、GFA(Gated Feature Aggregator)[41]與TSN(Temporal Segment Network,時序分割網絡)[37]相比,所采用的I3D模型,在回調值以及F1 分數均取得了最高分數,整體來看模型達到了最好的性能。在實驗過程中,CNN3D 與LSTM 這兩種模型僅僅是從RGB信息中直接提取空間特征與時序特征來識別分類動作,并且無法從光流數據中提取出時序特征,在很多情況下無法捕捉到手部的一些較為精細的動作。雖然Two-stream 方法較好地利用了視頻的光流數據,能夠分別從空間特征與時序特征兩個方面對動作進行預測并取平均,但該方法中的兩個網絡均采用2D CNN,在學習的過程中丟失了較多的時序信息,對于運動線索如何隨時間的演變不能很好地體現,TSN是基于Two-stream 的改進,提升了長范圍時間結構建模的能力,這兩種方法對時間維度的利用非常有限(空間網絡僅使用動作中的一幀RGB 圖像,而時序網絡采用10 幀光流圖像)。GFA模型主要是應用視頻中動作特征與物體特征的融合來識別分類操作動作,給網絡模型提供了補充性信息,有效提升了識別效果,但由于場景遮擋,物體的特征提取難度較大。所采用的I3D模型,分別使用兩個3D CNN對RGB數據與光流數據中的空間特征與時序特征進行有效提取,盡可能地利用到數據流中的動作特征信息,這個方法要優于其他的方法,并取得了最好的結果。

為了驗證所提出的方法,即基于抓取方式理解操作行為的模型的有效性,在基于已知I3D網絡的優越表現的條件下,比較了在應用I3D網絡對動作初步識別后是否應用抓取類型(GT,Grasp type)對動作識別性能的影響,結果如表3 最后一項所示。根據實驗結果,應用抓取類型(GT)信息可以有效提升動作識別分類的性能,大約提升了7%的分類準確度,證實了本文方法的可行性。

4 結束語

提出了基于手勢特征融合的操作動作識別方法,有效提升了操作動作的識別精度。從圖像中檢測識別抓取類型,并初步識別當前手部動作,在此之后,探索抓取與動作之間的語義關系,從而促進對動作的認識,提升動作的識別分類準確性。

通過實驗驗證了本文的想法:(1)抓取類型識別的平均準確度達到了89.63%。(2)使用視覺信息對動作進行初步識別時,準確度達到了67.51%。(3)使用手勢類型語義信息后,動作識別分類的準確性達到了74.67%,大約提升了7%的準確率。實驗結果證明了本文的假設,即抓取類型可以提供用于描述操作動作的補充信息。研究抓取類型與動作之間的關系的工作可以指出一個從視覺理解手部操作行為的重要方向。

在未來工作中,希望將當前動作下手部所操縱的物體也納入手部操作行為理解的研究范圍,考慮共同使用抓取信息與物體信息作為描述操作行為的補充信息,探究三者間的關系,達到更好地理解場景中操作的行為與目的。

猜你喜歡
分類動作特征
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
動作描寫要具體
教你一招:數的分類
抓住特征巧觀察
畫動作
動作描寫不可少
主站蜘蛛池模板: 国产高清免费午夜在线视频| 日本一区二区三区精品AⅤ| 日韩欧美中文| 国内精品一区二区在线观看| 国产精品尤物铁牛tv| 国产一区二区三区夜色| 在线欧美日韩| 免费看av在线网站网址| 国产成人综合久久精品下载| 手机看片1024久久精品你懂的| 欧美中文字幕无线码视频| 亚洲AV无码一二区三区在线播放| 中文字幕人成人乱码亚洲电影| 日韩人妻少妇一区二区| 国产女人在线| 在线免费观看AV| 久久成人国产精品免费软件| 免费观看男人免费桶女人视频| 亚洲最猛黑人xxxx黑人猛交| 40岁成熟女人牲交片免费| 国产精品第| 无码精油按摩潮喷在线播放| 这里只有精品免费视频| 国产精品久久自在自线观看| 婷婷99视频精品全部在线观看| 伊人久久婷婷五月综合97色| 99热在线只有精品| 日韩国产一区二区三区无码| 97视频在线观看免费视频| 日本高清免费不卡视频| 久草视频精品| 亚洲欧美国产视频| 日本黄色不卡视频| 亚洲欧美一级一级a| 免费在线观看av| 精品视频一区二区三区在线播| 色AV色 综合网站| 视频二区国产精品职场同事| 久草热视频在线| 国产精品2| 久久成人免费| 欧美人与性动交a欧美精品| 国内精品视频在线| 深夜福利视频一区二区| 亚洲一区二区三区麻豆| 久久亚洲国产视频| 米奇精品一区二区三区| 欧美另类精品一区二区三区| 欧美精品v欧洲精品| 22sihu国产精品视频影视资讯| 国产97公开成人免费视频| 国产精品流白浆在线观看| 欧美日韩北条麻妃一区二区| 国产乱视频网站| 久久精品无码一区二区国产区| 亚洲中文字幕23页在线| 日本道中文字幕久久一区| 制服丝袜一区二区三区在线| 一级成人a毛片免费播放| 国产精品自在拍首页视频8| 亚洲精品少妇熟女| 无码一区二区三区视频在线播放| 免费jizz在线播放| 国产浮力第一页永久地址| 中国特黄美女一级视频| 热这里只有精品国产热门精品| 欧美日韩成人在线观看| 国产乱子伦手机在线| 国产日本一区二区三区| 久热99这里只有精品视频6| 婷婷激情五月网| 国产成人无码Av在线播放无广告| 亚洲最大情网站在线观看| 色亚洲成人| 国产精品成人啪精品视频| 一级全黄毛片| 一级毛片免费的| 超清无码一区二区三区| 无码高潮喷水专区久久| 亚洲国产中文欧美在线人成大黄瓜| 蜜臀av性久久久久蜜臀aⅴ麻豆| h网站在线播放|