999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

軌跡特征融合雙流模型的動態手勢識別

2020-12-25 06:07:56陳姚節郭同歡
計算機技術與發展 2020年12期
關鍵詞:特征

林 玲,陳姚節,3,徐 新,郭同歡

(1.武漢科技大學 計算機科學與技術學院,湖北 武漢 430070;2.智能信息處理與實時工業系統湖北省重點實驗室,湖北 武漢 430070;3.冶金工業過程國家級虛擬仿真實驗教學中心,湖北 武漢 430070)

0 引 言

手勢識別作為一種重要的交互方式,由于更自然,直觀和易于學習的特點,在虛擬仿真、手語識別等領域得到了大量應用。基于視覺的手勢識別主要分為三個階段:手勢分割、特征提取和識別。

手勢分割作為手勢識別的基礎,對后續手勢識別工作有著至關重要的影響。傳統手勢分割利用膚色、輪廓從彩色圖像視頻中分割出手勢,如Bao等[1]提出的利用膚色檢測與背景差分的方法,Rahmat等[2]結合人手膚色與光照的實時手勢分割,Dawod等[3]采用自由形式膚色模型進行的手勢分割。以上方法進行的手勢分割效果較好但易受光照、復雜背景的影響,影響后續的手勢識別工作。

手勢特征的提取是手勢識別更為重要的階段。Asaari等[4]根據提取的手形特征與紋理特征進行手勢識別,由于復雜背景的影響準確率不高,劉富等[5]借助手形輪廓與幾何特征提高了手勢識別的魯棒性,但要求手勢手指分開,不具有普遍性。

現有的手勢識別大多借助模式分類方法對手勢進行識別,如Panwar[6]利用形狀參數的位編碼序列進行手勢分類的方法、楊學文等[7]利用手勢主方向和類Hausdorff距離模板匹配的手勢識別方法等具有一定局限性,魯棒性較低。近年來動作識別方法的迅速發展和許多大型數據集的引入,使得利用深度神經網絡對動態手勢進行有效識別成為可能。Molchanov等[8]引入了一種將歸一化深度和圖像梯度值結合起來的3D-CNN的動態手勢識別方法。而后Molchanov等[9]又提出了一種3D-CNN,融合來自多個傳感器的數據流進行識別。3D-CNN模型在視頻處理問題上相比于2D-CNN更加有效,但是也會存在時間維度上的運動信息的丟失問題。

因此,該文利用Kinect深度信息修復后的深度圖進行手勢精確分割,并由此提取出動態手勢的運動軌跡特征,構建一種通過自適應權值分配將動態手勢的軌跡識別與手勢時空信息識別結合的雙流網絡模型,利用該模型中的兩種網絡對動態手勢的不同特征的識別優勢提高動態手勢識別率,并采用SKIG數據集測試模型識別性能。

1 動態手勢特征提取

實驗發現,當手部位置變化較大時就可以通過運動信息來識別,那么這些動態手勢的識別就可以轉換為對其空間運動軌跡的識別;而當手部位置變化較小時,其軌跡不能明顯區分出各個動態手勢,此時就需要利用動態手勢的手形特征的變化進行動態手勢的識別。因此在進行手勢識別前,需要對動態手勢進行手勢分割和軌跡的提取。

1.1 深度圖修復

由于Kinect傳感器獲取的深度圖像中存在大量噪聲以及深度信息缺失導致的空洞,而動態手勢的識別又依賴于手掌在運動過程中的手部形態與精確位置。因此為避免在進行手勢分割時,因深度圖中的噪聲、空洞引起的分割誤差進而導致后續的識別誤差,筆者首先做了文獻[10]中的工作,對采集的深度圖像進行初步修復。利用待修復像素點周圍時空域的深度數據,對深度圖中存在的噪聲以及空洞點進行修復,保證后續分割工作中能得到完整的手部形態和精確的空間位置。

1.2 手勢分割

手勢分割的目的是將手部區域從復雜背景中分離出來。在基于計算機視覺的手勢識別技術中,復雜背景下的手勢分割非常困難。特別是在單目視覺情況下,這主要是由于背景各種各樣,環境因素也不可預見。

修復后的深度圖像中手部輪廓完整、沒有明顯的噪聲干擾,因此可以利用深度圖中手掌部分的灰度值與深度圖中其他位置的灰度值的差異來提取手部感興趣區域輸入網絡進行訓練,提高動態手勢識別準確性。正常情況下,當人位于Kinect設備的可視區域內做手勢時,手掌部分與Kinect相距最近,灰度值與圖像中其他部分也會有較大差異,如圖1(a)所示。由此可以借助手勢的深度圖像,計算生成灰度直方圖,如圖1(b)所示。灰度圖中橫坐標表示灰度級,縱坐標表示各個灰度值的像素在圖像中出現的次數。

圖1 深度圖像灰度直方圖示例

通過觀察灰度直方圖分析發現,灰度直方圖中第一個波峰對應灰度值即手掌部分對應灰度值。為準確把手掌區域和手臂、手腕部分區分開,將在第一個波峰灰度值左右波動3以內的像素點保留,其他像素點像素置為255。由此就得到了分割后的手勢圖,如圖2所示。

1.3 軌跡提取

利用1.1節分割得到的手勢圖,計算圖中手部質心坐標來代表手在圖像坐標系下的坐標。計算采集的手部質心坐標序列中橫坐標的最大值xmax、最小值xmin和縱坐標的最大值ymax、最小值ymin,給定一個標志flag和由實驗得到的質心坐標波動閾值P=20:

當xmax-xmin

圖2 分割后的手勢圖

當xmax-xmin≥P或ymax-ymin≥P時,flag=true,可以用軌跡對動態手勢進行識別。此時,為保證軌跡特征具有平移和比例不變性,將手勢的運動軌跡,即質心坐標的變化軌跡,整體平移到圖像中心位置,并生成動態手勢軌跡圖。具體過程如下:

(1)計算手勢軌跡所占區域的中心位置坐標(x0,y0)。計算公式如下:

(1)

(2)由于網絡的輸入設置為150×150大小的圖片,故計算x0、y0與75的差值得到對應的軌跡坐標平移距離,即可將軌跡整體平移至圖像中心位置。

(3)繪制軌跡序列散點圖,擬合軌跡曲線,生成動態手勢軌跡圖。

采集8幀深度圖像代表揮手手勢一次來回擺動,經分割后的手勢圖如圖3所示。

圖3 代表揮手手勢一次來回擺動的8幀手勢圖

由整個揮手手勢的手勢圖序列中的手部質心坐標生成軌跡圖的過程如圖4所示。

圖4 揮手手勢軌跡圖生成

2 融合軌跡識別的雙流模型

CNN是一種前饋神經網絡[11],基本結構包括特征提取層和特征映射層。在圖像以及視頻處理方面,CNN有明顯的優勢。相比于靜態手勢,動態手勢還包含了時間維度上的運動信息,因此必須采用3D-CNN同時學習手勢視頻流中的空間特征與時間特征。而一個動態手勢從開始到完成的持續時間大約為2~3秒,3D-CNN并不能將動態手勢視頻中的每一幀都輸入網絡進行學習,只能選取一定數量的圖像幀代表該動態手勢。因此,為防止選取不當導致關鍵幀信息丟失產生的分類錯誤,且鑒于CNN在提取靜態空間結構的優勢,該文采用3D-CNN對動態手勢進行時空信息識別,并采用2D-ResNet融合手勢軌跡信息識別,構建自適應權值分配的雙流網絡模型,實現動態手勢的識別。網絡模型結構如圖5所示。

圖5 融合軌跡識別的雙流模型結構

2.1 時空信息識別

多模態識別系統使用多個數據流進行訓練,并在測試期間對多模態觀測結果進行分類,單模態識別系統僅使用一個模態數據進行訓練和測試[12]。該文采用了第三種類型,使用一個3D-CNN模型接收來自多種模態的數據并融合學習,即利用多模態數據提高單個網絡的測試性能。在動態手勢識別系統中可用的模式流通常是空間上和時間上對齊的。例如,運動采集設備采集的深度圖像和RGB圖像以及光流通常是對齊的,即使數據以不同的模態出現,但它們代表的語義內容是相同的。

該文引用文獻[13]的3DCNN模型框架,構建雙卷積池化網絡。該網絡利用兩個連續的卷積層保留并傳遞每個動態手勢的特征信息,但3D卷積層又是3D-CNN中高時空復雜性的主要來源,因此在3D卷積核上設置L2正則,以避免在神經網絡深度有限的前提下,因卷積層密集提取產生過擬合情況。兩次卷積操作后添加池化層操作,在保持特征不變性的條件下有效減少參數數量。在每層卷積之后,設置標準化層實現數據歸一化操作。在3D卷積之后設計激活函數,激活函數產生非線性操作,進一步增加神經網絡的復雜性。由此,利用Kinect同時獲取彩色數據與深度數據生成圖像,對齊裁剪后再對深度圖進行手勢分割,將分割后的手勢圖序列與彩色圖序列都作為3D-CNN的輸入數據對網絡進行訓練,保證網絡獲得更高識別精度的同時不會帶來參數增加的影響。將待識別的手勢序列輸入訓練好的該網絡即可得到手勢的時空信息識別結果。

2.2 軌跡識別

由于CNN模型結構會對網絡的特征表達能力產生影響,近年來,用于圖像識別的深度網絡如AlexNet、GoogLeNet[14]、VGGNet[15]、ResNet[16]等被相繼提出。卷積核更小化、網絡層更深化成為卷積網絡結構的一大發展趨勢,這種發展趨勢使得圖像的識別精度更高,模型的計算效率更快。在所有深度網絡模型中,殘差網絡(ResNet)因獨特的殘差結構,極大地加速了神經網絡的訓練,模型的準確率有比較大的提升,推廣性也非常好,從而得到了廣泛的應用。它通過直接將輸入信息繞道傳到輸出,保護信息的完整性,整個網絡只需要學習輸入、輸出差別的那一部分,簡化學習目標和難度,一定程度上解決了信息損耗、丟失和梯度消失、梯度爆炸等問題。

引入跳躍連接將目標函數F(x)+x的擬合轉變為殘差函數F(x)的擬合,將輸入與擬合殘差疊加代表網絡輸出,增強了網絡信息流通,降低了數據信息的冗余度。由此,通過訓練經典的ResNet50網絡對動態手勢的軌跡圖進行識別就得到了該手勢軌跡識別的結果。

2.3 融合策略

在經過上述工作后,已經得到了兩種網絡的最優識別結果,但由于ResNet網絡只能對產生軌跡的動態手勢識別分類,對沒有軌跡變化只存在手形變化的動態手勢無法識別;而3D-CNN雖然可能丟失動態手勢時間上的運動信息,但對某些動態手勢仍能通過其時空信息進行有效識別。因此這里不宜采用求平均后取概率最大手勢的方法得到雙流網絡的最終識別結果,應根據每個手勢樣本的具體情況估計出網絡識別結果的置信度,依據該置信度計算權值,因此該文提出一種自適應權值分配策略為其分配權值,再由經典的加權平均模型得到識別的最終結果R。計算公式如式2所示,其中w為給網絡賦予的權值,f為各個網絡的輸出。

R=wsfs+wefe

(2)

3 雙流網絡的自適應權值分配

首先根據1.2中的flag值確定當前動態手勢是否產生軌跡:(1)當flag=false時,無法通過軌跡直接將動態手勢分類,設置ResNet網絡權值為0,3D-CNN的識別結果即為雙流網絡的最終結果;(2)當flag=true時,即兩種網絡都能對動態手勢進行有效識別,此時根據網絡識別結果的置信度為其分配權值,方法如下。

一類動態手勢可以用一組特征的組合來代表,每種特征又單獨形成特征空間,而不同類別的手勢又可能出現相同特征,因此形成了特征重疊的區域。當一個手勢樣本被網絡識別后,識別結果中各個類別的概率相差不大時,認為該手勢樣本處于特征重疊區域;而當識別結果中概率相差較大、較為分散時,認為該手勢樣本屬于非特征重疊區域。這樣,就將樣本空間分成了特征重疊區域和非特征重疊區域兩部分。

(3)

(4)

由高斯參數估計手勢樣本屬于每種手勢類別的后驗概率pj(j=1,2,…,J),將它們組成向量P={pj|j=1,2,…,J},其中J為手勢類別數。這樣,就生成了由后驗概率估計值組成的J維歐氏空間。對每一個特征向量P,都有一個歐氏空間中的點與其對應。當P越接近P1/J={(p1,p2,…,pJ)|pj=1/J,?j}時,手勢樣本位于特征重疊區域的可能性越大,對應識別網絡的權值越小;P越遠離P1/J時,例如當某一pj接近于1,而其他概率接近0時,手勢樣本位于特征重疊區域的可能性越小,對應識別網絡的權值越大。對各個網絡識別結果都利用上述方法計算P與P1/J的歐氏距離dn,融合時就可以根據dn給網絡分配不同的權值,而后加權融合即可得到雙流網絡的識別結果。權值計算公式如下:

wn=dn(P,P1/J)

(5)

4 實驗及結果分析

4.1 數據集

由于加入了ResNet網絡對動態手勢軌跡進行識別,并且將分割后的手勢深度圖處理后與彩色圖兩種模態的數據同時訓練3D卷積網絡,因此該文采用Sheffield Kinect Gesture (SKIG) Dataset[17]RGB-D手勢數據集中的10種動態手勢類型,利用Kinect 2同步獲得彩色數據與深度數據,重新制作數據集。數據采集由6人完成,每人每種手勢執行10次,每種模態各600個動態手勢視頻,并按照8∶1∶1的比例將數據集隨機劃分為訓練集、驗證集、測試集。對除測試集外的深度視頻,按照1.1的手勢分割方法將手掌部分分割出來,然后平均選取8幀圖像代表該動態手勢。再按照1.2中所提方法從分割后的手勢圖序列中計算質心坐標得到軌跡序列并生成軌跡圖。數據集樣例如圖6所示。

圖6 數據集樣例

4.2 數據擴充與訓練

為防止網絡在訓練過程中出現過擬合現象,有必要對數據集進行數據擴充。分別對ResNet網絡和3D-CNN的輸入數據進行擴充。對3D-CNN的輸入數據采用以下兩種數據擴充策略:(1)在同一個手勢視頻的完整幀序列中,選用不同的幀作為采集的第一幀,平均采集8幀圖像代表該手勢;(2)將代表一個手勢的8幀圖像進行相同方向相同角度的旋轉。以上兩種方法擴充后共2 160個手勢。對ResNet網絡的輸入數據即動態手勢軌跡圖進行一定比例的放大與縮小,最終動態手勢軌跡圖包含1 080張。實驗結果表明,利用數據擴充后的數據集對網絡模型進行訓練,增強了網絡的泛化能力,提高了網絡的識別率。

該文基于Keras深度學習開發框架,利用GPU并行加速對兩個網絡單獨進行訓練。數據集中80%作為訓練集,剩余的20%作為驗證集,并且將訓練集隨機打亂。在ResNet網絡中,網絡的輸入為根據動態手勢運動軌跡生成的大小為150×150×3的圖像,調整大小至224×224×3。在3D-CNN中,將采集的代表一個手勢的8幀150×150的圖像序列作為輸入數據,網絡每次迭代分批次處理大小為32,并采用Adam方法對網絡進行優化。訓練周期設為128,每迭代5個批次就對測試集進行一次測試,待網絡訓練至最優時,將2個網絡的識別結果,在決策級以加權融合的方式判定所屬的動態手勢類別。

4.3 實驗結果分析

實驗計算機配置為Intel Core i5,內存32 GB RAM,環境配置Windows10+python3.6.8+Tensor-flow1.8.0+CUDA9.0,訓練使用顯卡NVIDIA GeForce GTX 980Ti,并采用Kinect 2.0設備采集手勢數據。實驗分為兩部分:

(1)用測試集中60組動態手勢單獨測試訓練好的兩個網絡的識別效果。其中,ResNet網絡對除Come here、Turn around、Pat以外的7種動態手勢識別進行測試,結果如表1所示;3D-CNN對數據集中的10種動態手勢識別結果如表2所示。

表1 ResNet網絡識別結果

表2 3D-CNN識別結果

由表1可以看出,Resnet50因其強大的學習能力使得在文中自制的軌跡圖像數據集上的平均識別率達到了97.38%。其中,當Right-left手勢執行不規范時,軌跡與Wave手勢有一定的相似性,正確率略微低于其他手勢。同時,3D-CNN對數據集中10種動態手勢的平均識別率也達到了96.67%。其中,Circle、Triangle兩種手勢因手型一致,在只提取8幀代表該動態手勢的情況下存在誤識別,故正確率低于其他手勢。

(2)對由兩種網絡構成的雙流網絡模型進行測試,并將文中方法與近幾年相關方法在SKIG數據集上的識別準確率與平均消耗時間進行對比,如表3所示。

表3 不同方法在SKIG上的準確率對比

由表3可以看出,文中方法不僅在SKIG數據集上的識別率達到99.52%,相比于現有識別率最高的方法提升了0.45%,也能較快地識別出動態手勢。

5 結束語

為避免由于單個3D卷積網絡特征提取不充分而導致的誤分類,且鑒于CNN在提取靜態空間結構的優勢,引入ResNet網絡從合成的軌跡圖像中提取動態手勢運動信息,與二模態訓練的3D卷積網絡構成一種更加復雜的雙流網絡結構來提高動態手勢識別的準確性與魯棒性。實驗結果表明,與現有的在SKIG數據集上的方法相比,該方法的識別率更高、魯棒性更強。雖然提出的雙流網絡提升了一定的識別率,但識別速度仍需要進一步提高。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 97青青青国产在线播放| 素人激情视频福利| 国产精品无码制服丝袜| www.99在线观看| 国产人人干| 国内精品小视频在线| 国产高清自拍视频| 丁香综合在线| 国产精品对白刺激| 久久综合结合久久狠狠狠97色| 日本精品影院| 国产在线观看一区精品| 国产三级成人| 亚洲欧美成人在线视频| 日韩大乳视频中文字幕| 香蕉久久国产超碰青草| 亚洲精品国产日韩无码AV永久免费网 | 精品人妻一区二区三区蜜桃AⅤ| 亚洲男女天堂| 亚洲视频三级| 亚洲精品高清视频| 欧美午夜理伦三级在线观看| 成人国产免费| 国产精品尤物在线| 天堂av综合网| 国产熟睡乱子伦视频网站| 国产一级一级毛片永久| 亚洲美女高潮久久久久久久| 国产91精品调教在线播放| 国产一级视频在线观看网站| 中文字幕免费视频| 综合色婷婷| 日韩欧美色综合| 97综合久久| 亚洲第一在线播放| 色偷偷av男人的天堂不卡| 在线国产91| 国产在线91在线电影| 亚洲中文字幕无码爆乳| 久久77777| 亚洲黄网视频| 国产真实乱子伦视频播放| 沈阳少妇高潮在线| 国产原创自拍不卡第一页| 色综合天天操| 97在线观看视频免费| 亚洲av综合网| 亚洲V日韩V无码一区二区 | 国产精品99久久久久久董美香| 久久亚洲国产视频| 成人国产免费| 色婷婷成人| 九九热精品视频在线| 欧美激情伊人| 日韩欧美91| 欧美啪啪视频免码| 国产国产人成免费视频77777| 毛片一区二区在线看| 久久这里只有精品66| 色香蕉影院| 国产欧美网站| 亚洲国产清纯| 久久96热在精品国产高清| 激情午夜婷婷| 9966国产精品视频| 国产va欧美va在线观看| 亚洲乱码精品久久久久..| 欧美 亚洲 日韩 国产| 欧洲一区二区三区无码| 99这里只有精品在线| 国产精品性| 成人在线观看不卡| 国产永久在线观看| 国产jizzjizz视频| 国产精品自在线拍国产电影| 国产超碰在线观看| 米奇精品一区二区三区| 国内精品久久人妻无码大片高| 91人妻日韩人妻无码专区精品| 午夜国产大片免费观看| 自拍中文字幕| 人妻中文字幕无码久久一区|