999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進的Mask R-CNN的手勢分割與識別方法

2022-11-07 10:49:18張繼凱呂曉琪王月明
計算機應用與軟件 2022年10期
關鍵詞:特征區域檢測

張繼凱 張 然 趙 君 呂曉琪 王月明

1(內蒙古科技大學 內蒙古 包頭 014010) 2(內蒙古工業大學 內蒙古 呼和浩特 010051)

0 引 言

手勢是人與人之間一種直觀、簡便的交互形式,隨著人工智能與計算機視覺的快速發展,手勢識別[1]也從過去需要借助各種外界輔助設備到了基于計算機視覺的研究階段。目前,基于計算機視覺的手勢識別方法已經發展為近年來人機交互[2]、虛實交互[3]等領域研究熱點之一。而用于虛實交互的手勢識別過程主要分為手勢檢測與分割、特征提取、語義識別這三個階段。

手勢分割是手勢識別的基礎,也是手勢識別的關鍵,手勢分割的結果直接決定最終的手勢識別的效果。目前主要的手勢分割方法分為基于深度信息的手勢分割[4]、利用手的表觀特征和幾何特征完成分割[5]這兩類。Lin等[6]提出了一種基于動態手部分割的多特征手勢識別,該方法利用膚色、灰度、深度和運動線索進行手勢識別,并且可以解決手臉遮擋的問題。龔申健等[7]提出基于改進的Canny算子的靜態手勢分割方法,對傳統的Canny算子進行改進,采用組合濾波和自適應閾值算法來提取交互式手部輪廓,在簡單的靜態手勢分割中具有較高的精度,但僅適用于靜態圖像。張美玉等[8]針對手勢分割易受到復雜背景干擾的問題,提出了一種面向移動端的快速手勢分割優化方法,結合場景變化率對背景模型的更新速率進行自適應控制,通過提取膚色區域和局部區域定位,實現手部分割,但該算法在動態視頻中的分割效果不佳。

手勢的特征提取是實現手勢識別的重要步驟。Li等[9]提出了一種稀疏驅動的多普勒分析方法,利用正交匹配追蹤算法提取動態手勢的微多普勒特征,用于雷達傳感器的動態手勢識別,但其只使用了手勢動作中多普勒變化信息,缺少對手勢運動過程中的角度變化分析。Junior等[10]提出應用Otsu濾波器和中值侵蝕形態濾波器對圖像進行預處理操作,然后使用Douglas-Peucker算法和Sklansky算法對圖像特征進行提取,最后通過DTW和HMM對不完整手勢進行分類,雖然該方法實現了更高的分類率,但過程復雜且耗時。劉小建等[11]利用Kinect得到手勢的深度信息實現特征提取,但是該方法對某些手勢的特征不能完全獲取,因此具有使用范圍局限性。Lalit等[12]采用基于深度傳感器的數據采集,利用PCSS特征和EPS特征完成手勢特征快速有效的提取,在22種手勢數據集上獲得了高達94%的識別準確率。

手勢識別包括靜態的手勢識別與動態的手勢識別,但是動態的手勢識別過程最終也將變為對靜態手勢的識別。當前手勢識別的流程主要為對手勢模型進行分析、提取手勢參數,然后采集手勢樣本預處理,對圖像中的手勢分割和特征提取,利用數量巨大的手勢樣本對手勢模型進行訓練,最后利用訓練好的手勢模型對手勢識別分類。為了解決當前手勢識別方法受平移、旋轉等影響導致識別率低的問題,楊學文等[13]提出一種結合手勢主方向和類-Hausdorff距離模板匹配的手勢識別方法,具有很好的魯棒性,算法簡單易行,但是該方法對實驗光照環境要求嚴格,并且對于獲取的手勢主方向和庫里相近手勢的主方向不一致時,易出現錯誤識別。Li等[14]針對手勢識別中容易陷入局部最小點和反向傳播神經網絡收斂速度慢的缺陷,提出了一種基于混沌遺傳算法改進BP神經網絡的手勢識別方法,提高了識別的實時性和準確性,但是訓練速度慢。Wu[15]提出了一種基于雙通道卷積神經網絡的識別算法,適應簡單、復雜、明亮和黑暗的背景,具有很強的泛化能力,但是用于手勢識別的神經網絡模型需要大量帶標簽的圖像數據訓練。王勇等[16]提出基于調頻連續波雷達多維參數的卷積神經網絡手勢識別方法,提高了手勢識別中手勢描述的信息量,并且手勢識別的準確率比單參數方法的識別率高。吳曉鳳等[17]通過改進Faster R-CNN框架,提出擾動交疊率算法,該方法能夠同時實現手勢的檢測與識別,比傳統算法具有更強的魯棒性和更高的精度。Huang等[18]提出Mask Scoring R-CNN,在Mask R-CNN中Mask Head的基礎上加了一個分支,將Mask R-CNN的掩碼分數與預測掩碼及其真實標簽掩碼之間的實際IoU進行比較,從而對掩碼的質量評分,不僅目標分類的準確率提升了1.5%,而且掩碼生成質量也有了明顯的改善。

為了解決目前手勢識別識別率較低、分割不精細等問題,本文設計了基于改進的Mask R-CNN[19]的手勢分割與識別方法,對該算法中的特征金字塔網絡、候選窗口分類器及分割掩碼等部分優化,并使用自制數據集對模型訓練,實現手勢的檢測與識別。實驗結果表明,與傳統算法相比,本文算法具有更高的識別率和更精細的分割掩碼。

1 Mask R-CNN算法

2017年,He等[19]在現有目標檢測模型Faster R-CNN[20]的基礎上,提出了一種新的可以對物體完成實例分割的目標檢測模型Mask R-CNN。Mask R-CNN在Faster R-CNN的基礎上,由原來只能進行檢測與分類任務到實現檢測、分類、分割三個任務同步完成。Mask R-CNN在COCO數據集挑戰中,對象檢測、目標分割和人體關鍵點檢測任務都取得最佳成績,有著世界領先的水準,并且對每一個目標實例都能生成高質量的分割掩碼,實現實例分割。Mask R-CNN可以完成對人、交通工具、動物、生活物品等目標的檢測、識別與分割。

Mask R-CNN算法大致可以分為兩個階段,第一個階段為區域建議網絡(Region Proposal Network,RPN)對圖像掃描,提取可能包含目標的候選區域,生成提議;第二個階段實質上是對Faster R-CNN的改進,通過使用RoIAlign對RoIs(Regions of Interest)提取特征,進行分類和邊框回歸的精調, 并在Faster R-CNN的基礎上加入一個全連接的分割子網絡,對預測目標實現實例掩碼分割。圖1所示為Mask R-CNN算法的整體框架。

Mask R-CNN算法的訓練步驟如下:

Step1對圖像數據進行預處理操作,對圖像進行標注,生成數據集。

Step2將處理后的圖像輸入預訓練的神經網絡,獲取對應的特征圖,并對其中的每一點預設定興趣區域個數。

Step3訓練RPN,進行前后景分類與邊界框回歸,過濾部分候選興趣區域。

Step4對剩下的興趣區域進行RoIAlign操作,完成分類、邊界框回歸、掩膜生成。

Step5迭代執行Step 2-Step 4,直至訓練結束。

Mask R-CNN使用標準的卷積神經網絡ResNet50/101作為主干網絡用于特征提取器,底層檢測的是比較低級特征(如邊緣、顏色等),較高層檢測的是高級的特征(如人、動物等)。而特征金字塔網絡則是對主干網絡的擴展,實現在多個尺度上更好地獲取目標特征,與相鄰每一級的特征都可以和高級、低級特征相互融合。

區域建議網絡是用于生成候選區域,通過滑動窗口掃描圖像,尋找存在目標的區域。在不同尺寸和長寬比的圖像中,圖像上會生成將近20萬個錨框,錨框之間互相重疊以盡可能覆蓋圖像。RPN快速掃描主干特征圖,也就是之前生成的錨框,而不是直接掃描圖像,使得RPN可以有效地提取特征,并避免重復計算。使用RPN預測,可以快速選出最好的包含目標的錨框,并對其位置和尺寸進行精調。該方法取代了Fast R-CNN中的選擇性搜索,減少了計算冗余,提高了運行速度。而后RoI池化層根據RPN的輸出對候選框提取特征,全連接層對候選框進行分類和目標邊框回歸精調。

RoIAlign是將Faster R-CNN中的興趣區域的池化過程進行改進,應用雙線性插值解決興趣區域池化過程中的區域不匹配的問題。RoIPooling是對每個興趣區域提取一個小特征映射圖的標準操作,然后依據候選區域的位置坐標在特征映射圖中將對應區域池化為固定尺寸的特征映射圖,從而方便執行之后的分類與邊界框回歸的操作。由于RoIPooling這一操作過程存在兩次量化過程(第一次是浮點數表示的候選框邊界量化為整數坐標值,第二次是將量化后的邊界區域分塊),造成區域不匹配問題,可能不會影響分類,但對精確預測像素級的掩碼有很大的影響。為了解決RoIPooling區域不匹配的問題,提出了RoIAlign這一改進方法。首先對每個候選區域進行遍歷,而不是對浮點數邊界執行量化操作,然后將候選區域劃分為k×k個單元,各單元邊界之間同樣不執行量化操作,最后在各單元中選取4個常規的位置,取消RoIPooling的量化操作,使用雙線性內插方法對這四個位置坐標進行精確計算,對結果執行池化操作。

掩碼是Mask R-CNN在Faster R-CNN的基礎上增加的一個分支,對輸入對象的空間布局進行編碼。掩碼分支是一個全卷積網絡,采用全卷積網絡從每個興趣區域預測一個分辨率為m×m像素的掩膜。這允許掩碼分支中的每一層都保持顯式的m×m對象空間布局,而不會將其縮成缺少空間維度的向量表示,對檢測目標實現實例掩碼分割。

2 手勢分割與識別

相對于形態樣式較為固定的識別對象,本文的識別對象——自然手勢——姿態繁多,在虛實交互領域,手勢邊緣檢測精度直接影響到最終的視覺效果,因此需要較高的分割精度。雖然Mask R-CNN對于目標檢測有很好的性能,但是在目標實例分割的精度不是很理想,導致最終的識別效果不佳。本文使用基于多尺度融合的特征金字塔網絡、候選窗口分類器和分割掩碼對Mask R-CNN算法進行優化,使其能夠在測試時具有高準確率和更精細的分割精度。

2.1 基于多尺度特征融合的FPN

Mask R-CNN的主干網絡是標準的卷積神經網絡(ResNet50/101),而特征金字塔網絡(Feature Pyramid Network,FPN)是作為主干網絡的擴展。FPN通過添加第二個金字塔提升金字塔的性能,第二個金字塔可以從第一個金字塔高級特征傳遞到底層上。

特征金字塔網絡將低分辨率的弱語義特征通過自頂向下的路徑和橫向連接相結合,對特征進行增強,使其具有高分辨率的強語義特征,在所有級別都有豐富的語義,能夠在多個尺度上更好地表示特征。但是由于FPN只采用自頂向下的路徑,每一層只包含高層與本層信息而不含有低層信息,無法對金字塔特征內容充分利用,使得RPN不得不選取單一尺寸的特征映射圖進行處理,導致最終的檢測準確率非最優值;其次,由于大尺寸目標的內容信息主要由最高層的特征提供,而最高層的特征與原特征提取網絡結構最終的輸出結果是一樣的,因而對大尺寸的目標檢測準確率與原網絡相近甚至略低。

因此,本文提出對Mask R-CNN的主干網絡中的FPN進行多尺度特征融合,基于多尺度特征融合的FPN框架如圖2所示。改進后的主干網絡包括自下而上的反向連接與橫向連接和多尺度特征圖融合兩部分。

(1) 自下而上的反向連接與橫向連接。對FPN生成的粗糙分辨率的特征通過自下而上的路徑經由橫向連接進行增強,每個橫向連接合并來自自下而上路徑和自頂向下路徑具有相同空間大小的特征映射。具體過程為,使用FPN生成的特征圖集{P2,P3,P4,P5},然后通過逐個元素相加,對上采樣特征映射和相關自上而下的特征映射(其通過1×1卷積層縮減通道數)合并。對此過程執行迭代,直至生成最佳分辨率特征映射圖。在迭代操作執行前,將1×1卷積層附加到P_2上從而生成最粗糙的特征映射。最后,各融合圖通過添加3×3卷積層生成最后的特征映射圖。

(2) 多尺度特征圖融合。具體而言,使用自下而上的反向連接生成的特征映射,進行二倍上采樣,然后逐元素相加,將上采樣映射與自下而上的反向橫向連接生成的特征映射融合,再對其進行3×3的卷積。對該過程進行迭代,直至生成最佳分辨率映射。

2.2 候選窗口分類器

Mask R-CNN的目標檢測分為兩個階段,第一個階段為區域建議網絡,通過滑動窗口掃描圖像特征圖,尋找存在目標的區域,這一階段對圖像進行前景和后景的分類,并對目標邊框精調;第二階段為RoIAlign,這一階段是在由RPN提出的RoI上運行的,該階段對RPN的目標邊框的位置和尺寸進一步微調,并對RoI的目標具體分類。

候選窗口分類器在特征提取網絡與RoIAlign結構的設計中,分別增加了一個Dropout層,該層主要用于對FPN中最后一個全連接層生成的特征值進行抑制,以防止在訓練過程中產生過擬合,而在測試過程中僅保留全連接層。

Dropout算法原理如圖3所示,具體步驟如下:

Step1在訓練階段的每個訓練批次開始時,按照伯努利概率分布隨機刪除部分隱藏層的神經元,但輸入輸出的神經元個數不變。

Step2將剩下的隱藏層神經元正向和反向更新權重與偏差。

Step3恢復之前刪除的神經元,而后再重新隨機刪除部分神經元,進行正向和反向更新權重與偏差。

Step4對上述過程進行迭代。

Dropout計算公式為:

(1)

(2)

(3)

(4)

式中:r為伯努利概率分布隨機產生的向量,向量元素取值0或1,取1的概率為p,取0的概率為1-p,向量維度與某一層輸入神經元維度一致;l表示具有L層隱藏層中的第l層;y(l)表示第l層的輸出;z(l)表示第l層的輸入;w(l)和b(l)表示第l層權重和偏差。

2.3 基于評分策略的像素級分割掩碼

Mask R-CNN對檢測的目標能夠實現實例分割,且采用實例分類的置信度作為掩碼質量評分標準。但是,掩碼質量被量化為該實例的掩碼與真值框之間的IoU,而掩碼質量通常與分類質量之間沒有很強的相關性,進而造成分割的掩碼質量不高。針對掩碼質量與掩碼評分之間未校準的問題,本文使用掩碼評分策略MaskIou Head,對Mask R-CNN網絡框架中掩碼生成部分進行相應的改進,將實例特征和預測的掩碼一起作為輸入,并預測輸入掩碼與真實標簽掩碼之間的IoU,對生成的掩碼進行評分,進而提高分割掩碼的質量。掩碼分數公式如下:

Smask=Scls×Siou

(5)

式中:Smask為目標的掩碼分數;Scls表示目標的類別;Siou表示MaskIoU的回歸。

實例化分割掩碼框架如圖4所示,具體流程為:

Step1對預測掩膜進行最大池化處理,最大池化層使用2×2的過濾器且步長為2,以使預測的掩碼與RoI特征具有相同的空間大小。

Step2將RoIAlign層的特征與經過池化層的預測掩碼連接,作為MaskIoU Head的輸入。

Step3經過MaskIoU Head的四個卷積層和三個全連接層。卷積層都使用3×3的卷積核,前三個卷積層步長為1,最后一個卷積層步長為2用于降采樣;前兩個全連接層輸出設置為1 024,第三個全連接層的輸出設置為類別的數量。

3 實驗與結果分析

3.1 實驗環境及數據

實驗環境為Windows 10操作系統、編譯環境Python 3.7、Intel(R) Xeon(R) CPU 3.60 GHz、Nvidia GeForece GTX 1080Ti顯卡。

由于目前所開源的數據集中基本以肢體動作的檢測為主,并沒有符合本文對于手部進行檢測識別的開源數據集。因此,本文采用自制數據集,該數據集由不同規格的攝像頭對多人的手部進行圖像數據的采集。針對光照強弱、距離遠近、拍攝角度對手勢識別的影響,進行全方位的圖像數據采集。由于人工采集手勢圖像的數量有限,因而對圖像數據集實施數據增強(旋轉、翻轉、顏色空間轉換、增加噪聲等)操作。

在樣本標注過程中,參考Microsoft COCO數據集圖像分割的數據標準,通過開源軟件Labelme對圖像進行標注。其中,手勢樣本示例和標注的手勢樣本如圖5所示。標注手勢樣本的時候,以密集連續的點連線,將目標的輪廓邊緣準確地標注。按照Microsoft COCO數據標注格式,主要包括了路徑、樣本文件名、標注形式、類別名及連接點坐標。圖像的手動標注數據格式如圖6所示。

3.2 實驗結果比較與分析

本文對于超參數的設置與現有的Mask R-CNN框架基本一致,這些設置具備一定的魯棒性。在訓練中,采用多任務損失函數,定義為:

L=Lcls+Lbox+Lmask

(6)

式中:Lcls為分類損失函數;Lbox為邊框損失函數;掩碼損失函數Lmask對于每一個RoI的輸出維度為Km2,表示K個分辨率為m2的二進制掩碼,K表示二進制數量。本文為每一個像素值應用Sigmoid函數,定義Lmask為平均二進制交叉熵損失。對于真實類別為k的RoI,僅在第k個掩碼上計算Lmask。本文對Lmask的定義允許網絡在不跨類別競爭的情況下,對每一類獨立預測掩碼。

實驗采用COCO數據集格式制作手勢數據集,對該數據集進行訓練與測試,特征提取的主干網絡為ResNet101。表1所示為Mask R-CNN 分別使用FPN和本文改進后的FPN作為特征提取網絡的擴展,進行手勢識別時的mAP。通過實驗結果可以看出,使用改進的FPN進行訓練和測試的結果相比原網絡而言,識別準確率均有提升。這是由于采用反向橫向連接與多尺度特征融合,比原網絡包含更多的低層的定位信息和高級語義信息,改善了原網絡中只采用自頂向下路徑和橫向連接的方法生成的特征圖無法充分包含低層特征信息的問題。

表1 改進FPN的手勢識別的mAP結果比較

實驗通過將Dropout以0.1為步長從0.1到0.9共9個閾值分別添加到RPN與RoIAlign中,以及原網絡(Dropout閾值為0)進行對比。與原網絡相比,添加Dropout層后大多有所改善,因此,Dopout可以有效地避免訓練過擬合的問題,且Dropout添加到RPN的參數為0.7且RoIAlign的參數為0.5時,手勢數據集的識別準確率提升明顯。

圖7所示為Mask R-CNN原算法與本文算法對6種手勢的mAP實驗對比結果,圖8所示為原算法與本文算法的損失率結果對比。可以看出,本文算法與原算法相比,每類手勢識別的準確率均有1至2百分點的提升。由此可知,本文所提算法對手勢的識別具有較好的效果。

表2為Mask R-CNN與本文算法的手勢識別率比較結果,本文算法在耗時與原算法相近,但準確率比原算法提高1.74百分點。

表2 手勢識別的識別結果比較

圖9所示為對掩碼改進后的Mask R-CNN算法手勢分割與識別效果圖,第一行為手勢識別結果,第二行為手勢分割結果。由圖可知,基于本文算法的手勢分割結果較為精細,邊緣平整,且手勢語義識別準確率也較高,體現出本文算法的有效性。

4 結 語

本文提出一種基于改進的Mask R-CNN的手勢識別算法,通過將基于多尺度融合的特征金字塔作為特征提取網絡的擴展,對候選窗口分類器添加Dropout層防止訓練過擬合,將像素級分割掩碼結構進行優化修改,實現了手勢的分割與識別。實驗結果表明,本文算法相比傳統算法具有較高的識別率和更佳的分割精度。但因數據采集和標注工作量較大,本文僅選用具有代表性的若干手勢進行訓練和識別,接下來將在此基礎上加入更多類型的手勢圖像作為研究數據,豐富數據庫,以達到更好的識別準確率,同時將考慮進行連續手勢動作的語義識別,將其有效應用于虛實交互等領域。

猜你喜歡
特征區域檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
關于四色猜想
分區域
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 国产激情无码一区二区免费| 欧美成人综合在线| 欧美激情视频二区| 98超碰在线观看| 国产尤物视频网址导航| 日本91在线| 欧美不卡二区| 日韩不卡免费视频| 波多野一区| 91国内在线视频| 午夜激情福利视频| 丝袜久久剧情精品国产| 亚洲一级色| 国产精品尤物在线| 欧美不卡在线视频| 欧美日韩午夜| 精品在线免费播放| 无码免费视频| 国产乱子伦精品视频| 丁香六月激情婷婷| 国产福利拍拍拍| 992Tv视频国产精品| 亚洲精品天堂在线观看| 九色免费视频| 91偷拍一区| 日本午夜三级| 午夜电影在线观看国产1区| 欧美色亚洲| 国产成人午夜福利免费无码r| 精品伊人久久久久7777人| 国产区91| 亚洲视频黄| 亚洲AV无码乱码在线观看代蜜桃 | 国产高清不卡| 国产成人亚洲毛片| 高清视频一区| 亚洲成人高清无码| 5388国产亚洲欧美在线观看| 国产区福利小视频在线观看尤物| 亚洲欧美综合精品久久成人网| 成人小视频在线观看免费| 久久综合丝袜日本网| 色综合中文综合网| 综合人妻久久一区二区精品| 夜夜拍夜夜爽| 波多野结衣亚洲一区| 日韩精品免费在线视频| 澳门av无码| 欧美国产日韩另类| 国产精品三级av及在线观看| 欧美成a人片在线观看| 亚洲成人在线免费观看| 久久这里只有精品8| 久久99热66这里只有精品一| 特级毛片8级毛片免费观看| 中文字幕乱码中文乱码51精品| 无码中字出轨中文人妻中文中| 91外围女在线观看| 91系列在线观看| 国产一区二区三区在线无码| 久久人人爽人人爽人人片aV东京热| 国产精品午夜福利麻豆| 欧美精品成人| 91网站国产| 亚洲成A人V欧美综合天堂| 日韩精品中文字幕一区三区| 国产成人精品18| 精品三级在线| 日韩欧美色综合| 亚洲综合狠狠| 中文字幕有乳无码| 97视频精品全国免费观看| 国产高清又黄又嫩的免费视频网站| 国产成人欧美| 亚洲欧洲日韩久久狠狠爱| 久久精品国产精品青草app| 日本欧美视频在线观看| 2019国产在线| 99视频在线观看免费| 人人看人人鲁狠狠高清| 国产精品七七在线播放| 热re99久久精品国99热|