999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進Faster R-CNN的嘴部檢測方法①

2019-12-20 02:32:18魏文韜秦常程喻洪流
計算機系統應用 2019年12期
關鍵詞:特征區域檢測

魏文韜,劉 飛,秦常程,喻洪流,倪 偉

(上海理工大學 康復工程與技術研究所,上海 200093)

嘴部識別對于機器人視覺交互具有重要的研究價值.給定任意一張人臉圖像,檢測并確定嘴的位置,在機器人控制交互式檢測系統尤為重要.實際場景下,由于嘴部的姿態、臉部的表情和光線變化較大,在不受約束的條件下拍攝圖片,高精度的嘴部檢測是一個具有挑戰性的問題.在以往的方法中,提取人工特征并將其作為二值分類進行建模求解已成為嘴部估計的標準步驟,這種方法難以處理姿態各異、狀態模型的嘴部.因此,建立一個機器人交互場景下的嘴態識別系統具有重要的理論與實際應用價值.

隨著深度學習的發展,各種目標檢測算法被提出,逐漸取代傳統的檢測算法.卷積神經網絡(Convolutional Neural Networks,CNN)是一種重要的深度學習方法,它是一種前饋神經網絡,圖像可以直接作為網絡的輸入,可自動從圖像數據中抽取特征,避免傳統識別算法中復雜特征提取和數據重建過程,在圖像識別領域應用廣泛.CNN在目標檢測任務上表現出優越的性能[1-5],其檢測框架包括基于區域的方法與基于回歸的方法[2].一類是RCNN系列的基于區域的目標檢測算法[3],如Fast R-CNN、Faster R-CNN[4]以及R-FCN等,這類算法的檢測結果精度較高,但速度較慢.另一類是以YOLO[2]為代表的將檢測轉化為回歸問題求解,如YOLO、SSD[6]等,這類算法檢測速度較快,但精度較低且對于小目標的檢測效果不理想.相比于候選區域的方法,直接預測邊界框的方法能提高目標檢測系統的檢測速度.但YOLO網絡直接對原始圖像進行網格劃分,會使目標位置過于粗糙.SSD加以改進,對不同深度網絡層回歸采用不同尺度窗口,因SSD采用的候選框選取機制,對小目標的檢測效果仍差于Faster R-CNN.

Faster R-CNN將區域生成網絡(Region Proposal Networks,RPN)[3]和 Fast R-CNN[4]檢測網絡融合,實現了高精度的實時檢測.隨著Faster R-CNN使用CNN網絡結構層數由淺到深,有ZF[6]、VGG[7]、GoogleNet[8]和ResNet[9]等,盡管更深的網絡可能帶來更高的精度,但會導致檢測速度降低.因此,對于具體問題,研究合適的基礎網絡結構和訓練方法以保證較高精度的同時確保實時性,是目前其主要研究方向之一[10].

為了解決復雜多變的交互場景下喂食機器人對于嘴的識別,本文以喂食機器人與人交互這一任務為例,基于Faster R-CNN目標檢測網絡進行改進實現人臉和嘴部的精確識別,在Caffe GPU深度學習框架上進行實驗.結果表明,采用改進的Faster R-CNN目標檢測網絡能夠對人臉嘴部快速和精準的識別.

1 Faster R-CNN簡介

Faster R-CNN是由2個模塊組成:生成候選區域的RPN模塊和Fast R-CNN目標檢測模塊.RPN模塊產生候選區域,并利用“注意力”機制,讓Fast RCNN有方向性的檢測目標.首先,RPN網絡預先產生可能是人臉和嘴部的目標候選框,然后Fast RCNN基于提取出的候選框來對目標檢測識別.

1.1 區域建議網絡

針對R-CNN和Fast R-CNN中selective search算法生成目標建議框的速度問題,Faster R-CNN引入了區域建議網絡代替Selective Search算法用于生成目標建議框[11],極大地提升了目標建議框的生成速度.

RPN的基本思想是在特征圖上找到所有可能的目標候選區域,它通過在原始的網絡結構上添加卷積層和全連接層來同時在每個位置上回歸目標邊界框和預測目標分數.RPN采用的是滑動窗口機制,每個滑動窗口都會產生一個短的特征向量來輸入到全連接層中進行位置和類別的預測.在每個滑動窗口位置同時預測多個候選區域,其中每個位置的預測候選區域的數量為k.因此,回歸層具有4k個輸出,編碼k個邊界框的4個坐標,分類器輸出2k個概率分數,預測每個區域的所屬目標的概率和所屬背景的概率.“proposal”為目標生成層,該層中剔除跨越邊界的目標框,并通過非極大值抑制[12]結合目標框前景得分篩選部分目標框,最后通過目標框的回歸信息得到RPN網絡給出目標建議框,最后選取256個目標建議框作為RPN網絡的輸出.

1.2 區域建議網絡損失函數

在訓練RPN網絡時,為每個候選框分配一個二值標簽,用于網絡訓練,將以下2種情況分配正標簽:

(1)與某個真實目標區域框的IoU(Intersectionover-Union)最大的候選框.

(2)與任意真實目標區域框的IoU大于0.7的候選框.為所有真實目標候選框的IoU小于0.3的候選框分配負標簽,然后進行網絡訓練并微調參數.圖像的損失函數定義如式(1)所示.

其中,i表示小批次處理中的第i個候選框索引,pi是第i個候選框為目標的概率,若i為候選目標,則pi*為1,否則為0.ti={tx,ty,tw,th}是一個向量,表示預測的參數化的候選框坐標.ti*是對應的是真實目標框的坐標向量.ti和ti*的定義如式(2)所示.

其中,(x,y)為區域框的中心點坐標;(xa,ya)為候選框的中心點坐標;(x*,y*)為目標真實框的坐標,w和h為包圍框的寬和高.算法的目的在于找到一種關系將原始框映射到與真實框G更接近的回歸狂.

分類的損失函數Lcls定義如式(3)所示.

回歸的損失函數Lreg定義如式(4)所示.

其中,R是smoothL1函數,smoothL1函數如式(5)所示.

1.3 Fast R-CNN

Fast R-CNN負責對感興趣區域進行類別分類和位置邊框微調,判斷RPN找出的感興趣區域是否包含目標以及該目標的類別,并修正框的位置坐標.RPN給出了2000個候選框,Fast R-CNN網絡需要在2000個候選框上繼續進行分類和位置參數的回歸.

首先挑選128個樣本感興趣區域,使用RoI Pooling層將這些不同尺寸的區域全部下采樣到同一個尺度上.RoI Pooling是一種特殊的下采樣操作,給定一張圖片的特征圖,假設該特征圖的維度是512×(H/16)×(W/16),以及128個候選區域的坐標(其維度為128×4),RoI Pooling層將候選區域的維度統一下采樣成512×7×7 的維度,最終可得到維度為 128×512×7×7 的向量,可將其看成是一批尺寸為128、通道數為512、大小為7×7的特征圖.此過程將挑選出的感興趣區域全部下采樣成7×7尺寸,以實現權值共享.所有感興趣區域被下采樣成512×7×7的特征圖后,以一維向量形式初始化前兩層全連接層,最后輸入到用來分類的全連接層和邊界框回歸的全連接層.

2 Faster R-CNN網絡改進

2.1 多尺度特征圖結合

Faster R-CNN只利用最后一個卷積層的特征圖進行目標檢測,無法更加精確的檢測到一些更小的物體.為了解決這一問題,本文在Faster R-CNN的網絡基礎上結合多尺度特征圖.

最近的許多研究表明了淺卷積層的特征圖具有更高的分辨率,有助于檢測小目標.這些方法表明,結合不同卷積層的特征圖可以提高檢測性能.本文在每個卷積塊中利用多個層的特征圖.如圖1所示,首先將不同的卷積層連接到同一個卷積塊中(如VGG-16中的conv5_3和conv5_2層),然后對不同卷積塊的特征圖(如VGG-16中的conv4和conv5塊)進行元素求和.因為不同的卷積塊有不同大小的特征圖,需要共享相同的大小特征圖,這樣才能執行元素的求和操作.為此,采用反卷積層放大后一層特征圖的分辨率,在原始模型中添加了一個1×1的步長為2的卷積層,用于恢復特征圖的大小,因為經過上采樣后特征圖的大小比原始模型擴大了兩倍,實驗證明改進后的多尺度特征圖具有較高的精度和較低的計算成本.

圖1 多尺度特征圖結合

2.2 生成策略選擇

不同尺度特征圖生成策略對檢測性能具有一定的影響.一般來說,集成更多的卷積特征圖具有更高的檢測精度,但是會消耗更多的計算成本.本文利用一種新的策略結合每個卷積塊的多層特征圖,通過在原始Faster R-CNN中引入不同策略進行比較.

表1列出了在不同卷積層,多尺度特征圖上的mAP和處理時間.從表1可見,增加集成卷積特征圖數量將提高網絡的檢測準確率.然而,conv5_3+conv2,conv5_3+conv4_3+conv3_3相對于conv5_3+conv4_3僅提高0.1%,且速度慢了一倍左右.比較單個卷積層之間的結果,conv5_3/2相對于conv5_3提高了2.8%的檢測精度,處理時間基本不變,表明conv5中結合兩層特征圖可以實現不同卷積層特征的互補,提高了特征完整性.同時conv5_3/2+conv4_3/2相對與conv5_3/2提高了0.5%的檢測精度,且僅增加了較少的額外計算成本.最后,conv5_3/2+conv4_3/2相對與conv5_3+conv4_3和conv5_3+conv4_3+conv3_3提高了檢測精度的同時,消耗了較少的額外計算成本.上述結果表明,改進后的生成策略比現有的策略更有效.

表1 不同生成策略mAP和FPS對比

3 實驗

本實驗主要為驗證改進的Faster R-CNN算法在不同場景下的人臉圖片上嘴部檢測的有效性和優越性,將該算法應用到機器人嘴部交互場景上,能夠讓機器人快速完成嘴部的定位與檢測,完成相應的交互功能.

3.1 數據集

由于關于嘴部檢測研究未曾發現公共數據集,所以本實驗使用的數據是自行采集和網上收集等方式獲得的,共3000張,包含各種場景和不同質量的圖片,特別是光線較暗、成像質量較差、目標干擾、多角度的圖像增多.然后利用LabelImg工具對圖像進行詳細的標注.根據實驗要求,將標注好的圖像數據轉換為LMDB格式.如圖2,對人臉和嘴部進行人工標注,另外搜集了1000張不同場景和不同光線下的圖片來進行方法測試,對提出方法的有效性進行驗證.本研究使用LabelImg分別對訓練集、驗證集和測試集圖片上的人臉和嘴部進行統一的標注.

3.2 網絡訓練

實驗環境配置:GPU:GeForce GTX1050Ti,CUDA9.0,Ubuntu16.04,顯存4 GB.實驗使用caffe深度學習框架進行相關代碼和參數訓練,目標檢測框架選擇VGG16作為特征提取網絡,使用端到端的聯合方式進行訓練.

本文算法在訓練網絡模型的過程中,為了能夠使得梯度下降法有較好的性能,需要把學習率的值設定在合適的范圍內,太大的學習率導致學習的不穩定,太小值又會導致極長的訓練時間.訓練模型的學習速率、衰減系數和動量參數的選取直接影響到最終的訓練速度和結果,本文選取一些較常用的學習率和衰減系數作為候選值,如表1所示.將衰減系數確定為0.001,學習速率的選取值有0.1、0.01、0.001,動量參數的選取值有0.5和0.9,在衰減系數不變的情況下,首先確定了學習率,然后確定動量大小.其中當學習率為0.1時,訓練無法收斂,可能是學習率初始值設置過大的原因.由表2可知,最終確定衰減系數為0.1,初始學習率為0.001,動量參數大小為0.9.如圖3所示,當訓練迭代到5×103時,損失函數值趨于平穩.

表2 不同參數對應的測試精度

由于RPN網絡是Faster R-CNN和核心網絡,大大提高了獲取候選框的效率,由表2可知,Faster R-CNN在不同的基礎特征提取網絡上的檢測效果差異很大.ZF網絡相對于VGG16來說,是一種小型的卷積網絡,將其作為Faster R-CNN的基礎特征提取網絡對人臉和嘴部檢測識別VGG16網絡的mAP基本能達到90%以上,而ZF的mAP在85%左右,但是ZF對圖像的處理速度明顯比VGG16大約快3倍.在實際的交互場景下,VGG16對每幅圖像處理時間為0.2 s左右仍然是可以接受的,因此,綜合考慮識別準確率和處理速率兩個因素,VGG16仍然優于ZF網絡.

3.3 實驗結果

圖2是在不同的光線、角度和距離的場景下,檢測嘴部的效果,結果表明本文的檢測算法可以在光線較暗的場景下實現嘴部的定位和識別,并且在一定的角度和距離場景下實現準確的檢測.準確率表明在機器人交互場景下,算法的有效性和可靠性.Faster RCNN與本文算法比較如表3所示.結果表明Faster RCNN網絡的準確率在82.35%左右,測試耗時為1.02 s左右,誤檢率為12.32%,漏檢率6.13%;改進的Faster R-CNN網絡的準確率在92.43%,測試耗時為1.23 s左右,誤檢率為4.58%,漏檢率為3.28%.由于是在Faster R-CNN網絡上加入多尺度特征結合模塊,網絡復雜度增加,測試耗時較長,將底層和高層的特征圖進行融合,對于不同尺度的目標能夠準確的定位與識別.對于小目標的檢測率明顯提高,同時降低了誤檢率與漏檢率.

表3 檢測結果對比

改進的Faster R-CNN是基于兩階段R-CNN框架,其中檢測是一個結合分類和邊界框回歸的多任務學習問題.與目標識別不同,需要一個交并比(IOU)閾值來定義正/負.然而,通常使用的閾值u(通常u=0.5)對正樣本的要求相當寬松.產生的檢測器經常產生噪聲邊界框(FP).假設大多數人會經常考慮相似正負樣本,通過IOU≥0.5測試.雖然在u=0.5條件下獲得的樣本豐富多樣,但會使訓練能夠有效地區分相似正負樣本的檢測器變得困難,造成檢測仍然存在一定的誤差.

4 結論與展望

目標檢測作為計算機視覺領域的基本任務一直受到科研人員的關注,目標檢測方法的性能直接關系到高層領域的研究.但通用目標檢測方法在小目標檢測上效果不佳,專門為小目標檢測設計的方法通用性差.故本文改進Faster R-CNN并應用到嘴部識別中,引入了多尺度特征結合,結合不同卷積層特征圖,實現對小目標的準確識別.通過對嘴部目標識別的對比實驗,驗證了改進的算法對不同場景下的嘴部識別具有較好的效果.改進的Faster R-CNN要求高質量的圖片,通過添加不同場景圖像,昏暗的燈光下,質量差,目標干擾的訓練數據集可以有效提高目標識別的準確性目標檢測算法在低像素和復雜環境和提高識別算法的魯棒性.接下來的研究工作是多網絡進一步改進,減少檢測計算成本和時間,對網絡進一步壓縮,使得能夠在嵌入式設備上完成實時檢測任務.

猜你喜歡
特征區域檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
關于四色猜想
分區域
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 欧美日韩中文国产| 中文无码精品A∨在线观看不卡 | 国产精品丝袜在线| 人妻91无码色偷偷色噜噜噜| 亚洲性色永久网址| 欧美v在线| 国产另类视频| 午夜爽爽视频| 欧美成人h精品网站| 中文字幕首页系列人妻| 全色黄大色大片免费久久老太| 欧美黑人欧美精品刺激| 男人天堂亚洲天堂| 色精品视频| 国产亚洲一区二区三区在线| 久久毛片网| 九九久久精品国产av片囯产区| 91福利在线看| 超清无码一区二区三区| 国产国产人成免费视频77777| 国产精品人成在线播放| 亚洲第一福利视频导航| 成年免费在线观看| 亚洲天堂久久| 人妻丰满熟妇av五码区| 日韩 欧美 国产 精品 综合| 国产一区二区三区在线观看免费| 欧美日韩va| 久久女人网| 日韩小视频网站hq| 亚洲日本精品一区二区| 日本欧美成人免费| 国产91视频免费观看| 九色在线视频导航91| 欧美国产精品拍自| 中文字幕天无码久久精品视频免费| 国产精品3p视频| 激情综合网激情综合| 色哟哟色院91精品网站| 国产欧美性爱网| 日韩天堂视频| 国产夜色视频| 四虎影院国产| 91探花在线观看国产最新| 一级片免费网站| 久久国产精品国产自线拍| 婷婷丁香色| 韩日免费小视频| 亚洲全网成人资源在线观看| 国产一区二区人大臿蕉香蕉| 久久6免费视频| 国模极品一区二区三区| 午夜视频在线观看免费网站| 国产特级毛片aaaaaaa高清| 怡红院美国分院一区二区| 国产视频资源在线观看| 一级黄色网站在线免费看| 国产成人在线无码免费视频| 狠狠色成人综合首页| 国产99精品视频| 在线精品自拍| 99热这里只有精品5| 欧美区在线播放| 男女精品视频| 在线观看精品国产入口| 国产精品美女在线| 国产网站免费观看| 男女性午夜福利网站| 国产精品免费入口视频| 久久香蕉国产线看观看亚洲片| 激情乱人伦| 国产激情影院| 色综合天天综合| 一级成人a毛片免费播放| 久久精品电影| 熟女视频91| 国产精品第| 极品国产一区二区三区| 国产99视频精品免费视频7| 在线观看国产精品一区| 成·人免费午夜无码视频在线观看| 伊人色综合久久天天|