999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

帶有注意力模塊的反卷積一階檢測算法研究

2021-05-24 09:01:14湯彩蕓張孫杰裴自強
小型微型計算機系統 2021年6期
關鍵詞:特征融合檢測

湯彩蕓,張孫杰,裴自強

1(上海理工大學 光電信息與計算機工程學院,上海 200093)2(華中科技大學 人工智能與自動化學院,武漢 430074)

E-mail:15656230962@163.com

1 引 言

目標檢測是計算機視覺領域最基本的任務之一.現在,大多算法都基于深度學習[1-3],按照訓練方式可將目標檢測分為兩個分支,一種是以Fast R-CNN[4]為代表的二階檢測器,包括RCNN[5,6],Faster-RCNN[7],SPPNet[8]等.另一種是以YOLO[9]為代表的一階檢測器,包括SSD[10],RetinaNet[11]等.一般來說,一階檢測器速度快,但是檢測精度沒有二階檢測器表現得好.雖然,檢測器的精度和速度都提升到一定高度了,但是多尺度檢測[12]仍然是目標檢測需要攻克的難題之一.針對此問題,基于特征金字塔的算法[13]被提出.金字塔的深層特征語義表現能力強,而底層特征分辨率高,因此定位精度高.根據這一特性,很多檢測器都旨在建立具有強語義信息的精細分辨率特征,比如RCNN系列的Libra RCNN[14]在特征圖上進行rescale,integrate,refine以進一步融合特征信息,最后再和原特征相加,增加特征表示;YOLO的v2,v3[15,16]系列添加一個轉移層把淺層特征連接到深層特征圖里;SSD系列的變體[17-20],通過不同上采樣手段等操作融合高層信息到底層.

本文中,為解決多尺度問題,受到ASSD[21]啟發,我們在檢測器中引入注意力模塊,旨在為特征圖提供更易學習的特征.在識別物體時,人類視覺系統會第一時間關注到感興趣的物體,并自動忽略沒用的信息.神經網絡中用到的注意力機制就為達到人類視覺相同的效果.本文主要貢獻如下:1)從人類視覺注意力出發,本文設計一種結合空間和通道的注意力模塊,這個模塊可以學習到全局信息,進而生成注意力圖可以作為檢測的一種指引;2)跟其他檢測算法相比,我們所提出的檢測算法大幅改進DSSD算法,在僅犧牲一點速度的情況下性能得到顯著提升.

2 相關工作

2.1 目標檢測

R-CNN[5,6]開創式地把深度學習應用到目標檢測中.隨后Fast R-CNN[4]和SPP-Net[8]在R-CNN[5,6]的基礎上引入區域特征提取,提取每個候選區域的RoI(Region of Interest),經過池化等操作后得到固定大小的特征圖用以檢測.Faster R-CNN[7],設計了RPN網絡代替費時的SS(Selective Search)方法,將特征提取,推薦區域提取,分類回歸整合到一個網絡中,使得檢測速度大幅提升.直到現在,Faster R-CNN[7]都被廣泛運用[22],近幾年提出的Cascade R-CNN[23]和Libra R-CNN[14]等都是基于這種思想.

YOLO[9]作為首個一階檢測器,提出將整張圖片作為網絡輸入,直接在輸出層回歸包圍框的位置及所屬類別,從而加速網絡檢測.其V2、V3[15,16]版本去掉全連接層,加以使用分類網絡darknet等,使其檢測性能達到巔峰.SSD[10]提出利用多個尺度特征圖用以檢測,保證了目標定位精準,但對小目標物體來說,由于底層特征缺少語義信息,精確定位的同時很難達到分類精準.針對這類問題,之后的DSSD[24]、FSSD[25]、ESSD[26]都提出在網絡中引入特征融合模塊,加強特征表示.圖1是基于SSD[10]的各種網絡結構圖,其中(a)SSD,(b)DSSD,(c)FSSD,(d)ESSD,(f)DSSDA(本文).

圖1 SSD檢測器的各種變體Fig.1 Various variations of the SSD detectors

2.2 注意力機制

人類特有一種視覺信號處理機制,在掃描圖像后,獲得注意力焦點,人類視覺系統會對這一焦點區域投入更多的注意力資源,從而獲取該目標的細節信息,并且抑制其他無用信息.深度學習領域首次應用注意力機制解決機器翻譯[27,28]問題.之后,Dzmitry Bahdanau等人[29,30]在這個領域更深入的應用注意力機制.現在,注意力機制廣泛應用于多種視覺任務中,比如多標簽圖像分類問題[31];多任務學習[32]提出每個任務學習一個attention作為特征選擇器,從而選擇與該任務相關的特征;跨模態分割任務中,L.Ye等人[33]設計了跨模態的self attention機制.由此可見,注意力機制的應用場景十分廣泛[34].

3 帶有注意力模塊的反卷積檢測器

本文提出的帶有注意力模塊的反卷積一階檢測器的網絡結構圖如圖2所示,其中,卷積層(1-5)來自ResNet_101主干網絡,其他特征層設置和DSSD一致.原始的SSD為解決多尺度問題,采用了在多個尺度特征圖上預測的方案,但是淺層特征相對深層特征來說缺少語義信息,因此小目標檢測存在一定難度.相對的,對大目標物體來說,定位不夠精準.本文為解決這些問題,采用DSSD的模型,依次融合高低層特征以加強語義表征并在此基礎上嵌入注意力模塊,以加強網絡表示.具體措施如下:采用ResNet_101(conv1-conv5_x)作為主干網絡,后面連接的特征金字塔(conv6_x-conv9_x)和原始DSSD設置相同,但為了簡化計算,省去了原始DSSD最后一個上采樣過程.受到ASSD的啟發,在預測前加入attention模塊,可以幫助檢測器更好地捕捉到需要關注的區域,抑制沒有意義的區域.Attention模塊位于特征圖和預測模塊之間,這樣可以更好地利用特征信息.表1是網絡選取特征圖,輸入圖片大小是320pixel320pixel,深度代表選用特征層在網絡中的位置.

圖2 DSSDA網絡架構圖Fig.2 Overall architecture of our DSSDA object detector

表1 ResNet_101主干網絡中選取的特征圖Table 1 Selected feature layers in ResNet_101 backbone

3.1 特征融合模塊

特征融合的目的是建立高分辨率強語義信息的特征.本文采用可學習反卷積模塊對各個深層特征層做上采樣,然后把兩種特征做點乘融合信息,這個過程和DSSD的融合類似.整個特征融合模塊如圖3所示.具體做法是:網絡中的深層特征做反卷積上采樣到前一個特征同樣分辨率,為了防止混疊效應,在反卷積后面再做一次卷積和批標準化操作.而淺層特征經過兩次3×3的卷積之后,和上采樣的深層特征做點乘,融合后的信息再經過ReLU激活函數后得到最終預測用的特征圖.

圖3 帶有反卷積的特征融合模塊Fig.3 Feature fusion with deconvolution

3.2 注意力模塊

整個注意力模塊包括通道和空間兩個子模塊,嵌入在每個預測模塊前,用于加強特征表示,結構如圖4所示.送入注意力模塊的特征圖F∈RC×W×H,由兩個子模塊分別生成1D的通道注意力圖F1∈RC×1×1和2D的空間注意力圖F2∈R1×W×H,最終這兩個子圖經過點乘操作得到用以預測的特征圖.整個運算過程如式(1)所示:

F′=F2⊙F1⊙F

(1)

其中⊙代表逐元素相乘,F′是最終調整好用以預測的特征圖.接下來詳細介紹兩個子模塊.

圖4 注意力模塊結構圖Fig.4 Attention module structure

3.2.1 通道注意力模塊

Jie Hu et al[35]提出的Squeeze-and-Excitation模塊使用全局平均池化計算通道維度注意力.Sanghyun Woo[36,37]提出CBAM,BAM指出最大池化可以收集通道間的其他重要特征,通道模塊利用最大池化和平均池化共同作用,可以很大程度上提升網絡性能.我們受到這些思想的啟發,同樣采用兩種池化并用的方式處理通道注意力.具體做法如下:

首先壓縮空間維度,對特征圖分別做平均池化和最大池化,得到融合不同空間信息的通道特征.設計一種共享參數的卷積網絡,分別將兩個特征圖送入卷積層,可以進一步調整融合后的特征.再把這兩個通道特征相加后送入ReLU激活函數,得到最終通道特征圖F1∈RC×1×1.這種設計不僅考慮了不同情況下的空間信息融合,而且卷積層的設計可以加強通道間的注意力表示.公式(2)代表了計算過程.

(2)

3.2.2 空間注意力模塊

空間注意力分支會生成一個2D空間注意力圖F2∈R1×W×H,用來強化或者抑制不同空間位置的特征信息.和通道注意力模塊一樣,空間注意力模塊也同時使用最大池化和平均池化.送入空間注意力模塊的是原始特征圖與通道注意力圖的融合結果,經過兩種池化后分別得到兩個融合通道信息的2D特征圖.這兩個特征圖以兩種方式獲取通道維度的特征信息,之后再進行concat連接和卷積操作,最終得到可以確定目標位置的空間注意力圖.整個計算過程可以表示成公式(3):

F2=σ(f3×3(AvgPool(F⊙F1);MaxPool(F⊙F1)))

(3)

其中σ是sigmoid激活函數.f3×3是卷積核為3×3的卷積操作.

4 實驗結果與分析

4.1 實驗細節

本文所提出觀點均經實驗驗證其有效性,實驗基于Pytorch深度學習框架,在兩個顯存為8G的NVIDIA GTX1080 GPU上訓練.主干網絡Resnet_101采用在ImageNet預訓練的權重.實驗采用Stochastic Gradient Descent(SGD)優化器,動量為0.9,初始學習率是0.001,權重衰減率為0.0005.本文提出網絡架構分別在兩個公共數據集PASCAL VOC和MS COCO上訓練和驗證網絡的有效性.

實驗用了兩種分辨率的圖片作為輸入,分別是320pixel×320pixel和512pixel×512pixel.和SSD一樣,我們對圖片也做了翻轉,鏡像等數據增強操作,采用DSSD的縱橫比設置,每個用以預測的特征圖每個像素位置都設置8個先驗框,縱橫比為[1.6,2,3].網絡最終的預測框通過非極大值抑制來解決多框重疊的問題.實驗中采用難例挖掘處理正負樣本不平衡的問題,損失函數和DSSD一樣.

4.2 PASCAL VOC 2007,2012

我們在VOC 07+12 trainval用兩塊顯存8G的NVIDIA GTX1080 GPU訓練DSSDA.DSSDA320 batch size是10,共訓練120k輪;DSSDA512 batch size是6,共訓練120k輪.訓練時在第80k和100k輪的時候學習率從原始的0.001降低到0.0001和0.00001.模型在VOC 2007 test上的測試結果如表2所示.和其他的檢測器相比,DSSDA的mAP沒有特別大的漲幅,但是具體類別有很大提高,比如船(5.4%),自行車(1%)等.根據我們分析,這是注意力模塊在特征圖上聚焦了某些難以識別或定位的物體,對檢測器性能提升起到了積極作用.圖5是在VOC測試集上選取的部分結果圖,其中第1-第3行分別代表輸入原始圖片、DSSD檢測結果圖以及DSSDA檢測結果圖.由圖5前4列可知,和原始的DSSD相比,DSSDA能檢測到很多DSSD無法檢測的目標,并且在某些類別的定位定位更精準;最后一列是二者置信度的比較,在定位相同的情況下,DSSDA具有更高的置信度.綜上分析可知,相較DSSD,本文所提DSSDA算法在定位和分類精度都有很大提升.

圖5 DSSDA和DSSD檢測結果對比圖(VOC)Fig.5 DSSDA vs DSSD on VOC

4.3 MS COCO

相對PASCAL VOC數據集來說,MS COCO數據集包含更多種類的物體(80類),也有更多的生活場景,在目標檢測領域,MS COCO數據集的檢測難度大.我們在COCO 2017 train數據集上訓練DSSDA,驗證在COCO 2017 val進行.總共訓練400k輪,前280k輪以初試學習率0.001訓練,之后在360k輪學習率為0.0001,直到訓練結束.實驗中,DSSDA320的batch size是8,DSSDA512的batch size是4.在MS COCO數據集上的測試結果如表3所示.表中結果表明相對其他檢測器來說,DSSDA在檢測精度上并沒有太大提升.分析原因可能是由于為了減少計算量在這部分省去了最后一個特征圖,并且沒有上采樣,因此檢測器的特征提取部分少了更深層的語義信息及大目標位置信息.導致最終檢測結果不盡如人意.

圖6 DSSDA和DSSD檢測結果對比圖(COCO)Fig.6 DSSDA vs DSSD on COCO

圖6是DSSDA和DSSD在COCO2017測試集上的部分結果圖,其中第1-第3行分別代表輸入原始圖片、DSSD檢測結果圖以及DSSDA檢測結果圖.由圖6前4列可以看出,相對DSSD來說,融合注意力機制的檢測器更能把“目光”鎖定在一些容易被忽略的物體上(無論大小目標),因此可以定位到被DSSD忽略的目標;而圖6最后一列表明在COCO數據集上DSSDA可以做到同樣定位的情況下分類置信度更高.

表2 PASCAL VOC 2012測試結果Table 2 PASCAL VOC 2012 test detection results

表3 COCO測試結果Table 3 COCO test-dev detection results

4.4 消融實驗

實驗中,考慮多種嵌入注意力模塊的方式,包括空間注意力模塊的組合,嵌入方式等.考慮了僅使用空間注意力,以及合并兩種注意力,并對其嵌入位置進行研究.幾種實驗設置分別是反卷積+結合通道和空間的注意力模塊,反卷積后嵌入空間注意力模塊,空間注意力模塊嵌入在反卷積前.在PASCAL VOC數據集上進行實驗證實空間注意力和通道注意力并用的方式最佳.注意力模塊和特征融合位置分析是出于注意力模塊對加強融合前后特征強化作用力度的考慮.表4是幾種方式的比較結果,其中,運行時間是在單張NVIDIA GTX1080 GPU上計算的.由表4可以看出,在本文所提出的網絡架構中,注意力模塊對融合后的特征更具有表征力.

表4 注意力模塊嵌入方式的比較(VOC)Table 4 Ablation study on PASCAL VOC2007 test dataset

5 結 論

本文設計了一種新的檢測算法,帶有注意力模塊的反卷積一階檢測器,簡稱為DSSDA.其具體實現方案是在原有DSSD模型經反卷積融合特征后,再在每一個融合過的特征層后嵌入注意力模塊.利用注意力模塊可以把“注意”放在重點目標并抑制無用信息的特點,來提升網絡對多尺度目標檢測的準確率.注意力模塊和檢測器結合,分別從通道和空間來獲取目標的內容和位置,可以有效提升檢測器的分類和定位性能.分析VOC和COCO數據集,可以發現人、車、船等類別容易產生多尺度問題,即不同圖片中同一目標尺度變化較大.而融合了注意力模塊的檢測器可以提高目標定位精度,因此一定程度上解決了多尺度檢測的問題.在PASCAL VOC和MS COCO數據集上所做的大量實驗驗證了本文所提新型檢測器的有效性.此外根據所做的消融實驗,證實了文章所用連接方式效果最好.

猜你喜歡
特征融合檢測
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 国产jizz| 久久窝窝国产精品午夜看片| jizz国产视频| 日韩亚洲高清一区二区| 欧美影院久久| 欧美日韩激情| 在线日韩一区二区| 毛片三级在线观看| 欧美精品在线视频观看| 一本久道热中字伊人| 欧美日在线观看| 午夜久久影院| 91破解版在线亚洲| 日本不卡免费高清视频| 日本三区视频| 国产欧美又粗又猛又爽老| 国产女人在线观看| www.亚洲天堂| 在线精品亚洲国产| 2024av在线无码中文最新| 色哟哟国产精品一区二区| 国产三级a| 中文字幕永久视频| 国产精品美女网站| 国产精品yjizz视频网一二区| 99无码中文字幕视频| 亚洲黄色视频在线观看一区| 视频一区视频二区中文精品| 秋霞一区二区三区| 亚洲综合片| 98超碰在线观看| 波多野结衣久久高清免费| 99热国产在线精品99| 91久久偷偷做嫩草影院精品| 114级毛片免费观看| 久草视频精品| 亚洲一区波多野结衣二区三区| av在线无码浏览| 国产精品视屏| 国产精品一线天| 丁香五月激情图片| 久久久精品无码一二三区| 国产日韩av在线播放| 免费一级无码在线网站| 国产精品自在在线午夜| 国产精彩视频在线观看| 国产视频大全| 在线国产三级| 婷婷久久综合九色综合88| 69av在线| 国产av一码二码三码无码| 久久精品只有这里有| 国产亚洲精| 丰满人妻被猛烈进入无码| 国产成人精品第一区二区| av一区二区无码在线| 亚洲成人在线免费| 国产成人精品无码一区二| 福利一区在线| 亚洲三级影院| 欧美人与性动交a欧美精品| 亚洲欧美另类久久久精品播放的| 国产无人区一区二区三区| 国产成人亚洲精品无码电影| 国产成人凹凸视频在线| 午夜精品久久久久久久无码软件| 亚洲AV成人一区国产精品| 久久毛片免费基地| 亚洲永久色| 亚洲黄色高清| 无码综合天天久久综合网| 日本国产精品一区久久久| 欧美高清三区| 久久综合色视频| 国产二级毛片| 区国产精品搜索视频| 久久综合色视频| 人人爽人人爽人人片| 黄片在线永久| 国产精品久久久久久久久| 91久久偷偷做嫩草影院免费看| 国产啪在线|