999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

隔級融合特征金字塔與CornerNet相結合的小目標檢測

2021-06-10 17:15:14趙文清孔子旭趙振兵
智能系統學報 2021年1期
關鍵詞:特征融合檢測

趙文清,孔子旭,趙振兵

(1. 華北電力大學 控制與計算機工程學院,河北 保定 071003; 2. 華北電力大學 電氣與電子工程學院,河北 保定071003; 3. 復雜能源系統智能計算教育部工程研究中心,河北 保定 071003)

目標檢測的目的是使計算機像人類一樣,從圖像中獲取所需要的信息。這對于人眼來說一件很簡單的事情,通過觀察目標的顏色、形狀等特點就能輕易地判定目標的類別及位置;但計算機“看到的”卻是一個個的像素值,很難從這些像素值中抽象出目標的特征并確定目標的位置[1]。目標檢測技術在日常生活中廣泛應用,例如安裝攝像頭檢測可疑人物攜帶的諸如作案工具等小目標,分析異常行為,從而做到對危險的預判;在智能自動駕駛中,檢測前方目標并進行識別,系統作出判斷并采取相應措施;在交通視頻監控中,車牌、車標等小目標需要準確檢測;航拍圖片因為拍攝距離比較遠而造成目標像素過低等等,這些問題都需要采用目標檢測技術,因此,對小目標進行準確快速的檢測尤為必要。小目標主要分為絕對小目標(像素低)和相對小目標(相對于原圖的長寬比例小),圖像大小為原圖像的0.1倍或圖像像素低于32×32,即可認定為小目標[2]。

目前主流的目標檢測算法主要分為兩大類。第1類是雙階段檢測方法,代表性算法有Faster R-CNN(towards real-time object detection with region proposal networks)[3]、SPP-Net(spatial pyramid pooling in deep convolutional networks for visual recognition)[4]、Mask R-CNN[5]等。雙階段檢測算法首先針對輸入圖像選擇候選區域,然后用卷積對產生的候選區域提取特征,最后對候選區域進行分類和位置回歸。雙階段檢測算法由于檢測框與小目標的不匹配等問題,在進行特征提取的過程中會造成邊緣信息丟失,導致檢測率低下[6]。第2類是單階段檢測方法,代表性的算法有SSD(single shot multiBox detector)[7]、YOLO(you only look once)[8]、Retina-Net[9]等。單階段算法相較于雙階段算法不需要計算候選框區域,直接對輸入圖片進行回歸,檢測目標的類別概率和位置坐標[10]。

由于特征圖語義信息弱,導致小目標檢測效果差。2017年Lin等[11]提出了 FPN(feature pyramid networks for object detection)網絡。該算法有2條分支,第1條分支采用自上而下網絡,第2條分支采用自下而上網絡。通過旁路連接將2個特征圖像融合,從而實現多尺度目標檢測[12]。本文借鑒FPN算法的核心思想,在其基礎上進行改進并運用到CornerNet(detecting objects as paired keypoints)算法中,用來對小目標進行檢測。

1 CornerNet算法

1.1 基于沙漏網絡的CornerNet網絡模型

CornerNet[13]模型采用沙漏網絡(stacked hourglass networks for human pose estimation)[14]作為基礎模型,如圖1所示。首先經過一系列降采樣,將圖像分辨率降低4倍(文獻[13]中輸入圖像大小為511×511,輸出圖像大小為128×128),然后經過特征提取網絡提取特征。該網絡通過串聯2個沙漏網絡模塊組成,沙漏網絡模塊中間用一個中繼監督進行連接。每個沙漏網絡模塊都是先通過一系列步長為2的降采樣操作縮小輸入的大小,獲得一些分辨率較低的特征,從而使計算復雜度降低,然后通過上采樣恢復到輸入圖像大小,提高圖像的分辨率,更好地預測物體的準確位置。整個沙漏網絡的深度是104層,最后將該特征圖作為2個預測模塊的輸入,預測的關鍵點為左上角和右下角,因此是2個模塊輸入。在每個模塊里面,首先經過角池化,然后輸出3個分支:熱圖、嵌入矢量和偏移。

圖1 CornerNet檢測模型Fig. 1 CornerNet detection model

1.1.1 預測模塊詳細結構

圖2為左上角點的處理過程。圖2中虛線框分為2路,2路處理過程一致,最后再用ReLu激活函數處理。2路特征圖經處理后進行融合,然后用 3×3的卷積核和批量歸一處理融合后的特征圖,最后將處理后的特征圖與骨干網絡輸出,并經1 ×1卷積和批量歸一化處理后的特征圖進行融合,融合后的特征圖進行ReLu激活函數處理,經處理后的特征圖再次進行 3×3的卷積、批量歸一化、ReLu激活函數處理,最后3個輸出分別為熱圖、嵌入矢量和偏移、右下角點與左上角點處理過程一致。

圖2 角點檢測模塊Fig. 2 Corner detection module

1.1.2 角池化

角池化通過編碼來更好地定位角點。角池化層首先最大池化ft中在(i,j)與(i,H)之間所有的特征向量,使之成為特征向量tij,然后最大池化fl中在(i,j)與(W,j)之間所有的特征向量,使之成為lij。最后 把tij和lij加在 一起:

1.1.3 熱圖

熱圖:預測角點位置,特征圖的每個通道的值表示所定位點為角點的分數:

式(2)是針對角點預測的損失函數,整體上是改良版的Focal Loss(focal loss for dense object detection)。式中:pcij表示預測的熱圖在C類的(i,j)位置的值;ycij表示位置(i,j)的ground-truth;N為圖中待檢測目標的數量。

1.1.4 偏移

偏移:輸出從輸入映射到特征圖的誤差信息。

在神經網絡中存在著下采樣層,因此從原始的圖像輸入到最后的偏移的過程會產生累計誤差,因此引入偏移修正進行修正:

由于輸入圖像到不同尺寸的特征圖之間會有尺寸縮小,因此在設計特征圖時P1~P6之間都是2的倍數。假設縮小倍數是n,那么輸入圖像上的(x,y)點對應到特征圖上為

式(4)中的符號是向下取整,取整會帶來精度丟失問題,所以通過式(3)計算偏移,然后通過式(5)的SmoothL1損失函數監督學習該參數:

1.1.5 嵌入矢量

嵌入矢量:將角點配對,如果一個左上角點和一個右下角點屬于一個目標,那么它們的嵌入矢量距離較小。

嵌入矢量的訓練是由2個損失函數實現的。etk表示第k個目標的左上角角點的嵌入矢量,ek表示第k個目標的右下角角點的嵌入矢量,ek表示etk和ek的平均值。式(6)用來縮小屬于同一個目標(第k個目標)2個角點的嵌入矢量(etk,ek)距離。式(7)用來擴大不屬于同一個目標的2個角點的嵌入矢量距離。

最后的網絡損失函數為式(2)、式(5)~(7)相加的形式:

1.2 FPN網絡

2017年Lin等[11]提出了特征圖金字塔算法。FPN算法可以將淺層與深層的特征圖進行融合,利用鄰近特征圖的語義信息,通過融合上下2層的特征,得到語義信息更加豐富的特征圖供后續的檢測,通過融合這些不同層的特征圖來達到預測效果,解決了多尺度下小目標準確檢測的問題[15]。目前很多算法都引入FPN模型來提高其檢測率,例如,文獻[16]在SSD算法中引入FPN算法,在PASCAL VOC 2007數據集上平均準確率較SSD提高1.7%;文獻[17]在YOLO V3算法中引入FPN算法,在PASCAL VOC 2007數據集上平均準確率較YOLO V3提高1.58%;事實表明單一特征檢測的算法引入FPN后平均準確率有較大提升。淺層特征圖雖然具有較少的語義信息,但是保留較為準確的位置信息,而在小目標檢測中,小目標對于位置的敏感度要遠遠大于大目標。同時,對于深層的特征圖隨著特征圖的下采樣過多導致在深層特征圖豐富的語義信息中保留了大目標的特征而丟失了小目標的特征信息。文獻[13]中CornerNet僅是對一張特征圖進行檢測,其忽略了淺層特征,導致小目標效果檢測不是很理想。初期為了驗證引入FPN算法的有效性,在骨干網絡輸出一張特征圖的基礎上,增加一個淺層特征圖形成2路分支供檢測,發現準確率有所提升,從而驗證本文想法的正確性。本文基于FPN思想,充分利用CornerNet骨干網絡輸出的淺層特征圖與深層特征圖進行融合,形成語義信息更加豐富的4層與6層特征金字塔供檢測,進而提升準確率。

2 隔級融合特征金字塔與CornerNet相結合的小目標檢測模型

CornerNet模型采用Hourglass作為其骨干網絡,只用該網絡的最后輸出圖作檢測。雖然特征圖語義信息比較豐富,但是目標位置不精準。由于小目標尺寸過小,極易與背景融合,導致小目標檢測率低下[18]。針對CornerNet算法對小目標檢測出現漏檢誤檢的問題,本文將骨干網絡部分語義信息豐富且尺寸不同的特征圖提取出來。

FCOS(fully convolutional one-stage object detection)[19]算法同樣是無框檢測,該算法在引入特征金字塔的基礎上對最小的特征圖又進行了2次卷積,目的是使得可供檢測的特征圖尺度更加豐富。本文基于其再次進行卷積的思想,將特征金字塔中尺寸最小的特征圖進行2次卷積,進而得到更多尺度的特征圖為隔級融合做準備,最后將對組成特征金字塔的特征圖進行隔級融合、上下融合、旁路連接,融合后的特征圖語義信息更加豐富。

圖3為本文提出的隔級融合特征金字塔與CornerNet結合的小目標檢測模型。

圖3 隔級融合特征金字塔與CornerNet結合的小目標模型Fig. 3 Small target model based on the combination of connected feature pyramid and CornerNet

2.1 改進后的沙漏網絡

圖4為一個沙漏網絡模塊,內部大多采用殘差網絡的殘差塊進行特征提取。過程如下:對輸入的特征圖進行一系列的下采樣(紅色方塊),下采樣前分出一條之路保留上采樣前的特征圖,然后進行上采樣(藍色方塊),上采樣之后將特征圖與上一個支路處理后的特征圖進行融合,融合后再經過一個殘差塊進行特征提取,2次下采樣之間有3個殘差模塊進行特征提取。C1~C4是提取出來的特征圖,為隔級融合特征金字塔做準備。

圖4 沙漏網絡模型Fig. 4 Hourglass network model

圖5為2種殘差模塊示意圖。CornerNet中的沙漏網絡的殘差塊采用圖5(a)基本塊,其由2個3×3卷積組成。由于改進后的網絡添加了特征金字塔,導致整個模型推理速度變慢,因此本文骨干網絡中的殘差模塊采用圖5(b)中的瓶頸塊。

采用圖5(b)瓶頸塊的殘差模塊,假設輸入是一個3×3×128的特征圖,首先采用64個1×1的卷積將128通道的特征圖降到64通道,然后用3×3卷積進行特征提取,最后通過1×1卷積將特征圖恢復到128通道。此過程涉及的參數數目為1×1×128×64+3×3×64×64+1×1×64×128=53 248。如不使用1×1卷積,參考圖5(a),假設同樣輸入3×3×128的特征圖,第1步經過128個3×3卷積核,第2步再經過128個3×3卷積核對特征圖進行卷積。整體過程的參數數目為3×3×128×128×2=294 912。2種不同情況,參數數目相差5.5倍。因此,改進后的沙漏網絡在保證準確度的前提下,參數量大為減少,推理速度變快。

2.2 隔級融合特征金字塔模型

在卷積神經網絡中,網絡越深,特征圖擁有的抽象特征信息就越多。因此運用隔級連接來融合高層與低層的特征圖,融合出語義信息更豐富的特征圖,不僅能融合不同特征圖的尺度信息,還能有效融合高低層的細節信息[20]。圖6為隔級融合特征金字塔模型。

圖6中骨干網絡是沙漏網絡,特征金字塔分為3部分:自底向上部分(紅色框左半部分),中間連接部分(通過尺寸大小為1×1、通道為256的卷積核對特征圖進行卷積),隔級連接與特征融合部分(紅色框右半部分)。

具體步驟如下:

CornerNet骨干網絡由2個沙漏網絡組成。從第2個沙漏網絡后半部分中提取出不同尺寸的特征圖:C1、C2、C3、C4,其尺寸大小分別為128×128、64×64、32×32、16×16,如圖6所示。

圖5 殘差模塊Fig. 5 Residual module

圖6 隔級融合特征金字塔模型Fig. 6 Pyramid model of feature fusion

P4就是C4(文獻[13]在預處理時已經將通道卷積成256,所以不用做任何操作)。P5是由P4經過卷積核尺寸為3×3步長為2卷積得到,尺寸大小為8×8;P6由P5經過卷積核尺寸為3×3步長為2再次進行卷積得到,尺寸大小為4×4,目的是為獲得深層更加魯棒的語義信息,為接下來的隔層連接做準備。

首先P6運用雙線性內插法進行上采樣,將其尺度擴大到32×32,P4運用雙線性內插法進行上采樣,將其尺度擴大到32×32;然后用尺寸大小為1×1的卷積核改變C3的通道,使其通道數與P4保持一致;最后將處理后的3個特征圖相加得到特征圖P3(如圖藍色虛線框)并采用3×3卷積核對其卷積,目的是消除特征圖的混疊效應。P1、P2特征圖的得到的流程與P3流程一致。

對特征圖P1~P6,每一個特征圖有2個模塊:左上角和右下角的預測模塊,2個模塊的結構相同,每個預測模塊中先經過角池化,然后輸出熱圖、嵌入矢量和偏移,3個分支。

熱圖負責預測角點位置,嵌入矢量負責將角點進行配對,偏移進行位置修訂。

3 實驗及結果分析

本文實驗使用的操作系統為Ubuntu 16.04LTS,GPU為NVIDIA GeForce RTX 2080Ti,深度學習框架為pytorch1.0。

3.1 實驗數據集

為了避免過擬合,本文先采用VOC2007的部分數據集進行預訓練,然后再采用與CornerNet相同的MS COCO數據集進行實驗。MS COCO[21]數據集有80類,包含80 K的訓練集、40 K的驗證集以及20 K的測試集。

3.2 評價指標

本文目的是提升CornerNet算法的小目標準確率,因此選取MS COCO最重要的評價指標APS(小目標準確率)和AP(平均準確率)。該數據集規定目標小于32×32即為小目標,其評價指標為APS。MS COCO數據集的評價指標跟其他數據集評價指標有所不同,在MS COCO數據集中AP表示在各種閾值下的平均準確率,默認AP就是mAP,mAP @.5IoU=AP @.5IoU, mAP @.75IoU =AP@.75 IoU,以此類推。P-R曲線指的是Precision Recall(準確率?召回率)曲線。準確率:正確檢測為正占全部檢測為正的比例;召回率:正確檢測為正占全部正樣本的比例。TP:樣本為正,預測結果為正;FP:樣本為負,預測結果為正;TN:樣本為負,預測結果為負;FN:樣本為正,預測結果為負,則準確率為TP / (TP+FP),召回率為 TP /(TP+FN)。對于每一個閾值(i)都會有相應的PR曲線,對該曲線做積分(曲線下面的面積)即為在該閾值下的APi值,在MS COCO數據集中閾值一共有10個,從IoU1=0.5開始每次增加0.05直到IoU10=0.95,每一個閾值都有其相對應的APi數值,最后將10個APi值累加除以10即為MS COCO評價指標AP。

3.3 實驗結果

本文以沙漏網絡作為CornerNet的骨干網絡,采用平均準確率(AP)和小目標準確率(APS)作為主要評價指標,以傳統CornerNet算法作為基準方法,對模型各部分改進前后的效果進行比較和分析。FPN(6)參數設置方面,首先動量參數和權重衰減分別設為0.9和0.000 5,鑒于硬件設施的局限性,批次設置為16,學習率設置為0.000 25,訓練230 K次,再降低10倍學習率,訓練60 K次,當迭代290 K次時模型達到穩定。由于FPN(4)與FPN(6)采用相同的骨干網絡,因此將FPN(6)訓練好的骨干網絡參數導出并遷移到FPN(4)的骨干網絡上,動量參數和權重衰減分別設為0.9和0.000 5,批次設置為16,學習率設置為0.000 25,訓練120 K次,再降低10倍學習率,訓練30 K次,當迭代150 K次時模型達到穩定。

1)FPN層數對識別結果的影響

傳統的CornerNet算法僅對沙漏網絡輸出的一張特征圖進行檢測,本文引入FPN并進行隔級融合得到多張語義信息豐富的特征圖供檢測。本文實驗的模型有2個,一個是對P1~P4,4個特征圖進行檢測,如圖7紅色實框所示;另一個是P1~P6,6個特征圖進行檢測,如圖8紅色實框所示。通過對比2個模型最終平均準確率與小目標檢測準確率,得出層數對準確率影響的相關結論。

圖7 隔級融合特征金字塔(P1~P4)Fig. 7 Feature pyramid of interval fusion (P1~P4)

P5、P6是由P4單純進行卷積得到的特征圖,這2個特征圖是為隔級融合做準備的;但是在對這2個特征圖進行檢測時發現效果良好。表1為2種模型的實驗結果。

由表1可以看出,6層特征金字塔的平均準確率比4層特征金字塔高0.8%,小目標檢測準確率高0.9%。數據結果表明,P5、P6對目標準確率改善較為明顯。2) 實驗結果及對比

本文對當前主流的FPN進行了改進,將隔級融合特征金字塔引入CornerNet算法中。進行實驗的模型有2個,一是對P1~P4,4個特征圖進行檢測;另一個是P1~P6,6個特征圖進行檢測。表2為本文的實驗結果和其他網絡檢測結果的對比。

本文骨干網絡采用沙漏網絡,與殘差網絡系列相比,沙漏網絡能使待檢測特征圖的語義更加豐富。通過對比結果可以看出,CornerNet模型中引入隔級融合特征金字塔對準確度有較好地提高;FPN(4)平均準確率為43.5%,較CornerNet算法提高2.9%;FPN(4)在小目標準確率上較Corner-Net算法提高2.9%。FPN(6)平均準確率為44.3%,較CornerNet算法提高3.7%。FPN(6)在小目標準確率上較CornerNet算法提高4.2%。FPN(6)與一階段系列代表SSD513對比,平均準確率提高13.1%,與二階段系列代表Faster R-CNN w FPN對比,平均準確率提高8.1%。

圖8 隔級融合特征金字塔(P1~P6)Fig. 8 Feature pyramid of interval fusion (P1~P6)

表1 MS COCO數據集不同FPN層數檢測準確率Table 1 Detection accuracy of different FPN layers in MS COCO dataset %

表2 MS COCO數據集不同算法檢測準確率對比Table 2 Comparison of detection accuracy of different algorithms in MS COCO dataset %

數據結果表明,引入隔級融合特征金字塔對小目標準確率的提高有較大作用。相較于其他算法,本算法模型的主要特點是待檢測的特征圖語義信息更加豐富。無論是Faster R-CNN系列算法還是RetinaNet算法,盡管都采用了FPN,但是由于語義信息不夠豐富,導致算法在小目標檢測準確率以及平均準確率方面并不是很出色。隔級融合特征金字塔運用在其他算法上可能也會提高檢測準確率。

為驗證本文算法檢測小目標的有效性,挑選了含有被云遮蓋、邊緣信息模糊、目標相對較小的圖進行了測試對比。通過圖9、10可以看出,隔級融合特征金字塔與CornerNet相結合的算法模型對物體的識別置信度更高、定位更加準確,并且能夠識別出不易被人眼察覺的小目標,特別是對背景復雜、遮擋、目標尺寸較小等因素造成的漏檢,改善效果較為顯著[22]。

圖9 傳統CornerNet識別結果Fig. 9 Recognition results of traditional CornerNet

圖10 改進后模型識別結果Fig. 10 Improved model recognition results

4 結束語

針對CornerNet模型對小目標檢測平均準確率低的問題,提出了一種隔級融合特征金字塔與CornerNet相結合的識別方法,骨干網絡Hourglass中引入參數量更小的瓶頸殘差模塊以縮短網絡的推理時間。與傳統的特征金字塔旁路連接、上下融合不同,引入隔級融合特征金字塔,得到語義信息更豐富的多尺度特征圖。經過實驗對比,本文4層FPN模型與6層FPN模型相較于傳統CornerNet算法具有較好的定位和識別準確度,尤其是6層FPN模型較傳統CornerNet算法在小目標準確率方面提高4.2%,平均準確率方面提高3.7%,表明了本文所提出模型的有效性。

猜你喜歡
特征融合檢測
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 伊在人亚洲香蕉精品播放| 久久精品人人做人人| 国产精品视频观看裸模| 国产自在线拍| 看你懂的巨臀中文字幕一区二区 | 波多野结衣一二三| 中文字幕永久在线观看| 欧美中文字幕一区| 91久久夜色精品| 99精品在线视频观看| 日本高清成本人视频一区| 久久semm亚洲国产| 国产高清不卡视频| 亚洲永久视频| 久久精品66| 乱人伦中文视频在线观看免费| 免费在线a视频| 欧美日韩一区二区在线免费观看 | 日韩AV无码一区| 免费女人18毛片a级毛片视频| 中文精品久久久久国产网址| 一级毛片免费不卡在线| 天天躁夜夜躁狠狠躁躁88| 久久亚洲综合伊人| 欧美第二区| 国产精品丝袜在线| 成人国产精品视频频| 欧美性猛交一区二区三区| 国产亚洲精品97在线观看| 亚洲天堂视频网站| 久久精品国产精品国产一区| 亚洲无码熟妇人妻AV在线| 91无码人妻精品一区| 国产色婷婷视频在线观看| 亚洲系列无码专区偷窥无码| 国产丝袜啪啪| 影音先锋丝袜制服| 亚洲天堂视频在线免费观看| 亚洲国产综合第一精品小说| 国产无码在线调教| 欧美日本视频在线观看| 亚洲综合久久一本伊一区| 日韩乱码免费一区二区三区| 亚洲视频二| 九色91在线视频| 久久一色本道亚洲| 日韩国产亚洲一区二区在线观看| 日韩高清无码免费| 国产va欧美va在线观看| 久久情精品国产品免费| 中日韩欧亚无码视频| 国禁国产you女视频网站| 丁香六月综合网| 91极品美女高潮叫床在线观看| 日韩欧美国产成人| 91精品啪在线观看国产91九色| 四虎影视国产精品| 日韩精品久久久久久久电影蜜臀| 99性视频| 99久久精品国产综合婷婷| 伊人久久综在合线亚洲2019| 亚洲欧美综合在线观看| 波多野结衣中文字幕一区| 97在线观看视频免费| 人人91人人澡人人妻人人爽| 亚洲国产精品成人久久综合影院| 亚洲va欧美ⅴa国产va影院| 国产精品视频观看裸模 | 亚洲人成网站日本片| 午夜欧美理论2019理论| 日韩一区二区三免费高清| 国产综合精品日本亚洲777| 999精品视频在线| 欧美黄网在线| 亚国产欧美在线人成| 视频二区国产精品职场同事| 91免费国产在线观看尤物| 尤物国产在线| 亚洲精品你懂的| 久久久久人妻精品一区三寸蜜桃| 欧美国产在线精品17p| 在线看免费无码av天堂的|