999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于空洞卷積金字塔的目標檢測算法

2021-12-02 06:41:40候少麒殷康寧劉學婷殷光強
電子科技大學學報 2021年6期
關鍵詞:特征檢測信息

候少麒,梁 杰,殷康寧,劉學婷,殷光強

(1. 電子科技大學信息與通信工程學院 成都 611731;2. 電子科技大學信息與軟件工程學院 成都 610054)

目標檢測是現實生活中最廣泛的應用之一,其任務在于關注圖片中的特定目標。一般來說,通用性目標檢測包含兩個子任務:一是判定特定目標的類別概率,二是給出該目標的具體位置。目標檢測在實際應用中有著非常重要的作用,可以運用于人臉識別、行人重識別、工業檢測、車牌號識別、醫學影像等具體場景,涉及安防領域、工業領域、軍事領域、交通領域、醫療領域和生活領域等。隨著機器學習的蓬勃發展,普通場景下目標檢測的精度已經很高,但針對復雜環境下目標數量眾多、目標尺度多變、目標遮擋嚴重等問題,仍是國內外科研人員的研究重點[1]。

傳統的基于手工特征構建的目標檢測算法過程復雜、計算量大,但為目標檢測的發展奠定了理論基礎。作為傳統領域最經典的算法,文獻[2]的目標檢測器通過多尺度滑動窗口來生成可能存在的具有不同寬高比的目標區域,再利用模板進行目標匹配。另外一個與之相似的傳統方法是利用梯度直方圖(histogram of oriented gradient, HOG)[3]特征和支持向量機(support vector machine, SVM)[4]來進行目標分類。

隨著計算機視覺技術的長足發展,基于深度學習的目標檢測開始成為研究熱門。在2012 年ImageNet競賽上取得冠軍的AlexNet[5],是首個在大規模圖像識別問題取得突破性進展的深度神經網絡,并由此開啟了深度神經網絡在計算機視覺領域的廣泛應用。基于深度神經網絡的目標檢測算法按照處理分類和回歸的方法差異,又可劃分為單階段(one stage)和兩階段(two stage)兩大派系。

兩階段算法中,以RCNN[6]為代表的目標檢測算法,其核心是采用區域提議方法,對輸入圖像進行選擇性搜索并生成區域建議框,然后對每一個區域建議框使用卷積神經網絡(convolutional neural networks, CNN)提取特征,再使用分類器進行分類。該類方法最大的短板是冗余框的重復計算,導致最快的算法[7]在GPU 上也只有7 幀/s 的推理速度。另一類單階段目標檢測算法是以YOLO[8-10]和SSD[11]為代表的基于直接回歸的算法。這類算法將單個神經網絡應用于整幅圖像,并在最終的特征圖上劃分網格區域,同時預測每個區域的邊界框和目標概率,在犧牲一定精度的同時大大減少了重復計算。

經過一系列的變種,這兩類方法的共同點逐漸演變為在檢測過程中都需要預先生成大量錨框(anchor),這些算法統稱為基于錨框(anchor based)的目標檢測算法。錨框是在訓練之前,在訓練集上利用聚類算法得出的一組矩形框,代表數據集中目標主要分布的長寬尺寸。在推理時先在特征圖上由這些錨框提取n個候選矩形框,再對這些矩形框做進一步的分類和回歸。相對Two Stage 算法來說,對候選框的處理依然經過前背景粗分類和多類別細分類兩步。

單階段目標檢測算法由于缺少了兩階段算法的精細處理,在面對目標多尺度、遮擋等問題時表現不佳。另外,Anchor Based 算法雖然在一定程度上緩解了選擇性搜索帶來的候選框計算量爆炸的問題,但每個網格中大量不同尺寸錨框的生成仍然造成了計算冗余,最重要的是錨框的生成依賴于大量的超參設置,手動調參會嚴重影響目標的定位精度和分類效果。

針對以上問題,本文提出了一種基于空洞卷積金字塔的目標檢測算法(atrous convolution embedded feature pyramid network, ACFPN),能夠有效地解決因尺度和遮擋引起的漏檢、錯檢問題,主要創新點如下:

1)設計多尺寸的空洞卷積構成的混合感受野模塊(hybrid receptive field module, HRFM),結合特征金字塔多尺度輸出特性,在控制模型參數量的條件下,增大感受野獲取更多全局特征細節信息,以解決目標的遮擋問題;

2)改進特征金字塔網絡的結構,提出了低層嵌入特征金字塔模塊(lower embedding feature pyramid module, LEFPM),解決目標檢測在處理多尺度變化上不足,融合淺層特征信息和高層特征信息,并在融合后的輸出增加歸一化處理和激活函數,優化模型訓練;

3)引入Anchor Free 機制,結合上述兩點設計,減少冗余候選框帶來的無效計算,提高了定位精度,有效解決漏檢等問題。

1 相關工作

1.1 特征金字塔

很多傳統目標檢測方法都會使用圖像金字塔來解決目標的多尺度問題。圖像金字塔首先將不同尺寸的圖片分別輸入網絡中得到對應尺寸的特征圖,然后對這些不同尺寸的特征圖進行預測。這種方法雖然可以在一定程度上應對尺寸變化,但是帶來了成倍的計算量。進入深度學習時代后,目標檢測器在精度方面取得了顯著提高,文獻[12]提出了SPPNet,該算法使用空間金字塔池化策略,對輸入任意尺寸圖像都能夠產生固定大小的特征圖。早期基于深度模型的檢測器只在網絡的頂層進行檢測,特征單一且適應性差。文獻[13]基于Faster RCNN[7]提出了特征金字塔網絡(feature pyramid network, FPN),FPN具有橫向連接的自頂向下體系結構。本文改進特征金字塔網絡結構,提出了LEFPM 模塊。兩者結構對比如圖1 所示。用于在所有級別特征中構建高級語義信息,由于在檢測多尺度目標時效果顯著,FPN 已經成為眾多深度檢測器的標準配置。

圖1 兩種特征金字塔的結構對比

1.2 空洞卷積

在空洞卷積出現之前,研究人員普遍通過降采樣方式來間接增大感受野,降采樣方式會丟失大量有用信息,還易造成特征圖分辨率的急劇下降。2016 年,文獻[14]在圖像分割領域提出了空洞卷積模型,有效解決了這一難題。

空洞卷積是通過在標準卷積中進行零填充的方式,擴大卷積核的尺寸,使其能夠更好地捕獲特征圖的上下文信息。空洞卷積的尺寸通過調整空洞率(atrous rate, ar)來實現,空洞率即為在卷積核相鄰參數中填充(ar-1)個0。同樣的,標準卷積可以看做空洞卷積在ar 為1 時的特殊形式。

空洞卷積的輸出定義為:

式中,H、W分別表示輸入圖像(或前一層特征圖)的長和寬;x(i,j)表示該輸入圖像上(i,j)位置的像素值(特征值);ar 表示空洞率;y(i,j)表示該輸入圖像經過空洞卷積后的輸出。

空洞卷積可以在不損失特征圖分辨率的情況下,有效聚合圖像全局特征信息,從而增加其感受野,解決目標的遮擋問題。同時因為其填充值為0,所以不會增加額外的計算開銷。

1.3 Anchor Free 機制

由于密集的錨框可有效提高待測目標的召回率,加之操作簡單,現階段基于Anchor Based 的目標檢測算法依然占據著深度目標檢測算法的主流,包括最經典的Fast R-CNN[15]、SSD[11]、YOLOv2[9]、YOLOv3[10]等目標檢測算法。

然而在基于Anchor Based 的檢測機制中,相關超參的設置嚴重依賴較強的先驗知識。同時,根據預設產生的冗余框非常多,使得正負樣本嚴重不平衡。因此,Anchor Free 方法被越來越多的研究者探索。YOLOv1[8]在目標中心附近的點處預測邊界框實現了Anchor Free,遺憾的是,其后續版本為了追求高召回率,依然采用了Anchor Based 路線。在Anchor Free 算法中,基于關鍵點的方法(如CornerNett[16]和CenterNet[17])本質上都是密集預測的手段,龐大的解空間使得簡單的Anchor Free方法容易得到過多的誤檢,而獲得高召回率、低精確率的檢測結果。

FCOS[18]方法從像素點入手,一方面通過重新賦予權重來提高檢測質量,另一方面通過加入FPN 在一定程度上緩解了高度重合帶來的影響。

2 基于空洞卷積金字塔的目標檢測算法

2.1 整體框架

本文的ACFPN 算法以一階段全卷積目標檢測算法FCOS 為基準(Baseline),并引入了FCOS 特有的Achor Free 機制。ACFPN 主要由4 部分組成:主干網絡、LEFPM、HRFM、檢測模塊,如圖2 所示。其中,LEFPM 和HRFM 兩個模塊都作用于主干網絡所產生的特征圖,并在整個架構中執行不同的功能。

圖2 本文ACFPN 的整體結構

正如圖2 的結構所示:首先,主干網絡對待檢測圖片進行卷積處理,生成具有不同高、低級特征信息的特征圖;其次,頂層特征圖C5 經過HRFM進一步處理,并和其他特征圖一起送入LEFPM中;然后,LEFPM 通過一系列細節操作,將特征圖的高、低層信息進行充分融合,并將融合后的特征圖輸入到最后的檢測模塊中;最后,檢測模塊借助不同尺度子網絡的組合設計,對不同尺度的待檢測目標分別進行分類和定位。

特別地,本文主干網絡采用新的多尺度結構Res2Net50[19]替換原FCOS 的ResNet50。相比于ResNet50,Res2Net50 在給定冗余塊中使用了分層級聯特征組取代了通常的單個3×3 卷積層,如圖3所示,該特征組在網絡寬度、深度和分辨率等方面有更多的優化。

圖3 ResNet 和Res2Net 主干網絡對比

2.2 混合感受野模塊(HRFM)設計

眾多研究表明,使用單一尺寸的空洞卷積會引起網格效應[20],即空洞率過大時,卷積會因為插入0 值而導致過于稀疏,難以捕獲關鍵信息,不利于小目標檢測。

為充分利用密集矩陣的高計算性能,文獻[21]率先提出用密集成分來近似或者代替最優的局部稀疏結構。2017 年是空洞卷積和多尺度密集結構快速發展的一年:為減少信息損失,文獻[22]提出使用不同尺寸的卷積層特征圖融合成具有全局信息的特征表示方法;文獻[23]模擬人類視覺的感受野,通過在InceptionNet[21]中引入空洞卷積,加強網絡的特征提取能力;文獻[24]在人臉檢測中也將多尺度密集連接引入上下文信息模塊,以解決人臉的遮擋問題。

受以上思想的啟發,本文設計了HRFM 通過將不同空洞率的空洞卷積層并行獲取的特征圖拼接在一起,提高網絡對全局特征的獲取能力,彌補單一空洞卷積引起的網格效應。不同于InceptionNet和RFBNet,本文的HRFM 全部使用空洞卷積層。

經過大量實驗,發現空洞卷積對頂層特征圖的感受野影響最大,為了充分發揮HRFM 的性能,特別將HRFM 嵌入在C5 和P5 之間。

由圖4 所示,HRFM 由4 個分支組成,一個1×1 的卷積層分支,3 個空洞率分別為ar=1, 2, 4的3×3 卷積層分支。ar=4 的3×3 空洞卷積層能夠獲取更多全局性的上下文特征細節,增強推理能力,解決目標遮擋問題;不同空洞率的卷積層使用,提高了模型對不同尺度目標的適應性;特別地,在拼接后的特征圖后,采用1×1 的卷積層進行特征信息融合,并將通道維度降低至指定數量,提高了HRFM 模塊的靈活性。

圖4 HRFM 的結構

1×1 的卷積層可以在不改變特征圖尺寸的情況下,盡可能地保留圖像的細節信息,同時可以控制特征圖的通道數,減少后續的計算量;3×3 的卷積層具有較小的參數,既可以對特征信息進行加工,又進一步減少了網絡的計算;空洞卷積能夠獲取更多全局特征細節信息,增強推理能力,對遮擋目標有很好的識別能力,不同空洞率的設置在消除網格效應的同時,也提高了模型對多尺度目標的適應能力。

2.3 低層嵌入式特征金字塔模塊(LEFPM)設計

研究發現,單階段目標檢測算法無法用單一維度特征圖同時有效地表征各個尺度的物體,這類的目標檢測算法通常只采用頂層特征做預測。FPN 結構提出具有橫向連接的自頂向下架構,雖然將較高層的語義信息引入到當前層特征圖,但組合后的復合特征圖仍然存在兩個問題:

1) FPN 構建用于檢測的特征圖時,并未考慮來自較低層的特征信息。較高層特征圖雖然包含更強的語義信息,但由于被多次下采樣和上采樣,包含的位置信息大量缺失。而較低層特征含有更精細的信息,這對于定位和檢測小尺度物體很有幫助;

2) FPN 產生的復合特征圖既作為高層語義信息向下傳遞,同時又用于檢測,這樣使用復合特征圖并不合理,因為復合特征圖承擔了過多的任務。

本文提出的LEFPM 在FPN 的基礎上,通過低層嵌入的方式,進一步充分融合低層細節信息,以實現對多尺度目標檢測效果和定位精度的雙提升。

如圖5 所示,其中C5′是C5 經過HRFM 處理后的特征圖,復合卷積層由3×3 卷積層、BN 層和LeakyReLU 激活層級聯而成,目的是加工融合后的特征、優化模型訓練,并提高特征的非線性表達能力。

圖5 本文LEFPM 結構圖

LEFPM 的設計思想是,首先將當前層特征圖與經過通道壓縮和上采樣后的高層特征圖相融合(逐元素逐通道相加),形成復合特征圖,完成高層語義信息的嵌入;其次,復合特征圖和經過下采樣的低層特征圖相融合,形成混合特征圖,完成低層細節信息的嵌入;最后,各混合特征圖經過設計的復合卷積層后,生成最終的待檢測特征圖并進入下一模塊。以圖5 中各符號為例,具體的操作步驟為:

結構:LEFPM

輸入:C3, C4, P5′

1) P4′經過1×1 卷積下采樣后與P5′融合生成x,x經過復合卷積層后生成P5;

2)x經過插值上采樣后與C4 融合,融合后的特征圖與C3(先經過1×1 卷積層下采樣)相加生成y,y經過復合卷積層后生成P4;

3)y經過插值上采樣后與C3 融合生成z,z經過復合卷積層后生成P3。

輸出:P3, P4, P5

3 實驗與分析

3.1 數據集和評價指標

3.1.1 數據集

PASCAL VOC 挑戰賽[25]是一個世界級的計算機視覺比賽,包含目標分類、目標檢測、目標分割動作分類等多個子任務。VOC2007 和VOC2012 是目標檢測子任務的兩個基準數據集,共包含人、貓、汽車等20 個類別,每個版本的數據集都采用統一的制作方式,并按照1:1:2 的比例分別劃分為訓練集、驗證集和測試集,具體的圖片和目標數量見表1。

表1 VOC 數據集信息

3.1.2 評價指標mAP

IoU(intersection-over-union)為目標預測框和真實框的交集和并集的比值:

若設定IoU 的閾值為A,當一個預測框與一個真實框的IoU 值大于該閾值時,判定為真正例(true positive, TP),反之則判定為假正例(false positive,FP)。

精確率(precision)是指預測為正樣本的數據中,真正例所占的比重。召回率(recall)是指在實際為正樣本的數據中,判定為真正例的比重。二者分別作為縱、橫坐標組成P-R 曲線,曲線下的面積稱為平均精確率(average precision, AP),是對不同召回率點上精確率的積分和。AP 的值越大,說明模型的平均精確率越高:

一般的,數據集中會包含多種類別,按照類別進行算術平均后的精確率被稱為平均精確率均值(mean average precision, mAP):

3.2 損失函數

本文定義訓練損失函數如下:

3.3 參數設置

在本實驗中,輸入到模型的圖像大小設為512×800,在將圖像輸入到網絡之前,對圖像數據進行歸一化增強處理;為加快收斂,訓練時Res2Net50 加載官方給出的預訓練模型;訓練優化器采用隨機梯度下降策略(stochastic gradient descent,SGD)[28]更新網絡參數,其中動量(momentum)和權值衰減(weight decay)參數分別設為0.9 和0.000 1;學習率(learning rate)的變化采用預熱(warm up)策略[29],減緩模型在訓練初期對小批量(mini-batch)樣本的過擬合現象,也有助于保持模型深層的穩定性,初始學習率為0.01,結束學習率為0.000 01;后處理NMS-IoU 的閾值設置為0.6;在Qurdro RTX 8000上單卡(內存48 G)訓練30 個周期(Epochs)后結束。

3.4 消融實驗

本 文 以FCOS 為Baseline, 在VOC2007 和VOC2012 的訓練+驗證集上進行訓練,在VOC2007的測試集上進行驗證,分別驗證提出模塊的有效性。

如表2 所示,本文通過3 組遞進實驗,逐一驗證各模塊的有效性。首先,只將預訓練的Res2Net50替換原Baseline 中的ResNet50,由第一組實驗可知,替換后的模型有0.7%的精度提升,而參數量只有很微小的增加,證明了Res2Net50 在特征提取上的有效性;其次,在第一組實驗的基礎上,加入本文提出的HRFM,由第二組實驗可知,加入HRFM 后的模型精度提升明顯,由79.4%提升到84.4%,充分證明增強頂層特征圖的感受野可以有效解決目標遮擋問題,同時對大尺度目標具有較強的適應性;最后一組實驗中,本文將改進后的LEFPM 取代Baseline 中的FPN。改進后的模型精度比第二組實驗提高了2%,相比原Baseline 在mAP 上高出7.6%(如圖6 所示,在各個類別上相較于Baseline 也有顯著提升),表明低層特征信息對小尺度目標檢測非常重要,也為多尺度融合方式提供了參考。另一方面,在引入“Res2Net50”“LEFPM”“HRFM”3 個模塊后,本文ACFPN算法的參數量僅僅比原Baseline 增加了0.7 Mb,從側面反應出引入的特征增強模塊并沒有增加模型整體的復雜程度和計算量。

圖6 各類別檢測精度對比圖

表2 本文提出模塊的性能對比

接下來,本文通過對Loss 進行畫圖分析,進一步比較所提出方法較原Baseline 方法的優越性。

由圖7 可以看出,本文的ACFPN 與原Baseline相比,Loss 下降迅速,在經過約80 次迭代之后,Loss趨于穩定水平。充分證明主干網絡Res2Net50 的引入,有效提高了模型的收斂速度和收斂性。

圖7 Loss 曲線圖

綜合表2 和圖7 可知,提出的HRFM 和改進的LEFPM,得益于對卷積核尺寸和通道數約束的有效設計,在對模型精度提升的同時,并未產生較多的參數量。Res2Net 中分層級聯的設計模式,使得在保持提取特征有效性的同時,加快了梯度的反向傳播。

3.5 算法對比

為了證明ACFPN 的整體有效性,本文選取了一系列頂會論文中具有代表性的算法進行對比,結果如表3 所示,其中NAS Yolo 是PASCAL VOC Challenge 榜單上的Top 1 解決方案[30]。

選取表3 中對比算法的原則如下:

表3 各算法精度對比

1) 2018 年以后文獻中出現的優秀檢測算法;

2)在權威VOC 測試集上進行過測試。

由表3 所示,本文列出了近3 年間頂會論文中,各方法在VOC 數據集上的測試結果。可以看出,本文提出的ACFPN 在精度上超越了各論文方法,比最好的論文方法PFPNet 在mAP 上高出2.3%,距離非論文方法NAS Yolo(榜單Top1)相差僅僅0.1%,充分證明了本文ACFPN 方法的有效性和優越性。

3.6 算法效果展示

由檢測效果圖8 所示,本文的ACFPN 方法對比原Baseline (FCOS)方法,具有以下明顯優勢:

圖8 檢測效果對比圖

1)定位框的位置更加精準;

2)召回率更高;

3)多尺度目標檢測、遮擋目標檢測效果顯著。

4 結 束 語

針對目標檢測領域普遍存在的遮擋和多尺度問題,本文提出了一種基于空洞卷積特征金字塔的目標檢測算法。利用空洞卷積可以有效增大感受野的優點,設計了混合感受野模塊HRFM,采用多種不同尺寸的空洞卷積層密集連接,有效規避了單一空洞卷積造成的網格效應;在現有FPN 的基礎上重新構建網絡結構,將低層特征圖包含的細節信息嵌入到高層語義信息中,彌補算法對小目標物體的漏檢缺陷,進一步提高目標定位的準確率。特別地,在主干部分,ACFPN 將Res2Net50 代替了常用的ResNet50,在增強特征表征能力的同時加快了模型收斂速度。Anchor Free 機制可以有效降低候選框的冗余,從而提高定位精度,本文將FCOS 的這一機制保留。通過在VOC 數據集上進行測試,本文的ACFPN 可以達到86.4%的mAP。本文方法為接下來行人重識別任務的開展提供了部分解決思路。

猜你喜歡
特征檢測信息
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
小波變換在PCB缺陷檢測中的應用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 午夜一区二区三区| 成人午夜福利视频| 麻豆a级片| 国产亚洲男人的天堂在线观看| 黄色国产在线| 欧美一级视频免费| 三级视频中文字幕| 精品成人一区二区三区电影| 国产精品深爱在线| 最近最新中文字幕在线第一页| 精品一区二区三区波多野结衣| 日韩欧美中文在线| а∨天堂一区中文字幕| 国产成人精品一区二区免费看京| 国产成人久久综合777777麻豆 | 国产精品九九视频| 男人天堂伊人网| 日韩东京热无码人妻| 四虎精品国产AV二区| 在线观看无码a∨| 国产精品亚洲一区二区三区z| 亚洲欧洲自拍拍偷午夜色无码| 亚洲第一页在线观看| 青青极品在线| 天天躁夜夜躁狠狠躁图片| 日韩午夜伦| 黄色网站在线观看无码| 操国产美女| 久久www视频| 国产精品护士| 日韩欧美中文亚洲高清在线| 欧美成人aⅴ| 色综合激情网| 婷婷综合亚洲| 欧美成在线视频| 91在线视频福利| 国产原创演绎剧情有字幕的| 男女性午夜福利网站| 另类综合视频| 青青草原国产精品啪啪视频| 在线永久免费观看的毛片| 激情视频综合网| 中文字幕久久亚洲一区| 极品私人尤物在线精品首页| 亚洲人网站| 这里只有精品国产| 色爽网免费视频| 日韩A级毛片一区二区三区| 在线观看亚洲人成网站| 国产精品熟女亚洲AV麻豆| 成人第一页| 国产在线第二页| 欧美日韩亚洲国产| 色偷偷男人的天堂亚洲av| 成年女人18毛片毛片免费| 夜夜操国产| 国产91熟女高潮一区二区| 久久精品午夜视频| 中文字幕2区| 亚洲an第二区国产精品| 亚洲AV无码乱码在线观看代蜜桃| 亚洲精选无码久久久| 日本尹人综合香蕉在线观看| 午夜欧美在线| 99久久精品免费看国产免费软件| 婷婷亚洲综合五月天在线| 国产第一页免费浮力影院| 国产精品美女自慰喷水| 色婷婷成人| 欧美影院久久| AV色爱天堂网| 国产欧美中文字幕| 香蕉eeww99国产在线观看| 久草青青在线视频| 永久毛片在线播| 91久久夜色精品| 亚洲成人高清无码| 最新加勒比隔壁人妻| 又爽又大又光又色的午夜视频| 又猛又黄又爽无遮挡的视频网站| 色综合天天综合中文网| 9啪在线视频|