鄧續(xù)方,吳 強,周文正
(1.河南林業(yè)職業(yè)學院 信息工程系,河南 洛陽 471002;2.鄭州大學 信息工程學院,河南 鄭州 450001;3.中國空間技術(shù)研究院西安分院,陜西 西安 710100)
目標檢測作為計算機視覺領(lǐng)域的基礎(chǔ)任務(wù),是解決目標跟蹤、場景理解、圖像描述和事件識別等更高層次視覺任務(wù)的基石[1],廣泛應(yīng)用于軍工、醫(yī)療、工業(yè)、交通和安防等領(lǐng)域[2]。目標檢測技術(shù)主要分為圖像分類和目標定位2個子任務(wù),利用圖像特征信息計算各目標類別置信度并對其位置進行回歸實現(xiàn)檢測[3]。隨著實際檢測場景逐漸復(fù)雜,目標在圖像中的大小、數(shù)量以及姿態(tài)等愈發(fā)多樣化,使得目標檢測效果受到了較大的影響[4-5]。因此,如何針對復(fù)雜場景下的目標特征,設(shè)計一種高性能的目標檢測方法,對目標檢測的理論豐富以及實際應(yīng)用都有較大推動作用。
目標檢測技術(shù)的發(fā)展大致分為傳統(tǒng)方法和深度學習方法2個階段[6],傳統(tǒng)方法主要通過區(qū)域選擇、特征提取以及目標分類實現(xiàn)檢測,雖然具有較強的可解釋性,但魯棒性較差,僅適用于特定目標和場景[7-8]。深度學習利用海量參數(shù)學習提取圖像中穩(wěn)定性且泛化性較高的特征,再結(jié)合高性能分類器,使目標檢測性能得到了較大突破[9]。文獻[10-11]針對目標檢測任務(wù)提出了基于先驗框(Anchor-base)的RCNN系列網(wǎng)絡(luò),通過兩步走策略先提取目標推薦區(qū)域再進行目標分類,雖檢測精度高,但所需算力過大,無法較好地應(yīng)用于邊緣設(shè)備中。文獻[12-13]為緩解RCNN系列網(wǎng)絡(luò)高計算量的問題,移除了候選區(qū)域提取步驟,提出了單階段端到端訓練的YOLO系列網(wǎng)絡(luò),雖在一定程度上提升了效率,但其預(yù)測方式容易造成小面積目標漏檢。Law等[14]將目標檢測看作關(guān)鍵點檢測問題,提出了無需引入先驗框(Anchor-free)的CornerNet網(wǎng)絡(luò),進一步提升了檢測器速度,但由于解空間過大,使得誤檢目標較多。可見,現(xiàn)階段的目標檢測方法仍存在一定局限,檢測性能仍有較大的提升空間。
針對上述基于深度學習的目標檢測算法存在的不足,本文在總結(jié)前人研究的基礎(chǔ)上,提出了一種基于分組注意力和高斯多尺度的目標檢測方法。本文主要工作如下:
① 設(shè)計了一種由粗到精的特征提煉結(jié)構(gòu),以深度可分離卷積、注意力機制以及多維特征交互卷積等方式充分提取目標特征;
② 提出了基于分組卷積的注意力模塊,根據(jù)通道特征相似性對不同目標特征分組,再分別利用空間注意力機制增強目標位置信息,使網(wǎng)絡(luò)能更好地聚焦目標相關(guān)特征;
③ 引入了高斯多尺度空間特征融合結(jié)構(gòu),保障網(wǎng)絡(luò)計算效率的同時提升單階段網(wǎng)絡(luò)對不同尺度目標的識別效果。
所提目標檢測網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示,網(wǎng)絡(luò)主要分為特征提取、分組注意力機制以及高斯多尺度融合三部分。特征提取采用由粗到精的提取策略,以深度可分離卷積結(jié)合跨層融合方式保障目標信息充分提取;分組注意力機制根據(jù)特征相似度對不同目標特征進行分組,再針對每組特征利用空間注意力機制增強各目標所在位置特征的信息;高斯多尺度融合將各維度特征融合后利用高斯模糊算法實現(xiàn)多尺度變換,并結(jié)合相應(yīng)維度特征實現(xiàn)對不同尺度目標的檢測。

圖1 目標檢測網(wǎng)絡(luò)整體結(jié)構(gòu)Fig.1 Overall structure of object detection network
特征提取結(jié)構(gòu)針對目標基礎(chǔ)特征和關(guān)鍵特征依次進行提取,其中基礎(chǔ)特征主要通過骨干結(jié)構(gòu)進行提取。骨干結(jié)構(gòu)分為輸入模塊以及多個不同維度的特征提取單元首尾串聯(lián)構(gòu)成,輸入模塊主要考慮到目標所處場景存在較多光線過亮或過暗的圖像,若直接基于原圖進行卷積計算,容易增加后續(xù)特征提取難度。因此,該模塊在原始RGB圖像基礎(chǔ)上設(shè)計了如圖2(a)所示圖像增強過程來突出目標,主要通過灰度化綜合RGB三通道信息后再利用直方圖均衡化算法提升圖像對比度,降低光照對目標的影響;同時,為避免圖像增強過程對正常目標的影響,將原圖、灰度圖以及均衡化后的圖像進行拼接后作為后續(xù)模塊輸入,使網(wǎng)絡(luò)保留原始信息的同時突出復(fù)雜環(huán)境下的目標特征。特征提取單元串聯(lián)結(jié)構(gòu)如圖2(b)所示,主要由一系列高效率的卷積單元堆疊構(gòu)成,由淺到深地提取目標特征信息。同時,受文獻[15-16]網(wǎng)絡(luò)結(jié)構(gòu)啟發(fā),深層特征采用大卷積核可更好地提升網(wǎng)絡(luò)性能,故特征提取骨干結(jié)構(gòu)對最深層次的維度特征采用5×5卷積核,其他層次采用3×3卷積核。卷積單元詳細結(jié)構(gòu)如圖2(c)所示,主要以深度卷積、點卷積結(jié)合hard-Swish激活函數(shù)構(gòu)成,使網(wǎng)絡(luò)保證計算效率的同時盡可能地捕獲目標信息。而不同維度的特征提取單元之間采用步長為2的3×3標準卷積來綜合所有通道特征進行連接,如圖2(c)中虛線所示。

圖2 特征提取骨干結(jié)構(gòu)模塊Fig.2 Feature extraction backbone structure module
為了更好地突出目標特征,本文設(shè)計了如圖3所示的分組注意力機制,同時結(jié)合跨層特征融合結(jié)構(gòu)進一步提煉目標信息。

圖3 分組注意力機制Fig.3 Group attention mechanism
分組注意力機制以每個維度特征提取單元最后一層輸出特征作為輸入,利用全局平均池化獲取通道特征全局信息后,將特征均值進行聚類分組(通常同一目標通道特征均值相似),分組計算方式如式(1)~式(3)所示;然后,針對每組特征,從空間位置角度利用均值、最大值以及標準差分別獲取該組特征中每個位置的全局信息,再通過1×1點卷積和K×K標準卷積來綜合空間及鄰域信息后輸出每個位置權(quán)重,K值根據(jù)當前特征圖大小自主調(diào)整,計算方式如(4)所示。同時,為提升各維度特征交互,將分組注意力處理后的特征以圖1提煉層所示的連接方式對目標信息深入挖掘,使各維度特征充分融合目標全局以及局部信息,進而提升網(wǎng)絡(luò)表達能力。
式中:X表示輸入的特征,Avg表示求均值,Sort表示對值排序,index表示排序后記錄對應(yīng)特征索引,Y表示排序后的特征,式(1)表示計算特征圖均值后進行排序并記錄對應(yīng)排序索引供后續(xù)分組使用;NX表示輸入特征通道數(shù)量,NC表示目標總數(shù),NG表示特征分組數(shù)量,式(2)表示根據(jù)目標類別總數(shù)對當前特征通道進行分組;Y[0∶NG]表示對排序后的前NG個通道特征作為一組,以此類推,將特征分為NG組后再分別進行空間位置增強,式(3)表示根據(jù) 式(1)的特征排序索引對特征進行分組;d表示特征圖長邊像素長度,odd表示取奇數(shù),式(4)根據(jù)當前特征維度動態(tài)調(diào)整鄰域范圍。
對于網(wǎng)絡(luò)檢測部分,考慮到目標大小、姿態(tài)多樣化,為保證各個目標都能被準確識別,需要綜合不同尺度的目標信息,基于此,本文設(shè)計了高斯多尺度融合結(jié)構(gòu),如圖4所示。

圖4 高斯多尺度融合結(jié)構(gòu)Fig.4 Gaussian multi-scale fusion structure
所提高斯多尺度結(jié)構(gòu)以注意力機制提煉后的特征為輸入,將各尺度特征采樣至注意力提煉層3的維度后利用可訓練的參數(shù)進行自適應(yīng)加權(quán)融合,如圖4(a)所示,融合方式如式(5)所示;然后,基于融合后的特征利用高斯模糊算法構(gòu)建特征金字塔,如圖4(b)所示,高斯模糊算法如式(6)和式 (7)所示;最后,將高斯金字塔特征結(jié)合對應(yīng)的提煉層特征進行融合檢測。通過高斯金字塔方式雖弱化了部分目標特征,但有效降低了冗余計算且保留了目標多尺度信息。
式中:feature3表示表示提煉層3的維度,i表示除feature3外的其他提煉層,xi→feature3表示將i提煉層維度采樣采用至feature3維度,αi、βfeature3表示各維度特征對應(yīng)的自適應(yīng)權(quán)重,且滿足αi、βfeature3∈[0,1],αi+βfeature=1;Ffeature3表示自適應(yīng)融合后的特征,F(x,y)表示高斯金字塔輸入特征,G(x,y,σ)表示高斯函數(shù),σ表示尺度參數(shù)。
為驗證所提網(wǎng)絡(luò)結(jié)構(gòu)的可行性和魯棒性,本文分別采用ImageNet、PASCAL VOC以及MS COCO 三個主流目標檢測標準數(shù)據(jù)集對網(wǎng)絡(luò)進行實驗。考慮到標準數(shù)據(jù)集中圖像數(shù)量過大且存在部分目標不清晰的圖像,實驗時僅篩選了部分質(zhì)量較高的圖像進行訓練測試。實驗數(shù)據(jù)以及環(huán)境配置信息如表1所示,同時,為更好地體現(xiàn)所提網(wǎng)絡(luò)有效性,網(wǎng)絡(luò)訓練時超參數(shù)參考了當前主流目標檢測網(wǎng)絡(luò)進行設(shè)置,如表2所示。

表1 實驗環(huán)境配置

表2 超參數(shù)設(shè)置
對于目標檢測性能評估采用均值平均精度(mAP)以及每秒圖像處理張數(shù)(fps)進行衡量。同時,為評估網(wǎng)絡(luò)的尺度不變性,實驗借鑒COCO數(shù)據(jù)集中的目標劃分策略,根據(jù)目標標注框以[大目標>962>中目標>322>小目標]的標準劃分大中小目標,并分別以mAPs、mAPm、mAPl來衡量不同大小目標的檢測效果。
針對所提方法的可行性驗證,實驗主要采用ImageNet數(shù)據(jù)集,以YOLOv4單階段目標檢測網(wǎng)絡(luò)為基礎(chǔ),通過依次替換所提各個模塊進行測試對比。實驗首先針對圖像輸入模塊,分別測試對比了引入前后的檢測效果,結(jié)果如表3所示。

表3 輸入模塊測試結(jié)果
由對比結(jié)果可以看出,在新增灰度化和均衡化的圖像后,較好地豐富了輸入數(shù)據(jù),同時也增強了目標信息,使網(wǎng)絡(luò)檢測精度有較明顯的提升。對于特征提取部分,實驗依次測試了引入基礎(chǔ)特征提取結(jié)構(gòu)和注意力機制特征提煉結(jié)構(gòu)后的網(wǎng)絡(luò)檢測精度與效率的變化,結(jié)果如表4所示。

表4 特征提取結(jié)構(gòu)測試對比
根據(jù)測試結(jié)果可以看出,YOLO網(wǎng)絡(luò)的特征提取結(jié)構(gòu)中每一層都由稠密的標準卷積進行提取,可以充分利用上一層特征信息,但也引入了過多的參數(shù),且冗余計算較多。所提骨干結(jié)構(gòu)選擇相對稀疏的深度可分離卷積,并設(shè)置了相對較少的特征通道進行特征提取,有效降低了冗余信息的計算,大幅提升了網(wǎng)絡(luò)效率,但也導致特征利用不夠充分,網(wǎng)絡(luò)精度也較差。繼續(xù)引入注意力特征提煉結(jié)構(gòu)后,在基礎(chǔ)特征結(jié)構(gòu)上針對目標關(guān)鍵信息進一步提取,使網(wǎng)絡(luò)更好地專注目標特征,且背景信息的干擾也更少,雖增加了部分計算量,但檢測效果得到了較大提升。為進一步驗證所提分組注意力機制的優(yōu)越性,實驗與當前主流的注意力機制進行了對比,并提取特征層3信息分別可視化了不同注意力機制下的效果,結(jié)果如表5和圖5所示。

表5 不同注意力融合對比

圖5 特征層3注意力可視化對比Fig.5 Visual contrast of attention in feature layer 3
通過對比不同注意力機制下網(wǎng)絡(luò)檢測性能以及特征可視化效果可以看出,SE和ViT注意力機制分別專注特征通道和特征空間位置特征,雖對目標識別效果雖有一定提升,但相對有限。CBAM和Triplet注意力機制雖同時考慮了特征通道和空間信息,但增強目標特征的同時也增加了噪聲信息,容易造成目標誤檢。而所提分組注意力機制基于全局信息對目標特征進行分組聚類,并利用局部卷積代替全連接降低計算量,使網(wǎng)絡(luò)在增強特征時更具針對性,更好地提升了網(wǎng)絡(luò)檢測性能。對于多尺度結(jié)構(gòu)驗證,實驗分別與FPN跳層融合、ASFF自適應(yīng)融合進行了對比,結(jié)果如表6所示。

表6 多尺度模塊對比
根據(jù)不同特征融合結(jié)果可以看出,所提高斯多尺度融合結(jié)構(gòu)利用自適應(yīng)融合獲取各維度特征信息,并結(jié)合高斯金字塔完成多尺度檢測,雖未達到最優(yōu)性能,但有效平衡了網(wǎng)絡(luò)檢測精度與效率,可以更好地應(yīng)用于實際場景中。而對于所提整個網(wǎng)絡(luò)的有效性測試,實驗分別與其他網(wǎng)絡(luò)結(jié)構(gòu)進行了對比,如表7和圖6所示。

表7 不同目標檢測網(wǎng)絡(luò)性能對比

圖6 ImageNet數(shù)據(jù)集目標檢測效果對比Fig.6 Comparison of object detection effects in ImageNet dataset
根據(jù)上述實驗結(jié)果可見,所提目標檢測網(wǎng)絡(luò)相對于基于兩階段Anchor-based的Mask R-CNN和基于Anchor-free的CornerNet在計算效率以及檢測效果方面得到了更好的平衡。而與同類型的單階段YOLO網(wǎng)絡(luò)相比,該結(jié)構(gòu)在目標有效特征提取融合以及網(wǎng)絡(luò)非線性表達能力等方面都得到較大提升,故檢測效果也相對更優(yōu)。綜上實驗結(jié)果可以看出,所提網(wǎng)絡(luò)的各個模塊以及整體結(jié)構(gòu)對目標檢測效果都有一定提升,有效驗證了所提方法的可行性。
為進一步驗證網(wǎng)絡(luò)的魯棒性,實驗利用相對復(fù)雜的PASCAL VOC以及MS COCO數(shù)據(jù)集分別對所提網(wǎng)絡(luò)以及其他同類深度學習目標檢測網(wǎng)絡(luò)進行測試對比實驗,實驗結(jié)果如表8、表9和圖7所示。

表8 PASCAL VOC數(shù)據(jù)集測試結(jié)果

表9 MS COCO數(shù)據(jù)集測試結(jié)果

圖7 VOC和COCO數(shù)據(jù)集檢測效果(前兩排:VOC;后兩排:COCO)Fig.7 Detection effect of VOC and COCO datasets (first two rows:VOC; second two rows:COCO)
根據(jù)上述測試結(jié)果可見,雖然在復(fù)雜場景下,各網(wǎng)絡(luò)的檢測精度都有一定下降,但本文方法相對于其他方法,檢測精度受影響程度相對較小。同時,從可視化檢測結(jié)果也可看出,相比于CornerNet、YOLO網(wǎng)絡(luò),本文方法在目標遮擋以及小目標識別上都有較大提升,較好地改善了目標漏檢和誤檢等情況。而相比于Mask R-CNN網(wǎng)絡(luò),該方法也在保證高效檢測前提下基本達到了與之相近的檢測效果。
本文針對現(xiàn)有基于深度學習目標檢測方法存在的不足,從圖像輸入、特征提取、關(guān)鍵信息提煉以及多尺度特征融合等幾個部分進行了深入研究,提出了一種基于分組注意力以及高斯多尺度的目標檢測網(wǎng)絡(luò)。網(wǎng)絡(luò)通過直方圖均衡化來降低光照影響,突出過暗或過亮環(huán)境下的目標,并采用雙階段特征提取結(jié)構(gòu)來依次提取和提煉目標信息。其次,引入了分組注意力機制,利用通道特征均值對各目標特征聚類分組,通過空間注意力機制分別對各組目標指南針增強,突出目標關(guān)鍵信息的同時避免了背景信息的影響。最后,針對網(wǎng)絡(luò)尺度不變性,設(shè)計了高斯多尺度結(jié)構(gòu),以多維特征自適應(yīng)融合結(jié)合高斯金字塔方式實現(xiàn)目標多尺度檢測。通過在多個標準數(shù)據(jù)集上的測試結(jié)果表明,所提方法可以準確高效地完成目標檢測任務(wù),且具有較強的泛化能力。盡管所提方法在一定程度提升了目標檢測網(wǎng)絡(luò)的性能,但仍有較多值得探索的地方,后期將深入研究更優(yōu)特征選擇方式,進一步提升網(wǎng)絡(luò)檢測效果。