999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向小目標檢測的并行高分辨率網絡設計

2022-09-21 05:37:58鄭樂輝魏建國
計算機工程與應用 2022年18期
關鍵詞:特征提取特征融合

牛 潤,曲 毅,鄭樂輝,魏建國

1.武警工程大學 研究生大隊,西安710086

2.武警工程大學 信息工程學院,西安710086

目標檢測是識別圖像中感興趣的目標以及確定位置,在日常生活各個領域中,如智能安防、自動駕駛、工業生產等場景下被廣泛應用。在實際應用中,大量目標由于自身大小或者距離等因素被定義為小目標。隨著深度學習的廣泛應用,目標檢測的精度被不斷提升,但針對小目標的檢測一直是難點。小目標覆蓋的像素區域小、分辨率低、特征不夠明顯且表達能力弱,在當前通過深度換精度的模型中,特征極易丟失,導致小目標檢測難于常規目標的檢測[1]。

在解決小目標檢測方面,研究人員做了大量探索,主要包括Anchor box 優化、引入注意力機制、特征融合、特征增強、改進網絡、改進損失函數等研究[2]。針對特征信息在網絡中易丟失的問題,人們利用特征金字塔進行多尺度特征圖處理,Liu等[3]提出SSD網絡,應用特征金字塔思想,通過主干網絡不同層的特征圖實現多尺度檢測,有效利用了淺層特征信息,但不同尺度特征圖信息沒有有效結合。Lin 等[4]提出特征金字塔網絡(feature pyramid networks,FPN),通過融合鄰近層特征圖實現了深層特征信息反向傳輸來增強淺層特征,但FPN結構雖然增強了較淺特征圖的語義信息,但深層特征圖依然會失去許多位置信息,Liu 等[5]通過在FPN 上添加一條從下往上的通路,縮短了位置信息向上傳輸的距離,實現了位置信息向深層特征圖的有效傳遞。

由于小目標所占像素過少,可直接利用的信息不豐富,研究人員通過上下文信息來強化模型檢測能力,Fu等[6]在SSD模型的基礎上加入反卷積層獲取上下文信息,生成了一種“寬-窄-寬”的沙漏結構。李青援[7]在SSD模型中引入一條自深向淺的遞歸反向路徑,通過特征增強模塊將深層包含上下文信息的語義特征增強到淺層。梁延禹等[8]使用特征圖的空間和通道間全局信息來增強淺層特征圖中小目標的上下文信息。Yu 等[9]提出空洞卷積來擴大感受野,Li等[10]利用空洞卷積設計了一種三叉戟網絡(TridentNet)以利用目標上下文語義信息。

本文從多尺度信息融合和上下文信息的利用兩個角度出發,采用HRNet[11]和HRDNet[12]能夠保留豐富小目標特征信息的優勢網絡結構,構建一種多分辨率子網并行連接的特征提取網絡結構,該網絡具有以下6個特點:

(1)具有多分辨率網絡并行連接結構,并且將不同分辨率特征圖多次進行融合,使每個分辨率特征圖都能多次接受其他分辨率特征圖的信息,可得到既包含高分辨率位置信息又包含低分辨率語義信息的輸出特征圖。

(2)縮短了高分辨率分支子網的深度,使其保持更加豐富的細節信息和位置信息,同時加深低分辨率分支子網深度,使其獲得更抽象的語義信息。

(3)使用了擴大感受野的模塊,使得模型可以獲得豐富的目標上下文語義信息,增強檢測能力。

(4)使用了融合因子來調節低分辨率特征信息到高分辨率特征信息的流通,強化模型對小目標檢測的針對性。

(5)在下采樣時使用Focus 模塊實現不丟失信息的分辨率降低;在相鄰特征圖融合時,使用亞像素卷積[13]實現不丟失信息的分辨率提升。

(6)采用注意力機制來進一步提高小目標檢測能力。

1 相關工作介紹

1.1 高分辨率網絡

在卷積神經網絡中,高分辨率的圖像包含更豐富的細節信息,對于小目標檢測至關重要,但高分辨率特征圖也產生了較多的運算量,增大了計算成本。此外,位于模型深層的低分辨率特征圖包含豐富的語義信息,可以用來提高模型對目標的識別能力?;谝陨峡紤],Sun等[11]設計了用于關鍵點檢測的高分辨率網絡HRNet。

HRNet結構如圖1所示,通過將不同分辨率網絡并行連接,將低分辨率特征圖與高分辨率特征圖進行融合,使特征提取網絡可以輸出包含豐富語義信息的高分辨率特征圖。圖像經過不同分支可以得到分辨率大小不一的特征圖,且輸入進每一分支的特征圖都融合了前一階段所有尺度的特征圖,使得每一分支的特征圖都兼顧高分辨率與低分辨率的特征信息,保留更多小目標特征信息。

圖1 HRNet網絡結構Fig.1 HRNet network structure

HRNet的核心思想在于圖像在模型中進行處理時,全程都保持了較高的分辨率,同時生成多個低分辨率的特征圖,利用其增強高分辨率特征圖的特征信息。

Liu等[12]同樣利用這種思想設計了針對小目標檢測的網絡HRDNet,其結構如圖2所示,首先構建圖像金字塔,得到不同分辨率的圖像,針對高分辨率的圖像使用較淺的特征提取網絡處理,對低分辨率網絡則使用較深的網絡,然后使用多尺度特征金字塔實現淺層到深層、高分辨率到低分辨率的特征信息流通,增強對多尺度目標的語義表征能力。

圖2 HRDNet網絡結構Fig.2 HRDNet network structure

HRDNet 通過使用較淺的網絡處理高分辨率圖像,既可以節省計算資源,同時可以保留圖像的細節信息;用較深的網絡處理低分辨率圖像可以獲得特征高度凝練的語義信息。

1.2 RFB模塊

小目標在圖像中占用的像素少,特征信息不夠充分,一種優化的思路是利用目標周圍環境的信息來輔助識別,這些信息被稱作目標上下文語義信息。通常圖像中的物體不是獨立存在,其必然與周圍環境存在一定聯系,利用好目標的上下文語義信息可以豐富目標特征。常用的優化方法為利用空洞卷積擴大神經網絡的感受野,Liu 等[14]利用空洞卷積設計了RFB 模塊(receptive field block)。

RFB 模塊借鑒人類視覺的感受野結構Receptive Fields(RFs),使用多尺寸、多離心率的空洞卷積核構建了多分支結構。RFB 模塊對輸入的圖像首先使用3 種不同尺寸(1×1、3×3、5×5)的普通卷積核進行處理,然后使用不同離心率的空洞卷積得到3 個不同感受野的特征圖,將其融合可以得到特征增強的特征圖。RFB-s是RFB模塊的變體,通過用3×3卷積層代替5×5卷積層,用1×3和3×1卷積層代替3x3卷積層來減少計算量。

與傳統卷積模塊,RFB模塊較低離心率的分支得到的特征圖中,每個像素可以凝練包含部分或者目標整體的特征信息,較高離心率的分支能夠凝練包括目標本身與周圍環境在內的特征信息,將多分支融合的優勢在于:高離心率分支可以為低離心率分支擴充上下文語義信息;低離心率分支則可以彌補高離心率分支卷積核擴散造成的細節信息丟失。

1.3 特征融合因子

Gong 等[15]指出,在應用FPN 進行小目標檢測時,FPN 中相鄰層之間的信息傳遞會給小目標的檢測帶來負面影響,由于要檢測的目標很小,每一層的學習能力不足,深層網絡難以學習到足夠有用的特征信息,不能對淺層進行指導,每一層更應關注本層的學習,減少對其他層的影響。因而Gong等提出特征融合因子來調整信息的流通性。

通過計算FPN 中每層特征圖捕獲的目標正樣本數量,從而得到不同分辨率下的特征圖對小尺度目標的“關注度”,用相鄰兩層正樣本數量的比值作為特征融合因子,在特征圖融合時使用,可以有效引導不同層更加關注本層目標特征,減小其他層帶來的負面影響。計算特征融合因子的公式為:

1.4 Focus結構和亞像素卷積

Focus 結構在YOLOv5 模型(UltralyticsLLC 公司于2020年5月提出的一種單階段目標檢測網絡)中首次出現,如圖3(a)中所示,它將輸入的圖像進行切片操作,減小圖像分辨率的同時同比例擴大了通道數,然后應用普通卷積進行特征整合,對比傳統下采樣方法,Focus結構有效利用了所有圖像數據,沒有丟失圖像信息。亞像素卷積如圖3(b)所示,其處理圖像的方法與Focus結構類似,首先利用普通的卷積將圖像的通道數擴大n2倍,然后對生成的特征圖進行尺寸重塑(reshape 操作),使其分辨率擴大為原來的n倍、通道數保持不變,亞像素卷積區別于傳統的補零、插值的上采樣方法,擴大分辨率用的是圖像特征信息,沒有引入無用數據,實現了無失真的上采樣。

圖3 Focus結構和亞像素卷積Fig.3 Focus structure and subpixel convolution

1.5 注意力機制

模型在處理小目標圖像時會混入大量不包含目標信息的“無意義”區域,這些信息會對有效目標的特征提取造成影響,研究人員提出了注意力機制來引導模型關注目標區域,提高特征提取能力。注意力機制借鑒了人類視覺特有的腦信號處理機制,在人眼視覺神經掃描圖像時會產生注意力焦點,重點關注某幾個關鍵區域以排除無關信息的干擾,提高對信息處理的精度和效率。

神經網絡中的注意力機制是一種即插即用的可學習模塊,工作原理是對特征圖張量中的數值分配權重系數,強化重點區域的信息。注意力機制主要包括通道注意力機制和空間注意力機制,通道注意力機制是對特征圖的通道維度進行權重分配,動態強化各通道的特征,代表模型是SENet[16];空間注意力機制在空間維度上進行權重分配,學習圖像上不同位置的依賴關系,動態強化空間維度的特征,代表模型有SAM[17]等;還有結合兩種機制的結構如BAM[18]、CBAM[19]等。自注意力機制是從自然語言處理領域發展而來的注意力機制的分支,它不依賴外部信息的引導,依靠自身輸入建立全局依賴關系生成權重系數,常用的是transformer[20]模塊,代表模型有ViT[21]、DETR[22]等。

2 提出的模型

2.1 模型基本結構

為了有效整合高分辨率淺層特征信息與低分辨率深層特征信息,本文基于HRNet和HRDNet設計了一種多分辨率子網并行連接的網絡結構。該模型結構如圖4所示,首先對輸入的圖片應用Focus結構進行處理,通過對圖像進行切片和卷積,實現不丟失圖像信息的尺寸縮減,構建輸入圖像金字塔;將不同尺寸的特征圖輸入到不同深度的網絡分支中提取特征,各網絡分支使用不同數量的RFB 模塊搭建,將尺寸縮小1/4、1/8 和1/16 的特征圖分別輸入到包含1 個、2 個和3 個RFB 模塊的分支中,低深度分支只處理大分辨率特征圖,高深度分支只處理小分辨率特征圖,三個分支并行連接同步運行,在三個分支中間位置進行兩次多尺度特征圖融合,充分結合高分辨率淺層定位信息和低分辨率深層語義信息。所提的網絡結構命名為PHRNet(parallel high-resolution net)。

圖4 本文所設計的網絡結構Fig.4 Network structure designed in this paper

2.2 多尺度特征融合結構

將三個分支輸出的三個不同分辨率大小的特征圖傳入多尺度特征融合結構進行信息融合。本文結合在現有的多尺度特征融合網絡FPN和PAN的基礎上進行改進,構建了對小目標檢測針對性的網絡結構。本文設計的結構如圖5所示。

圖5 多尺度特征融合結構Fig.5 Multi-scale feature fusion structure

為了加強定位信息的流通,在FPN 結構后補充了PAN 結構,在對低分辨率特征圖進行上采樣時,使用了亞像素卷積對原特征圖擴充通道再重組為更高分辨率的特征圖,以此實現不丟失信息的尺寸放大。在對特征圖上采樣和下采樣時應用特征融合因子來調整信息的流通,引導模型更加關注小目標。

2.3 注意力機制

本文所提模型采用了輕量級注意力機制CBAM(convolutional block attention module)模塊,插入到指定RFB模塊后。CBAM模塊結合了空間注意力機制和通道注意力機制,從空間和通道兩個維度上強化特征圖中的目標信息,引導模型增強對關鍵信息的注意力。CBAM模塊結構如圖6所示。

圖6 CBAM注意力機制結構Fig.6 Structure of CBAM attention mechanism

通道注意力機制的工作流程為:特征圖輸入后分別進行全局最大池化和全局平均池化,經過兩層共用的全連接層后相加輸出通道權重??臻g注意力機制的工作流程為:對特征圖進行通道維度的最大池化和平均池化,輸出結果拼接后經過一次卷積得到空間維度權重。

為了進一步提高模型對小目標的檢測能力,在模型中加入了自注意力機制transformer模塊,其核心機制是全局關聯的建立,公式為:

式中,Q代表Query向量,K代表Key向量,V代表Value向量,它們是通過對展平分割后的特征圖進行全連接操作得到的,以四維張量的形式表現。dk表示向量的長度,存在的目的是使得訓練過程中具有更穩定的梯度。因此在進行向量運算時,特征圖中的每個像素都參與了與其他所有像素的計算,所以transformer模塊可以構建全局的關聯,具有很強的通用建模能力,可以用來獲取更豐富的特征信息,但因其較大的參數量和運算量不利于后期的優化部署,本模型僅在處理低分辨率的分支網絡中使用,加入的位置為第3、6、9個RFB模塊后。加入注意力機制后的模型命名為PHRNet-A,結構如圖4所示。

3 實驗

3.1 數據集與評價指標

數據集:本文選擇用于航空圖像中微小物體檢測的數據集AI-TOD[23]作為模型訓練和檢測的基準數據集,具有車輛、船只等8 個種類,包含28 036 張圖片共計70 0621 個檢測實例。AI-TOD 數據集目標實際大小只有平均12.8 個像素,遠小于其他數據集,適合本論文的研究。

評價指標:本文采用平均精度值(average precision,AP)作為評價指標,包括mAP、AP50、AP75、APs和APm。AP50表示目標真實框和模型預測框交并比(IOU)閾值為0.5 時的平均精度值,AP75為0.75,mAP 表示交并比閾值從0.5到0.95之間等間距取10個值,并計算這10個閾值下AP的均值;APs表示檢測目標所占像素小于322個像素,APm表示檢測目標所占像素在322到962之間。

3.2 實驗環境與參數設置

本文實驗所用配置環境如表1所示。

表1 實驗環境配置Table 1 Experimental environment configuration

實驗參數設置如下:使用AI-TOD 數據集對模型進行訓練和測試,輸入圖片大小縮放為416×416,使用雙顯卡并行訓練,每個顯卡的batchsize設置為8;實驗采用隨機梯度下降算法(stochastic gradient descent,SGD),學習率初始值設為0.1,采用余弦退火算法調整學習率,共訓練350 個epochs,在訓練前對圖像進行翻轉裁剪等數據增強操作,對不同模型采用相同參數設置,對比實驗結果并分析。

3.3 實驗結果分析

3.3.1 不同網絡結構對比實驗

為了驗證所提網絡結構的性能,將所提特征提取網絡結構與當前常用的相近深度的特征提取網絡結構對比,針對不同特征提取網絡,使用相同的數據增強方法,在特征提取網絡后應用FPN結構,檢測頭和損失函數都采用Generalized Focal Loss[24],實驗結果如表2所示。

表2 不同特征提取網絡在AI-TOD數據集性能對比Table 2 Performance comparison of different feature extraction networks in AI-TOD dataset %

由表2可知,所提的網絡結構相較常用的其他模型效果最好,mAP 達到了8.3%。ResNeXt-50 網絡具有較高的寬度,DLA-34實現了淺層信息與深層信息的融合,因而這兩個模型較為出眾,mAP 分別為7.5%和7.2%。本文所提PHRNet兼具以上兩個特點,mAP值比DLA-34高1.1個百分點,比ResNeXt-50高0.8個百分點,其他指標表現也十分優異,但在中等目標的檢測指標APm上的表現有所欠缺,僅為20.6%。經分析發現特征融合因子的使用,使模型被訓練的更加關注小目標而忽視中等目標。實驗結果的對比分析表明,本文所提PHRNet 網絡結構在小目標檢測任務中的表現優于當前主流的特征提取網絡,具有良好的特征提取性能,還可以根據實際應用場景的不同調整特征融合因子以適應不同尺度目標的檢測。

3.3.2 不同尺度分支輸出特性對比

為了進一步優化模型檢測能力,通過設置消融實驗,探究不同尺度分支輸出的特征圖對檢測結果的影響。實驗方法為:使用AI-TOD數據集作為驗證集進行測試,每次只保留一個或兩個分支輸出,其余設為0,假設尺寸縮小1/4的輸出特征圖為F1、縮小1/8為F2、縮小1/16為F3,消融實驗對比結果如表3所示。

表3 消融實驗結果分析Table 3 Analysis of ablation experiment results %

從實驗結果可以看出,低分辨率分支的輸出特征圖對最終檢測結果的貢獻很小,在將特征圖F3設為0后檢測精度僅下降了0.3個百分點,而F1特征圖和F3特征圖同時輸出的結果也僅比F1單一輸出高了0.2個百分點,可見模型對小目標的檢測能力主要來自高分辨率分支。通過實驗為模型的進一步優化給出了思路:可以通過減少高分辨率分支的參數量,以最小的精度代價換取檢測速度的提升。

3.3.3 多尺度特征融合結構驗證實驗

為了驗證本文所提改進的多尺度特征融合結構的有效性,通過在原FPN+PAN 網絡結構的基礎上逐步添加亞像素卷積和特征融合因子來進行消融實驗,實驗結果如表4。

表4 多尺度特征融合結構消融實驗Table 4 Multi-scale feature fusion structural ablation experiment

通過實驗對比可以看出,改進后的多尺度特征融合結構比原結構表現更優,使用亞像素卷積后平均檢測精度上升0.2個百分點,使用特征融合因子后精度上升0.9個百分點,實驗結果證明了所提新結構的有效性。

3.3.4 注意力機制相關實驗

本文通過加入注意力機制強化模型對小目標的“關注度”,通過將不同注意力模塊加入網絡進行實驗對比,驗證本文方法的有效性,消融實驗結果如表5所示。

表5 注意力模塊消融實驗Table 5 Attention module ablation experiment

實驗結果表明,BAM 和CBAM 作為兼具通道維度操作和空間維度操作的注意力模塊,性能要優于單一維度操作的模塊;CBAM 的表現最好,mAP 達到了9.0%,在加入自注意力機制后mAP達到最高10.3%,驗證了本文所用方法的有效性。

實驗結果證明了自注意力機制Transformer 的應用可以進一步提升模型對小目標的特征提取能力。

3.3.5 可視化結果

為了更直觀地驗證本文所提模型的有效性,以未加入注意力機制的PHRNet 為特征提取網絡的模型與CspDarknet53、ResNet-50、Rep-VGG、ResNeXt-50和DLA-34模型對比,檢測一張包含密集小目標航拍圖,圖7 為模型對比的可視化結果。

圖7 可視化結果對比Fig.7 Visual result comparison

從圖中可以看出,本文所提模型相較其他常用模型對小目標的檢測能力更強,可以檢測出更多的小型目標。

為進一步驗證本文所提模型的可應用價值,將所提的PHRNet-A 特征提取網絡替換到不同的主流目標檢測模型中進行測試,得到結果如表6。

表6 所提網絡應用實驗Table 6 Proposed network application experiment

對比結果表明,本文所提并行高分辨率特征提取網絡能夠適用于不同種類的目標檢測模型中,提高對小目標的檢測能力。

4 結束語

針對小目標檢測信息丟失、定位不準等問題,本文在參考經典高分辨率網絡結構的基礎上,設計了高分辨、多尺度并行的網絡結構作為特征提取網絡,實現了淺層與深層、多尺度的特征融合,擴寬了網絡結構,增強了小目標信息的流通,強化對小目標的特征提取能力。通過引入特征融合因子和注意力機制,引導模型更加關注小目標,進一步提高對小目標的檢測能力。

在小目標數據集AI-TOD 上的平均檢測精度為10.4%,高于其他主流的特征提取網絡,更好地解決了小目標檢測困難的問題,可應用于各類目標檢測模型替換原有的特征提取網絡,適應小目標檢測任務。

本文在實驗中探究了多尺度分支對檢測結果的影響,為模型進一步優化提供了思路,在未來的工作中,將以本文探究成果為指導對模型進行剪枝、壓縮等操作,實現模型輕量化處理,提高檢測速度和占用的參數量,使模型更易于在移動端部署。

猜你喜歡
特征提取特征融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 一本大道香蕉久中文在线播放| 青青青视频免费一区二区| 欧洲av毛片| 综合久久五月天| 91视频精品| 女同久久精品国产99国| 国产亚洲视频免费播放| 精品国产Ⅴ无码大片在线观看81 | 91精品视频在线播放| 日韩黄色在线| 欧洲熟妇精品视频| 国产手机在线观看| 青青青伊人色综合久久| 久久中文字幕av不卡一区二区| 国产Av无码精品色午夜| 黄片在线永久| 综合网久久| 色综合婷婷| 欧美另类精品一区二区三区| 亚欧美国产综合| 国产网站免费| 欧美亚洲一区二区三区导航| 久久国产精品电影| 九九这里只有精品视频| 网友自拍视频精品区| 国产尹人香蕉综合在线电影 | 欧美成在线视频| 免费无码一区二区| 精品少妇人妻一区二区| 蜜芽国产尤物av尤物在线看| 国产精品蜜芽在线观看| 国产美女在线免费观看| 日韩天堂网| 亚洲无线观看| 久久亚洲高清国产| 国产成人久久综合777777麻豆| 亚洲第一国产综合| 国产一区二区免费播放| 一级毛片在线播放| 在线免费a视频| 91偷拍一区| 成人久久精品一区二区三区| 四虎国产精品永久一区| 在线观看国产精品第一区免费 | 国产爽妇精品| 91精品国产丝袜| 欧美一级片在线| 国产欧美视频在线| 区国产精品搜索视频| 中文字幕亚洲另类天堂| 呦系列视频一区二区三区| 免费aa毛片| 亚洲国产理论片在线播放| 亚洲色无码专线精品观看| 国产人人乐人人爱| 色悠久久久| jizz在线观看| 日本在线亚洲| 日本午夜精品一本在线观看| 国内99精品激情视频精品| 欧美精品亚洲精品日韩专区va| 日本不卡免费高清视频| 国产精品v欧美| 99热这里只有精品免费| 波多野结衣一区二区三视频| 久久久久国产精品嫩草影院| 中文字幕中文字字幕码一二区| 国产高清不卡视频| 精品成人一区二区| 一级香蕉视频在线观看| 欧美日韩在线观看一区二区三区| 国产激爽大片高清在线观看| 亚洲第一极品精品无码| 欧美成人一区午夜福利在线| 免费观看男人免费桶女人视频| 综合人妻久久一区二区精品| 亚洲永久精品ww47国产| 亚洲欧洲日本在线| 青青草一区二区免费精品| AV片亚洲国产男人的天堂| 亚洲无卡视频| 日本AⅤ精品一区二区三区日|