999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

通道分離雙注意力機制的目標檢測算法

2023-05-08 11:30:44趙珊鄭愛玲劉子路高雨
計算機與生活 2023年5期
關鍵詞:特征檢測信息

趙珊,鄭愛玲,劉子路,高雨

河南理工大學 計算機科學與技術學院,河南 焦作454003

目標檢測是機器視覺領域的核心問題之一,主要任務就是找出圖像中所有感興趣的目標或物體,由于圖像中各類物體的外觀、形狀和姿態(tài)等不同,加上成像時光照、遮擋等因素的干擾,目標檢測一直具有很強的挑戰(zhàn)性。近年來,隨著深度學習和計算機硬件的發(fā)展,基于深度學習的目標檢測算法逐漸成為計算機視覺領域的熱點研究方向,廣泛地應用于智能機器人、智能交通、工業(yè)檢測等領域。經(jīng)典的檢測算法通常分為兩大類:一類是以R-CNN(regionconvolutional neural network)[1]系列為代表的基于區(qū)域候選框的雙階段目標檢測算法;另一類是以YOLO(you only look once)[2]系列和SSD(single shot multibox detector)[3]系列為代表的基于回歸的單階段目標檢測算法。前者具有更高的檢測精度,后者則具有更快的檢測速度。

優(yōu)良的網(wǎng)絡結(jié)構很大程度上可以提高物體檢測精度,因此改善網(wǎng)絡結(jié)構以進行更好的目標檢測逐漸成為主流。Dai等人[4]在Faster R-CNN[5]基礎上,用全卷積神經(jīng)網(wǎng)絡代替全連接層來減少參數(shù)量,另引入位置敏感得分圖,解決了Faster R-CNN 中存在的圖像分類和目標檢測平移不變性的矛盾。Song等人[6]提出基于級聯(lián)網(wǎng)絡的平行級聯(lián)檢測網(wǎng)絡,通過設計串并聯(lián)檢測器并設置遞增的交并比(intersection over union,IOU)閾值來減少網(wǎng)絡過擬合,可滿足高精度定位要求。Xu 等人[7]提出了一種輕量級且靈活的推理網(wǎng)絡Reasoning-RCNN,可賦予任何檢測網(wǎng)絡在所有目標區(qū)域的自適應全局推理能力。Wang等人[8]提出了深度互學習策略,通過與其他網(wǎng)絡的協(xié)同訓練,簡單有效地提高網(wǎng)絡的泛化能力,實現(xiàn)模型的緊湊性和精確性。

為了使神經(jīng)網(wǎng)絡能夠自動學習特征間的重要性,Hu等人[9]提出注意力網(wǎng)絡,通過權重分配實現(xiàn)特征通道間的相互依賴,取得了比較好的結(jié)果,但模型復雜度偏高。后續(xù)學者針對此問題提出了很多改良的方法,Li等人[10]在SENet(squeeze-and-excitation networks)基礎上引入“選擇性卷積核”,使得神經(jīng)網(wǎng)絡可根據(jù)對象大小的語義感知來自適應確定卷積核尺寸,可有效地調(diào)整神經(jīng)元感受野大小。李文濤等人[11]采用不降維局部跨通道交互策略的通道注意力模塊實現(xiàn)通道的信息關聯(lián),在獲取更多網(wǎng)絡特征的同時保證了網(wǎng)絡的收斂性。另外隨著雙注意力機制的提出,基于此技術的特征提取方法在目標檢測領域也得到廣泛的應用[12-14]。注意力機制有助于獲得對多種語義抽象的視覺關注,但注意力層數(shù)的增加也容易發(fā)生過擬合,影響檢測效率。

上述方法在不同程度上提高了檢測算法的精度,但模型復雜度較高,小目標的漏檢、錯檢而造成平均精度偏低,且某些算法只局限于應用到某個特定的領域。針對這些問題,本文提出了一種基于通道分離雙注意力機制的目標檢測算法,將改進的多尺度檢測網(wǎng)絡引入Faster R-CNN,構建多尺度目標檢測器,采用輕量級的通道分離雙注意力網(wǎng)絡進行深層次的特征提取,有效減少網(wǎng)絡參數(shù),使得模型對不同屬性的層次特征的處理更有針對性,另在損失函數(shù)中引入KL散度(Kullback-Leibler divergence)[15]進行優(yōu)化。實驗表明,本文算法具有可行性。

1 Faster R-CNN與FPN

Faster R-CNN 將RPN 網(wǎng)絡和Fast R-CNN[16]網(wǎng)絡結(jié)合,模型訓練及檢測流程如圖1所示。該網(wǎng)絡使用一組基礎的Conv+ReLU+Pooling層提取輸入圖像的特征圖,用于后續(xù)的區(qū)域建議網(wǎng)絡(region proposal network,RPN)和全連接層,其中RPN 網(wǎng)絡主要用于區(qū)域候選框的生成,得到部分特征信息,通過ROI pooling層將不同尺度的特征圖轉(zhuǎn)化為固定長度的特征向量,然后送入一個全連接層進行分類和回歸。Faster R-CNN 實現(xiàn)了真正意義上端到端的訓練和檢測,但作為一個單尺度的目標檢測框架,對小尺度目標檢測性能較差,不能有效地將候選區(qū)域的小尺度特征在深度CNN 提取之后完整保留,分辨率有一定限制,檢測速度較慢。

圖1 Faster R-CNN網(wǎng)絡結(jié)構圖Fig.1 Network structure diagram of Faster R-CNN

為了解決Faster R-CNN 目標檢測算法存在的不足,基于特征金字塔網(wǎng)絡(feature pyramid networks,F(xiàn)PN)[17]的多尺度檢測性能,陳飛等人提出了Faster RCNN+FPN 模型[18],模型如圖2 所示,包括自底向上、自頂向下和橫向連接三部分。首先選取主干網(wǎng)絡(以ResNet 為例)每個Stage 最后一層的輸出作為FPN特征圖的參考集,記為C2~C5,且每個特征層相對于原圖的步長分別為4、8、16、32。接著自頂向下采用2倍上采樣進行特征圖大小匹配,然后使用橫向連接將自底向上的結(jié)果和上采樣生成的相同大小的特征圖進行融合。其中1×1 卷積用來通道降維且不改變Feature map的尺寸大小,3×3卷積用來消除混疊效應,以生成最終需要的特征圖P2~P5,接著對P5采用最大池化得到特征圖P6,特征圖P2~P6 對應的anchor 尺度分別為{32×32,64×64,128×128,256×256,512×512},同時采用3種比例{1∶2,1∶1,2∶1},構成金字塔結(jié)構中15種anchors,以提取更多的特征信息,使定位識別更加精確。Faster R-CNN+FPN較原模型精度有了一定的提升,但仍存在著部分目標漏檢、錯檢等問題,導致主干網(wǎng)絡對特征的利用率不高。

圖2 Faster R-CNN+FPN網(wǎng)絡結(jié)構圖Fig.2 Network structure diagram of Faster R-CNN+FPN

2 改進算法

針對Faster R-CNN+FPN 存在的問題,本文以Faster R-CNN作為基礎架構,選用可進行殘差連接且不會增加網(wǎng)絡參數(shù)的ResNet101作為主干網(wǎng)絡,網(wǎng)絡總體結(jié)構如圖3所示。為了進一步改善信息流,獲取用于高頻重構的細節(jié)信息,提出通道分離雙注意力網(wǎng)絡(dual attention networks with channel splitting,CSDAN)來提高檢測效率。另外與原FPN不同,對特征圖P5 除采用最大池化來保留紋理特征外,同時采用平均池化來保留背景信息,兩者平均融合后作為P6,此模塊稱為細節(jié)特征提取模塊(detail extraction module,DEM),用于提取更多的細節(jié)特征,以緩解深度CNN 后因小目標的漏檢而造成的精度偏低的問題。同時,結(jié)合KL 散度進行損失函數(shù)的優(yōu)化,通過訓練使得預測分布更接近真實分布,使得網(wǎng)絡更好地學習到如何區(qū)分不同的類別。

圖3 網(wǎng)絡總體結(jié)構圖Fig.3 Overall structure of network

2.1 通道分離雙注意力網(wǎng)絡

在檢測過程中,為了進一步改善信息流,獲取用于高頻重構的細節(jié)信息,受Zhao 等人[19]在超分辨率領域提出的通道分離思想的啟發(fā),鑒于其有助于模型有針對性地處理具有不同屬性的層次特征,同時可以有效地增加網(wǎng)絡深度的優(yōu)點,提出采用雙注意力機制來構造通道分離雙注意力網(wǎng)絡(CS-DAN),并將其應用在目標檢測領域以進行更深層次的特征提取,從而提高檢測效率。

通道分離雙注意力網(wǎng)絡以級聯(lián)子網(wǎng)的方式將多個子網(wǎng)從淺到深并聯(lián)以獲得高分辨率特征,此模塊主要包括特征提取、通道注意力特征融合和全局殘差學習三部分,具體結(jié)構如圖4所示。針對網(wǎng)絡提取的淺層特征,采用多個級聯(lián)子網(wǎng)(通道分離塊(channel splitting block,CSB))進行特征提取。首先使用分組卷積進行通道分離,將參數(shù)減少為普通卷積的一半。其次為了使得神經(jīng)網(wǎng)絡能夠區(qū)別對待分離后的各分支通道,利用空間注意力機制可重點關注每個特征面權重的優(yōu)勢,將其應用于特征提取,其中空洞卷積技術的引入,在擴大感受野的同時,無需下采樣損失信息,一定程度上保證了網(wǎng)絡的計算量,提升了網(wǎng)絡的實時性。接著使用通道注意力特征融合模塊代替常規(guī)特征融合方式進行信息集成,1×1卷積操作的設計不僅可以聚合來自各個通道的特征信息,實現(xiàn)權重的重分配,且有助于通道降維和跨通道信息交互。最后使用全局殘差學習對堆疊的多個通道分離塊的特征信息進行重構,有效避免了高分辨率特征經(jīng)過多個通道分離塊后導致的信息丟失問題,對小目標的特征提取表現(xiàn)出了良好的性能。

圖4 通道分離雙注意力網(wǎng)絡結(jié)構Fig.4 Structure of dual attention networks with channel splitting

2.1.1 特征提取

首先將特征提取網(wǎng)絡(feature extraction network,F(xiàn)EN)提取的淺層特征X0表示為:

其中,X表示輸入圖像,F(xiàn)E(·)表示對應的映射函數(shù)。

每個并聯(lián)的子網(wǎng)由多個通道分離塊(CSB)按順序堆疊而成,遵循逐級輸入原則并將最開始輸入的淺層特征X0添加到子網(wǎng)的末端,因此子網(wǎng)不是由淺層特征到深層特征的直接映射,而是使用堆疊的多個通道分離塊來重構殘差特征,以逐漸減小預測特征與真實特征之間的差距。將并聯(lián)子網(wǎng)中的第i個CSB的輸出Xi表示為:

其中,i=1,2,…,n,表示第i個CSB的內(nèi)部操作(分組卷積、空洞卷積、雙注意力機制等),則第n個CSB的并聯(lián)操作輸出可表示為:

通過級聯(lián)幾個殘差特征學習子網(wǎng),將來自各個CSB的分層特征以從淺到深的方式輸出串聯(lián)到一個張量中(feature series module,F(xiàn)SM)。

2.1.2 通道注意力特征融合

信息融合作為圖像識別算法的關鍵環(huán)節(jié),其融合方式對于能否獲得精確位置來說極其重要。由圖2 可知,原FPN 使用Concat 操作進行特征融合,雖然可以使得描述圖像本身的特征數(shù)(通道數(shù))增加,但每一特征所表征的信息量沒有增加,且分辨率小的特征通道數(shù)更多,增加了額外的計算量。針對通道注意力機制可準確聚焦重要通道和抑制無關通道的優(yōu)點,本文對SENet[9]進行改進,在特征融合模塊中引入通道注意力機制構建通道注意力特征融合模塊(channel attention feature fusion module,CAFF),并將其用于本文算法中的所有信息集成部分。原SENet以及本文提出的CAFF模塊具體結(jié)構圖如圖5所示,其中(a)為SENet,(b)為CAFF,SENet 作為輕量級模塊,為特征的通道相關性提供了權值參數(shù),實現(xiàn)了通道間的注意力機制,但也忽視了網(wǎng)絡間的可降維性。

圖5 SENet與CAFF結(jié)構圖Fig.5 Structure diagram of SENet and CAFF

CAFF模塊首先將不同尺度的特征圖采用上采樣或下采樣統(tǒng)一尺寸,進行Concat操作后得到H×W×C的特征圖,Squeeze 操作通過全局池化將每個通道的二維特征(H×W)壓縮為一個實數(shù),即C×1×1 個一維向量,某種程度上這個實數(shù)反映了全局的感受野。然后通過一個全連接層將特征維度降低到原來的1/r,并通過一個ReLU激活層學習特征通道間的非線性關系,再通過一個全連接層升維到原來的維度,然后Excitation 操作通過Sigmoid 函數(shù)轉(zhuǎn)化為0~1 的歸一化權重。接著Rescale操作通過乘法逐一將歸一化權重加權到輸入特征圖每個特征通道上。最后緊跟1×1卷積操作,將得到的特征圖進行降維作為后續(xù)操作的輸入。此模塊不僅能夠使神經(jīng)網(wǎng)絡自動學習特征通道間的重要性,且有助于通道降維和跨通道信息交互。對于FSM 中的串聯(lián)特征,本文使用提出的CAFF模塊進行特征重構并獲得中間預測,可有效關注重要通道和抑制無關通道。圖像重構XR可表示為:

其中,F(xiàn)CA(·)表示通道注意力特征融合操作,Xm表示由多個CSB塊的輸出Xi組成的張量,即Xm=[X0,X1,…,Xn]。

2.1.3 全局殘差學習

特征信息會隨著網(wǎng)絡深度的增加逐漸弱化,但同時也越具有語義信息,本文在通道分離雙注意力網(wǎng)絡結(jié)構中引入殘差學習機制,用來避免高分辨率特征經(jīng)過多個通道分離塊后導致的信息丟失問題。在特征重構后,將最開始輸入的淺層特征添加到子網(wǎng)的末端,然后使用一個3×3卷積操作來消除混疊效應,最后經(jīng)過一個全局殘差學習來穩(wěn)定模型的訓練,以獲得子網(wǎng)的最終預測。在訓練中對中間預測和最終預測同時進行監(jiān)督,最大限度地保證網(wǎng)絡的特征提取性能。則全局特征XF可表示為:

其中,+表示全局跳連操作,f3×3(·)表示對經(jīng)過跳連融合后的特征使用3×3卷積,X表示原始輸入圖像,X0表示最開始經(jīng)過特征提取后的淺特征。

2.2 通道分離塊

由以上描述可以看出,通道分離雙注意力網(wǎng)絡可有效地實現(xiàn)信息間的交互,而通道分離塊(CSB)作為級聯(lián)網(wǎng)絡的重要組成部分,在一定程度上起到了決定性作用,CSB的內(nèi)部結(jié)構如圖6所示。對于Zhao等人[19]在超分辨率領域提出的通道分離思想,不僅有助于模型有針對性地處理具有不同屬性的層次特征,同時可以有效地增加網(wǎng)絡深度。但隨著網(wǎng)絡深度的增加,也會導致不必要的參數(shù)的增加,以及無法保證神經(jīng)網(wǎng)絡可以對各個通道或者空間特征進行區(qū)分處理。針對此問題,本文在此模塊上進行了改進,將通道分離方式、空間注意力機制、信息交換技術以及特征融合方式進行了有效的整合。

圖6 通道分離塊(CSB)的內(nèi)部結(jié)構Fig.6 Internal structure of each channel splitting block(CSB)

2.2.1 通道分離

為了避免給網(wǎng)絡帶來不必要的參數(shù)增加,首先采用分組卷積將輸入的淺層特征進行分組,然后對每個分組的通道獨立卷積。假設M×N為輸出特征圖的空間大小,I為輸入通道數(shù),K×K為卷積核的大小,H為輸出通道數(shù),則標準卷積的計算量為MNIK2H,本文將分組數(shù)設置為2,則計算量為MNIK2H/2,減少為標準卷積的一半。對于第i個CSB,表達式可由式(6)表示:

2.2.2 空間注意力機制

使用分組卷積進行通道分離,一定程度上減少了網(wǎng)絡的參數(shù)量,但由于網(wǎng)絡中每個卷積核通道之間權重是相同的,無法對分離后的各個分支通道區(qū)分對待,神經(jīng)網(wǎng)絡還是會關注無用信息。考慮到注意力機制是一個額外的神經(jīng)網(wǎng)絡,且能從大量信息中篩選出重要的信息,而空間注意力機制可對各個通道的空間特征區(qū)分處理,因此本文將此模型引入到分離后的上下分支通道中來學習遠程空間依賴關系。借鑒CBAM(convolutional block attention module)[20]中的空間注意力模型,為了不做下采樣損失信息,又能保證相同的感受野,本文采用空洞率為3、卷積核大小為3×3 的空洞卷積代替原模型中的7×7 卷積操作,一定程度上減少了網(wǎng)絡的計算量,提升了網(wǎng)絡的實時性。改進后的空間注意力(spatial attention,SA)結(jié)構稱為D-SA,如圖7所示。

圖7 改進的空間注意力網(wǎng)絡結(jié)構(D-SA)Fig.7 Improved structure of spatial attention network(D-SA)

首先將淺層特征圖分別進行最大池化和平均池化操作,得到兩個二維(H×W)的特征圖,并將它們拼接起來生成一個有效的特征描述符,接著使用一個空洞率為3 的空洞卷積來擴大感受野以及激活函數(shù)來學習特征通道間的非線性關系,以生成所需要的二維空間注意力圖XS。表達式如式(7)所示。

其中,DSA(·)表示對輸入的淺層特征Xi-1采用空間注意力操作,d3×3(·)表示對拼接融合后的特征圖進行3×3空洞卷積,δ為Sigmoid函數(shù)。

2.2.3 信息交換

為了上下分支能夠提供互補的上下文信息,將原有的兩通道特征進行均值操作后再分別添加到上下分支中,促進信息在不同模塊之間的流動。假設CS-DAN 包含n個CSB,第i個CSB 又包含j個級映射(第j級映射輸出作為j+1 級映射的輸入),則第i個CSB的上下分支特征表達式如式(8)、式(9)所示。

其中,Y1、Y2表示上下分支各自輸出特征,f1(·)和f2(·)分別表示上下分支各級映射的轉(zhuǎn)換函數(shù),Xij表示第i個CSB 中的第j個級映射,XSj表示第j個級映射對應上下分支的空間注意力特征圖。

2.2.4 通道注意力特征融合

針對原Concat 融合方式在特征融合過程中,會導致圖像本身通道數(shù)增加的缺點,對于處理后的上下分支特征通道,本文采用提出的通道注意力特征融合模塊(CAFF)進行信息集成,具體如圖5 所示。不僅可以聚合來自各個通道的特征信息,實現(xiàn)權重的重分配,而且有助于通道降維和跨通道信息交互,接著經(jīng)過一個局部跳連將深淺層特征融合,避免了高分辨率特征經(jīng)過多個級聯(lián)塊后導致的信息丟失問題,第i個CSB的輸出Xi可表示為:

其中,Xi-1表示第i-1 個CSB 特征(第i個CSB 的輸出作為第i+1 個CSB的輸入),Y1、Y2表示上下分支各自輸出特征,F(xiàn)CA(·)表示通道注意力特征融合操作。

2.3 損失函數(shù)優(yōu)化

在目標檢測算法中常用的回歸損失函數(shù)以輸入標簽作為衡量標準,考慮到KL損失可針對邊界框的移動與位置間的方差進行學習,可以重點評估位置的置信度,在文中將其引入損失函數(shù),在保證計算量的基礎上還能提升定位的準確率。在本文檢測算法中,分類損失仍采用交叉熵損失,但邊界框的回歸預測損失采用KL損失,定義如下:

其中,P表示模型的預測分布,Q表示真實分布,D(Q//P)表示預測分布P擬合真實分布Q時,兩者所產(chǎn)生的信息損失。x是坐標樣本取值,xe表示預測坐標位置,xg為邊界框坐標真值。θ表示一組要學習的參數(shù),σ表示分布的標準差,當σ趨近于0時,真實邊界框用高斯極限分布(狄拉克函數(shù))QD(x)=δ(x-xg)表示,其中D為表達xg的參數(shù)集合。

分別對損失函數(shù)中的變量xe和σ求偏導:

由上式可知,網(wǎng)絡在訓練的初始階段的反向傳播過程中會產(chǎn)生梯度爆炸,導致模型無法正常收斂。為了防止這種現(xiàn)象,令α=lbσ2,帶入式(12)中得:

當|xg-xe|>1時,對KL損失進行平滑處理,可讓模型在反向傳播時受到的干擾減小,從而使模型在收斂過程中可以更加穩(wěn)定,則邊界框回歸損失函數(shù)Lreg表達式為:

3 實驗

本文所用實驗配置為Windows 10 操作系統(tǒng),CPU為Intel i5-3337U,GPU為NVIDIATITAN V,顯存大小為12 GB,使用Python3 編程語言和TensorFlow深度學習框架,結(jié)合Cuda10.0,SGD 優(yōu)化器進行訓練,用Loss函數(shù)反向傳播來調(diào)整網(wǎng)絡各層的權值,用平均精度(mean average precision,MAP)作為算法的衡量指標,模型訓練超參數(shù)如表1所示。

表1 訓練超參數(shù)Table 1 Training parameters

3.1 在PASCAL VOC2007數(shù)據(jù)集上的對比實驗

本節(jié)選用PASCAL VOC2007 作為實驗數(shù)據(jù)集,一共包含9 963 張圖片,涉及到20 個類別,其中訓練集5 011張圖片,測試集4 952張圖片,大部分都擁有復雜的背景圖片,使得檢測任務具有一定的挑戰(zhàn)性。

3.1.1 不同檢測算法對比實驗

本文算法與其他7 種檢測模型在PASCAL VOC2007 數(shù)據(jù)集上的對比結(jié)果如表2 所示。DPM(deformable part model)[21]針對目標的多視角問題,采用了多組織策略,但無法適應大幅度的旋轉(zhuǎn),準確度只有38.51%,較深度學習算法有很大的劣勢。YOLO[2]算法采用輕量級的主干網(wǎng)絡,是一種實時的端到端的檢測算法,準確率遠遠優(yōu)于傳統(tǒng)的人工特征提取方法,高出DPM算法27.83個百分點。同樣作為一階段檢測算法的SSD[3]算法,結(jié)合了特征金字塔結(jié)構思想,將多尺度特征進行融合,較YOLO算法準確率提升了10.48個百分點。另外,F(xiàn)ast R-CNN[16]算法與YOLO算法相比,定位誤差較小,但背景誤差較大,因此在此基礎上只提升了3.05個百分點。Faster R-CNN[5]和RFCN[4]作為兩階段檢測算法的代表性算法,準確率分別為73.28%和78.53%,但由于Faster R-CNN 嚴重依賴預訓練模型,訓練效果一般,使得R-FCN算法高出Faster R-CNN算法5.25個百分點,本文算法不斷吸取其他先進檢測框的優(yōu)點,最終準確率達到了79.20%,檢測效果均優(yōu)于其他6種模型,且與原Faster R-CNN模型相比,精度值提升了近6 個百分點,取得了較為不錯的結(jié)果。雖說較YOLOV5 算法性能略顯不足,但在小目標檢測效果上占有絕對優(yōu)勢。

表2 不同目標檢測算法的實驗結(jié)果對比Table 2 Comparison of experimental results of different object detection algorithms 單位:%

訓練過程中的Loss曲線以及MAP曲線如圖8所示。由圖8(a)可知,在經(jīng)過16 000次迭代后,本文提出的算法模型可以很好地實現(xiàn)收斂,Loss 值基本趨于穩(wěn)定;由圖8(b)可知,MAP值同樣在16 000次迭代后逐漸穩(wěn)定,最終收斂到0.792 附近,最高可達到0.806。

圖8 模型訓練損失及平均精度曲線Fig.8 Loss and MAP curves of model training

3.1.2 消融對比實驗

為了更好地理解本文各個改進模塊對檢測效果的影響,在PASCAL VOC2007 數(shù)據(jù)集上進行消融實驗,實驗結(jié)果如表3 所示。從實驗結(jié)果可以看出,細節(jié)提取模塊(DEM)和通道注意力特征融合模塊(CAFF)的提出,增加了每一特征所表征的信息量,使得網(wǎng)絡可提取更多的細節(jié)特征。與原Faster RCNN算法相比,MAP值從73.28%提高到74.83%。采用通道分離雙注意力網(wǎng)絡(CS-DAN),不僅有助于模型有針對性地處理具有不同屬性的層次特征,而且可為各個通道分配不同的權重。另結(jié)合分組卷積、空洞卷積等技術來減少網(wǎng)絡參數(shù),防止過擬合。在前者基礎上,MAP值提升了2.98個百分點。引入KL散度到損失函數(shù)中,通過訓練,預測分布更接近真實分布,從而使網(wǎng)絡更好地學習到如何區(qū)分不同的類別,最終本文算法MAP 值達到了79.20%,取得了較為不錯的結(jié)果。

表3 在PASCAL VOC2007數(shù)據(jù)集上的消融實驗對比Table 3 Comparison of ablation experiments on PASCAL VOC2007 dataset

為了更好地檢驗本文算法的效果,消融實驗選取在不同場景下的圖片進行測試,結(jié)果如圖9 所示。從上至下依次對應表3 中各個算法:原圖、Faster RCNN、With DEM+CAFF、With CS-DAN 以及本文算法。由圖可知,F(xiàn)aster R-CNN算法能夠檢測出80%以上的目標物,但也因其是一個單尺度檢測網(wǎng)絡,所以很大幾率存在漏檢以及候選框重疊等情況。細節(jié)提取模塊和通道注意力特征融合模塊的添加,使得神經(jīng)網(wǎng)絡重點關注細節(jié)信息,在一定程度上緩解了深度CNN后的信息弱化問題,降低了漏檢率,如圖9(a)列中的小目標物瓶子被檢測出來,但也由于某些目標物的相似特征,算法存在錯檢、漏檢等情況;圖9(b)列中的奶牛被檢測成了馬;圖9(c)列中的盆栽未被識別出來。同時可以看出,由于雙注意力機制的使用,任務處理系統(tǒng)更專注于找到輸入數(shù)據(jù)中顯著的與當前輸出相關的有用信息,從而提高輸出的質(zhì)量,有效地抑制了候選框的重疊,減少了錯檢率。而本文算法在經(jīng)過一系列改進之后,不僅有助于模型有針對性地處理具有不同屬性的層次特征,有效抑制無關信息,同時通過訓練使得預測分布更接近真實分布,很好地解決了在消融實驗過程中各個算法出現(xiàn)的漏檢、錯檢等情況,各目標物的分值都有了一定的提高,進一步證明了本文算法的可行性。

圖9 在PASCAL VOC2007數(shù)據(jù)集上的消融實驗結(jié)果對比Fig.9 Comparison of ablation results on PASCAL VOC2007 dataset

將通道可分離卷積、不同注意力機制、各種改進的FPN結(jié)構以及本文提出的通道分離雙注意力結(jié)構(CS-DAN)結(jié)合不同網(wǎng)絡模型在PASCAL VOC2007數(shù)據(jù)集上進行訓練,實驗結(jié)果如表4所示。由表中數(shù)據(jù)可知,當主干網(wǎng)絡同為MobileNet時,StairNet[22]+CS-DAN 的檢測效果最佳,其中SSD[3]、StairNet[22]、StairNet[22]+SE[9]/CBAM[20]的實驗結(jié)果引自文獻[20]。對于深度可分離混合卷積網(wǎng)絡模型Mixmobilenet[23]以及多尺度通道可分離卷積模型3bCNN[24],本文在此技術基礎上提出雙注意力機制構建通道分離雙注意力機制,檢測性能均優(yōu)于這兩種模型,其中Mixmobilenet-FFSSD 的實驗結(jié)果引自文獻[23]。當主干網(wǎng)絡同為Resnet-101時,本文提出的Faster[5]+CS-DAN 結(jié)構較另外兩種注意力機制SENet[9]、CBAM[22],精度值分別提升了1.06個百分點以及0.55個百分點,同時較Faster[5]+VGG 結(jié)構提升了2.40 個百分點。原Faster[5]+FPN[17]算法精度值為74.51%,在引入提出的細節(jié)提取模塊(DEM)和通道注意力特征融合模塊(CAFF)后,精度值提高了0.32 個百分點,同時較文獻[25]提出的雙向特征金字塔網(wǎng)絡(gated bidirectional feature pyramid network,GBFPN)提升了4.13個百分點,雖說較文獻[26]提出的殘差雙融合特征金字塔網(wǎng)絡ReBiF性能略顯不足,但與CS-DAN結(jié)合后,最終算法精度值達到了79.20%,均優(yōu)于其他幾種模型,其中SSD300+GBFPN[25]的實驗結(jié)果引自文獻[25]。

由表4中數(shù)據(jù)可知,本文算法在保證準確率的基礎上,參數(shù)量也達到了可觀效果,具體歸因于以下三方面:首先,采用分組卷積進行通道分離,參數(shù)量減少為普通卷積的一半;其次,空間注意力模型引入空洞卷積擴大感受野的同時,無需下采樣損失信息,一定程度上保證了網(wǎng)絡的計算量,提升了網(wǎng)絡的實時性;最后,設計通道注意力特征融合模塊進行信息集成,不僅能夠使神經(jīng)網(wǎng)絡自動學習特征通道間的重要性,且有助于通道降維和跨通道信息交互,減少了不必要的參數(shù)的增加,進一步說明了本文提出的通道分離雙注意力模型的優(yōu)勢。

表4 不同結(jié)構算法模型實驗結(jié)果對比Table 4 Comparison of experimental results of different structure algorithm models

3.2 在KITTI數(shù)據(jù)集上的對比實驗

本節(jié)選用KITTI數(shù)據(jù)集作為實驗數(shù)據(jù)集,一共包含7 482 張圖片,涉及到8 個類別,其中訓練集6 001張圖片,測試集1 481 張圖片。為了便于統(tǒng)計分析,現(xiàn)將其融合為3個類別:Car、Person、Cyclist。背景圖像以及周圍環(huán)境的復雜度較大,識別結(jié)果能進一步體現(xiàn)算法的性能。

本文算法與其他5 種檢測模型在KITTI 數(shù)據(jù)集上的對比結(jié)果如表5所示,其中SSD的實驗結(jié)果引自文獻[27],YOLOV3、AM-YOLOV3 的實驗結(jié)果引自文獻[28]。由實驗結(jié)果可知,本文檢測效果較為理想,且速度達到了38 FPS,基本滿足實時檢測的需求。但如何進一步提升模型速度,達到Y(jié)OLOV5 算法的實時檢測性能,仍是今后研究過程中需要關注的重點問題。

表5 在KITTI數(shù)據(jù)集上不同目標檢測算法的結(jié)果對比Table 5 Comparison of results of different object detection algorithms on KITTI dataset

在KITTI 數(shù)據(jù)集上不同算法及各類目標精度值的結(jié)果對比如圖10 所示。由實驗結(jié)果可知,本文算法以提高小目標為出發(fā)點,提出的細節(jié)提取模塊以及雙注意力機制能夠有效捕捉大量細節(jié)信息,大大提高了小目標的檢測精度。較Faster R-CNN[5]、SSD[3]、YOLOV3、AM-YOLOV3[28]算法,提高了數(shù)據(jù)集中每一類目標的平均精準度,最終準確率達到了89.4%,檢測效果較為理想。與YOLOV5算法相比,雖說整體精度值有所降低,但小目標Car、Cyclist的精度值均有一定的提升,進一步證明了細節(jié)提取模塊的可行性。

圖10 不同檢測算法各類目標物的精度結(jié)果對比Fig.10 Comparison of accuracy results of various targets with different detection algorithms

3.3 在Pedestrian數(shù)據(jù)集上的對比實驗

為了進一步驗證本文算法的有效性,本節(jié)選用一段街道行人運動的2分25秒的視頻所拆分的3 600幀,即3 600 張圖片進行實驗,將其命名為Pedestrian數(shù)據(jù)集,作為訓練集又作為驗證集,并用LabelImg工具做好標注信息。

本文提出的改進算法與其他幾種檢測模型在行人數(shù)據(jù)集上的對比結(jié)果如表6所示。在復雜場景下,當行人出現(xiàn)遮擋時,YOLOV2[29]網(wǎng)絡對小目標及復雜樣本的特征提取能力一般,準確率只有83.70%。SSD[3]網(wǎng)絡利用了特征金字塔結(jié)構的思路,將多種尺寸的特征組合起來,較YOLOV2 算法精度值提升了4.18個百分點。兩者作為一階段檢測算法的代表性算法,都達到了實時檢測的要求。Faster R-CNN[5]算法的準確率為88.62%,但檢測速度較慢,這也是兩階段檢測算法的通病。本文算法結(jié)合雙注意力機制,用通道注意力來關注輸入的圖像中是否包含有意義的輸入目標,并為每個通道分配不同的權值,用空間注意力來關注每個面上局部的權重,從而增強網(wǎng)絡辨別學習能力,可有效減少小目標的漏檢率。檢測精度較YOLOV2、SSD分別提升7.67個百分點和3.49個百分點,同時較原Faster R-CNN 算法,精度值提升了2.75個百分點,且分組卷積、空洞卷積的引入有效減少了網(wǎng)絡參數(shù),提高了算法的實時性,最終檢測速度達到了48 FPS,完全滿足實時性需求,YOLOV5算法雖說保持著速度上的領先,但針對小目標物識別性能還是略顯不足,落后于本文算法0.33個百分點,進一步證明了本文算法大大增加了主干網(wǎng)絡對特征的利用率,在檢測單類小目標上占有絕對優(yōu)勢。

表6 在Pedestrian數(shù)據(jù)集上不同目標檢測算法的結(jié)果對比Table 6 Comparison of results of different object detection algorithms on Pedestrian dataset

將本文算法應用在Pedestrian數(shù)據(jù)集上進行真值圖與預測圖的對比,結(jié)果如圖11所示。由圖11可知,本文算法能夠很好地檢測出行人,使得預測圖在很大程度上接近真值圖。圖12可視化了本文算法與原Faster R-CNN算法的對比結(jié)果,可見原Faster R-CNN算法下的漏檢率很高,而本文算法即使在復雜場景中也可實現(xiàn)精確的定位回歸,可見其性能的優(yōu)越性。但因主體部分特征不完整再加上某些目標物的過小,導致了算法存在小概率漏檢情況,這也是本文算法存在的缺點。在今后的研究過程中,會將提升復雜背景下的小目標檢測精度作為首要出發(fā)點。

圖11 在Pedestrian數(shù)據(jù)集上真值圖和預測圖的對比結(jié)果Fig.11 Comparison results of truth map and prediction map on Pedestrian dataset

圖12 Faster R-CNN與本文算法的檢測結(jié)果對比Fig.12 Comparison of detection results of Faster R-CNN and algorithm in this paper

4 結(jié)束語

本文提出了一種基于通道分離的雙注意力機制的目標檢測算法,通過引入改進的FPN 來提高小目標的檢測精度。首先在通道分離過程中提出雙注意力機制,使得神經(jīng)網(wǎng)絡能夠自動學習特征間的重要性,另結(jié)合分組卷積、空洞卷積等技術來減少網(wǎng)絡參數(shù),防止過擬合;接著通過添加細節(jié)提取模塊以及通道注意力特征融合模塊來提取更多的細節(jié)特征;最后在損失函數(shù)中引入KL散度進行優(yōu)化,通過訓練使得預測分布更接近真實分布,有效地解決了神經(jīng)網(wǎng)絡直接用于目標檢測存在的問題。實驗表明,本文算法具有可行性。下一步將進一步改進網(wǎng)絡結(jié)構,并增加訓練樣本的數(shù)目,運用更輕量級的檢測網(wǎng)絡,解決嚴重遮擋情況下的目標檢測問題,以達到更好的檢測效果。

猜你喜歡
特征檢測信息
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
小波變換在PCB缺陷檢測中的應用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數(shù)的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 夜夜爽免费视频| 九色91在线视频| 欧美午夜视频| 国产精品无码作爱| 国产手机在线小视频免费观看| 欧美不卡二区| 中文字幕亚洲另类天堂| 思思热在线视频精品| 日本午夜精品一本在线观看| 国产精品三区四区| 亚洲综合色婷婷| 手机在线免费不卡一区二| 欧美日韩国产精品va| 亚洲人成色77777在线观看| 欧美日一级片| 国产在线自乱拍播放| 特级毛片免费视频| 国产95在线 | 2021国产精品自产拍在线观看| 国产成人精品2021欧美日韩| 亚洲无码在线午夜电影| 九色在线视频导航91| 精品国产成人高清在线| 亚洲天堂网在线观看视频| 九月婷婷亚洲综合在线| 98超碰在线观看| 97视频免费在线观看| 欧美精品亚洲精品日韩专| 性色生活片在线观看| 香蕉久久国产超碰青草| 国产理论最新国产精品视频| 亚洲久悠悠色悠在线播放| 国产综合在线观看视频| 亚洲欧州色色免费AV| 97精品国产高清久久久久蜜芽| 在线毛片免费| 国产一级在线播放| 在线欧美a| 欧美日韩资源| 国产精品黄色片| 亚洲精品天堂自在久久77| 亚洲欧洲日韩综合色天使| 97国产精品视频自在拍| 伊人天堂网| 免费国产无遮挡又黄又爽| 91精品网站| 奇米影视狠狠精品7777| 亚洲综合九九| 亚洲高清资源| 无码福利视频| 欧美激情福利| 国产91九色在线播放| 亚洲黄色网站视频| 日韩在线1| 国产特一级毛片| 中国特黄美女一级视频| 露脸国产精品自产在线播| 午夜高清国产拍精品| 四虎亚洲国产成人久久精品| 国产精品极品美女自在线| 就去吻亚洲精品国产欧美| 国产成人精品综合| 丰满人妻一区二区三区视频| 欧美亚洲香蕉| 久久中文字幕av不卡一区二区| 亚洲AⅤ综合在线欧美一区| 亚洲色图欧美| 五月天在线网站| a级免费视频| 国产第八页| 在线观看热码亚洲av每日更新| 亚洲国产日韩一区| 91色爱欧美精品www| 99久久人妻精品免费二区| 亚洲人成色在线观看| a级毛片网| 国产91小视频| 久草国产在线观看| 亚洲精品自拍区在线观看| 性视频久久| 精品福利网| 成人福利在线观看|