摘要:以往的目標檢測任務中,大量研究通過空間和通道信息來構建特征優化算法。然而,如何利用通道和空間中最大和平均特征的信息分布情況進行特征提取,仍是一個挑戰。針對上述挑戰,構建了雙分支通道空間依賴網絡,用來提取空間和通道中信息依賴特征,其關鍵是獲取最大特征和平均特征上的重要信息分布情況。為了優化網絡的檢測精度與計算效率,構建了非對稱權重共享卷積網絡,利用相同的非對稱卷積核進行聯合訓練來實現權重共享,極大地增強了卷積核參數的魯棒性。以YOLOv4、YOLOv5和EfficientDet為檢測基線,在PASCALVOC和MSCOCO數據集上進行實驗,驗證了雙分支通道空間依賴網絡和非對稱權重共享卷積網絡模塊的有效性。在兩個數據集上精度最高分別增長了1.98%和2.6%。
關鍵詞:雙分支通道空間依賴;非對稱卷積;權重共享;目標檢測
中圖分類號:TP393.04文獻標志碼:A
文章編號:1001-3695(2023)05-044-1565-06
0引言
神經網絡(CNN)模型可以有效地處理各種視覺任務[1~3]。最近的研究[4~7]表明,將學習機制集成到網絡中,可以幫助捕獲特征之間的空間相關性和通道相關性,并進一步增強特征表示。其中,STN[4]顯式地允許在網絡中對數據進行空間變換操作。SENet[5]將重點放在通道關系上,通過顯式建模通道之間的相互依賴性,自適應地重新校準通道特征響應。CBAM[6]將通道和空間兩個獨特的模塊應用到基于注意力的特征優化,Chen等人[7]也引入注意力機制輔助深度神經網絡實現協同分割。雖然上述注意力機制的相關工作都取得了良好性能,可以從整體方面定位到感興趣的信息,并抑制無用信息,但未考慮不同特征對于感興趣區域的影響力不同的問題。在此基礎上,將不同注意力特征的重要程度進行區分以提高目標檢測的精度成為本文探討的出發點。
為了同時捕捉通道間和空間內的依賴關系,同時凸顯出通道或空間中最大特征或平均特征的重要程度,本文在SENet[5]的基礎上,結合通道依賴關系和空間依賴關系,構建了雙分支通道空間依賴網絡(dualchannelspaceinterdependentnetwork,DCSINet)。采用兩個全連接來提取最大與平均特征內部之間的依賴信息,并通過雙分支擠壓擴張的形式來增強網絡的特征表示。同時,通過提取最大特征和平均特征重要性分布情況并與原始特征進行結合,來選擇性地強調有用特征,抑制干擾特征。
由于前端設備通常計算資源有限,而實際應用要求CNN在一定的計算預算限制下提供較高的精度與效率。所以,在不增加推理時間計算與內存占用的情況下提高CNN的實際應用性能,有很大研究意義。以往工作中,非對稱卷積[8]將n×n卷積分解為n×1和1×n卷積,減少了參數量和計算量,降低了n×n卷積帶來的大量信息冗余。ACNet[9]使用非對稱卷積顯示地增強了標準平方核層的表示能力。非對稱卷積可以融合到標準平方卷積核中,無須額外推理計算時間,然而其在精度方面依然有很大提升空間。
為了提高網絡訓練速度,本文借鑒非對稱卷積,構建了一個非對稱權重共享卷積網絡(asymmetricweight-sharingconvolutionnetwork,AWCNet)來提取輸入圖像特征。其中,為了提高檢測精度,本文采用兩組相同的非對稱卷積核實現權重共享,從而實現速度與精度的雙重優化。
綜上所述,本文總體貢獻如下:
a)在SENet基礎上提出了雙分支通道空間依賴網絡,通過學習通道和空間位置中最大特征和平均特征重要性分布來選擇性地強調有用特征。
b)提出了非對稱權重共享卷積網絡來提取圖像特征,采用了非對稱卷積和權重共享原理實現了精度和速度的雙重優化。
c)在PASCALVOC和MSCOCO數據集上進行了實驗,驗證了本文算法相對于原始基線網絡的性能提升。
1相關工作
a)基于深度學習的目標檢測。深度學習目標檢測歷程分為雙階段目標檢測和單階段目標檢測。雙階段目標檢測算法檢測精度高,如R-CNN[10]、SPPNet[11]、FastR-CNN[12]、FasterR-CNN[13]、FPN[14]、R-FCN[15]等。單階段目標檢測算法可以在一個階段直接確定目標類別,并得到位置檢測框。YOLO由Redmon等人[16]提出,其最大優勢為處理速度快,但在識別精度方面還有待提高。YOLOv2[17]主要改進點是提出了聯合訓練算法,在保持YOLO處理速度的同時定位更精準,但受限于其整體結構,依然沒有很好地解決小物體的檢測問題。YOLOv3[18]引入了FPN來實現多尺度預測,密集的anchorbox可有效提高網絡目標召回能力,對于小目標檢測來說提升非常明顯。YOLOv4[19]引用CSPDacknet-53提取特征,加入SPP網絡提高圖像提取效果,并且驗證了Bag-of-Freebies和Bag-of-Specials對目標檢測影響的重要性。EfficientDet[20]提出加權雙向金字塔網絡(BiFPN),并且將EfficientNet復合縮放的思路進行延伸,把架構決策明確化為可擴展的框架。YOLOv5[21]在YOLOv4的基礎上添加了自適應錨框計算、自適應圖片縮放等新的改進思路,并且易于配置環境,模型訓練也非常快速。為了擁有處理速度快的優勢,本文工作基于單階段目標檢測算法進行改進,可以在一個階段直接進行目標檢測。
b)注意力網絡。深度學習中注意力機制被理解為專注于解決特定任務的部分輸入,而不是注意整個輸入。一些學者探索了在神經網絡中使用注意力機制來提升網絡性能的方法。Xu等人[22]采用視覺注意生成圖像字幕,為了生成與圖像相對應的字幕,他們使用長短時記憶(LSTM)獲取給定圖像的相關部分。Sharm等人[23]應用注意力機制識別視頻中的動作,在基礎的網絡結構中添加了注意力機制,使得網絡可以只關注視頻中與行為類別強相關的區域。Wang等人[24]通過疊加剩余注意模塊,可使網絡模型能夠達到很深的層次,其基于注意力的殘差學習方式使得非常深的模型能夠更容易優化和學習,提高了在ImageNet數據集上的分類性能。Mnih等人[25]提出了一種新穎的遞歸神經網絡模型,該模型能夠通過自適應地選擇區域或位置的序列并僅以高分辨率處理選定區域。李凱等人[26]結合淺層特征圖與深層特征圖的優勢,在基礎網絡層之間加入注意力機制模塊,使得模型會關注包含更多信息量的通道。SENet[5]將重點放在通道關系上,它通過顯式建模通道之間的相互依賴性,自適應地重新校準通道特征響應。然而以上注意力學習方法只關注了目標中最顯著的局部特征,抑制了其他區域的次級顯著特征,但是這些抑制的信息中通常也含有目標的有效特征。在此基礎上,CAMF[27]是利用互補注意力模塊(CAM)同時提取最顯著的注意力特征和互補的注意力特征,從而可以利用更多的區域信息提取出更多的子重要區域的鑒別特征。受上述研究的影響,為了采用注意力機制提高模型檢測精度,本文創建了一個雙分支通道空間依賴網絡(dualchannelspaceinterdependentnetwork,DCSINet)。應用SENet中的squeeze和excitation操作來獲取每個特征的重要程度,通過兩個全連接層去建模通道之間和空間之間的相關性,并采取互補注意力的思想同時提取最大注意力特征和平均注意力特征的重要性分布情況,從而讓提取的特征指向性更強,達到提高網絡精度的目的。
c)非對稱卷積。非對稱卷積通常用于逼近現有的正方形卷積以進行模型壓縮和加速。Denton等人[28]基于SVD分解找到一個低秩逼近,然后對上層進行精細化以恢復性能。程龍等人[29]在多尺度上獲得了不同感受野下的圖像特征,并且利用非對稱卷積減少了模型參數量,使其更易于訓練與驗證。Jaderberg等人[30]通過最小化重構誤差,成功學習了水平卷積核和垂直卷積核。Jin等人[31]應用結構約束使二維卷積可分離,在獲得相當精度的條件下時間加速了兩倍,非對稱卷積也被列入Inception-v3中用于網絡結構設計。為了提高模型訓練速度,本文采用非對稱卷積原理來降低模型參數量,并且為了在此基礎上提高模型檢測精度,通過兩組相同的非對稱卷積核實現權重共享,搭建了一個非對稱權重共享卷積網絡(asymmetricweight-sharingconvolutionnetwork,AWCNet),從而達到精度與速度的雙重提高。
2方法
2.1雙分支通道空間依賴網絡
特征的任意一個通道都代表著一個專門的檢測器,通道注意力是關注什么樣的特征是有意義的。圖像中應重點關注任務相關的區域,空間注意力模塊是關注哪里的特征是有意義的。為了能同時在通道和空間領域提高特征表示能力,本文設計了DCSINet架構。如圖1所示,該網絡由通道和空間兩個模塊組成,其中每個模塊都對原始輸入特征進行空間或通道維度的最大reduce和平均reduce降維。
為了利用通道和空間中最大特征和平均特征之間的分布情況來進行重要特征的強調,本文構建了一個雙分支擴張模塊(dualexpansionblock,DEBlock)。受SENet啟發,DEBlock通過兩層全連接學習方式,自動獲取通道和空間中最大特征和平均特征內部之間的相互依賴關系,同時進行重要性分布提取。最后將兩個模塊提取出的特征重要程度相結合,并附加到原始特征上,以達到增強重要特征并抑制干擾特征的目的。
2.1.2空間依賴模塊
空間依賴模塊可以捕獲空間位置方面的注意力特征。首先將空間W×H中每個1×1位置中C個通道的信息壓縮成大小為1×1的特征信息,再調整形狀為1×(WH),作為空間描述子。以空間為基準,將特征分成W×H塊,每塊特征包含C個通道維度信息。同時,為了在不影響圖片重要特征獲取的前提下降低計算量,本文將原始圖片尺寸壓縮為P×P,其中經實驗證明P取值為16時性能最佳,具體實驗過程將在3.2節描述。為了得到空間位置中最大特征和平均特征的重要性分布,本文算法對圖片提取全局平均特征和全局最大特征信息,將其壓縮為1×P2大小的特征圖,并輸入到空間DEBlock中。
2.1.3雙分支擴張模塊
DEBlock的目的是完全捕獲通道和空間中的依賴性,為了實現這一目標,該模塊必須具有學習通道之間和空間之間關系的能力。除此之外,在捕獲通道和空間中依賴關系的同時還需要限制模型的復雜性。因此,本文通過兩個全連接層構建了先壓縮再放大的瓶頸結構,并以此來選擇高依賴關系的通道特征和空間位置。
DEBlock的網絡結構如圖2所示,本文構建的雙分支全連接結構從通道描述子和空間描述子中分別提取特征的通道依賴和空間依賴。本文將全連接之間的壓縮率設計為可訓練參數,即一個維度擠壓層,擠壓率為r。然后用ReLU激活連接一個維度擴充層,返回到原始輸入維度,同時采用sigmoid函數將其特征的描述子依賴表示為0≤α≤1的依賴矩陣。
為了清晰地闡述DCSINet模塊在目標檢網絡中的應用,本文給出了DCSINet插入目標檢測網絡的架構圖。如圖3所示,本文將DCSINet插入到目標檢測網絡中的第一個卷積層之后,可以使網絡提取到更為詳細的原始圖像依賴關系。
2.2非對稱權重共享卷積網絡
為了提升目標檢測訓練速度,本文采用非對稱卷積原理來降低模型參數量。為了彌補非對稱卷積在精度提升方面效果較差的缺陷,本文將權重共享原理應用到非對稱卷積中,構建了一個如圖4(c)所示的非對稱權重共享卷積網絡(asymmetricweight-sharingnetwork,AWCNet),實現了速度與精度的雙重提升。
AWCNet首先經過雙分支非對稱卷積層;之后為了綜合兩個分支中提取的特征信息,將兩個非對稱卷積的輸出輸入到一個全連接網絡;最后經過一個1×1卷積核來調整網絡的通道數。其中,兩個分支的非對稱卷積采用相同的非對稱卷積核。
非對稱卷積利用一個3×1和1×3的卷積來代替3×3的卷積,將一個原始卷積核中的網絡參數從9變為6,可以有效提高網絡訓練的速度。其中,兩個分支的非對稱卷積通過采用相同的非對稱卷積核來實現權重共享,這可以優化網絡模型,從而提高目標檢測精度。
文獻[8]在不同尺寸的特征圖中使用非對稱卷積,證明了以下兩點:a)當特征圖分辨率過高時,使用非對稱卷積結構會造成嚴重的信息丟失;b)當特征圖分辨率過低時,非對稱卷積結構加速效果并不明顯。在設計網絡結構過程中得出,非對稱卷積結構適用范圍的經驗值為圖片大小介于12×12到20×20,因此,本文將目標檢測中特征圖尺寸在12×12到20×20之間所有的3×3卷積替換為3×1和1×3的非對稱權重共享卷積網絡。
3實驗
本文利用PASCALVOC和MSCOCO數據集進行實驗,其中在PASCALVOC數據集中,利用PASCALVOC2007和PASCALVOC2012訓練集進行訓練,在PASCALVOC2007測試集上進行測試。在YOLOv4、YOLOv5和EfficientDet目標檢測網絡上驗證了本文算法的優越性,并以YOLOv4為基線網絡證實了DCSINet和AWCNet模塊的有效性。
3.1數據集和實現細節
PASCALVOC2012總共包括了20類物體,train和val中有11530張圖片,共有27450個目標檢測標簽和6929個分割標簽。PASCALVOC2007數據集分為兩部分:訓練和驗證集trainval,測試集test,兩部分各約占數據總量的50%。本文在PASCALVOC2007和PASCALVOC2012訓練集上進行訓練,在PASCALVOC2007驗證集上測試算法網絡準確性。
COCO數據集是一個大型的數據集,包含豐富的目標類別,主要用于物體檢測與分割。COCO數據集以sceneunderstanding為目標,主要從復雜的日常場景中截取,圖像中的目標通過精確的segmentation進行位置的標定。圖像包括91類目標,328000影像和2500000個label,是目前用于語義分割的最大數據集,提供的類別有80類,有超過33萬張圖片,其中20萬張有標注,整個數據集中個體的數目超過150萬個。
在目標檢測實驗中,整個模型使用PyTorch框架實現,默認超參數如下:訓練迭代次數為300;采用步長衰減學習率調度策略,初始學習率設置為0.0001;動量和權重衰減分別設置為0.9和0.0005。所有架構都使用單個NVIDIA1080TiGPU執行,批處理大小為64的多尺度訓練,小批處理大小為8或4取決于架構和GPU內存限制。為了確保模型的有效性與對比的公平性,本文采用與基線網絡完全一致的數據增強方案與損失函數。
3.2整體對比實驗
本文將DCSINet和AWCNet模塊合并后,以YOLOv4、YOLOv5以及EfficientDet目標檢測算法為基準在PASCALVOC和MSCOCO數據集上進行對比實驗。具體插入方式已在第2章中進行描述。為了更直觀地對比本文模塊插入目標檢測網絡后與原始經典網絡的對比效果,本文進一步繪制出在MSCOCO數據集上的mAP和FPS整體對比曲線。對比結果如圖5所示,本文改進的目標檢測網絡在速度上低于原始網絡,但在精度上有著很大的提升。可以得出結論:DCSINet和AWCNet模塊的結合可以有效地提高最終檢測性能,盡管DCSINet模塊會增加原始網絡的參數量,從而使訓練速度下降。
本文方法與多個基線網絡進行對比實驗,并評估了兩個數據集的多個指標。實驗結果如表1所示,本文算法在精度方面取得了最優性能,證明本文模塊可以有效應用在不同的目標檢測網絡中。
本文在PASCALVOC數據集上進行了實驗,以進一步評估本文方法的有效性。實驗表明,本文的DCSINet和AWCNet模塊顯著提高了模型性能。其中,DA-YOLOv4的mAP最高比YOLOv4增長了1.98%,DA-YOLOv5的mAP最高比原始YOLOv5增長了1.93%,DA-EfficientDet的mAP最高比原始EfficientDet增長了1.95%。
本文還對MSCOCO數據集進行了實驗,以驗證本文網絡的泛化性能。結果表明,本文模型效果大大優于原始網絡。其中DA-YOLOv4的mAP最高比YOLOv4增長了2.6%,DA-YOLOv5的mAP最高比原始YOLOv5增長了1.4%,DA-EfficientDet的mAP最高比原始EfficientDet增長了1.8%。
兩組數據集上的實驗結果,驗證了DCSINet和AWCNet模塊在增強網絡特征提取效果方面的明顯優勢,也凸顯了本文算法在檢測精度上的提升。而訓練速度下降的主要原因是在DCSINet模塊中增加了全連接層,加深了網絡的深度,雖然中間進行了維度壓縮來降低參數量,但依然無法改變整體網絡參數增加的事實。AWCNet雖然有降低網絡參數量的作用,卻依然彌補不了DCSINet所帶來的影響。
本文對部分樣例進行了可視化,來對比本文方法和基線方法YOLOv4在效果上的差異。如圖6所示,本文方法可以識別出更多的小目標物體,并且識別物體更精準,可信度更高。
3.3最優模型參數的選取
為了驗證在空間方面壓縮的圖片尺寸大小P以及DEBlock中降維率r對網絡檢測精度的影響,本文分別對P和r取值為P={8,16,32},r={4,8}進行消融實驗,本實驗數據集為PASCALVOC數據集,基準網絡為YOLOv4,實驗結果如表2所示。
可以看出,對P和r取不同的數值會對檢測精度造成一定的影響。具體來說,當P取值越大,檢測精度就越高,但訓練速度會變慢,證明對圖片進行較大程度的壓縮會使原始特征信息丟失嚴重,從而影響檢測精度,對圖片壓縮程度較小則會降低網絡的訓練速度。因此,為了平衡檢測精度與速度,本文選取P=16作為最終值。r=8比r=4的檢測精度要高,證明對原始特征進行不同程度的降維也會對檢測精度產生一定的影響,因此本文取r=8作為最終取值。
3.4最優模型參數的選取
3.4.1整體消融
為了驗證本文構建的DCSINet和AWCNet兩個模塊對于目標檢測精度和速度的效果,本文將DCSINet和AWCNet分別插入YOLOv4進行消融實驗,實驗效果相對于單個模塊的實驗都有所提高。具體實驗結果如表3所示,在加入本文模塊后,DCSI-YOLOv4整體精度達到了78.95%,比YOLOv4提升了1.20%,表明本文DCSINet對目標檢測網絡在提取空間和通道依賴性方面有著不錯的效果。AW-YOLOv4檢測精度達到了79.18%,比YOLOv4提升了1.43%,并且速度也達到了58.6FPS,證明AWCNet既發揮了非對稱卷積提升檢測效率的優勢,又體現了權重共享所帶來的增強特征提取的效果,實現了速度與精度的雙重提高。DA-YOLOv4整體檢測精度比DCSI-YOLOv4和AWC-YOLOv4都有所提升,證明本文的兩個模塊可以達到互相增強檢測效果的作用。
3.4.2SENet與DCSINet的消融實驗
為了驗證SENet與DCSINet對模型性能的影響,本文在YOLOv4、YOLOv5-M和EfficientDet-D0三個基線上進行了消融實驗,數據集為PASCALVOC,結果如表4所示。由于SENet使用全局平均池化作擠壓操作,使得部分細節信息丟失,所以提升效果并不明顯。而DCAINet從空間和通道方面同時提取信息,增強了特征提取的效果,并且提取了空間和通道中的最大特征和平均特征,增強了圖像顯著特征的特征表示,因此加入DCSINet后的網絡提升效果遠高于SENet。
3.4.3ACNet和AWCNet的消融實驗
為了驗證ACNet和AWCNet對網絡模型的影響,本文同樣在YOLOv4、YOLOv5-M和EfficientDet-D0三個基線上進行了消融實驗,數據集為PASCALVOC,結果如表5所示。
可以看出,ACNet對精度和速度的提升都有不錯的效果。AWCNet在非對稱卷積中利用了權重共享,在原始ACNet的基礎上增強了特征提取的能力,并應用全連接層進行特征整合,提高了整個網絡的檢測精度與魯棒性。
4結束語
本文提出一種新的用于目標檢測的DCSINet方法,該方法通過自主學習通道和空間中的依賴性來提升目標檢測精度。具體而言,在通道和空間模塊分別引入了DEBlock來提取最大特征和平均特征的重要程度。然后將通道和空間依賴特征附加到原始特征,著重強調有用特征,抑制干擾特征。同時為了在提高檢測效果的前提下降低模型計算量,本文搭建了AWCNet來代替目標檢測網絡中部分卷積核,其中采用兩組相同的非對稱卷積核實現權重共享,并輸入到一個全連接進行信息綜合。消融實驗和可視化效果說明了本文每個模塊的重要性。本文搭建的兩個網絡DCSINet和AWCNet可應用于多種應用場景,如圖像分類、目標檢測、語義分割等。下一步工作將會在DCSINet基礎上,針對訓練速度進一步優化。
參考文獻:
[1]KrizhevskyA,SutskeverI,HintonGE.ImageNetclassificationwithdeepconvolutionalneuralnetworks[J].CommunicationsoftheACM,2017,60(6):84-90.
[2]ToshevA,SzegedyC.DeepPose:humanposeestimationviadeepneuralnetworks[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2014.
[3]LongJ,ShelhamerE,DarrellT.Fullyconvolutionalnetworksforsemanticsegmentation[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2015.
[4]JaderbergM,SimonyanK,ZissermanA,etal.Spatialtransformernetworks[C]//ProcofConferenceonNeuralInformationProcessingSystems.2015.
[5]HuJie,ShenLi,SunGang.Squeeze-and-excitationnetworks[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2018:7132-7141.
[6]WooS,ParkJ,LeeJY,etal.CBAM:convolutionalblockattentionmodule[C]//ProcofEuropeanConferenceonComputerVision.2018:3-19.
[7]ChenHong,HuangYifei,NakayamaH.Semanticawareattentionbaseddeepobjectco-segmentation[C]//ProcofAsianConferenceonComputerVision.Cham:Springer,2018:435-450.
[8]SzegedyC,VanhouckeV,IoffeS,etal.Rethinkingtheinceptionarchitectureforcomputervision[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2016:2818-2826.
[9]DingXiaohan,GuoYuchen,DingGuiguang,etal.ACNet:strengtheningthekernelskeletonsforpowerfulCNNviaasymmetricconvolutionblocks[C]//ProcofIEEE/CVFInternationalConferenceonCompu-terVision.2019:1911-1920.
[10]GirshickR,DonahueJ,DarrellT,etal.Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Pisca-taway,NJ:IEEEPress,2014:580-587.
[11]PurkaitP,ZhaoC,ZachC.SPP-Net:deepabsoluteposeregressionwithsyntheticviews[EB/OL].(2017).https://arxiv.org/abs/1712.03452.
[12]GirshickR.FastR-CNN[C]//ProcofIEEEInternationalConferenceonComputerVision.Piscataway,NJ:IEEEPress,2015:1440-1448.
[13]RenShaoqing,HeKaiming,GirshickR,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[C]//AdvancesinNeuralInformationProcessingSystems.2015.
[14]LinTY,DollárP,GirshickR,etal.Featurepyramidnetworksforobjectdetection[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2017:2117-2125.
[15]DaiJifeng,LiYi,HeKaiming,etal.R-FCN:objectdetectionviaregion-basedfullyconvolutionalnetworks[C]//AdvancesinNeuralInformationProcessingSystems.2016.
[16]RedmonJ,DivvalaS,GirshickR,etal.Youonlylookonce:unified,real-timeobjectdetection[C]//ProcofIEEEConferenceonCompu-terVisionandPatternRecognition.2016:779-788.
[17]RedmonJ,FarhadiA.YOLO9000:better,faster,stronger[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2017:7263-7271.
[18]ChoiJ,ChunD,KimH,etal.GaussianYOLOv3:anaccurateandfastobjectdetectorusinglocalizationuncertaintyforautonomousdriving[C]//ProcofIEEE/CVFInternationalConferenceonComputerVision.2019:502-511.
[19]BochkovskiyA,WangCY,LiaoHYM.YOLOv4:optimalspeedandaccuracyofobjectdetection[EB/OL].(2020).https://arxiv.org/abs/2004.10934.
[20]TanMingxing,PangRuoming,LeQV.EfficientDet:scalableandefficientobjectdetection[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.2020:10781-10790.
[21]GlennJ.YOLOv5[EB/OL].(2021).https://github.com/ultraly-tics/yolov5.
[22]XuK,BaJ,KirosR,etal.Show,attendandtell:neuralimagecaptiongenerationwithvisualattention[C]//ProcofInternationalConfe-renceonMachineLearning.2015:2048-2057.
[23]SharmaS,KirosR,SalakhutdinovR.Actionrecognitionusingvisualattention[EB/OL].(2015).https://arxiv.org/abs/1511.04119.
[24]WangFei,QianChen,YangShuo,etal.Residualattentionnetworkforimageclassification[EB/OL].(2017).https://arxiv.org/abs/1704.06904.
[25]MnihV,HeessN,GravesA.Recurrentmodelsofvisualattention[C]//AdvancesinNeuralInformationProcessingSystems.2014.
[26]李凱,林宇舜,吳曉琳,等.基于多尺度融合與注意力機制的小目標車輛檢測[J].浙江大學學報:工學版,2022,56(11):2241-2250.(LiKai,LinYushun,WuXiaolin,etal.Smallobjectvehicledetectionbasedonmultiscalefusionandattentionmechanism[J].JournalofZhejiangUniversity:EngineeringEdition,2022,56(11):2241-2250.)
[27]MiaoZhuang,ZhaoXun,WangJiabao,etal.Complementalattentionmulti-featurefusionnetworkforfine-grainedclassification[J].IEEESignalProcessingLetters,2021,28:1983-1987.
[28]DentonEL,ZarembaW,BrunaJ,etal.Exploitinglinearstructurewithinconvolutionalnetworksforefficientevaluation[C]//AdvancesinNeuralInformationProcessingSystems.2014.
[29]程龍,蔡光程.結合非對稱卷積與復合感受野結構的圖像降噪方法[J].軟件導刊,2021,20(8):172-178.(ChengLong,CaiGuangcheng.Imagenoisereductionmethodcombiningasymmetricconvolutionandcompositeperceptualfieldstructure[J].SoftwareGuide,2021,20(8):172-178.)
[30]JaderbergM,VedaldiA,ZissermanA.Speedingupconvolutionalneuralnetworkswithlowrankexpansions[EB/OL].(2014).https://arxiv.org/abs/1405.3866.
[31]JinJ,DundarA,CulurcielloE.Flattenedconvolutionalneuralnetworksforfeedforwardacceleration[EB/OL].(2014).https://arxiv.org/abs/1412.5474.