基于通道注意力機制與金字塔池化的包裹破損檢測算法

2023-11-13 01:37:34周耀威孔令軍李慧剛郭樂婷楊文杰陳一品張棟濠

無線電工程 2023年11期

周耀威，孔令軍*，李慧剛，郭樂婷，楊文杰，陳一品，張棟濠

(1.金陵科技學院網絡與通信工程學院，江蘇南京 211169；2.浙江舟山群島新區旅游與健康職業學院科研與社會服務處，浙江舟山 316111)

0 引言

包裹破損檢測技術是智慧物流體系中重點研究的方向之一,對物流運輸效率和包裹運輸質量有著至關重要的作用。盡管包裹破損檢測已經取得了一些顯著的成果,但要在實際的檢測場景中精確且快速地檢測出破損包裹仍然存在著許多不足:① 檢測到小體積包裹時,破損特征更加不明顯,很容易造成誤識別的現象[1];② 隨著物流行業的興起,包裹數量呈指數級增長,從而使得檢測需要消耗大量的時間,影響物流速度[2]。

目前包裹破損檢測主要分為2類:基于人工設計特征提取的包裹破損檢測和基于深度學習的包裹破損檢測。傳統的人工設計特征提取的檢測方法是指通過人工設計的特征來進行計算機實時檢測,將檢測目標與該特征進行比對,從而反饋檢測結果,有著較好的實時性。然而環境的變化和場景的不同會導致識別準確率相差甚遠,具有很強的局限性。因此,隨著深度學習技術的快速發展以及目標檢測算法的不斷創新,基于深度學習的包裹破損檢測技術[3]由此興起。

基于深度學習的特征提取是指通過卷積神經網絡自主地學習圖像的特征提取[4],目標檢測的精度有了極大的提升。目前,通用的目標檢測算法主要分為兩大類:Two-stage算法和One-stage算法。前者先進行區域生成一個可能包含待檢測物體的預選框(Region Proposal,RP),再通過卷積神經網絡進行樣本分類。此類算法雖然具有很高的精確度,但在面對一些小目標時,效果相差甚遠,同時實時性也很差,因此適用于檢測高精度的大目標,代表算法有R-CNN[5]、SPP-net[6]、Faster R-CNN[7]等。另一類算法是不用RP,直接在網絡中提取特征來預測物體分類和位置。此類算法的實時性高,在檢測堆積目標和小目標時精度較低,因此適用于實時目標檢測。代表算法有YOLO[8]、SSD[9]、Retina-Net[10]等。

近幾年,由于目標檢測技術的盛行,越來越多的目標檢測算法經過改良后有著非常不錯的速度與精度提升[11]。文獻[12]提出了在目標檢測框架YOLOv5s的基礎上引入基于通道的Transformer注意力機制以及SE注意力機制優化檢測器,使得檢測精度有了一定的提高。文獻[13]提出了基于ResNet神經網絡模型來構建包裹缺陷檢測系統,隨著網絡的深度增加,能夠提高準確率。文獻[14]提出了通過修改Faster R-CNN算法中的損失函數,使用RepGT損失函數代替,使得包裹檢測候選框更接近目標框,識別精度提高。文獻[15]提出了一種改進的SSD目標檢測算法,通過改進ResNet-50網絡并引入了ECANet通道注意力機制,使得檢測精度均值達到了99.8%。文獻[16]提出了一種改進的CenterNet目標檢測算法,使用HRNet替代算法中的Hourglass-104主干網絡,通過降低參數量來提高模型的推理速度,引入注意力機制來提高檢測精度。文獻[17]提出了一種可部署于移動端的輕量級卷積神經網絡算法YOLOv3_M,使用ISODATA動態聚類算法對BDD與KITTI混合數據集聚類分析找出更適合目標的Anchor Box,使用MobileNetv3-Large網絡代替原始YOLOv3網絡中的特征提取網絡DarkNet53,該算法與開源框架YOLOv3相比在降低參數量的同時提高了檢測速度與檢測精度。

基于以上研究可以發現,輕量級網絡模型除了有著較高的檢測速度外,還需有著較高的檢測精度[18],同時模型大小與參數量都必須控制在一定的范圍內,進一步體現了對模型簡化程度的追求,從而有利于邊緣計算設備[19]部署。

為此,本文針對自然場景下包裹破損檢測耗時過長的問題,提出了一種提高檢測速度的輕量級包裹破損檢測模型,算法在YOLOv5s的基礎上進行改進。改進思路如下:① 使用ShuffleNetV2[20]作為輕量級主干網絡來降低模型復雜度,從而提高模型檢測速度;② 融合通道注意力機制SE[21]模塊減少卷積神經網絡對圖像相關特征的重復提取,提高信息表征能力,從而提高輕量級優化后模型的檢測精度;③ 利用快速空間金字塔池化(Space Pyramid Pool-Fast,SPPF)在不同尺度的特征圖上進行特征提取,有效減少漏檢與誤檢,進一步提高了模型對多尺度目標檢測的精度。

1 算法框架設計

1.1 整體網絡結構

本文使用ShuffleNetV2作為輕量級模型來構建YOLOv5s目標檢測框架的主干網絡,整個網絡結構如圖1所示。

圖1 整體網絡框架Fig.1 Overall network framework

YOLOv5s-5.0版本的Stem模塊是一個Focus切片操作,而YOLOv5s-6.0版本是一個6×6的Conv,本文在此基礎上將其改成一個3×3的卷積來降低參數量。大小為640 pixel×640 pixel×3 pixel的RGB圖像作為網絡的輸入,然后通過Stem模塊將圖像進行特征提取得到160×160×64的特征矩陣,接下來使用了重復堆疊的SV1基本模塊與SV2下采樣模塊對特征矩陣進行了特征提取,分別得到了不同分辨率的特征矩陣。網絡在最后一個SV1模塊后添加了C3模塊,由于此時的采樣特征較小,為40×40,執行速度非?？?因此加入該模塊基本沒有影響模型性能,同時還解決了深度網絡的梯度發散問題。為了解決目標多尺度問題從而能夠在堆積包裹中更準確地預測,在主干網絡輕量化的同時添加了YOLOv5s 6.0中的SPPF模塊,結構如圖2所示。

圖2 空間金字塔池化模塊Fig.2 Spatial pyramid pooling module

從圖2可以看出,SPPF結構是將輸入串行通過多個卷積核大小5×5的MaxPool層。卷積操作中池化層提取重要信息的操作,可以去除不重要的信息,減少計算開銷。最大池化操作相當于核在圖像上移動時,篩選出被核覆蓋區域的最大值。目的是保留輸入的特征,同時把數據量減少,對于整個網路來說,進行計算的參數就變少了,會訓練得更快。該模塊將任意大小的特征圖固定為相同長度的特征向量,傳輸給全連接層。因為卷積層后面的全連接層的結構是固定的。但在現實中,輸入圖像尺寸總是不能滿足輸入要求的大小,然而通常的方法就是通過裁剪和拉伸,但這樣做效果總是會有所欠缺,扭曲了原始的特征,如圖3所示。

圖3 裁剪和拉伸導致的圖像失真Fig.3 Image distortion caused by clipping and stretching

SPPF模塊通過將候選區的特征圖劃分為多個網格,然后對每個網格內都做了最大池化,這樣依舊可以讓后面的全連接層得到固定的輸入。通過SPPF解決了深度網絡固定輸入層尺寸的限制,使得網絡可以享受不限制輸入尺寸帶來的好處,如圖4所示。

圖4 SPPF模塊特征提取Fig.4 SPPF module feature extraction

因此,對輸入圖像的不同縱橫比和不同尺寸,SPPF同樣可以處理,從而提高了圖像的尺度不變性和模型泛化能力。

引入SPPF模塊后,模型精度有了進一步的提升,實驗結果將在3.3節給出。

1.2 輕量級主干網絡

本節將詳細介紹主干網絡部分。作為輕量級的卷積神經網絡,除了要提高模型的速度外,必須同時降低模型的參數量。為此本文的主干網絡主要使用融合了SE注意力機制的ShuffleNetV2基本模塊和下采樣模塊,詳細結構如圖5和圖6所示。

圖5 輕量級主干網基本模塊Fig.5 Lightweight backbone basic module

圖6 輕量級主干網下采樣模塊Fig.6 Lightweight backbone down-sampling module

圖像通道寬度均衡能夠使內存成本(MAC)最小化。對承擔大部分計算開銷的逐點卷積進行分析,假設輸入通道數C1和輸出通道數C2通過網絡各層時特征圖的空間大小為h×w,那么1×1卷積核的計算量(FLOPs)如式(1)所示:

B=hwC1C2。

(1)

內存足夠的情況下,其內存消耗如式(2)所示:

MAC=hw(C1+C2)+C1C2。

(2)

則由式(1)可以推導出C2的表達式如式(3)所示:

(3)

在滿足式(3)的情況下內存消耗如式(4)所示:

(4)

從式(4)可以看出,當且僅當C1=C2時,MAC有最小值。因此為了得到最輕量化的模型,基本模塊與下采樣模塊的輸入輸出通道都應該相等。

增加組卷積的同時將使內存訪問成本增加,分析組卷積,計算量如式(5)所示:

(5)

式中:g為組數。

由式(2)可得此時的內存消耗,如式(6)所示:

(6)

假設固定輸入hwC1和計算量B,則MAC又可以推導為式(7):

(7)

觀察式(7)可以發現,若組數g增加,內存量MAC也會隨之增大。

網絡碎片化操作將會降低并行度,若采用Inception網絡那樣的“多路”結構,即一個網絡塊中有多個卷積或池化操作,很容易造成網絡碎片化,從而運行速度變慢,并行度降低。元素級操作也是不可忽略的,如ReLU函數和Add操作,即使運算量較小,也會帶來較大的內存損耗。

本文設計的輕量級主干網絡結構如表1所示。

表1 輕量級主干網絡Tab.1 Lightweight backbone network

由表1可以看出,本文設計的輕量級網絡第一層是一個使用了3×3卷積的Stem模塊,為了降低參數量,將通道層設計為32。中間使用的SV1為基本模塊,SV2為下采樣模塊。雖然其中幾個模塊還有重復次數設置,但每個模塊都有著較好的性能,計算量并沒有過多的增加。

1.3 損失函數

本文所使用的損失函數Loss由分類損失Lc、定位損失Lb和置信度損失Lo組成,如式(8)所示。為了實現損失函數權重的平衡,引入了3個不同系數,其中系數α設置為1,系數γ設置為1,由于正樣本定位直接影響到目標預測的準確率,系數β設置為4。

Loss=α×Lc+β×Lb+γ×Lo。

(8)

分類損失Lc和置信度損失Lo使用了二元交叉熵損失函數(BCE with Logits Loss),如式(9)所示:

(9)

式中:x表示訓練過程中所預測的包裹核心區域,y表示標簽值,a表示預測的概率值,n表示樣本總量。

采用CIoU損失函數計算正樣本的定位損失,在IoU的基礎上引入長寬比因子,如式(10)和式(11)所示:

式中:A為真實框,B為預測框,d為預測框和真實框中心點的距離,c為最小外接矩形的對角線距離,v為長寬比的相似性因子,如式(12)所示。

(12)

式中:Wb、Hb為真實框的寬和高,Wp、Hp為預測框的寬和高。

2 數據集

由于開源包裹破損數據集較少,因此本文使用自建的包裹破損數據集,總共標注了2 104張圖片,其中1 169張圖片作為訓練集,935張圖片作為測試集,其中包括不同數據特征的包裹,如單個完整包裹、單個破損包裹以及多個堆積包裹。單個包裹樣例如圖7所示,第一行為單個破損包裹與完整包裹圖片,第二行為經過神經網絡模型推理后的包裹圖片。

多個堆積包裹樣例如圖8所示,第一行為多個包裹堆積圖片,第二行為經過神經網絡模型推理后的堆積包裹圖片。

數據集詳細劃分如表2所示。

表2 數據集劃分Tab.2 Dataset partitioning

3 實驗結果與分析

3.1 實驗平臺部署

本文實驗所使用的是PyTorch深度學習框架,在Ubuntu 20.04操作系統下進行。訓練以及測試所使用的硬件設備如表3所示。

表3 硬件平臺Tab.3 Hardware platform 單位:GB

本文在消融實驗和對比實驗中,在數據集上做了300個epoch的微調訓練,其余參數配置將在3.2節做簡要描述。

3.2 實驗設計與參數設置

為了驗證本文提出的包裹破損檢測算法的有效性與真實性,選用了當前較為流行的輕量級主干網絡模型進行對比試驗。其中有將主干網絡替換為MobileNetV3[22]的YOLOv5s_MV3,相較于MobileNetV1[23]和MobileNetV2[24],該版本加入了神經網絡架構搜索和h-swish激活函數,并引入了SE通道注意力機制,在性能和速度上表現優異;還有將主干網絡替換為GhostNet[25]的YOLOv5s_GN,該模型首先通過在卷積部分使用少量卷積核進行卷積操作減少計算量,接著使用3×3的卷積核進行逐通道卷積操作,進一步降低了模型的復雜度;以及將主干網絡替換為ShuffleNetV2的YOLOv5s_SV2,與ShuffleNetV1[26]相比,該版本既沒有密集的卷積,也沒有太多的分組,實現了較高的模型容量和效率。

訓練中的超參數設置如表4所示。

表4 超參數配置Tab.4 Hyperparameters configuration

為了豐富數據集的多樣性,減少GPU運算時的顯存消耗,本文使用的數據增強過程如下:

① 首先隨機抽取4張圖片。

② 分別對4張圖片進行數據增廣操作,如隨機翻轉、隨機縮放和色域變化等,系數如表5所示。

表5 數據增強系數Tab.5 Data augmentation coefficient

③ 進行圖片的組合和選框的組合,完成4張圖片的擺放之后,利用矩陣的方式將4張圖片固定的區域截取,然后進行拼接,得到一張新的圖片,如圖9所示。

3.3 結果對比與分析

本文的實驗結果使用了3種指標來評價模型:

① 針對神經網絡模型的復雜度評價,以浮點運算次數(Floating point Operations,FLOPs)來衡量模型的復雜度,其數值越小表示模型的復雜度越低,更加輕量化。

② 針對神經網絡模型的精度評價,以平均精度(mean Average Precision,mAP)來衡量模型的檢測精度,其數值越高表示預測準確率越高。

③ 針對神經網絡模型的速度評價,以每秒傳輸幀數(Frames Per Second,FPS)來衡量模型的識別速度,其數值越高表示預測速度越快。

不同算法的實驗結果,如表6所示。

表6 不同算法的實驗結果對比Tab.6 Comparison of experimental results of different algorithms

由表6可以得到以下結論:

① 對比開源框架,使用輕量級網絡作為主干網絡能夠大大降低模型的計算量,模型速度也得到了提升,但精度有所下降。

② 表中FPS最高的YOLOv5s_SV2與開源框架相比,速度提升了近173%,但mAP卻下降了26.7%。YOLOv5s_MV3模型與開源框架相比,速度提升了36.3%,同時mAP下降了10%。

③ YOLOv5s_GN框架則只是模型復雜度有所下降,精度指標mAP和速度指標FPS都沒有提高,反而出現了下降。

④ 以上數據表明,YOLOv5s_SV2模型的速度最快,如果能夠繼續改進算法將mAP提高到80%以上,前景非常可觀。

為此,本文進行了大量的消融實驗來提高YOLOv5s_SV2的精度,實驗數據如表7所示。

表7 輕量級主干網絡消融實驗對比Tab.7 Comparison of lightweight backbone network ablation experiments

表7第一行是表示本次實驗對開源YOLOv5s算法的復現結果,以此作為基準線,可以得到以下結論:

① 融合了SE注意力機制的YOLOv5s_SV2框架在數據集上精度有所提升,提升了3.5%,效果并不是特別明顯,速度下降了約8.3%。驗證了通道注意力機制能夠在輕量級網絡中提高檢測精度。

② 結合SPPF模塊的YOLOv5s_SV2框架在數據集上精度有了較大的提升,提升了19.7%,速度下降了21.5%。驗證了SPPF模塊豐富了特征圖的表達能力,有利于待檢測圖像中目標大小差異較大的情況,因此對檢測精度有很大的提升。

③ 同時融合SE注意力機制與結合SPPF模塊可以在模型精度和性能之間做一個折中,相對于開源YOLOv5s算法,速度提升了約105.7%,模型復雜度下降了約84.2%,精度僅下降了2.8%,驗證了本文所設計輕量級網絡的有效性。

3.4 算法在不同類型包裹數據上的性能對比

使用YOLOv5s_SV2算法分別在單個包裹和多個堆積包裹以及單個完整包裹和單個破損包裹的數據集上單獨進行對比實驗,不同數據集的實驗結果如表8所示。

表8 本文算法在不同數據集上的性能對比Tab.8 Performance comparison of the proposed algorithm on different datasets

由表8可以得到以下結論:

① 對比單個包裹圖片與多個堆積包裹圖片的數據集,前者在本文算法上的檢測精度較高,達到了85.3%,推理速度較快,達到了71.3幀/秒。由于多個堆積包裹圖片的檢測目標較多,數據集在算法上的檢測精度和推理速度雖然略微有所下降,但仍有著較高的數據值,具有可靠性。

② 對比單個完整包裹圖片與單個破損包裹圖片的數據集,前者在算法上的推理速度更快,達到了71.7幀/秒,后者在算法上的檢測精度更高,達到了85.9%,二者的實驗結果數值相差并不大。

③ 根據對4種不同數據特征的包裹數據集進行實驗,得到的結果均有著較高的檢測精度與檢測速度,驗證了本文所提出的算法能夠準確識別多種不同數據特征的包裹圖片,兼顧了推理速度與檢測精度,在實際包裹破損檢測場景中,符合輕量化模型這一需求。

4 結束語

本文提出了一種新的自然場景包裹破損檢測框架,并在模型主干網絡部分融合了通道注意力機制,其中SPPF模塊能將有效特征更精確地覆蓋到目標區域,在突出目標特征的同時能抑制無關的背景噪聲。在數據集上的實驗結果表明,本文所提方法對多種不同破損程度的包裹圖像檢測精度可達 82.7%,模型泛化能力較好,且相比于目前先進的算法在FPS指標上有一定的提升,證明了方法的有效性。此外,為了促進對目標檢測識別領域的研究,接下來將考慮把模型應用于其他檢測場景下進行研究,從而給予更多科研人員以參考。