

















摘 要:對垃圾進行回收益處頗多,不僅可以節約資源,還有助于自然環境保護。在傳統的垃圾回收中,一般會消耗大量的人力和物力,本文基于現有單階段目標檢測算法YOLOv5s再結合注意力機制和RFB感受野模塊,提出一種兼顧檢測速度與精度的YOLOv5s改進模型,該模型可運用于室內智能垃圾回收機器人或垃圾場處理終端中。首先對RFB模塊的結構做出調整并利用注意力機制進行改進,在一定程度上克服了RFB模塊引入其他不必要特征信息的缺點;然后在算法中引入改進后的RFB模塊,使算法能更好地與不同尺度的垃圾物體相匹配,提高了檢測的精度;并根據數據集目標物體的特點重新調整了錨框大小。實驗結果表明,YOLOv5s-SERFB在數據集TrashNet-Plus上有良好的表現,最終改進模型的mAP為91.7%,相比于原始的YOLOv5s模型高出2.2%,算法能較好地滿足實時檢測任務的需要,同時表現出良好的檢測效果。
關鍵詞:垃圾檢測;YOLOv5s;感受野;注意力機制
中圖分類號:TP311 文獻標識碼:A 文章編號:2095-414X(2023)03-0056-09
0 引言
實現垃圾的自動化回收,需對垃圾進行準確的分類及定位,該任務可利用計算機視覺技術進行解決。傳統的目標檢測使用“暴力法”選出候選區域,使用SIFT[1]、HOG[2]等手工特征進行特征提取,再利用滑動窗口實現分類定位。候選區域多,會導致計算量大,且使用手工設計的特征會導致網絡的特征提取能力偏弱,最終算法不僅時間復雜度高,其魯棒性也會較差,因此無法將其運用在對檢測速度和準確度均有一定要求的終端垃圾自動分揀等場景中。
近年來,深度卷積神經網絡在各個領域綻放光彩,因其良好的性能,被廣泛應用到目標檢測中。其中,較為經典的基于候選區域的兩階段檢測模型Faster R-CNN[3],由于其檢測精度不錯,通常被運用于對檢測速度不是特別敏感且較為復雜的場景中。周瀅慜[4]等人融合Faster R-CNN的特征圖,最終使算法在塑料瓶類別上的漏檢率降低到19.1%。兩階段算法基于候選區域定位目標,雖然相對傳統的方法減少了計算量和冗余信息,但其模型訓練仍耗時較長,檢測速度不夠快,在需要實時檢測的垃圾自動回收場景中會影響回收效率。而單階段檢測算法將檢測任務視為回歸問題,如SSD[5]和YOLO[6],該系列算法的特點就是檢測速度快,同時準確率也不低,于是被廣泛地應用于各個場景中。寧凱[7]等人在YOLOv2中使用了DenseNet[8]結構,在保持實時檢測的前提下,其準確率依然有84.98%。但由于可回收垃圾外觀相似,尺度變化大的特點,該算法有較多錯判和漏判。魏鋮磊[9]等人在海華研究院開源的垃圾目標檢測數據集上對YOLOv3進行多尺度特征融合的改進,使mAP達到了89.4%。羅安能[10]等人在TrashNet數據集上以YOLOv5s為基礎研究可回收垃圾檢測,最終mAP達到了94.01%,但該數據集樣本較為單一,訓練后的模型無法更好地遷移到更復雜的場景。
為了使算法在滿足實時檢測的前提下同時具有不錯的精度,本文采用結構較為簡單的YOLOv5s進行改進。針對TrashNet-Plus數據集較為簡單,存在輕微的類不平衡問題,以及可回收垃圾同類物體通常具有形變和尺寸不一的特點,YOLOv5s雖然有三個尺度上的檢測器,但對于各種尺度的可回收垃圾仍較難匹配,故本文利用注意力機制對RFB模塊進行改進,再將改進后的新模塊融入算法中,以改善算法的中、大尺寸物體檢測能力。最終,設計出了一種結合SE注意力機制的多分支RFB模塊的YOLOv5s-SERFB算法,該算法兼顧檢測速度與精度,且具有較好的魯棒性。
1 YOLOv5s簡介及原理
YOLOv5有多個版本,包括YOLOv5s,YOLOv5m,YOLOv5l,YOLOv5x,其中YOLOv5s模型網絡深度最淺,特征圖寬度較窄,而后三種模型的網絡深度不斷加深。YOLOv5s因其輕便和不錯的檢測精度,被廣泛用于實時檢測任務中,最高可達到 140 幀/秒,到目前為止,YOLOv5s仍然是眾多模型中參數量較少(其權重文件約為14M),同時有著不錯精度的模型,在滿足實時檢測的前提下,以YOLOv5s作為基礎模型進行研究能更好地契合檢測任務。
1.1YOLOv5s模型結構
YOLOv5s主要由骨干網絡,Neck加預測部分
組成,整個結構如圖1所示。其中骨干網絡為CSPDarknet53,與前幾個版本不同,YOLOv5s在骨干網絡前端加上了Focus切片操作,且其中包含了CSP1模塊,而CSP1模塊中又包含有Res Unit,Res Unit與ResNet[11]殘差塊的結構類似,即在網絡深度較大時也能很好的提取語義信息,同時可以削弱梯度彌散現象,使網絡訓練更為簡單。在Neck部分,采用SPP進行多尺度特征融合,從輸入到輸出的過程中,若存在過高倍數的下采樣操作,會導致特征圖丟失一部分空間信息。以32倍為例,若物體在原圖中所占像素的個數低于1024,在32倍下采樣之后,該物體可能會映射為一個像素點或者是消失,這樣就會導致該目標難以被檢測到。YOLOv5為了改善這種情況,借鑒了PAN和FPN[12]結構,將下采樣后得到的特征圖進行上采樣,再進行一定的拼接操作,最終,深層特征與淺層特征相融合,小尺寸物體的特征也就能在一定程度上保留,最終提高了模型的定位能力以及準確度。
1.2YOLOv5s損失函數
損失函數的作用是使網絡誤差最小化。YOLOv5s的損失函數由分類損失[13]、置信損失以及定位損失組成,其中置信損失和分類損失由交叉熵衡量,而位置損失則由CIOU[14]衡量。
1.3檢測過程
YOLO算法有多個版本,該系列算法是一種單階段算法,即為了定位物體,采用錨框對標簽框進行回歸。YOLOv5s提供了自適應錨框計算功能,即在訓練時就可以進行錨框的優化,之后這些錨框
會按大小分配給YOLOv5s中的小、中、大三個尺度的檢測器。YOLOv5s將輸入的圖片劃分為多個網格,每一個網格對應一個子檢測器。例如,輸入一張分辨率為416pixel×416pixel的圖片,則該圖片長和寬均為416個像素點,對這張圖進行32倍下采樣得到13pixel×13pixel的特征圖,共計169個網格,每個網格都對應原圖32pixel×32pixel的相應區域,通過該操作,就將輸入圖片的檢測任務分治到各個子區域了。因為訓練集都標有真實框,所以在訓練時,YOLOv5會對真實框中心點的子檢測器訓練,最終模型會篩選出錨框。
2可回收垃圾檢測算法改進
在數據集TrashNet-Plus中,有不少圖片具有透明的特點,如Glass。圖片中的物體本身也容易與背景混為一體,部分圖片背景有雜質,且Plastic和Metal兩種類別各自具有大小不一,形態變化多的特點。改進算法為了有效地獲取特征信息,需考慮到待檢測物體要避免圖片背景帶來的影響,以及自身容易形變,大小不一的特點。同時考慮到算法對硬件的適配能力,網絡需盡量選取一些結構較為簡單的模型。所以本文采用注意力機制以及一種多尺度特征融合模塊對YOLOv5s算法進行改進,在保證一定的檢測速度前提下去提升準確率,使模型
本身能更關注待檢測物體的特征以及適應同一類待檢測物體形變大的特點。
2.1 SE注意力機制
注意力機制受相關人類視覺研究的啟發,人類的視覺系統會選擇性的關注感興趣的部分,例如,當人們欣賞一幅包含有較多信息的畫時,人們的視覺系統往往會自動地重點關注自己感興趣事物周圍的信息,從而忽視掉其他自己不感興趣的信息,計算機視覺領域內的注意力機制是為了在網絡中能夠將全局信息和局部信息進行關聯,并關注更重要的信息。將網絡通道視為特征檢測器[15],若在通道中存在過多的無效特征,將會對最終的檢測任務造成影響,為了使網絡能更好地關注有效特征,本文引入SE注意力機制。
SE注意力機制是一種常見的通道注意力機制,其原理如圖2所示,首先在網絡中加入兩層局部神經網絡結構,在訓練模型時,這兩層結構可以針對不同的通道產生不一樣的權重,特征信息的重要程度和權重系數呈正相關,即權重系數越大,其對應的信息就越重要。依據權重系數,網絡對通道會有不一樣的重視程度。從左端輸入的特征圖經歷了四個步驟包括轉換、壓縮、激勵、比例相乘后,在右端輸出重構的帶注意力的特征圖。四個步驟的公式和推導過程如下:
2.2基于SE注意力機制的RFB模塊改進
在計算機視覺中,特征圖可視為多個單元的集合體,每個單元都與輸入圖像一一對應,而這個單元所對應的輸入圖像的區域大小稱為感受視野(Respective Field),又稱感受野,感受野的大小并不是固定的,它取決于卷積層的參數以及網絡的深度,雖然感受野大小不固定,但對于同一特征圖,其各單元的感受野是相同的。一般來說,圖像里的大尺寸物體應該使用較大的感受野捕捉其特征。
RFB是一個多尺度感受野模塊,模擬了人類的視覺皮層,它擁有多個分支,不同的分支擁有不同的感受野,這樣可以使網絡的感受野尺寸變多,隨之模型的多尺度檢測能力也會提高。如圖3和圖4所示,從結構上看,RFB與Inception[16]有異曲同工之妙,從輸入F開始,特征信息會從各分支進行傳輸,這些分支的卷積核大小不一,分支末尾還設計了一層空洞卷積,空洞卷積不會引入額外的參數量,并且同時可以擴大特征區域,在保證參數量不增加的前提下提升模型獲取物體特征的能力。RFB與RFB-S的區別就是后者擁有4個分支,這意味著它擁有更多的感受野尺寸,由于各分支普通卷積的尺寸不一樣,所以它們最終會獲得不同的感受野,再通過空洞卷積進一步使感受野變大。最終,將原特征圖與這些分支的特征圖進行拼接得到新的輸出,此時得到的特征圖相比于原特征圖,具有更多尺寸上的特征,從而提高了模型對各尺寸物體進行檢測的能力。RFB與RFB-S結構如圖3和圖4所示:
YOLOv5s擁有3個檢測器y_1,y_2,y_3。其中y_1的特征圖尺寸為80×80×255,適用于對小目標物體的檢測,而本文所使用的數據集中,中大尺寸的物體較多,因此本文選擇RFB-S對y_2檢測器及y_3檢測器的感受野進行優化。
單獨使用RFB模塊有利有弊,因其具有多個分支,通過卷積獲得了目標物體更多尺度上的特征,同時也會在這多個分支上引入更多的非檢測對象特征。為了獲得更多尺度上的特征,同時減少這些非檢測對象特征帶來的影響,本文設計出一種基于注意力機制的多分支RFB模塊SERFB,在原RFB-S結構中,用3x3卷積代替了5x5卷積,本文保留了5x5卷積所在的分支,并替換成兩個3x3卷積,并在每個分支的空洞卷積之后再加上注意力機制,以此優化特征圖。最終,本文在Neck部分將SERFB接入圖1藍色虛線框處得到改進模型,本文采用ECA、CBAM、SE注意力機制對RFB-S進行了改進,最終通過實驗對比,SE注意力機制效果相對較好并且更穩定,其基于SE注意力機制的多分支SERFB模塊結構如圖5所示:
在可回收垃圾檢測任務里,由于垃圾受到外力影響會產生一定的形變,導致同一類垃圾會有多種尺寸,并且不同種類垃圾的尺寸一般情況下也會存在較大差異,最終會使得整個待檢測物體集合的尺寸變得更加復雜。雖然YOLOv5s已經具有三個尺寸的檢測器,但TrashNet-Plus數據集上各尺寸的垃圾圖像與其匹配時仍會存在影響。故受魏鋮磊等人以及RFBNet[17]的啟發,利用注意力機制對RFB模塊進行改進并融合進算法中。RFB模塊可以融合多個尺度上的物體特征信息,但同時,也會引入部分非必要特征信息,所以在空洞卷積層后再加上一層SE注意力機制來克服這個缺點,基于此,設計出了一種基于SE注意力機制的多分支RFB模塊的目標檢測模型YOLOv5s-SERFB。
3實驗設計
3.1數據集處理
本文的可回收垃圾數據集TrashNet-Plus來源于兩部分。第一部分為TrashNet數據集的子集,包括五類常見的可回收垃圾,為Cardboard, Glass, Metal, Paper, Plastic,共計2390張,后續TrashNet則指這個子集,因這五類圖片數量仍然較少,缺乏一定的多樣性,且存在輕微的類不平衡問題,為了模型能夠學得同類物品的更多特征,提高模型的健壯性,需對其進行擴充,擴充的部分即為本文數據集來源的另一部分,擴充方式為利用爬蟲爬取以及手機拍攝,并將重制后的數據集命名為TrashNet-Plus。最終,TrashNet-Plus數據集中共包含4870張RGB圖片,垃圾類別以常見固態城市可回收垃圾為主,共5類,分別是Cardboard, Glass, Metal, Paper, Plastic。圖片中的部分目標物體存在遮擋問題,形變較多,且以中尺寸和大尺寸為主;圖片背景多為淺色,易與塑料瓶和玻璃瓶類別的物體輪廓混淆,數據集部分圖片如圖6所示。
為了訓練模型以及對其性能進行評估,本文將擴充后的數據集分成兩類:一類為訓練集,占八成,包含圖片3896張;另一類為測試集,占兩成,包含圖片974張。此時訓練集的圖片數量仍不算多,所以對圖片進行數據增強,以防止模型過擬合,其增強方式如表1所示。
如上表所示,對圖片隨機進行順時針或是逆時針旋轉0到5度、縮小或放大20%、向左或向右平移20%、水平反轉處理。
3.2實驗環境配置
為了驗證本文提出的YOLOv5s-SERFB模型在數據集TrashNet-Plus上的有效性,在基于Python語言3.6版本以及Pytorch深度學習框架下進行實驗與性能分析,其中實驗條件如下:
實驗條件:實驗在Ubuntu20.04.1 LTS操作系統下進行,GPU為Tesla k80,顯存24G,硬盤容量100G。深度學習環境包括Pytorch和CUDA等,其中Pytorch版本為1.10.2,CUDA版本為10.0.1.
訓練時圖片的大小調整為 640pixel×640pixel,然后加載YOLOv5s的預訓練權重進行初始化,之后遷移學習訓練200個Epoch。Batch size設定為8,學習率設置為 0.0005,優化器選擇為Adam,詳細參數如表2所示。
錨框調整:由于原TrashNet數據集中的五類可回收垃圾以中大尺寸為主,且拍攝數據集圖片時手機與目標物體的距離較近,所以TrashNet-Plus數據集中的待測目標同樣以中尺寸和大尺寸為主,因此初始錨框調整為如表3所示。
3.3評估指標
為了評估本文所提出的YOLOv5s-SERFB可回收垃圾檢測模型的性能,采用以下幾個指標來對模型進行評估,包括:準確率(P)、平均精度均值(mAP)、ms?張-1。本文將IoU的閾值設定為0.5,該值表示預測框和真實框的IoU數值gt;0.5時,則可認為是一個正確的預測,基于此計算出R和P。
分類有預測值和真實值,且分類結果有正有誤,兩兩組合可以得到一個2×2的分類混淆矩陣,如表4所示,可看到有4個類,分別用英文表示為:FN、FP、TN、TP。其中T和F分別代表True和False,P和N分別代表Positive和Negative。其中FN的含義為被錯誤預測的正樣本數目,FP的含義為被錯誤預測的負樣本數目,TN的含義為被正確預測的負樣本數目,TP的含義為被正確預測的正樣本數目。
準確率是用于揭示一個模型所分出來的正樣本的比例,同時也叫查準率,其定義公式如下:
從幾何學的角度來看,AP可體現為P與R曲線下的面積,其具體的定義公式如下:
mAP即AP的平均值,也叫平均精度均值,可由P和R計算出來,其中mAP@0.5表示取IoU=0.5時所計算出的平均精度值。模型的mAP值越高越好,它體現了模型的綜合性能。AP反映模型在某個類別上的好壞,而mAP則是反映在全部類別上的好壞。將所有類別的AP求和再除以總類別,即可得到mAP,具體定義公式如下:
3.4實驗結果和分析
如圖7所示為在數據集TrashNet-Plus上,采用表2實驗配置下,提出模型的目標函數的收斂情況。從圖中可以看出,在本文的模型訓練中,兩個模型的目標函數隨著訓練次數的增加而慢慢降低,不斷取得最優解,最終在第180個Epoch后基本達到收斂。同時也能看出YOLOv5s-SERFB相對于YOLOv5s在TrashNet-Plus數據集上收斂得更快,這表明了YOLOv5s-SERFB在TrashNet-Plus數據集上對于可回收垃圾的識別的適用性。
如圖8所示為本文所提出模型YOLOv5s-SERFB在數據集TrashNet-Plus測試集上所得的Precision函數圖像。從圖中可以看出,隨著訓練次數的增加,兩個模型的Precision也在不斷上升,最終在第160個Epoch附近趨于收斂,同時可以清晰的觀測到YOLOv5s在第20個至第75個Epoch之間出現輕微的震蕩,而YOLOv5s-SERFB整體更穩定。
為了驗證本文提出的基于注意力機制的YOLOv5s-SERFB在數據集TrashNet-Plus上的有效性,還與ECA、CBAM注意力機制進行了性能對比,消融實驗詳細數據以及各算法在mAP指標上的最終測試結果如表5所示。
表5列出了YOLOv5s、YOLOv5s-RFB、YOLOv5s-CBRFB、YOLOv5s-ECRFB以及YOLOv5s-SERFB在TrashNet-Plus上的測試數據,不難發現,YOLOv5s-RFB、YOLOv5s-CBRFB、YOLOv5s-ECRFB與YOLOv5s-SERFB皆比YOLOv5s的精度更高。在基于注意力機制的RFB模塊中,橫向對比了三種不同的注意力對模型整體的影響,從表中可看出,YOLOv5s-CBRFB、YOLOv5s-ECRFB與YOLOv5s-SERFB三者在Precision、mAP@.5以及檢測速度上,三項指標相近。而YOLOv5s-CBRFB、YOLOv5s-ECRFB與YOLOv5s-SERFB三個模型只是使用的注意力不同,所以他們的參數量以及內存占用也相近。其中,YOLOv5s-SERFB在Precision和mAP@.5上比另外兩者稍高,但檢測速度稍慢。而YOLOv5s_CBRFB在這注意力改進的三者中,其Precision和mAP@.5指標均最低。
YOLOv5s-ECRFB和YOLOv5s-SERFB兩個模型在準確度,mAP@.5以及檢測速度上的數值相近,分別相差0.3%,0.1%,0.67,由圖9可以看出,后者的mAP曲線在第50個Epoch到第70個Epoch之間明顯高于前者,且整體更平滑,故采用SE注意力機制與RFB模塊進行結合。
同時由表5可知,6組實驗中,最慢的檢測速度為31.24ms?張-1,一般來說,當檢測速度快于33.33ms?張-1時,人眼觀看就會覺得流暢,而31.24ms?張-1略快于這個數值,并且31.24ms?張-1的檢測速度通常也能滿足計算機視覺中實時檢測的要求。實驗中存在兩個數據集,一個是TrashNet的子集,另一個是重制后的TrashNet-Plus,可以發現,由于TrashNet-Plus擴充了更多復雜的圖片導致特征學習變得困難后,原本在TrashNet數據集上表現良好的YOLOv5s在TrashNet-Plus數據集上表現不佳,Precision下降了6.5%。而改進后的YOLOv5s-SERFB與原始的YOLOv5s在TrashNet-Plus上相比,提升了Precision和mAP@.5,漲幅分別為1.8%和2.2%,可以證明,該改進在TrashNet-Plus上是有效的,相比于原YOLOv5s模型,在保證實時檢測的條件下,YOLOv5s-SERFB有更好的檢測效果。
如圖9所示為不同注意力機制與多尺度RFB模塊結合后,平均精度均值(mAP)指標隨著訓練次數的變化情況,由圖可以觀察到,實驗中的四個模型都在140個Epoch左右后開始趨于收斂,并且YOLOv5s在第65個Epoch左右出現了震蕩,而本文提出的YOLOv5s-SERFB在第65個Epoch附近雖然略有下降,但整體是一個平滑上升的趨勢。在第100個Epoch之后,雖然與其他兩種基于注意力機制的RFB模型性能相差不大,曲線走勢基本一致,但其總體性能一直略高于他們。這表明基于SE注意力機制的RFB模塊更有效,更健壯,該模塊在訓練中起到了作用,使得曲線在整體上保持平滑上升。
YOLOv5s以及YOLOv5s-SERFB在測試集上的可視化分別如圖10和圖11所示,以Paper類別為例,圖10左邊為標簽的可視化,可以看到每個物品都被打上了標簽,右邊則是測試結果,觀察可發現第三行第三列和第二行第四列的目標被誤判。同樣的,圖11左邊為標簽的可視化,右邊為測試結果圖,其中沒有誤判,隨機多次取樣發現,YOLOv5s出現誤判的次數明顯高于YOLOv5s-SERFB,足以說明,YOLOv5s-SERFB模型在TrashNet-Plus數據集上的表現優于YOLOv5s,算法的檢測能力有所提高。
4 結語
本文針對可回收垃圾數據集數量少,其樣本缺乏多樣性等問題,首先依據TrashNet數據集,采用爬蟲和拍攝方式制作了TrashNet-Plus數據集,然后以滿足實時檢測的輕量模型YOLOv5s作為基礎模型進行改進,通過在網絡的Neck部分引入改進后的RFB模塊,加強網絡的特征融合能力,提出一種基于SE注意力機制的多分支RFB模塊的目標檢測模型YOLOv5s-SERFB。最終,本文通過實驗驗證了改進模型的精度優于原模型。在TrashNet-Plus數據集上,改進后的模型相對于原始模型,其精度和mAP更高,Precision,mAP@.5分別比原始模型高1.8%,2.2%,雖然檢測速度小幅度降低,但仍能達到一個較快的檢測速度。由于可回收垃圾在垃圾場處理終端通常會產生一定的堆疊現象,背景也較為復雜,因此,接下來可以先利用傳送帶將其分離,將這部分重疊的垃圾分散到背景區分度高的地方,再結合本文的模型,從而實現垃圾的自動化回收。
參考文獻:
Lowe D G. Distinctive image features from Scale-Invariant keypoints[J]. International Journal of Computer Vision,2004,60(2): 91-110.
Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]. IEEE computer society conference on computer vision and pattern recognition (CVPR'05). 2005. 886-893.
Ren S , He K , Girshick R , et al. Faster r-cnn: towards Real-Time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis amp; Machine Intelligence,2017,39(6):1137-1149.
周瀅慜.基于機器視覺的生活垃圾智能分揀系統的設計與實現[D].哈爾濱:哈爾濱工業大學,2018.
Liu W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]. European Conference On Computer Vision. ECCV,2016. 21-37
Redmon J, Farhadi A. YOLOv3: an incremental improve- ment[J]. arXiv:2018,1804.02767.
寧凱,張東波,印峰,等. 基于視覺感知的智能掃地機器人的垃圾檢測與分類[J]. 中國圖象圖形學報, 2019,24(8):1358-1368.
Huang G, Liu Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. IEEE,2017. 2261-2269.
魏鋮磊,南新元,李成榮,等. 一種具有多尺度感受視野注意力機制的生活垃圾單階段目標檢測方法[J]. 環境工程,2022,40(1):175-183.
羅安能,萬海斌,司志巍,等. 基于改進YOLOv5s的可回收垃圾的檢測算法[J/OL]. 激光與光電子學進展,1-15[2023-04-20].
He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. IEEE,2016. 770-778.
Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. IEEE,2017. 936-944.
李志軍,楊圣慧,史德帥,等. 基于輕量化改進 YOLOv5的蘋果樹產量測定方法[J]. 智慧農業. 2021,3(2):100-114.
Zheng Z, Wang P, Liu W, et al. Distance-IoU Loss: faster and better learning for bounding box regression[C].Conference on Artificial Intelligence. AAAI,2020:12993-13000.
Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]. Computer Vision-ECCV 2014: 13th European Conference. Springer International Publishing, 2014. 818-833.
Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. IEEE,2015. 1-9.
Liu S, Huang D. Receptive field block net for accurate and fast object detection[C]. Proceedings of the European conference on computer vision. ECCV, 2018. 385-400.
Detection Method of Recyclable Waste Based on Improved YOLOv5s
LEI Jian-yun1,2, ZOUJin-lin1,2, XIA Meng1,3, LIANG Jun1,3
(1.College of Computer Science,South-Central Minzu University, Wuhan Hubei 430074, China; 2.Hubei Provincial Engineering Research Center for Intelligent Management of Manufacturing Enterprise, Wuhan Hubei 430074, China; 3.Hubei Provincial Engineering Research Center of Agricultural Blockchain and Intelligent Management, Wuhan Hubei 430074, China)
Abstract:Recycling has many benefits. It can save resources, help protect the natural environment. Traditional garbage recovery generally consumes a lot of manpower and material resources. Based on the existing single-stage target detection algorithm YOLOv5s, combined with the attention mechanism and RFB receptive field module, this paper proposes an improved YOLOv5s model that takes into account detection speed and accuracy,this model can be applied to indoor intelligent garbage recycling robot or garbage disposal terminal. Firstly, the structure of RFB module is adjusted and the attention mechanism is used to improve it. To some extent, the shortcoming of introducing other unnecessary feature information in RFB module is overcome. Then, the improved RFB module is introduced into the algorithm, so that the algorithm can better match with garbage objects of different scales.and improve the detection accuracy. The size of the anchor frame is adjusted according to the characteristics of the target object in the data set. The experimental results show that YOLOv5s-SERFB has a good performance on the data set TrashNet-Plus, and the final mAP of the improved model is 91.7%, 2.2% higher than that of the original YOLOv5s model. The algorithm can better meet the needs of real-time detection tasks, while showing good detection effect.
Keywords:Garbage detection; YOLOv5s; Receptive field; Attention mechanism
(責任編輯:周莉)
作者簡介:雷建云(1972-),男,教授,博士,研究方向:計算機視覺、大數據與網絡安全等.
基金項目:國家民委中青年英才培養計劃(MZR20007);湖北省科技重大專項(2020AEA011);新疆維吾爾自治區區域協同創新專項(科技援疆計劃)(2022E02035).