








摘要:針對化工廠中化工袋種類繁多、遮擋干擾、放置復(fù)雜等因素,導(dǎo)致化工袋識別模型的定位效果較差、實(shí)時性不佳等問題,提出一種基于MBE-YOLOv5的輕量化化工袋目標(biāo)檢測方法。首先,用MobileNetV3網(wǎng)絡(luò)替換YOLOv5的主干網(wǎng)絡(luò),降低模型的參數(shù)和運(yùn)算量,提高模型的檢測速度;然后,在YOLOv5的頸部網(wǎng)絡(luò)引入雙向特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行多尺度特征融合,提高模型的識別準(zhǔn)確率;最后,采用EIoU函數(shù)優(yōu)化損失,提高模型的定位精度。實(shí)驗(yàn)結(jié)果表明,MBE-YOLOv5模型相比YOLOv5模型,參數(shù)量下降了37.7%,運(yùn)算量降低了58.1%,檢測速度提升了9.5%,mAP@0.5提高了0.7%;在檢測速度和檢測精度之間取得較好的平衡,能滿足化工袋在線檢測識別定位的要求。
關(guān)鍵詞:YOLOv5模型;MobileNetV3網(wǎng)絡(luò);雙向特征金字塔網(wǎng)絡(luò);EIoU函數(shù);化工袋目標(biāo)檢測
中圖分類號:TP391.41" " " " " "文獻(xiàn)標(biāo)志碼:A" " " " "文章編號:1674-2605(2024)02-0006-07
DOI:10.3969/j.issn.1674-2605.2024.02.006
Lightweight Chemical Bag Target Detection Method Based on MBE-YOLOv5
LIU Weixin LIN Banyan HUANG Hanyi LI Minlong
(Dongguan Institute of New Generation Artificial Intelligence Industry Technology, Dongguan 523867, China)
Abstract: A lightweight chemical bag target detection method based on MBE-YOLOv5 is proposed to address the issues of poor positioning and real-time performance of chemical bag recognition models in chemical plants, which are caused by various types of chemical bags, occlusion interference, and complex placement. Firstly, replace the backbone network of YOLOv5 with MobileNetV3 network to reduce model parameters and computational complexity, and improve the detection speed of the model; Then, a bidirectional feature pyramid network structure is introduced into the neck network of YOLOv5 for multi-scale feature fusion to improve the recognition accuracy of the model; Finally, the EIoU function is used to optimize the loss and improve the positioning accuracy of the model. The experimental results show that compared to the YOLOv5 model, the MBE-YOLOv5 model reduces the number of parameters by 37.7%, the computational complexity by 58.1%, and the detection speed by 9.5%, mAP@0.5 Improved by 0.7%; Achieving a good balance between detection speed and accuracy can meet the requirements of online detection, recognition, and positioning of chemical bags.
Keywords: YOLOv5 model; MobileNetV3 network; bidirectional feature pyramid network; EIoU function; chemical bag target detection
0 引言
化工產(chǎn)業(yè)是我國國民經(jīng)濟(jì)的支柱產(chǎn)業(yè)和基礎(chǔ)產(chǎn)業(yè)[1]。化工袋作為化工產(chǎn)業(yè)的關(guān)鍵物流單元,其高效、安全地搬運(yùn)對生產(chǎn)流程至關(guān)重要。目前,化工廠中化
工袋搬運(yùn)主要依賴人工操作(叉車、吊車等),不僅效率低,且容易引發(fā)安全事故。此外,化工袋可能含有腐蝕性、有毒、有害物質(zhì),影響工人健康[2-4]。因此,迫切需求開發(fā)一種自動、安全、高效的化工袋自動搬
運(yùn)設(shè)備。其中,目標(biāo)識別定位技術(shù)是該設(shè)備研發(fā)的關(guān)鍵點(diǎn)和難點(diǎn)。
采用傳統(tǒng)的圖像處理算法對化工袋進(jìn)行目標(biāo)識別定位[5-6]時,因化工袋種類繁多、擺放不整齊、相互遮擋等問題,導(dǎo)致定位效果較差,無法滿足實(shí)際生產(chǎn)需求。
隨著深度學(xué)習(xí)目標(biāo)檢測技術(shù)的快速發(fā)展,其在自動駕駛、農(nóng)業(yè)、食品、新能源、化工、半導(dǎo)體、工業(yè)、消費(fèi)等領(lǐng)域均取得較好的應(yīng)用效果[7-9]。文獻(xiàn)[10]采用BiFPN結(jié)構(gòu)構(gòu)建車輛檢測模型的Neck網(wǎng)絡(luò),利用解耦頭實(shí)現(xiàn)車輛目標(biāo)的預(yù)測,在UA-DETRAC測試集上的平均精確率超過99%。文獻(xiàn)[11]提出一種改進(jìn)的快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(faster region-based convolutional neural network, Faster-RCNN)人臉檢測算法,采用ResNet50替換主干網(wǎng)絡(luò),利用多尺度融合技術(shù)提高人臉目標(biāo)檢測精度,在Wider Face數(shù)據(jù)集上平均準(zhǔn)確率達(dá)到了89%。文獻(xiàn)[12]針對番茄目標(biāo)檢測,提出一種改進(jìn)的Mask R-CNN模型,通過改造輸入層實(shí)現(xiàn)RGB與深度圖像的融合,采用多類預(yù)測子網(wǎng)絡(luò)解耦預(yù)測,提高果實(shí)識別率,識別準(zhǔn)確率達(dá)到了93.76%。文獻(xiàn)[13]針對獼猴桃目標(biāo)識別的應(yīng)用場景,提出基于Faster-RCNN的機(jī)器人視覺系統(tǒng),識別精度達(dá)到了87.61%,且具有較好的魯棒性。文獻(xiàn)[14]提出一種船舶目標(biāo)檢測算法,在Faster-RCNN結(jié)構(gòu)的基礎(chǔ)上,設(shè)計(jì)一種具備特征放大和多尺度特征跳躍的連接結(jié)構(gòu),提高了船舶的檢測精度,平均檢測精度達(dá)到了89.9%。然而,上述深度學(xué)習(xí)目標(biāo)檢測模型存在實(shí)時性差、參數(shù)量大、運(yùn)算量大等問題,難以滿足化工廠中化工袋快速、準(zhǔn)確識別定位的要求。
為此,本文提出一種MBE-YOLOv5輕量化模型,在線快速識別定位化工廠中化工袋。首先,將Mobile-NetV3網(wǎng)絡(luò)作為YOLOv5的骨干網(wǎng)絡(luò),以降低模型的參數(shù)量、計(jì)算量,加快推理速度;然后,模型頸部網(wǎng)絡(luò)采用BiFPN結(jié)構(gòu),并融合多尺度特征信息,提高模型識別準(zhǔn)確率;最后,采用EIoU函數(shù)作為邊框回歸損失函數(shù),提高模型定位精度。
1 MBE-YOLOv5模型
1.1 YOLOv5 模型
YOLOv5作為一種單階段目標(biāo)檢測模型,繼承了YOLO系列算法的核心思想,在保證檢測精度的同時,進(jìn)一步優(yōu)化了模型的大小和推理速度。YOLOv5模型的網(wǎng)絡(luò)結(jié)構(gòu)主要包括輸入(Input)、主干(Backbone)、頸部(Neck)和檢測頭(Head)4部分。其中,在輸入部分,模型對輸入圖像進(jìn)行尺寸調(diào)整、歸一化等預(yù)處理操作,以便模型能夠更好地提取圖像特征;主干作為模型的主體部分,采用跨階段局部網(wǎng)絡(luò)(cross stage partial network, CSPNet)結(jié)構(gòu),有效地減少了模型的計(jì)算量,同時增強(qiáng)了特征的提取能力,使模型更準(zhǔn)確地識別目標(biāo);頸部通過路徑聚合網(wǎng)絡(luò)(path aggregation network, PANet)結(jié)構(gòu)進(jìn)行特征融合,使模型更好地利用不同尺度的特征信息,提高模型對不同大小目標(biāo)的檢測性能,從而更準(zhǔn)確地定位目標(biāo);檢測頭部分負(fù)責(zé)將模型提取的特征轉(zhuǎn)化為具體的目標(biāo)檢測結(jié)果,包括目標(biāo)的位置、大小和類別等。
本文用MobileNetV3替換YOLOv5的主干網(wǎng)絡(luò);在YOLOv5的頸部網(wǎng)絡(luò)引入雙向特征金字塔網(wǎng)絡(luò)(bidirectional feature pyramid network,BiFPN)結(jié)構(gòu);采用EIoU函數(shù)優(yōu)化損失,實(shí)現(xiàn)YOLOv5模型輕量化的同時保證檢測效果,使其更適用于化工袋的在線識別定位。MBE-YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.2 MobileNetV3
MobileNetV3是Google團(tuán)隊(duì)于2019年發(fā)布的一種輕量級的深度學(xué)習(xí)模型[15],其保持較高檢測精度的同時,降低了計(jì)算復(fù)雜度和模型大小。
MobileNetV3中的block結(jié)構(gòu)是核心部分。每個block采用倒殘差結(jié)構(gòu),整體包括深度可分離卷積、SE模塊、線性瓶頸層和h-swish激活函數(shù)等部分,結(jié)構(gòu)示意圖如圖2所示。
深度可分離卷積操作包含兩步:第一步,深度卷積,每個輸入通道特征圖獨(dú)立應(yīng)用單個卷積核,降低計(jì)算復(fù)雜度;第二步,逐點(diǎn)卷積,采用1×1的卷積核對深度卷積后的特征圖進(jìn)行卷積操作,整合各通道信息并調(diào)整通道數(shù),實(shí)現(xiàn)模型輕量化與性能優(yōu)化。
壓縮-激勵(squeeze-and-excitation, SE)模塊是MobileNetV3引入的一個輕量級注意力模塊,主要由Squeeze和Excitation子模塊組成,結(jié)構(gòu)如圖3所示。
Squeeze子模塊通過對輸入特征圖進(jìn)行通道維度上的壓縮,捕捉全局空間信息。利用全局平均池化將每個通道的特征圖轉(zhuǎn)換為一個實(shí)數(shù),代表該通道的全局響應(yīng)。Excitation子模塊主要學(xué)習(xí)每個通道的重要性,并根據(jù)這些重要性重新調(diào)整通道特征。Squeeze子模塊壓縮后的特征向量經(jīng)過Excitation子模塊的2個全連接層:第一個全連接層先將Squeeze的輸出降低到較小維度,以減少計(jì)算量,再使用ReLU激活函數(shù)增加非線性;第二個全連接層將維度恢復(fù)到與輸入特征圖通道數(shù)相同,并使用Sigmoid激活函數(shù)生成每個通道的權(quán)重。
線性瓶頸層通過1×1的卷積核降低特征圖維度,從而減少模型的大小和計(jì)算量。
h-swish激活函數(shù)在swish函數(shù)的基礎(chǔ)上進(jìn)行了改進(jìn),通過減少乘法運(yùn)算,并允許更多的激活值位于ReLU的有效范圍內(nèi),提高了計(jì)算效率。
1.3 BiFPN結(jié)構(gòu)
YOLOv5s頸部網(wǎng)絡(luò)采用特征金字塔網(wǎng)絡(luò)(feature pyramid network, FPN)+路徑聚合網(wǎng)絡(luò)(path aggregation network, PAN)的結(jié)構(gòu),實(shí)現(xiàn)淺層和深層不同尺度的特征圖融合,以增強(qiáng)特征的語義表達(dá)能力。但在網(wǎng)絡(luò)融合過程中,PAN的輸入信息為FPN處理后的信息,導(dǎo)致融合后的特征沒有充分地利用原始特征信息。為提高特征融合效果,本文采用BiFPN結(jié)構(gòu)替代頸部網(wǎng)絡(luò)的(FPN+PAN)結(jié)構(gòu),增強(qiáng)相同網(wǎng)絡(luò)層之間的特征信息融合能力和不同網(wǎng)絡(luò)層之間的特征信息傳遞能力,從而提高模型的感知和表達(dá)能力。
BiFPN結(jié)構(gòu)是一種多尺度特征融合的網(wǎng)絡(luò)結(jié)構(gòu)[16-19],如圖4所示。
BiFPN結(jié)構(gòu)通過雙向傳播的方式將高層和低層的特征信息融合。BiFPN結(jié)構(gòu)在高層、低層特征圖之間進(jìn)行多次上下采樣和融合,使低層高分辨率特征與高層語義信息結(jié)合,有效地捕捉目標(biāo)的細(xì)節(jié)信息和跨尺度特征,從而提高模型檢測的準(zhǔn)確性和魯棒性。
1.4 EIoU損失函數(shù)
邊界框損失函數(shù)對模型的目標(biāo)定位和識別準(zhǔn)確率至關(guān)重要。YOLOv5采用CIoU損失函數(shù),其考慮了邊界框的位置、形狀和大小之間的關(guān)系。但CIoU損失函數(shù)面對目標(biāo)尺度變化或長寬比較大時,無法準(zhǔn)確地衡量邊界框的重疊程度,影響目標(biāo)檢測的準(zhǔn)確性[20]。
為此,本文引入EIoU目標(biāo)框損失函數(shù)[21]。EIoU目標(biāo)框損失函數(shù)主要包含重疊程度、中心距離損失、寬高損失,能真實(shí)地反映預(yù)測框和真實(shí)框的高度和寬度。EIoU目標(biāo)框損失函數(shù)在CIoU損失函數(shù)的基礎(chǔ)上分別計(jì)算寬高的差異值,提高預(yù)測框的回歸速度,聚焦于高質(zhì)量錨框,提高目標(biāo)預(yù)測精度。EIoU目標(biāo)框損失函數(shù)的計(jì)算公式為
(1)
式中:和分別為預(yù)測框和真實(shí)框外包最小矩形的寬和高,為IoU損失,為距離損失,為邊長損失,和分別為預(yù)測框和真實(shí)框的中心點(diǎn),和分別為預(yù)測框的寬和高,和分別為真實(shí)框的寬和高,為歐幾里德距離。
2 實(shí)驗(yàn)測試與分析
2.1 實(shí)驗(yàn)環(huán)境
軟件環(huán)境:深度學(xué)習(xí)框架pytorch 1.12、集成開發(fā)環(huán)境spyder 5.0、第三方函數(shù)庫Anaconda3-5. 2. 0以及操作系統(tǒng) Windows10。
硬件環(huán)境:酷睿i7-11700、英偉達(dá)RTX3060、16 GB內(nèi)存、1 TB硬盤。
2.2 實(shí)驗(yàn)數(shù)據(jù)集
本實(shí)驗(yàn)數(shù)據(jù)集來自某化工廠中50種不同規(guī)格型號的化工袋,共約1 000幅圖像,每種化工袋約有20幅圖像。其中,750幅圖像用于訓(xùn)練,250幅圖像用于測試。部分化工袋圖像樣本如圖5所示。
2.3 評價指標(biāo)
本文采用每秒檢測幀數(shù)FPS、運(yùn)算量來評價MBE-YOLOv5模型的檢測速度;采用模型參數(shù)量來評價MBE-YOLOv5模型的復(fù)雜度;采用mAP@0.5來評價MBE-YOLOv5模型的檢測精度,mAP@0.5是指當(dāng)IoU為0.5時的mAP,計(jì)算公式為
(2)
(3)
式中:x為某一類別正樣本預(yù)測框的數(shù)量;為每個候選框?qū)?yīng)的查準(zhǔn)率;AP為某一類別的所有查準(zhǔn)率求和取平均值;mAP@0.5為檢測目標(biāo)中所有類別的AP平均值,能直觀地反映模型的性能;n為類別數(shù)。
2.4 實(shí)驗(yàn)設(shè)計(jì)與分析
2.4.1 消融實(shí)驗(yàn)
為驗(yàn)證本文方法的有效性,在實(shí)驗(yàn)數(shù)據(jù)集上設(shè)計(jì)消融實(shí)驗(yàn),具體如下:
1) YOLOv5s模型作為消融實(shí)驗(yàn)的基準(zhǔn)線;
2) 用MobileNetV3替換YOLOv5s的主干網(wǎng)絡(luò),實(shí)現(xiàn)模型輕量化;
3) YOLOv5s的頸部網(wǎng)絡(luò)引入BiFPN結(jié)構(gòu),提高模型的預(yù)測準(zhǔn)確率;
4) CIoU損失函數(shù)改為EIoU目標(biāo)框損失函數(shù),提高目標(biāo)預(yù)測精度。
消融實(shí)驗(yàn)結(jié)果如表1所示。
由表1可以看出:用MobileNetV3替換YOLOv5s的主干網(wǎng)絡(luò)后,模型參數(shù)量下降了51.9%,運(yùn)算量下降了61.2%,檢測速度從84.7 f/s提升到94.8 f/s,但mAP@0.5下降了2.5%;頸部網(wǎng)絡(luò)引入BiFPN結(jié)構(gòu)后,模型參數(shù)量增加約1 MB,運(yùn)算量增加0.5 GFLOPs,檢測速度下降約3 f/s,mAP@0.5提升到0.955,但比原模型低0.6%;CIoU損失函數(shù)改為EIoU目標(biāo)框損失函數(shù)后,模型參數(shù)量下降了37.7%,運(yùn)算量下降了58%,檢測速度提升了9.5%,mAP@0.5提高了0.7%,達(dá)到0.968。
2.4.2 不同模型對比實(shí)驗(yàn)
為驗(yàn)證本文模型的有效性、優(yōu)越性,在實(shí)驗(yàn)數(shù)據(jù)集和相同測試環(huán)境下,將本文模型(MBE-YOLOv5)與YOLOv6n、YOLOv5s、YOLOv4-tiny、YOLOv7-tiny、YOLOv8n、YOLOv6s等主流模型進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)測試結(jié)果如表2所示。
由表2可以看出:相比YOLOv5s模型,MBE-YOLOv5模型參數(shù)量下降了37.7%,運(yùn)算量下降了58.1%,檢測速度提升了9.6%,mAP@0.5提高了0.7%;YOLOv6n、YOLOv4-tiny、YOLOv7-tiny、YOLOv8n模型的檢測速度比MBE-YOLOv5模型快10%~20%,但這4個模型的mAP@0.5都沒達(dá)到0.9,檢測效果較差;相比于YOLOv6s模型,MBE-YOLOv5模型的mAP@0.5略高0.6%,但參數(shù)量、運(yùn)算量、檢測速度都有明顯優(yōu)勢。
3 結(jié)論
本文針對化工袋目標(biāo)檢測任務(wù),提出一種MBE-YOLOv5模型。MBE-YOLOv5模型采用MobileNetV3網(wǎng)絡(luò)替換YOLOv5s主干網(wǎng)絡(luò),減少模型的參數(shù)量、計(jì)算量;同時引入BiFPN結(jié)構(gòu)、EIoU目標(biāo)框損失函數(shù)來提高模型的目標(biāo)檢測精度。實(shí)驗(yàn)結(jié)果表明,本文提出的MBE-YOLOv5模型在實(shí)現(xiàn)模型輕量化的同時,獲得較好的化工袋檢測效果,能滿足化工廠中化工袋在線識別定位的要求。
參考文獻(xiàn)
[1] 張瑤,崔燕,李媛.化工安全生產(chǎn)與環(huán)境保護(hù)的方法研究[J]. 化工管理,2023(33):61-64. DOI:10.19900/j.cnki.ISSN1008-4800.2023.33.01
[2] 馬傳海.化工行業(yè)中工藝流程設(shè)計(jì)對安全生產(chǎn)的影響[J].現(xiàn)代鹽化工,2023,50(6): 55-57.
[3] CHEN C, RENIERS G. Chemical industry in China: The current status, safety problems, and pathways for future sustainable development[J]. Safety Science, 2020,128:104741.
[4] SONG J, HAN B. Green chemistry: A tool for the sustainable development of the chemical industry[J]. National Science Review, 2015, 2(3):255-256.
[5] 劉華冠.基于機(jī)器視覺的袋裝物料位姿自動識別研究[D]. 濟(jì)南:濟(jì)南大學(xué),2011.
[6] 陳州堯,徐敏,蘇鷺梅.一種碼垛視覺系統(tǒng)中物料袋的識別與定位方法[J].制造業(yè)自動化,2015,37(3):47-49;59.
[7] LE Q, MIRALLES-PECHUáN L, KULKARNI S, et al. An overview of deep learning in industry[J]. Data Analytics and AI, 2020:65-98.
[8] WANG J, ZHANG T, CHENG Y, et al. Deep learning for object detection: A survey[J]. Computer Systems Science amp; Engineer-ing, 2021,38(2):165-182.
[9] LIU L, OUYANG W, WANG X, et al. Deep learning for generic object detection: A survey[J]. International Journal of Computer Vision, 2020,128(2):261-318.
[10] SONG Y, HONG S, HU C, et al. MEB-YOLO: An efficient vehicle detection method in complex traffic road scenes[J]. Computers, Materials amp; Continua, 2023,75(3):5761-5784.
[11] 李祥兵,陳煉.基于改進(jìn)Faster-RCNN的自然場景人臉檢測[J].計(jì)算機(jī)工程, 2021,47(1):7.
[12] XU P, FANG N, LIU N, et al. Visual recognition of cherrytomatoes in plant factory based on improved deep instance segmentation[J]. Computers and Electronics in Agri-culture, 2022,197:106991.
[13] SONG Z Z, FU L S,WU J Z, et al. Kiwifruit detection infield images using Faster R-CNN with VGG16[J]. IFAC-Papers on Line, 2019,52(30):76-81.
[14] LI Y, ZHANG S, WANG W Q. A lightweight faster R-CNN for ship detection in SAR images[J]. IEEE Geoscience and Remote Sensing Letters, 2022,19:1-5.
[15] HOWARD A, SANDLER M, CHU G, et al. Searching for mobilenetv3[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019:1314-1324.
[16] TAN M, PANG R, LE Q V. Efficientdet: Scalable and efficient object detection[C]//Proceedings of the IEEE/CVF Confer-ence on Computer Vision and Pattern Recognition, 2020: 10781-10790.
[17] 來春慶,黃勇,朱喆,等.基于特征融合多尺度卷積網(wǎng)絡(luò)的光伏組件紅外圖像故障診斷[J].機(jī)電工程技術(shù),2023,52(9): 145-151.
[18] 郎永存,李積元,鄭佳昕.基于機(jī)器學(xué)習(xí)機(jī)床機(jī)械加工特征信息與加工材料關(guān)聯(lián)性研究[J].機(jī)床與液壓,2022,50(16): 194-199.
[19] 楊俊杰,謝維成,曹倩.級聯(lián)H橋逆變器的多特征融合CNN故障診斷[J].中國測試,2020,46(7):8-17.
[20] GEVORGYAN Z. SIoU loss: More powerful learning for bounding box regression[J]. arXiv preprint arXiv:2205.12740, 2022.
[21] ZHANG Y F, REN W, ZHANG Z, et al. Focal and efficient IOU loss for accurate bounding box regression[J]. Neurocom-puting, 2022,506:146-157.
作者簡介:
劉偉鑫,男,1992年生,碩士研究生,工程師,主要研究方向:機(jī)器視覺與人工智能應(yīng)用。E-mail: 15989156033@139.com