999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進YOLOv5s的藥盒鋼印日期識別方法

2024-04-19 01:03:50黃楊樂天劉宜勝王俊茹
包裝工程 2024年7期
關鍵詞:特征檢測模型

黃楊樂天,劉宜勝,王俊茹

基于改進YOLOv5s的藥盒鋼印日期識別方法

黃楊樂天,劉宜勝,王俊茹*

(浙江理工大學 機械工程學院,杭州 310018)

藥盒的鋼印日期與背景對比度低,字符輪廓不明顯,識別易受環境光線干擾,對此提出一種基于機器視覺的識別方法。使用改進YOLOv5s模型,首先對采集的藥盒數據集進行透視變換校正,并進行數據增強。通過在模型的骨干網絡中融合位置注意力機制(CA),減少冗余信息的干擾;頸部網絡根據加權雙向特征金字塔網絡(BiFPN)引入權重,更好地平衡不同尺寸圖層的特征信息;引入動態聚焦損失函數(WIoU),降低高質量樣本對訓練的干預,提高模型的泛化能力。在自建鋼印字符數據集上的實驗結果表明,改進網絡對藥盒鋼印日期識別的平均精度值達到了99.41%,比原始模型提升了2.38%,幀率為80.01幀/s。改進后的YOLOv5模型對藥盒鋼印日期的檢測精度優于原有網絡,對可以滿足藥盒生產線的實時性要求。

鋼印日期;透視變換;目標檢測;加權特征圖;注意力機制

生產日期是藥盒上的重要信息,很多廠家選擇使用鋼印字符。因為相較于噴墨、印刷等方式,鋼印的過程相對簡單,不易受物理磨損,不會隨時間而脫落。起初,廠家雇傭勞動力來檢測產品日期。這種檢測方式不僅速度較慢,而且易導致視覺疲勞,漏檢、錯檢率較高。隨著科技進步,人們利用傳統的圖像處理來識別字符。比較常用的有:OCR光學字符識別;基于文字特征提取,對字符特征進行識別;利用建立好的字符庫進行模板匹配。而鋼印字符由藥盒表面施壓生成,這種字符和背景顏色相近,輪廓并不明顯[1]。此外,藥盒鋼印字符的樣式和尺寸不統一,模板匹配的泛用性較差,故傳統方法的效果并不理想。

近年來,基于深度學習的神經網絡在識別領域得到了廣泛應用,大致分為2種:以R-CNN[2-4]系列為代表,首先從圖像中提取候選區域,再對候選區域進行分類和回歸的兩階段目標檢測算法;以YOLO(You Only Look Once)[5]系列和SSD[6]等為代表,將整個圖像輸入卷積神經網絡,提取圖像特征進行回歸和預測的單階段目標檢測算法。相比雙階段算法,單階段算法相對犧牲了一些精度,但提升了識別速度,更好地滿足生產線的實時性要求。YOLOv5是兼顧精度和速度的模型,非常適合部署在工廠設備上[7]。Santoso等[8]提出基于YOLO的Kawi銅質銘文識別方法;宮鵬涵[1]提出一種基于YOLOv5的槍械鋼印字符識別方法;Zhang等[9]針對鑄造壓印字符使用YOLOv5進行識別。綜上所述,本文提出一種基于改進YOLOv5s的藥盒鋼印日期識別方法,主要改進為:在骨干網絡中融合位置注意力機制(CA),以減少背景信息的干擾;引入雙向特征金字塔結構(BiFPN),更好地融合多尺度特征和上下文信息;采用動態聚焦損失函數(WIoU)提高模型對不平衡樣本的學習能力。

1 檢測模型

1.1 模型結構

該模型由骨干網絡(Backbone)、頸部網絡(Neck)、頭部網絡(Head)3個部分組成。Backbone網絡用于提取特征,使用連續的卷積模塊來提取各類尺寸的特征圖,以保留相應的特征信息。Neck網絡進一步提取特征,使大尺度的語義信息和小尺度的細節信息可以更好的融合,增強多尺度的目標定位能力。Head網絡有3個檢測頭,用于目標的預測和回歸。圖1為改進YOLOv5s模型結構。

圖1 改進YOLOv5s模型結構

1.2 改進模型

1.2.1 骨干網絡改進

注意力機制可以使有限的計算資源更加集中地應用于關鍵的識別區域。常用的注意力機制有SE[10]、ECA[11]、CBAM[12]和CA[13]等。前兩者屬于通道注意力機制,CBAM模塊在此基礎后加入了空間注意力機制,以使模型更關注重要區域。CA模塊將位置信息嵌入通道注意力機制中,以更高效地獲取2種信息,而不增加過多計算量。如圖2所示,CA模塊先將輸入特征圖(××)從寬度和高度2個方向使用池化核(,1)和(1,)進行全局平均池化,分別獲得其特征圖。再分別沿2個空間方向聚合特征,這使得注意力機制保留位置信息的同時捕獲通道信息,有助于模型更精確地定位感興趣的像素區域。

1.2.2 特征金字塔改進

BiFPN[14]旨在提高模型的感受野和特征表征能力,能夠有效地提高模型的性能和效率。如圖3所示,相較于左側的FPN結構,BiFPN刪除了只有一條輸入的節點(P3、P6)。這樣的節點并沒有很好地融合不同的特征信息,反而會增加模型參數量。同時,BiFPN在同一層的輸入和輸出之間添加了額外的融合通路(虛線箭頭通路),以較小的計算成本進一步增強特征融合能力。此外,原有融合方式只是簡單地將特征圖疊加在一起。然而,不同輸入特征具有不同的分辨率和貢獻度,簡單的加和并不是最佳選擇。BiFPN提出了一種簡單高效的加權特征融合機制,能夠快速對融合后的特征進行歸一化處理,從而減少模型計算量。因此,將網絡的第6層和第19層連接。融合計算見式(1)。

式中:w為一個可學習權重,通過ReLU激活函數來保證每一個w≥0;為一個避免數值不穩定的系數,其值為0.000 1。

1.2.3 損失函數改進

損失函數用于衡量預測值與實際值之間差異的函數。在目標檢測領域經常使用IoU損失函數。其計算式見式(2)。

式中:IIoU為預測邊界框與真實邊界框之間的交集與并集之比。

為了防止損失函數梯度過小,影響模型的學習,研究者提出許多改進IoU計算方法[15-18]。如圖4所示,由于生產日期的性質,樣本不平衡無法避免。而且數據集難免包含低質量樣本,導致其對數量較少的類別影響更大,降低模型的泛化能力。故引入WIoU損失函數,以不同的關注程度對待高質量樣本和中低質量樣本。當預測框和真實框相匹配時,WIoU可以降低此類高質量樣本對模型訓練的干預,并且在防止低質量樣本產生有害梯度的前提下更加關注于中低質量樣本,提高模型泛化能力。WIoU計算式見式(3)。

式中:gt和gt為真實框坐標;g和g分別為最小包圍框的寬和高。

圖4 數據集樣本數量分布

2 實驗與結果分析

2.1 實驗準備

2.1.1 數據集建立

本實驗數據集為志愿者在不同條件下采集的圖像。如圖5所示,包括國內外不同種類的藥盒,其字符形狀、尺寸、分布密集程度各有差異,以提高模型的泛用性。

2.1.2 透視變換

相機采集藥盒時可能會出現傾斜現象,而且會包含無效的背景信息,故利用透視變換對其進行校正。如圖6所示,不僅使目標區域處于水平狀態,且四周的背景被去除,利于模型關注目標區域處理更少的像素。透視變換公式為:

原始圖像像素點的齊次坐標(,,)對應變換之后的歸一化齊次坐標(,,)。矩陣為透視變換矩陣。1為線性變換,如放縮、旋轉,2為平移操作,3產生透視變換。

2.1.3 數據增強

數據集以8∶1∶1的比例劃分為訓練集、測試集、驗證集,供訓練網絡模型使用。為了增加訓練樣本并提高網絡模型的泛化能力,對訓練集進行擴充。采用圖像模糊、加噪、縮放、翻轉、剪裁和調整亮度等處理方式隨機組合,得到最終數據集圖像共1 620張。

圖5 不同采集條件的圖像

圖6 透視變換結果對比

2.2 實驗環境

實驗平臺操作系統為Windows10,顯卡為NVIDIA GeForce RTX3090,24 G顯存,使用PyTorch深度學習框架,版本為1.12.1,CUDA版本為11.3,編譯語言為Python3.9.15;圖片輸入尺寸為640×640;批量大小設為16,迭代次數設為100輪,學習率設為0.001。

2.3 評價指標

為衡量識別藥盒鋼印字符的效果以及模型性能,選取神經網絡性能評估指標:精確率(Precision,)、召回率(Recall,)、平均精度(Average Precision,AP)、平均精度均值(mean Average Precision,AP)、每秒浮點運算次數(Flops)、平均幀率(Frame Per Second,FPS)和參數量。相關計算公式如下:

式中:P為被模型預測為正類的正樣本;P為被模型預測為正類的負樣本;N為被模型預測為負類的正樣本;P為PR曲線所圍成的面積;AP為所有類別的P的平均值。本實驗AP指標選用AP_0.5,即閾值為0.5。

2.4 結果對比

2.4.1 骨干網絡對比

為評估注意力機制的效果,對特征圖進行熱力圖可視化,并對比了不同的插入位置,結果分別如圖7和表1所示。紅色表示模型的關注程度高,可以看出原模型在識別字符2時,同時也關注了右上角的背景信息。相比之下,添加CA的模型,集中于目標區域,且在字符識別方面的表現更加優秀,置信度更高。這表明注意力機制對提高模型性能具有顯著的效果。此外,相比直接插入,融合跨階段模塊(C3CA)的參數量更小且AP值更高。說明添加過多的注意力機制可能使圖像中的目標信息被當成了背景信息,導致模型的精度下降。

圖7 模型熱力圖可視化

表1 CA插入位置的結果對比

Tab.1 Comparison results of CA in different layers

2.4.2 損失函數對比

各類損失函數在不同應用場合的性能不同,需要根據任務的要求具體情況具體分析,故在本鋼印字符檢測任務中進行了對比,總損失越小,代表預測值與期望值更接近,結果如圖8所示。可以看出,WIoU損失函數在本實驗數據集上取得較好的效果,損失收斂速度快且總損失較小,GIoU的效果相對最差。

圖8 不同損失函數對比

2.4.3 識別結果

圖9和表2為原網絡和改進網絡的部分識別結果對比。無論對于正常或曝光、弱光圖像,還是改進后的漏檢、誤檢現象明顯少于原網絡,尤其是改進后的模型對幾何特征相似的字符6和9的檢測效果更好。證明改進網絡對目標的特征提取能力更高,檢測效果更好。

圖9 識別結果對比

表2 改進前后對字符6和9的檢測結果對比

Tab.2 Comparison of detection results for characters 6 and 9 after improvement

2.4.4 消融實驗

為了驗證各種改進模塊對模型性能的有效性,進行了消融實驗,結果見表3。根據模型A、B、C的表現,可以發現,雖然C3CA和BiFPN模塊增加了模型的參數量,但對幀率的影響不大,而WIoU模塊對參數量沒有影響。3個模塊單獨應用都能提升檢測效果,其中BiFPN模塊的效果最為顯著,提升了1.08%。由模型D、F、G可以發現組合不同的模塊能夠進一步提升模型性能,AP提升分別為2.03%、1.79%、1.34%。當3種模塊共同作用時,模型的識別效果最佳,AP提升了2.38 %,具有更好的性能。

2.4.5 模型對比

為進一步驗證本文改進模型的性能,通過參數量、AP和GFLOPs這3個指標與常用的檢測模型進行對比,對比結果見圖10。結果顯示,改進的YOLOv5相較于SSD、Faster R-CNN、YOLOv3和YOLOv4算法,在AP方面分別提高了13.92%、3.99%、10.44%、9.05%。同時,改進算法擁有更小的參數量,適用于資源有限的部署條件。與FasterNet等參數量基本持平的算法相比,改進的YOLOv5精度最高,達到了99.41%。此外,雖然RT-DETR[19]的AP值相對接近,但其GFLOPs值高達105,表明無法在較低的計算資源下實時運行。因此,改進YOLOv5s在高精度檢測和高效率計算之間取得了良好的平衡,非常適用于對性能和效率要求都較高的應用場景。因此,改進的YOLOv5能夠滿足工業鋼印字符檢測的要求。

表3 消融實驗結果

Tab.3 Results of ablation experiment

注:√表示本次實驗使用了該改進模塊。

圖10 各類模型性能對比

3 結語

本文針對藥盒鋼印字符識別任務中的多種復雜情況,如目標與背景對比度低、目標圖像模糊和光線方向等情況,提出了一種基于改進YOLOv5的藥盒鋼印字符識別方法。首先對采集的圖像進行透視變換,圖像增強等預處理,通過在骨干網絡中添加CA注意力機制,使其更集中關注識別對象的位置信息;頸部網絡采用了BiFPN的結構,更好地融合不同尺度的特征信息;使用WIoU損失函數,注重中低質量樣本的貢獻,減少樣本不平衡帶來的影響。實驗結果表明,本文提出的模型相較于常用的目標檢測模型在參數量方面均有下降,與YOLOv5s模型基本持平,而在精度方面有顯著提升,AP達到了99.41%。改進后的模型具有良好的泛用性,可以滿足藥盒生產流水線的實時精度要求,并可為其他鋼印字符識別任務提供參考。

[1] 宮鵬涵. 基于YOLOv5算法的鋼印字符識別方法[J]. 兵器裝備工程學報, 2022, 43(8): 101-105.

GONG P H. Character Recognition Research of Steel Embossing Based on YOLOv5[J]. Journal of Ordnance Equipment Engineering, 2022, 43(8): 101-105.

[2] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]// Conference on Computer Vision and Pattern Recognition (CVPR). Washington: IEEE, 2014: 580-587.

[3] GIRSHICK R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV). Santiago: IEEE, 2015: 1440-1448.

[4] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[5] REDMON J, DIVVALA S, GIRSHICK R, et al. You only Look Once: Unified, Real-Time Object Detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016: 779-788.

[6] LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single Shot MultiBox Detector [C]// European Conference on Computer Vision (ECCV). Amsterdam: Springer, 2016: 21-37.

[7] JI Z, WU Y, ZENG X, et al. Lung Nodule Detection in Medical Images Based on Improved YOLOv5s[J]. IEEE Access, 2023, 11: 76371-76387.

[8] SANTOSO R, SUPRAPTO Y K, YUNIARNO E M. Kawi Character Recognition on Copper Inscription Using YOLO Object Detection[C]// Proceedings of 2020 International Conference on Computer Engineering, Network, and Intelligent Multimedia (CENIM). Surabaya: IEEE, 2020: 343-348.

[9] ZHANG Z, YANG G, WANG C, et al. Recognition of Casting Embossed Convex and Concave Characters Based on YOLO v5 for Different Distribution Conditions[C]// Proceedings of 2021 International Wireless Communications and Mobile Computing (IWCMC). New York: IEEE, 2021: 553-557.

[10] HU J, SHEN L, SUN G. Squeeze-and-Excitation Networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City: IEEE, 2018: 7132-7141.

[11] WANG Q, WU B, ZHU P,ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE/CVF,2020: 11534-11542.

[12] WOO S, PARK J, LEE J Y, et al. Cbam: Convolutional Block Attention Module[C]// Proceedings of the European Conference on Computer Vision (ECCV). Munich: Springer, 2018: 3-19.

[13] HOU Q, ZHOU D, FENG J. Coordinate Attention for Efficient Mobile Network Design[C]// Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. New York: IEEE/CVF, 2021: 13713-13722.

[14] TAN M, PANG R, LE Q V. Efficientdet: Scalable and Efficient Object Detection[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE/CVF, 2020: 10781-10790.

[15] ZHENG Z, WANG P, LIU W, et al. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 12993-13000.

[16] HE J, ERFANI S, MA X, et al. Alpha-IOU: A Family of Power Intersection over Union Losses for Bounding Box Regression[J]. Advances in Neural Information Processing Systems, 2021, 34: 20230-20242.

[17] GEVORGYAN Z. SIoU loss: More Powerful Learning for Bounding Box Regression[J/OL]. arXiv preprint, 2022: 1-12. https://arxiv.org/abs/2205.12740.

[18] TONG Z, CHEN Y, XU Z, et al. Wise-IoU: Bounding Box Regression Loss with Dynamic Focusing Mechanism[J/OL]. arXiv preprint, 2023: 1-8. https://arxiv.org/ abs/2301.10051.

[19] LYU W, XU S, ZHAO Y, et al. Detrs Beat Yolos on Real-Time Object Detection[J/OL]. arXiv preprint, 2023: 1-11. https://arxiv.org/abs/2304.08069.

Improved YOLOv5s-based Date Recognition Method for Steel Stamps on Pill Boxes

HUANG Yangletian, LIU Yisheng, WANG Junru*

(School of Mechanical Engineering, Zhejiang Sci-Tech University, Hangzhou 310018, China)

The work aims to propose a machine vision-based recognition method for pill boxes with low contrast between the steel-stamped date and the background, inconspicuous character outlines, and recognition susceptible to interference by ambient light. An improved YOLOv5s model was used to correct the collected pill box dataset by perspective transformation and data enhancement. By fusing the Coordinate Attention (CA) in the backbone network of the model, the interference of redundant information was reduced. The neck network introduced weights according to the Bi-directional Feature Pyramid Network (BiFPN) to better balance the feature information of the layers of different sizes. The Wise-IoU (WIoU) was introduced to reduce the intervention of high-quality samples in the training and to improve the model's generalization ability. The experimental results on the self-constructed steel-stamped character dataset showed that the average accuracy of the improved network for recognizing the steel-stamped date of the pill box reached 99.41 %, which was 2.38 % higher than that of the original model, and the frame rate was 80.01 f/s. The improved YOLOv5 model can detect the steel-stamped date of the pill box with a better accuracy than that of the original network, and it can meet the real-time requirement of the production line of the pill box.

steel-stamped date; perspective transformation; target detection; weighted feature maps; coordinate attention

TP391

A

1001-3563(2024)07-0189-08

10.19554/j.cnki.1001-3563.2024.07.024

2023-07-11

浙江省“尖兵”“領雁”研發攻關計劃項目(2023C01158)

通信作者

猜你喜歡
特征檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 爽爽影院十八禁在线观看| 精品五夜婷香蕉国产线看观看| 欧美特黄一级大黄录像| 久久黄色免费电影| 天天色天天操综合网| 国产情精品嫩草影院88av| 精品久久蜜桃| 久久久久久久久久国产精品| 国产久操视频| vvvv98国产成人综合青青| 国产亚洲精品资源在线26u| 精品国产女同疯狂摩擦2| 69av免费视频| 精品人妻一区无码视频| 国产成人精品第一区二区| 欧美色伊人| 伊人久久影视| 激情综合网址| 亚洲无码高清视频在线观看| 国产精品yjizz视频网一二区| 国产精品第一区在线观看| 国产探花在线视频| 青青青国产视频手机| 精品成人免费自拍视频| 国产一区亚洲一区| 亚洲有无码中文网| 亚洲天堂网站在线| 亚洲中文字幕手机在线第一页| 精品伊人久久久香线蕉| 欧美性色综合网| 久久6免费视频| 喷潮白浆直流在线播放| 久久无码高潮喷水| 午夜不卡视频| 美女一级毛片无遮挡内谢| 国产经典免费播放视频| 国产成人综合久久精品尤物| 69国产精品视频免费| 国产精品999在线| 少妇被粗大的猛烈进出免费视频| 天天躁夜夜躁狠狠躁图片| 欧美视频在线播放观看免费福利资源| 国产亚洲欧美另类一区二区| 一区二区三区在线不卡免费| 麻豆精品视频在线原创| 亚洲av无码人妻| 欧美中文字幕一区| 91色爱欧美精品www| 天天综合亚洲| 专干老肥熟女视频网站| 国产亚洲精品无码专| 久久国产乱子伦视频无卡顿| 福利在线不卡| 91po国产在线精品免费观看| 国产一区二区三区日韩精品| 有专无码视频| 午夜综合网| 亚洲视频在线观看免费视频| 成人免费网站久久久| 久久综合色天堂av| 久久亚洲国产最新网站| 欧美色视频网站| 亚洲另类色| 超清无码熟妇人妻AV在线绿巨人 | 国产一区二区精品高清在线观看| 99视频在线看| 亚洲第一av网站| 国产精品无码作爱| 国产乱码精品一区二区三区中文| 国模极品一区二区三区| 沈阳少妇高潮在线| 国产午夜无码专区喷水| 欧美日韩国产高清一区二区三区| av色爱 天堂网| 国产国语一级毛片| 久久久亚洲色| 色屁屁一区二区三区视频国产| 日韩国产黄色网站| 99这里只有精品免费视频| 日韩黄色大片免费看| 国产嫖妓91东北老熟女久久一| 乱系列中文字幕在线视频 |