基于RCSI-YOLOv5的軸承表面缺陷檢測方法

2025-04-10 00:00:00卜揚屈霞陳濤武偉寧

陜西科技大學學報 2025年2期

摘要：針對軸承表面缺陷檢測中的小目標漏檢、相似特征目標誤檢、高低質量樣本不平衡等問題，提出一種基于RCSI-YOLOv5的軸承表面缺陷檢測模型.在主干網絡中構建Res2ConvModC3特征提取模塊，來提高模型對淺層小目標的特征提取能力和對相似特征的辨別能力；在頸部網絡前端設計CGCA注意力機制，增強網絡對目標特征的定位能力；在檢測頭中加入了SimAM注意力機制，提高模型對微小缺陷目標的關注度；設計ISInner-CIoU計算邊界框回歸損失，緩解高低質量樣本不平衡問題.實驗結果表明，與原YOLOv5算法相比，RCSI-YOLOv5的mAP@0.5提升1.5%，F1-Score提升1%，凹槽、擦傷、劃痕的AP分別提升2.1%、0.5%、1.7%，FNR分別降低1.3%、0.4%、2.1%.有效提升了模型的檢測精度，減少了目標的漏檢、誤檢.

關鍵詞：

軸承表面缺陷檢測；YOLOv5；卷積調制； CGCA； SimAM； ISInner-CIoU

中圖分類號：TP391.41

文獻標志碼： A

Bearing surface defect detection method based on RCSI-YOLOv5

BU Yang¹， QU Xia^1*， CHEN Tao¹， WU Wei-ning²

（1.School of Mechanical Engineering and Rail Transit， Changzhou University， Changzhou 213164， China; 2.Wang Zheng School of Microelectronics， Changzhou University， Changzhou 213164， China

）

Abstract：

To address the issues of missed detection of small targets，1 detection of targets with similar features，and imbalance between high-quality and low-quality samples in bearing surface defect detection，a bearing surface defect detection model based on RCSI-YOLOv5 is proposed.A Res2ConvModC3 feature extraction module is constructed in the backbone network to enhance the model′s capability in extracting features of shallow small targets and discriminating similar features;a CGCA attention mechanism is designed at the front end of the neck network to enhance the network′s ability to locate target features; a SimAM attention mechanism is added in the detection head to increase the model′s focus on minute defect targets; ISInner-CIoU is designed to compute the bounding box regression loss，mitigating the issue of imbalance between high-quality and low-quality samples.Experimental results show that compared to the original YOLOv5 algorithm，the mAP@0.5 of RCSI-YOLOv5 increases by 1.5%，and the F1-Score improves by 1%，with the AP for grooves，

abrasions，and scratches increasing by 2.1%，0.5%，and 1.7% respectively，while the FNR decreases by 1.3%，0.4%，and 2.1% respectively.This effectively enhances the model′s detection accuracy and reduces both missed and 1 detections.

Key words：

bearing surface defect detection; YOLOv5; convolutional modulation; CGCA; SimAM；ISInner-CIoU

0 引言

軸承是機械傳動中起固定和減小摩擦作用的零部件，廣泛用于引導軸類零件的旋轉并承受其傳遞至機架的載荷.在生產和裝配過程中，難免會產生凹槽、擦傷、劃痕等表面缺陷.這些缺陷不僅會影響軸承的外觀、質量和使用壽命，還會影響設備運行的穩定性和安全性.因此，在出廠前進行軸承表面缺陷檢測至關重要.

機器視覺以其速度快、無接觸、自動化程度高等優點，近年來在缺陷檢測領域得到廣泛應用^[1].Liu等^[2]開發了一套軸承內圈錐度和表面缺陷檢測系統，使用工業相機采集圖像，并通過圖像處理方法檢測內圈錐角和表面缺陷.雖然可有效地檢測出劃痕、污垢和銹蝕，但對于較小的缺陷檢測效果不佳.Wang等^[3]通過灰度直方圖識別有缺陷的軸承，但設計簡潔的軸承缺陷圖像向量表示通常很耗時.Zhou等^[4]通過多工位周轉高效采集軸承套圈全表面圖像，并設計圖像預處理、感興趣區域提取和缺陷識別算法，準確識別了軸承套圈上下端面和內外側面的多種缺陷，但需要針對每個表面提出不同的檢測算法，較為復雜和繁瑣.

傳統機器視覺方法依賴于人工提取特征，而深度學習方法可以通過學習自動提取代表性特征，具有更高的魯棒性和準確性.Zhao等^[5]提出一種基于兩階段網絡的軸承表面缺陷檢測方法，引入SENet注意力和CBAM注意力消除油滴對缺陷的影響.雖然降低了凹坑缺陷的誤檢測率，但主要是針對油滴干擾這一個性化需求.高立明等^[6]提出一種基于改進Faster R-CNN的絕緣軸承表面缺陷檢測方法.使用K-means++對Anchor聚類，然后用ROI Align代替ROI Pooling避免量化誤差，最后用在線難例挖掘策略提高困難樣本檢測的準確率，但是檢測速度與單階段目標檢測算法相比仍有不足.李亞東等^[7]在YOLOX骨干網絡引入Res2Net和上下文注意力機制，然后使用了BiFPN代替PANet并加入了坐標注意力，最后使用Focal Loss增加模型對正樣本的學習.雖然檢測精度提升，但參數量增加，速度下降.Xu等^[8]將YOLOv5骨干網中的C3模塊替換為C2f模塊，在骨干和頸部網絡中增加SPD模塊并用CARAFE算子代替最近鄰上采樣，凹痕和黑點等缺陷檢測的精度有顯著提升，但是復雜場景下的缺陷檢測仍有待提高.

深度學習方法雖然在軸承表面缺陷檢測方面取得了一些成果，但仍面臨一些挑戰.首先，軸承表面缺陷大小和形狀多樣，增加了檢測難度，特別是對小目標缺陷的檢測.其次，受到光線干擾，部分淺顯的劃痕、擦傷和背景有一定的相似性.此外，數據集存在高低質量樣本不平衡問題，會導致訓練效率低下，模型精度變低.針對以上問題，提出一種基于RCSI-YOLOv5的軸承表面缺陷檢測算法.本研究的主要貢獻如下：

（1）提出一種Res2ConvModC3模塊，集成到骨干網絡提取更細粒度的特征，提升模型對淺層小目標的特征表達能力，降低缺陷目標的漏檢、誤檢.

（2）設計一種CGCA注意力機制嵌入到頸部網絡前端，增強網絡模型對目標特征的定位.

（3）引入了基于SimAM注意力機制的檢測頭，提高模型的檢測精度且不增加參數量.

（4）設計ISInner-CIoU代替CIoU計算邊界框回歸損失，對中高質量IoU樣本進行增益，來緩解高低質量樣本不平衡問題.

1 RCSI-YOLOv5算法模型

本研究對YOLOv5骨干（Backbone）、頸部（Neck）、檢測頭（Head）和損失函數等部分進行了改進，得到RCSI-YOLOv5算法模型，其網絡結構如圖1所示.骨干網絡中設計了Res2ConvModC3特征提取模塊，頸部網絡前端設計了CGCA注意力機制，檢測頭中則加入了SimAM注意力機制.

1.1 基于卷積調制的多尺度特征提取模塊

在骨干網絡中提出一種Res2ConvModC3模塊，融合了Res2Net和ConvMod的優勢，能夠捕捉不同尺度和語義層的特征，并建立長距離依賴關系，結構如圖2所示.輸入特征圖通過兩個1×1卷積分成兩個分支，通道數減半.其中一個分支直接連接到特征融合點，而另一個分支則先通過Res2Net提取多尺度特征，再用ConvMod對長距離依賴關系進行建模.兩個分支的輸出在通道維度融合后，再進行一次1×1卷積.

對于小目標缺陷而言，模型的學習和表達能力會直接影響其識別的精度.為此，引入Res2Net^[9]模塊，它能在更細粒度級別上表示多尺度特征，增大模型感受野并加強模型對深、淺層特征的語義表達.Res2Net模塊的結構如圖3所示.首先輸入特征圖X被分為s部分，每部分單獨處理.然后，各分支特征經過空間重構后再進行整合.Ki代表對第i塊特征圖的卷積，Yi代表對Xi分支特征的融合.其中Yi的定義如式（1）所示：

Yi=Xii=1;Ki（Xi）i=2;Ki（Xi+Yi－1）2lt;i≤s.（1）

建立特征之間的長距離依賴關系，可以改善小目標的漏檢和相似特征目標造成的誤檢.因此，引入ConvMod^[10]模塊對Res2Net提取的特征進行卷積調制.ConvMod模塊是通過生成的卷積特征A對值V進行調制，以此來簡化自注意力，如圖4所示.

具體來說，給定輸入X∈R^H^×W^×C，通過兩個線性層得到兩個特征.其中一個特征使用k×k的深度可分離卷積生成特征A，另一個特征作為值V.然后將A和V通過哈達瑪積計算輸出Z，如式（2）所示：

A=DConvk×k（W1X），V=W2X，Z=A⊙V.（2）

式（2）中：⊙是哈達瑪積，W1和W2是兩個線性層的權重矩陣，DConvk×k表示k×k的深度可分離卷積.

1.2 嵌入CGCA注意力的特征融合網絡

軸承表面缺陷復雜多樣，經常受到背景干擾，會導致一些缺陷檢測困難.本研究提出一種通道引導坐標注意力（Channel-Guided Coordinate Attention，CGCA）機制嵌入到頸部網絡前端，在特征融合之前對每一個輸入層不重要的特征進行抑制，提高模型對缺陷區域的關注度以及對小目標的位置敏感性.

CGCA是基于坐標注意力（Coordinate Attention， CA）^[11]的改進.CA的核心思想是分別沿著X和Y方向聚合特征圖信息，從而生成方向和位置敏感的注意力圖.給定輸入特征圖F∈R^C^×H^×W，首先分別沿X和Y方向進行平均池化，生成兩個注意力圖，如式（3）所示：

MX=AvgPool1×W（F）MY=AvgPoolH×1（F）（3）

式（3）中：AvgPool1×W表示1×W的平均池化，AvgPoolH×1同理.

然后將兩個注意力圖進行拼接并通過一個基本的卷積單元生成過程特征圖Z∈R^C/r^×1^×（W+H）（r為通道系數，取0.5），如式（4）所示：

Z=BaseConv（Concat（MTX，MY））（4）

式（4）中：BaseConv表示卷積單元，包含Conv層、BN層和Silu激活函數.Concat表示張量拼接，MTX表示MX的轉置.

接著將Z拆分成ZX∈R^C/r^×H和ZY∈R^C/r^×W，分別進行卷積和激活，生成兩個獨立方向的注意力權值，如式（5）所示：

gX=σ（Conv1×1（ZX））gY=σ（Conv1×1（ZY））（5）

式（5）中：Conv1×1為1×1的卷積，用于調整通道數；σ為Sigmoid激活函數.

最后將得到的兩個注意力權值與輸入特征圖相乘得到輸出特征圖，如式（6）所示：

Fout=F×gX×gY（6）

CGCA使用一組通道注意力權重，對坐標注意力進行引導，其結構如圖5所示.首先，將輸入特征圖分別沿X和Y方向進行平均池化（AP），得到兩個位置敏感注意力圖.其次，對輸入特征圖進行全局平均池化（GAP）和全局最大池化（GMP），將這兩個結果分別通過一維卷積和Sigmoid激活后相加，再使用Sigmoid激活生成通道注意力權重.然后，將通道注意力權重應用于兩個位置敏感注意力圖.接著，將兩個注意力圖沿空間維度串聯，并通過Conv、BN和hardSwish進行編碼，以捕獲垂直和水平方向的空間信息.最后，將兩個位置敏感的注意力圖分離，并進行卷積、激活生成注意力權重后，作用于輸入特征圖.因此，CGCA不僅可以捕獲方向和位置感知信息，還可以捕獲跨通道交互信息.

1.3 基于SimAM注意力機制的檢測頭

為進一步解決微小缺陷和背景干擾導致的漏檢、誤檢問題，在檢測頭中加入了SimAM^[12]注意力機制.SimAM是一種基于能量函數的注意力機制，其結構如圖6所示.對輸入特征圖使用能量函數推導出3D注意力權重，然后將權重作用于輸入特征圖.

每個神經元的能量函數如式（7）所示：

et（wt，bt，y，xi）=1M－1∑M-1i=1［－1－（wtxi+bt）］2+［1－（wtt+bt）］2+λw2t（7）

式（7）中：t和xi是輸入特征單個通道中的目標神經元和其他神經元.i是空間維度上的索引，M是該通道上的神經元數量.y是二值標簽，取值為1或-1，代表是否為重要神經元.λ是正則項.wt和bt是權重和偏差，如式（8）所示：

wt=－2（t－μt）（t－μt）2+2σ2t+2λbt=－12（t+μi）wt（8）

式（8）中：μt、σ2t的表達式如式（9）所示.它們分別代表該通道中除了目標神經元以外的所有神經元的均值和方差：

μt=1M－1∑M－1i=1xiσ2t=1M－1∑M-1i=1（xi－μt）2（9）

最小能量的計算如式（10）所示：

e*t=4（σ^2+λ）（t－μ^2+2σ^2+2λ（10）

式（10）中：μ^、σ^2的表達式如式（11）所示.它們分別代表所有神經元的均值和方差：

μ^=1M∑Mi=1xiσ^2=1M∑M-1i=1（xi－μ^）2（11）

從式（10）可以看出，神經元t的能量越低，它與其他神經元的差異就越顯著，重要性也就越高.神經元的重要性可以通過1/e*t得到.最終SimAM注意力機制公式如式（12）所示：

=sigmoid1E⊙X（12）

式（12）中：E是對所有跨通道和空間維度上的e*t分組.因此，SimAM注意力機制可以在不引入額外參數的情況下，準確地捕捉圖像特征中的關鍵信息.

1.4 邊界框損失函數改進

區分不同樣本并使用不同尺度的輔助邊框計算損失能夠對邊框回歸過程進行增益.因此，本研究引入Inner-IoU^[13]，通過輔助邊框計算邊界框回歸損失.圖7為Inner-IoU示意圖.

真實框與錨框分別用b^gt和b 表示，中心點坐標分別為（x^gtc， y^gtc）和（xc， yc），寬和高分別為w^gt、h^gt和w、h." Inner-IoU引入尺度因子 ratio控制輔助邊框的尺度，用于計算損失，其取值通常在 [0.5，1.5]之間.Inner-IoU的定義如式（13）～（19）所示：

b^gtl=x^gtc－w^gt*ratio2，b^gtr=x^gtc+w^gt*ratio2（13）

b^gtt=y^gtc－h^gt*ratio2，b^gtb=y^gtc+h^gt*ratio2（14）

bl=xc－w*ratio2，br=xc+w*ratio2（15）

bt=yc－h*ratio2，bb=yc+h*ratio2（16）

inter=（min（b^gtr，br）－max（b^gtl，bl））*（min（b^gtb，bb）－max（b^gtt，bt））（17）

union=（w^gt*h^gt）*（ratio）2+（w*h）*（ratio）2－inter（18）

IoUinner=interunion（19）

當ratio小于1時，輔助邊框尺寸小于實際邊框，回歸有效范圍小于IoU，對高IoU樣本回歸有所增益.反之，當ratio大于1時，輔助邊框尺寸大于實際邊框，回歸有效范圍增大，對低IoU樣本回歸有所增益.將Inner-IoU應用到基于IoU的邊框回歸損失函數中，得到LInner-CIoU的定義如式（20）所示：

LInner－CIoU=LCIoU+IoU－IoUinner（20）

在邊界框回歸中，存在訓練樣本不平衡問題，即由于軸承表面缺陷樣本圖像中目標對象的稀疏性，回歸誤差大的低質量錨框數量遠大于高質量錨框，對邊框回歸的優化貢獻最大.為緩解這一不利影響，本研究提出一種具有自適應閾值的Inverted Slide函數，可以自適應地學習閾值參數μ，如圖8所示.Inverted Slide函數的定義如式（21）所示：

f（x）=1，x≤μ-0.1

2-e^1/2（1-^μ），μ-0.1lt;xlt;μ

2-e^1/2（1-x），x≥μ（21）

式（21）中：x代表iou，μ代表iou平均值且μgt;0.2，0.5lt;f（x）≤1.

根據函數f（x）的值，動態設置尺度因子ratio，得到ISInner-IoU（Inverted Slide Inner-IoU），這樣就可以使回歸過程更多的集中到中高質量的錨框上.將ISInner-IoU帶入式（20）得到LISInner-CIoU的定義如式（22）所示：

LISInner－CIoU=LCIoU+IoU－IoUISInner（22）

2 實驗數據集和實驗環境

2.1 數據集制作

實驗中使用的BSDD（Bearing Surface Defect Detection）數據集，通過產線工作臺拍攝以及網絡搜集獲得，共2800張，涵蓋凹槽、擦傷和劃痕缺陷的單一類別圖像以及混合類別圖像.為增強模型的魯棒性，隨機抽取部分圖像，采用旋轉、翻轉、HSV、高斯噪聲等方式進行增強，如圖9所示.將數據集擴充至4 200張，然后按照7∶2∶1劃分訓練集、驗證集與測試集，并使用LabelImg工具進行標注.

2.2 實驗環境設置

實驗的操作系統為Windows10，使用英特爾Core i7 CPU和RTX3070Ti GPU，編程語言為Python 3.10，深度學習框架為PyTorch 2.0.0，采用CUDA 12.1并行計算架構.軟硬件環境的詳細配置信息見表1所示.

3 實驗結果與分析

3.1 評估指標

采用檢測精度和檢測速度兩個指標來衡量模型性能.檢測精度指標包括精確率（Precision，P）、召回率（Recall，R）、平均精度（Average Precision，AP）、平均精度均值（Mean Average Precision，mAP）以及F1分數（F1-score），檢測速度指標采用每秒幀數（Frames Per Second，FPS）.

此外，還采用網絡參數量（Parameters，Params）、計算量（FLOPs）來評估網絡模型復雜度.

3.2 實驗參數

為了獲得最佳訓練模型，在訓練前需要設置模型配置文件中的超參數，詳見表2所示.最大迭代次數設為200，批大小為16.采用SGD優化器，動量因子為0.937，權重衰減系數為0.000 5，初始學習率為0.01.初始階段使用warmup預熱學習率，前3個epochs采用一維線性插值調整學習率直至0.002，之后采用余弦退火算法更新學習率.

3.3 改進策略實驗結果分析

3.3.1 消融實驗

為了驗證各種改進策略及其組合的有效性，設計了10組消融實驗.其中R代表Res2ConvModC3模塊，C代表CGCA注意力機制，S代表SimAM注意力機制，I代表Inner-CIoU，IS代表ISInner-CIoU.實驗結果見表3所示.

表3中的實驗2～7為不同改進策略對基準模型的影響.實驗2中使用Res2ConvModC3特征提取模塊，精確率提高0.4%，召回率提高0.5%，mAP@0.5提高0.7%，mAP@0.5∶0.95提高0.6%，表明在骨干網絡中引入該模塊能有效增強模型對不同尺度目標的特征提取能力和對不同類別目標的特征辨別能力，減少漏檢和誤檢.實驗3和實驗4分別引入CA和CGCA注意力機制.結果顯示，引入CA注意力機制，精確率提高0.4%，召回率提高1.1%，mAP@0.5提高0.3%，F1-Score提高1%，性能提升并不顯著.相比之下，引入CGCA注意力機制，盡管精確率降低0.4%，但召回率提高2%，mAP@0.5提高0.6%，F1-Score提高1%，整體性能提升優于CA.這表明在頸部網絡前端嵌入CGCA注意力機制能有效提高模型對顯著區域目標的關注度，減少漏檢.同時，也表明CGCA使用通道注意力權重引導CA的策略是有效的.實驗5在檢測頭中加入SimAM無參注意力機制，精確率提高0.4%，召回率提高0.7%，mAP@0.5提高0.5%，但mAP@0.5∶0.95降低0.9%，說明SimAM注意力機制在提升中低質量樣本精度方面表現的更好.此外，Params保持不變，說明加入SimAM注意力機制并不會增加模型參數量.實驗6和7，分別使用Inner-CIoU和ISInner-CIoU計算邊界框回歸損失.從結果來看使用Inner-CIoU，精確率提高0.9%，召回率提高0.2%，mAP@0.5提高0.1%，mAP@0.5∶0.95降低0.5%，性能提升不顯著.而使用設計的ISInner-CIoU，雖然精確率降低0.1%，但是召回率提高0.6%， mAP@0.5提高0.3%，mAP@0.5∶0.95僅降低0.2%，整體性能優于Inner-CIoU，對中高質量錨框的增益有效.

表3中的實驗8～10為不同改進策略的組合對基準模型的影響.實驗8中，精確率提升0.9%，可以看出Res2ConvModC3模塊平衡了CGCA注意力機制引起的精確率下降問題.實驗9和實驗10中mAP@0.5∶0.95分別提升0.3%和0.5%，可以看出Res2ConvModC3模塊和CGCA注意力機制消除了SimAM注意力機制和ISInner-CIoU對mAP@0.5∶0.95的負面影響.除此以外，這些改進策略組合的精確率、召回率、mAP@0.5、mAP@0.5∶0.95、F1-Score均有提升.最終，本研究提出的改進策略（實驗10），精確率提升0.7%，召回率提升1.3%， mAP@0.5提升1.5%， mAP@0.5∶0.95提升0.5%，F1-Score提升1%，有效提高了模型的檢測精度，減少了目標的漏檢、誤檢.

本研究設計的Res2ConvModC3，結合了Res2Net和ConvMod的優點，并僅在主干網絡的第6和第8層進行替換.為了驗證Res2ConvModC3的設計和引入策略，單獨設計了8組消融實驗.Res2ConvModC3消融實驗結果見表4所示.其中L（Layer）指網絡模型的層，Lx代表第x層.

表4中的實驗2～4評估了Res2ConvModC3設計策略對基準模型的影響.實驗2在C3中引入Res2Net，精確率增加0.2%，召回率增加0.6%，mAP@0.5增加0.3%，但mAP@0.5∶0.95減少0.1%.實驗3在C3中引入ConvMod，召回率增加1%，mAP@0.5增加0.2%，但是精確率減少0.3%.實驗4采用結合Res2Net和ConvMod設計的Res2ConvModC3，精確率、召回率、mAP@0.5、mAP@0.5∶0.95等各項指標均有提升.相較于單獨使用Res2Net或ConvMod，將兩者結合進行設計優化，對模型性能的增強效果更為顯著.

表4中的實驗4～8展示了Res2ConvModC3引入策略對基準模型的影響.實驗5將Res2ConvModC3替換到第2層，精確率增加0.4%，召回率增加0.5%，但是mAP@0.5∶0.95減少0.2%，且參數量和計算量均增加，模型性能幾乎未提升.實驗6將Res2ConvModC3替換到第4層，召回率增加0.7%，但是精確率減少0.8%，mAP@0.5∶0.95減少0.3%，且參數量增加，模型性能同樣幾乎未提升.實驗7和實驗8將Res2ConvModC3分別替換到第6層和第8層.將其替換到第6層，精確率增加0.8%，召回率增加0.5%，mAP@0.5增加0.4%，mAP@0.5∶0.95增加0.3%，F1-Score增加1%，且參數量和計算量均有減少.將其替換到第8層，雖然mAP@0.5∶0.95減少0.5%，參數量有所增加，但是精確率增加0.4%，召回率增加0.5%，mAP@0.5增加0.3%.這些結果表明將Res2ConvModC3替換到第6層或第8層，模型性能均有提升.為在提高模型檢測精度的同時，盡量減少復雜度的增加，本研究選擇將Res2ConvModC3替換到模型的第6層和第8層，結果如實驗4所示.除F1-Score保持不變外，模型的其他檢測精度指標均有提升.此外，這種引入策略雖然略微增加了參數量，但同時減少了計算量.

3.3.2 性能評估

為了進一步評估改進策略的有效性，分析了改進前后模型訓練過程中的P、R、mAP變化曲線，如圖10所示.另外，還分析了改進前后3個類別的平均精度和漏檢率，如圖11所示.

從圖10可以看出，改進模型由于使用了ISInner-CIoU來計算邊界框回歸損失，各項指標在訓練早期會落后于YOLOv5s，然而到訓練中后期由于中高質量邊界框的增加，模型的收斂速度開始加快.最終，在模型收斂階段，改進模型各項指標均優于YOLOv5s.

從圖11可以看出，改進模型在凹槽、擦傷、劃痕上的平均精度分別提升了2.1%、0.5%、1.7%，漏檢率分別降低了1.3%、0.4%、2.1%.綜合以上分析，可以得出改進模型對幾項檢測精度指標的提升均是有效的.

3.3.3 熱力圖可視化

在這項研究中，使用熱力圖可視化缺陷檢測的結果.觀察分析熱力圖上突出顯示區域，能夠直觀地評估模型的識別能力和目標定位的準確性.實驗結果見圖12所示.

比較YOLOv5s和 RCSI-YOLOv5s 模型的缺陷熱力圖，可以看出 RCSI-YOLOv5s對缺陷目標的全局關注度更顯著，對缺陷目標的定位和識別更準確.這表明Res2ConvModC3、CGCA、SimAM能夠有效地捕獲軸承表面缺陷的關鍵特征，增強了模型對復雜小目標的表達能力和對相似特征的辨別能力，從而實現了更精確的邊界框預測.

3.4 對比試驗

本研究對比了多種主流的目標檢測算法，包括二階段目標檢測算法Faster R-CNN^[14]、單階段目標檢測算法SSD^[15]和RetinaNet^[16]，以及YOLO系列主流算法YOLOv5s、YOLOXs^[17]、YOLOv6s^[18]、YOLOv7tiny^[19]、YOLOv8s、YOLOv9s^[20]、YOLOv10s^[21]等.實驗在相同的設置和數據集下進行，采用mAP、Params、FLOPs、FPS等指標，綜合評估這些算法在軸承表面缺陷檢測方面的性能.實驗結果如表5所示.

從表5中的實驗1～4可以發現，在模型檢測精度方面，YOLOv5s的mAP@0.5比Faster R-CNN高9.7%，比SSD高5.9%，比RetinaNet高14.5%.在模型復雜度方面，YOLOv5s的Params分別比Faster R-CNN、SSD、RetinaNet低34.3398 M、17.6628 M、29.3528 M，FLOPs分別比Faster R-CNN、SSD、RetinaNet低75.108 G、121.2 G、66.12 G.在模型檢測速度方面，YOLOv5s的FPS分別比Faster R-CNN、SSD、RetinaNet高133.661 f/s、132.761 f/s、128.561 f/s.

從表5中的實驗4～11可以看出，在模型檢測精度方面，改進模型的mAP@0.5比YOLOv5s、YOLOXs、YOLOv6s、YOLOv7tiny、YOLOv8s、YOLOv9s、YOLOv10s分別高出1.5%、6.36%、4.02%、2.8%、0.9%、1.3%、3.4%.在模型復雜度方面，改進模型的Params雖然比YOLOv5s、YOLOv7tiny分別高0.0723 M、1.0701 M，但是比YOLOXs、YOLOv6s、YOLOv8s、YOLOv9s、YOLOv10s分別低1.8495 M、11.4095 M、4.0362 M、2.5091 M、0.9468 M . FLOPs雖然比YOLOv7tiny高2.6 G，但是比YOLOXs、YOLOv6s、YOLOv8s、YOLOv9s、YOLOv10s分別低7.96 G、29.37 G、12.6 G、22.9 G、8.7 G.在模型檢測速度方面，改進模型的FPS雖然比YOLOv5s、YOLOv7tiny、YOLOv10s分別低19.586 f/s、73.871 f/s、0.638 f/s，但是比YOLOXs、YOLOv6s、YOLOv8s、YOLOv9s分別高30.925 f/s、52.885 f/s、19.411 f/s、83.492 f/s.

經上述分析，表5中主流的YOLO系列算法比二階段目標檢測算法Faster R-CNN和單階段目標檢測算法SSD、RetinaNet更具優越性.綜合考慮到精度、復雜度、推理速度，選擇YOLOv5s作為改進算法的基準模型比YOLOXs、YOLOv6s、YOLOv7tiny、YOLOv8s、YOLOv9s、YOLOv10s更合適.改進模型的復雜度和模型檢測速度雖然略遜于YOLOv5s、YOLOv7tiny、YOLOv10s，但是相比其他主流模型仍具備較低的復雜性和較高的實時性，完全滿足工業部署和檢測需求.

圖13是改進模型與其他YOLO系列算法在每一個缺陷類別上檢測的平均精度對比.從圖13可見，改進模型在3個類別上檢測的平均精度均為最高.因此，改進模型綜合性能最好.

3.5 測試實驗圖片效果對比

本實驗評估了RCSI-YOLOv5s模型在測試集上對凹槽、擦傷、劃痕三種缺陷類別的檢測性能.圖14主要展示了YOLOv5s和RCSI-YOLOv5s模型在這三種缺陷類別下的檢測邊界框輸出.

從圖14（a）組實驗中可以看出，原模型未識別出軸承邊緣的凹槽缺陷小目標，而改進模型引入了Res2ConvModC3特征提取模塊，對于淺層小目標具有更強的特征捕獲能力，從而改善了漏檢問題.從圖14（b）、（c）組實驗可以看出，原模型在辨別、定位相似特征時能力較弱，受光線影響，容易把淺顯的擦傷和劃痕誤判為背景，改進模型則可以較為準確的檢測出擦傷和劃痕，說明設計的Res2ConvModC3模塊可以提取更細粒度的特征，引入的CGCA和SimAM注意力機制可以增加模型對目標的關注度，增強模型對目標的定位能力.從圖14（d）組實驗中可以看出，在多種缺陷混合的復雜背景中，原模型漏檢了光線較弱區域的擦傷缺陷，而改進模型成功識別了漏檢的目標.總體而言，改進策略顯著提高了原模型對小目標以及相似特征目標的檢測性能，使得模型在復雜缺陷和背景中具有更高的識別率和魯棒性.

4 結論

本研究提出的基于RCSI-YOLOv5的軸承表面缺陷檢測算法，旨在解決軸承表面缺陷檢測中存在的不足.

（1）在骨干網絡中設計了Res2ConvModC3特征提取模塊，增強了模型對細粒度和多尺度特征的表達能力.

（2）在頸部網絡前端設計了CGCA注意力機制，提高了模型對目標的定位能力.

（3）在檢測頭中加入SimAM注意力機制，增加模型對目標的關注且不增加參數量.

（4）在邊界框回歸損失函數計算中設計了ISInner-CIoU，緩解高低質量樣本不平衡問題.

實驗結果顯示，RCSI-YOLOv5的P、R、mAP@0.5、mAP@0.5∶0.95、F1-Score指標分別達到了93.5%、90.3%、95.3%、56.4%、92%，均超過了YOLOv5算法.RCSI-YOLOv5的參數量增加了0.0723 M，檢測速度降低了19.586 f/s.盡管在模型復雜度和檢測速度方面有所犧牲，但整體檢測精度得到顯著提升.

參考文獻

[1] Xie R L，Zhu Y J，Luo J，et al.Detection algorithm for bearing roller end surface defects based on improvedYOLOv5n and image fusion[J].Measurement Science and Technology，2023，34（4）：045 402.

[2]Liu C J，Chen Z L，Liu P L，et al.Intelligent bearing quality checking system based on visual inspection[C]//2020 Chinese Automation Congress （CAC）.Shanghai，China：IEEE，2020：3 819-3 825.

[3]Wang J M，Qiao J P，Guo M C.Research on bearing surface defect detection system based on machine vision[J].Journal of Physics：Conference Series，2022，2290（1）：012 061.

[4]Zhou P，Zhang C C，Zhou G B，et al.Whole surface defect detection method for bearing rings based on machine vision[J].Measurement Science and Technology，2023，34（1）：015 017.

[5]Zhao M，Song K K，Tian X Y，et al.AMethod of removing oil droplets from bearing image based on a two-stage Neural Network[C]//2022 7th International Conference on Signal and Image Processing （ICSIP）.Suzhou，China：IEEE，2022：473-479.

[6]高立明，賈書海，張國龍，等.基于改進Faster r-cnn的絕緣軸承表面缺陷檢測方法[J].軸承，2023（4）：1-8.

[7]李亞東，馬行，穆春陽，等.改進YOLOX網絡的軸承缺陷小目標檢測方法[J].計算機工程與應用，2023，59（1）：100-107.

[8]Xu H T，Pan H P，Li J F.Surface defect detection of bearing rings based on an improvedYOLOv5 network[J].Sensors，2023，23（17）：7 443.

[9]Gao S H，Cheng M M，Zhao K，et al.Res2Net：A new multi-scale backbone architecture[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2021，43（2）：652-662.

[10] Hou Q B，Lu C Z，Cheng M M，et al.Conv2Former：A simple transformer-style convnet for visual recognition[DB/OL].https：//arxiv.org/abs/2211.11943，2022-11-21.

[11]Hou Q B，Zhou D Q，Feng J S.Coordinate attention for efficient mobile network design[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Nashville，TN，USA：IEEE，2021：13 713-13 722.

[12]Yang L X，Zhang R Y，Li L D，et al.SimAM：A simple，parameter-free attention module for convolutional Neural Networks[C]//Proceedings of the 38th International Conference on Machine Learning.PMLR，2021：11 863-11 874.

[13]Zhang H，Xu C，Zhang S J.Inner-IoU：More effective intersection over union loss with auxiliary bounding box[DB/OL].https：//arxiv.org/abs/2311.02877，2023-11-14.

[14]Ren S Q，He K M，Girshick R，et al.FasterR-CNN：Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2017，39（6）：1 137-1 149.

[15]Liu W，Anguelov D，Erhan D，et al.SSD：SingleShot multibox detector[C]//Computer Vision-ECCV 2016：14th European Conference.Amsterdam：Springer International Publishing，2016：21-37.

[16]Lin T Y，Goyal P，Girshick R，et al.FocalLoss for dense object detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2020，42（2）：318-327.

[17]Ge Z，Liu S T，Wang F，et al.YOLOX：Exceeding YOLO Series in 2021[DB/OL].https：//arxiv.org/abs/2107.08430，2021-08-05.

[18]Li C Y，Li L L，Geng Y F，et al.YOLOv6 v3.0：A Full-Scale reloading[DB/OL].https：//arxiv.org/abs/2301.05586，2023-01-13.

[19]Wang C Y，Bochkovskiy A，Liao H Y M.YOLOv7：Trainable Bag-of-freebies sets New State-of-the-art for real-time object detectors[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Vancouver，BC，Canada：IEEE，2023：7 464-7 475.

[20]Wang C Y，Yeh I H，Liao H Y M.YOLOv9：Learning what you want to learn using programmable gradient Information[DB/OL].https：//arxiv.org/abs/2402.13616，2024-02-28.

[21]Wang A，Chen H，Liu L，et al.YOLOv10：Real-time end-to-end object detection[DB/OL].https：//arxiv.org/abs/2405.14458，2024-05-23.

【責任編輯：蔣亞儒】