多尺度自適應注意力檢測模型用于皮革織物瑕疵檢測

2024-10-22 00:00:00李皞劉義凡徐華偉楊可康鎮黃夢真歐嘯趙雨晨邢同振

絲綢 2024年10期

A multi-scale adaptive attention detection model for leather fabric defect detection

摘要：

在工業皮革織物生產中，缺陷檢測是控制工業質量至關重要的一部分。而皮革織物表面的缺陷局部相似程度高，造成不同缺陷類間存在高相似性，導致缺陷檢測的效果不佳。為此，文章提出了一種自適應卷積注意力（ACA），并引入骨干網絡中增強語義特征表示能力。其次設計了基于自適應卷積注意力的特征金字塔（AC-FPN）改進多尺度融合，進行更低粒度的皮革缺陷區分。最后將傳統檢測頭替換為側面感知邊界定位（SABL）檢測頭，聚焦皮革缺陷精確位置，有助于網絡區分相似和不同類別的缺陷及更精確的定位。文章在自建皮革數據集對ACA及改進后的各個組件進行消融實驗，與目前各種主流檢測模型進行對比。其中，AP、AP50和AP75三項評估指標分別達到了83.4、89.7、85.6，并且在APS、APM和APL上分別達到了71.3、89.9、88.9。通過實驗證明了可行性，為自動皮革缺陷檢測方法提供了新的思路。

關鍵詞：

注意力機制;多尺度信息;缺陷檢測;卷積神經網絡;缺陷分類;皮革織物

中圖分類號：

TS57

文獻標志碼：

文章編號： 10017003（2024）10期數0036起始頁碼10篇頁數

DOI： 10.3969/j.issn.1001-7003.2024.10期數.004（篇序）

收稿日期：

20240319;

修回日期：

20240912

基金項目：

湖北省教育廳科技計劃項目（D20221604）;湖北省重點研發計劃項目（2021BBA235）;湖北省重點研發計劃國家自然科學基金項目（12302243）;湖北省青年科學基金項目（2023AFB372）

作者簡介：

李皞（1982），男，教授，博士，主要從事紅外及光譜信號處理技術與理論，及其在遙感、糧食加工，食品安全、智慧農業等領域中的研究。

皮革制品在服裝、制鞋、家具、箱包等領域廣泛應用，成為人們生活中不可或缺的一部分［1］。隨著人們生活水平的提高，對皮革制品的質量和外觀要求也越來越高［2］。但在合成皮革制品的生產過程中，不可避免地會出現一定的缺陷，這些缺陷會直接影響著皮革制品的質量和價格。在生產早期，識別這些缺陷可以避免更多的皮革損耗。目前生產線上缺陷檢測技術仍主要依賴人工操作，這導致了高成本、低效率及易受人為因素影響的問題［3］。因此，推動皮革行業實現自動化生產，解放勞動力，使皮革缺陷檢測自動化具有重要的實現價值和現實意義，開發一種識別精度高、具備強魯棒性的皮革缺陷檢測算法至關重要［4］。然而，由于皮革織物制品缺陷的局部形態差異及類間相似度高，極容易造成類間錯分，進而導致自動化的皮革缺陷檢測成為具有挑戰性的任務。

為了解決皮革缺陷特征局部形態差異不明顯的問題，目前大部分研究者開始使用深度學習方法進行皮革缺陷檢測。Aslam等［5］引入了深度學習集成模型技術，用于缺陷和無缺陷皮革樣本分類。在相關研究中，Aslam等［6］創建了包含各種皮革缺陷類型的高分辨率數據集，證明了積極的知識轉移通過跨領域知識融合有助于皮革缺陷問題的檢測。Khanal等［7］討論使用機器視覺技術開發全自動皮革缺陷檢測系統，該系統包括傳送系統和攝像頭，使用深度學習模型實現皮革圖像捕捉和缺陷檢測，構建一個從硬件到軟件的全自動系統。在MVTEC皮革數據集上，他們的語義分割模型獲得了94%的IOU分數。數據集中的所有皮革圖像都具有相似的缺陷表現形式，因此，模型在具有類間和類內變化的數據集上可能表現不佳。Gan等［8］提出了一種基于深度學習的數字圖像處理方法，實現了自動化的皮革缺陷檢測與定位系統。而Zhang等［9］提出了KMDNet，一種新型的皮革分割網絡，該網絡引入了KPCL層作為新的語義信息提取層。盡管取得了巨大的進步，但基于深度學習的方法對皮革不同缺陷類間存在相似特征的問題上，可能表現不佳，也難以精確定位缺陷位置。

為了解決皮革不同缺陷類間相似特征的問題，本文考慮引入注意力機制。注意力在人類感知［10］中扮演關鍵角色，Wang等［11］和Hu等［12］的研究探討了神經網絡中的注意力，發現注意力機制能夠引導網絡更關注目標特征。Zhang等［13］和Li等［14］在通用對象檢測和缺陷定位中探索了注意力的應用。受到Woo等［15］的啟發，本文提出自適應卷積注意力（ACA），針對性地解決皮革缺陷類間特征方差小的問題。通過殘差結構將通道注意力進行加強，增強語義特征的表示能力，使得網絡更能準確地區分和識別不同表現形式的皮革缺陷。選用兩個不同大小的濾波核進行空間注意力操作，網絡可以更好地抽取和強化特征之間的空間信息，自適應的選擇皮革缺陷類間差異并放大差異，這有助于解決皮革缺陷類間差異較小的問題，使得網絡能夠更精確地分辨不同皮革缺陷類別。為了更精確檢測到不同尺寸的皮革缺陷并減少計算復雜度，本文選用FPN［16］進行多尺度特征融合，引入ACA后稱為自適應卷積注意力特征金字塔（AC-FPN），減少融合時下采樣造成的信息丟失，更能精確檢測到不同尺寸的缺陷。再配合側面感知邊界定位（SABL）［17］檢測頭聚焦皮革缺陷精確位置，有助于網絡區分相似和不同類別的缺陷及更精確的定位。

此研究貢獻主要體現在以下幾點：

1）為了解決皮革缺陷類間方差變化的問題，提出了一種自適應卷積注意力（ACA）模塊。將ACA引入骨干網絡中，增強語義特征表示能力，提升網絡捕捉皮革缺陷類間差異的能力。

2）為了應對皮革缺陷的不同尺寸，提出了一種新的自適

應卷積注意力特征金字塔（AC-FPN）進一步改進特征表示，有選擇地捕獲來自不同域的上下文信息，加強特征圖中的語義信息，更好地捕獲不同尺寸的缺陷，同時減少融合時下采樣造成的信息丟失。

3）為了更精準地定位皮革缺陷位置，本文將傳統檢測頭替換為側面感知邊界定位（SABL）檢測頭，邊界框的每一側都根據其周圍的上下文分別定位，以實現精準的皮革缺陷定位。

1 提出的方法

1.1 自適應卷積注意力（ACA）模塊

為了解決皮革織物表面缺陷的局部相似程度高、導致類間難以分辨的問題，本文提出自適應卷積注意力（ACA）模塊，結構如圖1所示。該模塊由通道注意力和空間注意力兩個部分組成。其中通道注意力可以更好地區分和捕捉皮革缺陷類間差異，提高語義特征的表示能力。而在空間注意力中，本文選用核大小為7和核大小為3的濾波核進行并行的空間注意力操作，以強化皮革缺陷的類與類之間的空間特征，區分缺陷表現形式相似但非同一類的缺陷。在本文中采用注意力機制模塊的主要目的在于通過強化信息區域并抑制非相關區域，同時增強語義信息，從而改善特征的表征能力。這種方法使模型能夠有效地捕捉有關缺陷部分的關鍵特征，從而提升皮革缺陷檢測的準確性。

圖1中，給定一個中間特征圖F∈RC×H×W作為輸入，ACA依次推斷一個1D的通道注意力圖MC∈RC×1×1和一個2D的空間注意力圖MS∈R1×H×W，最后對空間注意力圖和通道注意力圖進行融合。整體的注意力過程可以概括為：

F′=MC（F）FF″=（MS（F′）F′）MC（F）（1）

式中：表示逐元素乘法，F′表示經過通道注意力后的特征描述符。在乘法運算過程中，通道注意力值沿空間維度廣播，反

之亦然。F″為最終經過精煉處理的輸出，通過最后將空間注意力和通道注意力進行逐元素相乘，加強語義信息的表征能力。

1.1.1 通道注意力

通道注意力被應用在學習特征也就是缺陷之間的關系上。關注點在給定輸入圖像中哪些部分是有意義的［15］。由于特征網絡中存在多尺度信息，能夠逐步學習更為豐富的特征表示。通過強化通道注意力，網絡可以對同一類缺陷中存在的顯著差異進行辨認，更好地區分和捕捉這些類內差異，提高語義特征的表示能力。

MC（F）=σ（MLP（AvgPool（F））+MLP（MaxPool（F）））=σ（W1（W0（Fcavg））+W1（W0（Fcmax）））（2）

式中：F為特征圖，σ為sigmoid函數，Fcavg表示使用平均池化特征，Fcmax表示最大池化特征。全連接層的權重用W0表示，輸出層用W1表示。

1.1.2 空間注意力

空間注意力是對通道注意力的補充，其關注的焦點是信息存在的空間區域。平均池化和最大池化過程沿著通道軸執行，以計算空間注意力，然后連接以創建有效的特征描述符［15］。當皮革缺陷類間差異較小時，可能需要更強的空間信息來幫助區分這些缺陷。采用核大小為7和核大小為3的兩種濾波核，并行地進行空間注意力操作，能夠引導網絡更好的強化缺陷類間特征的空間信息。

空間注意力模塊壓縮特征映射F∈RH×W轉化為Fsavg∈R1×H×W平均池化結果和Fsmax∈R1×H×W最大池化結果。這些特

征首先被連接，然后使用傳統的卷積層進行卷積，以產生2D空間注意力圖。

Ff7=σ（f7×7（［AvgPool（F）;MaxPool（F）］））Ff3=σ（f3×3（［AvgPool（F）;MaxPool（F）］））MS（F）=σ（Ff7+Ff3）（3）

式中：F為特征圖，σ為sigmoid函數，f7×7表示核大小為7的卷積運算，f3×3表示核大小為3的卷積運算，Ff7表示使用核大小為7的卷積特征，Ff3表示使用核大小為3的卷積特征。

1.2 皮革缺陷檢測方法

本文所提出的皮革缺陷檢測方法通過卷積層和ACA模塊來提取圖像中的皮革缺陷關鍵特征。這些特征用來區分不同類型的皮革缺陷，如刀傷、折痕等。在特征提取階段，皮革缺陷檢測網絡學習到適用于不同皮革缺陷類型的特征表示。再將特征表示通過分類器層將學習到的皮革缺陷特征映射到輸出層，輸出層的多個節點代表不同類型的皮革缺陷。整體架構如圖2所示，大體上分為三個步驟。

第一步，輸入皮革圖像被傳送到骨干網絡，用于提取全局的語義特征。本文選用ResNet［18］作為骨干網絡，其中的殘差塊有助于提高ResNet的準確性。為了更有效地引導網絡區分和強化缺陷類間的差異，本文在每個殘差塊中嵌入了ACA模塊，具體結構如圖2中的Backbone結構。ACA的引入增強了模型的皮革缺陷感知能力。通過自適應地對特征圖中的通道和空間進行加權，使得網絡能夠更有選擇性地關注重要的皮革缺陷特征，從而增強了對局部和全局信息的感知，提升骨干網絡對皮革缺陷特征的抽取能力。

第二步，本文對從骨干網絡抽取的特征圖進行多尺度信息融合。考慮到特征金字塔（FPN）［16］能夠在各個尺度上呈現皮革缺陷特征，因此本文采用AC-FPN，即將特征金字塔（FPN）和自適應注意力（ACA）相結合，具體結構如圖3所示。通過將ACA應用于各個尺度的特征融合路徑上，以增強語義的特征表示能力，實現多尺度特征提取，并減少因融合時下采樣而導致的信息丟失。在能更好地區分和強化缺陷類間較小差異的情況下，更能精確檢測到不同尺寸的皮革缺陷，從而確保圖像中的大、小特征都能得到良好的捕捉。

第三步，將多尺度融合后的特征，饋送到區域提議網絡（RPN）［19］中獲取目標建議，并將這些建議傳遞給檢測頭實現皮革缺陷分類和定位，完成皮革缺陷的檢測。為了更好地定位效果，本文將傳統檢測頭替換為側面感知邊界定位（SABL）［19］檢測頭，以實現更加精準的缺陷定位。SABL檢測頭有助于減少由于皮革缺陷邊界模糊或不清晰而引起的定位誤差。在密集目標場景中，SABL有助于減少缺陷之間的干擾，提高多目標場景下的性能。分類、區域提議網絡（RPN）及回歸任務的損失函數均采用了Wang等［17］提出的SABL方法。本文的損失函數結合了RPN的損失和基于桶化邊界框的SABL損失。整體損失表示為：

L=LRPN_cls+LRPN_bbox_reg+Lcls+Lbbox_cls+Lbbox_reg（4）

式中：前兩項表示RPN損失，后三項表示SABL損失。

2 實驗

2.1 數據集和實驗準備

為了全面捕捉生產線皮革表面的特性，本文從皮革工業生產線獲取并篩選了309張分辨率為4 096×4 096像素的圖片。在圖像采集過程中，本文確保充分涵蓋皮革表面的各種缺陷。隨后，本文對這些圖片進行了大小調整，將它們的尺寸縮減為640×640像素。本文采用了垂直翻轉、水平翻轉、［0，10］的隨機縮放及［-10，10］的亮度調整等增強策略。通過這些數據增強的步驟，成功生成了總計2 549張圖片。

為了更深入地理解這些缺陷情況，圖4呈現了六種類型中具有代表性的圖像，以凸顯它們的顯著特點。其中，折痕類是指皮革表面出現的明顯折痕或褶皺，外觀上呈現細長或曲線下陷，下陷程度不深且通常不規整，但部分表現形式會與凹

陷類類似，可通過下陷程度及折痕寬度進行判斷。凹陷類是皮革表面出現的深度凹陷或坑洞，外觀上呈現細長規整且深度凹陷，通常凹陷寬度不超過1 mm。刀傷類是皮革表面出現的切割或劃痕，外觀上呈現斷裂、撕裂及細小直線或曲線劃痕，且傷口較深。劃痕類是皮革表面出現的線性或曲線形狀的劃痕，外觀上呈現較為規律的大面積長條狀淺表痕跡，極少數呈現規律細小淺表痕跡，與刀傷相比深度較淺。接縫類指在皮革制品的連接部分出現的線狀結構，外觀上呈現較為明顯的大面積縫合或黏合痕跡。污點類皮革表面出現的顏色變化或污漬，外觀上通常呈現大面積規律性細小淺表異物或污染物，少部分呈現小面積污點。正因同一缺陷表現形式不同，并且類間存在相似性，導致準確識別和分類這些缺陷需要一個高精度的自動視覺檢測系統，能夠有效處理類內和類間的變化、尺度的變動及紋理的復雜性。

本文的主要目標在于評估目標檢測模型在本文構建的數據集上的性能表現。在獲得高平均精度（Average Precision，AP）時，本文特別關注目標（皮革缺陷）的尺寸對結果的影響。對于那些尺寸相對一致的目標，相較于那些尺寸變化較大的目標，實現高AP更加具有挑戰性。為了更加細致地了解缺陷檢測方法的準確性，本文引入了交并比（Intersection over Union，IoU）來劃分不同的AP值，并進行評估。IoU被定義為標簽邊界框與預測邊界框之間的重疊區域與它們的并集之比。換言之，它量化了檢測結果與實際目標位置之間的重合程度。因此，當IoU值越高時，說明檢測器能夠更準確地定位目標缺陷所在位置，從而反映了檢測器的性能水平。當IoU閾值設定為0.75時，本文使用AP75作為評價指標;同理，當IoU閾值設定為0.50時，本文使用AP50來衡量目標檢測的性能。同時本文還考慮小目標APS、中目標APM、大目標APL的AP測量值，分別是像素面積小于322、像素面積區間在［322，962］、像素面積大于962的目標框AP測量值。

在模型訓練過程中，本文使用了mmdetection作為代碼庫。所有實驗都是在NVIDIA GeForce RTX 4080 graphics card上進行的。對于模型訓練，采用了以下超參數：初始學習率設定為0.002，權重衰減率為0.000 1。在實驗中，本文采用隨機動量梯度下降（SGDM）優化器，具體參數如下：學習率為0.001，動量值為0.900，權重衰減率為0.000 1。考慮到GPU內存的限制，本文將批處理大小設置為6。所有檢測器的訓練都是基于MS-COCO［20］數據集的權重進行。

2.2 實驗結果

2.2.1 消融實驗

為了更好地理解ACA的貢獻，本文進行了消融實驗。本文先以ResNet50骨干網絡作為基準模型，再通過逐步移除組成ACA中的通道注意力和空間注意力，然后將其和骨干網絡組合，并記錄模型性能，對實驗結果進行分析，確認各個部件對基準模型地影響。具體而言，本文將圖2中Backbone部分的ACA位置通過替換為CA、CBAM這兩種模塊，構建了本文消融實驗所需的三種基準方法變體。在圖5中比較了使用Grad-CAM［21］的框架對組件進行粗定位圖。本文對比了基準方法ResNet50與三種基于注意力的變體ResNet50+CA組合、ResNet50+ACA（CA+SA）組合和ResNet50+CBAM組合。本文給出了這四類方法中具有代表性例子的粗略可視化結果。由圖5（d）可以看出，基于ACA的方法更突出了缺陷區域，通過加強通道引導的特征和空間引導的定位，語義和空間信息得到提升，缺陷區域更加突出。從第1、3、4、5行的圖像可以看出，ResNet50+ACA能對缺陷進行更精細的定位。

本文所提方法在AP方面的比較如表1所示。由表1可以得到幾個重要結果是：1）基線和基于注意力變體的量化結果證實了圖5所示的視覺表征結果。2）提出的ResNet50+ACA獲得了比CBAM更好的性能，在AP、AP50和AP75分別提升了2.7%、0.9%和1.6%。這可以歸因于ACA的特征表達能力。

為了更好地理解所提出方法中各個部件的貢獻，本文對方法中各個部件進行了消融實驗，如表2所示。在表2中，本文對比了基準方法Cascade-RCNN（R50）［22］與骨干網絡改進變體、多尺度融合改進變體及檢測頭改進變體三種，并分別對應所提出方法中的每一步。

由表2可以看出，基線和三種變體的量化結果，證實了各個部件都對皮革缺陷檢測性能有不同程度的提升。在組合了三個改進部件后在AP上效果達到最好，相比一個改進組件和兩個改進組件分別提升了18.9%和9.4%。

2.2.2 性能對比

選擇最先進的方法和基準方法進行比較，包括Faster-RCNN、YOLOv3、Cascade-RCNN［22］及YOLOX和DAB-DETR檢測網絡和本文提出的方法進行比較。

歸一化混淆矩陣能夠使本文更全面地了解模型的性能，尤其是在多類別分類問題中。與單一精度指標不同，歸一化混淆矩陣可以展示每個類別的準確性和召回率，從而揭示不同類別之間的性能差異。由圖6可以看到，除了本文提出的方法外，其他網絡對于折痕類和凹陷類難以檢測，精度較低，同時難以區分兩類間的區別。而本文的方法能夠很好地區分這兩種類別的同時，相比其他檢測網絡準確性高了10%～30%，并且對于其他缺陷的區分精度也很高。

在測試集上對各種模型進行測試，使用AP、AP50、AP75、APS、APM和APL比較了所有這些模型的性能。由表3的比較結果表明，本文提出的方法極大地提升了皮革缺陷檢測的性能，尤其對于AP和APS兩個參數，其中AP為83.4，AP50為89.7，AP75為85.6?？梢钥闯?，盡管本文提出的方法在AP50上相比DAB-DETR高了1.6%，但在AP上有13.4%的提升，并且小目標、中目標及大目標上與DAB-DETR均有較大提升。提出的方法在小目標的檢測上，比DAB-DETR提升了32.0%，在中目標的檢測上提升了38.1%，大目標提升了19.5%。

與基線網絡相比，AP從原本的60.8提升到了83.4，AP50從原本的84.4提升到了89.7，AP75從69.2提升到了85.6。對小、中、大目標的檢測效果均有明顯提升?？梢钥闯霰疚牡姆椒▽ζじ镨Υ脵z測能力提升明顯，尤其在小瑕疵和中瑕疵上提升明顯。

圖7中，折痕類用紅色（#DC143C）檢測框表示，凹陷類用暗紅色（#770B20）檢測框表示，刀傷類用深藍色（00008E）檢測框表示，污點類用淡藍色（0000E6）檢測框表示。由圖7檢測對比可以看出，本文的方法能夠在沒有漏檢和誤檢的情況下，很好區分折痕類和凹陷類這兩種相似的缺陷類型。在第2行刀傷類的檢測上本文的方法提升明顯，檢測結果和原始圖像的檢測框基本一致，更精準地檢測出小尺寸的缺陷。在第3行圖像中，提出的方法比baseline+CBAM減少了誤檢框，比DAB-DETR更精確地檢測出紅色檢測框的折痕類;在深藍色檢測框的刀傷類中，提出方法對目標的定位最接近與原始圖像的檢測框。在第e1abaee7b9af960f761e5911ac23d5bd9d736cafba947f0cd2339288bc998e0a4行圖像中，本文的方法對深藍色小目標的漏檢好于其他模型，對暗紅色凹陷類不存在漏檢，缺陷定位效果也好于其他模型。在第5行圖像中，baseline+CBAM最右側的凹陷類存在漏檢，DAB-DETR凹陷類均未檢出，而本文方法全部檢出同時不存在誤檢漏檢。

為了進一步驗證本文方法的優越性，對不同尺寸的缺陷與其他方法進行了對比。圖8展示了檢測算法在小型缺陷數據上的結果，刀傷類用深藍色檢測框表示，凹陷類用暗紅色檢測框表示。相比基線網絡，本文的方法消除了漏檢。相比baseline+CBAM，本文方法檢測出的結果置信度更高。同時在缺陷定位的準確性上，本文的方法更接近與標注框。

為了深入分析所提出的方法再皮革織物缺陷尺寸識別方面的有效性，本文針對最小缺陷和最大缺陷的情況做出了結果展示，如圖9所示。經過本文測量，第2行最小缺陷的像素大小為5×3共15個像素點，占整幅圖像面積的0.03‰。第1行最大缺陷的大小為637×241像素，共153 517個像素點，占整幅圖像面積的37.4%。由此可以看出，本文提出的方法能夠很好地在不同尺寸上進行皮革織物缺陷的檢測，小至15個像素點，大至153 517乃至更大的缺陷目標。

2.3 結果分析

經過對圖5和表1的分析可以發現，本文提出的ACA方法在處理皮革缺陷區域時具有更強的聚焦能力，能夠有效凸顯與背景相似的缺陷。具體來看，從圖5的第3行中，ACA的注意力明顯集中在圖像的上半部分，成功地強化了缺陷，特別是不明顯的缺陷。本文認為這主要歸因于ACA中空間注意力使用不同大小的卷積核，當卷積核大小為3時，空間注意力更多地關注缺陷的細節特征;而當卷積核大小增至7時，空間注意力則更關注缺陷細節與整體圖像的關系。這兩種不同尺寸的卷積核相互配合，能夠有效增強缺陷之間的差異性，將注意力集中在目標特征上，從而減少對背景信息的干擾響應。這一優勢也在圖7的第4行中得到了驗證，與其他檢測網絡相比，本文的檢測結果更接近于標注數據，以確保檢測的準確性。

通過分析圖7的第3行，本文可以觀察到將FPN與ACA相結合后，缺陷定位相對于其他網絡表現出更高的準確性，與標注數據一致，且沒有漏檢或誤檢情況。這表明改進后的AC-FPN在缺陷定位方面取得了顯著效果，借助ACA增強的特征信息，在不同尺度之間進行流動，使網絡能夠更精細地區分缺陷與背景，從而確保準確地定位皮革織物缺陷。同樣的結論也可以從第5行中得出，并且本文通過觀察圖7第4行可以發現，同時出現多個缺陷時，本文的方法依舊能夠精準地將每一個缺陷檢測出來，也能進行不同類型的區分。這一結果本文認為歸因于AC-FPN和SABL檢測頭的組合作用，AC-FPN負責將不同尺度的缺陷特征信息進行結合，實現不同尺度下對缺陷的識別，SABL負責將識別出的缺陷進行精確的定位。

根據表2的消融實驗結果，隨著不同改進的逐步疊加，皮革織物缺陷檢測效果逐漸提升，最終在三種改進結合的情況下達到最佳效果。通過表3和圖7的觀察，可以發現本文所提出的方法能夠動態學習和調整不同通道之間的特征重要性，使網絡更加專注于關鍵特征，減少對冗余信息的關注，從而獲得比其他缺陷檢測網絡更優異的檢測效果。該方法能夠有效適應不同尺度和位置的目標，以提高檢測的魯棒性和準確性。

盡管本文的方法具有上述優勢，但仍存在一些局限性：首先，本文的方法需要大量圖像才能實現良好的檢測性能，而且這些圖像中可能存在多種形式的皮革缺陷;其次，與背景相似的皮革缺陷對于本文的方法仍然會導致誤檢，這與其他方法面臨的問題類似;此外，目前本文所使用的數據集主要包含灰度圖像，這可能會降低對于部分彩色皮革缺陷的有效信息提取能力。未來的研究方向可以考慮采用彩色相機獲取皮革缺陷圖像，并針對誤檢問題展開更深入的探討。

3 結論

本文提出了一項新的方法用于檢測生產線上的皮革織物瑕疵，以解決不同織物缺陷類間相似特征的問題，并且構建了工業皮革數據集。所提出的方法采用了一種創新的多層次殘差卷積注意力（ACA），能夠很好地區分和捕捉缺陷類內差異并強化缺陷類間較小的差異。該模塊通過殘差結構將通道注意力進行加強，增強語義的特征表示能力，選用兩個不同大小的濾波核進行空間注意力操作，以增強網絡抽取特征的語義信息和空間信息。并且將ACA與特征金字塔相結合，提出了一種新的基于通道和空間的注意力特征金字塔，有選擇地捕獲來自不同域的上下文信息，并產生更多的鑒別性特征，充分利用了多尺度和跨通道的特征信息，增加語義信息。再結合SABL檢測頭使得皮革缺陷定位更加準確。因此，本文的方法能夠有選擇地保留關鍵特征，以實現魯棒的檢測和定位，很好地區分和捕捉缺陷類內差異并強化缺陷類間較小的差異，同時抑制不必要的信息。與目前領先的檢測網絡相比，本文的方法表現出了競爭力強的性能，從而為皮革織物表面自動化缺陷檢測提供了新的思路及可行性。

《絲綢》官網下載

中國知網下載

參考文獻：

［1］韓小龍，呂曉峰. 計算機圖像處理皮革瑕疵自動檢測分級技術研究［J］. 中國皮革， 2023， 52（1）： 25-28.

HAN X L， L X F. Automatic detection and classification of leather defects by computer image processing［J］. China Leather， 2023， 52（1）： 25-28.

［2］ANSHORI M F， PURWOKO B S， DEWI I S， et al. Cluster heatmap for detection of good tolerance trait on doubled-haploid rice lines under hydroponic salinity screening［J］. IOP Conference Series： Earth and Environmental Science， 2020， 484（1）： 012001.

［3］崔揚. 圖像檢測技術在皮革缺陷檢測中的應用研究［D］. 杭州：浙江大學， 2004.

CUI Y. Study on Image Detection Technique and Its Application on Detecting Defects of Leather［D］. Hangzhou： Zhejiang University， 2004.

［4］ASLAM M， KHAN T M， NAQVI S S， et al. Putting current state of the art object detectors to the test： Towards industry applicable leather surface defect detection［C］//2021 Digital Image Computing： Techniques and Applications （DICTA）. New York： IEEE， 2021.

［5］ASLAM M， KHAN T M， NAQVI S S， et al. Learning to recognize irregular features on leather surfaces［J］. Journal of the American Leather Chemists， 2021， 116（5）： 169-178.

［6］ASLAM M， KHAN T M， NAQVI S S， et al. Ensemble convolutional neural networks with knowledge transfer for leather defect classification in industrial settings［J］. IEEE Access， 2020（8）： 198600-198614.

［7］KHANAL S R， SILVA J， MAGALHAES L， et al. Leather defect detection using semantic segmentation： A hardware platform and software prototype［J］. Procedia Computer Science， 2022（204）： 573-580.

［8］GAN Y S， LIONG S T， ZHENG D， et al. Detection and localization of defects on natural leather surfaces［J］. Journal of Ambient Intelligence and Humanized Computing， 2021（14）： 1785-1799.

［9］ZHANG Z L， FU Y， HUANG H L， et al. Lightweight network study of leather defect segmentation with Kronecker product multipath decoding［J］. Mathematical Biosciences and Engineering， 2022， 19（12）： 13782-13798.

［10］ITTI L， KOCH C， NIEBUR E. A model of saliency-based visual attention for rapid scene analysis［J］. IEEE Transactions on Pattern Analysis & Machine Intelligence， 1998， 20（11）： 1254-1259.

［11］WANG F， JIANG M， QIAN C， et al. Residual attention network for image classification［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Hawaii： IEEE， 2017： 3156-3164.

［12］HU J， SHEN L， SUN G. Squeeze-and-excitation networks［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Salt Lake City： IEEE， 2018： 7132-7141.

［13］ZHANG X N， WANG T T， QI J Q， et al. Progressive attention guided recurrent network for salient object detection［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Salt Lake City： IEEE， 2018： 714-722.

［14］LI T P， SONG H H， ZHANG K H， et al. Recurrent reverse attention guided residual learning for saliency object detection［J］. Neurocomputing， 2020（389）： 170-178.

［15］WOO S， PARK J， LEE J Y， et al. Cbam： Convolutional block attention module［C］//Proceedings of the European Conference on Computer Vision （ECCV）. Berlin： Springer Science， 2018： 3-19.

［16］LIN T Y， DOLLAR P， GIRSHICK R， et al. Feature pyramid networks for object detection［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Hawaii： IEEE， 2017： 2117-2125.

［17］WANG J， ZHANG W， CAO Y， et al. Side-aware boundary localization for more precise object detection［C］//Computer Vision-ECCV 2020： 16th European Conference （ECCV）. Glasgow： Springer International Publishing， 2020： 403-419.

［18］HE K M， ZHANG X Y， REN S Q， et al. Deep residual learning for image recognition［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. New York： IEEE， 2016： 770-778.

［19］REN S Q， HE K M， GIRSHICK R， et al. Faster R-CNN： Towards real-time object detection with region proposal networks［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2017， 39（6）： 1137-1149.

［20］LIN T Y， MAIRE M， BELONGIE S， et al. Microsoft coco： Common objects in context［C］// Computer Vision-ECCV 2014： 13th European Conference （ECCV）. Berlin： Springer International Publishing， 2014： 740-755.

［21］SELVARAJU R R， COGSWELL M， DAS A， et al. Grad-cam： Visual explanations from deep networks via gradient-based localization［C］//Proceedings of the IEEE International Conference on Computer Vision （ICCV）. New York： IEEE， 2017： 618-626.

［22］CAI Z W， VASCONCELOS N. Cascade R-CNN： Delving into high quality object detection［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York： IEEE， 2018： 6154-6162.

A multi-scale adaptive attention detection model for leather fabric defect detection

ZHANG Chi， WANG Xiangrong

LI Hao1， LIU Yifan1， XU Huawei2， YANG Ke1， KANG Zhen1， HUANG Mengzhen1， OU Xiao1， ZHAO Yuchen1， XING Tongzhen1

（1.School of Mathematics & Computer Science， Wuhan Polytechnic University， Wuhan 430048， China;2.Hexin Kuraray Micro Fiber Leather （Jiaxing） Co.， Ltd.， Jiaxing 314003， China; 3.Institute ofFlexible Electronics Technology of THU， Jiaxing 314006， China）

Abstract：

Leather products are widely used across various fields， permeating every aspect of daily life. However， during the production of synthetic leather fabrics， defects are inevitable， directly affecting the quality and price of leather products. Early identification of these defects in the production process can prevent further production losses. Nevertheless， the high local similarity of defects on leather fabric surfaces causes significant similarities between different types of defects， leading to poor detection results. To address this issue， the article proposed an end-to-end defect detection method for leather fabric surfaces， achieving finer granularity in distinguishing leather defects.

To address the high similarity between defect classes， this paper introduced an adaptive convolutional attention （ACA） module. This module comprises channel attention and spatial attention， integrating the channel and spatial attention information through a residual structure to generate more discriminative features. Two different-sized convolutional kernels in the spatial attention work in concert to effectively enhance the differences between defects， focusing attention on target features and thus reducing the interference response to background information. To amplify the differences between leather fabric defect classes， ACA was incorporated into the backbone network to enhance the semantic feature representation capabilities. This integration not only improves the network’s ability to differentiate between defect types but also ensures more accurate detection outcomes. Then， the article designed a feature pyramid network based on adaptive convolutional attention （AC-FPN） to improve multi-scale fusion. By leveraging the feature information enhanced by ACA， the network enables the flow of information between different scales， allowing for finer differentiation between defects and background. Such enhancement significantly improves the detection capability of defects at different scales， achieving finer granularity in leather defect differentiation. The multi-scale fusion process ensures that defects of various sizes and shapes are accurately detected， regardless of their scale， contributing to a more robust detection system. Finally， the traditional detection head was replaced with the side-aware boundary localization （SABL） detection head， enabling precise localization of leather fabric defects. The SABL detection head is specifically designed to enhance the accuracy of defect localization by focusing on the boundaries of defects， ensuring that even the smallest and most subtle defects are accurately identified and localized. This replacement is crucial for improving the overall precision of the defect detection system， making it more reliable for practical applications in leather fabric production.

The article validated the proposed method using a self-constructed leather fabric dataset and compared it with different methods. Experimental results demonstrate that the proposed method achieves better performance in distinguishing between different defect types with similar appearances. Compared to other methods， this method exhibits superior detection accuracy across various defect types， with AP， AP50， and AP75 evaluation metrics reaching 83.4， 89.7， and 85.6， respectively. This provides a new perspective for automated surface defect detection of leather fabrics. The improved accuracy metrics indicate that the proposed method is highly effective in identifying and classifying defects， with significant improvement over existing methods.

The proposed defect detection method for leather fabrics demonstrates better performance compared to other methods， offering new feasibility for defect detection. Despite the advantages mentioned above， the use of a dataset primarily comprising grayscale images may reduce the ability to extract effective information for some colored leather defects. In future research， color cameras can be used to capture images of leather defects and incorporate color information to distinguish some leather fabric surface defects. Additionally， exploring advanced image processing techniques and integrating them with the current approach could further enhance the defect detection capabilities， so as to make the system more versatile and applicable to a wider range of leather products.

Key words：

attention mechanism; multi-scale information; defect detection; convolutional neural network; defect classification; leather fabric

絲綢2024年10期

絲綢的其它文章: 日本古代“綿襖甲”與唐代“皂絹甲”淵源考略; 民國男士禮服形象識別與審美探究; 明代《汝水巾譜》所輯巾服特征與時代映射; 新疆營盤遺址出土絲織物染料和纖維品種及來源; 中國古裝影視劇服裝領域研究熱點及行業趨勢分析; 杭州紡織服裝產業的技術創新和市場創新研究