基于Smooth-DETR的產品表面小尺寸缺陷檢測算法

2022-12-31 00:00:00張乃雪鐘羽中趙濤佃松宜

計算機應用研究 2022年8期

摘要：為應對實際工業產品視覺質量檢測中缺陷罕見、尺寸小等挑戰，提出了一種僅需要少量訓練樣本的小尺寸缺陷檢測算法——Smooth-DETR，該算法采用基于DETR的編碼—解碼結構對缺陷類別和位置進行預測，該結構降低了參數量和計算復雜度。因DETR強大的全局特征學習能力，該算法可從少量訓練樣本中充分挖掘產品表面紋理特征，從而對打破了表面紋理連續性的缺陷檢出率高；通過結合Smooth-L1損失和GIoU損失的優勢，進一步提升了小尺寸缺陷的回歸精度。實驗結果表明，所提方法檢測性能優于現有先進檢測模型。此外，僅用少量訓練樣本，該算法對11類產品表面的缺陷檢測平均精確率就能夠達到98%以上。

關鍵詞：Transformer；DETR模型；GIoU損失；表面缺陷檢測；深度學習

中圖分類號：TP391.41文獻標志碼：A

文章編號：1001-3695（2022）08-049-2520-06

doi：10.19734/j.issn.1001-3695.2022.01.0011

Detection method for small-size surface defects based on Smooth-DETR

Zhang Naixue，Zhong Yuzhong，Zhao Tao，Dian Songyi

（College of Electrical Engineering，Sichuan University，Chengdu 610065，China）

Abstract：To deal with challenges of limited and small-size defects in product quality inspection，this paper proposed a method for surface-defect-detection of small-size with few training samples （Smooth-DETR）.This method utilized DETR-based encoder-decoder to predict the classification and location of defects，which reduced the parameters and complexity.DETR had a strong global feature learning capability，which could obtain rich texture features of product surfaces with few samples，so that it was easy to detect defects that broke the continuity of texture.The combination of Smooth-L1 loss and GIoU loss improved the regression accuracy on small-size defect samples.Experimental results show that the proposed method performs better than the existing state-of-the-art methods.Moreover，the average detection precision of the proposed method for 11 different classes of surface defects is higher than 98% with few training samples.

Key words：Transformer；DETR model；GIoU loss；surface defect detection；deep learning

0引言

工業產品質量檢測是生產和運維中的重要環節，是保證產品外觀、質量和性能的關鍵。近年來，隨著深度學習的發展及其在各個場景的廣泛應用［1，2］，基于深度學習的目標檢測算法也逐漸應用于表面缺陷檢測任務中［3，4］以提高生產和檢測效率，同時降低人的主觀意識對檢測結果的影響。與傳統的缺陷檢測相比，基于深度學習的表面缺陷檢測算法更加智能化，且具有更好的檢測準確率和泛化性［5］。

基于深度學習的表面缺陷檢測任務可以大致分為基于檢測的表面缺陷檢測算法和基于分割的表面缺陷檢測算法，基于檢測的表面缺陷檢測通常可以被視做一個特殊的目標檢測任務。目前目標檢測技術以端到端的深度學習檢測算法為主，分為兩大類，一類是以Faster R-CNN為代表的two-stage檢測算法［3］；另一類是以YOLO為代表的one-stage檢測算法［6］。He等人［7］首先使用多組CNN對圖像進行分類，針對不同類型的缺陷分別訓練不同的卷積核；然后將可能包含缺陷的特征映射輸入到另一個基于YOLO的網絡中，對缺陷的檢測框進行回歸。為應對YOLOv4的主干網絡復雜度較高和難以檢測到小尺寸表面缺陷等問題，Lian等人［8］提出了YOLOv4-DefectSP算法，該算法利用深度可分離卷積代替傳統的卷積結構并融合知識蒸餾［9］，不僅提升了對小尺寸缺陷檢測準確率，還極大地降低了模型復雜度。此外，為了提高織物數據集檢測的速度和準確性，Zhou等人［10］提出了更高效的RCNN算法，利用可變形卷積網絡代替了Faster R-CNN中主干網絡的最后一個階段，并引入特征金字塔網絡和距離IoU損失函數以達到檢測更加快速和準確的目的。除了基于目標檢測的缺陷檢測方法以外，也有不少其他的檢測方法。例如，由于很多行業無法獲取足夠的高精度標注樣本，文獻［11］提出了一個混合監督網絡，由分割網絡和分類網絡兩個子網絡構成，該網絡利用圖像級標簽和區域級標簽混合監督的方法達到缺陷檢測的目的，在一定程度上減少了對標注樣本的需求。另外，基于分割的表面缺陷檢測是指將語義分割模型用于解決表面缺陷檢測任務。通常，語義分割模型由編碼—解碼結構組成，常見的有FCN［12］、U-Net［13］和DeepLab v3+［14］等。目前也有不少研究將語義分割模型引入表面缺陷檢測任務中，彭磊等人［15］將U-Net模型用于道路缺陷檢測，郭亞萍等人［16］將SegNet應用于工件表面缺陷檢測中。除了通用的分割模型外，針對條紋形的表面缺陷不易分割這一問題，ScratchNet［17］利用基于交叉最大池化模塊的特征金字塔結構，結合多層信息精確地提取各個方向的邊界特征，更關注邊界細節的分割；再利用空間注意上采樣模塊，確保低分辨率到高分辨率特征傳遞的有效性，提高了檢測準確度，實驗證明基于分割的模型在表面缺陷檢測任務中也有著不錯的表現。

然而以上這些算法都依賴于卷積神經網絡（CNN）［18］，并在其基礎上發展而來，但卷積神經網絡更關注局部特征而忽視了全局特征，因此基于CNN的檢測算法對小尺度缺陷的檢測存在不足。Transformer［19］能夠捕捉到較大范圍內的特征信息，因此更關注全局特征。隨著Transformer應用于各個領域［20，21］，Carion等人［22］提出了基于Transformer的端到端的目標檢測模型——DETR模型。DETR模型將目標檢測任務轉換為集合序列預測任務，通過簡單的CNN提取特征，再利用基于Transformer的編碼—解碼結構進行并行預測，DETR模型的提出和應用為解決目標檢測任務提供了一種全新的思路。

在工業產品質量檢測中，很難獲取到大量經專家標注的且種類豐富的缺陷樣本，因此訓練集樣本的數量非常有限；同時，工業產品表面常常出現尺寸較小且不顯著的缺陷，這對視覺缺陷檢測是一個巨大的挑戰。針對這些問題，本文提出了一種基于Smooth-DETR的產品表面小尺寸缺陷檢測算法。考慮到工業產品表面通常以重復的結構性紋理作為背景，缺陷的存在打破了表面紋理的連續性，因此該算法利用DETR模型的全局特征學習能力減少了對訓練樣本數量的需求，提升了缺陷的檢出率。該算法還結合Smooth-L1損失函數［3］和GIoU損失函數［23］作為邊框回歸損失，以提升對小尺寸缺陷的回歸精度和模型訓練效率，另外使用匈牙利算法來得到分類損失和回歸損失的最優匹配以提升算法整體的檢測準確率。與基于CNN的端到端的表面缺陷檢測算法相比，由于Smooth-DETR使用了更少的卷積層，計算復雜度更低、參數量更小。

1Transformer模型

Transformer模型最初在自然語言處理（NLP）中被提出。該模型舍棄了用于提取特征的各種類型的卷積運算［24，25］anchor-based和非極大值抑制（NMS）等后處理方法，而是全部由注意力機制組成，最初用于解決機器翻譯任務。Transformer模型主要由多個基于多頭注意力機制的編碼器和解碼器構成，如圖1所示。

每個編碼器和解碼器由多頭注意力、前饋網絡和層歸一化等構成，其基本組成如圖2所示。其中，多頭注意力機制［19］為注意力層提供了多組由查詢向量（query）、關鍵向量（key）和值向量（value）組成的權重矩陣。假設含有h個多頭，則多頭注意力機制定義為

attention（Q，K，V）=softmax（QKTdk）V

Qi=QWQi，Ki=KWKi，Vi=VWVii=1，…，h

headi=attention（Qi，Ki，Vi）

multihead=concat（head1，…，headh）Wo（1）

其中：dk為縮放因子；WQi、WKi、WVi、WO均為權重矩陣。經過訓練后，輸入向量被投影到不同的子空間中，使得模型可以關注不同位置的信息，提升了注意力層的性能。與基于CNN的特征提取器相比而言，由于Transformer包含了多個子空間，更容易關注全局特征。

2Smooth-DETR算法

2.1DETR模型

DETR為端到端的目標檢測算法提供了一種全新的思路，它將CNN和Transformer模型相結合，并行地預測包含目標和背景在內的N個對象的類別信息。借助于Transformer模型更關注全局特征這一特性，DETR模型也具有強大的全局特征學習能力。如圖3所示，首先將輸入圖像分為大小相同的圖像塊，利用CNN對圖像塊進行特征提取，再利用1×1的卷積將特征圖壓縮成多個一維向量，與位置信息向量一并送入基于Transformer的編碼器和解碼器，N個對象被轉換成嵌入輸出；最后，經過一個共享權重的前饋網絡將這些嵌入輸出向量并行地獨立解碼為N個類別和預測框。基于Transformer的編碼—解碼結構并行地預測整個輸入，因此位置編碼尤為重要。位置編碼的計算如下：

PE（pos，2i）=sin（pos/100002i/d）

PE（pos，2i+1）=cos（pos/100002i/d）（2）

其中：pos表示圖像塊的位置；d表示該向量維度；2i和2i+1分別表示d中偶數維度和奇數維度。由三角函數性質可知，每個位置pos+k都能用pos位置計算得到，且每個位置的所有維度都有獨特的編碼。

假設輸入圖像大小為H×W，圖像通過CNN提取后的特征再經過1×1的卷積降維，轉換后得到D×HW大小的向量作為Transformer模型的輸入。在基于Transformer的編碼階段，注意力矩陣大小為（H×W）×（H×W），如圖4左圖所示，表示了某一個token對應的注意力矩陣；注意力矩陣上的某一個點實際對應此token所表示的特征塊上兩個不同的點，如圖4右圖所示。又因為編碼器的輸入token數量與特征圖像素個數相同，所以這就確定了一個框。因此，DETR模型在目標檢測任務中具有獨特的優勢。此外，缺陷的存在破壞了產品表面紋理連續性，而全局特征學習能力強的DETR模型能挖掘到更豐富的表面紋理特征，因此其更易于實現產品表面的缺陷檢測。

此外，與基于CNN的目標檢測不同的是，DETR模型采用基于Transformer的編碼器和解碼器進行預測。因為減少了大量的卷積層，DETR模型的計算復雜度和參數量都非常小。

2.2損失函數設計

DETR模型對解碼器的嵌入輸出向量進行解碼預測，為了優化模型，需要通過損失函數不斷減小預測值與標簽值之間的偏差使模型達到最優。為了提升檢測準確率，本文提出了Smooth-DETR算法，用Smooth-L1和GIoU損失函數結合作為回歸損失對檢測邊框進行預測回歸。Smooth-DETR算法不僅有利于提升對小尺度缺陷的回歸精度、增加檢測準確率，還有利于提高訓練魯棒性和訓練效率。除了回歸損失外，本文還使用分類損失預測缺陷類別。

2.2.1分類損失

交叉熵損失函數［25］可以很好地描述預測輸出和期望輸出之間的距離，通過不斷學習優化模型預測每個類別的概率與one-hot形式的標簽類別之間的距離達到正確分類的目的。假設概率分布σ（i）為預測輸出，ci為期望輸出，則交叉熵損失函數定義為

LBCE（σ（i），ci）=-∑Ni=0log σ（i）（ci）（3）

2.2.2回歸損失

在許多產品質量檢測應用場景下難以收集到大量含有標注的缺陷樣本，并且缺陷的形態大小各異，具有多樣性；另外，產品表面常常出現小尺寸缺陷，而現有的在小尺寸缺陷樣本上表現較好的模型往往結構復雜、計算量大。為了提升對小尺寸缺陷的檢測準確率，本文采用Smooth-L1損失函數和GIoU損失函數相結合的方式，使算法不僅能夠對小尺寸的缺陷穩定回歸、提高檢測準確率，還可以快速收斂到更高的精度。

相比于L1損失函數和L2損失函數，Smooth-L1損失函數結合了兩者的優點，其定義如式（4）所示。如圖5所示，在訓練初期，預測框和期望框的距離過大，Smooth-L1損失函數很好地限制了預測框的梯度，避免了梯度爆炸，并且在保留了模型快速收斂特性的同時使模型更加魯棒；而在訓練后期，預測框和期望框的距離過小，損失函數在0附近波動時也存在導數，模型可以收斂到更高精度。

LSmooth-L1 （bσ（i），b^i）=∑Ni=00.5（bσ（i） -b^i）2if |b^i-bσ（i）|lt;1

∑Ni=0|bσ（i）-b^i|-0.5other（4）

其中：bσ（i）表示第i個索引的期望框，b^i為第i個索引的預測框。

但是，Smooth-L1損失函數在求解預測框時僅僅獨立地使用了四個點的損失值，并沒有關注到四個值之間的相關性［19］，不能真實地反映預測框和期望框之間的包含關系。因此，在計算回歸損失時還引入了GIoU［19］，它將預測框當做一個整體進行回歸。

GIoU（bσ（i），b^i）=bσ（i）∩b^ibσ（i）∪b^i-B（bσ（i），b^i）＼（bσ（i）∪b^）iB（bσ（i），b^i）

LGIoU（bσ（i），b^i）=1-GIoU（5）

式（5）展示了GIoU的計算過程。其中B（bσ（i），b^i）表示包圍了bσ（i）和b^的最小包圍矩形；B（bσ（i），b^i）＼（bσ（i）∪b^）表示B（·）中沒有覆蓋bσ（i）和b^的面積。

除此之外，為了保證預測框與期望框之間的最大匹配，以及預測位置與類別一一對應，本文還采用了匈牙利算法［22］，即尋找增廣路徑達成類別和預測框的最佳匹配。如式（6）所示，匈牙利算法選取損失值最小作為最佳匹配。

LHungarian（y，y^σi）=∑Ni=1（LBCE（p^σ（i），ci）+Lbox （bσ（i），b^i））（6）

Lbox=αLGIoU+βLSmooth-L1（7）

式（7）描述了預測框的損失函數，主要由Smooth-L1和GIoU共同決定，其中α和β分別表示GIoU損失函數和Smooth-L1損失函數的權重系數。基于此，本文通過Smooth-L1結合GIoU損失函數作為邊框回歸損失的策略，不僅提升了算法的檢測準確率，使Smooth-DETR算法在小尺寸缺陷樣本上也有很好的檢測效果，還加快了算法收斂速度，提升了模型訓練效率。

3實驗分析

3.1數據集

為了證明本文所提算法對各種類型的缺陷，尤其是低對比度缺陷有著良好的檢測效果，本文選取了兩個公開數據集進行實驗。

a）DAGM 2007數據集是德國模式識別協會提供的，包含10種（class1～10）不同類型的人造缺陷數據集，如圖8第一行和第三行所示，其中每個子類有約80張帶缺陷的訓練樣本和600張測試集樣本。在該數據集中，缺陷形態、大小各異，還包括了小尺寸缺陷。DAGM 2007數據集中所有樣本大小均為512×512，且在實驗過程中均沒有改變圖像大小和數據增強。

b）KolektorSDD數據集是Kolektor團隊在受控工業環境下所采集的真實電子換向器表面缺陷樣本，如圖9（a）所示，共有52張缺陷圖像和347張無缺陷圖像。

3.2實驗環境

本文在兩個公開數據集上進行了實驗，并與現有的方法進行對比。所有的實驗均在Windows系統下，GPU采用NVIDIA GeForce RTX3060Ti，其顯存為16 GB；CPU采用Intel i7-10700F，內存為32 GB。本實驗采用Python編寫代碼，深度學習框架為PyTorch。

3.3評價指標

為了定量地分析實驗結果來驗證本文所提方法的有效性，本文選取了FP、FN、平均精確率（AP）、mAP、和AUC等作為評價指標［26］。其中，FP是指假陽性，表示被誤報為缺陷的正常樣本；FN是指假陰性，表示被誤報為正常樣本的缺陷樣本；AP是指平滑后的precision-recall曲線與坐標軸所圍成的面積，這使得AP能夠精確地表示不同閾值下的綜合模型性能，其中precision和recall分別表示查準率和查全率；mAP則是所有類別AP的均值；AUC是ROC曲線與坐標軸所圍成的面積，ROC曲線由FPR=FPTN + FP和TPR=TPTP + FN為橫縱坐標構成，其中TN是指預測正確的正常樣本，TP表示預測正確的缺陷樣本。由于ROC曲線不隨樣本分布變換而變換，所以ROC曲線常常用于樣本類別不均衡的情況。在ROC曲線不能直觀地展示分類結果好壞時，往往選用AUC更清楚地描述分類結果好壞。

3.4實驗結果分析

3.4.1與DETR模型實驗對比分析

由于本文受DETR模型啟發，同時為了驗證本文所提的Smooth-DETR算法不僅在有限訓練樣本的情況下檢測效果良好，而且在訓練過程中可以快速收斂到較高精度。本文實驗設置與DETR模型在DAGM 2007數據集上進行對比。實驗中，分別在每個子類中選取20張缺陷圖片作為訓練集、5張樣本作為驗證集；兩種算法在整個訓練過程中均選取40個epoch，權重衰減系數為0.000 1，batchsize設置為4。采取AdamW優化器，初始學習率為0.000 1，每15個epoch學習率降低10倍。

圖6展示了兩種算法在訓練過程中不同的epoch時，訓練集的錯分率、總損失和mAP的變化。由于本文所提出的Smooth-DETR采用了Smooth-L1損失函數，相比于DETR模型，Smooth-L1損失函數在預測框和期望框的距離十分相近時也存在導數，使模型可以收斂到更高精度，并且對小尺寸缺陷也能穩定回歸；同時，因為GIoU損失函數在訓練前期也具有梯度，結合Smooth-L1損失函數在訓練前期快速收斂的優點，模型可以更加快速、穩定地收斂，提高了訓練效率。另外，圖7展示了驗證集中各指標的變換，從圖7的錯分率變化曲線可以看出，大約在14個epoch時，Smooth-DETR算法已經能夠正確分類，并且整體精度高于DETR模型。

為了證明Smooth-DETR在多種類型的缺陷上有更良好的表現，尤其對低對比度、小尺寸的缺陷檢測效果對比DETR有所提升，本文選取了約1萬張包含10個不同缺陷的樣本作為測試集進行實驗；與DETR模型的檢測結果對比如表1所示。

為了兼顧對錯誤樣本的分類情況，并且分析算法對不同類型缺陷的檢測能力，選取了AUC指標對每個子類缺陷的檢測結果進行定量展示。表1對DAGM 2007數據集上每種缺陷的檢測結果的AUC進行對比，從表中可以清晰地看出在class3、class5和class9這些尺寸較小的低對比度缺陷上，由于Smooth-L1和GIoU損失函數相結合能對目標缺陷的邊框更精確地回歸，使得本文所提出的算法的檢測性能有明顯的提升。另外，Smooth-DETR算法在class4和class10這類缺陷紋理與產品表面紋理具有相似性的樣本上也有更好的表現。綜上，說明了Smooth-DETR在各種形狀和紋理的缺陷樣本上有很好的檢測效果，尤其對小尺寸缺陷也有著很好的檢測效果。

3.4.2DAGM 2007實驗結果分析

為了直觀地呈現Smooth-DETR算法在DAGM 2007數據集上的檢測結果，圖8展示了10種不同類型缺陷的檢測結果。圖8中，（a）（c）是原圖，（b）（d）是對應的檢測結果。為了清楚地展示缺陷，還在原圖中添加了缺陷的放大圖。在這10種不同類型的缺陷中，包括了class1、class3、class5和class8這類較小尺寸的低對比度缺陷，它們的缺陷紋理與產品表面紋理極為相似；以及class4和class10這類背景和缺陷都具有明顯邊緣特征的樣本。另外，在該數據集中，大多類別的表面都是重復的結構性紋理，缺陷破壞了這種連續性，而本文所提出的算法具有強大的全局特征學習能力，因此本文算法在所有類型的缺陷上都有很好的檢測效果，尤其是在Class9這類分辨率低于17×17像素的小尺寸缺陷上的檢測結果依然很準確。從圖8可以看出，Smooth-DETR不管在低對比度缺陷樣本還是小尺寸樣本上，檢測框能夠準確地回歸缺陷所在位置，對不同的缺陷類型也能準確分類，有很好的檢測效果。

進一步地，本文將所提Smooth-DETR方法與最新的表面缺陷檢測算法——ScratchNet［17］、混合監督網絡［11］、Faster R-CNN［27］、分類決策網絡［28］和YOLOv4-DefectSP［8］在DAGM 2007數據集上進行比較，對比結果如表2所示。表2中N表示區域級標簽樣本，M表示圖像級標簽樣本。從表2可以看出，Smooth-DETR的檢測性能要遠高于ScratchNet、Faster R-CNN、分類決策網絡、YOLOv4-DefectSP以及僅使用5張區域級標簽樣本和約1 000張含圖像級標簽的樣本訓練的混合監督網絡；其檢測性能幾乎媲美使用了有15張區域級標簽樣本和額外約1 000張含圖像級標簽的樣本訓練的混合監督網絡。表2證明了本文算法能適應多類產品表面缺陷檢測任務，尤其是當訓練數據不充分時。

在許多產品質量檢測應用中，為了方便檢測、提高檢測效率以及借助于機器代替人工完成復雜的檢測任務，檢測設備逐步趨向于小型化便攜式設備，不可避免地要求檢測算法足夠簡單。也就是說，工業場景下的表面缺陷檢測不僅需要關注檢測結果，模型的大小和檢測速度也同樣重要。表3給出了以上六個模型的參數量和檢測時間。如表3所示，ScratchNet模型復雜度較高，會消耗大量的計算資源，檢測時間也較長。雖然分割決策網絡和YOLOv4-DefectSP 的模型復雜度小、檢測時間短，但是從表2中可以看出，這兩個模型的檢測性能相對較差。而對于通用的目標檢測網絡Faster R-CNN而言，因為使用了大量的卷積層，網絡層數深，會消耗較多的檢測時間，檢測結果也并不理想。由于Smooth-DETR在特征提取階段采用了CNN，使得該算法具有一定的參數量。然而，正因為Smooth-DETR結合了CNN與Transformer的優點，該算法不僅有效地提取了全局特征，還充分地利用了缺陷的局部特征。綜上，Smooth-DETR整體的實驗結果最佳，在保證檢測速度的同時還保持了較高的檢測精確率。

3.4.3KolektorSDD實驗結果分析

為了證明Smooth-DETR算法適用于不同產品的表面缺陷檢測，本文還在不同的數據集上進行實驗。圖9展示了本文方法在真實的電子換向器缺陷KolektorSDD數據集上的檢測結果。圖9中，（a）（c）分別是有缺陷原圖和無缺陷原圖；（b）（d）分別是對應的檢測結果圖。從圖9可以看出，Smooth-DETR算法能正確地識別電子換向器缺陷，說明Smooth-DETR算法除了在DAGM 2007數據集上有不錯的檢測效果，還可以適用于不同產品的檢測。

目前，基于有監督的檢測算法需要對大量含有標簽的樣本進行長時間訓練以獲得較好的檢測效果，而在實際產品質檢應用中，很難獲取到足夠多的缺陷樣本。本文將Smooth-DETR算法與DeepLab v3+、U-Net和混合監督網絡分別在10個和20個樣本的訓練集上進行了比較，結果如表4所示。DeepLab v3+和混合監督網絡都是現有先進的表面缺陷檢測算法。實驗中，本文選用了性能表現最佳的超參數。值得說明的是，Smooth-DETR算法僅需矩形框標注缺陷的大致范圍，而DeepLab v3、U-Net和混合監督網絡需精確地標注缺陷像素。從表4可以看出，DeepLab v3+在20張訓練集時，與10張訓練集的檢測精確率有明顯的提升；U-Net對訓練樣本數量敏感，這兩個方法總體檢測結果不佳。由于Transformer強大的全局特征學習能力，Smooth-DETR算法在僅有20張樣本進行訓練后得到的模型，其AUC和平均精確率均高于DeepLab v3+和混合監督網絡。實驗說明了Smooth-DETR中Transformer結構有更強的特征學習能力，可以從更少的樣本中學習到缺陷特征，從而達到在少樣本情況下的高檢出率，用于解決質量檢測應用中缺少大量訓練樣本而造成的檢測不準確的問題。

4結束語

針對產品質量檢測中，缺陷樣本有限、形狀不規則、尺寸較小且難以獲取大量的缺陷樣本用于訓練檢測模型等問題，本文提出了用于產品表面小尺寸缺陷檢測的Smooth-DETR算法。該算法利用DETR模型強大的全局特征學習能力，提升了對破壞產品表面紋理連續性的缺陷的檢出率；另外，該算法采用Smooth-L1和GIoU共同作為邊框回歸損失函數，提升了對小尺寸缺陷的檢測準確率。同時該算法比現有的基于CNN的檢測算法參數量更小，計算復雜度更低。實驗結果顯示，該算法在11種不同類型的缺陷數據集上都有不錯的檢測結果，說明了該算法具有普適性。與DETR算法相比，該算法不僅在訓練階段能更快速地回歸到更高精度，還具有更高的平均檢測精確率。與現有的檢測算法相比，Smooth-DETR算法可以利用更少的訓練樣本得到更好的檢測性能。

參考文獻：

［1］任條娟，陳鵬，陳友榮，等.基于深度學習的多目標運動軌跡預測算法［J］.計算機應用研究，2022，39（1）：296-302.（Ren Tiaojuan，Chen Peng，Chen Yourong，et al.Multi-target motion trajectory prediction algorithm based on deep learning［J］.Application Research of Computers，2022，39（1）：296-302.）

［2］趙玉卿，賈金露，公維軍，等.基于pro-YOLOv4的多尺度航拍圖像目標檢測算法［J］.計算機應用研究，2021，38（11）：3466-3471.（Zhao Yuqing，Jia Jinlu，Gong Weijun，et al.Multi-scale aerial image target detection algorithm based on pro-YOLOv4 ［J］.Application Research of Computers，2021，38（11）：3466-3471.）

［3］Wei Bing，Hao Kuangrong，Tang Xuesong，et al.Fabric defect detection based on Faster R-CNN［C］//Proc of International Conference on Artificial Intelligence on Textile and Apparel.Cham：Springer，2018：45-51.

［4］Zhou Xianen，Wang Yaonan，Zhu Qing，et al.A surface defect detection framework for glass bottle bottom using visual attention model and wavelet transform ［J］.IEEE Trans on Industrial Informatics，2020，16（4）：2189-2201.

［5］Luo Qiwu，Fang Xiaoxin，Liu Li，et al.Automated visual defect detection for flat steel surface：a survey ［J］.IEEE Trans on Instrumentation and Measurement，2020，69（3）：626-644.

［6］Redmon J，Divvala S，Girshick R，et al.You only look once：unified，real-time object detection［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2016：779-788.

［7］He Di，Xu Ke，Zhou Peng.Defect detection of hot rolled steels with a new object detection framework called classification priority network ［J］.Computers amp; Industrial Engineering，2019，128（2）：290-297.

［8］Lian Jiawei，He Junhong，Niu Yun，et al.Fast and accurate detection of surface defect based on improved YOLOv4 ［J］.Assembly Automation，2021，42（1）：134-146.

［9］Hinton G，Vinyals O，Dean J.Distilling the knowledge in a neural network ［EB/OL］.（2015-03-09）.https：//arxiv.org/pdf/1503.02531.pdf.

［10］Zhou Hao，Jang B，Chen Yixin，et al.Exploring Faster R-CNN for fabric defect detection［C］//Proc of the 3rd International Conference on Artificial Intelligence for Industries.Piscataway，NJ：IEEE Press，2020：52-55.

［11］Boicˇ J，Tabernik D，Skocˇaj D.Mixed supervision for surface-defect detection：from weakly to fully supervised learning ［J］.Computers in Industry，2021，129（8）：103459.

［12］Shelhamer E，Long J，Darrell T.Fully convolutional networks for semantic segmentation［J］.IEEE Trans on Pattern Analysis and Machine Intelligence，2017，39（4）：640-651.

［13］Ronneberger O，Fischer P，Brox T.U-Net：convolutional networks for biomedical image segmentation［C］//Proc of International Conference on Medical Image Computing and Computer-Assisted Intervention.Cham： Springer，2015：234-241.

［14］Chen L C，Zhu Yukun，Papandreou G，et al.Encoder-decoder with atrous separable convolution for semantic image segmentation［C］//Proc of the 15th European Conference on Computer Vision.Cham： Springer，2018：801-818.

［15］彭磊，張輝.基于U-Net的道路缺陷檢測［J］.計算機科學，2021，48（S2）：616-619.（Peng Lei，Zhang Hui.U-Net for pavement crack detection ［J］.Computer Science，2021，48（S2）：616-619.）

［16］郭亞萍，顧智聰，彭宏京.SegNet在工件表面缺陷檢測中的應用［J］.計算機工程與設計，2019，40（10）：2979-2984.（Guo Yaping，Gu Zhicong，Peng Hongjing.Application of SegNet in surface defect detection of workpieces ［J］.Computer Engineering amp; Design，2019，40（10）：2979-2984.）

［17］Mei Shuang，Cai Qi，Gao Zhijun，et al.Deep learning based automated inspection of weak microscratches in optical fiber connector end-face［J］.IEEE Trans on Instrumentation and Measurement，2021，70（2）：3511710.

［18］周飛燕，金林鵬，董軍.卷積神經網絡研究綜述［J］.計算機學報，2017，40（6）：1229-1251.（Zhou Feiyan，Jin Linpeng，Dong Jun.Review of convolutional neural network ［J］.Chinese Journal of Computers，2017，40（6）：1229-1251.）

［19］Vaswani A，Shazeer N，Parmar N，et al.Attention is all you need［C］// Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2017：6000-6010.

［20］張曉旭，馬志強，劉志強，等.Transformer 在語音識別任務中的研究現狀與展望［J］.計算機科學與探索，2021，15（9）：1578-1594.（Zhang Xiaoxu，Ma Zhiqiang，Liu Zhiqiang，et al.Research status and prospects of Transformer in speech recognition ［J］.Journal of Frontiers of Computer Science amp; Technology，2021，15（9）：1578-1594.）

［21］You J，Korhonen J.Transformer for image quality assessment［C］//Proc of IEEE International Conference on Image Processing.Washington DC：IEEE Press，2021：1389-1393.

［22］Carion N，Massa F，Synnaeve G，et al.End-to-end object detection with Transformers［C］//Proc of the 16th European Conference on Computer Vision.Cham：Springer，2020：213-229.

［23］Rezatofighi H，Tsoi N，Gwak J Y，et al.Generalized intersection over union：a metric and a loss for bounding box regression［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2019：658-666.

［24］Dai Jifeng，Qi Haozhi，Xiong Yuwen，et al.Deformable convolutional networks［C］//Proc of IEEE International Conference on Computer Vision.Washington DC：IEEE Computer Society，2017：764-773.

［25］Chollet F.Xception：deep learning with depthwise separable convolutions［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2017：1251-1258.

［26］Padilla R，Netto S L，Da Silva E A B.A survey on performance metrics for object-detection algorithms［C］//Proc of International Conference on Systems，Signals and Image Processing.Piscataway，NJ：IEEE Press，2020：237-242.

［27］Ren Shaoqing，He Kaiming，Girshick R，et al.Faster R-CNN：towards real-time object detection with region proposal networks ［J］.IEEE Trans on Pattern Analysis and Machine Intelligence，2017，39（6）：1137-1149.

［28］Tabernik D，ela S，Skvarcˇ J，et al.Segmentation-based deep-learning approach for surface-defect detection ［J］.Journal of Intelligent Manufacturing，2020，31（3）：759-776.

收稿日期：2022-01-05；修回日期：2022-03-01基金項目：國家重點研發計劃資助項目（2018YFB1307401）

作者簡介：張乃雪（1997-），女，四川德陽人，碩士，主要研究方向為計算機視覺、深度學習；鐘羽中（1987-），女（通信作者），湖南益陽人，博士，主要研究方向為計算機視覺、圖像處理（zyzc122@163.com）；趙濤（1988-），男，四川巴中人，副教授，博導，博士，主要研究方向為先進控制、感知與人工智能算法；佃松宜（1972-），男，湖北荊州人，教授，博導，博士，主要研究方向為先進控制、感知與人工智能算法.

計算機應用研究2022年8期

計算機應用研究的其它文章: 基于多尺度聚合神經網絡的雙目視覺立體匹配方法; 融合遷移學習和數據增強的SC-Net模型在皮膚癌識別中的應用; 基于MobileVit輕量化網絡的車輛檢測方法; 基于條件對抗域泛化的人臉活體檢測方法; 注意力機制結合殘差收縮網絡對遙感圖像分類; 基于布局圖的多物體場景新視角圖像生成網絡