基于深度對比網絡的印刷缺陷檢測方法

2023-02-03 03:02:28王佑芯

計算機應用 2023年1期

王佑芯，陳斌

（1.中國科學院成都計算機應用研究所，成都 610213；2.中國科學院大學計算機科學與技術學院，北京 100049；3.哈爾濱工業大學（深圳）國際人工智能研究院，廣東深圳 518055；4.哈爾濱工業大學重慶研究院，重慶 401100）

0 引言

印刷品質量檢測是印刷品生產過程中的一個重要環節，作為印刷品質量檢測環節的一項重要技術，印刷缺陷檢測是工業檢測領域的一個經典問題。目前，基于機器視覺的工業檢測技術［1］已取得了較好的發展，并且已經應用于金屬表面劃痕檢測、印刷電路板缺陷檢測等問題中。相較于人工抽樣檢測，基于視覺的自動化檢測技術在保證產品全覆蓋的同時，還具有速度快、精度高、人力成本低等優點，因此具有較高的研究與應用價值。

然而，即使在人工智能領域迅速發展的今天，現有的印刷缺陷檢測技術依舊沒有達到完全令人滿意的水平。在現有技術中，依賴傳統圖像處理技術的視覺檢測系統［2-4］對成像時的光照條件、機械誤差等影響因子極度敏感、魯棒性較差，并且需要專業人員不斷根據真實環境對系統參數進行調整，往往難以達到預期的檢測效果。近幾年來，得益于卷積神經網絡（Convolutional Neural Network，CNN）［5］強大的表征能力，基于深度學習［6］的通用目標檢測方法［7-9］在諸多工業缺陷檢測問題中都取得了較好的結果；但對于具有內容相關性的印刷缺陷檢測問題，這些方法依舊面臨著無法解決的語義矛盾。內容相關性引起的語義矛盾可以理解為：當缺陷與印刷內容的視覺特征相同時，YOLOv3（You Only Look Once v3）［7］等基于深度學習的通用目標檢測方法無法在只檢測圖像信息的條件下完成檢測。例如，模型無法將印刷內容缺失處的背景判別為缺陷，因為背景本身并非缺陷。圖1 展示了兩種具有內容相關性的印刷缺陷。

圖1 具有內容相關性的缺陷樣例Fig.1 Defect samples with content correlation

針對上述問題，本文將傳統模板匹配技術中的對比思想與深度學習中的語義特征結合，提出了一種基于深度對比神經網絡的印刷缺陷檢測方法，并在兩個不同數據集上對該方法進行了全面評估。本文的主要工作如下：

1）基于孿生卷積神經網絡設計了一個端到端的印刷缺陷檢測模型——深度對比網絡（Deep Comparison Network，CoNet）。該模型在語義空間對比檢測圖像與參考圖像，不僅解決了傳統方法魯棒性較差的問題，而且避免了基于深度學習的通用目標檢測方法在印刷缺陷檢測問題中面臨的語義矛盾問題。

2）提出了一種非對稱的雙通路特征金字塔結構，并將其用于CoNet 的多尺度變化檢測模塊（Multi-scale Change Detection Module，MsCDM）。該網絡結構可以在盡可能少地增加計算量的條件下，為檢測模塊引入更多的有效信息，提升檢測性能。在公開的印刷電路板缺陷數據集DeepPCB［10］和本文收集的立金缺陷數據集上的實驗結果表明，相較于目前性能最優的兩種印刷缺陷檢測方法，CoNet 的檢測精度更高，并且檢測速度也可以滿足工業檢測任務的實時性要求。

1 相關工作

1.1 傳統工業檢測算法

作為機器視覺領域的一個重要分支，基于傳統圖像處理技術的工業檢測系統已取得了較好的發展，并且已成功應用于大量的工業場景中，如印刷品［11-14］、電路板［15］、紡織和紋理［16-17］檢測等。

在印刷缺陷檢測問題上，Shankar 等［12］利用動態濾波器檢測圖像邊緣，然后通過閾值化與變換算法進一步分析，實現了可用于卷筒膠印設備的實時檢測系統；Sun 等［13］通過增量主成分分析算法建模不同模式的正樣本，并利用主成分為不同的測試樣本重建模板，進而將測試樣本與重建模板的差異視作印刷缺陷；Wang 等［14］針對傳統差值方法存在的偽殘差問題，提出了灰度差值和梯度差值相結合的方法，有效消除了偽殘差，該方法的檢出率明顯高于傳統差值方法。此外，針對印刷電路板缺陷檢測問題，Malge 等［15］基于形態學算法提出了圖像分割與局部像素對比相結合的缺陷檢測方法；而Tsai 等［16］則利用傅里葉變換在頻域對圖像進行分析，通過一維霍夫變換檢測并過濾高頻分量后，再反變換得到只有缺陷區域被清晰保留的重構圖像。

整體上看，基于傳統圖像處理技術的方法通常在像素空間或低維特征空間進行檢測，例如直接計算檢測圖像與參考圖像之間的差值［12］，或者在檢測時增加梯度［14］、頻率［16］等信息。可以發現，這些方法無法建模圖像的語義信息，而圖像的灰度、梯度等信息容易受成像條件等因素影響，因此魯棒性低。

1.2 基于深度學習的目標檢測方法

近年來，基于深度學習的計算機視覺算法發展迅猛，尤其在目標檢測問題上取得了驚人的進展。

Ren 等［8］提出的二階段模型Faster R-CNN（Faster Regionbased CNN）以CNN 提取的語義特征圖為基礎，先利用兩個1×1 卷積層生成粗粒度的候選框，再通過感興趣區域池化（Region of Interest Pooling，RoIPooing）提取候選框內特征，最后將所得特征用于預測目標的類別與邊界框。與Faster R-CNN 不同，Redmon 等［7］提出的YOLOv3 直接以骨架網絡提取的多尺度特征圖為輸入，利用三個相互獨立的1×1卷積層分別預測三種尺度目標的置信度、類別與邊界框；得益于不用預先提取候選框，該方法不僅能保證檢測精度，還可以滿足實時檢測的需求。

基于經典Faster R-CNN，He 等［9］提出的Mask R-CNN（Mask Region-based CNN）將Faster R-CNN 的骨架網絡改進為Lin 等［18］提出的特征金字塔網絡（Feature Pyramid Network，FPN），并增加了一個全卷積掩碼預測頭用于分割檢測結果中的目標與背景，提升檢測性能的同時還較好地解決了實例分割問題。馬佳良等［19］基于其提出的有效交并比（Effective Intersection over Union，EIoU）和特征重分配模塊（Feature Reassignment Module，FRM）設計了改進的目標檢測框架。而Yang 等［20］則利用關鍵點檢測的思路，設計了一個不依賴錨框的目標檢測模型RepPoints（Point set Representation），該模型為特征圖的每個位置預測一組點集，并利用該點集輸出檢測框，是一種與上述基于錨框的方法完全不同的范式。此外，Sparse R-CNN（Sparse Region-based CNN）［21］等候選框稀疏的目標檢測方法也逐漸被關注，它們不用像大多數方法一樣設置稠密分布的候選框，因此更符合人類思維。

上述方法在公開目標檢測數據集上已經取得十分優秀的結果，并在許多工業檢測問題中得以應用，例如Liong 等［22］將Mask R-CNN 用于皮革缺陷檢測問題；He 等［23］將改進后的Faster R-CNN 用于鋼表面缺陷檢測問題；馮濤等［24］將提出的角度加權交并比與Mask R-CNN 結合后，較好地解決了染色體實例分割問題。

基于深度學習的方法能全面超越基于特征描述子和形態學算法等技術的目標檢測方法是因為CNN 具有更強大的表征能力。通過卷積層、池化層與激活層等線性與非線性變換運算的堆疊，CNN 將圖像從像素空間映射到語義空間，然后利用反向傳播算法［5］優化模型參數，使模型可以在語義空間自適應地表征各種復雜的模式。

但在印刷缺陷檢測問題上，上述以單張圖像為輸入的方法因為缺少參考圖像的信息，所以無法完全檢測具有內容相關性的缺陷，例如印刷內容的偏移、缺失，以及與印刷內容視覺特征相同的缺陷。與通用目標檢測方法相比，本文提出的CoNet 通過孿生的網絡結構讓模型得到正樣本（即參考圖像）的信息，然后通過在語義空間比較檢測圖像與參考圖像完成缺陷檢測，從而解決了內容相關性缺陷帶來的問題。因此，CoNet 相較于Faster R-CNN 等通用目標檢測方法更適合解決依賴參考圖像的檢測問題。

1.3 變化檢測與印刷缺陷檢測

與目標檢測問題不同，變化檢測的目標是對圖像之間的差異進行判別與定位，需要以兩張或多張圖像為輸入。一直以來，變化檢測都是遙感圖像分析領域的一個重要研究問題，并且也有許多優秀的研究成果。

Zhao 等［25］首次將深度學習用于變化檢測問題，通過比例對數算子計算輸入圖像之間的差異圖，然后利用深度學習完成差異圖的后續判別。相反地，Zhan 等［26］將孿生卷積神經網絡用于圖像對特征圖提取階段，然后以歐氏距離作為相似性度量計算特征圖之間的距離，最后通過閾值化和K近鄰得到檢測結果。與前兩種方法不同，Caye Daudt 等［27］基于U-Net［28］提出了三種變化檢測模型，這三種模型分別采用原圖拼接、特征圖拼接與特征圖差值三種信息融合的方式，并且都是端到端的全卷積神經網絡。而黃平平等［29］則通過構造基于改進相對熵與均值比的融合差異圖提出了無監督的變化檢測方法，并將其用于洪災前后的變化趨勢估計。

可以發現，變化檢測方法正好可以用于印刷缺陷檢測問題，因為印刷缺陷本質上就是檢測圖像相較于參考圖像的變化之處。因此，Tang 等［10］基于變化檢測的思路，以VGG-tiny（Visual Geometry Group network-tiny）［30］作為骨架網絡提取檢測圖像和參考圖像的特征圖，通過特征圖差值進行信息融合后，再使用分組金字塔池化（Group Pyramid Pooling，GPP）完成印刷電路板缺陷檢測。Tang 等［10］分別測試了使用最大池化和平均池化兩種方法的GPP 模型，實驗結果表明，最大分組金字塔池化（Max-Pooling Group Pyramid Pooing，MP-GPP）方法的性能更好。相似地，Haik 等［11］針對動態數據打印提出了兩種缺陷檢測方法：一種是在像素空間進行信息融合的偽彩色單次檢測器（Pseudo-color Single Shot Detector，Pseudo-SSD）；另一種是在語義空間進行信息融合的變化檢測單次檢測器（Change-Detection Single Shot Detector，CD-SSD）。

與上述同樣基于變化檢測思路設計的印刷缺陷檢測模型相比，本文提出的CoNet 具有以下特點：

1）在骨架網絡部分，CoNet 采用一對只包括三次下采樣的輕量化網絡提取圖像對的中層語義特征。因為工業檢測問題并不過分依賴高層語義特征，該設計可以更好地平衡檢測精度和速度。

2）頭部網絡MsCDM 采用了非對稱的雙通路特征金字塔結構。該結構通過增加一個運算量極低的次通路，將檢測特征圖通過類殘差結構傳遞給各個尺度的輸出模塊，在幾乎不降低速度的條件下提升檢測精度。

2 深度對比網絡模型CoNet

本文采用變化檢測的思路，將孿生卷積神經網絡與非對稱的雙通路特征金字塔結構結合，提出了一個端到端的印刷缺陷檢測模型——CoNet。如圖2 所示，該模型以檢測圖像和參考圖像組成的圖像對為輸入，首先通過深度對比模塊（Deep Comparison Module，DCM）得到檢測圖像與參考圖像的語義關系圖；然后利用MsCDM 對語義關系圖進行后處理；最終輸出大、中、小三個尺度的預測結果，其中包括置信度、邊界框與缺陷類別三部分的預測值。最后，本文采用基于廣義交并比（Generalized Intersection over Union，GIoU）［31］的多目標損失函數訓練模型，引導模型更好地學習圖像對比的能力。

圖2 CoNet模型結構Fig.2 Structure of CoNet model

2.1 深度對比模塊

如圖3（a）所示，DCM 主要由兩個步驟組成：1）將檢測圖像與參考圖像組成的圖像對映射到語義空間；2）通過特征融合算子在語義空間中挖掘檢測圖像與參考圖像之間的語義關系。DCM 是CoNet 的核心，因為本文的目的就是將模板匹配方法中的對比思想和深度學習中的語義特征結合，通過在語義空間中進行圖像對比增強模型魯棒性。

2.1.1 孿生骨架網絡

與殘差網絡（Residual Network，ResNet）［32］等CNN 不同，DCM 中的骨架網絡是一個只包括三次下采樣的輕量化CNN，共18 個卷積層。采用淺層網絡的主要原因如下：

1）工業缺陷檢測問題對模型的計算復雜度要求較高，需要保證實時性。在采用孿生結構的情況下，網絡過深會成倍地增加計算量，因此DCM 采用輕量化網絡。

2）本質上，深度對比就是對檢測圖像與參考圖像的對應局部進行特征提取與相似度計算，而局部區域的大小則是模型的感受野。感受野過小會導致模型無法獲取足夠的語義信息，過大則會令不相似區域的語義特征相似度過高，因此DCM 采用只有三次下采樣的淺層網絡控制感受野。

如圖3（b）所示，骨架網絡由卷積層和殘差模塊組成。卷積層包括卷積、批歸一化與激活三個步驟，參數k、s、c分別表示卷積核大小、步長、卷積核個數，步長為2 時，卷積層具有下采樣的功能；殘差模塊由兩個卷積核大小分別為1 和3的卷積層組成，并采用跳躍結構將輸入值短接到第二個卷積層的激活函數前。具體地，卷積層和殘差模塊的運算過程可以分別記為式（1）和式（2）：

圖3 DCM示意圖Fig.3 Schematic diagram of DCM

其中：帶泄露修正線性單元（Leaky Rectified Linear Unit，LeakyReLU）的參數α為0.1。

為了同時處理輸入圖像對，CoNet 采用孿生的網絡結構，使用一對結構完全相同的骨架網絡分別處理檢測圖像和參考圖像，從而保證圖像對的特征圖維度相同。但是，因為CNN 是有參數模型，在參數不同時，兩個網絡結構完全相同的模型在本質上依舊是兩個不同的映射函數。因此，如圖3（a）所示，本文提出了以下兩種不同的方案：

1）結構相同，參數共享。該方案的核心目標是通過相同的非線性映射函數E，將原始圖像從像素空間投影到語義空間，令投影后的圖像具有可度量的語義相似性。可度量的語義相似性是指原圖的局部區域經過映射函數E后，被投影為語義空間中的一個點，該方案希望投影點的距離就是局部區域之間的語義相似性。

2）結構相同，參數不共享。相較于參數共享方案，該方案的缺點在于，兩個參數不同的模型本質上是兩個不同的非線性映射函數E1、E2，未訓練的模型所得投影點的相似性關系無法得到保證。但是，該方案通過減少約束條件擴大了訓練時的搜索空間，令模型擁有更強的表征能力，只是訓練難度有所增加。

因此，兩種方案各有優劣。

2.1.2 特征融合算子

以孿生骨架網絡輸出的語義特征圖Fdet和Fref為輸入，特征融合算子的目標就是整合二者的信息，并挖掘它們之間的相關性。這種相關性可以是顯式的相似性，也可以是隱式的不可解釋的相關性。因此，針對特征融合算子，本文也提出了兩種方案：一種是引入先驗信息設計的語義差分算子；另一種是基于卷積層設計的卷積融合算子。

1）語義差分算子。由2.1.1 節可知，原始圖像經過孿生骨架網絡投影后具有可度量的語義相似性，當局部區域語義相似時，投影點距離足夠近，反之投影點距離足夠遠。基于這一先驗信息，語義差分算子可以由式（3）定義。輸出結果越接近0.5 表示語義相似度越高；越接近0 或1 則表示相似度越低。

2）卷積融合算子。不同于語義差分算子，該算子不進行顯式的語義相關性挖掘，而是在特征通道維度拼接圖像對的語義特征圖后，使用兩個卷積核大小分別為1×1 和3×3 的卷積層進行特征融合。該算子雖然可解釋性不足，但得益于卷積層參數的可學習性，經過大量數據訓練之后，其表征能力相對更強。

2.2 多尺度變化檢測模塊

本文采用非對稱的雙通路特征金字塔結構，設計了一種多尺度變化檢測模塊（MsCDM）。該模塊由兩個獨立的信息通路組成：語義關系圖通路、檢測特征圖通路。其中，語義關系圖通路是必須存在的，該通路以DCM 輸出的語義關系圖Fdiff為輸入，并對其中的差異信息進行判定、定位與分類，因此是檢測模塊的主通路；而檢測特征圖通路是可選的次通路，該通路以檢測圖像的語義特征圖為輸入，通過殘差模塊和步長為2 的卷積層，將特征圖變換后作為輔助信息傳輸至三種尺度的輸出模塊中，用于提升檢測性能。

2.2.1 MsCDM網絡結構

如圖4（a）所示，MsCDM 的主通路由2 個下采樣過程和2個上采樣過程組成，形成一個完整的特征金字塔結構。金字塔的下采樣分支和上采樣分支之間，信息的交互通過跳躍連接和特征通道拼接完成。以Fdiff為輸入，該通路首先在下采樣分支上得到三種尺度的中間值Fs、Fm、Fl，分辨率分別為原圖的1/8、1/16、1/32；然后，從Fl開始，模型先通過輸出模塊得到大尺度預測結果Ol，再用縮放因子為2 的雙線性插值層處理中間值，并將上采樣后的值與Fm拼接得到下一尺度的輸入值；最后，循環上一步驟得到中、小尺度的預測結果Om、Os。

與主通路不同，檢測特征圖通路只包括一個輕量級的下采樣分支，由圖4（a）可知，該分支只包括3 個殘差模塊和2個步長為2 的卷積層。因為該通路的作用只是將檢測特征圖作為輔助信息用于輸出模塊，所以在盡量地增加運算量的前提下，此處采用了與主通路不同的輕量級網絡。

連接以上兩個通路的模塊是輸出模塊（Output Block）。如圖4（b）所示，輸出模塊由若干參數不同的卷積層堆疊而成，主通路輸入值經過5 個卷積層之后，同時進入兩個分支：一個作為中間值被輸入到上采樣模塊；另一個與次通路的檢測特征圖拼接，并用于預測結果計算。根據輸出模塊的網絡結構可知，次通路的檢測特征圖只參與預測結果計算，并不會進入主通路的特征金字塔中。

圖4 MsCDM示意圖Fig.4 Schematic diagram of MsCDM

2.2.2 預測結果解碼

由圖4（b）的輸出層參數可知，MsCDM 的輸出值的通道數都是3（5+N）。假設原圖的分辨率為（H，W），那么CoNet 預測結果的維度分別是：

以小尺度預測結果Os為例，如圖5 所示。該結果分辨率為原圖的1/8，一共包括個長為3（5+N）的向量，每個向量又分為三部分，每部分對應一組預測結果。具體地，一組預測結果共包括5+N位數，分別代表三種預測值：

圖5 解碼過程示意圖Fig.5 Schematic diagram of decoding process

1）置信度。預測結果的第1 位用于表示對應位置是否存在缺陷，也就是說，將原圖劃分為的網格后，使用模型預測值表示對應網格中存在缺陷的置信度。如式（6）所示，解碼過程就是使用Sigmoid 函數將預測結果的第1 位映射到（0，1）區間。

2）邊界框。

①邊界框中心點。預測結果的第2～3 位用于表示缺陷邊界框中心點相對網格中心點的偏移量。假設網格中心點為（xc，yc），解碼過程可以記為式（7）。首先用系數為0.5 的雙曲正切函數將預測值映射到（-0.5，0.5）區間，與基準中心點相加后，再乘以當前尺度的下采樣倍數s。因此邊界框中心點最多只會比網格中心點向任意方向偏移半個網格，不會落在當前網格之外。

②邊界框大小。預測結果的第4～5 位用于表示缺陷邊界框的寬、高。本文為每個尺度預設了三種寬高比的錨框，每個錨框的面積與當前網格的面積相等。假設錨框的寬、高為wa、ha，如式（8）所示，邊界框大小的解碼過程就是將指數函數激活的預測值作為系數對錨框的寬、高進行縮放。

3）缺陷類別。預測結果中剩余的N位分別表示缺陷屬于某種類別的概率，其解碼過程就是使用Softmax 函數激活預測結果后N位，令它們的和為1。

此外，得到預測邊界框后，還需要使用非極大值抑制（Non-Maximum Suppression，NMS）算法進行邊界框去重。

2.3 損失函數

與預測結果解碼相同，模型訓練時的損失函數同樣分為置信度、邊界框與缺陷類別，三者之間的關系為：

其中：gconf表示置信度真值，當錨框為陰性時取值為0，邊界框和缺陷類別的損失函數不參與模型訓練；反之則在訓練時同時計算三部分損失函數。

置信度和缺陷類別預測是分類問題，因此本文采用交叉熵函數作為這兩部分的損失函數，計算方法如下：

邊界框的中心點與大小預測則是回歸問題，在該部分，本文采用了基于GIoU 設計的損失函數。GIoU 的計算方法如式（13）所示：

其中：交并比（Intersection over Union，IoU）表示兩個邊界框交集與并集的比值。A和B表示兩個邊界框；C表示二者的最小閉包。由式（13）可知，GIoU 的取值范圍是（-1，1），當兩個邊界框的距離無限遠時，其取值為-1；當二者重合時，取值則為1。因此，GIoU 損失函數可以記為式（14），當預測框與真實框重合時，損失為0。

3 實驗與結果分析

3.1 數據集與評估指標

本文在兩個數據集上進行了實驗，一個是公開的印刷電路板缺陷數據集DeepPCB［10］；另一個是本文收集的真實工業場景下的立金缺陷數據集。

DeepPCB 是一個包括6 種缺陷的數據集，它通過圖像對的形式組織數據，并采用邊界框的方式標注缺陷，因此適用于測試本文提出的CoNet 模型。該數據集共3 000 張分辨率為640×640 的圖像，正、負樣本各1 500 張，二者一一對應后組成1 500 個圖像對。為了與現有印刷缺陷檢測方法對比，本文采用Tang 等［10］使用的方式，將數據集劃分為訓練集和測試集兩部分，前者1 000 個圖像對，后者500 個圖像對。

立金缺陷數據集是一個真實的銀行卡表面印刷缺陷數據集，共包括6 個印刷區域，1 384 張圖片，缺陷類別包括5種，分別是：殘缺、偏移、漏印、多印、劃痕。與DeepPCB 不同，立金缺陷數據集將每個印刷區域的所有圖像劃分為正、負樣本集，而非圖像對。同一區域的正、負樣本集中的所有圖像可以交叉組合。由于立金缺陷數據集的負樣本較少，為了得到更可靠的實驗結果，本文在數據集劃分時采用五折交叉驗證的方式，將各區域的正、負樣本劃分為5 份后，每次實驗選4 份作為訓練集，剩余1 份則作為測試集。如此重復5次，最終結果取5 次實驗的均值。

本文將目標檢測任務中常用的平均精度均值（mean Average Precision，mAP）作為評估指標，當檢測邊界框與標注邊界框的交并比（Intersection over Union，IoU）大于0.5 且類別相同時，該檢測邊界框為陽性。

3.2 實驗細節

本文所有實驗的運行環境相同，包括：Xeon Platinum 8163 2.5 GHz CPU ×1，Tesla P100-16G GPU ×1。

為了與其他性能優秀的變化檢測方法進行對比，本文復現了Tang 等［10］提出的MP-GPP 和Haik 等［11］提出的CD-SSD，并在兩個數據集上進行了對比實驗。與本文提出的CoNet相似，MP-GPP 和CD-SSD 都采用變化檢測思路進行印刷缺陷檢測，其中MP-GPP 是DeepPCB 的基線模型，而CD-SSD 則是基于變化檢測思路解決印刷缺陷檢測問題的較新模型。

同時，本文還與模板匹配方法、Faster R-CNN［8］進行了對比，二者在DeepPCB 上的實驗結果來自文獻［10］，而在立金缺陷數據集上的實驗結果則是本文的真實測試值。其中，模板匹配方法是本團隊已商業化的方案，因此可以保證其精度是有意義的；Faster R-CNN 的實驗則基于開源的MMDetection［33］完成。

對于DeepPCB，本文將輸入圖像的分辨率設置為640×640，并將訓練批次大小設置為4；對于立金缺陷數據集，本文首先采用長邊切分與短邊填充結合的方式，將原圖轉化為320×320 的圖像塊，然后將訓練批次設置為8。訓練時，這兩個數據集都會進行數據增廣，并且每個圖像對中的兩張圖像通過的數據增廣是一致的。

所有實驗都用Adam 優化器訓練，初始學習率為0.000 3，并且采用熱啟動和余弦衰減策略動態調整學習率，終止學習率為0.000 006。每次實驗總共訓練50 輪，前2 輪學習率處于熱啟動階段，后48 輪學習率再進入余弦衰減階段。最終用于測試的模型為第50 輪保存的模型。

3.3 實驗結果分析

首先，本文在DeepPCB 上評估CoNet 模型，并與模板匹配方法、Faster R-CNN［8］、MP-GPP［10］和CD-SSD［11］進行對比，對比結果如表1 所示。

表1 在DeepPCB上的各類別AP與mAP 單位：%Tab.1 Average value of mAP and mAP on DeepPCB unit：%

在采用孿生骨架網絡參數共享、差分融合算子和雙通路結構的配置情況下，CoNet 模型的mAP 為99.1%，相較于現有的四種方法都取得了更好的檢測結果。與模板匹配方法相比，CoNet 的mAP 提高了9.8 個百分點，在性能上全面領先。與Faster R-CNN 相比，CoNet 的mAP 提高了1.5 個百分點，尤其在Open 和Short 缺陷類別上，CoNet 的AP 分別高出了2.2 和3.3 個百分點。與同類型的變化檢測方法MP-GPP和CD-SSD 相比，CoNet 依舊取得了更好的檢測結果，其mAP在超過了99%的情況下相較于MP-GPP 和CD-SSD 分別提升了0.4 和0.7 個百分點，并且在各種類型缺陷上的AP 都等于或者高于這兩種方法。綜上可知，相較于對比方法，本文提出的CoNet 具有更優的性能。

然后，考慮到DeepPCB 的難度較小，實驗結果可能不足以反映它們的真實性能，本文又在更復雜的立金缺陷數據集上進行了類似的評估，實驗結果如表2 所示。

表2 在立金缺陷數據集上的檢測結果單位：%Tab.2 Detection results on Lijin defect dataset unit：%

在采用孿生骨架網絡參數共享、差分融合算子和雙通路結構的配置情況下，CoNet 的mAP 平均值為69.8%，相較于兩種思路類似的方法MP-GPP 和CD-SSD，分別提升了3.5 和2.4 個百分點；相較于模板匹配方法和Faster R-CNN，分別提升了12.0 個百分點和5.3 個百分點。除了CD-SSD 得到了比MP-GPP 更高的mAP 外，表2 的整體結果與DeepPCB 上的結果基本一致。值得注意的是，在立金缺陷數據集上，如果只輸入檢測圖像訓練Faster R-CNN 會出現不收斂的情況；但如果將檢測圖像和參考圖像進行堆疊，組成6 通道的偽圖像，則訓練收斂，表2 中的Faster R-CNN*就是通過該方法訓練所得。分析訓練數據發現，立金缺陷數據集中存在較多的內容漏印和偏移缺陷，這可能就是Faster R-CNN 在正常訓練時不收斂的原因，同時也與前文提出的內容相關性缺陷的概念相吻合。根據Caye Daudt 等［27］提出的變化檢測模型可知，堆疊檢測圖像和參考圖像在本質上就是一種圖像對信息融合的方式，因此可以在一定程度上解決內容相關性問題。

此外，通過比較各個方法在五折交叉驗證中的最大和最小mAP 差值可以發現，CoNet 具有更穩定的性能表現，其最大和最小mAP 的差值為1.2 個百分點，而MP-GPP 和CD-SSD則分別是2.3 個百分點和1.7 個百分點。這表明，CoNet 不僅精度更高，而且對訓練數據的自適應性也更強

除了定量分析CoNet 的檢測精度，本文還通過可視化方法更直觀地比較了對比實驗中的5 種方法。圖6 是3 種變化檢測方法在DeepPCB 上的檢測結果可視化，相較于MP-GPP和CD-SSD，本文提出的CoNet 在沒有漏檢的情況下，還避免了印刷內容邊緣處的誤檢。類似地，圖7 是立金缺陷數據集上的可視化結果。相較于圖7（a）～（b）兩個非變化檢測方法的結果，圖7（c）～（e）的漏檢更少，這說明變化檢測方法對印刷缺陷檢測任務是有效的；相較于MP-GPP 和CD-SSD 兩種變化檢測方法，本文提出的CoNet 進一步提高了檢出率，并且依舊沒有出現誤檢。該結論與表1～2 的結果基本一致。

圖6 3種變化檢測方法在DeepPCB上的檢測結果可視化Fig.6 Visualization of detection results of three change detection methods on DeepPCB

圖7 表2中的五種方法在立金缺陷數據集上的檢測結果可視化Fig.7 Visualization of detection results of five methods in Table 2 on Lijin defect dataset

3.4 消融實驗與復雜度分析

本節首先通過消融實驗對CoNet 的兩個主要模塊及其不同方案進行分析；然后再對CoNet 的參數量、浮點運算次數和單次檢測的耗時進行分析。

3.4.1 針對DCM中各組件的消融實驗

由2.1.1 和2.1.2 節可知，孿生骨架網絡和特征融合算子分別存在兩種不同的方案，在MsCDM 采用雙通路結構時，將這兩個組件的可行方案交叉組合，然后在DeepPCB 和立金缺陷數據集上進行對比，結果如表3 所示。

表3 采用不同方案的DCM檢測結果Tab.3 Detection results of DCM with different schemes

在DeepPCB 上，4 種組合方案中的mAP 最高值為99.1%，在參數共享和語義差分算子（SubFuser）組合時取得。當該組合的骨架網絡改為參數不共享時，mAP 下降了0.5 個百分點。當采用卷積融合算子（ConvFuser）時，不論骨架網絡是否參數共享，mAP 都是98.8%。

在立金缺陷數據集上的實驗也取得了類似的結果。當使用語義差分算子時，骨架網絡參數共享與不共享兩種情況下的mAP 分別為69.8%和68.1%，后者相較于前者下降了1.7 個百分點。當使用卷積融合算子時，兩種骨架網絡方案的mAP 接近，只相差0.2 個百分點。

根據兩種融合算子在不同情況下的性能表現可以得出結論：差分融合算子需要與參數共享的孿生骨架網絡組合才能取得更好的效果；而卷積融合算子則可以適應不同類型的骨架網絡。合理的解釋是：差分融合算子基于強先驗信息設計，希望原始圖像間的語義相似性可以轉化為語義空間中投影點間的距離，因此參數共享的方案更加適合；而卷積融合算子因為其可學習的特性，對輸入數據的自適應能力更強，所以不會過分依賴骨架網絡輸出的語義特征。雖然在表3中卷積融合算子的性能略低于差分融合算子，但這并不完全表示卷積融合算子就不可取，因為可學習的模型往往需要更多的數據訓練，而本文使用的數據集規模都較小。

3.4.2 針對MsCDM中雙通路結構的消融實驗

本文在DCM 采用骨架網絡參數共享與語義差分算子組合的前提下，分別測試了MsCDM 采用單通路結構與雙通路結構時的性能，結果如表4 所示。相較于只有主通路的單通路結構，增加次通路的雙通路結構在DeepPCB 上的mAP 提升了1.2 個百分點，在立金缺陷數據集上則提升了2.1 個百分點。因此，雙通路結構是有效的。

表4 不同MsDCM結構下的檢測結果單位：%Tab.4 Detection results under different structures of MsCDM unit：%

3.4.3 CoNet復雜度分析

作為工業檢測任務的一種，印刷缺陷檢測問題需要算法具有一定的實時性。本節在采用孿生骨架網絡參數共享與差分融合算子組合的前提下，分別測試了MsCDM 采用單通路結構與雙通路結構時CoNet 的復雜度，結果如表5 所示。實驗時輸入圖像的分辨率為640×640，硬件設備為：Xeon Platinum 8163 2.5 GHz CPU ×1；Tesla P100-16G GPU ×1。

表5 不同結構MsCDM下CoNet的復雜度Tab.5 Complexities of CoNet under different structures of MsCDM

在MsCDM 采用單通路結構時，CoNet 的參數量約為49.8×106，浮點運算次數約為96.0×109，在指定設備上完成前向運算和NMS 的總耗時約為32.3 ms（1 000 次實驗均值）。增加次通路后，參數量和運算量分別增加了12.8×106和10.1×109，耗時則增加了3.4 ms。可見，增加次通路并不會過分影響檢測速度，CoNet 的最終耗時為35.7 ms，具有較好的實時性。

4 結語

本文將變化檢測用于印刷缺陷檢測問題，將對比思想與語義特征結合，提出了一種通用的印刷缺陷檢測方法CoNet。具體地，CoNet 首先通過深度對比模塊挖掘圖像對的語義關系圖；然后再利用雙通道的多尺度變化檢測模塊在語義關系圖上定位并識別印刷缺陷。得益于深度對比模塊強大的表征能力與多尺度變化檢測模塊利用雙通道結構引入的更多有效信息，CoNet 最終在DeepPCB 和立金缺陷數據集上都取得了優于現有基于深度學習的變化檢測方法的性能。實驗結果表明，在語義空間進行圖像對比并用于解決印刷缺陷檢測任務的思路是可行的，但依舊存在可優化的部分。后續的研究可以從兩方面展開：一方面是進一步提高CoNet 在弱小缺陷上的檢測性能；另一方面是引入弱監督、自監督等方法，解決基于深度學習的變化檢測方法需要大量有標注數據訓練的問題。