




關鍵詞:多模態;記憶庫;三維缺陷檢測;計算機視覺
中圖分類號:TP391.4 文獻標志碼:A
0引言(Introduction)
缺陷檢測是確保產品質量的重要一環。得益于高清彩色攝像機的出現,產品的表面狀況能以彩色( RGB)圖像的形式被清晰地記錄下來。利用計算機視覺技術代替傳統的人工缺陷檢測,已經成為業界發展主流趨勢。近年來,深度學習快速發展,為處理圖像這一復雜的數據類型提供了新的解決方案。
張世強等對YOLOv5(You Only Look Once v5)目標檢測算法進行了改進,通過添加注意力機制提升了模型的表達能力,并將其應用在鋼鐵表面的缺陷檢測任務中。郭龍源等提出了基于掩膜區域卷積網絡(Mask R-CNN)的缺陷檢測方法,可以對紋理復雜、光照不均及對比度低的磁瓦圖像進行精確的缺陷分割,具有較強的魯棒性。NATH等提出一種混合網絡模型S2D2Net(Steel Surface Defect Diagnosis Network)用于工業鋼材表面的缺陷檢測。S2D2Net使用預訓練模型提取圖像特征,并利用這些特征訓練一個膠囊網絡(Capsule Network)。這些監督學習(Supervised Learning)方法優異的性能表現都建立在使用足量的缺陷樣本進行訓練的前提上。然而,在實際的工業生產場景中,缺陷樣本稀缺,這使得深度神經網絡的訓練難以收斂且模型容易發生過擬合(Overfitting)問題,嚴重影響了模型性能。除此之外,一些幾何形狀缺陷,如孔洞、凹坑等,在常規的二維圖像中很難被檢測到;當有新的缺陷類型出現時,這些方法也無法進行增量學習,而需要在更新后的訓練集上重新訓練,大大降低了檢測效率。
為了解決上述問題,本文提出了一種基于多模態記憶庫的三維缺陷檢測方法,首先分別使用Vision Transformer和Point Transformer提取二維與三維特征,并通過對比學習損失函數InfoNCE關聯兩類特征,實現多模態特征的融合;其次使用一種新的缺陷過濾器濾除其中的噪聲并構建高質量的多模態記憶庫;最后利用記憶庫和彈性特征分類器實現三維缺陷檢測。
1相關研究(Related research)
在缺陷檢測領域,根據在訓練過程中是否有真實的缺陷樣本及其標簽的加入,可將現有研究方法劃分為基于無監督學習的缺陷檢測方法和基于有監督學習的缺陷檢測方法兩類。
1.1基于無監督學習的缺陷檢測方法
基于無監督學習的缺陷檢測方法以異常檢測與分割為主。RUFF等將SVDD(Support Vector Data Description)拓展到深度學習領域,提出了Deep SVDD,使用深度神經網絡將正常樣本盡可能多地投影到設計好的高維超球體內,而使缺陷樣本投影到離超球體較遠的位置,并以超球面為分界區分正常樣本和缺陷樣本。YI等將Deep SVDD拓展到圖像塊級別,提出了Patch SVDD,它不僅有著更高的檢測識別率,而且還能生成分割圖,定位缺陷的位置。REISS等使用預訓練的特征提取器抽取特征,并利用可塑權重鞏固(Elastic Weight Consolidation,EWC)損失和費舍爾信息矩陣(Fisher Information Matrix)進行訓練,減輕了Deep SVDD訓練過程中容易出現的特征崩塌(Feature Collapse)問題。COHEN等提出了語義金字塔異常檢測(Semantic Pyramid Anomaly Detection,SPADE)方法,直接使用預訓練模型提取的正常樣本的特征嵌入(Embeddings)輔以K近鄰算法(K-Nearest Neighbors,KNN),取得了比現有的從零開始訓練的檢測方法更好的檢測性能。DEFARD等將SPADE拓展到圖像塊級別,融合了預訓練網絡中不同層次的特征圖,并使用馬氏距離作為衡量異常與否的指標。ROTH等提出了PatchCore,在融合不同層次特征圖的基礎上,進一步融合了每一層特征圖內部的局部區域特征,并使用核心集(Coreset)下采樣策略,大幅縮減了記憶庫容量,加快了推理速度。
基于無監督學習的缺陷檢測方法由于在訓練過程中只使用正常樣本而不依賴缺陷樣本,因此在極度缺少缺陷樣本的環境下表現出色。然而,由于缺少監督信號,即缺陷樣本的信息,使這一類方法不具有分類的能力,無法具體識別出產品表面出現的是何種缺陷。
1.2基于有監督學習的缺陷檢測方法
缺陷樣本的稀缺一直是阻礙有監督缺陷檢測方法廣泛應用的瓶頸。為了解決這個問題,研究者們提出許多方法來生成高清、真實的偽缺陷樣本。YUN等使用條件卷積變分自編碼器(Conditional Convolutional
Variational Autoencoder,CCVAE)生成偽缺陷圖像。JAIN等使用生成對抗網絡(Generative Adversarial Networks,GANs)合成了更逼真的偽缺陷圖像。然而,這些生成式方法需要一定量的高質量真實缺陷圖像進行訓練,缺乏實際應用價值。
此外,研究者們聚焦于探索更有效的網絡結構和訓練手段,以降低對缺陷樣本的依賴。DONG等將金字塔特征融合以及注意力(Attention)機制結合在一起,以更有效地捕捉缺陷圖像中的多尺度特征。WANG等提出了一種包含卷積層的混合Transformer網絡架構,用以同時捕捉缺陷圖像中全局與局部的特征。然而,以上這些網絡結構都是在圖像分類等計算機視覺領域通用而并非專門針對缺陷檢測任務進行的設計,因此在實際應用中帶來的性能提升相對有限。
2研究方法(Research method)
傳統的有監督缺陷檢測方法在缺陷樣本稀缺的情況下,容易訓練出過擬合的模型,導致無法正確學習到缺陷樣本的分布。相較之下,基于多模態記憶庫的方法通過存儲部分關鍵多模態特征,能最大限度地利用有限的缺陷樣本,隱式地對缺陷樣本的分布進行建模,更適用于復雜的工業缺陷檢測環境。
本文提出一種基于多模態記憶庫的三維缺陷檢測方法,其訓練及推理流程如圖1所示。在訓練階段:首先,對于任意輸入樣本,將其二維RGB圖像和3D點云數據分別輸入預訓練的Vision Transformer和Point Transformer中,提取出2D特征圖和3D特征圖;其次,在特征匹配模塊中,使用對比損失函數自監督地學習兩個多層感知機(Multilayer Perceptron,MLP)的映射,使2D和3D特征圖上同一位置的特征信息相互關聯并拼接后得到多模態特征圖;最后,對于正常樣本的多模態特征圖,使用其中的特征向量集合初始化缺陷過濾器,在經過下采樣之后存入多模態記憶庫。對于缺陷樣本的多模態特征圖,則在經過下采樣之后,還需使用缺陷過濾器濾除其中的正常特征噪聲后,再存入多模態記憶庫。在推理階段:首先,對于任意測試樣本,提取出它的多模態特征圖;其次,使用一種彈性特征分類器,以訓練階段得到的多模態記憶庫為基準,分別檢測測試圖像的多模態特征圖中所有特征向量的類別,得到異常熱力圖;最后,使用投票的方式統計測試圖像的所有特征向量的類別,其中得票數最多的類別將被視為測試圖像的類別,特別是只有當所有特征向量均為正常類別時,測試樣本才會被判定為正常類。
下文將對其中部分關鍵模塊進行詳細說明,包括三維特征的提取、特征匹配模塊、缺陷過濾器及彈性特征分類器。
2.1三維特征的提取
本文使用預訓練的Point Transformer提取三維點云的特征。Point Transformer是Transformer模型在三維點云數據上的應用;其核心的Point Transformer層的結構如圖2所示,其中x為點特征向量集合,聲為點的空間坐標集合,y為變換后的點特征向量的集合。Point Transformer使用的是向量自注意力機制,即變換后得到的權重不再是標量,而是一個長度與特征維度相等的向量;其計算過程如公式(1)所示: