岳耀帥,陳成軍,李東年,官源林,洪軍,趙正旭
(1.青島理工大學機械與汽車工程學院,山東青島 266520;2.西安交通大學機械工程學院,陜西西安 710049)
裝配是將機械零部件按照設計順序組裝在一起形成產品的生產過程,裝配順序是影響產品裝配質量的關鍵。在復雜產品裝配過程中,檢測每個裝配步驟新裝零部件,有助于獲取機械裝配過程的相關信息,及時發現裝配順序錯誤,提高機械產品的生產效率。因此對機械類裝配體的裝配過程智能檢測具有重要研究價值,但目前還缺乏監測產品裝配順序的有效技術手段。
圖像的變化檢測可以通過分析2幅不同時刻的圖像,檢測出圖像中隨時間發生變化的信息。圖像的變化檢測目前主要應用在遙感圖像分析中,可以實現土地利用變化檢測[1]、災害評估[2-3]和環境監測[4]等。例如,ALESHEIKH等[5]利用圖像的變化檢測方法檢測海岸線的變化;CHEN等[6]將圖像的變化檢測應用于檢測街道場景變化;DU等[7]將圖像的變化檢測應用于檢測城市建筑物場景變化。此研究擬將圖像的變化檢測技術應用于機械裝配體變化檢測,以識別每個裝配步驟變化的零部件,實現產品裝配順序的監測。
傳統的變化檢測方法可以分為2類:基于像素的變化檢測方法和基于對象的變化檢測方法[8]。基于像素的變化檢測方法是根據圖像的像素信息生成差異圖像,并通過閾值分割或聚類得到變化圖像[9-11],這種方法實現簡單,但是忽略了空間信息,并且圖像處理過程中會出現大量噪聲[12]。基于對象的變化檢測方法是利用圖像的紋理、結構和幾何信息獲得變化圖像[13-15],這種方法雖然充分利用了圖像的空間信息,但特征提取方法較為復雜,魯棒性較差。
最近幾年,深度學習方法被廣泛應用在變化檢測中。基于深度學習的圖像變化檢測方法主要分為2類,有監督的圖像變化檢測和無監督的圖像變化檢測。基于深度學習有監督圖像變化檢測方法利用包含像素級標簽的數據集對神經網絡進行訓練,再將待檢測圖像輸入到訓練好的模型中,分割出圖像中的變化區域。例如,ZHAN等[16]提出一種基于深度孿生卷積神經網絡的圖像變化檢測方法,該網絡使用加權對比損失訓練孿生卷積網絡,直接提取圖像特征,使提取到的特征更具區分性。ZHANG等[17]提出了深度監督圖像融合網絡的圖像變化檢測方法,使用全卷積網絡提取圖像的深度特征,然后利用深度監督差異識別網絡進行圖像變化檢測。CAO等[18]在卷積神經網絡中加入深度去噪模型,降低圖像噪聲,提高檢測精度。CHEN等[12]在孿生網絡中加入雙注意力模塊,獲得更多的判別特征,提高神經網絡的性能。無監督變化檢測方法通常是先提取圖像特征,然后通過處理圖像特征實現圖像的變化檢測。例如DE JONG、BOSMAN[19]利用卷積神經網絡分別提取輸入圖像5個級別的特征映射,利用每個級別特征映射的差異生成變化圖像。LI等[20]利用全卷積神經網絡提取圖像更具區分性的特征,同時在網絡中加入噪聲建模模塊減少圖像噪聲。REN等[21]利用生成對抗網絡(Generative Adversarial Networks,GAN)生成配準圖像,提高了變化檢測網絡的效率。
當前,基于深度學習的圖像變化檢測方法取得了較好的效果,其中有監督變化檢測應用比較廣泛。但目前對機械裝配體的變化檢測研究較少,缺少機械裝配體圖像變化檢測的數據集,這是由于裝配體的顏色單一,并且缺少紋理特征;另外一方面,現有的圖像變化檢測方法主要是檢測視角相近的圖像,對視角變化較大圖像的變化檢測研究較少。
本文作者創新性地應用圖像多視角變化檢測技術檢測裝配場景的變化,獲取新裝配的零部件,監測產品的裝配順序。建立用于機械裝配體多視角變化檢測的2個數據集,分別為合成深度圖像數據集、真實彩色圖像數據集,提出一種基于三維注意力和雙邊濾波的機械裝配體多視角變化檢測網絡(TAF Net)。TAF Net網絡引入三維注意力機制,可以同時關注特征圖中的通道特征和空間特征,提高了TAF Net網絡細節特征的提取能力。輸出的變化圖像經過雙邊濾波處理,能夠優化變化圖像中零部件的邊界,減少圖像中的噪聲。在真實數據集訓練中引入遷移學習,將合成深度圖像數據集的訓練模型作為真實數據集的預訓練模型,提高網絡模型的精度;實現只用少量訓練集就可以實現機械裝配體的多視角變化檢測,降低人工標注標簽的工作量。為了驗證文中所提方法在機械裝配場景下的多視角變化檢測性能,將在2個數據集上分別進行消融實驗和對比實驗。
文中在CDNet網絡[22]基礎上,提出了一種基于三維注意力和雙邊濾波的機械裝配體圖像多視角變化檢測網絡(TAF Net),使用圖像變化檢測監測裝配順序。TAF Net網絡是具有編碼器和解碼器的體系結構,網絡結構如圖1所示。

圖1 網絡結構
網絡共包含4個模塊:編碼、解碼、注意力和雙邊濾波。TAF Net網絡的輸入為機械裝配體t0和t12個不同時刻的圖像,然后編碼器提取2個不同時刻的圖像特征,將2個不同時刻圖像的特征融合后傳給解碼器進行解碼。為了提取圖像更多的細節特征,文中在TAF Net網絡中引入三維注意力機制,編碼層提取到的特征經注意力模塊后和解碼層輸出的特征進行融合,將融合后的特征傳給下一層解碼器繼續解碼。引入雙邊濾波處理模塊,對輸出的變化圖像經過雙邊濾波處理,有效過濾圖像中的噪聲,優化圖像中變化零件的邊界。
編碼模塊的結構如圖2所示。編碼器選用ResNet18[23],它主要由4個殘差塊(Block1、Block2、Block3、Block4)組成。隨著網絡層數的加深,網絡的感受野會增大,高維特征的語義信息表達能力會增強,但深度網絡缺乏空間幾何細節,因此將Block4提取的特征經過三維注意力模塊處理后再傳給解碼器,增強深層網絡對細節特征的提取能力。

圖2 編碼模塊
注意力機制借鑒了人類視覺系統獲取信息的方式,通過快速掃描全局圖像,獲得需要重點關注的目標區域。由于圖像中包含的特征信息非常大,如果對圖像中的每個位置都進行特征構建,會使網絡學習到很多無用的特征。引入注意力機制能夠使網絡更好地聚焦在圖像重要區域和重要特征上,忽略圖像中的不重要信息,有效提高神經網絡的效率,降低網絡模型的復雜度。現有的注意力機制主要分為2類:通道注意力和空間注意力。通道注意力的作用是對重要的特征通道進行加強,對不重要的通道進行抑制。HU等[24]通過對特征通道進行加權,使網絡更容易區分特征通道的重要程度,提高了網絡的特征表達能力。空間注意力是對圖像的空間維度信息進行特征提取,利用不同的空間位置獲得不同的二維權重,然后與對應的空間位置相乘,突出空間位置的重要性。相比通道注意力,空間注意力能夠增強網絡對圖像細節特征的提取,增強網絡的學習能力。
利用卷積神經網絡提取到的特征圖,不僅在通道上包含大量的有用信息,在通道內部的特征圖像素點之間也包含了大量的有用信息,單獨使用通道注意力或空間注意力都會造成信息的丟失。因此,文中將三維注意力機制SimAM[25]融合到變化檢測網絡中。三維注意力的引入有助于突出圖像的細節特征,有助于TAF Net網絡找出對應位置上特征圖的相似性,在一定程度上解決了隨著網絡層數的加深,圖像的細節信息丟失的問題。SimAM的原理如圖3所示,它是一種無參數的注意力模塊,和現有的通道注意力和空間注意力不同,它不需要添加額外參數就可以計算特征圖的三維注意力權值,三維權重同時考慮了空間和通道維度,使TAF Net網絡提取更多的圖像特征,有效提高圖像變化檢測的精度。

圖3 三維注意力機制原理
SimAM利用了神經科學的理論,構建了一種能量函數用來計算注意力權值,判斷神經元的重要性,能量函數的公式如下:
(1)

(2)
上述公式的計算過程較為復雜,但公式(2)有一種解析解,可以通過微分wt和bt得到,將解析解代入能量函數中可以得到最小能量的計算公式:
(3)

上式表明能量越低,神經元t與周圍神經元的差別越大,神經元t的重要性就越高。
(4)

由于裝配體的各零部件緊密連接,所以變化檢測網絡檢測出的變化區域可能存在邊界不清晰的問題。為了提高TAF Net網絡變化檢測的精度,引入雙邊濾波優化變化圖像中零部件的邊界,降低變化圖像中的噪聲。雙邊濾波[26]是一種基于高斯濾波[27]的非線性濾波器,不僅考慮了像素之間的歐氏距離,也考慮了像素亮度和深度上的相似性,使濾波后的圖像既可以減少圖像中的噪聲,又可以保持圖像的邊緣信息清晰。雙邊濾波對深度圖像和彩色圖像都具有較好的效果,有較強的適用性。雙邊濾波的數學表達式[28]為
(5)
其中:g(i,j)為濾波后的輸出像素值;S(i,j)表示中心點(i,j)的相鄰像素點;f(k,l)表示點(k,l)的像素值;w(i,j,k,l)是雙邊濾波的權重函數,w(i,j,k,l)的計算公式如下:
w(i,j,k,l)=ws×wr
(6)
其中:
(7)
(8)
σs和σr表示濾波半徑,文中都設定為70;ws函數的權重和像素的距離有關,由公式(7)可以看出像素的距離越近,函數的權重越大,相當于對圖像進行高斯濾波。函數wr的權重和像素值之間的差異有關,即當像素值越接近,即使距離較遠,也比差異大距離近的像素點權重大,函數的權重越大。函數wr使圖像中距離近但差異大的像素點能夠保留,有效保存了變化圖像中零件的邊界。
文中以二級圓錐齒輪減速器的裝配為例驗證文中提出的TAF Net網絡的性能。為了準確評估TAF Net網絡模型的性能,建立2個數據集,分別為二級圓錐齒輪減速器的合成深度圖像數據集、真實彩色圖像數據集。下面將分別對2個數據集進行介紹。
數據集1是減速器的合成深度圖像數據集,深度圖像不僅包含圖像的三維信息,而且還具有很強的抗干擾性。為建立深度圖像數據集,此研究首先使用SolidWorks建立減速器的三維模型,然后通過3DMAX的三維渲染功能得到減速器三維模型的深度圖像,減速器的裝配過程分為4個步驟,每次裝配一個零部件,裝配過程如圖4所示。

圖4 裝配過程示意
深度圖像的合成需要對減速器T0—T4共5個節點分別合成,每個節點可以合成619張不同角度的照片。數據集選取的原則是保持前一時刻的視角不變,后一時刻圖像的視角連續性變化。每個步驟中前一時刻包含3個角度,每個角度在后一時刻中對應52張圖像,訓練集共包含624張圖像,驗證集和測試集各有207張圖像。
數據集2是真實彩色圖像數據集,使用的是物理裝配體的彩色圖像。合成數據集具有方便高效的特點,但是合成圖像過于理想化,不足以驗證網絡的實用性。通過建立真實數據集訓練TAF Net網絡,準確反映TAF Net網絡的實際性能。物理裝配體的彩色圖像如圖5所示。

圖5 物理裝配體的彩色圖像
使用RealSense相機采集物理裝配體的彩色圖像,通過固定相機位置,旋轉減速器獲得裝配體的多視角圖像。數據集選取的原則和深度圖像的相一致,訓練集中前一時刻包含3個角度,每個角度在后一時刻對應15張圖像。數據集中訓練集包含180張圖像,驗證集和測試集各有88張圖像。由于物理裝配體的彩色圖像數量不多,數據集的標簽使用Photoshop進行標記。物理裝配體的彩色圖像人工標注示意如圖6所示。

圖6 物理裝配體的彩色圖像人工標注示意
變化檢測網絡得到的變化檢測結果是一個二值圖像,圖像中的白色像素點表示變化的像素,黑色像素點表示未發生變化的像素。為了客觀評價變化檢測的結果,使用準確率(Precision)[29]、召回率(Recall)[29]和F1_score[29]作為精度評價的指標,其中:
δPrecision=nTP/(nTP+nFP)
(9)
δRecall=nTP/(nTP+nFN)
(10)
δF1_score=2nTP/(2nTP+nFN+nFP)
(11)
其中:nTP表示正確判斷的像素變化數目;nTN為正確判斷的像素未變化數目;nFN為變化像素被檢測為未變化的數量;nFP是未變化像素被檢測為變化的數量;δF1_score是根據準確率和召回率計算的綜合評價指標,是評價實驗結果的主要參數。
3.2.1 消融實驗
為了驗證三維注意力模塊和雙邊濾波對TAF Net網絡的影響,將使用2個數據集分別對網絡進行評估,觀察不同模塊對變化檢測結果的影響。
不同模塊在數據集1上的實驗結果如表1所示。可以看出:當在網絡中加入注意力后,網絡能夠關注到更多的細節特征,準確率提高了2.6%,綜合評價指標F1_score提高了1.5%,實驗結果表明注意力能夠有效提高網絡的性能。輸出變化圖像經過雙邊濾波過濾,優化圖像中變化零部件的邊界,減少變化圖像中的無關像素點。從表中的數據可以看出:增加雙邊濾波后網絡的各項評價指標均有提高,有效提高了圖像變化檢測的性能。

表1 不同模塊在數據集1上的實驗結果
數據集2用的是物理裝配體的彩色圖像,由于真實圖像對應標簽的標注較為復雜,此數據集只采集少量真實裝配體圖像并進行標注,所以可供訓練的樣本較少,而且人工標注的數據集標簽存在標注不精確的問題,影響網絡的檢測精度。為了提高網絡模型的性能,文中引入遷移學習,將數據集2的訓練模型作為真實數據集的預訓練模型。實驗結果如表2所示,注意力結合遷移學習使準確率、召回率和F1_score分別提高了1.7%、0.4%和1%,有效提升了模型的精確度。遷移學習結合雙邊濾波能加速網絡訓練和消除變化圖像中的噪聲,使網絡評價指標準確率提高2.2%,F1_score提升1.4%,召回率也有小幅的提高。

表2 不同模塊在數據集2上的實驗結果
綜合上述實驗結果可以看出:注意力和雙邊濾波在2個不同的數據集上都可以提高網絡的性能,合成數據集在網絡中添加注意力后的評價指標優于雙邊濾波,真實數據集雙邊濾波的效果更優。這是由于真實圖像含有噪聲,雙邊濾波既可以優化零件的邊界也可以達到降噪的效果。真實數據集中圖像的標簽為手工標注,標注過程比較耗時,而且存在標注不精確的問題,引入遷移學習可以在標簽不精確、訓練集較少的情況下完成機械裝配體的多視角變化檢測,這有助于此研究算法在真實裝配體變化檢測中的應用。
3.2.2 對比實驗
為了驗證文中提出的機械裝配體圖像多視角變化檢測網絡TAF Net的有效性,將TAF Net與STANet[30]和SNUNet-CD[31]變化檢測網絡進行比較,對比實驗數據如表3所示。

表3 對比實驗數據
從表3可以看出:文中提出的TAF Net網絡在2個數據集上都有較好的表現,其中綜合評價指標F1_score都達到96%以上。STANet網絡將圖像分割成多尺度的子區域進行訓練,在合成數據集1中F1_score為91.6%,在真實數據集中F1_score僅有85.0%。SNUNet-CD網絡通過編解碼器的密集連接,減少深層定位信息丟失,在數據集1中的效果最優,F1_score達到94.5%,但在數據集2中F1_score數值僅為85.9%。SNUNet-CD和STANet網絡在數據集2中的檢測精度都較低,分析原因為訓練集較少并且真實圖像中包含噪聲,標簽標注不夠準確,變化檢測難度大,檢測結果較差。
圖7顯示的是數據集1在不同方法下變化檢測的效果。與真實變化的標簽圖相比可以看出:文中提出的TAF Net網絡能夠精確檢測出變化區域,STANet網絡對邊緣細節特征的檢測效果較差。SNUNet-CD網絡造成了圖像信息丟失,在結果圖中出現了無關像素點,影響了檢測精度。

圖7 數據集1變化檢測結果
圖8所示為數據集2的變化檢測結果。可以看出:文中提出的TAF Net網絡可以精確找出變化區域,檢測出的變化零部件邊界平滑,檢測結果明顯優于對比網絡。STANet網絡檢測出的變化圖像中有黑洞,而且將非變化零部件檢測為變化。SNUNet-CD網絡檢測出的變化零部件不完整,而且沒能有效消除圖像中的噪聲。
通過對比實驗可以得出:文中提出的TAF Net網絡能夠滿足裝配體深度圖像和彩色圖像的變化檢測。在真實數據集的訓練中,TAF Net網絡與遷移學習相結合,有效解決了標簽不精確和訓練集不足的問題,能夠滿足實際應用。綜合上述實驗分析,TAF Net網絡具有較好的適用性,在2個不同的數據集中都能較好地實現機械裝配體圖像多視角變化檢測。
文中提出了一種基于三維注意力和雙邊濾波的機械裝配體圖像多視角變化檢測網絡TAF Net,TAF Net網絡引入三維注意力機制,增強了網絡關鍵信息提取能力;引入雙邊濾波優化檢測出變化零部件的邊界和消除圖像中的噪聲。文中建立了2個不同的裝配體變化檢測數據集(合成深度圖像數據集、真實彩色圖像數據集),用于驗證TAF Net網絡的性能,實驗證明提出的TAF Net網絡能夠實現機械裝配體的多視角變化檢測。在真實數據集的訓練中引入遷移學習,有效解決了人工標注標簽不精確的問題。與其他變化檢測網絡的相比,文中提出的方法都能達到最優。