劉天元,鄭杭彬,楊長祺,鮑勁松,*,汪俊亮,顧俊
1. 東華大學 機械工程學院 智能制造研究所,上海 201600 2. 上海航天精密機械研究所,上海 201600 3. 上海市激光技術研究所,上海 200235
激光焊接具有功率密度高、熱輸入量低、焊縫窄、熱影響區及變形小、焊接速度快等優點,在航空發動機葉盤葉片、航空用薄壁件、飛行器等零部件的焊接上得到了廣泛的應用。但是,由于參數不匹配、裝配誤差、焊接振動等復雜原因會導致未熔透、過熔透、間隙過大、左右錯邊、油污等缺陷的發生。因此,基于激光焊接過程信息實現焊接質量的有效監測對于提高激光焊接質量至關重要。其中,基于視覺傳感的監測方法以其無接觸、可靠性高、包含信息豐富等優勢得到了學術界和工業界廣泛關注。
如圖1所示,針對激光焊接過程中視覺信號的處理方法主要有2種思路,即基于特征工程和基于深度學習的思路。特征工程一般遵循圖像預處理、特征提取、特征選擇、特征分類的技術路線。在預處理階段主要是對圖像進行去噪、濾波、增強和邊緣檢測等操作。在特征提取階段主要是從幾何空間、色彩空間、梯度空間等提取焊接缺陷的特征,如幾何空間的尺寸特征、色彩空間的像素特征以及梯度空間的紋理特征。在特征選擇階段主要通過主成分分析、獨立成分分析等方法對特征維度進行約減。在特征識別階段主要通過支持向量機、邏輯回歸和感知器等方法對特征模式進行判斷。基于特征工程的思路優點在于由人為參與特征識別的全流程,因此該方法提取的特征模式的可解釋性極強,即對缺陷特征的提取過程及模型的決策過程都有明確的認知。但是,特征工程的思路存在人為參與程度高和中間子任務多的問題。較高的人為參與程度不但導致數據的價值無法得到充分發揮,而且使模型的效果嚴重依賴專家水平。中間子任務多不但會導致全局最優難以實現,而且會降低模型開發的整體效率。基于深度學習的方法可以實現從原始圖像到焊接缺陷類型的端到端的映射。該思路不但可以充分挖掘數據價值,而且對專家經驗的依賴較低。此外,該思路可以實現全局優化并因此提高模型的開發效率。在智能化技術與制造業不斷融合的趨勢下,基于深度學習的激光焊接缺陷識別(Deep Learning based Laser Welding Defect Recognition, DL-LWDR)已成為當今的研究熱點。但是,DL-LWDR會面臨以下挑戰。第一,激光焊接過程存在的振動、金屬蒸汽等因素會對成像質量造成干擾,這需要一個復雜度較高的模型才能挖掘出讓模型做出準確判斷的抽象特征。第二,航空航天領域對產品的可靠性要求極高,這要求對缺陷識別模型有一個透明的認知。然而,深度學習模型被公認為黑箱模型,即無法完全知道深度學習模型的內部運作機制及其決策依據,且復雜度越高的深度學習模型其可解釋性越差。為了提高DL-LWDR在航空領域的實際應用價值,如何在提高DL-LWDR的可解釋性的同時兼顧準確性成為了本文的關注點。
在可解釋性研究方面,主要分為事前可解釋和事后可解釋2種思路。事前可解釋傾向于開發一種本身具有可解釋性的模型,事后可解釋傾向于采用相關解釋性方法去白化黑箱模型。就深度學習模型而言,更適合采用事后可解釋性的策略。在事后可解釋方面,又可以分為整體可解釋和局部可解釋2個研究方向。整體可解釋試圖研究模型學習到了什么,局部可解釋試圖研究模型對某類別做判斷的依據,在實際應用中針對局部可解釋的研究更廣泛。相關局部可解釋方法有敏感性分析、局部近似、梯度反傳、類激活映射(Class Activation Mapping, CAM)等。敏感性分析是從定量的角度研究針對輸入的微小擾動對決策的影響;局部近似是利用簡單的具有可解釋性的模型擬合待解釋模型針對某一輸入的決策過程;梯度反傳是利用反向傳播機制將模型的梯度信息逐層傳遞到模型的輸入端,從而揭示輸入樣本的特征重要性。CAM的基本思想是將特征圖的加權組合作為模型對某類別的響應。上述方法中,CAM方法可以參與到網絡的訓練過程,這意味著模型的準確性和可解釋性具有被統一優化的可能。但是,傳統的CAM方法僅利用最后一個卷積層的特征圖作為類激活映射的依據。最后一個卷積層雖然具有最豐富的語義信息,但是丟失了很多邊緣、結構等初級信息。考慮到不同的激光焊接缺陷具有不同的輪廓形態,本文提出一種融合多尺度特征的類激活映射方法(Class Activation Mapping Incorporating Multiscale Features, MSF-CAM)。MSF-CAM將多尺度特征作為類別激活的依據,可以從不同的尺度對模型的決策依據進行解釋。此外,多尺度信息的加入對模型的準確性也會起到促進作用。

圖1 LWDR的2種思路Fig.1 Two ideas for LWDR
所提MSF-CAM方法的總體框架如圖2所示,MSF-CAM的骨干部分為經典的VGG16網絡,該網絡共有5個卷積塊(Block,=1,2,…,5)。每個Block內部分別具有2、2、3、3、3個卷積層,在Block內部以及輸入與Block之間均由卷積(Convolution, Conv)操作進行連接。相鄰的Block之間通過最大值池化(Max Pooling, MP)進行連接,MP操作可實現特征圖的維度約簡并得到多尺度特征。得到多尺度特征之后,針對每一個尺度的特征分別利用7個1×1卷積將通道數壓縮到與輸出類別一致,然后通過全局平均池化(Global Average Pooling, GAP)得到多尺度特征的一維表示。得到多尺度特征的一維表示之后,利用真實標簽對其進行深度監督以促進網絡對多尺度特征的學習和利用。在訓練過程中,共有5條誤差反向傳播路徑。

圖2 MSF-CAM方法的總體框架Fig.2 Overall framework of MSF-CAM method
該部分主要涉及Conv、MP、GAP操作。Conv操作的主要作用是可以自適應的提取熔池/匙孔圖像的抽象特征。假設第層為Conv層,第-1層為MP層或輸入層。則第層的計算公式為

(1)


(2)

MP操作不但可以實現特征維度的約簡,而且還可以獲取不同尺度的特征。得到多尺度特征之后,首先采用1×1卷積對多尺度特征的通道進行壓縮,然后用GAP操作獲取每個尺度下的特征表示。GAP操作是針對某一張特征圖,計算其所有像素的平均值以作為該特征圖的表征。設待進行GAP操作的特征圖為FM,則GAP操作可描述為

(3)
式中:表示FM中某位置上的像素值;和表示FM的長與寬,FM表示特征圖的數量。
由式(3)可知,GAP操作可以實現空間范圍的特征壓縮,即將一張二維特征圖壓縮為一個標量。得到特征圖的GAP值之后,通過SoftMax函數將其映射為類別概率。SoftMax函數的表達式為

(4)
經典的類激活映射(Classic CAM, C-CAM)的基本原理是針對最后一個卷積層進行GAP操作,并用SoftMax函數將GAP操作的結果映射為輸出類別的概率。然后將GAP層與輸出層之間針對某一類別的概率值乘以對應的特征圖,最后將相乘的結果進行疊加并作為模型對該類別響應的解釋。雖然最后一個卷積層包含最豐富的語義信息,但是缺乏對初級特征的表達。因此,本文在C-CAM思想的基礎上考慮融合多尺度特征的類激活映射。MSF-CAM的形式化描述如下。令,表示GAP值與輸出類別之間的概率矩陣,FM,表示特征圖。則針對類別C的MSF-CAM可表示為


(5)
式中:表示特征尺度的總數;表示某一尺度下的特征圖總數。
由于不同Block中的特征圖尺度不一樣,因此式(5)采用上采樣(Upsample)操作將不同尺度下的類激活映射上采樣至與原圖同一尺寸之后再疊加。為了利用多尺度特征來增強對類別C的解釋能力,本文只關心對類別C有正影響的像素點。因此,在MSF-CAM過程中,首先采用Relu激活函數來過濾對類別C判斷無用的像素點,Relu激活函數的表達式為

(6)
針對類別C的MSF-CAM如圖3所示。

圖3 融合多尺度特征的類激活映射Fig.3 Class activation mapping by incorporating multiscale features
為了模擬真實的生產環境,本文搭建了圖4(a)所示的激光焊接試驗系統,該系統由焊接模塊(實指示線)和視覺模塊(虛指示線)組成。圖4(b)為某型號的激光焊接現場。為了盡量獲取高質量焊接圖像,采用工裝夾具對焊件進行固定;通過相機支架將高速相機固定在激光頭上;并采用輔助光和濾光片以降低強烈弧光的影響。在基本參數方面,焊件選用長度、寬度、厚度分別為300、120、2 mm的SS304不銹鋼板;保護氣采用流量為25 L/min的氬氣;焊接速度為2 m/min;離焦量為+8 mm;相機型號為CP70-2M;激光器型號選為IPG-YLS6000;輔助光源的波長為808 nm;濾光片的中心波長為808 nm。通過對激光功率、不銹鋼板的裝配位置、焊件表面的改變可獲取未熔透、正常、過熔透、間隙過大、右錯邊、左錯邊、油污7種類型對應的熔池/匙孔圖像。
經過大量試焊確定工藝后,本文在14塊不銹鋼板上進行焊接以獲取特定的缺陷類別。試驗共采集了7 531張熔池/匙孔圖像,各類別對應的實際圖像及橫截面示意如圖5所示。從圖5可以看出,隨著熔透程度的增加,熔池區域的寬度、匙孔區域的不規則程度、熔池/匙孔區域的金屬蒸汽和飛濺均會增加。間隙過大會導致液態熔融金屬泄露,在圖像中會呈現出熔池不飽滿、匙孔區域有延伸的特點。左錯邊和右錯邊會呈現出熔池/匙孔前端極度不對稱的特點。其中,左錯邊是指位于焊接方向左側的母材低于裝配位置的缺陷,右錯邊是指位于焊接方向右側的母材低于裝配位置的缺陷。油污缺陷對應的圖像會在熔池/匙孔前端呈現出逆流的特點。
為了對所提方法的性能進行綜合評估,本文將獲取的原始數據按照7∶2∶1的比例分為訓練集、驗證集和測試集3部分。具體的數據分布如表1所示。

圖4 激光焊接現場及試驗系統Fig.4 Laser welding site and test system

圖5 不同類別對應的熔池/匙孔圖像Fig.5 Molten pool/keyhole images corresponding to different categories

表1 數據分布及劃分情況Table 1 Distribution and division of data
2.2.1 試驗設置
鑒于本文的主旨不包含參數優選,因此本文根據經驗將學習率設置為10,損失函數采用交叉熵,優化器選用Adam。此外,將數據集按照表1劃分為訓練集、驗證集、測試集。訓練過程中將批次設置為4以加速訓練。在訓練周期方面,本文對所有數據遍歷100次并保存最佳模型。在環境方面,所提方法在Windows10操作系統、NVIDIA 1050顯卡(4 GB顯存)的硬件以及Pytorch深度學習框架下進行算法性能試驗。為了防止模型過擬合,采用遷移學習的方法加載基于ImageNet的預訓練模型。即本文將VGG16在ImageNet上訓練的權重作為本文骨干網絡的權重,本文針對新加入的1×1卷積部分的權重進行訓練。在對比試驗方面擬將所提方法與C-CAM及沒有加載預訓練模型的MSF-CAM(MSF-CAM Without Pre-Trained model, MSF-CAM-WPT)進行對比。
在評價指標方面,采用準確率(Accuracy, ACC)、精確率(Precision, PRE)、召回率(Recall, REC)、F1-score這4個指標對相關方法進行綜合評估。各指標的定義如下:

(7)

(8)

(9)

(10)
式中:TP表示某圖像實際為正類同時被識別為正類;TN表示某圖像實際為負類同時被識別為負類;FP表示某圖像實際為負類同時被識別為正類;FN表示某圖像實際為正類同時被識別為負類。ACC指所有預測正確的樣本占總樣本的比重;PRE指在被預測為正類的所有樣本中實際為正類的比重;REC指實際為正類的樣本中被預測為正類的比重;F1-score是對PRE和REC調和平均的綜合評價指標。
2.2.2 訓練過程分析
MSF-CAM、C-CAM及MSF-CAM-WPT方法的訓練過程如圖6所示。MSF-CAM經過90次迭代即可收斂于0.99左右,且收斂過程平穩。而經典的CAM方法經過100次迭代才可收斂于0.97左右。這主要是因為MSF-CAM方法在模型中融合了多尺度特征,因此可以對熔池/匙孔圖像的特征進行更好的表征。在對訓練集中的數據完成一次遍歷后,利用驗證集對模型進行驗證。從圖6中可以看出,MSF-CAM和C-CAM方法在驗證集上的結果和訓練集上相差不大,這說明基于ImageNet進行預訓練后二者沒有發生明顯的過擬合現象。作為對比,MSF-CAM-WPT方法在訓練集和驗證集上的差異較大,即發生了較為明顯的過擬合現象。
在模型訓練完成后,將其保存為可測試文件。然后用測試集對模型性能進行測試。在指標方面,我們采用準確率、精確率、召回率、F1-score、模型的大小以及模型針對單幅圖像的識別時間對模型進行綜合評估,模型在測試集上的相關指標得分如表2所示。由于對多尺度特征的深度利用,MSF-CAM方法的準確率和綜合評價指標F1-score相對于C-CAM方法均提高了2%左右。為了將多尺度特征用于對模型決策依據的解釋,本文在Block后面插入了1×1卷積,因此模型體積和測試時間略有增加。考慮到當今工業相機的幀率一般不超過100 Hz且工控機的硬盤容量一般在1 TB以上,因此所提方法仍可滿足在線監測的需求。

圖6 不同方法的訓練和驗證過程Fig.6 Training and validation process for different methods
值得注意的是,所建立的模型是基于本文實驗環境下采集的數據得到的。鑒于本文的關注點是在提高DL-LWDR的可解釋性的同時兼顧準確性,因此本文沒有針對模型對相機角度、位置和光照條件等的魯棒性進行優化。針對這一點,在未來工作中可從以下方面展開。在數據獲取階段,可以通過大量的改變相機角度、位置和光照條件等以獲取更豐富的原始數據。在模型訓練階段,可以通過仿射變換對原始數據進行增廣以模擬復雜的工況。在模型優化階段,可以通過遷移學習的方法利用新數據對在原始數據上構建的模型進行微調。
模型在測試集上的最終分類結果的混淆矩陣如圖7所示,標簽0、1、2、3、4、5、6分別代表過熔透、間隙過大、未熔透、右錯邊、油污、正常、左錯邊這7個類別。從混淆矩陣中可以看出C-CAM更容易錯分未熔透和過熔透、右錯邊和間隙過大,而MSF-CAM對這一情況有所改善,這說明多尺度特征的引入對上述兩對狀態間的鑒別性特征的提取具有重要作用。

表2 不同方法的測試結果Table 2 Test results for different methods

圖7 不同方法測試結果的混淆矩陣Fig.7 Confusion matrix of test results for different methods
2.2.3 可解釋性分析
圖8展示了所提方法在不同尺度下的類激活圖。從中可以看出網絡的淺層(Block、Block)傾向于提取散點和短線等初級特征,但是這些初級特征之間缺乏關聯,因此無法單獨根據淺層特征的類激活映射對模型的決策做出解釋;網絡的深層(Block、Block)傾向于提取目標級的語義特征;網絡的中層(Block)提取的特征類型介于淺層和深層提取的特征級別之間。雖然基于Block的類激活映射圖中已經可以大致看出模型做決策的依據在哪個區域,但仍然不易于人類的理解。此外,可以看出送氣管道對模型的判斷起到了干擾作用。
圖9顯示了C-CAM和MSF-CAM這2種方法產生的類激活圖。通過對比可以發現:C-CAM產生的類激活映射與MSF-CAM方法在Block層次產生的類激活映射類似,但是C-CAM方法僅通過一路損失對網絡進行訓練,因此C-CAM方法產生的類激活映射圖比Block層次產生的類激活映射圖在分類導向上更強。但是通過對MSF-CAM方法產生的類激活圖的觀察可以發現:融合了多個尺度的類激活圖可以從初級特征的角度對模型的決策依據做出解釋。如:MSF-CAM對未熔透、熔透、過熔透三者的區分不但關注了熔池/匙孔的區域信息而且還更加關注了熔池區域的左右邊緣上,這意味著模型是關注到了熔池的寬度做出的決策,這非常符合人類的認知。同樣地,對左錯邊和右錯邊的識別不但關注到了熔池/匙孔區域的前端不對稱的地方,還對該部位的輪廓特征進行了著重關注。對油污缺陷則關注到了熔池/匙孔前端呈現逆流狀的區域。對間隙過大的缺陷則關注到了熔池/匙孔前端的弧線型特征。因此,融合了多個尺度的類激活圖可以對模型的決策依據做出更符合人類直觀感受的解釋。

圖8 不同尺度下的類激活圖Fig.8 Class activation map at different scales

圖9 可解釋性方法的對比Fig.9 Comparison of different explainability methods
1) 針對基于視覺的激光焊接缺陷識別問題,建立了基于深度學習的識別模型,所提方法可以自適應的提取激光焊接缺陷的抽象特征。
2) 針對基于深度學習的激光焊接缺陷識別可解釋性差的問題,提出了融合多尺度特征類激活映射方法,該方法可以對模型的準確性和可解釋性進行統一優化。
3) 融合多尺度特征的類激活映射方法MSF-CAM針對7類缺陷的識別問題準確率為98.12%,識別單幅圖像需8.28 ms,可滿足基于視覺的在線監測需求。
4) 融合多尺度特征的類激活映射方法不但可以對模型的決策依據做出目標級的解釋,而且還可以從初級特征的角度做出更直觀的解釋。