肖文凱, 何英杰
(1.申能(集團)有限公司, 上海 201103; 2.上海萬物智允工業(yè)科技有限責任公司, 上海 201612)
高壓天然氣輸送管線和壓力容器在施工制造過程中會因為焊接形成大量焊縫,焊接施工的質(zhì)量好壞對工程質(zhì)量非常關鍵。在施工過程中,通過對焊縫的質(zhì)量檢測和缺陷評定來判斷焊接效果。由于X射線具有較強的穿透能力,有助于檢查焊接部位的內(nèi)部問題,在焊縫缺陷檢驗中使用很普遍。出于追趕工期或者掩飾質(zhì)量問題等目的,有些施工單位會對同一組無缺陷的焊縫圖像多次利用,生成多組重復圖片,再通過重復檢測,來冒充未實際送檢的焊縫圖像,或者掩蓋有質(zhì)量問題的焊縫圖像。
針對焊縫圖像查重問題,現(xiàn)有技術主要是通過缺陷檢測人員的記憶和觀察來判定重復圖像。在油氣行業(yè),一般工程施工都要好幾年,設備大修也會持續(xù)數(shù)個月,過程中會產(chǎn)生數(shù)萬張甚至數(shù)十萬張焊縫圖像,工程高峰期間甚至需要上百名無損探傷檢測及評定人員同時參與。在這種情況下,一個缺陷評定人員只能接觸到很小的一部分焊縫圖像,更不可能記住數(shù)月前或幾年前評定過的圖片。再加上缺陷檢測評定人員長期作業(yè)容易產(chǎn)生視覺疲勞,傳統(tǒng)人工方法就難以辨別重復圖片,不能有效保證施工和產(chǎn)品質(zhì)量。近年來,基于計算機視覺的工業(yè)自動化缺陷檢測方法也呈現(xiàn)出爆發(fā)式的增長,計算機視覺領域的分類[1]、目標檢測[2]、分割[3]等方法都可用于工業(yè)缺陷檢測。因此,基于新一代信息技術的長足進步,面對焊縫無損探傷檢測圖片造假情況,有必要研究出一套方法,實現(xiàn)焊縫探傷圖像的識別和處理,自動檢測出可疑的重復圖像,替代傳統(tǒng)人工那種漏檢率高、效率低下的檢測方法。
為了解決這些痛點問題,通過對相關算法的深入研究以及對企業(yè)焊縫影像數(shù)據(jù)的分析、檢測,采用二維高斯變換、離散積分運算等圖像預處理過程,建立了焊縫無損探傷影像數(shù)據(jù)庫和特征組,研究并開發(fā)出了一套基于深度學習技術的焊縫圖像相似度比較計算模型。利用該算法模型,能自動識別絕大部分焊縫重復圖像,實現(xiàn)了查重準確率達到90%以上的預期目標。
對于焊縫圖像查重問題,目前相關研究尚處于理論階段。深度學習是一種基于對數(shù)據(jù)進行表征學習的算法,相較于傳統(tǒng)淺層學習方式,可以對所學到的特征信息進行非線性轉(zhuǎn)換,從而計算出更為抽象的特性信息。卷積神經(jīng)網(wǎng)絡的網(wǎng)絡構(gòu)架更為簡單清晰,在目標檢測等許多領域有著相當好的應用效果[4]。DEEPAK等[5]試圖找出各種無損檢測技術檢測焊接缺陷的敏感性。ZHANG等[6]提出了焊縫指紋的概念,基于改進的SPP-net深度學習模型提取焊縫特征,焊縫的這些深度學習特征被稱為焊縫指紋。
利用計算機視覺技術對焊接部位圖像進行檢測分類,并使用背景差分法將沒有缺陷的焊縫圖像作為背景圖像,與輸入圖像的所有像素點進行對比,從而確定焊縫缺陷圖像的特征區(qū)域,再以缺陷的面積大小、亮度及形狀等特征作為依據(jù),對焊縫缺陷圖像進行分類[7-8]。在針對圖像紋理特征計算時,可以運用散度來評價兩處紋理特征相似度。基于Kullback-Leibler (KL)散度和類分離策略的特征選擇算法,可以度量類別與特征間的相關性以及特征之間的冗余性[9]。Jensen-Shannon (JS)散度是基于KL散度的變體,度量了兩個概率分布的相似度,解決了KL散度非對稱的問題[10]。Wasserstein距離不僅給出了兩個分布之間的距離,而且能夠告訴我們它們具體如何不一樣,即如何從一個分布轉(zhuǎn)化為另一個分布[11]。
企業(yè)級用戶希望根據(jù)焊縫影像數(shù)據(jù)開發(fā)出一種焊縫圖像相似性自動比較的算法軟件,自動識別絕大部分焊縫重復圖像,希望預期查重準確率達到90%以上,運行和檢測高效穩(wěn)定。同時希望算法和程序兼容性好,方便與已有系統(tǒng)對接,交互界面直觀。鑒于此,重點研究直線焊縫以及大管徑管道焊縫的影像比對,算法和產(chǎn)品需實現(xiàn)如圖1所示的功能。

圖1 系統(tǒng)總體功能圖
在整個系統(tǒng)中,待鑒別的焊縫圖片在導入系統(tǒng)后,將先對其進行內(nèi)置的預處理算法,使其符合系統(tǒng)的輸入標準。而后進行特征提取,并將提取所得的特征與數(shù)據(jù)庫中的圖像特征進行比對識別,判定是否為原有焊縫圖庫中的重復影像。如果非重復影像,則將該圖像及特征存入圖庫;如果為重復影像,則將輸出對應可疑焊縫在圖庫中的序號,再進行二次判定。為處理好上述問題,需設計和完成包括圖像預處理、影像數(shù)據(jù)增強、特征識別模塊和異常檢測及處理模塊等四大基本功能。其中,圖像預處理模塊將待測的數(shù)字影像二值化后進行傾斜校正,提取并裁剪焊縫所在區(qū)域的圖像;影像數(shù)據(jù)增強模塊在裁剪出的水平焊縫上進行紋理增強并獲取圖像特征;特征圖像識別模塊將所得特征與系統(tǒng)保存的特征進行逐一比對計算,判定是否為重復影像,并依據(jù)結(jié)果決定保存該特征或輸出重復影像序號;異常處理模塊主要應對程序運行中出現(xiàn)的錯誤,給出反饋及解決方案。
由于輸入的焊縫圖像存在圖片明暗不均勻、對比度較小、邊緣過曝等質(zhì)量問題,且對于潛在的重復焊縫圖片,造假者可能故意調(diào)整焊縫圖像的拍攝角度或拍攝時的穩(wěn)定度,輸入的圖片一般都無法直接進行有效地圖像處理。如圖2是一張典型的未經(jīng)過預處理的焊縫圖像,可以看到該圖像本身無明顯噪點,而存在對比度較小,焊縫主體部分未得到明顯的顯示等問題。因此,通過直接對圖像進行直方圖均衡化,得到的處理結(jié)果如圖3所示。

圖2 原始焊縫射線影像

圖3 經(jīng)直方圖處理后焊縫射線影像
圖4顯示了該圖像處理前與處理后在灰度值統(tǒng)計直方圖上的變化。可以清晰地看出,圖片在經(jīng)直方圖均衡化后大大提高了對比度,且從灰度直方圖的角度來看也獲得了較好的均勻化。

(a) 均衡化處理前灰度直方圖
經(jīng)過均衡化處理后,焊縫區(qū)域灰度值在兩側(cè)邊界值已有了較明顯的突變。此時,為了突出焊縫區(qū)域,需對圖像進行二值化,通過這個閾值設定,將圖像分為焊縫與背景。為了保證程序的運行效率,使用算法優(yōu)化較好的最大類間方差法圖像二值化閾值,對一組圖庫組圖像運行結(jié)果如圖5所示。從圖5可以看出,使用該算法在根據(jù)圖像亮度自適應調(diào)節(jié)閾值的同時,獲得了較好的焊縫邊界,便于后續(xù)的處理。

圖5 最大類間方差法閾值確定
此外,對于焊縫射線圖像的拍攝,時常因為儀器位置受限、拍攝手法不佳或造假者故意為之等原因,無法得到接近水平的焊縫圖像。霍夫變換是一種常用的直線檢測方法,利用霍夫變換能夠檢測出二值化圖片上的潛在直線,并以最長直線代表焊縫整體走向,以此做傾斜角度的校正。實際優(yōu)化效果如圖6所示。

(a) 原圖
經(jīng)過水平校正后的圖片仍然不能用于特征提取,原因是其中與焊縫特征無關的信息過多,大部分為兩側(cè)的金屬材料,因此需要準確地提取出焊縫區(qū)域用于后續(xù)的紋理特征。此時需要借助拉東變換[12]對焊縫進行水平方向的投影,才能定位焊縫區(qū)域大致的上下邊界。
在實際工程應用中發(fā)現(xiàn),確定焊縫區(qū)域之后,仍然會存在邊緣模糊、圖像不清晰的問題。因此還需要通過統(tǒng)計圖像熵的方法進行焊縫區(qū)域的圖像紋理增強。圖像熵是針對圖像整體的特征統(tǒng)計值,對圖像中像素的復雜程度、整幅圖片的信息量大小等進行反饋。傳統(tǒng)上能夠利用灰度直方圖形成圖像的一維熵,也就是我們平時所說的一元灰度熵。在該基礎上,通過選取所需圖像的鄰域灰度均值,并將其設定成針對灰度分布的空間特征量,和圖像自身的像素灰度共同構(gòu)成特征二元組。利用該特征二元組計算得出局部熵,可獲得能夠明確反映像素鄰域內(nèi)灰度分布和像素位置的綜合特征。
圖像預處理和增強之后,采用在計算圖像局部熵的基礎上進行散度計算的識別方法來評價兩處紋理特征相似度,常用算法包括KL散度計算、JS散度計算和Wasserstein距離等。如果計算結(jié)果的散度值在閾值以下,即2個分布的差異較小,則認為該輸入圖片與當前圖庫中的某張圖片重復。為了選出本工程場景下最適用的散度算法,對上述3種常用算法運用加權(quán)決策矩陣法進行評價,如表1所示。從表1可以看到在本場景下的相似度計算環(huán)節(jié),選擇KL散度作為計算方法兼顧了各項預設指標。

表1 圖像識別散度計算算法的加權(quán)決策矩陣表
KL散度是計算2個概率分布P和Q差異的一種常用方法。二者之間差異越小,散度計算值越小。KL散度的離散及連續(xù)定義分別如下:
(1)
式中,P(x)為目標分布,Q(x)為匹配分布,若兩個分布完全相同,則D(P=Q)=0,反之意味著D(P=Q)≠D(Q=P)。式(1)有其明確的信息論物理含義,通常用來度量基于Q分布的編碼來編碼基于P分布的樣本,所平均需要的額外Bit數(shù)量。在深度學習等領域,常用其來計算和評估2個函數(shù)的相似或相近程度。
通過上述處理后可得到一系列的紋理特征增強圖像的統(tǒng)計分布,由于為離散分布,則可對任取兩個分布P、Q進行KL散度的計算。由于該相對熵的不對稱性,僅憑一次計算來描述一對圖片是片面的,本文采用散度和作為一組圖片的描述方法,表達式如式(2):
KLsum=D(P=Q)+D(Q=P)
(2)
在構(gòu)建焊縫影像數(shù)據(jù)庫時,需要對每張圖片的紋理特征結(jié)果進行保存,并按順序每兩張進行一次KL散度計算,作為文件閾值評判的標準。在此過程中,需要保存的輸出為圖庫組圖片的紋理增強特征,在剔除已知的重復圖片后,按輸入分組分別保存至各個獨立文件夾,作為系統(tǒng)的初始圖像比對庫;每組圖庫組圖片計算得到的KL散度數(shù)據(jù)集,在本項目中每個圖庫組包含60張圖片,由排列組合性質(zhì)可知需保存全部3 540組計算結(jié)果。對每個圖庫組進行上述入庫操作后,按各組權(quán)值統(tǒng)計KL散度值分布,確定合適的閾值作為之后測試組圖片的判別閾值。
對于后續(xù)測試組的圖片,將所得的紋理統(tǒng)計分布與保存的增強圖片統(tǒng)計分布逐一進行KL散度值的計算,如果計算結(jié)果的散度值在閾值以下,即2個分布的差異較小,則認為該輸入圖片與當前圖庫中的某張圖片重復,輸出該張圖片的序號,并程序初步判斷為造假圖片,提交至人工二次審定;如果計算結(jié)果散度值超過閾值,即2個分布的差異較大,則認為該圖片與當前圖庫中的所有圖片均不重復,并且保留該次圖像的增強結(jié)果,重新編號并保存進圖庫中。圖7展示了完成圖庫初步建立后,待檢測圖片所需經(jīng)過的操作流程。

圖7 焊縫圖像識別程序流程圖
本項目的檢測系統(tǒng)搭建需要兩部分,分別是焊縫圖庫的建立與焊縫圖片的檢測。其中程序運行所使用的圖片均由企業(yè)方提供,接收到的所有焊縫圖片已提前對圖像拍攝時間、焊工工號、焊縫管線號等敏感標記信息做了遮蓋處理,共接收成對的重復焊縫圖片總計300組。對圖庫數(shù)據(jù)進行簡單的分類后分別抽樣設置了數(shù)個圖庫組以及測試組,其中每個圖庫組包含30組圖片,保證每組中重片與非重片圖片組的數(shù)量,用于圖庫信息的初步建立,而測試組作為后續(xù)程序運行的測試數(shù)據(jù)。
考慮到如果將全體增強圖片整合后逐一計算散度值,一方面會耗費大量時間,另一方面重片組數(shù)與非重片組數(shù)相比數(shù)量極少,300組圖片僅有300份重片樣本,而非重片數(shù)據(jù)由排列組合得到共359 100份,二者比例為1∶1 197,故整體遍歷的方法是不明智的。此外,一個實際工程的焊縫圖片數(shù)可能有上萬張,而重復圖片組,由于監(jiān)管機構(gòu)及審查機構(gòu)的存在,不會同步增長。因此采用構(gòu)建圖片數(shù)據(jù)庫時類似的方法,將300組圖片劃分為各個小組,每組圍繞其中的重片組展開計算,獲取各組閾值后交叉檢驗測試。這樣一方面減少了整體計算量,另一方面可以更方便地篩選出數(shù)據(jù)中的壞點,保留有效圖像數(shù)據(jù)。
圖8為某組焊縫圖片組內(nèi)KL散度計算結(jié)果,可以看出特征提取效果較好的圖片在與非重片計算時得到的KL散度值結(jié)果較大,進一步篩去這類圖片,關注底部數(shù)據(jù)以確定重復圖像判別的閾值,重新獲得散點如圖9所示。

圖8 焊縫圖片組內(nèi)KL散度計算結(jié)果

圖9 篩選后焊縫圖片組內(nèi)KL散度計算結(jié)果
針對該組圖片,當設定KLsum<0.037時,可將92.3%的重片焊縫圖像篩選出來,此時會有4張非重復圖片被誤判。考慮到造假焊縫影像可能帶來的危害,4張誤判圖片在誤差容忍范圍內(nèi)。通過實驗結(jié)果可以看出,由于前期圖像預處理和增強比較精準,圖像特征提取完成度較高,同時KL散度算法相較于其他散度算法更適合本場景,且散度閾值經(jīng)過優(yōu)化后設定比較合理,因此剔除部分紋理提取失敗的焊縫圖像后,各組內(nèi)散度分布情況均符合預期設定。
為了解決焊縫射線探傷圖像查重問題,通過算法優(yōu)化和工程現(xiàn)場實際圖像數(shù)據(jù)分析,采用濾波、二值化、邊緣識別、傾斜校正、焊縫提取等大量預處理操作,構(gòu)建了焊縫圖像金字塔,通過相同窗口大小局部熵運算增強紋理,提取焊縫圖像特征點,設計并開發(fā)出了一套基于深度學習技術的焊縫圖像相似度比較的算法模塊,利用該算法模塊,能自動識別絕大部分焊縫重復圖像,最終準確率為92.3%,能夠在很大程度上減輕圖像評定工作的壓力,使工作人員將更多精力放在提升工程質(zhì)量等方面,而不必在焊縫圖像造假檢測上消耗太多時間。此外,在實驗過程中,發(fā)現(xiàn)對于部分圖像會出現(xiàn)過篩的情況,將非重片誤判為重片。因此,現(xiàn)階段不能完全脫離人工檢測,對于篩查出的重復圖像,還需要由評定人員進一步判斷。