基于可逆金字塔和平衡注意力的工業(yè)裂縫分割

2022-06-23 06:25:00董紅月張興忠趙杰倫

計(jì)算機(jī)工程與應(yīng)用 2022年12期

董紅月，張興忠，趙杰倫

太原理工大學(xué) 軟件學(xué)院，太原 030024

由于工業(yè)結(jié)構(gòu)（如道路、橋梁、電力元件等）長(zhǎng)期工作于疲勞應(yīng)力、周期性載荷等惡劣環(huán)境中，其結(jié)構(gòu)表面上極易出現(xiàn)裂縫。裂縫會(huì)降低局部剛度并導(dǎo)致材料斷裂、性能下降等問題的出現(xiàn)，嚴(yán)重影響工業(yè)系統(tǒng)的安全運(yùn)行。高效精準(zhǔn)的裂縫檢測(cè)可以及時(shí)發(fā)現(xiàn)缺陷并進(jìn)行處理，對(duì)工業(yè)系統(tǒng)的安全運(yùn)行具有重要意義[1-2]。

以輸配電線路中的瓷瓶為例，瓷瓶是輸配電線路中實(shí)現(xiàn)電氣絕緣和機(jī)械固定的重要部件，長(zhǎng)期工作于強(qiáng)電立場(chǎng)、強(qiáng)機(jī)械應(yīng)力、風(fēng)吹日曬等共同構(gòu)成的惡劣環(huán)境中，極易出現(xiàn)裂縫。目前瓷瓶裂縫檢測(cè)主要依賴于人工巡檢，檢查員徒步行走并借助雙筒望遠(yuǎn)鏡目視檢查瓷瓶，存在巡檢效率低、勞動(dòng)強(qiáng)度大、發(fā)現(xiàn)缺陷難，且特殊地形和氣象條件下巡檢困難等問題[3-4]。其他工業(yè)結(jié)構(gòu)也多采用人工檢測(cè)方法，效率低且漏檢嚴(yán)重。傳統(tǒng)的裂縫檢測(cè)方法已無法滿足日益增長(zhǎng)的工業(yè)安全需求。

近幾年來，隨著圖像處理技術(shù)的發(fā)展和無人機(jī)等數(shù)據(jù)獲取設(shè)備的實(shí)現(xiàn)，國內(nèi)外研究者對(duì)基于數(shù)字圖像的裂縫檢測(cè)進(jìn)行了大量深入的研究[5]。數(shù)字圖像處理技術(shù)（閾值提取法、邊緣檢測(cè)算法、濾波器等），根據(jù)裂縫光度、對(duì)比度等特征設(shè)定閾值，將裂縫與背景簡(jiǎn)單分類。文獻(xiàn)[6]提出了一種基于二次閾值分割技術(shù)的裂縫檢測(cè)方法，通過閾值分割算法去除道路標(biāo)記并進(jìn)行圖像分割；文獻(xiàn)[7]通過改進(jìn)的Canny算子抑制干擾物邊緣點(diǎn)，并設(shè)置相對(duì)閾值去除噪聲；該類方法難以選定通用的閾值，準(zhǔn)確度不高，且對(duì)光照、陰影、噪聲等敏感，在背景復(fù)雜時(shí)性能有限。機(jī)器學(xué)習(xí)方法（支持向量機(jī)（support vector machine，SVM）、隨機(jī)森林等），通過人工設(shè)計(jì)裂縫特征，對(duì)提取的特征進(jìn)行分類。文獻(xiàn)[8]提出了一種基于隨機(jī)結(jié)構(gòu)森林的道路裂縫檢測(cè)框架CrackForest，該框架提出了一種裂縫描述子來描述裂縫并將其與噪聲進(jìn)行區(qū)分；文獻(xiàn)[9]利用基于多重特征的噪聲濾波方法以及基于SVM的特征分類法對(duì)裂縫圖像各成分進(jìn)行分類提取；該類方法需要人工設(shè)計(jì)裂縫特征，難以設(shè)計(jì)出適用于所有路面的通用特征，導(dǎo)致算法的適應(yīng)性和擴(kuò)展性較差。

基于深度學(xué)習(xí)的圖像處理技術(shù)主要包括目標(biāo)檢測(cè)和語義分割。目標(biāo)檢測(cè)使用滑動(dòng)窗口卷積網(wǎng)絡(luò)，預(yù)測(cè)是否包含裂縫。文獻(xiàn)[10]提出了一種基于視覺的方法，利用卷積神經(jīng)網(wǎng)絡(luò)來檢測(cè)裂縫，不需要缺陷特征計(jì)算方法但需要大量的訓(xùn)練數(shù)據(jù)來訓(xùn)練一個(gè)魯棒分類器；文獻(xiàn)[11]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）的裂縫分類模型，結(jié)合窗口滑動(dòng)算法對(duì)裂縫進(jìn)行檢測(cè)；該類方法以矩形框精準(zhǔn)定位裂縫，但由于裂縫的分布路徑、形狀和密度是不規(guī)則的，無法提供裂縫的高精度測(cè)量信息。語義分割是像素級(jí)檢測(cè)，基于圖像的每一個(gè)像素進(jìn)行預(yù)測(cè)。文獻(xiàn)[12]提出了特征金字塔和層次增強(qiáng)網(wǎng)絡(luò)（feature pyramid and hierarchical boosting network，F(xiàn)PHBN），對(duì)樣本進(jìn)行重新加權(quán)，以平衡簡(jiǎn)單樣本和困難樣本對(duì)損失函數(shù)造成的影響；文獻(xiàn)[13]提出了一種端到端可訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)DeepCrack，該網(wǎng)絡(luò)由全卷積網(wǎng)絡(luò)和深度監(jiān)督網(wǎng)絡(luò)組成，并采用引導(dǎo)濾波細(xì)化結(jié)果，在所提出的數(shù)據(jù)集上取得了很好的結(jié)果；該類方法為進(jìn)一步測(cè)量裂縫相關(guān)信息提供可能性，但由于語義分割基于獨(dú)立的像素進(jìn)行檢測(cè)，無法提供足夠的上下文信息引導(dǎo)預(yù)測(cè)，存在對(duì)細(xì)小裂縫檢測(cè)性能不足、孤立噪點(diǎn)等問題。

針對(duì)以上問題，本文提出了一種新的工業(yè)裂縫分割網(wǎng)絡(luò)——可逆金字塔和平衡注意力網(wǎng)絡(luò)（reversible pyramid and balanced attention network，RPBAN）。首先基于U-Net[14]進(jìn)行改進(jìn)，構(gòu)建小樣本、像素級(jí)的檢測(cè)模型，解決數(shù)據(jù)不足的問題并為高精準(zhǔn)的裂縫測(cè)量提供可能性；其次提出可逆金字塔模塊（reversible pyramid model，RPM），在編碼器-解碼器階段引入特征金字塔（feature pyramid module，F(xiàn)PM）[15]與進(jìn)行改進(jìn)后的倒-特征金字塔（inverted feature pyramid module，IFPM），加深全局特征與細(xì)節(jié)特征的融合，解決細(xì)小裂縫檢測(cè)性能不足的問題；然后在解碼階段引入平衡注意力模塊（balanced attention model，BAM），將平衡特征作為引導(dǎo)信息，解決孤立噪點(diǎn)的問題；最后選取Focal Loss[16]作為損失函數(shù)，控制正負(fù)樣本在訓(xùn)練中所占的權(quán)重，使模型更專注于裂縫樣本，解決類不平衡帶來的“虛假”損失率的問題。通過在自建的輸配電線路瓷瓶裂縫數(shù)據(jù)集和三個(gè)具有挑戰(zhàn)性的公開裂縫數(shù)據(jù)集上對(duì)本文提出的RPBAN進(jìn)行驗(yàn)證和測(cè)試，實(shí)驗(yàn)表明，與其他基準(zhǔn)方法相比，RPBAN能夠?qū)崿F(xiàn)更高精度的工業(yè)裂縫語義分割。

1 工業(yè)裂縫分割網(wǎng)絡(luò)RPBAN

為實(shí)現(xiàn)高效精準(zhǔn)的工業(yè)裂縫分割，本文提出的工業(yè)裂縫分割網(wǎng)絡(luò)RPBAN采用了編碼器-解碼器框架，如圖1所示。RPBAN由4部分組成：

圖1 工業(yè)裂縫分割網(wǎng)絡(luò)RPBAN結(jié)構(gòu)Fig.1 Architecture of RPBAN

（1）基于U-Net的編碼器體系結(jié)構(gòu)（Conv1～Conv5），用于分層特征提取；

（2）可逆金字塔模塊RPM（FPM1～FPM4，IFPM1～I(xiàn)FPM4），用于特征融合；

（3）平衡注意力模塊BAM，用于檢測(cè)引導(dǎo)；

（4）基于U-Net的解碼器體系結(jié)構(gòu)（Deconv1～Deconv5），用于特征解析，得到預(yù)測(cè)結(jié)果。

RPBAN的特點(diǎn)主要表現(xiàn)在2個(gè)方面：

（1）RPM基于FPM進(jìn)行改進(jìn)，將深層的語義特征融入到淺層的細(xì)節(jié)特征中，并將更新后的淺層特征提取、融合復(fù)用；

（2）BAM將平衡特征分支引入注意力機(jī)制中，使不同層級(jí)的特征有效連接以平衡深層特征與淺層特征，進(jìn)而在計(jì)算過程中增強(qiáng)引導(dǎo)信息。

在構(gòu)建模型時(shí)，由于存在工業(yè)裂縫圖像不易獲取、數(shù)據(jù)不足的問題，選取了U-Net網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò)，其網(wǎng)絡(luò)的實(shí)用性以及從少量數(shù)據(jù)中學(xué)習(xí)的能力，可以有效解決工業(yè)裂縫數(shù)據(jù)少的問題。U-Net網(wǎng)絡(luò)基于編碼器-解碼器結(jié)構(gòu)，通過拼接的方式實(shí)現(xiàn)淺層信息與深層信息的特征融合，在每個(gè)階段都允許解碼器學(xué)習(xí)編碼器的特征，保留在池化中丟失的相關(guān)信息。U-Net網(wǎng)絡(luò)的核心思想是跳躍連接機(jī)制，將前后層級(jí)跨層連接，使得細(xì)節(jié)特征在網(wǎng)絡(luò)流動(dòng)中得到保留。在搭建本文所提網(wǎng)絡(luò)時(shí)，利用跳躍連接機(jī)制將不同模塊按級(jí)別跨層連接，加強(qiáng)全局特征與細(xì)節(jié)特征的保留，將模型各部分高效整合，并使信息在整個(gè)網(wǎng)絡(luò)流動(dòng)起來，使得檢測(cè)性能得到有效提升。

將裂縫圖像輸入編碼器網(wǎng)絡(luò)，以提取不同深度的特征。不同深度對(duì)應(yīng)著不同層次的語義特征，淺層網(wǎng)絡(luò)分辨率高，學(xué)的更多是細(xì)節(jié)特征；深層網(wǎng)絡(luò)分辨率低，學(xué)的更多是語義特征。編碼器模塊包括5個(gè)卷積層Conv1～Conv5。該模塊輸入圖像尺寸為256×256×1，每個(gè)卷積層都采用了兩個(gè)3×3的卷積核，通道數(shù)分別為64、128、256、512和1 024。每經(jīng)過一個(gè)卷積層，輸出特征圖尺寸縮小為輸入特征圖的1/2，通道數(shù)增加一倍。該模塊輸出特征圖尺寸為16×16×1 024。

解碼器模塊包括5個(gè)反卷積層Deconv1～Deconv5。每個(gè)反卷積層都采用了兩個(gè)3×3的卷積核，通道數(shù)分別為1 024、512、256、128和64。該模塊每層的輸入為其他模塊對(duì)應(yīng)層級(jí)輸出特征圖的連接結(jié)果。每經(jīng)過一個(gè)反卷積層，輸出特征圖尺寸擴(kuò)大為輸入特征圖的2倍，通道數(shù)縮減1/2。最后一層采用了三個(gè)3×3卷積與一個(gè)1×1卷積，獲取最終的裂縫檢測(cè)結(jié)果，輸出圖像尺寸為256×256×1。

1.1 可逆金字塔模塊

實(shí)驗(yàn)中存在細(xì)小裂縫檢測(cè)性能不足的問題，其產(chǎn)生原因是語義分割基于獨(dú)立像素檢測(cè)缺少全局特征，且計(jì)算過程中包含一系列卷積、池化操作容易損失細(xì)節(jié)特征，而裂縫在圖像中呈細(xì)長(zhǎng)狀，在檢測(cè)時(shí)需要同時(shí)兼顧全局特征與細(xì)節(jié)特征。針對(duì)以上問題，本文構(gòu)建了可逆金字塔模塊，該模塊基于特征金字塔進(jìn)行改進(jìn)，RPM將特征金字塔功能性倒置轉(zhuǎn)化為倒-特征金字塔，并將兩者按特定規(guī)則結(jié)合在一起。在模塊中，特征金字塔提取分層特征并將深層特征引入到淺層，將深層包含的上下文信息融入淺層的細(xì)節(jié)信息中；倒-特征金字塔連接在特征金字塔之后，利用更新后的分層特征再次進(jìn)行特征提取，并與特征金字塔進(jìn)行功能合并操作，加深上下文信息與細(xì)節(jié)信息的融合，使模型在保留細(xì)節(jié)特征的同時(shí)，增強(qiáng)全局特征，有效提升細(xì)小裂縫的檢測(cè)性能。

RPM包括FPM和IFPM，其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。FPM主要包括自底向上和自頂向下兩個(gè)過程。自底向上過程主要利用卷積、池化對(duì)輸入圖像C1進(jìn)行前饋計(jì)算，形成一個(gè)分辨率遞減、維度遞增的特征金字塔{C2,C3,C4,C5}。自頂向下過程則以{C1,C2,C3,C4,C5}為輸入，通過上采樣和橫向連接的方式構(gòu)建與自底向上特征金字塔逐級(jí)對(duì)應(yīng)的特征圖{F1,F2,F3,F4,F5}。IFPM以FPM輸出的特征圖{F1,F2,F3,F4,F5}為輸入，通過下采樣和橫向連接的方式構(gòu)建與自頂向下特征金字塔逐級(jí)對(duì)應(yīng)的特征圖{I1,I2,I3,I4,I5}。

圖2 可逆金字塔結(jié)構(gòu)Fig.2 Architecture of RPM

FPM與編碼器逐級(jí)相連，包括FPM1～FPM4四層，每層都采用了一個(gè)3×3的卷積核，通道數(shù)分別為512、256、128和64。其每層的輸入為編碼器對(duì)應(yīng)層級(jí)輸出特征圖與特征金字塔鄰近層輸出特征圖的連接結(jié)果，連接操作如圖3所示（以FPM3為例）。其輸入是編碼器對(duì)應(yīng)層級(jí)Conv3輸出的特征圖C3（尺寸為64×64×256）和金字塔鄰近層FPM4輸出的特征圖F4（尺寸為32×32×512），首先對(duì)F4進(jìn)行上采樣操作，然后將其結(jié)果與C3連接，生成特征圖F3＇（尺寸為64×64×512）輸入到FPM3中。

圖3 特征金字塔的連接操作Fig.3 Connection operation of FPM

IFPM與FPM逐級(jí)相連，包括IFPM1～I(xiàn)FPM4四層，每層都采用了一個(gè)3×3的卷積核，通道數(shù)分別為64、128、256和512。其每層的輸入為編碼器對(duì)應(yīng)層級(jí)輸出特征圖、特征金字塔對(duì)應(yīng)層級(jí)輸出特征圖與倒-特征金字塔鄰近層輸出特征圖的連接結(jié)果，連接操作如圖4所示（以IFPM3為例）。其輸入是編碼器對(duì)應(yīng)層級(jí)Conv3輸出的特征圖C3（尺寸為64×64×256）、特征金字塔對(duì)應(yīng)層級(jí)FPM3輸出的特征圖F3（尺寸為64×64×256）和倒-金字塔鄰近層IFPM2輸出的特征圖I2（尺寸為32×32×512），首先對(duì)I2進(jìn)行下采樣操作，然后將其結(jié)果與C3、F3連接，生成特征圖I3＇輸入到IFPM3中。

圖4 倒-特征金字塔的連接操作Fig.4 Connection operation of IFPM

RPM的輸出特征圖表示為：

式中，γn為第n個(gè)經(jīng)IFPM結(jié)構(gòu)融合后的特征圖；h(?)為IFPM結(jié)構(gòu)函數(shù)；w(?)是雙線性采樣函數(shù)；φn為第n個(gè)經(jīng)FPM結(jié)構(gòu)融合后的特征圖；g(?)為FPM結(jié)構(gòu)函數(shù)；v(?)是雙線性插值函數(shù)；f1×1為卷積核為1×1大小的卷積層；f3×3為卷積核為3×3大小的卷積層；φn為特征提取網(wǎng)絡(luò)的第n層特征圖；I為原始圖像；fn為特征提取網(wǎng)絡(luò)的第n個(gè)卷積函數(shù)。

1.2 平衡注意力模塊

實(shí)驗(yàn)中發(fā)現(xiàn)裂縫檢測(cè)存在孤立噪點(diǎn)的問題，其產(chǎn)生原因是獨(dú)立像素級(jí)分類模型基于局部特征提取相關(guān)信息，無法很好地描述裂縫區(qū)域的空間關(guān)系，缺少全局特征。為了解決這個(gè)問題，引入了平衡注意力機(jī)制，在特征圖中平衡細(xì)節(jié)特征與語義特征，加強(qiáng)獲取全局相關(guān)性的能力，進(jìn)而在計(jì)算過程中增強(qiáng)引導(dǎo)信息消除孤立噪點(diǎn)。

BAM基于注意力機(jī)制[17]進(jìn)行改進(jìn)，并將其與平衡特征分支[18]及RPM相結(jié)合，其結(jié)構(gòu)如圖5所示。BAM共包含f、g、h三個(gè)子分支，其中f子分支為特征金字塔分支，輸出為FPM1輸出的特征圖Bf（即F1）；g子分支為平衡特征分支，輸出為平衡特征圖Bg；h子分支為解碼器分支，輸出為Deconv1輸出的特征圖Bh。首先將f和g子分支用于計(jì)算注意力特征圖Ba，該圖包含每個(gè)成對(duì)的局部塊的交互信息；其次將h子分支用于獲取圖像的常規(guī)卷積特征圖Bh；然后將Ba與Bh相乘，獲取最終的平衡注意力特征圖Bs。

圖5 平衡注意力結(jié)構(gòu)Fig.5 Architecture of BAM

平衡特征分支作為g子分支，將不同層級(jí)的特征連接，平衡語義特征與細(xì)節(jié)特征，使得特征圖中深層特征與淺層特征相互補(bǔ)充，增強(qiáng)裂縫注意力，提升檢測(cè)性能，其結(jié)構(gòu)如圖6所示。首先將不同層級(jí)的特征圖{I1,I2,I3,I4,I5}經(jīng)過上采樣操作后生成尺寸相同的特征圖層，然后將特征圖層進(jìn)行連接，并對(duì)連接結(jié)果進(jìn)行特征提取，生成特征圖Bg（尺寸為256×256×64）。

圖6 平衡特征分支結(jié)構(gòu)Fig.6 Architecture of balanced feature branch

BAM的輸出特征圖表示為：

式中，x∈RD×N是編碼層輸出的特征，即原始特征；v是超參數(shù)，用于平衡原始特征與自我注意特征；o是自我注意特征，按照以下過程計(jì)算。首先設(shè)f、g、h三個(gè)子分支的映射公式分別為式（5）～（7），式中Wf、Wg、Wh為三個(gè)子分支的權(quán)重矩陣，bf、bg、bh為偏差，用于提高自我注意機(jī)制的表達(dá)能力。將原始特征按照式（5）～（7）分別進(jìn)行不同的特征映射得到新的特征圖。

然后按照式（8）、式（9）計(jì)算圖像中不同局部區(qū)域之間的關(guān)系，s(i,j)表示f(x)與g(x)兩個(gè)特征圖形成的特征組合，r(j,i)表示模型在表示第j塊時(shí)對(duì)第i塊的關(guān)注程度。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)數(shù)據(jù)

為驗(yàn)證RPBAN的有效性和通用性，本文在一個(gè)瓷瓶裂縫數(shù)據(jù)集InsulatorCrack和三個(gè)公共裂縫數(shù)據(jù)集CrackForest-Dataset（CFD）[8]、CrackTree200[19]和AEL[20]上進(jìn)行了測(cè)試。在實(shí)際使用數(shù)據(jù)時(shí)，首先對(duì)其進(jìn)行resize處理統(tǒng)一數(shù)據(jù)大小，然后輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練，resize處理后圖像尺寸為256×256×1，如圖7。

2.1.1 InsulatorCrack數(shù)據(jù)集

本文首先對(duì)國家電網(wǎng)公司無人機(jī)巡檢過程中所拍攝的瓷瓶巡檢照片進(jìn)行采集整理，將圖像大小統(tǒng)一調(diào)整為512×512像素。其次，在巡檢專家指導(dǎo)下使用Labelme標(biāo)注工具對(duì)整理后的114張瓷瓶巡檢圖像進(jìn)行標(biāo)注。該數(shù)據(jù)集命名為InsulatorCrack，分為84張訓(xùn)練圖像、15張驗(yàn)證圖像和15張測(cè)試圖像，部分示例見圖7（a）。由于圖像數(shù)量有限，對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行了數(shù)據(jù)增強(qiáng)，通過對(duì)圖像進(jìn)行微小的改變（旋轉(zhuǎn)、移位、翻轉(zhuǎn)、縮放等），在擴(kuò)增數(shù)據(jù)的同時(shí)，還可以阻止神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不相關(guān)的特征，從根本上提升整體性能。

圖7 工業(yè)裂縫數(shù)據(jù)集Fig.7 Industrial crack dataset

2.1.2 公共裂縫數(shù)據(jù)集

CFD數(shù)據(jù)集由118張北京城市路面裂縫圖像組成，每個(gè)圖像大小為480×320像素，其中訓(xùn)練集包含88張圖像，驗(yàn)證集包含15張圖像，測(cè)試集包含15張圖像，部分示例見圖7（b）。

CrackTree200數(shù)據(jù)集包含206張裂縫圖像，每個(gè)圖像大小為800×600像素，面臨陰影、遮擋、低對(duì)比度等挑戰(zhàn)，其中訓(xùn)練集包含166張圖像，驗(yàn)證集包含20張圖像，測(cè)試集包含20張圖像，部分示例見圖7（c）。

AEL數(shù)據(jù)集包含58張路面裂縫圖像，其中訓(xùn)練集包含38張圖像，驗(yàn)證集包含10張圖像，測(cè)試集包含10張圖像，部分示例見圖7（d）。

2.2 實(shí)驗(yàn)設(shè)置

2.2.1 實(shí)驗(yàn)方法

本文實(shí)驗(yàn)采用RedHat 4.8.5-39操作系統(tǒng)、GeForce RTX 2080 Ti顯卡進(jìn)行模型訓(xùn)練。所提出的方法基于TensorFlow和Keras實(shí)現(xiàn)，其中，TensorFlow采用2.1.0版本，keras采用2.3.1版本，CUDA采用10.1版本，CUDNN采用7.6.5版本。在訓(xùn)練過程中，初始學(xué)習(xí)率設(shè)置為0.000 1，優(yōu)化器選用Adam，損失函數(shù)采用Focal Loss函數(shù)，α設(shè)置為0.25，η設(shè)置為2。

為驗(yàn)證RPBAN在工業(yè)裂縫檢測(cè)中的有效性，將本文模型與其他模型進(jìn)行了比較，包括U-Net、FPHBN和DeepCrack。U-Net與本文基礎(chǔ)網(wǎng)絡(luò)保持一致；FPHBN基于HED引入特征金字塔與分層提升模塊，按照文獻(xiàn)[12]設(shè)置；DeepCrack基于U-Net引入分層卷積模塊，按照文獻(xiàn)[13]設(shè)置。這3種模型數(shù)據(jù)增強(qiáng)和訓(xùn)練方法均采用上述方法。

2.2.2 損失函數(shù)

實(shí)驗(yàn)中存在損失率很小但精確度不高的問題，這是由于工業(yè)裂縫圖像中裂縫所占比例極小且特征復(fù)雜，而非裂縫占圖像的大部分且多容易分類，正負(fù)樣本極度不平均，負(fù)樣本Loss值主導(dǎo)整個(gè)梯度下降，因此模型的優(yōu)化方向并不是人們所希望的那樣。針對(duì)這個(gè)問題，本文利用Focal Loss來有效優(yōu)化檢測(cè)模型。Focal Loss通過控制正負(fù)樣本在訓(xùn)練中所占的權(quán)重，對(duì)小類別給予較大懲罰因子并對(duì)大類別給予較小懲罰因子，使得模型更專注于裂縫樣本，模型對(duì)裂縫具有更高的靈敏度，緩解了樣本不平衡帶來的問題。Focal Loss定義為式（11）：

式中，W與H分別表示圖像的寬度與高度，y(w,h)與y?(w,h)分別表示圖像中(w,h)像素的標(biāo)簽與預(yù)測(cè)，α與η是兩個(gè)超參數(shù)，用于控制權(quán)重。實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)α設(shè)置為0.25，η設(shè)置為2時(shí)取得最優(yōu)結(jié)果。

2.2.3 評(píng)估指標(biāo)

本文采用精確率（precision，P）、召回率（recall，R）與交并比（intersection over union，IoU）作為評(píng)估指標(biāo)對(duì)瓷瓶裂縫檢測(cè)結(jié)果進(jìn)行定量分析。精確率P是正確預(yù)測(cè)為真的樣本數(shù)占全部預(yù)測(cè)為真的樣本數(shù)的比例，衡量“找的對(duì)”程度，定義為：

召回率R是正確預(yù)測(cè)為真的樣本數(shù)占全部實(shí)際為真的樣本數(shù)的比例，衡量“找的全”程度，定義為：

交并比IoU是預(yù)測(cè)為真與實(shí)際為真樣本的交并比，衡量裂縫預(yù)測(cè)結(jié)果與真實(shí)情況的重疊程度，定義為：

其中，TP、FP、FN分別表示真正例（true positive）、假正例（false positive）、假反例（false negative），其定義如表1所示。

表1 分類結(jié)果混淆矩陣Table 1 Confusion matrix

2.3 實(shí)驗(yàn)結(jié)果

2.3.1 消融實(shí)驗(yàn)結(jié)果

對(duì)RPBAN中Focal Loss、RPM和BAM這3個(gè)模塊的有效性進(jìn)行了實(shí)驗(yàn)驗(yàn)證和分析，實(shí)驗(yàn)結(jié)果如表2所示。比較表2結(jié)果可以發(fā)現(xiàn)，采用Focal Loss損失函數(shù)，模型在指標(biāo)R、IoU方面分別提升了13.69、3.11個(gè)百分點(diǎn)；增加RPM模塊，各指標(biāo)分別提升了0.56、1.86、1.99個(gè)百分點(diǎn)；增加BAM模塊，各指標(biāo)分別提升了3.57、2.85、5.62個(gè)百分點(diǎn)，本文所提出的RPBAN與基礎(chǔ)網(wǎng)絡(luò)U-Net相比各指標(biāo)分別獲得了3.58、18.4、10.72個(gè)百分點(diǎn)的增量，證明了本文提出的各模塊在瓷瓶裂縫檢測(cè)中的有效性。其部分對(duì)比結(jié)果如圖8（e）～（h）所示。從圖中可以看出，加入RPM和BAM模塊后的檢測(cè)模型裂縫檢測(cè)更完整，細(xì)節(jié)更豐富，尤其是細(xì)小裂縫檢測(cè)性能不足與孤立噪點(diǎn)的問題都得到了有效解決，以上實(shí)驗(yàn)結(jié)果驗(yàn)證了所提出組件的有效性。

表2 消融實(shí)驗(yàn)定量比較結(jié)果Table 2 Quantitative comparison results of ablation experiments

本文方法的訓(xùn)練過程損失變化圖與指標(biāo)變化圖分別如圖9與圖10。該方法共訓(xùn)練50個(gè)epoch，每個(gè)epoch訓(xùn)練300代，共迭代15 000次，各損失在訓(xùn)練過程中趨于收斂。隨著訓(xùn)練的進(jìn)行，IoU指標(biāo)穩(wěn)步上升，最終達(dá)到61.42%。

圖9 RPBAN訓(xùn)練過程損失變化圖Fig.9 Changes in loss during RPBAN training

圖10 RPBAN訓(xùn)練過程各指標(biāo)變化圖Fig.10 Changes in precision，recall，IoU during RPBAN training

2.3.2 對(duì)比實(shí)驗(yàn)結(jié)果

各對(duì)比方法在InsulatorCrack測(cè)試集上裂縫檢測(cè)結(jié)果的定量比較如表3所示。從表中可以看出，RPBAN的指標(biāo)P、R、IoU皆為對(duì)比模型中最高，其中指標(biāo)P分別比其他模型高3.58、2.38、10.48個(gè)百分點(diǎn)，指標(biāo)R分別高18.4、2.38、5.65個(gè)百分點(diǎn)，IoU分別高10.72、3.92、8.73個(gè)百分點(diǎn)，驗(yàn)證了本文模型在瓷瓶裂縫檢測(cè)中的優(yōu)越性。圖8（c）～（e）、（h）是各模型在InsulatorCrack測(cè)試集上的部分檢測(cè)結(jié)果。在圖像裂縫清晰且干擾較少時(shí)，U-Net、FPHBN、DeepCrack和RPBAN都能夠較準(zhǔn)確地檢測(cè)出裂縫，如圖8中第1～2行所示，但當(dāng)圖像中裂縫較復(fù)雜或背景干擾較大時(shí)，各模型出現(xiàn)了不同程度的裂縫檢測(cè)不連續(xù)或孤立噪點(diǎn)，如圖8中第3～6行所示，但本文模型RPBAN則基本能夠保持裂縫的完整性，細(xì)節(jié)表現(xiàn)更好。InsulatorCrack數(shù)據(jù)集上各對(duì)比方法IoU指標(biāo)變化如圖11所示，從圖中可見RPBAN瓷瓶裂縫檢測(cè)性能最好。

圖8 InsulatorCrack數(shù)據(jù)集上定性比較結(jié)果Fig.8 Qualitative comparison results on InsulatorCrack dataset

圖11 InsulatorCrack數(shù)據(jù)集上IoU指標(biāo)變化圖Fig.11 Changes in loss on InsulatorCrack dataset

表3 InsulatorCrack數(shù)據(jù)集上定量對(duì)比結(jié)果Table 3 Quantitative comparison results on InsulatorCrack

為了驗(yàn)證RPBAN的有效性與通用性，分別在CFD、CrackTree200和AEL數(shù)據(jù)集上將訓(xùn)練好的RPBAN與U-Net、FPHBN、DeepCrack方法進(jìn)行比較分析。各對(duì)比方法定量比較結(jié)果如表4所示。從表中可以看出，RPBAN的指標(biāo)IoU在各數(shù)據(jù)集上分別達(dá)到了58.36%、64.45%、53.44%，與各模型相比仍保持優(yōu)勢(shì)，說明了本文模型在裂縫檢測(cè)中的有效性與優(yōu)越性。圖12所示為各數(shù)據(jù)集上部分定性比較結(jié)果，前5行是CFD數(shù)據(jù)集，中間5行是CrackTree200數(shù)據(jù)集，后5行是AEL數(shù)據(jù)集。從圖中可以看出CFD數(shù)據(jù)集上，各對(duì)比方法細(xì)節(jié)損失較為嚴(yán)重，與之相比RPBAN細(xì)節(jié)表現(xiàn)更好；CrackTree200數(shù)據(jù)集上，對(duì)比方法檢測(cè)結(jié)果存在孤立噪點(diǎn)與細(xì)小裂縫消失問題，RPBAN與真實(shí)結(jié)果更為接近；AEL數(shù)據(jù)集上，對(duì)比方法受背景噪聲影響尤為嚴(yán)重，與之相比RPBAN檢測(cè)結(jié)果更好。由此可見RPBAN在細(xì)小裂縫檢測(cè)與孤立噪點(diǎn)消除方面較其他模型更為優(yōu)異。以上實(shí)驗(yàn)結(jié)果均證明了所提出方法的有效性和優(yōu)越性。

表4 公開數(shù)據(jù)集上定量對(duì)比結(jié)果Table 4 Quantitative comparison results on public datasets

3 結(jié)束語

本文提出了一種新的工業(yè)裂縫分割網(wǎng)絡(luò)RPBAN，實(shí)現(xiàn)了高效精準(zhǔn)的工業(yè)裂縫語義分割。RPBAN基于U-Net網(wǎng)絡(luò)，在編碼器與解碼器之間增加可逆金字塔模塊，在解碼階段引入平衡注意力模塊，建立小樣本、像素級(jí)的工業(yè)裂縫分割網(wǎng)絡(luò)，解決了孤立噪點(diǎn)、細(xì)小裂縫檢測(cè)性能不足的問題；同時(shí)選取Focal Loss作為損失函數(shù)，解決了類不平衡帶來的“虛假”損失率的問題。最后，在四個(gè)數(shù)據(jù)集上進(jìn)行評(píng)估，實(shí)驗(yàn)結(jié)果驗(yàn)證了所提方法的有效性、優(yōu)越性與通用性。下一步將在本文所提方法的基礎(chǔ)上繼續(xù)進(jìn)行瓷瓶裂縫測(cè)量的相關(guān)研究，對(duì)瓷瓶裂縫相關(guān)信息進(jìn)行精細(xì)化測(cè)量。