基于語義分割的輸送帶跑偏智能檢測方法

2025-01-24 00:00:00李南雁廖輝趙龍蘇金輝藍(lán)武生陳夕松

科技風(fēng) 2025年3期

摘"要：受設(shè)備老化與表面受力不均勻的影響，帶式輸送機(jī)易跑偏，導(dǎo)致故障和物料撒落。傳統(tǒng)監(jiān)測方法成本高且安裝復(fù)雜，為此，本研究提出基于深度學(xué)習(xí)的智能檢測方法，構(gòu)建皮帶線語義分割數(shù)據(jù)集并標(biāo)注；使用Unet模型檢測皮帶線，并通過MiT編碼器優(yōu)化；引入像素位置感知損失強(qiáng)化訓(xùn)練；利用概率霍夫變換提取皮帶線的直線位置，定量分析偏移程度。試驗(yàn)結(jié)果顯示，本模型在皮帶線預(yù)測上IoU達(dá)61.34%，僅占12.93GFlops，具備高效實(shí)時(shí)性，適用于多種輸送帶場景。

關(guān)鍵詞：深度學(xué)習(xí)；語義分割；MiT"Encoder；機(jī)器視覺

隨著數(shù)字化和智能化技術(shù)的推進(jìn)，無人設(shè)備在工業(yè)領(lǐng)域的應(yīng)用使得過程更加安全高效。帶式輸送機(jī)因傳輸效率高、穩(wěn)定性強(qiáng)，廣泛應(yīng)用于鋼鐵、煤礦等領(lǐng)域，正朝著智能化方向發(fā)展。然而，輸送帶在長期運(yùn)行中容易因受力不均而跑偏，導(dǎo)致設(shè)備磨損、能耗增加，甚至可能引發(fā)安全事故。因此，輸送帶跑偏檢測技術(shù)已成為工業(yè)自動(dòng)化領(lǐng)域的研究熱點(diǎn)，及時(shí)檢測并糾正偏移對于確保設(shè)備安全至關(guān)重要［12］。

工業(yè)現(xiàn)場的皮帶偏移檢測方法分為接觸式和非接觸式兩類。接觸式檢測依賴偏移傳感器，通過位移感應(yīng)觸發(fā)報(bào)警或自動(dòng)糾偏，雖然結(jié)構(gòu)簡單，但易受環(huán)境影響，且機(jī)械磨損大，需定期維護(hù)。非接觸式檢測包括激光和視覺檢測，其中激光檢測通過光電系統(tǒng)監(jiān)測皮帶邊緣位置，當(dāng)偏移時(shí)激光信號變化觸發(fā)報(bào)警。參考文獻(xiàn)［2］的研究表明，激光技術(shù)提高了檢測精度，但由于成本高、環(huán)境要求苛刻，安裝維護(hù)復(fù)雜，不適用于一般工業(yè)場景。

基于視覺的皮帶偏移檢測通過工業(yè)相機(jī)拍攝皮帶運(yùn)行狀態(tài)，利用圖像處理技術(shù)分析位置和角度。隨著圖像處理算法與邊緣計(jì)算的發(fā)展，該方法在復(fù)雜環(huán)境中表現(xiàn)優(yōu)異。參考文獻(xiàn)［3］通過灰度變換、二值化、形態(tài)分析、canny邊緣檢測和hough線檢測等操作，提取皮帶邊緣直線特征判斷偏移，參考文獻(xiàn)［2］也采用類似方法實(shí)現(xiàn)判偏。然而，這類傳統(tǒng)算法易受成像環(huán)境和光照影響，對紋理信息敏感，且需定制化特征，難以適應(yīng)新環(huán)境。近年來，基于深度學(xué)習(xí)的算法逐漸應(yīng)用于皮帶偏移檢測。

為了提高視覺檢測算法的魯棒性，我們用到了基于Unet［4］框架的語義分割網(wǎng)絡(luò)模型，對皮帶位置進(jìn)行提取。由于皮帶線像素占比較低且依賴全局信息，傳統(tǒng)Unet模型難以精確識別，我們使用MiT（Mix"Transformer）［5］編碼器對Unet進(jìn)行了改進(jìn)，同時(shí)提高了皮帶線識別的精度和速度。

1"語義分割網(wǎng)絡(luò)模型

語義分割任務(wù)對圖像進(jìn)行逐像素分類。傳統(tǒng)方法依賴人工特征提取和圖像處理技術(shù)，需手動(dòng)設(shè)計(jì)和調(diào)整參數(shù)，泛化能力有限。自2014年全卷積網(wǎng)絡(luò)FCN［6］提出后，基于深度學(xué)習(xí)的語義分割網(wǎng)絡(luò)逐漸興起。2015年，Unet［4］通過編碼解碼結(jié)構(gòu)成為經(jīng)典模型，這些網(wǎng)絡(luò)通過端到端方式自動(dòng)學(xué)習(xí)特征，消除了手動(dòng)設(shè)計(jì)的需求，使得深度學(xué)習(xí)方法逐漸主導(dǎo)語義分割任務(wù)［7］。

1.1"Unet模型原理

Unet是一種卷積神經(jīng)網(wǎng)絡(luò)（CNN），最初用于生物醫(yī)學(xué)圖像的像素級分割，適合小樣本數(shù)據(jù)集。其結(jié)構(gòu)包括收縮路徑、擴(kuò)展路徑和跳躍連接。收縮路徑類似編碼器，通過卷積和池化逐級提取抽象特征；擴(kuò)展路徑類似解碼器，通過上采樣和卷積還原圖像分辨率；跳躍連接將收縮路徑中的特征圖傳遞給擴(kuò)展路徑，幫助保留細(xì)節(jié)信息。

1.2"引入MiT編碼頭

卷積神經(jīng)網(wǎng)絡(luò)受限于卷積核，僅能提取局部特征。為增大感受野，通常堆疊多個(gè)卷積塊，增加池化層，導(dǎo)致特征圖分辨率降低和細(xì)節(jié)丟失，限制了語義分割的發(fā)展。對于本研究的皮帶線分割任務(wù)，因其形狀細(xì)長，網(wǎng)絡(luò)難以在全局范圍內(nèi)理解線狀特征的同時(shí)保留邊緣細(xì)節(jié)。

Transformer［8］最初為自然語言處理設(shè)計(jì)，由自注意力層和前饋全連接層組成，自注意力機(jī)制使模型能夠關(guān)注輸入序列中不同位置之間的關(guān)系，尤其在處理長距離依賴和序列到序列任務(wù)時(shí)表現(xiàn)出色，適合本研究的皮帶線分割任務(wù)。近年來，Transformer在圖像處理領(lǐng)域逐漸展現(xiàn)優(yōu)勢，出現(xiàn)了針對圖像處理的變種［5，9］。這些編碼器可與Unet模型結(jié)合，為輸入圖像提取特征并進(jìn)行下采樣，利用Unet的跳躍連接實(shí)現(xiàn)精確的皮帶線分割。

1.3"引入像素位置感知損失

在語義分割任務(wù)中，選擇合適的損失函數(shù)對模型訓(xùn)練至關(guān)重要。經(jīng)典的二元分類損失函數(shù)包括二元交叉熵?fù)p失（BCE損失）和交并比（IoU損失），前者量化預(yù)測概率與真實(shí)分布之間的差異，后者評估預(yù)測分割與真實(shí)分割的重疊程度。然而，在皮帶線分割任務(wù)中，由于邊緣僅占幾個(gè)像素，傳統(tǒng)損失函數(shù)往往過于關(guān)注背景區(qū)域，無法有效集中注意力于前景。為此，本研究采用像素位置感知損失（PPA損失）［10］，通過合成局部結(jié)構(gòu)信息生成逐像素權(quán)重圖，優(yōu)先考慮前景輪廓的細(xì)節(jié)，從而提高模型訓(xùn)練的有效性。

2"試驗(yàn)結(jié)果與分析

2.1"皮帶線圖像數(shù)據(jù)集搭建

為了確保皮帶數(shù)據(jù)集的多樣性，避免從同一視頻中提取大量重復(fù)幀導(dǎo)致模型過擬合，本項(xiàng)目除了使用工業(yè)生產(chǎn)線拍攝的皮帶數(shù)據(jù)外，還通過網(wǎng)絡(luò)收集了額外樣本，確保圖像樣本的差異性。最終，我們獲得了322個(gè)包含豐富工業(yè)場景和皮帶類別的圖像樣本。

對于每一個(gè)圖像樣本，我們將其縮放到512×512像素的分辨率。利用Labelme軟件進(jìn)行皮帶線標(biāo)注，并導(dǎo)出成黑白掩碼圖，皮帶線的寬度選取為8個(gè)像素點(diǎn)。

通過對樣本按照8∶2的比例劃分，我們得到258張訓(xùn)練樣本和64張測試樣本。在模型訓(xùn)練之前，我們對訓(xùn)練集圖像進(jìn)行預(yù)處理：先隨機(jī)裁剪到416×416像素的分辨率，然后對圖像進(jìn)行隨機(jī)旋轉(zhuǎn)與翻轉(zhuǎn)；最后對圖像的亮度、對比度、飽和度、色調(diào)設(shè)置了隨機(jī)擾動(dòng)。

2.2"結(jié)果與分析

為了精確地對網(wǎng)絡(luò)訓(xùn)練結(jié)果進(jìn)行定量評估，我們將預(yù)測概率閾值設(shè)置為0.5，以將皮帶線分割圖進(jìn)行二值化。通過將該圖與真實(shí)標(biāo)簽進(jìn)行比較，能夠計(jì)算真陽性（TP）、真陰性（TN）、假陽性（FP）和假陰性（FN）各自的像素占比。然后可以定義不同的指標(biāo)來評估分割網(wǎng)絡(luò)性能表現(xiàn)，包括像素精度（Acc）、交并比（IoU）、精度（Pre）、召回率（Rec）和F1Score（F1值）。

像素精度表示分類正確的像素與圖像像素總數(shù)的比率。由于本皮帶線分割任務(wù)，線前景所占的像素點(diǎn)極低，絕大多數(shù)像素點(diǎn)屬于背景像素，因此像素精度主要受背景像素的分類情況主導(dǎo)，其數(shù)值趨近于1。

Acc=TP+TNTP+TN+FP+FN（1）

交并比是某一類別的預(yù)測結(jié)果區(qū)域與真實(shí)標(biāo)簽區(qū)域的交集與并集的像素點(diǎn)數(shù)量的比值，該值越接近1表示對于該類別，預(yù)測與真實(shí)標(biāo)簽越接近。對于本皮帶線分割任務(wù)，交并比是最主要的評價(jià)指標(biāo)。

IoU=TPTP+FP+FN（2）

精度和召回的定義分別如下：

Pre=TPTP+FP（3）

Rec=TPTP+FN（4）

F1Score是精度和召回率的調(diào)和平均值，能夠同時(shí)考慮召回率和精度，通常用于不平衡數(shù)據(jù)集下的算法性能評估，計(jì)算如下：

F1=2×Pre×RecPre+Rec（5）

為了便于加速訓(xùn)練，原始Unet和MiTBased"Unet的編碼器部分使用了ImageNet預(yù)訓(xùn)練權(quán)重作為初始權(quán)重。模型總共訓(xùn)練100個(gè)Epoch，Batchsize設(shè)置為4，模型初始學(xué)習(xí)率設(shè)置為1e3，以Poly方式進(jìn)遞減衰減至零，多項(xiàng)式衰減系數(shù)為0.9，使用SGD作為優(yōu)化器，權(quán)值衰減為5e4，動(dòng)量系數(shù)為0.9。

對修改后的模型進(jìn)行評估，結(jié)果如表2所示。

前三組實(shí)驗(yàn)在Unet模型的基礎(chǔ)上嘗試了不同的損失函數(shù)，由表可知，單獨(dú)的PPA損失只考慮真實(shí)前景標(biāo)簽的周圍區(qū)域，其效果弱于經(jīng)典的BCE+IOU損失組合，但當(dāng)PPA損失與經(jīng)典損失相結(jié)合，則可以在兼顧全局圖像的基礎(chǔ)上著重關(guān)注待分割對象區(qū)域。實(shí)驗(yàn)證明，模型推理的IoU指標(biāo)達(dá)到58.395%，相較于原始損失函數(shù)提升了21個(gè)百分點(diǎn)，訓(xùn)練效果顯著改進(jìn)。

從后三組實(shí)驗(yàn)可知，MiTBased"Unet得益于精簡高效的自注意力編碼頭，所需參數(shù)和計(jì)算量都小于相同深度的原始的基于cnn模型的Unet，參數(shù)量縮減了1.44倍，計(jì)算量縮減了5.08倍。訓(xùn)練的模型在測試集上最高達(dá)到61344%交并比，這對于只存在8個(gè)像素寬度真實(shí)標(biāo)簽的皮帶線分割而言，已經(jīng)是屬于比較高的分割性能，已經(jīng)接近與人工標(biāo)記的誤差范圍。

全體實(shí)驗(yàn)組的像素精度指標(biāo)都在98%以上，說明占絕大多數(shù)像素的環(huán)境背景類別在該項(xiàng)指標(biāo)當(dāng)中占據(jù)主導(dǎo)作用，進(jìn)一步印證了引入MiT編碼器和PPA損失對于改善分割性能的作用。

3"后處理

如下圖所示，將輸入圖像送入神經(jīng)網(wǎng)絡(luò)后，可得到預(yù)測的分割掩碼圖。為了檢測輸送帶位置并進(jìn)行跑偏監(jiān)測，需要進(jìn)一步對掩碼圖進(jìn)行直線擬合。由于直接采用霍夫變換可能受分割擾動(dòng)影響而產(chǎn)生多條直線，我們采用概率霍夫變換提取短線段，并對其進(jìn)行聚類與連接，從而獲得完整的皮帶線擬合坐標(biāo)和斜率。根據(jù)模型預(yù)測結(jié)果，可以準(zhǔn)確擬合直線位置，達(dá)到肉眼觀察的判偏精度。以圖像中心為參考點(diǎn)，可以得到左右直線在h/2位置的橫坐標(biāo)，即為左右皮帶線的定量像素位置。最后，設(shè)置跑偏閾值（按經(jīng)驗(yàn)選取為皮帶寬度的十分之一），實(shí)現(xiàn)跑偏檢測。

結(jié)語

本研究設(shè)計(jì)了一個(gè)基于深度學(xué)習(xí)的輸送帶邊緣識別與跑偏檢測系統(tǒng)，選擇Unet作為線檢測算法，并用MiT架構(gòu)優(yōu)化編碼器，以增強(qiáng)全局語義信息的捕獲能力，提高檢測精度。我們搭建了實(shí)驗(yàn)平臺，收集并標(biāo)注了皮帶線圖像，建立了皮帶線分割數(shù)據(jù)集。在數(shù)據(jù)增強(qiáng)后，訓(xùn)練過程中引入了像素位置感知損失，強(qiáng)化模型對皮帶線前景的學(xué)習(xí)。對于模型生成的預(yù)測掩碼圖，使用概率霍夫變換進(jìn)行直線擬合，獲取直線的點(diǎn)斜式位置信息，以實(shí)現(xiàn)定量判偏監(jiān)測。

參考文獻(xiàn)：

［1］PANG"Y.Intelligent"belt"conveyor"monitoring"and"control［M］.Delft：TRAIL"Research"School，2010.

［2］ZHANG"M，SHI"H，Yu"Y，et"al.Conveyor"deviation"detection"system［J］.Applied"Sciences，2020：110.

［3］WANG"J，LIU"Q，DAI"M.Belt"vision"localization"and"deviation"detection［C］//YAC，IEEE，2019：269273.

［4］RONNEBERGRE"O，F(xiàn)ISCHER"P，BROX"T.UNet"for"image"segmentation［J］.Lect.Notes"Comput.Sci.，2015，9351：234241.

［5］XIE"E，WANG"W，YU"Z，et"al.SegFormer：Transformers"for"Semantic"Segmentation［J］.Adv.Neural"Inf.Process.Syst.，2021，34：1207712090.

［6］LONG"J，SHELHAMER"E，DARRELL"T.Fully"Convolutional"Networks"for"Semantic"Segmentation［C］//Proc.CVPR，2015：34313440.

［7］SU"J，ZHU"X，LI"S，et"al.AI"empowered"UAVs"for"precision"agriculture［J］.Neurocomputing，2023，518：242270.

［8］VASWANI"A，SHAZEER"N，Parmar"N，et"al.Attention"is"All"You"Need［J］.NeurIPS，2017，30：59986008.

［9］BEYER，A"L，KOLESNIKOV"A，et"al.An"Image"is"Worth"16x16"Words：Transformers"for"Image"Recognition"at"Scale［J］.Adv.Neural"Inf.Process.Syst.，2020，33：1241012421.

［10］WEI"J，WANG"S，HUANG"Q.F3Net"for"salient"object"detection［J］.AAAI，2020，34（7）：1232112328.

福建省區(qū)域發(fā)展項(xiàng)目：圓管帶式輸送機(jī)智能巡檢技術(shù)與裝備的開發(fā)及應(yīng)用，項(xiàng)目編號：2022H4027

作者簡介：李南雁（2001—"），男，漢族，湖北黃石人，碩士在讀，從事機(jī)器視覺工業(yè)巡檢；廖輝（1989—"），男，漢族，福建武平人，碩士，高級工程師，研究方向：大型散料輸送設(shè)備智能化開發(fā)；趙龍（1996—"），男，漢族，湖南永州人，博士在讀，從事機(jī)器視覺工業(yè)巡檢；蘇金輝（1974—"），男，漢族，福建永定人，高級工程師，研究方向：散料輸送系統(tǒng)設(shè)計(jì)和設(shè)備智能巡檢系統(tǒng)開發(fā)；藍(lán)武生（1990—"），男，畬族，福建上杭人，工程師，研究方向：散料巡檢系統(tǒng)開發(fā)；陳夕松（1970—"），男，漢族，安徽全椒人，教授，博士生導(dǎo)師，研究方向：先進(jìn)過程控制、擾動(dòng)抑制理論及其在過程中的應(yīng)用。