


摘"要:受設(shè)備老化與表面受力不均勻的影響,帶式輸送機(jī)易跑偏,導(dǎo)致故障和物料撒落。傳統(tǒng)監(jiān)測方法成本高且安裝復(fù)雜,為此,本研究提出基于深度學(xué)習(xí)的智能檢測方法,構(gòu)建皮帶線語義分割數(shù)據(jù)集并標(biāo)注;使用Unet模型檢測皮帶線,并通過MiT編碼器優(yōu)化;引入像素位置感知損失強(qiáng)化訓(xùn)練;利用概率霍夫變換提取皮帶線的直線位置,定量分析偏移程度。試驗(yàn)結(jié)果顯示,本模型在皮帶線預(yù)測上IoU達(dá)61.34%,僅占12.93GFlops,具備高效實(shí)時(shí)性,適用于多種輸送帶場景。
關(guān)鍵詞:深度學(xué)習(xí);語義分割;MiT"Encoder;機(jī)器視覺
隨著數(shù)字化和智能化技術(shù)的推進(jìn),無人設(shè)備在工業(yè)領(lǐng)域的應(yīng)用使得過程更加安全高效。帶式輸送機(jī)因傳輸效率高、穩(wěn)定性強(qiáng),廣泛應(yīng)用于鋼鐵、煤礦等領(lǐng)域,正朝著智能化方向發(fā)展。然而,輸送帶在長期運(yùn)行中容易因受力不均而跑偏,導(dǎo)致設(shè)備磨損、能耗增加,甚至可能引發(fā)安全事故。因此,輸送帶跑偏檢測技術(shù)已成為工業(yè)自動(dòng)化領(lǐng)域的研究熱點(diǎn),及時(shí)檢測并糾正偏移對于確保設(shè)備安全至關(guān)重要[12]。
工業(yè)現(xiàn)場的皮帶偏移檢測方法分為接觸式和非接觸式兩類。接觸式檢測依賴偏移傳感器,通過位移感應(yīng)觸發(fā)報(bào)警或自動(dòng)糾偏,雖然結(jié)構(gòu)簡單,但易受環(huán)境影響,且機(jī)械磨損大,需定期維護(hù)。非接觸式檢測包括激光和視覺檢測,其中激光檢測通過光電系統(tǒng)監(jiān)測皮帶邊緣位置,當(dāng)偏移時(shí)激光信號變化觸發(fā)報(bào)警。參考文獻(xiàn)[2]的研究表明,激光技術(shù)提高了檢測精度,但由于成本高、環(huán)境要求苛刻,安裝維護(hù)復(fù)雜,不適用于一般工業(yè)場景。
基于視覺的皮帶偏移檢測通過工業(yè)相機(jī)拍攝皮帶運(yùn)行狀態(tài),利用圖像處理技術(shù)分析位置和角度。隨著圖像處理算法與邊緣計(jì)算的發(fā)展,該方法在復(fù)雜環(huán)境中表現(xiàn)優(yōu)異。參考文獻(xiàn)[3]通過灰度變換、二值化、形態(tài)分析、canny邊緣檢測和hough線檢測等操作,提取皮帶邊緣直線特征判斷偏移,參考文獻(xiàn)[2]也采用類似方法實(shí)現(xiàn)判偏。然而,這類傳統(tǒng)算法易受成像環(huán)境和光照影響,對紋理信息敏感,且需定制化特征,難以適應(yīng)新環(huán)境。近年來,基于深度學(xué)習(xí)的算法逐漸應(yīng)用于皮帶偏移檢測。
為了提高視覺檢測算法的魯棒性,我們用到了基于Unet[4]框架的語義分割網(wǎng)絡(luò)模型,對皮帶位置進(jìn)行提取。由于皮帶線像素占比較低且依賴全局信息,傳統(tǒng)Unet模型難以精確識別,我們使用MiT(Mix"Transformer)[5]編碼器對Unet進(jìn)行了改進(jìn),同時(shí)提高了皮帶線識別的精度和速度。
1"語義分割網(wǎng)絡(luò)模型
語義分割任務(wù)對圖像進(jìn)行逐像素分類。傳統(tǒng)方法依賴人工特征提取和圖像處理技術(shù),需手動(dòng)設(shè)計(jì)和調(diào)整參數(shù),泛化能力有限。自2014年全卷積網(wǎng)絡(luò)FCN[6]提出后,基于深度學(xué)習(xí)的語義分割網(wǎng)絡(luò)逐漸興起。2015年,Unet[4]通過編碼解碼結(jié)構(gòu)成為經(jīng)典模型,這些網(wǎng)絡(luò)通過端到端方式自動(dòng)學(xué)習(xí)特征,消除了手動(dòng)設(shè)計(jì)的需求,使得深度學(xué)習(xí)方法逐漸主導(dǎo)語義分割任務(wù)[7]。
1.1"Unet模型原理
Unet是一種卷積神經(jīng)網(wǎng)絡(luò)(CNN),最初用于生物醫(yī)學(xué)圖像的像素級分割,適合小樣本數(shù)據(jù)集。其結(jié)構(gòu)包括收縮路徑、擴(kuò)展路徑和跳躍連接。收縮路徑類似編碼器,通過卷積和池化逐級提取抽象特征;擴(kuò)展路徑類似解碼器,通過上采樣和卷積還原圖像分辨率;跳躍連接將收縮路徑中的特征圖傳遞給擴(kuò)展路徑,幫助保留細(xì)節(jié)信息。
1.2"引入MiT編碼頭
卷積神經(jīng)網(wǎng)絡(luò)受限于卷積核,僅能提取局部特征。為增大感受野,通常堆疊多個(gè)卷積塊,增加池化層,導(dǎo)致特征圖分辨率降低和細(xì)節(jié)丟失,限制了語義分割的發(fā)展。對于本研究的皮帶線分割任務(wù),因其形狀細(xì)長,網(wǎng)絡(luò)難以在全局范圍內(nèi)理解線狀特征的同時(shí)保留邊緣細(xì)節(jié)。
Transformer[8]最初為自然語言處理設(shè)計(jì),由自注意力層和前饋全連接層組成,自注意力機(jī)制使模型能夠關(guān)注輸入序列中不同位置之間的關(guān)系,尤其在處理長距離依賴和序列到序列任務(wù)時(shí)表現(xiàn)出色,適合本研究的皮帶線分割任務(wù)。近年來,Transformer在圖像處理領(lǐng)域逐漸展現(xiàn)優(yōu)勢,出現(xiàn)了針對圖像處理的變種[5,9]。這些編碼器可與Unet模型結(jié)合,為輸入圖像提取特征并進(jìn)行下采樣,利用Unet的跳躍連接實(shí)現(xiàn)精確的皮帶線分割。
1.3"引入像素位置感知損失
在語義分割任務(wù)中,選擇合適的損失函數(shù)對模型訓(xùn)練至關(guān)重要。經(jīng)典的二元分類損失函數(shù)包括二元交叉熵?fù)p失(BCE損失)和交并比(IoU損失),前者量化預(yù)測概率與真實(shí)分布之間的差異,后者評估預(yù)測分割與真實(shí)分割的重疊程度。然而,在皮帶線分割任務(wù)中,由于邊緣僅占幾個(gè)像素,傳統(tǒng)損失函數(shù)往往過于關(guān)注背景區(qū)域,無法有效集中注意力于前景。為此,本研究采用像素位置感知損失(PPA損失)[10],通過合成局部結(jié)構(gòu)信息生成逐像素權(quán)重圖,優(yōu)先考慮前景輪廓的細(xì)節(jié),從而提高模型訓(xùn)練的有效性。
2"試驗(yàn)結(jié)果與分析
2.1"皮帶線圖像數(shù)據(jù)集搭建
為了確保皮帶數(shù)據(jù)集的多樣性,避免從同一視頻中提取大量重復(fù)幀導(dǎo)致模型過擬合,本項(xiàng)目除了使用工業(yè)生產(chǎn)線拍攝的皮帶數(shù)據(jù)外,還通過網(wǎng)絡(luò)收集了額外樣本,確保圖像樣本的差異性。最終,我們獲得了322個(gè)包含豐富工業(yè)場景和皮帶類別的圖像樣本。
對于每一個(gè)圖像樣本,我們將其縮放到512×512像素的分辨率。利用Labelme軟件進(jìn)行皮帶線標(biāo)注,并導(dǎo)出成黑白掩碼圖,皮帶線的寬度選取為8個(gè)像素點(diǎn)。
通過對樣本按照8∶2的比例劃分,我們得到258張訓(xùn)練樣本和64張測試樣本。在模型訓(xùn)練之前,我們對訓(xùn)練集圖像進(jìn)行預(yù)處理:先隨機(jī)裁剪到416×416像素的分辨率,然后對圖像進(jìn)行隨機(jī)旋轉(zhuǎn)與翻轉(zhuǎn);最后對圖像的亮度、對比度、飽和度、色調(diào)設(shè)置了隨機(jī)擾動(dòng)。
2.2"結(jié)果與分析
為了精確地對網(wǎng)絡(luò)訓(xùn)練結(jié)果進(jìn)行定量評估,我們將預(yù)測概率閾值設(shè)置為0.5,以將皮帶線分割圖進(jìn)行二值化。通過將該圖與真實(shí)標(biāo)簽進(jìn)行比較,能夠計(jì)算真陽性(TP)、真陰性(TN)、假陽性(FP)和假陰性(FN)各自的像素占比。然后可以定義不同的指標(biāo)來評估分割網(wǎng)絡(luò)性能表現(xiàn),包括像素精度(Acc)、交并比(IoU)、精度(Pre)、召回率(Rec)和F1Score(F1值)。
像素精度表示分類正確的像素與圖像像素總數(shù)的比率。由于本皮帶線分割任務(wù),線前景所占的像素點(diǎn)極低,絕大多數(shù)像素點(diǎn)屬于背景像素,因此像素精度主要受背景像素的分類情況主導(dǎo),其數(shù)值趨近于1。
Acc=TP+TNTP+TN+FP+FN(1)
交并比是某一類別的預(yù)測結(jié)果區(qū)域與真實(shí)標(biāo)簽區(qū)域的交集與并集的像素點(diǎn)數(shù)量的比值,該值越接近1表示對于該類別,預(yù)測與真實(shí)標(biāo)簽越接近。對于本皮帶線分割任務(wù),交并比是最主要的評價(jià)指標(biāo)。
IoU=TPTP+FP+FN(2)
精度和召回的定義分別如下:
Pre=TPTP+FP(3)
Rec=TPTP+FN(4)
F1Score是精度和召回率的調(diào)和平均值,能夠同時(shí)考慮召回率和精度,通常用于不平衡數(shù)據(jù)集下的算法性能評估,計(jì)算如下:
F1=2×Pre×RecPre+Rec(5)
為了便于加速訓(xùn)練,原始Unet和MiTBased"Unet的編碼器部分使用了ImageNet預(yù)訓(xùn)練權(quán)重作為初始權(quán)重。模型總共訓(xùn)練100個(gè)Epoch,Batchsize設(shè)置為4,模型初始學(xué)習(xí)率設(shè)置為1e3,以Poly方式進(jìn)遞減衰減至零,多項(xiàng)式衰減系數(shù)為0.9,使用SGD作為優(yōu)化器,權(quán)值衰減為5e4,動(dòng)量系數(shù)為0.9。
對修改后的模型進(jìn)行評估,結(jié)果如表2所示。
前三組實(shí)驗(yàn)在Unet模型的基礎(chǔ)上嘗試了不同的損失函數(shù),由表可知,單獨(dú)的PPA損失只考慮真實(shí)前景標(biāo)簽的周圍區(qū)域,其效果弱于經(jīng)典的BCE+IOU損失組合,但當(dāng)PPA損失與經(jīng)典損失相結(jié)合,則可以在兼顧全局圖像的基礎(chǔ)上著重關(guān)注待分割對象區(qū)域。實(shí)驗(yàn)證明,模型推理的IoU指標(biāo)達(dá)到58.395%,相較于原始損失函數(shù)提升了21個(gè)百分點(diǎn),訓(xùn)練效果顯著改進(jìn)。
從后三組實(shí)驗(yàn)可知,MiTBased"Unet得益于精簡高效的自注意力編碼頭,所需參數(shù)和計(jì)算量都小于相同深度的原始的基于cnn模型的Unet,參數(shù)量縮減了1.44倍,計(jì)算量縮減了5.08倍。訓(xùn)練的模型在測試集上最高達(dá)到61344%交并比,這對于只存在8個(gè)像素寬度真實(shí)標(biāo)簽的皮帶線分割而言,已經(jīng)是屬于比較高的分割性能,已經(jīng)接近與人工標(biāo)記的誤差范圍。
全體實(shí)驗(yàn)組的像素精度指標(biāo)都在98%以上,說明占絕大多數(shù)像素的環(huán)境背景類別在該項(xiàng)指標(biāo)當(dāng)中占據(jù)主導(dǎo)作用,進(jìn)一步印證了引入MiT編碼器和PPA損失對于改善分割性能的作用。
3"后處理
如下圖所示,將輸入圖像送入神經(jīng)網(wǎng)絡(luò)后,可得到預(yù)測的分割掩碼圖。為了檢測輸送帶位置并進(jìn)行跑偏監(jiān)測,需要進(jìn)一步對掩碼圖進(jìn)行直線擬合。由于直接采用霍夫變換可能受分割擾動(dòng)影響而產(chǎn)生多條直線,我們采用概率霍夫變換提取短線段,并對其進(jìn)行聚類與連接,從而獲得完整的皮帶線擬合坐標(biāo)和斜率。根據(jù)模型預(yù)測結(jié)果,可以準(zhǔn)確擬合直線位置,達(dá)到肉眼觀察的判偏精度。以圖像中心為參考點(diǎn),可以得到左右直線在h/2位置的橫坐標(biāo),即為左右皮帶線的定量像素位置。最后,設(shè)置跑偏閾值(按經(jīng)驗(yàn)選取為皮帶寬度的十分之一),實(shí)現(xiàn)跑偏檢測。
結(jié)語
本研究設(shè)計(jì)了一個(gè)基于深度學(xué)習(xí)的輸送帶邊緣識別與跑偏檢測系統(tǒng),選擇Unet作為線檢測算法,并用MiT架構(gòu)優(yōu)化編碼器,以增強(qiáng)全局語義信息的捕獲能力,提高檢測精度。我們搭建了實(shí)驗(yàn)平臺,收集并標(biāo)注了皮帶線圖像,建立了皮帶線分割數(shù)據(jù)集。在數(shù)據(jù)增強(qiáng)后,訓(xùn)練過程中引入了像素位置感知損失,強(qiáng)化模型對皮帶線前景的學(xué)習(xí)。對于模型生成的預(yù)測掩碼圖,使用概率霍夫變換進(jìn)行直線擬合,獲取直線的點(diǎn)斜式位置信息,以實(shí)現(xiàn)定量判偏監(jiān)測。
參考文獻(xiàn):
[1]PANG"Y.Intelligent"belt"conveyor"monitoring"and"control[M].Delft:TRAIL"Research"School,2010.
[2]ZHANG"M,SHI"H,Yu"Y,et"al.Conveyor"deviation"detection"system[J].Applied"Sciences,2020:110.
[3]WANG"J,LIU"Q,DAI"M.Belt"vision"localization"and"deviation"detection[C]//YAC,IEEE,2019:269273.
[4]RONNEBERGRE"O,F(xiàn)ISCHER"P,BROX"T.UNet"for"image"segmentation[J].Lect.Notes"Comput.Sci.,2015,9351:234241.
[5]XIE"E,WANG"W,YU"Z,et"al.SegFormer:Transformers"for"Semantic"Segmentation[J].Adv.Neural"Inf.Process.Syst.,2021,34:1207712090.
[6]LONG"J,SHELHAMER"E,DARRELL"T.Fully"Convolutional"Networks"for"Semantic"Segmentation[C]//Proc.CVPR,2015:34313440.
[7]SU"J,ZHU"X,LI"S,et"al.AI"empowered"UAVs"for"precision"agriculture[J].Neurocomputing,2023,518:242270.
[8]VASWANI"A,SHAZEER"N,Parmar"N,et"al.Attention"is"All"You"Need[J].NeurIPS,2017,30:59986008.
[9]BEYER,A"L,KOLESNIKOV"A,et"al.An"Image"is"Worth"16x16"Words:Transformers"for"Image"Recognition"at"Scale[J].Adv.Neural"Inf.Process.Syst.,2020,33:1241012421.
[10]WEI"J,WANG"S,HUANG"Q.F3Net"for"salient"object"detection[J].AAAI,2020,34(7):1232112328.
福建省區(qū)域發(fā)展項(xiàng)目:圓管帶式輸送機(jī)智能巡檢技術(shù)與裝備的開發(fā)及應(yīng)用,項(xiàng)目編號:2022H4027
作者簡介:李南雁(2001—"),男,漢族,湖北黃石人,碩士在讀,從事機(jī)器視覺工業(yè)巡檢;廖輝(1989—"),男,漢族,福建武平人,碩士,高級工程師,研究方向:大型散料輸送設(shè)備智能化開發(fā);趙龍(1996—"),男,漢族,湖南永州人,博士在讀,從事機(jī)器視覺工業(yè)巡檢;蘇金輝(1974—"),男,漢族,福建永定人,高級工程師,研究方向:散料輸送系統(tǒng)設(shè)計(jì)和設(shè)備智能巡檢系統(tǒng)開發(fā);藍(lán)武生(1990—"),男,畬族,福建上杭人,工程師,研究方向:散料巡檢系統(tǒng)開發(fā);陳夕松(1970—"),男,漢族,安徽全椒人,教授,博士生導(dǎo)師,研究方向:先進(jìn)過程控制、擾動(dòng)抑制理論及其在過程中的應(yīng)用。