周宇博,沈 岳,匡迎春
(湖南農業大學信息與智能科學技術學院,長沙 410128)
竹筷缺陷檢測在竹筷生產過程中具有重要的意義[1]。竹筷是日常餐桌上常用的餐具之一,質量直接關系到用戶的使用體驗和健康安全。及時發現和篩選出存在缺陷的竹筷,確保符合質量標準的竹筷進入市場流通,保障用戶的飲食安全至關重要。竹筷作為一種可再生資源,生產需要消耗大量的竹子。而竹子的生長需要較長的時間,在資源有限的情況下,竹筷的質量和可用性變得尤為重要。通過缺陷檢測減少不合格竹筷的生產和浪費,提高資源利用效率,降低對環境的影響。此外,竹筷的生產規模龐大,傳統的人工檢測效率低下且存在主觀性,采用自動化的竹筷缺陷檢測系統,尋求精準高效的竹筷實時檢測為目標,探索新的方法和途徑。
近年來,基于機器視覺的圖像檢測技術得到了巨大發展[2]。傳統的機器視覺方法用于缺陷識別,通常涉及灰度變換[3]、平滑濾波[4]、閾值分割、邊緣檢測[5]和輪廓提取等步驟。然而,這種傳統方法在準確率、穩定性和實時性方面存在著一些限制,導致其識別效果不理想且無法滿足實時性要求。隨著傳統目標檢測算法的發展,性能提升也遇到了瓶頸。
算法主要存在以下問題:檢測圖像的同時會生成大量冗余的候選區域,從復雜的圖像中提出具有豐富語義信息的區域十分困難。因此,在面對復雜背景、光照不足、缺陷較小的場景時,傳統目標檢測算法容易出現漏檢和誤檢操作,導致檢測精度低、實時性差,并且泛化能力弱[6]。
為了解決這個問題,提出了一種多尺度加權特征融合網絡,通過自適應加權特征融合捕獲全局上下文信息,增加檢測網絡的感受野并提取高級缺陷特征。采用改進的Retinex 圖像增強方法[7],學習從低光圖像到正常圖像的端到端映射,提升特征提取中的特征表示,獲得噪聲少的圖像,還能大幅度提升圖像的亮度,對于細節特征的提取有很大的優勢。同時在模型中加入坐標注意(CA)模塊[8],學習輸入圖像的通道間缺陷特征信息和位置信息,從而增強目標特征并抑制無用特征。
通過學習輸入訓練數據的固有特征,在沒有標簽信息的情況下學習一些特征和聯系,并根據無標簽數據的模式自動對輸入訓練數據進行分類[9]。將正樣本對的距離最小化以及負樣本對的距離最大化,獲取具有較強區分性的正負樣本內在表示,依賴數據本身的固有特征和關系,以自動對未標記的數據進行分類。新的竹筷圖片輸入到模型當中時,將原始特征分布投影到低維特征,以擴大缺陷和噪聲背景之間的距離,神經網絡學習序列的前幾個表示,并進行后續表示的預測。當序列的表示屬于相同類別(正時),預測與真實表示的距離被期望保持較小;如果后續的片段被其他類別的數據隨機替換(負時),則預測與真實表示的距離被期望保持較大。模型從中抽取序列中的關鍵特征,并在訓練中使得正樣本的表示更為接近,負樣本的表示更為遠離。與傳統的檢測方法相比,該方法對于數據集樣本的限制更少,計算的復雜度更低,為實際應用提供了更好的選擇。
EfficientNet[10]對CNN 的維度進行縮放,包括深度、寬度,以及圖像分辨率,以實現網絡的高效性。采用了復合縮放方法,使用移動倒瓶頸卷積(MB-Conv)作為基線網絡,并將其擴展為EfficientNet,在各個維度上實現網絡的擴展。EfficientNetv2[11]進一步優化了該架構,動態調整正則化方法,以適應訓練圖像的大小,在訓練速度和參數數量上超越了EfficientNet。EfficientNetv2 的核心結構包括移動翻轉瓶頸卷積結構(MBConv)和融合移動翻轉瓶頸卷積結構(Fused_MBConv)模塊,這些模塊共同構成了高效的網絡設計。其結構如圖1所示。

圖1 MBConv和Fused-MBConv結構圖
將輸入的圖片做一次線性變換降維,同時嵌入位置信息,再輸入到主干網絡中進行特征提取,以獲得特征映射。特征金字塔網絡[12]在主干網絡當中融合了輸入圖像的多層次特征,增強了特征的多尺度表達。通過多通道的處理,將這些特征映射整合在一起,形成多通道的特征表示,模型可以更全面地捕捉圖像的局部和全局特征。提高對圖像內容的抽象和理解,并為后續的任務(如目標檢測、分類等)提供更具信息豐富的輸入。利用候選區域網絡(RPN)生成候選框[13],框是由特征映射上提出的。形成了候選框架,使用預定義的區域提取網絡和由主干網絡生成的特征映射。特征映射被發送到候選框網絡,以生成所需的候選框,將ROI 池化層的特征映射傳遞到完全連接層和激活層,得到坐標回歸參數和模型損失。模型能夠學習如何準確地定位和分類目標,調整坐標參數實現檢測任務,其整體架構如圖2所示。

圖2 整體架構圖
坐標注意力機制對輸入特征圖在水平和垂直方向進行平均池化,生成兩個一維向量。兩個向量在空間維度上拼接,并通過1*1 的卷積層減少通道數。對得到的特征向量進行批量歸一化和非線性激活操作[14],以捕捉垂直和水平方向的空間信息。兩個1 × 1 的卷積操作,將編碼后的向量分別調整為與輸入特征圖相同的通道數。最終,通過歸一化加權的方式,融合了水平和垂直方向的信息,生成最終的輸出特征圖。
SE 注意力機制關注于通過建模通道關系重新評估每個通道的重要性,卻忽視了位置信息的關鍵性。在生成空間選擇性的注意力圖時,位置信息具有重要意義。坐標注意力機制捕獲位置信息和通道信息,全局池化方法用于通道注意力編碼空間信息的全局編碼,但是由于全局空間信息壓縮到通道描述符當中,很難保存位置信息。為了使注意力機制能夠捕獲具有準確位置信息的遠程空間交互,全局池化轉為一對一維特征編碼,增強特征的表達能力。對于給定的輸入X,每個通道使用維度(H,1)和(1,W)的池化內核沿水平和垂直坐標方向進行編碼。高度為h的第c個通道的輸出為
寬度為w的第c個通道的輸出為
在兩個空間方向上,分別進行兩種變換聚合特征,獲得一對方向感知的特征圖。使得注意力模塊能夠捕獲沿一個空間方向的長期依賴關系,同時在另一個空間方向上保持準確的位置信息。這種方式有助于網絡更加準確地定位感興趣的目標。
坐標Attention 生成是為了更好地利用上述變換獲取全局感受野,并編碼準確的位置信息生成的表示。將模塊生成的兩個特征圖級聯起來,然后使用1 × 1 共享的卷積進行變換,生成f∈RC/r×(H+W)是水平和垂直方向空間信息的中間特征圖。r代表下采樣率,與SE 模塊一樣用來控制模塊的大小。接下來,沿著空間維度劃分f為兩個獨立的張量f h∈RC/r×H和f W∈RC/r×W,復用兩個1 × 1 卷積Fh和Fw變換特征圖f h和f w到與輸入X相同數量的通道。公式為
其中,σ是一個sigmoid 函數。為了降低網絡復雜度,采用適當的下采樣比r來減少通道數。gh和gw被擴展為注意力權重。最后,坐標注意力塊的輸出表示如下:
坐標注意力模塊將位置信息嵌入通道注意力,并將通道注意力分解為兩個并行的一維特征碼,將空間坐標信息有效地整合到生成的特征圖中。每個特征圖捕獲輸入特征圖沿空間方向的遠程依賴性。將CA 嵌入到Fused-MBConv和MBConv模塊中,其結構如圖3所示。

圖3 引入CA的Fused-MBConv和MBConv模塊
光照不足通常導致圖像質量下降,表現為噪聲和偽影。這類圖像無法滿足高級視覺任務需求,為解決低亮度和低對比度問題,提出了一種利用Retinex 理論增強弱光圖像的改進方法,改進的Retinex 圖像增強方法主要由Decom-Net 和Enhance-Net 兩部分組成,Decom-Net接受低照度圖像作為輸入,其輸出包括光照圖像和反射圖像。兩個分解出的圖像分別輸入Enhance-Net,以獲取增強的照度圖像,此過程通過Enhance-Net提升圖像亮度。經過增強的照度圖像與分解后的反射圖像進行合并,形成最終的增強結果。通過分解-增強-融合的流程,系統能夠有效處理低照度條件下的圖像,提高圖像質量和細節。這種復合方法不僅能夠應對低照度挑戰,同時確保光照和反射信息得到充分優化。一個分解損失函數由三個分量組成:重建損失、反射分量一致性損失和照明平滑度損失。分解函數的公式如下:
其中:LReconstruction表示重建損失項,LReflectance表示反射分量一致性損失項,LIllumination表示照明平滑度損失項,λ1,λ2,λ3是權衡不同損失項的系數。
實驗所用GPU 為NVIDIA GeForce RTX 3090 GPU,顯存大小為24 GB,所用操作系統為Ubuntu 20.04 LTS,深度學習框架為PyTorch 1.8.1,Python 3.8 版本。訓練網絡時,Batch_size為16,初始學習率為0.0001,迭代總批次為2000,權重衰減設置為0.00001,學習率每100輪進行一次衰減來保證模型更好地收斂。
根據竹筷缺陷檢測實驗,采用PLC、變頻器、彈出機構等,搭建一次性竹筷檢測平臺,實現竹筷上料、智能檢測、次品剔除等操作環節,搭建的實驗平臺結構如圖4所示。

圖4 檢測實驗平臺
本實驗圖像采集使用工業攝像頭對一次性竹筷進行拍攝,數據集圖像尺寸統一為60×1500像素大小,按照一次性竹筷分級標準GB 19790.2—2005,一共六類缺陷,分為彎曲、長短、蟲蛀、霉變、腐朽、破裂。每類缺陷樣本約800張,所含正常竹筷圖像約5000 張,按照7∶2∶1 的比例劃分訓練集、測試集和驗證集。

表1 一次性竹筷表面缺陷檢測數據集上的實驗結果(%)
為進一步為驗證CA 機制在本文改進的一次性竹筷缺陷檢測模型中的有效性,將CA 機制和SE、GAM 注意力機制進行對比實驗驗證,實驗結果見表2。

表2 一次性竹筷表面缺陷檢測數據集消融實驗(%)
實驗采用準確率(Accuracy)作為驗證集的評價指標,表示所有正確分類的缺陷樣本占總被測樣本的比例。F1指標(F1-score,F1)兼顧分類模型的精確率(Precision,P)和召回率(Recall,R),是一種調和平均值,與混淆矩陣一起作為評價模型學習性能的指標。
式中:TP(True Positive)為正樣本被正確識別為正樣本的數量,FP(False Positive)為負樣本被錯誤識別為正樣本的數量,TN(True Negative)為負樣本被正確識別為負樣本的數量,FN(False Negative)為正樣本被錯誤識別為負樣本的數量,sum代表所有被檢測數據例的個數。
以一次性竹筷為檢測對象,針對基于機器視覺中對一次性竹筷檢測識別困難、對特征提取不敏感、且缺陷樣本不足、檢測效率低等問題,提出了一種多尺度加權特征融合網絡,通過對原始圖像進行Retinex 分解、光照調整和反射率恢復來提升對圖像中紋理和顏色細節的特征提取能力;在訓練階段充分利用大量正常樣本進行特征學習,更好地捕捉正常狀態下的復雜紋理和結構特征,面對具有不同缺陷類型的測試圖片時表現出更高的鑒別能力;在架構中加入了坐標注意力機制(CA),學習輸入圖像通道間的特征信息和位置信息,以增強對復雜相似背景下特征的表示,更加關注缺陷特征信息。實驗結果表明,本文所提出的方法在一次性竹筷缺陷檢測任務中展現出較好的魯棒性,為實際應用提供了可靠而有效的解決方案。