王 芳 劉小虎 羅藝闖
(1.西安培華學院 西安 710021)(2.美林數據技術股份有限公司 西安 710000)
隨著我國經濟的發展和城市化進程的加速,生活垃圾對城市環境的威脅日益增加。因此,如何高效、環保地解決處理生活垃圾迫在眉睫。然而,對垃圾分類的知識普及以及工作落實一直以來都是一個難題,目前垃圾分類主要以人工分揀為主,存在勞動強度大、效率低等缺點。因此,結合大數據、人工智能和計算機視覺等技術實現垃圾的智慧分揀成為研究的重點內容。
傳統的圖像分類算法[2],通常包含特征提取、特征編碼和分類器三個部分,整個過程需要大量的人工參與,且無法有效利用現有硬件及技術。隨著深度學習技術的發展,涌現了大量基于卷積神經網絡[3]的分類模型。文獻[4]提出一種基于ResNet50和SVM 的分類系統,該系統采用ResNet50 進行特征提取,然后采用SVM 對所提取到的特征進行分類;文獻[5]提出基于ResNet 和Inceptionv4[6]的垃圾自動分類DSCR 網絡,該網絡構建了一個IR-Block用以提取多尺度特征,消除了模型對數據敏感問題;文獻[7]提出了一種注意力機制模型,模型通過局部、全局的特征提取和融合機制提出了垃圾圖像分類模型GCNet。文獻[8]提出了基于Inception 網絡特征提取模型和遷移學習相結合的垃圾分類方法,該方法采用較小的卷積核來減小計算量。這些方法均從模型角度人為來設計網絡結構,且缺乏針對數據本身特點的分析。
本文結合數據本身特點,采用顯著性檢測來去除各背景,然后基于神經網絡結構搜索算法所設計的EfficientNet,結合數據增強、標簽平滑和學習率余弦調整策略,利用Fine-Tuning 進行微調遷移學習[16],數據集采西安垃圾分類大賽給出的7831 張已標記的圖片,實現表明該算法可有效解決決數據過擬合問題,同時降低了訓練時間。
本文使用的垃圾圖像來自西安垃圾分類大賽[1]中提供的數據集,共包含7831 張圖片,6 個類別:廚余、塑料、金屬、紙類、織物、玻璃,按93%和7%的比例劃分訓練集和驗證集,兩者之間無交集。表1 列出了具體訓練集、驗證集已分類數據集數量。由于數據集數據量小,且存在圖片大小、分辨率、背景不一致等因素,一定程度上增加了垃圾分類的困難程度數據集中的部分垃圾圖像如圖1所示。

表1 6類垃圾分類圖像數據集

圖1 垃圾圖片示例
由圖1 可以看出,各類數據中包含大量的背景部分,實際所關注的物體部分占較小,而通常所采用神經網絡分類模型,其輸入維度固定且較?。?],如224×224或308×308,直接將圖片數據輸入模型,縮放之后,會造成大量的信息丟失。因此,從原始圖片中裁剪出所需要的物體,對于構建分類模型具有很大的提升,而所提供的數據并沒有具體的物體信息,如包圍框。故此,本文提出基于物體顯著性檢測的方法來獲取所關注的物體部分。
顯著性檢測旨在通過模擬人類的視覺特征來提取人類感興趣的圖像顯著區域,檢測顯著性物體需要理解整個圖像以及圖像中物體的語義信息和詳細結構[12]。具體采用U2-Net[9]模型實現,其將兩個U-Net 結構進行嵌套堆疊,不同于常規的如hourglass 網絡[10]等級聯堆疊的方式,U2-Net頂層是一個包含11 階段的U 型結構,每階段內部采用殘差U 模塊來捕獲段內多尺度特征,如圖2 所示,同時,可以更有效地融合各階段間多層級特征。其主體由三部分組成:1)一個6階段編碼器,2)一個5階段解碼器,3)一個顯著圖融合模塊,進而,損失函數可定義為


圖2 殘差模塊和殘差U模塊[9]的對比

結合檢測出的顯著圖,將原始圖像中物體前景分離,進而可得到物體所在區域包圍框,據此裁剪出物體圖片,整體流程如圖3所示。

圖3 物體裁剪流程示意
受限于垃圾數據集的數量和種類,為提升分類模型的性能,本文采用遷移學習和分類模型相結合的方法,分類模型具體采用EfficientNet[11],其注意力機制能實現對圖像的像素級遮罩,相比于ResNet[13]等網絡池化后直接進行分類,能有效緩解過擬合,同時減少參數,并提升收斂速度,詳見圖4。

圖4 EfficientNet模型規模及ImageNet分類精度對比[11]
EfficientNet同時平衡了網絡寬度、深度和分辨率,結合神經網絡結構搜索算法進行實現:

其中,?用來控制模型規模,α,β,γ用來調節網絡寬度、深度和分辨率,粒度由網絡搜索決定,結合資源限制及上述限制,以模型精度為優化目標,求解最優化問題:

基于物體顯著性檢測的目標區域裁剪,采用文獻[9]中所訓練的U2-Net 模型進行預測,得到顯著圖,并設置前景判別閾值為0.9,進而得到物體所在區域。
垃圾分類模型基于EfficientNet預訓練模型,結合隨機裁剪、0.5 概率的水平和垂直翻轉、0.2 概率的色度和飽和度變換、(-0.1,0.1)范圍的亮度和對比度變換,以及圖片標準化等數據增強方法,配合標簽平滑和基于余弦策略的學習率調整方法,采用Adam優化算法[14]進行模型遷移訓練,其中,學習速率為1e-4,權重衰減為1e-6,余弦調整策略[15]T_0為10、T_mult 為1、eta_min 為1e-6。訓練時批大小為32,共迭代10 輪,訓練誤差和準確率曲線如圖5所示。

圖5 分類模型訓練誤差和準確率曲線
結合上述顯著性檢測算法,對垃圾圖片中物體進行定位,結果如圖6 所示,可以看出對于形變物體和剛性物體模型均可以實現精準檢測。

圖6 基于U2-Net的物體顯著性檢測
針對不同輸入圖片及Efficient-Net模型構建分類模型,其結果如表2 所示,可以看出隨著模型規模的增大,準確率隨之增加,但隨著參數量的增加,推理速度下降及資源消耗增加,故本文對比到EfficientNet-B4。另,在采用同樣的模型情況下,使用經顯著性檢測后裁剪的圖片構建模型,分類準確率均有將近2%的提升。

表2 各配置情況下分類效果
本研究提出了一種基于顯著性檢測和遷移學習的垃圾分類算法,在垃圾分類比賽數據集[1]上進行微調,結合數據增強、標簽平滑及余弦調整策略,采用Adam 優化算法最終得到94.2%的識別率,可滿足垃圾分類的需求。下一步嘗試在顯著性檢測的基礎上,對背景進行統一處理,以除去不同背景的影響,同時加入對比學習加強物體表征學習,進一步提高識別精度。