賀朝輝 曾鵬程






摘要:該文研究了將深度學習應用于垃圾分類,使用模型為微調后的ResNet50預訓練模型,數據來源于華為開源垃圾數據集。通過對原始數據的標注、劃分和增廣得到該文所使用的數據集。增廣方式包括幾何變換、明亮度更改和添加噪聲。經測試驗證,本項目在測試集上的準確率能夠達到87%,同時在實際場景中也有較好的泛化性。最后通過Flask、Gunicorn和微信小程序進行模型以及前端界面的部署。
關鍵詞:垃圾分類;遷移學習;數據增廣;卷積神經網絡
中圖分類號:TP311? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)03-099-02
開放科學(資源服務)標識碼(OSID):
1 前言
在2018年,中國已經成了為全球產生垃圾最多的國家,且在近幾年生活垃圾產量保持5%左右的增長[1]。據國家統計局發布的《中國統計年鑒2020》指出,在2019年全國生活垃圾清運量就已達24206.2萬噸[2]。與日俱增的垃圾不僅對寶貴空間資源造成了占用,而且污染生態環境。垃圾分類作為垃圾回收利用的起點,在垃圾回收利用的過程中起著至關重要的作用。按照相關規定將生活垃圾依照其對應類別進行分類可以有效地促進可回收垃圾再利用,減小了生活垃圾的處理量以及空間資源的占用,在生態和經濟領域都有重要意義。
雖然垃圾分類百利而無一害,但是居民參與度一直較低。解放日報曾對該現象進行過一次調查采訪,多達51.8%的受訪者表示分類標準對于他們來說比較復雜,在模擬垃圾分類實驗中甚至有23.8%的受訪者將可回收的玻璃瓶歸類為有害垃圾。不難看出居民對垃圾分類標準的模糊制約著垃圾分類的實行。近年來深度學習在圖像分類領域的快速發展使得通過深度學習進行垃圾分類成為可能。本項目的在于構建基于深度學習的識別分類準確率高的模型,幫助居民進行正確的垃圾分類,提高居民對垃圾分類的參與度。
2 ResNet模型
隨著神經網絡深度的不斷增加,模型精度并沒有如人們所想的那樣按照網絡深度的增加而增加,反而訓練誤差和測試誤差都升高了,顯然這個問題并不是由于模型深度過深過于負責導致了過擬合,因為過擬合的現象表現為訓練誤差小,測試誤差大,而深層神經網絡的訓練誤差和測試誤差都比淺層神經網絡要大。這種加深神經網絡的深度反而使神經網絡模型性能下降的問題被稱為退化問題,針對退化問題何凱明等人于2015年提出了ResNet[3],并在2015年ImageNet競賽中獲得第一名。何凱明等人指出退化問題可能是由于網絡深度過深導致了梯度爆炸或者梯度消失阻礙了網絡的收斂,同時深層次的神經網絡中含有大量的ReLU等非線性激活函數,由于非線性激活函數是不可逆函數無法從輸出推導出輸入,這導致訓練過程中信息的丟失使得函數無法表示自己本身,即難以表達恒等映射函數H(x)=x,為解決上述問題,ResNet引入了殘差結構,如圖1所示。
3 等比例縮放的應用
在模型訓練前,為滿足神經網絡的輸入要求,需要按照要求將圖片尺寸進行更改,但當仔細查看數據集時,可以發現數據集中某些分類之間存在著特殊的關系,比如食用油桶和飲料瓶,牙簽和竹筷。因為它們的材質和形狀的高度一致導致這些物體之間的最大的差異不是通常的形狀和顏色差異,而是物體的長寬比例。但是如果進行縮放的圖片的長寬比例與網絡要求的長寬比例不相等,則會導致物體的長寬比例發生改變,最終影響模型的準確率。
為解決上訴問題,本文采用等比例縮放方法對圖片進行處理。對一張尺寸為(H, W)的圖片,求出等比例縮放比例R ,R表示如式1所示:
[R=minHobjH, WobjW? #? ? ? ? ? ? ? ? ? ? ? ? ? ?1]
其中Hobj和Wobj是目標尺寸,H和W是圖片原始尺寸,min()函數為取兩者中的較小值。將H,W按比例R進行縮放,縮放后尺寸小于目標值的一邊用零值進行補齊,最后得到等比例縮放的圖片。圖2(a)是數據集中未經處理的原始圖像,其尺寸為(200,268);圖2(b)是未使用等比例縮放進行縮放至(224,224)的圖片;圖2(c)是使用等比例縮放進行縮放至(224,224)的圖片。使用等比例縮放可以有效避免傳統縮放方法在縮放圖片的過程中對物體的長寬比例進行改變,在長寬比例特征較為重要的數據集中能夠保持不同分類之間的差異性,有助于模型對物體更好地進行識別[4-5]。
4 基于ResNet的生活垃圾分類算法實現
本項目采用ResNet50預訓練模型作為backbone,對backbone最后一層的全連接層進行修改,將含有1000輸出神經元的全連接層替換為輸出神經元為40的全連接層,對應40類垃圾。
5 實驗結果及分析
在Kaggle平臺使用GPU對神經網絡模型訓練25批次,運行結果如下所示,在測試集上準確率能達到87%,圖3為loss對比圖,圖4為準確率對比圖。由于本項目所使用的數據集于2019年比賽結束后才正式公開,在此之前有關垃圾分類的文獻使用的數據集規模多為4000張左右,缺乏對比性。使用該數據集的公開項目較為知名的有由thomas-yanxin開源的公開項目“慧眼識垃圾”,并于2021年4月17日獲得了飛槳PaddlePaddle公眾號的周推薦第一名。本項目與其最大的區別在于模型選擇以及縮放方法。在模型選擇上,本項目采用的是ResNet50預訓練模型,可以減少模型的訓練時長。“慧眼識垃圾”采用的是ResNet50_vd,ResNet50_vd在ResNet50的基礎上添加了知識蒸餾,雖然使模型能夠達到更好的精度,但由于模型更大以及冷啟動,所以推理時間更長且訓練所需時間更多。在縮放方法上面,本項目采用的是等比例縮放,“慧眼識垃圾”采用的是常規縮放。
6 結束語
本文驗證了使用ResNet50進行生活垃圾分類的可行性,并通過數據增廣等方式使模型在實際應用場景中有較好的泛化性。在實際應用場景的測試中,本項目的準確率也能夠達到接近測試機準確率的水平,對于實際應用場景具有良好的泛化性。該項目的目的在于對進行垃圾分類感到困難的居民提供一個簡潔、易上手的工具,幫助其正確地對垃圾進行分類,為垃圾分類政策的推廣盡一份綿薄之力。
參考文獻:
[1] 呂益敏.以史為鑒,開啟垃圾分類新時代[J].城鄉建設,2020(3):30-32.
[2] 國家統計局工業統計司.中國工業統計年鑒-2020[M].北京:中國統計出版社,2020.
[3] He K M,Zhang X Y,Ren S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:770-778.
[4] 董子源.基于深度學習的垃圾分類系統設計與實現[D].北京:中國科學院大學(中國科學院沈陽計算技術研究所),2020.
[5] 陳莎莎,杜慶東.基于深度學習的可回收垃圾分類算法[J].現代工業經濟和信息化,2021,11(1):22-23,40.
【通聯編輯:聞翔軍】