基于深度卷積神經網絡的自動垃圾分類

2022-05-21 11:41:39桑一梅陸萍

甘肅科技縱橫 2022年3期

桑一梅陸萍

摘要：垃圾分類已經成為當前社會生活的新風尚。本論述針對當前垃圾分類工作環(huán)境差和容易分類出錯的問題，研究基于深度學習的垃圾自動分類方法，并設計基于深度殘差卷積神經網絡ResNet50的垃圾識別方法。為避免垃圾圖像數據集中訓練數據量的不足，采用對使用ImageNet訓練好的ResNet50模型進行遷移微調的方法來優(yōu)化網絡參數。在華為云垃圾圖像數據集上的實驗結果表明，該方案可以到94%左右的分類準確率，基本上能夠滿足城市生活垃圾自動分類的需求。

關鍵詞：深度學習;卷積神經網絡;遷移學習;圖像識別;垃圾分類

中圖分類號：TP391.4??????????? 文獻標志碼：A

0引言

伴隨我國城市化發(fā)展的不斷深入與人民生活水平的提高，城市生活垃圾的產生量急劇增加，成為環(huán)境治理刻不容緩的問題。在對生活垃圾的處理上，傳統(tǒng)的填埋與焚燒處理存在著占用土地、污染地下水、排放廢氣等問題，而且處理能力有限。事實上，生活垃圾中絕大部分是可以通過分類回收實現循環(huán)利用的。為此我國已在各大城市推行垃圾分類制度，通過合理的分類投放從源頭上減少生活垃圾數量，促進資源回收利用。

盡管目前各大城市推行垃圾分類已有一段時間，但總體收效仍有待提升。其中的原因一方面是人們長久以來的不分類習慣，在短時間內很難徹底改變。另一方面在于各城市制定的垃圾分類規(guī)則比較復雜，市民在投放垃圾時難以準確地進行分類投放。比如作為我國首個推行垃圾分類試點的上海，人們普遍認為分類規(guī)則過于復雜。

近年來，以深度學習為代表的人工智能技術迅速發(fā)展，已滲透到各行各業(yè)之中。如何利用人工智能技術高效地進行垃圾自動化分類，利用現代科技更好地服務人類生活，成為人們關心的話題。借助深度學習技術開發(fā)智能垃圾分類系統(tǒng)也因此引起了人們廣泛的研究興趣[1～3]。

本論述借助深度學習中的卷積神經網絡架構設計了基于垃圾圖像識別的智能分類系統(tǒng)，使用華為云垃圾圖像分類競賽[4]數據集作為訓練與評估數據。為避免模型訓練時數據量不足的問題，采用遷移學習方法對在ImageNet[5]上訓練好的模型進行微調優(yōu)化的方法。實驗結果表明本論述方法能夠達到94%左右的正確識別率，能夠基本滿足當前生活垃圾的自動分類需求。

1相關研究

使用深度學習方法對圖像中的垃圾進行自動識別是機器學習中一項典型的分類任務，在該任務中應用最為廣泛的是卷積神經網絡（Convolutional Neural Net? works，CNN）架構。在 CNN 中通過多層卷積（Convolution）、池化（Pooling）、批歸一化（Batch Normalization）、非線性激活運算的堆疊，能夠從圖像中自動提取具有判別性的特征表達。隨著網絡層次的加深，提取的特征就會更抽象，更具有語義信息，相應地識別能力也會越強。不過更深的網絡也需要使用更多的訓練數據來學習模型參數。自2012年AlexNet[6]網絡架構提出并在當前的ImageNet 圖像識別競賽上取得成功后，其他層次更深、性能更強的CNN 網絡架構陸續(xù)被設計出來，如 VGG[7]、GoogLeNet[8]、ResNet[9]、DenseNet[10]等，這些網絡架構目前已經成為圖像識別與視頻分析等計算機視覺任務的骨干模型。

在使用VGG 與 ResNet 等網絡架構作為其他計算機視覺任務的骨干模型時，如果從頭開始訓練網絡模型對于硬件條件要求比較高，而且也需要比較長的訓練時間。由于實際使用時的數據集大小一般都比較小，難以支撐起這些模型的訓練，因此一般會采用在 ImageNet數據集上訓練好的參數作為模型初始狀態(tài)。 ImageNet 圖像數據集作為當前最大的圖像識別數據集，其中包含有2.2萬個類別的約1500萬張圖片，這使得在該數據集上訓練后的CNN 網絡能夠識別現實世界中絕大多數的目標。為了讓這些骨干模型擁有更好的性能，可以使用當前任務的數據對ImageNet上訓練好的模型參數進行微調優(yōu)化。這種處理也被稱為遷移學習，它使得模型在其他數據集上學習到的知識能夠在新的環(huán)境中得到應用。

2基于ResNet 遷移學習的垃圾分類模型

針對垃圾圖像的分類與識別任務，本論述選用當前在計算機視覺任務中獲得廣泛應用的ResNet 網絡架構作為分類模型的骨干網絡。為進一步提升模型對不同垃圾圖像的識別性能，本論述設計多分枝的分類架構，并借助遷移學習來解決訓練數據不足的問題。 2.1 ResNet 殘差網絡

在深度網絡架構中，隨著網絡層數的加深，極易發(fā)生梯度消失或梯度爆炸問題，使得網絡在優(yōu)化時變得非常困難。在梯度消失或梯度爆炸時，只有靠近損失函數比較近的一些層才能有效的學習，而較深層的參數很難進行更新。在ResNet 網絡中引入了“殘差”的概念來解決這一問題，設計短路連接Block如圖1所示。這樣的短路使得整體網絡具有至少不弱于恒等變換的性能，有效地抑制了網絡層次加深時的梯度消失問題。

圖1ResNet短路連接Block 中，輸入 x 在經過兩層的weight layer進行 F（x）運算后，需要加上原始的輸入 x ，實現對初始輸入信號的復用，也即為恒等映射（ide? ntity mapping），然后再經過ReLU激活。這樣的處理使得經網絡處理的結果由 F（x）變?yōu)?F（x）+x ，也就使得網絡具有不弱于恒等變換的性能，并且有效地解決了網絡中的梯度消失或爆炸問題。通過堆疊如圖1所示的短路模塊，能夠使得網絡在達到上百層后仍能夠有效的學習。

2.2多分枝垃圾圖像分類模型

由于ResNet具有優(yōu)秀的性能，本論述將其選用為垃圾圖像分類的骨干網絡，但是ResNet僅提取了圖像的全局特征，圖像中背景噪聲會對分類性能帶來一定的干擾。為提升模型的識別性能，本論述設計多分支圖像分類模型如圖2所示。5F205054-FABA-472C-BF81-EB31AFBEB609

多分支垃圾圖像分類模型中采用ResNet對縮放到統(tǒng)一大小后的垃圾圖像進行特征的提取。每張垃圾圖像提取后的圖像為一個h×w×c 的特征張量，其中h 、 w 、c 分別為特征張量的高、寬與通道數。與一般的圖像識別模型不同的是，本論述模型對提取的特征張量采用不同尺度與不同方案的池化處理操作，使得提取的特征張量得到最大程度的利用，充分挖掘其中的判別信息來進行分類處理。

在深度卷積神經網絡中 GAP 與 GMP 為全局平均池化（Global Average Pooling）與全局最大池化（Global Max Pooling）是最為常用的降低特征張量尺度的運算，它們能夠有效地匯聚特征信息，提高感受野并降低運算量。采用兩種池化運算的原因是GAP在池化運算中能夠更好地保留特征中的空間信息，特別是在采用最為常用的步長為2、尺寸為2的設置時，GAP運算后的每個點即原四個像素的平均值，這就很好地保留了原始的空間信息。而GMP在相同的設置下獲得的是四個原始像素的最為顯著的信息，但是通常GMP能夠獲得比GAP更為優(yōu)秀的性能。

為將GAP與GMP兩者各自的優(yōu)勢結合起來，在本論述多分支垃圾圖像識別模型中，對由ResNet提取的特征張量采用GAP、GMP與GAP-2、GMP-2四種不同的池化處理，再進行特征張量相加的方案。其中GAP與 GMP為自適應輸出尺寸的池化運算，最終輸出的結果為1×1× c 的特征張量，對它們各自運算后的結果再按元素相加，從而綜合利用兩者的處理優(yōu)勢。圖2中的 GAP-2與 GMP-2為輸出結果為2×2×c 的特征張量，這樣的處理能夠更為精細地保留圖像的細節(jié)特征，不過特征的維度要比GAP與GMP運算后的結果更高一些。

在獲得兩組不同的特征后，模型中將進一步對它們作變形處理獲得 c 維與4c 維度的特征向量，再經過 Dropout層與全連接層獲得最終的特征表達。最后對兩個特征向量分別使用Softmax 映射的處理來輸出各自的最終識別結果。在訓練模型時也相應的采用了交叉熵分類損失函數來對模型進行聯合訓練，總的損失值取為兩個分支的損失之和。

2.3模型遷移訓練

遷移學習是機器學習中一種常用的知識轉移方法，它可以將在某一任務中學習到知識或經驗應用到其他場景中，避免從頭學習所帶來時間消耗與硬件代價。由于在大多數情況下，用于訓練模型的數據量都比較少，完全從隨機初始化的模型開始訓練會導致過擬合，無法學習到當前任務中數據的內在模式。在這種情況下，遷移學習可以很好地解決該矛盾。利用已經在其他任務中訓練后的模型參數作為初始狀態(tài)，再利用當前任務中的數據對模型參數進行微調，既可以利用原有的知識經驗，又可以獲得對當前任務數據的擬合。

在本論述設計的垃圾分類模型中，也采用了遷移學習方法來解決訓練數據量有限的問題。模型采用了在ImageNet上訓練好的ResNet50模型參數作為初始狀態(tài)，在訓練時采用了分兩階段優(yōu)化的方案。首先是固定ResNet50的Layer1～Layer4各模塊的參數，對各分支進行優(yōu)化處理;然后再將整體網絡全部打開，進行整體微調。

3實驗

實驗使用的垃圾圖像為華為垃圾分類大賽中提供的Garbage-classify數據集。該數據集中的圖像均已提供垃圾名稱與所屬類別，原始類別數為43。根據比賽規(guī)則這些類別又被進一步歸為4個類別：可回收物、廚余垃圾、有害垃圾、其他垃圾。數據集中的訓練集含有14000多張圖像。在實驗時這些圖像被統(tǒng)一縮放到224×224像素大小，并使用隨機裁剪與圖像標準化等方法進行數據擴增處理。由于華為垃圾分類比賽無法獲得測試數據集，因此采用對訓練集作4：1的隨機拆分，即4/5數據用于訓練，1/5數據用于驗證模型的性能。實驗時采用最終類別為43類的設置，即網絡的輸出層為43維的預測向量，再進一步根據規(guī)則詞典輸出垃圾分類結果。

實驗在Ubuntu20.04系統(tǒng)中采用PyTorch深度學習框架構建垃圾分類模型，并使用Nvidia GTX1080+GU? DA 進行硬件加速，使用的處理器為 Intel（R）CoreTM i7-6700@3.4GHZ。在訓練模型時使用學習率為0.001的SGD優(yōu)化器，訓練階段的每個批次中樣本數設置為32，迭代的epoch總數為80。

實驗對模型采用 GAP 與 GMP后的單分枝模型與本論述多分枝模型獲得的分類準確率進行對比，并把模型輸出43個類別再按規(guī)則分類4類的結果與模型直接預測4類的結果也作了對比，具體結果見表1所列。從結果可以看出采用先預測原始類別再按規(guī)則分類時，使用GAP與GMP單分支結構的預測準確率分別為92.12%與92.73%，已經具有比較好的性能。在使用本論述的多分支架構后準確率上升到94.36%，說明多分支架構所帶來的性能提升。在直接預測4個類別時，各模型的性能整體上要弱于先預測原始類別再按規(guī)則進行分類的結果。本論述認為這可能是按4個類別預測時，每個類別內數據差異太大的結果。比如“筷子”與“花盆”同屬于其他垃圾，兩者間的特征差異太大，直接將它們歸為同一類處理時模型內部參數顯然會比將兩個類別分開預測時要更為困難。

4 總結

本論述提出一種基于深度卷積神經網絡的垃圾自動系統(tǒng)模型，在使用ResNet50殘差網絡作為骨干網絡的基礎上設計多分支的垃圾圖像分類網絡結構，并借助了遷移學習方法來解決訓練數據不足的問題。本論述設計的模型在華為云垃圾分類數據集上取得了94.36%的分類準確率，基本能夠達到現實中的分類需求。在后續(xù)工作中將進一步考慮引入注意力機制來提升模型性能，或嘗試實現基于視頻檢測的自動分類系統(tǒng)，增強模型在復雜場景中的適用性。

參考文獻：

[1]袁建野，南新元，蔡鑫，等. 基于輕量級殘差網路的垃圾圖片分類方法[J].環(huán)境工程，2021，39（2）：110-115.5F205054-FABA-472C-BF81-EB31AFBEB609

[2]董子源，韓衛(wèi)光. 基于卷積神經網絡的垃圾圖像分類算法[J].計算機系統(tǒng)應用，2020，29（8）：199-204.

[3] Adedeji O，Wang Z. Intelligent waste classification system us?ing deep learning convolutional neural network[J]. ProcediaManufacturing，2019（35）：607-612.

[4]華為云大賽平臺[EB/OL]. https：//competition.huaweicloud.com/home.

[5] Deng J，Dong W，Socher R，et al. ImageNet：a large-scale hi?erarchical image database[C]// Proceedings of the IEEE con?ference on Computer Vision and Pattern Recognition. 2009：248-255.

[6] Krizhevsky A，Sutskever I，Hinton G. ImageNet Classificationwith Deep Convolutional Neural Networks[J].Advances inneural information processing systems，2012，25（2）：1-9.

[7] Simonyan K，Zisserman A.Very Deep Convolutional Networksfor Large- Scale Image Recognition[J]. CoRR，2014，abs/1409.1556.

[8] Szegedy C，Liu W，Jia Y，et al. Going Deeper with Convolu?tions[C]// Proceedings of the IEEE conference on ComputerVision and Pattern Recognition. 2015：1-9.

[9] He K，Zhang X，Ren S，et al. Deep residual learning forimagerecognition[C]// Proceedings of the IEEE conference on Com?puter Vision and Pattern Recognition. 2016：770-778.

[10] Huang G，Liu Z，Van Der Maaten L，et al. Densely connect?ed convolutional networks[C]//Proceedings of the IEEE con?ference on Computer Vision and Pattern Recognition. 2017：4700-4708.5F205054-FABA-472C-BF81-EB31AFBEB609