余光海 付勇剛 鄧梅玲
(1.合肥工業大學機械工業綠色設計與制造重點實驗室 合肥 230009;2.中國電器科學研究院股份有限公司 廣州 510300)
隨著智能手機使用的普及與更新換代的加速,產生了越來越多的廢舊手機,然而大量廢舊手機不僅造成資源浪費,還會對土壤環境造成污染。因此,廢舊手機的回收成為可持續發展戰略中不可忽視的重要問題[1,2],對于廢舊手機的回收不僅要求對手機型號識別的準確率與手機型號識別的效率,還應考慮在前期準備數據庫預訓練模型時,調整網絡結構以縮短訓練時間。因此,設計一種快速準確識別手機型號的方法成為實現廢舊手機回收的關鍵,本文通過深度學習的方法,在殘差網絡結構中添加注意力機制進行手機型號識別實驗,對比幾種網絡模型的性能,得到了能快速準確識別手機型號的模型。
為了快速實現手機型號識別,工業中主要采用的是支持向量機等分類器提取手機外觀紋理、形狀等局部特征,然后將提取到的特征信息遍歷所有圖像進行對比,從而達到識別不同型號的手機[3,4]。但由于識別和遍歷均耗費較長的識別時間,導致該方法不適用于大規模廢舊手機回收中。同時為了提高廢舊手機型號識別的效率與準確率,注意力機制逐漸成為研究熱點之一。例如,國外的G-M研究團隊實驗在遞歸神經網絡模型上添加注意力模塊來對圖像進行分類[5],最終實驗修改后的網絡模型可以高效準確的識別圖像中物體對象[6]。該實驗驗證了添加注意力機制在圖像處理領域是有效的。在進行廢舊手機型號識別時,為了使網絡能夠實現快速且準確的識別,同時在數據量較少的情況下也具有良好的性能。本文采用的是基于殘差網絡進行改進并結合遷移學習[7],在Resnet 34網絡的殘差塊結構中加入通道和空間注意力機制[8],分別來提取廢舊手機的重要特征和定位具有判別性的局部區域,實現對廢舊手機型號的快速準確識別。
本實驗數據收集主要是通過網絡爬蟲獲取,一共收集了900張照片,然后人工清洗篩選出738合格的照片,包括的手機型號一共三種。三種型號的手機分別為Vivo S6、華為麥芒5與榮耀30青春版,所選照片均為質量較好、清晰度較高的照片,如圖1所示。

圖1 手機圖片
由于對于手機型號識別過程中對廢舊手機的拍照存在手機背面未拍全、手機位置偏移、手機被拍照面有損傷等因素,可能會導致識別準確率降低,因此在模型訓練前可以進行圖像增強。本文采用的方法是對圖像進行幾何增強[8,9],即對圖像進行平移,旋轉,剪切等幾何變換,可以增強模型的泛化能力。其次,本次實驗所收集的數據量偏少,故采取結合遷移學習的方法來解決數據量不足。
本文用的網絡模型為ResNet 34網絡模型,并且結合遷移學習將網絡在ImageNet數據集上訓練獲取的網絡參數遷移到目標任務的網絡中,將部分參數作為廢舊手機型號識別模型的部分卷積層的初始化權重。ResNet 34網絡模型可以訓練特別深的神經網絡,避免了隨著神經網絡層次的加深而出現準確率飽和的現象。殘差網絡可以通過增加網絡的深度來提高準確率,這也決定了殘差網絡優化比較容易實現。對于神經網絡中增加太多深度會造成梯度消失的問題,ResNet 34網絡模型內部的殘差塊添加了跳躍連接來緩解[10],本文所用的殘差結構如圖2所示。

圖2 前50層與后50層殘差結構
注意力機制的作用是通過網絡的自主學習,得出一組權重系數,并且注意力機制可以使模型更加關注我們想要關注的區域。注意力機制可以提高模型在訓練時學習到對空間通道和背景信息的建模能。注意力模塊包括空間注意力和通道注意力[11]。
ECA模塊是通道注意力機制的一種實現形式[12]。ECA模塊可以看作是SE模塊的改進版。由于SE模塊對通道注意力機制的副作用,導致捕獲信息的通道之間的依賴關系是低效的。ECA模塊的思想是非常簡單的,它去除了原來SE模塊中的全連接層,直接在平均池化后的特征上通過一個卷積來學習。其結構如圖3所示。

圖3 ECA通道注意力模塊
Spartial Attention空間注意力在通道維度上進行最大值和平均值的匯聚,CxWxH的特征圖壓縮成1xWxH的信息,然后通過帶有注意力權重的卷積來提取注意力信息,最后,如果是單分支結構,通過sigmoid來使注意力權重非負,如果是多分支結構則應用softmax來使注意力權重非負[13]。空間注意力機制可以利用圖像空間位置上的相關性,獲得在空間維度上更有價值的信息,從而獲得更有效的空間特征,結構如圖4所示。

圖4 Spartial Attention空間注意力模塊
通道注意力中的注意力信息是篩選出哪些通道的信息和目前這個認為是相關的。空間注意力則是去關心對于特征圖來說哪些位置的信息是和目前認為相關的。但是在最近的研究中發現將空間和通道融合后有助于網絡模型性能的提升[14],因此,本文嘗試將ECA通道注意力與Spartial Attention 空間注意力結合,并與只添加ECA通道注意力與未添加注意力機制的Resnet 34網絡模型進行對比實驗,本次實驗將ECA通道注意力和Spartial Attention空間注意力這兩個模塊采用串行順序的方式組合在一塊兒,注意力殘差結構如圖5所示。

圖5 注意力殘差結構圖
為了對比的性能,在本節進行了如下對比實驗,其模型包括:①Resnet 34網絡模型為原模型;②Eca-Resnet 34表示在原模型的Layer 4的殘差塊結構中添加了ECA注意力機制;③Eca-S-Resnet 34模型表示在Resnet 34模型的Layer 4上添加ECA注意力機制和空間注意力機制。實驗中三種模型訓練完成后的數據如圖6、圖7、圖8所示。

圖6 Resnet 34網絡模型訓練數據

圖7 Eca-Resnet 34網絡模型訓練數據

圖8 Eca-S-Resnet 34 網絡模型訓練數據
這三組網絡模型訓練的epoch均設置的是100,從三組模型訓練后得到的準確率與誤差圖可知訓練結束時Resnet 34網絡還未收斂,Eca-Resnet 34網絡在epoch接近40時已經收斂,而Eca-S-Resnet 34網絡在訓練結束時是接近收斂,由此可以推斷出,當數據量較少時,只添加ECA注意模塊對網絡訓練速度提升最多,添加了ECA注意力和Spartial Attention注意力模塊也對網絡訓練速度有提升。將實驗結果中三個模型的驗證集準確率統計后表明此方法有著最高的準確率。各個模型結果如表1所示。

表1 各模型的實驗結果
從表1的結果中可以看出,在本次實驗中Resnet 34網絡添加注意力機制,其分類準確率分別比不加注意力模塊的Resnet 34模型提升了1.17 %和1.37 %。說明在此手機數據集的數量較少時,利用遷移學習可以和添加注意力機制可以避免過擬合的發生。實驗結果也表明,在Resnet 34網絡的layer 4殘差結構上添加注意力機制的情況下,將ECA通道注意力和Spartial Attention空間注意力串行結合比只添加ECA注意力機制更有助于網絡模型性能提升。
本文實驗三種模型對三種手機型號進行預訓練與手機型號識別,得到Resnet 34模型、Eca-Resnet 34模型與Eca-S-Resnet 34模型在驗證集上的準確率分別為97.94 %、99.11 %與99.31 %。通過對比可知,將ECA注意力機制與Spartial Attention空間注意力機制串行順序組合,可以使得Resnet 34模型能夠自適應地關注對分類有重要影響的特征和區域,提高了對手機型號識別的準確率,而且相比于只添加ECA注意力機制,其更有助于網絡模型性能的提升。由于本次實驗模型訓練的epoch均設置的是100,訓練結束時Resnet 34模型未收斂,Eca-Resnet 34模型與Eca-S-Resnet 34模型分別為接近收斂和收斂,可知添加注意力機制可以提升網絡訓練速度,但將ECA注意力機制與Spartial Attention空間注意力機制串行順序組合后對網絡訓練速度提升不如只添加ECA注意力機制,在后續工作中,可以嘗試在更多數據量時,用這三種模型訓練和對廢舊手機型號識別,觀察是否會導致過擬合,同時再與數據較少時的實驗結果對比,觀察手機型號識別準確率與網絡訓練速度的變化,從而繼續優化網絡模型。