周 婧,秦倫明
(上海電力大學 電子與信息工程學院,上海 201306)
近年來廢鋼鐵資源增長迅速,其重要性也與日俱增,然而鋼鐵企業對廢鋼鐵的科學管理水平仍然較低。實現廢鋼自動分類,有利于提高鋼鐵企業的管理水平和廢鋼的回收效率。
廢鋼分類屬于細粒度圖像分類(Fine-grained Image Categorization)問題,即判斷圖像屬于同一基類別下的哪個子類的問題。傳統圖像分類主要采用手動設計特征的方法,對于廢鋼分類,人為設計特征的難度很大,因此運用傳統圖像分類方法來進行廢鋼分類十分困難。
卷積神經網絡(Convolutional Neural Network)[1]是一種特殊的神經網絡,它的結構與特性有利于提取圖像的特征,很適合用于解決廢鋼分類問題。而實現高精度廢鋼分類離不開大量數據,遷移學習等方法可以用于提高小數據集下的識別準確率,彌補廢鋼數據的不足。
鐵礦石和廢鋼鐵是鋼鐵企業開展生產的主要原料,其中廢鋼鐵資源按其來源可分為自產廢鋼、加工廢鋼和折舊廢鋼3類。廢鋼鐵是可再生資源,在生產過程中,對廢鋼資源進行合理管理與利用,提高廢鋼的回收利用率,可以節省鐵礦石的投入,有效降低資源和能源消耗,減少大量廢氣廢水排放[2]。
隨著鋼鐵工業的迅速發展,廢鋼鐵的需求量也在大幅增長[3]。而目前鋼鐵企業的廢鋼資源管理還存在較多問題,如廢鋼分類回收混亂、利用率較低等。因此,實現廢鋼自動分類對于鋼鐵企業而言日益重要。
根據中國廢鋼鐵應用協會的統計,2018年全國廢鋼鐵資源總產量為2.1億t,同比增漲10%。2019年全國廢鋼總產量為2.4億t,同比增漲9%,廢鋼資源穩定增長。
根據有關數據的分析與預測,由于折舊廢鋼量的大增,2025年后廢鋼資源將進一步快速增長[4],廢鋼將成為我國高速發展的鋼鐵工業的重要支柱。而這對鋼鐵企業的廢鋼管理與利用水平提出了更高要求。
目前,國內關于廢鋼分類的研究還很少,僅有裴培等[5]人設計了廢鋼分類計量與管理系統,有效提高了廢鋼數據信息傳輸效率。廢鋼分類屬于細粒度圖像分類問題,由于細粒度圖像的種類之間差距更小,實現廢鋼分類比一般的圖像分類更具有挑戰性。
傳統的圖像分類方法,如詞包模型[6](Bag of Words),其將圖像特征表示為人工特征描述子,并對測試圖像提取特征描述子后,與特征庫進行匹配得到分類結果。詞包模型使用全局特征來描述圖像,運算簡單快捷,消耗內存小,但難以識別存在背景干擾的復雜圖像。
為了解決上述問題,圖像分類研宄方向轉向了圖像中的局部特征,基于局部特征的尺度不變模型被提出。常用的局部特征描述算子有SIFT特征[7],HOG特征[8],LBP特征[9]等。基于局部特征的模型在有復雜背景的圖像分類上取得了更好的效果,但由于其不能利用圖像的空間位置信息,對于不同視角的同類物體,局部特征模型的泛化能力較差。
近些年,學者又提出了基于語義特征的圖像分類模型。模型首先從圖像中提取出相應特征,并對特征進行處理得到語義信息,然后將特征聚類為一類圖像的語義特征。基于語義特征的圖像分類模型更符合人類視覺對圖像的識別過程,但其同樣沒有利用圖像的空間位置信息。
對于廢鋼分類問題,由于細粒度圖像的子類之間特征差異較小,傳統圖像分類模型提取的特征對于子類的分辨能力較弱。因此,傳統圖像分類模型應用于廢鋼分類問題的效果不夠理想。
近年來,深度學習[10]領域卷積神經網絡發展迅速。1998年,Lecun提出了LeNet[11]。LeNet是一個結構簡單的卷積神經網絡,但在進行手寫數字識別時取得了98%以上的準確率,從而引發了卷積神經網絡的研究熱潮。
2012年,AlexNet[12]在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)競賽中獲得冠軍,正確率遠超第二名。AlexNet包含5個卷積層和3個全連接層,采用ReLU(Rectified Linear Units)激活函數來加速訓練,是第一個真正意義上的深度神經網絡。
2014年,牛津大學的Visual Geometry Group提出的VGGNet[13]獲得ILSVRC競賽亞軍。VGGNet在AlexNet的基礎上繼續發展,層數更深,網絡結構更廣。同年,GoogLeNet[14]獲得ILSVRC競賽冠軍,其通過構建和組合多個Inception模塊,使得網絡更深更廣,同時減少了模型的參數量,解決了過擬合和梯度彌散(Gradient Vanishing)等問題。
2015年,Kaiming He提出的ResNet[15]獲得ILSVRC競賽冠軍。He提出了短路連接機制以解決深層網絡難以訓練的問題,使網絡的層數得以繼續加深。同年,Gao Huang等人借鑒ResNet的思想提出了DenseNet[16]。其特點是網絡的任意兩層之間直接連接,使用這種密集連接機制實現了特征重用,減少了參數量。
2019年,谷歌提出了EfficientNet[17],同時提出了一種新的模型縮放方法,使用一個簡單而高效的復合系數,從深度、廣度和輸入分辨率3個維度縮放網絡,從而同時兼顧模型的運行速度與精度。
隨著卷積神經網絡的發展,其分類速度與精度不斷提高,目前已逐漸成為圖像分類的主流方法。卷積神經網絡用于解決廢鋼分類問題具有可行性。
深度神經網絡的訓練需要大量圖像數據,而廢鋼圖像數據量非常有限。圖像數據的不足將影響模型的分類效果,為了在數據有限的前提下取得較高的分類準確率,考慮使用遷移學習等方法彌補數據的不足。
遷移學習[18]是將從一個領域中學習到的知識,遷移應用到與之相關的新領域中的方法。深度神經網絡有強大的特征提取能力,但其訓練需要大量標注數據,如數據不足很容易陷入過擬合,難以取得理想的分類效果。如先利用大型數據集初步訓練深度神經網絡,再將網絡習得的知識恰當地進行遷移應用,則可解決訓練數據不足的問題,克服過擬合現象,同時節省大量運算成本,縮短訓練時間。
遷移學習應用于圖像分類或識別問題的具體實施方法為,使用在ImageNet數據集上訓練的預訓練模型(Pre-trained Model),將其特征提取層的結構和權重進行遷移,構建遷移學習模型并在實際訓練數據上進行訓練。ImageNet是一個包含1 500萬張圖片的大型圖像分類數據庫,共有2.2萬個分類。預訓練模型擁有在ImageNet上學習到的知識,已學會提取一些低端特征,如輪廓特征、紋理特征等,使用預訓練模型進行遷移學習,可以使網絡更快更好地學習小數據集,發揮深度神經網絡特征提取的優勢,同時節省收集更多數據的人力物力。目前,遷移學習已廣泛應用于小數據集的圖像分類問題中,如朱良寬等[19]人運用遷移學習提高植物葉片分類的準確率,謝小紅等[20]人將遷移學習運用于服裝分類的研究等。
本文總結了近些年廢鋼資源的增長趨勢和利用情況,分析了傳統圖像分類方法不適用于廢鋼分類的原因,并展望了卷積神經網絡應用于廢鋼分類的可行性及運用遷移學習等方法來彌補廢鋼圖像數據不足的可能性。