劉曉東 費文龍 陳亮
摘 要:卷積神經網絡是一種基于局部權值共享的深度學習網絡模型,近些年來被提出并廣泛應用于語音識別、圖像識別、圖像分割、自然語言等領域。文章分析了目前主流的卷積神經網絡模型及其實現方法,并在殘差神經網絡的基礎上加以改進,通過增加淺層網絡到深層網絡的多個通路,將粗糙的背景信息和具有豐富細節的紋理信息加以融合,用以增強深層的卷積網絡層的特征信息,從而對具有復雜背景信息和紋理的渣土車圖像進行識別與分類。實驗結果表明,本方法能進一步提升深度卷積網絡對于渣土車頂部覆蓋率的分類準確率。
關鍵詞:圖像分類;卷積神經網絡;多特征融合;渣土車
建筑垃圾清運是城市市容管理不可忽視的問題,渣土車是建筑垃圾的運輸主力,為城市渣土運輸作出了重要的貢獻,然而也存在一些不能回避的渣土車治理問題,不少渣土車并沒有經過沖洗就直接駛出工地,車輪帶出的大量泥土給城市道路帶來了不小的污染。有的渣土車嚴重超載,頂端沒有密封,隨著一路的顛簸,渣土灑落一地。此外,施工方對于渣土車的超載現象也不聞不問,放任自流,更促使渣土車多拉快跑,違規運輸,對城市環境造成嚴重污染。
在黨的第十九次代表大會中, 習近平總書記指出:“我們既要綠水青山,也要金山銀山。寧要綠水青山,不要金山銀山,而且綠水青山就是金山銀山。”可見解決環境問題是我國接下來發展的重中之重。因此,本文提出一個智能監管系統,能夠自動識別駛出工地的渣土車圖像是否符合環保標準,從而從源頭上監管,能夠有效地解決渣土車對城市市容環境的破壞,是具有重要意義的。
圖像分類一直是計算機視覺領域的重要研究方向,近年來,深度神經網絡以大規模圖像數據為驅動,自主學習各個層級的特征,從而避免了人工提取特征的繁瑣和出錯的概率,在各類分類任務上取得突破性進展。Lecun等[1]在1998年提出基于梯度學習的卷積神經網絡算法,并將其成功運用于手寫數字字符識別,LeNet為卷積神經網絡的發展奠定了堅實的基礎。Krizhevsky等[2]在2012年提出Alex-Net,其采用GPU訓練模型使得其收斂時間縮短到可接受的范圍內,它本質上就是擴展LeNet的深度,并應用一些ReLU和Dropout等技巧。AlexNet有5個卷積層和3個最大池化層,它可分為上下兩個完全相同的分支,這兩個分支在第3個卷積層和全連接層上可以相互交換信息。VGG-Net[3]是由英國牛津大學著名研究組VGG提出,相比Alex-Net,VGG-Net普遍使用了小卷積核以及“保持大小輸入”等技巧,目的是增加網絡深度時確保各層輸入大小隨深度增加而不急劇減小,因此其泛化性能較好,常用于圖像特征的抽取目標檢測候選框生成等。在AlexNet的基礎上,Google Net采用Inception的結構,使用大小不同的卷積核[4],有優良局部拓撲結構,即對輸入圖像并行地執行多個卷積運算或池化操作,并將所有輸出結果拼接為一個非常深的特征圖。
1 基本原理
1.1 殘差網絡算法介紹
殘差神經網絡借鑒了高速網絡的跨層鏈接思想,用恒等映射代替原來帶權值的殘差項[5]。假設某段神經網絡的輸入是x,期望輸出為H(x),即H(x)是期望的復雜潛在映射,如果是要學習這樣的模型,則訓練難度會比較大;如果已經學習到較飽和的準確率,那么接下來的學習目標就轉變為恒等映射的學習,也就是使輸入x近似于輸出H(x),以保持在后面的層次中不會造成精度下降。在上圖的殘差網絡結構圖中,通過捷徑連接的方式,直接把輸入x傳到輸出作為初始結果,輸出結果為:
H(x)=F(x)+x (1)
當F(x)=0時,那么H(x)=x,也就是上面所提到的恒等映射。于是,ResNet相當于將學習目標改變了,不再是學習一個完整的輸出,而是目標值H(X)和x的差值,也就是所謂的殘差:
F(x) = H(x)-x (2)
因此,后面的訓練目標就是要將殘差結果逼近于0,使到隨著網絡加深,準確率不下降。這種殘差跳躍式的結構,打破了傳統的神經網絡n-1層的輸出只能給n層作為輸入的慣例,使某一層的輸出可以直接跨過幾層作為后面某一層的輸入,其意義在于為疊加多層網絡而使得整個學習模型的錯誤率不降反升的難題提供了新的方向。至此,神經網絡的層數可以超越之前的約束,達到幾十層、上百層甚至千層,為高級語義特征提取和分類提供了可行性。
1.2 本文方法
鑒于卷積神經網絡良好的特征提取能力與局部特征良好的特征表述能力,融合多路特征的深度學習圖像分類方法成為趨勢。本文在殘差神經網絡的基礎上,結合淺層的視覺特征信息和深層的語義特征信息,增強后續卷積運算的特征信息,并將其運用到渣土車頂部的覆蓋率識別分類上。由于殘差神經網絡的層數較多,所以本文只挑選4個關鍵的分辨率節點進行特征的融合。
2 實驗分析
2.1 數據集的采集與制作
本文在工地監管攝像頭上采集了一年份約10 G大小的圖片數據,去除掉誤觸導致的無效圖片數據,制作成渣土車圖片數據集,包含圖片數據約12 000張,采集圖像分辨率為1 280×720,格式為jpeg,將圖片數據集按頂部覆蓋率的情況分為全包裹、半包裹、無包裹和空車。其中75%的圖片作為訓練集,25%的圖像作為測試集。
圖片標定則使用One Hot Encoder的方式。One-Hot編碼即獨熱編碼,又稱一位有效編碼,其方法是使用N位狀態寄存器來對N個狀態進行編碼,每個狀態都有它獨立的寄存器位,并且在任意時候,其中只有一位有效。這樣做的好處主要有:(1)解決了分類器不好處理屬性數據的問題;(2)在一定程度上也起到了擴充特征的作用。
2.2 多特征融合Resnet的訓練
為了驗證算法的有效性,建立仿真實驗環境:CPU處理器為i7七代處理器,內存為16 GB,GPU處理器為NVIDIA1060。采用Google的tensorflow框架,使用語言為python。迭代次數為10 000次,學習率為0.001。訓練方式采用Adam算法進行梯度下降的訓練,Adam算法,即自適應時刻估計方法(Adaptive Moment Estimation),能計算每個參數的自適應學習率。這意味著算法在非穩態和在線問題上有很優秀的性能。
Resnet算法和本文算法對于相同的訓練集圖像的精確度隨著訓練次數的增加數值改變,可以明顯看出本文算法相比于傳統算法其抖動較為平緩,并且在第6 000次迭代左右,模型已經收斂,而傳統算法在7 000次左右才開始收斂。
3 結語
針對實際應用中對于工地監管系統中渣土車的頂部覆蓋率的檢測效率和準確率,本文在傳統的卷積神經網絡架構中加以改進,融合了深層的背景信息和淺層的紋理信息,能夠增加模型的泛化能力,避免復雜背景和極端天氣對于模型的影響。相較于傳統的神經網絡,其識別準確率和速度有明顯提升。但本文算法相較于傳統算法其參數數量亦有較大的增加,這將作為后續的研究重點,進而提供工地監管系統的性能。
[參考文獻]
[1]LECUN Y L,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998(11):2278-2324.
[2]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[J].Advances in Neural Information Processing Systems,2012(2):1097-1105.
[3]SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[J].Computer Science,2014(26):69-71.
[4]SZEGEDY C,LIU W,JIA Y,et al.Going deeper with convolutions[J].Computer Science,2014(18):152-154.
[5]SZEGEDY C,IOFFE S,VANHOUCKE V.Inception-v4,Inception-ResNet and the impact of residual connections on learning[J].Computer Science,2016(2):88-89.