陶震宇 孫素芬 羅長壽



摘要:為實現花生害蟲圖像的準確分類,共收集花生主要害蟲圖片2 038張,針對目前在基于Faster-RCNN的圖像識別領域較為成熟的VGG-16和ResNet-50這2種網絡模型進行對比研究,并針對ResNet-50模型參數進行調整,提出了基于學習率、訓練集和測試集以及驗證集的比例選擇、迭代次數等參數改進的ResNet-50卷積神經網絡的模型。結果表明:該模型可以準確高效地提取出花生主要害蟲的多層特征圖像,在平均識別率上,經過改進的 ResNet-50 網絡模型在識別花生害蟲圖像上優于ResNet-50原始網絡模型。該模型可以準確地分類花生主要害蟲圖像,可在常規情況下實現花生害蟲的圖像識別。
關鍵詞:Faster-RCNN;ResNet-50模型;花生害蟲;圖像識別
中圖分類號:TP391.41 ??文獻標志碼: A ?文章編號:1002-1302(2019)12-0247-03
我國作為世界上傳統的農業大國,農業的發展情況對我國的經濟發展具有深遠的影響?;ㄉ谧匀簧L過程中很容易受到害蟲的侵害和感染,近年來由于氣候變化、環境污染等因素的影響,花生的蟲害呈現出增長的趨勢,而我國主要的害蟲圖像識別方法主要還是依靠傳統識別方法,效率較低,因而將在人臉識別等領域較為先進的計算機圖像識別技術引入農業領域迫在眉睫。
近年來,深度學習在圖像識別領域發展迅猛,通過建立和模擬人腦的神經系統來解釋圖像中的各個特征數據,能夠挖掘出圖像中所需檢測目標的深層次特征,這種數據特征對于識別目標的分類具有更好的表征能力,這樣就避免了傳統圖像識別方法的缺陷,更精確地識別目標圖像。因而本研究引入當前深度學習中的Faster-RCNN目標檢測技術來進行花生害蟲圖像識別。
1 Faster-RCNN
Faster-R-CNN主要由2個部分組成,一是PRN候選框提取,二是Fast R-CNN檢測。其中,RPN是全卷積神經網絡,作用是提取目標區域候選建議框;Fast R-CNN基于RPN提取的建議區域檢測并識別建議區域中的目標。Faster R-CNN采用通過RPN生成的區域,然后再接上Fast R-CNN形成了一個完全的首尾相連的卷積神經網絡對象檢測模型,RPN與后面的探測網絡一起共享全圖像卷積特征。
1.1 RPN候選框提取
為了生成建議區域,RPN在預訓練的網絡模型生成的特征圖上滑動1個小網絡,這個網絡把特征圖上的1個n×n窗口的特征作為輸入,對于每個窗口,以窗口的中心點作為基準,通過不同的對象映射到原圖從而得到一個個建議區域,之后通過對這些建議區域進行softmax分類與邊框回歸的學習,從而輸出調優后的建議區域分數。
1.2 Fast R-CNN目標檢測
在目標檢測模塊中,RPN和Fast R-CNN的特征通過13個卷積層形成共享,首先通過向CNN網絡輸入任意帶下的圖片,經過CNN網絡前后傳播至最后的共享卷積層,一方面得到由RPN網絡輸入的特征圖片,另外一方面向前傳播至特定的卷積層,產生更高維度的特征圖。由RPN網絡輸入的特征圖通過RPN網絡得到區域建議和區域得分,并將其得分區域建議提供至RoI池化層,最后通過全連接層后,輸出其該區域的得分以及回歸后的邊框回歸。
2 試驗樣本集的生成和網絡模型的對比
2.1 花生蟲害圖像獲取
本研究通過查找農業蟲害害蟲數據庫、實地拍攝、網絡查找等方法采集花生主要害蟲圖片共計2 038張,分別為東亞飛蝗223張、螻蛄229張、葉蟬223張、粉虱221張、金龜甲228張、薊馬224張、蚜蟲220張、白色蠐螬225張、甜菜夜蛾245張,用于花生主要害蟲圖像識別的訓練和測試。害蟲圖像如圖1所示。
2.2 模型原理及對比
2.2.1 VGG-16 VGG(Visual Geometry Group)是2014年牛津大學科學工程系所創立的,該系發布了一系列以VGG開頭的卷積網絡模型,可以應用在人臉識別、圖像分類等方面。VGG-16卷積網絡全稱為GG-Very-Deep-16 CNN,VGG在加深網絡層數的同時為了避免參數過多,在所有層都采用3×3的小卷積核,卷積層步長被設置為1。VGG的輸入被設置為224×244大小的RGB圖像,在訓練集圖像上對所有圖像計算RGB均值,將圖像作為輸入傳入VGG卷積網絡,使用3×3或者1×1的濾波器,卷積步長固定為1。卷積特征圖針對所有的圖片信息進行了編碼,同時保持相對于原始圖片所編碼的位置信息不變(圖2)。
2.2.2 ResNet-50 ResNet由微軟研究院的何凱明等4名
華人提出,通過使用殘差單元成功訓練152層深的神經網絡,在ILSVRC 2015比賽中獲得了冠軍,取得3.57%的top5錯誤率,同時參數量卻比VGGNet低,效果非常突出[1]。ResNet-50的結構可以極快地加速超深神經網絡的訓練,模型的準確率也有非常大的提升。由圖3、圖4可知,ResNet-50是每隔2層或3層進行的相加求下一步的輸入,這是與VGG-16網絡不同的,VGG-16主要是直接進行卷積,送入到下一層,同時每一層的核大小都是固定的。ResNet-50里面也采用了每一層的核大小都是固定的原則,ResNet-50網絡結構的設計遵循2種設計規則:一是對于相同的輸出特征圖尺寸,每一層具有相同數量的濾波器;二是如果特征圖大小減半,則濾波器的數量加倍,以便保持每一層的時間復雜度[2]。
2.3 網絡模型對比試驗結果與分析
本研究通過對VGG-16網絡模型和ResNet-50網絡模型針對花生主要害蟲圖像樣本集識別率上的表現,選出合適的網絡模型進行模型的參數優化。針對2個網絡模型采用相同的配置對花生主要害蟲圖像的驗證集進行識別,結果表明,ResNet-50網絡模型針對本研究的花生主要害蟲圖像識別結果優于VGG-16網絡模型(表1、表2),因此本研究將針對ResNet-50網絡模型進行參數優化以提高識別精確度。
3 ResNet-50網絡模型參數優化
3.1 學習率
在訓練中,首先針對學習率進行修改,并針對不同學習率條件下的模型訓練,通過進行學習率的修改,針對不同學習率下的ResNet-50模型進行識別結果的對比。針對相同環境下的ResNet-50模型進行學習率的調整,并分別對驗證集和測試集進行識別結果的測試。驗證集和測試集的識別結果(表3、表4)表明,當學習率為0.001 0時,害蟲圖像識別結果最優。
3.2 訓練集、測試集以及驗證集的比例選擇
一般來說測試集和驗證集各占總樣本的5%~15%,因而本研究將對測試集和驗證集各占總樣本的5%、10%以及15%作為研究對象。在其他條件不變的前提下,設置學習率為0.001 0時,3種方式的平均識別率如表5所示。
由表5可知,當測試集和驗證集所占總樣本比例為10%時,害蟲圖片識別結果最優。
3.3 迭代次數
迭代次數的計算公式為:迭代次數=(圖片數量×2×訓練次數)/batch_size。為了研究識別精確度隨著迭代次數逐漸增加的函數曲線圖,本研究將訓練次數作為更改對象,研究迭代次數對整體識別率的影響。在其他條件相同的情況下,訓練次數與驗證集和測試集圖像識別率的關系分別如圖5、圖6所示。
由圖5、圖6可知,在不浪費訓練資源的前提下,當訓練次數為10時即迭代次數為37 060次,害蟲圖像識別精確度最高。
通過以上3個方面參數的調試,最終將ResNet-50模型的學習率改為0.001 0、測試集和樣本集所占樣本比例改為10%以及迭代次數改為37 060次。
3 結論
針對當前害蟲圖像樣本數據庫中樣本較少的情況下,根據研究需求,通過網頁收集、實地拍攝等方式收集了 2 038 張圖片,并標記了其中1 853張圖片,共涉及東亞飛蝗、螻蛄、粉虱、金龜甲、蚜蟲、甜菜夜蛾、薊馬、白色蠐螬、葉蟬9類害蟲。
研究針對ResNet-50網絡模型進行參數優化,針對優化參數后的ResNet-50網絡模型進行識別,識別結果相對于ResNet-50網絡模型在測試集和驗證集中得到了明顯的提升。結果表明使用優化參數之后的ResNet-50網絡模型可以提升訓練后的識別效果,該模型在花生害蟲圖像識別領域具有較高的識別水平,在農業害蟲圖像識別領域也具有一定的參考價值。
參考文獻:
[1]齊 恒. 基于深度哈希學習算法的移動視覺檢索系統設計與實現[D]. 北京:北京郵電大學,2018.
[2]梁曉旭. 基于卷積神經網絡的遙感圖像分類算法研究[D]. 西安:西安電子科技大學,2018.陸岱鵬,陶建平,王 玨,等. 基于Venturi效應的兩相流霧化噴嘴設計與性能試驗[J]. 江蘇農業科學,2019,47(12):250-255.