張學軍,黃爽,靳偉,2,鄢金山,2,史增錄,2,周鑫城,張朝書
(1.新疆農(nóng)業(yè)大學 機電工程學院,新疆 烏魯木齊 830052;2.新疆農(nóng)業(yè)工程裝備創(chuàng)新設計實驗室重點實驗室,新疆烏魯木齊 830052;3.阿拉爾市天典農(nóng)機制造有限責任公司,新疆 阿拉爾 843300)
地膜覆蓋技術自引入中國至今已有40 余年的歷史[1],廢棄在農(nóng)田里的地膜長年積累,若沒有及時回收則會造成種子腐爛、阻斷營養(yǎng)運輸,直接影響農(nóng)作物產(chǎn)量.針對殘膜回收問題,目前國內已研發(fā)設計出百余種不同工作形式的殘膜回收機.其中部分殘膜回收機械的回收率高達90%以上[2-8],但回收率似乎已經(jīng)到達“瓶頸期”,很難有進一步突破.因此,通過圖像識別的方法快速識別出農(nóng)田里遺留的殘膜,是研制人工智能殘膜回收機,提高殘膜回收率的關鍵.
近年來,圖像識別技術已經(jīng)廣泛應用于農(nóng)業(yè)領域,已有研究人員對地膜進行了識別.梁長江等[9]通過無人機采集農(nóng)田地膜圖像,利用幾種傳統(tǒng)的圖像分割算法對地膜進行識別,結果表明迭代閾值分割算法對地膜的識別率最高.朱秀芳等[10]利用無人機獲取影像并提取紋理信息,結合傳統(tǒng)的分割方法得到了地膜分布面積.吳雪梅等[11]利用無人機采集煙地不同時期的殘膜,提出了一種基于顏色特征的識別方法.江水泉等[12]利用直方圖閾值分割方法確定閾值,聯(lián)合邊緣檢測和區(qū)域填充,分離出了殘膜圖像.上述文獻大多通過無人機航拍獲取地膜信息,用于評估當?shù)氐沫h(huán)境污染程度,很難直接將識別方法應用于農(nóng)田殘膜的撿拾中.文獻[12]雖然運用傳統(tǒng)的圖像識別方法識別出了殘膜,但同時也丟失了部分殘膜信息,增加了定位誤差.傳統(tǒng)的識別方法依賴于閾值的選擇,適應性不強,魯棒性較差,況且地膜與農(nóng)田背景信息相近,邊界區(qū)分不明顯,無固定輪廓特征,加大了檢測難度.卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)抗干擾能力強,能將目標從復雜背景中提取出來,依靠數(shù)據(jù)本身的特征屬性進行自主學習,在區(qū)分相近目標方面具有顯著效果.目前卷積神經(jīng)網(wǎng)絡已廣泛應用于無人駕駛[13-14]、植株病蟲害識別[15-16]、品種分類[17-18]、航空航天[19]、災害預警[20]、垃圾分類[21]、行為監(jiān)測[22-23]、醫(yī)療診斷[24-25]等方面.
針對地膜與背景干擾物相近,識別難度大等問題.引入卷積神經(jīng)網(wǎng)絡,選擇目前檢測精度最佳的Faster R-CNN 網(wǎng)絡[26],通過增加322和642的錨點尺寸,提出了一種適用于農(nóng)田殘膜的檢測方法,最終實現(xiàn)殘膜的快速、自動識別.
本文以新疆農(nóng)業(yè)大學與新疆阿拉爾市天典農(nóng)機制造有限公司聯(lián)合研制的11MS-1850 型殘膜回收機工作后遺留在農(nóng)田表面的殘膜為研究對象,于2019 年9 月至10 月,使用索尼WX500 采集殘膜圖像,分辨率為3 648 像素×2 736 像素,分別在晴天和陰天共采集1 648 幅殘膜圖像,為了確保殘膜圖像的多樣性,樣本中含有不同土壤濕度、不同光照強度下殘余不等片數(shù)的殘膜圖像.采集時相機鏡面與地面平行,距地面高度為80~110 cm.11MS-1850 型殘膜回收機如圖1 所示,部分殘膜圖像樣本如圖2 所示.

圖1 11MS-1850 型殘膜回收機Fig.1 11MS-1850 residual film recovery machine

圖2 部分殘膜圖像樣本Fig.2 Partial residual film image samples
本文的試驗條件為:Window10 操作系統(tǒng),計算機配置為Intel(R)Core(TM)i7-10750H 處理器,顯卡為GeForce GTX1650,8 G 內存,512 GB 固態(tài)硬盤.編程環(huán)境為python3.6.2,torch1.5.0、torchvision0.6.0、cuda10.0、cudnn7.4.1.5.標注工具為LabelImg.
2.2.1 基于Faster R-CNN 的殘膜檢測框架
Faster R-CNN 網(wǎng)絡模型是在Fast R-CNN 模型的基礎上引入了RPN 區(qū)域建議網(wǎng)絡(Region Proposal Networks),從而通過反向傳播和隨機梯度下降來實現(xiàn)端到端的訓練.Faster R-CNN 殘膜檢測框架如圖3 所示.

圖3 基于Faster R-CNN 的殘膜檢測框架圖Fig.3 Framework of remnant film inspection based on Faster R-CNN
在殘膜檢測過程中主要分為四部分,即殘膜特征提取部分、候選區(qū)域建議網(wǎng)絡(RPN)、ROI Pooling感興趣區(qū)域池化部分、殘膜與背景二分類回歸部分.基于Faster R-CNN 的殘膜檢測環(huán)節(jié)如下:
1)由主干特征提取網(wǎng)絡提取殘膜特征,獲得特征圖用于RPN 和Fast R-CNN 共享.
2)RPN 網(wǎng)絡利用3×3 的滑動窗口,遍歷整個特征圖,其中Softmax 分類器主要用于區(qū)分殘膜和背景信息,邊框回歸主要用于調整建議框的4 個參數(shù)(即建議框的中心點x 軸和y 軸坐標及其寬和高),Proposals 對獲得的建議框進行初步的篩選,最大程度上找到含有殘膜的區(qū)域.
3)ROI Pooling 同時獲得特征圖及建議框,隨后利用建議框在特征圖上進行截取,為了將獲取到大小不同的特征圖調整至分類器所需的尺寸,對其進行歸一化處理,獲得固定大小.
第一,新型農(nóng)村合作醫(yī)療明確政府籌資機制。傳統(tǒng)的農(nóng)村合作醫(yī)療在政府的籌資機制方面模糊不清,未明確政府的職責權限。新型農(nóng)村合作醫(yī)療制度明確實行“農(nóng)民個人繳費、集體扶持和政府資助相結合的籌資機制,各級政府要根據(jù)實際需要和財力狀況安排資金,按實際參加合作醫(yī)療的人數(shù)補助定額給與資助”。新農(nóng)合在政府職責方面的明確為新農(nóng)合制度的實施提供了前提條件。
4)利用分類和回歸網(wǎng)絡判斷截取到的特征圖中是否包含殘膜信息并對建議框進行調整,獲得最終的檢測框.
由于殘膜無固定形狀,因此在本文中認為殘膜外接矩形的中心點坐標即近似為殘膜的位置坐標,從而實現(xiàn)對殘膜的檢測和定位.
2.2.2 評價指標
本文旨在識別殘膜回收機工作后遺留在田間的殘膜并確定其位置信息.在執(zhí)行機構撿拾過程中,允許殘膜中心位置坐標存在較小誤差.因此在本研究中認為只要檢測框中含有殘膜信息并且與其重疊區(qū)域大于75%,即視為有效檢測.為了評估殘膜識別檢測網(wǎng)絡的性能,選擇準確率P(precision)、召回率R(recall)、總體精度F1作為評價指標,其公式為:

式中:R 為召回率;P 為準確率;F1為總體精度;TP為正確識別殘膜的樣本數(shù)量;FP為錯誤識別殘膜的樣本數(shù)量;FN為未檢測出殘膜的樣本數(shù)量.
2.2.3 模型訓練
采用近似聯(lián)合訓練方式進行訓練,為了加速網(wǎng)絡訓練,將殘膜圖像統(tǒng)一至600 像素×600 像素,為了降低因數(shù)據(jù)樣本不足對網(wǎng)絡訓練的影響,本文選取在ImageNet 數(shù)據(jù)集上訓練好的權重進行遷移學習,利用殘膜數(shù)據(jù)集對預訓練好的網(wǎng)絡進行微調,初始學習率lr=0.005,每隔5 步衰減一次學習率,設定衰減倍率因子ganma=0.1,動量momentum=0.9,weight_decay=0.000 5,訓練批次epoch=2 000,每訓練100 個epoch 保存一次訓練權重,最后選擇最優(yōu)權重用于驗證集進行驗證,訓練過程采用GPU 加速訓練.
2.2.4 改進NMS 算法
非極大值抑制(Non-Maximum Suppression,NMS)可以根據(jù)分數(shù)矩陣和邊界框的坐標信息,從中找到置信度較高的矩形框.但該方法過度依賴于閾值的選擇,若閾值選擇不當則會導致目標漏檢或誤檢,對于檢測目標出現(xiàn)重疊、遮擋的情況,該方法只保留得分最高的檢測窗口也會導致目標漏檢[27].雙閾值算法可有效降低單閾值對算法整體性能的影響,其流程圖如圖4 所示.A={a1,a2,…,ac}為殘膜候選框的集合,S={s1,s2,…,sc}為候選框對應的置信度得分集合,D 為最終候選框的集合,dc和dt為設定的雙閾值,其閾值以測試集殘膜圖像為目標,將精確率作為評價指標,采用聯(lián)合調參法確定,如表1 所示,當取dc=0.3,dt=0.9 時算法效果最佳.M 為得分最高的檢測窗口.首先在集合A 中找出得分最高的檢測窗口將其放入D 中并在A 中將其刪除,隨后比較對于任意的候選框及M 的交并比與閾值dc和dt的大小,若小于dc則保留當前候選框及對應得分;若大于dt則刪除當前候選框及對應得分;若兩者都不滿足則對當前候選框得分分配相應的權重.重復執(zhí)行以上操作,直至集合A 為空集,輸出最終的候選框及其得分.

圖4 雙閾值算法流程圖Fig.4 Flow chart of double threshold algorithm

表1 不同閾值組合精確率對比結果Tab.1 Comparison results of accuracy of different threshold combinations %
2.2.5 主干特征提取網(wǎng)絡的選擇
Faster R-CNN 網(wǎng)絡在殘膜特征檢測過程中需要選用已經(jīng)訓練好的網(wǎng)絡來增加網(wǎng)絡的深度,提取更抽象的圖像特征,以提高模型的檢測能力獲得理想的檢測效果.但隨著網(wǎng)絡級數(shù)的增加,梯度消失和爆炸問題也隨之產(chǎn)生.He 等[28]在保留網(wǎng)絡深度的基礎上提出了殘差網(wǎng)絡(Residual Network),使網(wǎng)絡中的冗余層進行恒等映射,有效解決了因網(wǎng)絡層數(shù)增多引發(fā)的梯度消失問題,殘差網(wǎng)絡結構單元如圖5 所示.

圖5 殘差單元Fig.5 Residual unit
該殘差單元可以表示為:

對任意深度的L 則有:

式(5)具有良好的反向傳播特性,假定損失為ε,根據(jù)鏈式求導法則可以得到:

式中:F(Xi,Wi)即為殘差,當F(Xi,Wi)為0 時即為恒等映射.其中在求導連加過程中不可能為負數(shù),因此保證了該節(jié)點參數(shù)更新不會發(fā)生梯度消失或梯度爆炸現(xiàn)象.
特征提取網(wǎng)絡的選擇對模型的整體性能有著重要的影響.常見的特征提取網(wǎng)絡有VGG16[29]、ResNet50[30]、ResNet101[31]等.為了選取適用于本研究的主干特征提取網(wǎng)絡,保證其他參數(shù)不變,分別使用VGG16、VGG19、ResNet34、ResNet50、ResNet101、SqueezeNet、AlexNet 網(wǎng)絡作為特征提取網(wǎng)絡對測試集圖像進行檢測,結果見表2.

表2 特征提取網(wǎng)絡對比試驗結果Tab.2 Comparison test results of feature extraction network
由表2 可知,當AlexNet 和SqueezeNet 作為特征提取網(wǎng)絡時,雖然檢測速度很快但精度較低,這是由于網(wǎng)絡結構比較簡單,能夠提取到的殘膜特征有限.而使用VGG 和ResNet 系列作為特征提取網(wǎng)絡總體精度均達到80%以上,其中ResNet101 總體精度最高,達到了89.02%,檢測單幅運行時間為342.61 ms,相對于ResNet101,ResNet50 總體精度雖然下降了0.75%,單幅檢測速度卻縮短了85.73 ms.綜合考慮并結合本研究試驗條件及研究對象,最終選擇ResNet50 作為主干特征提取網(wǎng)絡.
2.2.6 更改錨點尺寸
殘膜回收機工作后遺留在農(nóng)田表面的殘膜存在條狀大膜和細小的殘膜碎片,尺度變化較大.而Faster R-CNN 模型的原有錨點尺寸為{1282,2562,5122},對小目標檢測不夠靈敏,直接應用在殘膜的識別中容易出現(xiàn)漏識別的情況.為了使Faster RCNN 檢測模型更適用于殘膜的檢測,統(tǒng)計殘膜數(shù)據(jù)集中的殘膜像素面積,由圖6 可以看出,殘膜的像素面積主要集中在1002~3502之間,考慮到模型的綜合檢測能力,依然保留5122的尺寸,并在原有錨點尺寸的基礎上增加322和642的尺度參數(shù),使得每個錨點對應15 個候選窗口.

圖6 殘膜面積統(tǒng)計Fig.6 Statistics of residual film area
為了驗證本文改進算法的有效性,將改進后的Faster R-CNN 模型與原模型(特征提取網(wǎng)絡均為ResNet50)在測試集上對殘膜進行檢測,結果見表3.

表3 檢測對比結果Tab.3 Detection and comparison results
由表3 可知,更改錨點尺寸后,改進Faster RCNN 模型在準確率、召回率、總體精度上分別增加1.29%、0.67%和0.97%,但在單幅檢測時間上增加了27.25 ms,主要原因一是由于每個錨點對應的候選框數(shù)量增加,運算量也隨之增大;二是雙閾值算法比非極大值抑制算法更復雜,檢測時間則消耗在多余候選框的篩除中.雖然檢測時間有所增加,但是依然滿足實時檢測的要求.部分殘膜檢測結果如圖7 所示.檢測模型在自然條件下識別殘膜的過程中取得了比較理想的檢測結果,如圖7(g)(h)所示,即使在細小的殘膜碎片和殘留棉花的干擾下,檢測框也能夠較準確的框選殘膜信息.但在檢測存在些許粘連的殘膜時,出現(xiàn)了重復檢測的情況,如圖7(i)所示,這是由于在標注此類樣本時,標注準則不一致導致的(即標注時有時認定為一整片殘膜,有時認定為幾片殘膜),后期可增加此類樣本數(shù)量并統(tǒng)一標注準則進行規(guī)避.

圖7 殘膜檢測結果Fig.7 Residual film detection results
為了更直觀地了解ResNet50 特征提取網(wǎng)絡提取殘膜特征的過程,對特征提取的部分中間過程進行可視化操作.只顯示Conv1、Layer1 和Layer3 前36個通道的灰度圖,為了便于觀察將輸出的特征圖統(tǒng)一到相同大小,特征圖可視化結果如圖8 所示.殘膜圖像經(jīng)過Conv1 卷積之后得到的特征圖能夠較好的展現(xiàn)原圖的紋理和輪廓信息.隨著網(wǎng)絡深度的增加ResNet50 能夠提取更抽象的殘膜特征,經(jīng)過多層網(wǎng)絡的共同表達,殘膜特征能夠被完整的提取出來.

圖8 特征圖可視化結果Fig.8 Visualization results of feature map
1)本文基于卷積神經(jīng)網(wǎng)絡Faster R-CNN 提出了一種農(nóng)田殘膜識別方法.為了選取特征提取網(wǎng)絡,對VGG16、VGG19、ResNet34、ResNet50、ResNet101、SqueezeNet、AlexNet 進行對比試驗.最終選取ResNet50 作為特征提取網(wǎng)絡.
2)采用雙閾值算法替代傳統(tǒng)的NMS 算法,弱化了單閾值對算法的影響,降低了漏識別率.
3)為了提高檢測模型對細小殘膜碎片的靈敏度,增加了322和642的尺度參數(shù),降低了漏識別率,從而提高了檢測模型的召回率和總體精度.改進后的Faster R-CNN 準確率為90.13%、召回率為88.37%、總體精度為89.24%、單幅檢測時間為284.13 ms,使得通過機器視覺方法撿拾殘膜,提高殘膜回收機的回收率成為可能.
4)雖然改進Faster R-CNN 模型在殘膜的檢測精度方面有所提升,但提升幅度不夠顯著,檢測時間也有所增加.今后將在提高殘膜檢測精度的基礎上,繼續(xù)優(yōu)化雙閾值算法,提高模型的檢測速度,同時進行嵌入式開發(fā)研究,以期早日將殘膜識別技術投入生產(chǎn).
將改進Faster R-CNN 運用到實際殘膜的撿拾過程,包含殘膜的檢測、空間位置信息定位與撿拾部件拾取等部分.當檢測出圖像中的殘膜信息后,將矩形框的中心點位置坐標換算成殘膜的空間位置坐標,將坐標信息傳送至執(zhí)行機構(機械手或氣吸裝置)實現(xiàn)殘膜的補收,增加殘膜回收機的回收效率.可為殘膜回收機加裝補收裝置提供理論基礎,最終達到提高殘膜回收機回收效率的目的.