劉迦南 朱洋 李藝嘉 韓婧



[摘要]為了實現對煙青蟲的有效防治,借助計算機對煙青蟲雌雄成蟲進行有效的圖像識別是非常重要的。在機器視覺與圖像識別技術的結合下,通過支持向量機對害蟲進行有效識別。煙青蟲雌雄成蟲圖像屬于典型的二分類問題,為此,在自動提取其顏色及紋理等36個特征的基礎上,研究了將LIBSVM工具應用于害蟲性別判別的方法。通過K折交叉驗證選取分類機的最優參數組合并建立模型,對目標害蟲圖像進行了自動分類,識別率達到95%。實驗結果表明,利用該方法可以對害蟲性別做出有效判別。
[關鍵詞]煙青蟲;圖像增強;雌雄害蟲;支持向量機
煙青蟲,Helicoverpa assulla(Guenee),又名煙草夜蛾,鈴夜蛾屬,寄主植物達70余種,主要危害煙草、辣椒,是世界性的煙草害蟲,國內各煙區均有分布。其中黃淮煙區、華中煙區、西南煙區的四川、貴州等地分布較多,國外集中分布在日本、朝鮮、印度等地,每年給種植者、政府造成巨大損失[1]。
在對煙青蟲的系統探究過程中,需要進行蟲體的雌雄判別。小菜蛾雌雄比例是衡量飼料是否成功的重要指標之一[2];在對害蟲食料進行選擇性及適應性的研究中,雌蟲的產卵喜好及嗜食性差異是綜合治理的重要依據[3];在不同光源對害蟲誘殺效果的評價研究中,雌雄上燈比率有明顯差異,表現為雄性上燈率遠多于或近似于雌性的上燈率[4];在田間預測預報與誘殺防治的研究中,利用性激素誘導害蟲,可以獲得雌雄蟲比并推算其種群動態變化[5];在夜蛾昆蟲數學分類應用中,利用翅脈特征可對棉鈴蟲等六種害蟲做出有效判別[6];對害蟲在不同寄主植物適應度的研究中,通過比較不同齡期蟲在七種植物上的存活率、體重、產卵率等指標,發現在棉花、大豆作物上適應度最高[7];在工業應用的研究中發現,成蟲體內含有的蛋白酶經純化后可與金屬離子氧化還原,在漂白劑、有機溶劑和商業洗滌劑中具有很高的穩定性和相容性,是一種具有重要工業特性的生物資源替代品[8]。
目前對煙青蟲雌雄成蟲的形態描述多限于專家經驗及教科書,大多數是利用手繪或移動設備拍照形成原始圖像再進行人工判別,利用計算機視覺技術對煙青蟲性別做出自動判別還未見報道。
本研究通過飼養害蟲多代,對煙青蟲雌雄成蟲進行系統觀察,利用圖像處理和模式識別相結合的方法描述煙青蟲的識別分類特征,從而對雌雄害蟲做出有效的自動判別,為其相關領域的研究及應用等工作提供參考。
1 圖像采集與預處理
本文研究對象來自河南農業大學植物保護室剛孵化未交尾的煙青蟲雌雄成蟲,連續培養多代。經試驗,采取活體拍照取樣方法最佳,即通過蜂蜜水或者蔗糖水將煙青蟲吸引至白色背景板,采用美國菲力爾公司(FILR)生產工業相機(型號為BFLY-PGE-50S5C-C,25mm工業鏡頭)進行害蟲RGB高清彩色數字圖像的獲取。所獲取圖像格式為BMP,原始圖像經有效區域裁剪后分辨率為380×380像素。原始圖像可用作顏色特征的提取,對原始圖像進行圖像增強,采用直方圖均衡化后,發現RGJB圖像的B通道灰度圖像紋理效果良好,有利于后續的紋理特征提取和選擇[9]。本文所用程序算法在MATLAB 2014a環境中實現,軟件運行環境為LENOVO PC兼容(32GRAM, InlelCore i7 CPU,3.6GHz主頻)。圖1為實驗室飼養的煙青蟲雌雄成蟲RGB圖像,按上述方法得到的單通道圖像見圖2。
2 特征提取
人們往往通過肉眼觀察昆蟲的顏色、紋理、形狀甚至害蟲的外生殖器等特征來對害蟲進行區分判別,但借助人工識別往往容易因為疲勞等因素導致結果出現偏差[10]。
(1)顏色特征:顏色信息通常分布在顏色低階矩中,顏色矩方法的思想在于圖像中任何的顏色分布都可以用它的矩來表示。此外,由于顏色分布信息主要集中在低階矩中,如一階矩描述平均顏色、二階矩捕述顏色方差、三階矩描述顏色的偏移性,利用低階矩就可以近似表示顏色分布的特征[11]。
(2)紋理特征:已有對紋理特征描述方法進行研究,如統計法、合成法、結構法、邊緣描述法等[9]。在紋理特征統計方法的描述中,最主要是生成圖像的CLCM(灰度共生矩陣)和GLDS(差分統計法),并通過計算其中的各個量度值來捕述圖像。紋理是一種不依賴于顏色或亮度變化的反映圖像中同質現象的視覺特征,刻畫了圖像像素鄰域灰度空間分布的規律,是所有物體表面都具有的內在特性[12]。不同物體具有不同的紋理,比如不同昆蟲圖像所對應的紋理數值具有差異,基于此可用紋理特征對害蟲性別進行有效區分判別。
(3)不變矩特征:不變矩是一種比較經典的特征提取方法。單純的中心矩或是原點矩盡管可以表征平面物體的幾何形狀但都不具有不變性,然而可以從這些矩構造不變量。這種方法最初由Hu提出,他利用中心矩構造出7個不變量,這些不變量已經被成功地應用于很多領域[13]。其中最多被應用于圖像識別,圖像在平移、鏡像、旋轉變換時具有變量不變性,以此作為7個特征可供選取特征量時的參考。
本文對雌雄害蟲圖像有效區域進行特征提取,最終提取特征包括顏色、紋理與不變矩特征,具體提取方法如下:顏色矩(顏色一階矩、顏色二階矩、顏色三階矩)、灰度共生矩陣(0°、45°、90°、135°)、差分統計矩陣、七個不變矩,共計36個特征。煙青蟲雌雄蟲體之間各個特征量綱差異較大,如果直接進行分類識別不僅影響系統性能且對計算精度影響較大。因此,對提取的所有原始特征數據進行歸一化處理以降低計算時間,提高計算效率及精度。利用MATLAB中自帶函數MAPMINMAX對數據做歸一化處理,經過歸一化處理后,特征數據的范圍為0-1。
3 雌雄煙青蟲的自動判別
支持向量機(Support Vector Machine,SVM)是一種新型的監督式機器學習方法,其算法原理是依據1995年Vapnik創立的統計學理論中的風險經驗最小化準則(SRM),將樣本點誤差以及結構風險水平降到最低,對樣本數量范圍沒有過多要求,極大地提高了模型的推廣能力[14]。線性可分時,利用最優分類面選取思想,選擇目標距離最遠的折中,使待區分的目標準確無誤地分開,并使待檢測目標的分類間隔最大。對于煙青蟲雌雄體的判別問題,可以把它作為一個二分類問題來解決。利用LIBSVM軟件包在MATLAB環境下來實現,LIBSVM作為通用的SVM軟件包,可以解決分類問題(c-SVC,v-SVC)、回歸問題(ε-SVR,v-SVR)以及分布估計(one-class-SVM)等,提供了四種核函數(線性、多項式、徑向基和s形),可以有效地解決多類問題、交叉驗證參數優化、對不平衡樣本加權、多類問題的概率估計等[15]。支持向量機基本求解公式如下(本文選用c-SVC分類和RBF(徑向基核函數:K(x,xi)= exp(-g‖xi-x‖2)):
其中g為方差且>0,Yi為符號函數,ω為權向量,xi為樣本向量,b為截距,C為懲罰因子,εi島為松弛變量,l為樣本總數。
LIBSVM軟件包使用的一般步驟如下[6]:(1)根據LIBSVM軟件包的格式要求準備數據集。(2)對數據集進行必要的縮放操作。(3) -般考慮選用RBF核函數。(4)用交叉驗證搜索參數C與g的最優參數組合。(5)用搜索到的最優參數組合對整個訓練集進行訓練,得到支持向量機模型。(6)利用得到的訓練模型對測試集進行預測。
煙青蟲成蟲的雌雄判別屬于二分類問題,LIBSVM工具箱采用的是一對一的SVM算法,在對訓練樣本進行訓練的過程中,構造出所有可能出現的二類別分類器,經過140個煙青蟲樣本(其中雌雄各為70個)訓練后的SVM分類器的nSV(支持向量)共112個。用SVM分類器對60個(雌雄各30個)雌雄害蟲樣本進行測試,正確識別率為95%。結果顯示僅有3個樣本被誤判,其余57只均實現了自動精確分類判別,取得了較好的分類結果,結果見圖3。
4 結論
(1)把K折交叉驗證訓練模型的識別率作為分類器性能的一個主要評價因素,訓練測試得到的最優C與g,當C=19.6983,g=0.0272時,識別率達到95%,使得測試樣本識別率達到了最佳。
(2)研究運用LIBSVM進行煙青蟲雌雄成蟲判別分類的可行性,并采用徑向基核函數對雌雄害蟲特征數據進行SVC數據的分類,通過大量樣本的訓練與測試,識別率為95%。實踐證明煙青蟲雌雄成蟲圖像識別中基于SVM的分類器能夠達到預期的效果。因此,支持向量機分類模型在實際中可以作為判別害蟲類別的依據。
(3)所采集煙青蟲均為戶外自然條件下采集且連續飼養多代,與野生害蟲體型有略微差別,下一步應將自然狀態下害蟲加入分類樣本數據集,結果更加具有意義及廣泛性。
參考文獻
[1]任廣偉.煙蚜和煙青蟲的發生與防治[J].煙草科技,2002 (5):75-79.
[2]莫美華,龐雄飛.二次正交旋轉回歸設計在小菜蛾飼料配方篩選中的應用[J].生態學報,2006 (7):2935-2941.
[3]張勇,王開運,王剛,等.煙青蟲對三種食料植物的選擇性及適應性[J].應用昆蟲學報,2006 (6):781-784
[4]張玥.20種光源對蔬菜地主要害蟲的誘殺效果評價[D].武漢:華中農業大學,2010.
[5]劉超,邢茂德,邊文波,等.淄博市棉鈴蟲種群動態及其在測報中應用分析[J].農業科技通訊,2016 (8):123-125.
[6]蔡小娜,黃大莊,沈佐銳,等,蛾翅翅脈特征在夜蛾昆蟲數學分類學中的應用,中國農業大學學報,2015 (5):188-193.
[7] REIGADA C, GUIMARAES K F PARRA J R P Relative fitness ofhelicoverpa armigera (lepidoptera: noctuidae) on seven host plants:8perspective for IPM in Brazil[J].Journal oflnsect Science,2016(1):3
[8] AKBAR S M, SHARMA H C Alkaline serine proteases fromHelicuverpa armigera: potential candidates for industrial applications[J].Archives oflnsect Biochemistry&Physiology,2017(1):21367
[9]劉舒,姜琦剛,邵永社,等應用灰度共生矩陣的紋理特征描述的研究[J].科學技術與工程,2012 (33):8909-8914.
[10]張紅濤,毛罕平,邱道尹.儲糧害蟲圖像識別中的特征提取[J].農業工程學報,2009 (2):126-130.
[11]戴天虹,王克奇,楊少舂.基于顏色特征對木質板材分級的研究[J].系統仿真學報,2008 (5):1372-1376.
[12]孫君頂,馬媛媛,紋理特征研究綜述[J].計算機系統應用,2010 (6):245-250.
[13]柳林霞,陳杰,竇麗華.不變矩理論及其在目標識別中的應用[J].火力與指揮控制,2003 (2):13-15.
[14]張紅濤,胡玉霞,毛罕平.基于SVM的儲糧害蟲圖像識別分類[J].農機化研究,2008 (8):36-38.
[15]王慧勤,雷剛.基于LIBSVM的風速預測方法研究[J].科學技術與工程,2011 (22):5440-5442+5450.
[16]李坤,劉鵬,呂雅潔,等.基于Spark的L|BSVM參數優選并行化算法[J].南京大學學報(自然科學),2016 (2):343-352.