馬鵬鵬 周愛明 姚青, 楊保軍 唐健, 潘修強
?
圖像特征和樣本量對水稻害蟲識別結果的影響
馬鵬鵬1周愛明1姚青1,*楊保軍2唐健2,*潘修強3
(1浙江理工大學 信息學院, 杭州 310018;2中國水稻研究所 水稻生物學國家重點實驗室, 杭州 310006;3浙江工貿職業技術學院 信息與傳媒分院, 浙江 溫州 325002;*通訊聯系人, E-mail: q-yao@zstu.edu.cn; tangjian@caas.net)
【目的】在傳統的模式識別分類中,從大量的干擾物體中識別出目標物體,圖像特征參數的選擇和不同訓練樣本數量的比例對目標物體的識別結果有著較大的影響。研究的目的在于明晰不同的圖像特征和樣本量對水稻燈誘害蟲識別結果的影響?!痉椒ā扛鶕?種目標害蟲體型大小,將水稻燈誘昆蟲分成大型昆蟲和小型昆蟲。研究水稻昆蟲圖像的全局特征、局部特征和不同特征融合對水稻目標害蟲識別結果的影響;研究基于小樣本條件,選擇不同訓練樣本比例對水稻目標害蟲識別結果的影響。【結果】當非目標昆蟲樣本量約為目標害蟲樣本量的4倍時,基于全局特征和HOG特征融合訓練得到的支持向量機分類器識別水稻3種大型害蟲,可獲得91.4%的識別率和8.6%的誤檢率;當非目標昆蟲樣本量約為目標害蟲樣本量的2倍左右時,基于全局特征的支持向量機分類器識別水稻2種小型害蟲,可獲得94.9%的識別率和4.9%的誤檢率?!窘Y論】針對小樣本數據,從大量非目標中識別出目標物體,選擇合適的特征和設置合理的訓練樣本比例可獲得較好的目標識別結果。
水稻害蟲;模式識別;全局特征;局部特征;訓練樣本;支持向量機
隨著圖像處理和機器學習理論的發展與應用,基于圖像的昆蟲自動識別技術取得了很大的進展。昆蟲圖像識別方法的研究步驟一般包括昆蟲圖像采集、圖像預處理、昆蟲特征提取與優化、分類器的訓練和測試等;其中,昆蟲特征的提取與優化和訓練樣本的選擇對昆蟲識別結果的影響很大。研究對象不同,選取的特征也不一樣。用于昆蟲識別的特征主要包括全局特征、局部特征或多特征進行融合。劉芳等[1]提取了蝴蝶正面和反面的顏色特征值,結合神經網絡實現了對蝴蝶的自動識別,準確率達95.2%。于新文等[2]提取了6種幾何形狀特征,利用判別函數識別3種昆蟲,準確率達100%;張紅濤等[3]提取了7個形態學特征,對稻縱卷葉螟等9種害蟲圖像進行自動識別。趙三琴等[4]將歸一化傅里葉描述子用于稻飛虱形狀的識別,根據稻飛虱形狀特征系數基準值,將燈下稻飛虱與其他昆蟲分開。Zhao等[5]基于Gabor紋理特征描述子的紋理特征,對6種不同形態的害蟲圖像進行識別,取得較好效果。Larios等[6]提取石蠅的PCBR(principal curvature- basedregion detector)檢測器識別石蠅幼蟲,有效地區分出兩種難以辨別的石蠅。Wen等[7]建立了基于全局特征和局部特征的組合模型,實現了果樹害蟲的分類識別。李凡[8]利用圖像輪廓特征和灰度共生矩陣特征,訓練支持向量機(support vector machine, SVM)分類器來識別50種蝴蝶,準確率達到98.0%。胡永強等[9]利用圖像顏色、形態和紋理,結合稀疏表達來識別5種油菜害蟲,識別率為80.7%。
深度學習(Deep Learning)在圖像識別中表現出色,已有學者開始將卷積神經網絡(convolutional neural network, CNN)應用到昆蟲識別中,取得了較好的結果。Liu等[10]首先利用顯著性分割方法定位害蟲,然后建立CNN模型對自然環境下拍攝的12種水稻害蟲進行識別,識別率高達95.1%。楊國國等[11]利用CNN模型對23種茶園主要害蟲進行識別,獲得了91.5%識別率。Wen等[12]提出一種基于深度學習方法的改進金字塔堆疊去噪自動編碼器(improved pyramidal stacked de-noising auto-encoder, IpSDAE)模型對9種田間昆蟲進行識別,識別率達98.1%。雖然深度卷積神經網絡在圖像識別中已取得較好的表現,但它嚴重依賴于大數據。
上述研究,不管是傳統的模式識別方法,還是目前流行的CNN模型,在特定且有限的昆蟲種類和樣本中識別,均能獲得較好的識別效果。實際上,自然界昆蟲種類繁多,而我們的訓練樣本不可能囊括所有種類的昆蟲,如果待識別昆蟲不在訓練樣本集中,將被誤檢為已知昆蟲。為了有效排除非目標,Lytle等[13]利用樸素貝葉斯模型預測待測圖像的概率,并與概率閾值進行比較,實現了非目標石蠅圖像的排除,分類準確率可達到96.4%。2015年,冼鼎祥等[14]則將非目標昆蟲作為一類,利用昆蟲圖像的全局特征訓練SVM分類器識別3種水稻目標害蟲,獲得了較高的識別率。
針對小樣本數據,如何利用傳統的模式識別方法,從大量的未知種類的昆蟲圖像中識別出某些種類的目標昆蟲,是本研究的主要目的。在經典的模式識別方法中,篩選出能區分目標昆蟲的圖像特征是獲得良好分類器的前提,這樣可以減少特征維數、增強模型泛化能力、減少過擬合和提升模型的性能[15]。當非目標昆蟲數量遠遠多于目標昆蟲,目標和非目標樣本量不均衡情況下,如何確定目標與非目標樣本的比例以獲得最優的分類器,值得進一步探討。因此,本研究以水稻燈誘昆蟲為研究對象,為了從大量的水稻燈誘昆蟲圖像中識別出5種目標害蟲,研究不同的圖像特征和設置不同數量的訓練樣本訓練得到的SVM分類器對目標害蟲識別結果的影響。
利用智能蟲情測報燈[16]誘集水稻昆蟲。這些昆蟲經遠紅外殺死和烘干后,被平鋪于白色平臺上,通過工業相機(1200萬像素)采集這些昆蟲圖像。利用最大熵閾值分割方法[17]去噪、填充空洞、去除無效連通域、與原圖進行映射等預處理方法去除背景,并用黑色背景進行填充。在這些水稻燈誘昆蟲圖像中,非目標昆蟲約占90%以上(圖1-A~B)。需要識別的水稻目標害蟲包括體型較大的3種螟蟲[大螟()、二化螟()和稻縱卷葉螟()]和體型較小的2種飛虱[白背飛虱()和褐飛虱()](圖1-C~J)。在非目標昆蟲中,有很多昆蟲在顏色、形態、紋理和大小上與目標害蟲有一定的相似性。統計目標害蟲的像素面積,飛虱為1000~3500像素,螟蟲為10 000~65 000像素。由于我們僅識別5種目標害蟲,不在此范圍內的昆蟲將直接判為非目標。我們將面積在1000~3500像素范圍內的昆蟲定義為小型昆蟲,在10 000~65 000像素范圍內的昆蟲定義為大型昆蟲。因此,3種螟蟲屬于大型昆蟲,2種飛虱屬于小型昆蟲。
落在平臺上的目標害蟲存在不同姿態。觀察發現大螟、二化螟和稻縱卷葉螟可分為背面和腹面2種姿態(圖1-C~H),共6類;2種飛虱,一般為側面姿態,共2類(圖1-I、J)。除了目標害蟲外,其余水稻燈誘昆蟲都作為負樣本(圖1-A、B)。當分類器輸出時,每種目標螟蟲的背面和腹面兩種姿態被歸為一類。用于訓練的燈誘昆蟲樣本圖像數量見表1。

A-大型非目標昆蟲;B-小型非目標昆蟲;C-大螟背面;D-大螟腹面;E-二化螟背面;F-二化螟腹面;G-稻縱卷葉螟背面;H-稻縱卷葉螟腹面;I-白背飛虱;J-褐飛虱。
Fig. 1. Rice light-trapped insect images.
為了能更好地利用圖像特征,將所有的昆蟲圖像樣本旋轉擺正,即首先計算每個昆蟲的最小外接矩形,將最小外接矩形旋轉至垂直狀態;然后計算最小外接矩形內上下兩部分昆蟲所占面積,根據小型測報害蟲上大下小和大型測報害蟲上小下大的形態特征,垂直翻轉最小外接矩形使昆蟲圖像統一呈頭朝上的狀態。對擺正好的昆蟲圖像進行背景填充,使大型水稻昆蟲圖像放大到統一尺寸500×500像素,小型水稻昆蟲放大到統一尺寸80×140像素。
由于大型昆蟲和小型昆蟲在體型上差異較大,前期研究表明使用一個分類器來識別所有昆蟲,效果不好。因此,將所有的昆蟲樣本根據昆蟲面積范圍分成大型昆蟲樣本集和小型昆蟲樣本集,分別進行特征提取和分類器的訓練與測試。

表1 可用于訓練和測試分類器的昆蟲圖像樣本量
圖像特征一般分全局特征和局部特征[18]。其中,全局特征包括顏色特征、紋理和形態特征[19];局部特征包括HOG[20]、Gabor[21]、LBP[22]、SIFT[23]、SURF[24]等。為了從大量的非目標昆蟲中識別出5種目標害蟲,我們選擇了全局特征中基于顏色直方圖的顏色特征、基于灰度共生矩陣的紋理特征、形態特征和局部特征中描述物體輪廓和形狀的HOG特征、描述紋理的Gabor和LBP特征。通過不同的特征或特征組合訓練SVM分類器,根據測試結果來篩選具有較好區分度的圖像特征。
由于5種目標害蟲樣本量差異較大,而非目標樣本量較多(表1)。針對不同昆蟲種類訓練樣本量不均衡的情況,通過設置目標和非目標訓練樣本量的不同比例,測試不同訓練樣本比例對目標害蟲識別結果的影響。
1.2.1 全局特征的提取
1.2.1.1 顏色特征
顏色直方圖是常用的顏色特征提取和匹配的方法。對直方圖進行量化可以減少特征維數,根據文獻[25],分別在、、三個通道上進行非均勻量化,將量化后的顏色空間按照1∶1∶1的比例合成一維向量。提取R分量顏色均值、能量和峰度等3個特征,分別提取G、B分量的顏色均值和能量4個特征,提取分量的顏色均值、方差和能量等3個特征;共10維顏色特征向量。
1.2.1.2 紋理特征
采用基于灰度共生矩陣的統計法提取紋理特征值,根據文獻[26],設定統計距離為=1,共生矩陣生成方向為=0°,45°,90°,145°,求出角二階矩、熵、慣性矩和相關性等4個反映紋理特征的參數,求這些參數的均值和方差[27];共8維紋理特征向量。
1.2.1.3 形態特征
根據文獻[14],將昆蟲圖像二值化,提取矩形度、長寬比、狹長度、緊湊度、似圓度、等效橢圓長短軸比,共6維特征;根據文獻[28],用二階、三階歸一化中心距構造Hu不變矩。為增強Hu矩的辨識度和魯棒性,根據文獻[29],對Hu矩加以改進,根據冗余關系選擇8維不含冗余的特征。共14維形態特征訓練。
1.2.2 局部特征的提取
1.2.2.1 HOG特征
在計算機視覺和圖像處理中,梯度方向直方圖(histograms of oriented gradients,HOG)描述子常被用于物體的檢測。如果把圖像看成二維離散函數,導數即為圖像梯度[20]。HOG描述子將整個檢測窗口劃分為塊(block),每一塊由若干單元格(cell)組成,對單元格內像素的一維梯度方向直方圖進行統計,將所有單元格內梯度方向直方圖組合起來,用于描述整個圖像的特征[18]。
對昆蟲圖像提取HOG特征,大型和小型昆蟲的塊大小分別為250×250和40×70像素,每個塊由4個單元格構成,大型和小型昆蟲每個單元格分別由125×125和20×35像素構成,采用9個bin直方圖來統計每個cell的梯度信息。得到每個塊內有4×9=36個梯度直方圖,大型和小型昆蟲的單元格分別為125×125和20×35像素,最終得到HOG特征為324維。
1.2.2.2 Gabor特征
Gabor小波對圖像的邊緣比較敏感,能夠提供良好的方向和尺度選擇特性,但對光照變化不敏感,對光照變化具有良好的適應性[30]。
提取昆蟲的Gabor特征,采用5個尺度8個方向共40個Gabor濾波器對昆蟲圖像進行小波變換。如果將原昆蟲圖像分別與40個Gabor濾波器進行卷積,會得到太高的維數。為了避免維數災難,采用雙線性插值法[31]將大型昆蟲圖像變換為10×11像素,小型昆蟲圖像變換為8×13像素。然后,將40個Gabor濾波器分別與10×11和8×13像素的小圖像進行卷積,獲得大型和小型昆蟲圖像的Gabor特征維數分別為4400和4160。
1.2.2.3 LBP特征
2015年中國急性ST段抬高型心肌梗死診斷和治療指南,2016年中國經皮冠狀動脈介入治療指南,均對抗血小板治療增加了大量篇幅,較以前指南更加重視[1],對于STEMI指南對血小板糖蛋白(glycoprotein,GP)Ⅱb/Ⅲa受體拮抗劑在有效的雙聯抗血小板及抗凝治療情況下,不推薦STEMI患者造影前常規應用GPⅡb/Ⅲa受體拮抗劑(Ⅱb,B)[2]。高?;颊呋蛟煊疤崾狙ㄘ摵芍?、未給予適當負荷量P2Y12受體抑制劑的患者可靜脈使用替羅非班或依替巴肽(Ⅱa,B)。直接PCI時,冠狀動脈內注射替羅非班有助于減少無復流、改善心肌微循環灌注(Ⅱb,B)。
局部二值模式(local binary pattern,LBP)是Ojala等[32]在1994年提出的一種用來描述圖像局部紋理特征的算子。LBP算子定義在像素3×3鄰域內,以鄰域中心像素為閾值,相鄰的8個像素的灰度值與鄰域中心的像素值進行比較,若周圍像素大于中心像素值,則該像素點的位置被標記為1,否則為0。這樣,3×3鄰域內的8個點經過比較可產生8位二進制數,將這8位二進制數依次排列形成一個二進制數,這個二進制數字轉化為十進制數,即為中心像素的LBP值,可反映該像素周圍區域的紋理信息[20]。本研究使用對LBP算子改進后的等價模式[33],在3×3領域8個采樣點內提取水稻昆蟲的共58維LBP特征。
1.2.4 分類器
傳統的分類方法有模糊模式識別[34]、貝葉斯分類器[35]和模板匹配[36]等,這些方法都是建立在最小風險決策基礎上,泛化能力較差。支持向量機(support vector machine,SVM)是建立在結構風險最小原理上、具有較好泛化能力的一種分類方法[37]。與傳統的分類算法相比,SVM方法主要是利用內積核函數代替向高維空間的非線性映射,解決了線性不可分的問題,同時SVM的決策函數是由那些少數的支持向量的數據來決定而非所有的數據,大大提高了運算速率。
利用帶后驗概率的支持向量機[38],即利用Sigmoid函數把SVM的標準輸出映射到[0,1]區間上的一個概率估計,分別對大型昆蟲和小型昆蟲進行判別。使用LIBSVM工具箱[39]進行分類器的訓練,選擇徑向基函數(RBF)作為核函數,使用一對一方法組合多個二分類器;按照交叉驗證機制并利用粒子群尋優(POS)算法尋找最佳的懲罰因子C和核函數中gamma參數獲得最優的訓練模型。
由于3種螟蟲與2種飛虱體型相差較大,我們在處理的時候,利用兩個分類器分別來識別螟蟲和飛虱。為了得到最佳分類準確率下對應的C和gamma,通過交叉驗證找到最優的懲罰因子C和RBF核函數中的參數gamma。當用于大型水稻害蟲識別時,C=2048和gamma=0.03125,用于小型水稻害蟲識別時C=512,gamma=0.03125,可以獲得SVM分類器的最高識別率。
1.2.5 識別結果的評價參數
針對小樣本目標害蟲,3種螟蟲訓練樣本全部參與訓練,并隨機取1450幅大型非目標昆蟲圖像作為訓練樣本;2種飛虱訓練樣本量均為800,并隨機取1600幅小型非目標昆蟲圖像作為訓練樣本。

表2 不同全局特征訓練SVM分類器識別目標害蟲的結果

表3 不同局部特征訓練SVM分類器識別目標害蟲的結果
提取大型昆蟲和小型昆蟲訓練樣本的顏色、紋理和形態特征,用它們及其兩兩組合或三個特征組合,分別訓練14個SVM分類器。對測試樣本集進行測試,SVM分類器對5種水稻燈誘測報害蟲的平均識別率與誤檢率見表2。
由表2可以看出,3種全局特征對大型目標害蟲的識別率從大到小依次為:形態>顏色>紋理;對小型目標害蟲則表現為顏色>形態>紋理。表明顏色和形態特征比紋理特征能更有效得識別出這5種目標害蟲。3種特征兩兩組合要比單獨使用一種特征對5種目標害蟲的識別率明顯提高,誤檢率明顯下降。當使用三種特征組合時,SVM分類器獲得了最高的識別率和最低的誤檢率。
訓練樣本同2.1。提取大型昆蟲和小型昆蟲訓練樣本的HOG、LBP和Gabor 3種局部特征,分別訓練6個SVM分類器。對測試樣本集進行測試,SVM分類器對5種水稻燈誘害蟲的平均識別率與誤檢率見表3。
由表3可知,三種局部特征中,HOG特征識別大型和小型目標害蟲表現最好,其次是Gabor特征,LBP特征識別效果最差。HOG特征是描述物體局部的輪廓和形狀的,Gabor和LBP是描述物體紋理的,因此害蟲的輪廓和形狀相比紋理更具有辨識度。這與利用全局特征識別結果是一致的,特別是大型害蟲。
將全局特征的3種特征組合與HOG特征進行融合,用同樣的訓練樣本訓練SVM分類器,對相同的測試樣本集進行測試。從表3可以看出,利用顏色+紋理+形態+HOG特征融合后訓練SVM分類器獲得的測試結果,對于大型目標害蟲,識別率(91.4%)比利用3種全局特征組合獲得的識別率(90.5%)和單獨利用HOG特征獲得的識別率(87.6%)要高;對于小型目標害蟲,識別率(94.2%)和誤檢率(5.4%)雖然比單獨利用HOG特征獲得的結果要好很多,但稍遜于利用顏色+紋理+形態特征組合獲得的識別率(94.9%)和誤檢率(4.9%)。
因此,針對水稻大型目標害蟲識別,我們優先選用顏色+紋理+形態+HOG特征訓練的SVM分類器;針對水稻小型目標害蟲識別,則優先選用顏色+紋理+形態全局特征訓練的SVM分類器。
由于目標害蟲與非目標昆蟲訓練樣本量存在不均衡的情況,設置了不同比例的樣本量組合,對大型目標害蟲識別,提取顏色+紋理+形態+HOG特征訓練SVM分類器;對小型目標害蟲識別,提取顏色+紋理+形態特征訓練SVM分類器。

表4 不同訓練樣本比例對大型目標害蟲識別的結果
2.4.1 不同訓練樣本比例對大型目標害蟲識別結果的影響
由表1可知,由于水稻大型目標害蟲存在不同姿態,共分為6類,每類訓練樣本數量在330~430之間,平均為366,大型非目標昆蟲樣本量最多為5800。我們采用了全部的目標害蟲訓練樣本,同時設置了7個不同樣本量的非目標昆蟲組合,提取顏色+紋理+形態+HOG特征訓練SVM分類器。分別對同一測試集進行測試。
從表4可見,大型非目標昆蟲樣本量不同時,識別率和誤檢率也不同。當非目標樣本量是每種分類目標樣本量的1~3倍,目標害蟲識別率均非常高,但誤檢率也較高。當非目標昆蟲樣本量繼續增加時,目標害蟲識別率下降,同時誤檢率大大降低,即非目標誤檢為目標害蟲的比例下降,由于實際樣本中,非目標昆蟲遠遠多于目標害蟲,所以必須選擇較低的誤檢率。為了保證高識別率和低誤檢率,選擇大型非目標昆蟲樣本量為1450,即約為目標樣本量4倍時,識別率和誤檢率的綜合效果達到最優。

表5 不同訓練樣本比例對小型目標害蟲識別的結果
2.4.2 不同訓練樣本比例對小型目標害蟲識別結果的影響
由于褐飛虱訓練樣本量最小,僅為800,針對白背飛虱和小型非目標昆蟲,我們設定了7組不同訓練樣本量組合,提取顏色+紋理+形態特征訓練SVM分類器,分別對同一測試集進行測試。
從表5可見,當兩種飛虱樣本量一樣,小型非目標昆蟲樣本量與目標害蟲樣本量相同時,獲得了較高的識別率,同時平均誤檢率也較高;當非目標昆蟲是目標害蟲樣本量的2倍時,識別率稍微下降,但誤檢率下降到4.9%。隨著非目標樣本量繼續增加,平均識別率下降較多,誤檢率也下降到2.7%。表明非目標昆蟲樣本量越多,能獲得較低的誤檢率,但也不是越多越好,因為會導致目標害蟲識別率下降。當白背飛虱1600個訓練樣本均參與訓練,非目標樣本量也為1600,飛虱識別率較高,但誤檢率也較高。當增加非目標昆蟲樣本量后,飛虱識別率明顯下降,誤檢率變化不大。
因此,訓練樣本中,盡可能使目標種類樣本量均等,而非目標昆蟲樣本數是目標害蟲樣本數的2倍,可獲得較高的識別率和較低的誤檢率。這與2.4.1螟蟲識別結果是不一樣的。

表6 在最優圖像特征參數和訓練樣本比例下的水稻大型害蟲識別結果
針對水稻大型害蟲,選擇非目標昆蟲樣本量為1450時,提取全局特征+HOG特征,訓練SVM分類器,對測試樣本進行測試,獲得的目標害蟲混淆矩陣見表6;針對水稻小型害蟲,利用全局特征,選擇2種飛虱樣本均為800,非目標昆蟲樣本為1600時,訓練SVM分類器,對測試樣本進行測試,獲得的目標害蟲混淆矩陣見表7。

表7 在最優圖像特征參數和訓練樣本比例下的水稻小型害蟲識別結果
由混淆矩陣可知,由于水稻小型昆蟲訓練樣本數較多,獲得了較高的識別率和較低的誤檢率。對于水稻大型害蟲,大螟、稻縱卷葉螟和二化螟都獲得了較高的識別準確率,而大型非目標昆蟲由于種類繁多并且一部分形態特征和螟蟲比較相似,導致整體識別準確率下降,誤檢率較高。
為了進一步說明帶后驗概率的支持向量分類器識別水稻害蟲的能力,根據真陽性率和假陽性率分別畫出水稻大型害蟲和水稻小型害蟲的受試者工作特征曲線(receiver operating characteristic curve)。從圖2-A可以看出,水稻大型目標害蟲均具有較好的識別率,但非目標的識別率較低;由于大型目標害蟲樣本量較小,如果增加目標樣本,同時相應的增加非目標樣本的數量,識別率有望提高。從圖2-B中看出水稻小型害蟲和非目標均獲得較高的識別率,說明該分類器設計的合理性。

A-水稻大型害蟲; B-水稻小型害蟲。PSB-大螟;RLF-稻縱卷葉螟;SSB-二化螟;WBPH-白背飛虱;BPH-褐飛虱。NT1-大型非目標昆蟲;NT2-小型非目標昆蟲。
Fig. 2.Receiver operating characteristic curve of support vector machine classifiers.
為了從大量的水稻燈誘昆蟲中識別出5種目標害蟲,我們將非目標昆蟲作為一類,研究了不同的圖像特征參數和不同的訓練樣本量比例訓練獲得的SVM分類器對水稻目標害蟲識別結果的影響。結果表明,識別水稻大型昆蟲中3種螟蟲,當非目標樣本量約為目標樣本量的4倍時,基于全局特征和HOG特征融合訓練得到的SVM分類器獲得了3種螟蟲平均識別率為91.4%,平均誤檢率為8.6%;識別小型昆蟲中2種飛虱,當非目標樣本量約為目標樣本量的2倍左右時,基于全局特征的SVM分類器識別水稻小型昆蟲,獲得了2種飛虱平均識別率為94.9%,平均誤檢率為4.9%。
在傳統的模式識別中,圖像特征的提取和篩選對分類器識別結果的影響很大。如何從不同的研究對象的原始圖像中篩選具有較強表示能力的圖像特征是智能圖像處理的一個重要步驟。鄧江洪等[40]針對圖像分類中的特征選擇問題,提出一種多特征篩選與支持向量機融合的圖像分類模型,對圖像多種特征進行篩選,降低了圖像分類開銷,并提高了圖像分類性能;沙睿[41]針對單一特征在判定的算法上存在誤判區域,將單一特征進行對比得到一個多特征融合的綜合性算法,提高算法的準確率和魯棒性,具有較強的適應性。本研究利用昆蟲顏色、紋理和形態三種全局特征組合訓練的SVM分類器可獲得目標害蟲更高的識別率和較低的誤檢率,表明全局特征的綜合特征更有利于害蟲的識別。局部特征中描述目標物體輪廓和形狀的HOG特征對昆蟲識別表現得更好。將全局特征與HOG特征融合,更有利于水稻螟蟲的識別,但對小型害蟲飛虱的識別沒有起作用,主要是因為飛虱個體較小,其局部特征不明顯。
由于采集的水稻燈誘昆蟲中大量的樣本屬于非目標昆蟲,種類繁多,個體差異較大,容易造成和目標之間的誤判,故將其作為一類樣本與目標害蟲樣本一起訓練分類器。但非目標樣本量并不是越多越好,需要和目標樣本之間保持一定的比例,而且不同目標樣本之間也需要保持在合理的比例之內,使分類器的分類識別結果達到最優。在對3種螟蟲進行識別時,目標平均樣本量與非目標樣本量比例約為1∶4時,可保證較高的識別率和較低的誤檢率;超過這個比例時,識別率大大下降,而誤檢率大大上升。在對2種飛虱進行識別的時候,非目標樣本量約是目標樣本量的2倍時,可保證較高的識別率和較低的誤檢率;超過這個比例時,識別率大大下降。因此,在目標樣本小樣本情況下,為了從大量樣本中識別出目標,需要保證目標害蟲之間、目標害蟲和非目標昆蟲之間比例保持在合理的范圍內,分類器才能獲得較好的識別結果;否則,比例失衡會導致SVM的分類決策面發生偏移,使識別分類結果變差。
[1] 劉芳, 沈佐銳, 張建偉,楊紅珍. 基于顏色特征的昆蟲自動鑒定方法. 應用昆蟲學報, 2008, 45(1): 150-153.
Liu F, Shen Z R, Zhang J W, Yang H Z. Automatic insect identification based on color characters., 2008, 45(1): 150-153. (in Chinese with English abstract)
[2] 于新文, 沈佐銳, 高靈旺, 李志紅. 昆蟲圖像幾何形狀特征的提取技術研究. 中國農業大學學報, 2003, 8(3): 47-50.
Yu X W, Shen Z R, Gao L W, Li Z H. Feature measuring and extraction for digital image of insects., 2003, 8(3): 47-50. (in Chinese with English abstract)
[3] 張紅濤, 胡玉霞, 趙明茜, 邱道尹, 張孝遠, 張恒源. 田間害蟲圖像識別中的特征提取與分類器設計研究. 河南農業科學, 2008, 37(9): 73-75.
Zhang H T, Hu Y X, Zhao M Q, Qiu D Y, Zhang X Y, Zhang H Y. Feature Extraction and classification in the image recognition for agricultural pests., 2008, 37(9): 73-75. (in Chinese)
[4] 趙三琴, 丁為民, 劉德營. 基于傅里葉描述子的稻飛虱形狀識別. 農業機械學報, 2009, 40(8): 181-184.
Zhao S Q, Ding W M, Liu D Y. Rice hopper shape recognition based on Furier descriptors., 2009, 40(8): 181-184. (in Chinese with English abstract)
[5] Zhao J, Cheng X P. Field pest identification by an improved Gabor texture segmentation scheme., 2007, 50(5): 719-723.
[6] Larios N, Deng H, Zhang W, Sarpola M, Yuen J, Paasch R, Moldenke A, Lytle D.A, Correa S.R, Mortensen E, Shapiro L G, Dietterich T G. Automated insect identification through concatenated histograms of local appearance features: Feature vector generation and region detection for deformable objects., 2008, 19(2): 105-123.
[7] Wen C, Guyer D E, Li W. Automated insect classification with combined Global and local features for orchard management//An ASABE Meeting Presentation, June 21-24, 2009Reno, Nevada: 2009.
[8] 李凡. 基于數字圖像的蝴蝶種類自動識別研究. 北京:北京林業大學, 2015.
Li F. The Research on Automatic Identification of Butterfly Species Based on the Digital Image. Beijing: BeijingForestry University, 2015. (in Chinese with English abstract)
[9] 胡永強, 宋良圖, 張潔, 謝成軍, 李瑞. 基于稀疏表示的多特征融合害蟲圖像識別. 模式識別與人工智能, 2014, 27(11): 985-992.
Hu Y Q, Song L T, Zhang J, Xie C J, Li R. Pest Image recognition of multi-feature fusion based on sparse representation., 2014, 27(11): 985-992. (in Chinese with English abstract)
[10] Liu Z, Gao J, Yang G, ZhangH, He Y. Localization and classification of paddy field pests using a saliency map and deep convolutional neural network., 2016, 6: 20410.
[11] 楊國國, 鮑一丹, 劉子毅. 基于圖像顯著性分析與卷積神經網絡的茶園害蟲定位與識別. 農業工程學報, 2017, 33(6): 156-162.
Yang G G, Bao Y D, Liu Z Y. Location and recognition of pests in tea plantation based on image saliency analysis and convolutional neural network., 2017, 33(6): 156-162. (in Chinese with English abstract)
[12] Wen C, Wu D, Hu H, PanW. Pose estimation-dependent identification method for field moth images using deep learning architecture., 2015, 136: 117-128.
[13] Lytle D A, Martínezmu?oz G, Zhang W, Lorios N, Shaprio L. Automated processing and identification of benthic invertebrate samples., 2010, 29(3): 867-874.
[14] 冼鼎翔, 姚青, 楊保軍, 羅舉, 譚暢, 張超, 徐一成.基于圖像的水稻燈誘害蟲自動識別技術的研究. 中國水稻科學, 2015, 29(3): 299-304.
Xian D X, Yao Q, Yang B J, Luo J, Tan C, Zhang C, Xu Y C. Automatic identification of rice light-trapped pest based on image., 2015, 29(3): 299-304. (in Chinese with English abstract)
[15] 劉鵬宇. 基于內容的圖像特征提取算法的研究. 長春: 吉林大學, 2004.
Liu P Y. Study on the algorithms for content-based image feature extraction. Changchun: Jilin University, 2004. (in Chinese with English abstract)
[16] 梁勇. 智能蟲情測報燈在水稻害蟲測報上的應用效果. 廣西植保, 2009, 22(1): 21-23.
Liang Y. Application effect of intelligent insect report lamp on rice pest monitoring., 2009, 22(1): 21-23. (in Chinese)
[17] 張新明, 張愛麗, 鄭延斌, 孫印杰, 李雙. 改進的最大熵閾值分割及其快速實現. 計算機科學, 2011, 38(8): 278-283.
Zhang X M, Zhang A L, Zheng Y B, Sun Y J, Li S. Improved two-dimensional maximum entropy image thresholding and its fast recursive realization., 2011, 38(8): 278-283. (in Chinese with English abstract)
[18] 蘇煜, 山世光, 陳熙霖, 高文. 基于全局和局部特征集成的人臉識別. 軟件學報, 2010, 21(8): 1849-1862.
Su Y, Shan S G, Chen X L, Gao W. Integration of global and local feature for face recognition., 2010, 21(8): 1849-1862. (in Chinese with English abstract)
[19] 彭晶. 基于全局特征點提取的指紋識別方法研究. 長春: 吉林大學, 2005.
Peng J. The study of fingerprint identification based on the deltas and cores.Changchun: Jilin University, 2005. (in Chinese with English abstract)
[20] Liu B, Wu H, Su W, Sun J. Sector-ring HOG for rotation-invariant human detection., 2017, 54(C): 1-10.
[21] Zhu J X, Su G D, Li Y C. Facial expression recognition based on gabor feature and adaboost., 2011, 17(8): 993-998.
[22] Lei Y M, Zhao X M, Guo W D. Cirrhosis recognition of liver ultrasound images based on SVM and uniform LBP feature//2015 IEEE Advanced Information Technology, Electronic and Automation Control Conference (IAEAC),19-20 December, 2015. Chongqing, China: IEEE, 2015: 382-387.
[23] Olgun M, Onarcan A O, Sezer O, Koyuncu O. Wheat grain classification by using dense SIFT features with SVM classifier., 2016, 122(C): 185-190.
[24] Dlin S, Jiang Y T, Lin J J. Object Tracking Using a Particle Filter with SURF Feature., 2014, 8815(3): 339-344.
[25] 王娟, 孔兵, 賈巧麗. 基于顏色特征的圖像檢索技術. 計算機系統應用, 2011, 20(7): 160-164.
Wang J, Kong B, Jia Q L. Color-Based Image Retrieval., 2011, 20(7): 160-164. (in Chinese with English abstract)
[26] 任國貞, 江濤. 基于灰度共生矩陣的紋理提取方法研究. 計算機應用與軟件, 2014(11): 190-192.
Ren G Z, Jiang T. Study on glcm-based texture extraction methods., 2014(11): 190-192. (in Chinese with English abstract)
[27] 鄭淑丹, 鄭江華, 石明輝, 郭寶林, 森巴提, 孫志群, 賈曉光, 李曉瑾. 基于分形和灰度共生矩陣紋理特征的種植型藥用植物遙感分類. 遙感學報, 2014, 18(4): 868-886.
Zheng S D, Zheng J H, Shi M H, Guo B L, Sen B T, Sun Z Q, Jia X G, Li X J. Classification of cultivated Chinese medicinal plants based on fractal theory and gray level co-occurrence matrix textures., 2014, 18(4): 868-886. (in Chinese with English abstract)
[28] 楊舒, 王玉德. 基于Contourlet變換和Hu不變矩的圖像檢索算法. 紅外與激光工程,2014, 43(1): 306-310.
Yang S, Wang Y D. Image retrieval algorithm based on contourlet transform and Hu invariant moment., 2014, 43(1): 306-310. (in Chinese with English abstract)
[29] 張華. 基于形態特征提取的圖像匹配搜索技術研究. 物聯網技術, 2013(11): 16-18.
Zhang H. Research on image matching search technology based on morphology characterization extraction., 2013(11): 16-18. (in Chinese)
[30] Arivazhagan S, Ganesan L, Priyal S P. Texture classification using Gabor wavelets based rotation invariant features., 2006, 27(16): 1976-1982.
[31] 王昊京, 王建立, 王鳴浩, 陰玉梅. 采用雙線性插值收縮的圖像修復方法. 光學精密工程,2010, 18(5): 1234-1241.
Wang H J, Wang J L, Wang M H, Yin Y M. Efficient image inpainting based on bilinear interpolation downscaling., 2010, 18(5): 1234-1241. (in Chinese with English abstract)
[32] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns//IEEE Transactions on Pattern Analysis and Machine IntelligenceSpringer Berlin Heidelberg, 2000: 404-420.
[33] 曾凡濤. 基于改進LBP特征的圖像理解. 長春: 吉林大學, 2014.
Zeng F T. Image Understanding Based on Improved LBP Methodology. Changchun: Jilin University, 2014. (in Chinese with English abstract)
[34] 陳振華, 余永權, 張瑞. 模糊模式識別的幾種基本模型研究. 計算機技術與發展, 2010, 20(9): 32-35.
Chen Z H, Yu Y Q, Zhang R. Research on several models of fuzzy pattern recognition problems., 2010, 20(9): 32-35. (in Chinese with English abstract)
[35] 王雙成, 杜瑞杰, 劉穎. 連續屬性完全貝葉斯分類器的學習與優化. 計算機學報, 2012, 35(10): 2129-2138.
Wang S C, Du R J, Liu Y. The learning and optimization of full bayes classifiers with continuous attributes., 2012, 35(10): 2129-2138. (in Chinese with English abstract)
[36] 吳曉軍, 鄒廣華. 基于邊緣幾何特征的高性能模板匹配算法. 儀器儀表學報, 2013, 34(7): 23-30.
Wu X J, Zou G H. High performance template matching algorithm based on edge geometry features., 2013, 34(7): 23-30. (in Chinese with English abstract)
[37] 羅昕. 基于Fisher鑒別分析對支持向量機算法進行優化的研究. 昆明: 云南大學, 2016.
Luo X. Research on the optimization of support vector machine algorithm based on Fisher discriminant analysis. Kunming: Yunnan University, 2016. (in Chinese with English abstract)
[38] 任俊, 李志能. 支持向量機在字符分類識別中的應用. 浙江大學學報: 工學版, 2005, 39(8):1136-1141.
Ren J, Li Z N. Application of support vector machines in classification and recognition of characters., 2005, 39(8): 1136-1141. (in Chinese with English abstract)
[39] 崔萌, 張春雷.LIBSVM, LIBLINEAR, SVMmuticlass比較研究. 電子技術, 2015(6): 1-5.
Cui M, Zhang C L. The comparison study of LIBSVM, LIBLINEAR and SVMmulticlass., 2015 (6):1-5. (in Chinese)
[40] 鄧江洪, 趙領. 多特征篩選與支持向量機相融合的圖像分類模型. 吉林大學學報:理學版, 2016, 54(4): 862-866.
Deng J H, Zhao L. Image Classification model with multiple feature selection and support vector machine.:, 2016, 54(4): 862-866. (in Chinese with English abstract)
[41] 沙睿. 基于多特征融合的圖像相似性研究. 南京: 南京大學, 2011.
Sha R. A Study of image Similarity based on multi-features. Nanjing: Nanjing University, 2011. (in Chinese with English abstract)
Influence of Image Features and Sample Sizes on Rice Pest Identification
MA Pengpeng1, ZHOU Aiming1, YAO Qing1, *, YANG Baojun2, TANG Jian2, *, PAN Xiuqiang3
(College of Information,,,;State Key Laboratory of Rice Biology,,,;Information and Media Institute,,;Corresponding author,;)
【Objective】In the traditional pattern recognition methods, image features and the sizes of training samples have a great influence on the identification results of target objects from a large number of distraction objects. Our objective is to study the influence of different image features and sample sizes on identification of rice light-trapped pests. 【Methods】Rice light-trapped insects were divided into two broad categories:big insects and small insects. The global and local image features of all insects were extracted and different sizes of training samples were set to train support vector machine classifiers. 【Result】The support vector machine classifier based on the combination of global features and HOG features could obtain the identification rate of 91.4% and false detection rate of 8.6% when the non-target sample size was fourfold as many as target samples in big rice pests. The support vector machine classifier based on global features could obtain the identification rate of 94.9% and false detection rate of 4.9% when the non-target sample size was two times as many as target samples in small rice pests. 【Conclusion】In the small sample sets, appropriate image features and reasonable training sample proportion help achieve good identification results when some targets need to be identified from a large number of non-target objects.
rice pest; pattern recognition; global feature; local feature; training sample; support vector machine
S435.112; TP391.411
A
1001-7216(2018)04-0405-10
2017-09-21;
2017-12-17。
國家863計劃資助項目(2013AA102402);浙江理工大學521人才培養計劃資助;浙江省科技計劃資助項目(2016C32103)。
10.16819/j.1001-7216.2018.7116