張亞軍
(駐馬店職業(yè)技術(shù)學(xué)院,河南駐馬店,463000)
農(nóng)業(yè)害蟲識別是農(nóng)作物害蟲防治工作的重要環(huán)節(jié),因此及時(shí)、準(zhǔn)確地識別可提高農(nóng)作物產(chǎn)量和質(zhì)量[1]。隨著計(jì)算機(jī)視覺技術(shù)發(fā)展,農(nóng)業(yè)害蟲圖像識別算法得到了廣泛的研究。Li等[2]通過神經(jīng)網(wǎng)絡(luò)算法(Neural Network,NN)對12種最常見的農(nóng)業(yè)害蟲進(jìn)行了識別研究,經(jīng)過試驗(yàn)證明,識別結(jié)果較好。孫鵬等[3]提出注意力卷積神經(jīng)網(wǎng)絡(luò)算法(Attention Convolution Neural Network,ACNN)對大豆害蟲圖像識別,在卷積神經(jīng)網(wǎng)絡(luò)引入注意力機(jī)制提高了對大豆蚜蟲的識別率,但它依賴于大量的數(shù)據(jù)樣本。Leal-Ramírez等[4]利用模糊邏輯算法(Fuzzy Logic,F(xiàn)L)對水稻作物常見害蟲圖像識別做了試驗(yàn),結(jié)果表明該方法效果良好。劉翠翠等[5]通過支持向量機(jī)算法(Support Vector Machine,SVM)提取麥冬葉部的害蟲圖像顏色、形狀等特征,對特征進(jìn)行訓(xùn)練學(xué)習(xí),得到了害蟲分類模型。馬鵬鵬等[6]通過圖像特征和樣本量對水稻害蟲識別,目標(biāo)害蟲之間、目標(biāo)害蟲和非目標(biāo)昆蟲之間比例在最佳范圍內(nèi),SVM分類器才能獲得較好的識別結(jié)果。呂軍等[7]利用后驗(yàn)概率SVM算法(Posterior Probability SVM,PPSVM)對水稻害蟲識別,統(tǒng)計(jì)并分析測試集所有樣本的后驗(yàn)概率,該方法能夠提高識別率。張紅濤等[8]提出布谷鳥算法優(yōu)化SVM的懲罰因子和徑向核函數(shù),利用SVM對谷子葉片害蟲進(jìn)行自動識別,最終葉片害蟲的平均識別率較高。
以上各種算法對差異性較大的農(nóng)業(yè)害蟲圖像識別較好,但是由于農(nóng)業(yè)害蟲外觀具有特殊性:體積較小、自身顏色與環(huán)境顏色差異性不大、不同害蟲的紋理存在相同性,這些特性導(dǎo)致識別率較低,由此本文通過改進(jìn)支持向量機(jī)算法(Improved support vector machine,ISVM),對農(nóng)業(yè)害蟲的外觀多特征融合識別,避免單一性特征識別的缺陷。
SVM屬于統(tǒng)計(jì)學(xué)習(xí)分類方法,假設(shè)訓(xùn)練樣本為(xi,yi),xi為輸入向量,yi為輸出向量,也是類別標(biāo)簽,利用SVM構(gòu)造一個(gè)目標(biāo)函數(shù)[9],引入非線性映射φ(x),尋求最優(yōu)分割超平面
f(x)=Wφ(x)+b
(1)
式中:W——權(quán)重系數(shù);
b——偏差量。
通過引入估計(jì)函數(shù)來解決非線性回歸問題,假定訓(xùn)練樣本集在一定的精度下無誤差地進(jìn)行線性函數(shù)擬合,在擬合中引入松弛系數(shù)β1、β2,求解以下最優(yōu)方程
(2)
式中:C——懲罰因子,主要對錯(cuò)誤分類進(jìn)行懲罰;
Q——優(yōu)化目標(biāo);
γ——精度參數(shù)。
通過拉格朗日函數(shù)可獲得識別函數(shù)
(3)

K(xi,xj)——核函數(shù)。
通過核函數(shù)把輸入空間變換到高維空間,然后在這個(gè)新空間中可求取最優(yōu)分類面。
1.2.1 基于交叉驗(yàn)證的懲罰因子優(yōu)化

(4)
式中:θl——第l個(gè)子集的正確率。
1.2.2 基于Manhattan距離的核函數(shù)選擇
在SVM中,核函數(shù)的選擇對SVM性能有很大影響,選擇改進(jìn)徑向基函數(shù)作為SVM的核函數(shù)
(5)
式中:σ——核寬參數(shù);
ε——調(diào)節(jié)系數(shù);
∣xi-yj∣——Manhattan距離。
當(dāng)σ過大時(shí),SVM對訓(xùn)練數(shù)據(jù)的分類能力最好,但是對新樣本的分類能力會降低;當(dāng)σ過小時(shí),SVM只能得到一個(gè)接近于常數(shù)的識別函數(shù),對樣本的正確分辨率很低。當(dāng)σ比較大時(shí),為避免K(xi,xj)變小,通過ε調(diào)節(jié)使得K(xi,xj)變大,增加SVM的通用性,當(dāng)σ比較小時(shí),為避免K(xi,xj)變大,通過ε調(diào)節(jié)使得K(xi,xj)變小,提高SVM正確識別率[10]。
2.1.1 顏色特征
害蟲圖像顏色直方圖易于區(qū)分不同的害蟲[11],但是部分害蟲顏色在HIS顏色模型中H分量會形成相同峰值,具有相似的直方圖,無法明顯的正確區(qū)分不同害蟲,因此引入顏色矩來更仔細(xì)地描述害蟲圖像的共性和特性。害蟲圖像顏色特征可通過不同的顏色矩表示,只利用顏色的一階矩、二階矩和三階矩這三個(gè)低階矩就能表示出害蟲圖像顏色分布。害蟲圖像顏色存在三個(gè)顏色分量即紅、綠、藍(lán),在紅、綠、藍(lán)顏色分量上存在三個(gè)低階矩,因此一共可以形成9個(gè)分量,即
(6)
式中:Pi j——第j個(gè)像素第i個(gè)顏色分量值;
G——像素的個(gè)數(shù);
μi——第i個(gè)顏色通道上所有像素的均值;
Bi——第i個(gè)顏色通道上所有像素的標(biāo)準(zhǔn)差;
Hi——第i個(gè)顏色通道上所有像素的斜度的3次方根。
2.1.2 紋理特征
提取農(nóng)業(yè)害蟲紋理特征參數(shù)主要如下[12]。
紋理平均亮度
(7)
式中:L——灰度級總數(shù);
zi——第i個(gè)灰度級;
p(zi)——?dú)w一化直方圖灰度級分布中灰度為zi的概率。
區(qū)域中亮度的相對平滑度
(8)
直方圖偏斜性的度量
(9)
基于灰度共生矩陣?yán)碚撎崛∞r(nóng)業(yè)害蟲紋理特征參數(shù)主要如下。
二階矩
(10)
式中:Pδ——灰度共生矩陣;
Pδ(i,j)——矩陣元素;
i、j——像素灰度級;
δ——兩個(gè)像素間的位置關(guān)系,δ=(Δx,Δy);
Δx、Δy——兩個(gè)像素在x方向和y方向上的距離,兩像素間距離和方向由δ決定。
f1反映了圖像灰度分布的均勻性和圖像紋理的粗細(xì)程度。
對比度
(11)
f2越大紋理的溝紋越深,圖像的視覺效果越清晰。
熵
(12)
熵f3值近似等于0時(shí)圖像沒有任何紋理;若圖像的細(xì)紋理很多,該圖像的熵f3值最大。
2.1.3 形狀特征
在形狀特征提取中,利用Ostu算法分割出害蟲目標(biāo)圖像,Zernike矩在描述目標(biāo)物形狀占優(yōu)勢[13],一個(gè)目標(biāo)對象的形狀特征可以用一組Zernike矩特征向量表示,Zernike矩特征向量的差異性就可以區(qū)分出害蟲形狀,因此通過區(qū)域Zernike矩算法獲得害蟲形狀特征。把害蟲圖像歸一化到以圖像的質(zhì)心為中心的單位圓中,則害蟲圖像f(x,y)的n階m次Zernike矩為
(13)
式中:Vn m(ρ,θ)——單位圓的正交復(fù)函數(shù)多項(xiàng)式;

Rnm(ρ)——徑向多項(xiàng)式。
Zernike矩是一組正交矩,具有旋轉(zhuǎn)不變性的特性,即使害蟲圖像獲取過程中被旋轉(zhuǎn)了,但是害蟲圖像目標(biāo)并不改變其模值,這樣方便識別。
由于害蟲外觀的顏色與農(nóng)作物的顏色存在相似性,如果單一性特征提取進(jìn)行目標(biāo)識別,極易與具有形狀相似特征的害蟲混淆識別,造成一定的誤判,因此對害蟲圖像進(jìn)行多特征融合識別[14-15]。特征融合識別函數(shù)為
(14)
式中:fj——第j個(gè)害蟲圖像的融合特征;
N——特征個(gè)數(shù);
ηi——融合前的特征分量;



3) 計(jì)算所有樣本的三種特征對應(yīng)的樣本類內(nèi)距離的平均值
(15)
其中:i=1,…,A,1≤k≤j≤N。Fisher線性識別希望Lw(n)越小越好。
4) 計(jì)算所有樣本的三種特征對應(yīng)的樣本類間距離的平均值
(16)
其中:1≤k≤j≤A,u,v∈[1,N]。Fisher線性識別希望Lb(n)越大越好。
1) 輸入訓(xùn)練樣本,并進(jìn)行顏色特征、紋理特征、形狀特征數(shù)據(jù)歸一化處理。
2) 通過式(4)獲得懲罰因子。
3) 通過式(5)獲得核函數(shù)。
4) 將獲取到的最佳參數(shù)對整個(gè)訓(xùn)練集進(jìn)行訓(xùn)練,并得到最優(yōu)分類模型。
5) 最優(yōu)分類模型進(jìn)行測試樣本分類。
6) 標(biāo)注類別標(biāo)簽,得到分類結(jié)果。
試驗(yàn)仿真通過Matlab編程實(shí)現(xiàn),計(jì)算機(jī)配置為雙通道內(nèi)存4 GB,Intel主板,集成顯卡。農(nóng)業(yè)害蟲包含:蝗蟲、螻蛄、葉蟬、粉虱、青蟲、蔥蠅、玉米螟、棉鈴蟲、麥蛾、卷心蟲共計(jì)10種,每種害蟲圖像50幅,每幅圖像的大小為128像素×128像素,灰度級數(shù)為256,其中每種害蟲隨機(jī)選取圖像20幅進(jìn)行訓(xùn)練,剩余圖像30幅進(jìn)行識別。
本文算法ISVM采用交叉驗(yàn)證方法來選擇懲罰系數(shù)、Manhattan距離選擇核寬,每次試驗(yàn)訓(xùn)練樣本和測試樣本是隨機(jī)選取,獲得懲罰系數(shù)和核寬變化情況如圖1所示。
從圖1可以看出,分類精度隨著懲罰因子C的增加而逐漸增加,當(dāng)C大于90時(shí)分類精度開始減小,因此本文選擇懲罰因子C=90;分類精度隨著核寬σ的增加而逐漸增加,當(dāng)核寬度值增大至某一特定值時(shí),即核寬σ大于0.42時(shí)將會引起分類精度的減小,因此本文選擇核寬σ=0.42。

(a) 懲罰因子

(b) 核寬
選擇三幅農(nóng)業(yè)害蟲圖像進(jìn)行識別,分別為葉蟬、青蟲、粉虱,在試驗(yàn)中依次進(jìn)行NN、ACNN、FL、SVM、PPSVM、ISVM對比試驗(yàn),其結(jié)果如表1所示。

表1 不同算法識別效果Tab. 1 Recognition effect of different algorithms
從表1可以看出,本文ISVM算法能夠識別出各種害蟲圖像,識別到害蟲圖像的邊緣實(shí)際輪廓,比如可以把葉蟬的絲狀觸角識別出來,其他算法識別效果較差,沒有識別出實(shí)際輪廓,特別是在復(fù)雜背景下進(jìn)行害蟲識別,無法消除背景因素的影響,本文算法在對復(fù)雜背景下的害蟲檢測效果中已顯示出優(yōu)勢,其他算法把植物葉片的邊緣也誤認(rèn)為是害蟲邊緣識別出來。
圖2為不同算法對農(nóng)業(yè)害蟲圖像的形狀特征、紋理特征、顏色特征、形狀特征和紋理特征、形狀特征和顏色特征、紋理特征和顏色特征、多特征平均識別率,每種算法進(jìn)行30次蒙特卡羅實(shí)驗(yàn)。


(a) 形狀特征(b) 顏色特征


(c) 紋理特征(d) 形狀特征和顏色特征


(e) 形狀特征和紋理特征(f) 紋理特征和顏色特征

(g) 多特征
從圖2可以看出,單一性特征對農(nóng)業(yè)害蟲平均識別率比較低,其中形狀特征平均識別率為68.35%,顏色特征平均識別率為65.88%,紋理特征平均識別率為63.25%。隨著特征組合增加,對害蟲平均識別率逐漸提高,多特征對害蟲平均識別率最高;單一性特征對害蟲平均識別率形狀特征最高,紋理特征最低;兩特征對害蟲平均識別率中形狀特征和顏色特征最高,紋理特征和顏色特征最低;多特征對害蟲平均識別率高于單一性特征、兩特征。這說明對農(nóng)業(yè)害蟲識別選擇多特征有利于對害蟲的識別。在多特征識別中,本文算法ISVM對害蟲平均識別率均值為95.67%,NN算法對害蟲平均識別率均值為87.12%,ACNN算法對害蟲平均識別率均值為89.56%,F(xiàn)L算法對害蟲平均識別率均值為90.62%,SVM算法對害蟲平均識別率均值為92.05%,PPSVM算法對害蟲平均識別率均值為93.89%,本文算法ISVM相比NN、ACNN、FL、SVM、PPSVM分別提高了9.81%、6.82%、5.57%、3.93%、1.90%,因此本文算法檢測結(jié)果優(yōu)于其他算法
識別的時(shí)效性決定了算法的實(shí)際應(yīng)用效果,記錄NN、ACNN、FL、SVM、PPSVM、ISVM對比試驗(yàn)30次過程中多特征害蟲識別平均消耗時(shí)間,如圖3所示。

圖3 不同算法對害蟲識別平均消耗時(shí)間Fig. 3 Time consumption of different algorithms for pest recognition
從圖3可以看出,本文算法ISVM對害蟲識別平均消耗時(shí)間為2.42 s,NN算法對害蟲識別平均消耗時(shí)間為7.35 s,ACNN算法對害蟲識別平均消耗時(shí)間為6.12 s,F(xiàn)L算法對害蟲識別平均消耗時(shí)間為5.84 s,SVM算法對害蟲識別平均消耗時(shí)間為4.24 s,PPSVM算法對害蟲識別平均消耗時(shí)間為3.91 s,本文算法ISVM相比NN、ACNN、FL、SVM、PPSVM分別減少了67.07%、60.46%、58.56%、42.92%、38.11%,因此本文算法ISVM的處理時(shí)效性比較好。
1) 本研究對支持向量機(jī)算法進(jìn)行改進(jìn),通過交叉驗(yàn)證優(yōu)化懲罰因子,避免懲罰因子過學(xué)習(xí)和欠學(xué)習(xí)的發(fā)生,選擇改進(jìn)徑向基函數(shù)作為支持向量機(jī)算法的核函數(shù),增設(shè)調(diào)節(jié)系數(shù),提高SVM正確分辨率;在害蟲識別中對害蟲圖像進(jìn)行多特征融合識別,并且害蟲的顏色特征、紋理特征、形狀特征所分配的權(quán)重值也不同,避免害蟲混淆識別、誤判的發(fā)生。
2) 本文采用改進(jìn)SVM算法對農(nóng)業(yè)害蟲進(jìn)行多特征分類研究,通過大量樣本的訓(xùn)練與測試,單一性特征對農(nóng)業(yè)害蟲平均識別率比較低,其中形狀特征平均識別率為68.35%,顏色特征平均識別率為65.88%,紋理特征平均識別率為63.25%;隨著特征組合增加,對害蟲平均識別率逐漸提高,形狀特征和顏色特征平均識別率為84.12%,形狀特征和紋理特征平均識別率為80.96%,紋理特征和顏色特征平均識別率為79.76%;多特征對害蟲平均識別率為95.67%,多特征組合模型比單一模型的預(yù)測結(jié)果更合理、更可靠,因此為農(nóng)業(yè)害蟲圖像識別提供了一種新方法。