王 彤,倪 懿
1.蘇州高博軟件技術(shù)職業(yè)學(xué)院,江蘇 蘇州 215163
2.蘇州農(nóng)業(yè)職業(yè)技術(shù)學(xué)院,江蘇 蘇州 215000
農(nóng)業(yè)害蟲(chóng)為導(dǎo)致全球農(nóng)業(yè)經(jīng)濟(jì)損失的主要因素,其依靠不同種類的植物與農(nóng)作物存活,為農(nóng)業(yè)帶來(lái)了不同損害[1,2]。農(nóng)業(yè)害蟲(chóng)產(chǎn)生的經(jīng)濟(jì)影響是世界范圍內(nèi)的,歐美農(nóng)業(yè)經(jīng)濟(jì)損失為30%左右,而亞洲與非洲農(nóng)業(yè)經(jīng)濟(jì)損失超過(guò)50%[3-5]。從20 世紀(jì)60 年代之后,病蟲(chóng)害綜合防治變成被廣泛應(yīng)用的蟲(chóng)害防治方式,而農(nóng)業(yè)害蟲(chóng)圖像匹配點(diǎn)識(shí)別對(duì)病蟲(chóng)害綜合防治而言非常重要[6]。
傳統(tǒng)匹配點(diǎn)識(shí)別方法通常是在提取圖像局部特征的基礎(chǔ)上完成的,如SURF 方法和SIFT 方法等,局部特征主要突出圖像細(xì)節(jié),有很好的轉(zhuǎn)換魯棒性,然而對(duì)圖像中光照等外界環(huán)境較為敏感[7,8],可應(yīng)用場(chǎng)景被限制,在很大程度上會(huì)導(dǎo)致圖像信息缺失,對(duì)農(nóng)業(yè)害蟲(chóng)圖像匹配點(diǎn)識(shí)別結(jié)果產(chǎn)生不好的影響。卷積神經(jīng)網(wǎng)絡(luò)從大規(guī)模數(shù)據(jù)中對(duì)學(xué)習(xí)特征進(jìn)行描述,其逐層提取的特征較為抽象,但有大量語(yǔ)義信息,可提高匹配準(zhǔn)確度。提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的農(nóng)業(yè)害蟲(chóng)圖像匹配點(diǎn)識(shí)別方法,卷積神經(jīng)網(wǎng)絡(luò)提取的特征有一定的語(yǔ)義信息,并且通過(guò)視覺(jué)詞袋模型構(gòu)造索引,提高匹配點(diǎn)識(shí)別準(zhǔn)確性。經(jīng)實(shí)驗(yàn)驗(yàn)證,所提方法在外界環(huán)境改變的狀態(tài)下匹配點(diǎn)識(shí)別魯棒性更優(yōu)。
當(dāng)前我國(guó)常見(jiàn)的農(nóng)業(yè)害蟲(chóng)主要有稻飛虱、白粉病、玉米螟、棉鈴蟲(chóng)、小麥銹病、棉蚜、稻紋枯病、稻瘟病、麥蚜、麥紅蜘蛛、蝗蟲(chóng)、麥類赤霉病等[9,10],危害相對(duì)嚴(yán)重,所以將上述害蟲(chóng)當(dāng)成研究對(duì)象。訓(xùn)練集與測(cè)試集是害蟲(chóng)標(biāo)本與活體圖片,圖片源于網(wǎng)絡(luò)。
在采用卷積神經(jīng)網(wǎng)絡(luò)方法對(duì)農(nóng)業(yè)害蟲(chóng)圖像進(jìn)行處理前,需對(duì)其進(jìn)行去均值處理[11],公式描述如下:
其中,用于描述訓(xùn)練集樣本的平均值。通過(guò)去均值處理令數(shù)據(jù)點(diǎn)平均分布于0 點(diǎn)附近,從而方便后續(xù)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練。
卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)主要由輸入層、卷積層、池化層、全連接層和學(xué)習(xí)層等構(gòu)成[12,13](圖1)。

圖1 卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)Fig.1 The basic structure of the convolution neural network

式中,δ用于描述動(dòng)量變量;β用于描述動(dòng)量因子;γ用于描述權(quán)重延時(shí);ε用于描述學(xué)習(xí)率。代表目標(biāo)函數(shù)針對(duì)?在第i次迭代過(guò)程中產(chǎn)生的批量樣本Ci平均梯度。在目標(biāo)函數(shù)趨近于最小值的情況下,因?yàn)榍氏鄬?duì)較小,梯度的改變也相對(duì)較小,尤其在深度網(wǎng)絡(luò)中,最后一層梯度通過(guò)反向傳播方式傳輸至前面若干層的情況下,梯度將逐漸變小,造成隨機(jī)梯度下降法收斂速度變慢。梯度下降主要用于對(duì)整體樣本進(jìn)行更新[15],隨機(jī)梯度下降主要用于對(duì)樣本進(jìn)行更新,批量隨機(jī)梯度下降法處于上述二者之間,可對(duì)其中一些樣本進(jìn)行更新。
為了提高整個(gè)過(guò)程的收斂速度,防止隨機(jī)梯度下降陷于局部最優(yōu),針對(duì)目標(biāo)函數(shù),通過(guò)Momentum 動(dòng)量法進(jìn)行處理。
本節(jié)采用建立的數(shù)據(jù)集對(duì)卷積神經(jīng)網(wǎng)絡(luò)特征視覺(jué)詞袋模型進(jìn)行訓(xùn)練。為了和人工選擇特征產(chǎn)生對(duì)比,依據(jù)通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取的農(nóng)業(yè)害蟲(chóng)圖像特征,利用k-means 分類計(jì)數(shù)對(duì)全部訓(xùn)練農(nóng)業(yè)害蟲(chóng)圖像進(jìn)行聚類處理,獲取六層樹(shù)形結(jié)構(gòu),其中除了葉子節(jié)點(diǎn),所有節(jié)點(diǎn)均含8 個(gè)子節(jié)點(diǎn)。
在對(duì)位置進(jìn)行識(shí)別的過(guò)程中,可通過(guò)視覺(jué)詞袋模型對(duì)和目前農(nóng)業(yè)害蟲(chóng)圖像類似的候選圖像進(jìn)行訓(xùn)練,防止出現(xiàn)大量匹配點(diǎn)識(shí)別過(guò)程,提高識(shí)別精度。這主要是由于訓(xùn)練完成的詞袋模型屬于樹(shù)形結(jié)構(gòu),這種結(jié)構(gòu)中所有葉子節(jié)點(diǎn)通過(guò)離線訓(xùn)練獲取該節(jié)點(diǎn)的離線權(quán)重,用于描述該葉子節(jié)點(diǎn)的判斷性能,離線權(quán)重值越高,節(jié)點(diǎn)對(duì)農(nóng)業(yè)害蟲(chóng)圖像匹配點(diǎn)的區(qū)分性能越好。
其中,s(i)描述離線權(quán)重,M描述全部蟲(chóng)害圖像的數(shù)量,mi描述出現(xiàn)葉子節(jié)點(diǎn)的蟲(chóng)害圖像的數(shù)量。
在進(jìn)行測(cè)試的過(guò)程中,輸入一幅農(nóng)業(yè)害蟲(chóng)圖像,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)其特征進(jìn)行提取,在所有特征均達(dá)到詞袋模型的葉子節(jié)點(diǎn)的情況下,把所有葉子節(jié)點(diǎn)在農(nóng)業(yè)害蟲(chóng)圖像中出現(xiàn)的頻率與離線權(quán)重之間的乘積當(dāng)成該葉子節(jié)點(diǎn)在農(nóng)業(yè)害蟲(chóng)圖像中的最終權(quán)重,同時(shí)把農(nóng)業(yè)害蟲(chóng)圖像的位置與權(quán)重保存于葉子節(jié)點(diǎn)中,當(dāng)成反向索引。葉子節(jié)點(diǎn)在該蟲(chóng)害圖像中的權(quán)重可通過(guò)下式求出:

式中,f(i,I)用于描述葉子節(jié)點(diǎn)i在蟲(chóng)害圖像I中出現(xiàn)的頻率;miI用于描述葉子節(jié)點(diǎn)i在農(nóng)業(yè)害蟲(chóng)圖像中出現(xiàn)的次數(shù);∑yi用于描述農(nóng)業(yè)害蟲(chóng)圖像總特征。
對(duì)一幅農(nóng)業(yè)害蟲(chóng)圖像中全部特征進(jìn)行提取并參與計(jì)算,能夠獲取所有葉子節(jié)點(diǎn)對(duì)該圖像的權(quán)重,同時(shí)把得到的權(quán)重組成該農(nóng)業(yè)害蟲(chóng)圖像的描述性向量Ji。在對(duì)農(nóng)業(yè)害蟲(chóng)圖像匹配點(diǎn)進(jìn)行識(shí)別的過(guò)程中,僅需對(duì)處于同一葉子節(jié)點(diǎn)上的匹配點(diǎn)進(jìn)行相似度計(jì)算,即可完成對(duì)匹配點(diǎn)的識(shí)別,相似度可通過(guò)下式計(jì)算:
分析上式可以看出,蟲(chóng)害圖像匹配點(diǎn)相似程度越高,那么公式分?jǐn)?shù)值就越大,經(jīng)大量實(shí)驗(yàn)設(shè)定閾值,將相似度高于閾值匹配點(diǎn)當(dāng)成識(shí)別匹配點(diǎn)。
卷積神經(jīng)網(wǎng)絡(luò)有很多模型參數(shù),其擬合函數(shù)存在很高的非凸性,在進(jìn)行模型訓(xùn)練的過(guò)程中,模型會(huì)逐漸變得復(fù)雜,訓(xùn)練誤差也會(huì)逐漸降低,在模型足夠復(fù)雜的情況下,測(cè)試集上的誤差反倒會(huì)提升,即網(wǎng)絡(luò)模型在訓(xùn)練的過(guò)程中誤差較低,然而在測(cè)試的過(guò)程中誤差很大,即為過(guò)擬合現(xiàn)象,這樣的模型泛化能力相對(duì)較差。為了提升卷積神經(jīng)網(wǎng)絡(luò)的泛化能力,本節(jié)采用數(shù)據(jù)集擴(kuò)增以及正則化技術(shù)進(jìn)行處理。數(shù)據(jù)擴(kuò)增技術(shù)即將農(nóng)業(yè)害蟲(chóng)圖像樣本xi分割為k個(gè)圖像塊,組成圖像塊數(shù)據(jù)袋,從而獲取更多圖像塊,擴(kuò)增了訓(xùn)練集。在訓(xùn)練過(guò)程中的全連接層引入Dropout 技術(shù),Dropout 技術(shù)的基本思想為在網(wǎng)絡(luò)的全連接層,每次向前傳播時(shí)任意把部分隱藏節(jié)點(diǎn)設(shè)置成0,這些節(jié)點(diǎn)在迭代時(shí)停止工作,在進(jìn)行反向傳播的過(guò)程中也不更新上述節(jié)點(diǎn)的權(quán)值。在下次迭代的過(guò)程中,以同樣的比例任意設(shè)置部分節(jié)點(diǎn)不工作,進(jìn)行誤差反向傳播的過(guò)程中也不更新。對(duì)參數(shù)進(jìn)行合理設(shè)定,從而令迭代過(guò)程中不工作比例保持穩(wěn)定,該參數(shù)即為Dropout 率。
另一種避免模型過(guò)擬合的技術(shù)為針對(duì)模型目標(biāo)函數(shù)或代價(jià)函數(shù)添加正則項(xiàng)。正則項(xiàng)是為了減少模型復(fù)雜程度,防止模型區(qū)分過(guò)擬合訓(xùn)練數(shù)據(jù)。從別的角度進(jìn)行分析,正則化也就是假設(shè)模型參數(shù)滿足先驗(yàn)概率,即為模型參數(shù)加入先驗(yàn)知識(shí),而不同正則化方式先驗(yàn)分布是存在差異的,據(jù)此設(shè)定參數(shù)分布情況,令模型復(fù)雜程度減少,提高對(duì)噪聲的抑制能力,提高模型泛化能力。
將本文提出的基于卷積神經(jīng)網(wǎng)絡(luò)的蟲(chóng)害圖像特征點(diǎn)匹配方法與基于SURF 的蟲(chóng)害圖像特征點(diǎn)匹配方法及基于BRIEF 的蟲(chóng)害圖像特征點(diǎn)匹配方法進(jìn)行比較。
實(shí)驗(yàn)環(huán)境如下:Intel Xeon E5 處理器,在Ubuntu 環(huán)境下開(kāi)展實(shí)驗(yàn),選用C++編程語(yǔ)言,卷積神經(jīng)網(wǎng)絡(luò)程序選用Caffe 框架。
訓(xùn)練數(shù)據(jù)集包含Image 數(shù)據(jù)集與Place 數(shù)據(jù)集,Image 數(shù)據(jù)集為農(nóng)業(yè)害蟲(chóng)圖像數(shù)據(jù)集,有1150個(gè)類別,Place 數(shù)據(jù)集代表場(chǎng)景數(shù)據(jù)集,共有1220 個(gè)場(chǎng)景種類,訓(xùn)練集共有260 萬(wàn)張圖像。
為了對(duì)三種方法的性能進(jìn)行比較,實(shí)驗(yàn)將三個(gè)數(shù)據(jù)集當(dāng)成測(cè)試數(shù)據(jù)集,依次對(duì)視角發(fā)生改變、溫度環(huán)境發(fā)生改變與光照發(fā)生改變的條件下,匹配點(diǎn)識(shí)別效果。
A 數(shù)據(jù)集為大場(chǎng)景數(shù)據(jù)集,通過(guò)雙目攝像頭對(duì)農(nóng)業(yè)害蟲(chóng)圖像與其他場(chǎng)景圖像進(jìn)行拍攝,劃分成左視圖與右視圖兩個(gè)部分。
B 數(shù)據(jù)集在春夏秋冬四個(gè)季節(jié)對(duì)相同區(qū)域內(nèi)農(nóng)業(yè)害蟲(chóng)及其它場(chǎng)景圖像進(jìn)行采集。為了對(duì)不同季節(jié)農(nóng)業(yè)害蟲(chóng)圖像匹配點(diǎn)進(jìn)行識(shí)別,實(shí)驗(yàn)選擇場(chǎng)景溫度與外觀差異最大的冬季與夏季對(duì)應(yīng)的圖像。
C 數(shù)據(jù)集采用單目攝像頭對(duì)農(nóng)業(yè)害蟲(chóng)圖像與其它場(chǎng)景圖像進(jìn)行采集。在進(jìn)行實(shí)驗(yàn)時(shí),測(cè)試數(shù)據(jù)集C 依次在清晨、中午、下午與傍晚進(jìn)行。
各個(gè)數(shù)據(jù)集均有兩組不同環(huán)境下位置相應(yīng)的農(nóng)業(yè)害蟲(chóng)圖像,采用任意一組數(shù)據(jù)構(gòu)造數(shù)據(jù)庫(kù),將另一組數(shù)據(jù)當(dāng)成相應(yīng)匹配點(diǎn),在數(shù)據(jù)庫(kù)中農(nóng)業(yè)害蟲(chóng)圖像匹配點(diǎn)和搜索農(nóng)業(yè)害蟲(chóng)圖像匹配點(diǎn)位置對(duì)應(yīng)的情況下,即認(rèn)為得到識(shí)別結(jié)果。因?yàn)閿?shù)據(jù)集中相鄰幀有很高的相似度,所以在進(jìn)行實(shí)驗(yàn)的過(guò)程中引入容忍度,也就是和實(shí)際匹配點(diǎn)間的間隔,在設(shè)定容忍度區(qū)間中,都認(rèn)為識(shí)別成功。
本節(jié)把匹配比率當(dāng)成不同方法識(shí)別性能測(cè)試指標(biāo),公式描述如下:

式中,n用于描述數(shù)據(jù)庫(kù)中的圖像數(shù)量,h用于描述搜尋獲取的匹配度最高的匹配點(diǎn)相應(yīng)圖像數(shù)量,v用于描述容忍度,gij用于描述第i幅農(nóng)業(yè)害蟲(chóng)圖像相應(yīng)數(shù)據(jù)庫(kù)識(shí)別結(jié)果中分?jǐn)?shù)第j大的圖像,Wi(u)用于描述在第i幅待匹配農(nóng)業(yè)害蟲(chóng)圖像與容忍度u情況下相應(yīng)數(shù)據(jù)庫(kù)中農(nóng)業(yè)害蟲(chóng)圖像集合,xi用于描述第j幅數(shù)據(jù)庫(kù)中農(nóng)業(yè)害蟲(chóng)圖像。

圖2 病蟲(chóng)圖像匹配效果圖Fig.2 Matching effect of diseases and insects images
本文把得到的實(shí)驗(yàn)結(jié)果通過(guò)數(shù)據(jù)的形式描述出來(lái),取前4 幅匹配分?jǐn)?shù)最高的農(nóng)業(yè)害蟲(chóng)圖像,在不同容忍度下匹配比率的改變情況。
為了驗(yàn)證本文方法的識(shí)別精度,將本文方法識(shí)別結(jié)果和SURF 方法、BRIEF 方法進(jìn)行比較。在A 數(shù)據(jù)集下,三種方法的實(shí)驗(yàn)結(jié)果用表1 進(jìn)行描述。

表1 數(shù)據(jù)集A 下三種方法匹配比率Table 1 Three method matching ratios in data set A
分析表1 可知,在視角出現(xiàn)改變的情況下,本文方法和SURF 方法、BRIEF 方法的匹配效果較為類似,都有很好的位置識(shí)別性能。這主要是由于在視角出現(xiàn)改變的情況下,兩幅農(nóng)業(yè)害蟲(chóng)圖像在外觀上很接近,并且,SURF 方法、BRIEF 方法都屬于依據(jù)局部特征完成特征點(diǎn)識(shí)別,對(duì)視角改變情況下的匹配有一定的魯棒性。
針對(duì)B 數(shù)據(jù)集,三種方法匹配結(jié)果用表2 進(jìn)行描述。分析表2 可知,本文方法匹配比率與SURF方法、BRIEF 方法相比有較大程度的提升,在容忍度相對(duì)較大的情況下,本文方法匹配率基本上是其它兩種方法的兩倍左右,表明本文采用卷積神經(jīng)網(wǎng)絡(luò)的方法更優(yōu)。這主要是因?yàn)槎九c夏季,農(nóng)業(yè)害蟲(chóng)圖像受季節(jié)影響場(chǎng)景差異相對(duì)較大,SURF 方法、BRIEF 方法受農(nóng)業(yè)害蟲(chóng)圖像中物體顏色等影響匹配性能明顯降低,而本文方法盡管也在一定程度上受季節(jié)環(huán)境的影響,然而本文方法提取特征有一定的語(yǔ)義信息,和SURF 方法、BRIEF 方法相比有更高的匹配精度。

表2 數(shù)據(jù)集B 下三種方法匹配比率Table 2 Matching ratios of three methods under data set B
針對(duì)C 數(shù)據(jù)集,三種方法的匹配結(jié)果用表3 進(jìn)行描述。分析表3 可知,本文方法匹配比率和SURF方法、BRIEF 方法相比提高了9%~42%,這主要是因?yàn)镾URF 方法、BRIEF 方法在光照改變的條件下非常敏感,而本文卷積神經(jīng)網(wǎng)絡(luò)屬于特征描述,更能體現(xiàn)整個(gè)蟲(chóng)害圖像的整體屬性,并且和語(yǔ)義信息結(jié)合在一起,在光照發(fā)生改變的情況下,對(duì)匹配點(diǎn)的識(shí)別能力仍舊很高。

表3 數(shù)據(jù)集C 下三種方法匹配比率Table 3 Matching ratios of three methods under data set C
綜合上述實(shí)驗(yàn)結(jié)果可知,在視角發(fā)生改變的情況下,三種方法的匹配比率沒(méi)有很大的差異,而在季節(jié)改變與光照改變的情況下,本文方法的匹配比率明顯優(yōu)于SURF 方法、BRIEF 方法,這主要是因?yàn)檫@兩種方法以局部特征為依據(jù),同時(shí)對(duì)環(huán)境的改變非常敏感,而本文方法識(shí)別精度很好。
本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的蟲(chóng)害圖像匹配點(diǎn)識(shí)別方法,通過(guò)公開(kāi)農(nóng)業(yè)害蟲(chóng)數(shù)據(jù)集訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)蟲(chóng)害圖像特征進(jìn)行提取,對(duì)視角變化情況下的蟲(chóng)害圖像匹配點(diǎn)識(shí)別有很好的魯棒性,提取的特征含語(yǔ)義信息,所以對(duì)外觀的改變也有很高的魯棒性。除此之外,通過(guò)視覺(jué)詞袋模型為蟲(chóng)害圖像構(gòu)建索引,提高識(shí)別準(zhǔn)確性。
實(shí)驗(yàn)時(shí),選擇數(shù)據(jù)集A、B、C,在視角、季節(jié)與光照發(fā)生改變時(shí),對(duì)本文方法、SURF 方法、BRIEF 方法的匹配比率進(jìn)行比較,發(fā)現(xiàn)在視角發(fā)生改變的情況下,三種方法的匹配比率沒(méi)有很大的差異,而在季節(jié)改變與光照改變的情況下,本文方法的匹配比率明顯優(yōu)于SURF 方法、BRIEF 方法。