朱 莉,羅 靖,徐勝勇,楊 勇,趙海濤,李衛豪
(1.湖北工業大學 太陽能高效利用湖北省協同創新中心,武漢 430068;2.華中農業大學 工學院,武漢 430070)
?
基于顏色特征的油菜害蟲機器視覺診斷研究
朱莉1,羅靖2,徐勝勇2,楊勇2,趙海濤2,李衛豪2
(1.湖北工業大學 太陽能高效利用湖北省協同創新中心,武漢430068;2.華中農業大學 工學院,武漢430070)
摘要:害蟲的準確識別是針對性地施用農藥以有效治理蟲害的基礎,而人工識別的勞動強度大且主觀性強。為此,提出了一種利用顏色特征的害蟲視覺識別技術。使用GrabCut算法從蟲害圖像中分割出完整的害蟲主體圖像并計算其最小外接矩形區域的H/S通道直方圖,使用害蟲基準圖像對其進行直方圖反向投影并計算交叉匹配指數。匹配指數和害蟲標簽共同組成的特征向量用于訓練C4.5分類器。計算待檢害蟲圖像的交叉匹配指數,輸入分類器即可得到識別結果。實驗結果表明:該技術可準確識別菜蝽、菜青蟲、猿葉甲、跳甲及蚜蟲5種害蟲,準確率達到92%。
關鍵詞:油菜害蟲;計算機視覺;顏色直方圖;C4.5算法
0引言
油菜是我國第一大油料作物,但病蟲害的日趨嚴重制約了其單產的提高。針對不同的病蟲害選擇性地施用農藥,可以有效保障蟲害的治理,減小環境污染。準確施藥的基本前提是病蟲害類別的精確判定。傳統的蟲害檢測方法是農業工作者根據經驗進行肉眼判斷,勞動強度很大且缺乏客觀性,往往很難準確預測、識別、防治病蟲害而導致錯過最佳治療時機,或者農藥使用不當造成環境污染。因此,迫切需要一種快捷而準確的油菜蟲害識別方法。
計算機視覺使用的各種圖像傳感器擁有遠超人類的視覺分辨能力,非常適用于病蟲害的識別[1-2]。基于計算機視覺的病蟲害識別技術可以分為兩類:一類是利用病蟲害為害作物形成的特征進行反向識別。如文獻[3]中提出的基于多特征融合的農作物害蟲圖像識別,通過多種特征組合方式準確識別水稻、油菜、玉米、大豆4種作物的34種害蟲。文獻[4]提取為害棉花葉片的顏色、形狀和紋理特征,應用徑向基支持向量機識別主要棉花蟲害,識別正確率達 88.1%。蔡清等對蟲食菜葉圖像進行預處理后,自動提取蟲食菜葉圖像圓度、復雜度、球形度等7個形狀特征值,并構建BP神經網絡模型進行識別[5]。文獻[6]計算椪柑病蟲害為害狀圖像的傅里葉變換幅度譜的多重分形特征作為特征值,建立 BP 神經網絡病蟲害識別模型進行病蟲害自動識別。另一類是利用害蟲本體特征進行直接識別。例如,高雄等提出一種基于機器視覺的歐氏距離病蟲害自動識別檢測方法,以顏色特征為基礎利用幾何閾值選取和RGB空間特征的變換,實現病蟲害的自動識別,準確率達到88.3%[7]。
顏色特征對圖像本身的尺寸、方向、視角的依賴性較小,具有較高的魯棒性。因此,本文提出了一種基于顏色特征的油菜害蟲智能識別方法,綜合運用圖像分割、顏色特征提取與匹配、數據挖掘技術,實現了大田環境下的5種主要油菜害蟲的精確識別。全部算法基于OpenCV(因特爾公司開發的開源視覺函數庫)和VS2010(微軟公司開發的編程軟件)實現,具有較好的通用性和可移植性。
1基于顏色直方圖反向投影的特征提取
常見的油菜害蟲有菜青蟲、跳甲、猿葉甲、蚜蟲及菜蝽等5種,其顏色差異明顯。顏色直方圖常被用于描述顏色特征,表征不同色彩在整幅圖像中所占的比例,特別適于描述那些難以進行自動分割的圖像[8]。HSV顏色空間的兩個分量色調H和飽和度S包含了圖像的顏色信息。不同油菜害蟲的H/S通道顏色直方圖存在顯著的區別,圖1所示為跳甲和蚜蟲的H和S通道直方圖。因此,可以根據害蟲的顏色直方圖特征進行識別。

圖1 跳甲和蚜蟲圖像及其H/S通道直方圖
直方圖反向投影是一種記錄像素點或者像素塊如何適應直方圖模型中分布的方式。使用一個顏色直方圖,可以利用反向投影在圖像中找到該區域。目標圖像經過直方圖反向投影會得到一幅概率密度圖(即反向投影圖),圖中的每一個像素點的灰度值反映觀測數組在某個分布下的概率[9]。圖2展示了猿葉甲基準圖像對5種害蟲圖像的H/S通道直方圖反向投影圖。其中,圖2(d)具有最大面積的高亮區域,表征較高的匹配度,這與實際情況一致;與此同時,圖2(a)的整體亮度也較高。這種情況下,無法根據單組反向投影結果唯一確定害蟲種類,必須使用待檢的蟲害圖像與全部害蟲基準圖像進行反向投影圖,即交叉匹配進行識別。

圖2 猿葉甲基準圖像對5種蟲害圖像的反向直方圖投影
RGB格式圖像轉換為HSV格式后,再分別計算H和S通道的顏色直方圖[10]。對于一幅M×N分辨率的測試圖像和P×Q的基準圖像,直方圖反向投影的計算流程為:
1)從測試圖像中的像素坐標(0,0)開始,切割一塊(0,0)至(P,Q)的臨時圖像,并生成直方圖;
2)將臨時圖像和基準圖像的直方圖對比,對比結果記為反向投影圖的像素點(0,0)的像素值;
3)從測試圖像中切割區域為(0,1)至(P,Q+1)的臨時圖像,對比直方圖并記錄像素值到反向投影圖的像素坐標(0,1);
4)重復前述步驟直至結束。
設立“匹配指數” Pm衡量兩幅圖像顏色直方圖相似的程度。對反向投影圖中有效匹配點(灰度大于設定的閥值的像素點)的像素值進行加權算術平均處理,并計算其在全部灰度級中出現的概率作為匹配指數,則有

(1)
其中,Pm是匹配指數;C是像素值大于閥值PT的像素點個數;Pi是第i個不為零的像素點的灰度值,是加權系數,一般取Pi=2~3;n是數字圖像的灰度級。
2基于C4.5算法的模式識別
2.1C4.5算法分類器
決策樹是以實例為基礎的歸納算法,適合于從一組無次序、無規則的事例中推理出決策樹表示形式的分類規則。C4.5算法是經典的決策樹算法ID3算法的改進,增加了對連續型屬性、屬性值空缺情況的處理[11-12]。C4.5算法采用基于信息熵的方法遞歸形成決策樹。不確定性的最佳評估方法是平均信息量,即信息熵。信息量計算式為
(2)
其中,pi是任意樣本屬于Ci的概率,用si/S表示;S是數據樣本的集合,假定類別屬性具有m個不同值,定義m個不同類Ci(i=1,…,m)。設Si是類Ci中的樣本數,利用屬性A劃分當前樣本集合所需信息熵E(A,S)計算式為
(3)
設屬性A具有m個不同值{a1,a2,…,am},利用A將S劃分為m個子集{s1,s2,…,sm}。其中,Sj為S中在A上具有值aj的樣本,sij是子集Sj中類Ci的樣本數。
fG(A,S)=I(S1,S2,L,Sm)-E(A,S)
(4)
C4.5算法采用信息增益比來描述屬性對分類的貢獻,用以消除偏向具有大量屬性值屬性的偏差。其中,確定屬性A本身需要的信息熵,即分裂信息公式為

(5)
其中,S1~S2是m個值的屬性A分割S而形成的m個樣本子集。實際上,分裂信息是S關于屬性A的各值的熵。增益比率是衡量屬性分裂數據的廣度和均勻性。信息增益比定義為
(6)
采用此增益比劃分屬性得到決策樹,其每個節點取具有最大信息增益比的屬性。C4.5算法具體的實現步驟如下:
1)訓練數據集的設置和獲取。訓練數據集由一組特征參數和對應的唯一分類標簽組成。每一幅訓練圖像與全部基準圖像進行直方圖反向投影并計算匹配指數,得到一組交叉匹配指數,即為一組特征參數。在本文中,分類標簽為A-E,依次代表菜蝽、菜青蟲、猿葉甲、跳甲、蚜蟲。
2)訓練。每種類別標簽對應著一種屬性,首先計算所有樣本的信息增益比,根據最大的信息增益比確定根屬性,引出一個分支,樣本按此劃分;對引出的每個分枝用此分類法進行分類,再引出分枝直至分類完畢;輸入訓練數據集,算法執行完畢,生成分類規則。
3)分類。計算測試圖像的交叉匹配指數,組成測試向量輸入C4.5分類器,依據分類規則,分類器將測試數據集標注類別標簽,得到分類結果。
2.2程序流程圖
交叉匹配指數的計算是本文算法的關鍵。首先,使用GrabCut算法獲取蟲害圖像中的害蟲本體區域,并計算其最小外接矩形作為訓練圖像。害蟲基準圖像對訓練圖像進行直方圖反向投影得到反向投影圖,該反向投影圖的有效像素點使用式(1)計算匹配指數。一幅訓練圖像對全部基準圖像的匹配指數加上該害蟲對應的分類標簽,組成C4.5算法的訓練數據集,輸入分類器完成訓練,生成分類規則。在模式識別環節,計算待檢圖像與全部基準圖像的交叉匹配指數,輸入C4.5分類器,根據之前訓練得到的分類規則,自動地得到分類結果,即待檢圖像中害蟲的種類。完整算法流程如圖3所示。
3實驗與結果分析
3.1實驗圖像的獲取及預處理
實驗圖像統一為彩色的JPG格式,主要通過油菜大田拍攝、因特網及書籍文獻等途徑獲取。基準圖像是基于顏色特征進行害蟲識別的參考圖像,對識別結果具有關鍵影響。5種害蟲各選取4幅顏色特征最顯著的圖片用于制作基準圖像。為排除圖像背景對診斷產生的干擾,使用GrabCut算法從基準圖像中分割出害蟲本體,再進行后續處理,以提高匹配精度[13]。圖4為使用GrabCut算法從蟲害圖像中提取的害蟲本體圖像,依此為菜蝽、菜青蟲和猿葉甲。

圖3 算法流程圖

圖4 使用GrabCut進行害蟲本體圖像提取
計算害蟲本體圖像的最小外接矩形,并取矩形中心的80像素×80像素矩形區域,作為基準圖像。圖5展示了5種害蟲4組基準圖像中的一組。

Fig.5 A set of the template image
3.2害蟲識別實驗
在H/S通道顏色直方圖計算中,設定30個劃分度,其中H通道取值范圍為[0,180],S通道取值范圍為[0,255]。計算顏色落在每個小區間內的像素數量可以得到顏色直方圖,再計算直方圖反向投影圖和匹配指數。
在C4.5算法分類器的訓練中,5個標簽各設置了4幅共計20幅基準圖像,并對應設置了6幅訓練圖像共計30幅。1幅訓練圖像與全部20幅基準圖像進行H/S通道直方圖反向投影并計算交叉匹配指數,得到1組交叉匹配指數和1個類別標簽一起組成一個21維的訓練向量。30幅訓練圖像得到的訓練向量共同構成了訓練數據集,輸入C4.5分類器進行訓練生成分類規則并保存為TXT格式文檔。
5種害蟲各使用10幅共計50幅測試圖像,用于測試本文算法。測試圖像的交叉匹配指數組成50×20矩陣,作為分類器的測試特征向量輸入,得到分類標簽,即識別結果。表1展示了測試的結果,0~9是測試圖像的序號,標簽A~E依次代表菜蝽、菜青蟲、猿葉甲、跳甲、蚜蟲。其中,編號“A4”等4個樣本識別結果錯誤,總體識別準確率達到92%。

表1 C4.5分類測試結果
由于實驗圖像多樣化的獲取方式,在環境、光照、背景等影響下,油菜害蟲圖像的顏色特征缺乏絕對的一致性,因此測試了基準圖像和訓練圖像數量對診斷結果的影響。圖6左圖為基準圖像數量對診斷結果的影響,診斷準確率隨著圖像數量的增加而提高,大于4之后保持穩定,反而會導致計算時間的增加。圖6右圖為訓練圖像數量與診斷準確率之間的關系。一般而言,訓練樣本數量的增加會導致診斷準確率的提升,訓練樣本數量超過一定數量(大于8)時準確率基本維持不變。

圖6 基準圖像和訓練圖像數量對診斷準確率的影響
4討論與結論
基于顏色特征的蟲害識別對于圖像源的質量要求很高,在圖像分割環節GrabCut圖割方法有效保證了識別準確率。基準圖像和訓練樣本的數量對于C4.5算法產生穩定而精確的決策參數也有很大的影響。總體而言,油菜害蟲識別的結果是令人滿意的。其中,菜青蟲的錯檢率較高,這是由于在圖像分割環節菜青蟲與背景(通常是綠色)分割誤差較大,造成后續的匹配指數計算產生較大誤差。預計通過改進圖像分割算法,可以有效提升檢測精度。此外,在直方圖反向投影環節,H/S通道的分辨率設置過低,會降低識別正確率,設置過高會導致程序執行時間成倍增加,本實驗中分別設置為40和10。根據圖像源質量設置合理的分辨率,有助于提高識別速度和準確率。
本研究表明:依據顏色特征進行油菜害蟲識別方法是準確而高效的。本文僅對害蟲的顏色特征進行了研究,若綜合考慮害蟲的紋理和形狀特征,將進一步提高識別準確率。此外,幼蟲階段的害蟲識別對于大田生產更具實際意義,有待進一步深入研究。
參考文獻:
[1]鄒修國.基于計算機視覺的農作物病蟲害識別研究現狀[J].計算機系統應用,2011, 20(6):238-242.
[2]施文,鄒銳標,王訪,等.基于多重分形的油菜病蟲害葉片圖像分割[J].湖南農業大學學報:自然科學版, 2014,40(5):556-560.
[3]Jie Zhang, R W, Chengjun Xie,et al. Crop Pests Image Recognition Based on Multi-features Fusion[J].Journal of Computational Information Systems,2014, 10(12):5121-5129.
[4]張建華,冀榮華,袁雪,等.基于徑向基支持向量機的棉花蟲害識別[J].農業機械學報, 2011,42(8):178-183.
[5]蔡清,何東健.基于圖像分析的蔬菜食葉害蟲識別技術[J].計算機應用,2010,37(7):1870-1872.
[6]溫芝元, 曹樂平.椪柑果實病蟲害的傅里葉頻譜重分形圖像識別[J].農業工程學報, 2013, 29(23):159-165.
[7]高雄,王海超.甘藍菜青蟲自動識別系統的開發與試驗研究[J].農機化研究, 2015,37(1): 205-208.
[8]Z Zivkovic, B.K.An EM-like algorithm for color-histogram-based object tracking[J]. Computer Vision and Pattern Recognition, 2004(1):798-803.
[9]董傲霜,宋宏亮.基于SIFT 特征和顏色融合的圖像檢索方法[J].吉林大學學報:工學版, 2013,43(S1):440-444.
[10]M J Swain, D H B. Color indexing[J]. International Journal of Computer Vision, 1991, 7(1): 11-32.
[11]Kretschmann, E, W Fleischmann. Automatic rule generation for protein annotation with the C4.5 data mining algorithm applied on SWISS-PROT[J]. Bioinformatics, 2001,17(10): 920-926.
[12]Serpen, G, D Tekkedil,M Orra.A knowledge-based artificial neural network classifier for pulmonary embolism diagnosis[J]. Computers in Biology and Medicine, 2008,38(2):204-220.
[13]Rother, C, V Kolmogorov. "GrabCut" - Interactive foreground extraction using iterated graph cuts[J]. ACM Transactions on Graphics, 2004,23(3):309-314.
Abstract ID:1003-188X(2016)06-0055-EA
Machine Vision Recognition of Rapeseed Pests Based on Color Feature
Zhu Li1, Luo Jing2, Xu Shengyong2, Yang Yong2, Zhao Haitao2, Li Weihao2
(1.Hubei Collaborative Innovation Center for High-efficiency Utillization of Salar Energy, Hubei University of Technology, Wuhan 430068,China;2.College of Engineering, Huazhong Agricultural University, Wuhan 430070, China)
Abstract:The accurate identification of rapeseed pests is the foundation for using the pesticide pertinently. Manual recognition is labour-intensive and strong subjective. The principal part image of the pets was extracted using the GrabCut algorithm and the minimum circumscribed rectangle of the principal part was calculated. Then histogram backprojection in H/S channels was employed between the template images and the rectangle image to obtain the cross matching ratio. The feature vector consist of the ratio and the label of pests was employed to train the C4.5 classifier. With the cross matching ratio of the checking image, the C4.5 classifier may identify the species of the pets. The experiment showed that the proposed method may identify five kinds of rapeseed accurately such as erythema, cabbage caterpillar, colaphellus bowringii baly, flea beetle and aphid with the recognition rate of 92%.
Key words:rapeseed pests; computer vision; color histogram; C4.5 Algorithm
文章編號:1003-188X(2016)06-0055-04
中圖分類號:S431.192;TP391.41
文獻標識碼:A
作者簡介:朱莉(1982-),女,武漢人,講師,博士,(E-mail) julianabiding@126.com。通訊作者:徐勝勇(1980-),男,湖北蘄春人,講師,博士,(E-mail)xsy@mail.hzau.edu.cn。
基金項目:湖北省自然科學基金面上項目(2014CFB589);中央高校基本科研業務費專項(2014QC004);太陽能高效利用湖北省協同創新中心開放基金項目 (HBSKFMS2014032)
收稿日期:2015-05-05