陳 榮, 李 旺, 周文玉
(1.銅仁學院 大數據學院, 貴州 銅仁 554300; 2.銅仁市為拓網絡技術有限公司, 貴州 銅仁 554300)
【研究意義】中國是茶葉大國,2019年中國茶產業的總產量、總產值、內銷量、內銷額、出口量和出口額等多項指標均創歷史新高,茶產業助力精準扶貧的主力軍作用進一步凸顯[1]。隨著社會經濟的快速發展,消費者的生活水平不斷提高,其對茶葉的質量要求越來越高。同時,茶產業的轉型升級也需要進一步提高茶葉質量,促進茶葉品牌和產品市場競爭力的提升。病害是影響茶葉質量的主要因素之一,茶農對茶葉病害的鑒別仍主要依靠自身經驗[2],受限于其主觀性、局限性及模糊性,無法有效識別茶葉病害,影響茶葉病害防治效果。因此,探索快速準確識別茶葉病害的技術手段,為及時開展科學防治提供支撐,有利于保障茶葉質量,進而促進茶產業的可持續發展。【前人研究進展】近年來,隨著機器學習技術的發展,已有應用機器學習技術識別茶葉病害的研究。王佳平[3]以茶葉病害中較為常見的茶白星病、茶褐色葉斑病和茶云紋葉枯病為研究對象,運用BP神經網絡和支持向量機(Support Vector Machine,SVM)原理提出了基于圖像特征的茶葉病害分類識別方法。張帥堂[4]利用茶葉病害的高光譜數據,分別構建了識別茶炭疽病、茶赤葉斑病、茶白星病的支持向量機、隨機森林和BP神經網絡模型。黃太遠等[5]以茶炭疽病、茶餅病、茶白星病作為研究對象,對茶葉病害圖像進行處理和特征提取,運用支持向量機方法進行分類識別。孟樹林[6]利用茶赤葉斑病、茶圓赤星病、茶黑煤病、茶炭疽病的圖像數據集,提出了基于多特征優化和改進關系網絡的2種茶葉病害識別算法。吳昊昱[7]提出了一種基于支持向量機和深度網絡的小樣本下自然場景圖像中茶葉病害識別方法。【研究切入點】貴州是我國主要的茶葉產區之一,茶產業是貴州重點發展的十二大產業之一,近年來規模化和標準化發展迅速,但鮮見以貴州茶區為研究區,探索當地茶葉病害智能識別方法的報道。【擬解決的關鍵問題】針對貴州茶區茶葉常見病害,采用圖像處理技術提取不同茶葉病害病斑的形狀特征,運用支持向量機原理對茶葉病害進行分類識別,探索茶葉病害正確識別率較高的機器學習方法,為提高茶葉病害識別的準確性,推動茶葉病害診斷的數字化發展提供參考。
根據專家建議,卯時茶葉生長旺盛、易于發現病癥,是采集茶葉病害圖像的最佳時期,因而于早晨7:00左右、自然光照條件下斜對茶葉50°視角,在貴州省梵凈山區紫薇茶場,采用Canon G35X110Z數碼相機采集茶炭疽病、茶餅病和茶白星病3種較為常見的茶葉病害圖像,每種病害60幅,共180幅。每幅圖像分辨率為2 200×1 836像素,存儲格式為JPG。
為得到清晰的病害特征,以提高后續分類識別的準確率,從每種病害圖像中分別選取包含病斑的子圖像80幅(90×90 dpi),采用MATLAB 8.0的圖像處理工具箱對每幅子圖像進行處理:1) 將彩色圖像灰度化;2) 中值濾波去除圖像噪聲,閾值分割病斑;3)對分割處理后可能存在的孔洞進行填充;4)對分割處理后存在的無關小對象進行去除;5)對病斑輪廓存在的毛刺進行數學形態學處理,優化分割區域使其變得光滑(圖1)。

圖1 茶葉病害子圖像的不同處理結果
根據不同茶葉病害因其致病機理不同而具有的不同形狀特征進行識別。采用MATLAB 8.0計算處理后每種茶葉病害圖像的以下8個形狀特征參數值,并進行歸一化,以減少不同形狀特征參數因取值范圍不一影響后續對茶葉病害的識別。結果如表1所示。

表1 歸一化處理后的茶葉病害特征值
1) 病斑面積(S)。即病斑區域的像素個數總和。
2) 周長(L)。病斑區域的外邊界所有像素的中心距離之和。
3) 外接矩形和外接橢圓面積(Sc)。外接矩形是包含病斑的最小面積矩形;外接橢圓是包含病斑的最小面積橢圓。
4) 復雜性(f1)。其是單位面積的周長大小,描述了病斑的復雜程度,值越大,表明病斑越復雜。計算公式
(1)
5) 伸長度(f2)。其是外界矩形的寬與長的比值,值越小,表明病斑越細長。計算公式:
(2)
式中,a和b分別表示病斑外接矩形的寬和長。
6) 矩形度(f3)。面積與外接矩形面積的比值,值越接近1,表明病斑越接近于矩形。計算公式:
(3)
7) 圓度(f4)。單位面積周長的大小;值越大,表明病斑越接近于圓形。計算公式:
(4)
8) 面積凹凸比(f5)。病斑面積與最小外接凸多邊形面積的比值,描述病斑的凹凸性。計算公式:
(5)
1.3.1 SVM算法模型 支持向量機(SVM)是VAPNIK提出的一種分類性能好的模式識別技術,能夠有效解決小樣本、高維、非線性等方面的識別問題[8-13]。設線性可分的樣本集{(xi,yi),i=1, 2, …,N;j=1, 2}可被1個分類線(二維空間)或分類面(多維空間)分開,則稱為線性可分,且可用線性函數分開。如圖2所示,方形和圓形分別代表兩類不同樣本,H為分類線,H1和H2分別為平行于H且距離樣本最近的分類線,H1和H2的垂直距離為分類間隔。若分類間隔越大,則推廣能力越好,使分類間隔最大的分類線(面)為最優分類線(面)。

圖2 不同情況下的SVM分類識別模型
對于線性不可分的情況,為近似實現可分,允許個別樣本分類錯誤,權衡考慮最大分類間隔和最小錯分樣本數,引入松弛變量ξi和懲罰因子C 2個參數,最終求出分類判決函數。對于非線性可分的情況,通過不同的內積核函數將低維空間中的線性不可分問題轉換為高維空間中的線性可分問題,在高維中間中求最優分類面(圖2)。最終的分類判決函數[14-18]:
式中,a*為支持向量對應的拉格朗日乘數,b*為分類閾值,x為待分類的測試樣本,xi(i=1,2,…,N)為N個訓練樣本,SV為支持向量的集合。K(xi,y)為核函數,其主要有以下類型[19-22]:
線性核函數(Linear):
K(x,y)=x·y
多項式核函數(Polynomial):
K(x,y)=[γ(x·y)+c]d
式中,d為確定映射空間的維度,c為常量。
徑向基核函數(RBF):
K(x,y)=exp(-γ‖x-y‖2)
Sigmoid核函數:
K(x,y)=tanh[γ(x·y)+c]
式中,c為常量。
依次以上述8個單一形狀特征作為特征參數,每種病害的形狀特征歸一化數據隨機選取70%的記錄作為訓練樣本、30%的記錄作為測試樣本,采用線性核函數,設松弛變量ξi=0.1、懲罰因子C=10,建立SVM進行基于單一形狀特征的茶葉病害分類識別。另外,由于不同的內積核函數代表不同的SVM性能,影響其對茶葉病害的正確識別率,為篩選正確識別率較高的SVM,同樣從每種病害的形狀特征數據中隨機選取70%的記錄作為訓練樣本、30%的記錄作為測試樣本,組合復雜性、伸長度、矩形度、圓度、面積凹凸比5個形狀特征參數,分別采用Linear核函數、Polynomial核函數、RBF核函數、Sigmoid核函數建立SVM進行基于組合形狀特征的茶葉病害分類識別。其中:設松弛變量ξi=0.2、懲罰因子C=12;Polynomial核函數中d=3,γ=1,c=1;RBF核函數中γ=3;Sigmoid核函數中γ=0.3,c=1。
1.3.2 SVM多分類識別器的建立 SVM為二分器,只能用于兩類樣本的識別,為解決多類樣本的識別問題,采用投票最大策略建立SVM多分類識別器。
將茶炭疽病、茶餅病和茶白星病3類樣本兩兩組成訓練集,得到3個SVM二分類器:(茶炭疽病,茶餅病)、(茶炭疽病,茶白星病)、(茶餅病,茶白星病)。
將茶炭疽病、茶餅病和茶白星病3類樣本的票數初始化為0。
將測試樣本x使用(茶炭疽病,茶餅病)分類,若分類器將x判定為茶炭疽病,則茶炭疽病的票數增1,否則茶餅病的票數增1;將測試樣本x使用(茶炭疽病,茶白星病)分類,若分類器將x判定為茶炭疽病,則茶炭疽病的票數增1,否則茶白星病的票數增1;將測試樣本x使用(茶餅病,茶白星病)分類,若分類器將x判定為茶餅病,則茶餅病的票數增1,否則茶白星病的票數增1。
計算將測試樣本x分別判定為茶炭疽病、茶餅病和茶白星病的票數,根據票數最大的分類結果,最終判定測試樣本x的病害類型。
從表2看出,面積、周長、外接矩形和外接橢圓面積作為特征參數時,基于單一形狀特征的SVM對3種茶葉病害的正確識別率較低,均在65%以下;復雜性、伸長度、矩形度、圓度、面積凹凸比作為特征參數時,相應SVM對3種茶葉病害的正確識別率均在63.33%以上,且均高于面積、周長、外接矩形和外接橢圓面積作為特征參數時對同一病害的正確識別率。原因是不同病害的面積、周長、外接圖形面積可能相同。因此,選取形狀特征時應考慮該形狀特征是否具有平移、旋轉、縮放等不變的性質。面積、周長、外接圖形面積并不具備上述特性,因而不適合作為進行茶葉病害分類識別的單一形狀特征參數。對于采用單一形狀特征參數的SVM,可選取復雜性、伸長度、矩形度、圓度、面積凹凸比作為特征參數,但綜合看,此類SVM對3種茶葉病害的正確識別率仍然不高,均在82%以下。

表2 基于單一形狀特征的SVM對3種茶葉病害的正確識別率
從表3看出,與基于單一形狀特征的SVM相比,組合復雜性、伸長度、矩形度、圓度、面積凹凸比5個形狀特征參數的SVM對3種茶葉病害的正確識別率明顯提高,對單一病害的正確識別率均在80%以上,總識別率在83%以上。表明,對于茶炭疽病、茶餅病和茶白星病的分類識別,應選擇組合形狀特征的SVM。

表3 基于組合形狀特征的不同核函數類型SVM對3種茶葉病害的識別率
比較不同核函數SVM對3種茶葉病害的識別率,采用Linear核函數的SVM對3種茶葉病害的總識別率最高,為90%;采用Polynomial核函數和Sigmoid核函數的次之,分別為88.00%和86.05%;采用RBF核函數的最低,為83.33%。表明,采用Linear核函數的SVM對3種茶葉病害的分類識別性能較好,比較適于茶炭疽病、茶餅病和茶白星病的分類識別。
茶葉病害智能識別的基本原理是從病害圖像中提取病害特征參數建立數據集,在特定算法下對數據集進行機器學習訓練,進而對具有不同特征的病害實現識別。在識別對象上,以茶炭疽病、茶餅病和茶白星病為主[3-6],識別方法主要基于支持向量機[5-7]和BP神經網絡算法[4]。本研究采用不同核函數的支持向量機作為分類器識別茶炭疽病、茶餅病和茶白星病,總識別率達90%,與黃太遠等[5]運用支持向量機對相同病害的識別率相近。對于特定病害的識別,研究得出,基于Linear核函數的支持向量機對茶白星病的正確識別率較高,達93%,與王佳平等[3-4]的研究結論一致。除茶白星病外,王佳平[3]研究表明,支持向量機對茶褐色葉斑病和茶云紋葉枯病的識別率低于BP神經網絡算法。張帥堂[4]研究發現,通過特征組合和特征降維,可提高支持向量機對茶葉斑病、茶炭疽病和茶白星病的識別率。孟樹林[6]也指出,采用多特征優化算法對茶葉病害圖像特征進行處理,可提高梯度提升樹算法對茶赤葉斑病和茶圓赤星病的識別率。可見,對不同茶葉病害的識別,包括支持向量機在內的各種算法有其一定的適用對象,但對茶葉病害特征的選擇、圖像提取和數據處理,是提高各種算法識別率的關鍵。
本研究僅針對茶炭疽病、茶餅病和茶白星病3種葉部病害,以葉部病害形狀特征對其進行識別,也未考慮病害的顏色、紋理等特征。由于茶葉病害種類多、癥狀復雜,今后應進一步針對更多茶葉病害種類,如根、莖病害,融合更多病害特征進行研究,以擴展識別方法的適用性,同時進一步提高識別準確率。
應用圖像處理技術和SVM對銅仁茶區常見的茶炭疽病、茶餅病和茶白星病進行識別,以復雜性、伸長度、矩形度、圓度、面積凹凸比作為單一特征時的正確識別率明顯高于面積、周長、外接矩形和外接橢圓面積;以復雜性、伸長度、矩形度、圓度、面積凹凸比作為組合特征時的正確識別率明顯高于單一特征下的正確識別率,采用Linear核函數的SVM總識別率最高,分類性能優。