夏永泉,王 兵,支 俊,黃海鵬,孫靜茹
(鄭州輕工業學院 計算機與通信工程學院,河南 鄭州 450001)
基于EM和K-means混合聚類方法的植物葉片病害區域自動提取
夏永泉,王 兵*,支 俊,黃海鵬,孫靜茹
(鄭州輕工業學院 計算機與通信工程學院,河南 鄭州 450001)
針對植物病害區域如何準確提取的問題,文中提出了一種基于EM和K-means混合聚類的方法。該方法在目標與背景具有較明顯差異的情況下,可以有效地將葉片目標提取出來,并對較復雜背景也具有一定的甄別效果,優于其他經典方法。利用植物病害區域的褪綠特點,用K-means方法結合Lab顏色空間,利用Lab顏色空間顏色分布的均勻性,提取A分量作為參考分量,將病害區域從葉片目標中提取出來。通過Matlab仿真實驗,結果表明,基于EM和K-means混合聚類方法的植物病害區域提取是可行的。
植物病害區域;EM算法;Lab顏色空間;K-means算法;混合聚類
中國作為農業大國,其植物病害的暴發,可以直接造成經濟損失甚至導致人類饑荒,所以對這方面應充分給予重視。隨著計算機技術的發展,將數字圖像處理和圖像分析技術應用到植物病害檢測識別已成為主流,既可以節省人工成本也可以提高識別的準確度。圖像分割是視覺識別的前提和關鍵,分割結果的優劣直接影響著后續處理過程。對于植物病害區域的分離,胡維煒等[1]通過HSV、Lab特征空間聚類算法逐步分離目標葉片和病斑區域,并采用區域填充法減少葉面水珠,可以準確定量化評估大豆作物的病害程度。李冠林等[2]利用Lab顏色模式下ab二維數據空間的顏色差異,以平方歐式距離作為像素間的像素距離和均方差作為聚類準則函數對顏色進行二分類聚類,實現了葡萄病害彩色圖像的分割處理。張武等[3]將K-means聚類、otsu閾值法等多種方法結合,多次進行分割,最終分割出帶有病斑的小麥病斑圖像。圍繞目標的提取問題,鄒秋霞等[4]在Lab顏色空間對a分量進行閾值分割,并對比了ab分量 的K-means聚類算法的分割效果,去除了葉片的陰影部分,方便了葉片的精準提取。謝從華等[5]提出了一種新的基于高斯混合模型特征函數的圖像特征序列描述方法,用自適應的方法解決了葉片圖像的植物數據庫的歸類問題。郭晶晶等[6]針對傳統高斯混合模型分割算法在分割上存在的不足,結合Lab色彩模型的顏色和空間的相關性,對于果樹區域分割的準確性有了很大的提升。
傳統高斯混合模型在RGB圖像基礎上,對植物病害區域直接聚類分割效果并不理想。上述這些病害區域分割和葉片提取多利用了LAB顏色空間顏色均勻的特點,聚類效果理想,但背景對于目標區域的影響又會降低目標提取的準確性。將二者進行結合,可以有效地克服這個缺點。大多數的算法是對剪裁后的圖像進行目標提取和后續處理,需要進行人工干預來獲得較好的子圖像,本文在對目標葉片進行自動提取的基礎上,提出了一種植物病害區域分割的方法,可以有效地將植物病害區域提取出來,降低背景對于目標區域的影響,使得植物病害區域的分割更加準確。
對于植物葉片目標的提取目前沒有很好的通用算法,在無監督的情況下,圖像分割大致分為了兩類:基于邊緣檢測和像素篩選。對于邊緣檢測,一些未閉合的非聯通區域可能會出現在分割圖像中,而像素篩選可能會產生多余的分類。獨立的像素可以通過一些濾波器輕易濾除,而未封閉的區域通常給物體檢測帶來很大的負面影響。此外,對于復雜背景而言,可能會分割出來一些不想要的目標。本文的像素篩選是像素的無監督聚類,采用了基于高斯混合模型和EM算法結合對植物葉片進行了提取。此方法的目的是對植物葉片進行提取,而不是對葉片病害區域進行分割。雖然K-means效果不錯,但由于K的初始值的確定具有隨機性,在對大圖像進行目標提取時,每次的結果可能會出現細微的偏差。
在植物葉片目標提取的基礎上,將顏色空間從RGB轉換為Lab顏色空間,提取A分量作為參考分量,這時已經去除了背景對于葉片目標和病害區域的影響,結合K-means算法對葉片和病害區域進行聚類,便可以實現對病害區域較為準確的提取。
算法優勢是針對戶外目標或者簡單背景下的植物病害葉片目標,可以進行連續有效的分割,不需要人工干預或者圖像裁剪來獲得較優的子圖像,方便分割處理,為之后的研究工作奠定基礎。
2.1 算法像素篩選提取葉片目標
本文采用無監督像素聚類,對植物葉片目標提取,即利用有限混合模型進行聚類[7],而不完全數據的樣本,其參數的似然函數優化困難,故采用EM(expectation maximization)算法來求解最大似然值。這部分聚類的作用是去除圖像中無用的目標,為下一步植物病害區域的提取做準備。這樣提取的目標葉片圖像沒有了背景成分的干擾,在做植物病害區域提取時,分割效果會有顯著的提升。
2.1.1 高斯混合模型的基本形式

(1)

(2)
其中μ1……μc和∑1……∑c分別表示各成分的均值和協方差。
設Z1,Z2,……,Zn分別為樣本x1,x2,……,xn所屬成分的概率向量,zij=Zj(i)的取值為0或1。取0時表示樣本xj不屬于樣本第i個成分,取1時代表屬于。則最大似然法求解參數的log似然函數如公式(3)所示:
L(ω,μ,∑;x1,x2,……,xn)
(3)
原始RGB圖像高斯混合模型輸出如圖1所示。
2.1.2EM算法估計未知參數
由于對數內求和部分計算十分復雜,這使得方程整體求解變的十分困難。這時就需要引入潛變量[8]W來對點進行標記,而不是對方程直接求解。通過潛變量W=zki對像素點來進行標記,這樣就可以通過概率分布來確定像素點的歸類。而潛變量W是未知的,需要EM算法[1]來進行迭代求解。EM算法主要分為2步:

M-Step:對公式(3)中的μk、 ∑k和ωk求最大值,可得:


圖1 RGB圖像三類像素高斯混合模型Fig.1 Three-pixel Gaussian mixture model of RGB image


(4)
基于用于像素聚類的最大似然估計(ML)的顏色分割方法來對植物葉片進行提取。根據EM算法原理,使用這種算法來估計給定的一組像素數據的高斯混合模型的先驗概率,然后通過概率比較來將每個像素進行分類,最終實現像素的篩選,達到將目標葉片提取出來的目的。隨著EM迭代次數的增加,分類結果越來準確。但為了節省分割時間,如果誤差率小于0.1,停止迭代。較為簡單背景下植物葉片提取結果如圖2所示。
在較為復雜的背景下,EM算法結合高斯混合模型也有一定的甄別作用。由于復雜背景下,目標和背景的相似性很強,很難將目標從背景下精確地提取出來,提取的葉片目標并不準確。在像素篩選的過程中,雖然已經采用了顏色閾值的方法來進行了一定程度上的彌補,但是復雜背景下的葉片目標提取結果并不盡如人意。對于陰影區域和邊緣區域的判斷不準確,使得像素篩選的精度不足,總會出現錯誤分割,從而不能將目標和背景較為準確地分割出來。這將會在進一步的研究中繼續改進。復雜背景下葉片目標的提取結果與otsu分割方法對比如圖3所示。
2.2K-means病害區域提取
這部分聚類的作用是利用Lab顏色空間下顏色分布的均勻性,針對植物褪綠的顏色特點,將植物葉片病害區域提取出來,對比RGB圖像下的聚類更加準確。

圖2 較為簡單背景下植物葉片提取結果Fig.2 The results of plant leaf extraction in the simple context

圖3 復雜背景下植物葉片目標的提取結果與otsu方法提取結果對比Fig.3 Comparison of extraction results of plant leaf target in complex background and otsu method
2.2.1Lab顏色空間轉換
絕大部分的彩色圖像是基于RGB顏色三基色模型,但RGB空間中三個分量之間存在很強的相關性[9],因此不適于直接用于基于三個分量獨立運算的圖像分割。但利用各種變換,可以由RGB空間推廣到其他顏色空間[10],其中HSI[11]空間是從色調、亮度和飽和度三方面描述圖像,比較直觀且符合人的視覺特性。但Lab色彩空間是目前最均勻的顏色空間,它與設備無關,適用于接近自然光照的場合。
Lab中L表示明度,a、b均表示顏色,這就表明在Lab中明度和顏色是分開的,L通道沒有顏色,a和b通道只有顏色。L、a、b分別取值為0-100(純黑-純白)、-127-128(洋紅-綠)、-127-128(黃-藍)。正、負分別為暖色、冷色。紅綠分量a可以作為評價顏色最重要的指標之一[12],它能很好地反映植物病害葉片褪綠的顏色狀態。
2.2.2K-means算法提取植物病斑區域
經過上一步對植物葉片目標提取獲得原始圖像。將提取出來的葉片目標圖像從RGB空間轉換到Lab空間,之后運用5·5的矩陣窗口對目標進行中值濾波去噪,消除噪聲或減弱對葉片病斑提取的影響。然后運用K均值算法對圖像進行分割,僅僅根據圖像的顏色信息,將顏色相近的像素點劃分到同一簇去,就可以有比較好的分割效果。
K均值(K-means)聚類算法[13-14]是目前應用較為廣泛的聚類分析方法之一。該算法具有快速、直觀、易于實現的優點。K均值(K-means)聚類算法的具體步驟如下:
(1)將數據劃分為預先設定好的K個簇,為每個簇定義一個質心;
(2)將數據中的每個點與距它最近的質心聯系起來直至再無數據點與相關質心相連,這標志早期聚合已完成;
(3)根據結果重新計算K個質心作為每個簇的質心;
(4)當獲得K個新的質心時,需要重新將數據集中的點與距它最近的新質心相綁定并進行循環迭代,直至準則函數收斂使平方誤差函數值最小如式(5)。
(5)

這部分聚類的基本思路是從m×n像素大小的圖像數據對象選擇2個對象作為代表病斑區域和正常區域的初始聚類中心,對于剩下的其他對象,則根據他們與聚類中心的相速度將其分配給與其最為相似的聚類并進行標記,從而產生兩種新聚類標記區域;然后再計算兩個新聚類的聚類中心,繼續進行聚類;不斷重復這個過程直到聚類準則函數收斂為止,最終產生的兩種不變的聚類標記區域即為分割結果。
在Lab顏色空間中,所有顏色信息都包含在ab二維空間中,圖像分割可以根據不同顏色塊差異進行聚類[15]。圖4為小麥白粉病圖像a和b分量以及對應的直方圖,可以看出病害圖像a和b分量顏色存在明顯差異,直方圖呈現互補的趨勢,表明可以利用a和b分量對顏色進行分類。
在Matlab2016仿真軟件下,分別用基于HSI顏色空間最優閾值算法[16]、直接進行K-means聚類和本研究算法對植物葉片病害區域進行分割,分割結果如圖5所示:其中A、B、C、D依次為原始圖像、HSI最優閾值算法、K-means直接聚類和本文研究算法,前兩幅圖片為簡單背景下植物病斑分割結果,后兩幅圖片為較復雜背景下植物病斑分割結果。

圖4 小麥白粉病a、b分量圖像及直方圖Fig.4 Wheat powdery mildew a, b component image and corresponding histogram

圖5 植物葉片病斑分割結果Fig.5 Plant leaf sport division results
對于簡單背景下的植物病斑分割,由于病斑區域紋理復雜、顏色多樣,在采用基于HSI顏色空間的最優閾值圖像分割算法不能有效地將病害區域提取出來,在光照不均勻情況下,陰影部分和光線較暗部分錯分為病害區域,如圖5-a所示。K-means算法結合Lab顏色空間下的聚類算法,雖然對于復雜紋理不敏感,但對于光照不均勻的植物葉片,會將葉片陰暗區域誤分割為病斑區域,對分割結果的正確性產生嚴重影響,如圖5-b所示。在圖像像素數目比較大的情況下,K初始值的確定具有隨機性,從而每次的聚類結果會產生些許的差距,也會影響分割結果的準確性。本研究算法首先對像素進行篩選,較為準確地提取出植物葉片,盡量避免了背景對葉片分割的影響,對于光照不均勻的植物葉片圖像,在進行像素篩選時可以將陰影區域劃分為背景部分,也減少了因為光照而發生顏色改變對葉片分割的影響。再針對葉片和病害區域顏色塊進行聚類,對復雜紋理等不利影響不敏感,可以得到較好的分割效果,如圖5-a、b所示。
對于復雜背景下的植物病斑分割,由于背景和目標的相似性,導致EM算法結合高斯混合模型提取的植物葉片目標并不準確,這樣后續的植物病斑區域分割結果并不理想,所以本研究算法針對復雜背景并不完善,尤其是植物葉片和背景的交界區域,以及陰影區域。這樣在后續的植物病斑分割過程中,產生的結果不準確,如將背景區域誤分割為病斑區域。而對比HSI顏色空間下的最優閾值法和直接在Lab顏色空間下采用A分量進行K-means算法直接聚類的結果發現,本研究算法盡管存在了不足,但對比這些算法仍然在一定程度上減少了復雜背景對于植物病斑區域的影響,使得準確性對比前兩者有了較大的提升,如圖5-c、d。所以本研究算法對于復雜背景下植物葉片病害區域的提取具有一定的參考價值。如何在復雜背景下準確地提取植物葉片目標,保證后續植物葉片病斑區域分割的準確度,將在進一步的研究中加以改進。
為了驗證算法的魯棒性和有效性,特地選取具有復雜紋理、光照不均勻、病害區域不連續等特點,背景較為簡單的病害葉片10幅。由于病害區域較小,很難特別準確地確定原圖像的像素數目,因此采用主觀判定的方法來確定分割的病變區域數目,來比較分割病害區域的準確率。由于分割病害區域不能保證百分百正確,分割出像素過小的區域也不計入統計范圍,所以先統計分割出的區域數目,然后再統計分割正確的區域數目(以括號內數目進行表示),結果如表1所示。
由于HSI最優閾值法在圖片分割中存在較嚴重的誤分割問題,故不計其分割準確率。通過實驗驗證可以發現,在具有復雜紋理、光照不均情況下,HSI顏色空間下的最優閾值算法總是會出現過分割現象,將紋理和葉片陰暗部分誤分割為病害區域,這樣的情況下,主觀判斷分割結果的參考性大大降低,從而影響分割的準確度。直接進行Lab顏色空間下的K-means聚類分割結果雖然也比較不錯,但是在光照不均等情況下,會對病害區域分割產生誤差,錯將陰影部分分割為病害區域,從而再主觀對分割結果進行判斷時,會錯誤識別分割區域。圖片1、2、3光照并不均勻,存在陰影部分,在只計算正確分割區域的情況下,由于背景較為簡單,病害區域明顯且數目較少,故分割準確率能夠達到100%,但最優閾值法和K-means在Lab顏色空間下的直接聚類會將光照不均勻的陰影區域分割出來。圖片5、6、7光照均勻,背景簡單,紋理復雜,所以改進算法和K-means算法的比較效果并不明顯,分割效果十分接近,在只計算正確分割區域的情況下,準確率也能達到100%,但HSI最優閾值法很難把復雜紋理和病害區域分割出來。其他圖片有些背景會對分割結果產生影響,導致分割出來的區域比病害區域多,這也使得分割結果并不如改進算法。綜合比較來看,采用混合聚類的改進算法對比K-means算法在Lab顏色空間下的直接聚類和HSI最優閾值法,具有對光照和復雜紋理不敏感的優勢,能夠較為正確地將植物葉片病害區域提取出來,具有更加準確地分割區域特性,但混合聚類喪失了時間和計算簡單的優勢。在植物葉片自動提取的前提下,減少背景對病害區域分割的影響,并最終結合Lab顏色空間中的a分量,運用K-means聚類算法進行病害區域提取的方法切實可行并具有較高的魯棒性和有效性。根據主觀觀測的判斷條件下其分割結果準確率達到94.70%。
表1 分割實驗結果
Table 1 Segmentation experiment results

圖片序號SerialNo.原始圖像病變區域個數Numberoforiginalimagelesions改進算法Improvealgorithm最優閾值算法OptimalthresholdalgorithmK均值直接聚類K-meansdirectclustering改進算法準確率Improvealgorithmaccuracy/%K均值直接聚類準確率K-meansdirectclusteringaccuracy/%11313(13)22(11)17(12)100.0092.312721(7)4(1)12(6)100.0085.71355(5)8(5)7(5)100.00100.0042422(19)33(22)26(17)79.1779.17578(7)11(7)8(7)100.00100.0061011(10)3(0)12(10)100.00100.0072130(21)20(1)30(21)100.00100.008912(8)14(7)12(8)88.8988.899812(7)22(5)24(7)87.5087.50103636(29)33(18)40(28)80.5677.78平均值13.317(12.6)17(7.7)18.8(12.1))94.7090.97
本研究提出了一種自動葉片目標提取方法,將葉片從背景中提取出來,減少背景對葉片最終病害區域的分割結果的影響。并在此基礎上,將提取的葉片轉換到Lab顏色空間中,利用了ab分量包含全部顏色信息,并主要用a分量(即病變區域褪綠現象),再結合K-means聚類方法,將健康區域和病害區域聚類為2類,實現了較為精準的圖像分割。在與其他經典的分割算法來進行比較,發現研究算法不僅精度較高,對復雜紋理、光照不均、顏色信息復雜等特征的病斑圖像也能提供較好的分割結果。在復雜背景下,也具有一定的葉片目標提取能力,降低了復雜背景對植物葉片病害區域的影響。為實現植物病害區域自動分割提供了一種有效途徑,具有較高的現實意義。
[1] 胡維煒,張武,劉連忠,等. 利用圖像處理技術計算大豆葉片相對病斑面積[J]. 江蘇農業學報,2016,32(4):774-779. HU W W,ZHANG W,LIU L Z,et al. Measurement of relative lesion area on soybean leaf using image processing technology [J].JiangsuJournalofAgriculturalSciences, 2016, 32(4):774-779. (in Chinese with English abstract)
[2] 李冠林,馬占鴻,黃沖,等. 基于K-means硬聚類算法的葡萄病害彩色圖像分割方法[J]. 農業工程學報, 2010, 26(增刊2):32-37. LI G L, MA Z H, HUANG C, et al. Segmentation of color images of grape diseases using K-means clustering algorithm[J].TransactionsoftheCSAE, 2010, 26(S2): 32-37. (in Chinese with English abstract)
[3] 張武,黃帥,汪京京,等. 復雜背景下小麥葉部病害圖像分割方法研究[J]. 計算機工程與科學,2015,37(7) : 1349-1354. ZHANG W, HUANG S, WANG J J, et al. A segmentation method for wheat leaf images with disease in complex background[J].ComputerEngineering&Science, 2015,37(7): 1349-1354. (in Chinese with English abstract)
[4] 鄒秋霞,楊林楠,彭琳,等. 基于Lab空間和K-means聚類的葉片分割算法研究[J]. 農機化研究,2015(9):222-226. ZOU Q X, YANG L N, PENG L, et al. Research on blade segmentation algorithm based on Lad space and K-means clustering[J].JournalofAgriculturalMechanizationResearch, 2015(9): 222-226. (in Chinese)
[5] 謝從華, 王立軍,常晉義. 面向葉子圖像的植物歸類的特征序列描述方法[J]. 計算機應用研究,2012,29(12): 4740-4746. XIE C H, WANG L J, CHANG J Y. Method of signatures description of leaves images for plant categorization[J].ApplicationResearchofComputers, 2012, 29(12): 4740-4746. (in Chinese with English abstract)
[6] 郭晶晶,李慶武,程海粟,等. 基于Lab顏色距離和GMM的樹木圖像分割算法[J]. 信息技術, 2016(2): 1-9. GUO J J, LI Q W, CHENG H L, et al. Segmentation algorithm of tree image based on lab color-distance and GMM[J].InformationTechnology, 2016(2): 1-9. (in Chinese with English abstract)
[7] 胡慶輝,丁立新,陸玉靖,等. 一種快速、魯棒的有限高斯混合模型聚類算法[J]. 計算機科學,2013,40(8):191-195. HU Q X, DING L X, LU Y J, et al. Rapid robust clustering algorithm for Gaussian finite mixture model[J].ComputerScience, 2013, 40(8): 191-195. (in Chinese with English abstract)
[8] BILIMES J A. A gentle tutorial of the EM algorithm and its application to parameter cstimation for Gaussian mixture and hidden Markov models[EB/OL]. (1998-03-25). http://ssli.cc.washington.edu/ people/bilmes/mypapers/cm.ps.gz.
[9] 龐曉敏,閔子建,闞江明. 基于HSI和LAB顏色空間的彩色圖像分割[J]. 廣西大學學報(自然科學版),2011, 36(6): 976-980. PANG X M, MIN Z J, KAN J M. Color image segmentation based on HSI and LAB color space[J].JournalofGuangxiUniversity(NaturalScienceEdition), 2011, 36(6): 976-980. (in Chinese with English abstract)
[10] 李麗君. 結合空間信息的模糊C均值聚類的圖像分割算法[J]. 遼寧石油化工大學學報,2010,30(4): 51-53. LI L J. Fuzzy C-Means clustering algorithm with spatial information for image segmentation[J].JournalofLiaoningShihuaUniversity, 2010, 30(4): 51-53. (in Chinese with English abstract)
[11] 閆春來. 彩色圖像分割算法的研究[D]. 成都:電子科技大學,2008: 10-11.
YAN C L. Research on color image segmentation algorithm[D]. Chengdu: University of Electronic Science and Technology, 2008: 10-11. (in Chinese with English abstract)
[12] 楊新. 圖像偏微分方程的原理與應用[M]. 上海:上海交通大學出版社,2003.
[13] 劉晉浩,朱於軍,闞江明. 圖像分割在廢棄木質材料連接件檢測中的應用[J]. 廣西大學學報(自然科學版), 2010, 35(6): 962-966. LIU J H, ZHU Y J, KAN J M. The application of image processing for the segmentation of measured image of waste wood-based materials connector[J].JournalofGuangxiUniversity(NaturalScienceEdition), 2010, 35(6): 962-966. (in Chinese with English abstract)
[14] CHEN T W, CHEN Y L, CHEN S Y. Fast image segmentation based on K-means clustering with histograms in HSI color space[C] // IEEE 10th Workshop on Mutimedia Signal Processing(MMSP08). Queensland, Australia: Carins, 2008: 322-325.
[15] 張強,王正林. 精通MATLAB圖像處理[M]. 北京:電子工業出版社, 2008: 272-279.
[16] 李中健,杜娟,郭璐. 將Otsu用于多閾值彩色圖像分割的方法及優化[J]. 計算機工程與應用,2010, 46(11): 176-178. LI Z J, DU J, GUO L. Multi-threshold segmentation and optimization based on Otsu in color image[J].ComputerEngineeringandApplication, 2010, 46(11): 172-178. (in Chinese with English abstract)
(責任編輯 張 韻)
Automatic extraction of plant diseases based on EM and K-means hybrid clustering
XIA Yongquan, WANG Bing*, ZHI Jun, HUANG Haipeng, SUN Jingru
(CollegeofComputerandCommunicationEngineering,ZhengzhouUniversityofLightIndustry,Zhengzhou450001,China)
Aiming at the problem of how to extract the plant disease area accurately, a method based on EM and K-means hybrid clustering is proposed. The method can effectively extract the leaf target and have some screening effect on the more complicated background, which is superior to other classical methods in the case of obvious difference between the target and the background. Based on the chlorotic characteristics of the plant disease area, the K-means method was used to combine the Lab color space. Using the uniformity of the color distribution of the Lab color space, the A component was extracted as the reference component, and the disease area was extracted from the leaf target. The experimental results showed that the extraction of plant diseases based on EM and K-means hybrid clustering method is feasible.
plant disease area; EM algorithm; Lab color space; K-means algorithm; hybrid clustering
10.3969/j.issn.1004-1524.2017.08.21
2017-02-28
國家自然科學基金(61302118,81501547)
夏永泉(1972—),男,遼寧綏中人,博士,副教授,主要從事圖像處理、計算機視覺、模式識別與人工智能研究。E-mail: 563241627@qq.com
*通信作者,王兵,E-mail: 417726753@qq.com
TP391.41
A
1004-1524(2017)08-1384-08
夏永泉,王兵,支俊,等. 基于EM和K-means混合聚類方法的植物葉片病害區域自動提取[J]. 浙江農業學報,2017,29(8): 1384-1391.