陳淑君 周永霞 方勇軍
1(中國計量大學信息工程學院 浙江 杭州 310018)2(杭州吾思智能科技有限公司 浙江 杭州 310018)
基于整體外觀特征的植物種類識別研究
陳淑君1周永霞1方勇軍2
1(中國計量大學信息工程學院 浙江 杭州 310018)2(杭州吾思智能科技有限公司 浙江 杭州 310018)
提出一種基于整體植物外觀特征提取的植物自動識別方案。首先,用普殘差法對植物圖像進行顯著性區域檢測,較粗略地得到植物對象,再結合色調信息進行細分割。接著提取該對象區域的SIFT特征作為底層局部特征,建立視覺詞包模型,最后設計分類器進行分類。選取了9種常見的室內盆栽,每種植物各28個樣本。在實驗中,分別對比當前流行的 BP神經網絡、SVM和ELM三種分類器的分類性能。實驗結果發現,支持向量機和極限學習機有較好的分類效果,識別率可以達到90%左右。這對植物識別的研究及應用推廣都具有一定的積極作用。
普殘差法 SIFT 視覺詞包模型 支持向量機 極限學習機
植物與我們人類的生活密切相關。植物的自動化識別對農業的發展、人類的認知活動等都有著非常重要的作用。
當前對植物識別方法的研究較多,但大多都是基于葉片的識別[1-4],利用葉片的大小、形狀、紋理等特征。文獻[2]先對葉片做去陰影和背景校正等預處理,
再用隨機森林的方法進行分類,在CLEF 2012葉片分類大賽中獲得了第二名。文獻[4]中的Leafsnap是利用葉子邊緣構建多尺度曲率模型,以葉片圖像進行分類,在美國東北部的184種樹種數據庫上取得了較高的識別率。但在實際應用中,用一片單獨完整的植物葉片進行識別有諸多限制,而從整體植物中分割出單獨的葉片難度很大。百度的識圖系統可以對整體植物進行識別,但識別效果不佳,用戶體驗較差。所以本文對基于整體植物特征提取的植物識別進行相關研究。
植物對象的自動分割是植物識別領域所面臨的一大挑戰。不僅植物本身具有多樣性,其背景及植物盆栽花瓶也各式各樣,傳統的分割算法對植物的分割適用性較差。本文用視覺顯著性檢測的方法對植物對象進行分割。
當前視覺顯著性的研究,是從空域、頻域以及空域頻域相結合3個方向展開。其中空域模型,最經典的是Itti等提出的模型[5]。該模型直接線性融合多種底層特征的顯著圖,具有計算速度快且容易實現的特點,但對顯著對象的描述通常較為模糊,有時會產生塊效應,且輪廓定位不夠精確,對復雜背景和噪聲的穩健性較差。文獻[6]中提出了一種基于全局對比度的顯著性模型,由于其保留了原圖像的分辨率,因此輪廓定位精確。而普殘差模型[7]SR(Spectral Residual)是在頻域內利用幅值譜從全局去除圖像冗余信息獲得顯著信息,運算簡單而快速。
在本文中,我們用普殘差模型對植物前景進行分割。該模型是在頻域內從全局角度研究圖像的顯著性特征。如式(1)所示,我們可以將圖像的信息表示為顯著信息H(Iinnovation)與背景信息H(Iredundancy)的和,那么從圖像中減去圖像的冗余信息就可以得到我們所需的圖像顯著域信息了。
H(Iimage)=H(Iinnovation)+H(Iredundancy)
(1)
得到顯著圖后,對圖像進行去噪濾波、形態學操作等一系列處理即可得到植物對象。但其結果較為粗糙,為了得到較精確植物分割結果,我們再結合植物的色調信息進行進一步的分割。
視覺詞包BOV(Bag-of-Visterms)[8-9]是最近幾年比較流行的一種基于局部表現屬性的圖像表示算法。該模型首先提取目標的底層視覺特征,通過聚類獲得視覺詞典。然后將圖像表示為視覺單詞的頻率直方圖。BOV模型對類內改變、背景干擾、姿態變化、噪聲等都有較好的穩健性。
2.1 底層特征的提取
所謂特征是指可供識別的特殊征像或標志,是圖像中的“有趣”部分。
尺度不變特征變換(SIFT)[10]是目前應用最廣泛的基于局部描述的特征算子之一。它具有對旋轉、尺度、光照不變性,對視覺變化、仿射變換、噪聲容忍度也較高,在各個領域上表現出了良好的性能,本文采用SIFT進行植物特征的提取,其主要步驟如下:
1)尺度空間的生成;
2)尺度空間極值點的檢測;
3)極值點的精確定位;
4)特征點方向的確定;
5)特征點描述算子的生成。
2.2 視覺詞典構建
我們在每類植物中選取一個樣本,提取植物對象的SIFT特征構建視覺詞典。由于SIFT特征點分布不均勻,會出現聚簇現象,且不同樣本SIFT特征點數相差甚多。所以我們先對每個樣本所產生的SIFT特征進行第一次K均值聚類,再對產生的中心進行第二次聚類,得到視覺詞典。
視覺詞典的大小,即類別K值的選取是建立視覺詞包模型的一個關鍵問題。K取值太小,導致特征的判別力不高,可能會將不相似的特征被指定到同個類中;K取值太大,視覺詞包的泛化能力有限,對噪聲穩健性差,同時計算量也增大。要根據一些研究經驗進行多次嘗試。
2.3 統計視覺單詞的頻數
根據生成的可視詞典,計算每個植物對象區域中所有視覺單詞出現的次數。每個特征向量用歐氏距離衡量其相似性,根據最近鄰原則將植物對象的每個特征向量歸屬到相應的視覺單詞,即可得到視覺單詞頻率直方圖。
本文設計了三種不同的分類器對植物實現分類。
3.1BP神經網絡
BP神經網絡是利用誤差反向傳播方法訓練學習的一種傳統淺層神經網絡[11],能表示大量的輸入-輸出非線性映射關系,在各個領域廣泛應用,但BP神經網絡也一些不足:
1) 算法的收斂速度慢,特別是一些較復雜的問題,需要設置較大的神經元數和網絡隱含層數時,訓練時間可能會非常長。
2) BP神經網絡最后收斂的值并不能保證是全局最小點,可能會陷入局部極值。
3.2 支持向量機(SVM)
SVM最初于20世紀90年代提出,近年來在解決“過學習”和“維數災難”等重大問題上發揮了很大的作用,且相比BP神經網絡,具有不會陷入局部極值的優點[12]。
3.3 極限學習機(ELM)
ELM是近年來才提出的一種比較新穎的前饋神經網絡模型[13]。該算法參數設置簡單,并且能產生唯一的最優解,又具有學習速度快和泛化能力好的特點,在各個應用領域表現出了良好的性能。
我們在室內拍攝了9種常見的室內盆栽,每種各28個樣本,共252個樣本。每種植物都從不同的角度,不同的遠近距離進行拍攝,保證本文設計的算法具有一定的魯棒性,其中部分樣本如圖1所示。

圖1 植物樣本
我們在Matlab 2014平臺上實現設計的方案。
4.1 分割的結果
本文用普殘差的方法做植物對象的分割,部分植物的顯著圖結果如圖2所示。

(a) 植物一(b) 植物二

(c) 植物三(d) 植物四

(e) 植物五(f) 植物六

(g) 植物七(h) 植物八圖2 植物的顯著圖
由圖2我們可以發現,大部分樣本顯著點集中在植物對象上,通過一些濾波及形態學等操作可以較粗糙地得到植物對象。
由于植物對象的顏色特征一般與其周圍的背景區別度較大,我們利用植物的顏色信息進行更精確的分割。RGB是一個不均勻的顏色空間,首先我們將RGB變換到更貼近我們人類視覺感知系統的HSV顏色空間。然后用植物的色調信息進行閾值分割,即可較精確地分割出所需的植物對象,如圖3所示。

(a) 植物一 (b) 植物二

(c) 植物三(d) 植物四

(e) 植物五(f) 植物六

(g) 植物七(h) 植物八圖3 分割結果
4.2 特征提取的結果
在分割出的植物對象區域中提取SIFT特征,每幅圖片會得到上百到上千不等的特征點,如圖4所示。我們可以看到特征點基本都落在植物區域。

圖4 SIFT特征提取結果
特征提取后,我們借鑒已有的研究經驗成果,進行多次嘗試,構建相應的視覺詞包模型。
4.3 分類的結果
將植物樣本平分,其中126個樣本用于訓練,另126個樣本用于測試。設計不同的分類器進行分類。分別用BP神經網絡、SVM和ELM三種分類器對植物提取的特征進行訓練學習、分類,實驗結果見4.3.1節至4.3.4節。
4.3.1 BP神經網絡
BP神經網絡在小樣本高維數特征情況下性能較差,而樣本特征維數太小,又會導致特征的判別力太低。我們發現當一開始隨著特征維數的增大,識別率漸漸上升,但當特征維數大到一定程度以后,分類效果急劇下降。經過多次嘗試,我們最終選取視覺詞典大小即特征的維度為500。
由于BP網絡分類器可能會陷入局部極小值點,且模型參數的選取對分類器性能影響較大,所以需要進行多次參數的選擇和訓練。我們最后選取的模型如圖5所示。

圖5 BP神經網絡模型結構
在訓練集中,我們選取70%用于訓練,15%用于交叉驗證,15%用于測試,其結果如表1所示。

表1 神經網絡訓練結果
最后我們用更大的數據集即另126個樣本上進行測試,其識別率為79.47%。
可以發現,BP神經網絡分類器存在過擬合情況。過多擬合了一些噪聲,訓練數據的識別率很高,但模型的泛化能力很弱。
4.3.2 支持向量機
相對于BP神經網絡,SVM在小樣本高維度情況下性能較佳,經過多次嘗試,我們選取了大小為1 000的視覺詞典。為了防止部分數值過大及計算困難,我們首先對數據進行了歸一化。
結合當前的理論學習和我們多次的實驗結果,我們選擇RBF作為SVM的核函數。RBF核函數涉及到兩個重要參數,懲罰參數c和核參數g。為尋找合適的參數,我們將訓練集隨機分成5等份,進行交叉驗證。用網格方法進行搜索,得到最佳參數c=20.080 1, g=0.009 5。
最后用最佳參數建立支持向量機的分類模型,對測試集進行預測,其識別率為88.89%。
4.3.3 極限學習機
極限學習機參數選取是個關鍵,其值不同,得到的分類效果也不同。借鑒相關經驗,我們經過多次實驗發現,視覺詞典大小為1 500,核函數選取sigma時效果較好。同時,因為極限學習機是非穩定算法,為了提高識別率,我們用了三個ELM分類器進行集成,根據三個分類器投票機制得到植物的最終類別。其一些重要的結果如表2所示。

表2 ELM 實驗結果
4.3.4 分類器的對比
對以上三種不同的分類器在識別率、運算速度和對特征維數的適應性三個方面上進行對比,結果見表3。

表3 分類器對比表
從表3中我們可以發現,相比與BP神經網絡,SVM和ELM體現出了較好的性能。視覺詞包模型的詞典大小即特征的維度太小,會導致辨識度太低,但是,特征維度太大,會增加分類器分類的難度。對BP神經網絡來說,當特征維度取1 000甚至1 500時分類性能急劇下降。而SVM和ELM在高維度小樣本情況下體現了其優勢,且BP神經網絡有較嚴重的過擬合情況,而SVM和ELM在該問題有較大的改善。因此,其總體識別率比BP神經網絡高出了許多。
另外,為了進一步分析,我們對比了三種分類器分別在特征維數選取500、1 000和1 500時的運行時間和識別率,結果如表4-表6所示。由于算法有一些不穩定性,尤其是BP神經網絡,會收斂到局部極小值,其一樣的參數設置,其收斂時間和識別率都會有所浮動,所以在運行時間上我們只對大致的數量級進行記錄和對比。

表4 500維時的對比結果

表5 1 000維時的對比結果

表6 1 500維時的對比結果
如表4-表6所示,ELM分類器在特征選取為500維、1 000維和1 500維時,都有較高的識別率;SVM在較高的特征維數即1 000維及1 500維時才有較好的識別性能;BP神經網絡在1 000維及1 500維高維情況下分類性能急劇下降,識別率很低。從運算速度上來說,SVM運算速度最快,其次是ELM,BP神經網絡運算最慢。綜上,在算法識別性能上,ELM分類器最佳;而在時間性能上,SVM分類器最佳。相比之下,BP神經網絡在識別率和運算速度上都表現出了較差性能。
本文用普殘差法對圖像進行顯著區域檢測,再結合植物色調信息,分割出植物對象。然后提取SIFT特征,建立了視覺詞包模型。最后比較BP神經網絡、SVM和ELM三種不同分類器的分類性能。實驗結果發現,用本文設計的實驗方案,植物種類識別率較高,同時,相比與BP神經網絡,SVM和ELM分類器表現出了較好的性能,識別率可達到90%左右,這對植物識別的研究及應用推廣都具有一定的積極作用。
最后,我們對實驗方案和實驗結果進行了一些分析:
1) 在植物分割時,個別圖像分割出的植物對象不夠準確。當圖像的背景存在復雜顯著的區域時,用普殘差法做顯著性檢測時,可能會將背景分割到植物對象區域中,比如圖3中的植物八,從而影響了后面的特征提取及分類的準確性。
2) SIFT特征并不能完全表征出植物的特征,辨識度有待提高。在以后的改進工作中我們將結合其他一些植物特征進行識別。
[1] Prasvita D S, Herdiyani Y. MedLeaf: Mobile Application for Medicinal Plant Identification Based on Leaf Image[J]. International Journal Advance Science, Engineering and Information Technology, 2013,3(2):5-9.
[2] Arora A, Gupta A, Bagmar N, et al. A Plant Identification System using Shape and Morphological Features on Segmented Leaflets[C]// Team IITK, CLEF 2012.
[3] Mónica G L, Ariel E B, Roque M C, et al. Multiscale recognition of legume varieties based on leaf venation images[J]. Expert Systems with Applications, 2014,40(10): 4638-4647.
[4] Kumar N, Belhumeur P N, Biswas A, et al. Leafsnap: A Computer Vision System for Automatic Plant Species Identification[C]// European Conference on Computer Vision. Springer-Verlag, 2012:502-516.
[5] Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11):1254-1259.
[6] Cheng M M, Zhang G X, Mitra N J, et al. Global contrast based salient region detection[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2015:409-416.
[7] Hou X, Zhang L. Saliency Detection: A Spectral Residual Approach[C]// Computer Vision and Pattern Recognition, 2007. CVPR ’07. IEEE Conference on. IEEE, 2007:1-8.
[8] Sivic I, Zissermau A. Video goggle: a text retrieval approach to object matching in videos [C]// Proceedings of the 9th IEEE International Conference on Computer Vision. Nice,France; IEEE,2003:1470-1477.
[9] Csurka G, Dance C R, Fan L, et al. Visual categorization with bags of keypoints[J]. Workshop on Statistical Learning in Computer Vision Eccv, 2004, 44(247):1-22.
[10] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2):91-110.
[11] 李弼程,邵美珍,黃潔.模式識別原理與應用[M].西安:電子科技大學出版社,2008:170-176.
[12] Sergios Theodoridis, Konstantinos Koutroumbas.模式識別[M]. 李晶皎,王愛俠,王驕,等譯.北京:電子工業出版社,2010: 149-168.
[13] Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006, 70(1-3):489-501.
THEPLANTSPECIESRECOGNITIONBASEDONTHEWHOLEAPPEARANCFEATURES
Chen Shujun1Zhou Yongxia1Fang Yongjun21
(CollegeofInformationEngineering,ChinaJiliangUniversity,Hangzhou310018,Zhejiang,China)2(HangzhouWusiIntelligentScienceandTechnologyCo.Ltd.,Hangzhou310018,Zhejiang,China)
In this paper, we propose an algorithm for plant species recognition based on whole appearance features. First, the Spectral Residual method was adopted in salient region detection to segment the plant object roughly. And then, the hue information was used to obtain the precise object. Second, SIFT in the object region was extracted to build the BOV model. Finally, three classifiers were designed and implemented to classify the plant species. In our experiments, there were nine different plant species, and 28 examples of each species. BP neural network, SVM and ELM, these three different classifiers were implemented and compared. The experimental results show that the SVM and ELM classifiers were better than BP neural network, and are able to identify about 90% of these plants correctly. It is important for the research and application of plant species recognition.
Spectral residual SIFT Bag-of-visterms Support vector machine Extreme learning machine
TP3
A
10.3969/j.issn.1000-386x.2017.09.044
2016-07-20。陳淑君,碩士生,主研領域:計算機視覺。周永霞,副教授。方勇軍,工程師。