袁銀 黃稚清 丁釋豐 劉永金 馮志堅
摘要 植物識別是利用植物的前提。隨著圖像處理與識別技術的迅速發展,植物種類識別App應運而生。雖然這些App能夠識別植物,但存在一些誤差,導致識別結果不夠準確。為了解產生誤差的可能原因,本文以花伴侶作為識別App,通過不同的取樣方法,探討植物標本取樣因素對識別率的影響。測試結果表明,基于大數據分析的標本取樣,以全株局部含花的樣本識別效果最佳,不同植物器官的樣本照片在識別上存在顯著差異,不同拍攝設備、不同背景條件下拍攝的植物樣本照片識別效果也有一定差異。
關鍵詞 植物識別;植物器官識別;取樣方法;大數據;深度學習算法
中圖分類號 Q948.3 文獻標識碼 A 文章編號 1007-5739(2018)03-0149-03
Abstract Plant identification is the precondition for plant application.As the rapid development of image processing and image identification,identification Apps for plants appeared. Though plant species can be identified by these Apps,it still has some errors.These errors account for inaccurate results. In order to find the possible causes of these errors,this paper using Hua Banlv as the chosen identification App,the effect of sampling factors on the identification ratio was discussed through different sampling methods. Based on the big data analysis of specimen sampling,test results indicated that the samples using the whole plant with flowers had the highest identification ratio.Meanwhile,various specimen photos of different plant organs differentiated from each other.There were also some differences in the recognition ratio of the plant sample photos taken under different shooting equipment and different background colors.
Key words plant identification;plant organ identification;sampling method;big data;deep learning algorithm
植物識別是利用植物的基礎。隨著計算機處理能力的迅猛發展,圖像處理與模式識別等技術在各個領域得到了廣泛應用。近年來,隨著移動終端攝影技術的發展以及移動互聯網的推動,植物種類識別App開發應用正逐步興起,為專業人士和植物愛好者提供了極大的便利。目前上線運行的植物識別App能在一定程度上解決植物識別問題,但也存在識別誤差。造成誤差的原因可能是數據原始樣本不足或樣本自身錯誤,也可能是移動終端獲取的樣本差異導致誤差產生。為了解移動終端取樣方式對植物識別的影響,本文通過不同取樣方法,探討植物標本照片取樣因素對識別準確率的影響。
1 研究方法
以vivo X9、HUAWEI榮耀暢玩4X和iPhone 6這3種移動終端作為攝影設備,選取紫薇、龍船花、大花蘆莉為識別對象,每組樣本數為30個,以花伴侶為識別App平臺。花伴侶是一款以中國植物圖像庫海量植物分類圖片為基礎,基于深度學習開發的植物識別應用。選取植物的全株、葉局部、果局部、花果枝局部等特征并拍攝8 730張圖像,應用花伴侶平臺識別處理,以平臺得出的可信度指標作為對該樣本的識別率。利用SPSS統計軟件進行結果分析。
2 結果與分析
2.1 不同植物種類識別率的差異
對8 730個標本圖像進行識別,獲得的平均識別率為36.02%。由表1可知,對大花蘆莉的平均識別率為35.29%,對紫薇的平均識別率為27.66%,對龍船花的平均識別率為47.56%。3種植物的平均識別率極小值均為0;大花蘆莉和龍船花的平均識別率極大值為100%,紫薇的平均識別率極大值為99%。
通過方差分析(表2)可知,P=0.000<0.01。結果表明,平臺對不同植物的平均識別率有極顯著差異。紫薇的平均識別率為27.66%,低于龍船花和大花蘆莉的平均識別率。花伴侶平臺在對紫薇識別時,常將其識別為南紫薇、福建紫薇、大葉紫薇等其他同屬植物,這些植物的外觀形態與紫薇有相似之處;識別龍船花時,常將其識別為神秘果、山杜英、尖齒臭荊莉等花形或葉形相似的種類。
2.2 不同取樣部位識別率的差異
由表3可知,選用不同植物器官圖像,其平均識別率有所不同。其中,選用植物全株時,其平均識別率最高,為66.38%;選用植物葉枝時,其平均識別率最低,為4.69%;其他器官的平均識別率依次為花枝63.88%、花果枝47.97%、花器官39.40%、果枝9.15%。所有植物器官的平均識別率極小值均為0;花枝、植物全株、花器官的平均識別率極大值均為100%,而葉枝的平均識別率極大值為87%,果枝為91%,花果枝為97%。
通過方差分析(表4)可知,P=0.000<0.01。結果表明,采用不同器官用以植物識別,其識別率差異極顯著。在本次測試中,花枝的識別準確率為63.88%,花果枝識別準確率為47.97%,花器官識別準確率為39.40%。由此可見,使用植物的花或含花部分作標本進行識別,其識別率較使用植物的果實或葉片識別準確率更高。選用花器官進行識別時準確率低于選用花枝和花果枝,可能是因為花器官沒有反應植物花的花序、著生方式等特點。
2.3 不同移動終端設備識別率的差異
由表5可知,使用vivo X9拍攝植物標本進行識別時其平均識別率最高,為38.23%;使用iPhone 6拍攝植物標本進行識別時平均識別率最低,為33.98%;使用HUAWEI榮耀暢玩4X拍攝植物標本進行識別時,平均識別率為36.33%。使用3種不同移動終端設備進行識別時平均識別率極小值均為0,極大值均為100%。
通過方差分析(表6)可知,P=0.000<0.01,結果表明,使用不同移動終端設備進行植物識別,其識別率差異極顯著。
2.4 不同標本背景顏色對識別率的影響
由表7可知,使用不同顏色作標本背景時,其平均識別率依次為綠色40.48%、白色35.39%、黑色32.30%。使用3種不同顏色作背景進行識別時,其平均識別率極小值均為0,極大值均為100%。
通過方差分析(表8)可知,P=0.000<0.01,結果表明,使用不同顏色作背景進行植物識別,其識別率差異極顯著。
3 結論與討論
3.1 植物種類的識別率分析
本研究中,平臺對供試種類平均識別率均低于50%,均不能準確識別。筆者認為,平臺系統對植物種類識別出現差異有兩方面原因。一方面是由于平臺系統的訓練樣本信息存在差異。如果所有種類均將海量的樣品訓練后存儲于數據庫中,則用戶只要上傳照片與庫中比對就能準確地認出相應的種類。僅靠植物信息庫現有標本照片庫的取樣訓練,存在種類間在訓練樣品數量上不均衡的情況。有些訓練樣本是具花葉的樣本,缺少果實,而有的為僅有花的樣本等,因而出現不同種類的識別率差異。另一方面,有些植物種類的形態在照片信息特征上異常突顯,容易認別。相反有些種類的特征不突出,區分度較差,不容易識別。除目前的圖像要素的認知方式識別種類外,丁維龍等[1]提出用C/S架構的識別體系對基于樹形結構相似度來識別植物,在試驗的條件下依據植物外觀輪廓識別植物種類準確率達到85%。因此,今后對植物識別的平臺系統,可更深層面分析植物圖像內在的規律,開發出更有效更準確的識別系統。
3.2 取樣部位對識別的影響
本研究結果表明,不同取樣照片對識別率的影響較大,以全株照片作樣本的識別率最高。由此可以看出,目前在庫的樣本是以植物圖像庫中植物學家和植物愛好者的專業角度取樣的,即照片取景包含有花有葉的植物枝條。客戶端的用戶若使用全株局部作樣本,其識別率就高;僅有葉、僅有花或果的樣本,其識別率就低。因此,在以現有植物圖像庫為基礎的識別平臺上進行植物鑒定,應以植物全株局部的花果枝為樣本,識別時可匹配的信息更多,準確率也會提高。Takeshi Saitoh通過對植物花的外觀形狀特點進行分析,并使用人工交互的NC方法識別植物,能夠達到91%的準確率;George Navy通過基于植物花朵的交互式識別,準確率也達到了85%[2]。可見,花在植物識別準確率方面具有較高的可靠性。果實在植物分類識別中具有很好的分類意義,但本研究中果實樣本的識別率并不高,這可能是與果實特征在不同時期有較大的變異、不同成熟期的果實在色與形上都有很大的差異有關。同時,可能平臺植物圖像庫中大多數植物的果實樣本圖片亦較少。
使用植物的葉片進行識別的研究較多,從2007年開始我國在這方面的研究逐步發展起來,主要應用了移動中值中心超球分類器(MMC)、農業生物特征識別系統—植物葉片識別系統(BSA-RSPL)、克隆選擇算法融合KNN分類器、向量機算法系統等多種研究方法[3]。花伴侶平臺本身是一款基于深度開發學習的軟件。在張帥[3]的研究中,采用了深度開發學習中的植物識別深度卷積神經網絡模型,通過不斷訓練模型,在單一背景下葉片識別平均準確率可高達90.49%。但在本研究中葉樣本的識別率很低,可能是平臺系統庫中葉樣本的數量不足,加之植物葉片在拍攝為照片后,就丟失了葉片大小這一容易識別的特征,在區分種類上造成一定難度。
3.3 取樣設備與識別率
本次測試中使用的3種移動終端vivo、HUAWEI、iPhone是我國主流手機品牌,其測試結果對于花伴侶平臺鑒定識別準確性具有參考價值[4]。
vivo X9后置攝像頭1 600萬像素,HUAWEI榮耀暢玩4X后置攝像頭1 300萬像素,iPhone 6后置攝像頭1 200萬像素。手機相機的像素越高,其圖像分辨率越大[5]。從測試結果可以猜測移動終端像素越高,植物種類識別率越高。因此,在拍攝時如果條件允許,可以使用像素高的手機或者數碼相機,以利于鑒別。此外,設備相機鏡頭的好壞及拍攝時環境亮度的調節對照片樣本的質量也有影響。建議拍攝前清潔鏡頭、拍攝時給予適當的光照。
3.4 不同標本的背景顏色與識別率
在張帥的葉片識別系統構建中,在識別前對植物圖片進行處理,依次經過灰度化處理、圖片梯度化、標記目標與背景、分割結果的過程。最后分割結果時背景被處理成了白色,植物形態處理成了深色。在單一背景下識別準確率可高達90.49%[3]。在本次測試中,并未對圖片進行預處理,均直接采用原圖,因而不同背景色下識別率均未達到上述試驗中這么高。實際上,日常使用花伴侶時很多時候并不進行圖片處理。但如果有條件,在應用識別平臺之前先對圖片做一些預處理,可以提高識別率。
此外,本次試驗使用的都是純色背景,而更多情況下拍攝植物是在自然狀態下拍攝,背景不一定是純色。張帥的試驗中也測試了普通背景下的植物識別率,僅為33.80%[3],遠遠低于純色背景下的識別率。因此,花伴侶的開發方可以考慮進一步提升復雜背景下的識別率。
3.5 結論
運用花伴侶識別平臺對不同取樣方式拍攝的植物照片識別的結果表明,在基于大數據平臺的植物樣本取樣方法中,以全株局部含花的樣本的識別效果最佳;不同植物器官的樣本照片在識別上存在顯著性差異;不同拍攝設備、不同背景條件下拍得植物樣本照片的識別效果也有一定差異[6]。建議以帶花具葉的標本照片作為大數據識別平臺的首選樣本進行種類識別。同時建議平臺數據庫補充照片以吻合自然界植物特征,完善識別算法。
4 參考文獻
[1] 丁維龍,吳水生,陳琦,等.基于樹形結構相似度的植物種類識別系統[J].中南大學學報(自然科學版),2013(增刊2):244-249.
[2] 裴勇.基于數字圖像的花卉種類識別技術研究[D].北京:北京林業大學,2011.
[3] 張帥.基于深度學習的植物葉片識別算法研究[D].北京:北京林業大學,2016.
[4] 李穎.十大主流手機品牌售后服務測評[J].中國質量萬里行,2015(12):76-78.
[5] 史斐翡,郭根生.如何正確看待數碼相機的高像素[J].影像技術,2008(2):19-21.
[6] 李正宏.瀕危植物取樣策略研究[D].杭州:浙江大學,2005.