田超 周堅華
摘要:本文研究針葉植物數字圖像自動識別分類的方法。根據針葉植物不同科(松、杉、柏科)和種葉片/葉小枝的形狀特征差異設計了15個特征描述符,以適量樣本檢驗這些描述符以及它們組合使用對于劃分針葉植物科和種的有效性,并對這種有效性做評估和排序。實驗表明,凹陷密度,凸包歐拉數、凸包面積與同參數三角形面積相對差等,對辨別松科植物有效;葉圖斑長寬比、凸殘差面積方差、凹陷密度、凹陷平均短長軸比等對劃分杉、柏科植物有效。通過這些描述符,可以將至少34種針葉植物分為松、杉、柏3個科和17個種。用這些描述符組合對針葉植物科分類的精度大于80%;由科劃分種的精度相對較低,劃分松、杉、柏科植物到幾個范例種的精度分別為:64.0%、54.3%、40.1%。
關鍵詞:針葉植物;圖像分類;形狀;數學形態學;特征頻數
基金項目:國家自然科學基金項目(41071275)資助
中圖分類號: TP391.41 文獻標識碼: A DOI編號: 10.14025/j.cnki.jlny.2016.06.020
植物數字圖像自動分類是植物分類學領域備受關注的新技術“基于內容的圖像檢索”(Content-Based Image Retrieval, CBIR)是該技術的代表之一,通過把用于植物圖像的CBIR軟件植入手機等智能移動設備,有可能在野外對植物進行實時分類。已經出現了少量移動設備版植物圖像分類/檢索軟件,如Nam等2005年開發的“三葉草”系統,可以根據植物葉輪廓圖檢索植物類;Belhumeur等2008年研發的改進型系統,可以查詢植物圖像與在線植物樣本的相似性等。但由于專家知識植入圖像自動分類/檢索系統比較困難,這類軟件目前能夠正確辨識的植物種類比較有限,其他類似的CBIR系統還在不斷完善中。
據檢索,植物圖像分類的研究主要集中于闊葉類植物。闊葉植物的屬種遠比針葉植物的豐富,這可能是它吸引較多關注的原因。另一方面,植物圖像分類主要依靠植物葉特征,闊葉類植物的葉特征(包括葉形、葉緣、葉脈等)遠比針葉植物的豐富,不同屬種之間的特征差異比較顯著和易于提取,使得闊葉植物先于針葉植物在圖像分類領域取得了較大進展。例如基于葉片形狀、基于葉脈和葉緣信息的植物圖像分類。
與闊葉植物相比,針葉植物種屬間的特征差異不夠分明。根據Science Director、Springer Link Journals、中國知網等中外期刊論文數據庫的檢索,尚未檢出針葉植物葉片/葉小枝數字圖像自動分類方面的研究文獻。本文主要根據松、杉、柏科植物葉片/葉小枝的形狀特征差異,設計特征描述符;并以圖像分類/分割方法檢驗這些描述符以及它們的組合,對于辨識不同科和種的針葉植物圖像有效。
1 實驗數據
研究中使用的植物葉圖像樣本來自野外自采集和中國植物圖像庫。野外自采集區域為上海市區和浙江天目山地區,采樣設備為普通單反變焦數碼相機。自采樣本約占總樣本數的90%。野外共采集樣本近340個,包括了上海市綠地和天目山地區典型的針葉樹種。表1列出了實驗樣本屬種和數量。在描述符測試中隨機選擇其中180個樣本構成訓練集,其余160個為預留的測試樣本。
2 方法
2.1 概述
本文的研究對象為松、杉、柏科植物,由于南洋杉科植物在上海綠化地很少見,僅采集到“智力南洋杉”和“大葉南洋杉”兩種,故合并到杉科中。依據松、杉、柏科多種植物葉的表觀特征和圖像特征,設計了能夠將三者及其具體種分開的圖像特征描述符。它們中的大多數依據形態測量學設計,能夠定量描述葉形特征;還有一小部分根據特征頻數統計值設計,如鄰域暗細節密度等,用于描述葉片/葉小枝凹陷的密度。通過在這些描述符組合的特征空間里做圖像監督分類,可以評估各描述符及其組合的有效性。工作流程見圖1。
2.2 針葉圖像預處理
針葉植物葉圖像預處理的有效算法包括平滑化、維納濾波、銳化、大津法閾值計算和二值化、形態學開啟和閉合、凸(凹)噪聲面積過濾、Gaussian濾波和邊緣檢測等。實驗表明,對針葉植物葉圖像有效的預處理包括:降噪,去毛刺,閉合裂隙、填補凹陷等,它們能給出比較完整的葉片二值圖,以便特征提取和描述符值計算。圖2以雪松為例說明該過程。
2.3 描述符設計
形狀是葉片圖斑的主要特征。常用的形狀特征包括圖斑面積、圖斑的短長軸比、凸包面積、凸殘差特征、形狀系數、邊緣密度、分維等。針葉植物葉形通常具有如下特征:松葉形簡單,針狀,常2針、3針或5針一束,葉節點無分叉;柏枝葉復雜,分支明顯,單葉小而呈鱗片狀(或鱗葉、針葉混生);杉多為線形葉等。可以用凸包或凸殘差、幾何形狀、細節頻數等描述這些特征,設計出適用的描述符。表2給出部分經實驗證明有效的描述符,所有描述符都歸一化到值域[0, 1]。
2.4 描述符測試和精度評估
圖3和表3~6給出以決策樹(DT)評估描述符組合分類精度的實例。如針葉科分類時,隨機選擇8個描述符構成初始特征向量,訓練樣本數為180,其中松、杉、柏科植物樣本分別為55、61、64。訓練中DT自動選擇對樣本適應性較好的5個描述符構成決策樹t(圖3);隨后以t對測試集圖像分類,并以混淆矩陣評估分類精度。
3 描述符的設計依據
表2中的描述符設計基于葉圖斑的某些圖像特征,例如凸殘差、圖斑凹陷、圖斑面積對稱性、圖斑密度對稱性、圖斑幾何圖形軸對稱性、圖斑與同參數幾何圖形的相似性等。下面分別展開討論。
3.1 凸殘差
凸包(convex)是將圖斑邊界的凸頂點連線形成的外多邊形。用凸包減去原圖斑得到凸殘差(convex deficiency)。實驗表明,根據凸包和凸殘差設計的描述符對于表征針葉植物葉輪廓形狀和葉小枝的分布規律、密度和復雜程度等有效。基于凸殘差的描述符有:(見表2)。圖4以側柏、墨西哥落羽杉、白皮松為例,顯示這類描述符參變量的提取方法。表7為基于凸殘差描述符的分割閾值范例。
(a),(d)分別為龍柏和水杉葉小枝二值圖,真元素個數即葉小枝圖斑面積;(b),(e)為暗細節二值圖,SE均為3×3菱形;(c),(f)為凹陷尺寸大于閾值的圖斑,可以通過測量其中面積較大的主凹陷的密度、短長軸比、形狀系數等,獲得有參考價值的分類特征。由圖可見,龍柏的暗細節尺寸較小、細節短、分布密度(單位面積細節個數)較大;而水杉的暗細節尺寸較大、細節狹長、分布密度較小。
3.2 圖斑凹陷
暗細節是葉圖像上尺寸較小的暗調元素或葉圖斑的孔洞(凹陷),可以通過形態學“低帽變換”提取。它是用閉合操作消除比結構元素(SE)尺寸小的暗細節,獲得背景估計b;然后從b中減去原圖像I就能獲得暗細節集da。
3.3 葉圖斑對稱性
葉圖斑對稱性通常以葉小枝某些統計值的上下對稱性表述。可用的統計值包括面積、密度和幾何圖形軸長等。面積和密度的統計對象主要為葉圖斑、凸包、凸殘差等的二值圖。表達式的主要形式為差比值,比如 (見表2)。幾何圖形軸對稱性利用了與葉圖斑有關的幾種幾何圖形,如外接矩形、內接圓等。
3.4 圖斑與同參數幾何圖形的相似性
典型的松、杉、柏葉小枝的外輪廓與某些幾何圖形接近,比如松與三角形、杉與矩形/橢圓、柏與扇形/橢圓相像。利用葉圖斑凸包二值圖與同參數(高/長軸、寬/短軸等)的幾何圖形面積的差比值,表征葉圖斑凸包接近這些幾何形狀的程度,可能用于劃分不同科的針葉植物,表9列出部分基于圖斑對稱性的描述符的性能和范例閾值。這些描述符包括(見表2)。
4 結論
本文研究針葉植物葉片或葉小枝圖像按科和種分類的方法,設計了14個新的描述符,并評估了各自和組合使用的有效性。上述實驗和統計分析支持如下結論:(1)基于凸殘差、圖斑凹陷、圖斑對稱性和圖斑與同參數幾何圖形相似性設計的描述符對于識別針葉植物科和部分種有效。(2)適當數量和不同功能的描述符組合,有助于改善分類精度。(3)用這些描述符組合對針葉植物科分類的精度大于80%;由科劃分種的精度相對較低,劃分松、杉、柏科植物到幾個范例種的精度分別為:64.0%、54.3%、40.1%。由本實驗還可以看出,要劃分更多的屬種還有待進一步增加植物樣本,并繼續深入描述符和分類空間設計等方面的研究。本文的分類方法主要依據的是植物外形特征,而未嚴格遵守植物學分類規則,比如中國植物志中將日本冷杉劃分為松科,而本文根據其形狀特征將其劃分到杉中,這一點望讀者理解。
參考文獻
[1]Geng SL (耿生玲). Tian F (田芳). The principle and realization of picture sharpening and smoothing[J]. Journal of Qinghai Normal University(Natural Science) (青海師范大學學報(自然科學版), 2003(03):62-65
[2]Zhu J (朱靜),Tian XJ (田興軍),Chen B (陳彬) et al. Computer Recognition System of Plant Leaf-shape[J]. Chinese Bulletin of Botany (植物學通報), 2005,22(05):599-604
作者簡介:田超,華東師范大學地理科學學院,在讀碩士,研究方向:遙感圖像分析與空間數據挖掘。
通訊作者:周堅華,碩士,華東師范大學地理信息科學教育部重點實驗室,副教授,研究方向:城市與生態遙感。
網絡出版時間:2016-3-10 17:07:45
網絡出版地址:http://www.cnki.net/kcms/detail/22.1186.S.20160310.1707.001.html