韓仲志 楊錦忠 李言照
玉米品種圖像識別中的影響因素研究
韓仲志1楊錦忠2李言照1
(青島農業大學理學與信息科學學院1,青島 266109)
(青島農業大學農學與植物保護學院2,青島 266109)
為了研究玉米品種圖像識別中的關鍵影響因素,搭建了一套基于PCA和ICA特征提取和支持向量機(SVM)分類算法的玉米品種識別系統,采用掃描儀獲得了11個品種每個品種50粒圖像,基于圖像的像素特征和統計特征,分別研究了主分量分析(PCA)和獨立分量分析(ICA)的特征提取和特征優化方法,并進一步考察了支持向量機(SVM)模式分類過程中的關鍵參數優化問題。試驗結果表明,對11個品種550個籽粒的品種最高檢出率為97.17%,在同樣的情況下ICA優化的特征較PCA優化的特征識別率能提高3%左右,適當選擇統計特征比使用像素特征識別率提高約10%,另外SVM參數影響到識別效果,但整體影響不大。本方法與結論對玉米種子純度和品種真實性檢驗具有積極意義。
玉米種子 品種識別 獨立分量分析 主分量分析 支持向量機
在很大程度上,作物種子的品種真實性決定著農業發展,正確識別種子是種子特異性、一致性和穩定性(DUS)測試的重要內容之一。
前人對種子識別的研究一般著重于粒重、容重、粒長寬與粒厚、體積與密度等數量性狀(特征)。這些特征的提取一般基于大田試驗手工進行,特征的獲取速度慢、代價大,從而制約了種子檢驗的效率;近年來,基于計算機數字圖像處理的機器視覺檢測是一種檢測速度快、鑒別能力強、重復性高、可大批量檢測、無疲勞的新方法。在水稻[1]、小麥[2]和花生[3]等作物上都有成功應用的報道。
在玉米科學上,楊錦忠等[4-5]基于圖像的外觀表現型提取了數十個特征,特征中包括了反應種子大小、形狀、顏色和紋理等幾大類,這些特征的提取基于種子外觀圖像,采用軟件的方法,速度快,鑒別能力強,大大提高了種子檢驗的效率和速度。韓仲志等[6]采用獨立分量分析的方法提取了玉米胚部的特征提取方法,另外進一步研究了果穗DUS測試中的特征提取方法[7],最近他們針對玉米果穗的外觀表現,開展了特征與品種的關系的研究[8-9],并從中優選出了一些對品種鑒別力有影響的關鍵性狀,取得了可喜的成果。而在玉米籽粒檢測領域沒有發現針對品種關鍵特征選擇與優化方面的研究報道。
以往研究者面對數十個上百個特征,而這些特征或某種組合往往決定這某個生物性狀,且特征間存在著較大的相關性,使得品種識別時出現大量信息庸余而加重了處理負擔。事實上并不是所有的特征都對種子的檢驗起重要作用,所以有必要進一步明晰特征與生物性狀之間的關聯,自動尋找對生物性狀起關鍵作用的特征將成為一個有挑戰性的課題。另外在品種識別過程中,識別效果必然受到所選特征及其提取和優化方法的影響,進一步優化方法,將有助于提高計算機品種識別的性能與效率。由此本研究擬針對上述問題進行研究,以進一步明晰不同類型的特征、不同類型的特征提取和優化方法及識別方法下對品種真實性及DUS檢驗效果的影響。
1.1 試驗材料
供試的普通玉米品種共有11個,主體色調均為黃色,全部來自國家東北和華北區玉米新品種區域試驗的參試品種,每個品種挑選具有品種固有特征的50粒種子。用掃描儀采集圖像,掃描時按固定次序與方向將種子擺放于掃描儀上,為了使圖像背景為黑色,掃描儀蓋板完全打開,掃描得到每個品種50粒種子的正面(有胚面)的圖像,篇幅所限,圖1僅列出了其中一個品種的掃描圖像。
掃描儀型號為CanoScan:8800F,平板式CCD掃描儀,光學分辨:4 800dpi×9 600dp;使用的計算機為聯想:ideaCentre Kx 8160:CPU為Intel酷睿2四核Q8300 2.5GHz,內存DDRIII4G;閃存1 G,硬盤500 G;Winows Vista操作系統。

圖1 一個品種的掃描圖像
對掃描所得圖像進行必要的預處理,這些預處理包括圖像的顏色空間轉換、灰度化、二值化、背景去除和邊緣檢測,所有圖像處理、特征提取和識別過程均基于軟件Matalb2008a編程實現。
1.2 特征提取
特征的提取是基于圖像進行的,工程上一幅圖像可看作是一個矩陣,每個像素點的取值便構成了最原始的特征,稱為像素特征,像素的分布蘊藏了圖像的所有信息,圖像信息量的大小與圖像分辨率正比,然而圖像分辨率越大,構成這種特征數據量越大,計算機實時分析處理越困難。比如一副1024×768的圖像,僅灰度圖像的特征量數目就達到786 432個。雖然可以通過圖像壓縮減少數據量,但壓縮過程同樣使得信息大量丟失。因此選擇合適的降維優化方法尤為重要。為了降低數據量,采用不同的統計方法,亦可得到一系列的統計特征。玉米的統計特征可針對整個籽粒和籽粒的胚部分別提取。胚部的分割方法參可見文獻[6]。統計特征主要從顏色、形狀和紋理3個角度考慮,本研究采用不同的指標統計了相應籽粒及其胚部各60個特征,這些特征見表1,相關定義可參見文獻[1-2,6]。種子形態特征直接從最終二值圖上獲取,顏色特征分別從RGB和HSI彩色圖獲取,紋理特征可依據灰度圖像獲取。胚部統計特征基于胚的分割圖像進行,同樣提取其60個特征,這樣衡量每個籽粒的總特征數達到120個。雖然這個數量遠小于像素特征,然而隨著統計指標的增加,統計特征的維數相應的增加,因此也需要進行必要的降維和特征優化。

表1 統計特征
1.3 特征優化
傳統的特征降維與優化是基于二階統計量進行的主分量分析(PCA)方法[10],PCA是統計學中分析數據的一種有效的方法,其目的是在數據空間中找一組向量以盡可能地解釋數據的方差,將數據從原來的R維空間降維投影到M維空間(R>M),降維后保存了數據中的主要信息,從而使數據更易于處理。PCA方法是沿數據集方差最大方向尋找一些相互正交的軸,主成分分析方法是一種最小均方誤差下的最優維數壓縮方法。
近幾年發展了一種新的數據降維和優化方法,獨立分量分析(ICA)方法[11],ICA算法是一種基于高階統計信息的多元數據處理方法,其基本思想是用一些基函數來表示一系列隨機變量,而假設它的各成分之間是統計獨立的或者盡可能獨立,這種方法將不限制這些軸是否正交,它的軸是沿最大統計獨立方向,因此,其輸出元素之間的相關性被移走,這樣,在這些軸上的投影就有很少的交疊產生。
1.4 品種識別
特征提取和優化后,特征維數將進一步減少,基于這些特征可實時進行品種識別,支持向量機(SVM)模型[12]是近幾年發展起來的優秀的識別模型,在農作物種子識別領域已經證明比神經網絡識別模型具有更為穩健的性能[3]。
支持向量機方法是建立在統計學習理論的VC維理論和結構風險最小原理基礎上的,根據有限的樣本信息在模型的復雜性(即對特定訓練樣本的學習精度)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力。支持向量機將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面。建立方向合適的分隔超平面使兩個與之平行的超平面間的距離最大化。其假定為,平行超平面間的距離或差距越大,分類器的總誤差越小。
2.1 特征分布
圖2分別列出了采集的原始像素特征和部分統計特征的頻數分布圖,考察這些特征的分布可以發現大部分特征遵從非高斯分布。

圖2 部分特征的分布頻數分布圖
2.2 像素特征優化
常規特征優化方法為基于PCA的方法,它能夠在正交意義上尋找代表圖像的最大主分量組合,然而PCA是基于圖像二階統計量取得,通過考察圖像的像素分布和統計特征分布,并不嚴格意義上服從高斯分布(圖2),所以圖像中很多信息在更高階統計量意義上也有表現。而ICA正是反映了圖像的高階統計特性。可考慮用ICA進行特征降維。
為考察PCA和ICA這兩種數據降維方法有效性,首先從掃描圖片上將單個籽粒分割出來,并用線性插值法將單個籽粒的分割圖片規格化為相同的大小(300×250=7500維),若采用PCA和ICA將數據壓縮為20維,則數據壓縮為原來的2.7%,此時與原始圖像的標準差異分別為3.36%和2.53%。數據降維后的20維主分量圖3a和20維獨立分量如圖3b,分量圖像上的高亮區域往往代表著品種間的差異區域。當然,壓縮成的維數越大,與原圖像差別越小,識別結果越準確,但數據量也相應的增加,識別效率變低。

圖3 20維PCA和ICA分量
2.3 統計優化特征
在進行品種識別時,每個統計特征都有一定的判決能力,如果用單個特征進行識別,則判決能力最強的特征可以作為品種間最大差異性狀。但是僅用一個特征往往不能有效區分多個品種。在使用模式分類系統進行診斷的時候,所用的特征越多,識別的正確率越高,但檢測的特征越多,花費的成本也越大。可見應該用盡量少的特征來進行品種識別是一個重要問題。數學上,可使用ROC(Receiver Operator Characteristic)曲線下的面積大小來對單個元素的判決能力進行評價,如圖4是對品種1和品種2識別時能力最強和能力最弱的2個特征ROC曲線,相應的ROC曲線面積在表2中列出。

圖4 2個品種間不同特征的ROC曲線

表2 統計量和兩類ROC面積
可見ROC在單特征判決力分析上是有效的,然而這種方法只能用在兩類分類中,在品種較多時受到限制。
2.4 品種識別
在啟動SVM進行識別之前,需要確定使用哪種核函數,然后就是確定核函數的參數gama及錯誤代價系數C的最佳取值。鑒于卓越的非線性分類性能,這里選擇了RBF核函數,采用文獻[13]的交叉驗證和網格搜索的參數選擇方法對這2個參數進行自動搜索。當采用基于統計特征時,使用前20個特征組合時,得到的C=512.0;gama=0.001 953 125,而對像素特征的前20個特征特征組合,優化的參數為C=2 048,gama=0.000 122 070 312 5。表3是采用訓練集上的交叉驗證法,在最優參數的情況下,采用不同類特征、不同的特征選擇和優化方法,及在不同特征維數情況下的識別效果和識別時間。可以看出,統計特征較像素特征、ICA特征優化較PCA特征優化均具有更好的識別性能。

表3 特征類型對識別效果的影響
表4是采用統計特征、在不同數量樣本容量、在不同的優化參數情況下的識別效果ICA優化特征識別效果。

表4 樣本數量和參數對識別率的識別效果的影響
從表4中可以看出:樣本的大小在一定程度上會影響到識別結果,可以預見,當訓練樣本集較大時識別系統會更為穩健,同時識別過程中的參數優化會影響到識別效果,但影響不大,只在1%左右。
由于種植環境的不同在種子外觀表現出不同的外觀差異。植物器官的大小取決于細胞的分裂與生長,形狀主要依賴于細胞分化,顏色則與顯色物質的代謝密切相關,紋理則是細胞分裂、生長、分化與代謝相互作用的最終形態體現。而品種識別率與廣義遺傳力之間存在高度的正相關關系[8]。
本研究處理的對象是通過掃描儀獲取的群體玉米籽粒的照片,要進行玉米種子檢驗,首先要進行籽粒的分割,將單個籽粒提取出來,本研究所用的方法是采用區域標記提取,但應注意在提取籽粒區域的時候經過反復試驗選擇是像素點數大于3 000的為玉米籽粒的區域,這時能夠將550個籽粒完全分割出來,分割成功率為100%,當此數值的大小會影響到分割的效果,試驗中,當此值過小時,會將一些籽粒的尖端區域單獨分割為一個圖像,可見這個是不合適的,但也從另一個角度說明尖端也可作為玉米品種識別的一個重要特征。
對于玉米特征的提取,可以采用像素灰度值作為原始特征,圖3是20維是主分量和獨立分量圖像,從分量圖像可以看出:玉米籽粒圖像之外的背景較暗,這是因為掃描時打開了掃描儀蓋板,使得背景為黑色,所以各個品種在掃描時背景較為均勻一致。原始空間中樣本背景差異較小,所包含的信息差異少,而圖3中的一些高亮區域即為品種差異比較大的區域,輪廓,尖端,胚部在品種間差異較大,這與經驗相符合。
從圖4所反映的ROC面積可以看出,單個元素的判決能力差別很大,而橢圓度和B均值的判決能力都達到了95%以上,可見這是2個最為優秀的特征,在籽粒品種外觀上表現出橢圓的程度不同,這與經驗一致,另外由于所選品種主題色調為黃色,差異較小,而在其他顏色空間的差異較大,如B的均值差異就是一個很好的特征元素。
籽粒在重建過程中隨著PCA維數的增加重建差距減小,當為200維度時差異為3.36%,基本與源圖像沒有差別,但這時數據已經被壓縮為200/7 500=2.67%,大大減少了后續運算的負擔。
本研究使用了兩類特征,一種是直接通過像素點的值測得,這種特征容易理解,獲取非常方便,第二類是采用通過圖像運算提取出來的特征,有基于顏色、形態和紋理的特征120個,通過PCA運算提取前20個主分量進行檢測,交叉驗證法得到的識別率分別為84.1%和94.7%,后一種特征比基于想素的特征提高了10%,可見通過精心的篩選特征將在很大程度上提高識別效果。作者曾嘗試玉米胚部的特征篩選,可以提供更多有價值的候選特征參量[6]。另外SVM模型的C和gama的取值影響到識別效果,表4中第一組C=8這是隨意指定的,C=512是通過優化算法優化后的結果,識別效果上,優化的參數下識別率較高,平均提高約0.3%。此外訓練樣本和測試樣本數影響到識別效果,訓練樣本集越大識別效果越好,當然,一般情況下只要滿足一定的數值(如100),即可滿足小樣本檢驗的需要。
種子的品種真實性種子質量檢驗的重要指標,種子品種的正確識別是進行種子檢驗的前提,識別過程中提取的特征,同時也為DUS測試提供了重要數據。基于圖像處理方法,研究了一種基于玉米外觀特征和多變量支持向量機(SVM)分類算法的玉米品種識別方法。通過對采用掃描儀獲得了大量圖像,提取了圖像的像素特征和統計特征,分別研究了主分量分析(PCA)和獨立分量分析(ICA)的特征提取和特征優化方法,并進一步考察了支持向量機(SVM)模式分類過程中的關鍵參數優化問題,由此建立了一種玉米品種識別模型。試驗的結果表明,該模型對11個品種550個籽粒的品種檢出率為97.17%,在同樣的情況下ICA提取的特征較PCA提取的特征識別率能提高3%左右,適當選擇外觀特征比使用像素特征識別率提高約10%,另外SVM參數影響到識別效果,但整體影響不大。本方法與結論對玉米種子檢驗和DUS測試都有積極的借鑒意義。
[1]Sakai N,Yonekawa S,Matsuzaki A.Two-dimensional image analysis of the shape of rice and its application to separating varieties[J].J Food Eng,1996,27:397-407
[2]Dubey B P,Bhagwat SG,Shouche SP,et al.Potential of artificial neural networks in varietal identification using morphometry of wheat grains[J].Biosyst Eng,2006,95(1):61-67
[3]韓仲志,趙友剛.基于計算機視覺的花生品質分級檢測研究[J].中國農業科學,2010,43(18):3882-3891
[4]郝建平,楊錦忠,杜天慶,等.基于圖像處理的玉米品種的種子形態分布及其分類研究[J].中國農業科學,2008,41(4):994-1002
[5]楊錦忠,郝建平,杜天慶,等.基于種子圖像處理的大數目玉米品種形態識別[J].作物學報,2008,34(6):1069-1073
[6]韓仲志,趙友剛,楊錦忠.基于籽粒RGB圖像獨立分量的玉米胚部特征檢測[J].農業工程學報,2010,26(3):222-226
[7]趙春明,韓仲志,楊錦忠,等.玉米果穗DUS性狀測試的圖像處理應用研究[J].中國農業科學,2009,42(11):4100-4105
[8]楊錦忠,張洪生,郝建平,等.玉米果穗圖像單一特征的品種鑒別力評價[J].農業工程學報,2011,27(1):196-200
[9]楊錦忠,張洪生,趙延明,等.玉米穗粒重與果穗三維幾何特征關系的定量研究[J].中國農業科學,2010,43(21):4367-4374
[10]Lindsay I Smith.A tutorial on Principal Components Analysis[EB/OL].[2002.2.26].http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf
[11]Aapo Hyv?rinen,Erkki Oja.Independent Component Analysis:Algorithms and Applications[J].Neural Networks,13(4-5):411-430,2000
[12]P.H.Chen,C.J.Lin,B.Sch?lkopf.A tutorial on v-support vector machines[J],Appl.Stoch.Models.Bus.Ind.2005,21,111-136
[13]Chih-Wei Hsu,Chih-Chung Chang,and Chih-Jen Lin.A Practical Guide to Support Vector Classi_cation[EB/OL].[2010-7-15].http://www.csie.ntu.edu.tw/~cjlin.
Study on the Influencing Factors of Corn Cultivars by Image Classification
Han Zhongzhi1Yang Jinzhong2Li Yanzhao1
(College of Information and Science,Qingdao Agricultural University1,Qingdao 266109)
(College of Agriculture and Plant Protection,Qingdao Agricultural University2,Qingdao 266109)
In order to research the key influencing factors in the corn varieties image recognition,we build a corn varieties recognition system based on PCA,ICA feature extraction and support vector machine(SVM)classification algorithm.11 varieties,each variety 50 image were taken with scanners.Based on pixel features and statistical characteristics of these images,some feature extraction and features optimization methods by PCA and ICA were studied respectively.And also,we inspected the key parameter optimization process in pattern classification based on support vector machine(SVM).Test results showed that the highest rate of varieties is 97.17%for 11 varieties of 550 kernels.In the same way,the recognition rate of kernels optimized by ICA characters is about 3%higher than PCA-based optimization.Recognition using statistical characteristic appropriate selection is about 10%higher than pixels features.In addition,the SVM parameters influenced the identifying effect,but the overall effect is not big.The method and the conclusion of this paper have positive significance for corn seed purity and varieties test.
maize seed,variety identification,independent component analysis(ICA),principal component analysis(PCA),support vector machine(SVM)
S513,S326
A
1003-0174(2012)10-0098-06
國家農業轉化基金(2010GB2C600255),山東省自然科學基金(ZR2009DQ019,ZR2010CM039),山東省科技攻關項目(2009GG10009057),青島市科技發展計劃(08-2-1-15-nsh,11-2-3-20-nsh)
2011-12-31
韓仲志,男,1981年出生,講師,博士,農業圖像處理
李言照,男,1960年出生,教授,作物信息技術及其應用