梁詩華,何金成,林毅鑫
(福建農林大學機電工程學院現代農業裝備研究所,福建福州 350002)
?
基于C-SVM的大米品種識別研究
梁詩華,何金成*,林毅鑫
(福建農林大學機電工程學院現代農業裝備研究所,福建福州 350002)
提出了一種基于支持向量機(C-SVM)區分大米品種的方法。首先對大米圖像進行閾值分割、平滑處理等預處理,并根據大米的粒型特點,提取米粒的面積、周長等6個形態特征。利用OrangeCanvas數據挖掘軟件先對linear和RBF核函數進行核參數選擇,并在Opencv3.0環境下,編程實現K-means、linear和RBF的3種大米品種識別方法,對10組混合大米圖像進行品種測試。試驗結果表明,支持向量機線性核函數對大米品種識別具有較高的預測穩定性,識別分類準確率約為99%。
品種;特征提取;K-means;linear;RBF
隨著機器視覺技術的發展和廣泛應用,利用機器視覺實現大米品種識別已受到廣泛關注。目前市面上出現許多摻假大米現象,以人工的方式辨別是否摻雜不同種類的大米,是一項費力費時的作業。因此,對大米品種識別是實現大米自動化分類的前提。
近年來,國內外對谷物的外觀品質研究較多,但對大米品種分類的研究主要還是在亞洲國家,且相對較少。對于大米品種研究主要集中在利用神經網絡算法上,周子立等[1]結合可見-近紅外光譜技術,利用小波變換、主成分分析,建立人工神經網絡模型,對不同品種大米進行預測分析,效果顯著,為大米品種鑒別提供一種新方法。方華等[2]基于模糊神經網絡對大米品種進行識別研究,識別精度接近 94%,對珍珠米的識別可達 100%。Abirami等[3]利用神經網絡模式識別大米品種,在米粒不發生重疊時,米粒分類的正確率達到98.7%,在米粒發生重疊時,米粒分類的正確率變為91.3%。林萍等[4]采用紅外光譜技術,用遺傳算法、偏最小二乘法與誤差逆傳播神經網絡相結合,對大米品種進行預測,提高了識別的精準度。近幾年來,也出現許多學者利用支持向量機和稀疏表示[5]對大米品種進行識別。JinXiaming等[6]是在高光譜數據下,分別比較研究LS-SVM、SVM中核函數linear與K-近鄰算法(KNN)在大米品種中的預測準確度,LS-SVM具有較好的準確度。
綜上研究發現,利用神經網絡對大米進行識別分類較多,對于米粒這種小樣本集的分類,實際上不需要獲取無限多的訓練樣本,支持向量機則是針對小樣本問題進行學習和分類,解決神經網絡中無法避免的局部極小問題,增強了非線性分類能力[7-8]。雖然目前已存在利用支持向量機對大米品種進行分類的研究,但都是通過采集大米的高光譜數據進行研究分析,成本高。從目前研究來看,還沒有學者直接利用大米特征參數中的原始數據,比較分析支持向量機中線性核函數和徑向基核函數之間的預測準確度的差異。因此,筆者根據大米粒型特征,提取米粒的面積、周長、長、寬、長寬比及圓度6個特征參數,并根據這些特征參數,比較分析SVM中線性核函數和徑向基核函數預測準確度,并與最傳統的聚類方法K-均值聚類算法進行分析比較,為后續大米品種檢測提供依據。
1.1試驗設備以相機獲取米粒圖像,容易受到光照的影響,且不同環境光源下所受到的影響差異較大,相比之下,以掃描儀獲取的圖像較為穩定,采用300dpi進行灰度掃描,圖像以JPG格式進行存儲。為了防止米粒發生黏連、重疊的問題,該研究使用置米盤將米粒分開[9],置米盤樣式如圖1所示。

圖1 試驗用置米盤Fig.1 Tested rice tray
1.2試驗材料試驗所用的大米品種為江西省岱寶山產的軟丁優米和黑龍省哈爾濱產的東北米。
2.1圖像預處理圖2a為采集的樣品圖像,運用Otsu算法來設定最優閾值,將圖像中的背景和目標進行分離(如圖2b),再將其進行二值化處理。為了能夠消除圖像的噪聲,對大米圖像進行中值濾波(如圖2c),濾波后圖像輪廓清晰,顆粒狀噪聲得到很好地抑制。最后,利用canny算法提取大米輪廓,如圖2d所示。

圖2 大米灰度圖像中提取的大米圖像Fig.2 Picking out of rice kernel image from gray
2.2特征參數的獲取根據前人研究成果所得[1,10-12],大米的粒型主要取決于面積、周長、長、寬、長寬比及圓度6個幾何特征參數,特征參數見表1。

表1 大米粒型的特征參數
注:已將圖像像素點個數轉為實際尺寸,單位mm。
Note:Thenumberofpixelshasbeentransferredtotheactualsizeoftheimage,unitismm.
3.1支持向量機支持向量機(SupportVectorMachines,SVM)是建立在統計學習理論基礎之上的新一代機器學習算法,主要解決小樣本、非線性及高維模式識別問題,其基本思想是通過核函數將數據從原始特征空間映射到高維特征空間,來實現最優分類超平面,并用此超平面實現對未知樣本的判斷[13]。
SVM常用核函數主要有線性核函數、多項式核函數、徑向基核函數和sigmoid核函數。該研究選用最常見的2種核函數——線性核函數和徑向基核函數,對大米不同品種進行比較分析。
線性核函數(LinearKernelFunction)表示如下:
K(x,y)=x·y
(1)
徑向基核函數(RadicalBasisFunctionKernelFunction,RBF)表示如下:
K(x,y)=exp(-g|x-y|2)
(2)
式中,g為參數。
SVM分類器性能的關鍵是參數的選擇。Linear僅受邊界參數C的影響,而RBF同時受到邊界參數C和核寬度的影響。邊界參數C是結構風險和樣本無誤差的綜合考慮,其值與訓練可容忍的誤差相關,而核寬度g的取值與輸入的樣本范圍有關[14]。在訓練前,將訓練樣本導入OrangeCanvas數據挖掘軟件進行核參數預判,獲取Linear邊界參數C=1,RBF則選用C=1、g=0.125,分類效果最佳,識別準確率均可達到99%以上。
3.2K-均值聚類算法K-均值聚類算法(K-means)是一種聚群、非監督學習算法,它主要受初始位置的選擇、K值、度量距離3個方面因素的影響。該算法主要步驟是根據K值選定,隨機設定K個中心點作為聚類中心,再將除了聚類中心點之外的數據點分配給最鄰近的中心點,分配完成后,將中心點移動到所表示的聚類的平均中心位置處,重復迭代上述步驟,直到準則函數收斂。通常采用的準則函數為平方誤差和準則函數,即SSE(sumofthesquarederror),其定義如下:

(3)
式中,SSE是數據庫中所有對象的平方誤差總和;p為數據對象,mi是簇Ci的平均值。
3.3算法評價與指標為了說明分類方法的準確性,采用正確率(Accurate,ACC)、命中率(Precision,P),召回率(Recall,R)及F1度量(Recall和Precision的調和平均數)4個計算指標對結果進行評價。指標計算如式(4)~(7)所示:
(4)
Precision=TP/(TP+FP)
(5)
Recall=TP/(TP+FN)
(6)
(7)
式中,TP表示正確預測到正例的數量;TN表示正確預測到負例的數量;FP表示負例預測到正例的數量;FN表示正例預測到負例的數量。
ACC是表示評估分類器好壞的指標,正確率越高,分類器越好。命中率是精確度的度量,是指分類模型判為正的所有樣本中有多少是真正的正樣本。召回率則是覆蓋面的度量,是所有正樣本有多少被分類模型判為正樣本。F1是將命中率和召回率的方法組合成一個度量指標,它賦予命中率和召回率相等的權重。該研究將用上述指標進行對分類模型的判斷,其值越大,表示分類效果越好。
4.1數據處理與分析為了證實所提取的大米特征能反映大米的真實信息,采用主成分分析方法對所提取的特征值進行分析。大米粒型特征值的標準誤差、各特征值的貢獻率以及累計貢獻率見表2。
從表2 可知,所提取的大米特征參數基本上能夠反映大米粒型的全部信息。

表2 大米粒型參數的主成分分析
注:主成分編號與表1的特征參數相匹配。
Note:Theprincipalcomponentnumbermatchthecharacteristicparametersoftable1.
4.2檢測結果分析該研究分別選取1 000粒大米作為SVM訓練樣本,選取10張隨機混合大米圖像進行預測。操作系統為WindowsXP,以Qt5.5.1為開發工具,借助Opencv3.0進行圖像處理和分析。編程實現K-means、Linear和RBF的大米品種識別方法。表3是利用K-means、Linear和RBF3種方法對2種大米識別結果比較。從表3可知,對于2種大米測試樣本,K-means、linear和RBF識別的準確率分別為 98.75%、98.83%和96.01%。在這3類模型中,K-means表現出更低分類準確率,原因在于它是根據每張大米圖像樣本信息進行分聚類,沒有統一標準,而SVM是事先對樣本進行訓練,系統已具有大米品種特征參數,預測時,只需根據每粒大米的特征參數進行歸類。
表3linear、RBF和K-means對2種大米品種識別結果比較
Table3Comparisonofidentificationresultswithlinear,RBFandK-meansfortworicevarieties

模型Models正確率Correctrate(ACC)命中率Hitrate(P)召回率Recallrate(R)度量Measurement(F1)Linear0.98750.97080.98240.9765RBF0.98830.99460.85990.9224K-means0.96010.96850.91410.9405
同時,試驗結果表明,Linear比RBF召回率高,即說明分類器正確預測正例的比例高,預測穩定性比較好。Linear具有較高的F1值,則說明大米在進行品種識別中,Linear優于其他2種算法。
該研究使用平板掃描儀獲取大米粒型圖像,編程實現對大米外觀特征提取與檢測算法,并利用SVM與K-means的方法,對2種大米進行了識別研究。結果表明,利用SVM進行大米識別,Linear和RBF具有相似的分類準確率,準確率約為99%。但是Linear的預測穩定性要比RBF核函數的預測穩定性要高。相比于SVM分類效果,K-means具有相對較低的準確率,但K-means無需對樣本訓練進行事先的訓練,節省了大部分的時間,且相對于小樣本的數據,運算時間短,豐富了大米圖像識別研究,為大米外部品質識別提供了客觀可行的方法,同時也為其他的農作物產品品種識別與鑒定提供參考價值。該裝置具有良好的擴展性,我國稻米種類繁多,后續將對更多品種進行廣泛的取樣與試驗,但是目前該研究只針對2種粒型的大米進行研究,還需要對不同品種和分類算法展開試驗研究等進一步校正和完善,從而建立大米外觀品質識別評價體系,為進一步實現大米在線檢測和自動分級提供基礎。
[1] 周子立,張瑜,何勇,等.基于近紅外光譜技術的大米品種快速鑒別方法[J].農業工程學報,2009,25(8):131-134.
[2] 方華,孫翠霞,張虎.基于模糊神經網絡的大米品種識別算法研究[J].安徽農業科學,2012,40(29):14617-14619.
[3]ABIRAMIS,NEELAMEGAMP,KALAH.Analysisofricegranulesusingimageprocessingandneuralnet-workpatternrecognitiontool[J].Internationaljournalofcom-puterapplications,2014,96(7):20-24.
[4] 林萍,陳永明. 利用可見近紅外光譜技術快速鑒別大米品種[J].江蘇農業科學,2015,43(12):320-323.
[5] 楊蜀秦,寧紀鋒,何東健.基于稀疏表示的大米品種識別[J].農業工程學報,2011,27(3):191-195.
[6]JINXM,SUNJ,MAOHP,etal.DiscriminationofricevarietiesusingLS-SVMclassificationalgorithmsandhyperspectralData[J].Advancejournaloffoodscienceandtechnology,2015,7(9):691-696.
[7]NIBLACKW,BARBERR,EQUITZW,etal.TheQBICproject:Queryingimagesbycontent,usingcolor,textureandshape[J].SPIE,1993,19(8):173-187.
[8]CHAPELLEO,HAFFNERP,VAPNIKVN,etal.Supportvectormachinesforhis-togram-basedimageclassification[J].IEEETransonneuralnetworks,1999,10(5):1055-1064.
[9] 許秉宗.米粒影像特征擷取與分群演算法之探討[R].2014.
[10] 袁佐云,牛興和,劉傳云.基于最小外接矩形的稻米粒型檢測方法[J].糧食與飼料工業,2006(9):7-8.
[11] 吳才章,步東偉.稻米粒型特性參數測試系統的開發[J].農業工程學報,2010(12):131-135.
[12] 張聰,張慧.基于Canny算法的大米粒型邊緣檢測應用研究[J].糧食與飼料工業,2008(6):3-4.
[13] 梁龍,房桂干,吳珽,等.基于支持向量機的近紅外特征變量選擇算法用于樹種快速識別[J].分析測試學報,2016(1):101-106.
[14] 劉偉,劉長虹,鄭磊.基于支持向量機的多光譜成像稻谷品種鑒別[J].農業工程學報,2014,30(10):145-151.
Thispaperproposedamethodbasedonsupportvectormachine(C-SVM)todistinguishricevarieties.Atfirst,itdidtheimagethresholdsegmentation,thenproceededthesmoothprocessing.Andaccordingtothecharacteristicsofricegrainshape,extractedarea,perimeterandsoon,usingOrangeCanvasdataminingsoftwaretoselectkernelparametersoflinearandRBFkernelfunction,andaccomplishricevarietiesrecognitionbyprogramingusingKmeans,linearfunctioninSVMandRBFmethodsunderOpencv3.0.Tengroupsofmixedricewereconductedtherecognitiontest,theresultsshowedthatlinearfunctioninSVMcouldidentifyricevarietiesinasuperiorpredictionstabilitywithclassificationaccuracyatabout99%.
Varieties;Featureextraction;K-means;Linear;RBF
福建省自然科學基金項目(2010J01272);福建省福建農林大學現代農業裝備及自動化創新平臺項目(612014017)。
梁詩華(1992- ),女,福建連江人,碩士研究生,研究方向:圖像處理。*通訊作者,副教授,碩士生導師,從事生物圖像識別與處理研究。
2016-06-22
S24
A
0517-6611(2016)23-201-03
TheIdentificationResearchofRiceVarietiesBasedonC-SVM
LIANGShi-hua,HEJin-cheng*,LINYi-xin(InstituteofModernAgriculturalEquipment,CollegeofMechanicalandElectronicEngineering,FujianAgricultureandForestryUniversity,Fuzhou,Fujian350002)