吳正敏,曹成茂,王二銳,羅 坤,張金炎,孫 燕
?
基于形態特征參數的茶葉精選方法
吳正敏,曹成茂※,王二銳,羅 坤,張金炎,孫 燕
(安徽農業大學工學院,合肥 230036)
夏秋季節的梗與葉片的色澤差異小,采用傳統色選機難以實現精選。該文提出依據茶葉形態特征的多特征向量分選法,以期實現茶葉精選算法快速建模,提高分選精度。采集動態下落過程中的茶葉圖像,開發基于圖像處理的特征提取程序自動提取多組茶葉樣本形態特征參數,采用隨機森林算法判定特征權重并進行特征選擇,建立邏輯回歸、決策樹和支持向量機3種不同分類算法對樣本進行分類,驗證特征的可分性,并分析不同分類算法對復雜茶葉樣本分類效果的影響。試驗結果表明:1)形態特征參數圓形度的重要性權重最大,為0.467,最終將重要性閾值設定為0.05,選擇圓形度、矩形度、線性度Len、周長和緊湊度5種形態特征向量建立數據集;2)在測試數據集中,邏輯回歸(logistic regression, LR)、決策樹(decision tree, DT)和支持向量機(support vector machine, SVM)3種分類算法的平均準確率為0.924,說明所選特征具有明顯的可分性;3)根據輸出的混淆矩陣,3種分類算法中支持向量機算法識別效果最好,準確率和調和平均數(1)得分分別為93.8%和94.7%。該方法可快速應用于其他類型茶葉精選和茶葉實際生產過程,有效提高茶葉品質。
形態特征;決策樹;支持向量機;邏輯回歸;隨機森林;茶葉
茶葉隨著生長季節的變化,其成品茶色澤也在改變,春茶茶葉偏綠,梗、葉色澤差異性較大,色選分離效果較好,夏秋茶毛茶偏墨綠,梗、葉色澤差異較小[1],色選機基于茶葉良品與不良品光學特性分選難度很大;茶葉有六大品種,多種加工工藝,其成品茶形態特征復雜,如何快速建立不同類型茶葉形選模型,有效提高良品與不良品的分離率,依然是茶葉精加工的關鍵問題。本文研究對象大紅袍是烏龍茶,加工過程中進行了輕發酵,其梗葉色澤差異更小,分離難度更大;此外,夏秋茶在加工過程中多經過揉捻環節,毛茶含梗率較高,必須有效分離,以提高茶葉品質。
近年來機器視覺廣泛應用于農產品分選[2-5],在茶葉識別、品質鑒定和分選領域,楊福增等[6]針對清明期“午子仙毫”,提取茶葉G分量,綜合茶葉嫩芽形狀特征,最終的識別準確率為94%,董春旺等[7]基于機器視覺和工藝參數對針芽形綠茶外形進行評價,宋彥團隊[8]針對7個等級祁門紅茶,建立了數字化等級鑒定方法,Borah等[9-11]研究了基于紋理特征的茶葉分類方法,Cimpoiu等[12]采用神經網絡實現對茶葉分類。在茶葉精選環節,張春燕等[13]提出基于最小風險貝葉斯分類器的茶葉茶梗分類方法,高達睿等[14]建立了基于茶葉顏色和形狀特征的茶葉分選系統,但并不適用于顏色差異小、形態特征復雜的茶葉樣本。本文基于茶葉形態特征提出了一種多特征向量下茶葉良品與不良品分選快速建模的方法,建立多個復雜形態特征描繪子,自動判別特征向量權重,快速選擇有效特征;在Python3環境中開發邏輯回歸、決策樹和支持向量機3種算法實現茶葉精選,采用網格搜索和K折交叉驗證方法優化算法模型,進行特征向量和分選算法評估。
試驗中選擇武夷山大紅袍作為樣本,在單通道茶葉色選機中采集大紅袍下落過程中的樣本圖像如圖1所示,其中葉樣本即良品如圖1a所示,梗樣本即不良品如圖1b所示,梗樣本由單梗、梗葉纏繞、一梗一葉及多葉等組成,其形態極不規律,部分梗與葉的形態相似度較高,梗葉分離難度非常大,為更好地建立特征描繪子,本文先對圖像進行預處理,再提取特征參數。
批量加載樣本圖像,提取藍色平面,再進行二值化,由于樣本圖像目標與背景區分度較大,選擇4種較為簡單的閾值分割方法對做過同樣處理的樣本圖像進行閾值分割,全局閾值Otsu法閾值分割和雙峰法分割圖像的效果更好,細節保留更為完整;迭代法全閾值分割后的圖像和局部閾值分割后的圖像細節丟失較多,為保證后期提取特征參數的準確性,迭代法全閾值分割和局部閾值分割圖像的方法不宜采用,考慮到全局閾值Otsu法閾值分割較雙峰法分割圖像更為簡單,處理更快,后期樣本圖像均采用全局閾值Otsu法閾值分割進行圖像閾值分割。

圖1 樣本圖片
樣本形態特征描繪子周長、圓形度、線性度等參數的提取需要圖像的邊緣信息,本文選擇Roberts、Sobel、Prewitt、LOG、Canny這5種常用的邊緣算子進行邊緣提取,總體來看,Canny算子提取的邊緣細節最完整,不容易受噪聲干擾,能夠檢測到真正的弱邊緣。故后期樣本圖像邊緣信息采用Canny算子提取。
根據預處理后的圖像信息提取基本形態特征面積、周長、長軸、短軸[15]。其中:面積表示茶葉圖像邊界線內包含的所有像素個數;周長由茶葉樣本圖像邊界像素點的總和來計算;長軸為區域最小外接矩形的長;短軸為區域最小外接矩形的寬。
大紅袍樣本基本形態特征向量受樣本成像過程各因素影響較大,因此由基本形態特征建立復雜特征描繪子圓形度、直徑、緊湊度、矩形度、細長度、對角線長度和線性度如表1所示。

表1 復雜特征描繪子
注:公式中、、DiaLen、、、、分別為代表圓形度、直徑、緊湊度、矩形度、細長度、對角線長度、線性度、面積、周長、長軸和短軸。
Note:,,DiaLen,,,andrepresent the circularity,diameter, compactness, rectangularity, diagonal length, slightness, linearity,area, perimeter, long and short axis length
根據描繪子基本特性,開發特征提取算法,從樣本圖像中提取出周長、長軸、短軸、圓形度、直徑、緊湊度、矩形度、細長度、對角線長度Dia、線性度Len 10個特征描繪子的參數值。
根據圖像預處理流程和特征描繪子描述方法,開發茶葉形態特征自動提取算法得到茶葉形態特征的原始數據集。基本步驟如下:
1)批量讀取待處理圖片×numm(圖片總數);
2)定義全局變量Sum_num(樣本總數)、Data(數據集)
3)對于每一幅讀取的RGB圖像,均提取圖像藍色平面,采用最大類間方差法分割圖像,得到二值化圖像,濾除干擾對象,基于Canny算子提取邊緣,確定邊緣連通域和區域連通域,統計每張圖片上的樣本總數num;
4)計算每個樣本的形態特征參數Data=[LenDig]和樣本質心;
5)經過num×numm次循環,得到所有樣本的特征數據。
為實現茶葉分類算法的快速開發和優化,本文采用隨機森林算法判斷特征向量的重要性[16-18],通過隨機森林中所有決策樹得到的平均不純度衰減來度量特征的重要性[19],基本計算方法如式(1)所示。

式中erroob1為袋外數據未加入干擾的數據誤差,erroob2為袋外數據所有樣本的特征加入噪聲干擾后的誤差,為隨機森林中樹的棵數。
計算出每個特征的重要性,設定一定的閾值,進行數據壓縮,將提取的大紅袍原始樣本形態特征數據集進行歸一化處理,基于Python3.0和scikit-learn庫編寫基于隨機森林算法的特征重要性獲取算法[20],得出各特征數據重要性如圖2所示。

圖2 特征重要性
如圖2所示,圓形度權重最大,為0.467,細長度最小,為0.029,可以看出圓形度這一特征在大紅袍梗、葉分離中貢獻率較大,該特征是有面積與周長的比值得到,從一定程度上消除了環境變化、光學等因素的影響,有較強的適應性,在其他類型茶葉梗、葉分離中可參考,在一些茶葉分級、分類的文獻中也有所運用,如高睿達[14]在六安瓜片的分級中便使用了該特征。為減少分類時的運算量,將權重閾值設為0.05,最終選擇圓形度、矩形度、線性度Len、周長和緊湊度5種特征向量,用于驗證邏輯回歸、決策樹和支持向量機3種算法實現大紅袍良品、不良品分離的效果。
大紅袍良品與不良品分類是典型的二分類問題,考慮到算法的易用性和準確率,文中選擇了邏輯回歸、決策樹和支持向量機3種算法,邏輯回歸是一種簡單卻又快速而強大的算法;決策樹的優勢在于它的模型可見性,能夠清晰地看到它每一步是如何判定和執行;支持向量機一直在傳統機器學習算法中占據重要地位,也是在目前眾多實際運用如茶葉色選機優先選擇的算法。為更貼近實際運用,本文最終選擇這3種算法進行分類結果的驗證。根據特征選擇獲得的特征向量,建立數據集,用于分類算法的訓練、驗證和測試。機器學習系統基本結構如圖3所示。

圖3 機器學習系統基本結構
選擇480個大紅袍樣本,采集樣本動態下落過程中的圖片,批量輸入到茶葉形態特征自動提取算法程序中,建立樣本形態特征數據集,首先將原始數據進行歸一化處理,預處理后的特征向量進行隨機分割,80%用于訓練,20%用于測試,采用10折交叉驗證選擇分類模型最優參數,隨機將訓練數據集劃分為10份,其中9份用于訓練,剩下的1份用于驗證。根據上述機器學習系統參數優化過程獲得邏輯回歸、決策樹和支持向量機最優模型統計訓練和測試數據集最終的評價結果。根據分類器輸出的混淆矩陣真正(TP)、真負(TN)、假正(FP)及假負(FN)的樣本數量,利用式(2)公式計算準確率Accuracy、真正率Precision、召回率Recall和調和平均數F1作為分類算法的評價指標[21]。

邏輯回歸是經典的二分類算法,也可以實現多分類[22-23]。本文主要針對大紅袍的梗葉進行分離,屬于二分類問題,建立式(3)預測函數。

對于二分類任務(0,1),整合兩種情況下的預測結果,得到(4)式


(5)
參數更新

式中?表示學習率,為樣本個數,表示第個樣本,表示第個樣本的第個特征值。
文中采用網格搜索調優超參的方法確定最佳正則化懲罰系數,如圖4輸出學習曲線和驗證曲線對優化過程進行觀察。

圖4 學習曲線和驗證曲線
從圖4a可以看出訓練數據準確率與驗證集偏差較小,說明模型泛化能力較強,輸入樣本數據集,執行網格搜索程序后,從圖4b驗證曲線也可以看出懲罰系數的最優值在10左右,設置過低時,會導致分類準確率下降,而大于10以后,模型基本穩定。
決策樹是一種樹型結構,其中每個內部節點表示在一個屬性上的測試,每個分支代表一個測試輸出,每個葉節點代表一種類別[24-25]。建立決策樹的關鍵是選擇哪個屬性作為分類依據,根據不同的目標函數,建立決策樹主要有信息增益、信息增益率、Gini系數3種算法[26],其中:
信息增益:表示得知特征的信息而使得類的信息的不確定性減少的程度,定義為訓練數據集的經驗熵()與特征給定條件下的經驗條件熵()之差,即

信息增益率

Gini系數

式中為類別,||表示樣本個數,|C|為屬于類C的樣本個數。
上述3種分類依據,信息增益受數據樣本自身熵影響很大;信息增益率考慮了自身熵的影響;Gini系數在特征數據越純時,值越低,應用更為廣泛。
采用決策樹算法對大紅袍梗、葉樣本進行分類試驗,選擇Gini系數作為分類依據,優化后的樹模型參數最小葉子節點個數設為4,最大深度設為5。
SVM作為傳統機器學習的一個非常重要的分類算法,它是一種通用的前饋網絡類型。根據核函數的不同可分為線性支持向量機和非線性支持向量機,支持向量機算法的主要影響因素是核函數的選擇和相應參數的設置[26-30]。文中采用網格搜索調優超參的方法確定最佳正則化懲罰系數和核函數類型及相應參數,基本算法實現步驟如下:
文中采用網格搜索調優超參的方法確定最佳正則化懲罰系數和核函數類型及相應參數,基本算法實現步驟如下:
入樣本數據
Data={(11,12,13,14,15,1),(21,22,23,24,25,2),...,
(x1,x2,x3,x4,x5,y)} (10)
其中特征向量個數為5,樣本數量,y∈{+1,?1},x為第個茶葉樣本實例,y為x的類標記:當y=+1,稱x為良品;當y=?1,稱x為不良品。
2)首先將原始數據進行歸一化處理,預處理后的特征向量進行隨機分割,80%用于訓練,20%用于測試,采用10折交叉驗證,隨機將訓練數據集劃分為10份,其中9份用于訓練,剩下的1份用于驗證。以準確率作為參數優化的評價參數,根據這些獨立且不同的數據子集得到的模型性能評價結果,計算出平均性能,這樣可以降低對數據的敏感性,提高模型的泛化能力,結果如圖5所示。

圖5 學習曲線和驗證曲線
從圖5a學習曲線可以看出訓練數據集和測試數據集的準確率之間有較小差距,存在輕微過擬合現象,輸入樣本數據集,執行網格搜索程序后,最終輸出的最佳參數組合是:懲罰系數=10,核函數kernel=徑向基函數(radial basis function,rbf),核參數gamma=0.1,從圖5b驗證曲線也可以看出懲罰系數的最優值在10左右,設置過低時,會導致分類準確率下降,設置過高會導致過擬合現象更加嚴重。






選擇圓形度、矩形度、線性度Len、周長和緊湊度,5種特征向量建立了樣本特征數據集,在3種最優模型條件下得到完整訓練集和測試集的評價指標得分如表2所示,3種不同分類算法在訓練集與測試集上分類結果偏差如圖7所示。

表2 3種不同分類算法不同評價指標的得分表

圖7 3種不同分類算法在訓練集與測試集上分類結果偏差
試驗結果表明:1)如表2所示3種不同分類算法的訓練數據集準確率、真正率、召回率和調和平均數1平均得分都達到了0.95左右,測試數據集準確率、真正率、召回率和1平均得分都超過了0.92,說明建立的大紅袍形態特征描繪子具有一定的可分性,效果較佳,從圖6、圖7也可以看出,所選5種特征用于分類時最高準確率比單一特征向量分類時最高正確率、最低正確率分別提高了1%和36.2%,說明特征描繪子的數量及重要性會對分類結果產生重要影響,多特征向量條件下進行特征選擇和模型比較可以實現模型快速篩選,有效減少算法開發時間;
2)從3種不同類型分類算法在樣本形態特征數據集上的分類結果看,支持向量機算法的效果最好,測試試驗結果中準確率和1達到了93.8%和94.7%,而且其在訓練數據集、測試數據集準確率、真正率、召回率和1得分均超過了0.965和0.93,但支持向量機算法在訓練集和測試集上的4種評價指標得分偏差均大于2%,準確率提高的過程也伴隨著過擬合風險的增大;
3)從準確率和召回率這2個評價指標上看,邏輯回歸和決策樹在測試集得分均相同,但其他2個指標決策樹算法都略高于邏輯回歸算法,從這一結果我們可以看出多個評價指標更有利于我們選出最佳的分類算法。
4)從圖7中3種不同分類算法不同評價指標訓練集與測試集分類得分偏差我們可以看出,邏輯回歸算法的泛化能力更強,決策樹算法產生過擬合的風險更大,而從表2我們得出邏輯回歸算法的得分最低,支持向量機的得分最高,所以在評價特征向量可分性時,可以選擇多個多種算法評價結果均值作為最終的評判依據。
為更好地分析分類算法的效果,以及分析茶葉形態特征描繪子對分類的影響,算法開發過程中對樣本圖像做了可視化處理,對判定為不良品的樣本進行形心點標記,這也是模擬動態檢測過程,通過給定的形心點位置,可以有效剔除不良品。如圖8所示,圖8a葉樣本有1個樣本被標記,即被誤識別為梗;圖8b梗樣本有2處未被標記的,即梗未被識別出來,由于樣本形態太過復雜多樣,在分類過程中還是存在少數樣本被誤分的情況。

圖8 測試結果
本文基于茶葉形態特征建立了一種多特征向量下茶葉良品與不良品分選快速建模的方法,驗證了邏輯回歸、決策樹和支持向量機3種分類算法在大紅袍樣本數據集上準確率、真正率、召回率和1,4種評價指標的評價效果,最終的試驗結果表明:
1)采用隨機森林算法進行特征重要性判定,在多特征向量下選擇圓形度、矩形度、線性度Len、周長和緊湊度,5種形態特征向量進行大紅袍良品與不良品分選,效果明顯;
2)在特征選擇過程中,利用多種分類算法疊加驗證結果更準確;
3)3種算法中支持向量機算法分類效果最佳,但在試驗中也發現,分類算法模型的參數選擇對最終結果影響較大,采用交叉驗證等參數優化方式可以有效提高模型的泛化能力和分類準確率;
4)該方法也可快速開發其他類型的茶葉精選算法模型,試驗中選擇的是大紅袍動態下落過程中的圖片,符合茶葉精選過程的實際工況,可推廣到茶葉實際生產的精加工過程中。
[1] 劉躍云. 夏秋綠茶色澤提升技術研究[D]. 重慶:西南大學,2011.
[2] 彭江南,謝宗銘,楊麗明,等. 基于Seed Identification軟件的棉籽機器視覺快速精選[J]. 農業工程學報,2013,29(23):147-152.
Peng Jiangnan, Xie Zongming, Yang Liming, et al. Rapid selection of cottonseed machine vision based on seed identification software[J].Transactions of the Chinese Society of Agricultural Engineering(Transactions of the CSAE), 2013, 29(23): 147-152. (in Chinese with English abstract)
[3] Kurtulmus F, Alibas I, Kavdir I. Classification of pepper seeds using machine vision based on neural network[J]. International Journal of Agricultural & Biological Engineering, 2016, 9(1): 51-62.
[4] Wang Weilin, Li Changying. A multimodal machine vision system for quality inspection of onions[J]. Journal of Food Engineering, 2015, 166: 291-301.
[5] 王紅軍,熊俊濤,黎鄒鄒,等. 基于機器視覺圖像特征參數的馬鈴薯質量和形狀分級方法[J]. 農業工程學報,2016,32(8):272-277.
Wang Hongjun, Xiong Juntao, Li Zouzou, et al. Potato grading method of weight and shape based on imaging characteristics parameters in machine vision system[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(8): 272-277. (in Chinese with English abstract)
[6] 楊福增,楊亮亮,田艷娜,等. 基于顏色和形狀特征的茶葉嫩芽識別方法[J]. 農業機械學報,2009,40(增刊1):119-123.
Yang Fuzeng, Yang Liangliang, Tian Yanna, et al, Recognition of the tea sprout based on color and shape features[J]. Transactions of the Chinese Society for Agricultural Machinery, 2009, 40(Supp.1): 119-123. (in Chinese with English abstract)
[7] 董春旺,朱宏凱,周小芬,等. 基于機器視覺和工藝參數的針芽形綠茶外形品質評價[J]. 農業機械學報,2017,48(9):38-45.
Dong Chunwang, Zhu Hongkai, Zhou Xiaofen, et al. Quality evaluation for appearance of needle green tea based on machine vision and process parameters[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(9): 38-45. (in Chinese with English abstract)
[8] 宋彥,謝漢壘,寧井銘,等. 基于機器視覺形狀特征參數的祁門紅茶等級識別[J]. 農業工程學報,2018,34(23):279-286.
Song Yan, Xie Hanlei, Ning Jingming, et al. Grading Keemun black tea based on shape feature parameters of machine vision[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(23): 279-286. (in Chinese with English abstract)
[9] Borah S, Hines E L, Bhuyan M. Wavelet transform based image texture analysis for size estimation applied to the sorting of tea granules[J]. Journal of Food Engineering, 2007, 79(2): 629-639.
[10] Laddi A, Sharma S, Kumar A, et al. Classification of tea grains based upon image texture feature analysis under different illumination conditions[J]. Journal of Food Engineering, 2013, 115(2): 226-231.
[11] Tang Zhe, Su Yuancheng, Er M J, et al. A local binary pattern based texture descriptors for classification of tea leaves[J]. Neurocomputing, 2015, 168(30): 1011-1023.
[12] Cimpoiu C, Cristea V M ,Hosu A, et al. Antioxidant activity prediction and classification of some teas using artificial neural networks[J]. Food Chemistry, 2011, 127(3): 1323-1328.
[13] 張春燕,陳筍,張俊峰,等. 基于最小風險貝葉斯分類器的茶葉茶梗分類[J]. 計算機工程與應用,2012,48(28):187-192,239.
Zhang Chunyan, Chen Sun, Zhang Junfeng, et al. Classification of tea and stalk based on minimum risk Bayesian classifier[J]. Computer Engineering and Applications, 2012, 48(28): 187-192, 239. (in Chinese with English abstract)
[14] 高達睿. 基于顏色和形狀特征的茶葉分選研究[D]. 合肥:中國科學技術大學,2016.
Gao Darui. Rsearch on the Tea Sorting Based on Characteristic of Color and Shape[D]. Hefei: University of Science and Technology of China, 2016. (in Chinese with English abstract)
[15] 劉希. 基于彩色線陣CCD的茶葉分選控制系統設計[D].南京:南京林業大學,2014.
Liu Xi. The Design of Tea Sorter Control System Based on Color Linear CCD[D]. Nanjing: Nanjing Forestry University, 2014. (in Chinese with English abstract)
[16] Sebastion Rasch. Python Machine Learning[M]. 高明等譯.北京:機械工業出版社,2017.
[17] Breimen L. Random Forests[J]. Machine Learning, 2001, 45(1):5-32.
[18] 徐少成,李東喜. 基于隨機森林的加權特征選擇算法[J].統計與決策,2018,34(18):25-28.
Xu Shaocheng, Li Dongxi. Weighted feature selection algorithm based on random forest [J]. Statistics & Decision, 2018, 34(18): 25-28. (in Chinese with English abstract)
[19] Strobl C, Boulesteix A L, Kneib T, et al. Conditional variable importance for random forests[J]. BMC Bioinformatics, 2008, 9(1): 1-11.
[20] Verikas A, Gelzinis A, Bacauskiene M. Mining data with random forests: A survey and results of newtests[J]. Pattern Recognition, 2014, 44(2): 330-349.
[21] Powers, David M W. Evaluation: From precision, recall and F-measure to ROC, informedness, markedness and correlation[J]. Journal of Machine Learning Technologies, 2011, 2(1): 37-63.
[22] 金志剛,蘇菲. 基于FSVM與多類邏輯回歸的兩級入侵檢測模型[J]. 南開大學學報:自然科學版,2018,51(3):1-6.
Jin Zhigang, Su Fei. A two-stage model intrusion detection system based on SVM and multi-class logistic regression[J]. Acta Scientiarum Naturalium Universitatis Nankaiensis, 2018, 51(3): 1-6. (in Chinese with English abstract)
[23] 劉敏潔,許昍,王建華,等. 基于人工神經網絡和二元邏輯回歸的甜玉米種子生活力檢測模型研究[J]. 中國農業大學學報,2018,23(7):1-10.
Liu Minjie, Xu Xuan, Wang Jianhua, et al. Seed viability testing model of sweet corn based on artificial neural network and binary logisitic regression[J]. Journal of China Agricultural University, 2018, 23(7): 1-10. (in Chinese with English abstract)
[24] Chandra B, Kothari R, Paul P. A new node splitting measure for decision tree construction[J]. Pattern Recognition, 2010, 43(8): 2725-2731.
[25] Liu W, Chawla S, Cieslak D A, et al. A Robust decision tree algorithm for imbalanced data sets[C]//Proceedings of the SIAM International Conference on Data Mining. America: SIAM, 2010, 766-777.
[26] Umano M, Okamolo H, Hatono I, et al. Fuzzy decision trees by fuzzy ID3 algorithm and its application to diagnosis system[C]//Proceedings of the 3 IEEE International Conference on Fuzzy Systems. New York: IEEE Press, 1994, 3: 2113-2118.
[27] Ju Hongyun, Zhang Junben, Li Chaofeng et al. Remote sensing image based on-means and SVM automatic classification method[J]. Application Research of computers, 2007, 24(11): 318-320.
[28] Ma Jiajun, Zhou Shuisheng, Li Chen, et al. A sparse robust model for large scale multi-class classification based on K-SVCR[J]. Pattern Recognition Letters, 2019, 117: 16-23.
[29] Zhang J, Zhang P, Li Z. Fuzzy support vector machine based on color modeling for facial complexion recognition in traditional chinese medicine[J]. Chinese Journal of Electronics, 2016, 25(3): 474-480.
[30] Nasiri J A, Charkari N M, Jalili S. Least squares twin multi-class classification support vector machine [J]. Pattern Recognition, 2015, 48(3): 984-992.
Tea selection method based on morphology feature parameters
Wu Zhengmin, Cao Chengmao※, Wang Errui, Luo Kun, Zhang Jinyan, Sun Yan
(,230036,)
The color between stalks and leaves of tea in summer and autumn is similar, which means the traditional color sorter is difficult to sort based on optical characteristics. To realize the rapid modeling of tea selection algorithm and improve the sorting accuracy, a method for sorting the fine and bad products of tea by multi-feature vectors based on the morphological characteristics was introduced in this paper. First, Wuyishan Dahongpao tea was selected as a test sample to collect images during the dynamic drop process. The blue element image was extracted, and single sample’s binary image and edge were obtained by analysis of whole image connection area. Then, feature extraction program was developed based on image processing algorithm to extract morphological feature parameters of the tea samples automatically. Four simple shape descriptors-the sample perimeter, area, the length and width of minimum bounding rectangle were extracted. On this basis, eight complex shape descriptors-circularity, rectangularity, linearity, slightness, diameter, diagonal of minimum bounding rectangle, compactness and centroid were calculated. In addition, the random forest algorithm was used to determine the above features weight, the feature was selected according to weight threshold. Finally, logistic regression (LR), decision tree (DT) and support vector machine (SVM) that three different classification algorithms were established to classify the samples, verify the validity of the features and analyze the effects of different classification algorithms on the classification of tea. The original data were normalized and randomly segmented 80% used for training, 20% for testing. 10-fold cross-validation was used to select the optimal parameters of the classification model, and the training dataset was randomly divided into 10 parts, of which 9 parts were used for training, and the remaining 1 part was used for verification. According to the above machine learning system parameter optimization process to obtain the logical regression, decision tree and support vector machine optimal model, and statistical the final evaluation results on test dataset. The test results showed that: 1) The circularity weight was the highest, at 0.467, and five eigenvectors of circularity, rectangularity, linearity, perimeter and compactness were finally selected with the weight threshold value which was 0.05; 2) In the test dataset, the average accuracy1 of the three classification algorithms was 0.924, suggesting that the established tea morphological feature descriptors has certain separability and better effect; 3)When testing test-dataset, the accuracy score was 91.7% and1 score of logistic regression (LR) was 92.9%, the accuracy score was 91.7% and1 score of support vector machine (SVM) was 94.7%.Support vector machine (SVM) algorithm was the best recognition effect in three classification algorithms; 4) From three different classification algorithms assessment score deviation, we can see that the generalization ability of the logic regression algorithm was stronger, the decision tree algorithm has a greater risk of over fitting. We get the lowest accuracy and1 score of the logistic regression algorithm, while the support vector machine accuracy and1 score were the highest, so in the evaluation of eigenvector comparability, multiple algorithms can be selected to evaluate the results of the average as the final basis for evaluation. In the experiment, we acquired dynamic image, which stay in line with the actual working conditions of the tea selection process, and can be extended to the actual processing of tea production.
morphology; decision tree; support vector machine; logistic regression; random forest; tea
2018-12-14
2019-04-18
安徽省科技重大專項(18030701195)和安徽省高校自然科學研究項目(KJ2016A233)聯合資助
吳正敏,博士研究生,研究方向為茶葉智能化精加工。Email:wuzhengmin@ahau.edu.com
曹成茂,教授,博士生導師,主要從事智能檢測與控制技術、農業機械化工程研究。Email:caochengmao@sina.com
10.11975/j.issn.1002-6819.2019.11.036
TP391.4
A
1002-6819(2019)-11-0315-07
吳正敏,曹成茂,王二銳,羅 坤,張金炎,孫 燕. 基于形態特征參數的茶葉精選方法[J]. 農業工程學報,2019,35(11):315-321. doi:10.11975/j.issn.1002-6819.2019.11.036 http://www.tcsae.org
Wu Zhengmin, Cao Chengmao, Wang Errui, Luo Kun, Zhang Jinyan, Sun Yan. Tea selection method based on morphology feature parameters[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(11): 315-321. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2019.11.036 http://www.tcsae.org