金山峰,王冬欣,黃俊仕,熊愛華,艾施榮,劉 鵬,4,吳京鵬,吳瑞梅,*
(1.江西農業大學工學院,江西南昌 330045;2.婺源縣鄣公山茶葉實業有限公司,江西上饒 333200;3.江西農業大學軟件學院,江西南昌 330045;4.江西機電職業技術學院,江西南昌 330013)
茶葉是中國的主要經濟作物,在農業產業結構調整、農民增收等方面起著重要作用。而目前茶葉品質主要由評茶師進行感官審評[1],其受到時間、空間等因素限制,難以全面監控茶葉市場秩序,從而導致茶葉行業存在以次充好、魚目混珠等混亂現象[2]。因此,提高茶葉品質檢測技術水平、強化科學檢測手段,是當前亟待解決的關鍵問題。
目前,國內外采用計算機視覺技術對茶葉品質進行了大量的研究[3?5],Wang 等[6]利用計算機視覺技術建立了茶葉品種支持向量機鑒別模型,識別率達到97.7%。Laddi 等[7]運用計算機視覺技術獲取茶葉圖像的顏色特征和紋理特征,實現茶葉品質的快速無損評價。這些研究主要針對茶葉品質計算機視覺評價模型進行,對茶葉分級機構的設計研究還有所欠缺,除了利用計算機視覺技術對茶葉品質進行檢測外,還有許多研究者利用近紅外光譜技術進行茶葉品質檢測。董春旺等[8]基于紅外光譜技術建立紅茶的感官品質評分和理化品質指標的定量分析模型。Ouyang 等[9]采用近紅外光譜技術對紅茶感官品質的檢測,并建立BP 神經網絡評價模型。理化檢測方法過程復雜、用時長、成本較高,并且紅外光譜獲得的數據量大,參雜著許多冗余信息,需要對提取到的茶葉特征降維處理。而國內外對于其他農作物品質檢測及分級機構的研究是比較成熟[10?12],魏文松等[13]利用計算機視覺對菜葉品質進行在線檢測,設計了一套吹氣機構,將所分級的菜葉吹到相應等級槽中,其分級效果與人工分級吻合度達到94%。Baneh 等[14]基于計算機視覺技術搭建了滾筒輸送帶式蘋果自動分揀機,提高了蘋果分級效率。計算機視覺技術在農產品品質在線評價中廣泛運用,如何將計算機視覺技術應用于茶葉品質的實時在線評價,還有待進一步研究。
課題組成員利用計算機視覺技術快速無損評價茶葉品質也進行了大量研究,基于茶葉品質感官審評結果,建立了茶葉品質分級模型[15?16]。基于前期研究基礎,本文研發一套基于計算機視覺技術的茶葉品質在線評價系統,實現茶葉品質的自動分級,降低勞動強度,提高工作效率。
綠茶 婺源仙芝綠茶(400 個不同品種)、蘇州洞庭山碧螺春(100 個不同品種),市售。
課題組研發試驗裝置結構圖如圖1a 所示,裝置實物圖如圖1b 所示,由自動上料裝置、傳輸帶平臺以及自動分級與收集裝置、CCD 工業相機、拍照暗箱、LED 燈和光電開關等組成。傳輸帶的對稱中心畫有定位線,定位待檢茶葉置于相機中心點位置拍照;自動進料裝置置于傳送裝置前端,將盛有待檢茶樣容器推出樣品箱,輸送到傳輸裝置輸送帶的中心定位線位置;光電開關接受到樣品容器進入暗箱信息后,觸發相機對樣品進行圖像采集與數據處理;自動分級與收集模塊集成一起,置于傳輸裝置的后端,裝置滑臺上連有4 個收集箱(Ⅰ、Ⅱ、Ⅲ、Ⅳ),每個收集箱代表一個等級,控制系統根據光學成像系統識別結果,控制橫臂滑臺左右移動及立柱滑臺上下移動,使容器位置對應相應等級收集箱的一個箱位,將容器推進收集箱,達到收集和分級目的。

圖1 茶葉品質在線檢測分級裝置Fig.1 Tea quality online detection and classification device
該分級系統采用計算機視覺技術依據不同等級的茶葉特征不同進行分級。首先,在計算機系統中建立茶葉品質專家評價模型,將盛有待檢茶葉的樣品盤由自動進料裝置推到輸送帶定位中心線,隨輸送帶進入拍照暗箱,光電開關觸發CCD 相機,采集待檢測茶葉圖像。圖像處理系統對采集圖像進行預處理、感興趣區域提取及圖像特征提取,由事先建立的茶葉品質專家評價模型完成茶葉品質的實時評價,確定待檢茶葉等級,將檢測結果傳送到控制系統。當樣品盤繼續輸送到末端時,控制系統根據識別結果,觸發光電開關,控制橫臂滑臺橫向移動與立柱滑臺向上移動至相應等級收集箱位置,后連桿推塊機構將樣品盤推進收集箱,完成分級和收集工作。具體工作過程見圖2所示。

圖2 茶葉品質自動分級裝置工作流程圖Fig.2 Working flow chart of tea quality automatic grading device
茶葉品質包括茶葉外形、湯色、香氣、滋味和葉底5 個評價指標[17],其中茶葉外形包括茶葉形狀和色澤,反映了茶葉內部成分品質狀況。因此,可利用計算機視覺技術獲取茶葉外形圖像,提取茶葉圖像的紋理特征和顏色特征,建立判別模型,以此判別模型鑒別待檢茶樣品質。按照茶葉品質感官審評標準(GB/T 23776-2018),采用集體評分和密碼審評形式,各評茶師對茶樣的外形形狀、外形顏色、湯色、香氣、滋味和葉底按百分制分別給出評分,取所有評茶師的得分平均值。將感官審評得分位于90~99、80~89、70~79 和60~69 分數段的茶樣分別定為一級、二級、三級和四級[18]。
選取400 個不同品質的婺源仙芝綠茶茶樣,由評茶師對每種茶進行人工感官審評,分成4 個等級,其中一級99 個,二級101 個、三級100 個、四級100個,建立茶葉品質評價模型。隨機選取320 個樣本組成校正集,用于模型建立,剩余80 個樣本組成預測集,用于預測所建模型精度。
另選取蘇州100 個不同品質的洞庭山碧螺春綠茶茶樣,由評茶師對每種茶進行人工感官審評,將每種茶葉按照審評標準分成4 個等級,在軟件系統中建立碧螺春綠茶評價模型。所有茶樣置于5 ℃左右的冰柜中。
將每個樣本均勻混合后,稱取(15±0.5)g 茶葉,均勻平鋪于φ60×10 mm 規格的容器中,在系統暗箱中在線采集茶葉樣本圖像,然后在茶樣圖像的正中心位置截取400×400 像素感興趣區域,如圖3a,用3×3窗口大小的中值濾波對截取的區域圖像進行平滑處理,去除原始圖像噪音信息,如圖3b。為了讓圖像更加的清晰,采用拉普拉斯算法將圖像進一步銳化,如圖3c,預處理圖像的顏色和紋理特征被清晰凸顯。

圖3 圖像預處理Fig.3 Image preprocessing
顏色特征和紋理特征的差異可用來區分茶葉品質好壞。采用RGB 和HSI 色彩模型提取茶葉圖像的顏色特征(共12 個:紅體均值、綠體均值、藍體均值、紅體標準差、綠體標準差、藍體標準差、色調均值、飽和度均值、亮度均值、色調標準差、飽和度標準差、亮度標準差),以表達茶葉色澤特征。采用基于灰度差分統計矩陣和灰度共生矩陣方法提取茶葉樣本的紋理特征(共20 個紋理特征:熵、各向異性、灰度均值、灰度標準差、0°能量、0°相關性、0°同質性、0°對比度、45°能量、45°相關性、45°同質性、45°對比度、90°能量、90°相關性、90°同質性、90°對比度、135°能量、135°相關性、135°同質性、135°對比度),以表達茶葉外形的形狀特征。
1.6.1 特征變量降維方法 特征變量之間的多重共線性和冗余性會導致模型計算量大,影響模型預測性能,采用特征變量降維方法可消除變量之間的共線性和冗余性。主成分分析(principal component analysis,PCA)[18]是一種線性無監督降維方法,利用正交變換方法,得到彼此互不相關的新變量,盡可能地代表原始變量信息。核主成分分析(Kernel Principal Component Analysis,KPCA)[19]是一種非線性降維方法,可處理線性不可分的數據集,該方法采用一個非線性映射把原始變量映射到一個高維空間,在高維空間進行PCA 降維,但該方法無法保持數據高維空間中的拓撲信息。局部保持投影(locality preserving projections,LPP)[20?21]是一種經典的流形學習降維方法,該方法能保持原始變量在高維空間局部拓撲關系,既能考慮到樣本的流形結構,也保持了樣本的局部性,但沒有考慮原始變量的類別標簽信息,另外由LPP 構造的新低維特征是非正交的,會影響多重共線性特征變量的重構。監督正交局部投影(supervised orthogonal locality preserving projections,SOLPP)[22]是在LPP 基礎上進行改進的監督流形學習降維方法,該方法在尋找最優鄰域結構時,既考慮原始變量類別標記信息,又考慮局部流形結構信息,采用正交變換消除變量之間的統計相關性。
1.6.2 模型建立算法 本文分別采用反向傳播神經網絡、相關向量機和隨機森林建立茶葉品質等級評價模型,并進行模型對比。BP-ANN 模擬生物神經行為,通常由輸入層、若干隱含層和輸出層的若干節點組成,相鄰層的每一對節點之間通過權值和偏差進行連接,通過多層鏈接將輸入特征轉投影到潛在變量空間,采用反向傳播訓練算法對模型進行訓練和優化。RVM 是一種典型的基于核的監督學習模型,在期望最大化學習方法和稀疏貝葉斯框架下利用核函數將訓練樣本原始特征空間映射到高維空間,構建最優超平面實現樣本線性可分。
RF 基于并行運算原理,獲得較快的學習過程,有利于減少數據噪聲的魯棒性,對多元數據的共線性也不敏感[23]。算法具體操作過程如下:①采用自主抽樣方法從所有原始n 個樣本中抽取一定數量有差異的m 個樣本,組成新的訓練集,用于創建單棵分類樹,以構建多棵不同的決策樹,剩余樣本構成袋外(out-of-bag,OOB)樣本數據集,用于計算每棵樹的無偏誤差估計,評價模型性能;②反復訓練步驟①,產生Z 個訓練集,構建Z 棵分類樹,類似一片“森林”,分類樹生長過程中,在每個非葉子節點(內部節點)分支前,從全部屬性中選擇p 個作為當前節點的分裂候選屬性,同時采用基尼指數最小的屬性進行分支;③在上述反復訓練過程中,每棵決策樹進行生長,直到葉子節點進行分支;④采用每棵決策樹對袋外測試樣本進行測試,得到對應的T 個分類結果,由投票表決方法將所有分類結果中最多的類別,作為該測試樣本的最終類別歸屬。
本文首先利用婺源仙枝綠茶建立在線評價系統的判別模型。分別采用主成分分析(PCA)、核主成分分析(KPCA)、局部保持投影(LPP)和監督正交局部保持投影(SOLLPP)方法對圖像特征變量進行降維處理,得到前三維特征變量可視化圖,圖4a~圖4d分別是PCA、KPC、LPP、SOLLPP 降維結果,其中SOLPP 降維方法將不同等級樣本點聚集在一起,且不同等級樣本能很好地區分開,而由其他三種降維方法處理的不同等級樣本點相互交錯在一起,說明監督流行學習降維方法(SOLPP)能很好地區分不同等級樣本。這是因為SOLPP 既考慮了樣本間局部拓撲結構信息,還保留了樣本的先驗類別信息,可有效挖掘樣本點在高維空間的結構信息,使得高維空間同類別近鄰樣本點投影到低維空間仍保持近鄰[24]。本文采用SOLPP 降維后的低維特征作為判別模型的輸入變量。

圖4 基于不同降維方法的茶葉等級三維可視化圖Fig.4 3-D visualized of test samples based on different reduction methods
研究采用隨機森林算法建立茶葉感官品質評價模型,Kappa 系數可用來度量所建模型的穩定性和分類結果的一致性,系數取值范圍為0~1,Kappa 值越大,表明結果一致性越好,模型穩定性能越好[25]。模型建立過程中,決策樹棵數(ntree)和節點分裂候選屬性數(mtry)會直接影響RF 模型的判別精度,本文用網絡搜索方法對兩參數進行優選,將不同參數條件下的特征維數建立判別模型,由模型對預測集樣本的正確識別率得到最優參數,見圖5所示。由圖5a 可知,采用前4 維特征維數建立的判別模型識別率最高,為93.75%,其最優參數ntree 為100,mtry 為3;由圖5b 可知,80 個預測樣本中有5 個被誤判,其中1 個一級樣本被誤判為二級;3 個三級樣本誤判為二級,1 個三級樣本誤判為四級,模型對預測集樣本的Kappa 系數為0.9167,說明所建模型穩定性好。

圖5 RF 模型對預測集樣本預測結果Fig.5 Results of RF models for prediction sets
對茶葉品質的4 個等級進行重編碼,等級一、二、三、四分別采用(1,0,0,0)、(0,1,0,0),(0,0,1,0)和(0,0,0,1)4 個0-1 模式作為模型輸出,BP-ANN 模型選擇tansig 函數作為激活函數,學習率設置為0.1,最大訓練迭代次數為1000,隱含層神經元節點數M 與輸入節點N 的關系為M=2 N+1,選擇SOLPP 降維處理后的6 個特征變量進行建模。以高斯函數作為核函數建立茶葉感官品質評價RVM 模型,利用逐步搜索法選擇最優的特征維數,并同時采用試錯法優選最佳的核參數,以構建最優的RVM 模型。對BPANN、RVM、RF 建立的茶葉圖像與感官品質之間的評價算法模型性能進行比較,見表1。由表1可看出,RF 模型的識別率及Kappa 系數均高于BP-ANN、RVM 模型,說明RF 模型預測精度更高、性能更穩定,故本系統最終采用SOLPP 降維方法結合RF 模型算法建立茶葉感官品質快速評價模型。

表1 模型對預測集樣本進行預測結果Table 1 Results of the model for prediction set
選取市售婺源仙枝綠茶60 個未知茶樣,驗證樣機的可行性。由評茶師進行感官審評,評出茶葉等級,將未知茶樣進行在線評價,人工感官審評與在線評價結果見表2,系統對婺源仙枝綠茶一級、二級各誤判1 個茶樣,三級誤判2 個茶樣,總體識別率為93.30%。

表2 人工感官審評與在線檢測分級結果Table 2 Grading results of artificial sensory evaluation and online check
另選取100 個不同品質市售碧螺春綠茶,由評茶師審評結果,分成4 個等級,在軟件系統中建立碧螺春綠茶品質評價模型。同樣選取60 個未知品質碧螺春茶樣對樣機進行驗證,其中1 個二級茶樣誤判為一級,總體識別率為98.30%(見表2)。
從表2可看出,樣機對不同品種茶葉的在線評價結果略有不同。這可能是因為不同品種茶葉的形狀特征不同,且模型建立是基于人工感官審評結果,會導致所建評價模型精度有差異。后續進一步在特征提取算法上進行研究,以提高所提取特征的信息量,從而提高模型精度。人工感官審評方面,采用不同組別的審評專家對同一種類茶葉進行審評,以提高模型的代表性。后續研究將繼續加入其他種類茶葉進行在線檢測,針對檢測結果分析其他種類茶葉分級結果的差異性,找出差異性原因,對評價系統進一步優化,提高系統的整體鑒別率。
為規范茶葉市場秩序,提高茶葉品質檢測技術手段,本文設計了茶葉品質在線檢測及自動分級和收集裝置,采用機器視覺技術結合Open CV、Visual C++軟件,開發了茶葉品質在線評價系統。以婺源仙枝綠茶為對象,對比了四種降維方法的降維效果,得到監督正交局部保持投影方法對茶葉圖像特征降維效果最好,采用隨機森林算法建立茶葉感官品質評價模型,在線評價系統對婺源仙枝綠茶的總體判別率達到93.30%;另選擇市售碧螺春綠茶驗證在線評價系統性能,總體判別率達到98.30%。該系統利用機器視覺技術將標準茶樣以圖像形式保存在計算機中,實現茶葉品質特征的量化和標準化,摒除人工感官審評的主觀性,為茶葉品質評價作參考。自動分級及收集裝置將已檢茶樣按等級分類,便于茶樣復檢,減少人力成本。