丁煜函,葛東營,荊 磊,Muhammad SHAHZAD,江 輝
(1.江蘇大學高效能電機系統與智能控制研究院,江蘇 鎮江 212013;2.江蘇大學電氣信息工程學院,江蘇 鎮江 212013)
眉茶[1]是一種綠茶類珍品,其外形勻整、條索緊結、香高味濃。由于原料選用和制作工藝水平的不同,成品茶葉的品質存在很大差異,價格也存在很大差異。目前茶葉質量檢測以及等級劃分的界限比較模糊,不良商家常以次充好,欺騙消費者,嚴重擾亂了消費市場的秩序,對我國的茶葉生產和銷售造成了極為不利的影響。鑒于此,研究一種科學、簡單、快速的鑒別茶葉等級的方法具有十分重要的意義。
目前有關茶葉檢測以傳統方法為主,即感官評定法[2]和理化指標法[3]。感官評定法需要對評審人員進行專門培訓,成本代價高且評審結果易受到主觀因素和外在環境條件的影響。而理化指標法依賴于化學試劑且需要耗費大量的實驗材料,雖然結果精度較高,但操作復雜、成本高、檢測速度慢。
隨著科技不斷發展,人們開始應用各種儀器分析方法對茶葉進行等級分類,例如電子鼻技術、近紅外光譜技術等[4-10]。電子鼻技術即人工嗅覺分析技術,能模仿人的鼻子進行氣味識別和分析檢測[11]。茶葉中含有豐富的揮發性化合物,這些揮發性物質由類胡蘿卜素、脂類、糖苷等前體產生,也有部分來自于美拉德反應[12]。這些揮發性物質的種類和含量受到茶葉本身特性和加工過程的影響,因此通過人工嗅覺分析技術檢測這些揮發性物質能夠區分不同類型、不同等級的茶葉。例如:戴悅雯等[13]運用電子鼻傳感器采集的數據信息,精確地分類了4種不同等級的西湖龍井茶葉;薛大為等[14]提取電子鼻特征信號,通過建立神經網絡模型正確識別了不同等級的黃山毛峰;Chen Quansheng等[15]運用電子鼻技術對綠茶氣味信息進行采集和特征提取,建立了人工神經網絡和支持向量機(support vector machine,SVM)的綠茶等級分類模型。
由于電子鼻儀器價格昂貴、操作方法復雜,且只對一些特定的揮發性物質有較好的敏感性,而品種相同等級不同的綠茶之間揮發性物質差異較小,用傳統的電子鼻方法并不能很好地實現快速正確的茶葉等級判別,需要探討應用嗅覺可視化技術[16-19]對眉茶等級進行分類。
嗅覺可視化技術的基本原理是將化學顯色試劑(色敏材料)和待測物質的揮發性氣體進行反應,利用反應前后的顏色差值對待測物質進行定性和定量分析。傳統電子鼻技術僅依靠較弱的范德華力捕獲氣味,而嗅覺可視化技術又引入了金屬鍵、極性鍵等較強的相互作用力,使其在檢測氣味時更加靈敏、穩定[16]。嗅覺可視化技術作為近年來發展迅速的檢測技術之一,已在農產品和食品檢測上廣泛應用。如:鄒小波等[20]應用嗅覺可視化技術成功對4種不同食醋的氣味進行分類;鄒小波等[21]自制嗅覺可視化傳感器,運用嗅覺可視化技術對不同酒精度的白酒進行了分類。也有學者把嗅覺可視化技術和主成分分析(principal component analysis,PCA)相結合,實現了半發酵烏龍茶的等級分類[22],證實了利用嗅覺可視化技術對茶葉進行等級分類的可行性。
本研究首先通過預實驗篩選出了對眉茶茶湯揮發氣體較為敏感的色敏材料,并用這些材料制備色敏型的嗅覺可視化傳感器陣列,構建嗅覺可視化系統;然后利用傳感器陣列反應前后的顏色差值,生成特征圖像,獲取實驗數據;最后引入群體智能優化算法[23-24],包括螢火蟲算法[25]、灰狼優化算法[26]、布谷鳥算法[27-28],建立優化的SVM分類模型,并比較不同群體智能優化算法對眉茶分類的不同效果。
6 個等級的眉茶:珍眉綠茶41022AAAAAA(L1)、珍眉綠茶41022AAA(L2)、眉茶41022(L3)、眉茶4011(L4)、眉茶9371(L5)和眉茶9369(L6)黃山市松蘿有機茶葉開發有限公司。稱取6 個不同等級的眉茶茶葉,每個樣本的質量為(3±0.005)g,每個等級的茶葉取15 個樣本,共計90 個樣本。
卟啉指示劑 美國Sigma-Aldrich公司。
AUY120電子分析天平(精度0.000 1 g) 日本島津公司;SB-3200DT超聲波清洗機 寧波新芝生物科技有限公司;LIDE220掃描儀 日本佳能株式會社。
1.3.1 嗅覺可視化傳感器制備
預實驗中,首先去掉暈染和擴散效果不好的卟啉指示劑,然后將暈染和擴散較好的卟啉指示劑印染于反相硅膠板上,并與不同等級的眉茶反應后獲得特征圖像,篩選出特征圖像顯色效果比較明顯的12種卟啉指示劑,如圖1所示。

圖1 色敏材料的顯色效果Fig. 1 Chromogenic effect of color-sensitive materials
用篩選出的12種卟啉指示劑制備嗅覺可視化傳感器陣列,如表1所示。圖1中序號與表1中色敏材料的編號一一對應。

表1 制備嗅覺可視化傳感器的色敏材料Table 1 Color-sensitive materials used for preparation of olfactory visualization sensor
制備嗅覺可視化傳感器的具體過程如下:取12種卟啉指示劑各8 mg分別溶于二氯甲烷溶劑中,定容使每種溶液的質量濃度都為2 mg/mL。將配好的溶液密封于試劑瓶并置于超聲波清洗機中180 W超聲振蕩30 min,使卟啉指示劑充分溶解。利用點樣毛細管在4 cm×3 cm的反相硅膠板上印染上配制好的12種卟啉指示劑溶液,制作4×3嗅覺可視化傳感器陣列。將制備的傳感器陣列置于通風柜中干燥15 min,密封存放于自封袋中備用。
1.3.2 數據采集
將制備的嗅覺可視化傳感器陣列與眉茶茶湯的揮發性氣體反應,通過傳感器陣列反應前后的顏色差值獲取特征圖像,如圖2所示。

圖2 嗅覺可視化數據的采集過程示意圖Fig. 2 Schematic diagram of data acquisition of olfactory visualization
數據采集的過程如下:將制備的4×3嗅覺可視化傳感器陣列用掃描儀掃描得到反應前的圖像。將稱好的茶葉樣本倒入250 mL錐形瓶中,取燒開的沸水150 mL倒入錐形瓶中,塞好瓶塞,泡制5 min。將茶渣通過濾紙和漏斗過濾,用移液槍吸取茶湯少許,移入直徑60 mm、高度15 mm的圓形石英皿中。將掃描儀掃描后的傳感器陣列用膠帶固定在保鮮膜上,用保鮮膜將石英皿密封好(保證傳感器陣列正面朝向茶湯,且不與茶湯接觸),置于20~25 ℃環境下反應20 min。反應完成后,從保鮮膜中取出傳感器陣列,再次用掃描儀掃描,獲取反應后的圖像。取傳感器陣列各色敏點中心周圍半徑為10 個像素的紅(R)、綠(G)、藍(B)顏色分量的平均值作為顏色均值,將傳感器陣列上反應前后的顏色均值作差得到各色敏點的顏色分量差值特征(ΔR、ΔG、ΔB),生成特征圖像。
1.3.3 數據預處理
嗅覺可視化技術屬于間接檢測技術,且人工印染卟啉指示劑存在試劑用量的差異,因此采集到的嗅覺數據難免會存在誤差信息,這些誤差信息會給后續的建模帶來一定影響。為盡可能消除這些影響,采取Savitzky-Golay(SG)算法對數據進行平滑濾波[29]。SG平滑算法能夠過濾數據中存在的數據誤差,增加平滑性。接著用Min-Max Normalization函數[30]對數據進行歸一化處理。
每個樣本的數據都包含36 個顏色差值分量,維度過大且存在一定的信息冗余,因此采用PCA對數據進行降維,可以有效消除信息冗余并保留原始變量的絕大部分有效信息,將樣本從36 個特征維度映射到k維(k是構造出來的PC且k小于36)。
1.3.4 眉茶等級分類模型建立和優化
采用SVM[31-34]建立眉茶等級分類模型,通過尋找一個超平面,根據樣本的正類和負類進行分割。在樣本空間中,分割超平面可通過下式描述:

式中:ω為超平面的法向量,b為截距。
SVM基于結構風險最小的原理,將求解的問題轉化為一個線性約束的凸二次規劃問題,即以訓練誤差作為優化問題的約束條件,以置信范圍最小化為最優目標,如式(2)~(4)所示,其解具有唯一性和全局最優性。

式(2)~(4)中:xi為輸入樣本;yi為輸入樣本;n為樣本總數;ζi為松弛因子;K(xi,x)為SVM模型的核函數;c為懲罰因子;g為核函數參數。
為實現對眉茶的多等級分類,通過組合多個二分類器實現對多分類器的構造。采用“一對其他”的方法,為每個眉茶等級構造一個SVM,每個SVM負責區分本類數據和非本類數據:第k個SVM在第k類和其余5 類之間構造一個超平面,最后結果輸出由離超平面y距離最大的支持向量決定。
采用五折交叉驗證對模型進行測試,將預處理的數據平均分成5 組,每組樣本都將作為測試集(驗證集)進行1 次分類正確率測試,而另外4 組樣本作為訓練集構造和優化模型,如此循環5 次,保證每個樣本都會被驗證1 次。測試集和訓練集的正確率均由5 次驗證和5 次訓練的平均值決定,以訓練分類正確率作為適應度函數,通過優化算法搜索最優的c和g,并以最佳參數建立優化的SVM模型。采用螢火蟲算法[25]、灰狼優化算法[26]和布谷鳥算法[27]作為優化算法,分別記為FA-SVM、GWO-SVM和CS-SVM。
1.3.4.1 螢火蟲優化算法
螢火蟲算法的主要思想是:在高維空間中把螢火蟲當做一個點并作為一個可行解,螢火蟲的亮度越高代表其在空間內的適應度值越高,也越容易吸引亮度低的螢火蟲。因此,螢火蟲算法每進行1 次迭代,每個螢火蟲都會通過搜尋亮度更高的螢火蟲更新自己的位置,通過此過程尋找最優解。
本研究將c、g參數作為螢火蟲的坐標(即一個可行的SVM模型參數),以訓練分類正確率表示螢火蟲的亮度(即適應度值),分類正確率高的“螢火蟲”表示更可能靠近最優點,更容易吸引其他分類正確率低的“螢火蟲”靠近,而最高亮度的“螢火蟲”通過隨機移動跳出局部最優點,搜索全局最優點。將螢火蟲算法的種群規模設置為100,吸收強度系數為0.5,最大吸收度為1.0,最大迭代次數為200。
1.3.4.2 灰狼優化算法
灰狼算法是一種通過模擬灰狼群體捕食行為而提出的仿生算法。將灰狼種群分成4種社會等級,前3種等級分別是α狼、β狼和δ狼,它們分別代表問題的最優解、次優解和第3優解,處于最低級的ω狼則作為候選解。
本研究以c、g參數表示狼群捕獵時各個體的位置,通過狼群的信息交互和移動找到全局最優解,完成整個尋優過程。灰狼算法中,定義了α狼、β狼和δ狼,相當于有3 個候選的優化解吸引其他個體按照權重向它們靠近,加快了尋優的速度和效率,因此有望獲得更好的優化效果。將灰狼優化算法的種群規模設置為100,最大迭代次數設為200。
1.3.4.3 布谷鳥優化算法
布谷鳥算法是受布谷鳥寄生孵化的行為啟發而提出的一種群智能優化算法。該算法引入隨機性較強的萊維飛行特征實現路線搜索,有良好的尋優能力,因此可以迅速獲取問題的最優解。同時,布谷鳥算法引入了鳥蛋被發現的概率,不適合的鳥巢適應度低,寄生鳥蛋容易被寄主鳥發現,被發現后必須搜索新的鳥巢,以提高適應度。布谷鳥算法通過這樣的方式,丟棄劣質解,使種群能更有效地向最優解收斂。
本研究將布谷鳥算法的種群數量設為50,被寄主鳥發現布谷鳥蛋的概率設為0.7,最大迭代次數設為200。
眉茶中6 個不同等級樣本的嗅覺可視化傳感器差值特征圖像如圖3所示。可以看出傳感器陣列對不同等級眉茶樣本的響應不同,并且僅從肉眼就能看出每個傳感器陣列的差值特征圖像的差異。因此,通過研究自制的嗅覺可視化傳感器陣列實現眉茶不同等級的分類在理論上可行。

圖3 6種不同等級眉茶的特征圖像Fig. 3 Characteristic images of six different grades of Mee tea
從圖3還可看出,傳感器陣列某些位置對不同等級眉茶樣本的顯色差異不是很明顯,這表明這些數據對于區分不同等級眉茶的貢獻不大,屬于無關信息。此外,可視化傳感器陣列具有交叉敏感性,即一種揮發性物質會讓多個敏感單元產生響應,所以嗅覺可視化特征變量間存在一定的相關性,這種相關性會造成信息的冗余[35]。因此,需要對傳感器陣列的特征數據進行優化,以消除無關和冗余信息的影響。
嗅覺可視化傳感器陣列共獲得12 個色敏點,R、G、B數據共36 維。通過PCA提取36 維數據的前2、3 個PC作圖。如圖4所示,僅用2 個或3 個PC很難將不同等級的茶葉分開,且無法通過線性分類實現6 個等級眉茶的區分。但通過引入第3個PC,使原本無法通過前2 個PC進行區分的L3眉茶與其他等級的眉茶明顯區分開來。因此,通過引入更多的PC,并在高維空間采用SVM模型進行非線性分割的方法有可能實現6 個等級眉茶的正確分類。

圖4 前2、3 個PC的PCA得分圖Fig. 4 Score plots of PCA with first two or first three PCs
交叉驗證法可以在數據集較少時,充分利用這些樣本找到合適的模型參數,從而得到更加穩定可靠的模型。基于經驗參數的基本SVM模型對眉茶的等級分類結果如圖5所示,基本SVM模型最高能獲得80%的分類正確率,此時PC個數為12 個;隨著PC個數的增加,分類正確率并沒有呈現增加趨勢,特別是PC個數超過26后,分類正確率表現出快速下降趨勢。這說明非線性的SVM分類模型對高維空間進行合適的非線性分割較為困難,也更容易出現過擬合現象(訓練集分類正確率達到100%,而測試集分類正確率較差),造成SVM模型的分類正確率隨著輸入維數增加而迅速變差。因此,使用SVM模型時,采用PCA對輸入數據進行處理和降維非常必要。


圖5 SVM模型測試集(a)和訓練集(b)等級分類結果Fig. 5 Results of tea grade classification by SVM model for test (a) and training sets (b)
作為對比,圖6給出了采用傳統的偏最小二乘法判別分析(partial least squares discriminant analysis,PLS-DA)線性分類模型得到的分類結果,PC個數為11時,PLS-DA能獲得最高83.3%的分類正確率,此結果優于基本SVM分類模型。需要說明的是,PLS-DA沒有可調的模型參數,其分類效果僅由訓練樣本決定,缺乏靈活性。而SVM模型的分類效果由g(決定分類超平面的形式)、c(決定模型對錯誤樣本的容忍度)以及訓練樣本共同決定,通過c、g參數的選擇,能較好適用于不同的研究對象。因此,c、g的選擇非常關鍵,但根據經驗得到的c、g參數往往很難適用于所有對象,所以需要通過優化算法尋找適合特定對象的最優參數。

圖6 PLS-DA模型測試集(a)和訓練集(b)等級分類結果Fig. 6 Results of tea grade classification of PLS-DA model on test (a) and training sets (b)
由于SVM模型在輸入維數超過20 維(尤其是26 維)后容易出現過擬合現象,導致分類正確率顯著降低而失去實用價值,本研究僅給出3種優化模型4~26 維的分類結果。
3種不同優化算法優化后的SVM分類模型對眉茶的等級分類結果如圖7所示,FA-SVM模型最多能夠得到85.6%的分類正確率,但需要的PC個數為20 個,表明該FA算法對于嗅覺可視化數據不易找到合適的SVM優化參數,優化帶來的精度提高也比較有限;GWO-SVM模型最多能獲得87.8%的分類正確率,所需的PC個數減少為11 個;CS-SVM不僅能獲得最高的93.3%分類正確率,且所需的PC個數也最少,表明CS-SVM模型對于嗅覺可視化數據能夠用較少的PC個數找到較合適的分類超平面,實現對眉茶等級較為正確的分類。

圖7 FA-SVM(a)、GWO-SVM(b)、CS-SVM(c)優化模型的等級分類結果Fig. 7 Results of tea grade classification by FA-SVM (a), GWO-SWM (b) or CS-SVM (c) optimized models
PC個數為6時CS-SVM模型得到的等級分類結果如圖8所示,CS-SVM模型的分類錯誤主要發生在L1和L2之間,有L1的眉茶樣本被誤分類為L2,有兩個L2的眉茶樣本被誤分類為L1。這是因為L1和L2的茶葉均為珍眉綠茶,在特性上較為接近。從圖4也可看出,L1和L2的眉茶在二維和三維得分空間中的位置較近,沒有很好地分開,結合圖8可知,即使用到更多的PC也沒有完全實現這兩個等級茶葉的正確分類。
特別需要注意的是,有一個L1的樣本被誤分類為L6,有一個L6的樣本被誤分類為L1。而L1和L6的眉茶在形狀、口感、成分上有很大不同,通過肉眼和品嘗可以較容易分辨其不同,而通過嗅覺可視化技術卻未能將其正確分類,這說明嗅覺可視化技術僅通過茶湯揮發的氣體判別眉茶的等級仍存在不足,需要引入其他技術(例如近紅外光譜技術、機器視覺技術等)提供更充分的信息,并通過多傳感器的信息融合,以實現茶葉等級更準確的分類。

圖8 PC個數為6時CS-SVM模型的等級分類結果Fig. 8 Results of tea grade classification by CS optimized SVM model with six principal components
自制了一種包含12種色敏材料的嗅覺可視化傳感器陣列,對不同等級的眉茶茶葉進行了分類,并通過引入3種群體智能算法對SVM分類模型的參數c和g進行優化。研究結果表明,基于嗅覺可視化技術制備的傳感器陣列可以實現對不同等級眉茶的分類;通過引入群體智能優化算法尋找最優的模型參數,可顯著提高分類模型的性能;對于本研究使用的眉茶,CS-SVM模型能獲得最佳的等級分類效果,其分類正確率為93.3%。