翁海勇,許金釵,陶鑄,劉江洪,鄭金貴,葉大鵬
(1. 福建農林大學機電工程學院,福州市,350002; 2. 現代農業裝備福建省高校工程研究中心,福州市,350002; 3. 海峽兩岸科技產業合作基地(成員單位),福州市,350002)
表沒食子兒茶素沒食子酸酯(Epigallocatechin gallate,EGCG)是茶多酚里面一種重要單體,具有較強的抗氧化活性,能提高免疫力,抑制癌細胞的產生,已在流行病學、細胞培養、動物研究和臨床試驗中得到證實[1-2]。高EGCG茶在市場上倍受青睞,EGCG的含量已成為衡量茶葉價格的重要因素。然而,茶葉是EGCG唯一的來源,EGCG無法通過人工合成[3]。因此,篩選出高EGCG含量的茶樹品種具有重要意義。
目前,茶葉中的EGCG含量檢測主要采用高效液相色譜法(High Performance Liquid Chromatography, HPLC)[4-5]。雖然檢測精度高但存在操作過程繁瑣、檢測周期長、破壞性和成本較高等問題,無法滿足高EGCG茶樹育種過程中大規模測量。近年來,光譜檢測技術因具有快速、無損的優點在農產品品質高通量檢測中表現出巨大的應用前景。Lee等[6]利用近紅外光譜技術對綠茶鮮葉中的咖啡因、ECG和EGCG等9種品質指標進行檢測,預測模型精度大于0.9。Huang等[7]利用可見—近紅外光譜技術研究了新鮮綠茶中的兒茶素和咖啡因,建立的多元線性回歸定量模型得到相關系數均大于0.893。董春旺等[8]通過近紅外光譜對紅茶發酵過程中品質指標進行檢測,建立了支持向量機(SVR)模型,能夠較好地反演出紅茶中茶紅素、茶褐素、兒茶素和酚氨比的含量。趙杰文等[9]應用傅里葉近紅外漫反射光譜檢測茶葉中兒茶素含量,建立了偏最小二乘法的定量分析模型,相關系數大于0.97。Luypaert等[10]利用近紅外光譜技術對綠茶中EGCG和EC兩種單體的含量進行定量分析,模型對EGCG和EC的相關系數分別可達0.83和0.44。Li等[11]提取了茶葉的可見近紅外光譜反射率,結合區間偏最小二乘法建立了茶多酚預測模型,相關系數為0.916 3。上述對茶多酚或兒茶素單體的研究雖然取得較好的效果,但所選用的樣本所含的茶多酚或兒茶素單體濃度較低,模型無法適用于高EGCG茶樹品種的篩選。
鑒于上述研究,有必要研究基于光譜技術的高EGCG茶樹品種識別模型。因此,本文以高/低EGCG茶樹品種的葉片為研究對象,利用近紅外高光譜技術探究高/低EGCG含量茶樹品種葉片的光譜特性,結合化學計量法建立高EGCG含量茶樹葉片的識別模型,研究結果可為高EGCG茶樹高通量育種提供技術支持。
供本次研究的2個茶樹品種分別為高EGCG含量的W1茶樹和低EGCG含量的Huangdan,其中W1和Huangdan茶樹均由福建農林大學農產品品質研究所培育。茶樹種植于福建農林大學農產品品質研究所試驗茶園內。茶葉采摘于2020年9月14日。采摘時,摘取嫩梢上一芽四葉,W1和Huangdan的葉片各396片。本次試驗共得到792片作為研究對象。如圖1所示,高(W1)和低(Huangdan)EGCG含量茶樹品種的葉片無法通過肉眼進行有效地區分。

圖1 代表性高EGCG茶樹品種(W1)和低EGCG茶樹品種(Huangdan)葉片
本次試驗采用NIRez-G1近紅外光譜儀獲取W1號和Huangdan茶樹葉片的近紅外光譜反射率。儀器的光譜波長范圍為950~1 650 nm,光譜分辨率為10 nm。在茶葉的近紅外光譜反射率采集前,先獲取暗電流和參考板的光譜數據,用于數據處理前對茶葉原始光譜的校正。首先,采用近紅外光譜儀采集標準白板(HIS—CT—250×280)上3個不同位置光譜,求平均值,記為W。隨后用黑色不透光的塑料圓盤遮住采樣口,采集3次光譜,求平均值,記為B。為了盡可能地獲取更多茶葉表面的光譜信息,在試驗過程中采集葉片上3個不同的位置,求平均值作為該樣本的原始光譜數據。隨后采用式(1)對茶葉的光譜進行校正,求得反射率。
Rc=(Dc-B)/(W-B)
(1)
式中:Rc——茶葉的光譜反射率;
Dc——茶葉的原始光譜;
W——標準白板的原始光譜;
B——暗電流的原始光譜。
光譜數據采集完后,分別選取W1和Huangdan葉片各45片用于EGCG含量測定。每3片當成1個樣本,每個品種分別取15個,共30個。樣品前處理過程如下:將茶鮮葉放置于120 ℃烘箱中殺青6 min,隨后在90 ℃條件下烘干至恒重。具體方法參考GB/T 8313—2018進行測量。
1.4.1 主成分分析
主成分分析(Principal Component Analysis,PCA)是通過正交變換將一組可能存在相關的變量轉化為一組線性不相關的變量[12-13]。PCA通過將原始數據降維,消除眾多信息共存中相互重疊的信息部分,使得數目較少的新變量成為原變量的線性組合且能最大限度的表征原變量的數據結構特征。將分析主成分得分向量繪制成二維或三維散點圖可實現不同類別樣本聚類趨勢的定性分析。
1.4.2 敏感波段的選擇
高光譜的數據維度高,易出現冗余和共線性等問題。為了簡化模型以及提高模型運算效率,需要從全波長中篩選出對EGCG敏感的波段。本研究選用RF(Random Frog)算法對EGCG敏感波段進行提取。RF算法通過少數變量進行建模,從而輸出每個變量被選取的概率。首先,初始化包含Q個變量的子集V0。其次,計算出包含Q*個變量的候選變量子集V*,然后選擇V*作為V1來代替原始變量的子集V0,接著迭代N次直到終止。最后,輸出每個變量被選取的概率[14]。變量被選取的概率越大說明其對EGCG越敏感。
1.4.3 識別模型
識別模型的性能直接影響著高EGCG含量茶樹葉片的識別效果。本文分別對比線性判別分析(Linear Discriminant Analysis,LDA)和最小二乘支持向量機(Least Support Vector Machine,LS-SVM)兩種機器學習方法對高EGCG含量茶樹葉片的識別效果。
LDA是將高維空間的樣本映射到低維空間,以期實現提取有效的分類信息并對數據降維,以此同時確保映射到低維空間的樣本具有最小的類內距離以及最大的類間距離,具備最優的可分離性[15]。LS-SVM是在傳統SVM的基礎上,采取最小二乘線性系統作為損失函數,通過求解線性方程式來取代標準SVM的凸二次規劃求解,從而加快模型運算效率[16]。本文選取徑向基(Radial Basis Function,RBF)作為LS-SVM的核函數。采用網格搜索算法和交叉驗證(Cross Validation,CV)相結合實現模型的兩個主要參數γ和sig2(σ2)的尋優。在分類過程中,把W1茶樹葉片和Huangdan茶樹葉片的標簽分別賦值為“1”和“2”。采用KS(Kennard-Stone)算法將茶葉樣品按照2∶1的比例分成建模集和預測集[17]。
1.4.4 模型篩選效果的評估指標
識別模型的性能利用識別正確率Accuracy、漏判率、誤判率和Kappa系數4個參數進行評估[18]。模型將高EGCG茶樹品種(W1)判別成低EGCG茶樹品種(Huangdan)稱為漏判率,反之則稱為誤判。Accuracy的計算公式為
Accuracy=(n1/n2)×100%
(2)
式中:n1——預測正確的預測集樣本數;
n2——預測集樣本總數。
在混淆矩陣的基礎上計算Kappa系數,如式(3)所示。
Kappa=(po-pe)/(1-pe)
(3)
式中:po——每類被正確分類樣本數量之和與該樣本總數量的比值。
每一類的真實樣本個數分別為a1,a2,…,ac,而預測結果中的每一類的樣本個數分別為b1,b2,…,bc,總樣本個數為n,則pe為
pe=(a1×b1+a2×b2+…+ac×bc)/(n×n)
(4)
當Kappa=0.0~0.2,表示預測與真實的一致性極低;當Kappa=0.21~0.40,表示預測與真實的一致性一般;當Kappa=0.41~0.60,表示預測與真實的一致性中等;當Kappa=0.61~0.80表示預測與真實的一致性較好;當Kappa=0.81~1.0,表示預測與真實的一致性幾乎一致[19]。
本文涉及到的光譜數據處理在MATLAB R2014a、Unscrambler10.1和EXCEL2010中完成。
W1和Huangdan葉片中的EGCG含量如圖2所示。W1茶樹葉片中的EGCG含量(13.68±1.99)%明顯高于Huangdan(4.86±1.17)%,相差2.81倍。單因素方差分析結果表明兩者達到顯著性差異(P=2.75×10-6<0.05)。將EGCG含量大于10%的茶樹品種稱為高EGCG含量茶樹品種[20]。因此,本研究選用的茶樹W1和Huangdan可分別視為高/低EGCG含量茶樹品種,這為下文建立高EGCG含量茶葉品種識別模型提供參考。

圖2 W1茶樹和Huangdan葉片中的EGCG含量
高EGCG含量茶樹(W1)和低EGCG含量茶樹(Huangdan)葉片的平均光譜反射率如圖3所示。

圖3 高EGCG含量茶樹(W1)和低EGCG含量的茶樹(Huangdan)葉片的平均光譜曲線
由圖3可知,兩種茶樹葉片的光譜曲線趨勢大致相似,具有相似的吸收峰,說明其所含的主要成分相似。進一步分析可知,W1葉片的近紅外光譜反射率低于Huangdan葉片,這可能與W1和Huangdan葉片中某些成分的含量存在差異有關。1 100~1 650 nm的反射率反映了樣品中有機物含氫基團(C—H、O—H、N—H)的彎曲振動或倍頻伸縮振動信息。在1 100~1 420 nm 范圍內光譜反射率與CH3或CH2的C—H鍵伸縮振動的一級倍頻及組合頻有關,在1 400~1 550 nm 的吸收峰主要由O—H鍵、C—H鍵以及N—H鍵伸縮或彎曲振動引起;在1 600~1 650 nm范圍內的光譜反射率發生變化主要是與C—H鍵的一級倍頻振動伸縮振動有關[21]。兒茶素單體的分子結構中含有許多碳氫基團,因此,在1 100~1 650 nm范圍內可能含有與兒茶素單體相關的化學信息[22]。W1茶樹和Huangdan葉片的光譜反射率在這些光譜范圍內存在差異。因此,有望依據光譜特性建立高EGCG含量茶樹品種識別模型。
圖4(a)顯示了前7個主成分對原始變量的解釋程度。前四個主成分累計貢獻率達99.92%,能夠解釋原始數據絕大部分信息。其中,PC1、PC2、PC3和PC4的貢獻率分別為95.4%、4.2%、0.19%和0.057%。由于PC1和PC2的貢獻率已經大于99%,因此將有必要進一步分析PC1和PC2的得分。

(a) 前7個主成分累積方程貢獻率
由圖4(b)可知,高EGCG茶樹葉片和低EGCG茶樹葉片在PC1和PC2得分分布圖上具有聚成兩類的趨勢,但是仍然也存在重疊的地方。因此,需要對光譜數據進行進一步分析和處理以期獲得更好的區分結果。
簡化數據維度,提高模型運算速度,優化篩選模型有助于在茶樹育種過程中更加有效地篩選出高EGCG含量茶樹品種。因此,有必要從原始的228個變量中提取出EGCG含量敏感波段。基于RF算法求解出的各個波段對EGCG的敏感性如圖5(a)所示。由圖5(a)可知,對EGCG敏感性較高的波段主要集中在1 100~1 650 nm范圍內,這與圖3分析的結論相一致。合理的敏感波段數量有利于減少數據維度以及簡化篩選模型,因此有必要按照最終識別模型的識別效果來設置最優的選取概率的閾值,從而獲取相應的敏感波段作為識別模型的輸入變量。

(a) 不同波段的選擇概率
本文采用閾值為25%,取前35個概率較大的敏感波段進行分析,分別為(1 610,1 650,1 341,1 647,1 615,1 380,1 582,1 607,1 618,1 377,1 403,1 612,1 374,1 331,1 645,1 465,1 325,1 078,1 383,1 577,1 282,1 604,1 328,1 344,1 124,1 401,1 398,1 134,1 334,1 273,1 602,1 634,1 627,1 585和1 368 nm),分布情況如圖5(b)所示。
不同輸入變量下LS-SVM和LDA模型對高/低EGCG茶樹品種的識別效果如圖6所示。從圖6可以看出,當輸入變量的數量小于等于3時,LS-SVM和LDA的識別效果均不理想。隨著輸入變量的數量增多,兩個模型的識別準確率逐步上升,這說明增加敏感波段的數量有助于提升高EGCG茶樹品種的識別效果。總體來看,LS-SVM模型的識別準確率均優于LDA模型。當敏感波段數量為20個時,LS-SVM模型的總體準確率為93.94%大于LDA模型(90.90%)。但是當敏感波段數量大于20個時,隨著輸入變量的逐漸增多,LS-SVM 和LDA模型的總體識別準確率保持相對平穩,說明增加的敏感波段并沒有顯著增加對樣本的描述性信息。綜上所述,在相同的輸入變量,LS-SVM算法更適合用來構建高EGCG茶樹品種的識別模型。

圖6 不同數量的敏感波段對LS-SVM和LDA模型識別效果影響
僅根據總體準確率來評估LS-SVM和LDA模型的識別性能還不夠,需要進一步分析兩個模型的混淆矩陣及Kappa系數。當敏感波段為20個時,LS-SVM和LDA對高/低EGCG茶樹品種的識別結果如表1所示。從表1可以看出,LS-SVM篩選模型建模集和預測集的總體準確率分別為94.32%和93.94%。其預測集的漏判率、誤判率、Kappa系數分別為8.63%、3.20%和0.89。其中,12個高EGCG茶樹品種的葉片被漏判成低EGCG茶樹葉片。LS-SVM模型的Kappa系數均大于0.81表明利用機器學習方法識別出高EGCG茶樹品種與實際高EGCG茶樹品種幾乎完全一致。相比之下,LDA識別模型建模集和預測集總體準確率分別為86.17%和90.90%,出現了過擬合的現象。LDA模型預測集的漏判率為7.26%,誤判率為10.71%,Kappa系數為0.83。9個高EGCG茶樹品種的葉片被漏判成低EGCG茶樹品種葉片。上述結果表明,在茶樹育種過程中,RF算法結合 LS-SVM 構建的模型具有快速實現高EGCG茶樹品種初篩的能力。

表1 LS-SVM和LDA模型對高/低EGCG茶樹葉片的識別結果Tab. 1 Discriminant results of high/low EGCG tea varieties with LS-SVM and LDA models
1) 本文采用高效液相色譜法(HPLC)測定W1和Huangdan葉片中的EGCG含量,得出W1茶樹葉片中的EGCG含量(13.68±1.99)%明顯高于Huangdan(4.86±1.17)%,相差2.81倍。單因素方差分析結果表明兩者達到顯著性差異,這為建立高EGCG含量茶葉品種識別模型提供參考。
2) 對比分析了高/低EGCG茶樹葉片的光譜反射率,主成分分析后樣本的第一主成分(PC1)和第二主成分(PC2)的累計方差貢獻率為99.6%,對應的得分對高/低EGCG含量茶樹葉片具有較好的聚類作用,但是仍然也存在重疊的地方。
3) 利用Random Frog算法選取的前20個敏感波段結合LS-SVM建立的識別模型能夠有效實現高EGCG含量茶樹葉片的識別,LS-SVM模型的建模集總體準確率為94.32%,Kappa系數為0.89,預測集總體準確率為93.94%,Kappa系數為0.89。表明利用機器學習方法識別出高EGCG茶樹品種與實際高EGCG茶樹品種幾乎完全一致。
4) 采用近紅外高光譜技術結合化學計量學分析方法具有快速識別高EGCG茶樹品種能力,研究結果為篩選出高EGCG含量茶樹品種提供新方法和技術指導。