曹瓊,蘇歡,宛曉春,寧井銘
安徽農業大學,茶樹生物學與資源利用國家重點實驗室,安徽 合肥 230036
烏龍茶屬于半發酵茶,由鮮葉經曬青、晾青、做青、殺青、揉捻及干燥等工序加工而成,其生產和加工地區主要集中在閩南、閩北、廣東和臺灣[1]。除此之外,安徽、浙江、湖北、貴州等省也生產烏龍茶。不同地區的烏龍茶品質特征各異,因此價格也存在差異。近年來,隨著烏龍茶產業的迅猛發展,烏龍茶越來越受消費者的喜愛,一方面給茶葉生產商帶來了可觀的經濟效益;另一方面,烏龍茶品種繁多,部分花色品種外形特征相似,從而存在假冒原產地產品現象,給茶葉市場的監管增加難度。因此鑒別烏龍茶的產地,非常有必要。
傳統鑒定烏龍茶產地的方法依賴于感官經驗,容易受到人為因素及周圍環境的影響。由于受到不同地理環境條件、茶樹品種、采摘方式及加工工藝的影響,不同產區的烏龍茶在感官品質及理化成分上存在差異[2],這使得利用理化成分來鑒定烏龍茶的產地成為可能。有學者通過對烏龍茶中金屬元素及多酚、水浸出物等生化成分進行檢測,結合因子分析和判別分析實現了對烏龍茶品質和產地的判定[3]。此外有學者采用 HS-SPME/GC–MS技術結合主成分分析及聚類分析等化學計量學方法來判定烏龍茶的品種[4]。
本研究對茶葉中的兒茶素、咖啡堿、沒食子酸和茶氨酸等成分采用 HPLC方法進行檢測,并用遺傳算法和連續投影算法篩選出特征性的化合物,然后分別結合支持向量機、隨機森林和反向傳播人工神經網路等機器學習方法建立烏龍茶產地鑒定模型,從而找出一種能夠量化判別烏龍茶產地的方法。
試驗樣品:本研究共收集烏龍茶樣品130個,其中閩南71個,閩北29個,廣東15個,臺灣 15個。所收集的樣品為來自不同企業2015—2017年加工生產的不同等級的烏龍茶樣品。將樣品研磨成粉,使磨碎樣品能完全通過孔徑為600 μm的篩,并放置于4℃貯存。
HPLC系統:Waters E2695高效液相色譜儀,2489的紫外可見光檢測器和 Waters Empower色譜管理系統;HPLC色譜分析柱:Phenomen 公司 5 μm,Gemini-NX C18,250 mm×4.6 mm色譜柱用于檢測兒茶素、沒食子酸及咖啡堿;Phenomen公司 4 μm,Synergi Hydro-RP C18,250 mm×4.6 mm色譜柱用于檢測茶氨酸;AB104-N型萬分之一電子天平,上海精宏實驗設備有限公司;DHG-9240A型電熱恒溫鼓風干燥箱,上海精宏實驗設備有限公司;DK-8D型水浴鍋,上海一恒科技有限公司;SC-3610型低速離心機,安徽中科中佳科學儀器有限公司。
兒茶素標品:兒茶素(C,純度≥99%)、表兒茶素(EC,純度≥99%)、表沒食子兒茶素(EGC,純度≥98%)、表沒食子兒茶素沒食子酸酯(EGCG,純度≥99%)、表兒茶素沒食子酸酯(ECG,純度≥98%)、沒食子酸(GA,純度≥99%)、咖啡堿(純度≥99%)、茶氨酸(純度100%),均購于美國Sigma公司;色譜級乙腈、甲醇,美國 Tedia公司;EDTA、抗壞血酸均購于上海阿拉丁試劑有限公司。
1.2.1 水分的測定
水分的測定按照國際標準ISO1573:1980中的(103±2)℃恒重法[5]。
1.2.2 兒茶素、沒食子酸及咖啡堿的測定
茶葉中兒茶素、沒食子酸的測定均按照國際標準ISO 14502—1:2005中的HPLC法進行測量[6]。最終物質含量單位均以干物質質量分數表示(%)。
烏龍茶樣品中咖啡堿含量的測定按照國際標準ISO 10727:2002中的HPLC法進行測量[7]。采用Waters E2695高效液相色譜儀,型號為2489的紫外可見光檢測器進行測量。
1.2.3 茶氨酸的測定
烏龍茶樣品中茶氨酸含量的測定按照國際標準ISO 19563:2017中的HPLC法進行測定[8]。采用Waters E2695高效液相色譜儀,型號為2489的紫外可見光檢測器進行測量。
1.2.4 SPSS 21.0軟件
用于進行ANOVA分析,比較不同產地烏龍茶樣品理化成分的差異;Matlab 2014a用于提取特征化學指標并建立判別模型,驗證模型的穩定性。
采用高效液相色譜法對 4個傳統產區的130個烏龍茶樣品中的多酚、咖啡堿及茶氨酸含量進行檢測,并用SPSS 21.0對不同產區烏龍茶的理化成分進行ANOVA分析,結果如表1所示。由表中可知,廣東烏龍茶中的沒食子酸(GA)、咖啡堿、表沒食子兒茶素沒食子酸酯(EGCG)、表兒茶素沒食子酸酯(ECG)及兒茶素總量等明顯高于其他3個產區;而臺灣烏龍茶中的表沒食子兒茶素(EGC)和兒茶素(C)的含量明顯高于其他產區,但咖啡堿和ECG的含量卻明顯低于閩南、閩北和廣東烏龍;4個產區烏龍茶樣品的咖啡堿、EGCG和ECG含量存在顯著性差異。由于4個產區烏龍茶的這些理化成分含量之間存在差異,因此本研究旨在依據這些化學成分,采用化學計量學的方法建立其產地鑒定模型。
針對上述檢測的9個理化指標,首先采用主成分分析法提取與烏龍茶產地相關的主成分,其前兩個主成分解釋了變量總方差的97.35%,其中主成分1(PC1)解釋了84.87%,第二主成分(PC2)解釋了12.48%。4個產區烏龍茶樣品中兒茶素、沒食子酸、茶氨酸及咖啡堿等理化成分的主成分得分圖如圖1所示,可以看出,廣東烏龍、臺灣烏龍和閩南烏龍可以完全區分開,但閩北烏龍茶的分布與閩南烏龍和臺灣烏龍均有重疊。因此采用主成分的聚類結果并不能實現對 4個產區烏龍茶的有效區分。為了實現對4個傳統產區烏龍茶的高效判別和鑒定,采用遺傳算法和連續投影算法來篩選特征的化學指標,結合支持向量機、反向傳播人工神經網絡以及隨機森林等分類模型,建立一種用少量的理化成分高效鑒定烏龍茶產地的方法。
特征指標篩選的目的是減少測量空間的維度,提取相關信息進行模式識別,從而建立烏龍茶產地鑒定模型,來預測烏龍茶的產地。本研究采用遺傳算法和連續投影算法來提取特征性的化學指標。
遺傳算法(Genetic algorithm)是一類借鑒生物界自然選擇和自然遺傳機制的隨機搜索算法[9-10],模擬自然選擇和自然遺傳過程中發生的繁殖、交叉和基因突變現象,在每次迭代中都保留一組候選解,并按某種指標從解中選取較優的個體,利用遺傳算子(選擇、交叉和變異)對這些個體進行組合,產生新一代的候選解,重復此過程,直到滿足某種收斂指標為止。在本研究中,經過遺傳算法篩選出的化合物如圖2所示,分別為咖啡堿、EGCG和ECG。由表1可知,遺傳算法篩選出的3種化合物,其4個產區之間的含量均存在顯著差異。

表1 不同產區烏龍茶化學成分含量Table 1 Chemical contents of Oolong tea from different geographical origins%

圖1 4個產區烏龍茶中理化成分的主成分得分圖Fig. 1 PC1 vs. PC2 score plot of four origins of Oolong tea by principal component analysis
連續投影算法(Successive projections algorithm, SPA)是一種前向循環的特征變量提取方法[11],可以通過使矢量空間共線性最小化,消除冗余信息來減少建模的變量,從而提高建模效率[12]。本研究中由連續投影算法篩選出的對烏龍茶產地鑒定起重要作用的化合物如圖3所示,分別為EGC、EGCG、ECG和兒茶素總量。結合表1可知,4個產區烏龍茶 EGCG、ECG的含量均存在顯著差異,而閩南、閩北及臺灣烏龍茶之間EGC的含量差異顯著,閩南、閩北及廣東烏龍茶之間的兒茶素總量差異顯著,這使得用這些指標來建立模型鑒定不同產地的烏龍茶成為可能。
支持向量機(Support vector machine,SVM)是由Vapnik等人于70年代提出,是參數空間的一種線性分類器[13]。支持向量機方法通過擴大分類面與訓練樣本之間的距離來減少判別誤差的上確界,進而尋找最優的分類面。近年來,支持向量機在茶葉類別鑒定方面應用廣泛[14-15]。本研究中用支持向量機分類模型結合不同化合物篩選結果對 4個產地的烏龍茶進行鑒定,結果如表2所示。由表2可知,沒食子酸等 9個原始理化指標結合支持向量機模型可以對閩南、閩北、廣東及臺灣4個產區的烏龍茶實現最準確的鑒定,訓練集的判別率為97.70%,而預測集的判別率為93.02%。
反向傳播人工神經網絡(Back propagation artificial neural networks, BPNN)是一種非線性的數據分析方法,應用極為廣泛[16-17]。BPNN采用輸入層、隱含層和輸出層3層結構,通過控制節點的權重,使系統誤差最小,從而提高判別率。本研究基于兒茶素、沒食子酸、咖啡堿和茶氨酸等理化成分,采用BPNN模型判別烏龍茶的產地。該模型結合不同指標的判別結果如表3所示。由表中可知,BPNN模型結合不同理化指標均能實現對烏龍茶產地的高效判定,但遺傳算法篩選的指標判別結果最好,且篩選出的化合物種類最少,即基于咖啡堿、EGCG和ECG的遺傳算法結合 BPNN模型判別率最高,訓練集和預測集的判別率分別為97.13%和98.38%。
隨機森林(Random forest, RF)分類器最早是由Leo Breiman和Adele Cutler提出的[18],是一種高效的組合分類法,在許多領域都有廣泛的應用,如農業[19]、醫學[20]等。隨機森林通過構建決策樹來建立模型,每一棵決策樹之間沒有關聯,將未知樣本輸入隨機森林時,根據決策樹被選擇的次數,樣本屬于被選擇最多的一類[21]。本研究中采用隨機森林分類算法結合不同的化合物對烏龍茶的產地進行劃分。隨機森林分類模型的判別結果如表4所示,由表4可知,訓練集的判別率均為100%,而原始的9個檢測指標及遺傳算法篩選的指標,結合隨機森林算法,對烏龍茶產地鑒定,預測集的判別率均為 95.34%,但遺傳算法篩選的指標少,因此遺傳算法結合隨機森林模型判別結果最好。

圖2 遺傳算法篩選化合物結果Fig. 2 Compound selection by genetic algorithm

圖3 連續投影算法篩選化合物的結果Fig. 3 Compound selection by successive projections algorithm

表2 支持向量機模型的判別結果Table 2 Discriminant results of support vector machine model%

表3 反向傳播神經網絡模型的判別結果Table 3 Discriminant results of back propagation artificial neural networks model%

表4 隨機森林模型的判別結果Table 4 Discriminant results of random forest model%
本研究依據 ISO標準的檢測方法檢測了130個烏龍茶樣品的多酚、咖啡堿及茶氨酸等理化成分,并用遺傳算法和連續投影算法對原始的檢測指標進行篩選,篩選出一些特征性的化合物,基于不同的化合物結合 3種經典的分類模型(支持向量機、反向傳播人工神經網絡和隨機森林)對 4個產地的烏龍茶樣品進行判別和預測。結果表明,遺傳算法篩選出的化合物(咖啡堿、EGCG和 ECG)結合 BPNN模型能夠利用較少的理化指標實現對訓練集樣品和預測集樣品的高效判別,且訓練集的判別率為 97.13%,預測集的判別率為 98.38%。對于未知產地的烏龍茶樣品,用HPLC方法檢測其EGCG、ECG和咖啡堿的含量,輸入反向傳播人工神經網絡模型,即可判別出屬于 4個傳統產區的某個產區,對于 4個傳統產區之外的烏龍茶,則需大量樣本,檢測兒茶素等理化成分,然后依據遺傳算法和反向傳播人工神經網絡模型修訂參數,然后判別產地。該鑒定方法相比于傳統的感官審評方法,排除了環境等因素的影響,鑒定結果更加穩定和科學;而且該方法只需要EGCG、ECG和咖啡堿3個指標,相比于其他檢測方法更加簡便。因此該模型可以為烏龍茶產地的量化判別提供理論依據,從而為規范烏龍茶市場作出貢獻。
[1] 梅宇, 王智超. 2016年全國烏龍茶產銷形勢調研報告[J].廣東茶業, 2017(Z1): 1-8.
[2] 蔡烈偉, 許勇泉, 周炎花, 等. 不同產區烏龍茶感官品質與茶湯化學成分分析[J]. 福建茶葉, 2016, 38(11): 17-19.
[3] 孫威江, 董青華, 周衛龍, 等. 烏龍茶品質評定與產品判別研究[J]. 茶葉科學, 2011, 31(4): 305-312.
[4] Lin J, Zhang P, Pan Z, et al. Discrimination of Oolong tea(Camellia sinensis) varieties based on feature extraction and selection from aromatic profiles analysed by HS-SPME/GC–MS [J]. Food Chemistry, 2013, 141(1): 259-265.
[5] ISO 1573. Tea-Determination of loss in mass at 103 degrees C [S]. Technical Committee ISO/TC 34: Agricultural Food Products, 1980.
[6] ISO 14502-2. Determination of substances characteristic of green and black tea—Part 2: content of catechins in green tea—Method using high performance liquid chromatography,MOD [S]. Technical Committee ISO/TC 34, Food Products,Subcommittee SC 8, Tea, 2005.
[7] ISO 10727. Tea and instant tea in solid form—Determination of caffeine content—Method using high-performance liquid chromatography [S]. Technical Committee ISO/TC 34, Food Products, Subcommittee SC 8, Tea, 2002.
[8] ISO 19563. Determination of theanine in tea and instant tea in solid form using high performance liquid chromatography[S]. Technical Committee ISO/TC 34, Food Products,Subcommittee SC 8, Tea, 2017.
[9] Wiegand P, Pell R, Comas E. Simultaneous variable selection and outlier detection using a robust genetic algorithm [J]. Chemometrics & Intelligent Laboratory Systems, 2009, 98(2): 108-114.
[10] Leardi R, Seasholtz M B, Pell R J. Variable selection for multivariate calibration using a genetic algorithm: prediction of additive concentrations in polymer films from Fourier transform-infrared spectral data [J]. Analytica Chimica Acta,2002, 461(2): 189-200.
[11] Soares S, Gomes A A. The successive projections algorithm[J]. Trac Trends in Analytical Chemistry, 2013, 42(42):84-97.
[12] 陳斌, 孟祥龍, 王豪. 連續投影算法在近紅外光譜校正模型優化中的應用[J]. 分析測試學報, 2007(1): 66-69.
[13] 劉華煜. 基于支持向量機的機器學習研究[D]. 大慶: 大慶石油學院, 2005.
[14] Zhao J, Chen Q, Huang X, et al. Qualitative identification of tea categories by near infrared spectroscopy and support vector machine [J]. Journal of Pharmaceutical and Biomedical Analysis, 2006, 41(4): 1198-1204.
[15] Chen Q, Zhao J, Fang C H, et al. Feasibility study on identification of green, black and Oolong teas using near-infrared reflectance spectroscopy based on support vector machine (SVM) [J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2007, 66(3): 568-574.
[16] 歐文娟, 孟耀勇, 張小燕, 等. 紫外可見吸收光譜結合主成分-反向傳播人工神經網絡鑒別真假蜂蜜[J]. 分析化學,2011, 39(7): 1104-1108.
[17] 王麗瓊, 范琦, 易珍奎, 等. HPLC指紋圖譜結合反向傳播人工神經網絡和判別分析鑒定不同的麻黃藥材[J]. 西南師范大學學報(自然科學版), 2012, 37(5): 73-77.
[18] 李欣海. 隨機森林模型在分類與回歸分析中的應用[J]. 應用昆蟲學報, 2013, 50(4): 1190-1197.
[19] 馬玥, 姜琦剛, 孟治國, 等. 基于隨機森林算法的農耕區土地利用分類研究[J]. 農業機械學報, 2016, 47(1):297-303.
[20] 詹曙, 姚堯, 高賀. 基于隨機森林的腦磁共振圖像分類[J].電子測量與儀器學報, 2013, 27(11): 1067-1072.
[21] 方匡南, 吳見彬, 朱建平, 等. 隨機森林方法研究綜述[J].統計與信息論壇, 2011, 26(3): 32-38.