劉鵬,艾施榮,楊普香,李文金,熊愛華,童陽,胡瀟,吳瑞梅*
非線性流形降維方法結合近紅外光譜技術快速鑒別不同海拔的茶葉
劉鵬1,艾施榮3,楊普香2,李文金2,熊愛華1,童陽3,胡瀟3,吳瑞梅1*
1. 江西農業大學工學院,江西 南昌 330045;2. 江西省蠶桑茶葉研究所,江西 南昌 330203;3. 江西農業大學軟件學院,江西 南昌 330045
為提高不同海拔茶葉品質近紅外光譜技術鑒別方法的精度,提出采用局部線性嵌入法(LLE)和拉普拉斯特征映射法(LE)非線性流形學習方法對近紅外光譜數據進行降維處理,并與基于核函數的非線性(KPCA)及線性(PCA)降維方法比較,建立不同海拔茶葉品質的近紅外光譜LSSVM鑒別模型。不同降維方法可視化結果表明,KPCA和PCA方法的數據點離散性較大,400~800?m和800~1?200?m的樣本點重疊較多,而非線性流形學習方法能將同一類樣本點在三維空間很好地聚集在一起,不同海拔的茶葉能較好地區分開,且聚集效果方面LE方法好于LLE方法。模型性能表明,LE_LSSVM模型性能最佳,預測集總體判別率、Kappa系數分別為100%和1.00;相比于PCA_LSSVM、KPCA_LSSVM和LLE_LSSVM,模型預測集總體判別率分別提高1.7%、1.7%、3.3%;Kappa系數分別提高0.025、0.03、0.05。研究表明,LE等非線性流形學習降維方法在近紅外光譜數據降維、簡化模型復雜度、提高模型精度方面效果很好,為茶葉品質快速檢測方法研究提供了一種新思路。
茶葉;近紅外光譜;非線性流形降維方法;拉普拉斯特征映射
鮮茶葉中茶多酚、氨基酸、咖啡堿等主要生化物質含量直接影響成品茶葉品質。然而,茶鮮葉中主要生化物質含量除與品種自身的遺傳特性有關外,還與茶樹生長海拔等環境因素密切相關[1]。一般來說,高海拔地區茶葉內含物質豐富,茶葉品質優于低海拔地區的。而目前茶葉品質主要依賴于人工感官審評,審評結果主觀性強、時效性差,難以用于市場上茶葉品質好壞和等級的快速鑒別。因此,發展一種快速可靠的茶葉品質鑒別方法,用于不同海拔茶葉品質的快速判別,對于規范茶葉市場、保障消費者利益有著重要意義。
近紅外光譜(Near infrared spectroscopy,NIRS)技術是一種快速、綠色檢測技術,廣泛用于茶葉產地鑒定[2]、茶葉內含物檢測[3]、茶葉品質評價[4]等。近紅外光譜數據量大,包含了豐富的待測物信息,同時也存在大量與待測物無關的信息及冗余信息,易導致模型復雜度增大且性能降低。Ouyang等[5]利用遺傳算法優選可見-近紅外光譜的特征波長,建立了紅茶感官品質的BP神經網絡評價模型。Jiang等[6]采用聯合區間偏最小二乘算法優選近紅外光譜的特征區間,建立碧螺春茶感官品質評價模型。王勝鵬等[7]利用主成分分析(Principal component analysis,PCA)方法提取恩施玉露茶近紅外光譜前3個主成分,建立了茶葉年份的快速鑒別模型。然而,這些方法所建模型復雜,參數多且耗時長,拓撲穩定性差。近紅外光譜變量之間的信息較復雜,待測物質成分與光譜數據之間可能形成非線性關系。研究者將非線性流形學習降維方法用于近紅外光譜特征提取與降維中,該方法把一組在高維空間中的樣本點拓撲分布結構在低維空間中重新表示,從而實現數據壓縮。常用的流形學習算法有局部線性嵌入(Locally linear embedding,LLE)、等距離映射及拉普拉斯特征映射(Laplacian eigenmaps,LE)等。Shan等[8]采用LLE方法篩選近紅外光譜變量,建立玉米水分、藥用片劑中活性藥物成分和煙草總糖含量檢測模型,3種數據所建預測模型精度分別達到0.89、0.98、0.88,證明了方法的高效性。林萍等[9]采用等距離映射方法對大米近紅外光譜數據進行降維處理,建立大米貯藏期的快速判別模型,相對于PCA線性降維方法和多維尺度降維方法,模型識別率分別提高了0.253和0.26。李慶波等[10]將改進的等距離映射方法引入綠蘿近紅外光譜數據處理,檢測綠蘿葉片中葉綠素及水分含量,所建模型變量減少了近50%,而模型精度卻提高了56%。
本文采用非線性流形學習降維方法(局部線性嵌入—LLE、拉普拉斯特征映射—LE),對不同海拔茶葉的近紅外光譜數據進行非線性降維處理,采用最小二乘支持向量機(Least squares support vector machine,LSSVM)方法建立不同海拔茶葉的判別模型,并與非線性的核主成分分析(Kernel principal component analysis,KPCA)及線性(PCA)降維方法比較,探討提高模型精度和穩定性的快速判別方法。
茶鮮葉來源于江西省婺源縣(北緯29°01′至29°35′,東經117°22′至118°11′)不同海拔茶園中的相同茶樹品種,圖1為茶葉樣本采集地理分布圖。茶鮮葉樣品立即轉移至特定的茶葉加工廠以相同加工工藝進行成品茶樣制備,并選取210個合格茶樣,其中海拔400?m以下、400~800?m和800~1?200?m茶樣各70個,分別標記為3級、2級、1級,采集時間為2017年4月。從每個海拔等級中隨機抽取50個樣本組成訓練集,剩余20個樣本組成預測集,即訓練集150個樣本,預測集60個樣本。取足量茶樣粉碎,過40目篩,每個茶樣粉末稱取(30±0.5)g,用于采集茶樣的近紅外光譜。
使用傅里葉變換近紅外光譜儀(Antaris II型,美國Thermo Fisher公司)采用InGaAs檢測器進行光譜數據采集。光譜掃描范圍為10?000~4?000?cm-1,掃描次數32次,分辨率為8?cm-1,采樣間隔為3.865?cm-1,每條光譜1?557個數據;采用漫反射方式采集茶葉的近紅外光譜圖,環境溫度25℃。將30?g茶葉粉末裝于玻璃樣品杯中并壓緊,采集杯中樣品的3個不同位置光譜,取其平均值作為該茶樣的最終光譜。
采用Savitzky-Golay一階導數方法消除原始光譜的基線漂移和其他噪音影響,采用3次多項式,移動窗口寬度為9。
流形(Manifold)是對一般幾何對象的總稱,包括各種維度的曲面、曲線。非線性流形降維方法通過找到樣本點嵌入在高維空間中的低維拓撲結構,并求出相應的嵌入映射,以實現維數約簡或數據可視化,從觀測數據結構中找到其內在規律性[11]。其中,局部線性嵌入算法(LLE)、拉普拉斯特征映射算法(LE)等經典非線性流形學習在機械故障診斷[12]、農作物檢測[13]、地理測繪學[14]等領域得到廣泛應用。局部線性嵌入(LLE)算法[15]是PCA算法的擴展,通過局部線性嵌入,實現非線性降維。該方法假設每個數據點有個近鄰點的線性組合,映射到低維目標空間后,仍能保持原始數據的本質。其算法思想[12]如下:建立每個數據點的個最近鄰點;計算出最小化殘差,并找到每個樣本點鄰近點的線性重構權重;根據權重矩陣及近鄰點值,得到數據點在低維空間的坐標值。每個數據點的值對映射結果影響很大,鄰域值設置過小,算法無法很好地反映高維數據中的全局屬性;值過大,則會消除高維數據中的小尺度結構,從而失去其非線性特性[8]。

注:高湖山區域、五龍山區域、江灣鎮、賦春鎮、太白鎮的海拔分別在800~1?200?m、800~1?200?m、200~800?m、200~500?m、80~300?m
拉普拉斯特征映射(LE)算法是一種基于圖譜理論的非線性流形學習降維方法,具有計算速度快、魯棒性好和低維拓撲穩定性強等優勢[16],廣泛用于大數據的學習處理[17-18]。該方法考慮每個樣本點的局部近鄰信息,在高維特征空間為鄰近點的數據點投影到低維目標空間后仍保持是鄰近的。算法步驟[11]如下:
(1)構建近鄰圖,采用K-NN近鄰或ζ-近鄰法,使每個樣本點與個近鄰點用邊相連接。

采用LSSVM算法建立不同海拔茶葉品質的判別模型,根據模型識別正確率和Kappa系數評價模型性能。Kappa系數可用來度量所建模型的穩定性和分類結果的一致性,系數取值范圍為0~1,Kappa值越大,表明結果一致性越好,模型穩定性能越好。Kappa系數計算公式[19]如下:

其中,p為總體分類精度,假設每類的真實樣本個數為n(n=1, 2, ···, c),而預測出的每類樣本個數為n(n=1, 2,···, c),樣本總數為n,則:

圖2為不同海拔茶葉樣本的反射光譜圖,其中圖2-a為所有茶葉樣本光譜圖,圖2-b為3個海拔等級的平均光譜圖。由圖可知,不同海拔茶葉樣本光譜反射率變化趨勢一致,但反射率有差異,海拔400?m以下(3級)茶葉樣本光譜反射率較低,而800~1?200?m(1級)的光譜反射率較高。在6?500~4?000?cm-1的譜帶范圍內信息量大,光譜合頻及一級倍頻吸收峰與光譜特征信息顯著,其中4?331?cm-1處吸收峰為茶葉中氨基酸等物質中脂肪族C-H的合頻吸收峰,4?642?cm-1處吸收峰為茶葉中氨基酸、芳香物質等物質苯環上C-H的合頻吸收峰,5?200?cm-1附近為H2O中O-H的一級倍頻吸收峰[20]。
非線性流形學習降維方法中近鄰數值的選擇對降維效果影響較大,需優選近鄰數的值。通過預試驗分析,選擇三維嵌入,采用逐步搜索法對值在區間[4,16]上進行選優,以獲得更好的降維效果。
圖3為采用LLE及LE降維方法時,不同值所建立LSSVM模型的判別結果。由圖可知,LE方法最佳值為5,LLE方法最佳值為7;當大于最佳值,算法引入較多的噪音信息并失去非線性,數據在低維特征空間的可分性變差。因此,后續建模過程中,LE的值取5,LLE的值取7。

圖2 不同海拔高度茶葉近紅外光譜(a)和平均光譜圖(b)

圖3 不同近鄰數k值所建LSSVM模型識別結果
分別采用傳統線性降維方法(PCA)、以高斯函數為核函數的非線性降維方法(KPCA)、非線性流形學習降維方法LLE和LE對不同海拔茶葉的近紅外光譜矩陣進行學習,將高維光譜特征向量進行融合,獲取前三維特征變量,進行可視化分析。
圖4是所有樣本在三維空間分布的可視化結果,其中圖4-a是傳統線性降維方法PCA的結果,圖4-b是以高斯函數為核函數的非線性降維方法KPCA的結果,圖4-c是非線性流形學習降維方法LLE的結果,圖4-d是非線性流形學習降維方法LE的結果。由圖可知,不同海拔茶葉樣本在三維空間均有較好的聚集效果,其中海拔在400?m以下茶葉樣本與其他兩個海拔的樣本類間距較大,能很好地區分開,說明400?m以下區域的茶葉品質與高海拔區域的茶葉品質相關較大,而海拔在400~800?m和800~1?200?m之間的樣本類間距較小,甚至有少部分樣本相互重疊,說明此2區域的茶葉品質差異相對較小,較難區分。但在圖4-a和4-b中,數據點的離散性較大,400~800?m和800~1?200?m樣本間的數據點重疊較多,而在圖4-c和4-d中,樣本點在三維空間中聚集度很好,同一類樣本基本聚集在一起,對于LLE降維方法,400~800m和800~1?200?m的樣本只有少數幾個點在邊緣相交,區分度好于PCA和KPCA的,而LE降維方法,400~800?m和800~1?200?m的樣本在邊緣相交,基本能區分開。說明由流形學習降維方法將茶葉高維光譜數據嵌入到低維空間后,數據在低維空間的可分性優于線性降維方法PCA和以高斯函數為核函數的非線性降維方法KPCA。這是由于非線性流形降維方法是基于圖譜理論,將高維數據流形結構信息保存下來,使得在高維空間鄰近的樣本點映射到低維空間后仍保持鄰近[16]。

注:(a)PCA三維可視化,(b)KPCA三維可視化,(c)LLE三維可視化,(d)LE三維可視化
采用不同降維方法取得特征變量,建立不同海拔茶葉的LSSVM判別模型,以徑向基函數為核函數,利用網格搜索和十折交叉驗證法優選懲罰因子和核參數2,以10次試驗結果的平均值作為模型最終識別率。圖5為不同降維方法取得的不同特征變量數所建模型總體識別結果。由圖可知,傳統降維方法PCA和KPCA結合LSSVM所建判別模型性能相當,當變量數為4時,總體判別率最優,為97.93%;基于LLE降維方法所建模型,當變量數為5時,總體判別率最優為97.9%;而基于LE降維方法,當所選變量數為3時,模型總體最優判別率達到99.67%。
表1為基于4種降維方法所建LSSVM模型結果。由表可知,非線性流形學習降維方法(LLE、LE)性能明顯優于傳統PCA、KPCA降維方法,其中,LE_LSSVM模型所需變量數最少,模型復雜程度最低,但模型精度最高,訓練集總體識別率為99.33%,Kappa系數為0.99;預測集總體識別率為100%,Kappa系數為1.00,說明模型穩定性高;相比于PCA_LSSVM、KPCA_LSSVM和LLE_LSSVM,預測集中總體識別率分別提高了1.7%、1.7%、3.3%;Kappa系數分別提高了0.025、0.03、0.05。上述研究表明,采用非線性流形學習LE降維方法能很好地將不同海拔的茶葉聚集在一起,所建模型的預測精度很高,模型的穩定性和分類結果的一致性都優于其他降維方法。

圖5 不同變量所建模型的總體識別率

表1 不同模型性能比較結果
近年來,隨著近紅外光譜分析技術在各領域中應用不斷深入,光譜特征提取及降維方法成為研究的熱點與難點。本文研究表明,非線性流形學習LE的降維方法在低維目標空間數據點的流形保持明顯好于PCA、KPCA和LLE的,在三維空間中,LE降維方法的類內聚集效果較好,并且能很好的區分開不同海拔的茶葉數據,利用該降維方法提取的特征所建LSSVM判別模型的識別精度明顯高于其他方法,其模型復雜性、預測精度及穩定性均優于其他方法。研究結果為解決近紅外光譜中的維度災難、降低特征位數提供了一種新思想,為茶葉品質近紅外光譜快速檢測方法建立提供了新的研究思路。
[1] Han W, Huang J G, Li X, et al. Altitudinal effects on the quality of green tea in east China: a climate change perspective [J]. European Food Research and Technology, 2017, 243(2): 323-330.
[2] Zhuang X G, Wang L L, Chen Q, et al. Identification of green tea origins by near-infrared (NIR) spectroscopy and different regression tools [J]. Science China Technological Sciences, 2017, 60(1): 84-90.
[3] 陳美麗, 張俊, 龔淑英, 等. 茉莉花茶主要品質成分定量近紅外光譜分析模型的建立[J]. 茶葉科學, 2013, 33(1): 21-26.
[4] 劉洋, 余天星, 李明璽, 等. 基于近紅外光譜技術的信陽毛尖品質判別研究[J]. 現代食品科技, 2018, 34(8): 1-7.
[5] Ouyang Q, Liu Y, Chen Q S, et al. Intelligent evaluation of color sensory quality of black tea by visible-near infrared spectroscopy technology: A comparison of spectra and color data information [J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2017, 180: 91-96. DOI: 10.1016/j.saa.2017.03.009.
[6] Jiang H, Chen Q S. Chemometric models for the quantitative descriptive sensory properties of green tea (L.) using fourier transform near infrared (FT-NIR) spectroscopy [J]. Food Analytical Methods, 2015, 8(4): 954-962.
[7] 王勝鵬, 龔自明, 高士偉, 等. 基于近紅外光譜技術的恩施玉露茶保存年份的快速無損鑒別[J]. 華中農業大學學報, 2015, 34(5): 111-114.
[8] Shan R F, Cai W S, Shao X G. Variable selection based on locally linear embedding mapping for near-infrared spectral analysis [J]. Chemometrics and Intelligent Laboratory Systems, 2014, 131: 31-36. DOI: 10.1016/j.chemolab.2013.12.002.
[9] 林萍, 陳永明, 鄒志勇. 非線性流形降維與近紅外光譜分析技術的大米貯藏期快速判別[J]. 光譜學與光譜分析, 2016, 36(10): 3169-3173.
[10] 李慶波, 賈召會. 一種光譜分析中的降維方法[J]. 光譜學與光譜分析, 2013, 33(3): 780-784.
[11] 黃宏臣, 張倩倩, 韓振南, 等. 拉普拉斯特征映射算法在滾動軸承故障識別中的應用[J]. 中國測試, 2015, 41(5): 94-98.
[12] Zhang Y, Ye D, Liu Y. Robust locally linear embedding algorithm for machinery fault diagnosis [J]. Neurocomputing, 2018, 273: 323-332.
[13] 金瑞, 李小昱, 顏伊蕓, 等. 基于高光譜圖像和光譜信息融合的馬鈴薯多指標檢測方法[J]. 農業工程學報, 2015, 31(16): 258-263.
[14] 孫偉偉, 劉春, 李巍岳. 聯合改進拉普拉斯特征映射和-近鄰分類器的高光譜影像分類[J]. 武漢大學學報(信息科學版), 2015, 40(9): 1151-1156.
[15] 張赟, 楊棟, 斯彥剛, 等. 基于監督流形學習的航空發動機振動故障診斷方法[J]. 推進技術, 2017, 38(5): 1147-1154.
[16] 錢進, 鄧喀中, 范洪冬. 基于拉普拉斯特征映射高光譜遙感影像降維及其分類[J]. 遙感信息, 2012, 27(5): 3-7.
[17] Mantziou E, Papadopoulos S, Kompatsiaris Y. Learning to detect concepts with approximate laplacian eigenmaps in large-scale and online settings [J]. International Journal of Multimedia Information Retrieval, 2015, 4(2): 95-111.
[18] Singer A, Wu H. Spectral convergence of the connection Laplacian from random samples [J]. Information and Inference: A Journal of the IMA, 2016, 6(1): 58-123.
[19] 吳尚蓉, 陳仲新, 任建強, 等. 定位尺度和像元空間關系對GF-1亞像元定位精度影響分析[J]. 農業工程學報, 2016, 32(5): 163-171.
[20] 王冰玉, 孫威江, 黃艷, 等. 基于遺傳算法的安溪鐵觀音品質快速評價研究[J]. 光譜學與光譜分析, 2017, 37(4): 1100-1104.
Nonlinear Manifold Dimensionality Reduction Methods for Quick Discrimination of Tea at Different Altitude by Near Infrared Spectroscopy
LIU Peng1, AI Shirong3, YANG Puxiang2, LI Wenjin2, XIONG Aihua1,TONG Yang3, HU Xiao3, WU Ruimei1*
1. College of Engineering, Jiangxi Agricultural University, Nanchang 330045, China; 2. Sericulture and Tea Research Institute of Jiangxi Province, Nanchang 330203, China; 3. College of Software, Jiangxi Agricultural University, Nanchang 330045, China
In order to improve the accuracy of near infrared (NIR) spectroscopy identification methods for tea at different altitude, the non-linear manifold dimensionality reduction methods of locally linear embedding (LLE) and laplacian eigenmaps (LE) were used to reduce the dimension of NIR spectral data, and compared with non-linear (KPCA) and linear (PCA) dimensional reduction methods. Discrimination models were establishedfor tea atdifferent altitude based on different dimensional reduction methods and least squares support vector machine (LSSVM) algorithm. Visualization of different dimensionality reduction results show that data processed by KPCA and PCA methods were more discrete. In particular, there were more overlaps between 400-800?m and 800-1?200?m samples. However, the same kind of sample points could be gathered well in three-dimensional space by the nonlinear manifold dimensionality reduction methods can. Tea at different altitude could be easily separated and the aggregation effect of the LE was better than that of the LLE. The results of models indicate the LE_LSSVM model had the best performance, with the prediction set accuracy and Kappa value of 100% and 1.00 respectively. Compared with PCA_LSSVM, KPCA_LSSVM and LLE_LSSVM models, the accuracy of prediction set was improved by 1.7%, 1.7%, 3.3% and Kappa values increased by 0.025, 0.03, and 0.05. The results show that LE and other nonlinear manifold dimensionality reduction methods were effective in reducing dimension of near infrared spectral data, simplifying model complexity, and improving model precision. The study provides a new means for rapid detecting for tea quality research.
tea, near infrared spectroscopy, nonlinear manifold dimensionality reduction methods, laplacian eigenmaps
S517.1
A
1000-369X(2019)06-715-08
2018-10-19
2019-06-12
國家自然科學基金項目(31460315)、江西省重點研發計劃項目(20171ACF60004)、江西省現代農業產業技術體系專項資金(JXARS-02)
劉鵬,男,碩士研究生,主要從事農產品質量安全檢測與模式識別方面的研究。
aisrong@163.com