






摘要:探究手持式近紅外光譜與初烤煙葉煙堿值之間的關系,為煙葉在烘烤過程中不同階段煙堿值的快速測定提供參考。本研究以初烤煙葉煙堿值預測模型為研究對象,選取542個煙葉樣本數據作為訓練集,構建了包括主成分回歸、偏最小二乘法和Lasso回歸等機器學習回歸模型,并基于Stacking方法融合為單個預測模型,以136個煙葉樣本數據作為測試集評估融合模型的預測效果。融合模型在測試集上的平均絕對誤差和決定系數分別為0218和0758,且對于煙葉在烘烤過程中不同階段的煙堿值預測均有效。其中,融合模型對于煙葉類別為“42 ℃”的煙堿值預測效果最佳,而對于煙葉類別為“鮮煙葉”“38 ℃”和“46 ℃”的煙堿值預測效果要優于煙葉類別為“48 ℃”的煙堿值預測效果。以此方法構建的初烤煙葉煙堿值預測模型在基于手持近紅外光譜對煙葉烘烤過程中不同階段的煙堿值預測方面有著較好的效果。
關鍵詞:手持近紅外光譜;初烤煙葉;煙堿值;模型;機器學習
中圖分類號:TP391.4文獻標識碼:A
文章編號:1008-0457(2025)02-0056-07國際DOI編碼:10.15958/j.cnki.sdnyswxb.2025.02.008
近紅外光譜分析技術(NIR)是一種近年來迅速發展的綠色分析技術[1],因其簡單、高效和快速等優點在行業內受到廣泛關注。該技術結合了光譜技術、信息學、化學計量學和計算機技術,主要通過測量樣品在近紅外波段的吸收或反射光譜信息,結合化學計量學算法對光譜信息進行處理和分析,以實現對樣品成分的定量或定性分析。相比傳統分析方法,NIR技術具有更高的分析速度和更低的樣品消耗量,同時對環境影響較小。煙草行業廣泛運用近紅外光譜檢測技術,但使用的儀器主要是傅里葉變換近紅外光譜儀。該儀器雖然檢測精度較高,但由于體積大、內部存在移動部件,無法隨意移動,因此其應用主要局限在實驗室環境中,無法應用到煙草種植、采烤、收購和醇化等一線場地[2]。近紅外光譜分析技術的進步與近紅外光譜儀的研究密不可分,隨著技術的不斷發展,近紅外光譜儀也在不斷改進和優化,從而促進了近紅外光譜分析技術的進步。尤其是在多場景應用需求的前提下,近紅外光譜儀逐步地向著小型化、固態化、模塊化和快速實時等方向發展[38]。目前,針對多場景應用的需求,近紅外光譜儀開始由實驗室靜態檢測應用逐漸向可移動式的手持式近紅外光譜儀方向發展。同時,由于手持式近紅外光譜儀具有價格適中、輕便易攜、適用于野外工作和現場分析等優點,因此在煙草、食品、農產品等行業的現場檢測應用中發揮了越來越重要的作用。近紅外光譜分析技術能夠檢測有機物中含有的CH、NH、OH、CC等化學鍵的振動,而煙葉中含有的總糖、總氮、還原糖、煙堿、葉綠素等化學成分均具有豐富的含氫基團。通過現代化學計量學的手段,可以挖掘煙葉光譜中蘊含的關鍵特征,為近紅外定性、定量分析提供可能[9]。該方法解決了傳統化學方法難以快速完成的問題,為煙草行業的質量檢測等應用場景提供了新的解決方案。初烤煙葉中煙堿值含量受多方因素影響,卻是評估煙葉品質的重要指標,因此快速檢測初烤煙葉煙堿值較為困難卻又具有重要意義。機器學習是一種人工智能的分支領域,其專注于讓計算機系統能夠通過數據學習和改進,使計算機能利用數據來提升執行特定任務的能力。機器學習結合近紅外光譜技術在煙葉化學成分預測方面的應用,是當前煙草行業中一項重要的技術發展,近紅外光譜技術能夠快速、非破壞地獲取煙葉化學成分的特征數據,使用上述數據訓練機器學習算法模型,即可實現對煙葉化學成分的快速預測。國內已有煙草研究人員使用PLS模型結合光譜預處理技術構建了初烤煙葉的新植二烯預測模型并取得了不錯的結果[10]。劉俊等[11]采用了微機電手持近紅外光譜技術,對398個初烤煙葉樣品進行光譜建模,使用偏最小二乘法(Partial LeastSquare Method,PLS)建立了尼古丁預測模型,其結果顯示模型線性良好,預測精度高,能夠滿足現場無處理快速檢測煙片的要求。與劉俊等[11]的研究相比,本研究的不同之處和新穎性在于:現有文獻主要集中于手持近紅外檢測烤后煙葉的化學值,而本研究則以烘烤過程中不同階段的煙葉為對象,且在光譜數據處理和模型優化方面引入了機器學習模型,以建立適用于不同階段煙葉的煙堿值預測模型,并進一步擴展了手持近紅外光譜法在實際田間和生產環境中的應用,驗證了其在復雜環境中的可行性和有效性。現有文獻在手持式近紅外檢測初烤煙葉化學值的應用主要集中于對烤后煙葉的研究,本研究的主要研究對象為烘烤過程中不同階段的煙葉,并基于機器學習模型建立適用于烘烤過程中不同階段煙葉的煙堿值預測模型。本研究通過獲取烘烤過程中不同階段煙葉的手持式近紅外光譜,并使用傳統方法測定烘烤過程中不同階段煙葉的煙堿值數據,從而建立烘烤過程中不同階段煙葉的煙堿值預測模型,旨在探討使用機器學習模型實現預測烘烤過程中不同階段煙葉煙堿值的可行性。
1材料與方法
11試驗材料
煙葉樣品為2023年所采集的云南楚雄的煙葉,品種為‘K326’。研究中使用的近紅外光譜儀設備為AURA手持式近紅外光譜儀(德國Carl Zeiss公司),波長點數為701個,波長范圍為950~1650 nm,為光柵陣列檢測器。
12測定方法
121取樣規格
為研究煙葉在烘烤過程中不同階段煙堿值快速檢測模型的可行性,根據實際情況,分別對上部和中部的煙葉進行取樣。其中,煙葉產地為云南楚雄,品種均為‘K326’,烘烤過程中不同階段包括鮮煙葉、烘烤過程中的38、42、46及48 ℃共5個階段。
122數據采集
每個樣本取6片完整煙葉(如圖1所示),將煙葉扎在一起放進袋子,減少煙葉造碎,并做好樣品標簽記錄(產地、品種、煙葉類別),便于后期手持式近紅外光譜儀的掃描。
123光譜測定
合理的近紅外光譜樣本采集方法是近紅外光譜分析技術的關鍵,手持式近紅外光譜儀最常見的樣本光譜采集方式是將樣本磨碎,然后采集粉末狀樣本光譜,這種方式得到的光譜雖然具有代表性,但需要破壞樣本,且檢測效率不高,不能發揮近紅外光譜無損、快速的技術特點。另一種手持式近紅外光譜儀采集樣本的方法是掃描樣本一個點位的光譜,該方法雖然可以大大提高工作效率,但是掃描該點的光譜不能很好的反映該樣本的整體信息。此外,由于近紅外具有一定的穿透能力,單片煙葉采集的光譜中可能會含有其他非煙葉的信息(如實驗臺信息等)。為減少上述問題對光譜測定的影響,本研究采取下述檢測方式進行光譜測定:
如圖2所示,將6片煙葉疊放在一起,用手持式近紅外光譜儀進行9點掃描。首先進行固定點掃描,掃描3次,分別是葉尖、葉腰、葉基(對應圖2的點1、點2、點3)各掃描1次;然后將最下面的3片煙葉抽出放置最上面,再次進行葉尖、葉腰、葉基3次掃描(對應圖2的點4、點5、點6)。接著進行滑動式掃描,將手持式近紅外光譜儀放置于第一片煙葉表面,從葉尖滑動至葉基進行滑動式掃描;再將最下面的4片煙葉抽出放置于最上面,從葉尖滑動至葉基進行滑動式掃描;最后,再次將最下面的4片煙葉抽出放置最上面,從葉尖滑動至葉基進行滑動式掃描。掃描完畢后,每個煙葉樣本對應9條光譜,且9次掃描的外界環境保持相對穩定,將得到的9條光譜計算平均值,該平均光譜即可作為該樣本的光譜信息[12]。
為了消除由外界環境變化而引起的光譜的影響,在每次測定前,需要對儀器進行背景校正,以防光譜發生偏移;另外,當外部環境溫度變化超過2 ℃時,儀器也會自動進行背景校正。本研究中光譜測定方式采用多片、9點掃描的方法,以確保光譜數據的代表性和準確性,避免了單點掃描可能帶來的誤差,提高了光譜數據的整體質量。
124煙堿值測定
樣本的煙堿值測定均按YC/T 160—2002標準[13]執行。
125樣本劃分方法
為了確保模型訓練和測試的代表性和均衡性,本研究采用分層抽樣的方式對煙葉的近紅外光譜樣本和化學值數據進行劃分。具體來說,我們首先將總體數據按煙葉類別分成5類,分別對應不同烘烤階段的煙葉(鮮煙葉、38、42、46及48 ℃)。在每一類別中,我們按照特定比例隨機劃分數據,將80%的數據用于訓練集,20%的數據用于測試集。
分層抽樣的主要依據是確保每個類別的煙葉樣本在訓練集和測試集中都有合理的代表性和分布,這樣可以使模型在訓練過程中充分學習每個類別的特征,并在測試過程中驗證模型的泛化能力。通過這種方式劃分數據,可以避免因類別不平衡導致的模型偏差,提高模型在實際應用中的可靠性和穩定性。
2結果與分析
21樣本信息
共取煙葉樣本678個,其中542個樣本用于構建初烤煙葉煙堿值預測模型,136個樣本用于測試初烤煙葉煙堿值預測模型的預測效果。其中,用于模型構建的訓練集樣本和用于模型評估的測試集樣本為不同煙葉類別的訓練集樣本和測試集樣本分別合并而來,即訓練集和測試集均包含不同烘烤階段的煙葉光譜數據,具體信息見表1。
22初烤煙葉煙堿值預測模型的構建
221訓練集與測試集投影
基于PCA降維方法將訓練集與測試集數據投影至二維平面,其分布如圖3所示。由圖3可知,經降維后訓練集和測試集的分布基本一致,這表明測試集的選取能夠代表完整數據集。
222預處理方法
對近紅外光譜的預處理方法[1416]通常有如下幾種:一階導數、二階導數、標準正態變量變換(Standard Normal Variate Transformation,SNV)、多元散射校正(Multiplicative Scatter Correction,MSC)、矢量歸一化(Normalization)等,另外還可以將不同預處理方法結合在一起形成更復雜的預處理方法[17]。對當前的近紅外光譜數據,采用了一階導數的預處理方法,原始光譜和預處理后光譜的對比如圖4所示。將相同煙葉類別對應光譜數據的各波長點位的吸光度取均值,從而繪制各類煙葉預處理前后對應的平均光譜,如圖5所示。
223模型構建
在訓練集上,分別嘗試了3種基礎回歸模型,分別是主成分回歸(Principal Component Regression,PCR)、偏最小二乘法(Partial Least Squares,PLS)和Lasso(Least Absolute Shrinkage and Selection Operator)回歸。利用網格搜索的方法對上述3種基礎模型進行超參數優化。所謂超參數,即機器學習模型中通常依靠人的經驗指定大小的參數,而網格搜索本質上是一種窮舉法,其通過遍歷傳入參數的所有排列組合,并使用交叉驗證的方式,返回所有參數組合下的評價指標得分,最后選擇評估指標得分最優的一組參數作為模型的訓練參數。具體來說,利用網格搜索方法,我們首先定義每個超參數的取值范圍,然后通過交叉驗證的方式評估每個參數組合的性能,最終選取最佳的參數組合用于模型訓練。
基于網格搜索確定3種基礎模型的訓練參數,并利用Stacking方法將3種基礎模型進行融合。Stacking方法的本質是一種分層結構,其先從初始的訓練集訓練出若干模型,然后把各單模型的輸出結果作為樣本特征進行整合,并把原始樣本標記作為新數據樣本標記,生成新的訓練集。再根據新訓練集訓練一個新的模型,最后用新的模型對樣本進行預測。具體步驟如下:首先,使用初烤煙葉數據分別訓練3個基礎模型;其次,利用這3個基礎模型的預測結果作為輸入,訓練一個新的元模型(如線性回歸、決策樹等);最后,將元模型的預測結果作為最終的融合模型輸出。
每種基礎模型和融合模型在測試集上的平均絕對誤差和決定系數如表2所示。由表2可知,3種基礎模型在測試集上的決定系數均大于07,其中主成分回歸模型在測試集上的決定系數最高,為0737;偏最小二乘法在測試集上的決定系數僅次于主成分回歸,為0735;Lasso回歸模型在測試集上的決定系數為0731。融合模型在測試集上的平均絕對誤差和決定系數分別為0218和0758,較其他3種基礎模型而言,融合模型在測試集上的平均絕對誤差更小,且決定系數更大,因此融合模型在測試及上的預測效果最優。
3討論與結論
目前并未有涉及不同烘烤溫度下初烤煙葉化學值預測方面的研究,本研究對不同烘烤溫度下初烤煙葉進行光譜測量,更能反映處于不同烘烤溫度下初烤煙葉的實際狀況。由于溫度對初烤煙葉的煙堿含量影響顯著,因此本研究對于煙堿含量的高光譜參數的預測有較好的適用范圍,具有一定的通用性。此外,本研究提出了一種適用于手持式近紅外光譜的九點掃描測定方法。這種方法不同于常見的單點掃描方法,九點掃描測定方法對煙葉的葉尖、葉腰和葉基均進行了掃描,并將這些掃描信息進行合并,從而更全面地反映了樣本的整體信息。這種方法提高了測量的代表性和準確性,適用于現場快速檢測。
從統計角度來看,要建立一個可靠的定量分析模型,化學值數據的分布標準差必須遠大于化學值的重復測量誤差。因此,為了確保本研究提出的定量分析模型在實際生產中能夠有效監控樣品質量,需要采取以下措施:首先,必須提高化學值測量的準確度,這可以通過校準儀器、優化測量方法以及嚴格控制實驗條件來實現;其次,每年需要對已有模型進行維護和優化,具體包括引入新的代表性樣品以補充模型數據、更新模型參數以反映最新的數據趨勢,以及篩選和剔除不適應的信息以保持模型的準確性和穩定性。此外,定期重新預測和驗證新年度的樣品數據,通過幾年的持續優化和篩選,可以顯著提高模型的適應性和預測性能,確保模型在不同環境和條件下的穩定性和可靠性。通過這些措施,可以在實際生產中更好地利用定量分析模型,實現對煙葉質量的精準監控和預測,提高生產效率和產品質量[1820]。
由于Stacking方法通常訓練多個元學習器且涉及多個模型選擇和超參數調優,這會增加整體模型的復雜度和計算成本,在大規模數據集應用場景中可能會因為需要耗費更多的計算資源和時間而導致模型表現不佳。針對上述問題,可結合基于遺傳算法等實現的自動化超參數調優和分布式訓練策略,從而加快超參數調優和模型訓練速度,達到在大規模數據集應用場景中使用的目的[21]。
使用手持式近紅外光譜儀采集初烤煙葉的光譜信息能夠反映初烤煙葉的煙堿值信息,通過一階導數對光譜數據進行預處理,基于機器學習中的主成分回歸、偏最小二乘法和Lasso回歸等模型建立初烤煙葉煙堿值預測模型,并利用Stacking方法將上述模型進行融合,得到的融合模型在測試集上的平均絕對誤差和決定系數分別為0218和0758,且融合的模型對于烘烤過程中不同階段的煙葉煙堿值的預測效果均較好。這說明基于手持近紅外光譜數據,利用Stacking方法將基礎機器學習模型進行融合的方法,在預測煙葉在烘烤過程中不同階段的煙堿值具有可行性,本研究可為烘烤過程中不同階段煙葉煙堿值的快速測定提供參考。
(責任編輯:嚴秀芳)
參考文獻:
[1]王文俊,沙云菲,汪陽忠,等.近紅外和電子鼻數據融合識別不同香型風格[J].光譜學與光譜分析,2023,43(1):133137.
[2]譚觀萍.不同形態煙葉煙堿及總糖的近紅外光譜模型轉移研究[D].長沙:湖南農業大學,2017.
[3]沙云菲,趙亞萍,于潔,等.基于支持向量機的煙葉不同部位6種化學成分差異性分析[J].東華大學學報(自然科學版),2019,45(5):720723,734.
[4]褚小立.化學計量學方法與分子光譜分析技術[M].北京:化學工業出版社,2011.
[5]湯朝起,王平,竇玉青,等.河南烤煙主要化學成分與吸食品質的關系[J].中國煙草科學,2009,30(5):4145,49.
[6]劉華友,周順峰,朱傳才,等.基于在線近紅外光譜分析的原煙精選均質化調控方法[J].安徽農業科學,2021,49(3):193195.
[7]朱紅波.基于在線近紅外光譜分析技術對七種常規煙絲化學成分的實時檢測[D].貴陽:貴州大學,2009.
[8]王玉真,邱昌桂,楊晶津,等.基于近紅外光譜分析技術評價打葉復烤片煙混合均勻性[J].安徽農業科學,2022,50(24):178180,194.
[9]耿瑩蕊,沈歡超,倪鴻飛,等.近紅外光譜結合無參數校正增強實現不同年份煙葉總糖含量模型更新[J].分析測試學報,2022,41(7):10661071.
[10]楊盼盼,周文忠,李佛琳,等.近紅外快速測定初烤煙葉中的新植二烯[J].云南農業大學學報(自然科學),2019,34(6):994999.
[11]劉俊,姜林鈴,李晨曲,等.手持近紅外光譜法快速定量檢測初烤煙葉中的尼古丁含量[J].南方農機,2024,55(2):142144,153.
[12]邵晨陽,趙一墨,鹿莉莉,等.近紅外光譜快速分析技術的應用研究進展[J].化學通報,2024,87(8):898912.
[13]國家煙草專賣局.煙草及煙草制品 總植物堿的測定 連續流動法:YC/T 160—2002[S].北京:中國標準出版社,2002.
[14]褚小立,袁洪福,陸婉珍.近紅外分析中光譜預處理及波長選擇方法進展與應用[J].化學進展,2004(4):528542.
[15]王悅,劉正東,李文霞,等.在線近紅外光譜預處理對廢舊紡織品定性識別的影響[J].分析試驗室,2023,42(11):14491454.
[16]田世杰.基于透射光譜的蘋果霉心病判別影響因素及其修正方法研究[D].西安:西北農林科技大學,2020.
[17]楊德建,趙遼英,郝賢偉,等.基于近紅外光譜和BYOL對比學習的煙葉部位識別方法[J].中國煙草學報,2023,29(6):2330.
[18]賓俊,王志國,杜文,等.基于近紅外光譜和深度模型轉移預測煙絲總糖含量[J].農業與技術,2022,42(22):1014.
[19]韋克蘇,涂永高,王豐,等.基于近紅外光譜的煙葉烘烤過程質體色素實時監測[J].江蘇農業科學,2021,49(16):184188.
[20]居雷,高揚,張鑫,等.基于近紅外光譜維度轉換和卷積神經網絡識別小產地煙葉[J].煙草科技,2024,57(7):813.
[21]胡蕓,李博巖,龐紅蕊,等.基于近紅外光譜凈信號的煙葉加料均勻性監測[J].煙草科技,2023,56(9):7883,90
Research on Prediction of Nicotine Content of Freshly Fluecured Tobacco Leaf Based on Handheld Nearinfrared Technology
Zhou Renhu1, Zhu Rong1, Xu Jie2, Ding Congkai1, Li Jianming1, Dong Shaokun1, Lou Yong1, Du Xiaojiao1, Chen Yi3*
(1.Chuxiong Company of Yunnan Provincial Tobacco Corporation, Chuxiong 675000,Yunan,China;2.Yunnan Mingfan Technology Company Limited, Kunming 650031,Yunan,China;3.Yunnan Academy of Tobacco Agricultural Sciences, Kunming 650031,Yunan, China)
Abstract:The relationship between handheld nearinfrared spectroscopy and the nicotine content of freshly fluecured tobacco leaves were explored to provide a reference for the rapid determination of nicotine content at different stages of the tobacco curing process. The prediction model of nicotine content of freshly cured tobacco leaves was used as the research object, and 542 tobacco leaf sample data were selected as the training set, and machine learning regression models including principal component regression, partial least squares regression, and Lasso regression were constructed. Then, based on the Stacking method, these models were integrated into a single prediction model. Finally, the prediction performance of the fusion model was evaluated using 136 tobacco leaf sample data as the test set. The results showed that the average absolute error and determination coefficient of the fusion model on the test set were 0218 and 0.758, respectively, and it was effective in predicting the nicotine content of tobacco leaves at different stages of the curing process. Among them, the fusion model had the best prediction effect on the nicotine content of tobacco leaves with a temperature of “42 ℃”, while the prediction effect for the nicotine content of tobacco leaves with categories of “fresh tobacco leaves”,“38 ℃” and “46 ℃” was better than that for the nicotine content of tobacco leaves with a category of “48 ℃”. The prediction model of nicotine content in freshly fluecured tobacco leaves by this method is effective in predicting the nicotine value of tobacco at different stages of the roasting process based on the handheld nearinfrared spectroscopy.
Keywords:handheld nearinfrared spectroscopy; freshly cured tobacco leaves; nicotine; model; machine learning