劉洪劍,金紅崗,黃曉明,肖旭斌,周樂群,劉 濤,字淑慧,李枝樺
(1.云南農業大學農學與生物技術學院,云南 昆明 650201;2.西南中藥材種質創新與利用國家地方聯合工程研究中心/云南省藥用植物生物學重點實驗室,云南 昆明 650201;3.紅云紅河煙草(集團)有限責任公司原料部煙葉質檢科,云南 昆明 650202)
【研究意義】雪茄煙葉原產于美洲,是茄科屬植物,在世界各地廣為種植,具有較好的經濟效益[1]。雪茄煙是由經過晾制和發酵后的雪茄煙葉卷制而成[2],根據用途可分為茄芯、茄套和茄衣3 種類型[3]。茄衣煙葉的化學成分可作為表征煙葉質量的重要指標,其組成和含量均會影響雪茄煙的風味[4-5],檢測茄衣煙葉的化學成分可用于茄衣煙葉的品質鑒定,促進雪茄煙品質提升[6]。因此,化學成分檢測在茄衣煙葉質量評價中起重要作用,主要包括對總氮、鉀、總糖、還原糖、總堿、氯和鎂等化學成分的檢測[7]。【前人研究進展】目前,傳統的檢測方法主要通過化學試劑進行測定[8-9],該方法結果較為準確,但費時費力,效率低下,不適合大批煙葉檢測,且破壞煙葉,對茄衣煙葉的外觀品質產生嚴重影響。在無損檢測方面,常用的方法有超聲檢測、磁粉檢測和光譜檢測等[10-12],而光譜檢測中的近紅外光譜技術是通過研究物質對光的透射、反射、吸收的能力來確定特定成分含量的一種方法,操作簡單、快速、綠色,可滿足大批量樣品檢測,已廣泛應用在農業、醫藥、食品、工業等領域[13-14]。仇遜超等[15]應用近紅外光譜分析技術建立了紅松籽仁蛋白質含量的檢測方法,得到的模型驗證集均方差均值為0.5681,驗證集皮爾遜相關系數均值達到0.9408,分析結果準確可靠、方便無損;劉佳明等[16]應用近紅外光譜技術結合偏最小二乘法和交叉驗證法建立了快速測定化橘紅中柚皮苷和野漆樹苷的定量模型,決定系數(R2)分別為92.08%、91.02%,校正集均方差(RMSECV)分別為0.247、0.050,表明該模型預測效果良好、準確率高。近紅外光譜技術在煙草中也有相應研究,王玉真等[17]利用近紅外光譜技術評價了打葉復烤片煙的混合均勻性,變異系數為3.86%~8.33%,均勻度為91.67%~96.14%;李華杰等[18]利用近紅外光譜技術結合模式識別方法建立模型,分析卷煙煙絲的配方比例,模型外部驗證的整體識別率為99%,達到良好效果。這些研究大多針對于烤煙煙葉及其他物質化學成分的快速檢測,檢測的化學成分較為單一,有關茄衣煙葉化學成分檢測的研究較少,利用近紅外光譜技術對茄衣煙葉化學成分進行快速檢測更是鮮有報道。【本研究切入點】本研究以540 片云南雪茄茄衣煙葉為研究材料,將近紅外光譜技術應用于茄衣煙葉內7 種化學成分含量的測定。首先利用常規化學方法測定煙葉內7 種化學成分的含量,采集茄衣煙葉的近紅外光譜數據,對近紅外光譜數據進行預處理,將光譜數據分別與7 種化學成分含量值關聯建立模型,確定模型的最佳預處理方法和最佳主成分數,建立預測效果最佳的模型,并檢驗模型的可靠性和準確性。【擬解決的關鍵問題】本研究旨在利用近紅外光譜技術,建立適于茄衣煙葉7 種化學成分檢測預測效果最佳的近紅外光譜模型,同時將建模過程細化,為雪茄茄衣煙葉化學成分含量快速預測模型的建立提供理論指導,也為后期依據茄衣煙葉化學成分含量對煙葉進行快速質量評價奠定基礎。
在云南省煙草農業科學研究院雪茄煙葉種植基地收集發酵好的茄衣煙葉540片,按產區、品種、年份和部位等級進行分類整理,煙葉收集年份為2020 年和2021 年,樣品具體分類情況見表1。在樣品中按3∶1 比例選擇訓練集和驗證集,即選取384 片煙葉作為訓練集樣本,156 片煙葉作為驗證集樣本,于2022 年對煙葉進行檢測。
所用近紅外光譜采集儀器為上海創和億電子科技發展有限公司生產的煙葉綜合測試臺GGTM-900 PPro 自帶的近紅外光譜儀及其配套的光譜采集軟件InProcess、Hand 和SPS。波長掃描范圍為950~1 650 nm,分辨率2 nm。
在采集茄衣煙葉近紅外光譜前,利用常規化學方法測定煙葉的化學值,總氮含量采用YC/T161-2002[19]方法測定,鉀含量采用YC/T217-2007[20]方法測定,總糖、還原糖含量采用YC/T159-2019[21]方法測定,總堿含量采用YC/T468-2013[22]方法測定,氯含量采用YC/T 162-2011[23]方法測定,鎂含量采用YC/T175-2003[24]方法測定。以上測定中,由于需要測定7種化學成分,故以6 片煙葉為一組打成煙粉混合,分成7 份,分別測定7 種化學成分含量,由于混合后化學成分是均勻分布的,故分別以每份煙粉測得該化學成分的質量分數作為整片煙葉每種化學成分含量,每種化學成分均測定3次,取平均值。
為保證茄衣煙葉完整性,選擇將整片茄衣煙葉置于煙葉綜合測試臺GGTM-900PPro 上,使用近紅外光譜儀進行光譜掃描,采集光譜數據。在950~1 650 nm 波段,基本涵蓋7 種化學成分的光譜特征[13],故使用luanch 軟件設置光譜掃描參數:掃描波長范圍為950~1 650 nm,分辨率為2 nm,環境溫度保持恒定24~25 ℃。由于需要與7 種化學成分關聯建立模型,而7 種化學成分的測定來自混合后的6 片煙葉,所以每片煙葉的化學成分含量相同。為保證光譜與化學成分一一對應,需要使6 片煙葉的光譜一致,故每6 片煙葉掃描完畢后得到6 條光譜,取其平均光譜作為6 片煙葉共同光譜,最后掃描的光譜數據以Excel 表格形式導出。
為提高模型建立的準確性和精確度,減少光譜中摻雜的無用信息,建模前需對原始光譜數據進行預處理,降低噪聲和冗余[25-26]。借助軟件Matlab R2015b 采用一階導數和一階導數+中值濾波的預處理方法處理近紅外光譜原始數據。一階導數主要用來消除基線漂移,減少背景干擾,而一階導數和中值濾波方法結合既可以消除基線漂移或平緩背景干擾的影響,也可以有效降低隨機噪聲[27]。
本研究共得到90 條光譜,其中64 條訓練集光譜用于與化學成分建立模型,26 個驗證集光譜用于評估模型。在Matlab R2015b 軟件中,使用偏最小二乘法(Partial Least Squares,PLS)創建近紅外模型,并確定最佳主成分數,采用相關系數(r)、交叉驗證均方差(Root mean square error of cross validation,RMSECV)和驗證集均方差(Root mean square error of prediction,RMSEP)等參數對模型進行評價,以確定最優模型。r值為相關系數,反映預測值與化學值的相關程度,一般來說,r越接近1,說明預測結果越好;RMSECV越小,模型的準確性和可信度就越高;RMSEP越小,模型的準確度越高,預測效果越好[28]。
除將參與建立模型的數據代入模型對模型進行檢測衡量外,還需要采用外部驗證的方法對模型的實際預測能力進行評價,即隨機選取26 份未參與建模的樣本進行化學實驗檢測,測定其化學成分含量,然后將26 份樣品的近紅外光譜數據代入模型進行預測,比較模型預測值和化學值,并計算相對標準偏差(Relative standard deviation,RSD)對模型的實際預測能力進行檢驗和分析。
從表2 可以看出,每100 g 所測樣品7 種化學成分含量的最大值均不高于6.19 g,最小值均不低于0.05 g,平均值范圍為0.10~5.01 g,說明樣品涉及茄衣煙葉各個等級,7 種化學成分含量涵蓋范圍較廣,代表性較強,適合應用近紅外光譜技術建立模型。

表2 雪茄茄衣煙葉中7 種化學成分的測定結果Table 2 Determination results of seven chemical components in cigar wrapper tobacco
為提高煙葉近紅外光譜數據的準確性,應在光線和溫度穩定條件下對煙葉進行光譜掃描。在掃描光譜過程中,為保證茄衣煙葉的完整性,采用全葉掃描,從而得到完整茄衣煙葉的近紅外光譜數據,共掃描90 條光譜。光譜在測量過程中往往產生噪聲和散射,在建模前需對原始光譜進行預處理。本文的預處理算法包括:一階導數和一階導數+中值濾波,最后得到原始光譜和預處理后的光譜如圖1所示。從圖1 可以看出,在整個光譜波段內,由于茄衣煙葉的物質組成基本相同,近紅外光譜總體變化趨勢基本一致;但不同樣品在同波長下的吸光度有一定不同,說明煙葉化學成分的含量存在一定差異。表明近紅外光譜分析技術可用于茄衣煙葉化學成分的定量分析。

圖1 雪茄茄衣煙葉近紅外原光譜和預處理后光譜Fig.1 Original near-infrared spectrum and pretreated spectrum of cigar wrapper tobacco
茄衣煙葉原始光譜經一階導數和一階導數+中值濾波預處理后,選擇訓練集的64 條光譜利用PLS 方法與煙葉化學成分含量數據關聯,建立茄衣煙葉7 種化學成分的近紅外模型。在建模過程中,PLS 主成分數是影響模型性能的一個主要參數,需要選擇合適的主成分數對模型進行優化。模型建立后,得到的各評價參數如表3 所示。由表3 可知,7 種化學成分分別用原始光譜、一階導數、一階導數、原始光譜、原始光譜、一階導數+中值濾波和一階導數+中值濾波預處理方法建立的模型預測效果最佳,最佳主成分數分別為20、7、4、24、21、9 和7。此時,7 種化學成分最佳預測模型的相關系數較高,均不低于0.7181,均方根誤差較小,均不高于0.3990。建模前進行光譜預處理提高了模型的準確率,在部分模型中得到體現,但由于部分化學成分含量的特殊性,進行光譜預處理也可能降低模型的準確性,即對光譜進行預處理會增加噪聲和無關信息等,使模型預測能力下降,所以使用原始光譜建模有較好的預測性能。表明7 種化學成分含量預測模型的擬合效果均較好,模型預測效果最佳,這些模型可用于茄衣煙葉7 種化學成分含量檢測。由圖2可知,在各模型訓練集和驗證集中,各點大多分布在直線附近,說明模型的預測值和化學值間差異較小,模型的可信度和準確率都很高。所以,應用近紅外光譜可基本實現茄衣煙葉化學成分含量的快速預測。

圖2 7 種化學成分建模的預測值與化學值相關性Fig.2 Correlation between predicted values and chemical values of seven chemical components modeling

表3 不同預處理方法下7 種化學成分所建模型主要參數Table 3 Main parameters of the models of seven chemical components under different preprocessing methods
為檢驗以上各化學成分建立的數學模型,通過外部驗證的方法對各模型的實際預測能力進行分析和評價,即隨機選取26 個未知樣品的光譜代入上述模型,得到預測值,再對26 個樣品進行化學檢測,測定其7 種化學成分含量,預測結果與化學分析結果見表4。在7 種化學成分預測中,預測值與化學值的平均RSD均小于32%,除氯中部分RSD值偏大外,其他化學成分的RSD值均較小,這可能是由各樣品氯的絕對含量偏低且氯含量范圍較大導致的,使模型對各樣品氯含量不能很好檢測。表明,除氯外,其他樣品模型的預測值和化學值均具有較高相關性,所建立的化學成分模型基本能達到較好的預測效果,可用于茄衣煙葉化學成分含量的快速測定。

本研究以540 片云南雪茄茄衣煙葉為研究材料,首次將近紅外光譜技術應用于茄衣煙葉內7種化學成分含量的測定,即利用近紅外光譜結合偏最小二乘法與茄衣煙葉化學成分的化學值進行關聯分析,同時對最佳預處理方法和最佳主成分數進行篩選,分別建立7 種化學成分的預測性能最佳的近紅外光譜模型,并檢驗模型的可靠性和準確性。與傳統方法相比,本研究所建模型具有快速檢測的特點,大大提高了茄衣煙葉7 種化學成分含量的檢測效率。本試驗中,各茄衣煙葉樣本光譜走向趨勢基本一致,但吸光度有所差異,說明所有茄衣煙葉樣本的化學成分組成基本相同,含量有一定差異,這與段昊等[29]和林云等[30]的研究結果一致。本研究中,通過使用兩種預處理算法,分別為一階導數和一階導數+中值濾波,部分模型預測性能在預處理算法下有一定提升,表明在建模之前進行光譜預處理具有一定的必要性,這與衛青等[31]的研究結果一致。此外,部分模型會出現原始光譜預測效率大于預處理后光譜預測效率的現象,即任何預處理均會降低模型的預測能力,這可能是所取波數的原始光譜區分度較大,化學值跨度也比較大,且測定的化學值偏小,導致光譜未經預處理建模就能夠實現化學成分含量的快速預測,也可能是光譜經過預處理后會增加一些干擾信息,導致預處理后的光譜對模型性能影響較大,這與宋白玉等[27]和徐杰等[32]的研究結果一致。本研究所建模型的相關系數均大于0.7181,均方根誤差均小于0.3990,說明模型的預測性能較好。劉燕德等[33]利用近紅外光譜技術建立了柑桔葉片可溶性糖的檢測模型,結果顯示,RMSEP皆在4.93 以上,進一步表明本研究預測的模型具有較高的準確度。在進行外部驗證時,氯的平均相對標準偏差為31.82%,其余化學成分的平均相對標準偏差均在15%以下,說明所有模型中除氯預測模型外預測效果均較好,而氯的部分預測值數據異常,且RSD偏大,這可能是因為樣品比較特殊或進行化學值測定時誤差較大,使測定的氯含量偏低且含量范圍較大,導致模型預測性能不佳,對模型的適用范圍還有待研究,這與包錚等[34]的研究結果一致。
本研究建立的近紅外光譜模型可基本實現茄衣煙葉內7 種化學成分含量的快速檢測,預測效果良好,提高了檢測效率。所建模型最佳預處理算法分別為原始光譜、一階導數、一階導數、原始光譜、原始光譜、一階導數+中值濾波和一階導數+中值濾波,最佳主成分數分別為20、7、4、24、21、9和7,7種模型的訓練集r值分別為0.9441、0.8589、0.7664、0.9511、0.9547、0.9031 和0.8620,RMSECV值分別為0.1288、0.2846、0.0280、0.0096、0.1894、0.2965 和0.0795;驗證集r值分別為0.8958、0.7675、0.7181、0.7928、0.7282、0.8062和0.7980,RMSEP值分別為0.1789、0.3011、0.0324、0.0193、0.3855、0.3990 和0.0999,外部驗證顯示,7 種化學成分預測值與化學值的平均RSD值皆小于32%,表明此時建立的7 個模型預測效果最佳。