謝有超,彭黔榮*,,楊 敏,阮藝斌,張辭海,胡 蕓,陳 毅,付陽洋
1. 貴州大學(xué)化學(xué)與化工學(xué)院,貴陽市花溪區(qū)甲秀南路 550025 2. 貴州大學(xué)藥學(xué)院,貴陽市花溪區(qū)甲秀南路 550025 3. 貴州中煙工業(yè)有限責(zé)任公司技術(shù)中心,貴陽市小河經(jīng)濟技術(shù)開發(fā)區(qū)開發(fā)大道96 號 550009
配方和調(diào)香決定了各卷煙品牌獨特的香氣和風(fēng)味[1]。不同卷煙品牌的化學(xué)成分、零售價格以及潛在有害成分水平有所不同,同一牌號卷煙也可能由于批次不同而產(chǎn)生差異[2]。每種卷煙品牌都具有固定消費人群,其對卷煙變化十分敏感,如果卷煙的香氣和風(fēng)味波動較大,則會對卷煙銷售產(chǎn)生影響。當前對不同卷煙品牌的區(qū)分仍以感官評吸為主[3],但該方法存在主觀性強且難以實現(xiàn)在線監(jiān)控等問題。近紅外光譜技術(shù)以其快速、無損、高效等特點在石油化工[4]、醫(yī)藥[5]和食品[6]等領(lǐng)域已廣泛應(yīng)用,在煙草理化指標定量分析[7-8]、煙葉分級[9]和煙葉溯源[10]等方面也有較多研究。其中,Tan 等[11]對比了近紅外光譜結(jié)合多類別支持向量機(BSVM)、K 最鄰近法(KNN)和簇類的獨立軟模式法(SIMCA)3 種分類算法對卷煙品牌的判別效果,結(jié)果表明BSVM 算法明顯優(yōu)于KNN 和SIMCA,尤其在訓(xùn)練集樣本數(shù)較少時優(yōu)勢顯著。Omar 等[12]采用標準正態(tài)變量變換對光譜數(shù)據(jù)進行預(yù)處理后,再進行主成分分析,建立了偏最小二乘判別分析模型,實現(xiàn)了對3 種卷煙品牌的識別。Yang 等[13]采用稀疏表達分類算法(SRC)、支持向量機(SVM)和線性判別分析法(LDA)構(gòu)建了能夠?qū)? 種卷煙品牌定性判別的模型,對比發(fā)現(xiàn)SRC 模型不需進行主成分分析就可減少數(shù)據(jù)維度,具有較高鑒別能力。但目前缺少對卷煙光譜數(shù)據(jù)的深入研究,導(dǎo)致建模變量多、計算量大,且總體判別準確率低于95%。為此,利用煙絲的近紅外光譜數(shù)據(jù),通過選擇最優(yōu)的光譜數(shù)據(jù)預(yù)處理方法和降維方法,基于支持向量機(SVM)和線性判別分析法(LDA)分別建立卷煙品牌識別模型并對比驗證,旨在為卷煙配方維護和真假煙識別提供技術(shù)支持。
采用2019—2020 年貴州中煙工業(yè)有限責(zé)任公司生產(chǎn)的10 種不同卷煙品牌,編號為A~J。利用Kennard-Stone 算法[14]從329 個樣品中選擇222 個樣品作為訓(xùn)練集,剩余的107 個樣品作為測試集,見表1。

表1 10 種卷煙品牌樣品集的劃分Tab.1 Sample numbers in sample sets of cut filler of 10 cigarette brands
參照標準YC/T 31—1996[15]的方法除去卷煙包裝紙,將煙絲樣品經(jīng)40 ℃烘箱干燥2 h 左右,直至用手可以輕輕捏碎;再冷卻至室溫,采用煙草粉碎機進行粉碎,粉碎后的煙絲粉末過0.25 mm(60 目)篩后裝入密封袋中備用。
Thermo Antaris Ⅱ型傅里葉近紅外分析儀(美國Thermo Scientific 公司);FED-240 型干燥箱(德國Binder 公司);YC-400B-03 型煙草粉碎機(成都英特瑞公司)。
1.3.1 光譜采集
掃描前近紅外分析儀開機預(yù)熱30 min,設(shè)定掃描波長范圍10 000~4 000 cm-1,分辨率為8 cm-1,掃描次數(shù)64 次。保持溫濕度恒定,將煙絲粉末裝入石英杯中,用壓塊自然落下壓實,每個樣品采集2次,取平均值。
1.3.2 模式識別方法
模式識別又稱模式分類,本研究中基于線性判別分析(LDA)和支持向量機(SVM)分別建立模式識別方法,用于評估不同數(shù)據(jù)預(yù)處理方法和降維方法的優(yōu)劣。其中,LDA 是一種有監(jiān)督的判別方法,原變量經(jīng)投影后可以使類內(nèi)方差最小、類間方差最大,從而實現(xiàn)對類與類的區(qū)分[16]。LDA對于小樣本光譜數(shù)據(jù)的預(yù)測能力不高,在高維數(shù)據(jù)計算過程中容易產(chǎn)生協(xié)方差矩陣奇異,因此需要結(jié)合降維方法進行特征提取。分析發(fā)現(xiàn),不同潛變量個數(shù)會得到不同的判別正確率。為確定LDA 模型的最佳潛變量個數(shù),經(jīng)不同降維方法提取9~16 個潛變量作為LDA 模型的輸入值,并采用訓(xùn)練集的RA(Recognition Accuracy)值作為評價指標選擇最佳潛變量個數(shù)。
SVM 是一種以結(jié)構(gòu)風(fēng)險最小化為基礎(chǔ)的模式識別方法,其基本思想來源于線性判別的最優(yōu)分類面,在小樣本數(shù)據(jù)集分類中具有顯著優(yōu)勢[17]。SVM 可以將高維空間的內(nèi)積運算轉(zhuǎn)化為低維輸入空間的核函數(shù)計算,解決了在高維空間計算中存在的“維數(shù)災(zāi)難”問題。但不同核函數(shù)建立的SVM 模型的預(yù)測能力不同,為取得最佳識別效果,采用訓(xùn)練集的RA 值作為評價指標并選擇最佳核函數(shù)。
1.3.3 光譜數(shù)據(jù)預(yù)處理方法的選擇
光譜數(shù)據(jù)除含有樣品自身化學(xué)信息外,還含有其他信息和噪聲,例如電噪聲、樣品背景和散光等[18]。本研究中比較了標準正態(tài)變量變換(SNV)、多元散射校正(MSC)、基線校正(Baseline)、去勢(De-trending)、均值方差化(Autoscaling)、線性函數(shù)歸一化(Rangescaling)、一 階導(dǎo)數(shù)(first derivative)、連續(xù)小波變換(CWT)、SNV+first derivative、MSC + first derivative、SNV + CWT 和MSC+CWT 等12 種光譜數(shù)據(jù)預(yù)處理方法,結(jié)合1.3.2 節(jié)中確定的兩種模式識別方法,采用RA 值作為評價標準選擇最有效的光譜數(shù)據(jù)預(yù)處理方法。
1.3.4 數(shù)據(jù)降維方法的選擇
數(shù)據(jù)降維是指通過將原始特征空間進行變換,將高維空間中的數(shù)據(jù)點映射到低維空間中,既可減少冗余信息造成的誤差,也可考察光譜數(shù)據(jù)內(nèi)部的結(jié)構(gòu)特征[19]。為尋找最適宜的降維方法,在對光譜數(shù)據(jù)進行預(yù)處理后,分別采用線性降維主成分分析(PCA)、非線性提取方法局部嵌入(LLE)、局部切空間排列(LTSA)、核主成分分析(KPCA)、隨機鄰近嵌入(SPE)、Sammon 映射(Sammon mapping)、概率主成分分析(PPCA)和擴展映射(Diffusion mapping)等方法進行數(shù)據(jù)降維。結(jié)合1.3.2 節(jié)和1.3.3 節(jié)中確定的兩種模式識別方法和光譜數(shù)據(jù)預(yù)處理方法,采用RA 值作為評價標準選擇最有效的降維方法。
1.3.5 模型評價
采用RA 值作為評價指標考察模型的優(yōu)劣,即正確判斷的樣品數(shù)占全部樣品數(shù)的百分比[20]。
使用Matlab R2019a(The Math Works, USA)和The Unscrambler X 10.3(CAMO Software AS,NORWAY)軟件進行數(shù)據(jù)分析。
圖1 為10 種卷煙品牌329 個樣品的近紅外光譜圖??梢?,各卷煙品牌的近紅外光譜圖無太大差異,吸收峰形和位置較為相似,無法從直觀上進行區(qū)分,需要對光譜數(shù)據(jù)進行預(yù)處理。

圖1 不同卷煙品牌近紅外光譜圖Fig.1 NIR spectra of different cigarette brands

表2 不同降維方法不同潛變量個數(shù)下LDA 模型的RA 值Tab.2 RA values of LDA models under different dimension reduction methods and different number of latent variables(%)
為確定LDA 模型的最佳潛變量個數(shù),經(jīng)不同降維方法提取到9~16 個潛變量作為LDA 模型的輸入值,其訓(xùn)練集的RA 值見表2??梢?,隨著潛變量個數(shù)增加,不同降維方法下LDA 模型的判別能力均呈先上升后下降趨勢。其中,采用LLE、LTSA、SPE、Sammom mapping 和PPCA 降維方法在提取13 個潛變量時LDA 模型的RA 值最大。而基 于PCA、KPCA 和Diffusion mapping 方 法 降 維時,選擇13 個和14 個潛變量所建模型的判別能力接近。因此,在建立LDA 模型時,提取13 個潛變量作為模型的輸入變量,可減少冗余信息,且能得到重要的分類信息。
不同降維方法和4 種核函數(shù)下SVM 模型的10種卷煙品牌訓(xùn)練集的RA 值見表3??梢?,利用8種降維方法分別提取13 個潛變量后,采用Linear核函數(shù)建立的SVM 模型的RA 值最高。因此,選擇Linear 作為SVM 模型的核函數(shù)進行內(nèi)積計算。

表3 不同降維方法不同核函數(shù)下SVM 模型的RA 值Tab.3 RA values of SVM models under different dimension reduction methods and different kernel functions (%)
采用12 種光譜數(shù)據(jù)預(yù)處理方法變換后的光譜圖見圖2。其中,圖2a 和圖2b 消除了固體顆粒大小產(chǎn)生的散射影響;圖2d 和圖2g 消除了光譜中的基線漂移;圖2c 和圖2j 消除了噪聲和背景;圖2e和圖2f 是近紅外光譜數(shù)據(jù)預(yù)處理最常用的方法,用于增強光譜數(shù)據(jù)之間的差異;圖2h、圖2i、圖2k和圖2l 是光譜數(shù)據(jù)預(yù)處理方法的聯(lián)合應(yīng)用,可從多角度濾除與光譜數(shù)據(jù)無關(guān)的信息。由于儀器、樣品特征以及測量環(huán)境、條件的變化,需要通過模型評價選擇最佳光譜數(shù)據(jù)預(yù)處理方法。
基于本研究中確定的SVM 和LDA 模式識別方法,對比12 種光譜數(shù)據(jù)預(yù)處理方法的RA 值,見表4??梢?,對于SVM 模型,采用CWT 預(yù)處理方法的測試集RA 值最高(92.53%);對于LDA 模型,采用Baseline、CWT 和MSC+CWT 這3 種預(yù)處理方法的測試集RA 值最高(93.46%)。因此,選擇CWT 作為識別模型的光譜數(shù)據(jù)預(yù)處理方法,這可能與CWT 能更好地消除光譜數(shù)據(jù)中的背景干擾和基線漂移有關(guān)。


圖2 經(jīng)12 種光譜數(shù)據(jù)預(yù)處理方法變換后的光譜圖Fig.2 Spectra transformed by twelve pre-processing methods

表4 不同光譜數(shù)據(jù)預(yù)處理方法下不同識別模型的RA 值Tab.4 RA values of different recognition models under different spectral data pre-processing methods (%)
為進一步提高模型的識別精度,采用LLE、LTSA 和KPCA 等7 種非線性降維方法,對經(jīng)過CWT 預(yù)處理后的訓(xùn)練集數(shù)據(jù)進行處理,再分別采用優(yōu)化后的SVM 和LDA 建模,其測試集的RA 值見表5??梢?,不同識別方法下基于PPCA 降維方法的RA 值均為最高,SVM 和LDA 模型的RA 值分別為97.20%和96.26%。
綜上可知,采用CWT 進行近紅外光譜數(shù)據(jù)預(yù)處理,PPCA 方法進行數(shù)據(jù)降維,Linear 作為核函數(shù),基于SVM 方法建立的識別模型得到的RA 值最佳。

表5 不同非線性降維方法下不同識別模型的RA 值Tab.5 RA values of different recognition models under different nonlinear dimension reduction methods(%)
基于卷煙煙絲的近紅外光譜數(shù)據(jù),結(jié)合機器學(xué)習(xí)技術(shù),以貴州中煙工業(yè)有限責(zé)任公司生產(chǎn)的10 種卷煙品牌為對象,建立了一種卷煙品牌識別模型。通過交叉驗證,確定了最佳光譜數(shù)據(jù)預(yù)處理方法、潛變量個數(shù)、核函數(shù)、降維方法等關(guān)鍵參數(shù)。利用采集的卷煙樣品數(shù)據(jù)進行驗證,結(jié)果表明:采用CWT 進行近紅外光譜數(shù)據(jù)預(yù)處理,PPCA方法進行數(shù)據(jù)降維,選擇Linear 作為核函數(shù),基于SVM 方法建立的識別模型的RA 值達到97.20%,表明可以根據(jù)煙絲光譜數(shù)據(jù)實現(xiàn)對卷煙品牌的準確識別。