潘 曦 李 冉 魏 敏 衛 青 邱昌桂
(1. 湖北中煙工業有限責任公司技術研發中心,湖北 武漢 430040;2. 云南瑞升煙草技術〔集團〕有限公司,云南 昆明 650106)
卷煙品牌是煙草工業企業發展的核心基礎和生存之本,不同品牌的卷煙主要采用調整煙葉原料的葉組配方和香精香料配方等技術達到維持卷煙品牌的內在品質質量與風格特征的目的。煙草行業中,卷煙內在品質質量和風格特征主要通過感官質量評價[1]、主流煙氣[2-3]和煙絲化學成分[4-5]等方法進行判斷和鑒別。近年來,近紅外光譜技術(NIRS)逐漸成為區分和鑒別卷煙內在質量和風格特征的重要分析方法[6-7],該技術具有樣品無需預處理、無污染、無損分析、綠色環保以及操作簡便和檢測速度快等優點[8],結合化學計量學方法可實現樣品的定量定性快速分析,被廣泛應用于食品和制藥等行業[9]。王家俊等[10-13]采用近紅外光譜技術實現了煙草中多種化學成分含量及物理特性的快速測定。其在煙葉模式識別方面也被廣泛應用,如煙葉類型分類判別[14]、卷煙配方結構識別[15]、卷煙質量投影識別[6]、卷煙生產過程監測及質量評價[16-18]和卷煙真偽鑒別[19]等,特別是與機器學習方法結合應用,極大地提高了模式識別的準確率[20-21]。曹妙玲[22]以前16個近紅外光譜主成分及12個抽提的綜合特征為分類特征所建立的KNN判別模型的平均預測正確率為92.65%~96.23%。謝有超等[21]采用連續小波變換(CWT)進行近紅外光譜數據預處理,概率主成分分析(PPCA)方法進行數據降維,基于Linear核函數的支持向量機(SVM)方法建立的卷煙牌號識別模型的正確識別率值達97.20%,提升了卷煙牌號的識別準確率。但SVM模型的分類準確率在很大程度上取決于SVM參數值的選取,而參數值的選取目前還主要依賴于經驗值的試取。
研究擬以6種不同牌號卷煙的成品煙絲為試驗對象,采用近紅外光譜技術結合螢火蟲算法優化的支持向量機建立預測模型,對不同牌號卷煙進行更詳細的牌號區分,以期為品牌卷煙的內在質量和風格特征及不同牌號卷煙內在質量特征快速鑒別研究提供依據,為進一步利用近紅外光譜技術進行卷煙產品質量維護、卷煙過程質量監測和卷煙配方設計提供技術指導。
傅里葉變換近紅外光譜儀:Nicolet Antaris II型,美國Thermo fisher公司;
恒溫恒濕箱:KBF 540型,德國 Binder公司。
以湖北中煙某廠黃鶴樓品牌卷煙制絲生產線的葉絲段加香工序后的某固定位置采集的6個不同牌號成品煙絲為樣品,正常生產條件下,每次約間隔90 s取樣(樣品量約為200 g),每批次取樣30次,置于密封袋中待用。
光譜掃描前,近紅外光譜儀器開機預熱時間 >1 h,以保證儀器運行穩定。近紅外光譜儀工作參數:光譜波數10 000~4 000 cm-1;分辨率8 cm-1;掃描次數64。將成品煙絲樣品直接放置在儀器自帶的旋轉杯中,用壓塊自然壓實,采用旋轉樣品杯的方式采集近紅外光譜,每個成品煙絲樣品采集3次,取平均值。
按表1對樣品進行編號,每種牌號成品煙絲樣品根據70%為訓練集,30%為測試集的原則采用隨機的方法劃分訓練集和測試集,即從300個成品煙絲樣品中選擇210個煙絲樣品作為訓練集,剩余的90個煙絲樣品作為測試集。

表1 6種卷煙牌號樣品集的劃分Table 1 Sample numbers in sample sets of cut filler of 6 cigarette brands
由于成品煙絲是由不同等級、物理特性的片狀、絲條狀煙草原料混合而成,光譜采集過程中存在煙絲結構、成分和外觀不均勻性以及光譜噪聲所引起的散射影響,需對光譜進行預處理以減小煙絲表面特征不均勻和成品煙絲厚度的不一致性等因素影響。即采用一些數學方法減弱或消除非目標因素對煙絲光譜的影響,以利于從復雜的近紅外光譜數據中提取有用的光譜信息,提高煙絲SVM分類模型方法的準確性和可靠性。為消除背景和環境噪聲、其他信息以及絲條狀、片狀煙絲特征不均勻等因素的影響,采用的光譜預處理方法包括:多元散射校正(MSC)、標準正態變量變換(SNV)、Savitzky-Golay濾波器(SG)、一階微分(1D)、二階微分(2D)及組合方法。
1.6.1 SVM算法的基本原理 支持向量機(SVM)是由Vapnik團隊提出的基于統計學習理論的新穎的機器學習方法[23-24],其進行分類的基本思想是通過一個非線性映射函數將原始數據映射到高維特征空間中,在高維特征空間進行內積運算構造一個最優分類超平面作為決策面,不但使分類間隔距離最大,而且能實現分類中的兩類樣本正確分開。其中構造最優分類超平面轉化為數據模型即求函數的全局最優解:
(1)
對于訓練集,為實現正確分類,需滿足如下條件:
yi(ω·xi+b)-1≥0,i=1,2,…,m,
(2)
式中:
m——訓練集個數;
xi——訓練集原始數據;
yi——訓練集的類別;
ω——分類超平面的系數向量;
b——閾值。
核函數能顯著影響支持向量機的分類性能,但對于如何選擇、確定核函數尚無成熟理論。常用的核函數主要有線性核函數(Linear)、多項式核函數(Poly)、多層感知器核函數(Sigmoid)和Gauss徑向基核函數(RBF)等[25]。文中選取應用最廣泛的具有良好的學習能力、能夠逼近任何非線性函數的徑向基核函數(RBF)進行分類研究,其形式為:
K(x·xi)=exp(-g‖x-xi‖2),g>0,
(3)
式中:
g——核函數參數(核寬度)。
影響支持向量的分類模型的精度和泛化能力的參數主要為核函數參數g和懲罰因子參數c。其中,核函數參數g控制函數的回歸誤差,直接影響初始的特征向量和特征值,懲罰參數c對支持向量的分類模型的精度和泛化能力影響顯著。通常,對支持向量機兩個參數的選擇多以經驗選取為主,其分類精度和速度均無法得到保證,為了提高SVM的學習和泛化能力,采用螢火蟲算法優化SVM分類器的兩個參數g和c,以尋求SVM兩個參數的最優值。
1.6.2 螢火蟲算法的基本原理 螢火蟲算法(FA)是Yang[26]在2008年受螢火蟲自身趨光性特點啟發而提出的一種新穎的仿生智能優化算法,通過模擬螢火蟲之間因發光吸引而移動的行為規則實現螢火蟲位置的迭代更新,從而達到尋優的目的。螢火蟲算法中,螢火蟲彼此吸引是由螢火蟲自身亮度和吸引度兩個因素所決定,亮度低的螢火蟲被亮度高的螢火蟲吸引而向其移動,從而更新自身位置[27]。亮度與吸引度是螢火蟲空間距離有關的兩個因素,隨著螢火蟲空間距離的增加,螢火蟲的亮度與吸引度均減小。螢火蟲的相對螢光亮度為:
(4)
(5)
式中:
L0——螢火蟲最大螢光亮度;
γ∈[0.1,2.0]——螢光強度的吸收系數;
rij——兩個螢火蟲i與j之間的空間距離。
螢火蟲之間的吸引度βij定義為:
(6)
式中:
β0——螢火蟲的最大吸引度,通常取[0.8,1.0]。
低亮度的螢火蟲i向高亮度的螢火蟲j移動的位置更新表示為:
(7)
式中:

α——步長因子;
t——迭代次數;
rand——介于[0,1]的隨機數;
β——相對吸引度。
根據式(7)計算螢火蟲更新后的位置,然后根據式(4)~式(7)重新計算更新后的螢火蟲亮度和位置,螢火蟲通過多次向高亮度的螢火蟲方向移動后,所有螢火蟲個體都將聚集在亮度最高的螢火蟲位置上,從而實現尋優。
1.6.3 螢火蟲算法優化支持向量機參數流程 SVM的核函數選用RBF核函數,采用螢火蟲算法優化SVM的核函數參數g和懲罰因子參數c,即運用FA算法的搜索能力尋找螢火蟲亮度最大的位置X(c,g),從而得到參數的最優解(c*,g*)。基于FA-SVM的卷煙牌號分類識別的具體流程如圖1所示。

圖1 基于FA-SVM的卷煙牌號分類識別流程圖Figure 1 Flowchart of types of cigarette classify discrimination based on FA-SVM
以煙絲樣品訓練集和測試集的分類正確率(正確分類的樣品數占總樣品數的百分比)作為SVM模型分類效果和SVM參數優化的評價指標。訓練集和測試集的正確率越接近于100%,SVM分類模型的精度越高,說明SVM參數和分類模型的效果越好。
由圖2可知,6種牌號成品煙絲的近紅外光譜由于含有樣品的信息和其他信息及噪聲,近紅外光譜曲線的吸收峰位置和峰形均較為相似,不能直觀地通過近紅外光譜曲線鑒別不同牌號的成品煙絲,需經預處理后,再對牌號成品煙絲進行鑒別。

圖2 成品煙絲的近紅外原始光譜Figure 2 Raw NIR spectra of finished cut tobacco samples
采用SNV和SNV+1D光譜預處理方法變換后的光譜圖如圖3所示。由圖3可知,經SNV預處理后消除了不同形狀(煙絲片狀、絲條狀)樣品產生的散射影響,增強了光譜有效信息。SNV消除樣品散射影響后,經1D預處理后的光譜圖像能夠有效減小光譜的噪聲以及消除光譜的基線漂移。因此,經SNV+1D預處理后的近紅外光譜能夠有效減小噪聲,便于牌號成品煙絲的分類。

圖3 SNV和SNV+1D預處理后的近紅外光譜Figure 3 The NIR spectral data after SNV and SNV+1D preprocessing
使用FA優化SVM分類算法分別對6種牌號成品煙絲樣品進行分類,固定螢火蟲數目為20,迭代次數為20,使用5折交叉驗證,重復測試10次,對比5種光譜數據預處理方法的平均預測準確率,結果見表2。由表2可知,采用SNV+1D預處理方法的成品卷煙訓練集和測試集的分類準確率最高,訓練集和測試集的平均分類正確率分別為100.00%,98.33%,分類效果最差的是MSC預處理方法。因此,選擇SNV+1D作為成品卷煙鑒別模型的光譜數據預處理方法,可能與SNV+1D能更好地消除光譜數據中的背景干擾和基線漂移有關。

表2 不同光譜數據預處理方法下FA-SVM鑒別模型統計表Table 2 The result of different recognition models under different spectral data pre-processing methods(n=10)
為了考察螢火蟲性能隨種群數目和迭代次數的變化情況,分別選取螢火蟲數量為10,20,30,迭代次數分別為10,20,40來表示螢火蟲的尋優趨勢,使用5折交叉驗證,重復測試10次,并以平均分類準確率為預測指標評價FA優化SVM的分類鑒別性能,結果見表3。由表3可知,在試驗范圍內,螢火蟲的數目和迭代次數對訓練集的分類識別正確率均為100.00%,并且對測試集的分類正確率也達到了96.00%以上,說明采用螢火蟲算法優化支持向量機能夠較好地分類鑒別卷煙同品牌不同牌號。其中,分類準確率最高是螢火蟲數目為20,迭代次數為20的組合,卷煙測試集的平均分類識別正確率為98.33%。分類效果最差的是螢火蟲數目為10、迭代次數為20的組合,測試集的平均分類正確率為96.00%。

表3 不同種群數量和迭代次數的分類準確率Table 3 Classification accuracy of different population numbers and iteration times
選擇最優的預處理、螢火蟲數目和迭代次數,即螢火蟲的種群數量為20,迭代次數為20,光譜數據的預處理方法為SNV+1D,支持向量機懲罰參數c值為[0.01,100.00],核函數參數g值為[0.01,100.00],采用FA-SVM算法對6種牌號300個成品煙絲樣品進行分類,使用5折交叉驗證,重復測試10次。圖4為第一次對訓練集的成品煙絲樣品數據使用5折交叉驗證的螢火蟲算法優化支持向量機參數c、g的適應度曲線。圖5為成品煙絲樣品訓練集和測試集的分類效果圖。
由表4和圖4、圖5可知,優化過程中,螢火蟲種群中的最優個體適應度隨迭代次數的增加逐漸增加,當迭代次數為4時開始趨于穩定,并穩定于97.14%,表明此時的支持向量機的兩個參數(懲罰參數與核函數參數)的組合達到性能最優,即支持向量機的最佳懲罰參數c=85.75,最佳核函數參數g=92.35,訓練集和測試集的分類正確率均為100.00%。此外,重復測試10次,FA-SVM算法的訓練集分類正確識別率均為100.00%,測試集的分類正確識別率為96.67%~100.00%,說明近紅外光譜技術結合FA-SVM分類模型能準確地鑒別卷煙牌號。

圖4 FA-SVM算法參數優化的適應度曲線Figure 4 FA-SVM algorithm fitness optimization process curve

圖5 訓練集和測試集的分類效果圖Figure 5 Classification effect diagram of training set and test set

表4 FA-SVM算法對不同成品煙絲的分類結果Table 4 Classification results of cigarette in finished cut tobacco samples of different brand with FA-SVM algorithm
以湖北中煙黃鶴樓品牌的6個牌號為研究對象,提出了一種基于近紅外光譜數據結合螢火蟲算法優化支持向量機鑒別卷煙牌號的方法。結果表明:采用標準正態變量變換結合一階導數對近紅外光譜進行預處理,當螢火蟲種群數目為20,迭代次數為20時,成品煙絲訓練集正確識別率均為100%,測試集的正確識別率為96.67%~100.00%。因此,螢火蟲算法優化支持向量機算法結合近紅外光譜技術可實現對卷煙牌號的準確鑒別。但該方法僅對近紅外全光譜進行研究,后續將結合近紅外光譜不同波長的篩選方法,以期進一步提升卷煙牌號的鑒別能力。