秦玉華, 張海濤, 高 銳, 張 磊
(1. 青島科技大學 信息科學技術學院, 山東 青島 266061;2. 云南中煙工業有限責任公司 技術中心, 云南 昆明 650024; 3. 中國海洋大學 信息科學與工程學院, 山東 青島 266100)
在卷煙生產過程中,及時監控產品質量、保證產品的均質化和穩定性從而避免不合格產品流入市場,對于企業提高產品質量和實際生產指導具有重要意義。以往企業多采用感官評吸、化學成分等方法進行卷煙產品質量一致性檢測控制,該方法耗時長,效率低,產品質量難以精確把握。
近年來,隨著科技的進步和計算機技術的發展,近紅外光譜分析技術在煙草及各行業均得到了廣泛的應用[1-2],該技術不但具有簡單、快速、準確、無損、重現性好等優點,而且樣品的近紅外光譜還包含了包括其化學和物理特性的整體信息,目前該技術在卷煙化學成分快速檢測[3-4]、真偽鑒別[5]等領域應用較成熟,但在產品質量穩定性分析領域研究相對較少且缺少直觀的可視化結果展示。此外,近紅外光譜數據還具有高維、小樣本的特點[6],樣本往往為幾十或上百,特征波長數據卻高達幾千維,包含較多噪聲和冗余信息[7-8],導致計算變得復雜,因此,為獲得更好的模型性能,分析時需先對其進行特征信息的提取。
針對上述問題,本文以云南某品牌不同批次卷煙產品為研究對象,提出了一種近紅外指紋圖譜特征提取新方法。首先將卷煙近紅外光譜進行主成分降維,并以雷達圖可視化形式描述產品質量穩定性趨勢,進而提取重心特征對樣品內部結構進行了展示,建立了質量穩定性及異常類型判別模型,以期實現對質量異常樣本的快速識別,為卷煙產品質量監控提供技術保障。
選取云南紅塔集團不同批次的某A品牌卷煙150個質量合格煙絲樣品,按照企業內部標準,將樣品置入烘箱中,40 ℃下干燥4 h,粉碎過40目篩。將樣品存放在密封袋中,常溫下平衡4 h后進行光譜采集。另外再按同樣方法制備120個代表質量異常的A品牌卷煙樣品(包括常規化學成分超標、B品牌卷煙、A品牌與B品牌不同比例的摻配樣品各40個),在此基礎上進行A品牌卷煙產品質量穩定性實驗對比分析。
采用Nicolet Antaris Ⅱ 近紅外光譜儀,光譜掃描范圍為4 000~10 000 cm-1,掃描次數64次,分辨率為8 cm-1,采用漫反射方式,室溫保持在18~22 ℃,將樣品置于樣品杯中用壓樣器輕壓樣品,每個樣品均重復裝樣測定3次,計算其平均值作為最終光譜。
雷達圖是一種將多屬性數據進行平面綜合描述的圖形評價方式,能將多維數據與平面圖形對應,數據維數不多時可以直觀地觀察多維數據屬性的特點和變化趨勢[9]。但近紅外光譜數據特征波長往往高達幾千維且相鄰波長相關程度較高,無法直接用雷達圖進行特征空間描述和直觀理解,需先進行降維處理。
主成分分析[10](Pricipal component analysis,PCA)是一種常用的數據降維方法,它借助于一個正交變換,將原來具有一定相關性的指標重新組合成一組新的相互無關的綜合指標,主成分分析通過選取方差較大的前幾個主成分來代替原來的指標,能夠保留原始信息的同時降低所研究的空間維數。實踐證明,指標間相關程度越高,主成分分析效果越好,因此特別適合相鄰波長相關程度較高的光譜數據的特征降維處理。
由此本文提出先對光譜數據進行主成分降維處理,選取前k個主成分(方差貢獻率≥90%)作為主要特征屬性進行雷達圖的繪制,從而直觀地表現樣本光譜數據的特征,保證了圖譜數據整體性與模糊性的統一。
對于選取的k個主成分構成的可視化多邊形,因其具有較強的主觀性,實際應用中較難規定圖形特征的統一標準。研究表明[11-12],圖形的重心可能是一種圖形辨別的重要特征,因此針對可視化圖形的模糊性,本文提出對包含樣本全局信息的多邊形重心特征進行提取,從而進一步對樣本間的內部結構進行展示,進而建立質量一致性判別模型,實現對產品質量的監控。提取的重心特征包括重心矢量幅值和角度[13],其極坐標表示如下:
(1)

選取的150個質量合格卷煙產品的原始光譜如圖1所示,可以看到樣品光譜在吸光度軸上差異較大,為充分提取有效信息,提高模型性能,需對光譜進行預處理從而消除基線漂移及光散射等干擾的影響。經過比較,本文選用一階導數+Norris 11點平滑作為預處理方法,經過預處理后的光譜如圖2所示,可以看出,預處理后的光譜能有效消除原始譜圖的漂移現象。

圖1 原始光譜
同時,適當的光譜范圍選擇也是光譜信息有效提取的重要環節之一,本文選取4 000~8 000 cm-1譜段進行分析。

圖2 預處理后的光譜
選取100個A品牌質量合格卷煙樣品作為基準樣本集,剩余50個質量合格樣品作為測試集1,120個質量異常樣品作為測試集2,對基準樣本集進行主成分變換,選取前10個主成分歸一化后的雷達圖如圖3(a)所示,對測試集1、2樣本按照與基準樣本集同樣的系數矩陣進行主成分變換后的雷達圖如圖3(b)、(c)、(d)所示。

圖3 主成分雷達圖
可以看出,基準樣本集與測試集1均為A品牌卷煙,其雷達圖形狀類似,與代表質量異常的測試集2的卷煙產品的雷達圖形狀明顯不同,基本可以通過可視化圖形對產品類別進行辨別,從而達到對質量異常波動的監控。但該方法主觀性較強,實際應用中較難規定圖形特征的統一標準,只能作為產品鑒別和質量異常波動的參考,因此需對圖形特征進行進一步提取。
對上述所有樣本的主成分雷達圖按照2.4方法進行重心特征提取,其結果投影圖如圖4所示,圖5為主成分降維后第1、2主成分投影圖。

圖4 雷達圖特征提取投影圖

圖5 主成分投影圖
由圖4和圖5可以看出,基準樣本集與測試集1均為卷煙A質量合格產品,兩樣本集基本重合,并均與卷煙B能較好地區分,說明兩種方法都能較好地實現同品牌卷煙與其他品牌卷煙的識別,可用于卷煙的真偽鑒別中。但在主成分投影圖中,質量異常樣品(包括化學成分超標、不同比例卷煙A、B摻配樣品)與卷煙A合格產品混雜在一起,區分界限不明顯,因此無法達到對質量異常樣品的較好識別。而雷達圖重心特征提取投影圖中,代表質量異常的測試集2樣本與基準樣本集基本能較好地區分,其中化學成分超標、摻配卷煙A比例越高的樣品靠基準樣本集越近,說明該模型具備識別產品異常波動的能力。
選取上述質量合格卷煙A樣品和質量異常樣品各120個,每類的前80個作為訓練集,剩余的樣品作為測試集,分別以提取的重心特征、前10個主成分、光譜全波長作為輸入指標,建立質量穩定性判別模型,實現對質量異常樣品的識別。選取KNN、SVM作為分類器,表1為不同輸入特征的分類性能對比。

表1 分類正確識別率對比
可以看出,兩種分類模型中,采用提取的雷達圖重心特征作為輸入特征的正確識別率均最高,明顯高于其他2種輸入特征的識別率,主成分降維方法次之,全波長作為輸入特征模型正確識別率最差,這主要是由于高維光譜數據中含有較多噪聲和冗余信息,全波長作為輸入特征無法對光譜信息進行有效的提取,而本文所提出的雷達圖重心提取的方法能更好地表達樣本的全局信息和樣本間的內部結構,實現對光譜信息的全局提取,因此能更好地識別卷煙產品生產過程中的質量波動。
為了更進一步驗證本方法的有效性,分別以提取的重心特征、前10個主成分作為輸入指標對質量異常樣品的類型(包括常規化學成分超標、不同比例卷煙A、B摻配品、卷煙B)進行了判別分析。選取SVM作為分類器,表2為對不同質量異常類型的正確識別率對比。

表2 質量異常類型正確識別率對比
可以看出,對于卷煙A的3種不同質量異常類型的識別,雷達圖重心特征方法的正確識別率均明顯好于主成分特征方法,從而進一步表明了該方法的優越性。從對質量異常類型的識別來看,2種方法對卷煙B均能較好地識別,可用于不同品牌卷煙產品的真偽甄別,而對于化學成分超標和卷煙A與B的摻配品這2種質量異常類型的識別要稍差一些,這也與3.3的投影分析結果一致。
本文針對卷煙生產過程中質量穩定性監控效率低及缺少可視化結果展示等問題,提出了以主成分雷達圖可視化形式描述產品穩定性趨勢并提取圖形重心特征進行質量一致性判別。實驗結果表明,和其他方法相比,該特征提取方法取得了更好的識別效果。該方法可進一步推廣到煙絲等其他狀態產品的在線質量監控,這對企業及時了解、提升產品質量,改進生產技術具有重要意義。