李昂澤,王憲雙,徐向君,何雅格,郭 帥,柳宇飛,郭 偉,劉瑞斌*
(1.北京理工大學 物理學院,北京 100081;2.寶瑞激光科技(常州)有限公司,江蘇 常州 213000)
我國有近3.15 億煙民,香煙的市場巨大,如何提高煙草品質控制是各大煙草公司關注的問題。特別是對一些名貴香煙,市場中充斥著大量的假煙,因缺少快速簡便的鑒定方法,不法商家以次充好,欺騙消費者的行為層出不窮。因此有必要研究出一種快速、精確、可靠的香煙種類識別方法。
國內外研究人員對煙草的品質鑒定及管控已展開較多研究,在煙草品質評價和分級上也取得較大的進展。如南華大學的鄧晨曦[1]等人通過分析煙草化學成分,利用螢火蟲群優化模糊聚類的煙草品質集成分類方法,使煙草品質分類精度上有了較大的提高,并且隨著煙草樣本數量的增加,分類精度也相應得到提升;北京工業大學的張媛媛[2]等人使用顏色向量表示不同品牌的香煙圖像,提取網格圖像的顏色空間中的色調直方圖標準差作為特征值,構成顏色特征向量,再通過歐氏距離來劃分最優的網格數量,組成香煙圖像特征向量集合,基于樸素貝葉斯分類器與高斯混合模型分類器進行分類,分類的準確率分別為69%和91%;沈陽農業大學的吳瓊[3]等人利用高光譜成像技術,采集了7種香煙的光譜圖像,通過對香煙煙絲進行對比分析,很直觀地辨別了7種香煙的煙絲色澤和分布信息狀況的變化,進而發現這7種香煙煙絲的差異。
以上研究表明香煙的識別具有一定可行性。激光誘導擊穿光譜(Laser-Induced Break down Spectroscopy,LIBS)與分類算法相結合的方法也是一種靈敏準確的分析方法。目前,鮮有人使用該方法進行香煙的分類。
LIBS由于具有檢測速度快、無需樣品處理、對樣品損傷小等特點,近年來已經越來越多地應用到水體污染[4-6]、土壤分析[7]、工業評估[8]、食品安全[9-10]、環境檢測[11]、考古學[12]、醫藥分析[13]等物質檢測領域。目前利用LIBS檢測技術快速評價產品質量和快速分類待測樣品已經成為LIBS領域實際應用的熱點。
本文相較于其他分類工作擁有以下幾個創新點:煙草的快速實時分類,特別是對原始煙葉的快速檢測是優化煙絲質量的重要手段,但一直沒有適當的高準確度的方法,本文嘗試采用LIBS結合SVM的方法,對煙草樣品的分類效果證實了LIBS在未來煙草市場應用的可行性;光譜數據處理方面,對特征峰峰位的漂移進行了修正;基于LIBS光譜,對市面上九種香煙按照產地、品牌、焦油含量以及尼古丁含量的不同分別建立分類模型,并獲得了準確率較高的判別模型,對香煙的快速識別和準確分類提供了一個較好的方法。

圖1 樣品圖 Fig.1 Sample pictures
本實驗所用香煙有Esse、紅梅(HM)、大前門(DQM)、金滿堂(JMT)、云煙(YY)、中南海(ZNH)、黃鶴樓(HHL)、芙蓉王(FRW)、中華(ZH)等9種市場上典型的香煙,其產地、價位、品質等方面各不相同。每個品牌的香煙選取兩支香煙,將其煙絲取出并用粉碎機粉碎15 s,將粉末狀煙絲的顆粒直徑控制在200 μm左右。然后用壓餅機(壓強為15 MPa,作用時間2 min)將樣品壓成半徑為10 mm,厚度為2 mm的餅狀,如圖1所示。9種香煙的理化值參數如表1所示。

表1 9種香煙的理化參數

圖2 實驗裝置 (M:反射鏡) Fig.2 Experimental set-up(M:mirror)
實驗裝置如圖2所示,激光器為主動調Q的Nd∶YAG(QUANTEL,France)固體激光器,波長為1 064 nm,頻率為1 Hz,脈寬為7 ns,激光出射能量為30 mJ(最大能量輸出100 mJ);光譜儀為三通道光纖光譜儀(Avantes),光譜分辨率為0.1 nm,實驗過程中積分時間為1.05 ms;DG535數字延遲脈沖發生器為激光器和光譜儀提供精準的外觸發信號,3個通道的光譜采集延遲分別為768.8、769.7和769.66 μs。圖2中激光經過反射鏡(M)反射調整光路后,經直徑為25.4 mm、焦距為60 mm的透鏡聚焦到樣品表面,收集裝置與激光聚焦方向成45°進行光信號收集,并將收集到的光耦合至光纖,再傳輸至三通道光纖光譜儀完成光譜的分光與光電轉換[14]。實驗前,先用能量計監測激光脈沖能量波動,直至激光能量波動穩定在5%以內。每種樣品的光譜采集都在同樣的試驗條件下,分別進行320次脈沖打樣作為待處理的數據。
香煙樣品的等離子體譜圖信息如圖3所示,根據美國國家標準與技術研究院(NIST)的標準原子光譜數據庫,對其元素組成進行了鑒定和標記。根據光譜圖可知香煙中主要包含的元素有C、H、Na、Mg、Al、K、Ca等元素。

圖3 等離子體發射光譜圖 Fig.3 Plasma emission spectra
對采集到的LIBS光譜進行處理,建模的具體步驟如下:光譜數據預處理、主成分分析(PCA)、訓練集和測試集比例選取、使用訓練集訓練SVM分類器、SVM分類器對測試集測試分類。
對于光譜數據進行預處理,首先刪除一些無效數據,本文將波動較大,相對標準偏差(RSD)大于60%的數據視為無效。光譜波動較大除了激光能量抖動外還可能是由于聚焦位置的改變和基體效應的影響;接著對光譜數據進行重組,每4個光譜數據取平均作為一組光譜數據,進一步減少測量的不確定性。重組后,對每個樣品的80組數據,進行去背景處理,消除光譜背景常用插值法和窗口平移平滑方法[15]。但是插值法去除背景得到的光譜存在光譜信息丟失,如特征峰的相對強度改變、峰的半高寬信息丟失、峰與峰之間的差異性消失、個別帶狀分子峰丟失等。因此使用了窗口平滑去背景得到了去背景之后的光譜圖[14,16]。其主要過程如下:
(1)將光譜強度視為N個數據點群,即所有的光譜強度是在CCD像素點上光強度的表現;
(2)分割數據點群。將N個數據點群分為n個小點群,即平滑窗口寬度為n,其中
log2n=c(c∈N+) ,
(1)

(3)尋找極值點,找出i組數據中每組中的最小值Li,滿足:

(2)
(4)去除背景,將hi組中n個數據點減去極小值Li作為最終光譜強度;
(5)鏈接窗口,把得到的i組消除背景的數據點按照(2)的逆向操作鏈接為新的光譜。


(3)
尋峰處理是將非峰值強度置為零,提高了信號的對比度,峰位漂移的情況在線譜中更容易辨別。由于光譜儀的儀器誤差,測量的光譜中,特征峰位有時會有一個像素點的漂移。對比某一列(p列)光譜與其后一列(p+1列)光譜的特征峰的個數,將峰位出現次數較多的那一列作為正常峰位,與其相鄰的峰位較少的一列被認為是峰位漂移的結果。此時,需要將漂移的峰位移至正常峰位,得到峰位漂移修正光譜[16]。最后對預處理之后的數據進行光譜數據的歸一化,把數據處理成[-1,1]之間,歸一化的公式為:

(4)
其中,y為某一幅光譜各個波長處的強度值,min(y)為光譜中強度最小的值,max(y)為光譜中強度最大的值。
圖4為原始光譜與預處理光譜的對比圖。

圖4 香煙LIBS光譜 Fig.4 Laser-induced breakdown spectra of cigarettes
預處理后每個樣本共計80組光譜數據,每組數據包含6 144個光強,最終得到一個720×6 144的矩陣Z,對矩陣Z進行PCA分析。PCA分析的步驟如下[17]:
(1)對樣本數據進行標準化。原始數據標準化采用p維隨機變量,選取n個樣品,構造樣本陣,對樣本陣進行如下標準變換:

(5)

(2)計算相關系數矩陣R

(6)

(3)求出協方差矩陣的特征值和特征向量
AR=λR,
(7)
其中,λ稱為R的特征值,非零向量R稱為A對應于特征值λ的特征向量;
(4)根據主成分貢獻率選擇主成分;
(5)計算主成分得分。

圖5 每個主成分得分和主成分累積得分 Fig.5 Each principal component score and principal component cumulative score
通過對香煙LIBS光譜進行PCA分析,得到每個主成分的貢獻率和累積貢獻率,如圖5所示。
由圖可知,香煙的前十個主成分貢獻之和達到了99.04%,表明使用前10個主成分足以涵蓋這種香煙光譜的大部分信息。利用全譜進行SVM分類模型訓練,每個光譜所選取的特征點都在十維特征空間中分布。圖6(彩圖見期刊電子版)給出了前3個主成分組成的三維得分圖,每個散點代表一個樣本,顯示出較好的聚類效果,可以看出,同種香煙的特征點出現明顯聚集,可以互相區分。

圖6 9種香煙前3個主成分的散點分布圖 Fig.6 Scatter diagram of the first three principal components for 9 types of cigarettes
支持向量機是統計學習理論和結構風險最小原理基礎上發展起來的一種分類識別方法[18]。選擇支持向量機進行特征分類的優勢在于可以將多維的特征輸入映射到高維的核空間,從而使原本不可分的數據獲得新的特征,更利于精確分類[19]。對香煙的全部特征峰進行PCA降維之后,提取前10個主成分構建特征空間。作為一種典型的機器學習算法,在特征空間中需要選取訓練集和測試集,通過訓練集進行建模,再對測試集進行預測。本次識別借助MATLAB中的SVM工具箱中的Linear Kernel核函數進行識別分類,懲罰系數C和核函數參數值分別設置為5和1。
首先選擇了4種訓練集和測試集的比例關系,分別為:55∶25、58∶22、62∶18、65∶15,其測試集的準確率分別是:96.9%、97.47%、96.30%、94.81%,可以看出隨著訓練集和測試集比例關系的增加,訓練集和測試集的準確率都呈現先增加后減少的趨勢。因此在10個主成分的條件下選擇58∶22的比例關系來進行訓練和測試。總的樣本量為80個,因此訓練集和測試集分別為58個和22個。隨機抽取58個樣本作為訓練集,剩余的22個樣本作為測試集,測試結果如表2所示。得到訓練集分類準確度平均值為96.70%,測試集的準確度平均值為97.47%。預測結果表明,模型已經基本可以將9種不同香煙進行成功分類。

表2 測試集準確率
基于上述的研究,本文還依據香煙的尼古丁含量、產地、焦油含量進行分類,這3個參數均是參照香煙包裝上的參數,分類均取得了很好的結果,模型預測的平均準確率分別是94.72%、95.31%、99.58%。
本文通過采集9種煙草在190~720nm波長范圍的LIBS光譜,對窗口平移平滑去背景、峰位漂移修正和歸一化預處理后的光譜數據進行主成分分析,提取前10個主成分,并運用SVM方法將煙草按照品牌、焦油含量、尼古丁含量和產地等指標分別建立分類模型,模型的平均準確率分別為97.47%、99.58%、94.72%、95.31%。結果表明利用LIBS光譜對煙草進行快速分類是一種可行的分類技術,為香煙普查和香煙的防偽提供了一種快速而有效的檢測手段。