遲亮,張賀龍,車英,邸旭
(長春理工大學 光電工程學院,長春 130022)
近紅外光譜分析技術是近年來發展迅猛的高新分析技術[1]。與傳統分析技術相比,近紅外光譜分析技術通過對樣品的一次近紅外光譜簡單測量,即可在幾秒至幾分鐘之內同時測定一個樣品的幾種至十幾種性質數據或濃度數據。而且被測樣品用量很小、無破壞、無污染,具有高效、快速、成本低等特點[2]。
小波變換具有低熵性、多分辨率、去相關性和選基靈活的特點,使其成為特征提取和低通濾波功能的綜合,相當于對信號同時進行低通和高通濾波,其低頻系數主要反映信號的信息,而高頻系數主要反映噪聲和信號細節的信息。對非平穩含噪信號進行多層小波分析,并對每層高頻分解系數進行閉值處理后再重構,可有效地達到濾除噪聲和保留信號高頻信息的目的[3]。
本文以整粒玉米的NIR漫反射光譜為例,經過離散小波變換后,選取了適當的小波細節系數進行光譜的重構,將重構的光譜進行 iPLS建模,通過RMSEC和RMSEP進行比較分析,數據量小,精度高,預測模型好。
連續小波變換:


而離散化小波變換系數則可表示為:

本文所用的間隔偏最小二乘方法(iPLS)是一種波長篩選法的改進,該法主要用于篩選建模的波長區域,其改進的算法步驟如下:
(1)對原始光譜進行離散小波變換。
(2)對小麥樣品的全光譜數據建立的偏最小二乘模型。
(3)將整個波長區域劃分為m個等寬的子區間,在每個子區間上進行偏最小二乘法回歸,也就可以得到m個局部回歸模型。
(4)然后,用交互驗證的均方根誤差 RMSECV值衡量各模型的精度,通過比較,取精度最高的局部模型所在的子區間為第一入選區間。
(5)接下來,將余下的(m 1)個子區間逐一與第一入選子區間聯合并進行偏最小二乘建模,得到(m 1)個聯合模型,我們選取其中RMSECV值最低的模型所在的區間為第二入選區間。重復上面的步驟,直到建立所需要的合并區間。
(6)考察第(5)步中每次聯合模型的RMSECV值,其中RMSECV最小者所對應的區間組合即為最佳組合區間[5-7]。在這個區間上所建立的iPLS模型預測能力最強。

圖1 玉米樣品的吸收光譜圖Fig.1 Absorption spectrum of corn sample
其中決定系數定義為:

原始信號與去噪后的估計信號之間的均方根誤差定義為:

首先,選用db4小波為母小波,分解尺度為9,對玉米樣品的近紅外光譜進行小波分解,在這里,頻率較低的系數(Ca9、Cd9、Cd8),主要為光譜的強背景信息;而頻率較高的系數(Cd1、Cd2、Cd3),主要為光譜噪音,這六個系數對玉米的蛋白質分析貢獻較小,并且其分離偏差高于標準方法的再現性。相反的,中間的細節系數(Cd4~ Cd7)主要包括原始光譜中的有效特征信息,這樣的信息對蛋白質的分析貢獻較大,分析精度較高,分析偏差小于再現性。在這里,對Cd4~Cd7的小波細節系數進行隨機組合構成校正集光譜陣,用PLS建立校正模型,最佳主因子數由交互驗證法所得的預測殘差平方和確定。而得到 Cd4、Cd5、Cd7小波細節系數組合為最佳組合,其中 RMSEC=0.0886,RMSEP=0.1217,模型精度高,預測能力強。
其次,對玉米樣品全光譜進行PLS建模和全光譜的進行iPLS建模(其中按波長區域分70份),求出校正集對應的絕對系數R2和校正集均方根誤差RMSEC,并根據模型求出驗證集的R2和RMSEP。
最后,對小麥樣品的 Cd4、Cd5、Cd7小波細節系數組合重構光譜進行 iPLS建模(其中按波長區域分70份),求出校正集對應的絕對系數R2和校正集均方根誤差 RMSEC,并根據模型求出驗證集的R2和RMSEP。
在全光譜范圍內,當校正集光譜數據區間取第23、24、22、28、29、35、26、56、18、57 這 10個區間構成的聯合區間時,所得到的模型最好,其絕對系數 R2=0.9467、RMSEC=0.0778;由 Cd4、Cd5、Cd7合并的重構光譜區域取第48、67、25、51、28、13、23、27、36、29、35、43、57、18、37這15個區間構成的聯合區間時建模時,所得到的模型非常的好,其校正集絕對系數R2=0.9602校正集均方根誤差為RMSEC=0.0594,根據模型,求得的驗證集模型也非常的好,所以這15個區間組合建立的模型是最好,在模型的精度上有很大的提高。其結果如表1所示。

表1 玉米光譜PLS和iPLS建模后的結果Tab.1 The results of corn spectra by PLS and iPLS model
其結果表明,經過離散小波變換后,選取適當的小波細節系數區間合并后重構,再對其進行間隔偏最小二乘(iPLS)建模,不論其校正集還是驗證集模型的預測能力都好于全光譜偏最小二乘(PLS)建模和間隔偏最小二乘(iPLS)建模,且模型得到了很大的簡化、數據運算量有所減少。合并后的小波細節系數重構光譜由15個小波細節系數區間構成時,其驗證集的絕對系數R2和均方根誤差RMSEP分別為0.9057和 0.1035。

圖2 iPLS模型預測值與測量值的相關性Fig.2 Correlation between observed and predicted values with iPLS model
經過離散小波變換后,光譜噪聲和背景信息可以快速有效的被消除,我們又對適當的小波細節系數進行合并,然后對其重構光譜,而重構光譜建立的iPLS模型的精度更高、預測能力更強,這種光譜數據的處理方法,在將來處理復雜樣品體系的光譜分析中將發揮更重要的作用。
[1]陸婉珍,袁洪福,徐廣通,等.現代近紅外光譜分析技術[M].北京:中國石化出版社,2000.
[2]Wu W,Walczak B,Penninckx W,et al.Feature reduction by Fourier transform in pattern recognition of NIR data[J].Analytica Chimica Acta,1996,331(1-2):75-83.
[3]Osborne B,Fearn T.Practical NIR Spectroscopy with Applications in Food and Beverage Analysis(2nd Edition)[M].New York:John Wiley&Sons,Inc,1993:23-25.
[4]邵學廣,龐春艷,孫莉.小波變換與分析化學信號處理[J].化學進展,2000,12(3):233-240.
[5]鄒小波,趙杰文,夏蓉.蘋果糖度近紅外光譜小波去噪和iPLS 建模[J].農業機械學報,2006,37(6):79-82.
[6]雷猛,馮新瀘.基于近紅外光譜技術的內燃機油鑒別研究[J].分析測試學報,2009,28(5):529.
[7]蘆永軍.近紅外光譜分析技術及其在人參成份分析中的應用研究[D].吉林:中國科學院博士論文,2004.
[8]張賀龍,邸旭,石曉光,等.基于小麥近紅外漫反射光譜的小波閾值去噪方法研究[J].長春理工大學學報:自然科學版,2010,33(4):46-49.