李 穎,張亞朝,李耀翔
(東北林業大學工程技術學院,哈爾濱150040)
現代近紅外光譜(Near Infrared Spectroscopy,NIR)分析技術是近年來分析化學領域中迅猛發展的一門高新分析技術,在分析化學領域被譽為分析“巨人”[1]。
近紅外區域按ASTM(American Society for Testing and Materials美國材料與試驗協會)定義是指波長在780~2526nm范圍內的電磁波,是人們最早發現的非可見光區域。由于物質在該譜區的倍頻和合頻吸收信號弱,譜帶重疊,解析復雜,受當時的技術水平限制,近紅外光譜“沉睡”了近一個半世紀[2-3]。20世紀80年代后期,隨著計算機技術的迅速發展,帶動了分析儀器的數字化和化學計量學的發展,通過化學計量學方法在解決光譜信息提取和背景干擾方面取得的良好效果,加之近紅外光譜在測樣技術上所獨有的特點,使人們重新認識了近紅外光譜的價值,并已廣泛應用于農林、食品、石油、紡織和煙草等領域[5]。
現有的木材密度近紅外預測方法中,對近紅外光譜數據通常采用各種多元校正技術進行定量分析,應用較多的有多元線性回歸、主成分回歸(Principal Component Regression,PCR)和偏最小二乘法(Partial Least Square,PLS)等方法[6-7]。
支持向量機(Support Vector Machine,SVM)方法是建立在統計學習理論的VC維理論和結構風險最小原理基礎上的,根據有限的樣本信息,在模型的復雜性(即對特定訓練樣本的學習精度)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳方案,以期獲得最好的推廣能力[8]。SVM在建模過程中,對近紅外光譜的預處理要求不是很嚴格,主要是將光譜信息提取,以文本格式導出,而且對于參數的選擇,可以通過編寫程序進行參數尋優的方法獲得最適合的參數[9]。這就大大減少了光譜信息的丟失,提高了參數的準確性,最終使模型具有更好的泛化性。
支持向量機的基本原理是通過某種事先選擇的非線性映射將輸入向量映射到一個高位特征空間,在這個特征空間中構造最優分類超平面。
如圖1所示,顯然圖中的數據集很容易被線性分類,但是圖b中的數據集就無法線性分類,此時,可以將圖b中的數據集映射到一個二維空間(如圖c所示),這樣就很容易將其線性分類。以此類推,對于一個原始的輸入空間,找到一個合適的函數映射(X→Φ(X)),將其映射到高維特征空間,從而對數據集進行線性分類(如圖d所示)。

圖1 支持向量機分類原理示意圖Fig.1 Schematic diagram of support vector machine classification
制備117個落葉松待測樣本,其中3/4作為訓練樣本,1/4作為測試樣本。對樣本進行密度實值的測量,然后用美國ASD公司生產的波長為350~2500nm的LabSpec近紅外光譜儀對樣本進行相應的光譜采集(如圖2所示)。對采集的光譜進行平滑和一階導數預處理,以消除樣品表面不均勻和光譜平移及背景噪聲帶來的誤差(如圖3所示)。

圖2 近紅外原始光譜Fig.2 Raw NIRS

圖3 預處理后光譜Fig.3 NIRS After pretreatment
針對117個樣品,在350~2500nm全波段光譜中選擇11個比較顯著的振動吸收峰,用于回歸建模。再用數據處理軟件,將光譜數據以文本格式導出。
用于SVM分析的軟件有很多,比如:BSVM、CSVM、GiniSVM、LS-SVM以及M-SVM等。本文采用的是LibSVM。
LibSVM是臺灣大學林智仁(Lin Chin-Jen)教授等開發的一個簡單、易于使用和快速有效的SVM模式識別與回歸的軟件包。提供了多種軟件的語言接口。本文中使用的是具有C++語言接口的在matlab環境下運行的LibSVM-mat。
對于整體數據,將樣本的密度實值作為Y,對應的所選取的11個吸收峰的吸收率作為X,采用CV(Cross Validation)統計分析方法中的Hold-Out Method,即將117個樣本隨機分為訓練集(約為總樣本數的3/4)和測試集(約為總樣本數的1/4),這就避免了在劃分訓練集和測試集時,人為因素對訓練以及測試準確率的影響,從而使訓練和測試結果更客觀。
劃分好訓練集和測試集后,要對數據進行歸一化。歸一化的具體作用是歸納統一樣本的統計分布性,可以使后面數據的處理更加方便,其次是保證程序運行時收斂加快。
一般默認使用RBF函數作為核函數,在選定核函數后,要對相應的參數進行調節,即所謂的參數尋優。所涉及到的參數主要有參數c(懲罰參數,與e-SVR的設置有關)和參數g(針對RBF核數中gamma的設置),如果手動對這兩個參數進行設置,工作量不但巨大,而且準確率會很低,最終的回歸擬合結果也不會太理想。

圖4和圖5就是利用LibSVM工具箱在Matlab環境下參數尋優的結果圖。
確定核函數及其相關參數后,便可以在matlab環境下對數據進行支持向量機回歸擬合,回歸擬合結果如圖6所示。
其中圖6的上半部分和下半部分分別是訓練數據和測試數據的回歸擬合圖。

圖4 SVR參數選擇結果等高線圖Fig.4 Contour map for SVR parameter selection results

圖5 SVR參數選擇結果3D視圖(Best c=0.10882 g=1.7411 CVmse=0.0030764)Fig.5 3D view for SVR parameter selection results

圖6 支持向量機回歸擬合結果Fig.6 Results on Regression fitting by SVM
用落葉松的近紅外光譜數據建立的測定密度的模型,對訓練集的回歸擬合結果,R2達到了0.85,均方差為6.46×10-4;對測試集的回歸擬合,R2為0.85,均方差為4.45×10-4,表1是對測試集的回歸擬合數據,其中,相對誤差最大為4.8336%,最小為 -4.6564%,其絕對值均小于5%,預測結果較好。

表1 采用支持向量回歸建立模型對密度的預測結果Tab.1 Results on density prediction by support vector regression
在支持向量機的理論基礎上,對117個落葉松樣本進行了近紅外光譜的采集,在matlab環境下,利用LibSVM工具箱,以徑向基函數為核函數,采用非啟發式參數尋優的方法進行參數優化,最終建立了木材密度預測模型。分析表明,該模型對訓練集和測試集的回歸擬合,其決定系數都達到了0.85 以上。
結果表明,基于近紅外光譜的支持向量機回歸方法可以用于落葉松木材密度的預測。
[1]張小超,吳靜珠,徐 云.近代外光譜分析技術及其在現代農業中的應用[M].北京:電子工業出版社,2012.
[2] Nkansah K.Rapid characterization of biomass:The use of near infrared and fluorescence spectroscopy as process analytical technology(PAT)method[M].WEST VIRGINIA UNIVERSITY,2009.
[3] Chen H,Tan C,Wu T,et al.Discrimination between authentic and adulterated liquors by near-infrared spectroscopy and ensemble classification[J].Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2014(130):245-249.
[4] Barton I I.FE Theory and principles of near infrared spectroscopy[J].Spectroscopy Europe,2002(14):12-18.
[5]張 鵬,李耀翔.近紅外光譜分析技術在木材機械性能檢測中的研究進展[J].森林工程,2014,30(3):68-70.
[6]郝斯琪,宋博騏,李 湃,等.基于近紅外光譜與 BP神經網絡預測落葉松木屑的含水率[J].森林工程,2012,28(4):9-11.
[7] Kainerstorfer J M,Sassaroli A,Hallacoglu B,et al.Practical steps for applying a new dynamic model to near-infrared spectroscopy measurements of hemodynamic oscillations and transient changes:implications for cerebrovascular and functional brain studies[J].Academic radiology,2014,21(2):185-196.
[8]丁世飛,齊丙娟,譚紅艷.支持向量機理論與算法研究綜述[J].電子科技大學學報,2011,40(1):2-10.
[9] Deng N,Tian Y,Zhang C.Support vector machines:optimization based theory,algorithms,and extensions[M].CRC Press,2012.