梁 龍 ,房桂干*,吳 珽 ,崔宏輝 ,張新民 ,趙振義
(1.中國林業科學研究院 林產化學工業研究所;江蘇省生物質能源與材料重點實驗室;國家林業局 林產化學
工程重點開放性實驗室;生物質化學利用國家工程實驗室,江蘇 南京 210042;
2.華夏科創儀器有限公司,北京 100085)
?
基于支持向量機的近紅外特征變量選擇算法用于樹種快速識別
梁龍1,房桂干1*,吳珽1,崔宏輝1,張新民2,趙振義2
(1.中國林業科學研究院林產化學工業研究所;江蘇省生物質能源與材料重點實驗室;國家林業局林產化學
工程重點開放性實驗室;生物質化學利用國家工程實驗室,江蘇 南京210042;
2.華夏科創儀器有限公司,北京100085)
摘要:將穩定度自適應重加權采樣特征變量選擇算法用于支持向量機定性分析(Support vector machine-stability competitive adaptive reweighted sampling,SVM-SCARS)。該算法通過對數據多次采樣建模計算各變量的穩定度值,穩定度值能更加客觀準確地評估變量在建模中的作用,因此可作為變量重要性的評價依據。通過循環迭代方式,采用自適應重加權采樣技術逐步篩選變量,然后以每次循環所得變量子集建立SVM模型,并以模型交叉驗證分類正確率(Correct classification rate of cross validation,CCRCV)評估子集優劣,確定最優特征變量子集。將該算法結合漫反射近紅外光譜技術建立了制漿造紙常用木材的樹種識別模型,實現了對4種桉木和2種相思木的快速識別分類。最終共篩選出15個特征變量建立分類模型,模型對各樹種分類的正確率達97.9%,具有較好的分類效果。與全光譜模型和遞歸特征消除支持向量機模型相比,SVM-SCARS能夠篩選出更少的特征變量,且模型具有更好的預測性能和穩定性。研究結果表明,SVM-SCARS算法能夠有效優化光譜特征變量,提高近紅外在線分析模型在木材材性分析中的穩健性和適用性。
關鍵詞:近紅外光譜;支持向量機;變量選擇;樹種識別;制漿造紙
由于優質木材原料供應短缺,采用多種木材纖維原料混合制漿造紙目前已成為必然。而不同樹種的木材原料因其纖維形態、化學組成等差異會直接影響到工藝參數、生產成本和紙漿產品質量,因此需要針對木材樹種和材性的變化適時調整生產工藝條件[1]。但傳統制漿原料的分析方法步驟繁瑣且測試周期長,無法實現實時在線檢測,企業通常只能采用高用藥量和高能耗的方法保證產品質量,但會導致化學品浪費和污染排放嚴重等問題。因此開發新型木材材性特征在線檢測系統,實施在線調控生產工藝參數,將對企業節能減排、提高市場競爭力具有重要意義。
近紅外光譜技術(Near-infrared spectroscopy,NIR)作為一種成熟的快速測量手段,具有高效、無損、在線分析等優勢,可用于制漿生產過程中對木材原料材種和材性進行在線監測,以調整工藝條件實時反饋信息,實現對化學品用量和能耗的精確控制,從而提高工業生產效率并降低生產成本和污染排放[2-3]。目前近紅外光譜技術在木材材性分析方面的研究已取得較多成果,主要是通過實驗室型儀器對經特殊處理的木材樣品進行分析,而其在造紙行業的工業化應用研究尚未見報道[4-6]。此外由于近紅外光譜主要反映的是含氫基團的倍頻與合頻吸收,光譜強度弱,譜帶重疊嚴重,存在較強的干擾信息[7-8],嚴重影響模型預測性能,因此需從原光譜篩選出與樣品特征信息關聯性較強的變量建模,以提高模型的精度和穩定性[9]。本文利用漫反射近紅外光譜技術直接對工業生產中使用的制漿木片進行測量,并結合支持向量機模型實現了多種制漿造紙常用樹種的快速識別,同時應用自適應重加權采樣特征變量選擇算法篩選出與各樹種相關程度較高的特征變量建立穩健的識別模型,從而提高了近紅外在線分析模型的穩定性和適用性。
1實驗部分
1.1儀器設備
1.2樣品制備與光譜采集
實驗材料為制漿造紙常用木材,由廣西某造紙廠提供,主要包括4種桉樹:巨尾桉(E.grandis×E.urophylla)、尾葉桉(Eucalyptusurophylla)、藍桉(Eucalyptusglobulus)和小葉桉(Eucalyptustereticonis)以及2種相思樹:厚莢相思(Acaciacrassicarpa)和馬占相思(Acaciamangium),均為企業生產中常用木材。從表1列出的樣品具體材性信息可發現,不同樹種的化學成分和纖維形態均存在差異,其中小葉桉和藍桉的綜纖維素含量較高,有利于獲得較高制漿得率,而厚莢相思的纖維長寬比最大且壁腔比最小,可制得強度性能優良的紙張,因此可基于木材主要纖維化學結構的近紅外特征吸收實現對不同樹種的分類。
將實驗所用木材剝去樹皮后以削片機削切成滿足制漿生產規格的木片樣品,平衡水分后用于光譜采集,將木片樣品平鋪于樣品杯中,采用置頂旋轉測樣方式,采集近紅外漫反射光譜,每次測量掃描50次自動平均為一個光譜。考慮到木片尺寸不規則對測量均勻性的影響,每份樣品重復裝樣5次采集光譜以充分獲取木片樣品信息。

表1 不同種類木材樣本
1.3SVM-RFE算法
支持向量機(Support vector machine,SVM)是一種基于統計學習理論的模式識別方法,其基本思想是通過核函數將數據從原始特征空間映射到高維特征空間,使線性內積運算非線性化,然后在特征空間建立使分類間隔最大化的最優超平面,并基于該超平面實現對未知樣本的判別[10]。
支持向量機遞歸特征消除算法(Support vector machine-recursive feature elimination,SVM-RFE)是一種基于支持向量機建模的特征變量選擇方法[11]。SVM-RFE根據建模時生成的權向量構造特征變量的排序系數,以此評判每個變量對分類的貢獻。排序系數Ri為變量i存在時SVM建模的代價函數值與假定變量i被消除后SVM建模代價函數值差值的絕對值。
(1)
其中H=(Hij)i,j=1,…,m,Hij=yiyjK(xi,xj),K為核函數,y是類別標簽,x是數據點,α是建模計算過程中引入的參數。通過循環迭代的方式逐個移除排序系數最小的變量,并計算該變量被移除后SVM分類模型的交叉驗證分類正確率(Correct classification rate of cross validation,CCRCV),直至所有特征變量被移除,最后以迭代過程中CCRCV最大的變量子集為最優特征變量子集。
調查對象為地質工程專業2011屆畢業生,調查時間為2012年9月,為該專業首屆畢業生參加工作一年之際。調查內容包括就業單位行業性質、單位性質、工作崗位等,還特別選擇了行業內從事專業技術工作的10位畢業生進行訪談,詳細了解他們從事專業技術工作的感受與建議,如專業對口度、能力與崗位需求差距、實習對就業的影響、影響職業能力的因素等。
1.4SVM-SCARS算法
SVM-RFE通過建模參數直接構造排序系數,而建模參數又隨樣本數據數值變化而變化,因此計算結果易受數據波動性和隨機性的影響,不能全面反映變量重要性。此外每次迭代只消去1個變量,運算量較大,計算效率低[12]。因此本研究將穩定度自適應重加權采樣策略應用于支持向量機變量選擇(Support vector machine-stability competitive adaptive reweighted sampling,SVM-SCARS),該算法在傳統SVM-RFE的基礎上從以下兩方面進行改進:
①以排序系數穩定度作為變量重要性的評判標準。采用蒙特卡洛采樣法從m個樣本中隨機抽取msam(msam (2) ②通過自適應重加權采樣(Adaptive reweighted sampling,ARS)篩選特征變量。對于每次迭代,采用ARS篩選出穩定度值較大的變量,通過指數衰減函數確定篩選出的變量個數占全部變量數的比率[13-14]。第k次迭代時變量的篩選比根據下式計算。 cK=ae-bk (3) 其中a與b為常數,可基于兩種情況計算:第一次迭代,所有p個變量均被篩選,此時c1=1;最后一次迭代,只有1個變量被篩選,此時cN=1/p,因此可推算,a=p1/(N-1),b=(lnp)/(N-1),p是變量總個數,N是總迭代次數。通過指數衰減函數可將變量篩選過程分為粗選和精選兩個階段,粗選階段變量篩選比率下降迅速,變量數減少很快,可迅速剔除大量無用和干擾變量;精選階段變量數減少緩慢,可對較重要的變量精細篩選,從而快速高效地篩選重要的特征變量。 SVM- SCARS具體算法過程如下: (1) 通過蒙特卡洛采樣法對樣本集t次采樣建模,并結合式(1)和式(2)計算各變量的排序系數穩定度值S; (2) 根據式(3)確定該次迭代篩選變量個數ns;采用ARS技術篩選穩定度值較大的ns個變量組成該次迭代的特征變量子集Vk; (3) 循環迭代(1)和(2)步N次,共獲得N個變量子集(V1,V2,…,VN),根據各變量子集建立SVM分類模型,以各模型的交叉驗證分類正確率評估這些子集的優劣,確定最優特征變量子集。 2結果與討論 2.1光譜預處理 由于本實驗直接采集木片光譜,而木片樣品的不規則和不均勻性會導致嚴重的光散射和光程變化,干擾光譜分析,因此使用一階導數、二階導數、標準正態變換(Standard normal variate,SNV)等多種預處理方法優化原始光譜。表2結果表明,一階導數結合標準正態變換可有效消除干擾信息,提高模型的預測性能。 表2 不同光譜預處理方法對模型鑒別準確率的影響 2.2變量篩選 采用一對一建模策略建立了SVM多分類模型對本實驗中6種木材進行樣本分類[15]。從所有559個樣本中隨機抽取372個樣本作為訓練集,其余187個樣本作為測試集。訓練集經SVM-SCARS篩選出最優變量子集并建立SVM分類模型,通過測試集對該模型進行驗證,并與傳統SVM-RFE方法進行對比。SVM建模采用線性核函數,SVM-SCARS所需參數:蒙特卡洛采樣數t=50,每次抽取樣本數msam為訓練集樣本總數的4/5,迭代次數N=30。 圖1和圖2反映了SVM-RFE和SVM-SCARS變量篩選過程中變量數目和CCRCV的變化趨勢。迭代前期,隨著變量數減少,兩種方法的CCRCV均無明顯變化,表明無用和冗余變量被逐漸剔除。但由于SVM-RFE每次只消去1個變量,計算效率較低,而SVM-SCARS通過指數衰減函數確定篩選變量個數,在粗選階段能夠迅速剔除大量冗余變量。此后隨著較重要變量被剔除,模型預測性能被逐漸削弱,兩種方法的CCRCV均呈下降趨勢。值得注意的是,SVM-RFE在迭代后期出現較大波動,這主要是因為SVM-RFE直接利用建模參數構建排序系數,易受數據波動性的影響。尤其在大部分冗余數據被剔除后,剩余變量均對模型有不同程度的影響,只通過1次取樣建模獲取的排序系數無法全面評估各變量的重要性,容易出現對變量排序的誤判,使某些更重要的變量被提前剔除導致模型預測能力不穩定。而SVM-SCARS通過重復采樣建模的穩定度值綜合考察變量,能夠客觀準確地評估變量在建模中的作用,按其重要性逐次篩選變量,因此其CCRCV的變化較為平緩。綜合分析,最終確定SVM-RFE選出的最優變量為其第72次迭代所得的29個特征變量,SVM-SCARS選出的最優變量為其第13次迭代所得的15個特征變量。 2.3模型預測性能分析 基于篩選出的特征變量建立SVM分類模型并對測試集進行預測,結果見表3。由于4種桉木同屬于桃金娘科桉屬,2種相思木同屬于金合歡屬,同屬樹種間差異性較小,其近紅外光譜反映的材性信息較為相似,增加了全光譜模型預測難度,此外樣品不均勻和光散射干擾也會影響模型預測性能。通過篩選變量去除冗余和干擾信息后,模型預測性能得到顯著提高。但由于變量篩選過程波動性較大,SVM-RFE模型對不同樹種的預測性能并不穩定,如對尾葉桉和小葉桉能夠完全識別,但對2種相思木的預測精度卻不理想。SVM-SCARS模型基于穩定度值綜合評估變量的重要性,能有效提取樹種間差異較大的光譜變量,這些變量與各樹種主要化學纖維結構的特征性吸收均有較強的關聯性,提高了建模數據的特異性,因此對各樹種均有較好的預測能力。 表3 不同變量選擇方法對測試集的分類結果 3結論 利用SVM-SCARS篩選出多種制漿常用木材的近紅外光譜特征變量,建立了穩健的SVM樹種識別模型。SVM-SCARS通過對數據重復采樣建模,綜合評判各變量對模型的重要性,采用自適應重加權采樣策略快速高效地篩選出對模型有重要作用的變量,從而優化特征變量,提升模型性能。與原光譜模型和SVM-RFE模型相比,SVM-SCARS模型具有更好的預測能力和穩定性。研究結果表明,便攜式近紅外光譜儀結合SVM變量篩選算法能夠建立穩健的近紅外在線分析模型,可實現對制漿木材材性的在線分析評估,對精確控制工藝條件促進制漿原料的高效合理利用具有重要的指導意義。 參考文獻: [1]Schwanninger M,Tsuchikawa S.Appl.Spectrosc.Rev.,2013,48(7):560-587. [2]Tavassoli N,Tsai W,Bicho P,Grant E R.Anal.Methods,2014,6:8906-8914. [3]Inagaki T,Sirisomboon P,Liu C,Thanapase W,Tsuchikawa S.J.WoodSci.,2013,59(2):119-126. [4]Yang Z,Ren H Q,Jiang Z H.Spectrosc.SpectralAnal.(楊忠,任海青,江澤慧.光譜學與光譜分析),2008,28(4):793-796. [5]Yang Z,Lü B,Huang A M,Liu Y N,Xie X Q.Spectrosc.SpectralAnal.(楊忠,呂斌,黃安民,劉亞娜,謝序勤.光譜學與光譜分析),2012,32(7):1785-1789. [6]Ma M Y,Wang G Y,Huang A M,Zhang Z Y,Xiang Y H,Gu X.Spectrosc.SpectralAnal.(馬明宇,王桂蕓,黃安民,張卓勇,相玉紅,顧軒.光譜學與光譜分析),2012,32(9):2377-2381. [7]Huang C Y,Fan H B,Liu F,Xu G R.J.Instrum.Anal.(黃常毅,范海濱,劉飛,許贛榮.分析測試學報),2014,33(5):520-526. [8]Diesel K M F,Costa F S L D,Pimenta A S,Lima K M G D.WoodSci.Technol.,2014,48(5):949-959. [9]Zou X B,Zhou J W,Povey M J W,Holmes M,Mao H P.Anal.Chim.Aata,2010,667:14-32. [10]Cortes C,Vapnik V.MachineLearning,1995,20(3):273-297. [11]Guyon I,Weston J,Barnhill S,Vapnik V.MachineLearning,2002,46(1/3):389-422. [12]Duan K B,Rajapakse J C,Wang H Y,Azuaje F.IEEETrans.Nanobiosci.,2005,4(3):228-234. [13]Li H D,Liang Y Z,Xu Q S,Cao D S.Anal.Chim.Acta,2009,648(1):77-84. [14]Zhang H X,Li X N,Fan W,Liang Y Z,Tang Y L.J.Instrum.Anal.(張華秀,李曉寧,范偉,梁逸曾,唐玉蓮.分析測試學報),2010,29(5):430-434. [15]Hsu C W,Lin C J.IEEETrans.NeuralNetworks,2002,13(2):415-425. [16]Wu R M,Wang X,Guo P,Ai S R,Yan L Y,Liu M H.J.Instrum.Anal.(吳瑞梅,王曉,郭平,艾施榮,嚴霖元,劉木華.分析測試學報),2013,32(11):1359-1363. [17]He W M,Hu H R.Bioresour.Technol.,2013,140:299-305. Fast Identification of Wood Species Using Near Infrared Spectroscopy Coupled with Variables Selection Methods Based on Support Vector MachineLIANG Long1,FANG Gui-gan1*,WU Ting1,CUI Hong-hui1,ZHANG Xin-min2,ZHAO Zhen-yi2 (1.Institute of Chemical Industry of Forestry Products,CAF;Key Laboratory of Biomass Energy and Material,Jiangsu Province;Key and Open Laboratory on Forest Chemical Engineering,SFA;National Engineering Laboratory for Biomass Chemical Utilization,Nanjing210042,China;2.China invent Instrument Tech.Co.Ltd.,Beijing100085,China) Abstract:A novel variable selection method based on stability competitive adaptive reweighted sampling was applied to work with support vector machines(SVM-SCARS) for selecting informative variables of near infrared spectroscopy to build more robust SVM model.This method computed the stability index of each variable from a statistical analysis of weight vectors of multiple SVMs trained on subsamples of the original data by multiple sampling.The stability index represents the influence of variable on SVM modeling and could be used to evaluate the importance of variable.The variable with higher stability index was treated as informative variable that has an important effect on predictive performance of the model.Through iterations,the important variables was selected gradually by using adaptive reweighted sampling technology.Then the selected variables in each iteration were stored into variable subset.The optimal variable subset was determined by assessing the correct classification rate of cross validation(CCRCV) of SVM models based on all variable subsets.The SVM-SCARS algorithm combined with near-infrared diffusion reflectance spectrum technology were applied to construct wood identification model for four kinds of eucalyptus and two kinds of acacia.Experimental results showed that the SVM-SCARS model has a superior performance for identifying different wood species,in comparison to the full spectrum model and the support vector machine recursive feature elimination(SVM-RFE) model,both in terms of prediction ability and selected variables size.As a result,fifteen variables were selected by SVM-SCARS method to construct identification model with the correct classification rate of 97.9%.This study demonstrates that SVM-SCARS could effectively extract important characteristic variables from near infrared spectrum to improve the robustness and applicability of NIR online detection model for wood property analysis. Key words:near infrared spectroscopy;support vector machines;variable selection;wood species identification;pulp and paper 中圖分類號:O657.3;F762.4 文獻標識碼:A 文章編號:1004-4957(2016)01-0101-06 doi:10.3969/j.issn.1004-4957.2016.01.017 通訊作者:*房桂干,國際木材科學院院士,教授,研究方向:制漿造紙清潔生產、木材材性無損檢測分析,Tel:025-85482548,E-mail:fangguigan@icifp.cn 基金項目:國家林業局948項目(2014-4-31) 收稿日期:2015-07-10;修回日期:2015-08-05

