吳 珽 房桂干,* 梁 龍 崔宏輝 熊智新
(1.中國(guó)林業(yè)科學(xué)研究院林產(chǎn)化學(xué)工業(yè)研究所,國(guó)家林業(yè)局林產(chǎn)化學(xué)工程重點(diǎn)開放性實(shí)驗(yàn)室,生物質(zhì)化學(xué)
利用國(guó)家工程實(shí)驗(yàn)室,江蘇南京,210042;2.南京林業(yè)大學(xué)輕工科學(xué)與工程學(xué)院,江蘇南京,210037)
?
近紅外光譜結(jié)合Lasso算法測(cè)定制漿材抽出物含量
吳珽1房桂干1,*梁龍1崔宏輝1熊智新2
(1.中國(guó)林業(yè)科學(xué)研究院林產(chǎn)化學(xué)工業(yè)研究所,國(guó)家林業(yè)局林產(chǎn)化學(xué)工程重點(diǎn)開放性實(shí)驗(yàn)室,生物質(zhì)化學(xué)
利用國(guó)家工程實(shí)驗(yàn)室,江蘇南京,210042;2.南京林業(yè)大學(xué)輕工科學(xué)與工程學(xué)院,江蘇南京,210037)
摘要:為實(shí)現(xiàn)制漿材材性的快速測(cè)定,首先用常規(guī)方法測(cè)定了144個(gè)制漿材樣品的冷水、熱水、苯-醇和1% NaOH抽出物含量,并采集了樣品的近紅外光譜,然后對(duì)原始光譜進(jìn)行預(yù)處理,并運(yùn)用Lasso算法及交互驗(yàn)證建立最優(yōu)校正模型。對(duì)模型進(jìn)行獨(dú)立驗(yàn)證,決定系數(shù)分別為0.9186、0.9085、0.9241、0.9760,預(yù)測(cè)均方根誤差分別為0.24%、0.30%、0.28%、0.38%,相對(duì)分析誤差分別為3.50、3.31、3.63、6.45,絕對(duì)偏差分別為-0.42%~0.37%、-0.43%~0.41%、-0.47%~0.40%、-0.55%~0.57%。這些模型預(yù)測(cè)性能能夠滿足制漿造紙工業(yè)的要求,同時(shí),也證實(shí)了Lasso算法用于制漿材抽出物測(cè)定的可行性。
關(guān)鍵詞:Lasso算法;近紅外光譜;制漿材;抽出物含量
制漿材材性對(duì)制漿造紙過(guò)程的相關(guān)工藝及參數(shù)的確定有較大影響,如綜纖維素含量直接決定紙漿得率;木素本身存在發(fā)色基團(tuán),影響漂白劑用量;冷熱水抽出物與紙漿得率和成漿質(zhì)量存在一定關(guān)系;苯-醇抽出物會(huì)阻礙藥液浸透且易使紙漿著色;1%NaOH抽出物與原料變質(zhì)和腐朽程度相關(guān),根據(jù)其含量可預(yù)見該原料的堿法制漿得率[1]。制漿材因樹種和生長(zhǎng)情況不同,其材性存在顯著差異。因此,在實(shí)際生產(chǎn)過(guò)程中,有必要實(shí)現(xiàn)制漿材材性的實(shí)時(shí)快速測(cè)定,以便及時(shí)調(diào)整制漿工藝參數(shù)[2]。傳統(tǒng)材性分析過(guò)程用藥多、耗時(shí)長(zhǎng),無(wú)法滿足實(shí)時(shí)測(cè)定的需求[3]。近紅外光譜(Near-infrared Spectroscopy,NIR)屬于分子振動(dòng)光譜,產(chǎn)生于共價(jià)化學(xué)鍵非諧能級(jí)振動(dòng),是非諧振動(dòng)的倍頻與組合頻,含有含氫基團(tuán)X—H(X=O,C,N,S等)的物質(zhì)都會(huì)產(chǎn)生近紅外光譜。制漿材原料化學(xué)成分中含有大量含氫基團(tuán),因此,近紅外光譜可用于制漿材化學(xué)成分分析;此外,近紅外光譜儀提供的近紅外光在樣品內(nèi)部會(huì)發(fā)生反射、折射、衍射、吸收并與樣品內(nèi)部分子相互作用,從而負(fù)載著樣品的成分與結(jié)構(gòu)信息,可用于分析制漿材的物理性質(zhì)[4]。近紅外光譜技術(shù)作為一種光譜測(cè)量分析手段,具有快速無(wú)損的優(yōu)勢(shì)[5],近年來(lái),在制漿材原料分類[6]、材性測(cè)定尤其是木素、纖維素、半纖維素的含量測(cè)定[7- 8]、纖維形態(tài)分析[9]等方面取得了較多成果。賀文明等測(cè)定了112個(gè)闊葉木和針葉木樣本的4種抽出物含量,建立了校正模型,用于預(yù)測(cè)未知樣[10]。Lasso(the least absolute shrinkage and selection operator)算法是一種新興的數(shù)據(jù)處理方法,所建模型有較強(qiáng)的樣本外預(yù)測(cè)能力[11],在經(jīng)濟(jì)學(xué)[12]、統(tǒng)計(jì)學(xué)[13]等方面有較多應(yīng)用。本研究為了更接近制漿造紙工業(yè)的實(shí)際需求,利用便攜式阿達(dá)瑪近紅外光譜儀直接采集制漿材木片的光譜;通過(guò)傳統(tǒng)化學(xué)方法測(cè)定了樣品中的冷水抽出物、熱水抽出物、苯-醇抽出物和1% NaOH抽出物含量;在Matlab7.0軟件中加載Lasso算法建立了制漿材4種抽出物的預(yù)測(cè)模型,以滿足制漿造紙生產(chǎn)中對(duì)原料抽出物含量實(shí)時(shí)測(cè)定的需求,同時(shí),也證實(shí)Lasso算法適用于制漿材材性的測(cè)定。
1實(shí)驗(yàn)
1.1原料
由林產(chǎn)化學(xué)工業(yè)研究所造紙室提供的樣本為制漿常用的3種闊葉材(桉木、楊木、相思木),其種植面積廣,使用廣泛,在我國(guó)制漿材中具有顯著的代表性。原木去皮后經(jīng)削片機(jī)切削成規(guī)格為20 mm×10 mm×2 mm的木片,分樹種共采集144個(gè)樣品,置于空氣中平衡水分。待所有樣品水分平衡后,采集近紅外光譜,并測(cè)定抽出物含量。針對(duì)每一樹種,隨機(jī)選取12個(gè)樣品數(shù)據(jù)組成校正集,用于建立預(yù)測(cè)模型,其余樣品作為驗(yàn)證集用于預(yù)測(cè)模型的獨(dú)立驗(yàn)證(見表1)。

表1 制漿材樣本來(lái)源及使用情況
1.2實(shí)驗(yàn)儀器與光譜采集
實(shí)驗(yàn)儀器為華夏科創(chuàng)儀器有限公司生產(chǎn)的便攜式阿達(dá)瑪變換近紅外光譜儀。設(shè)定儀器參數(shù)如下:掃描波長(zhǎng)范圍為1600~2500 nm,分辨率為8 cm-1,光譜重復(fù)掃描50次自動(dòng)平均為一個(gè)光譜。將樣品木片平鋪在采樣杯底部,層層疊起,不留透光縫隙。采集光譜后將樣品倒出,重新混合裝入采樣杯采樣,每個(gè)樣品以此方法采集3次光譜,取平均值作為樣品原始光譜。
1.3抽出物含量測(cè)定
樣品近紅外光譜采集完畢后,置于粉碎機(jī)中磨成細(xì)末,過(guò)篩,截取能通過(guò)0.38 mm篩孔(40目)而不能通過(guò)0.25 mm篩孔(60目)的細(xì)末。冷卻至室溫后,置于聚乙烯袋中密封備用。
按GB/T 2677.4—1993測(cè)定水抽出物含量:冷水抽出物測(cè)定采用溫度為(23±2)℃的水處理48 h;熱水抽出物的測(cè)定則用95~100℃的熱蒸餾水加熱3 h。按GB/T 2677.6—1994測(cè)定苯-醇抽出物含量:用苯-醇混合液抽提試樣,將抽出液蒸發(fā)干燥、稱量,從而定量測(cè)定溶劑所抽出的物質(zhì)含量。按GB/T 2677.5—1993測(cè)定1% NaOH抽出物含量:用1% NaOH溶液處理試樣,殘?jiān)?jīng)洗滌干燥至質(zhì)量恒定,根據(jù)處理前后試樣的質(zhì)量差確定其抽出物含量。
1.4Lasso算法與分析過(guò)程
設(shè)有p個(gè)自變量x1,x2,…,xp和因變量y,它們之間可建立如下線性回歸模型:
y=α+β1x1+β2x2+…+βpxp+ε
(1)
式中,α為常數(shù)項(xiàng),β1、β2、…、βp為回歸系數(shù),ε為隨機(jī)擾動(dòng)項(xiàng)。

Lasso算法的本質(zhì)是在回歸系數(shù)的絕對(duì)值之和小于等于一個(gè)常數(shù)λ的約束條件下,使殘差平方和達(dá)到最小來(lái)產(chǎn)生某些嚴(yán)格等于0的回歸系數(shù),從而得到參數(shù)估計(jì)值。它對(duì)系數(shù)的絕對(duì)值而非系數(shù)的平方項(xiàng)進(jìn)行懲罰,也叫L1范數(shù)懲罰。常用殘差平方和的最小值加上一個(gè)對(duì)回歸系數(shù)進(jìn)行的懲罰函數(shù)表示,即:
(2)

(3)


1.5評(píng)價(jià)標(biāo)準(zhǔn)
2結(jié)果與討論
2.1不同抽出物含量測(cè)定值分布
測(cè)定全部144個(gè)樣品的4種抽出物含量,其分布情況見表2。由表2可知,冷水抽出物含量為0.69%~3.81%,但主要集中在0.69%~3.00%之間;熱水抽出物含量集中于1.93%~5.50%,在5.50%~6.05%之間的數(shù)據(jù)極少;苯-醇抽出物含量在0.88%~4.20%之間均勻分布,在4.20%~5.07%間的數(shù)據(jù)極少;1% NaOH抽出物含量分布較均勻,13.5%~15.5%間的數(shù)據(jù)略密集。4種抽出物總體數(shù)據(jù)覆蓋面較寬,有利于建立具有普適性的預(yù)測(cè)模型。

表2 樣品抽出物的測(cè)定值 %
2.2原始光譜及預(yù)處理
圖1為制漿材樣品的近紅外光譜圖,其中,橫坐標(biāo)為光譜波長(zhǎng)、縱坐標(biāo)為樣品對(duì)光譜的吸收強(qiáng)弱。樣品置于空氣中平衡水分后,水分均在12%左右,差異較小,可忽略水分差異對(duì)近紅外光譜的影響。樣品在掃描波長(zhǎng)范圍內(nèi)存在較強(qiáng)吸收,但光譜吸收帶較寬且重疊嚴(yán)重,難以精確區(qū)分譜帶歸屬。通過(guò)Matlab7.0軟件采用多元散射校正對(duì)原始光譜進(jìn)行預(yù)處理,以提高性噪比,消除干擾信息,結(jié)果見圖2。
2.3模型的建立與獨(dú)立驗(yàn)證

圖2 多元散射校正后的譜圖

圖1 原始近紅外光譜圖



表3 模型的參數(shù)及評(píng)價(jià)

圖4 熱水抽出物的預(yù)測(cè)

圖3 冷水抽出物的預(yù)測(cè)

圖6 1%NaOH抽出物的預(yù)測(cè)

圖5 苯-醇抽出物的預(yù)測(cè)
3結(jié)論
3.1用國(guó)標(biāo)法測(cè)定了制漿材樣品的冷水、熱水、苯-醇、1%NaOH抽出物含量,并使用阿達(dá)瑪近紅外光譜儀采集了樣品光譜;在Matlab 7.0軟件中使用Lasso算法,結(jié)合交互驗(yàn)證確定了PRESS最小時(shí)待建模型的最優(yōu)調(diào)整參數(shù),其分別為3.15、4.82、4.70、7.94。
3.2通過(guò)最優(yōu)調(diào)整參數(shù)確定冷水、熱水、苯-醇、1%NaOH抽出物的校正模型。冷水、熱水、苯-醇抽出物模型質(zhì)量較好,可用于非精確性預(yù)測(cè),具有指導(dǎo)意義;1%NaOH抽出物模型質(zhì)量好,能用于較精確的預(yù)測(cè)。
參考文獻(xiàn)
[1]石淑蘭, 何福望. 制漿造紙分析與檢測(cè)[M]. 北京: 中國(guó)輕工業(yè)出版社, 2010: 29.
[2]劉宛予, 丁峰, 李潔, 等. 木片在線測(cè)量系統(tǒng)的研究[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào), 2009, 41(3): 85.
[3]Schwanninger M, Rodrigues J C, Fackler K. A review of band assignments in near infrared spectra of wood and wood components[J]. Journal of Near Infrared Spectroscopy, 2011, 19(5): 287.
[4]So C L, Via B K, Groom L H, et al. Near infrared spectroscopy in the forest products industry[J]. Forest Products Journal, 2004, 54(3): 6.
[5]李小梅, 王雙飛. 近紅外光譜技術(shù)在造紙工業(yè)中的應(yīng)用[J]. 中國(guó)造紙學(xué)報(bào), 2003, 18(2): 189.
[6]吳新生, 謝益民, 帥興華. 基于近紅外光譜法的造紙用木材原料的快速分類[J]. 中國(guó)造紙學(xué)報(bào), 2007, 22(3): 14.
[7]Yao S. Determination of lignin content in Acacia spp using near-infrared reflectance spectroscopy[J]. BioResources, 2010, 5(2): 556.
[8]賀文明, 薛崇昀, 聶怡, 等. 近紅外光譜法快速測(cè)定木材纖維素、戊聚糖和木質(zhì)素含量的研究[J]. 中國(guó)造紙學(xué)報(bào), 2010, 25(3): 9.
[9]王玉榮, 費(fèi)本華, 傅峰, 等. 基于近紅外光譜技術(shù)預(yù)測(cè)木材纖維長(zhǎng)度[J]. 中國(guó)造紙, 2008, 27(6): 6.
[10]賀文明, 薛崇昀, 聶怡, 等. 近紅外光譜技術(shù)快速測(cè)定木材抽出物含量的研究[J]. 中華紙業(yè), 2010, 31(16): 18.
[11]Tibshirani R J. Regression shrinkage and selection via the Lasso[J]. Journal of the Royal Statistical Society, 1996, 58(1): 267.
[12]喻勝華, 張靜. 基于Lasso的外商直接投資影響因素研究[J]. 湖南大學(xué)學(xué)報(bào): 社會(huì)科學(xué)版, 2014, 28(2): 53.
[13]SHI Wan-feng, HU Xue-gang, YU Kui. K-part Lasso based on feature selection algorithm for high-dimensional data[J]. Computer Engineering and Applications, 2012, 48(1): 157.
[14]Tibshirani R J. The Lasso method for variable selection in the Cox model[J]. Statistics in Medicine, 1997, 16(4): 385.
[15]陸婉珍. 現(xiàn)代近紅外光譜分析技術(shù)[M]. 北京: 中國(guó)石化出版社, 2007: 44.
The Prediction of Pulpwood Extractives Content by Near
Infrared Spectroscopy Combining with Lasso Algorithm
(責(zé)任編輯:關(guān)穎)
WU Ting1FANG Gui-gan1,*LIANG Long1CUI Hong-hui1XIONG Zhi-xin2
(1.InstituteofChemicalIndustryofForestryProducts,CAF;NationalEngineeringLab.forBiomassChemicalUtilization;
KeyandOpenLab.onForestChemicalEngineering,SFA,Nanjing,JiangsuProvince, 210042;
2.CollegeofLightIndustryScienceandEngineering,NanjingForestryUniversity,Nanjing,JiangsuProvince, 210037)
(*E-mail: fangguigan@icifp.cn)
Abstract:The contents of cold water, hot water, benzene ethanol and 1.0% NaOH extractive of 144 pulpwood samples were analyzed using the traditional methods, meanwhile their near-infrared (NIR) spectra were also collected. After the pretreatment of original spectra, the optimal prediction models were established by using Lasso algorithm and cross-validation. The independent verification of the optimal prediction models showed the coefficients of determination (R2) were 0.9186, 0.9085, 0.9241 and 0.9760. The root mean square error of prediction (RMSEP) were 0.24%, 0.30%, 0.28% and 0.38%. The relative percent deviation (RPD) were 3.50, 3.31, 3.63 and 6.45. The absolute deviation (AD) were -0.42%~0.37%,-0.43%~0.41%,-0.47%~0.40%,-0.55%~0.57% respectively for cold water, hot water, benzene ethanol and 1.0% NaOH extractives. The prediction performance of the four models could meet the need of pulping and paper making industry and meanwhile Lasso algorithm was feasible for the prediction and analysis of pulpwood extractive content.
Keywords:Lasso algorithm; near-infrared spectroscopy; pulpwood; extractive content
作者簡(jiǎn)介:吳珽,男,1988年生;在讀碩士研究生;主要從事制漿造紙工藝參數(shù)在線檢測(cè)的研究工作。
基金項(xiàng)目:國(guó)家林業(yè)局948項(xiàng)目“農(nóng)林剩余物制機(jī)械漿節(jié)能和減量技術(shù)引進(jìn)”(2014-4-31)。
收稿日期:2015- 07-20
中圖分類號(hào):O657.3;TS721
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1000- 6842(2015)04- 0022- 05
*通信聯(lián)系人:房桂干,E-mail:fangguigan@icifp.cn。