吳 珽 房桂干,* 梁 龍 崔宏輝 熊智新
(1.中國林業科學研究院林產化學工業研究所,國家林業局林產化學工程重點開放性實驗室,生物質化學
利用國家工程實驗室,江蘇南京,210042;2.南京林業大學輕工科學與工程學院,江蘇南京,210037)
?
近紅外光譜結合Lasso算法測定制漿材抽出物含量
吳珽1房桂干1,*梁龍1崔宏輝1熊智新2
(1.中國林業科學研究院林產化學工業研究所,國家林業局林產化學工程重點開放性實驗室,生物質化學
利用國家工程實驗室,江蘇南京,210042;2.南京林業大學輕工科學與工程學院,江蘇南京,210037)
摘要:為實現制漿材材性的快速測定,首先用常規方法測定了144個制漿材樣品的冷水、熱水、苯-醇和1% NaOH抽出物含量,并采集了樣品的近紅外光譜,然后對原始光譜進行預處理,并運用Lasso算法及交互驗證建立最優校正模型。對模型進行獨立驗證,決定系數分別為0.9186、0.9085、0.9241、0.9760,預測均方根誤差分別為0.24%、0.30%、0.28%、0.38%,相對分析誤差分別為3.50、3.31、3.63、6.45,絕對偏差分別為-0.42%~0.37%、-0.43%~0.41%、-0.47%~0.40%、-0.55%~0.57%。這些模型預測性能能夠滿足制漿造紙工業的要求,同時,也證實了Lasso算法用于制漿材抽出物測定的可行性。
關鍵詞:Lasso算法;近紅外光譜;制漿材;抽出物含量
制漿材材性對制漿造紙過程的相關工藝及參數的確定有較大影響,如綜纖維素含量直接決定紙漿得率;木素本身存在發色基團,影響漂白劑用量;冷熱水抽出物與紙漿得率和成漿質量存在一定關系;苯-醇抽出物會阻礙藥液浸透且易使紙漿著色;1%NaOH抽出物與原料變質和腐朽程度相關,根據其含量可預見該原料的堿法制漿得率[1]。制漿材因樹種和生長情況不同,其材性存在顯著差異。因此,在實際生產過程中,有必要實現制漿材材性的實時快速測定,以便及時調整制漿工藝參數[2]。傳統材性分析過程用藥多、耗時長,無法滿足實時測定的需求[3]。近紅外光譜(Near-infrared Spectroscopy,NIR)屬于分子振動光譜,產生于共價化學鍵非諧能級振動,是非諧振動的倍頻與組合頻,含有含氫基團X—H(X=O,C,N,S等)的物質都會產生近紅外光譜。制漿材原料化學成分中含有大量含氫基團,因此,近紅外光譜可用于制漿材化學成分分析;此外,近紅外光譜儀提供的近紅外光在樣品內部會發生反射、折射、衍射、吸收并與樣品內部分子相互作用,從而負載著樣品的成分與結構信息,可用于分析制漿材的物理性質[4]。近紅外光譜技術作為一種光譜測量分析手段,具有快速無損的優勢[5],近年來,在制漿材原料分類[6]、材性測定尤其是木素、纖維素、半纖維素的含量測定[7- 8]、纖維形態分析[9]等方面取得了較多成果。賀文明等測定了112個闊葉木和針葉木樣本的4種抽出物含量,建立了校正模型,用于預測未知樣[10]。Lasso(the least absolute shrinkage and selection operator)算法是一種新興的數據處理方法,所建模型有較強的樣本外預測能力[11],在經濟學[12]、統計學[13]等方面有較多應用。本研究為了更接近制漿造紙工業的實際需求,利用便攜式阿達瑪近紅外光譜儀直接采集制漿材木片的光譜;通過傳統化學方法測定了樣品中的冷水抽出物、熱水抽出物、苯-醇抽出物和1% NaOH抽出物含量;在Matlab7.0軟件中加載Lasso算法建立了制漿材4種抽出物的預測模型,以滿足制漿造紙生產中對原料抽出物含量實時測定的需求,同時,也證實Lasso算法適用于制漿材材性的測定。
1實驗
1.1原料
由林產化學工業研究所造紙室提供的樣本為制漿常用的3種闊葉材(桉木、楊木、相思木),其種植面積廣,使用廣泛,在我國制漿材中具有顯著的代表性。原木去皮后經削片機切削成規格為20 mm×10 mm×2 mm的木片,分樹種共采集144個樣品,置于空氣中平衡水分。待所有樣品水分平衡后,采集近紅外光譜,并測定抽出物含量。針對每一樹種,隨機選取12個樣品數據組成校正集,用于建立預測模型,其余樣品作為驗證集用于預測模型的獨立驗證(見表1)。

表1 制漿材樣本來源及使用情況
1.2實驗儀器與光譜采集
實驗儀器為華夏科創儀器有限公司生產的便攜式阿達瑪變換近紅外光譜儀。設定儀器參數如下:掃描波長范圍為1600~2500 nm,分辨率為8 cm-1,光譜重復掃描50次自動平均為一個光譜。將樣品木片平鋪在采樣杯底部,層層疊起,不留透光縫隙。采集光譜后將樣品倒出,重新混合裝入采樣杯采樣,每個樣品以此方法采集3次光譜,取平均值作為樣品原始光譜。
1.3抽出物含量測定
樣品近紅外光譜采集完畢后,置于粉碎機中磨成細末,過篩,截取能通過0.38 mm篩孔(40目)而不能通過0.25 mm篩孔(60目)的細末。冷卻至室溫后,置于聚乙烯袋中密封備用。
按GB/T 2677.4—1993測定水抽出物含量:冷水抽出物測定采用溫度為(23±2)℃的水處理48 h;熱水抽出物的測定則用95~100℃的熱蒸餾水加熱3 h。按GB/T 2677.6—1994測定苯-醇抽出物含量:用苯-醇混合液抽提試樣,將抽出液蒸發干燥、稱量,從而定量測定溶劑所抽出的物質含量。按GB/T 2677.5—1993測定1% NaOH抽出物含量:用1% NaOH溶液處理試樣,殘渣經洗滌干燥至質量恒定,根據處理前后試樣的質量差確定其抽出物含量。
1.4Lasso算法與分析過程
設有p個自變量x1,x2,…,xp和因變量y,它們之間可建立如下線性回歸模型:
y=α+β1x1+β2x2+…+βpxp+ε
(1)
式中,α為常數項,β1、β2、…、βp為回歸系數,ε為隨機擾動項。

Lasso算法的本質是在回歸系數的絕對值之和小于等于一個常數λ的約束條件下,使殘差平方和達到最小來產生某些嚴格等于0的回歸系數,從而得到參數估計值。它對系數的絕對值而非系數的平方項進行懲罰,也叫L1范數懲罰。常用殘差平方和的最小值加上一個對回歸系數進行的懲罰函數表示,即:
(2)

(3)


1.5評價標準
2結果與討論
2.1不同抽出物含量測定值分布
測定全部144個樣品的4種抽出物含量,其分布情況見表2。由表2可知,冷水抽出物含量為0.69%~3.81%,但主要集中在0.69%~3.00%之間;熱水抽出物含量集中于1.93%~5.50%,在5.50%~6.05%之間的數據極少;苯-醇抽出物含量在0.88%~4.20%之間均勻分布,在4.20%~5.07%間的數據極少;1% NaOH抽出物含量分布較均勻,13.5%~15.5%間的數據略密集。4種抽出物總體數據覆蓋面較寬,有利于建立具有普適性的預測模型。

表2 樣品抽出物的測定值 %
2.2原始光譜及預處理
圖1為制漿材樣品的近紅外光譜圖,其中,橫坐標為光譜波長、縱坐標為樣品對光譜的吸收強弱。樣品置于空氣中平衡水分后,水分均在12%左右,差異較小,可忽略水分差異對近紅外光譜的影響。樣品在掃描波長范圍內存在較強吸收,但光譜吸收帶較寬且重疊嚴重,難以精確區分譜帶歸屬。通過Matlab7.0軟件采用多元散射校正對原始光譜進行預處理,以提高性噪比,消除干擾信息,結果見圖2。
2.3模型的建立與獨立驗證

圖2 多元散射校正后的譜圖

圖1 原始近紅外光譜圖



表3 模型的參數及評價

圖4 熱水抽出物的預測

圖3 冷水抽出物的預測

圖6 1%NaOH抽出物的預測

圖5 苯-醇抽出物的預測
3結論
3.1用國標法測定了制漿材樣品的冷水、熱水、苯-醇、1%NaOH抽出物含量,并使用阿達瑪近紅外光譜儀采集了樣品光譜;在Matlab 7.0軟件中使用Lasso算法,結合交互驗證確定了PRESS最小時待建模型的最優調整參數,其分別為3.15、4.82、4.70、7.94。
3.2通過最優調整參數確定冷水、熱水、苯-醇、1%NaOH抽出物的校正模型。冷水、熱水、苯-醇抽出物模型質量較好,可用于非精確性預測,具有指導意義;1%NaOH抽出物模型質量好,能用于較精確的預測。
參考文獻
[1]石淑蘭, 何福望. 制漿造紙分析與檢測[M]. 北京: 中國輕工業出版社, 2010: 29.
[2]劉宛予, 丁峰, 李潔, 等. 木片在線測量系統的研究[J]. 哈爾濱工業大學學報, 2009, 41(3): 85.
[3]Schwanninger M, Rodrigues J C, Fackler K. A review of band assignments in near infrared spectra of wood and wood components[J]. Journal of Near Infrared Spectroscopy, 2011, 19(5): 287.
[4]So C L, Via B K, Groom L H, et al. Near infrared spectroscopy in the forest products industry[J]. Forest Products Journal, 2004, 54(3): 6.
[5]李小梅, 王雙飛. 近紅外光譜技術在造紙工業中的應用[J]. 中國造紙學報, 2003, 18(2): 189.
[6]吳新生, 謝益民, 帥興華. 基于近紅外光譜法的造紙用木材原料的快速分類[J]. 中國造紙學報, 2007, 22(3): 14.
[7]Yao S. Determination of lignin content in Acacia spp using near-infrared reflectance spectroscopy[J]. BioResources, 2010, 5(2): 556.
[8]賀文明, 薛崇昀, 聶怡, 等. 近紅外光譜法快速測定木材纖維素、戊聚糖和木質素含量的研究[J]. 中國造紙學報, 2010, 25(3): 9.
[9]王玉榮, 費本華, 傅峰, 等. 基于近紅外光譜技術預測木材纖維長度[J]. 中國造紙, 2008, 27(6): 6.
[10]賀文明, 薛崇昀, 聶怡, 等. 近紅外光譜技術快速測定木材抽出物含量的研究[J]. 中華紙業, 2010, 31(16): 18.
[11]Tibshirani R J. Regression shrinkage and selection via the Lasso[J]. Journal of the Royal Statistical Society, 1996, 58(1): 267.
[12]喻勝華, 張靜. 基于Lasso的外商直接投資影響因素研究[J]. 湖南大學學報: 社會科學版, 2014, 28(2): 53.
[13]SHI Wan-feng, HU Xue-gang, YU Kui. K-part Lasso based on feature selection algorithm for high-dimensional data[J]. Computer Engineering and Applications, 2012, 48(1): 157.
[14]Tibshirani R J. The Lasso method for variable selection in the Cox model[J]. Statistics in Medicine, 1997, 16(4): 385.
[15]陸婉珍. 現代近紅外光譜分析技術[M]. 北京: 中國石化出版社, 2007: 44.
The Prediction of Pulpwood Extractives Content by Near
Infrared Spectroscopy Combining with Lasso Algorithm
(責任編輯:關穎)
WU Ting1FANG Gui-gan1,*LIANG Long1CUI Hong-hui1XIONG Zhi-xin2
(1.InstituteofChemicalIndustryofForestryProducts,CAF;NationalEngineeringLab.forBiomassChemicalUtilization;
KeyandOpenLab.onForestChemicalEngineering,SFA,Nanjing,JiangsuProvince, 210042;
2.CollegeofLightIndustryScienceandEngineering,NanjingForestryUniversity,Nanjing,JiangsuProvince, 210037)
(*E-mail: fangguigan@icifp.cn)
Abstract:The contents of cold water, hot water, benzene ethanol and 1.0% NaOH extractive of 144 pulpwood samples were analyzed using the traditional methods, meanwhile their near-infrared (NIR) spectra were also collected. After the pretreatment of original spectra, the optimal prediction models were established by using Lasso algorithm and cross-validation. The independent verification of the optimal prediction models showed the coefficients of determination (R2) were 0.9186, 0.9085, 0.9241 and 0.9760. The root mean square error of prediction (RMSEP) were 0.24%, 0.30%, 0.28% and 0.38%. The relative percent deviation (RPD) were 3.50, 3.31, 3.63 and 6.45. The absolute deviation (AD) were -0.42%~0.37%,-0.43%~0.41%,-0.47%~0.40%,-0.55%~0.57% respectively for cold water, hot water, benzene ethanol and 1.0% NaOH extractives. The prediction performance of the four models could meet the need of pulping and paper making industry and meanwhile Lasso algorithm was feasible for the prediction and analysis of pulpwood extractive content.
Keywords:Lasso algorithm; near-infrared spectroscopy; pulpwood; extractive content
作者簡介:吳珽,男,1988年生;在讀碩士研究生;主要從事制漿造紙工藝參數在線檢測的研究工作。
基金項目:國家林業局948項目“農林剩余物制機械漿節能和減量技術引進”(2014-4-31)。
收稿日期:2015- 07-20
中圖分類號:O657.3;TS721
文獻標識碼:A
文章編號:1000- 6842(2015)04- 0022- 05
*通信聯系人:房桂干,E-mail:fangguigan@icifp.cn。