李耀翔,張鴻富
(1.東北林業大學工程技術學院,哈爾濱150040;2.云南農業大學,昆明650201)
木材是一種復雜的天然有機聚合物,主要由木質素、纖維素、半纖維素和一定數量的抽提物等高分子有機物組成,這些組分在近紅外譜區都有較強的吸收度,這使得近紅外光譜技術預測木材的密度成為可能。木材密度是木材性質的一項重要指標,根據木材的密度信息可以估計木材的重量、判斷木材硬度、強度等物理力學性質及工藝性質。傳統的測量木材密度的方法費時且費力,對其進行快速、準確的預測具有十分重要的意義。近紅外光譜分析技術具有操作簡單、預測結果準確、對試樣無損等優點,在國內外已廣泛用于檢測木材密度、強度、含水率、木質素、抽提物、糖類等物理及化學性質[1-3]。落葉松作為我國東北林區大量種植的重要用材林樹種,具有種植范圍廣,木材蓄積量大的特點,用近紅外光譜分析技術對其密度進行預測有利于提高落葉松木材的利用率。本文運用基于高斯核變換的非線性偏最小二乘法結合近紅外光譜,對木材密度進行了預測研究[4]。
本次試驗所用落葉松試材采自黑龍江帶嶺林業局東方紅林場,北緯 46°50'8″~ 46°59'20″,東經128°57'16″~129°17'50″,海拔 650m。在所選標準樣地中從背陰面及向陽面各選一株健康木作為標準木。所選標準木直徑分別為26.2 cm和26.3 cm,樹高分別為23.2 m和23 m。在每株標準木的胸高(1.3 m)附近連續截取5 cm厚圓盤,帶回實驗室將每個圓盤去皮后過髓心縱向取20 mm×40 mm×200 mm樣條,每個樣條取規格為20 mm×20 mm×20 mm樣方,總計117個樣方。落葉松木材氣干密度的測量按照《木材物理力學性質試驗方法》(GB1933-1991)進行。運用MATLAB 7.0編寫程序將117個樣品按照3∶1的比例隨機分為校正集和驗證集,其中校正集共88個樣品,驗證集共29個樣品。具體信息見表1。

表1 樣品密度統計信息Tab.1 Statistics of wood density for the samples (g/cm3)
樣品近紅外光譜的采集儀器采用美國ASD公司生產的LabSpecR Pro FR/A114260便攜式快速掃描光譜儀。該儀器光譜波長范圍為350~2500 nm,光譜分辨率為3 nm@700 nm,10 nm@1 400和2 100 nm。實驗室溫度、濕度基本恒定,室內溫度控制在20±1℃,平均相對濕度為50%。采集樣品光譜前先用聚四氟乙烯制成的白色材料進行空白校準,由于用近紅外光譜分析技術分析木材密度時在木材橫切面、徑切面、弦切面3個切面中對橫切面采集的光譜建模預測效果最好[5],本次實驗采用兩分叉光纖探頭垂直于樣品的橫切面采集光譜。在全光譜范圍內對樣品進行掃描,設置波長范圍每隔10 nm紀錄一個信息點,每個樣品掃描30次并自動平均為一個光譜,每條光譜共得216個信息點[4]。
設自變量光譜信息點x1,x2,…,xp與因變量樣品密度值y的函數關系式為

設fj(xj)的核函數變換為^fj(xj)(j=1,2,…,p),則有



式中:ξj,l-1為變量 xj上劃分的區間分點,hj為分段長度、Mj為分段個數,進而可以得到全體光譜信息矩陣與密度矩陣的非線性擬合函數可表示為式中:y 與 zj,l=K之間是線性關系,可以用求解線性回歸的方法對其構造回歸模型,需要注意的是在進行變量替換后新的變量之間也可能存在多重共線性,可以采用偏最小二乘方法進行模型的求解來消除多重共線性的影響。
在近紅外光譜技術中由于光譜信息點的個數比較多,有時多達2 000個以上,大部分的光譜信息點之間存在著多重共線性,有的對所測性質而言可能是冗余信息,將其加入模型中可能還會降低模型的預測精度,同時使建模時間增長,使模型的泛化能力變差。本文采用Bootstrap方法對光譜信息進行篩選,去除冗余光譜點。Bootstrap變量篩選方法是1979年由美國斯坦福大學統計系教授倚佛儂提出的一種基于數據模擬的再抽樣方法,也稱為自助法,Bootstrap方法在運用過程中只依賴于給定的樣本信息,而不需要其他假設或增加新的樣本,是一種新的變量篩選方法[6-11]。
本文用于評價模型質量的參數主要有相關系數(R),均方差根誤差 (RMSE)及平均精度(PRE)。相關系數 (R),其取值范圍在 [0,1],其值越大,模型擬合就越好:

式中:n為建模的樣本數,yi為實驗室運用標準方法測定的實際值,為所建模型的預測值,為實驗室運用標準方法測定實際值的平均值。
均方差根誤差 (RMSE),均方差根誤差越小,模型擬合效果越好:

平均精度 (PRE),平均精度越大,模型擬合性越好。

將所采集的光譜進行卷積平滑和一階導數處理以消除背景噪聲及基線的影響。為了減少自變量的個數,提高運算速度及建模精度,所得光譜的216個信息點采用Bootstrap方法篩選變量 (本文所采用Bootstrap方法、線性與非線性偏最小二乘建模方法程序均由MATLAB 7.0編寫),第一次設置檢驗水平α=0.15,取B=100,有83個自變量未通過顯著性檢驗,將其剔除,剩余133個光譜數據。第二次設置檢驗水平α=0.1,取B=100,有71個自變量未通過顯著性檢驗,將其剔除,剩余62個光譜數據。第三次設置檢驗水平α=0.1,取B=300,有41個自變量未通過顯著性檢驗,將其剔除,剩余21個光譜數據。第四次設置檢驗水平α=0.05,取B=100,有6個自變量未通過顯著性檢驗,將其剔除,剩余15個光譜數據。再次設置檢驗水平α=0.05,取B=100所有變量均通過檢驗,最后通過Bootstrap方法篩選最后剩余15個光譜信息點用于線性和非線性偏最小二乘法的模型構建。
在運用非線性偏最小二乘法建立模型時,為了選擇最佳主成分數,使所建模型能夠在最大程度上反映樣品密度值與光譜數據之間的關系,圖1和圖2分析了隨著主成分數的增加模型RMSE與PRE變化關系。從圖1可以看出隨著主成分數的增加,校正集RMSE逐漸下降,在主成分數為10時趨近于0.02,而驗證集RMSE在主成分數在1至5之間呈現下降趨勢,而在5以后卻又呈現上升趨勢,在主成分數為5處出現了拐點。圖2中隨著主成分數的增加,校正集PRE逐漸升高,在主成分數為10時趨近于97.5%,而驗證集PRE在主成分數在1至5之間呈現上升趨勢,而在5以后卻又呈現下降趨勢,在主成分數為5處出現了拐點。從圖1及圖2可以看出校正模型的擬合能力隨著主成分數的增加而增強,但是預測能力卻是隨著主成分數的增加出現了先增強后減弱的現象,所以綜合校正集及驗證集兩方面的考慮,確定5為最佳主成分數,基于主成分數為5建立的校正模型擬合能力及預測能力為最優。

圖1 非線性偏最小二乘回歸主成分數與均方差根關系圖Fig.1 The relationship between number of principle components and RMSE with nonlinear PLS

圖2 非線性偏最小二乘回歸主成分數與平均精度關系圖Fig.2 The relationship between number of principle components and PRE%with nonlinear PLS
在確定了最佳主成分數后,運用非線性偏最小二乘法 (主成分數為5)構建落葉松木材密度近紅外光譜模型,建模結果與傳統線性偏最小二乘法進行了對比 (見表2)。通過表2可以看出,從對落葉松樣品密度預測方面,無論非線性偏最小二乘法所建模型還是線性偏最小二乘法所建模型都能實現有效預測。但從模型的具體參數比較來看,非線性偏最小二乘法所建模型不論校正集還是驗證集的相關系數和平均精度都高于線性偏最小二乘法所建模型,均方根誤差都小于線性偏最小二乘法所建模型,這說明了在結合近紅外分析技術預測木材密度中非線性偏最小二乘法所建模型要優于線性偏最小二乘法所建模型,預測結果更加準確。還在一定程度上也反映了樣品近紅外光譜信息與樣品的實際密度值之間不是單純的線性關系,非線性關系可以更好地表征二者之間的關系。

表2 線性與非線性偏最小二乘法結果分析Tab.2 Comparison of modeling results with linear and nonlinear PLS
本文給出了結合非線性偏最小二乘法應用近紅外光譜技術對落葉松木材的密度的預測模型,并進行了模型比較。結果表明近紅外分析技術可以快速、準確地預測木材的密度。
為了消除光譜信息中可能出現的冗余信息,提高建模的運算速度,對所采集的光譜運用Bootstrap變量篩選方法對光譜信息數據進行了降維,設置相關參數,經過4次篩選,一條光譜的216個信息點篩選剩余15個信息點作為一個樣品的光譜信息,這就有效地提高了建模的運算速度及建模精度。
分別運用基于高斯核變換的非線性偏最小二乘法和傳統偏最小二乘法建立密度預測模型,并且對所建模型的評價參數進行了對比分析。結果表明兩種方法建立的預測模型都能對樣品的密度進行有效預測,而在模型的具體參數比較上看,基于高斯核變換的非線性偏最小二乘法所建模型預測準確度要優于傳統偏最小二乘法建立模型,這在一定程度上也反映了樣品近紅外光譜信息與樣品的實際密度值之間不是單純的線性關系,非線性關系可以更好地表征二者之間的關系。
[1]黃安民,江澤慧.近紅外光譜技術在木材性質預測中的應用研究進展[J].世界林業研究2007,20(1):49-54.
[2]嚴衍祿,趙龍蓮,韓東海,等.近紅外光譜分析基礎與應用[M].北京:中國輕工業出版,2007.
[3]陸婉珍,袁洪福.現代近紅外光譜分析技術[M].北京:中國石化出版,2007.
[4]張鴻富.基于近紅外光譜技術的落葉松木材材性預測的研究[D].哈爾濱:東北林業大學,2011.
[5]江澤慧,黃安民,王 斌.木材不同切面的近紅外光譜信息與密度快速預測[J].光譜學與光譜分析,2006,26(6):1034 -1037.
[6]王惠文,吳載斌,孟 潔.偏最小二乘回歸的線性與非線性方法[M].北京:國防工業出版社,2006.
[7]Nguyen H T,Lee B.Assessment of rice leaf growth and nitrogen status by hyperspectral canopy reflectance and partial least square regression[J].European Journal of Agronomy 2006,24:349 - 356.
[8]琚存勇,邸雪穎,蔡體久.變量篩選方法對郁閉度遙感估測模型的影響比較[J],林業科學,2007,43(12):33 -38.
[9]杜曉明,蔡體久,琚存勇.采用偏最小二乘回歸方法估測森林郁閉度[J],應用生態學報,2008,19(2):273 -277.
[10]孟憲靜,孫天用,王立海.基于紅外熱像技術的木材內部缺陷檢測的研究[J].森林工程,2011,27(6):33 -35.
[11]張 莉,周金池.近紅外光譜檢測技術及其在木材工業中的應用[J].林業機械與木工設備,2010,38(10):4 -6.