汪紫陽,尹世逵,李 穎,李耀翔
(東北林業大學 工程技術學院,黑龍江 哈爾濱 150040)
隨著中國天然林全面禁伐,木材資源供給愈發緊張[1],這對木材高效識別與利用提出了更高的要求。木材識別能夠維護消費者的利益,同時在合理利用木材方面發揮著一定的作用。近幾年國內外木材無損檢測技術主要有應力波、阻抗儀、超聲波檢測和X射線檢測等方法。但是這些檢測手段主要用于檢測木材的材性和缺陷[2-7],在樹種識別方面應用的較少。BARMPOUTIS等[8]利用木材橫斷面圖像結合多維紋理分析技術和支持向量機(SVM)進行分類,識別率達91.47%。但此方法需要獲取樹木木材樣本的橫斷面圖像,不能完全達到無損檢測的目的。ROJAS等[9]使用可聽范圍的應力波對樹種進行了識別,這是一種無損識別方法,但儀器的布線、樣本點間的測距等前期準備工作需要一定時間,不能對大批量樣本的樹種檢測。可見/近紅外光譜技術是一項無損檢測技術,采譜時無需對樣品進行預處理,可以達到無損檢測的目的,并且單次采譜時間非常短,可以實現野外實時檢測[10]。近幾年國內近紅外光譜技術在石油和農業上使用較多,對木材進行識別的研究還較少[11-12]。且木材樣本都是解析木,導致后期識別的未知樣本也需要相同規格的解析木。中國東北地區既有大、小興安嶺和長白山等茂密的天然林,又有東北各省各地區林場等密集的次生林[13]。本研究使用可見/近紅外光譜識別技術,結合生長錐取樣的方法,通過S-G平滑濾波、導數、Norris導數濾波等方法對光譜進行預處理,使用距離法建立了木材識別模型,識別了東北地區14種常見樹種的木材。為可見/近紅外光譜識別技術的預處理方法選擇和平滑處理參數選擇提供參考,為快速、準確識別木材提供了一種新的無損檢測方法。
所用樣品均采自黑龍江省方正縣林業局星火林場(45°43′5.73″N, 129°13′34.37″E)。樣品由生長錐鉆取,鉆孔方位為由南向北穿過樹心,高度為距離地面1.3 m胸高處。從25塊樣地選擇14個樹種(表1)。采樣25株·種-1,共300個樣品。樣品直徑約5.15 mm。將樣品放在溫度為20℃,濕度為38%的室內陰干1周,使其達到氣干狀態。從中部截斷樣品用于采集光譜,為得到較穩定的模型,每個斷面用80目的砂紙打磨5次,使其表面粗糙度參數Ra接近12.5 μm。在建立木材識別模型時,表面粗糙度對模型影響很小[14]。

表1 木材樣品種類Table 1 Sample information
使用美國ASD公司生產的LabSpec光譜儀采集光譜,波長范圍為350~2 500 nm。其中350~780 nm為可見光波段,780~2 500 nm為近紅外波段,調整二分光纖端部距探頭口2 mm處固定。采譜前將探頭對準聚四氟乙烯白板進行校正,采譜過程中每15 min進行1次空白校正,以保證光譜的穩定性。將木樣嵌入直徑為5 mm的探頭口中,光斑直徑為5 mm,覆蓋木樣的端面,即采譜面(圖1)。每個斷面采集1次光譜后旋轉一定角度采集第2次光譜,共采集3次光譜,采集完成一個樹種所有樣本光譜后,使用OMNIC 9.2打開這些光譜,對比光譜波形相似度,篩除異常光譜后將單個樣品的剩余光譜取平均光譜用于分析。用此方法采集的光譜為樹木胸徑處邊材弦切面的光譜。用光譜儀配套的軟件采集光譜并轉換成數據文件,使用OMNIC 9.2,Matlab和Excel完成對光譜的初篩、預處理和數據處理工作。
由于木材是復雜的天然物,屬于散射介質,采集光譜時需要用漫反射光譜分析樣品,相對于透射光譜測量方式要更加復雜[15]。樣品的可見/近紅外光譜還會存在光譜基線偏移、高頻噪音、斜坡背景等偏差,影響建模的準確性,使得可見/近紅外光譜的分析更加困難。所以利用可見/近紅外光譜建模時,需要對光譜進行預處理[16]。
可見/近紅外光譜預處理常用的方式就是數字濾波和導數處理。目前常用的數字濾波為平滑處理,光譜平滑可以降低噪音,一定程度上提升信噪比,但過度平滑會使光譜失真。最常用的平滑方式為移動窗口最小二乘多項式平滑(Savitzky-Golay smoothing,S-G平滑)。背景中的基線偏移和光譜旋轉可以通過對光譜求導處理進行校正,但是求導的過程中會放大光譜的噪音。如果原始光譜噪音比較大,則不適合直接對光譜進行求導處理。
本研究主要使用了導數和平滑2種光譜預處理方法。考察了原始光譜(raw spectra)、S-G平滑、一階導數(first derivative,1st Der),二階導數(second derivative,2nd Der), 三階導數(third derivative,3rd Der), 對數(lg), Norris 一階 導數濾波(Norris 1st derivative filter), Norris 二 階導數濾波(Norris 2nd derivative filter)及組合等11種光譜預處理方法對分類建模預測效果的比較。

圖1 生長錐樣品光譜采集方法Figure 1 Near infrared (NIR)collecting method for the increment core samples
采用距離法建立識別模型。每個樹種采集50個光譜,用SNEE[17]提出的新序貫法(the DUPLEX method)抽取其中30個樣品光譜作為校正集,以表征此樣品標準光譜。剩余20個樣品光譜作為驗證集,以驗證此方法的可靠性。首先利用每個樹種的30個校正集光譜,計算出該樹種的平均光譜和標準偏差光譜。
導數處理的實質是將某一波段對應的反射值轉變成該波段曲線的切線的斜率,原始光譜波峰與波谷值經過一階導數處理后為0。所以導數處理可以凸顯原始光譜波峰與波谷的位置,同時可以減小光譜的基線偏移偏差。從表2還可以看出:一階導數處理后識別準確率較高,識別準確率可達96.79%。而二階導數與三階導數對識別準確率的提升沒有一階導數效果明顯,識別準確率分別為78.57%和75.00%。圖2以榆樹平均光譜為例,可以看出:導數能夠消除光譜的基線偏移的同時會增大噪聲,特別是高階導數的處理效果反而差強人意。

表2 各階導數處理后預測結果Table 2 Predicted results after different derivative processing

圖2 榆樹原始平均光譜與導數平均光譜Figure 2 Average spectrum of elm after derivative processing
S-G平滑即移動窗口最小二乘多項式平滑,這種平滑方式有2個參數,平滑點數n(一般為大于1的奇數)和擬合的多項式次數m。對于某一點的處理就是利用該點以及其前后(n-1)/2點,共n個點進行m次多項式的最小二乘擬合。
本研究對700個樣品的原始光譜進行各參數的S-G平滑處理,其中平滑點數為3~51點,多項式次數為1~6次,共150種不同的組合。準確率為總準確率,包括校正集的內部交叉驗證的準確率和驗證集的預測準確率。S-G平滑濾波能降低光譜的噪音,但不會改變光譜的波形(在平滑波長小于半峰寬的情況下)。
由圖3可知:僅進行S-G平滑處理時,對模型識別準確率的提高效果微乎其微。一階導數光譜的各參數S-G平滑的效果都很好。其中一階導數與3次和4次多項式9點S-G平滑的效果最好,誤判個數低至7個,準確率高達97.43%。二階導數和三階導數處理后的低點數S-G平滑的預測效果略差,識別準確率低于80%。但是隨著平滑點數的增多,準確率也不斷提高,最終識別準確率穩定在90%以上,其中二階導數配合1次、2次和3次多項式與21點、23點平滑和三階導數配合1次、2次和3次多項式與51點平滑的誤判個數低至5個,識別準確率高達98.42%。
隨著平滑點數在一定范圍內增大,使用低次多項式S-G平滑的效果要好于高次多項式S-G平滑,低次多項式的識別準確率高于高次多項式10%以上,但是隨著平滑點數繼續增大,由于多項式次數和平滑點數開始逐漸匹配,這種差異慢慢減小,識別準確率都在95%以上,且不同多項式之間的差異小于1%。說明多項式次數和平滑點數要 “門當戶對”才能達到最好的預測效果,不恰當的參數搭配還會使模型的預測準確率降低。同時,隨著導數處理的階數增大,例如三階導數處理時,達到最好預測效果所需要的S-G平滑點數也增大,說明高階導數需要配合大點數S-G平滑使用。

圖3 基于不同參數組合的4種光譜預處理方法識別結果Figure 3 Different predicted results for 4 spectral pretreatment methods (A)S-G soomthing (B)1st+S-G soomthing (C)2nd+S-G soomthing(D)3rd+S-G soomthing
Norris導數濾波是 “近紅外之父”NORRIS提出的一種光譜預處理方法。這種方法類似于移動窗口平均和卷積函數求導,但是在窗口段長之間加入了段間距[18],同S-G平滑,窗口段長為1~51內的奇數,點數過高會使覆蓋波峰導致光譜失真,大點數設置將失去平滑意義。當段長設置為3時,則段內每個數據點經過濾波變成中心點和兩邊的點的平均值。段間距為2個連續窗口段長之間的距離,為0~20的自然數,增大段間距可以增強被寬波段重疊的陡峭波段,大點數的間距將影響平滑效果。當段間距設置為3時,則2個連續段長之間的間距為3個波長上的點。S-G平滑濾波對于某一平滑點數,其第1個中心點前的n個點和最后1個中心點的后n個點不能使用S-G平滑方法處理,使用Norris導數濾波可以克服這個問題。
本研究對700個樣品的原始光譜進行各參數的Norris導數濾波,其中段長為1~51,段間距為0~20,共546種組合。準確率為總準確率,包括校正集的內部交互驗證的準確率和驗證集的預測準確率。
2.3.1 Norris一階導數濾波 由圖4可知:對于Norris一階導數濾波,隨著段長點數增大,模型的準確率降低,但是當間距為0 nm,段長大于33 nm時識別準確率低于80%。從整體上看,段長大于39 nm的濾波效果都不好,說明Norris一階導數濾波的段長選擇應控制在1~19 nm之間。其中段長為1,段間距為4的一階導數Norris濾波效果最好,驗證集預測誤判個數為8個。
2.3.2 Norris二階導數濾波 對于Norris二階導數濾波(圖5),由于間距0~20 nm的各參數的結果不一樣,繪制成21個變量的折線圖效果不好。現將21種間距的各平滑點數準確率數據進行聚類分析,發現21組數據變化趨勢可分為2類:間距0~7 nm和間距8~20 nm,前者為準確率先增大再減小,后者準確率呈減小趨勢,如圖5所示。從整體上看,間距為8~20 nm時同Norris一階導數濾波,隨著段長點數變大,識別準確率從98%降低至90%左右。但在間距為0~4 nm時,段長為1 nm與3 nm的Norris導數濾波使模型的準確率低于90%,隨著段長點數增大,識別準確率也大幅上升,最高可達98.14%。說明段間距為0~5 nm和6~20 nm的Norris二階導數濾波的段長最佳選擇范圍分別為5~15 nm和1~7 nm。其中段長為3 nm和段間距為8 nm的Norris二階導數濾波效果最好,誤判個數低至5個,準確率高達98.21%。

圖4 基于不同參數組合(546種)的Norris一階導數濾波預測結果Figure 4 546 predicted results of different 1st+Norris derivative filtering parameter

圖5 基于不同參數組合(546種)的Norris二階導數濾波預測結果Figure 5 546 predicted results of different 2nd+Norris derivative filtering parameter
測試了這11種光譜預處理方法對識別模型準確率的影響,這11種方法中若涉及參數選擇問題,取準確率最高的參數組合(表3)。對數(lg),S-G平滑,對數(lg)與S-G平滑等3種處理方式的準確率與原始光譜的準確率一樣,說明單純使用對數(lg)和S-G平滑預處理方式不能提升模型的準確率,原因是對數和平滑處理沒有改變原始光譜的波形,只能使光譜更加平滑,不能提高光譜區分度。
可見/近紅外光譜技術能夠實現生長錐取樣的木材識別。本研究采用距離法識別模型,使用未經任何預處理的光譜識別木材準確率很低。使用S-G平滑處理或對數處理對光譜進行預處理不能提升識別準確率。一階導數預處理能明顯提升木材識別準確率。由于二階導數和三階導數會增大光譜的噪音,經過二階導數或三階導數預處理的光譜識別準確率為沒有一階導數高。在利用可見/近紅外光譜進行樹種識別的過程中,二階導數預處理和三階導數預處理需與其他預處理方式配合使用,才能達到提升識別模型準確率的效果。

表3 11種預處理方法識別預測結果Table 3 Predicted results of 11 processing methods
S-G平滑處理能夠明顯降低二階導數和三階導數處理后的光譜的噪音,能夠極大程度地提升木材識別模型的準確率。使用Norris導數濾波能夠提升木材識別模型的準確率,在最優的參數設置下,Norris導數濾波效果略好于S-G導數平滑,但差異不明顯。由于Norris導數濾波的特性,使得它能夠處理光譜波長兩端的若干個點,而S-G平滑不能對光譜波長兩端的若干個點進行處理。所以在選擇與導數處理相配合的預處理方式時,Norris導數濾波應為首選。在使用這2種預處理方法時搭配二階導數的預處理效果最好。
參數的選擇對木材識別模型的準確率有一定影響,在使用過程中需要合理選擇各項參數。由于Norris導數濾波的可選參數組合要多于S-G平滑,所以在最優參數選擇上,Norris導數濾波的工作量要大于S-G平滑。但是通過本試驗發現,在控制某一個參數不變,另一個參數遞變時識別準確率的變化也呈現出遞增/遞減的規律,通過合理的參數選擇方案可以有效減少最優參數確定的工作量。