杜樹新,裘 一
(湖州師范學院 工學院,浙江 湖州 313000)
成品紙張的質量指標是衡量紙張質量的重要因素,包括水分(紙產品中含有的水量)、灰分(紙經高溫灼燒后剩下殘留礦物質與原來質量之比)、克重(每單位面積紙的質量,也稱紙張定量)、厚度、機械漿和化學漿含量等.作為無損、快速的檢測技術,近紅外光譜在紙張質量檢測中受到越來越廣泛的關注[1-3].
近紅外光譜曲線在數學上表現為向量形式,一般采用主元回歸、偏最小二乘、神經網絡及支持向量機等基于向量形式的方法建立校正模型.在基于向量形式的建模方法中,向量長度與建模中需要確定的模型參數相關.一條近紅外光譜曲線一般有成百上千個光譜數據點,如果采用向量形式的方法建模就需確定成百上千個模型參數,這就意味著需要大量的訓練樣本[4].而在小樣本情況下,由于訓練樣本較少,容易導致欠擬合,校正模型的精度達不到理想要求.
支持張量機是近年來發展起來的、適用于張量數據的機器學習方法,是支持向量機方法在張量形式上的進一步擴展.支持張量機中需要確定的模型參數數量是張量數據的維數之和.以二階張量X∈Rn1×n2為例,其模型參數數量為n1+n2.如果將一個長向量(長度為n)通過某種方式組裝成一個n1×n2的二階張量(n≈n1×n2),那么需要確定的模型參數數量就由n下降為n1+n2,這樣也降低了對訓練樣本數量的要求.
本文將采集的成品紙張近紅外光譜的向量數據組裝成二階張量數據,再采用支持張量機方法進行建模,實現對成品紙張質量的檢測,并對雙面銅版紙進行實驗研究.將向量數據組裝成二階張量數據,可使待確定的模型參數數量顯著減少,從而顯著降低對訓練樣本數量的要求,提高小樣本校正模型的檢測精度.
假設將向量x∈Rn組裝成二階張量X∈Rn1×n2,即根據n確定n1和n2的值.假定n1≥n2,為保證在組裝二階張量時擁有至少n個元素,n、n1、n2需要滿足(n1-1)×n2 根據優化得到的n1和n2,將n個元素的向量x填充到n1×n2的二階張量X中.具體方法為:將x中的前n1個元素放在張量X的第1列,下一組n1個元素放在張量X的第二列,以此類推.對剩余沒有被填滿的位置,用任意值進行填充.圖1是將長度為11的向量組裝成4×3的二階張量. 圖1 將長度為11的向量組裝成4×3的二階張量Fig.1 The vector of length 11 assembled into a 4 × 3 second order tensor 支持張量機方法是支持向量機擴展到張量模式的一種監督學習方法,由Tao等于2005年首次提出并應用于分類預測問題,2012年Guo等將分類預測擴展到回歸預測[4],從而可應用于光譜的定量分析.由于所組裝的張量為二階張量,可直接采用文獻[5]中N階張量的支持張量機方法.為便于理解,本文簡單給出二階張量的支持張量機方法. 給定訓練樣本及輸出{Xi,yi},i=1,2,…,M,其中Xi∈Rn1×n2為輸入的、經組裝成二階張量的近紅外光譜數據;yi∈R為輸出的目標值即紙張質量指標;M為訓練樣本數量.所構造的回歸估計函數(校正模型)為: f(X)=uTXv+b, (1) 其中,u∈Rn1、v∈Rn2、b∈R為模型待定參數.由此看出,待定的模型參數數量為n1+n2+1.類似于支持向量機方法,引入ε不敏感損失函數,將回歸函數的確定轉化為如下優化問題[5]: (2) 步驟1:初始化向量u,如u的所有元素值為1. (3) 這是標準的支持向量機形式.其可采用支持向量機中的二次規劃方法,即拉格朗日乘子法求解該優化問題[4],即求得向量v. (4) 這是標準的支持向量機形式,可經同樣的計算得到u. 步驟4:循環執行步驟2和步驟3,直到本次循環得到的u∈Rn1、v∈Rn2、b∈R與上次循環得到的值充分接近.達到最優化后,根據所計算的u、v和b,由式(2)得到回歸模型,即校正模型. 由某紙業公司品管部技術人員對雙面銅板紙的水分、灰分、克重和厚度進行檢測,并采用布魯克公司的傅里葉近紅外光譜儀(Bruker Equinox 55)采集近紅外光譜數據(波長為800~2 500 nm;光譜數據點為2 203個).為確保數據的正確性,每個樣品重復檢測3次,取平均值,共采集816個雙面銅版紙樣本. 光譜預處理的目的是消除原始光譜中儀器噪聲、背景漂移及測量干擾等的影響,預處理的方法包括消除噪聲、基線校正及歸一化等. 實驗中訓練集和測試集的樣本大致按4∶1的比例隨機抽取,訓練集的樣本數為652個,測試集的樣本數為164個. 光譜經過預處理后,首先根據相關系數分析法選取相關系數較大的光譜點組成向量.然后按照1.1節的方法組裝成二階張量,位數不足的用0補全.水分選取2 444~2 481 nm共35個波長點組裝成6×6的二階張量;灰分選取2 348~2 381 nm共30個波長點組裝成6×5的二階張量;厚度選取2 441~2 484 nm共45個波長點組裝成7×7的二階張量;克重選取2 431~2 484 nm共50個波長點組裝成8×7的二階張量.最后使用支持張量機方法對組裝成的二階張量進行建模,對水分、灰分、克重、厚度等獨立建模.圖2至圖5分別為測試樣本的水分、灰分、厚度、克重等質量參數與實際值的相關性圖.從圖中可見,采用支持張量機方法建立的校正模型檢測效果較理想. 圖2 水分檢測的相關性Fig.2 Correlation of moisture 圖3 灰分檢測的相關性Fig.3 Correlation of ash 圖4 克重檢測的相關性Fig.4 Correlation of gram per square meter 圖5 厚度檢測的相關性Fig.5 Correlation of thickness 為進行比較,采用主元回歸(PCR)、偏最小二乘(PLS)、支持向量機(SVM)等基于向量的方法建立校正模型,并對雙面銅版紙質量參數進行預測.表1為這3種方法與支持張量機方法(STM)建立的模型性能比對結果(支持向量機采用高斯核函數).評估模型性能的指標為相關系數和預測誤差均方根,相關系數越接近1,預測誤差均方根越小,說明模型性能越好.從表1可看出,支持張量機方法相比主元回歸、偏最小二乘、支持向量機等方法,相關系數和預測誤差均方根都有一定改善,其原因是支持張量機中待確定的參數數量較少. 表1 采用PCR、PLS、SVM、STM等方法建立的模型性能比較 將向量形式的近紅外光譜數據表示成二階張量形式進行,再采用支持張量機方法建立校正模型,其目的是解決小樣本情況下的欠擬合問題,因此需要對不同樣本數量建立的模型性能進行考察.實驗樣本數由10逐漸增加到816,并采用留一驗證法評估模型的性能.圖6至圖9分別為當樣本數由10到816變化時,通過支持向量機方法與支持張量機方法所建模型來預測水分、灰分、克重和厚度的相關系數和預測誤差均方根的變化情況.從圖中可以看出,樣本數較少時,采用支持張量機方法建立的模型性能優于支持向量機方法;隨著樣本數的增加,兩種方法建立的模型性能漸漸趨向一致(除灰分和厚度的預測誤差均方根外,其他質量參數均保持較固定的差距).換言之,樣本數較少時,支持張量機方法建立的模型性能優于支持向量機方法;樣本數較多時,兩者差異不大,即對小樣本問題,采用支持張量機方法建立的模型預測效果優于支持向量機方法. 圖6 水分的模型性能隨樣本數量變化情況Fig.6 The change of moisture model performance with the number of samples 圖7 灰分的模型性能隨樣本數量變化情況Fig.7 The change of ash model performance with the number of samples 圖8 克重的模型性能隨樣本數量變化情況Fig.8 The change of model performance for gram per square meter with the number of samples 圖9 厚度的模型性能隨樣本數量變化情況Fig.9 The change of thickness model performance with the number of samples 本文將采集的成品紙張近紅外光譜的向量數據組裝成二階張量數據,再采用支持張量機方法進行建模,實現對成品紙張質量的檢測移正.該方法減少了模型參數的數量,降低了對訓練樣本數的要求,更適合小樣本校正模型的建立.采用校正模型對雙面銅版紙的水分、灰分、克重和厚度等質量指標進行檢測,結果表明,采用支持張量機方法建立的校正模型,其相關系數、預測均方根誤差等性能指標優于基于向量的主元回歸、偏最小二乘、支持向量機等方法建立的模型.實驗還研究了訓練樣本數量與模型性能的關系,結果表明,隨著樣本數的增加,采用支持向量機方法建立的校正模型,其性能逐步增加,兩種方法建立的模型性能差距逐漸減少;在小樣本情況下,支持張量機方法建立的校正模型,其相關系數、預測誤差均方根明顯優于基于支持向量機方法建立的模型.由此說明,本文采用支持張量機方法建立的校正模型更適宜小樣本.
1.2 二階張量的支持張量機方法






2 結果與分析
2.1 紙張質量數據、近紅外光譜數據的采集
2.2 近紅外光譜數據的預處理
2.3 采用支持張量機方法建立校正模型的實驗結果




2.4 與其他建模方法的比較

2.5 實驗樣本數對模型性能的影響




3 結 論