基于LASSO算法的光譜變量選擇方法研究

2022-03-22 06:40:32王愷怡郭彩云卞希慧

分析測試學報 2022年3期

王愷怡，楊盛，郭彩云，卞希慧，3*

（1.天津工業大學省部共建分離膜與膜過程國家重點實驗室，化學工程與技術學院，天津 300387；2.紹興市柯橋區污染物總量控制中心，浙江紹興 312030；3.宜賓學院過程分析與控制四川省高校重點實驗室，四川宜賓 644000）

由于具有快速、無損、綠色等優點，光譜分析技術已廣泛應用于食品、石油化工、醫療和農業等領域的復雜樣品分析［1］。其中建立一個準確、穩定的多元校正模型是光譜分析技術直接分析復雜樣品的關鍵。由于光譜中變量數通常大于樣本數，并且有些變量與預測組分無關，這可能降低模型的預測能力［2］。因此，在建模前需采用變量選擇去除無關變量的影響以提高模型的預測性能［3－7］。

最小絕對收縮與選擇算子（LASSO）是Tibshirani［8］提出的一種收縮估計方法。該方法在回歸系數絕對值之和小于一個常數的情況下，使殘差平方和（RSS）最小化，這意味著某些回歸系數會被縮小為零，從而達到變量選擇的目的。LASSO變量選擇在生物信息學和化學計量學領域得到了越來越多的關注［9－13］。基于LASSO的優點，本文將其引入到復雜樣品的光譜定量分析中。首先利用LASSO對兩組復雜樣品的光譜進行變量選擇，然后采用偏最小二乘（PLS）［14］和多元線性回歸（MLR）建立模型，并與無信息變量消除－PLS（UVE－PLS）［15］、蒙特卡羅結合無信息變量消除－PLS（MCUVE－PLS）［16］和隨機檢驗－PLS（RT－PLS）［17］進行比較。結果表明，基于LASSO的變量選擇方法計算時間短，選擇變量少且保持了較好的預測性能。

1 實驗部分

1.1 算法原理

LASSO在普通最小二乘（OLS）函數的基礎上引入一范數正則化（L1）懲罰項來約束RSS，即在回歸系數的絕對值小于某個常數的條件下使RSS最小化。假設X=[x1，x2，…，x m]T∈Rm×p，y=[y1，y2，…，y m]T∈Rm×1和β=[β1，β2，…，βp]T∈R p×1，其中T表示矩陣的轉置，X、y和β分別是光譜、目標值和回歸系數，m和p分別表示樣本數和變量數。已知X和y，求β，構成線性回歸問題：y=X×β+ε。它通常由OLS求解，優化目標函數如下：

-1表示矩陣的逆。在光譜分析中，變量個數通常遠遠大于樣品個數，即p?m，這將使(XTX)-1不可求。定義LASSO的公式為：

其中t為調優參數。公式（2）等價于公式（3）：

假設XTX+λΩ-為非奇異矩陣，方程的解為：

參數λ需預先確定，它控制著回歸系數中零的數量。但在實際中很難確定λ的最佳值。Efron等［18－19］提出了用于快速求解LASSO的最小角回歸（LARS）算法。該算法通過前向梯度（Forward stagewise）策略尋找最佳變量集合，最初設定所有回歸系數都為0，每次迭代加入或刪除一個變量。LARS中的最佳模型位置s為重要參數，s為0表明無變量被選擇，s為1表示選擇了最大的變量數。通過采用交叉驗證尋找模型的最佳位置s。LARS算法不僅解決了尋找最佳λ值的困難且提高了計算效率。因此，本研究采用LARS算法實現LASSO變量選擇。采用10折交叉驗證和Sp準則［18］確定最佳模型位置s以及回歸系數。

1.2 實驗數據

本文選擇了兩組復雜樣品的光譜數據集驗證LASSO方法的有效性。數據集1是50個三元調和油樣品的近紅外光譜數據。光譜使用近紅外（NIR）分光光度計（TJ270－60，天津市拓普儀器有限公司）采集，波長范圍為800～2 500 nm，采樣間隔為1 nm，共1 701個波長點。分析組分為香油、大豆油和稻米油。以香油的含量為目標組分，采用Kennard－Stone（KS）方法對50個樣品數據進行劃分，訓練集樣品33個，預測集樣品17個。訓練集的近紅外光譜如圖1A所示。

圖1 三元調和油的近紅外光譜圖（A）及生物樣品的拉曼光譜圖（B）Fig.1 NIR spectra of ternary blend oil samples（A）and Raman spectra of bio-fluid samples（B）

數據集2是文獻中90個生物樣品的拉曼光譜數據［20］。采用RP－1 Raman Identification System（美國印第安納州，西拉法葉，普渡研究園區Spectra code Inc.公司）拉曼光譜儀測定。拉曼光譜的采集曝光時間為25 s，波數范圍為2 636.3～473.6 cm－1，采樣間隔約為5 cm－1，共有422個波長點。分析組分是人體尿液中含有的8種重要代謝物。本文以肌氨酸含量為研究對象。采用KS分組方法對90個樣品數據進行劃分，訓練集樣品60個，預測集樣品30個。訓練集的拉曼光譜如圖1B所示。

2 結果與討論

2.1 最佳模型位置s的確定

通過LARS實現LASSO的變量選擇，第一步確定最佳模型位置s。首先設置s取值范圍為0～1，將其劃分1 000段，間隔0.001，采用10折交叉驗證計算每個s下的RSS，即每個s得到10個RSS，取10個RSS的平均值得到最終的RSS。共計算了1 000個s下RSS的平均值，并采用Sp準則，確定最佳模型s的位置。圖2A、B分別顯示兩個數據集的1 000個s下RSS的平均值以及標準差隨s的變化圖。

圖2 數據集1（A）和數據集2（B）的RSS隨著1 000個s值的變化圖Fig.2 Variation of RSS with 1 000 s values for dataset 1（A）and dataset 2（B）the solid line represents the average value of 10 RSS obtained by 10-fold cross-validation for each s value，the asterisk and short vertical line indicate the average values and standard deviations of RSS at each 50 s values（實線表示每個s值進行10折交叉驗證得到的10個RSS的平均值，星號和短豎線表示每隔50個s值處RSS的平均值以及標準差）

從圖2A、B可看出，當s值為0時，RSS的均值最大。隨著s的增大，RSS的均值逐漸下降，后趨于平緩。10折交叉驗證的標準差也隨s值的增大逐漸變小。數據集1的標準差大于相同s值對應的數據集2的標準差。通過S p準則選擇最佳模型對應的s值，如圖中虛線所示，數據集1和數據集2的最佳s值分別為0.405和0.383。

2.2 LASSO的β系數分布

通過10折交叉驗證和S p準則得到最佳模型位置，選擇最佳位置進行LASSO變量選擇得到β系數。圖3A、B分別顯示數據集1和2進行LASSO選擇變量后的β系數分布。從圖3A可看出，對于數據集1，大多數的β系數均為0，說明LASSO方法具有很好的數據稀疏性。β值不為零的系數值雖大小不一，但這些非零的變量均將被選擇，與數值大小無關。對于數據集2，從圖3B中可得到相似結論，該數據集選擇的變量主要集中在1 300～500 cm－1范圍內。

圖3 數據集1（A）和數據集2（B）的LASSO的β系數分布Fig.3 Distribution ofβcoefficients in LASSO for dataset 1（A）and dataset 2（B）

2.3 不同變量選擇方法保留變量的分布

為了更好地考察LASSO變量選擇方法保留變量的分布情況，數據集1和2的訓練集平均光譜和保留的變量分別顯示在圖4A、B中。作為對比，UVE、MCUVE和RT 3種變量選擇方法保留的變量也顯示在圖中。

圖4 數據集1（A）和數據集2（B）4種變量選擇方法保留變量的分布圖Fig.4 Distribution of retained variables by the four variable selectionmethods for dataset 1（A）and 2（B）

從圖4A可以看出，對于數據集1，UVE保留的變量最多；MCUVE保留的變量數目和UVE相比有所減少，但在UVE的變量范圍內；RT保留的變量在UVE和MCUVE保留變量的范圍內進一步減少；LASSO則在RT保留的變量范圍內進一步減少變量。從圖4B可以看出，對于數據集2，UVE、MCUVE和RT保留的變量數相差不大且位置相似。LASSO保留的變量最少，變量所在的位置與其他3種變量選擇方法有部分重疊。結果表明LASSO保留變量的位置與其它變量選擇方法基本一致，且保留的變量更少。

2.4 不同方法的結果比較

為了驗證LASSO的變量選擇方法效果，在LASSO變量選擇后分別建立了MLR和PLS模型，并與PLS、UVE－PLS、MCUVE－PLS、RT－PLS進行比較。6種方法的保留變量數、RMSEP、R和運行時間列于表1。其中保留變量數表明模型的簡單程度，RMSEP和R值用于衡量模型的預測準確度，運行時間衡量模型的運算效率。

表1 兩個數據集的不同建模方法的結果比較Table 1 Result comparison of different modeling methods for the two datasets

從表1可以看出，對于數據集1，UVE、MCUVE、RT和LASSO 4種變量選擇方法保留的變量數依次減少。其中LASSO保留的變量數最少，僅15個，少于數據集1訓練集的33個樣品數。因此LASSO變量選擇后可建立MLR模型。與全波長的PLS相比，進行UVE、RT和LASSO變量選擇后建立的PLS得到的RMSEP小于PLS，且R值大于PLS，說明這3種變量選擇方法均可提高PLS模型的預測準確度，其中以LASSO－PLS的預測準確度最高。而LASSO變量選擇后建立MLR模型的預測準確度比LASSO－PLS差，PLS由于無變量選擇的步驟，因此其計算效率最高。LASSO－PLS、LASSO－MLR的計算效率比UVE、MCUVE、RT快1個數量級。因此，對于數據集1，綜合保留變量數、預測準確度及運算效率，LASSO－PLS的性能最佳。

對于數據集2，UVE、MCUVE和RT 3種變量選擇方法保留的變量均較少，預測準確度明顯優于PLS，且計算時間不超過5 s，說明這3種變量選擇方法的效果良好。LASSO－MLR和LASSO－PLS能進一步減少保留的變量，提高計算效率及PLS的預測準確度，其中以LASSO－MLR的預測準確度最高。兩個數據集的結果均表明，基于LASSO的變量選擇方法保留的變量數更少，計算效率高且能提高PLS模型的預測性能。

3 結論

本文利用兩個復雜樣品的近紅外和拉曼光譜數據集探究了基于LASSO的變量選擇方法在光譜變量選擇中的性能，并與PLS、UVE－PLS、MCUVE－PLS和RT－PLS方法在保留變量數、預測性能和運算效率上進行比較。結果表明，與其他3種變量選擇方法相比，基于LASSO的變量選擇方法不僅計算時間短，使用變量數少，還可以得到更高或者相當的預測準確度。因此，LASSO算法有望廣泛應用于光譜的變量選擇。