999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LASSO算法的光譜變量選擇方法研究

2022-03-22 06:40:32王愷怡郭彩云卞希慧
分析測試學報 2022年3期
關鍵詞:方法模型

王愷怡,楊 盛,郭彩云,卞希慧,3*

(1.天津工業大學 省部共建分離膜與膜過程國家重點實驗室,化學工程與技術學院,天津 300387;2.紹興市柯橋區污染物總量控制中心,浙江 紹興 312030;3.宜賓學院 過程分析與控制四川省高校重點實驗室,四川 宜賓 644000)

由于具有快速、無損、綠色等優點,光譜分析技術已廣泛應用于食品、石油化工、醫療和農業等領域的復雜樣品分析[1]。其中建立一個準確、穩定的多元校正模型是光譜分析技術直接分析復雜樣品的關鍵。由于光譜中變量數通常大于樣本數,并且有些變量與預測組分無關,這可能降低模型的預測能力[2]。因此,在建模前需采用變量選擇去除無關變量的影響以提高模型的預測性能[3-7]。

最小絕對收縮與選擇算子(LASSO)是Tibshirani[8]提出的一種收縮估計方法。該方法在回歸系數絕對值之和小于一個常數的情況下,使殘差平方和(RSS)最小化,這意味著某些回歸系數會被縮小為零,從而達到變量選擇的目的。LASSO變量選擇在生物信息學和化學計量學領域得到了越來越多的關注[9-13]。基于LASSO的優點,本文將其引入到復雜樣品的光譜定量分析中。首先利用LASSO對兩組復雜樣品的光譜進行變量選擇,然后采用偏最小二乘(PLS)[14]和多元線性回歸(MLR)建立模型,并與無信息變量消除-PLS(UVE-PLS)[15]、蒙特卡羅結合無信息變量消除-PLS(MCUVE-PLS)[16]和隨機檢驗-PLS(RT-PLS)[17]進行比較。結果表明,基于LASSO的變量選擇方法計算時間短,選擇變量少且保持了較好的預測性能。

1 實驗部分

1.1 算法原理

LASSO在普通最小二乘(OLS)函數的基礎上引入一范數正則化(L1)懲罰項來約束RSS,即在回歸系數的絕對值小于某個常數的條件下使RSS最小化。假設X=[x1,x2,…,x m]T∈Rm×p,y=[y1,y2,…,y m]T∈Rm×1和β=[β1,β2,…,βp]T∈R p×1,其中T表示矩陣的轉置,X、y和β分別是光譜、目標值和回歸系數,m和p分別表示樣本數和變量數。已知X和y,求β,構成線性回歸問題:y=X×β+ε。它通常由OLS求解,優化目標函數如下:

-1表示矩陣的逆。在光譜分析中,變量個數通常遠遠大于樣品個數,即p?m,這將使(XTX)-1不可求。定義LASSO的公式為:

其中t為調優參數。公式(2)等價于公式(3):

假設XTX+λΩ-為非奇異矩陣,方程的解為:

參數λ需預先確定,它控制著回歸系數中零的數量。但在實際中很難確定λ的最佳值。Efron等[18-19]提出了用于快速求解LASSO的最小角回歸(LARS)算法。該算法通過前向梯度(Forward stagewise)策略尋找最佳變量集合,最初設定所有回歸系數都為0,每次迭代加入或刪除一個變量。LARS中的最佳模型位置s為重要參數,s為0表明無變量被選擇,s為1表示選擇了最大的變量數。通過采用交叉驗證尋找模型的最佳位置s。LARS算法不僅解決了尋找最佳λ值的困難且提高了計算效率。因此,本研究采用LARS算法實現LASSO變量選擇。采用10折交叉驗證和Sp準則[18]確定最佳模型位置s以及回歸系數。

1.2 實驗數據

本文選擇了兩組復雜樣品的光譜數據集驗證LASSO方法的有效性。數據集1是50個三元調和油樣品的近紅外光譜數據。光譜使用近紅外(NIR)分光光度計(TJ270-60,天津市拓普儀器有限公司)采集,波長范圍為800~2 500 nm,采樣間隔為1 nm,共1 701個波長點。分析組分為香油、大豆油和稻米油。以香油的含量為目標組分,采用Kennard-Stone(KS)方法對50個樣品數據進行劃分,訓練集樣品33個,預測集樣品17個。訓練集的近紅外光譜如圖1A所示。

圖1 三元調和油的近紅外光譜圖(A)及生物樣品的拉曼光譜圖(B)Fig.1 NIR spectra of ternary blend oil samples(A)and Raman spectra of bio-fluid samples(B)

數據集2是文獻中90個生物樣品的拉曼光譜數據[20]。采用RP-1 Raman Identification System(美國印第安納州,西拉法葉,普渡研究園區Spectra code Inc.公司)拉曼光譜儀測定。拉曼光譜的采集曝光時間為25 s,波數范圍為2 636.3~473.6 cm-1,采樣間隔約為5 cm-1,共有422個波長點。分析組分是人體尿液中含有的8種重要代謝物。本文以肌氨酸含量為研究對象。采用KS分組方法對90個樣品數據進行劃分,訓練集樣品60個,預測集樣品30個。訓練集的拉曼光譜如圖1B所示。

2 結果與討論

2.1 最佳模型位置s的確定

通過LARS實現LASSO的變量選擇,第一步確定最佳模型位置s。首先設置s取值范圍為0~1,將其劃分1 000段,間隔0.001,采用10折交叉驗證計算每個s下的RSS,即每個s得到10個RSS,取10個RSS的平均值得到最終的RSS。共計算了1 000個s下RSS的平均值,并采用Sp準則,確定最佳模型s的位置。圖2A、B分別顯示兩個數據集的1 000個s下RSS的平均值以及標準差隨s的變化圖。

圖2 數據集1(A)和數據集2(B)的RSS隨著1 000個s值的變化圖Fig.2 Variation of RSS with 1 000 s values for dataset 1(A)and dataset 2(B)the solid line represents the average value of 10 RSS obtained by 10-fold cross-validation for each s value,the asterisk and short vertical line indicate the average values and standard deviations of RSS at each 50 s values(實線表示每個s值進行10折交叉驗證得到的10個RSS的平均值,星號和短豎線表示每隔50個s值處RSS的平均值以及標準差)

從圖2A、B可看出,當s值為0時,RSS的均值最大。隨著s的增大,RSS的均值逐漸下降,后趨于平緩。10折交叉驗證的標準差也隨s值的增大逐漸變小。數據集1的標準差大于相同s值對應的數據集2的標準差。通過S p準則選擇最佳模型對應的s值,如圖中虛線所示,數據集1和數據集2的最佳s值分別為0.405和0.383。

2.2 LASSO的β系數分布

通過10折交叉驗證和S p準則得到最佳模型位置,選擇最佳位置進行LASSO變量選擇得到β系數。圖3A、B分別顯示數據集1和2進行LASSO選擇變量后的β系數分布。從圖3A可看出,對于數據集1,大多數的β系數均為0,說明LASSO方法具有很好的數據稀疏性。β值不為零的系數值雖大小不一,但這些非零的變量均將被選擇,與數值大小無關。對于數據集2,從圖3B中可得到相似結論,該數據集選擇的變量主要集中在1 300~500 cm-1范圍內。

圖3 數據集1(A)和數據集2(B)的LASSO的β系數分布Fig.3 Distribution ofβcoefficients in LASSO for dataset 1(A)and dataset 2(B)

2.3 不同變量選擇方法保留變量的分布

為了更好地考察LASSO變量選擇方法保留變量的分布情況,數據集1和2的訓練集平均光譜和保留的變量分別顯示在圖4A、B中。作為對比,UVE、MCUVE和RT 3種變量選擇方法保留的變量也顯示在圖中。

圖4 數據集1(A)和數據集2(B)4種變量選擇方法保留變量的分布圖Fig.4 Distribution of retained variables by the four variable selectionmethods for dataset 1(A)and 2(B)

從圖4A可以看出,對于數據集1,UVE保留的變量最多;MCUVE保留的變量數目和UVE相比有所減少,但在UVE的變量范圍內;RT保留的變量在UVE和MCUVE保留變量的范圍內進一步減少;LASSO則在RT保留的變量范圍內進一步減少變量。從圖4B可以看出,對于數據集2,UVE、MCUVE和RT保留的變量數相差不大且位置相似。LASSO保留的變量最少,變量所在的位置與其他3種變量選擇方法有部分重疊。結果表明LASSO保留變量的位置與其它變量選擇方法基本一致,且保留的變量更少。

2.4 不同方法的結果比較

為了驗證LASSO的變量選擇方法效果,在LASSO變量選擇后分別建立了MLR和PLS模型,并與PLS、UVE-PLS、MCUVE-PLS、RT-PLS進行比較。6種方法的保留變量數、RMSEP、R和運行時間列于表1。其中保留變量數表明模型的簡單程度,RMSEP和R值用于衡量模型的預測準確度,運行時間衡量模型的運算效率。

表1 兩個數據集的不同建模方法的結果比較Table 1 Result comparison of different modeling methods for the two datasets

從表1可以看出,對于數據集1,UVE、MCUVE、RT和LASSO 4種變量選擇方法保留的變量數依次減少。其中LASSO保留的變量數最少,僅15個,少于數據集1訓練集的33個樣品數。因此LASSO變量選擇后可建立MLR模型。與全波長的PLS相比,進行UVE、RT和LASSO變量選擇后建立的PLS得到的RMSEP小于PLS,且R值大于PLS,說明這3種變量選擇方法均可提高PLS模型的預測準確度,其中以LASSO-PLS的預測準確度最高。而LASSO變量選擇后建立MLR模型的預測準確度比LASSO-PLS差,PLS由于無變量選擇的步驟,因此其計算效率最高。LASSO-PLS、LASSO-MLR的計算效率比UVE、MCUVE、RT快1個數量級。因此,對于數據集1,綜合保留變量數、預測準確度及運算效率,LASSO-PLS的性能最佳。

對于數據集2,UVE、MCUVE和RT 3種變量選擇方法保留的變量均較少,預測準確度明顯優于PLS,且計算時間不超過5 s,說明這3種變量選擇方法的效果良好。LASSO-MLR和LASSO-PLS能進一步減少保留的變量,提高計算效率及PLS的預測準確度,其中以LASSO-MLR的預測準確度最高。兩個數據集的結果均表明,基于LASSO的變量選擇方法保留的變量數更少,計算效率高且能提高PLS模型的預測性能。

3 結論

本文利用兩個復雜樣品的近紅外和拉曼光譜數據集探究了基于LASSO的變量選擇方法在光譜變量選擇中的性能,并與PLS、UVE-PLS、MCUVE-PLS和RT-PLS方法在保留變量數、預測性能和運算效率上進行比較。結果表明,與其他3種變量選擇方法相比,基于LASSO的變量選擇方法不僅計算時間短,使用變量數少,還可以得到更高或者相當的預測準確度。因此,LASSO算法有望廣泛應用于光譜的變量選擇。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 中文字幕第4页| 国产欧美日韩综合在线第一| 国产全黄a一级毛片| 99久久99视频| 97国产在线视频| 亚洲资源站av无码网址| 久久动漫精品| 中文字幕欧美日韩| 青青草一区二区免费精品| 天天婬欲婬香婬色婬视频播放| 国产国产人在线成免费视频狼人色| 国产一区二区影院| 亚洲丝袜中文字幕| 欧美成人综合视频| 国产成人亚洲无码淙合青草| 亚洲系列无码专区偷窥无码| 中文字幕1区2区| 57pao国产成视频免费播放| 久久国产拍爱| 最新国产精品第1页| 精品福利视频网| P尤物久久99国产综合精品| 欧美日在线观看| 高清不卡一区二区三区香蕉| 狠狠色狠狠综合久久| 乱人伦视频中文字幕在线| 亚洲国产成熟视频在线多多| av一区二区三区高清久久| 亚洲日本中文综合在线| 久久伊人操| 99一级毛片| 久久美女精品国产精品亚洲| 91久久性奴调教国产免费| 国产成人综合亚洲欧美在| 国产在线第二页| 91一级片| 日韩黄色在线| 国产真实乱子伦视频播放| 亚洲日韩精品欧美中文字幕| 欧美亚洲综合免费精品高清在线观看 | 日本在线国产| 老汉色老汉首页a亚洲| 亚洲国产高清精品线久久| 亚洲国产中文欧美在线人成大黄瓜| 免费毛片全部不收费的| 国产美女在线观看| 色综合五月| 欧美啪啪视频免码| 丰满人妻被猛烈进入无码| 鲁鲁鲁爽爽爽在线视频观看| 一级毛片免费高清视频| 亚洲国产成人精品一二区| 福利国产在线| 成年人午夜免费视频| a级高清毛片| 欧美啪啪网| 成人午夜网址| 4虎影视国产在线观看精品| 婷婷中文在线| 高潮爽到爆的喷水女主播视频| 日韩a级片视频| 91国内视频在线观看| 日本国产一区在线观看| 亚洲女人在线| 伊人成人在线视频| 天天综合网亚洲网站| 亚洲二区视频| 国产精品久久久久婷婷五月| 亚洲综合色区在线播放2019 | 久热中文字幕在线观看| 亚洲,国产,日韩,综合一区| 一级看片免费视频| 91精品久久久久久无码人妻| 在线综合亚洲欧美网站| 美女扒开下面流白浆在线试听| 国产福利在线观看精品| 精品国产成人av免费| 国产精品任我爽爆在线播放6080| 中文精品久久久久国产网址| 伊人久久婷婷| 99re这里只有国产中文精品国产精品 | 亚洲成a∧人片在线观看无码|