999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進堆疊自編碼器結合LightGBM 的近紅外光譜回歸算法研究

2023-09-21 04:57:16吳繼忠時藝丹厲小潤
分析測試學報 2023年9期
關鍵詞:優化模型

吳繼忠,時藝丹,黃 慧,厲小潤

(1.浙江中煙工業有限責任公司技術中心,浙江 杭州 310008;2.浙江大學 海洋學院,浙江 舟山 316000;3.浙江大學 電氣工程學院,浙江 杭州 310027)

近紅外光譜分析技術具有綠色、無損、快速等優點,已廣泛應用于煙草、食品、石油化工等領域[1]。基于近紅外光譜的回歸分析常用方法多為線性回歸算法,如多元線性回歸[2]、偏最小二乘回歸(PLSR)[3]、Lasso 回歸[4]和嶺回歸[5]等。線性回歸算法具有結構簡單、速度快、可解釋性強等優點,但對于現實情景中真實關系的表達能力有限。近年來,一系列表達能力更強的非線性回歸算法被應用于近紅外光譜分析。例如,王立琦等[6]通過分析豆粕組分含量與近紅外光譜的相關關系,建立了豆粕水分、蛋白質和脂肪的廣義回歸神經網絡預測模型。Zhu等[7]提出了一種基于殘差網絡和長短期記憶神經網絡的煙草化學成分分析方法,可同時準確定量分析煙葉的多種化學成分。羅智勇等[8]提出了一種基于改進卷積自編碼網絡特征提取的煙葉煙堿與總糖定量分析方法。現有非線性回歸算法可能存在結構復雜、超參數敏感、過擬合等問題,因此,探索更強預測能力與魯棒性的近紅外光譜回歸算法仍具有重要意義。

LightGBM 是一種基于序列化的集成學習算法,具有強回歸預測能力,適用于挖掘復雜的非線性關系[9]。但LightGBM 需要設置合適的超參數,例如葉子節點數量和樹的深度。常規的調參方法包括網格搜索、隨機搜索等,但通常運算時間長。相比傳統方法,利用Optuna[10]框架可以實現LightGBM 超參數的快速自動優化。同時LightGBM 的訓練過程易受噪聲等干擾信息的影響,生長出過深的決策樹,產生過擬合。堆疊自編碼器(SAE)是一個由多層稀疏約束的自編碼器組成的深度學習算法[11-12],具有簡單、高效、對前處理不敏感等優點,可以學習到相對于線性特征更深層抽象的非線性特征,同時抑制噪聲等干擾因素的負面影響。利用SAE 挖掘的深層特征可以降低LightGBM 過擬合的風險,但SAE的網絡層數和各層神經元數量會顯著影響SAE 的重構能力。確定網絡層數和各層神經元數量的常用方法包括經驗法則、交叉驗證和正則化技術等,然而這些方法通常存在計算量大、效率低下、針對性弱等問題。

為解決上述方法的不足,本文提出了一種改進的SAE結合LightGBM(iSAE-LGBM)的近紅外光譜回歸算法,通過設計遞歸式策略自適應確定SAE 網絡結構,利用SAE 特征表達與消除干擾的能力,降低LightGBM 過擬合的風險,并采用Optuna 框架實現了LightGBM 的超參數自動優化。該算法以包含1 911個煙草樣本4 項化學指標的數據集為研究對象,并與4 種常用的近紅外光譜回歸分析算法進行對比分析,進行了有效性驗證。

1 實驗部分

1.1 儀器與材料

Futura 型8 通道連續流動化學分析儀(法國Alliance 公司);Antaris Ⅱ近紅外光譜儀,配有TQ Analyst 軟件(美國Thermo 公司),工作參數為:光譜采集范圍12 000~4 000 cm-1,光譜分辨率8 cm-1,掃描次數64次;FED-240型干燥箱(德國Binder公司);YC-400B-03型煙草粉碎機(成都英特瑞公司)。

所用煙草樣品為2014~2019 年從中國14 個省市收集的典型復烤片煙樣品,共1 911 個,每個樣品的信息包括近紅外光譜吸光度數據、產地以及還原糖、氯、鉀、總氮4種化學成分的含量。

1.2 數據采集與光譜預處理

將干燥后的煙葉樣品處理為煙葉粉末,置于近紅外光譜儀上進行吸收光譜信息采集。樣品采集時入射光斑偏心,采集光譜范圍12 000~4 000 cm-1的煙葉粉末樣品近紅外光譜吸光度數據。每個煙草樣本還原糖、氯、鉀與總氮的含量(質量分數)按照煙草行業標準測定。對于得到的煙草樣本,計算每個指標的均值和標準差,將每個指標距離平均值3 個標準差以外的數據作為異常值進行剔除,處理后共得到1 911 條數據。采取多元散射校正法(MSC)對近紅外光譜數據進行散射校正,用Savitzky-Golay(SG)平滑濾波法進行平滑處理[13],再將處理后的數據均值中心化、標準化,以便后續分析。

1.3 光譜波段選擇

光譜波段選擇的目的是從原始光譜中選擇出最具代表性的波段,以提高模型的預測性能和穩定性,本文選擇基于梯度提升樹的變量重要性評估法[14]對原始光譜進行波段選擇。作為一種基于機器學習的特征選擇方法,該法的主要思想是通過訓練梯度提升樹模型,計算每個波段在模型中的重要性,并選擇重要性較高的波段。以下是基于梯度提升樹的變量重要性評估法進行波段選擇的具體步驟:

(1)模型訓練:將近紅外光譜數據集分為訓練集和測試集,使用梯度提升樹模型對訓練集進行訓練,并對測試集進行預測。

(2)變量重要性評估:計算每個波段在模型中的重要性。在梯度提升樹模型中,每個決策樹都是基于某個波段進行分裂的,因此可以通過計算每個波段在所有決策樹中被使用的次數,來評估該波段的重要性。

(3)波段選擇:選擇重要性較高的波段。根據變量重要性評估的結果,選擇前N個波段作為特征集合。

1.4 算法原理

iSAE-LGBM 的算法原理如圖1所示,主要包含兩個模塊,分別是結構自適應優化的SAE 模塊和基于Optuna超參數自動優化的LightGBM 模塊。SAE模塊可以實現光譜矩陣強表征性特征的提取與噪聲等干擾因素的抑制;LightGBM 模塊可以實現復雜非線性關系的分析,LightGBM 的輸入為經過SAE訓練得到的隱藏層特征,抑制了部分無關的噪聲和干擾,降低了LightGBM 過擬合的風險,使回歸的結果和化學成分指向的特征相關性更強。模型的性能由測試集樣本進行驗證。

圖1 基于iSAE-LightGBM 的自適應光譜回歸算法Fig.1 Adaptive spectral regression algorithm based on iSAE-LightGBM

1.4.1 結構自適應優化的SAESAE 由多個加入稀疏約束的編碼器與解碼器組成,上一個編碼器的輸出被送入下一個編碼器的輸入,再通過解碼器得到最終的重構數據。因為具有更多的隱藏層和非線性變換,相對于自編碼器(AE),SAE可以學習到更復雜的特征表示,更符合現實復雜情景的模擬。SAE的結構示意圖如圖2所示。

圖2 SAE結構示意圖Fig.2 SAE structure schematic

圖2 中,n表示編碼器和解碼器的個數,決定了SAE 網絡的層數,Ni(i= 1,2,...,n)表示第i層神經元的個數。n和Ni會顯著影響SAE的重構能力。本文受到二叉搜索樹算法的啟發[15],基于遞歸的思想,提出了一種適用于近紅外光譜回歸分析的SAE 結構參數自適應確定策略,公式如下:

式中,round(·,a)表示取整函數,a表示保留的有效數字位數,bandsize(·)表示近紅外光譜數據的光譜維數,Xori表示原始近紅外光譜數據,sgn(·)為符號函數,表達式為:

該策略下,下層編/解碼器的神經元個數由上一層決定,層數與各層神經元個數由遞歸運算得到。在3層前,每層的神經元數量為上一層的一半,在遞進式的壓縮中,數據中的隱層特征可被充分表達。然而,為了控制網絡的復雜程度,避免訓練時間過長造成計算資源的浪費,3 層及以后的收斂速度提高4 倍,遞歸停止的條件為Ni<10 且Ni-1≥10,這樣中間層維度被控制在10 × 8 = 80 以內,可以實現合理的降維。

考慮到提取更深、更隱層特征的需求,對原始SAE 的損失函數進行修改,去除稀疏約束的部分,只考慮原始數據與重構數據的相似度,使提取到的隱層特征能更完整表達原始的近紅外光譜數據,改進后的損失函數為:

式中:X為預處理后的光譜數據,z(·)為解碼器的映射函數,MSE 表示均方誤差,X^ 為重構得到的光譜數據,訓練在損失函數小于10-6時停止。重構的目的是使原始數據與重構數據盡可能相似,另外,考慮到同一品類樣本近紅外光譜相似度高、形狀類似的特點,選擇ReLU 為激活函數,避免梯度消失、模型放棄學習特征而選擇重構出一條平均光譜。

1.4.2 Optuna 優化自適應確定LightGBM 超參數LightGBM 算法重要的超參數包括葉子節點數量和樹的深度,在Optuna框架下設置合理的超參數尋優范圍,在一定次數的迭代下得到最優參數組合,并基于該組合進行LightGBM回歸模型的構建。具體步驟如下:

(1)定義待優化函數Objective Function,并指定參數/超參數的合理范圍;

(2)創建一個Study對象,負責管理優化,決定優化的方式、總實驗的次數、實驗結果的記錄等;

(3)指定循環次數,在一定的搜索空間中利用嘗試的歷史組合確定接下來要嘗試的參數組合,根據“Tree-structured Parzen Estimator”貝葉斯優化算法進行指定次數的迭代與Objective Function的優化;

(4)達到設定的優化目標后,獲得最優的超參數組合。

1.4.3 對比算法與模型評價指標選取經典的偏最小二乘(PLSR)線性算法[16]和帶二次項的回歸分析(D2reg)[17]、隨機森林(RF)[18]和XGBoost[19]3個非線性算法,與本文提出的方法進行比較。模型的準確性、魯棒性由6 個參數評價:訓練集/測試集相關系數(RC/RP);訓練集/測試集均方根誤差(RMSEC/RMSEP);訓練集/測試集決定系數(RC2/RP2)。較好的模型評判標準是:較小的RMSE 與接近1的R、R2值,表明其預測能力強;RMSEC 和RMSEP,RC和RP,RC2和RP2之間的差值越小,表明其泛化能力越強,模型魯棒性強,過擬合程度低。其計算公式為:

其中X和Y表示輸入光譜矩陣與化學成分含量矩陣,yi表示第i個樣品的某化學成分含量真實值,y'i表示第i個樣品的某化學成分含量預測值,

2 結果與討論

2.1 光譜預處理與波段選擇結果

在對光譜和化學成分指標進行標準化操作后,對標準化后的光譜進行SG平滑+MSC+中心化的預處理操作。預處理前后的煙草樣本集近紅外光譜對比如圖3 所示,其中右上角的子圖表示框選區域的細節放大。可見,經MSC 配合SG 平滑法和中心化的預處理后光譜更加平滑,有效校正了光譜的散射效應,提高了光譜的準確性和可靠性。

對預處理前后的光譜數據進行PLSR建模,測試預處理的有效性,用4種成分平均的測試集均方根誤差與決定系數對其進行測試,結果如表1所示。可見,預處理后的數據建模效果更佳,進一步證明了預處理對建立化學成分回歸模型的正面效果。

表1 預處理前后的建模結果對比Table 1 Comparison of modeling results before and after preprocessing

對預處理后的數據進行基于梯度提升樹的變量重要性評估的波段選擇,設定優選的波段數為50,得到降維后的光譜數據X。

2.2 參數優化

模型的參數優化包括改進的SAE 模塊和LightGBM模塊的參數優化。改進的SAE模塊參數自適應確定結果如表2 所示,其中輸入光譜的原始波段數bandsize(Xori)= 1 609。

表2 SAE模塊參數自適應確定Table 2 Adaptive determination of SAE module parameters

D2reg 方法中主成分數的確定:利用主成分分析法(PCA)對原始光譜數據進行處理,選取包含99.99%的解釋方差總和比率對應的主成分數,得到最佳主成分數為13,如圖4所示。

圖4 解釋方差率總和隨主成分的變化曲線Fig.4 Variation curve of sum of explained variance ratio with principal component

在自動優化框架下,iSAE-LightGBM 與其他4種方法的最優參數組合如表3所示。

表3 最優參數組合Table 3 Optimal combination of parameters

2.3 模型構建結果

基于“2.2”得到的各算法最優參數組合,進行回歸模型構建,并利用測試集樣本對各模型性能進行評價,得到的模型評價參數對比如表4所示,其中加粗字體為最優項,次優項添加下劃線。

表4 模型評價參數對比Table 4 Comparison of model evaluation parameters

2.3.1 從訓練集角度分析5 種算法中iSAELGBM 算法的綜合表現最佳,XGBoost 次之。iSAE-LGBM 算法下4 種化學成分的RC和RC2均可達到0.99以上,平均RC為0.999 2,平均RMSEC 為0.005 3,平均為0.998 3,均優于其他方法。可見iSAE-LGBM 對于煙草4 種化學成分的特征表達和回歸分析能力最強。XGBoost 作為一種梯度提升樹模型,與LGBM 原理相似,也能較準確地擬合訓練數據。而RF算法和D2reg算法表現略差,PLSR算法的提升空間相對最大。

2.3.2 從預測集角度分析iSAE-LGBM 算法對4種成分各項指標的最優或次優項多于其他4種對比方法,4 種成分的RP分別為0.947 5、0.879 0、0.952 6、0.864 8,平均值為0.911 0,RMSEP 分別為0.072 5、0.039 9、0.055 2、0.059 6,平均值為0.056 8,RP2分別為0.867 6、0.898 6、0.904 4、0.660 5,平均值為0.832 8。而在訓練集上表現同樣出色的XGBoost算法在預測集上的表現則出現明顯下降,平均RP比iSAE-LGBM 低約1%,而平均RP2甚至低約40%,可見XGBoost 算法出現了較明顯的過擬合問題,證明iSAE-LGBM 算法的SAE 模塊有效降低了過擬合的風險,提高了魯棒性。PLSR 算法和D2reg 算法雖在預測集上的表現與訓練集較為相近,過擬合問題不顯著,但得到的模型預測能力有限。上述結果進一步驗證了iSAE-LGBM 算法在預測能力、降低過擬合風險方面的優勢。

2.3.3 從化學成分種類角度分析iSAE-LGBM算法建立的氯、鉀、總氮模型相對于還原糖模型更優,還原糖模型中的PLSR算法也有不錯的表現,可見氯、鉀、總氮3種化學成分與近紅外光譜間的相關性更傾向于非線性相關,而還原糖模型的線性相關性相對更加突出,故傳統線性回歸算法也能得到相對較好的結果。相比于其他4種算法,iSAE-LGBM算法在處理偏向線性或非線性的關系上均有優秀的表現。

通過上述分析可知,與4個經典算法相比,iSAE-LGBM算法無論在訓練集或預測集上的表現均最優,對煙草還原糖、氯、鉀、總氮4種化學成分的綜合預測能力最佳,在模型預測能力、魯棒性、通用性上更優。

為了進一步驗證iSAE-LGBM 算法的有效性,圖5 給出了4 種化學成分預測值與真實值的散點圖,并擬合出相應的一次函數,將其與最優擬合函數y=x進行對比,點越接近y=x直線代表預測偏差越小。由圖5可知,絕大部分點均勻分布在擬合直線的兩側,擬合曲線均與y=x接近,說明iSAE-LGBM算法構建的煙草4種化學成分的預測模型具有較高的預測準確率。

圖5 預測值-真實值曲線Fig.5 Predicted value- measured value curves A. reducing sugar;B. chlorine;C. potassium;D. total nitrogen

3 結 論

本文將改進堆疊自編碼器與LightGBM 結合應用于近紅外光譜回歸分析。算法由兩個模塊組成,其中改進的結構自適應優化的堆疊自編碼器模塊有效減少了噪聲和干擾對模型的負面影響,可充分挖掘近紅外光譜數據的非線性深層特征,同時有效降低了后續LightGBM 模塊的過擬合風險;LightGBM 模塊充分表達了近紅外光譜數據中的深層非線性特征,超參數在Optuna框架下實現了快速自動優化。將該算法與其他4 種算法進行對比,結果顯示該算法下構建的煙草化學成分回歸模型在預測能力、魯棒性和通用性方面得到有效提高。本文將堆疊自編碼器與LightGBM 應用于近紅外光譜的非線性回歸分析,為近紅外光譜數據中隱層關系的挖掘與表達提供了參考,通過煙草樣本進行驗證,為深度學習在化學成分檢測與質量監控領域的應用提供了新的思路和依據。

猜你喜歡
優化模型
一半模型
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 成人毛片免费观看| 91区国产福利在线观看午夜| 六月婷婷精品视频在线观看| 在线日韩一区二区| 97se亚洲| 久综合日韩| 国产成人久久777777| 国产一区二区三区在线精品专区| 午夜国产不卡在线观看视频| 91青青在线视频| 色天堂无毒不卡| 日韩性网站| 国产亚洲精| 亚洲视频在线观看免费视频| 国产欧美视频一区二区三区| 成人字幕网视频在线观看| 国产精品永久免费嫩草研究院| 全免费a级毛片免费看不卡| 免费A级毛片无码无遮挡| 久久精品亚洲专区| 这里只有精品在线播放| 亚洲第一av网站| 波多野结衣在线se| 亚洲第一黄片大全| 欧美精品一区在线看| 久久午夜夜伦鲁鲁片无码免费| 国产精品毛片在线直播完整版| 国产午夜一级毛片| 久久免费精品琪琪| 欧美一级黄片一区2区| 亚洲人成成无码网WWW| 最新亚洲av女人的天堂| 亚洲成肉网| 国产成人h在线观看网站站| 91精品免费久久久| 毛片视频网| 亚洲成人播放| 久久这里只有精品免费| 久久精品娱乐亚洲领先| 精品视频在线一区| 六月婷婷综合| 国产成人免费视频精品一区二区 | 久久永久视频| 亚洲国产欧美中日韩成人综合视频| 国产精品99久久久| www.亚洲国产| a级毛片免费在线观看| 午夜福利免费视频| 亚洲精品无码久久毛片波多野吉| 国产导航在线| 91综合色区亚洲熟妇p| 亚洲AV无码精品无码久久蜜桃| 亚洲精品视频网| 久久久久亚洲精品成人网| 国产99久久亚洲综合精品西瓜tv| 欧美特黄一级大黄录像| 女人一级毛片| 色悠久久久久久久综合网伊人| 欧美a√在线| 欧亚日韩Av| 亚洲精品大秀视频| 亚洲AV永久无码精品古装片| 精品一区二区三区自慰喷水| 国产网站免费观看| 日韩国产 在线| 91po国产在线精品免费观看| 激情无码视频在线看| 亚州AV秘 一区二区三区| 亚洲精品va| 日韩国产亚洲一区二区在线观看| 色哟哟色院91精品网站| 亚洲人成网站观看在线观看| 亚洲不卡影院| 久久久噜噜噜久久中文字幕色伊伊| 91精品国产一区自在线拍| 国产在线精品人成导航| 日韩中文字幕免费在线观看| 看看一级毛片| 日韩精品无码免费专网站| 日本91在线| 国产白浆在线| 波多野结衣AV无码久久一区|