葉星辰



摘要:本文介紹了一種改進的偏最小二乘回歸算法——局部加權偏最小二乘回歸(LWPLSR)算法,闡明了其提出的原因和具有的優勢等。在光譜數據集上進行了分析并與傳統的PLSR進行了比較,證明了LWPLSR的有效性。
關鍵詞:偏最小二乘回歸;局部加權;光譜數據集
1 引言
近紅外光譜是近年來發展較快的一種有效分析方法,其最大特點是方便、快速、成本較低、可同時檢測多種成分,是一種能夠滿足檢測的獨立分析技術[1]. 隨著各種高維數據分析算法和化學計量學的發展,近紅外光譜的用途逐漸廣泛了起來[2]。偏最小二乘法是一種新型的多元統計數據分析方法,于1983年由S.Wold和C.Albano等人首次提出。偏最小二乘法實現了,在一個算法下,可以同時實現回歸建模、數據結構簡化以及兩組變量之間的相關性分析。偏最小二乘法可以處理全光譜信息,包括這些信息中包含了過多的冗余信息[3]。局部模型是指x軸上的一個局部區域,在這個區域上定義了兩個帶參數的局部模型預測函數以及權重。
2 局部加權偏最小二乘算法
局部加權偏最小二乘(LWPLS)是一種廣泛應用于自適應軟測量開發的建模算法。在LWPLS中,通過計算數據之間的距離對歷史樣本進行相似性度量和權值分配,對處理過程時變的突變問題非常有效[4]。局部加權偏最小二乘是一種以即時建模思想為基礎的方法,將傳統的PLS算法融入局部加權的理念進行改進,在建立每一個局部模型時,考慮了訓練數據與測試數據之間的距離,計算出它們之間的距離并將其作為各數據點的權重,如果距離新來數據越短就被賦予的權重越大,通過加權的樣本建立局部PLS模型。因此,相比PLS建模而言,LWPLS能夠更好地描述化工過程中的非線性特征[5]。
LWPLS的算法步驟如下:
首先設置隱變量的初值為1,并輸入最多隱變量個數A的值
Step2:根據計算出它與數據庫中各樣本之間的相似度。其中,是的標準差,是位置參數,一般取0.1~1.5之間。將由計算得到的表示成相似矩陣的形式為:
Step3:對輸入輸出矩陣及新來的數據點進行中心化和加權處理,計算出及。
其中,為全1的列向量,
Step4:推斷出局部線性模型
X的得分向量:ta=Xaωa.X的負荷向量:.模型回歸系數向量:
新來數據點的得分:
如果,則下一步;不然的話,使再到step4進行循環。這里,是的最大特征值所對應的特征向量。
Step5:計算新來測試樣本的輸出估計值:
3 實例分析
此數據集為玉米數據集,共包含80個樣本,在3臺近紅外光譜儀(m5, mp5, mp6)上測量。每個樣品由四種成分組成:水分、油脂、蛋白質和淀粉。波長范圍1100- 2400nm,間隔2nm(700通道)。m5spec中測量的光譜作為主光譜,mp6spec中測量的光譜作為次級光譜。數據集根據Kennard-Stone (KS)算法分為64個樣本的校準集和16個樣本的測試集。其中,m5, ‘mp5, ‘mp6這三個數據表代表了不同儀器測得的波普長度,可作為自變量。water, ‘pro, ‘oil, ‘starch為不同屬性的測值,可作為因變量。 其中共有樣本80例,每個光譜測量樣本共有700個屬性,因變量只有一個屬性。
本文在數據集中隨即劃分占總數量50%的樣本為訓練集,其余的樣本作為測試集。然后使用不同算法進行訓練和測試。經過訓練,使用sklearn的PLSR在玉米光譜數據集上測試的RMSE:為0.3963.
使用LWPLSR在玉米光譜數據集上測試的RMSE為0.375,由此可見改進的PLSR算法——LWPLSR算法比傳統的算法更有優勢一些
結論
本文主要對LWPLSR進行了介紹和進行實例分析,證明了其在光譜數據集上有分析一定的有效性,比傳統的PLSR效果更好一些。
參考文獻
[1] CHEN H, LIN Z, TAN C. Automatic cancer discrimination based on near-infrared spectrum and class-modeling technique[J]. Vibrational Spectroscopy, 2020, 106(C). DOI:10.1016/j.vibspec.2019.102991.
[2] 田翔, 劉思辰, 王海崗, 等. 近紅外漫反射光譜法快速檢測谷子蛋白質和淀粉含量[J]. 食品科學, 2017, 38(16):140-144. DOI: 10. 7506/ spkx1002-6630-201716022.
[3] 張瑩, 王耀南. 基于局部加權偏最小二乘法的冷凝器污垢預測[J]. 儀器儀表學報, 2010, 031(002):299-304.
[4] Yuan X , Zhou J , Wang Y . A spatial-temporal LWPLS for adaptive soft sensor modeling and its application for an industrial hydrocracking process[J]. Chemometrics and Intelligent Laboratory Systems, 2020, 197:103921.
[5] 薛明晨, 熊偉麗, 徐保國. 基于局部加權偏最小二乘的在線多模型建模[J]. 計算機應用研究, 2015, 032(010):2981-2984,2995.