基于變量選擇比自適應迭代法的近紅外光譜變量選擇方法研究

2024-03-08 06:56:56文鵬宦克為趙環王迪

長春理工大學學報(自然科學版) 2024年1期

文鵬，宦克為，趙環，王迪

（1.長春理工大學物理學院，長春 130022；2.中移建設有限公司吉林分公司，長春 130112）

近紅外光譜是指波長介于可見光與中紅外光之間的電磁波，波長范圍為780～2 500 nm 之間，主要包含有C-H、N-H、O-H 等含氫基團在近紅外譜區吸收的倍頻及合頻［1］。近紅外光譜分析技術具有無損、高效、成本低、范圍廣等諸多優勢［2］，在工農、醫藥、食品等領域被廣泛應用［3］。但由于近紅外光譜存在信號弱、譜帶寬、重疊嚴重等問題［4］，并不是所有變量都與需要檢測的成分相關聯。為了簡化模型，提高模型預測精度［5］，變量選擇成為近紅外光譜分析（Near Infrared Spectroscopy，NIRS）的關鍵環節。常用的變量選擇方法包括無信息變量消除法（Uninformative Variable Elimination，UVE）［6］、蒙特卡洛無信息變量消除法（Monte Carlo-Uninformative Variable Elimination，MCUVE）［7］、遺傳算法（Genetic Algorithm，GA）［8］等。近年來，吳海龍等人［9］提出了基于模型集群分析［10］（Modelpopulation Analysis，MPA）思想的變量選擇方法，如競爭自適應重加權采樣法（Competitive Adaptive Reweighted Samplingmethod，CARS）［11］、自助軟收縮法（Bootstrapping Soft Shrinkage，BOSS）［12］、隨機蛙跳法（Random-Frog，RF）［13］、迭代保留信息變量法（Iteratively Retains Informative Variable，IRIV）［14］、變量組合集群分析法（Variable Combination Population Analysis，VCPA）［15］以及穩定自助軟收縮法（Self-Bootstrapping Soft Shrinkage，SBOSS）［16］等。上述變量選擇方法一定程度上簡化了近紅外光譜預測模型，但仍存在模型過擬合、預測精度低、魯棒性差等問題。

基于MPA 思想提出了一種新的變量選擇方法——變量選擇比自適應迭代法（Variable Proportional Selection Adaptive Iteration，VPSAI）。通過蒙特卡洛采樣（Monte Carlo Sampling，MCS）從樣本中采集多組互不相同的樣本子集，利用偏最小二乘法（Partial Least Squares，PLS）計算出不同子集不同的回歸模型以及求出每個變量回歸系數的平均值和標準差，進而求出每個變量的貢獻值，得到每個變量的初始權重，將初始權重與加權自助采樣法（Weighted Bootstrap Sampling，WBS）相集合，對變量空間進行迭代得到多組不同子集，用PLS 進一步建立每組子集回歸模型，同時計算出每組子集交互驗證均方根誤差（Root Mean Square Error of Cross Validation，RMSECV），將RMSECV 較小的回歸模型保留下來，上述過程反復迭代，最終選取RMSECV 最小的變量集合作為最佳特征變量［18］。

1 實驗及原理

1.1 數據來源

1.1.1 小麥數據集

小麥近紅外光譜數據集來源于網址https：//eigenvector.com/resources/data-sets/［19］。包含231 個小麥樣本，它的波長范圍為1 104～2 495 nm，波長間隔為12 nm，一共有117 個波長點，小麥蛋白質含量均用化學方法測量所得到，圖1 為小麥的近紅外光譜圖。使用Kennard-Stone（K-S）算法將樣本集進行分類，選取153 個樣本作為校正集，78 個樣本作為預測集，小麥蛋白質含量分布如表1 所示［20］。

表1 校正集以及預測集中成分含量統計數據分布

圖1 小麥的近紅外光譜圖

1.1.2 牛奶數據集

牛奶近紅外光譜數據集來源于文獻［17］。包含67個牛奶樣本，近紅外光譜波長范圍為1 000～2 510 nm，一共有1 557 個光譜點，掃描間隔為0.97 nm，牛奶樣本的蛋白質含量用化學方法測量得到。圖2 為牛奶的近紅外光譜圖。使用K-S算法將牛奶樣本集進行分類，43 個樣本作為校正集，24 個樣本作為預測集，牛奶中蛋白質含量如表1 所示。

圖2 牛奶的近紅外光譜圖

1.2 原理方法

1.2.1 光譜預處理

PSAI 使用的光譜預處理方法為均值中心法，與其做對比的幾種變量選擇方法（BOSS、UVE 以及CARS）也使用相同的方法，這樣就能在相同光譜預處理條件下突出PSAI 變量選擇方法的優越性，均值中心法常被用于增加樣品光譜之間的差異，有助于提高預測模型的穩健性和預測能力。

計算校正集樣本的平均光譜：

式中，n為校正樣品數；P=1，2，3，…，m，為波長點；X（1×m）為對未知的樣品光譜。

1.2.2 PSAI 算法原理

PSAI 算法步驟如下：

（1）運用K-S 算法把樣本集分為校正集和預測集。

為維護歐盟內部金融穩定，確保在銀行業危機時期，有效地清算處置金融機構，歐盟成立風險處置委員會，設立專項風險處置基金，用于問題銀行的風險處置，各國層面的存款保險制度實際上只起到了付款箱的作用。其他國家也存在設立金融機構風險處置基金和存款保險基金的做法。如，德國2010年設立專項基金，專門用于問題銀行的風險處置，包括提供過橋貸款、進行股權收購等。

（2）運用MCS 隨機從校正集中選取60%的樣本作為樣本子集，采樣N1次得到N1組不同的樣本子集。

（3）運用PLS 建立出N1個樣本子集的回歸模型，進而求出不同樣本子集中相同變量的回歸系數的均值和標準差，再計算出每個光譜變量的貢獻值，設置初始權重，計算方法如下：

式中，Uj為第j個變量回歸系數的均值；bi，j為第j個變量在第i個回歸模型中的回歸系數；N為蒙特卡洛的采樣次數；SDj為第j個變量的標準差；Sj為第j個變量的貢獻值；Wj為第j個變量的初始權重。

（4）設置迭代結束條件。

（5）根據每個變量的初始權重Wi結合WBS對整個變量空間進行P次采樣，得到P組變量子集，運用PLS 建立每組變量組合的預測模型，記錄每個變量在每組變量子集中的回歸系數bi，j和每個回歸模型的RMSECV，保留RMSECV 最小的變量子集作為最佳變量子集。

（6）計算每個變量在不同變量子集中的bi，j，并根據公式（3）～（6）計算出新的Wj。

（7）統計出在迭代過程中保留的全部最優變量子集，直到變量的數量達到1 時終止，并且挑選其中RMSECV 值最小的變量子集作為最終的選擇結果，并根據PLS 建立預測模型。

1.3 模型評價

本研究采用的模型評價參數分別是建模均方根誤差（RMSEC）和預測均方根誤差（RMSEP）。

公式如下：

1.4 控制參數

由表2 所示，通過對PSAI 設置相同控制參數對小麥和牛奶的樣本集進行變量選擇。通過反復實驗得到最優參數設置。

表2 PSAI 控制參數

2 實驗結果討論

2.1 基于PSAI 的近紅外光譜變量選擇

利用PSAI 對牛奶和小麥的近紅外光譜進行變量選擇。利用MCS 重復一萬次對近紅外光譜數據集的原有樣本空間進行隨機采樣，就可以得到一萬組互有區別的樣本子集，運用PLS 建立每個樣本子集的回歸模型，根據公式（3）～（6）計算出不同樣本子集相同變量的回歸系數的均值和標準差以及貢獻值，最終給出初始權重Wj；根據每個變量的初始權重Wj結合WBS 對整個變量空間進行1 000 次采樣，得到1 000 組變量子集，運用PLS 建立變量子集的預測模型，得到每個變量在變量子集中的回歸系數bi，j，以及每個回歸模型的RMSECV，保留RMSECV 最小的變量子集作為最佳變量子集；上述過程反復迭代100 次，RMSECV 最小的變量子集為最佳特征變量。

2.2 牛奶數據集的變量選擇結果分析

PSAI 方法運行20 次，不同變量的選擇頻率如圖3 所示。選擇的特征變量主要有1 088 nm 與仲胺二倍頻區相對應；1 138～1 163 nm 與C-H 三倍頻區相對應；1 765～1 850 nm 與SN、CH3、CH2伸縮第一倍頻區相對應。其中，選擇頻次在80%～90%之間的變量有1 138 nm、1 139 nm、1 140 nm、1 153 nm；選擇頻次在90%以上的變量有1 148 nm、1 149 nm、1 787 nm、1 792 nm；選擇頻次100%的變量有1 775 nm、1 776 nm、1 803 nm，被選擇變量與牛奶中蛋白質吸收峰相一致。

圖3 牛奶數據集的不同變量選擇頻率

2.3 小麥近紅外光譜數據集變量選擇結果分析

PSAI 方法運行20 次，不同變量的選擇頻率如圖4 所示。選擇的特征變量1 116～1 248 nm 與C-H 鍵二級振動倍頻相對應；1 260～1 140 nm 與C-H 組合頻以及游離NH 一倍頻相對應；1 536～1 644 nm 與氫鍵鍵合NH2 倍頻相對應；1 944～2 064 nm與游離OH組合頻相對應；2 304～2 400 nm與C-H 組合頻相對應。其中，選擇頻次在70%～80%之間的變量有1 956 nm、1 944 nm、1 284 nm、1 272 nm、1 260 nm、1 620 nm；選擇頻次在80%～90%之間的變量有2 364 nm；選擇頻次100%的變量有1 140 nm、1 440 nm、2 064 nm，被選擇變量與小麥中蛋白質吸收峰相一致。

圖4 小麥數據集的不同變量選擇頻率

2.4 不同建模方法的預測結果分析

由表3 所示，在牛奶數據集上，與CARS-PLS、UVE-PLS、BOSS-PLS 相比，PSAI-PLS 的RMSEC分別由0.078 0、0.128 2、0.106 0 變為0.080 3；RMSEP 由0.068 7、0.110 9、0.083 8 下降到0.062 8，預測精度分別提升了8.7%、43.3%、25%。在小麥數據集上，與UVE-PLS、BOSS-PLS、CARS-PLS相比，RMSEC 由0.596 6、0.698 8、0.632 2 下降到0.552 0；RMSEP 由0.696 1、0.849 5、0.776 5 下降到0.667 8，預測精度提升了4.1%、21.4%，14%。

表3 不同建模方法統計結果

綜上，PSAI 能夠很好地彌補樣本采樣局限性以及人為設置初始權重的主觀性，可以有效消除變量空間中的無信息變量和干擾變量，極大程度的簡化模型，提高建模預測精度。

3 結論

基于MPA 思想PSAI 通過提高MCS 采樣次數以及利用變量回歸系數的均值與變量的標準差來設定權重，在反復迭代中選取最佳變量。這種方法彌補了單一使用MCS 的不足，改善了BOSS 方法在設置權重方面的不足，突出了PASI變量選擇方法的優越性。在公開的牛奶和小麥近紅外光譜數據集上，PASI-PLS 與BOSS-PLS、CARS-PLS、UVE-PLS 模型相比較，具備更高的預測精度和魯棒性，PASI 方法進行變量選擇是可行的。