近紅外光譜樣本集劃分以及預處理的方法研究＊

2023-04-06 10:41:20陳方方丁躍武李四海

甘肅科技 2023年1期

陳方方，丁躍武，楊友，李四海

（甘肅中醫(yī)藥大學信息工程學院，甘肅蘭州 730000）

近紅外光譜技術是介于可見光與中紅外光譜之間的一種電磁波，光譜范圍為780～2 520 nm，主要信息來源于對氫基團的倍頻和合頻的吸收，不同的基團產生的信息不相同，相同的基團在不同的環(huán)境下產生的信息也不相同。因近紅外光譜技術具有操作便捷、效率高、無污染等特點得到廣泛應用[1-3]。

以研究過程中的方法選擇、數據處理為主要研究內容，提取最大限度的化學和分析信息，不僅能夠提高操作中的效率，還可以提高模型的預測精度。異常樣本識別、樣本集劃分、光譜預處理是建立分析模型的基礎，良好的數據處理方法是建立穩(wěn)定性好、預測能力強的分析模型的重要條件。褚小立等[4]、閔順耕等[5]分別對異常樣本識別、預處理等一些化學計量學方法進行總結，然而這些算法已是多年之前的研究，隨著技術的發(fā)展，近些年產生了大量的新算法，文章在此基礎上介紹了近幾年近紅外光譜的異常樣本識別、樣本集劃分、光譜預處理算法原理及應用。

1 近紅外光譜異常樣本識別

近紅外光譜分析的對象通常都是較為復雜的對象，在對數據進行化學分析時，常常由于環(huán)境問題、操作人員的失誤、取樣不均以及樣本的復雜度等問題，導致檢測結果不可靠或異常樣本的出現(xiàn)，會對模型精確度產生影響。因此，為建立一個更加穩(wěn)定可靠的模型，在進行定量分析之前需要對樣本的異常值進行識別和剔除。

1.1 常用的異常樣本識別方法

光譜數據中的異常樣本可以通過觀察光譜數據本身進行剔除，但由于會受人為等一些其他因素的干擾，難以實現(xiàn)對光譜數據客觀、準確地分析，選擇適合的方法對樣本進行異常值篩選，能更好地保證模型的穩(wěn)定性。目前，常用的方法主要有Cook距離、馬氏距離、樣本杠桿值、學生化殘差、濃度殘差值、光譜殘差值、蒙特卡洛交叉驗證（Monte-Carlo Cross Validation，MCCV）等[6-9]。

1.1.1 Cook距離

Cook距離主要用來檢驗某樣本的存在對模型回歸系數產生的影響，其距離計算如下：

1.1.2 樣本杠桿值和學生化殘差

在多元回歸模型中，光譜矩陣Xc存在:

H通常被稱為“帽子矩陣”，對角線上的元素Hi表示第i個樣本杠桿值（Leverage）。當杠桿值大于的樣本被認為是異常樣本，p是光譜波數個數，n是樣本個數。樣本杠桿值表示樣本值對模型的影響程度，杠桿值越小代表該樣本有利于模型的建立，但樣本杠桿值大的不一定是異常樣本，需要結合學生化殘差來進行綜合考慮。

學生化殘差考慮了樣本性質矩陣的預測能力，其表達式為：

式中：yi是第i個樣本的真實值是第i個樣本的預測值，si是剔除第i個樣本后擬合回歸的均方根誤差。學生化殘差表示樣本杠桿值對應的樣本濃度預測能力的優(yōu)劣，如果樣若樣本的學生化殘差和杠桿值都很大，判斷該樣本為異常樣本的可能性較大。

1.1.3 馬氏距離

馬氏距離是指樣本光譜集與標準光譜集的平均光譜距離，用來衡量某一個樣本對整個樣本集產生的影響，如果馬氏距離大于閾值，表明該樣本影響模型的穩(wěn)定性，此樣本可能是異常樣本。

馬氏距離的算法步驟如下：

式中：ti是樣本集的主成分得分向量，是標準光譜集的主成分得分的平均值，V-1是標準光譜數據集的協(xié)方差的逆矩陣。

1.1.4 濃度化殘差

濃度殘差法通過計算樣本的化學絕對值誤差的方差與整個數據集各樣本的絕對方差的平均值，用F檢驗來判別，大于閾值可判定為異常樣本。

當Fi＞F0.05（1，n-1）可以判斷第i個樣本為異常樣本。光譜化殘差是指計算原始光譜與重構光譜的殘差譜的方差，可用來判斷光譜異常值和特征峰的異常。

1.1.5 蒙特卡洛異常值采樣

MCCV利用蒙特卡洛交叉驗證中奇異樣本的統(tǒng)計規(guī)律來識別奇異樣本，通過MCCV計算出模型中預測殘差平方和（PRESS），再建立定量分析模型，如果樣本在具有小的PRESS的分析模型中的出現(xiàn)次數明顯偏離則表明為奇異樣本。具體過程如下：

（1）對樣本建立PLS模型確定最佳主成分數；

（2）采用蒙特卡洛隨機取樣法選取80%的樣本作為校正集，20%作為驗證集，確定最佳主成分數，對校正集建立PLS回歸模型，用驗證集進行預測，得到驗證集樣本的預測值；

（3）對步驟（2）進行循環(huán)，得到預測誤差分布；

（4）計算樣本預測殘差的均值和方差，確定在一定的方差下，具有較大殘差下的樣本數，將這些樣本視為異常樣本。

此外，在對數據進行異常樣本剔除時，可能會存在異常樣本點的誤判，不能實現(xiàn)對樣本數據完全剔除，針對這種現(xiàn)象祝詩平等[10]提出對可疑樣本進行二次驗證，即“二審”剔除法，其基本思想是指在對樣本進行一次異常樣本檢驗時，如果被檢測為可疑樣本，不馬上對其進行剔除，而是繼續(xù)對其進行二次計算，如果仍被判定為異常樣本，就對其進行剔除，否則，進行保留，通過“二審”剔除法，使模型更具有代表性和穩(wěn)定性，進一步提高近紅外光譜模型定量分析的精度。

2 近紅外光譜樣本集劃分

在對樣本數據集進行分析時，選取合適有效的樣本進行化學建模不僅可以提高模型的精準度，還為后續(xù)模型的維護和更新提供更為便捷的方法。目前，常用的樣本集劃分方法有隨機抽樣（Random Sampling，RS）法[11]、常規(guī)選擇（Conventional Selection，CS）法[12]、Kennard-stone（KS）法[13]、X-Y聯(lián)合距離的樣本集劃分（Sample Set Portioning base on joint xy distance，SPXY）[14]等。詹雪艷等[15]比較了三種校正集選擇方法并對積雪草中的積雪草苷的含量建立NIR定量分析模型。陳奕云等[16]以江漢平原洪湖地區(qū)水稻土為研究對象，采用KS法，SPXY法構建樣本數占總校正集不同比例的子校正集，建立定量分析模型。

2.1 常用的樣本集劃分方法

CS法在對樣本進行劃分時，增強樣本中的某些特征如：廠家、產地等一些因素的變異，對樣本的化學含量值進行測量、篩選、按大小進行排序，以校正集和測試集比例選擇化學測量值最高或最低的樣本進行分配。RS法是指對光譜數據集進行隨機挑選，篩選出來的一部分樣本作為校正集，其余的作為測試集。RS方法具有操作簡單，不需要對數據進行挑選、排序、計算等特點，此方法適用于樣本數量比較大的樣本集，當用于樣本集較少的情況下會導致樣本劃分不均勻，影響模型的預測精度。

2.1.1 KS法

在近紅外光譜分析模型分析中，樣本集較少的情況下可選擇KS法，根據計算樣本間光譜的歐式距離來計算樣本間差異。采用KS算法不僅可以起到降低算法計算代價，加快學習速度之作用外，還可以避免過擬合現(xiàn)象發(fā)生。KS算法的具體步驟如下：

（1）將所有的樣本都視為訓練集，計算整個樣本集中的歐式距離，選擇歐式距離最大的2個樣本做為訓練集；

（2）計算剩余樣本與已選樣本之間的距離，最短距離選為訓練集，待所有的剩余樣本計算過后，選擇這些最短距離中的最長距離所對應的樣本選作訓練集；

（3）重復步驟2，直至所選的樣本集樣本個數等于事先確定的數目為止。

歐式距離為歐幾里得度量（Euclidean Metric）指在n維空間中兩點之間的真實距離，或者向量的自然長度。其公式如下：

式中：xp和xq表示2個不同的樣本，N表示樣本的光譜波點數量。

2.1.2 SPXY

SPXY算法是在KS的基礎上發(fā)展而來的，是一種均勻的采樣方法，在計算樣本間距離時綜合考慮了數據變量和化學測量值之間的歐式距離，能夠改善所建模型的預測能力。其計算公式如下：

將光譜數據x和化學測量值y同時考慮在內，p、q之間的距離為dxy(p,q)，公式如下：

為確保x和y在每個樣本上具有相同的權重，對數據集中的最大距離值dx（p，q）和dy（p，q）進行歸一化。然后，采用類似于KS算法逐步選擇，直到選擇出需要的數據為止。

3 近紅外光譜預處理方法

近紅外光譜在采集過程中由于光的散射、背景干擾以及儀器誤差等原因，對建立的分析模型產生影響，因此，有必要對已經獲得的光譜信息進行預處理。常用的預處理方法主要分為基線校正、散射校正、平滑處理、尺度縮放[17]四類。其中，基線校正包括一階導數、二階導數、小波變換等，主要是消除儀器背景干擾以及光線漂移對信號產生的影響。尺度縮放包括均值中心化[18]、最大最小歸一化、標準化、矢量歸一化等，主要是通過消除尺度差異過大帶來的影響。散射校正主要包括多元散射校正（Multiplicative Scatter Correction，MSC）[19]、標準正態(tài)變量變換（Standard Normalized Variate，SNV）[20]、正交信號校正（Orthogonal Signal Correction，OSC）[21]、去趨勢算法（Dr-trending）等，主要通過消除由于樣品顆粒不均勻及顆粒大小不同而產生的散射。平滑處理包括移動窗口平滑、Savitzky-Golay（SG）平滑[22]等，主要消除光譜中隨機噪聲產生的影響。

3.1 基線校正

光譜數據采集時會受到由基線漂移以及光譜重疊的影響，進而在數據建模中產生較多的隨機誤差。對光譜數據進行求導可以消除光譜數據集中不重要的基線漂移。一階導數可以用來消除同波長無關漂移；二階導數可以消除同波長線性相關的漂移，同時提高光譜的分辨率，但也會降低光譜的信噪比。此外，對光譜的求導方法包括直接差分法和Savitzky-Golay卷積求導法。當獲得的數據具有高分辨率、波長點數量多的情況下，直接差分法和Savitzky-Golay卷積求導存在誤差較小。

小波變換主要包括離散小波變換（Discrete Wavelet Transform,DWT）和連續(xù)小波變換（Continuous Wavelet Transform,CWT）是一種有效的數值求導方法，不僅可以提高光譜分辨率還可以保證光譜的信噪比。通過對原始光譜進行分解，得到時域和頻域的信息，進一步對信號進行濾噪和平滑，消除低頻背景和高頻噪聲。小波變換常用的小波函數具有多樣性，不同的小波函數處理相同的問題得到的結果相差也較大，其小波函數的正確使用也是當前研究的一大熱點之一。

3.2 散射校正

在對數據進行采集時由于顆粒大小、形狀、分布不均勻等會引起光的散射漂移，導致相同的樣本在不同光譜圖中存在差異，這種現(xiàn)象稱為光的散射現(xiàn)象。MSC和SNV正是用來消除這種現(xiàn)象對光譜造成的影響，MSC計算校正集所有光譜的平均值，將每條光譜與平均光譜做一元線性回歸，得到線性回歸的斜率和截距，以此對原始光譜進行校正，但對于光譜數據來說將每條光譜都視為線性相關是難以實現(xiàn)的。相對于MSC，SNV是從原始光譜中減去該光譜的平均值，再除以標準差，以此來消除光的散射效應。SNV可以減少散射、粒度以及多重線性對近紅外光譜中的一些影響，但這些情況是需要保證整個光譜范圍是均勻的。去趨勢算法[5]通過消除光譜漫反射產生的基線漂移，提高模型的預測效果，該方法不僅可以單獨使用，還可以跟其他預處理方法進行結合使用。

3.3 平滑處理

平滑處理是一種低通濾波器，可以用來消除光譜信號中的隨機噪聲，提高信號的信噪比。移動窗口算法會對光譜信息的邊界點造成損失，此外，在進行移動窗口時對其寬度需要設置一個恰當的參數。當移動窗口過小時不能更好地減少噪聲，過大則會對波譜的波峰平滑過多，造成有用信號失真。因此，提出了SG卷積平滑算法，其實質是一種加權平均算法，主要是利用多項式對原始光譜移動窗口內的數據進行多項式分解并對其進行最小二乘擬合。SG平滑算法是目前使用較為廣泛的去噪方法，但對移動窗口寬度及多項式次數的選擇仍需進行優(yōu)化選擇。

3.4 尺度縮放

尺度縮放的作用就是用來消除數據由于尺度差異過大而帶來的一些影響。均值中心化是將每個樣品光譜減去校正集的平均光譜，用以消除光譜的絕對吸收，能夠增強樣本光譜之間的差異，提高建模時光譜特征的識別，減少數據之間的線性和相互作用項之間的協(xié)方差。光譜標準化又稱均值標準化，將數據經過均值中心化后再除以校正集光譜陣的標準偏差，能夠賦予所有波長變量相同的權重，這對低濃度組分樣品建模有較大幫助。其中，均值中心化和標準化是最常用的2種方法，這2種方法在對光譜數據進行處理的同時，往往對目標函數也進行同樣的變換。歸一化通常用于校正微小光程差異帶來的光譜變化，是將每個光譜點減去所在變量列的最小值后，再除以光譜所在列最大值和最小值的差值。最大最小歸一化具有可以提高模型收斂速度和模型精度的特點。

目前，有學者提出對近紅外光譜預處理方法進行組合，以提高模型預測效果[23]。張朱珊瑩[24]等對選取的血液樣本分別進行無預處理和單一預處理，將每類最優(yōu)的預處理再進行組合研究，并根據建模后的交互驗證均方根誤差選出最優(yōu)的預處理方法。實驗表明將預處理方法按照效果進行分類并組合可得到最佳的預處理效果。羅曦等[25]對62份水稻抗性淀粉含量進行測定，通過比較未進行預處理、MSC+1thD、1thD+SNV預處理效果，表明經過結合的預處理方法無論內部驗證還是外部驗證都具有較高的決定系數和較低的誤差值，模型精度更高，誤差更小。

4 結束語

近紅外光譜技術在現(xiàn)代分析技術中的重要地位已經不言而喻，文章綜述了多達幾十種的選擇算法，這些方法都有各自的優(yōu)點和缺點。然而，在實際應用中還需要考慮如何選取最優(yōu)方案等問題，盡管有規(guī)律可循，但不同方法進行結合，產生的結果也不盡相同，需要對這些方法進行比較，以獲得最優(yōu)效果。現(xiàn)如今，近紅外光譜化學計量學算法也是未來發(fā)展的一個重要方向，也為近紅外光譜的發(fā)展提供一定的借鑒意義。