馮惠妍
(黑龍江八一農墾大學,黑龍江 大慶163319)
光譜數據特征提取的一類方法是數據降維。數據降維方法中有線性降維方法,如常用的是主成分分析(Principal Component Analysis,PCA)[1]。2013 年,張小燕等利用主成分分析方法篩選出馬鈴薯主要成分指標,并建立了主要營養成分的預測模型[2];有非線性降維算法,如局部線性嵌入(Locally Linear Embedding,LLE)算法,它能夠使降維后的數據較好地保持原有流行結構[3],與其他降維方法比較,局部線性嵌入算法的優勢在于只需要定義唯一的參數即鄰域數,在模式識別、人工智能等領域得到了廣泛應用。2019 年,席亮等將局部線性嵌入應用于入侵檢測技術中,以提高檢測器生成速率和對數據檢測效率[4]。2019 年,張東妍等將局部線性嵌入算法應用到紅松子品質近紅外檢測中,建立一個區分正常和霉變松子的分類模型[5]。本文首先通過標準正態變量變換+一階導數+卷積平滑,實現對玉米的近紅外高維光譜數據進行預處理分析,在對玉米高維近紅外光譜數據分別進行PCA 和LLE 降維的基礎上,結合多層感知回歸(Multi-layer Perceptron regressor,MLPR)[6],建立基于LLE+MLP 模型和PCA+MLP 模型分別實現對玉米近紅外光譜數據的植物油含量的預測。
文中采用玉米(corn)的近紅外光譜數據集從Eigenvector Research 公司的網站下載,數據最初來自嘉吉公司,包括在近紅外光譜儀上測量的80 個玉米樣品,波長范圍為1100-2498nm,間隔2nm(700 個通道)。還包括樣品的植物油測量值,其中最大值3.832、最小值3.088、平均值3.498。本文在對玉米的近紅外光譜數據進行分析的基礎上,建立預測模型以實現對植物油含量的預測。

圖1 原始光譜經過snv 后曲線

圖2 光譜預處理結果

表1 兩種建模方法預測結果
為提高所建立預測模型的預測性能,需要在建模之前進行光譜預處理[7]。預處理過程包括:為消除樣本顆粒及光散射等噪聲影響,采用標準正態變量變換(Standard Normal Variate transform,snv);為消除光譜基線的平移,采用一階導數處理;為消除基線漂移和傾斜,采用Savitzky-Golay(SG)卷積平滑法對光譜進行平滑處理(文中選取平滑點數為7,多項式次數為3),原始光譜經過snv 后曲線如圖1 所示,預處理后的光譜曲線如圖2 所示。為對近紅外光譜建模的樣本集進行劃分,選取SPXY(Sample set Partitioning based on joint X-Y distance)算法,該算法是在KS 算法基礎上發展起來的,SPXY 在樣本間距離計算時將x 變量和y 變量同時考慮在內。文中訓練集和測試集以7:3的比例進行劃分。
在對光譜數據進行預處理的結果上,使用LLE 算法和PCA算法分別實現對光譜數據的降維處理。其中局部線性嵌LLE 算法在降維后可以有效保留高維數據的低維特征,使得非線性信息不會隨著降維而丟失[8]。算法中每一個數據點都可以由其近鄰點的線性加權組合構造得到,該算法的主要步驟為:(1)尋找每個樣本點的k 個最近鄰(文中k 為6);(2)由每個樣本點的鄰近點計算出該樣本點的局部重建權值矩陣;(3)由該樣本點的局部重建權值矩陣和其近鄰點計算出該樣本點的輸出值。主成分分析PCA 算法是一種線性降維方法,是將原來多個具有一定相關性的多指標,重新組合成一組新的相互無關的綜合指標的統計分析方法[9]。主成分分析PCA 的分析過程是一個構造轉換矩陣的過程,該算法的主要步驟為:(1)輸入數據集X 和需要降到k 維;(2)對矩陣X 中的所有樣本進行均值歸零處理;(3)求協方差矩陣以及求出協方差矩陣的特征值和特征向量;(4)特征向量按照特征值大小進行排序,選出最大的前k 個特征值對應的特征向量。
MLP 多層感知器是一個通用函數逼近器,多層感知回歸模型利用LBFGS 或隨機梯度法對平方損失進行優化下降[6]。MLP是一種前向結構的人工神經網絡,映射一組輸入向量到一組輸出向量,模型由多個節點層組成,且每一層都全連接到下一層,除了輸入節點,每個節點都是一個帶有非線性激活函數的神經元[10]。針對降維后的光譜數據,設計了一個以“logistic”為激活函數的多層感知回歸模型(其中權重優化方式選擇了適合本實驗的“lbfgs”,“lbfgs”是擬牛頓法家族中的一個優化器),以實現對玉米中植物油(oil)的預測。在實驗結果中,在降維數相同(選取預測效果相對較好的維數是10)和MLP 的參數設置相同的情況下,基于LLE+MLP 模型的測試集均方根誤差RMSE 為0.0789;基于PCA+MLP 模型的測試集均方根誤差RMSE 為0.0873。訓練集和測試集的相關性r 和決定系數R2的結果如表1 所示。
采用非線性降維LLE 進行玉米近紅外光譜數據降維,結合多層感知回歸進行玉米植物油建模分析,研究了LLE 降維算法對近紅外預測分析的作用。通過對比線性降維的PCA 模型的建模,兩種模型的相關系數r 和R2相近,而LLE+MLP 模型的預測中RMSE 更優。