申永祥 趙秋菊
近紅外光譜(NIR)因測定速度快、效率高、成本低、且無前處理、無污染、無破壞性、多通道多組分同時測定等優點,現已廣泛應用于工業生產過程的在線檢測和智能控制系統。越來越多的國家已經將近紅外光譜分析技術作為產品質量檢測及在線分析的重要手段。
近紅外光譜信息處理是一個典型的高維小樣本機器學習問題。在近紅外光譜的高維數據中,光譜噪聲的存在對測量的結果一般有較大的影響。1986年Stark 提出了近紅外光譜儀的信噪比為105,但由于種種原因,近紅外光譜儀的信噪比很難達到這一要求。為了消除光譜噪聲、提取有用信息,人們提出了平滑處理、位移校正、多元散射校正、標準正態變量校正及矢量歸一化、小波濾噪等光譜預處理方法。由于近紅外光譜數據的非線性,許多非線性機器學習算法如PPLS、ANN、SVR 等也被應用到近紅外光譜預處理中。此外,通過對光譜數據進行降維,也能提取有用信息,如常用的PCA、PLS 等線性降維方法。為了在降維的過程中同時提取光譜的非線性信息,非線性降維無疑是一種有效的選擇,Isomap 算法是最近提出的一種有廣泛應用前景的非線性降維方法。
類信息能用于降維過程和特征分離。由于Kernel Isomap 算法具有樣本外特性,降維時不使用類信息。Kernel Isomap 算法在構建鄰居圖時所有的數據點被同等對待。為了利用類信息,在構建鄰居圖計算兩點間的歐氏距離時賦以權值,把這種改進的Kernel Isomap 算法稱為WKIsomap 算法。假如XL為訓練集,XU為測試集,在 ix 與xj兩點間的帶權值的歐氏距離定義為其中:w( i, j) 是權函數

β 是所有兩點之間歐氏距離的平均值的平方。
算法:WKIsomap-PLS 算法
第一步:在訓練集中,用 dw代替 de,應用NIR 光譜的kernel Isomap-PLS 建模方法及其在血府逐瘀口服液提取過程分析的應用研究中的kernel Isomap 算法1 求出其低維嵌入M。
第二步:在測試集中,用 dw代替 de,應用NIR 光譜的kernel Isomap-PLS 建模方法及其在血府逐瘀口服液提取過程分析的應用研究中的kernel Isomap 算法2 求出其低維嵌入R。
第三步:對光譜矩陣M 和性質矩陣Y 進行分解。

(2)式中T 為光譜矩陣M 的得分矩陣;S 為光譜矩陣M 的載荷矩陣的轉置;E 為光譜矩陣M 的擬合殘差矩陣。(3)式中U 為性質矩陣Y 的得分矩陣;Q 為性質矩陣Y 的載荷矩陣的轉置;F 為性質矩陣Y 的擬合殘差矩陣。
第四步:線性回歸。

式中B 為回歸系數。
第五步:計算預測值。

式中Tscore 為測試集的得分矩陣,可由(2)式得出。
1)數據集描述
儀器:北京英賢儀器有限公司的INCE9500MT 近紅外光譜儀,光譜測量方式:透射,光程:2mm,光譜范圍:1000~2200cm,波長間隔:4.8cm。樣本:吉林敖東延邊藥業股份有限公司的血府逐瘀口服液的在線近紅外光譜共163 個,所得提取液光譜如圖1 所示。

圖1 INCE9500MT 測得樣品集的近紅外光譜圖
使用高效液相色譜儀SH MADZU-LC-2-10A 作為檢測儀器,采用高效液相色譜法(High Performance Liquid Chromatography HPLC)檢測樣本中組分羥基紅花素-A 和甘草酸銨的含量。測得樣品中羥基紅花素-A 的含量范圍為0.015mg/ml 至0.195mg/ml,甘草酸銨的含量范圍為0.066mg/ml 至0.192mg/ml。
2)數據處理
對所得光譜數據,分別用WKIsomap-PLS、kernel Isomap-PLS、Isomap-PLS 與PLS 建立回歸模型,以留一法交叉驗證均方根誤差(RMSECV)最小為最優或測試集均方根誤差(RMSEP)最小為最優及決定系數(R2)最大為最優來評價模型。
1)參數優化及在校正集上建模結果對比
在Isomap 算法中有2 個可進行調整的參數d 和k,其中d 為樣本本真維數,k 為鄰域參數,d 和k 均為整數,使用網絡搜索法對算法進行優化。在樣本數據集中,所有樣本選擇樣本本真維數d 的范圍為5 到80,領域參數k 的范圍為5 到70。通過WKIsomap 降維,再用PLS 建立回歸模型,并用RMSECV 或R2 來評價模型。當d=55,k=48 時,羥基紅花素-A 的 RMSECV 值最小、為0.0376,R2 值最大,為0.9412;當d=37,k=35時,甘草酸銨具有最小的RMSECV 值和最大的R2,RMSECV=0.0332,R2=0.9569。建立的校正模型見表1。結果顯示用WKIsomap-PLS 建立的校正模型其性能優于kernel Isomap-PLS、Isomap-PLS 與PLS 建立的校正模型。
2)WKIsomap-PLS 算法和其他算法在測試集上預測性能的對比
在163 個樣本數據中,任意選取其中的15 個樣本作為測試集,余下的148 個樣本作為校正集。Kernel Isomap-PLS、Isomap-PLS 與PLS 均采用RMSECV 最小為最優或R2 最大為最優來建立校正模型,并用測試集來評價模型,測試集中均方根誤差RMSEP 最小其預測性能為最優或R2 最大其預測性能為最優。結果見表2。實驗結果顯示:采用WKIsomap-PLS 建立模型的預測性能也優于kernel Isomap-PLS、Isomap-PLS 與PLS 建立的模型。

表2 WKIsomap-PLS 與kernel Isomap-PLS、Isomap-PLS、PLS 在測試集上預測性能對比

表1 WKIsomap-PLS 與kernel Isomap-PLS、Isomap-PLS、PLS 在校正集上建模結果對比
對kernel Isomap 改進后,并結合PLS,提出了WKIsomap-PLS 的建模方法,實驗結果表明:該方法所建模型優于其他PLS 方法建立的模型、其所建模型預測性能也優于其他PLS 方法。利用近紅外光譜的WKIsomap-PLS 建模方法,可以實現血府逐瘀口服液的在線檢測與智能控制。此方法可以推廣應用到其他中藥質量的在線檢測與智能控制系統中。