王菊香,韓 曉,邢志娜
(1.海軍航空大學,山東煙臺264001;2.海軍裝備部駐北京地區第三軍事代表室,北京100071)
近紅外光譜分析模型是借助化學計量學方法而建立的分析指標和近紅外光譜的多元校正模型。通過基礎方法測定每個樣品各組分和物理性質的相關數據并在光譜儀上采集光譜數據,利用化學計量學算法有效提取光譜信息,建立近紅外光譜與分析指標的關聯關系,實現多個分析項目(組分或性質)的同時快速分析。近紅外光譜分析最大的特點是光譜信息豐富但吸收強度較低,樣品不須進行稀釋、轉化等預處理,不須使用大量的化學試劑,可直接取樣測定,一般幾分鐘就能測出結果,有效避免了環境污染和人身傷害。近紅外光譜分析可應用于在石油、農業、食品、化工、藥品等行業實驗室的定性和定量分析,還可用于現場和生產車間的在線檢測[1-4]。
近紅外光譜分析屬于建立在數學算法基礎上的二次分析,采集的光譜包含了儀器參數和測量條件等信息,同一樣品在不同儀器、不同測量環境下的光譜是不一致的。因此,近紅外光譜分析模型不能在2 臺儀器上同時使用。目前,實現實際應用中模型共享的1個快速有效的手段是模型傳遞。模型傳遞通過數學的方法使同一樣品在不同儀器或不同測試條件下測定的光譜盡可能一致,減少重新建模所消耗的大量人力、財力和時間。目前,比較常用的模型傳遞算法有Slope/Bias 算法、DS 算法、PDS 算法等[5-7],以及對這些方法的優化和改進[8-11]。本文采用DS算法對混胺燃料的近紅外光譜分析模型進行傳遞研究,重點比較奇異值分解(Singular Value Decomposition,SVD)算法和偏最小二乘法(Partial Least Squares,PLS)計算得到的轉換矩陣的效果。
通過收集和配制等方法獲得一定濃度差異的混胺樣品48 個,形成樣品集,對混胺燃料的密度及三乙胺、二甲苯胺、水分、二乙胺的含量進行定量檢測,取至少2 次滿足平行要求的結果的平均值作為基礎數據。采用5 cm 光程的玻璃樣品池,在2臺波長范圍為700~1 100 nm(2 002 波長點)的近紅外光譜儀器(用于建模的是主儀器,用于傳遞的是從儀器)上,以空氣為參比,分別對混胺樣品進行光譜掃描,以10 次掃描的平均值作為光譜數據。
采用K/S 算法將樣品集分為校正集、預測集和轉換集。校正集用于建模和轉換集樣品選擇,預測集用來檢驗建模和模型傳遞效果,轉換集用于模型傳遞。
對主儀器的40個校正集樣品的光譜進行平滑、微分等處理,采用偏最小二乘法建立校正模型,采用交互驗證方法確定最佳主成分數,通過校正集標準偏差(SEC)、相關系數(R2)和預測集標準偏差(SEP)評價模型優劣,確定最佳分析模型。
采用DS算法建立主儀器和從儀器測量光譜信號的函數關系,盡可能使從儀器上測定的譜圖與主儀器測定的同一樣品的譜圖相同。通過光譜平均差異(ARMS)、光譜校正率(Prcorrected)及SEP 評價傳遞性能[9-10]。
DS 算法是利用全譜區的光譜數據計算主儀器光譜S1和從儀器光譜S1之間的轉換矩陣F ,使得從儀器光譜與主儀器光譜基本一致[12-14]。文中采用奇異值分解[15-16]和偏最小二乘法[17]2 種算法計算轉換矩陣。轉換集樣本通過K/S 算法[18]獲得,轉換集樣品的數量通過計算ARMS確定。模型傳遞的基本流程見圖1。

圖1 DS傳遞算法流程圖Fig.1 Flow chart of DS algorithm
K/S算法是一種通過計算樣本之間的歐氏距離來選擇轉換集樣品的常用方法。為了選出合適的轉換集樣品,分別采用DS-SVD 和DS-PLS算法計算主、從儀器間的轉換矩陣,在對從儀器采集的光譜進行校正的基礎上,繪制2 種算法所得樣品數與ARMS 和Prcorrected的關系圖,分別如圖2、3所示。
由圖2可見,隨著轉換集樣品數的增多,ARMS逐漸下降,當選擇的轉換集樣品數增至16 時,ARMS 變化幅度很小,處于平穩狀態。由圖2 和圖3 可見,DSPLS 算法的光譜校正效果好于DS-SVD,其光譜校正率可達到97.5%。

圖2 ARMS與轉換集樣品數的關系Fig.2 Relationship between ARMS and the number of transfer samples

圖3 轉換集樣品數對光譜校正率的影響Fig.3 Impact of the number of transfer samples on Prcorrected
主因子數對使用PLS 算法所轉換矩陣的校正效果的好壞有重要影響。為挑選最佳主因子數,將ARMS 值隨主因子數的變化作圖。設定主因子數范圍1~10,計算不同主因子數下的校正參數,并對從儀器預測集光譜進行校正,計算校正后與主儀器光譜的ARMS 值。ARMS 隨主因子數變化如圖4 所示,整體趨勢為:先變大,再變小,后趨于平穩。當主因子數為3 時,ARMS 最小,校正效果最好。因此,最佳主因子數為3。

圖4 主因子數對ARMS的影響Fig.4 Impact of principal factor number on ARMS
選擇轉換集樣品數為16,采用最佳主因子數為3的DS-PLS 算法建立轉換矩陣。主、從儀器及校正后的光譜如圖5所示,從儀器光譜經過DS-PLS校正后與主儀器間光譜的差異基本消除。

圖5 主儀器、從儀器以及校正后的光譜圖Fig.5 Spectra of reference instrument,target instrument and corrected spectrum
分別用主儀器所建模型對主、從儀器的15個混胺樣品光譜以及從儀器校正光譜進行預測,獲得3 種情況混胺樣品的密度、三乙胺、二甲苯胺、水分和二乙胺指標的預測結果的標準偏差,結果如表1所示。由表1可見,采用DS-PLS算法對從儀器光譜進行校正后,密度、水分、三乙胺、二甲苯胺和二乙胺的預測結果的SEP 明顯降低,接近主儀器模型的預測效果,這說明DS-PLS算法對混胺燃料近紅外光譜分析模型傳遞是有效的。圖6 分別是密度、三乙胺含量、二甲苯胺含量、水分含量、二乙胺含量的主儀器光譜分析結果與真值的誤差(A)、模型校正前從儀器預測結果誤差(B)和模型校正后從儀器預測結果誤差(C)分布圖。由圖可見,模型校正前誤差值較大且容易偏向一邊,而模型校正后從儀器和主儀器預測結果的誤差接近且正負誤差分布較均勻,基本滿足誤差分析要求。

表1 DS-PLS模型傳遞前后混胺樣品的預測結果Tab.1 Prediction results of mixed-amine sample


圖6 各分析指標近紅外光譜預測結果誤差分布圖Fig.6 Error distribution of analytical items determined by NIR
模型傳遞是解決實際應用中近紅外光譜分析模型在不同儀器間共享的一個快速有效的手段,通過比較奇異值或PLS 算法,確定DS-PLS 算法能更好地消除不同儀器間光譜差異,光譜校正率達到97.5%,通過計算ARMS 確定了最佳轉換集樣品數和PLS 算法的主因子數。對混胺樣品數的分析結果表明,模型傳遞后,密度、水分、三乙胺、二甲苯胺和二乙胺的預測結果的SEP 大大降低,相關系數明顯提高,與主儀器模型的預測結果差距較小,基本實現了近紅外光譜分析模型在主從儀器間的共享,為其他樣品的模型傳遞提供了依據。