薛 佳
(西安石油大學化學化工學院,陜西 西安 710065)
化學計量學(Chemometrics)[1]是一個包括數學、統計學、計算機科學等新興的多科目化學分支,為當代化學光譜分析研究提供有效的方法支撐。它可以設計和選擇優化的量測程序和實驗工藝,用于最大程度地提取有用的信息以解釋物化數據。它的優勢已經在相關的光譜技術研究范圍中得到了印證。因此,我們在這里回顧化學計量學在光譜解析中的應用研究。
光譜分析技術(LIBS、IR、Raman、UV-vis光譜等)[2]用做元素分析技術因其具有樣品處理簡單、無損、快速且實時監測和現場在線分析等優點,受到研究人員的廣泛關注。由于激光能量的波動、復雜的基體效應和樣品不均勻性等因素產生了復雜的光譜,如何從大量復雜的高維光譜數據中提取有用的信息并減少背景信號,噪聲和重疊峰等干擾因素來提高定性和定量分析的準確性仍是光譜技術的主要問題。借助化學計量學工具處理復雜的光譜數據,可以提高光譜數據分析的準確性和穩定性,現已成為光譜分析技術的關鍵技術支撐。
隨著激光脈沖能量的波動、光譜儀分辨率的差異以及外部環境和樣品不均勻性的影響,大量的干擾信息存在于光譜數據中,選擇合適的化學計量學方法可以減少或去除光譜中隨機產生的誤差等因素對光譜的影響,提高信噪比,從而提高光譜分析檢測的穩定性,靈敏度和可重復性。數據預處理的目的就是消除干擾信息對原始光譜的影響,并為后續的定性和定量分析提供高質量的光譜。常用的方法[3]有:平滑、基線校正、歸一化、求導、多元散射校正、標準正態變量變換和小波變換等。
標準正態變量變換(Standard normal variate transformation,SNV):在光譜預處理中常用于糾正單個樣品的樣品粒度和水分含量有關的問題,通過減少基線偏移和曲率的混淆影響來降低多重共線性并計算光譜差異。可以削除樣品(如土壤)粒徑尺寸、不均勻介質的散射和光路變換對各種漫反射光譜的干擾。
小波變換 (Wavelet transform,WT):是時間-頻率轉換函數的一種新的變換分析方法,使用伸縮平移計算從多個方面細化信號,對時間和頻率分別在高頻和低頻處細分,使光譜信息的每一個細節都能被關注,克服了其他分析方法適用的限制性。其實際上是將離散信號在小波基函數上的反射,常用的小波基函數主要有Haar小波、Daubechies小波、Coiflet小波、Symlets小波等。
光譜數據內含大量樣品特征的物化信息,不同類型樣品的光譜是不同的,化學模式識別即使用化學計量學方法來提取該差異信息以分類區分樣品的過程。它是一種多變量分析技術,能發現復雜光譜中暗含的內在規律,用于識別不同類型材料的光譜特點,以辨認區分未知樣品。包括有監督和無監督模式識別。
有監督模式識別的基本思想是使用具有已知類別作為訓練集樣本來構建訓練模型,然后由訓練模型預測未知樣本的類別。常見的方法有:簇類的軟獨立建模方法、K最近鄰法、偏最小二乘判別分析、支持向量機和隨機森林等。
無監督模式識別即聚類分析(Clustering analysis),利用同類樣品彼此相似的思路,相似化合物之間的距離在多維空間中較小,反之非相似化合物之間的距離較大,從而實現未知樣品的分類。其中最常見的方法是主成分分析法(Principal component analysis,PCA),通過光譜數據降維處理生成的較少主成分用于空間投影和映射來解釋數據中的大多數信息。Tang等[4]采用PCA對數據降維,取前3個主成分輸入小波神經網絡,建立基于PCA和小波神經網絡的近紅外多組分預測模型 (WNN),表明所建立的WNN模型能用于同時預測小麥葉片全氮和可溶性總糖兩種組分含量。
常規的定量分析方法常使用統一回歸分析方法建立元素或組分濃度與分析線強度間的關系,但建立的這種關系通常無法獲得復雜矩陣樣本的所需結果。現代頻譜分析中的頻譜信號由一系列矢量數據組成,其變量是相互依賴的,因此,應考慮具有多個自變量的回歸分析問題,且在譜圖數據大幅增加的條件下,能夠獲得有關定量分析的更多有用信息。建立定量模型的多元校正方法有:人工神經網絡、支持向量機回歸、偏最小二乘、主成分回歸和多元線性回歸等。
多元線性回歸(Multiple linear regression,MLR):其回歸模型可以通過PLS回歸構建,能夠有效使用光譜數據的特征變量來減少基體效應,提高光譜定量分析回歸結果的穩定性。Jin等[5]使用DFT計算了17個取代芳烴類化合物的電子結構參數,篩選出影響發光菌毒性顯著的5個變量,建立其結構與毒性之間的MLR模型,表明所建立的模型具有很好的穩定性和預測能力。
為了構建高性能的校正模型,可以建立以決定系數(R2)和相對誤差(RE)為評價指標的模型評價體系,實現對模型參數及模型的選擇與優化。
決定系數(R2):

相對誤差(RE):

yi,actual為第i樣品性能參數的實際值,yi,actual為所有樣品性能參數實際值的平均值,yi,predicted為第i樣品性能參數的預測值,n為樣品個數。
本文綜述了化學計量學方法在光譜數據預處理以及定性和定量分析方面的應用研究。在傳統單變量校正曲線方法的基礎上,發展基于化學計量學策略的多變量定量分析方法。從復雜光譜數據中提取特性信息,減少背景噪聲及干擾信息對定量分析結果的影響,建立穩健預測模型。化學計量學結合光譜技術應用模式識別和分類分析,在復雜的材料和工業分析中顯示出巨大的潛力。因此,針對基于光譜技術的準確定性與定量分析問題,開展基于化學計量學預測模型構建過程中的光譜預處理、特征變量選擇、模型選擇與優化等一系列研究,有助于實現研究光譜技術的過程分析與精準控制。