張 進,胡 蕓,周羅雄,李博巖*
(1.貴州醫科大學 公共衛生學院 環境污染與疾病監控教育部重點實驗室,貴州 貴陽 550025;2.貴州醫科 大學 食品科學學院,貴州 貴陽 550025;3.貴州中煙工業有限責任公司 技術中心,貴州 貴陽 550009)
近紅外(Near-infrared,NIR)光是一種介于紅外和可見光吸收區域的電磁波,其波長范圍與分子中含氫基團的振動倍頻和合頻能量一致,因此常被用于常量有機成分的檢測。但隨著實驗技術和數學理論的發展,近紅外光譜的應用范圍也向微量組分[1]或無機成分[2]檢測的領域拓展,主要方式包括:①利用富集技術對樣品進行預處理以提高其相對含量[3];②利用增強的方式放大檢測信號[4];③利用擾動近紅外光譜技術增加有效信息含量,提高多元校正模型的檢測限。例如新興的水光譜組學綜合利用了溶質周圍水分子對目標組分吸收的放大作用以及多元校正算法數據挖掘的特點,實現對水體系中多種物質的檢測和分析[5-7]。近紅外光譜技術具有綠色、快捷的特點,其檢測方式主要包括漫反射和透射兩種。近紅外光譜的漫反射檢測技術可用于非接觸式檢測,從而在一定程度上避免了繁瑣的樣品預處理,為快速檢測和過程控制提供了有效的手段。近紅外光譜技術在科學研究和工業生產中具有廣泛應用[8],例如,石油冶煉[9]、農業加工[10-11]、醫療衛生[12-14]以及食品安全[15-16]等。
化學計量學(Chemometrics)是在機器學習的基礎上發展起來的用以解決化學領域中實際問題的一門學科。近紅外光譜的吸收強度相對較弱且重疊嚴重,很難通過常規的單變量分析得到準確結果。因此,化學計量學算法在近紅外光譜分析應用中占有重要地位[17],尤其在數據挖掘方面。利用化學計量學中的多元校正方法能夠將近紅外光譜的眾多變量結合起來共同反映目標組分的性質。一般來說,近紅外光譜的變量數眾多、共線性嚴重,因而多采用二維算法建立近紅外光譜模型,這些方法很難像高維算法一樣產生唯一解[18]。因此,在實際應用中,大部分近紅外光譜的建模算法均伴隨著降維和嚴格的約束條件。譬如,主成分分析(Principal component analysis,PCA)是一種最常見的化學計量學算法,通過嚴格的正交和歸一化約束,所有的近紅外光譜變量均可被幾個甚至十幾個正交變量簡化代替,再利用傳統的最小二乘算法建立模型。
近紅外光譜的數據預處理、信息變量選擇、多元校正模型的建立以及有效模型轉移算法是保證近紅外光譜技術應用和模型預測效果的重要手段和方法。這些方法的功能主要為消除背景干擾、篩選信息變量以及消除外界擾動對預測準確性的影響。2003年,田高友等[19]評述了小波變換在近紅外光譜預處理中的應用,指出小波變換能夠有效提取信息以及消除背景干擾。褚小立等[20-21]總結了多種近紅外光譜的變量選擇和建模算法,并展示了部分算法的原理、具體計算過程和應用實例。2017年,張進等[22]全面綜述了多種最新的模型轉移算法,從算法的角度將其劃分為基于多元校正、因子分析、人工神經網絡、多任務學習和其他5類模型轉移方法。張學博[23]、柳艷云[24]、宋相中[25]、Yun[26]等分別從不同角度總結了近紅外光譜的變量選擇、模型轉移和多元校正算法。本文在此基礎上綜述了近年來針對近紅外光譜技術的發展與應用提出的一系列化學計量學新算法,主要包括近5年的光譜預處理、光譜變量選擇、多元校正和模型轉移等算法。
光譜預處理算法主要指利用平滑、求導、濾波等技術消除光譜中的噪聲和背景干擾,提高模型預測效果的一類方法[27-29]。
由于近紅外光譜的檢測器信噪比不同,測量信號中會不同程度地包含噪聲成分,使得建立的模型預測效果變差。在不嚴重損失有效信息的情況下,消除部分噪聲可以提高信號的信噪比,能夠在一定程度上提高模型的預測效果。從噪聲分布的角度看,通常認為近紅外光譜的噪聲具有獨立同分布的特點。因此,基于窗口移動技巧的平滑算法(Smoothing algorithm)能夠有效降低光譜中的噪聲成分。其中,最具代表性的方法為Savitzky-Golay算法[30]。該方法針對窗口范圍中心的光譜數據點施加大權重,而邊緣的光譜數據點施加較小的權重,進而通過去卷積的方式對數據進行平滑,具有計算速度快和平滑效果好的特點。盡管有觀點指出近紅外光譜中存在非等性噪聲和相關噪聲[31-32],但平滑算法在一定程度上仍能夠有效提高模型的預測效果[33-34]。
近紅外光譜中大部分為樣品吸收信號,還存在部分與樣品發生彈性碰撞的散射信號[35]。此外,還可能包括與樣品無關的信號,如儀器本身的基線,這部分信號通常稱為背景。背景信號本身不包含樣品信息,因此在建模過程中會影響模型的預測效果。常見的扣除背景信號的算法包括有限脈沖響應(Finite impulse response,FIR)[36]、多元散射校正(Multiplicative scatter correction,MSC)[35]、標準正態變換(Standard normal variate,SNV)[37]、正交投影(Orthogonal projections,OP)[38]、擴展多元信號校正(Extended multiplicative signal correction,EMSC)[39]。這些方法大都假設近紅外光的散射符合一種特定的分布,因此在校正過程多使用平均光譜的信息作為參照。
從信號頻率的分布角度看,近紅外光譜的噪聲具有相對較高的頻率,而背景的頻率相對較低,因此,對于特定頻率成分有過濾效果的帶通濾波器往往也具有降噪和背景扣除的功效。傅里葉變換(Fourier transform,FT)是一種利用不同頻率的正、余弦疊加的形式表示原始信號的方法,對信號的頻率分析效果顯著。在實際應用中,通常用快速傅里葉變換(Fast Fourier transform,FFT)的方式進行傅里葉變換操作。但傅里葉變換缺乏在時域的分辨能力,故在近紅外光譜實際分析中應用并不廣泛。小波變換(Wavelet transform,WT)是一種多尺度的分析方式,用迅速衰減的小波基進行卷積操作,產生的小波系數同時具有時域和頻域的分辨能力。長期的研究和應用證實小波變換是一種扣除背景和噪聲的有效方法[40]。圖1為小波變換光譜預處理示意圖。由圖1A可以看出sym12小波在時域迅速衰減的性質。圖1B展示了sym12小波經快速傅里葉變換后的系數,sym12實際為通過一定頻率信號的帶通濾波器。圖1C為1.0 s的模擬信號,其中0~0.5 s為低頻,而0.5~1.0 s為高頻。經過小波變換的系數(圖1D)表明,其無論是在頻率尺度上還是時間尺度上均有較好的分辨能力。


小波變換不僅能夠消除低頻背景和高頻噪聲,也是一種非常有效的數值求導方法。傳統數值求導可以提高光譜分辨率,同時也會降低光譜的信噪比。小波變換求導法在提高光譜分辨率的同時可保證光譜的信噪比。Shao等[41]使用小波變換求導法處理水和乙醇的混合融合光譜,展現出更多的特征信息,建立了更加有效的定性定量模型。
加權多元散射校正(Weighted multiplicative scatter correction)[42]是一種結合了變量選擇和多元散射校正的聯合方法。該方法通過交替執行變量選擇和多元校正過程,同時實現代表性變量選擇與散射校正,得到的結果優于傳統的光譜預處理算法。對數比值法(log-ratios)[43]則利用對數變化和數據標準化的聯合方法進行散射校正,克服由尺寸效應(Size effect)引起的分析誤差。這些聯合方法同時考慮了多因素的共同作用,有望進一步消除近紅外光譜中的散射效應,從而提高模型分析的準確度。
近紅外光譜的吸收區間大致可歸屬為含氫基團C—H、N—H、O—H和S—H基頻分子振動的一、二、三級或更高級倍頻及其合頻[44],如水分子的合頻大致在5 155 cm-1,伸縮振動一級倍頻在6 944 cm-1;N—H的伸縮振動一級倍頻在6 666 cm-1;酚類和醇類的一級倍頻在7 092 cm-1,二級倍頻在10 000 cm-1。對于特定的體系目標組分,并非所有吸收變量能與之直接相關聯。另外,儀器的非等性噪聲等因素也會產生信噪比較低的光譜吸收變量,這些變量可對建模造成干擾,引起模型預測效果變差。光譜變量選擇算法能夠在眾多近紅外光譜吸收變量中選擇特征性的信息變量,從而在一定程度上提高模型的準確性。
簡單直觀的變量選擇方法是將所有的光譜變量做全排列,對每種可能的變量組合進行驗證,找到一組最優的變量組合[45]。然而,對數以千計的近紅外光譜變量,可能的組合數過于龐大,以目前的計算速度幾乎無法完成。所以,利用優化算法進行變量選擇是有效可行的策略。以模型的預測誤差為優化目標,通過最小化目標函數尋找有效減低模型預測誤差的變量組合,例如,啟發式并行模擬退火算法(Heuristic and parallel simulated annealing algorithm)[46]等。此類算法在一定程度上能夠選擇部分特征性或代表性的變量,但其優化算法的設計尤為關鍵,直接影響計算效率和效果。
基于變量重要性判據的方法能夠有效提高計算效率,例如,回歸系數絕對值、回歸系數的統計學參數stability、P值以及變量之間的冗余程度等。常見的方法有無信息變量刪除(Uninformative variable elimination,UVE)[47]、蒙特卡羅-無信息變量刪除(Monte Carlo-uninformative variable elimination,MC-UVE)[48-49]、隨機測試(Randomization test,RT)[50]、競爭自適應重加權采樣(Competitive adaptive reweighted sampling,CARS)[51]、雙競爭自適應重加權采樣(Double competitive adaptive reweighted sampling)[52]、置換正交波長選擇(Replacement orthogonal wavelengths selection)[53]等。這些方法的計算效率和效果得到了進一步的提高,可以選出特征性或代表性的變量,有效提高了模型的預測準確性。
變量之間的協同效應包括正協同和負協同作用,可能增加變量選擇的難度[54]。近紅外光譜的變量選擇過程往往會受到負協同變量的干擾,從而導致計算的變量重要性判據失去代表性。為充分考慮變量協同效應的影響,Zhang等[55]提出了一種基于變量排列組合的重要性判據——C值算法。該判據定義為每個變量在有限次排列組合中對預測誤差的平均貢獻,用線性模型擬合代表變量組合的采樣矩陣和對應的交互驗證誤差向量,得到的回歸系數即為C值。該方法基于變量直接排列組合的思路選擇代表性變量,有望在存在正負變量協同效應時選出代表性變量。
收縮(Shrinkage)策略是一種改善變量選擇效果的有效方法[56]。該方法通過多步變量選擇代替單步選擇,每一步均刪除少量的干擾變量來收縮變量篩選的空間。該策略在CARS方法中被使用,顯著提高了基于回歸系數絕對值選擇變量的效果。Zhang等[55]將收縮策略應用于更加高效的變量重要性判據C值中,提出了基于C值的多步變量選擇(Multi-step variable selection based on C value,MSVC)方法。該方法充分利用C值對負協同效應變量的識別能力,通過多次反復剔除隱藏的負協同效應變量達到選擇重要變量的目的,最終能夠有效提高模型的預測準確性。
綜合策略也是一種有效改善變量選擇效果的方法。該方法的基本思路是同時或逐步采用多種方法進行變量選擇,然后對結果進行綜合評價。Zhang等[57]在此基礎上提出了一種加權表決最小收縮和選擇算子(Weighted voting strategy combined with least absolute shrinkage and selection operator)方法。此方法在有放回的重采樣基礎上綜合考慮了稀疏正則化和回歸系數的信息,可選出最具有代表性的變量。此外,排序預測選擇(Ordered predictors selection)[58]、穩定自舉軟收縮方法(Stabilized bootstrapping soft shrinkage approach)[59]等也采用了類似綜合策略進行變量選擇。這些方法能夠在原有的基礎上改善變量選擇,然而選擇效果在很大程度上取決于對不同方法的平衡和綜合利用度。
為了降低變量選擇的難度,對近紅外光譜進行分段處理也是一種有效的策略,因此衍生出了很多波段選擇的方法。Zhang等[60]提出了基于排列組合的波段選擇方法——啟發式最優波段組合(Combination of heuristic optimal partner bands),通過在光譜中選擇冗余性最低的代表性變量,并以此為中心向周圍擴展一定的寬度形成波段,再采用變量排列組合的思路選出具有協同效應的波段組合,從而提高C值的變量選擇效率。區間組合優化(Interval combination optimization)[61]是一種等長度波段組合優化的方法。該方法將整個波段劃分為若干等長的波段,然后采用變量選擇的思路進行組合優化,在選擇變量的同時大大降低了選擇效率,而波段劃分的合理性可能會顯著影響最終變量選擇的效果。
隨著近紅外水光譜組學[5-7]的發展,溫度擾動相關的變量選擇問題也逐漸凸顯出來。此外變量選擇往往涉及對多組不同擾動條件下的數據進行同時選擇,需要兼顧擾動和目標組分的共同作用,選出對擾動和目標組分變化敏感的變量。Cui等[62]將變量選擇的思路應用于溫度依賴的水光譜組學數據中,選出與溫度變化相關的代表性變量,從而顯著降低了水光譜組學分析的復雜程度。
多元校正是化學計量學算法中的重要組成部分,根據其研究目標是否離散,總體上可分為判別分析(即定性分析)與回歸分析(即定量分析)。常見的多元校正方法包括多元線性回歸(Multivariate linear regression,MLR)、主成分回歸(Principal component regression,PCR)、偏最小二乘(Partial least squares,PLS)、支持向量機(Support vector machine,SVM)和人工神經網絡(Artificial neural network,ANN)等。這些方法常與光譜預處理、變量選擇、模型轉移等算法聯用,將近紅外光譜中多個(或全部)變量結合起來共同反映研究目標的性質。
基于采樣理論的模型組合方式,主要包括樣本采樣和變量采樣兩種,能夠在一定范圍內提高校正模型的預測能力。Bian等[63]提出一種基于變量空間采樣偏最小二乘(Variable space boosting partial least squares,VS-BPLS)的模型組合方法,將一系列變量重采樣的子模型通過加權的形式組合成一個總模型,并通過每個子模型能夠解釋光譜信號的總方差決定的其權重大小。作者使用兩個近紅外光譜數據集驗證了該方法在一定程度上能夠提高模型預測的準確性和穩定性。
近紅外光譜的非線性可能會導致線性模型的預測結果變差。目標組分的濃度范圍過大、光譜數據預處理方法的選擇不當以及儀器漂移均可能引起近紅外光譜與組分濃度的非線性關系問題。Liu等[64]提出一種在線LASSO(Just in time-least absolute shrinkage and the selection operator,JIT-Lasso)方法,用來解決在線近紅外光譜由時序漂移引起的非線性響應問題。該方法首先定義了一種基于光譜距離與時序差加權的樣本距離盤踞,然后根據校正集與驗證集樣品的距離對樣本進行動態加權,建立隨驗證樣品動態變化的模型,從而能夠在一定程度上提高模型的預測準確度,降低預測誤差。
陳增萍課題組提出光譜形變理論(Spectral shape deformation,SSD)[65]的多元校正框架。該方法認為傳統線性校正模型對于非均相體系和異質性樣本可能存在偏差,主要是由于近紅外的光程可能隨樣品發生變化?;诖思僭O,對光程可變的樣本進行光程修正,再建立多元校正模型,可得到更為準確的分析結果。
深度學習(Deep learning)是機器學習領域的一個新方向。近年來,圖形處理器(Graphics processing unit,GPU)加速了數學計算的發展,使得訓練深度學習模型不再困難。目前,深度學習的基本結構是由不同功能的層(Layer)組成的神經網絡,包括卷積層(Convolution layer)、池化層(Pooling layer)、激活函數層(Activation function layer)、壓平層(Flatten layer)、全聯層(Full connection layer)、丟棄層(Dropout layer)、輸入層(Input layer)和輸出層(Output layer)等。其中卷積神經網絡(Convolution neural network,CNN)是深度學習中最具代表性的一類模型。Zhang等[66]提出針對近紅外光譜分析的CNN模型,由1個輸入層、3個卷積層、1個壓平層、1個全聯層和1個輸出層構成。對4組近紅外光譜數據的驗證結果表明,該模型的預測效果相比傳統多元校正模型有所提高。Chen等[67]提出的點對點的卷積神經網絡模型則由1個輸入層、1個卷積層、1個激活函數層、1個全聯層和1個輸出層組成。組合卷積神經網絡(Ensemble convolutional neural networks)策略[68]通過訓練多個模型后進行加權組合,可以提高CNN在近紅外光譜分子中的預測能力。對于近紅外光譜的建模,深度學習已顯現出一定的優勢。然而,深度學習的“黑匣子”特性導致模型解釋性相對較差;而且深度學習的模型也往往較復雜,易陷入局部最優的困境,因此需要較多樣品才能訓練出相對較好的模型。
近年來提出的極限學習機(Extreme learning machines,ELM)是一種結構非常簡單的人工神經網絡模型[69]。由于其泛化性能良好,學習速度比傳統神經網絡快很多倍,因此在諸多領域受到廣泛關注。堆疊組合極限學習機(Stacked ensemble ELM,SE-ELM)[70]將近紅外光譜分為若干區段,建立多個ELM模型,再用不同權重將這些模型組合起來。該方法對6組近紅外光譜數據的驗證結果表明其預測效果和泛化能力(即對未知樣品的預測效果)均優于傳統多元校正模型。此類模型的優點是計算速度快、預測效果好,而且通過多模型組合或方法間的聯用可以進一步提高模型的泛化性能。
近紅外光譜易受外界因素干擾而發生擾動或變化,例如溫度、濕度、樣品形態、粒度以及儀器升級、更換等。通過在不同條件下采集的樣本光譜建立函數轉換關系校正光譜、模型系數或預測結果的方法稱為模型轉移方法。筆者總結了一些常見的模型轉移算法[22],主要包括斜率截距法(Slope/bias,S/B)[71]、專利算法(Shenks algorithm)[72]、直接標準化(Direct standardization,DS)[73]、分段直接標準化(Piecewise direct standardization,PDS)[73]、光譜空間轉換(Spectral space transformation,SST)[74]、典型相關性分析(Canonical correlation analysis,CCA)[75]和交替三線性分解(Alternating tri-linear decomposition,ATLD)[76]等。這些方法大多能夠有效消除光譜間的差異,提高模型的準確性和適用性。
近紅外光譜的使用范圍廣泛,產生光譜差異的因素可能互相疊加,導致了模型轉移的困難。針對多因素導致的光譜差異,Zhang等[77]提出了一種穩健的模型轉移方法——多級同時成分分析(Multi-level simultaneous component analysis,MSCA)。該方法將外界環境擾動引起的光譜差異分為兩部分:組分間的通用差異和特異性差異,通過分步依次校正這兩部分的差異實現穩健的模型轉移目的。
因子分析是將數據在低維空間中近似表達的一類方法。利用因子分析將高維空間中的光譜轉移轉化為低維空間中的抽象因子轉移,能夠有效降低模型轉移的復雜程度。例如,聯合唯一分塊分析(Joint and unique multiblock analysis)[78]、域不變偏最小二乘(Domain-invariant partial-least-squares)[79]、仿射不變式(Affine invariance)[80-81]以及MSCA模型轉移方法。Zhang等[82]在此基礎上提出了一種基于權重系數的模型轉移方法(Calibration transfer based on the weight matrix),該方法在偏最小二乘權重系數的基礎上構造模型轉移函數,轉化偏最小二乘權重為得分,將光譜間的轉化變換為光譜與得分間的轉化,簡化了模型轉移的復雜程度,提高了模型轉移的可靠性。
基于拉格朗日乘子法的正則化方法不但能夠實現模型的平滑、稀疏等特性,還能夠自由結合多種約束實現模型轉移和模型更新。此類方法通過超參數(Hyper-parameter)來平衡效率(目標函數)和模型復雜程度(約束條件)的關系,但需通過交互驗證或外部驗證決定合適的參數。Zhang等[83]在此基礎上提出了一種基于嶺回歸的模型更新方法,將預測優化目標和模型系數的2范數約束相結合,實現了模型系數的更新,解決了由于儀器漂移或樣本變化引起的模型預測能力和可靠性變差的問題。
模型組合方法在模型轉移中也有應用。Chen等[84]提出了一種組合主成分分析、極限學習機和自適應遷移學習算法(TrAdaBoost algorithm)的模型轉移方法,首先通過迭代提升的策略建立多個學習機,再通過加權將所有學習機綜合起來建立一個適用于不同條件下的通用模型。該方法實際為一種全局建模的策略,思路簡單,模型預測效果有所提高,但相對傳統基于標準樣品的模型轉移策略略顯不足。
一般來說,使用標準樣品的模型轉移方法的結果相對更加準確,然而其應用性受到限制。南開大學邵學廣課題組提出了一系列無需標準樣品的模型轉移方法,例如,雙模型策略(Dual model strategy)[85]、偏最小二乘校正(PLS-corrected)[86]和線性模型校正(Linear model correction,LMC)[87]方法。這些算法無需使用在不同儀器或條件下采集的標準樣品的近紅外光譜,即可實現不同條件下采集的光譜或模型預測值的校正。Zhang等[88]在LMC基礎上提出的修正線性模型校正(Modified linear model correction,mLMC)方法利用拉格朗日乘子法,將預測優化目標函數與不同條件下模型系數相關性約束相結合,實現了對不同儀器設備基礎上建立的分析模型高效、快速的無標準樣品轉移。
隨著現代儀器制造技術的不斷發展,近紅外光譜儀逐漸向“微型化”的方向發展,更多地扮演著一種通用傳感器角色,出現在各種工業生產和人民的生活中,例如:工業過程控制,超市中農產品、肉制品、奶制品、蛋類等日常檢測。使用者也逐漸從專業檢測分析科研人員轉變為工人、市民和普通消費者。傳統的化學計量學方法的應用往往需要謹慎的算法選擇、參數調整等一系列過程,導致大量非專業人員望而卻步。因此,新時代背景下的化學計量學方法正朝著“自動化”、“智能化”、“云計算”的方向發展,同時助力近紅外光譜技術走出實驗室,進入普通生活的千家萬戶。
隨著“互聯網+”和“大數據”時代的到來,近紅外光譜的應用前景越來越廣泛,多種傳感器的聯用現象也越來越普遍,同時化學計量學方法更多地考慮數據間的相互融合和補充。近紅外光譜對水分、濕度、儀器狀態等外界擾動非常敏感,可能會引起傳統的化學計量學方法所建立的模型效果變差。如果將擾動看作補充信息的一種新維度,借助多種傳感器提供的額外信息建立針對擾動的自適應算法,能夠化干擾為信息,有效提高近紅外光譜分析的準確程度。南開大學邵學廣課題組提出了多種基于溫度擾動的水光譜學算法,將溫度擾動作為一種數據信息增強的手段,從而提高了近紅外光譜分析的效果和技術使用范圍。因此,新時代下化學計量學算法的發展應以“數據融合”和“相互補充”為導向,以助力近紅外光譜檢測分析技術向更加廣泛、準確的方向發展和應用。