楊輝華 張曉鳳 樊永顯 謝譜模 褚小立
摘要為解決近紅外光譜分析中的模型傳遞問題,本研究提出了一元線性回歸直接標準化算法(Simple linear regression direct standardization,SLRDS)。為驗證算法的有效性,采用玉米樣品的近紅外光譜集進行實驗,并與傳統(tǒng)的直接標準化算法(Direct standardization, DS)、分段直接標準化算法(Piecewise direct standardization, PDS)進行比較。實驗結(jié)果表明,SLRDS算法不僅能夠有效消除近紅外光譜儀之間的差異,很好地實現(xiàn)玉米樣品的PLS校正模型在3臺儀器之間的共享,而且與DS和PDS算法相比,具有傳遞性能高、模型簡單及所求參數(shù)少等優(yōu)點。關(guān)鍵詞近紅外光譜; 模型傳遞; 一元線性回歸
20140330收稿;20140702接受
本文系國家自然科學基金項目(Nos.21365008,61105004), 廣西自然科學基金資助項目(Nos.2012GXNSFAA053230,2013GXNSFBA019279), 廣西信息科學實驗中心重點基金項目(No.201202), 廣西高等學校優(yōu)秀人才資助計劃項目(桂教人[2011]40號)資助
*Email: 13718680586@139.com; yongxian.fan@gmail.com1引言
近紅外光譜分析技術(shù)因具有快速、高效、無損和易于在線分析等優(yōu)點,近年在制藥、農(nóng)業(yè)、生物和石化等諸多領(lǐng)域得到了廣泛應用\[1~6\]。近紅外光譜分析技術(shù)的定量應用依賴于校正模型,即對標準樣品集的參考值(成分含量或物理化學性質(zhì))和對應的近紅外光譜進行關(guān)聯(lián),建立兩者之間的函數(shù)關(guān)系,對未知樣品的近紅外光譜應用該定量模型計算該樣品性質(zhì)的預測值[7]。但是,在實際應用中,由于儀器老化、儀器間差異及空氣、光源、探測器和測量引入的隨機噪聲,各儀器測量的光譜有差異,因此在某一臺光譜儀器上建立的校正模型,在應用于另一臺儀器上時無法適用或結(jié)果會產(chǎn)生較大的誤差。而要為每臺儀器分別建立校正模型,顯然是不可取的。根據(jù)文獻\[8\]報道,使用近紅外光譜法建立一個柴油十六烷值的校正模型,至少十幾萬元。對毒性較大、不穩(wěn)定的樣品建立校正模型,費用會更高。為解決這一問題,人們提出了模型傳遞方法,所謂模型傳遞是指經(jīng)過數(shù)學處理后,使一臺儀器上的模型能夠用于另一臺儀器,從而減少重新建模所帶來的巨大工作量,實現(xiàn)樣品和數(shù)據(jù)資源的共享\[9\]。模型傳遞的成功與否直接影響近紅外光譜分析技術(shù)的應用和推廣。
目前,模型傳遞算法主要有兩種,一種為有標樣算法,這類算法需要選擇一定數(shù)量的樣品組成標樣集(也稱轉(zhuǎn)換集),并在主儀器和從儀器上分別測得其光譜,從而找出該函數(shù)關(guān)系,如直接校正(DS)算法\[10\]、分段直接校正(PDS)算法\[11\]和Shenk′s算法\[12\]等;另一種是無標樣算法,這類算法不需要選擇標樣集,如有限脈沖響應(FIR)算法\[13\]等。其中DS算法和PDS算法是最常用、最有效的算法,DS算法利用全譜區(qū)的光譜數(shù)據(jù)逐一校正每個波長點,原理簡單,使用方便,但所需標樣數(shù)多\[14\];PDS算法是一種多元全光譜模型傳遞算法,它的基本假設(shè)是實際光譜數(shù)據(jù)的變化只局限于一個小區(qū)域,選擇合適的窗口對各個波長點的光譜進行較正\[15\],但在實際中不同近紅外光譜儀上測量的光譜存在較大差異,這些差異大小及體現(xiàn)在譜區(qū)范圍有很大不同,有的是局部,有的是全譜區(qū),因此會產(chǎn)生一定的校正誤差。
本研究基于一元線性回歸提出一種新的有標樣模型傳遞算法——一元線性回歸直接標準化算法(Simple linear regression direct standardization,SLRDS)。利用玉米樣品的近紅外光譜集驗證算法的有效性,并與DS及PDS算法的傳遞效果進行對比。實驗結(jié)果表明:經(jīng)過SLRDS傳遞后,主從儀器上玉米樣品的預測集光譜平均差異度得到有效降低,預測結(jié)果得到明顯改善,并且相比DS及PDS,傳遞效果得到明顯提高。2原理與方法
設(shè)X(n×p)為任意光譜矩陣,其中n為樣品數(shù),p為變量數(shù);X(i,j)表示第i個樣品在第j個波長點處的吸光度;X(i,:)為光譜矩陣的行向量,表示第i個樣品在所有波長處的吸光度; X(:,j)為光譜矩陣的列向量,表示所有樣品在第j個波長點處的吸光度。為了區(qū)分主從儀器上的光譜矩陣,設(shè)Xm為主儀器上采集的光譜矩陣,Xs為從儀器上采集的光譜矩陣。
選取標準樣品集,在主從儀器上分別同時測量其近紅外光譜,得到光譜矩陣Xm和Xs。
2.1DS算法
DS算法是用轉(zhuǎn)換矩陣F建立光譜矩陣Xm和Xs之間的關(guān)聯(lián)。
Xm=XsF(1)
轉(zhuǎn)移矩陣F可通過式(2)得到:
F=X+sXm(2)
其中,Xs+為Xs的廣義逆陣,F(xiàn)為p×p維的矩陣。
對在從儀器上測得的未知樣品光譜Xunknown, 用公式(3)進行轉(zhuǎn)換得到與主儀器上測得的光譜相一致的光譜Xstd,再由主儀器建立的校正模型計算最終結(jié)果。
Xstd=XunknownF(3)
2.2PDS算法
在PDS算法中,用從儀器第i個波長點兩側(cè)窗口寬度為j+k+1的標樣光譜陣Xs,j+k+1(從第i-j波長點至第i+k波長點)與主儀器第i波長的標樣光譜陣Xm,j,計算該第i波長點的轉(zhuǎn)換系數(shù)Fi。然后逐點移動得到所有波長的轉(zhuǎn)換矩陣F。
對在從儀器上測得的未知樣品光譜Xunknown,經(jīng)固定窗口分段,由轉(zhuǎn)換系數(shù)Fi循環(huán)得到與主儀器相一致的光譜Xstd,再由主儀器建立的校正模型計算最終結(jié)果。
分 析 化 學第42卷第9期楊輝華等: 基于一元線性回歸的近紅外光譜模型傳遞研究2.3一元線性回歸直接標準化算法(SLRDS)
2.3.1一元線性回歸原理在一元線性回歸分析中,主要問題是根據(jù)一組n個測量值(xi,yi)找出b0和b的最優(yōu)估計值0和,使得=0+x與y達到最接近的程度,0與一經(jīng)求出,便可用于預測分析\[16\]。b0和b的估計值通常采用最小二乘法求得。
2.3.2SLRDS算法原理假設(shè)不同波長間吸光度是相互獨立的,利用一元線性回歸對從儀器上光譜進行校正。
通過式(6),可求出任意波長點j(j∈1…p)對應的回歸系數(shù)b0(j)和b(j),共有p×2個。對在從儀器上測得的未知樣品光譜Xunknown(n′×p),其中n′為未知樣品數(shù),由式(7)可得與主儀器上測得的光譜相一致的光譜xstd,再由主儀器建立的校正模型計算最終結(jié)果。
Xstd(:,j)=[ln×1Xunknow(:,j)]·b0(j)
b(j)(j∈1…p)(7)3實驗部分
3.1實驗樣品
為了驗證SLRDS算法的有效性,采用玉米樣品的近紅外光譜集(來源于:http://www.eigenvector.com/data/Corn/corn.mat)。光譜集包含在3臺不同光譜儀(分別記作m5,mp5,mp6)上測得的80個玉米樣品的近紅外光譜,光譜波長范圍為1100~2498 nm,間隔2 nm。同時包含玉米4種組分: 水分、油、蛋白質(zhì)和淀粉含量的參考值。
3.2定量校正模型及評價標準
利用偏最小二乘(PLS)方法建立定量校正模型,由于主因子選取太小會丟失有用信息,選取太大會包含過多噪音\[17\],因此,本研究設(shè)定最大主因子數(shù)目為15,并按留一交叉驗證的方法確定最終的主因子數(shù)。采用校正標準偏差(Standard error of calibration, SEC)、預測標準偏差(Standard error of prediction, SEP)和決定系數(shù)(R2)對PLS模型的性能進行評價。SEC和SEP越小,R2越大,表示模型的性能越好。采用光譜平均差異(ARMS) \[18\]、光譜校正率(Prcorrected)\[17\]及預測標準偏差(SEP)對模型傳遞算法(SLRDS、DS及PDS)的傳遞效果進行評價。ARMS越大,表示儀器間采集的光譜差異越明顯,Prcorrected為不同儀器之間的光譜差異扣除率,越大傳遞效果越好,SEP越小,同樣表明傳遞性能越好。ARMS=1n∑ni=11Ppi=1|Si2λ-Si1λ|(8)Prcorrected(%)=ARMS2uncrrected-ARMS2correctedARMS2uncorrected×100(9)
其中, Si1λ和Si2λ分別為第i個標準樣品在儀器1和儀器2上測定的λ波長點處的光譜數(shù)據(jù)。ARMSuncorrected為傳遞前的ARMS,ARMScorrected為傳遞后的ARMS。4結(jié)果和討論
4.1PLS模型的建立與主從儀器的選擇
首先利用SavitzkyGolay卷積平滑法對所有光譜數(shù)據(jù)進行平滑預處理,窗口大小為17,多項式階數(shù)為3;然后根據(jù)玉米樣品各成分含量的參考值梯度排序;最后采用隔三選一的方式選出27個樣品作為預測集,其余53個樣品作為校正集。m5,mp5和mp6儀器的校正集和檢驗集的樣品一致。利用PLS方法對玉米樣品各成分在3臺儀器上分別建立定量校正模型,
不同儀器之間有差異,因此相同樣品在不同儀器上建立模型的預測效果也存在差別。由表1可知,玉米的4種成分在3臺儀器上建立的校正模型,m5儀器上所建模型的預測效果要優(yōu)于mp5和mp6兩臺儀器,其R2相對更大,SEC和SEP相對更小,即模型更加穩(wěn)健、性能更好。因為主儀器自建模預測效果越好,則模型傳遞效果越好\[8\],所以應選擇預測效果較好的儀器m5作為主儀器(Master, M),mp5和mp6分別作為從儀器1(Slave 1, S1)和從儀器2(Slave 2, S2)。
4.2轉(zhuǎn)換集樣品的選擇
SLRDS算法為有標樣算法,需要選擇轉(zhuǎn)換集樣品。轉(zhuǎn)換集樣品數(shù)的選取對轉(zhuǎn)移效果有重要影響,轉(zhuǎn)換集樣品數(shù)太小,則使轉(zhuǎn)化信息不充分;轉(zhuǎn)換集樣品數(shù)太大,則使實際應用太復雜。通常,轉(zhuǎn)換集樣品取自校正集,選取的方法有杠桿點算法、MSID算法及KennardStone(KS)算法\[19\]等。其中,KS算法是一種應用最為廣泛的轉(zhuǎn)換集選取方法,其根據(jù)樣品間光譜的歐氏距離來計算樣品間差異,能夠產(chǎn)生具有代表性的子集。本研究將轉(zhuǎn)換集樣品數(shù)的上限設(shè)為20,以SEP最小為原則,對玉米樣品不同成分,分別利用KS算法從校正集中選擇最佳樣品數(shù)。
4.3模型轉(zhuǎn)移結(jié)果
4.3.1模型傳遞前后儀器間光譜差異分析當以玉米樣品中水分性質(zhì)選擇轉(zhuǎn)換樣品集時,圖1分別給出了預測集在主從儀器上的原始平均光譜。觀察圖1中3條光譜可以發(fā)現(xiàn)在模型傳遞前,從儀器上的光譜與主儀器上的光譜差異明顯,且基本上是基線漂移與少量波長漂移。圖2給出了經(jīng)SLRDS算法傳遞后預測集在主從儀器上的平均光譜,主從儀器上的光譜差異性得到明顯改善,兩臺從儀器上的光譜與主儀器上的光譜幾近重合。表2給出了玉米樣品的近紅外光譜經(jīng)SLRDS算法傳遞前后光譜平均差異(ARMS)及光譜校正率(Prcorrected)的計算值。以玉米中水分性質(zhì)為例進行說明,從表2可見,兩臺從儀器上的轉(zhuǎn)換集大小分別為6和7,光譜傳遞前主從儀器上的光譜平均差異(ARMSuncorrected)分別為0.2100和0.2365,經(jīng)SLRDS算法傳遞后光譜平均差異(ARMScorrected)分別降低為0.0766和0.0750,光譜校正率分別為86.68%和89.93%,與圖1、圖2的結(jié)果分析一致。由以上實驗結(jié)果可知,SLRDS算法能夠有效消除近紅外光譜儀之間的差異。
3.2模型傳遞前后預測結(jié)果分析分別用主儀器上建立的校正模型對預測集在從儀器上測得的光譜和經(jīng)過SLRDS算法校正過后的光譜進行預測,預測結(jié)果如表3所示。從表3可知,轉(zhuǎn)移后的蛋白質(zhì)和淀粉預測效果較轉(zhuǎn)移前有明顯提高,與主儀器的預測效果相當;轉(zhuǎn)移以后的水分和油分預測效果雖然與主儀器預測效果有明顯差距,但是較轉(zhuǎn)移前的預測效果有了一定提高。由以上實驗結(jié)果可知:SLRDS算法可有效提高近紅外光譜模型的預測精度,很好地實現(xiàn)玉米樣品光譜模型在3臺儀器之間的共享。為了進一步驗證SLRDS的傳遞效果,對SLRDS的模型傳遞效果與DS, PDS進行比較。DS和PDS的校正步驟與SLRDS類似,首先采用KS算法在校正集中選擇合適數(shù)目的樣品作為轉(zhuǎn)換集,然后利用DS和PDS計算轉(zhuǎn)化矩陣,最后再對預測集的光譜進行校正。轉(zhuǎn)換集大小和PDS的窗口寬度通過SEP最小的原則選出。PDS在主從儀器上傳遞水分模型時最佳窗口大小為5,其余情況為3。表4列出了模型傳遞前的預測標準偏差(SEPuncorrected)與經(jīng)過3種算法傳遞之后的預測標準偏差。經(jīng)3種算法傳遞后預測效果較傳遞前都得到不同程度提高,但是SLRDS相比DS和PDS校正后的光譜預測效果更接近主儀器的原始模型,傳遞效果更好。這是因為,DS算法是利用全譜區(qū)的光譜數(shù)據(jù)逐一校正每個波長點,所需標樣數(shù)多,而在本實驗中標樣數(shù)n=53,光譜波長點數(shù)p=700, n
Table 4Comparison of SLRDS, direct standardization (DS) and piecewise direct standardization (PDS) for SEP成分 Component 儀器 Instrument水分 Moisture S1S2油 Oil S1S2蛋白質(zhì) Protein S1S2淀粉 StarchS1S2一元線性回歸直接標準化算法SLRDS0.25180.27870.12010.10800.11260.12740.34410.3458直接標準化算法DS0.30060.28600.12510.12090.24000.21250.35350.4845分段直接標準化算法PDS0.26490.33760.16270.16670.38210.58100.65780.6859傳遞前預測標準偏差SEPuncorrected1.48551.58260.22530.34331.34881.50151.92081.47395結(jié)論
隨著近紅外光譜分析技術(shù)的普及,模型傳遞問題也備受關(guān)注。本文研究基于一元線性回歸提出一元線性回歸直接標準化算法(SLRDS)。并且在一個實際樣品集上驗證算法的有效性。實驗結(jié)果表明,SLRDS能夠有效消除不同儀器之間的光譜差異,提高模型分析精度,能夠?qū)崿F(xiàn)主儀器的玉米水分、油、蛋白質(zhì)及淀粉4個模型在3臺儀器之間的共享,大大減少了分析測試工作量,節(jié)約模型建立的成本。與傳統(tǒng)的DS及PDS算法相比,SLRDS不僅具有所求參數(shù)少、模型簡單等優(yōu)點,而且模型預測的準確度更高。
AbstractTo solve the calibration transmission problem in nearinfrared (NIR) spectroscopy, a novel model transfer method, Simple Linear Regression Direct Standardization (SLRDS), has been presented. To investigate the validity of the proposed method, a real corn sample NIR dataset was tested and the direct standardization (DS) method and piecewise direct standardization (PDS) method were involved as a comparison. Our results indicated that SLRDS can correct compressed NIR data differences among instruments and enable the user to share corn sample PLS calibration model among three instruments, at the same time it has higher prediction accuracy, fewer parameters and simpler model than DS and PDS.KeywordsNearinfrared spectroscopy; Model transfer; Simple linear regression
(Received 30 March 2014; accepted 2 July 2014)
This work was supported by the National Natural Sciences Foundation of China (No. 21365008, 61105004)