李建蕊 李九生
(中國計量學院信息工程學院,杭州 310018)
利用近紅外光譜和偏最小二乘回歸法預測脂肪酸組成
李建蕊 李九生
(中國計量學院信息工程學院,杭州 310018)
采集了 30種植物油樣品在 10 000~55 00 cm-1范圍內的近紅外透射光譜,將所有樣品作為校正集,隨機抽取 10種樣品作為預測集,以氣相色譜方法測得植物油中主要成分油酸、亞油酸、棕櫚酸、硬脂酸的含量為參考值,應用偏最小二乘回歸法建立了基于近紅外光譜的測定植物油主要成分含量的校正模型。四種成分校正模型的交叉驗證誤差均方根為 0.281 1%~1.496 4%,預測誤差均方根為 1.080 8%~18.063 0%,校正集的預測值與實測值的相關系數均大于 0.99,預測集中除了棕櫚酸的預測值與實測值的相關系數為0.817 9,其余均大于 0.9。
近紅外光譜 偏最小二乘回歸 植物油
近紅外光譜分析技術是一項高效、快速的分析技術[1],通過信息豐富的光譜,借助于化學計量學方法,可以直接分析不經過任何預處理的樣品,具有儀器簡單、分析速度快、無污染的優點。近年來已有相關應用報道,陸艷婷等[2]用近紅外光譜技術對粳稻品種的直鏈淀粉含量進行了測量。魏良明等[3]采用近紅外光譜法測定了玉米完整籽粒蛋白質和淀粉含量。David Pazdernik等[4]用近紅外技術分析了大豆中的氨基酸和脂肪酸的含量。張萍等[5]利用近紅外光譜技術對食品品質進行鑒別。雖然近紅外光譜分析技術已被廣泛應用于農業、食品、材料、醫藥等行業[6-9],但是利用該技術來分析植物油的脂肪酸卻鮮有報道。當前市場上銷售的植物油質量魚龍混雜,一些不法商人為了謀取利益,將收集來的潲水油經過水油分離、過濾、去味等程序處理,再次拿到市場上銷售,嚴重的危害人們身體健康。目前植物油中脂肪酸的測定主要用氣相色譜法、薄層色譜法、高效液相色譜法等檢測方法[10]。雖然這些檢測技術精度較高,但是在樣品提純、萃取等預處理技術方面要求十分復雜,后期檢測條件要求苛刻,檢測周期較長。
通過檢測 30種植物油的近紅外光譜,以氣相色譜測得到植物油的油酸、亞油酸、棕櫚酸、硬脂酸含量作為標準值,結合偏最小二乘回歸法進行分析,旨在尋找一種快速有效無損鑒別植物油成分的方法。
試驗用 30種植物油購于超市,沒有進一步提純等處理,將它們逐個編號。將所有的測試樣品作為校正集,隨機抽取 10個樣品作為預測集。
Nexus870型傅里葉近紅外光譜儀:美國 Ther mo Nicolet公司;6890N型氣相色譜儀:美國Agilent公司。

圖1 樣品近紅外光譜圖
將植物油樣品分別放到光程為 1 mm的玻璃比色皿中,在溫度恒定無背景干擾條件下采集近紅外透射光譜,譜區采集范圍 10 000~5 500 cm-1,光譜分辨率 2 cm-1,每條曲線包括 2 250個波數點,掃描20次平均。測得近紅外光譜如圖 1所示。在試驗過程中,嚴格控制環境濕度,防止在光譜的采集過程中水分含量的變化影響測試結果。在一種樣品測試完后,用酒精擦洗干凈比色皿,以免比色皿壁上殘留樣品,影響下一種樣品的測量精度。通過近紅外光譜圖發現樣品的吸收峰很相近,說明樣品的成分相近。
30種樣品的棕櫚酸、硬脂酸、油酸和亞油酸含量參考值由 6890N型氣相色譜測得。校正集中 30種樣品主要成分棕櫚酸、硬脂酸、油酸和亞油酸的最大質量分數分別為 15.27%、5.99%、80.78%和63.35%,其中具有最大含量的樣本數為 1種,占總樣本數的 3.3%。棕櫚酸、硬脂酸、油酸和亞油酸的最小質量分數分別為 2.53%、1.47%、22.32%和4.83%,同樣最小含量的樣本數也是 1種,占總樣本數的 3.3%。表 1列出了這四種主要成分實測值的變化范圍、平均值、標準偏差。

表1 樣品主要成分氣相色譜實測值統計
偏最小二乘回歸是近年來生產和發展的一種具有廣泛適用性的多元統計分析方法,能利用對系統中的數據信息進行分解和篩選,提取對因變量解釋性最強的綜合變量,辨識系統中的信息和噪聲,實現多種數據分析方法的綜合應用[11]。基本原理為:

式中:n為校正集樣品總數;m為預測集樣品總數;dim為實測值;dip為預測值。
試驗測試的近紅外光譜每條曲線有 2 250個波數點,各個波數點所包含的信息是不同的,為了以較少的波數點獲得較高的預測精度,把校正集光譜區劃分為5個等波數子區間,分別得到了5個子區間的回歸模型。不同分析對象區間的選擇應該不同,對植物油的 4種主要成分分別進行了校正集預測,RM2 SECV越小、相關系數 R越近 1,表明模型的預測結果越準確,模型的可靠性越高。通過校正集預測分析比較發現 4種成分均在波段 10 000~9 100 cm-1的預測效果最好。表 2是 4種成分在 10 000~9 100 cm-1譜區的 RMSECV和校正相關系數。從表 2中可以看出在譜區 10 000~9 100 cm-14種成分的相關系數都比較大,均在 0.99以上。

表2 四種成分校正集最優建模結果
表 3是植物油主要成分利用偏最小二乘回歸模型對校正集和預測集進行預測的結果。

表 3 植物油主要成分校正集和預測集的預測結果
從表 3可知,可以看出校正集的相關系數 R均接近 1,預測集除了棕櫚酸的相關系數 R為 0.817 9外,其余均接近 1。校正集的 RMSECV在 0.281 1%~1.496 4%,校正相對偏差 RSECV在 0.255 3%~0.425 4%,說明模型的精度較高;預測集的 RMSEP在 1.080 8%~18.063 0%之間,預測相對偏差 RSEP在 2.411 5%~3.626 8%之間,說明模型對未知樣品的預測效果較高。
圖 2是植物油 4種主要成分校正集和預測集中預測值和氣相色譜實測值之間相關系數的散點圖。
從圖 2可以看出校正集的預測值和實測值之間的相關性顯著;預測集中的預測值和實測值之間的相關性較好,除個別點偏離很大外,其余預測效果較好,其中棕櫚酸在 15.27%點的誤差最大為1.8%,其他含量點的平均誤差為 0.5%;硬脂酸在 2.0%點的誤差最大為19%,其他含量點的平均誤差為11.2%;油酸在 22.3%點的誤差最大為 14.7%,其他含量點的平均誤差為7.7%;亞油酸在 7.20%點的誤差最大為16.1%,其他含量點的平均誤差為 2.1%。以上說明偏最小二乘回歸對植物油有較好的建模效果,利用近紅外光譜分析植物油成分是可行的。


圖2 實測值與預測值
利用偏最小二乘回歸法建立了基于近紅外光譜測定植物油主要成分含量的校正模型,建模過程中截取了含有信息量大的光譜區,以較少的波數得到較高的建模精度,對于原始近紅外光譜沒有進行預處理,模型的預測結果較好,相關系數接近于 1,預測誤差均方根在 1.080 8%~18.063 0%之間。研究結果表明近紅外光譜提供了一種快速、無損、無污染、精確定量檢測植物油成分的方法。
[1]任秀珍,郭宏儒,賈玉山,等.近紅外光譜技術在飼草分析中的應用現狀及展望 [J].光譜學與光譜分析,2009,29 (3):365-369
[2]陸艷婷,金慶生,葉勝海,等.應用近紅外光譜技術快速測定粳稻品種的直鏈淀粉含量[J].中國糧油學報,2007, 22(3):149-151
[3]魏良明,嚴衍祿,戴景瑞.近紅外反射光譜測定玉米完整籽粒蛋白質和淀粉含量的研究[J].中國農業科學,2004, 37(5):630-633
[4]David L P,Arthur SK,JamesH.Analysisof amino and fatty acid composition in Soybean seed using near infrared reflec2 tance spectroscopy[J].Agron,1997,89:679~6851
[5]張萍,閆繼紅,朱志華,等.近紅外光譜技術在食品品質鑒別中的應用研究[J].現代科學儀器,2006,1:60-62
[6]郭旭生,尚占環,方向文,等.近紅外光譜技術在反芻動物營養研究中的應用現狀[J].光譜學與光譜分析,2009,29(3):641-645
[7]盧寶華,張俊,張義榮,等.玉米完整籽粒近紅外品質分析模型的比較及改進[J].中國糧油學報,2005,20(4):44-49
[8]王學順,戚大偉,黃安民.木材近紅外光譜小波閾值去噪方法[J].東北林業大學學報,2009,37(2):32-34
[9]周云,臧恒昌.近紅外分析技術在中藥鑒定及含量測定方面的研究進展[J].食品與藥品,2009,11(1):72-74
[10]毛江勝,陳子雷,杜紅霞,等.毛細管氣相色譜法測定食用油中的酚類抗氧化劑BHA、BHT、TBHQ[J].化學分析計量,2006,15(6):11-12
[11]王惠文.偏最小二乘回歸方法及其應用[M].北京:國防工業出版社,1999.
Determination ofVegetable Oil Compositions byNear Infrared Spectroscopy and PartialLeast Squares Regression
Li Jianrui Li Jiusheng
(College of Information Engineering,China JiliangUniversity,Hangzhou 310018)
The near infrared trans mission spectrums of 30 kinds of vegetable oilwere measured in the frequency ranging from 10000cm-1 to 5500cm-1.All sampleswere used as a calibration set,and ten samples randomly se2 lected were as a prediction set.The measured contents of main components(i.e.palmitic acid,stearic acid,oleic acid and linolic acid)of the vegetable oils by gas chromatographic were employed as a reference volume.A calibra2 tion model based on near-infrared spectroscopy deter mination of the main component contentswas set-up by using the partial least-squares regression method.Results:The cross-validation rootmean square error of the four com2 ponents is 0.2811%~1.4964%,and the root-mean-square error is 1.0808%~18.0630%.The correlation co2 efficients of the predicted and measured values of the calibration set are over 0.99.The correlation coefficients of the predicted and measured values of the prediction set are over 0.9,except for pal mitic acid with 0.8179.
near-infrared spectroscopy,partial least squares regression,vegetable oil
TS225.1 文獻標識碼:A 文章編號:1003-0174(2010)06-0107-04
浙江省科技廳資助項目(2008C23018),中國博士后基金(20070420118)
2009-07-02
李建蕊,女,1984年出生,碩士,太赫茲技術
李九生,男,1976年出生,副教授,太赫茲技術