摘 要:結合粒子群最小二乘支持向量機(PSO-LSSVM)與偏最小二乘法(PLS)提出一種基于氣相色譜技術的新方法,對芝麻油進行真偽鑒別,并對摻偽品中摻假比例進行定量分析。采用主成分分析法(PCA)對857個樣本的脂肪酸色譜數據進行分析,優選主成分作為最小二乘支持向量機(LSSVM)的輸入向量。利用粒子群算法(PSO)優化LSSVM,構建芝麻油摻偽鑒別的兩級分類模型,同時運用PLS建立摻偽芝麻油中摻偽油脂的定量校正模型,兩級分類模型的準確率分別達到了100%和98.7%,定量分析模型的平均預測標準偏差(RMSEP)為3.91%。結果表明,本方法的鑒別準確性和模型泛化能力均優于經典的BP神經網絡和支持向量機(SVM),可用于食用油脂加工和流通環節的質量控制,為食用油質量的準確鑒定提供了一條有效途徑。
關鍵詞:芝麻油; 最小二乘支持向量機; 粒子群優化算法; 偏最小二乘法; 摻偽
1 引 言
芝麻油在亞洲國家有著悠久的食用歷史,不僅色、香、味俱佳,且具有豐富營養和保健功能,深受消費者的青睞[1]。為保證芝麻油質量,國家標準《GB 8233-2008 芝麻油》和《GB/T 5539-2008糧油檢驗 油脂定性試驗》規定了芝麻油的理化性質和識別方法,而不法商家對芝麻油進行摻假牟利,依靠常規的感官檢測[2](色澤、滋味、氣味、狀態)和理化檢測[3,4](折射率、皂化值、碘值等)已無法準確鑒別,更無法檢測摻偽油脂的種類和比例。因此,有必要研究一種快速有效的鑒別方法,保證芝麻油品質。
目前,鑒別芝麻油摻偽的方法主要有兩大類:(1)利用芝麻油特征成分的性質進行鑒別[5],如芝麻酚、芝麻素等木脂素物質。由于眾多的芝麻品種,各種氣候、土壤等生態條件,各具特色的加工方式等,使得芝麻油中木脂素物質的含量存在較大差異,以其作為鑒別指標,準確性難以保證;(2)根據油脂本身的性質進行鑒別[6],如甘三酯結構、脂肪酸組成和含量等。多采用氣相色譜法[7],測定樣品的脂肪酸組成和含量,并分析其變化規律,以此判定樣品的摻偽情況,但單獨采用該方法數據處理量大、信息提取復雜。化學計量學作為數學、統計學、計算機科學與化學的接口[8],是最大限度獲取分析對象化學及相關信息的有力工具。Lee等[9]基于油脂的脂肪酸組成數據,采用主成分分析和判別分析來識別芝麻油、大豆油、菜籽油、椰子油等8種植物油。李雪琴等[10]利用氣相色譜法對純品芝麻油和摻偽芝麻油的脂肪酸組成進行了測試,將色譜指紋圖譜的相似度用于芝麻油的摻偽檢測,并用加權向量夾角余弦法來確定待檢芝麻油的摻偽量。但是上述對芝麻油摻偽的研究大多采用基于線性分類的檢測方法,且采集樣品數少,代表性不強。因此,本研究以大量來自不同區域的純芝麻油和摻偽芝麻油為樣品,采用氣相色譜法結合粒子群最小二乘支持向量機和偏最小二乘法,建立了芝麻油真實性的定性定量分析模型,并對有關參數優化做了系統考察,以期為食用油質量安全控制提供一種有效的技術方法。
2 基本原理
2.1 最小二乘支持向量機
最小二乘支持向量機(LSSVM)[11,12]是一種新型支持向量機方法,將最小二乘線性系統引入支持向量機,代替傳統所采用的二次規劃方法,利用非線性函數Ψ(x)(核函數)將樣本映射到高維特征空間,原樣本空間中的非線性函數估計問題轉化為高維特征函數中的線性函數估計問題。
2.3 芝麻油摻偽的鑒別
本研究基于粒子群優化的最小二乘支持向量機(PSO-LSSVM)和偏最小二乘法(PLS)結合氣相色譜法對芝麻油摻偽進行定性與定量分析。首先構建第一級LSSVM模型,將樣本的種類分成2個一級子類,即純芝麻油和摻假芝麻油;再將摻假芝麻油一級子類進一步劃分成若干個次級子類,即摻棕櫚油、摻棉籽油、摻葵花籽油、摻菜籽油、摻大豆油;最后對次級子類樣本進行PLS分析。過程如圖1所示,具體步驟為:(1)對色譜數據集X進行歸一化處理,以加快數據訓練時的收斂速度;(2)通過主成分分析(PCA)降低特征參數向量的維數,避免輸入信息重疊,使模型預測準確率降低;(3)采用LSSVM對降維后的數據集X′進行第一級分類訓練,運用粒子群算法(PSO)優化正則化參數C和核參數σ, 以提高LSSVM的學習性能和泛化能力;(4)構造多類LSSVM模型,對摻偽芝麻油數據集進行第二級分類訓練,采用PSO算法[13]得到C和σ最優參數;(5)通過上述分類識別,對摻偽油樣數據集X1,X2,…,X6和對應濃度矩陣Y1,Y2,…,Y6,建立PLS校正模型;(6)對于驗證集Xtest,先利用步驟(3)和(4)中保留的C和σ進行兩級分類,得到不同摻偽類型數據集,然后輸入步驟(5)建立的PLS模型, 預測摻偽濃度Y。
通過上述兩級分類,一方面逐級突出樣本間的主要差異,最大限度的減少誤判;另一方面降低各類樣本間的多重干擾對校正模型的影響,提高模型的預測精度。
3 實驗部分
3.1 儀器與試劑
GC-6890N型氣相色譜分析儀(美國Agilent公司);脂肪酸甲酯標樣(Sigma-Aldrich公司);正己烷為色譜純,其它試劑均為分析純。
3.2 實驗方法
3.2.1 氣相色譜工作參數 BPX-70色譜柱(30.0 m×250 μm,0.50 μm);進樣口溫度:230 ℃;柱溫:210 ℃;氫火焰離子化檢測器(FID):300 ℃;氮氣流速1.0 mL/min;氫氣流速35 mL/min;空氣流速400 mL/min。
3.2.2 樣品制備與數據處理 樣品先采用《GB/T 17376-2008動植物油脂脂肪酸甲酯制備》甲酯化;再采用《GB/T17377-2008動植物油脂脂肪酸甲酯的氣相色譜分析》方法。140個純油樣品(芝麻油、棕櫚油、棉籽油、葵花籽油、菜籽油、大豆油)分別購于生產廠家、市場或由種子萃取而得。配制摻假5%, 10%, 15%、20%, 30%和50%的芝麻油,將棕櫚油、棉籽油、葵花籽油、菜籽油、大豆油分別摻到6個純芝麻油中。為對比分析全部為真芝麻油和全部為假芝麻油的脂肪酸特征,同時配備了20個100%摻假樣品(即棕櫚油、棉籽油、葵花籽油、菜籽油、大豆油),將制得的740個假芝麻油樣品標記為Xn,i(n為樣品序號;i為摻偽百分比,5%、10%, 15%, 20%, 30%, 50%和100%),其余117個純芝麻油樣品記為Xm。
利用CAMO 公司的Unscrambler9.7 軟件建立PLS校正模型,模型性能通過校正標準偏差(RMSEC)和預測標準偏差(RMSEP)來評價。PCA和PSO-LSSVM算法均由Matlab2011語言編制。
4 結果與討論
4.1 油類樣品的GC分析
4.3 模型建立
4.3.1 核函數的選擇
最小二乘支持向量機利用核函數將非線性分類問題轉化為高維空間的線性問題。利用不同核函數的LSSVM對真假芝麻油樣本進行分類識別,結果如表2所示。對于真假芝麻油,RBF核函數的分類性能最好且穩定,而且具有較少的支持向量數,平均識別率達到100%,明顯優于其它兩種核函數的LSSVM,因此本研究選用RBF作為核函數建立芝麻油鑒別模型。
4.3.3 摻偽油脂的鑒別 對摻偽芝麻油共740樣本,進行基于LSSVM的第二級分類訓練,構建5個兩分類LSSVM,每個兩分類LSSVM僅對第i類與剩余其它類之間的分類。選用RBF函數為核函數,通過PSO算法確定最優參數,得到實驗結果如表4所示。5種摻偽芝麻油的種類均基本被正確識別,只有摻葵花籽油和菜籽油各1個樣本被錯誤分類,鑒別摻偽芝麻油種類的準確率達到98.7%,明顯優于一模最小二乘支持向量機(1-norm LSSVM)[16]的分類識別結果。
隱變量數(LV)對PLS建模質量起決定性作用。如果選擇的隱變量數過少,則不能準確反映被分析物引起的量測數據變化;反之,則會將干擾信息加入到模型中。本研究考察了不同校正模型的預測誤差平方和(PRESS)隨隱變量數增加的變化情況,結果如圖4所示。從圖4可見,各校正模型PRESS的變化規律基本相同,即隨隱變量數的增加,PRESS先快速下降后趨于平坦,但仍有微小波動。考慮到模型的通用性和預測的準確性,在全局PLS建模中選擇隱變量數為10,而在摻棕櫚油、摻棉籽油、摻葵花籽油、摻菜籽油和摻大豆油的專一PLS建模中選擇隱變量數分別為5, 3, 6, 7和6。
采用最優的條件,建立測定摻偽油脂含量的全局PLS模型和專一PLS模型,對模型進行完全交互驗證,結果如表5所示,專一PLS模型的性能最佳,平均預測標準偏差為3.91%,遠小于全局PLS模型(9.60%)。這是由于PLS是線性回歸方法,全局PLS建模的樣本組成復雜,模型中存在非線性干擾;而進行分類后建立的專一PLS模型,樣本數據與各組分之間具有較好的線性關系。因此,專一PLS模型預測精度明顯高于全局PLS模型。