蔣大鵬 張冬妍 李丹丹 曹軍



摘 要:為了探索松子基于近紅外光譜的無損品質分類。建立松子蛋白質品質的分類數學模型。采用近紅外測量獲取松子光譜數據,運用SMO-SVM、Pegasos-SVM與LS-SVM方法建立松子蛋白質分類相關性模型,并對相應驗證集上的數據進行預測驗證。實驗結果表明支持向量機精準率略高,但耗費時間比LS-SVM與Pegasos-SVM多。研究中所建模型均能達到一定程度上的良好分類,精準度均達到80%以上,可有效實現依據近紅外光譜數據預測松子蛋白質含量等級的目的。此模型對于其他干果類食品的等級品質分類具有一定的實踐指導意義與應用價值。
關鍵詞:松子;近紅外;支持向量機;蛋白質
中圖分類號:TP181 文獻標識碼:A
Abstract: In order to explore the non-destructive quality classification of pine nuts based on near-infrared.Establishment of classification mathematical model of protein quality.Measuring the near infrared spectrum data acquired pine nuts.The support vector machine and the least squares support vector machine were used to establish the correlation model of pine nut protein classification,and the data on the corresponding verification set were predicted and verified.The experimental results of SMO-SVM show that the precision of support vector machine was slightly higher,but it takes more than one third of the least squares support vector machine.The accuracy of the model was 80% or more,which can effectively achieve the purpose of predicting the protein content of pine nuts based on near infrared spectroscopy data.This model has certain practical significance and application value for the grade quality classification of other dried fruit.
Key words: pine nuts;near infrared;support vector machine;protein
1 引 言
松子(Pinus koraiensis Sieb.et Zucc)是一種營養成分很高的食品,有極高的食用價值與藥用價值,是東北三省對外重要特產之一。但在松子的無損處理、產品分級方面,一直采用原始低效的分級方法。傳統的松子外部品質等級劃分多采用人工分選或機械振動篩選方法實現。人工分級勞動強度大,工作者主觀經驗影響較大:震動篩選噪聲大,功耗大,并且分級精準度不高,且會產生磕碰損傷。因此建立一種快速,準確,安全,非破壞性的松子品質分級檢測系統,是十分重要的。而近紅外光譜技術恰好是快速,準確非破壞性的品質分級檢測系統的選擇之一。雖然運用近紅外光譜進行松子無損品質分類的相關文獻較少,但有相關學者研究過運用近紅外光譜進行干果類鑒定與品質比較[1]。
近紅外光譜分析技術是一種利用有機化學物質在近紅外光譜區的光學響應特性,對物質定量或定性快速測定的現代光譜技術。近紅外光譜的信息量極為豐富,幾乎包含了全部的含氫基團的有關特征信息,物質中的含氫基團的同一成分或不同組分在近紅外區域存在豐富的吸收光譜[2]。動植物體組織主要成分均含有豐富的含氫基團,在近紅外區都存在特定的吸收光譜,豐富的特征信息使得只需選擇一種良好的建模方法即可對樣本做到準確高效的檢測分級,并且近紅外光譜技術不需了解光譜具體特性,只需要了解輸入量與輸出量之間的關系就能做到灰箱建模[3-5],因此在近紅外光譜分類中,只需獲得實驗樣本的光譜數據及品質等級即可進行建模。傳統的近紅外光譜灰箱建模方法有BP神經網絡、多元線性回歸、主成分分析等[6],其中,仇遜超等采用反向間隔最小二乘法,無信息變量消除法選取特征波段,建立全波段和特征波段下的最小二乘模型[7],但諸如神經網絡算法需要數據較多,并且極可能陷入局部極值而使得訓練失敗;多元線性回歸算法存在模型限制過多,模型復雜度不夠等許多問題。因此需要引入更良好的模型。而近年來,在食品品質分類領域,運用支持向量機建立光譜數據與品質等級的模型的方法應用愈加廣泛。支持向量機是機器學習的一種非常經典的分類模型,Cortes與Vapnik提出線性支持向量機[8]。同時,Boser,Guyon與Vapnik又引入核技術,提出非線性支持向量
機[9]。支持向量機的主要優勢在于小規模數據的非線性建模可以獲得極優結果。而近紅外光譜數據樣本特性恰好是樣本數量規模小且非線性度高。迄今為止,支持向量機(SVM)已經變成一門非常成熟的技術,且在基于近紅外光譜分析的多種研究對象建模中獲得良好的結果[10-12]。基于近紅外光譜分析,本文采用SMO-SVM、pegasos-SVM和LS-SVM對松子蛋白質含量指標進行建模仿真研究,并對比分析探尋松子蛋白質分類的有效途徑。
2 SVM與LS-SVM基本原理
支持向量機(SVM)的基本原理是將引入核函數的分割超平面轉化為一個凸優化問題,并使用拉格朗日對偶方法將求解權值的原問題轉化為求拉格朗日乘子的對偶問題[13]。
對于上述優化,經典支持向量機一般采用由Platt提出的序列最小最優化算法(SMO)[15]。但SMO算法存在時間復雜度過高等問題。根據Shalev-Shwartz等人的研究成果[16],基于隨機梯度下降較之SMO算法時間復雜度更小,本論文將對SMO算法與隨機梯度下降算法進行比對并找出適宜當前實驗的最優算法。
而最小二乘支持向量機的區別是LS-SVM將原問題(SVM)約束條件由不等式化作等式
此時對拉格朗日函數求極值問題會轉換成可運用最小二乘法解決的線性方程組問題,這會降低算法的時間復雜度[17]。
3 實驗儀器材料及數據采集處理
3.1 儀器與樣品
實驗儀器:NIR-NT-spectrometer-OEM-system近紅外光譜測試儀,德國INSION 公司,適用光譜波長范圍:900 ~ 1700 nm,光譜分辨率 < 16 nm,探測器陣列為InGaAs陣列,入口光纖為300/330μm,體積為67 × 36 × 22 mm。光源為工作電壓6 V的鹵素光源。
實驗樣品:100粒由伊春自然保護區出產,生產年份相同,含水量相似的飽滿紅松子。
3.2 近紅外光譜采集
對松子進行近紅外掃描檢測期間,要確保室內溫度在26度左右,在獲取松子近紅外光譜前,需要對儀器進行初始化處理。首先:在儀器關閉燈光電源的情況下進行掃描獲得Dark基準,調整光譜儀積分時間30 ms,平均次數3次;隨后將儀器鏡頭緊貼傳遞標準白板掃描獲得Reference基準。獲取松子光譜數據過程中,將取得的紅松子,放在儀器探頭下2 mm處進行紅外光譜采集。為了防止松子與光源發生偏轉、松子無法完全遮住光源等因素影響實驗效果,本實驗對松子進行比對測量后,選擇統一測量與松子頭部直接無棱相連的腹部,此處遮光最好,數據最準確。對松子進行10次掃描后,獲得圖像,保存數據。光譜數據曲線如圖1所示。
接下來采用食品安全國家標準GB 5009.5-2010 中的第一法-凱氏定氮法,測定松子樣品的蛋白質。[]根據凱氏定氮法實驗結果,樣本蛋白質分布在12.79% ~ 24.98%之間,樣品蛋白質分布差異較大,有一定代表性,通過圖1也可以看出紅松子近紅外光譜初始圖像走勢相似,分布集中。具有一定的規律性,因此能夠滿足建模要求。
圖1為隨機選取的一小組近紅外光譜測定紅松子的初始光譜數據。該數據未經初始化處理。
3.3 蛋白質數據處理與建模
本實驗以紅松子的蛋白質含量范圍為評級指標,根據運用化學手段測得的松子蛋白質含量的數據[18],將紅松子劃分為4等。本次試驗100個紅松子的蛋白質含量范圍大致為0.075 g至0.125 g之間。則蛋白質含量劃分范圍如下:1等蛋白質含量范圍為:0.1125以上;2等蛋白質含量范圍為:0.1到0.1125之間;3等蛋白質含量范圍為:0.0875到0.1之間;4等蛋白質含量范圍為:0.0875以下,獲得輸出標簽。
4 基于支持向量機的松子蛋白質分類建模
本文研究建立的分類模型以近紅外光譜數據為輸入,以蛋白質品質分類為輸出,在以Python語言中的Sklearn科學計算庫為建模環境,建立蛋白質品質分類模型。Sklearn是一款功能非常強大的庫,能夠進行近乎所有的小規模數據的分類、回歸、聚類等數據處理。運用Sklearn處理近紅外光譜數據簡易方便,封裝性好。
4.1 基于近紅外光譜與支持向量機的分類建模
選取適當波長,在進行適當數據預處理基礎上。采用SMO-SVM、Pegasos-SVM和其最小二乘支持向量機兩種方法進行對比。以正則化參數C或γ 及高斯核函數中的σ2為控制模型好壞重要變量加以調整,運用網格法搜索最佳參數;以精確率,召回率,排序損失,F函數為指標,考察建模性能。具體實施步驟如下:
導入數據并使用Matplotlib制出近紅外光譜圖,見圖1;
將運用化學手段測出松子蛋白質含量標簽化(即依照蛋白質含量多少將松子分成四大類),并將標簽賦予每個松子并確保每一大類松子數均為25粒。
對數據進行預處理,篩選出的優良波長片段為906.9 ~ 1128.34、1185.88 ~ 1284.55、1325.85 ~ 1548.81、
1648.16 ~ 1697.9,損失信息為5%。
接著對獲得數據進行歸一化處理,將數據集分割成訓練集,調整集,測試集。分割完畢后前期建模準備工作告一段落。
對分割完畢的數據集進行建模,本次實驗擬定三種建模方法,首先運用SVM經典優化算法SMO建模,由于Sklearn上專門的SVM模塊本身使用的優化方法即SMO算法,因此可以直接調用SVM模塊的SVC函數。
而對于最小二乘支持向量機與基于隨機梯度下降的支持向量機,Sklearn函數庫并沒有直接調用的模塊,需要事先進行編程。
根據表1可知,基于SMO算法的支持向量機在各方面性能優于最小二乘支持向量機與隨機梯度下降支持向量機,而傳統SMO-SVM算法所耗時間為三種算法之最,幾乎達到隨機梯度下降算法的兩倍。這是由于最小二乘支持向量機與隨機梯度下降的支持向量機雖然在計算復雜度方面優于支持向量機,但這是以犧牲精度為前提的。
圖3為支持向量機算法分割樣本集的簡圖,這張圖簡單闡釋了模型訓練完畢后,支持向量機各算法對標簽為1、4的樣本集分割效果。該樣本集為集合內高維空間粒子向二維空間的投影。其中投影點在X軸上的數值為原始向量的1維對應的數值,在Y軸上的數值為原始向量的0維對應的數值。從圖中可以看出,SMO-SVM所形成的分割超平面分類效果明顯好于其他算法形成的分割超平面。
對于支持向量機,由于引入松弛變量與不等式方程組,所計算的最優化問題的解(非零向量)為稀疏解。因此擁有稀疏學習的優點,即過擬合風險低,魯棒性強等等。但對于最小二乘支持向量機,由于引入誤差向量,導致解的稀疏性減弱。因此原本在支持向量機中為零向量的解,在最小二乘支持向量機中可能變為特征解存在于最終的模型中。這會導致某些樣本中特定的誤差在建模過程中混入最終模型的幾率增強,使得系統過擬合,泛化能力差,魯棒性差。并且由于近紅外光譜法本身屬于一種定量誤差很大的技術,加之本實驗所用的近紅外儀器精準度不高,樣本誤差比較大,因此即便最小二乘支持向量機進行過稀疏化近似,但本身稀疏性仍無法與經典支持向量機相比,由于以上種種原因,最小二乘支持向量機擬合結果與經典支持向量機擬合結果相差近十個百分點。
至于基于隨機梯度下降的支持向量機算法精確率不高的問題,由于隨機梯度下降算法屬于求解局部最優解的算法,因此極易陷入大量局部極值的困境中,雖然根據CD Sa等人的研究,針對低秩最小二乘問題時,隨機梯度下降大概率接近全局最優解,但本實驗所用的隨機梯度下降算法的實際建模效果并不出色,小樣本支持向量機模型最適宜的方法仍然是經典算法SMO-SVM算法。
5 結 論
本次試驗首先采用近紅外光譜儀對松子進行快速測量得到光譜數據,接著運用SVM理論與LS-SVM理論,建立了紅松子蛋白質分類模型。并對比了SMO-SVM、Pegasos-SVM與LS-SVM兩種算法在小規模近紅外光譜技術中的優缺點。結果表明:SMO-SVM、Pegasos-SVM與LS-SVM都能夠通過近紅外光譜對松子進行預測。但SMO-SVM支持向量機理論對小規模樣本分類效果更好;更具有普適性,可用作紅松子蛋白質含量的快速鑒定。而Pegasos-SVM與LS-SVM更適用于大規模樣本快速鑒定。
參考文獻
[1] 賈昌路,高山.近紅外技術對南疆核桃品種的鑒定及品質比較[J].湖北農業科學,2016,55(10):2559—2563.
[2] 吳建虎,黃鈞.可見/近紅外光譜技術無損檢測新鮮雞蛋蛋白質含量研究[J].現代食品科技,2015,31(5):285—290.
[3] 張中衛,溫志渝,曾甜玲,等.微型近紅外光纖光譜儀用于奶粉中蛋白質脂肪的定量檢測研究[J].光譜學與光譜分析,2013,7(33):1796—1800.
[4] 汪慶平,黎其萬.近紅外光譜法快速測定山核桃品質性狀的研究[J].西南農業學報,2009,22(3):873—875.
[5] 馬文強,張漫.基于近紅外光譜的核桃仁品種快速分類方法[J].農業機械學報,2015(s1):128—133.
[6] 張玉榮,付玲.基于BP神經網絡小麥含水量的近紅外檢測方法[J].河南工業大學學報,2013,34(1):17—20.
[7] 仇遜超,曹軍.近紅外光譜波段優化在東北松子蛋白質定量檢測中的應用[J].現代食品科技,2016,32(11):303—309.
[8] CORTES C,VAPNIK V.Support-vector networks[J].Machine Learning,1995,20(3):273—297.
[9] BOSER B E, GUYON I M,VAPINK V N.A training algorithm for optimal margin classifiers.[J] Workshop on Computational Learning Theory ,1992,5:144—152.
[10] THISSEN U,PEPERS M,USTUN B,et al.Comparing support vector machines to PLS for spectral regression applications[J] Chemometrics & Intelligent Laboratory Systems ,2004,73(2):169—179.
[11] CHAUCHARD F,COGDILL R,ROUSSEL S,et al.Application of LS-SVM to non-linear phenomena in NIR spectroscopy:development of a robust and portable sensor for acidity prediction in grapes[J]. Chemom.Intell.Lab.Syst.,2004,71(2):141—150.
[12] 黃莊榮,沙莎.基于近紅外技術快速無損分析整粒棉籽中的脂肪酸含量[J].分析化學,2013,41(6):922—926.
[13] BOYD S, VANDENBERGHE L. Convex Optimization[M].Cambridge,UK Cambridge University Press,2004.
[14] 鄧乃楊,田英杰.數據挖掘中的新方法--支持向量機[M].北京:科學出版社,2004.
[15] PLATT J C.Fast training of svms using sequential minimal optimization[J].Cambridge,Mass.,MIT Press,1999,7:376.
[16] SHAI S,YORAM S. Pegasos:primal estimated sub-gradient solver for SVM[J].Mathematical Programming,2011,127(1):3—30.
[17] SUYKENS J,VANDEWALLE J.Least squares support vector machine classifiers.[J]Neural Processing Letters,1999,9(3):293—300.
[18] 吳曉紅,鄭月明.兩種提取紅松種子蛋白質的工藝方法比較研究[J].中國林副特產,2009,(4):1—5.