陳璐 谷曉紅 王文博 張丙春 范麗霞 趙平娟


摘要:為探索利用近紅外光譜分析技術識別陜西和沾化兩地冬棗的可行性,本研究應用便攜式近紅外光譜儀并結合簇類獨立軟模式分類(SIMCA)和偏最小二乘判別分析(PLS-DA)兩種建模方法識別冬棗的產地,同時研究了不同近紅外光譜預處理方式對模型預測識別率的影響。結果表明,采用原始近紅外光譜結合SIMCA和PLS-DA方法識別沾化冬棗和陜西冬棗是可行的,其中PLS-DA方法的準確度更高,對冬棗驗證集樣品識別率為100%。
關鍵詞:近紅外光譜;冬棗;產地識別;偏最小二乘判別分析(PLS-DA);簇類獨立軟模式分類(SIMCA)
中圖分類號:S665.101.9 文獻標識號:A 文章編號:1001—4942(2016)03—0133—04
冬棗是一種優質的晚熟、鮮食棗類種質資源,也是公認的品質最好的鮮食棗品種。山東省沾化縣是我國晚熟鮮食棗“沾化冬棗”的主產地,被譽為“中國冬棗之鄉”。在2001年“中國百姓最喜愛的水果”評選中,沾化冬棗被評為“中國果王”。2009年統計,沾化縣冬棗栽培面積已達3.3×104hm2,占全國冬棗栽培面積的25%。沾化冬棗果皮赭紅色,光亮,皮薄,肉脆,肉質甘甜,富含豐富的維生素和鈣、鉀、鐵、鋅、銅等多種礦質元素,具有一定的保健功效。“沾化冬棗”因此成為品質的象征,具有很大的品牌優勢。在山東市場上,由于沾化冬棗的價格高于陜西冬棗,存在著用陜西冬棗冒充沾化冬棗銷售的情況,所以識別冬棗產地對于保護沾化冬棗這一地理標志產品有重要意義。
近紅外光譜主要是分子因振動的非諧振性從基態向高能級躍遷過程中產生的,記錄的主要是含氫基團振動的倍頻和合頻吸收,涵蓋了大多數類型有機化合物的組成和分子結構信息,用其對樣品進行分析,不需前處理,可以直接測定,是一種快速、高效、無損的現代分析技術。不同產地來源的農產品,因生長環境、氣候、土壤、水質等的不同,導致其體內蛋白質、脂肪、糖分、水分等主要成分的組成和含量存在較大差異,而且這種差異可以在近紅外光譜上反映出來,目前近紅外光譜分析技術已廣泛應用于酒類、谷物、肉類及臍橙、蘋果等產品的產地溯源。但目前通用的近紅外光譜儀一般體積較大,價格昂貴,不便移動,無法進行現場檢測。
近年發展起來的便攜式近紅外光譜儀使得測量過程可以現場完成,且數據經化學計量學方法處理后,可以即時得到分析結果,有極大的實用性。本研究即采用便攜式分光近紅外光譜儀,結合簇類獨立軟模式法(SIMCA)和偏最小二乘判別分析(PLS-DA)兩種近紅外光譜定性分析方法,對采集的冬棗樣本進行產地判別,以探究利用該方法現場進行冬棗產地溯源的可行性。
1材料與方法
1.1試驗材料
沾化冬棗于沾化縣6個村現場采集,共690個樣本,具體取樣信息見表1。陜西冬棗購買自陜西省渭南縣,共598個樣本。
1.2試驗儀器及光譜采集
使用MicroNIRl700近紅外光譜儀(美國JD-SU公司),數據分析軟件使用Unscrambler9.7(美國CAMO公司)及MATLAB 2010a(美國Math-Works公司)。
在對冬棗樣品進行光譜采集時,應盡量確保實驗條件一致。光譜采集的波長范圍為950~1650 nm,每次光譜采集重復掃描次數為50次,單次積分時間為8000μs。每次光譜掃描后,轉動冬棗樣品,重新采集一次,采集應包括樣本綠色和紅色的面,每個樣本共采集5次,求平均得到的光譜作為該樣品的代表光譜。圖1為沾化冬棗和陜西冬棗的原始光譜圖,可見,兩者在原始光譜上差異不明顯。
1.3光譜預處理及建模方法
近紅外原始光譜不但包含許多與結構相關的信息,還包含許多干擾因素如基線漂移、光散射等,這些因素將影響模型建立的效果。光譜預處理就是采用數學方法減弱或消除干擾因素對光譜的影響,提取有用信息,以提高模型分析的準確性和可靠性。預處理首先要剔除異常樣本,即在采集大量冬棗樣品的近紅外光譜時,由于儀器本身誤差、操作失誤或其它環境因素導致的某個樣本的圖譜與其它樣本的圖譜趨勢明顯不一致,就需要將其作為異常樣本剔除。
SIMCA (Soft independent modeling of class a-nalogy)是一種以主成分分析為基礎的定性分析方法,主要分為兩步:①對校正集樣本的光譜數據進行PCA分析,為陜西和沾化冬棗兩個類別分別建立一個PCA模型;②計算未知樣本(驗證集)到兩個PCA模型的距離,找出最小距離的類。SIMCA判別結果有三種,分別是未知樣本只屬于沾化冬棗或只屬于陜西冬棗單一類別,未知樣本同時屬于兩個類別,以及未知樣本不屬于陜西和沾化冬棗任何一類。當未知樣本同屬于多個類時,說明判別分析模型不夠精確,需要改進,一般可以通過增加校正集樣本數或增加變量數來解決。當未知樣本同時屬于兩個類別時,一種原因可能是該樣本到兩類模型的距離相近,無法鑒別,此時可以通過預處理方法和特征波長選擇重新建模進行預測;另一種原因是兩個模型間距離本身就比較小,也容易出現這種現象,這是SIM-CA方法的不足之處。
PLS-DA(Partial least squares-discriminant analysis)是基于PLS方法建立的樣本分類變量與NIR光譜特征問的回歸模型。PLS—DA判別方法如下:①定義校正集樣本的分類變量Y;②建立分類變量與光譜數據問的PLS回歸模型;③根據建立的PLS模型計算驗證集樣本(未知樣本)的分類變量值Yp,當Yp與Y的偏差<0.5時,判定未知樣本屬于該類。
2結果與分析
2.1沾化冬棗和陜西冬棗近紅外光譜數據的主成分分析
對冬棗樣品近紅外光譜數據進行主成分分析,利用第1、2主成分得分作散點圖(圖2),可以直觀地看出,沾化冬棗和陜西冬棗樣品的第1、2主成分得分明顯分為2個部分,有明顯的聚類趨勢。初步說明利用近紅外光譜技術識別沾化冬棗和陜西冬棗是可行的。
2.2 SIMCA判別模型的建立與驗證
建立模型前,需對原始光譜進行預處理。光譜預處理方法很多,多元散射校正(MSC)、標準歸一化(SNV)、一階導數和二階導數是常見的4種預處理方法。本研究分別采用幾種不同預處理方法處理后的光譜建立SIMCA模型,對驗證集樣本的識別率和拒絕率見表2。通過對比發現,多元散射校正(MSC)+二階導數預處理方法對驗證集樣品的識別率最高,對陜西冬棗和沾化冬棗的識別率分別達到了97.0%和96.6%;而對于兩地冬棗的拒絕率均為100%。可見,采用MSC+二階導數預處理方法建立的SIMCA模型預測效果最好。
2.3 PLS-DA判別模型的建立與驗證
按照PLS-DA判別方法的流程,首先對沾化和陜西冬棗校正集樣本的分類變量進行賦值,陜西冬棗賦值1,沾化冬棗賦值2;比較多種光譜預處理方法,根據最優校正模型的主要性能參數篩選出最佳處理組合。表3為不同光譜預處理方法對陜西冬棗和沾化冬棗驗證集的驗證結果,可見,SNV+一階導數的擬合效果最好,MSC+一階導數的擬合效果與之相近,得到的陜西冬棗和沾化冬棗模型的預測值和實測值的相關系數都在0.98以上,均方根誤差也較小。圖3為驗證集樣本中,使用SNV+一階導數預處理方法建立的PLS-DA模型對陜西冬棗和沾化冬棗的預測結果,可見,驗證集中所有陜西冬棗的分類變量的預測值都接近于1.0,偏差較小,在0.1左右;沾化冬棗分類變量的預測值基本在2.0左右,偏差均小于0.5;且對驗證集冬棗樣本的識別率均為100%。因此,近紅外光譜分析技術結合PLS-DA能夠準確識別沾化冬棗和陜西冬棗。
3結論
本研究應用便攜式近紅外光譜儀結合SIM-CA和PLS-DA兩種建模方法分別對陜西冬棗和沾化冬棗建立判別模型,并討論了幾種不同光譜預處理方法對兩種建模方法識別率的影響,結果表明,兩種方法都可以有效地判別兩種冬棗的產地,其中PLS-DA方法優于SIMCA方法,對驗證集中冬棗樣本的識別率達到了100%。
本研究所用的便攜式近紅外光譜儀采集的光譜只有125個變量,但通過與兩種建模方法的結合,能夠準確識別出兩種冬棗的產地,而且易于現場檢測,因此具有很大的推廣應用價值。