劉宇佳,賀麗蘋,張 泳,呂雪娟,曹 庸,高新開
(1.華南農業大學應用化學系,廣東廣州 510642;2.華南農業大學食品學院,廣東廣州 510642;3.華南農業大學測試中心,廣東廣州 510642;4.無限極(中國)有限公司,廣東江門 529156)
?

劉宇佳1,賀麗蘋2,3,*,張泳2,呂雪娟3,曹庸2,高新開4
(1.華南農業大學應用化學系,廣東廣州 510642;2.華南農業大學食品學院,廣東廣州 510642;3.華南農業大學測試中心,廣東廣州 510642;4.無限極(中國)有限公司,廣東江門 529156)
研究通過近紅外光譜技術(NIRS)結合人工神經網絡技術(ANN)識別銀耳的不同產地。實驗以四川省與福建省兩個產地共120組銀耳樣品為研究對象,對其進行近紅外光譜測定,計算光譜吸收值的平均偏差與一階導數進而選取有效數據,結合主成分分析方法將原始數據降維并采用反向人工神經網絡技術構建近紅外分析模型。結果顯示,通過對有效數據主成分分析,前3個主成分的累計方差貢獻率達到100%,判斷準確率為88.3%;進一步采用人工神經網絡優化模型,在輸出層為2隱藏層為11時,判斷準確率達100%;此時校正集與預測集的均方根誤差分別為3.05×10-2與2.90×10-2,模型具有良好的泛化能力。因此,結合人工神經網絡的近紅外光譜檢測技術,優化檢測模型,能夠準確、快速地識別銀耳產地,為食品原材料的質量控制及地理標志的建立提供科學依據。
銀耳,產地識別,近紅外光譜,人工神經網絡
銀耳(Tremellafuciformis)又被稱作白木耳、雪耳等,屬于真菌類銀耳科銀耳屬,有“菌中之冠”的美稱。銀耳作為一種珍貴的食用菌,具有益氣清腸、滋陰潤肺等功效;現代研究也表明,銀耳所含銀耳多糖具有抗癌[1],抗氧化[2]以及抗炎[3]等多種生理活性,是良好的功能性食品。銀耳是我國特產,尤以四川和福建為兩個主要產地。四川通江地區所產銀耳為上品,在我國古代屬于名貴補品[4];福建古田縣是我國銀耳的主要產地,占全國總產量的80%,“古田銀耳”已被國家質檢總局批準為國家原產地域保護產品[5]。作為銀耳生產和出口大國,銀耳標簽的產地標注更應引起重視。目前,對銀耳產地的判別除依賴感官評定之外,缺乏有效、準確、統一的識別方法。
不同產地來源的食品,因自然環境、加工方式、生產原料等不同,導致食品中主要有機物成分存在差異,通過采集近紅外光譜中所蘊含的獨特信息可用于產地溯源[6-7]。產地溯源有助于食品原材料的品質保證與安全監管,是食品安全領域的一個重要環節。人工神經網絡是一種模擬人腦功能的非線性信息處理系統[8],目前廣泛應用于食品領域工藝條件優化[9]與目標結果預測[10]。因其具有良好的非線性映射逼近能力和預測能力,在產地溯源方面也取得了良好的效果[11-14],但該技術用于真菌類農產品銀耳的產地鑒別尚未見相關報道。本研究通過選取四川和福建兩種產地的銀耳,基于近紅外光譜分析,結合數據降維構建人工神經網絡鑒別模型并優化模型隱藏層與輸出層數量。旨在探索與建立一種快速高效的模型建立方法與銀耳產地識別方法,為食品原材料的質量控制以及地理標志的建立提供參考。
1.1材料與儀器
銀耳樣品共分10個批次分別采集于四川省與福建省,共采集銀耳樣品120組,其中四川產61組,福建產59組,編號與采收時間如表1所示。銀耳樣品除去根部附帶培養基雜質,去離子水沖洗干凈,自然晾干后粉碎備用,樣品粒度控制在20~40目之間。

表1 銀耳樣品分類編號與基本信息Table 1 The basic information and number of tremella samples
1.2近紅外光譜測定
25 ℃環境下,用VERTEX 70傅里葉變換近紅外光譜儀(德國BRUKER公司)采集和保存光譜。光譜采集條件:采用積分球漫反射方式,掃描范圍4000~10000 cm-1,分辨率8 cm-1,增益2,掃描次數64次。
1.3數據處理
通過計算平均偏差以及一階求導的方法選取有效特征數據。平均偏差是各單次測量偏差的絕對值之和與測量次數之比,代表一組測量值中任意數值的總體偏離程度,用公式(1)表示:
式(1)

一階求導采用Origin 9.0中的Differentiate分析模塊進行計算。
評價構建的模型主要考察準確率與泛化能力:準確率表示模型預測結果的準確程度,用公式(2)表示;泛化能力通過對比校正集與預測集的均方根誤差(RMSE),用公式(3)表示:
準確率(%)=(正確預測樣品數量/總樣品數量)×100
式(2)
式(3)
1.4分析軟件
使用Office Excel 2013進行數據整理與平均偏差、均方根誤差計算;Origin 9.0進行數據一階求導處理;SPSS 17.0統計軟件因子分析模塊對數據進行主成分分析;MATLAB R2010B中BP-ANN工具箱進行判別分類。
2.1有效數據選取
兩種產地銀耳樣品的原始近紅外光譜有效數據預處理方法如圖1所示。圖1a的橫坐標為波數范圍 4000~10000 cm-1,縱坐標為光譜吸光度值。從圖1a可以發現,所有的銀耳樣品光譜差異不明顯,分布趨勢相近,無法直觀的根據光譜數據判別銀耳的主要差別信息,必須借助一定的光譜預處理及化學計量學及數學模型才能實現不同產地的識別。通過對光譜進行矩陣數據化,可以得到1555×120個數據,該矩陣共包含約18.6萬個龐大數據。數據預處理方法主要包括降噪平滑、基線矯正、多元散射矯正等,這些方法通過對所有數據進行處理,使原始數據具備更高的精確度,但是沒有降低數據維度,仍然具有大量的無效數據,對于日益龐大的數據來源與數據總量,逐漸表現出局限性。因此,需要采取一種高效數據預處理方法,提取有效數據,提高有效信息量。本研究通過計算平均偏差,以及一階導數的方法,找出差異性最大的波數范圍作為主要的特征分析數據。

圖1 原始光譜中有效數據選取Fig.1 Sellecting the useful data from initial NIR spectrum注:a.120組銀耳樣品近紅外原始光譜;b.平均偏差計算結果; c.平均偏差一階求導計算結果;d.原始數據中有效數據波數選取范圍。
圖1b為120組光譜的平均偏差結果,可以發現在波數5000 cm-1及7000 cm-1處出現波峰,表示在這個波數周圍光譜具有較大的差異性,為了進一步得到具體的有效數據所在的波數范圍,對平均偏差結果進行一階求導,結果如圖1c所示。從圖1c可以直觀的發現在4933、5298 cm-1及7144 cm-1處都有明顯的波峰,選取一階導數在0.0001范圍外的波數,由此得出原始光譜中存在差異以及波動最大的波數范圍:分別為5183~5434、4786~5091 cm-1以及6971~7301 cm-1三個波數范圍內共232組數據作為有效數據(如圖1d所示),以這些光譜數據組成一個232×120矩陣,進行下一步模型的建立。
2.2主成分分析
主成分分析是一種有效的數據挖掘手段,可將龐大的數據進行優化。對數據預處理所得的光譜數據(232×120矩陣)通過主成分分析,發現前3個主成分累計方差貢獻率即達到100%(表2),說明運用主成分分析可以有效的表達原始數據的特征。其中,第1主成分與第2主成分貢獻率分別為50.929%與49.067%,第3主成分貢獻率僅為0.003%,為了將優化后各特征信息直觀表現出來,分別選取第1與第2主成分作圖,結果如圖2所示。從圖2可以看出,福建產銀耳主要分布在X軸的負軸部分,四川產銀耳主要分布在X軸0.05右側,有6個樣品分布在X軸負軸。兩種銀耳樣品的落點分布各自相對集中,但仍有14組樣品落點離散,判斷準確率為88.3%。

表2 主成分分析累計方差貢獻率Table 2 The cumulative contribution of principal component analysis

圖2 兩種產地銀耳的主成分分析Fig.2 The principal component analysis of tremella samples from Sichuan and Fujian
主成分分析是一種將多個變量通過線性變換以選出較少個數變量的一種統計分析方法,當輸入數據的線性程度不高時,應用線性主成分分析方法會出現特征提取能力下降的問題。因為食品原料具有多樣性的特點,表現在其近紅外光譜的復雜性,很難準確得到相應的線性關系。主成分分析是一種良好的數據降維手段,但對于提取特征變量后的數據分類效果仍存在不足,所以,個別銀耳樣品出現了誤判,鑒別準確率不夠高,需要選用其他方法優化。
本研究進一步采用非線性的BP-ANN方法,利用主成分分析方法所提取的主成分作為輸入向量,進一步建立更為準確、優化的鑒別模型。
2.3BP-ANN模型的建立與結果預測
選取主成分分析處理所得到前3個主成分(3×120維矩陣)為輸入向量;設置“1”代表四川產銀耳樣品,“0”代表福建產銀耳樣品,作為目標向量建立BP-ANN模型;訓練集數量一般選取樣本總數的三分之二[11,15],本研究訓練集,校正集與測試集分別按照70%,15%和15%的比例進行選取,即從120個樣品中隨機抽取84個樣品為訓練集,18個樣品為校正集,18個樣品為測試集,構建不同隱藏層與輸出層BP-ANN模型。為了提高預測準確率與計算效率,得到最優網絡結構,分別嘗試輸出層為1與2時,不同數量隱藏層對預測結果的影響,結果如圖3所示。在輸出層為1,隱藏層為15時,預測準確率首次達到100%,在達到18時,結果趨于穩定;在輸出層為2,隱藏層為11時,預測準確率即達到100%,結果趨于穩定。

圖3 不同隱藏層與輸出層對預測準確率的影響Fig.3 The effects on forecast accuracy from different number of hidden layers and output layers
因此,選取輸出層為2,隱藏層為11構建BP-ANN模型,在迭代74次后,網絡輸出誤差為2.14×10-5,小于收斂誤差界值0.0001,完成訓練目標。對模型優劣的評價,主要是依據鑒別的準確率,同時比較校正集與預測集的RMSE,若兩者近似相等,則說明所建立的BP-ANN模型已有效逼近訓練集所蘊含的規律,能夠充分的表現出樣品本身所含有的性質,具有很強的逼近能力,即泛化能力很好[16]。

圖4 BP-ANN模型中兩種產地銀耳樣品的預測值分布Fig.4 The predicted results of tremella samples from Sichuan and Fujian in BP-ANN model
通過構建模型,計算結果如圖4所示,所有樣品獲得準確區分,鑒別準確率為100%,說明所建立的模型具有良好的鑒別能力,能夠對銀耳產品進行有效的產地區分。圖5為所有銀耳樣品的預測值與實際值平均方差結果,可以觀察每一個樣品的預測結果與真實結果的誤差。從圖5可以看出,除了四川產No.4銀耳樣品外,其他樣品的平均方差絕對值都小于0.1,雖然No.4樣品預測結果誤差略大,但并未影響預測的準確性。訓練集與預測集的RMSE分別為3.05×10-2與2.90×10-2,即測試樣本的誤差接近于訓練樣本的誤差,說明建立的網絡模型已有效逼近訓練樣本所蘊含的規律,具有很好的泛化能力。

圖5 BP-ANN模型中預測值與實際值平均方差Fig.5 The average variance between predicted value and actual value in BP-ANN model
采用平均偏差與一階導數的方法處理原始紅外光譜,剔除無效信息,提取特征數據,降維得到232×120組數據作為特征數據,有效的減少計算量,提高模型效率。
基于主成分分析,對兩種產地銀耳進行初步判別,準確率為88.3%,存在一定的誤差,鑒別準確率不理想;進一步采用BP-ANN分類工具,在輸出層為2,隱藏層為11時,預測準確率為100%,鑒別結果準確,此時校正集與預測集的均方根誤差分別為3.05×10-2與2.90×10-2,模型具有良好的泛化能力。
有效的特征數據選取方法,使特征向量攜帶更多的有利于分類的樣品信息,可以有效提高模型分類速度與效率;隱藏層與輸出層的正確選取,使BP-ANN模型的結構簡單,能夠提高分類器的準確率與泛化能力。
基于BP-ANN的近紅外光譜檢測技術能夠快速、準確地鑒別銀耳產地,可以為食品原材料的質量控制以及地理標志的建立提供科學依據。
[1]Du X,Zhang J,Lv Z,et al. Chemical modification of an acidic polysaccharide(TAPA1)from Tremella aurantialba and potential biological activities[J].Food Chemistry,2014,143(1):336-340.
[2]Zhang Z,Wang X,Zhao M,et al. Free-radical degradation by Fe2+/Vc/H2O2and antioxidant activity of polysaccharide from Tremella fuciformis[J].Carbohydrate Polymers,2014,112(11):578-582.
[3]Shi Z,Liu Y,Xu Y,et al. Tremella Polysaccharides attenuated sepsis through inhibiting abnormal CD4+CD25highregulatory T cells in mice[J].Cell Immunol,2014,288(2):60-65.
[4]顏軍,郭曉強,鄔曉勇,等.銀耳多糖的提取及其清除自由基作用[J].成都大學學報:自然科學版,2006,25(1):35-38.
[5]黃建立,黃艷,鄭寶東,等.不同干燥方式對銀耳品質的影響[J].中國食品學報,2010,10(2):167-173.
[6]Xiccato G,Trocino A,Tulli F,et al. Prediction of chemical
composition and origin identification of european sea bass(Dicentrarchus labrax L.)by near infrared reflectance spectroscopy(NIRS)[J].Food Chemistry,2004,86(2):275-281.
[7]管驍,古方青,楊永健.近紅外光譜技術在食品產地溯源中的應用進展[J].生物加工過程,2014,12(2):77-82.
[8]Marini F,Bucci R,Magri AL,et al. Artificial neural networks in chemometrics:History,examples and perspectives[J]. Microchemical Journal,2008,88(2):178-185.
[9]Marini F. Artificial neural networks in food stuff analyses:Trends and perspectives a review[J].Analytica Chimica Acta,2009,635(2):121-131.
[10]王曉謙,鐘賽義,秦小明,等.基于神經網絡平臺的牡蠣肉超高壓殺菌工藝條件優化[J].食品工業科技,2014,36(6):257-261.
[11]Aursand M,Standal IB,Axelson DE. High-resolution 13C nuclear magnetic resonance spectroscopy pattern recognition of fish oil capsules[J].Journal of Agricultural and Food Chemistry,2007,55(1):38-47.
[12]龐濤濤,姚建斌,杜黎明.人工神經網絡分類鑒別苦丁茶紅外光譜[J].光譜學與光譜分析,2007,27(7):1336-1339.
[13]王鳳花,朱海龍,楊菊,等.基于近紅外光譜蕎麥淀粉、蛋白質和總黃酮含量測定方法研究[J].食品工業科技,2014,35(5):281-284.
[14]洪雪珍,韋真博,海錚,等.基于電子鼻和神經網絡的牛肉新鮮度的檢測[J].現代食品科技,2014,30(4):279-285.
[15]包剛,覃志豪,周義,等. 基于高光譜數據和RBF神經網絡方法的草地葉面積指數反演[J].國土資源遙感,2012,93(2):7-11.
[16]歐文娟,孟耀勇,張小燕,等.紫外可見吸收光譜結合主成分-反向傳播人工神經網絡鑒別真假蜂蜜[J].分析化學,2011,39(7):1104-1108.
Model optimization of near-infrared spectroscopy and back propagation artificial neural network for identifying the geographical origin ofTremellafuciformis
LIU Yu-Jia1,HE Li-Ping2,3,*,ZHANG Yong2,LV Xue-Juan3,CAO Yong2,GAO Xin-Kai4
(1.Department of Applied Chemistry,South China Agricultural University,Guangzhou 510642,China;2.College of Food Science,South China Agricultural University,Guangzhou 510642,China;3.Instrumental Analysis & Research Center,South China Agricultural University,Guangzhou 510642,China;4.Infinitus(China)Co.,Ltd,Jiangmen 529156,China)
Near-infrared spectroscopy in combination with artificial neural network was used to identify the geographical origin oftremellafuciformis. A total of 120 samples from Sichuan province and Fujian province were studied. After being pre-treated with average deviation and first derivative,the dimension of near-infrared absorption spectroscopy data were reduced and applied to develop classification models by principal components analysis and back propagation artificial neural network. The results showed that the cumulative contribution of first three principal components was 100%,but identification accuracy was 88.3% by principal components analysis. Thus the artificial neural network was further used to optimize the structure of classification model. Under 2 output layers and 11 hidden layers,the identification accuracy reached 100%.The study demonstrated that near-infrared absorption spectroscopy based on artificial neural network can be used as an accurate and rapid technique for identification of geographical origin oftremellafuciformis. Models builded by this study can help building geographical indications and monitoring quality for raw materials of food.
Tremellafuciformis;Geographical identification;near-infrared spectroscopy;back propagation artificial neural network
2015-04-29
劉宇佳(1987-),男,在讀博士,研究方向:食品化學與檢測技術,E-mail:Thomas.cate@foxmail.com。
賀麗蘋(1965-),女,博士,高級實驗師,研究方向:天然產物化學與生物分析化學,E-mail:heliping@scau.edu.cn。
TS207.3
A
1002-0306(2016)03-0303-05
10.13386/j.issn1002-0306.2016.03.055