許 鋒,付丹丹,王巧華*,肖 壯,王 彬
紅提是葡萄中一個較受歡迎的品種,也是最具商業價值的品種之一,別名晚紅、紅地球、紅提子,具有果穗大、整齊度好、肉質堅實、香甜可口的優點。
紅提品質評價指標有糖度、酸度、糖酸比、芳香物質含量等。其中,糖度是指單位質量紅提漿果中所含糖類的總量,又可反映果汁的可溶性固形物含量。糖是葡萄果實中重要的營養物質,也是乙醇發酵的重要基質。其中總糖含量對果實的風味以及其他營養成分有很重要的影響,也是葡萄成熟度的衡量標準和重要指標[1]。酸度常稱為可滴定酸含量,是指單位質量紅提漿果中所含酸類有機物的總量,酸度是影響葡萄品質的重要指標之一,也是影響葡萄果實風味的重要因素,同時酸類有機物也是發酵的良好基質。紅提的糖酸比在不同用途中要求也不盡相同:鮮食用途:高糖度且中酸度的紅提相對其他品種風味更濃;加工用途:由于要求有機基質含量越多越好,則高糖且高酸度的紅提更適用于釀酒和制作飲料等。所以,研究糖度和酸度共同評價紅提品質具有重要意義。
測定葡萄、紅提品質的常規方法為破壞性抽樣檢測,繁瑣費時,已遠遠不能滿足生產實際的需求。隨著計算機技術的快速發展,以及多元校正技術在化學計量學中的廣泛運用,光譜技術得以在多領域的運用得到推廣。近年來,國外對葡萄品質檢測的相關研究有較多報道[2-10],但是專門研究糖度和酸度的文獻較少。在國內也有葡萄品質相關的報道[11-19],在基于光譜技術糖度的檢測研究中[20-24],吳桂芳等[24]利用偏最小二乘(partial least squares,PLS)法及神經網絡建立的葡萄糖度預測模型檢驗參數為0.908,預測均方根誤差為0.112,模型準確度不夠高。郭成等[21]利用隨機森林預測結合PLS法建立的糖度預測模型交叉驗證決定系數為0.93,有待進一步提高。呂剛等[20]運用可見-近紅外光譜技術對4 種葡萄品種探究糖度的預測研究,最終粒子群算法優化的支持向量機模型預測效果最好,預測決定系數為0.87~0.95,誤差為0.77%~1.23%。在上述研究中,對糖度的預測模型研究較多,糖度模型準確度需要提高和優化,消除輕微的過擬合現象。紅提酸度預測模型的探究鮮見報道。
本實驗擬基于可見-近紅外光譜技術,探究紅提糖度和酸度的快速無損檢測技術,進一步提高紅提糖度預測模型的性能,得到準確度較高的紅提酸度預測模型。本研究對光譜數據進行預處理,結合蒙特卡羅交叉驗證(Monte-Carlo cross-validation,MCCV)的奇異樣本篩選法和競爭自適應重加權采樣(competitive adaptive reweighted sampling,CARS)降維法建立隨機森林(random forest,RF)預測模型,為紅提品質進行無損分級檢測提供技術支持。
實驗所用樣品為不同成熟度的新疆紅提,在每穗紅提的穗節部、穗中部、穗內部和穗尖部分別采剪紅提樣本,共208 粒。簡單地去除表面較大的臟污,并將紅提編號裝入樣本袋備用。
NaOH、酚酞 國藥集團化學試劑有限公司;其他試劑均為國產分析純。
USB2000+微型光纖光譜儀(配有鏢旗光譜采集軟件) 美國Oceanoptics公司;申光WAY(2WAJ)阿貝折射儀 上海儀電物理光學儀器有限公司。
1.3.1 實驗步驟
首先搭建一個能夠準確采集單粒葡萄可見-近紅外光譜信息的實驗平臺,采集每個紅提樣本的光譜數據,然后采用傳統理化分析的方法準確測定紅提的糖度、酸度值,再用Matlab進行數據預處理與分析,并建立糖度和酸度預測模型。
1.3.2 光譜采集
搭建光譜采集實驗平臺,如圖1所示。其中,暗箱的長寬高分別為66.3、53.0、38.0 cm;接收器距離載物臺3.7 cm,光源距離載物臺2.9 cm。

圖1 光譜采集實驗平臺Fig. 1 Schematic of spectral acquisition device
安裝調試好光譜采集平臺,打開光源與光譜儀以及鏢旗光譜檢測軟件,將系統預熱30 min。首先,通過調整采集參數,觀察光譜曲線的變化,在保證曲線響應迅速的情況下,曲線盡量光滑。最后確定的參數為積分時間50 ms、平均次數30 次、平滑寬度5 nm、波段范圍400~1 000 nm。將光源亮度調至最小,通過鏢旗軟件設置暗電流;再緩慢調大光源,直至計數圖譜的最大值穩定在58 000左右(設備能夠穩定工作的范圍)。將紅提樣本放至載物臺,等待光譜穩定后點擊保存按鈕,完成可見-近紅外光譜數據的采集。
1.3.3 糖度測定
參照NY/T 2637—2014《水果和蔬菜可溶性固形物含量的測定 折射儀法》測定并作適當修改:先將阿貝折射儀校零后并將紅提榨汁取上清液,用膠頭滴管滴加2~3 滴紅提果汁,通過目鏡讀取糖度數據。
1.3.4 酸度測定
參照GB/T 12456—2008《食品中總酸的測定》方法并作適當修改:用分析天平稱取1 g左右紅提果汁上清液,溶于50 mL蒸餾水中,加入0.2 mL 1%的酚酞試劑。用0.01 mol/L NaOH標準溶液進行滴定,待溶液變成淺紅色,并30 s不褪色。記錄所消耗NaOH標準溶液的體積;并按照上述方法做空白滴定實驗,記錄所消耗NaOH標準溶液的體積。按下式計算酸度:

式中:c為NaOH標準溶液濃度/(mol/L);V為樣本滴定時消耗NaOH溶液的體積/mL;V0為空白實驗消耗的NaOH溶液體積/mL;K為換算系數(葡萄中主要為酒石酸,K取0.075);m為樣品質量/g。

圖2 樣本原始譜圖和S_G預處理后的光譜圖Fig. 2 Original and S_G pretreated spectra of samples
光譜有效信息的提取是光譜分析中至關重要的工作,通常光譜信息存在信噪比低、光譜變動、背景復雜及譜峰重疊的問題,這幾類問題都會直接導致建模效果不佳。先將光譜數據進行平滑降噪預處理,再進行樣本奇異點剔除,最后運用CARS降維算法選取特征波長后運用RF算法建立預測模型。平滑處理是一種能夠對數據進行降噪處理的預處理方法,使用SavitZky-Golay卷積平滑法(SavitZky-Golay,S_G)。為清晰地看到圖譜效果,隨機選取部分樣本,如圖2所示,預處理后的圖譜較為理想。
MCCV法是最近提出的一種通過機器產生隨機數進行模擬交叉驗證,計算模型的PRESS值,按大小排列后計算頻次,再根據出現的頻次判斷樣本奇異點。MCCV法相比傳統方法有較高的識別奇異點的能力[25]。
首先用PLS確定最佳主成分數;再利用隨機數按照4∶1的比例分別建立校正集和預測集進行建模分析,并循環2 500 次;計算每個樣本預測殘差的均值和方差,并繪制均值-方差圖。對糖度和酸度分別進行奇異樣本剔除,結果如圖3和圖4所示,糖度模型剔除1、2、70、71、89號5 個樣本。酸度模型剔除1、2、17、50、69號5 個樣本。

圖3 糖度的均值-方差分布圖Fig. 3 Mean value and variance distribution of sugar content

圖4 酸度的均值-方差分布圖Fig. 4 Mean value and variance distribution of acidity
2.3.1 校正集和驗證集的建立結果
CARS算法思想是借鑒了進化論的“適者生存”的理論[26-27]:利用PLS建模方法結合CARS技術,篩選出PLS模型中系數絕對值較大的子集,去掉權重較小的波長點;再結合交叉驗證的方法選出模型均方差最小的子集,以達到有效地選取最優建模波長組合。嘗試使用CARS提取特征波長,研究設計基于特征波長的發光二極管專用光譜檢測裝置的可行性。
RF算法是一種統計學習理論,具有很高的預測準確率[28]。建模難度小,不容易出現過擬合現象。近年來RF發展迅速,Maj等[29]在改進穩健RF回歸算法的基礎上提出了booming算法、Coussement法等,運用RF預測客戶流失,并與其他模型比較,RF都表現更好[30-33]。本實驗采用RF算法來進行預測模型的建立。校正集和預測集使用Matlab產生隨機數的方式,將樣本集分成3∶1的兩個集合,分別對應為校正集和驗證集。
2.3.2 糖度模型的建立
在去除糖度的5 個奇異點后,進行CARS降維,由圖5a可知,選取變量數與運行次數之間的關系,符合遞減規律[34]。圖5b顯示的是交叉驗證均方根誤差(root mean squared error cross validation,RMSECV)的變化趨勢,當RMSECV變小時,剔除了無效信息;當RMSECV變大時,剔除了有效信息。由圖5c可知,當運行次數為27時(中線位置),得到的RMSECV最小。選取此時對應的波長子集為621、657、670、671、687、735、736、755、756、792、793、798、806、838、839、840、843、844、851、853、856、886、887、897 nm,總共24 個波長點。再進行RF建模分析,校正集相關系數和均方根誤差分別是0.955 8和0.315 8;驗證集相關系數和均方根誤差為0.956 8和0.318 5;從表1可以看出,原始圖譜下的RF模型出現嚴重的過擬合,S_G+MCCV+CARS處理模型有顯著的改善。模型預測值和測量值對比如圖6所示,可見該RF葡萄糖度預測模型達到運用的要求。

表1 不同處理方法的糖度RF預測模型預測效果Table 1 Sugar content prediction of RF models with different pretreatment methods


圖5 CARS工作過程的可視化Fig. 5 Visualization of CARS

圖6 糖度模型預測值和測量值對比Fig. 6 Comparison between the predicted and measured values of sugar content
2.3.3 酸度模型的建立
在去除糖度的5 個奇異點后,進行CARS降維,方法同糖度模型,最后選取的波長集合為681、682、192、259、261、296、850、873、876、884、887 nm。再建立RF模型,校正集相關系數和均方根誤差分別是0.945 6和0.300 1;驗證集相關系數和均方根誤差為0.940 5和0.311 2。從表2可以看出,原始圖譜的RF模型出現嚴重的過擬合,S_G+MCCV+CARS處理對酸度預測模型也有顯著改善。模型預測值和測量值對比如圖7所示,酸度預測模型的預測能力沒有糖度預測模型準確,但是該RF葡萄酸度預測模型也可達到運用的要求。

表2 不同處理方法的酸度預測模型預測效果Table 2 Acidity prediction of RF models with different pretreatment methods

圖7 酸度模型預測值和測量值對比Fig. 7 Comparison between the predicted and measured values of acidity
運用可見-近紅外光譜技術探究快速無損檢測紅提糖度和酸度的方法。用S_G法、MCCV法和CARS法降維,最終建立RF預測模型效果良好。所得糖度預測模型的校正集相關系數和均方根誤差分別為0.955 8和0.315 8;驗證集相關系數和均方根誤差為0.956 8和0.318 5。酸度預測模型的校正集相關系數和均方根誤差分別是0.945 6和0.300 1;驗證集相關系數和均方根誤差為0.940 5和0.311 2。結果表明,該方法適用于紅提糖度和酸度的快速無損檢測。可見,在嘗試消除過擬合的方法之后,所建模型的校正集相關系數和均方根誤差與驗證集的較為接近,且都得到了較高的相關系數和較小的均方根誤差。說明模型具有較好的穩定性和較高的準確度。另外,由于RF算法的特性,模型還具有較高的運算效率。該糖度和酸度預測模型可以通過Java與Matlab混編的方式開發相應的檢測軟件,能夠實現紅提糖度、酸度的快速無損檢測。軟件具有并行運算快、模型更新容易、易于移植等優點。經過實際檢驗,每個樣本只需要0.01 s左右即可完成糖度和酸度的檢測。基于該檢測軟件,可以開發一種基于特征波長的專用型檢測裝置,用于檢測紅提糖度和酸度。基于特征波長的模型輸入變量較少,系統計算量少,從而可以降低設備制造成本。本實驗所得到的模型本身具備準確度高、運算效率高的優點,再配合軟硬件技術的支持,將促進該方法用于生產實踐。
參考文獻:
[1] 司合蕓. 干紅葡萄酒關鍵工藝研究[D]. 無錫: 江南大學, 2006: 4-10.
[2] MUSINGARABWI D M, NIEUWOUDT H H, YOUNG P R, et al. A rapid qualitative and quantitative evaluation of grape berries at various stages of development using Fourier-transform infrared spectroscopy and multivariate data analysis[J]. Food Chemistry, 2016, 49(16): 72-76. DOI:10.1016/j.foodchem.2015.05.080.
[3] NOGALE-SBUENO J, HERNáNDEZ-HIERRO J M, RODRíGUEZPULIDO F J, et al. Determination of technological maturity of grapes and total phenolic compounds of grape skins in red and white cultivars during ripening by near infrared hyperspectral image: a preliminary approach[J]. Food Chemistry, 2014, 152: 586-591. DOI:10.1016/j.foodchem.2013.12.030.
[4] RODRíGUEZ-PULIDO F J, BARBIN D F, SUN D, et al. Grape seed characterization by NIR hyperspectral imaging[J]. Postharvest Biology and Technology, 2013, 76: 74-82. DOI:10.1016/j.postharvbio.2012.09.007.
[5] POREP J U, ERDMANN M E, K?RZEND?RFER A, et al. Rapid determination of ergosterol in grape mashes for grape rot indication and further quality assessment by means of an industrial near infrared/visible (NIR/VIS) spectrometer-a feasibility study[J]. Food Control,2014, 43(5): 142-149. DOI:10.1016/j.foodcont.2014.03.008.
[6] PARPINELLO G P, NUNZIATINI G, ROMBOLà A D, et al.Relationship between sensory and NIR spectroscopy in consumer preference of table grape (cv Italia)[J]. Postharvest Biology and Technology, 2013, 59: 47-53. DOI:10.1016/j.postharvbio.2013.03.013.
[7] GIOVENZANA V, CIVELLI R, BEGHI R, et al. Testing of a simplified LED based vis/NIR system for rapid ripeness evaluation of white grape (Vitis vinifera L.) for Franciacorta wine[J]. Talanta, 2015,144: 584-591. DOI:10.1016/j.talanta.2015.06.055.
[8] NOGALES-BUENO J, BACA-BOCANEGRA B, RODRIGUEZPULIDO F J, et al. Use of near infrared hyperspectral tools for the screening of extractable polyphenols in red grape skins[J]. Food Chemistry, 2015, 172: 559-564. DOI:10.1016/j.foodchem.2014.09.112.
[9] DIAGO M P, FERNANDEZ-NOVALES J, FERNANDES A M,et al. Use of visible and short-wave near-infrared hyperspectral imaging to fingerprint anthocyanins in intact grape berries[J]. Journal of Agricultural and Food Chemistry, 2016, 64(40): 7658-7666.DOI:10.1021/acs.jafc.6b01999.
[10] LAFONTAINE M, BOCKAJ Z, FREUND M, et al. Non-destructive determination of grape berry sugar concentration using visible/near infrared imaging and possible impact on wine quality[J]. Tm-Technisches Messen, 2015(12): 633-642. DOI:10.1515/teme-2015-0045.
[11] 陳姍姍. 基于高光譜成像技術的釀酒葡萄成熟期酚類物質檢測方法研究[D]. 西安: 西北農林科技大學, 2015: 5-7.
[12] 吳迪, 寧紀鋒, 劉旭, 等. 基于高光譜成像技術和連續投影算法檢測葡萄果皮花色苷含量[J]. 食品科學, 2014, 35(8): 57-61.DOI:10.7506/spkx1002-6630-201408010.
[13] 李敏. 基于機器視覺的紅提果粒大小無損檢測技術[D]. 武漢: 華中農業大學, 2013: 13-15.
[14] 楊春霞. 基于離子交換-電導檢測法對釀酒葡萄中有機酸含量進行分析[J]. 分析測試學報, 2016(9): 1162-1166. DOI:10.3969/j.issn.1004-4957.2016.09.016.
[15] 魯偉奇. 葡萄成熟度無損檢測研究[D]. 杭州: 中國計量學院, 2013:18-20.
[16] 楊杰, 馬本學, 王運祥, 等. 葡萄可溶性固形物的高光譜無損檢測技術[J]. 江蘇農業科學, 2016(6): 401-403. DOI:10.15889/1002-1302.2016.06118.
[17] 楊杰. 葡萄內部品質的高光譜成像檢測研究[D]. 石河子: 石河子大學, 2016: 15-17
[18] 袁雷明, 蔡健榮, 孫力, 等. 鮮食葡萄果穗形狀顏色的多視角投影成像檢測[J]. 現代食品科技, 2016(4): 218-222. DOI:10.13982/j.mfst.1673-9078.2016.4.034.
[19] 陳辰, 魯曉翔, 張鵬, 等. 紅提葡萄VC含量的可見/近紅外檢測模型[J]. 食品與機械, 2015(5): 70-74. DOI:10.13652/j.issn.1003-5788.2015.05.017.
[20] 呂剛. 基于光譜和多光譜成像技術的葡萄內部品質快速無損檢測和儀器研究[D]. 杭州: 浙江工業大學, 2013: 18-20.
[21] 郭成, 馬月, 梁夢醒, 等. 基于近紅外光譜結合波長優選檢測單顆葡萄的SSC含量[J]. 食品與機械, 2016, 32(9): 39-43. DOI:10.13652/j.issn.1003-5788.2016.09.009.
[22] 徐洪宇, 張京芳, 盧春生, 等. 近紅外光譜技術在釀酒葡萄品質檢測中的應用現狀及展望[J]. 中國食品學報, 2012, 12(8): 148-155.DOI:10.16429/j.1009-7848.2012.08.006.
[23] 陳辰, 魯曉翔, 張鵬, 等. 可見/近紅外漫反射光譜檢測馬奶葡萄表皮色澤[J]. 食品工業科技, 2015, 36(19): 308-311. DOI:10.13386/j.issn1002-0306.2015.19.054.
[24] 吳桂芳, 黃凌霞, 何勇. 葡萄漿果糖度可見/近紅外光譜檢測的研究[J].光譜學與光譜分析, 2008, 28(9): 2090-2093. DOI:10.3964/j.is sn.1000-0593(2008)09-2090-04.
[25] 李水芳, 單楊, 范偉, 等. 基于MCCV奇異樣本篩選和CARS變量選擇法對蜂蜜pH值和酸度的近紅外光譜檢測[J]. 食品科學, 2011,32(8): 182-185.
[26] 張華秀, 李曉寧, 范偉, 等. 近紅外光譜結合CARS變量篩選方法用于液態奶中蛋白質與脂肪含量的測定[J]. 分析測試學報, 2010,29(5): 430-434. DOI:10.3969/j.issn.1004-4957.2010.05.002.
[27] 孫通, 許文麗, 林金龍, 等. 可見/近紅外漫透射光譜結合CARS變量優選預測臍橙可溶性固形物[J]. 光譜學與光譜分析, 2012, 32(12):3229-3233. DOI:10.3964/j.issn.1000-0593(2012)12-3229-05.
[28] 方匡南, 吳見彬, 朱建平, 等. 隨機森林方法研究綜述[J]. 統計與信息論壇, 2011(3): 32-38.
[29] MAJ J R, DONALD E B. Improving the robust random forest regression algorithm[D]. Virginia: University of Virginia, 2006.
[30] COUSSEMENT K, VAN DEN POEL D. Churn prediction in subscription services: an application of support vector machines while comparing two parameter-selection techniques[J]. Expert Systems with Applications, 2008, 34(1): 313-327. DOI:10.1016/j.eswa.2006.09.038.
[31] BUREZ J, VAN DEN POEL D. Handling class imbalance in customer churn prediction[J]. Expert Systems with Applications, 2009, 36(3):4626-4636. DOI:10.1016/j.eswa.2008.05.027.
[32] COUSSEMENT K, VAN DEN POEL D. Improving customer attrition prediction by integrating emotions from client/company interaction emails and evaluating multiple classifiers[J]. Expert Systems with Applications, 2009, 36(3): 6127-6134. DOI:10.1016/j.eswa.2008.07.021.
[33] BUCKINX W, VERSTRAETEN G, VAN DEN POEL D. Predicting customer loyalty using the internal transactional database[J]. Expert Systems with Applications, 2007, 32(1): 125-134. DOI:10.1016/j.eswa.2005.11.004.
[34] 陳華舟, 潘濤, 陳潔梅. 多元散射校正與Savitzky-Golay平滑模式的組合優選應用于土壤有機質的近紅外光譜分析[J]. 計算機與應用化學, 2011(5): 518-522. DOI:10.3969/j.issn.1001-4160.2011.05.002.