曾明飛,朱玉杰,馮國紅,朱金艷,劉思岐
(東北林業大學 工程技術學院,黑龍江 哈爾濱,150040)
藍莓,一種藍色小漿果,歸屬于杜鵑花科越橘屬,有漿果之王的美譽[1]。其酸甜可口,風味獨特,并且營養豐富,富含維生素C、花青素和多種人體所需礦物質。藍莓鮮果自身含水量大,容易受到擠壓等損傷,且集中成熟于6~8月的多雨高溫時節,果實采后極其不易保存、容易失水干皺和腐爛。隨著貯藏時間的延長以及新鮮程度的快速變化,其品質也會發生快速改變。對藍莓的新鮮度進行快速準確評價可以更好地為之品質分級,判斷何時將其制成果醬、含片以及提取化合物等加工品提供參考,以更好提高其利用價值。
傳統對于藍莓新鮮度分級評價主要依靠人工感官評定,不僅費時費力且效果因人而異。可見/近紅外光譜技術憑借分析速度快、成本低、無污染等優點,在食品快速無損檢測中被廣泛應用。其結合化學計量學方法在物質含量預測[2]、食品品質檢驗[3]等當面多有研究。對于藍莓無損檢測而言,目前國內外已經基于近紅外光譜技術實現了對其硬度[4]、可溶性固形物[5]、花青素[6]和總酚[7]的無損檢測,但以往對藍莓的研究主要是針對個別指標預測,尚缺乏對新鮮度這一綜合指標的研究。不少學者利用光譜無損檢測技術對肉質品[8]、水產品[9]和蛋類[10]的新鮮度進行了分析,但對果蔬尤其是藍莓的新鮮度研究還較少,主要原因是對于果蔬類樣本的新鮮度判定仍缺乏明確的行業標準,其中李昆[11]采用近紅外光譜技術對不同放置天數的蘋果、白梨和香梨的新鮮度進行了探究,建立了偏最小二乘(partial least squares,PLS)和反向傳播神經網絡(back-propagation neural network,BPNN)模型,并取得了一定的預測效果。孫紅等[12]利用其設計的可見光/近紅外鮮切果品新鮮度快速檢測裝置對紅富士蘋果進行了測試,以切開時長2 h為分界線,將蘋果樣品分為2個新鮮等級,建立的支持向量機模型準確率為86.81%。以上研究表明,可見/近紅外光譜技術可被應用于水果新鮮度的快速檢驗和評價,但在對樣品的新鮮度劃分上僅以放置時長為判斷標準,劃分方法較為主觀且單一。
本文以綠寶石藍莓為研究對象,測得其可見/近紅外光譜數據以及與藍莓新鮮度變化相關的6個理化指標,通過這些理化指標計算新鮮度綜合得分,將樣品劃分為新鮮、次新鮮、不新鮮3個類別。不同新鮮度類別的藍莓原始光譜數據采用Savitzky-Golay(S-G)卷積平滑進行預處理,再運用主成分分析提取特征信息,建立支持向量機和隨機森林2種新鮮度快速評價模型,比較2種模型的評價效果,以期為藍莓新鮮度的快速準確評價提供參考。
實驗儀器:LabSpec 5000型光譜儀,美國ASD公司;LYT-330型手持式折光儀,上海淋譽公司;Universal TA型質構儀,上海騰拔公司;UV-1801型紫外分光光度計,北京北分瑞利公司;PX-70BⅢ型生化培養恒溫箱,天津泰斯特公司。
實驗材料:藍莓選用的品種為綠寶石,2021年6月采于遼寧省米粒生鮮(丹東)商貿有限公司藍莓種植基地,挑選大小均勻、無損傷的成熟新鮮藍莓當天低溫貯藏運回實驗室,分組放置于專用包裝盒內避免擠壓,再貯藏于恒溫箱內,恒溫箱內溫度設置為10 ℃。
隨著貯藏時間的延長,由于蒸騰作用、呼吸消耗以及受到纖維素酶、果膠酶等影響,藍莓果實外觀色澤質地改變、質量減少、硬度下降、可溶性固形物在相關酶的作用下含量增加、內部維生素C等被氧化[13-14]。基于上述考慮,研究測定了與新鮮度相關的6個理化指標:外觀、貯藏天數、質量損失率、硬度、可溶性固形物、維生素C,以此6個理化指標作為藍莓新鮮度指標,參考謝忠紅等[15]對菠菜新鮮度的劃分方法,以各指標的標準差除以標準差之和為每個指標賦予權值,求得每組藍莓新鮮度綜合得分,并據此劃分藍莓樣品新鮮度類別,以新鮮度類別作為分類標簽,進而基于可見/近紅外光譜數據建立新鮮度評價模型。
挑選大小均勻、無損傷的成熟新鮮藍莓分成300組,6個每組,裝于聚對苯二甲酸乙二醇酯專用水果包裝盒內,于10 ℃恒溫箱中貯藏。每次實驗前取30組藍莓,邀請15名接受過培訓的同學作為專家進行外觀打分,待樣品恢復至室溫后采集其可見/近紅外漫反射光譜,之后進行相關理化指標的測定。樣品從貯藏當天開始測定,其間每天測定1次,每次30組樣品,共測定了10次。
采用ASD公司LabSpec 5000型光譜儀采集光譜,該儀器波長范圍為350~2 500 nm,在700 nm處光譜分辨率為3 nm,在1 400、2 100 nm處為10 nm。使用二分光纖及其探頭作為光譜檢測附件,光斑直徑為5 mm,檢測方式為漫反射,單波長快速掃描32次,使用配套軟件IndicoProVersion 3.1采集光譜,采集間隔為1 nm。采集樣品光譜前,先將機器預熱30 min,之后將二分光纖探頭對準聚四氟乙烯標準白板進行校正。掃描光譜時,先將藍莓表皮輕輕擦拭干凈,側放在墊有黑色植絨布的樣品盒內。由于藍莓果實較小且大小形狀存在一定差異,為保證每個樣本光譜采集情況一致以及減少反射光散射外露,掃描樣品時光纖探頭與藍莓樣品表面直接緊密接觸,在樣品果腹赤道處每隔約120°位置掃描光譜 3次,以3次所得平均結果作為該單果樣品的可見/近紅外漫反射光譜,以每組中6個樣品的平均光譜代表該組樣本光譜,每采集完成1組樣品進行1次白板校正,光譜掃描時盡量避開表皮缺陷部位。
1.4.1 質量損失率測定
采用電子天平稱量法測定,稱取每組樣品初始質量w0,測量時質量wt,單位為g,質量損失率計算如公式(1)所示:

(1)
1.4.2 硬度測定
質構儀探頭采用P5型號,下壓距離為7.0 mm,測前、測試和測后速度分別為:2.00、1.00、2.00 mm/s,接觸力設為0.5 N。以第1次下壓曲線上最大力量值作為其硬度值,每組所有藍莓全部測定取平均,結果以N表示。
1.4.3 可溶性固形物含量測定
用研缽將6個果實搗碎均勻,紗布濾出幾滴汁液,使用手持式折光儀測定。重復測量3次取平均值,作為該組藍莓可溶性固形物實測量。
1.4.4 維生素C含量測定
維生素C測定參考黃綿佳[16]的方法。取2 g左右上述搗碎藍莓加入2 mL質量分數1% HCl研磨均勻,加蒸餾水定容至25 mL。用濾紙濾出濾液2 mL,加0.2 mL質量分數10% HCl后加水稀釋至10 mL。以蒸餾水為空白對照,使用紫外分光光度計在423 nm 處測待測液吸光度值,并查標準曲線(C=15.12A+0.122 2,R2=0.983 3,由抗壞血酸標準液測得)計算得出。
通過6個理化指標計算樣品新鮮度綜合得分,將藍莓樣品劃分為新鮮、次新鮮、不新鮮3個新鮮度類別,依次標記為1、2和3,作為新鮮度評價模型的分類標簽。原始光譜數據首先應用S-G卷積平滑進行預處理,進而采用主成分分析提取光譜特征信息。以最佳主成分得分為輸入變量,新鮮度類別為輸出量,利用支持向量機和隨機森林2種方法建立藍莓新鮮度快速評價模型。
光譜導出和預處理軟件為The UnscramblerX 10.4,數據計算處理在matlab 2019a和Execl 2019軟件進行,繪圖軟件為Origin 2021,建模軟件選擇為matlab 2019a。
2.1.1 質量損失率和硬度
藍莓貯藏前期,果實飽滿水分充足,而隨著貯藏時間的延長,果實中的水分不斷減少,營養物質不斷被消耗,貯藏第9天時,果實表皮已嚴重皺縮。由圖1可知,0~9 d藍莓質量損失率逐漸增加,截至最后1次測量時,果實質量減少了13.40%。果實硬度不僅影響其外觀形狀,還對其口感有較大影響,如圖2所示,果實硬度值在貯藏期間不斷下降,至第9天時,硬度下降到最低值。硬度的變化可以反映其細胞壁構成物質、細胞間結合程度以及相關分解酶的變化。質量減少和硬度降低主要表現出果實呈現萎蔫、疲軟或腐爛形態,表皮光澤降低且變得不均勻。

圖1 質量損失率變化圖Fig.1 Mass loss rate change diagram

圖2 硬度值變化圖Fig.2 Diagram of hardness value change
2.1.2 可溶性固形物和維生素C含量
可溶性固形物是反映藍莓品質的重要指標,極大地影響其食用口感。可溶性固形物測定結果見圖3。由圖3可知,貯藏期間可溶性固形物含量總體呈上升趨勢,前6 d可溶性固形物含量增長迅速,然后增長速度放緩,這與李洋等[17]在10 ℃貯藏條件下貯藏前期的測定結果具有一致性。經分析,可溶性固形物含量上升的主要原因是貯藏期間藍莓內淀粉、纖維素和果膠被淀粉酶、纖維素酶和果膠酶分解,從而產生了大量可溶性固形物[18],貯藏前期可溶性固形物產生速度大于其消耗速度,表現為其含量在貯藏期間不斷上升。雖然繼續貯藏時,可溶性固形物含量會達到峰值然后下降,但此刻藍莓早已肉眼可見的不新鮮,再利用光譜無損檢測技術判斷藍莓新鮮度并無意義。
維生素C又稱抗壞血酸,能增強人體免疫能力,具有防治壞血病的作用,廣泛存在于各類果蔬中,是果蔬中的一種重要營養物質。由圖4可知,隨著貯藏時間延長,維生素C含量逐漸下降,至貯藏第9天時減少了30.66%。維生素C具有還原性,在空氣中易被氧化。據分析,藍莓采后內部維生素C含量下降主要是由于其被不斷氧化分解[19],且貯藏時間越長,維生素C含量降低越多。
實驗結果發現,10 ℃恒溫貯藏下綠寶石藍莓在0~9 d貯藏期內,花青素含量總體在0.745 5~1.330 7 mg/g波動,變化不明顯。在評價藍莓樣品的新鮮度類別時,由于指標測量誤差的不可避免,過多的指標可能會使評價效果下降。因此,最終考慮質量損失率、硬度、可溶性固形物、維生素C、外觀得分和貯藏天數作為新鮮度評價的指標。

圖3 可溶性固形物含量變化圖Fig.3 Diagram of variation of soluble solid content

圖4 維生素C含量變化圖Fig.4 Changes in vitamin C content
2.1.3 外觀評價
藍莓外觀評價參考了王培[20]對菠菜外觀評定的方法,采用專家打分法,邀請15名接受過培訓的同學對藍莓外觀新鮮度進行評定。外觀評定時選取了3個和藍莓外觀密切相關的子指標,分別為色澤、香氣和質地形態[21],3個子指標評價標準如表1所示。藍莓樣品按外觀標準劃分為新鮮、次新鮮、不新鮮3個類別,并量化為3、2、1分。將3個子指標兩兩對比并由專家進行打分,確定3個子指標權重,外觀3個子指標權重結果見表2。外觀評定結果見表3(此處僅展示第1組結果)。

表1 藍莓外觀新鮮度評價標準Table 1 Evaluation criteria for appearance freshness of blueberries

表2 二元對比排序法確定外觀各指標權重Table 2 Weight of every appearance decided by binary comparison sort

表3 第1組外觀評價結果 單位:人次
由表3可知,對該組藍莓外觀評價時,以色澤為標準,15人均判定為新鮮;以香氣為標準,14人認為新鮮,1人認為次新鮮;以形態質地為標準時,15人均認為新鮮。該組藍莓的模糊關系矩陣M如公式(2)所示:

(2)
指標權重向量Z乘以模糊矩陣M,再乘以分值向量Y,得出該組樣品最終外觀得分F,如公式(3)所示:
F=Z·M·Y=

(3)
本次研究綜合考慮貯藏天數、外觀、質量損失率、硬度、可溶性固形物、維生素C含量這6個指標。參考謝忠紅等[15]對菠菜新鮮度的劃分方法,采用各指標標準差占標準差之和的比值給每個指標賦予權值,計算出每組藍莓的新鮮度綜合得分,并根據綜合得分情況將樣品藍莓合理劃分為新鮮、次新鮮和不新鮮3個類別。
2.2.1 綜合得分
每組藍莓得到外觀、貯藏天數、可溶性固形物、硬度、質量損失率和維生素C含量6個關于新鮮度的指標數值,將每個指標值歸一化到[0,1]并求標準差,再將各指標的標準差分別除以6個指標的標準差之和,得到各指標的指標權重bj,每組藍莓的新鮮度綜合得分為每個指標值aij與權重bj乘積的和。綜合得分計算如公式(4)所示:
(4)
式中:i,藍莓樣品編號;j,新鮮度6個理化指標;aij,第i組藍莓第j個指標數值;bj,第j個指標的權重;當j取貯藏時間、可溶性固形物、質量損失率3個和新鮮度是負相關的指標時,k取1,其余取0。
為使綜合得分保持正值,其結果仍進行歸一化操作。各組樣品藍莓新鮮度綜合得分由高到低排序,并重新編號,得出藍莓新鮮度綜合得分曲線如圖5所示。由圖5可知,綜合得分曲線存在2個突變點,根據這2個突變點將藍莓樣品劃分為3組:[1,0.760 4]為新鮮,(0.760 4,0.331 9]為次新鮮,(0.331 9,0]為不新鮮。最終300組藍莓劃分為新鮮88組,次新鮮114組,不新鮮98組,分別標記為1,2和3。

圖5 藍莓新鮮度綜合得分曲線Fig.5 Blueberry freshness composite score curve
樣本集依照新鮮度綜合得分進行排序,采用隔三選一法[22]劃分為訓練集和測試集。結果表明,訓練集共計225組樣本,包含新鮮66組、次新鮮86組、不新鮮73組;測試集總計75組,包含新鮮22組,次新鮮28組和不新鮮25組。
2.4.1 波段選擇和預處理
藍莓光譜兩端噪聲較大,去掉此部分光譜數據可使模型達到更好效果,本文選取500~2 300 nm光譜進行分析。
光譜數據的準確性及有效性受到傳感器靈敏度、環境溫度和光照強度等因素的影響[23],合適的預處理手段可顯著提高信噪比,使模型的準確率大為提升。此處選擇三次多項式、平滑點數為15點的S-G卷積平滑算法[24]對光譜數據進行預處理,預處理前后的反射光譜如圖6所示。從圖6可看出,相比于原始光譜,預處理之后的光譜曲線更加平滑,系統噪聲更低、信噪比更高。

a-原始光譜;b-S-G平滑預處理后光譜圖6 預處理前后藍莓反射光譜圖Fig.6 Reflection spectra of blueberries before and after pretreatment
2.4.2 主成分分析
每一個樣本的光譜信息都有上千維的數據,若直接使用其建立模型,計算量大,耗時長,且會導致建立的模型性能差、準確率低。主成分分析是一種常用的光譜數據降維和特征提取方法,能最大限度保留原始光譜信息,并加快模型訓練速度,提高預測精度和魯棒性。繪制前3個主成分得分的三維散點圖如圖7所示(為避免圖中數據點堆積,僅展示測試集數據得分)。由圖7可看出,同一種新鮮類別數據點具有一定聚集性,但不同類別之間存在交叉部分,僅依靠主成分得分難以對不同新鮮類別樣本準確劃分。

圖7 主成分得分三維散點圖Fig.7 Three - dimensional scatter diagram of principal component scores
2.5.1 支持向量機模型及其參數尋優
支持向量機(support vector machine,SVM)是一種強大的模式分類方法,常用于解決小樣本情況下的分類問題。其主要思想是將數據展開成高維,建立一個分類超平面來使支持向量間距最大化,并以此進行分類工作。SVM模型計算簡單,具有很強的通用性,能夠很好地預防欠學習與過學習的發生,具有十分強大的分類和回歸預測能力。臺灣大學林智仁教授等研發的LIBSVM工具箱,可快速有效地實行SVM模型的建立。應用該工具箱時需對核函數、懲罰因子c及核參數g進行選擇,此處以徑向基函數為核函數,懲罰因子c及核參數g利用粒子群算法(particle swarm optimization,PSO)進行尋優。
PSO對SVM模型參數尋優前,需首先確定模型輸入變量維數,即主成分個數。主成分個數太少,不能很好提取光譜數據的主要信息,過多則降低模型的運算效率和準確率。為使最佳主成分選取更合理,在使用粒子群算法尋優SVM參數時,對主成分數在[1,20]范圍內進行了測試,結合5折交叉檢驗下驗證集平均準確率最佳值,確定最佳主成分個數。不同主成分個數下的5折檢驗平均準確率最佳值如表4所示。
由表4可以看出,不同主成分個數對模型識別效果有較大影響,主成分個數為5時效果最佳。此時PSO尋優參數c和g的適應度曲線如圖8所示。從圖8可以看出,最佳懲罰因子c=5.053 1、核參數g=1.800 5,5折交叉檢驗下的最佳判別準確率為97.78%。

表4 不同主成分個數5折交叉檢驗下的最佳值Table 4 The optimal value of 5 fold cross test for different principal components

圖8 PSO尋優SVM參數適應度曲線Fig.8 PSO optimizes SVM parameter fitness curve
2.5.2 隨機森林模型
隨機森林(random forest,RF)是基于統計學習和集成學習的一種算法,最早由BREIMAN和CUTLER提出,其采用Bootstrap法從數據集中有放回地隨機重采樣,訓練產生多棵決策樹,多個相互獨立的決策樹進行獨立評價,最終統計判別結果,以多數決策樹的判定結果為最終類別值。科羅拉多大學博爾德分校JAIANTILAL開發的RF工具箱,常用于進行RF模型的建立。RF中決策樹個數ntree對模型效果有一定影響,通常樹的個數越多,模型預測效果越好,但計算量也會逐步增加。經實驗反復測試,當ntree≥250以后,各分類情況的袋外數據誤差變化不大,因此將ntree設置為250。
2.5.3 模型效果比較
為比較SVM模型和隨機森林模型的分類效果,使用前5個主成分得分為輸入變量,藍莓新鮮度類別為輸出量,以徑向基函數為核函數、懲罰因子c=5.053 1、核參數g=1.800 5,以決策樹個數Ntree=250,建立SVM和RF 2種藍莓新鮮度評價模型,并對2種評價模型的預測效果進行驗證。
研究表明,SVM模型和RF模型訓練集的平均分類準確率分別為97.78%和100%,SVM和RF模型測試集的分類統計結果如表5所示。對于測試集的75個樣本,SVM模型有9個被誤判,RF模型有12個樣本分類錯誤,總體識別準確率分別為88%和84%。由表5可知,SVM模型對測試集“新鮮”、“次新鮮”、“不新鮮”3個新鮮度類別的識別準確率分別為95.45%、89.29%和80%,RF模型的識別準確率分別為95.45%、85.71%和72%,相比RF模型,SVM模型每一新鮮度類別測試集的識別準確率提高0%、3.58%和8%。此外,兩者對于“新鮮”類別的識別準確率均高于其他2個新鮮度類別,造成這種現象的原因可能是由于后兩類別的部分樣本新鮮程度接近,從而造成兩者之間的誤判。以上研究結果表明,SVM新鮮度評價模型準確率更高,穩定性和泛化能力均優于RF模型,更適合藍莓新鮮度模型的建立。分析認為,在光譜這種噪音較大的數據集上,RF的模型容易陷入過擬合,而SVM模型具有很好的非線性映射能力,并且采用結構風險最小化準則,在處理小樣本分類問題上具有更大優勢。

表5 模型識別結果統計Table 5 Model recognition result statistics
藍莓果實貯藏期間,新鮮度是反映果實品質的一個重要的綜合指標,快速準確評價藍莓果實新鮮度是一項重要的工作。為實現對藍莓新鮮度的快速準確評價,利用可見/近紅外光譜儀采集不同貯藏天數藍莓樣品的光譜信息,使用S-G卷積平滑方法和主成分分析對光譜數據去噪和提取特征信息。綜合考慮6個理化指標:貯藏時間、外觀、質量損失率、硬度、可溶性固形物和維生素C含量,計算新鮮度綜合得分,將所測300組藍莓樣品劃分為新鮮、次新鮮和不新鮮3個類別。在使用PSO尋優SNM參數時,對主成分數在[1,20]范圍內進行了測試,結合5折檢驗下驗證集平均準確率最佳值,確定最佳主成分個數為5個。以前5個主成分得分為輸入變量,建立SVM和RF新鮮度評價模型,獲得的識別準確率分別為88%和84%。相對于RF模型,SVM模型具有更高的準確率和魯棒性,可以更好地區分藍莓新鮮度的3個類別,研究表明可見/近紅外光譜技術結合SVM方法在藍莓新鮮度的快速評價方面具有良好的應用潛力。