黎麗莎,劉燕德,胡 軍,宋 燁,朱向榮,黃 敏,周新奇
(1.華東交通大學智能機電裝備創新研究院,江西 南昌 330013; 2.中華全國供銷合作總社濟南果品研究院,山東 濟南 250220;3.湖南省農產品加工所,湖南 長沙 410125; 4.江南大學物聯網工程學院,江蘇 無錫 214122;5.杭州譜育科技發展有限公司,浙江 杭州 310056)
水果是生活中基本營養物質的來源, 對人體健康有明顯的有益影響,如維生素、抗氧化劑、多酚和礦物質。 水果在運輸過程中,由于細胞的呼吸作用導致水果內部品質出現變化, 從而影響水果的最終口感, 而水果的采收期以及儲存方式對這一過程的變化起著關鍵性的作用。 水果的成熟期按照其階段特性可以劃分為3 類:可采成熟期、食用成熟期和生理成熟期, 不同成熟期對應的生理階段不同,所體現的水果內部品質也有所不同[1-4]。處于可采成熟期的水果已經完成了生長和營養物質的積累,達到了水果的采收期,但此時水果的口感和外部品質還未達到最佳,不完全適用于鮮食,適用于長途運輸和儲存; 食用成熟期則是指此時水果的食用口感以及外觀均已達到最佳狀態,但此時不再適用于長途運輸和儲存, 可用于加工制作罐頭等; 而生理成熟期的水果內部種子已充分成熟,此時的果肉已經開始腐爛變質,不宜食用,更不適合運輸儲藏[5-7]。 水果成熟期無損檢測的研究對提高果實的質量和貯藏壽命都具有至關重要的作用[8-11]。
紅外光譜是由于不同分子吸收的紅外線波段不同從而產生的一種吸收光譜。 在不同化合物的分子中,由于組成分子的化學鍵、基團或官能團不同從而在紅外區內的吸收頻率也不同,在紅外光譜圖上會出現不同位置的吸收峰,可以通過紅外光譜對化合物進行定性分析。 由于有機分子中的含氫基團(如O-H、C-H、N-H)的振動吸收頻率對應的波長正好在近紅外光譜區,所以近紅外光譜 (near infrared spectroscopy,NIRS) 常用于有機化合物中含氫基團結構的檢測。 利用破壞性技術雖然可以精確地預測果實的成熟情況,然而這些技術費時費力并且會損壞樣品,所以無法對每一個樣品都精確檢測。 近年來,各種無損檢測技術快速發展,如比色法、可見成像、光譜學和光譜成像等[12-14],其中,近紅外無損檢測技術就被廣泛應用于水果成熟期的研究中[15]。Walsh 等[16]便實現了利用短波近紅外光譜儀器對樹上未采摘的芒果的干物質(dry matter,DM)進行了檢測,并以此作為田間芒果采收決策的數據支持。 Sripaurya 等[17]則自主設計研發了一種便攜式6 數字通道NIR裝置,用于預測GrosMichel 香蕉的質量,此外,還結合了平均光照強度和果皮顏色提出了一種新的香蕉成熟水平分類方法, 并通過實驗證明該裝置可以有效地按成熟水平分類, 其準確率近乎100%。 Yap 等[18]同樣也開發了一種經濟、快速、無損的油棕果成熟度預測系統, 該系統主要采用Levenberg-Marquardt 算法對人工神經網絡(artificial neural network, ANN)進行訓練和驗證分析,成功建立6 個隱神經元的神經網絡, 均方根誤差RMSE 和相關系數R2分別為6.844 9 h 和0.841 8,證明了該系統的可行性。 Weronika 等[19]同樣采用了人工神經網絡算法建立了不同品種的葡萄成熟度預測模型,并且預測平均準確率可達95.2%。Yonemoto 等[20]通過建立的果園智能化管理系統將果園數據實時共享, 開發了果園的在線決策工具(www.fruitmaps.com),目前在澳大利亞的部分地區使用。 此工具在農場地圖上會顯示各個區域NIR設備測量的DM 含量、 與農場管理區域相關的值以及各屬性的統計數據和增長率,如圖1 所示,點表示選取的測試樣本, 塊的顏色表示該區域平均DM 含量。

圖1 芒果果園的線上采收決策地圖Fig.1 Online harvesting decision map of mango orchards
根據果實成熟過程中的生理變化,多種評價水果成熟度的理化指標也相繼被提出, 常用的有:硬度(Firmness)、干物質、可溶性固形物含量(soluble solid content,SSC)[21]。 果實硬度是評價果實成熟度的重要標準之一, 主要受細胞壁原果膠含量的影響。 在成熟前,原果膠含量較多,果實硬度大,隨著果實逐漸成熟,細胞壁中的原果膠在果膠酶的作用下分解成果膠酸,導致果實硬度下降[22]。干物質是指有機物質在60~90 ℃的恒溫下進行充分干燥,高溫蒸發掉樣品水份后余下的有機物質。 水果在成熟過程中,果實的淀粉含量會隨著水分流失,導致干物質含量發生變化[23-24]。 可溶性固形物主要指可溶性糖類,包括單糖、雙糖、多糖。 水果在成熟階段,可溶性固形物含量變化顯著,常用于判別果實成熟度。
不同水果在成熟期表現出的特征不同,因而不同水果最具代表性的成熟度評價指標一般不同。 除了常見的可溶性固形物含量、干物質、硬度以外,還有果皮顏色、可滴定酸(titratable acid,TA)、單寧、淀粉指數、光譜指數等都可作為水果成熟水平的評價指標。 單寧是一種酚類化合物,單寧含量可體現水果的干澀程度,在柿子中含量較多,在成熟過程,單寧含量逐漸降低,果實澀度下降。 果實在成熟之前含有大量的葉綠素,當果實逐漸成熟,葉綠素會被慢慢代謝分解導致果皮顏色發生變化。 光譜指數是一種多光譜參數,它由通過線性或非線性組合的選定光譜波長點的光譜值組成[25]。 光譜指數不同于全波長或特征波長反射光譜的反射值的變化, 更強調不同成熟度光譜的形態差異和變化, 可以定性或定量地反映水果的生長和成熟情況。 淀粉是高分子碳水化合物, 是由單一類型的糖單元組成的多糖。 水果在成熟過程中,果實的淀粉含量會隨著水分流失, 淀粉指數同樣也可以作為水果成熟度的評價指標。
但果實在成熟過程中會伴隨著多種理化性質的變化,若只用單一理化指標進行評價,預測準確性可能并不能滿足需求, 有學者根據果實成熟過程的理化性質變化規律提出相應的綜合評價指數(comprehensive evaluation index,CEI),即將水果多種理化指標結合,根據變化規律提出指數的計算公式。 利用綜合評價指數能夠實現對水果成熟水平的客觀分類,解決不同果園管理員的水果采收評判標準不一致問題,從而建立科學的水果采收決策系統。 如Streif 指數(Streif index)[26-27]、FQI 指數(factor quality index)和SIQI 指數(simplified internal quality index)[28]等。
Alenazi 等[29]分別對標記的番茄樣品的硬度、番茄紅素、β 胡蘿卜素、 總酚含量和總黃酮含量進行分析測定, 對比發現果實硬度隨番茄成熟度變化最為明顯, 說明對于番茄而言利用果實硬度對番茄成熟水平進行分類的效果最佳。Huang 等[30]則利用可見和近紅外光譜預測番茄的果實硬度參數,驗證了利用近紅外光譜分析技術無損檢測果實硬度的可行性。 而Alhamdan 等[31]同樣對比了海棗的果實硬度、 粘結性和咀嚼性共3 種理化特性的主成分回歸分析 (principle component regression,PCR)模型的決定系數R2和均方根誤差RMSE 分別為0.924 和0.725。 結果證明,近紅外光譜技術是一種有效的無損檢測果實硬度的手段。
Clark 等[32]使用漫反射方式采集了不同采收期的鱷梨,得到的干物質預測模型R2為0.88,同時實驗結果也為近紅外光譜在水果成熟度無損檢測領域的應用提供了一定的數據支持。 Subedi 等[33]使用短波近紅外光譜建立了偏最小二乘回歸(partial least squares regression,PLSR)模型成功預測了芒果DM 含量。 從DM 模型的B 系數的相似性來看,DM的PLSR 模型在果實成熟期的任何階段都能很好地驗證芒果的成熟水平 (R2=0.94,RMSE=0.90);Neto等[34]則是比較了芒果的DM 和SSC 的近紅外光譜預測模型,其R2為0.87,結果證明DM 含量作為芒果的成熟度評價指標更具有準確性。 Watanawan 等[35]同樣也根據開花時間(days from full bloom,DAFB)劃分芒果成熟水平,采用DM 含量作為成熟度評價指標,并通過芒果的理化特性分析出芒果的最佳采收期DAFB 為91~105。 Polinar 等[36]同樣采用DAFB劃分芒果的成熟水平, 并驗證了DM 含量與DAFB的相關性, 再使用主成分線性判別分析(principal component analysis-linear discriminant analysis,PCA-LDA)模型對果實進行DAFB 分類,其分類的準確率可達87.8%。 結果表明,近紅外光譜在芒果成熟度和質量參數無損預測中具有潛在的應用價值。
Li 等[37]通過對櫻桃內部品質的分析證明SSC會隨櫻桃的成熟逐漸升高,說明SSC 可以作為櫻桃的成熟水平分類指標, 還利用PLSR 模型建立了NIR 光譜預測SSC 模型 (R2=0.882,RMSE=1.125),呈現出較好的預測效果,證明了NIR 光譜無損預測SSC 含量的可行性。 根據水果成熟過程內部理化性質變化特點發現,SSC 同樣可用作香蕉[17]、葡萄[38]、西瓜[39]、棗[40]、石榴[41]的成熟水平分類指標。 Mahayothee 等[42]還通過研究發現了在成熟過程中,芒果不同部位的理化特性不同,莖部附近的SSC 最高且該部位成熟最快,果核兩側的成熟較緩,尖端的TA 和檸檬酸含量最高成熟最慢。
Nagle 等[43]探究比較了灌溉種植的芒果的成熟期評價指標與非灌溉種植的芒果評價理化指標, 結果證明TA 對灌溉種植的芒果成熟期預測效果最好。 比較Neto 等[34]的研究,結果說明水果的種植環境會對其成熟階段的理化特性產生一定影響。
單寧是一種酚類化合物,單寧含量可體現水果的干澀程度,在柿子中含量較多,在成熟過程,單寧含量逐漸降低,澀度會下降。 Munera 等[44]則通過研究說明了柿子成熟度與單寧含量的相關性,使用LDA、二次判別分析(quadratic discriminant analysis,QDA)和SVM 方法建立分類模型,最后通過統計數據得到3 個分類器的正確分類率均達到92%以上, 收斂時,QDA 正確分類率在95%以上,模型R2達到0.80。
由于果實在成熟之前含有大量的葉綠素,而當果實逐漸成熟,葉綠素會被慢慢代謝分解導致果實顏色發生變化。 劉燕德等[45]和Bertone 等[46]通過實驗證明了果實內部葉綠素含量也是果實成熟過程中的一個明顯特征。 而對于成熟階段果皮顏色變化明顯的水果而言,果皮顏色是一個有效的成熟度分類指標,如甜瓜[47]、芒果[48]、椰棗[49]、柚子[50]、番茄[51]。 Huang 等[51]便是根據番茄顏色將番茄分成6 個成熟階段(即綠色、破碎、轉彎、粉紅色、淺紅色和紅色),建立了支持向量機判別分析(supportvectormachinediscriminantanalysis,SVMDA)模型,最后獲得了優良的分類結果,平均分類準確率為98.3%。
光譜指數是一種多光譜參數, 它由通過線性或非線性組合的選定光譜波長點的光譜值組成[52]。光譜指數不同于全波長或特征波長反射光譜的反射值的變化,更強調不同成熟度光譜的形態差異和變化,可以定性或定量地反映水果的生長和成熟情況。 Zhang 等[53]則根據光譜指數將蘋果分成3 個成熟階段, 并使用最小二乘支持向量機LSSVM 建立了定性模型和連續投影算法SPA 提取了11 個特征波長, 預測集樣本分類精度可達90.11%。
淀粉是高分子碳水化合物, 是由單一類型的糖單元組成的多糖。 淀粉指數同樣也可以作為水果成熟度的評價指標,Zhang 等[54]利用淀粉指數將846個蘋果分為3 類成熟度水平(未成熟、收獲成熟度和可食用成熟度),建立了基于15 個特征波長的RF-SPA-LSSVM 預測模型, 預測集分類準確率為89.05%,3 類成熟水平的RDC 曲線下面積(AUC值)均大于0.921 0。
早在2001 年,Peirs 等[55]分別采用(硬度、可溶性固形物含量、淀粉階段的組合)、可溶性固形物、硬度與蘋果成熟度進行建模預測蘋果最佳采收期,統計結果表明依據Streif 指數建立的分類模型具有很好的預測精度, 得到的驗證相關性為0.85~0.90,Streif 指數公式為

式中:F 為果實硬度;S 為可溶性固形物含量;R 為淀粉含量。
Peirs 等[26]又發現,對于自然變異后的蘋果,依舊可以利用Streif 指數對其成熟水平進行有效分類。Robbe 等[27]同樣也建立了蘋果Streif 指數與蘋果成熟度的預測模型,并研究了近紅外漫反射裝置中光源與探測器的最佳距離以及探測器的最佳尺寸。而趙娟等[28]則利用通過“二審”回收算子法剔除異常樣本后的數據進行隨機蛙跳(RF)提取樣本的特征變量,并分別建立了兩種評價指標:成熟度評價指標ISIQ和綜合評價指標IFQ, 再利用偏最小二乘法分別建立偏最小二乘預測模型, 結果表明ISIQ的模型預測效果更好, 模型R2和RMSE 分別為0.938 和0.216,其中成熟度評價指標ISIQ和綜合評價指標IFQ的計算公式如下

式中:L*為亮度;C*為色度;h*為色相角;a 為色澤a分量;b 為色澤b 分量。
Yang 等[56]提出了新的生長指數——GS 指數,并建立以GS 值為分類指標的PLSR 分類模型,得到模型的R2在0.91~0.92 之間。 結果表明,基于GS指數建立的預測模型可以直接用于番茄果實生長期及采收時間的預測,有助于未來園藝機器人自動采摘的實現。 GS 指數IGS計算公式如下

式中:X1為果實的當前生長時間;X2為果實采收時的生長時間。
Jha 等[57]則是根據芒果的理化特性(尺寸、SSC、DM、TA 等) 計算得到的成熟度Im指數與芒果近紅外光譜建立偏最小二乘預測模型,得到模型R2為0.74,結果證明該成熟度指數建立的模型同樣具有很好的預測效果。 其中Im計算公式如下

式中:IDM和ITA分別為果實的干物質和可滴定酸的含量值;η 為修正系數。
Mahayothee 等[58]研究了芒果在成熟過程中的理化特性: 果皮和中果皮的顏色隨a*和b*值的增加而變化,總可溶性固形物(TSS)和pH 上升,而硬度和可滴定酸度(TA)下降;并根據這些理化特性提出了成熟指數IRP,公式如下

式中:ITSS為總可溶性固形物含量值。
一般成熟度分類模型建立的分為3 個步驟:①光譜數據預處理;②建立預測模型;③模型性能的評價。
光譜預處理的主要目的是把數據轉換成便于觀察分析、傳送或進一步處理的形式。 一些比較常用的NIR 光譜預處理方法包括:①平滑方法(如高斯濾波、 移動平均、 中值濾波和Savitzky-Gola、平滑);②推導方法(通常為一階和二階導數);③多元散射校正MSC;④正交信號校正OSC;⑤標準正態變換SNV;⑥小波變換;⑦標準化和縮放;⑧消除頻譜中的基線漂移 (如detrend 函數、 多項式擬合、BEADS 算法等)。 此外,應用這些方法的不同組合也可以用于信號處理Lorente 等[59]和Wang 等[60]都介紹了這些預處理在近紅外光譜的應用。
選擇合適的建模方法來開發校準模型,可以保證對水果成熟度水平的準確預測。 根據研究目標,往往需要采用定性分析的方法處理數據,基于模式識別方法對樣本進行成熟度分類。 用已知類別的訓練樣本集建立分類模型,然后用未知類別的測試樣本集對模型進行評估。 許多定性分析的方法可以實現 成 熟 水 平 的 分 類,如LDA[37],PLSDA[54],ANN[61],LSSVM[53]和SVM[62]等。 PLSDA 是一種采用偏最小二乘回歸的判別分析策略, 其數學基礎是主成分分析,往往對數據共線性不敏感,允許大量變量,在近紅外光譜分析中得到了廣泛的應用。 通過將樣本的光譜變量投影到最優判別向量空間中,LDA 可以實現不同類樣本的分離,使同類型樣本的投影點距離盡可能小, 不同類樣本的投影點距離盡可能大。PNN 是一種結合徑向基函數神經網絡和經典概率密度估計原理的前饋網絡模型,與傳統的前饋神經網絡相比,PNN 在模式分類方面具有顯著的優勢。 LSSVM 是一種改進的SVM 算法,它通過求解線性方程組而不是SVM 算法中的二次規劃問題來降低求解模型的難度,并廣泛應用于光譜數據建模和分析。
對于分類模型往往采用混淆矩陣、準確率(A)、精確率、召回率、F1值和受試者工作特征(ROC)曲線和AUC 值(ROC 曲線的面積)對模型的總體性能進行評價。
混淆矩陣是將模型的預測結果可視化的特定矩陣,是機器學習中總結分類模型預測結果的情形分析表。 以矩陣形式將數據集中的記錄按照真實的類別與分類模型預測的類別判斷兩個標準進行匯總,定義形式如表1 所示。

表1 混淆矩陣定義Table.1 Confusion matrix definition
其中:TP表示真正類的數量,即分類為正類,實際也是正類的樣本數量;FP表示假正類的數量, 即分類為正類, 但實際是負類的樣本數量;FN表示假負類的數量,即分類為負類,但實際是正類的樣本數量;TN表示真負類的數量,即分類是負類,實際也負類的樣本數量。
準確率(A)可以用于判斷分類模型是否有效,指的是分類正確的樣本數量占樣本總數的比例,定義如下

式中:N 為樣本總數;ncorrect為分類正確的樣本數。 但存在一個問題,在類別不平衡的情況下,準確率無法有效評價模型的泛化能力, 在模型類別不平衡的時候, 占比大的類別將會影響模型的準確率。
精確率(P)、召回率(R)和F1值通常用于評價模型對各類樣本的分類性能。 精確率,也被稱作查準率,是指所有預測為正類的結果中,TP的比例;召回率,也被稱作查全率,是指所有正類中,被分類器找出來的比例;F1值是精確率和召回率的調和平均值。 各指標計算公式如下

ROC 曲線是反映分類問題敏感性和特異性的連續變量的綜合評價指標。 通過將樣本類別轉換為兩類,可以為每類樣本繪制一條ROC 曲線。 在ROC 圖中,曲線越靠近圖的左上邊緣,分類模型的性能越好。 其中AUC 值是指ROC 曲線下的面積,表示一個正樣本排在一個負樣本前面的概率。 面積越大,樣本的分類性能越好。 如圖2 所示,Zhang等[54]利用平均ROC 曲線評價PNN 和LSSVM 兩種模型的分類性能,研究中進行了500 次迭代,以生成3 類樣本(未成熟Immature,可采成熟期Harvest maturity,食用成熟期Eatable maturity)的平均ROC曲線。 每次迭代過程中,隨機選擇70%的樣本進行訓練,30%進行預測,最后,根據500 次迭代生成的預測數據得到平均ROC 曲線。兩種模型中3類成熟水平的蘋果AUC 值均大于0.879 5。從AUC 值與判別準確性的關系來看,兩種模型在判別3 類蘋果時均表現出優異的性能。 此外,LSSVM 模型的3 條ROC 曲線的AUC 值均大于PNN 模型,說明LSSVM模型對3 類成熟度水平的預測性能優于PNN 模型。

圖2 PNN 和LSSVM 模型的平均ROC 曲線(500 次迭代,預測集)Fig.2 The average ROC curves of the PNN and LSSVM models(500 iterations, prediction set)
在上述對水果的成熟水平分類指標的研究中發現,不同水果在成熟期的理化特征不同,用于表征其成熟度的理化指標也不盡相同。 如表2 所示,表中總結了幾種常見水果的成熟水平分類指標:硬度適用于成熟期間果肉細胞內原果膠變化明顯的水果,如芒果、獼猴桃、梨等;而DM 則主要跟水分相關, 適用于期間含水量變化明顯的水果; 而SSC適用于糖含量較高的水果成熟度預測,對于較酸的水果如檸檬,則不適用;而單寧含量主要體現的是水果的澀度,可用于柿子這種成熟期間澀度變化明顯的水果。 但是同一種類的水果在成熟期間會伴隨著多種理化性質的變化,如芒果成熟期時的SSC、硬度、DM、葉綠素等變化都較明顯,且這些理化性質都可用于芒果成熟度的預測。

表2 各類水果成熟水平分類指標Table.2 Classification indexes of maturity level of fruits
雖然目前國內外學者對水果成熟度無損預測的研究較為廣泛,但在成熟度預測模型的建立上大多還局限于使用單一理化指標。 而果實生長過程內部會伴隨著多種理化特性的變化,根據果實的生理變化而提出的綜合評價指數會比根據單一理化成分進行分類更加全面科學。
要實現近紅外光譜分析技術在水果采收決策領域的應用,往往需要采用更加便攜的設備,傳統的臺式光譜儀設備是無法實現的。 自過去十年以來,已經開發和商業化了多種近紅外便攜式光譜儀設備,這些設備尺寸緊湊,重量輕,易于操作。 但實際上,在利用傳統的臺式光譜儀對大量商業化便攜式設備進行測試后,多數便攜式儀器的測試效果都略低于常規臺式儀器的性能,并且在型號相同的兩臺儀器之間也會出現一定的臺間差[74-77]。 檢測環境(溫度、光照、濕度等)會對光譜儀檢測的信號產生較大的影響,而便攜式儀器大多使用在室外,檢測環境存在不可控性,若將主儀器上校正好的模型直接傳遞給從儀器使用便會出現一定的誤差,導致臺間差的出現[78]。所以,模型的通用性問題會是阻礙便攜式儀器商業化推廣的主要因素,而模型通用性問題的解決可以從3 個方面入手:①對便攜式儀器內部硬件進行優化,盡量減少環境給儀器硬件帶來的影響。 從開發商的角度來看,由于儀器硬件組件也在快速發展,這一方法是經濟且可行的;②在算法上進行優化,通過改進算法或者使用模型傳遞算法可以有效解決主、從儀器的臺間差問題;③果園的智能化管理,實時監測果園內部的環境數據,使用先進的非線性方法如ANN,它們能夠模擬復雜的生物、環境和儀器變化,從而開發具有有限樣本的魯棒模型。
綜述了NIRS 在水果成熟度無損檢測中的研究進展。
1) 與傳統方法相比, 該技術具有檢測精確度高、速度快等突出優點,被廣泛應用于水果的內部和外部質量屬性的無損檢測,模型的通用性和魯棒性是該光譜技術在水果成熟度檢測領域有效應用的重要評價標準。
2) 研究發現, 在建立水果成熟度預測模型時,水果成熟水平的分類指標是影響預測模型分類效果的關鍵因素之一,綜合評價指數可以對水果成熟度更加科學合理地分類。
3) 解決便攜式儀器臺間差問題同樣是提高模型通用性的關鍵,提高儀器的硬件性能和利用模型傳遞算法都是有效的解決方法。
4) 果園的智能化管理,實時監測果園的環境和果實的理化信息,建立數據共享平臺,開發能夠模擬復雜生物、環境和儀器變化的模型,這將會極大地促進近紅外光譜技術在水果采收決策領域的應用,也是未來果園的發展方向。