王彥群,賈浩坤,范振岐
(1.華中農業大學信息學院,武漢 430070;2.塔里木大學信息工程學院,阿拉爾 843300)
庫爾勒香梨在中國具有較好的聲譽,是新疆特色水果和地理標志產品,已成為當地支柱產業之一[1-2]。
糖度,即含糖量,是庫爾勒香梨的主要內部品質,因可溶性固形物含量中80%以上的成份是糖度,因此常以可溶性固形物含量反映糖度。傳統的糖度檢測方法是采用數字式糖度計[3-4]測量可溶性固形物含量,以此作為糖度值。但此方法是有損檢測,很難用于無損檢測儀及分級設備的研發中。因此,急需尋找糖度檢測的無損、簡捷方法,光譜分析技術便成為研究的熱點。
近紅外光譜分析技術是通過研究物質對光的透射、反射、吸收的能力來確定特定成分含量的一種方法,是一種低成本、快速、高效的技術,已廣泛用于農產品品質無損檢測。在蜜柑的糖度[5],鳳梨的水分、纖維素和糖度[6],甜瓜、蜜瓜、土豆、洋蔥等可溶性固形物含量(SSC)及干物質含量(DMC)[7],獼猴桃可溶性固形物和酸度[8],蘋果糖度[9],草莓中維生素C[10],臍橙可溶性固形物[11],芒果的糖度[12]等檢測方面得到較好應用。關于梨的品質研究方面,有梨表面色澤[13]、梨酸度[14]、砂梨的糖度[15]、南國梨的可溶性固形物[16]、翠冠梨可溶性固形物含量[17]以及梨堅實度[18]等方面的研究。
庫爾勒香梨皮薄多汁的屬性為無損檢測技術的應用提供了很好的條件。將振動頻譜技術[2]、介電譜技術[3,19-20]、可見/近紅外光譜技術[4]、高光譜技術[21]分別用于無損檢測庫爾勒香梨的可溶性固形物含量和硬度,并取得了較好的預測效果。
總之,有關庫爾勒香梨果實品質的研究相對較少。利用近紅外光譜技術進行庫爾勒香梨糖度的檢測更是少見。考慮水果品種的差異性,糖分在不同水果中的光譜響應不盡相同。需要綜合系統地比較各種近紅外光譜變量篩選方法和建模理論在庫爾勒香梨糖度預測中的性能,從而獲取適用于庫爾勒香梨糖分定量分析的近紅外光譜的最佳建模理論。
本研究以成熟庫爾勒香梨含糖量為研究指標,采集波段范圍介于900~1700 nm之間的樣本數據,對原始光譜選擇合適的預處理方法,篩選特征波段,通過偏最小二乘法和支持向量機等方法分別建立香梨含糖量的檢測模型,并針對模型的優劣進行比較,從而建立適用于庫爾勒香梨含糖量檢測的近紅外光譜模型。
選取350個品質優良的庫爾勒香梨作為實驗樣本。對樣本清洗并依次編號后放在室溫中24小時以消除溫度對建模的影響。采集光譜數據前,在樣本赤道部位每隔120o進行標記,每個樣本標記3個采樣區。
采用Micro NIR 1700便攜式光譜儀,掃描獲得樣本吸光度的原始光譜,采集每個樣本的3次近紅外光譜數據,取平均值作為實驗數據。重復此操作,直到采集完全部樣品的光譜圖像,掃描的光譜數據以Excel表格的形式導出。
然后,在樣品的3個標記區各切取一塊帶皮的果肉,壓汁并過濾后,用糖度計進行測量,記錄3個糖度值,取平均值作為糖度參考值。依次獲取350個樣本的糖度值。
通過四種方法對原始光譜數據進行處理與分析,分別采用標準正態變量變換(standard normal variate transformation,SNV)、多元散射校正(multiplicative scatter correction,MSC)、一階差分、二階差分方法對光譜數據進行處理。
從復雜信息中提取具有代表性的信息建模,需對樣本進行選擇,最常用的方法是基于歐式距離和濃度的樣本選擇方法(sample set partitioning based on joint x-y distance,簡稱SPXY)。本實驗使用SPXY算法將樣本按4∶1進行劃分,80%構成定標集,20%構成預測集。將樣本的光譜數據建模為數據向量,吸光度作為特征值。
原始光譜數據中存在大量的噪聲及冗余信息,不利于數據的建模。需要選取具有一定代表性的特征波長,使模型簡化且具有較強的預測能力和穩健性。本研究利用相關系數法對光譜數據進行降維,篩選出相關性異常顯著的特征波長用于建模。
使用多元線性回歸、偏最小二乘法(partial least squares,PLS)、支持向量機(support vector machine,SVM)等方法建立模型,采用相關系數r、精度(precision)、均方根誤差(root mean square error,RMSE)等參數來評價模型的優劣。相關系數越接近1,說明預測結果越好;均方根誤差越小,說明預測結果越準確;預測精度越接近1,說明精確度越高。
綜上所述,基于近紅外光譜的庫爾勒香梨含糖量檢測技術的主要流程如圖1所示。
由香梨糖度測定結果可知,糖度最大值為16.58,最小值為11.02,平均值為13.60,標準偏差為1.14。
圖2為原始光譜數據,從圖2可以看出存在大量噪聲和散射基線漂移,因此需要對原始光譜數據進行預處理。利用一階差分、二階差分、SNV、MSC四種方法處理,并進行比較分析,得出最優處理方法。如圖3所示,經過MSC預處理后的光譜有效地去除了噪聲、散射等影響,光譜特征增強。
糖類物質主要含O-H、C-H基團,游離O-H基團對應的近紅外光譜吸收波段為960~980 nm、1360~1390 nm、1400~1420 nm;結合O-H基團對應波段為1000~1130 nm;CH2及CH3基團對應波段為1150~1220 nm、1410~1450 nm。利用相關系數法對光譜數據進行處理,根據圖4的極值點選取出十二個特征波長,分別為914 nm、933 nm、951 nm、970 nm、976 nm、1001 nm、1131 nm、1150 nm、1397 nm、1404 nm、1416 nm和1540 nm,這些特征波長幾乎都與糖類物質近紅外光譜敏感基團對應,可用于后續模型的建立。
采用三種方法對特征譜段進行建模,預測結果如表1所示。

表1 不同模型下的預測結果
從表1可以看出,PLS模型均方根誤差最小,相關系數最大,預測準確度也最高(達到0.9887),而線性回歸模型次之。SVM建模方法的效果不太理想,可能受樣本數量的影響。總之,PLS模型各方面均優于其它兩種預測模型,可用于構建香梨糖分含量的預測模型。
通過一階差分、二階差分、SNV、MSC預處理方法對原始光譜進行預處理分析,結果表明,MSC方法更適合于香梨近紅外光譜數據的預處理。
使用相關系數法提取12個特征波長變量,通過線性回歸、PLS和SVM方法分別建立香梨含糖量的檢測模型,預測結果表明,PLS模型均方根誤差為0.5457,預測精度為0.9918,相關系數為0.5802,均優于另外兩種預測模型。MSC+PLS處理方法可用于庫爾勒香梨含糖量快速無損檢測,這可為進一步研究庫爾勒香梨含糖量的便攜式檢測裝置提供理論參考。