王潤潤,張淑娟,蘇立陽,王林杰,盧心緣,孫海霞
(山西農(nóng)業(yè)大學(xué)農(nóng)業(yè)工程學(xué)院,山西晉中 030800)
杏的種類繁多,其營養(yǎng)成分和口感差異很大,因此需要探究一種快速、無損的品種判別方法,以滿足消費(fèi)者對不同品種杏的消費(fèi)需求。
光譜技術(shù)作為新型的無損檢測手段,在農(nóng)產(chǎn)品品質(zhì)檢測和品種判別等方面具有廣泛的應(yīng)用。李翠玲等人[1]利用葉綠素?zé)晒夤庾V結(jié)合反射光譜的分析方法鑒別甜瓜種子品種,判別正確率達(dá)到98.0%。趙旭婷等人[2]基于高光譜技術(shù)研究競爭性自適應(yīng)重加權(quán)算法結(jié)合極限學(xué)習(xí)機(jī)對油桃品種進(jìn)行判別,預(yù)測集相關(guān)系數(shù)為0.931。李雄等人[3]建立柚子品種判別模型,結(jié)果表明去差異化后750~930 nm 波段范圍判別模型的預(yù)測相關(guān)系數(shù)達(dá)到0.86。劉飛等人[4]基于油菜籽皮紅外光譜信息對油菜籽的品種和產(chǎn)地進(jìn)行判別,最優(yōu)判別正確率分別為97.9%和98.4%。張鵬等人[5]運(yùn)用近紅外光譜技術(shù),研究蘋果品種(嘎啦、喬納金、金冠、寒富) 的近紅外判別模型,對未知樣品判別正確率為85.00%~95.00%。楊春艷等人[6]基于傅里葉變換紅外光譜技術(shù),利用逐步判別分析法對金銀花品種和產(chǎn)地進(jìn)行判別研究,正確率依次達(dá)93.20%和96.13%。吳振等人[7]利用無機(jī)元素結(jié)合多元統(tǒng)計分析對我國5 類柚子品種進(jìn)行有效區(qū)分。有研究采用熒光光譜的一階導(dǎo)數(shù)光譜建立判別模型,卓椒3 號、卓椒4 號、卓椒5 號辣椒種子的品種判別正確率均達(dá)到100.0%。
選取4 種不同品種的杏作為研究對象,采集其光譜信息;對比優(yōu)選多種預(yù)處理方法;采用RC 和SPA 方法提取特征波長,結(jié)合PLSR 方法建模判別,為建立不同品種杏的種類判別提供參考,為杏產(chǎn)業(yè)鏈的發(fā)展提供技術(shù)支持。
以“6-1”杏、網(wǎng)紅杏、晉梅杏和扁杏4 種杏為試驗(yàn)對象,試驗(yàn)中所使用的樣本均為2022 年7 月份在山西省晉中市太谷區(qū)果樹所獲得。采摘時挑選形狀相近、成熟度統(tǒng)一、無病蟲害、質(zhì)量均勻的杏。試驗(yàn)共采集600 個樣本,“6-1”杏、網(wǎng)紅杏、晉梅杏和扁杏4 種杏樣本各150 個,根據(jù)Kennard-Stone(K-S)算法,按3∶1 的比例分別對4 個品種的試驗(yàn)樣本劃分校正集與預(yù)測集,每個品種校正集樣本數(shù)為113 個,預(yù)測集樣本數(shù)37 個。校正集樣本總數(shù)452,預(yù)測集樣本總數(shù)148 個。
采用由北京卓立漢光有限公司開發(fā)的“Gaia Sorter”高光譜分選儀采集不同品種杏的光譜信息。
平均光譜曲線見圖1。

圖1 平均光譜曲線
由圖1 可知,4 種杏光譜反射率曲線整體趨勢一致,只存在吸收強(qiáng)度上的差異,可能與杏的品種、形狀、大小和質(zhì)地有關(guān)。因此,推測杏的品種將導(dǎo)致其光譜的差異。光譜曲線分別在1 080,1 275 nm 附近存在突出吸收峰,而在985,1 211,1 462 nm 附近存在波谷。其中,985 nm 附近的波谷是由O-H 基團(tuán)的二倍頻振動導(dǎo)致的;1 275 nm 附近的波峰則是與C-H 的3 倍頻伸縮振動有關(guān)。
1.3.1 光譜數(shù)據(jù)的預(yù)處理
由于獲得的原始光譜數(shù)據(jù)不僅會提取樣本的有效信息,同時也包含了儀器、背景、環(huán)境等與樣本無關(guān)的冗余信息,為了降低這些冗余信息的影響,研究采用的光譜預(yù)處理方法包括SG、MA、MF、Baseline、SNV、MSC。
1.3.2 提取特征波長
原始光譜數(shù)據(jù)包含波段范圍寬作為輸入模型計算時間過長,且存在信號譜帶重疊。因此,建模時需要篩選特征波長,從而減少建模時間、簡化建模過程、提高模型的穩(wěn)定性。采用的方法主要有RC 方法、SPA 方法。
1.3.3 偏最小二乘回歸分析
偏最小二乘回歸(PLS) 可以進(jìn)行多變量數(shù)據(jù)分析,其原理是:先將各種變量數(shù)據(jù)矩陣分解為多種主成分?jǐn)?shù)據(jù)矩陣,并計算每個矩陣的貢獻(xiàn)率,再優(yōu)選出貢獻(xiàn)率較大的成分進(jìn)行回歸分析。
1.3.4 模型評價標(biāo)準(zhǔn)
采用決定系數(shù)R2和均方根誤差RMSE 2 個值來判別模型的效果。
計算公式為:
式中:yi——樣本的實(shí)測值;
n——樣本數(shù)量。
試驗(yàn)采用SG、MA、Baseline、MF、SNV 和MSC共6 種預(yù)處理方法后建模,分析不同預(yù)處理所建模型的預(yù)測能力。
不同預(yù)處理建立PLSR 模型結(jié)果見表1。

表1 不同預(yù)處理建立PLSR 模型結(jié)果
由表1 可知,除MF 預(yù)處理外,其余5 種預(yù)處理建立的PLSR 模型的Rc2和Rp2都有所減小,RMSEC和RMSEP 都有所變大。MF 預(yù)處理后的Rc2和Rp2分別 為0.842 4 和0.840 2,RMSEC 和RMSEP 分 別0.443 1 和0.446 7,MF 預(yù)處理最優(yōu)。
2.2.1 RC 方法提取特征波長
回歸系數(shù)法(RC) 是利用全波段光譜數(shù)據(jù)建立PLSR 模型,然后計算回歸系數(shù),再利用局部極值法來確定特征波長,共選出10 個,分別為956,1 023,1 084,1 144,1 176,1 262,1 386,1 469,1 634,1 666 nm。
RC 提取特征波長見圖2。

圖2 RC 提取特征波長
2.2.2 SPA 方法提取特征波長
連續(xù)投影算法(SPA) 是通過計算樣本波長之間的投影,并將投影向量的最大值定為樣本的特征波長值。
特征參數(shù)數(shù)量與均方根誤差關(guān)系圖見圖3,特征參數(shù)優(yōu)選分布圖見圖4。

圖3 特征參數(shù)數(shù)量與均方根誤差關(guān)系圖

圖4 特征參數(shù)優(yōu)選分布圖
由圖3 可知,當(dāng)最終選擇變量數(shù)為17 個時,均方根誤差最小,提取的17 個特征波長值分別是902,918,924,937,940,943,950,1 007,1 100,1 147,1 176,1 338,1 373,1 402,1 526,1 666,1 685 nm。
將4 類不同品種的杏樣本進(jìn)行賦值作為判別依據(jù),“6-1”杏賦值為1;網(wǎng)紅杏賦值為2;晉梅杏賦值為3;扁杏賦值為4。在建立判別模型的過程中會出現(xiàn)非整數(shù)的情況,需要采用閾值進(jìn)行判別。當(dāng)判別值大于等于0.5,小于1.5 時判別為“6-1”杏;當(dāng)判別值大于等于1.5,小于2.5 時判別為網(wǎng)紅杏;當(dāng)判別值大于等于2.5,小于3.5 時判別為晉梅杏;當(dāng)判別值大于等于3.5,小于4.5 時判別為扁杏;當(dāng)判別值不在這些區(qū)間內(nèi)則為判別錯誤。
基于全波段、RC 和SPA 的PLSR 判別模型見圖5。

圖5 基于全波段、RC 和SPA 的PLSR 判別模型
由表2 可知,通過比較NOR(全波段) -PLSR、RC-PLSR、SPA-PLSR 這3 種方法預(yù)測的建模效果,發(fā)現(xiàn)SPA-PLSR 的建模效果最好,預(yù)測集的綜合判別率高達(dá)84.44%。

表2 各模型判別結(jié)果統(tǒng)計
各模型判別結(jié)果統(tǒng)計見表2。
通過采集“6-1”杏、網(wǎng)紅杏、晉梅杏和扁杏4 個品種的光譜信息,采用SG、MA、Baseline、MF、SNV 和MSC 共6 種預(yù)處理方法,建立PLSR 模型,MF 方法預(yù)處理效果最優(yōu)。針對預(yù)處理后的光譜數(shù)據(jù),采用RC 和SPA 方法選取特征波長建模。結(jié)果表明,SPA-PLSR 模型效果最佳,總判別率達(dá)到了84.44%,4 個品種的判別率分別達(dá)到了72.97%,91.89%,100.00%,72.90%。