杜明華,楊 甜,馬 燕,張 捷,吳龍國
(寧夏大學農學院,寧夏銀川 750021)
番茄是我國需求量較高的蔬菜之一,在全國范圍內大面積栽培種植。番茄作為茄科作物之一,本身所含的谷胱甘肽、維生素、番茄紅素、β-胡蘿卜素等營養成分對于人們來說就具有很高的應用價值[1-2]。因此,番茄的高質量生產是必不可少的。番茄的生長狀況可以通過葉片的葉綠素含量表現出來,葉綠素含量是番茄重要的生理指標之一[3-5]。可通過對葉綠素含量的檢測從而對微咸水灌溉下番茄生長發育情況、健康狀況做出監測。目前,常見的測定方法往往操作流程繁瑣、費時,只能進行單個葉片檢測[4],同時傳統方法一般具有事后性和破壞性,不能滿足高效技術要求。因此,無損、高效的檢測方法是番茄高質量生產中重要的環節。
高光譜成像技術是近年來無損檢測技術發展的新趨勢,將光譜信息和數字成像信息相集成,主要是利用光譜反射率以及光譜反射波形特征,從而可以精確地檢測到所需樣本圖像中每一個像素點的光譜數據以及圖像信息,這種技術具有速度快,效果好等優點,同時在檢測過程中不會破壞樣本,在很大程度上彌補了傳統檢測方法中存在的不足,能夠為可視化與高效無損檢測提供一定的技術依據[6]。高光譜技術被廣泛應用于多個領域。包括農產品質量評估[7]、品種鑒別[8]、食品的安全檢測[9]、肉類保鮮等[10-11]。Zhang等以160個蘋果為樣品,提取高光譜數據建立其可溶性固性物含量的預測模型,結果表明,預測效果較好的模型是基于CARS-SPA組合算法來提取的特征波長所建立的[12]。Liu等為了鑒別獼猴桃是否經過膨大劑處理,采用了高光譜技術來檢測并建立了多種模型來實現判別,結果發現,此技術可以很明顯地判別多品種混合的獼猴桃膨大果[13]。張靜宜等利用高光譜成像技術來判別甜瓜葉片是否感染尾孢葉斑病,結果顯示,高光譜圖像對健康樣本的判別率較高(>97%),可用于健康樣本與病變樣本的識別[14]。Feng 等利用近紅外高光譜技術對比了不同預處理效果對番茄光譜模型檢測精度的影響,結果發現,極限學習(ELM)獲得了最好的預測結果[15]。Sohrabi等采用近紅外光譜技術提取了番茄的可溶性固形物以及可滴定酸度的光譜數據,并基于偏最小二乘回歸法建立模型檢測。結果表明,可溶性固性物模型結果最好,其預測相關系數達到了0.91[16]。袁瑞瑞等以靈武長棗為研究對象,利用高光譜成像技術對長棗的損傷級別進行快速判別,結果表明,MSC-CARS-PLS-DA為最優模型組合,校正集準確率為77.14%,預測集準確率為89.52%[17]。鄒志勇等對比分析了馬鈴薯在不同損傷條件下的高光譜不同波段下的圖像特征并分別建立模型,結果表明,在建立的分類模型中,使用的輕量梯度提升機+邏輯斯蒂回歸達到最高的判別精度98.86%[18]。
本研究以番茄葉片葉綠素含量為研究對象,結合高光譜成像技術采集樣品900~1 700 nm光譜圖像。使用共生距離法(SPXY)、隨機法(RS)和Kennard-Stone 法劃分樣本集;之后對比分析基于原始光譜與Kubelka-Munk函數曲線建立的模型,選擇最優光譜;在此基礎上使用PLSR權重系數法、競爭性自適應重加權算法、無信息變量信息消除法、連續投影算法提取的特征波長進行偏最小二乘建模對比分析優選最佳特征波長提取方法;最終基于特征波長建立偏最小二乘回歸模型、主成分回歸模型以及多元線性回歸模型進行對比分析。通過化學計量學結合高光譜成像技術可為今后番茄品質在線檢測提供理論參考。
試驗于2020年10月至2021年8月在寧夏大學農科實訓基地玻璃溫室中進行。供試材料采用博美2號番茄品種,購置于寧夏賀蘭縣天緣種業公司。共計54株番茄幼苗,于子葉展開3~4張時進行移苗,采用栽培基質盆栽的方式進行種植,每盆種植1株番茄幼苗。試驗設計6個灌溉處理:對照組(CK):蒸餾水;A:50 mmol/L NaCl溶液;B:100 mmol/L NaCl溶液;C:150 mmol/L NaCl溶液;D:200 mmol/L NaCl溶液;E:250 mmol/L NaCl溶液,每個處理重復3次。
前期確定最適灌水量為550 mL,定植后每隔 2 d 灌水1次,經過90 d種植后,分別采摘番茄上、中、下層葉片,每層采摘2張,試驗共采集216張葉片,將采摘下的葉片編號放入塑封袋中,用低溫保藏箱立刻運回實驗室,光譜圖像采集之后,立即進行化學指標的測定。
儀器:便攜式葉綠素測定儀(SPAD-502Plus,柯尼卡美能達)。HyperSIS-NIR高光譜成像系統(900~1 700 nm,光譜分辨率5 nm,256個波段),由高光譜成像光譜儀、CCD相機、4個35W鹵鎢燈、計算機數據采集軟件(ENVI4.7)5個部分組成[19](圖1),北京雙利合譜儀器有限公司生產。
1.2.1 葉綠素測定方法 葉綠素含量采用便攜式葉綠素測定儀(SPAD-502Plus,柯尼卡美能達)進行測量,每株番茄植株分別取上、中、下層各葉片,避開葉脈集中的部位,均勻地選取3個不同位置測定SPAD值并計算平均值代表該葉片數值。
1.2.2 番茄葉片光譜的測定 為了獲取更加真實及清晰的圖像,經過試驗確定圖像采集的參數為 相機曝光時間25 ms,物距360 mm,掃描速度 15 mm/s,線掃描實際長度60 mm。消除試驗過程中反射雜散光干擾,使用時,將電控位移平臺背景設置為黑色。光譜掃描前需進行黑白校正[20],其公式如下:
(1)
式中:R0為原始圖像;D為黑板圖像;W為白板圖像;R為標定后的高光譜圖像。
使用The UnscramblerX10.4對數據進行處理與建模,使用Matlab2014a提取特征波長及繪圖。高光譜數據自身的不利影響會對處理和建模造成一定的影響。因此在數據處理與分析方面需要和化學計量學方法相結合,對模型優化[21]。
1.3.1 樣本集劃分 樣本集按3 ∶1進行校正集和預測集的劃分,與此同時結合建立偏最小二乘回歸模型對比分析共生距離法、隨機法和Kennard-Stone 法劃分樣本。選擇最佳劃分方法,提高后期建模模型的性能。
1.3.2 預處理方法選擇 在圖像采集過程中,由于儀器自身的局限性,本身會帶有一些噪音和暗電流等不利因素。同時也在一定程度上參雜著自非品質信息的影響。例如光譜曲線的基線漂移現象,多重共線性問題等。因此,為了避免這些不利因素對所獲取樣本光譜曲線的影響,以及保持圖像的不失真需要對原始的光譜信息進行預處理,從而提取一些較為有用的信息[22-25]。本研究使用平均平滑法(Moving Average Smoothing)、歸一化處理(Normalize)、基線校準(Baseline)、標準正態變化(Standard Normal Variate)、去趨勢化(Detrend)、多元散射校正(Multiplicative Scatter Correction)6種方法進行預處理,并建立偏最小二乘回歸模型進行比較分析。
1.3.3 特征波長提取 大量冗余的光譜信息和光譜維數也為后期的建模提高了難度,增加了工作量。提取特征波長成為一種篩減數據極為重要且有效的方法。本研究在保留原始有效信息的前提下采用PLSR權重系數法(β權重系數)、競爭性自適應重加權算法(CARS)、無信息變量信息消除法(UVE)、連續投影算法(SPA)對預處理最優的樣本進行光譜特征波長的提取。
1.3.4 預測模型的建立 對選取特征波長后的光譜信息進行建模。分別建立基于番茄葉片葉綠素含量定量分析的偏最小二乘回歸模型(PLSR)、多元線性回歸(MLR)、主成分回歸(PCR)預測模型。模型性能的評價依據相關系數(R)及均方根誤差(RMSEP) 2個指標。R值越大與RMSEP值越小則越能表明模型性能好。R值表現了預測樣本值與樣本真實值之間的擬合狀態,其值與擬合程度成正比,與模型效果成正比,而RMSEP值則反映了樣本離散程度,RMSEP值值與模型性能成反比,越小反映模型預測能力越好[26]。為保證模型預測效果試驗采用交叉驗證方法對建模效果進行校正。
為了建立穩健的模型,需對樣本集進行劃分。本研究采用RS、KS、SPXY方法進行校正集與預測集樣本劃分,結果如表1、表2所示。

表1 不同樣本劃分方法對葉綠素的PLSR模型結果統計
從表1可以得出,SPXY法的預測集相關系數RP大于0.8,高于KS法和RS法。數值之和也可用來評價模型效果,其值越大說明精確度越高[27]。KS法之和為1.6631,RS法為1.483 8,SPXY法為1.702 1,SPXY法的RC與RP之和數值也是3種方法數值最高的。并且采用SPXY法建立的模型中,預測集的RMSEP值均小。綜上考慮,選擇SPXY法劃分番茄葉片葉綠素樣本集最為合適。

表2 樣本番茄葉片葉綠素統計
從表2可以看出,使用SPXY法對樣本中葉綠素值進行劃分是可行的。對于192個番茄葉片葉綠素值樣本,取2/3樣本作為校正集,1/3樣本作為預測集,并且預測集的各指標值包含在校正集的指標值范圍之內。校正集和預測集的方差值也較為理想,由此可以說明所選樣本數據集的劃分具有代表性。
為了研究全波段(900~1 700 nm)下Kubelka-Munk處理對建模的影響,利用Unscrambler X10.4軟件對原始光譜的反射率進行轉換以及Kubelka-Munk函數轉換,研究不同光譜參數對番茄葉片葉綠素含量的預測。基于PLSR分別對R、K-M光譜曲線建立模型對比分析,結果見表3。

表3 原始光譜特征波長下不同光譜參數的PLSR模型
從表3可以看出,Kubelka-Munk處理后建模的RP值小于原始光譜建模的RP,說明處理后的光譜數據建模的預測效果并不是太理想。原始光譜的Rc值大于Kubelka-Munk處理的RC值。但二者之間的差異較小,說明2個模型的性能差異不大,而Kubelka-Munk處理只是模型性能做了細微的調改。因此,可以采用原始光譜進行數據處理,不僅減少了數據的前期處理,而且能夠獲得較優的校正模型與預測模型。
前期為了獲得真實清晰的圖像進行黑白校正,這只是簡單的對光源強度分布不均以及在圖像采集過程中自身暗電流等不利因素進行了消除。而樣品的背景色和雜散光等都還會對試驗結果產生一定的誤差,為了提高模型的精確性,需要對光譜進行一定的處理。而在對比分析中,要充分考慮各個變量之間的影響,而偏小二乘法能夠綜合考慮變量之間的關系,能夠在多重共線性條件下進行回歸建模,因此可以利用PLSR模型進行光譜預處理的結果比較,結果見表4。

表4 不同預處理方法對葉綠素含量的PLSR模型結果統計
從表4可以看出,對于番茄葉片的中葉綠素指標來說,經過MSC法對樣本值進行預處理后建立的PLSR模型與原始數據相比,具有較好的模型參數,RC和RP值較之前有所提高,RMSEC和RESEP都有所減小。綜上所述,MSC為番茄葉片葉綠素樣本的最佳預處理方法。
2.4.1 PLSR權重系數法提取特征波長 β系數是反映評價指標重要程度的量化系數,系數越大,說明該指標對總目標影響越大。由圖2可知,基于對葉綠素進行MSC預處理后建立的PLSR模型進行特征提取,第4成分具有最顯著的特征,選為最優主成分數用于提取特征波長;在900~1 700 nm波段下,葉綠素的吸收很弱,光譜吸收特征不明顯。所以在β系數圖中按照局部絕對值最大原則選取7個葉綠素特征波長為 1 008、1 202、1 226、1 369、1 515、1 628、1 657 nm。有效地降低了光譜的維數,方便后期建立模型。
2.4.2 競爭自適應重加權算法提取特征波長 競爭性自適應重加權算法即采用自適應重加權采樣(ARS)技術在模型中選擇并保留下回歸系數絕對值大的波段數,同時,去掉權重小的波段數,此算法在計算取值的過程中是采用交互驗證法選出均方根誤差值最低的子集,此算法所取值覆蓋范圍廣,因此可有效地尋出最優與最具代表性的變量組合。利用CARS方法提取900~1 700 nm 范圍內的特征波長,得到結果見圖3。由圖3可知,在采樣運算過程中,變量數的下降過程呈現由快變慢的趨勢,圖 3-B 是基于自適應加權采樣選擇特征波長建立偏最小二乘模型預測效果的顯示。圖3-C回歸系數路徑則反映了特征波長變量回歸系數的變化趨勢,*號線反映了RMSECV最小位置,*號線之后部分有效信息被去除,RMSECV值持續增大。葉綠素依據RMSECV最小值原則選擇11個特征波長,模型擬合效果最佳,數據壓縮率為95.7%,有效去除了環境干擾及不相干信息,但可能有效信息也被去除。
2.4.3 無信息變量消除變換法(UVE)提取特征波長 如圖4所示,在900~1 700 nm波段范圍內,在主成分數是10時t-value值模型擬合效果最佳。圖中左側表示256個輸入變量的分布曲線,而右側圖表示隨機變量的分布曲線。最終,對于葉綠素選取了96個特征波長。
2.4.4 連續投影算法(SPA)提取特征波長 選擇m-min=10,m-max=30,圖5-A表示特征變量數與RMSE的變化曲線,可以得出RMSE最小值與特征變量數的關系,綜合分析可以確定葉綠素特征波長數為14個,RMSE值為 4.134 3。圖5-B為SPA算法所選取葉綠素的14個波段數。
2.4.5 UVE+SPA組合算法提取特征波長 通過UVE法提取900~1 700 nm波段范圍內的特征波長為96個,但與其他方法相比發現數據量仍然較大,為了降低維數,減少冗余,可以對數據進行進一步的提取與優化。在本試驗中將 UVE法和SPA法相結合來提取特征波長(圖6)。
由圖6可知,在900~1 700 nm波段對提取出的特征波長進一步采用SPA法,組合法UVE+SPA與UVE法相比,數據由96個減少到13個并且葉綠素的RMSEC值為3.863 5,與UVE法相比,大大壓縮了數據,方便后續的建模與分析。
2.4.6 不同方法提取特征波長及對比分析 為了優選最佳的特征波段進行模型建立,對5種特征波長提取的波段進行分析,結果見表5。

表5 特征波長選取統計
由表5可知,5種特征波長提取方法中,β cofficiento PLSR提取了7個特征波長,占總波長的2.7%;CARS提取11個,占總波長的4.3%;UVE提取96個,占總波長37.5%;SPA提取14個,占總波長的5.5%;UVE+SPA提取13個,占總波長的5.1%。由于UVE法選取的波長數較多,所以和SPA組合使用,可以減低冗余,減少維數。采用這5種方法選取特征波長,各個波段均有挑選,具有一定的合理性。
為了對比不同建模方法對提取特征波長的建模效果,采用多元線性回歸、主成分回歸、偏最小二乘回歸方法進行模型對比分析,結果見表6。
由表6可知,(1)與偏最小二乘回歸模型對比,UVE挑選出來的特征波長建立的模型RC和RCV最大,RMSEC和RMSECV最小,校正模型優于其他模型。在預測能力上,采用UVE法提取的特征波長建立的模型有最大的Rp值0.849 5 和最低的RMSEP值4.337 5,說明該模型預測能力的穩定性優于其他模型。綜合各個參數,采用5種方法提取的特征波長建立的PLSR模型中UVE挑選出來的波長所建立的是最優模型。(2)多元線性回歸模型對比,在5種提取特征波長的方法中UVE法的RC值最大RMSEC值最小,但RCV值較小,說明預測能力的穩定性不強。而SPA法的RC值次于UVE,但RCV值較高。從綜合參數角度來看,SPA法建模效果是5中方法中最佳的,所以,選擇SPA建立MLR模型。(3)主成分回歸模型對比,CARS提取特征波長的方法,均具有最高的RC、RCV和RP值,最低的RMSE、RMSECV、RMSEP值。因此,無論是校正能力還是預測能力,CARS效果都是5種方法中最佳的。

表6 不同特征提取方法建模效果對比
通過光譜的預處理,提取特征波長等方法,可以得出最優的特征波長的建模方法(表7)。

表7 最優特征波長模型對比
由表7可知,使用UVE法建立的PLSR模型與其他2個相比,模型性能參數較好,擁有較高的RC值0.862 4和較低的RMSEC值4.448 9,預測模型的RP在3種模型中也有較好效果,具有一定的校正能力和預測能力,并且與全波段建立的PLSR模型的RC值較為接近,差異小。綜合參數來看,UVE-PLSR模型代表全波段建模是具有可行性的,UVE-PLSR模型結果見圖7。
本試驗提出了基于近紅外高光譜成像技術對葉綠素含量的快速檢測。將成像技術與化學計量學方法相結合,建立了番茄葉片葉綠素含量的PLSR模型。對葉綠素采用SPXY法進行樣本劃分。并基于原始光譜與Kubelka-Munk處理光譜參數建立模型比較,對比分析可知經Kubelka-Munk處理后的模型參數低于原始光譜參數。因此,試驗采用原始光譜進行后期的數據分析。最終建立并分析了基于特征波長的PLSR、MLR、PCR模型,并對模型的性能進行了評價。其中UVE-PLSR最優,其預測模型的RP值為0.849 5,RMSEP為4.337 5。本試驗利用NIR高光譜成像技術對番茄葉片葉綠素進行無損檢測是可行的。能為今后高光譜成像技術應用于番茄品質的在線檢測提供參考,也可為推動寧夏回族自治區地方番茄產業快速發展提供技術支持。