王 杰
(吉林建筑科技學院,吉林 長春 130000)
中國是油桃生產出口大國。油桃的種植、采摘與運輸對產品質量的影響明顯,而油桃的價格與其品質和口味密不可分[1]。甜度、口感等的量化分析是優選油桃的重要依據。通過光譜分析對油桃的糖含量、酸度值等的無損檢測成為研究熱點。
為了提高系統工作的實用性,常常采用可見光或近紅外光譜對果肉化學成分進行無損檢測[2]。Li等[3]對梨的果肉進行了光譜分析,完成了梨果肉的固形物含量、pH值和硬度的定量分析。Li等[4]將模式識別技術應用于柚子種類分析,相比傳統的圖像識別而言,采用光譜分析的種類識別概率提高了近1倍。Lee等[5]將近紅外光譜測試用于獼猴桃,完成了對磕碰獼猴挑的快速分揀。苗榮慧等[6]利用光譜與可視化圖像相結合,對3種不同類型油桃進行鑒別,識別率可達到94.7%,具有很好的分類效果。武錦龍等[7]利用人工神經網絡算法對油桃表面的輕微損傷進行定量分析,提高了油桃品質,其算法主要針對可見光二維圖像進行分類計算。由此可見,通過光譜、圖像分析等方法對水果分類、狀態檢測的研究很多,但大部分文獻研究重點集中在分類、磕碰損傷等方面,對于不同品種的甜度及口感分析較少。
研究擬解決相似品種油桃的無損檢測,以期在大量樣本快速檢測與識別過程中降低分類誤差,從而實現不同品質油桃快速自動化分揀的目的。
設置光譜振幅峰值、強度對比值、特征光譜譜段寬度等幾個特征參數用于描述油桃的反射光譜的分布數據。為準確獲取目標的光譜強度分布,對測試光信號進行標定,并測量對比用的白光光源。設任意樣品i的光譜反射均值為Si;有白光光源無測試目標時,獲取的光譜分布為Swhite;設當關閉光源并遮蔽光譜測試探頭時獲取的光譜分布為Sdark。則相對反射率為R有
(1)
模型中測試目標油桃的溫度需要在測試環境中靜置至與室溫相同。其中樣品上每個測試點為n,共計取N個點,然后計算平均光譜得到的。
采用CIELAB色彩空間[8]對獲取的光譜數據進行計算,通過光譜儀可以測量得到目標明度值為L*,則其色度值C*和色調值h*可以表示為
(2)
式中:
C*——目標色度值;
h*——目標色調值;
a*——測試光譜中紅/綠的強度值;
b*——測試光譜中黃/藍的強度值。
不同樣品間的總色差[9]可以表示為
(3)
根據式(3)可以看出,對于不同的兩種類型,可以通過獲取其光譜分布完成對色差及光譜譜形的對比分析。當特征波長選擇可見光和紅外光中的幾個特征位置時,不僅可以得到對油桃樣品種類的區分信息,還可以利用特征譜線位置分析其品質。
為了同時獲取可見光與近紅外的光譜分布,一方面保證光譜檢測精度,采集特征波長位置上更精細的強度信號,另一方面,提高系統處理速度。系統采用了多通道數據采集的方式,并且在不同的光譜段采用不同的光譜分辨率。分辨率的選定由樣品在對應區域上特征譜線的間距、峰谷值及比例值決定。在可見光380~650 nm波段,雖然吸光度值較高,但相近品種之間的比例值較低,而占比范圍相對寬,故適合采用分辨率低但覆蓋范圍寬的光譜采集形式,故設置光譜分辨率為10.0 nm,而在近紅外650~1 600 nm波段的比例值較高,有幾個明顯的特征吸收峰,所以采用窄光譜更合適,故采用1.0 nm,從而在樣品特征光譜位置上獲得更好的細分效果。系統結構如圖1所示。
由圖1可知,系統除了數據處理模塊之外主要分三大部分,分別是光譜分區采集模塊、對比單元以及特征參數模塊。光譜分區采集模塊主要包括可見光通道及近紅外光通道,可見光通道由數據采集卡、CM-25D分光儀、準直透鏡組以及可見光濾光片組成,近紅外光通道由數據采集卡、FT-NIR分光儀、準直透鏡組以及近紅外光濾光片組成。用于實現光譜分區采集,其特點是可以根據光譜特征位置而調節系統采樣精度與分區位置;對比單元由參考白光與探測器構成,用于為照射樣品的光源進行定標,測試得到背景光譜的輻射強度與光譜分布特征;特征參數模塊包括特征數據庫和分析算法,特征數據庫中包含了所有類型油桃的光譜分布及其特征波長位置與吸光值,分析算法是用于完成分類、品質分析的數據模型。檢測平臺采用旋轉結構,目的是采集目標多個位置的光譜數據進行平均,得到樣品的平均光譜分布,提高品質分析的準確性。

圖1 油桃種類及品質檢測系統示意圖Figure 1 Schematic diagram of nectarine types and quality inspection system
為了同時獲取可見光與近紅外的光譜分布,提高光譜分辨精度及降低特征光譜之間的干擾,采用多通道分區獲取的方式。由CM-25D型分光儀完成可見光光譜采集,由FT-NIR光譜儀完成近紅外光譜采集,將分區光譜數據導入數據處理模塊后利用光譜歸一化[10-11](用其每一個變量除以其相應的標準差),從而統一至同一范圍區間。在此基礎上,對光譜數據進行平滑處理,用以消除雜散噪聲。
將每種樣品的平均光譜曲線構建成矩陣,則形成4個表征對應油桃種類的矩陣,通過主成分分析提取光譜數據中的主要特征信息,再采用偏最小二乘[12](PLS)完成4個光譜數據的回歸模型。與此同時,定義樣品的品質參數[13](QP)為
(4)
式中:
PQ——樣品的品質參數;
fmax——油桃撕裂強度,N;
CSS——可溶性固體含量,oBx;
L*——目標明度值;
h*——目標色調值;
C*——目標色度值。
試驗測試中,以樣本集測試均值代入式(4),fmax為0.487 kN,SSC為3.19oBx,系數L*為27.2,系數h*為42.1,系數C*為0.45。代入后,QP的均值為12.4,范圍為11.2~13.6。
測試樣品為瑞光5號(A)、金山早紅(B)、世紀之星2號(C)和中油桃4號(D)4種油桃。每個品種選20個大小相近的樣品,每5個樣品通過平均計算獲得一條光譜曲線。最終,通過在Unscrambler軟件中將光譜以吸光度值進行表達,結果如圖2所示。
由圖2可知,4種樣品的譜形趨勢是相近的,但不同種類之間仍存在一些明顯差異。對于A類而言,在400~500 nm的吸光度均值相比其他3種高,而在750~1 100 nm 的低吸光度平滑段,其吸光度均值要明顯低于其他類型;對于B類而言,在543 nm附近的第1個弱吸收峰谷位置上,吸光度均值達0.413,具有較好的特征性,而同時,在1 432 nm的強吸收峰峰位置上也存在吸光度均值偏弱的現象,而在750~1 100 nm的低吸光度平滑段中其吸光度均值較高;對于C類而言,在400~483 nm的吸光度均值較其他3種類型最低,而在665 nm附近的第2個弱吸收峰峰位置上,吸光度均值達0.238,具有較好的識別性;對于D類而言,其第3個弱吸收峰谷位置的中心波長與其他3個存在明顯差異,其均值中心波長為1 268 nm,而其他3個的中心波長均介于1 282~1 296 nm,同時,在1 412 nm的強吸收峰峰位置上,其吸光度均值達0.795,明顯高于其他3種。分析完光譜數據中吸光度的特性后,還需要對比例值進行分析,因為單純依靠吸光度絕對值的分析是不準確的,例如測試樣本中存在雜質、濃度不均勻等問題。所以試驗還引入了比例值的對比,將不同品種的相應特征位置或譜段的吸光度比值作為第2特征參量可以有效抑制單純通過吸光度解算的干擾,系統中兩種權重的比例采用1∶1。由此可見,特征波長位置的選取只要能夠覆蓋對應種類的特征位置就能夠有效地將其識別。對應區分度差或者單組數據混疊程度較高時,可以采用多個特征位置并設置合適的權重系數完成分析,該方法同樣適用于樣品品質、糖度等參數的分析。

圖2 4種油桃的可見光與近紅外光的原始光譜分布Figure 2 The original spectral distribution of visible and near-infrared light of four nectarines
綜上所述,不同類型油桃樣本的光譜數據具有各自的特性,而對其特性分布的分析也是選定特征光譜位置及參考權重的重要依據,也是樣品種類、品質區分程度的重要標準。基于測試結果中不同樣品光譜分布的特性,特征譜段分別設置為400~430,530~560,670~700,1 030~1 060,1 260~1 290,1 410~1 440 nm。
將3.2中的特征譜段區域作為數據分類計算譜段,在保證種類與品質可求解的前提下,選取貢獻程度高的特征波長位置,并在相應波長位置上以均值之差最大的兩組樣本進行比例計算,從而得到兩個主成分的參數比。數據分析過程中,算法的預測樣本與驗證樣本比例為2∶1,即建模樣本數為200個(4品種,每個品種50個樣果),由此完成種類與品質的分類。每個樣品存在兩個特征區域,它們的對應關系有:① A和B的主成分分離采用450 nm 和950 nm位置的比例系數;② B和C的主成分分離采用536 nm和671 nm位置的比例系數;③ C和D的主成分分離采用671 nm和1 411 nm位置的比例系數;④ D和A的主成分分離采用450 nm和1 411 nm位置的比例系數。當采用吸光度值與比例值作為主成分的兩個衡量參數(PC1和PC2,各50%),則4種分類時的主成分樣本映射如圖3所示。吸光度值(PC1)是對光譜曲線中振幅量絕對值的描述,體現了獲得的能量,但由于在整個光譜段上,4種樣品的光譜均存在混疊的問題,故采用了比例值(PC2)作為對比參數,即在滿足吸光度振幅范圍的同時符合兩個樣品振幅比值范圍的才能夠判定其類型與品質屬性。為了提高識別概率每個樣品分別選取了對應兩種主成分的特征波長,所以在主成分分布圖中均呈現兩個區域。
由圖3可以看出,AB分類時,雖然在450 nm位置具有較強吸光度值,但是其比例值并不高,與CD、DA相近,而在950 nm位置上,雖然吸光度較弱,但比例值明顯高于其他的組合方式,故增大PC2權重占比有利于區分AB的類別與品質參數;BC分類時,在536 nm位置的振幅值具有較為明顯的可分性,而671 nm處與CD的計算效果相近,容易造成干擾,并且其分布重合度高,將PC1權重提高有利于區分BC的類別與品質參數;CD分類時,相比AB和BC更為復雜,由于400~430 nm和1 030~1 060 nm 兩個波段位置均存在與另一種樣品組混疊的可能,故需要同時符合兩個特征的數據才能滿足要求,即PC1和PC2的權重相近更合適;DA分類時,由于其比例值均較低,僅1 411 nm波段的振幅值較高,故采用PC1權重大于PC2更合適,同時,采用PC2并不是求解DA的PC2值,而是用于對比AB的PC2,從而在滿足PC1符合條件且PC2很小時,判定為DA組合。至此,將所有的情況分析完后就能夠實現基于特征波長位置主成分分析的方法對樣品種類及品質參數的定量分離。

圖3 4種油桃的測試點主成分分布圖Figure 3 Principal component distribution diagram of test points for four nectarines
根據主成分分析方法,結合樣品測試獲得的光譜數據,將權值分配引入偏最小二乘算法中,即偏最小二乘權值分析法[14](PLSWA),并與常用的線性比例分析算法[15](LRA)進行了比較,結果如表1所示。
由表1可知,譜段選擇對分類識別概率具有明顯的影響,當不區分特征譜段時,全譜段的均值效果會造成樣品特征信噪比降低,從而導致樣品種類識別概率降低。采用特征譜段或特征波長的PLSWA計算結果,4種樣品的種類識別率均值為96.7%,歸一化品質系數為0.892,而LRA的僅為79.1%,歸一化品質系數為0.803。由此可見,采用該算法對分類識別效果和品質系數測定都具有更高的準確性,即可以通過運算結果完成油桃類型和品質的分類。同時,采用特征分區的方式不但降低了光譜數據處理總量,減少了處理時間,還變相提高了信號權重,從而使其識別概率與歸一化品質系數都得到了一定的提升。

表1 不同譜段選擇及不同算法條件下的識別概率與品質分析?Table 1 Recognition probability and quality analysis by different spectrum and algorithms
針對相近品種之間光譜圖像識別率低的問題,搭建了可見光與近紅外光獨立通道光譜圖像采集系統,并設計了基于吸光度值與吸光度比值作為判別因子的最小二乘權值分析法。試驗針對4種油桃進行種類及品質因子分類測試,結果表明采用兩個特征主成分調控的分類算法比僅依據原始光譜數據的線性數據分類的效果要好,分類識別概率與品質系數都更高。可見,該系統及其對應算法在諸如水果等相近樣品的種類識別與品質分析方面具有更好的應用前景。