劉冬冬,李春花,滕佳鑫,王雪妹,趙志磊,趙昕
1. 河北大學(xué)質(zhì)量技術(shù)監(jiān)督學(xué)院(保定 071002);2. 計(jì)量?jī)x器與系統(tǒng)國家地方聯(lián)合工程研究中心(保定 071002);3. 河北省能源計(jì)量與安全檢測(cè)技術(shù)重點(diǎn)實(shí)驗(yàn)室(保定 071002)
山楂(Crataegus pinnatifida)是我國重要的原產(chǎn)經(jīng)濟(jì)作物[1]。由于其口味酸甜,營養(yǎng)豐富,是深受廣大消費(fèi)者青睞的果品之一,以山楂為主材的常見零食種類多樣,包括有冰糖葫蘆、山楂糕、山楂飲品等。此外山楂還是藥食兩用的大品種中藥材。中醫(yī)認(rèn)為山楂具有消食化積、活血養(yǎng)生的功效[2]。現(xiàn)代醫(yī)學(xué)研究發(fā)現(xiàn),山楂中的黃酮類、萜類、酚酸類、多糖類等物質(zhì)具有降血糖、血脂、血壓,抗動(dòng)脈粥樣硬化,抗氧化、抗腫瘤等藥理作用[3]。
果實(shí)硬度是果實(shí)質(zhì)構(gòu)的重要特征之一。主要由細(xì)胞結(jié)構(gòu),果膠、纖維素、醇不溶性固形物、木質(zhì)素等組成物質(zhì),以及脂氧化酶、果膠甲酯酶、多聚半乳糖醛酸酶等關(guān)鍵酶所決定[4]。山楂果實(shí)硬度是判斷山楂成熟度,以及進(jìn)行采后貯藏和加工,評(píng)估鮮果貨架期和裂果的重要依據(jù)[5]。在山楂果實(shí)的生產(chǎn)加工銷售流通環(huán)節(jié)中,對(duì)硬度指標(biāo)的實(shí)時(shí)監(jiān)測(cè)具有重要經(jīng)濟(jì)和社會(huì)意義。
近紅外光譜具有快速、無損和綠色的檢測(cè)優(yōu)點(diǎn),可以取代傳統(tǒng)抽樣檢測(cè)方法,對(duì)果實(shí)樣品實(shí)現(xiàn)100%的質(zhì)量指標(biāo)監(jiān)測(cè),能夠提高檢測(cè)效率,降低拒絕率,節(jié)省檢測(cè)成本。近年來隨著近紅外光譜技術(shù)的發(fā)展,其在農(nóng)產(chǎn)品品質(zhì)的分析檢測(cè)應(yīng)用越來越廣泛,很多學(xué)者在蘋果[6]、梨[7]、西葫蘆[8]、獼猴桃[9]、棗果[10]等多種果蔬的硬度和品質(zhì)指標(biāo)方面進(jìn)行檢測(cè)研究。然而關(guān)于山楂果實(shí)的品質(zhì)和硬度等的檢測(cè)研究尚未見報(bào)道。
試驗(yàn)利用近紅外光譜技術(shù)結(jié)合化學(xué)計(jì)量學(xué)算法和不同經(jīng)典回歸建模方法,研究構(gòu)建山楂果實(shí)硬度指標(biāo)的預(yù)測(cè)模型,并對(duì)模型進(jìn)行對(duì)比分析,評(píng)估不同預(yù)處理和建模方法對(duì)山楂果實(shí)硬度模型預(yù)測(cè)能力的影響。
試驗(yàn)所用山楂樣品購自超市,從中選取176個(gè)果型正常并且大小、色澤均勻的完好無機(jī)械損傷的山楂果實(shí)。試驗(yàn)前樣品于冰箱中冷藏儲(chǔ)存,試驗(yàn)時(shí)將其取出,置于室溫下放置一段時(shí)間達(dá)到室溫后,對(duì)表面擦拭干燥后,逐個(gè)采集數(shù)據(jù)。
采用德國布魯克公司的MPA型傅里葉變換近紅外光譜儀采集山楂果實(shí)的近紅外光譜數(shù)據(jù)。采集模式采用積分球漫反射,光譜采集范圍為4 000~12 500 cm-1(800~2 500 nm),設(shè)置光譜分辨8 cm-1、掃描次數(shù)32次。
采用美國質(zhì)FTC構(gòu)儀,在P2探頭下對(duì)山楂果實(shí)進(jìn)行穿刺試驗(yàn)。每個(gè)山楂樣品在赤道部分選定合適刺入點(diǎn),刺入點(diǎn)位置與光譜采集位置相對(duì)應(yīng)。試驗(yàn)步驟參照M-T戳穿試驗(yàn)法,結(jié)合優(yōu)化過程的設(shè)置參數(shù),質(zhì)構(gòu)儀檢測(cè)過程中的參數(shù)設(shè)置為測(cè)試速度60 mm/min、起始力0.2 N、穿刺距離3.00 mm、回程距離45 mm。
近紅外光譜數(shù)據(jù)維數(shù)多、數(shù)據(jù)量大,存在冗余和多重共線性等問題,無效信息或噪聲被疊加放大,從而影響有效信息的提取利用。此外,吸光度還易受到環(huán)境光、溫度、儀器暗電流和樣品尺寸大小等的影響[11]。因此選用合適的預(yù)處理方法對(duì)光譜數(shù)據(jù)進(jìn)行去噪非常必要。采用5種常用的光譜預(yù)處理方法,包括移動(dòng)平均平滑(moving average smoothing,MAS)、標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variate,SNV)、單位矢量歸一化(unit vector normalization,NOR)、基線校正(baseline correction,BAS)和去趨勢(shì)(de-trending,DET)。5種預(yù)處理方法在Unscrambler X軟件中計(jì)算實(shí)現(xiàn)。
支持向量機(jī)(support vector machines,SVM)是一種經(jīng)典的非線性監(jiān)督學(xué)習(xí)建模方法,基于拉格朗日乘數(shù)方程統(tǒng)計(jì)學(xué)習(xí)理論。其建模原理是利用非線性變換函數(shù)(核函數(shù))將輸入空間變換為高維線性特征空間,在高維線性特征空間中構(gòu)造最優(yōu)的線性分離平面[12]。SVM對(duì)于數(shù)據(jù)集較小,輸入變量維度較高的非線性關(guān)系分析建模具有突出優(yōu)勢(shì)[13]。SVM模型性能主要受到核參數(shù)(g)和懲罰因子(c)的影響。g參數(shù)通過調(diào)節(jié)核函數(shù)的幅度來控制SVM的泛化能力,而c參數(shù)用于權(quán)衡最小化訓(xùn)練誤差和最大化邊緣[14]。SVM建模中的關(guān)鍵問題之一是g和c的參數(shù)優(yōu)化問題,試驗(yàn)采用網(wǎng)格尋優(yōu)經(jīng)典方法進(jìn)行優(yōu)化。偏最小二乘(partial least squares,PLS)是多元回歸分析中最經(jīng)典的線性建模方法之一。它結(jié)合典型相關(guān)分析、多元線性回歸和主成分分析的優(yōu)點(diǎn)。建模原理是在新的正交空間里從原始變量數(shù)據(jù)X中構(gòu)建潛變量(latent variables,LVs),以最大化X空間對(duì)預(yù)測(cè)變量Y空間的預(yù)測(cè)能力[15]。PLS同時(shí)對(duì)自變量矩陣和因變量矩陣進(jìn)行分解,提取的主成分能反映自變量矩陣信息且具有較好的因變量預(yù)測(cè)能力,對(duì)于自變量多重相關(guān)和自變量數(shù)據(jù)冗余情況下的建模問題具有較好的性能[16]。
以訓(xùn)練集和預(yù)測(cè)集的相關(guān)系數(shù)(rc和rp)和均方根誤差(RMSEC和RMSEP)作為回歸模型的預(yù)測(cè)性能評(píng)價(jià)指標(biāo)。相關(guān)系數(shù)絕對(duì)值|r|的取值范圍為0~1,數(shù)值越接近1表明模型預(yù)測(cè)性能越好。均方根誤差數(shù)值越低表明模型性能越好[17]。

菌落總數(shù),按GB 4789.2—2016《食品安全國家標(biāo)準(zhǔn) 食品微生物學(xué)檢驗(yàn) 菌落總數(shù)測(cè)定》測(cè)定[11];霉菌計(jì)數(shù),按GB 4789.15—2016《食品安全國家標(biāo)準(zhǔn) 食品微生物學(xué)檢驗(yàn) 霉菌和酵母計(jì)數(shù)》測(cè)定[12];大腸菌群計(jì)數(shù),按GB 4789.3—2016《食品安全國家標(biāo)準(zhǔn) 食品微生物學(xué)檢驗(yàn) 大腸菌群計(jì)數(shù)》[13]。
對(duì)測(cè)量所得的硬度指標(biāo)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,結(jié)果如表1所示。176個(gè)硬度指標(biāo)的數(shù)值分布范圍為1.42~5.69 N。對(duì)硬度分布做進(jìn)一步細(xì)化分析,其在“硬度<2,2≤硬度<3,3≤硬度<4,4≤硬度<5,5≥硬度”五個(gè)區(qū)間的分布情況如圖1所示,整體呈正態(tài)分布。分別在5個(gè)區(qū)間中以2∶1隨機(jī)劃分訓(xùn)練集和預(yù)測(cè)集,訓(xùn)練集樣品用于模型建立,預(yù)測(cè)集樣品用于模型對(duì)未知樣品的預(yù)測(cè)評(píng)估。

表1 山楂樣品的硬度指標(biāo)分布分析

圖1 硬度分布直方圖
對(duì)獲取的山楂果實(shí)樣品原始光譜進(jìn)行初步分析發(fā)現(xiàn),800~1 164 nm范圍內(nèi)光譜數(shù)據(jù)噪聲較大,且譜線平滑,有效信息較少,故截取1 165~2 500 nm范圍數(shù)據(jù)進(jìn)行后續(xù)數(shù)據(jù)分析。截取后的原始光譜曲線如圖2所示。光譜數(shù)據(jù)中存在隨機(jī)噪聲和基線漂移等,需要預(yù)處理方法進(jìn)行去噪處理。

圖2 山楂果實(shí)原始光譜
采集到的光譜數(shù)據(jù)不僅受到內(nèi)部?jī)x器暗電流、外部環(huán)境光變化、山楂樣品尺寸大小和雜散光等不良因素的影響,同時(shí)本身還存在冗余性和多重共線性等問題。因此在建模之前需要采用合適的預(yù)處理方法對(duì)數(shù)據(jù)進(jìn)行去噪。采用移動(dòng)平均平滑(MAS)、標(biāo)準(zhǔn)正態(tài)變量變換(SNV)、單位矢量歸一化(NOR)、基線校正(BAS)和去趨勢(shì)(DET)5種不同預(yù)處理方法。5種不同預(yù)處理后的光譜曲線分別如圖3所示。觀察圖3可以發(fā)現(xiàn),MAS方法可以有效去除譜線中的毛刺,SNV和NOR可以不同程度上降低光譜樣品點(diǎn)之間的散射差異,BAS和DET不同程度地校正原始光譜基線漂移的問題[18]。

圖3 不同預(yù)處理方法后的山楂光譜曲線
分別采用經(jīng)典線性方法偏最小二乘和非線性方法支持向量機(jī)建立不同預(yù)處理后光譜數(shù)據(jù)與山楂果實(shí)硬度指標(biāo)的定量預(yù)測(cè)模型。建模結(jié)果如表2所示。SVM模型整體預(yù)測(cè)能力優(yōu)于PLS模型,表明對(duì)于山楂硬度數(shù)據(jù),SVM方法表現(xiàn)出更好的建模效果。對(duì)比不同的預(yù)處理方法,MAS、SNV和NOR這3種預(yù)處理方法對(duì)應(yīng)的PLS模型優(yōu)于無預(yù)處理的PLS模型,表明3種預(yù)處理方法一定程度上去除了部分噪聲信息。對(duì)于SVM模型,盡管SNV和BAS提高校正集的預(yù)測(cè)效果,但是對(duì)于預(yù)測(cè)集的預(yù)測(cè)效果并沒有提高,無預(yù)處理的原始光譜建模效果最好,RMSEC為0.918,RMSEP為0.895。整體來說,山楂硬度模型的相關(guān)系數(shù)r≤0.412,模型預(yù)測(cè)性能有待提高,基于NIR的山楂果實(shí)硬度評(píng)估方法仍需進(jìn)一步研究。

表2 山楂硬度不同預(yù)處理方法下的PLS和SVM預(yù)測(cè)模型
利用近紅外光譜技術(shù)研究山楂果實(shí)硬度的快速無損檢測(cè)方法,研究分析山楂樣品的硬度分布特征。樣品整體硬度取值范圍為1.42~5.69 N。其中,硬度在2~5 N范圍內(nèi)的山楂數(shù)量最多,<2和5≥的數(shù)量較少,整體呈正態(tài)分布規(guī)律。
對(duì)比5種不同光譜預(yù)處理方法的去噪效果,MAS方法可有效去除毛刺噪聲,SNV和NOR可以降低樣品散射引入的光譜差異,BAS和DET用于校正光譜數(shù)據(jù)的基線漂移。分別采用線性和非線性的經(jīng)典建模方法,偏最小二乘和支持向量機(jī)。模型結(jié)果表明,非線性支持向量機(jī)方法所建模型整體優(yōu)于偏最小二乘回歸模型。不同建模方法下,不同預(yù)處理方法對(duì)模型的優(yōu)化效果不同。MAS、SNV和NOR這3種預(yù)處理方法提高PLS模型的預(yù)測(cè)能力。對(duì)于SVM模型,SNV和BAS只提高校正集的預(yù)測(cè)效果,預(yù)測(cè)集的預(yù)測(cè)能力反而有一定減弱。基于原始光譜的SVM模型預(yù)測(cè)性能最好,RMSEC為0.918,RMSEP為0.895。整體來說,山楂硬度模型的相關(guān)系數(shù)均≤0.412,預(yù)測(cè)性能有待進(jìn)一步提高,基于NIR的山楂果實(shí)硬度評(píng)估仍需進(jìn)一步研究。