任永杰,殷 勇,于慧春,袁云霞
(河南科技大學(xué)食品與生物工程學(xué)院,河南 洛陽 471023)
紫蘇是我國傳統(tǒng)具有藥用和食用價(jià)值的植物,也是我國國家衛(wèi)生健康委員會首批公布的藥食同源植物之一[1-2]。隨著大眾對紫蘇的需求不斷增加,市場上經(jīng)常出現(xiàn)來源不明和以假亂真的紫蘇,嚴(yán)重?cái)_亂了紫蘇的市場。因此,研究一種高效的紫蘇品種識別方法,對于真假判別、控制紫蘇質(zhì)量,提升紫蘇市場監(jiān)管能力具有重要的實(shí)用價(jià)值。
目前對于如何鑒別不同品種的紫蘇,還沒有一種高效成熟的檢測方法。常規(guī)的檢測手段有光譜法[3-5]、質(zhì)譜法[6-8]、色譜法等[9-11],其中三維熒光光譜技術(shù)以其簡便、迅速、靈敏及選擇性好等優(yōu)點(diǎn)被廣泛應(yīng)用食品和中藥檢測領(lǐng)域。三維熒光圖譜包含激發(fā)波長、發(fā)射波長和熒光強(qiáng)度3 種信息,描述了熒光強(qiáng)度隨激發(fā)波長和發(fā)射波長變化的關(guān)系,能提供比常規(guī)熒光圖譜更為豐富的信息,更加完整地描述熒光物質(zhì)的熒光特性[12]。影響紫蘇產(chǎn)生熒光的主要組分有葉綠素、花青素、黃酮和紫蘇醛等成分,三維熒光圖譜可以直觀地表示出這些成分的熒光強(qiáng)度、熒光峰位置及熒光強(qiáng)度變化趨勢。在實(shí)驗(yàn)過程中,原始光譜數(shù)據(jù)一般存在噪聲、基線漂移、散射干擾等問題,會對后續(xù)的分類識別造成影響。因此,需要對熒光光譜數(shù)據(jù)進(jìn)行預(yù)處理,提取特征參量,以提高鑒別結(jié)果的準(zhǔn)確性、可靠性。
三維熒光光譜數(shù)據(jù)分析的關(guān)鍵在于特征提取,提取方法主要有特征參數(shù)化方法和數(shù)據(jù)降維方法。特征參數(shù)化方法主要通過提取三維熒光光譜的均值、標(biāo)準(zhǔn)差、重心等特征參數(shù)代表原始光譜數(shù)據(jù),并將其作為分類識別的輸入數(shù)據(jù),此方法只是將特征進(jìn)行簡單組合,沒有考慮到不同特征間可能會互相影響[13-14];數(shù)據(jù)降維方法主要是通過線性或非線性映射將樣本從高維空間映射到低維空間從而獲得高維數(shù)據(jù)的低維表示[15-16],主成分分析(principal component analysis,PCA)是最常見的降維方法。但是,PCA對如何確定PC個(gè)數(shù)沒有明確的準(zhǔn)則,不能揭示特征之間的非線性關(guān)系[17]。因此,采用小波包分解結(jié)合Fisher判別分析(Fisher discriminant analysis,F(xiàn)DA)提取特征向量,可有效減少熒光數(shù)據(jù)的冗余,得到更有效的特征信息,從而提高后續(xù)分類識別的正確率。
本實(shí)驗(yàn)基于三維熒光光譜技術(shù)結(jié)合小波包分解、FDA和支持向量機(jī)(support vector machine,SVM)識別算法對紫蘇品種進(jìn)行分類識別,以期為品種分類提供更有效的數(shù)據(jù)表征模式,使分類識別結(jié)果更加準(zhǔn)確、可靠。
4 種紫蘇產(chǎn)地分別為浙江舟山紫蘇、廣西南寧紫蘇、遼寧鞍山紫蘇、湖北咸寧紫蘇。每種紫蘇有45 個(gè)樣本,共計(jì)180 個(gè)樣本。從每個(gè)品種的紫蘇樣本中隨機(jī)選取30 個(gè)樣本構(gòu)造訓(xùn)練集,共計(jì)120 個(gè),剩下的15 個(gè)樣本構(gòu)造測試集,共計(jì)60 個(gè)。
采用實(shí)驗(yàn)室自制的紫外增強(qiáng)型三維熒光光譜儀采集每個(gè)樣本的三維熒光光譜,其光源為150 W紫外增強(qiáng)型連續(xù)氙燈,波長精準(zhǔn)度為±1 nm,信噪比大于800∶1,采用的光電探測器為線陣探測器。經(jīng)過預(yù)實(shí)驗(yàn),設(shè)置激發(fā)波長λex范圍為350~750 nm,步長為5 nm,共包含81 個(gè)激發(fā)波長。設(shè)置發(fā)射波長λem范圍為360~800 nm,步長為0.4 nm,共包含1101 個(gè)發(fā)射波長。檢測樣本在10 mm×10 mm的石英熒光比色皿中測量,得到一個(gè)完整的三維熒光光譜需要2.5 min。
1.2.1 三維熒光數(shù)據(jù)采集
將紫蘇樣本平鋪在支撐架上,放入石英比色皿中,使用三維熒光光譜儀掃描樣本表面,采集光譜數(shù)據(jù)。激發(fā)波長λex掃描范圍350~750 nm,發(fā)射波長λem掃描范圍360~800 nm。熒光光譜儀使用前預(yù)熱30 min。
1.2.2 熒光數(shù)據(jù)預(yù)處理
三維熒光光譜是一種能夠同時(shí)提供熒光發(fā)射波長、激發(fā)波長和熒光強(qiáng)度信息的分析技術(shù)。然而,由于儀器、樣品和外界因素的影響,原始的三維熒光光譜數(shù)據(jù)往往存在噪聲、基線漂移、散射干擾等問題,需要進(jìn)行合適的預(yù)處理方法來消除或減少這些干擾,提高數(shù)據(jù)質(zhì)量和分析效果。本實(shí)驗(yàn)得到180 個(gè)1101×81二維數(shù)據(jù)矩陣,采用Delaunay三角形內(nèi)插值法去除瑞利散射[18]。去除瑞利散射后再對光譜進(jìn)行Savitzky-Golar卷積平滑處理[19]。
1.2.3 特征提取
1.2.3.1 小波包分解
三維熒光光譜中相鄰或相近的激發(fā)波長具有相似性和漸變性特點(diǎn),相鄰激發(fā)波長變化不明顯[20]。為表征各激發(fā)波長光譜數(shù)據(jù)特征,采用小波包分解方法。小波包分解既可以實(shí)現(xiàn)對熒光數(shù)據(jù)的壓縮,提高數(shù)據(jù)分析的準(zhǔn)確性,降低計(jì)算難度,又可以實(shí)現(xiàn)對被測對象特征信息的綜合提取[21-22]。因此,采用小波包分解對每個(gè)激發(fā)波長對應(yīng)的發(fā)射光譜進(jìn)行分解,計(jì)算出能量值,以便后續(xù)進(jìn)行分析。
小波包分解的關(guān)鍵部分就是小波基函數(shù),選取合適的小波基函數(shù)有利于準(zhǔn)確提取激發(fā)波長光譜數(shù)據(jù)的特征。Symlet小波是對Daubechies(dbN)小波的一種改進(jìn),它具備更好的對稱性,可以在一定程度上減少信號分解或重建過程中的失真。根據(jù)已有文獻(xiàn)的研究成果[23-24],小波包分解的基函數(shù)一般采用4 階Symlet小波。另外,小波包分解層數(shù)過少不能有效表征光譜特征信息,分解層數(shù)過多又會導(dǎo)致計(jì)算量過大,丟失有用信息。經(jīng)過3 層小波包分解,原信號的頻率集中在低頻部分,高頻信息基本為0,因此選擇3 層小波包分解對熒光光譜數(shù)據(jù)進(jìn)行分解。
對于小波包分解,各個(gè)頻段的信號能量可以用小波包能量表征,具體的能量計(jì)算見文獻(xiàn)[18]。另外,熒光光譜能量主要集中在低頻頻段,因此高頻頻段不作分析。所以,采用最低頻段的小波包能量作為各激發(fā)波長光譜數(shù)據(jù)表征量。
1.2.3.2 FDA
FDA是判別分析中常用的一種方法,其基本原理是將高維空間的數(shù)據(jù)投影到低維空間,使投影后同類樣本盡可能地聚集,不同類樣本盡可能地分開[25]。由于FDA屬于線性分類方法,對于多類樣本的鑒別效果往往不太理想,但考慮到其生成的新變量已融合了原始數(shù)據(jù)的差異性信息,故可將其作為預(yù)分類器處理,即先通過FDA生成FD變量,然后將FD變量作為分類器的輸入變量,以提高鑒別結(jié)果的正確率。
將對應(yīng)于各激發(fā)波長的最低頻段小波包能量(包含樣本差異性信息)采用FDA算法進(jìn)行融合,得到FDA新變量。對于新生成的FD變量,若包含的差異性信息越多,判別能力越強(qiáng)。故擬采用累積判別能力達(dá)到99%以上的FD變量作為不同品種差異性信息的表征變量,為后續(xù)的分類提供更有效的輸入變量。
1.2.4 分類識別
1.2.4.1 BP神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)
BPNN是一種基于誤差反向傳播算法的多層前饋網(wǎng)絡(luò),其中3 層的BPNN是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)之一[26]。
在BPNN的構(gòu)建過程中,應(yīng)選用合適的優(yōu)化參數(shù),可采用3 層的網(wǎng)絡(luò)結(jié)構(gòu):輸入層、隱含層、輸出層。隱含層傳遞函數(shù)為tansig函數(shù),輸出層傳遞函數(shù)為purelin,訓(xùn)練函數(shù)為trainlm[27]。學(xué)習(xí)率為0.001,目標(biāo)誤差為0.0001,訓(xùn)練迭代次數(shù)為1000 次。設(shè)定好參數(shù)后,將FDA篩選出的FD變量輸入BPNN模型進(jìn)行學(xué)習(xí)訓(xùn)練。
1.2.4.2 SVM
SVM是基于統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理發(fā)展起來的一種機(jī)器學(xué)習(xí)方法。它利用了核函數(shù)的思想,利用非線性映射將原始數(shù)據(jù)映射到更高的維度,從而有助于解決在線性空間中無法處理的問題。此外,SVM不需要太多樣本訓(xùn)練模型,有助于解決小樣本的問題[28]。
采用徑向基函數(shù)(radial basis function,RBF)作為SVM的核函數(shù),是因?yàn)椴捎肦BF核函數(shù)的SVM的表現(xiàn)優(yōu)于其他SVM,較小的樣本量就能提高SVM模型的分類正確率[29]。為得到比較理想的分類正確率,需要選擇最佳的核函數(shù)參數(shù)c和σ。參考文獻(xiàn)[30]中提供的基本參數(shù)設(shè)置值,設(shè)定c和σ的變化范圍為-10~10,步長為0.2,在此范圍內(nèi)通過網(wǎng)格搜索法尋找最佳的核函數(shù)參數(shù)。為了減少過擬合,利用K折交叉驗(yàn)證方法遍歷網(wǎng)格內(nèi)所有的參數(shù)以獲得全局最優(yōu)解,即交叉驗(yàn)證意義下最高的分類正確率。
對三維熒光光譜進(jìn)行去散射及Savitzky-Golar卷積平滑處理,浙江舟山紫蘇、廣西南寧紫蘇、遼寧鞍山紫蘇和湖北咸寧紫蘇的熒光數(shù)據(jù)預(yù)處理前后情況如圖1、2所示。預(yù)處理有效消除了瑞利散射和拉曼散射對三維熒光光譜數(shù)據(jù)的影響,并且圖2比圖1的熒光光譜等高線圖的邊緣更平滑,說明已經(jīng)減少了噪聲等環(huán)境因素的影響,有利于后續(xù)進(jìn)行特征提取和分類識別。另外,在分析熒光光譜圖時(shí)發(fā)現(xiàn),4 種紫蘇樣品在發(fā)射波長360~600 nm的波段基本不產(chǎn)生熒光,其熒光強(qiáng)度小于0.01,因此除去λem360~600 nm波段數(shù)據(jù)。

圖1 4 種紫蘇預(yù)處理前熒光光譜圖Fig.1 Original fluorescence spectra of perilla from four regions

圖2 4 種紫蘇預(yù)處理后熒光光譜圖Fig.2 Pretreated fluorescence spectra of perilla from four regions
直接利用4 種紫蘇的熒光光譜數(shù)據(jù)很難對其進(jìn)行鑒別分析。因此,利用小波包分解和FDA對預(yù)處理后的數(shù)據(jù)進(jìn)行特征提取,可以更好地去除變量間的冗余信息,并實(shí)現(xiàn)降維,為后續(xù)分類提供了更有效的數(shù)據(jù)表征模式。
首先,對4 種紫蘇各激發(fā)波長對應(yīng)的發(fā)射光譜進(jìn)行3 層sym4小波包分解,得到代表激發(fā)波長光譜特征的最低頻段的小波包能量值,每個(gè)樣本得到81 個(gè)能量值(對應(yīng)81 個(gè)激發(fā)波長),最終從180 個(gè)樣本中得到了一個(gè)180×81的小波包能量陣作為激發(fā)波長光譜數(shù)據(jù)表征結(jié)果。然后,采用FDA對由小波包分解得到的小波包能量進(jìn)行分析,將這些小波包能量中包含的差異性信息融合,生成FDA新變量。若用生成的FD變量直接進(jìn)行紫蘇產(chǎn)品鑒別,其訓(xùn)練集正確率為88.33%,測試集正確率為88.33%,F(xiàn)DA的鑒別結(jié)果不太理想。依據(jù)1.2.3.2節(jié)的方法,將生成的FD變量分別作為BPNN和SVM分類器的輸入變量,以提高鑒別效果。因前3 個(gè)FD變量的判別能力分別為57.33%、39.59%、3.07%,累計(jì)判別能力已達(dá)到99%,故選取前3 個(gè)FD變量作為表征變量輸入到BPNN和SVM的模型中,進(jìn)行分類識別。
2.3.1 BPNN模型
將經(jīng)FDA篩選出的3 個(gè)FD變量輸入BPNN模型,并根據(jù)確定的優(yōu)化參數(shù)構(gòu)建BPNN模型。最終得到的訓(xùn)練集樣本的輸出結(jié)果如圖3A所示,有3 個(gè)樣本被錯(cuò)誤分類,正確率為97.5%。測試集樣本的輸出結(jié)果如圖3B所示,有3 個(gè)樣本被錯(cuò)誤分類,正確率為95%。

圖3 BPNN訓(xùn)練集(A)和測試集(B)分類結(jié)果Fig.3 Classification results of training (A) and test (B) sets by BPNN
2.3.2 SVM模型
將經(jīng)FDA篩選出的3 個(gè)FD變量輸入到SVM中進(jìn)行分類。采用網(wǎng)格搜尋方法,得到最優(yōu)參數(shù)c=0.21764與σ=0.071794,再利用最優(yōu)參數(shù)對模型進(jìn)行訓(xùn)練,得到交叉驗(yàn)證意義下的分類正確率。其中SVM對訓(xùn)練集分類的正確率為98.33%,得到的訓(xùn)練集預(yù)測結(jié)果如圖4A所示,有兩個(gè)樣本被錯(cuò)誤分類。通過SVM進(jìn)行分類預(yù)測后,測試集的分類正確率為98.33%,得到的測試集預(yù)測結(jié)果如圖4B所示,有一個(gè)樣本被錯(cuò)誤分類。

圖4 SVM訓(xùn)練集(A)和測試集(B)分類結(jié)果Fig.4 Classification results of training (A) and test (B) sets by SVM
對比兩種模型的結(jié)果可知,SVM模型的訓(xùn)練集和測試集正確率均為98.33%,高于BPNN模型。在相同的特征提取算法下,SVM的鑒別結(jié)果優(yōu)于BPNN。結(jié)果表明,F(xiàn)DA+SVM算法是更高效的紫蘇識別方法。
選取浙江舟山紫蘇、廣西南寧紫蘇、遼寧鞍山紫蘇和湖北咸寧紫蘇采集三維熒光光譜數(shù)據(jù),對原始光譜數(shù)據(jù)去除瑞利散射、平滑和剔除無信息熒光背景區(qū)域。然后,利用小波包分解融合FDA對預(yù)處理后的數(shù)據(jù)進(jìn)行特征提取。最后,通過構(gòu)建BPNN和SVM兩種模型實(shí)現(xiàn)了4 種紫蘇的鑒別。這為后續(xù)有關(guān)紫蘇的進(jìn)一步檢測研究(如某些有效成分的定量檢測)奠定了基礎(chǔ)。主要結(jié)論如下:
1)提出了一種基于小波包分解融合FDA的熒光數(shù)據(jù)特征選擇策略。對每個(gè)激發(fā)波長對應(yīng)的發(fā)射光譜進(jìn)行小波包分解,計(jì)算得到紫蘇樣品的小波包能量值。然后,利用FDA對小波包能量進(jìn)行判別分析,從FDA新生成的變量中選取累積判別能力達(dá)到99%的前3 個(gè)FD變量作為不同品種差異性信息的表征變量。這種特征選擇策略可以很好地減少熒光光譜的數(shù)據(jù)冗余,實(shí)現(xiàn)有效降維,并選出判別能力強(qiáng)的特征變量,從而為分類提供更有效的數(shù)據(jù)表征模式。
2)對比分析了BPNN和SVM兩種模型的紫蘇鑒別結(jié)果。將FDA生成的3 個(gè)FD變量輸入兩種鑒別模型,與BPNN相比,SVM模型的分類結(jié)果正確率更高,可達(dá)到98.33%。因此,對于這4 種紫蘇,F(xiàn)DA+SVM算法是更高效的紫蘇識別方法。這一方法對其他品種紫蘇的鑒別也有一定的借鑒價(jià)值。