繆 楠,張 鑫,王首程,李慶盛,高繼勇,于雪瑩,王志強(山東理工大學計算機科學與技術學院,山東淄博 255049)
紅酒是一種以新鮮葡萄或葡萄汁為原料釀制的酒精飲品,其內(nèi)部富含多糖、多酚、有機酸和多種氨基酸,具有抑瘤抗癌、延緩衰老等功效[1]。紅酒品味和質(zhì)量會隨著貯藏年限的變化而有所區(qū)別。紅酒的貯藏年限快速鑒別是目前生產(chǎn)廠家和消費者非常關注的技術難題[2]。目前,紅酒貯藏年限分析方法主要有感官分析法和儀器分析法等[3]。感官分析法主要依靠品鑒師的視覺、味覺、嗅覺等感官進行判斷,但該方法受人的主觀因素和環(huán)境因素影響較大。常用的儀器分析法包括液相色譜-串聯(lián)質(zhì)譜法、等離子體發(fā)射光譜法和原子吸收光譜法等[4?6],但此類分析儀器價格昂貴、體積大、操作過程繁瑣,無法滿足檢測分析的需求[7]。電子舌是一種利用傳感器陣列結合模式識別技術對液體樣本的“指紋圖譜”進行分析的儀器,具有操作簡單、成本低廉、客觀高效等特點[8],近年來已被廣泛應用于食品質(zhì)量分析、產(chǎn)品溯源、摻假辨別等多個領域[9?11]。模式識別是影響電子舌檢測性能的關鍵技術,其過程主要包括特征提取和分類識別兩個階段。目前,常用的電子舌信號特征提取方法主要有極值點法(FPE)[12]、主成分分析(PCA)[13]、快速傅里葉變換(FFT)[14]、小波變換(WT)[15]等。但此類方法在對原始信號進行處理時,僅能挖掘和利用“指紋圖譜”的局部信息,容易造成特征信息的丟失[16]。集合經(jīng)驗模態(tài)分解(EEMD)是根據(jù)經(jīng)驗模態(tài)分解(Empirical mode decomposition,EMD)進行改良的新型信號處理方法。EEMD 通過向原始信號添加白噪聲,可以顯著地減少EMD 方法中存在的模態(tài)混疊現(xiàn)象,從而實現(xiàn)對非線性、非平穩(wěn)信號的自適應時頻域分析,且具有較高的信噪比和時頻聚焦特性[17],但目前尚未有報道將EEMD 應用到電子舌信號分析領域。
基于提取的特征,選用合適的分類識別算法是電子舌模式識別研究的另一個重點。史慶瑞等[15]利用BP 神經(jīng)網(wǎng)絡(BPNN)對中成藥的品種進行辨識。國婷婷等[18]利用極限學習機(ELM)對5 種年限的小麥進行了識別和分類。Shi 等[19]利用隨機森林(RF)建立了一種對不同年限陳皮區(qū)分的判別模型。但這些方法通常需要人工調(diào)整工作參數(shù),很難達到最優(yōu)性能[20]。最小二乘支持向量機(LSSVM)是在支持向量機(SVM)基礎上遵循結構風險最小化原則的機器學習算法,其模型具有訓練效率高、泛化能力強、辨別精度準確等特點[21]。LSSVM的懲罰系數(shù)和核函數(shù)寬度是影響模型性能的關鍵[21],傳統(tǒng)方法主要采用人工比對法確定,很難達到全局最優(yōu)。近年來,研究人員為確定LSSVM 模型的參數(shù)分別嘗試采用粒子群優(yōu)化算法[22]、人工魚群優(yōu)化算法[18]、遺傳算法[20]等優(yōu)化算法,取得了較為理想的效果。鯨魚算法是一種受自然集群運動啟發(fā)的啟發(fā)式算法,通過模仿鯨魚的捕獵行為來解決優(yōu)化問題。與傳統(tǒng)群集智能算法相比,鯨魚算法需要調(diào)整的參數(shù)較少且更容易跳出局部最優(yōu),具有收斂速度快、局部搜索能力強、優(yōu)化性能好等特點,目前已成功應用于多參數(shù)優(yōu)化問題[23?24]。
本文以4 種不同陳釀年限的紅酒為研究對象,利用實驗室自主研制的伏安電子舌系統(tǒng)對紅酒樣本進行辨別分析。針對紅酒樣本“指紋圖譜”信號復雜、數(shù)據(jù)量大、識別困難的問題,提出基于集合經(jīng)驗模態(tài)分解、鯨魚算法及最小二乘支持向量機的模式識別模型。然后通過實驗驗證了系統(tǒng)檢測結果的準確性和可靠性,該研究可為基于人工智能感官技術的紅酒貯藏年限區(qū)分提供理論依據(jù)和技術支持。
樣品紅酒 取自4 種不同陳釀年限市售紅酒,如表1 所示,同一年限紅酒分別來自不同批次,以確保樣本的多樣性;纖維濾膜 規(guī)格0.45 μm,上海市新亞凈化器件廠。

表1 紅酒樣本Table 1 Red wine samples
電子舌系統(tǒng) 采用自行研制的基于虛擬儀器技術的伏安電子舌系統(tǒng)。
1.2.1 電子舌系統(tǒng) 伏安電子舌系統(tǒng)結構如圖1 所示。該系統(tǒng)由傳感器陣列模塊、信號調(diào)理模塊、數(shù)據(jù)采集卡和基于LabView的上位機軟件組成。傳感器陣列由8 個貴金屬工作電極(鉑、金、鈦、鈀、銀、鎢、鎳、玻碳),1 個Ag/AgCl 參比電極和1 個鉑輔助電極組成。信號調(diào)理模塊主要由恒電位電路模塊、工作電極多通道切換模塊、信號放大電路模塊及RC 濾波電路組成。電子舌檢測溶液時,利用數(shù)據(jù)采集卡可產(chǎn)生大幅脈沖伏安信號(Large amplitude pulse voltammetry,LAPV)。該信號通過數(shù)據(jù)采集卡進行D/A 轉(zhuǎn)換,隨后利用恒電位電路傳遞至傳感器陣列。在LAPV 信號的激勵下,浸沒于被測溶液的工作電極在表面產(chǎn)生微弱的響應電流信號并發(fā)生電化學反應,該信號經(jīng)信號調(diào)理電路模塊進行數(shù)據(jù)轉(zhuǎn)換、放大、濾波后,利用數(shù)據(jù)采集卡對其進行A/D 轉(zhuǎn)換,然后送上位機對其進行模式識別分析。相較于傳統(tǒng)的理化分析儀器,伏安型電子舌主要通過施加特定電信號來使溶液中產(chǎn)生離子的移動,通過測量電信號的變化來感知不同樣本的指紋信息。

圖1 電子舌系統(tǒng)結構圖Fig.1 Diagram of electronic tongue system structure
1.2.2 樣本數(shù)據(jù)采集 實驗時準確量取10 mL 待測紅酒樣品,經(jīng)0.45 μm的纖維濾膜過濾后置于50 mL燒杯中。在室溫條件(25 ℃)下,利用電子舌檢測并采集數(shù)據(jù),每個樣本檢測4 次,去掉前3 次不穩(wěn)定數(shù)據(jù)。每次更換檢測樣本前,為了避免電極表面殘留物影響下次檢測,采用Al2O3打磨粉和拋光布對電極進行拋光打磨,并用去離子水對電極進行超聲清洗。最終得到400 個實驗樣本數(shù)據(jù),并劃分比例為7:2:1的訓練集、測試集和驗證集。
1.3.1 EEMD 分解 集合經(jīng)驗模態(tài)分解(EEMD)是Wu 等[17]針對EMD 方法存在的模態(tài)混疊現(xiàn)象提出的一種新型信號分析方法。其核心過程是根據(jù)白噪聲信號在整個時頻空間均勻分布的統(tǒng)計特性,將高斯白噪聲加入到數(shù)據(jù)信號中,隨后通過不同尺度的分解可得到一組本征模態(tài)函數(shù)(Intrinsic mode function,IMF)。實驗中針對電子舌信號復雜、數(shù)據(jù)量大的特點,利用EEMD 對電子舌信號進行自適應的時頻局部分析,使得到的時間序列具有更強的規(guī)律性,從而提取電子舌信號時頻域中的有效特征。假設一個時序信號為x (t),EEMD 分解的主要步驟如下:
a.在原始信號 x(t) 中 加入服從 (0,(αε)2)正態(tài)分布的白噪聲n (t),獲得加噪聲后信號X (t),即:

b.利用EEMD 對加噪后的信號進行分解,得到多個IMF 分量ci(t)和 一個殘余分量RN(t):

c.將均方根相等的不同白噪聲序列 ni(t),i=1,2,···,j 附加在每次待分解的信號 x(t)上,對b,c 重復j次,可得到對應的IMF 分量cij(t):

d.為消除因多次添加白噪聲信號對實際IMF 產(chǎn)生的干擾,平均計算各IMF 分量cij(t)的數(shù)值,最終可得本征模態(tài)函數(shù):

1.3.2 奇異譜熵和邊際譜 奇異譜熵分析是一種時域信號分析方法,可根據(jù)原始信號的時間序列在相空間進行構造展開,隨后通過分解、重構得到原始信號中對應的時域特征[16]。希爾伯特邊際譜可體現(xiàn)原始信號在每一個瞬時頻率點上的幅值分布情況,并能夠反映信號中的頻域特征,目前已成功用于光電容積脈搏波信號頻域[25]。故本文分別提取本征模態(tài)函數(shù)的奇異譜熵和邊際譜作為電子舌信號的特征信息,奇異譜熵的計算步驟如下:
a.將K 個IMF 分量組成一個模態(tài)矩陣:

b.將所得矩陣A 進行奇異值分解,可獲得對應的矩陣奇異譜λ1,λ2,···,λk。奇異值描述信號各頻段的特征,在此基礎上,引入信息熵理論,構造信號的奇異譜熵:

希爾伯特邊際譜計算過程如下:
d.對所有EEMD 分解獲得的有效IMF 分量cj(t)進行希爾伯特變換得H [Cj(t)],之后構造解析信號:

e.計算所得解析信號的瞬時幅值和瞬時頻率:

f.組合上述公式(9)(10)得到希爾伯特譜 H [f,t],對時間積分可得希爾伯特邊際譜:

1.3.3 最小支持二乘向量機(LSSVM) 最小二乘支持向量機(LSSVM)是一種遵循結構風險最小化原則的核函數(shù)機器學習算法。LSSVM 通過引入平方項的方法,使其目標函數(shù)的約束從不等式變?yōu)榈仁剑瑢⒍我?guī)劃問題轉(zhuǎn)化為線性方程組進行求解[21]。實驗中使用LSSVM 模型對電子舌特征數(shù)據(jù)進行識別分類。LSSVM 模型建立過程如下:
a.采用函數(shù) f(x)將原始信號映射到高維特征空間,開始構造最優(yōu)的線性函數(shù):

式中 ω為高維特征空間的權向量,b為偏差變量。
b.遵循結構風險最小化原則,將LSSVM的優(yōu)化目標表示為:

式中,ei為誤差變量。
c.為解決優(yōu)化目標問題,構建Lagrange 函數(shù):

式中,i為Lagrange 乘法算子。
d.然后根據(jù)KKT 條件求解得到b,并最終得到優(yōu)化函數(shù)為:

e.實驗設置K (xi,xj)為徑向基核函數(shù):

根據(jù)式(13)和式(17)可知,懲罰系數(shù)c 和核函數(shù)寬度 σ為LSSVM 模型的2 個待優(yōu)化參數(shù)。故上述參數(shù)組合可對LSSVM 模型的準確度和魯棒性產(chǎn)生影響。
1.3.4 鯨魚算法(WOA) 鯨魚算法(WOA)是一種基于模仿鯨魚的捕食行為來構建模型的集群優(yōu)化算法。在鯨魚算法中,將鯨魚的整體狩獵行為分成三個階段:包圍獵物、狩獵獵物和搜尋獵物,其行為如圖2所示。實驗中,利用鯨魚算法對LSSVM 模型的懲罰系數(shù)c 和 核函數(shù)寬度σ 進行參數(shù)優(yōu)化。將上述參數(shù)組合作為優(yōu)化目標,根據(jù)鯨魚狩獵行為,迭代尋找最優(yōu)鯨魚位置,從而得到最佳參數(shù)組合。

圖2 座頭鯨狩獵行為Fig.2 Feeding behavior of humpback whale
a.包圍獵物:
假設當前氣味所反映的獵物位置是最佳位置,并定義一定種群數(shù)量的座頭鯨,讓每個座頭鯨包圍獵物,更新每個座頭鯨的位置向量,之后對各個更新位置進行收縮環(huán)繞,最終達到局部最優(yōu)位置,利用數(shù)學公式對上述行為進行描述:


式中,t 表示當前迭代次數(shù),X?(t)表示目前最優(yōu)的位置向量,X (t)表 示當前鯨魚位置向量,A和 C表示兩個控制系數(shù)向量,D 為位置衡量系數(shù)。
b.狩獵獵物:
鯨魚主要是通過螺旋向上的運動方式對獵物進行捕食,可通過數(shù)學方程對其進行描述:

其中,Dp表示鯨魚當前位置和獵物位置之間的距離,X?(t)表 示目前最優(yōu)的鯨魚位置,b 為定義對數(shù)螺旋形狀的一個常數(shù),l是(?1,1)中任意數(shù)。
在狩獵過程中,鯨魚同時采用收縮環(huán)繞和螺旋方式進行位置更新。因此,設置閾值Pi決定不同的方式來更新下一代位置,其數(shù)學模型如下:

c.搜索獵物:
在搜索獵物過程中,通過不斷更新局部最優(yōu)位置,最終達到全局最優(yōu),其數(shù)學模型表示為:

其中,Xrand是隨機選擇的鯨魚位置向量,通過控制向量系數(shù)A的絕對值來設定算法的位置更新方式。
1.3.5 WOA-LSSVM 模型構建 利用WOA 算法對LSSVM 參數(shù)組合進行優(yōu)化,具體流程步驟如圖3 所示:

圖3 鯨魚算法優(yōu)化最小二乘支持向量機流程圖Fig.3 Flow chart of optimization least square support vector machine by improved whale optimization algorithm
a.設置初始化參數(shù),優(yōu)化迭代次數(shù)Tmax和鯨魚種群大小SN。
b.選取SN個鯨魚作為初始種群,并計算出所有鯨魚的適應度值大小。
c.根據(jù)步驟b 計算出每個鯨魚的適應度值,選取適應度值最小的鯨魚位置作為當前個體最優(yōu)位置。
d.鯨魚群中的其他鯨魚,根據(jù)整體狩獵行為,全局搜索最優(yōu)鯨魚的位置。當A ≥1時,采用式(23)通過搜索行為來更新鯨魚位置,若A <1,則采用公式(21)根據(jù)收縮環(huán)繞方式更新下一代鯨魚的位置。
e.迭代終止條件判斷。檢查目前的迭代次數(shù)是否達到Tmax,若已達到,則停止迭代,輸出當前最優(yōu)位置,通過參數(shù)解碼可得最佳的LSSVM 參數(shù)組合。若未達到,則轉(zhuǎn)至步驟d,繼續(xù)尋找最優(yōu)位置。
圖4 為鉑、金、鈦、鈀、銀、鎢、鎳、玻碳工作電極得到的紅酒樣本響應信號。可以看出,不同的工作電極對不同貯藏年限的紅酒響應信號有著明顯差異。經(jīng)實驗驗證分析,使用上述電極可以較為全面反映紅酒樣品的“指紋圖譜”。經(jīng)檢測,每個樣本采樣可得8000 個原始數(shù)據(jù)點,則4 種年限的紅酒樣本最后得400×8000的數(shù)據(jù)矩陣。

圖4 電子舌對紅酒樣品的響應信號Fig.4 Electronic tongue response signal of red wine
2.2.1 EEMD 信號分解 針對電子舌響應信號,實驗采用EEMD 算法進行分解。初始化參數(shù),設置白噪聲幅值為0.2,執(zhí)行次數(shù)為100,分解結果如圖5 所示。經(jīng)EEMD 分解的樣本原始信號可得到多個IMF分量和一個RES 殘余分量。從圖5 可以看出,IMF1~IMF5 突變性強,頻率較高且波形復雜,呈現(xiàn)出明顯的多尺度特征。從IMF6~IMF9 分量開始,整體信號趨緩,變化幅度較小,分量的規(guī)律性比IMF1~IMF5更強,但是波動的周期并不穩(wěn)定,表明上述分量主要體現(xiàn)信號的大體趨勢。

圖5 原始信號EEMD 分解結果Fig.5 EEMD decomposition results for original signal
2.2.2 IMF 奇異譜熵與邊際譜 對原始信號經(jīng)EEMD分解的1~9 階IMF 分量,利用奇異譜熵法進行特征選擇。依據(jù)實驗經(jīng)驗,設定分段長度L =3000,奇異譜熵值分布情況如圖6 所示。由奇異譜熵分布可知,奇異譜熵峰值隨著分解次數(shù)的增加而逐漸減小,說明其包含的特征信息也逐漸減少。由于IMF9 分量的熵值變化微小,故選擇1~8 階IMF 分量的奇異譜熵值作為電子舌信號的特征向量[26]。

圖6 不同紅酒的IMF 奇異譜熵分布Fig.6 IMF singular spectral entropy distribution of different red wine
對1~8 階IMF 分量進行希爾伯特變換,可得如圖7 所示的希爾伯特邊際譜。由圖7 可知,4 種紅酒的希爾伯特邊際譜總體變化趨勢大致相似,即在10 Hz 左右均有較為明顯的凸起變化,且在30 Hz 左右有凸起變化。其中2 年樣本在0~10 Hz 內(nèi)有2 次凸起,但4 種紅酒樣本的最大幅值存在明顯區(qū)別。而幅值的大小可體現(xiàn)出信號時頻分布的能量特征,由于邊際譜的幅值變化主要集中在0~50 Hz的區(qū)間范圍內(nèi),故根據(jù)希爾伯特邊際譜理論,選取邊際譜中的前50 個值作為特征向量[27]。最終單個紅酒樣本可得到58 個特征向量。

圖7 紅酒信號的希爾伯特邊際譜Fig.7 Hilbert marginal spectrum of red wine signals
采用EEMD-WOA-LSSVM 模型,對4 個不同年限的紅酒進行分類。訓練集、測試集和驗證集比例設置為7:2:1,將EEMD 分解后得到的奇異譜熵和邊際譜作為特征數(shù)據(jù)輸入WOA-LSSVM 模型中進行判別分析。采用鯨魚算法優(yōu)化LSSVM 模型參數(shù),設定鯨魚群種群規(guī)模 N=150,迭代次數(shù)最大值Tmax=100,根據(jù)收斂速度和迭代效果對算法進行評估。圖8 為以均方根誤差作為評價標準的優(yōu)化迭代收斂曲線。由圖8 可知,鯨魚優(yōu)化算法在迭代前期,模型均方誤差隨著迭代次數(shù)的增加迅速下降,并在25 次左右逐漸趨于恒定值。此時可得LSSVM 最佳參數(shù)組合懲罰系數(shù) c=71.1582,核函數(shù)寬度σ=239.2288,且均方根誤差僅為0.0905。為了對比分析,同時采用粒子群算法[22](Particle Swarm Optimization,PSO)和遺傳算法[19](Genetic Algorithm,GA)對LSSVM 懲罰系數(shù)和核函數(shù)寬度參數(shù)組合進行優(yōu)化,從圖8 可以看出,GA 和PSO 算法在收斂速度和最終收斂效果上,均劣于WOA 算法。

圖8 三種集群算法優(yōu)化LSSVM 參數(shù)的對比曲線Fig.8 Three clustering algorithms optimization LSSVM parameter optimization iteration
實驗采用測試集對EEMD-WOA-LSSVM 模型評價分析,可得混淆矩陣如圖9 所示。圖中混淆矩陣的橫坐標為樣本預測類別,縱坐標為樣本實際類別。由圖9 可知,在測試集樣本中1 年和6 年貯藏紅酒樣本均無混淆現(xiàn)象,有1 個2 年貯藏紅酒樣本被錯分為1 年樣本。在4 年貯藏紅酒樣本中,有2 個樣本被錯誤分類。模型測試集樣本的平均分類準確率達到96.25%,表明EEMD-WOA-LSSVM 模型可對不同貯藏年限的紅酒進行良好的辨別區(qū)分。

圖9 EEMD-WOA-LSSVM 模型測試集樣本混淆矩陣Fig.9 Confusion matrix of EEMD-WOA-LSSVM model on test set
為進一步驗證本文提出算法的優(yōu)越性,以驗證集中預處理后的特征數(shù)據(jù)為輸入數(shù)據(jù),分別選擇SVM、LSSVM 和相同初始參數(shù)值下的PSO-LSSVM、GA-LSSVM 模型進行對比分析。分別采用精確率(Precision)、召回率(Recall)、F1-Score 和Kappa 系數(shù)評估各個模型的魯棒性和辨別能力,其評判標準指標定義如下:


上述公式中,TP為 真實的正樣本數(shù)量;FP為真實的負樣本數(shù)量;FN為 虛假的負樣本數(shù)量。x為驗證樣本的總數(shù);xi?和 x?i分 別為結果中第i類樣本的總樣本數(shù)和測試集樣本中第i 類樣本的總樣本數(shù);xii為矩陣中第i 行 i 列 中的樣本數(shù),代表第i類樣本中正確分類的樣本數(shù);k 為分類的類別數(shù)。
表2 為各模型對4 種不同貯藏年限紅酒的分類性能統(tǒng)計。精確率代表被所有預測為正的樣本中實際為正樣本的概率。召回率代表在實際為正的樣本中被預測為正樣本的概率。而F1-Score 和Kappa系數(shù)是衡量模型準確度的兩個參數(shù)標準。結果表明,LSSVM 分類性能優(yōu)于SVM,其準確率、精確率、召回率、F1-Score、Kappa 系數(shù)分別提高了5%、5.5%、5%、0.05、0.06。這是由于LSSVM 使用了平方差損失函數(shù),將等式約束代替不等式約束,從而提升了模型的分類精度。與未優(yōu)化的LSSVM 相比,經(jīng)過GA、PSO、WOA 集群算法優(yōu)化的LSSVM 效果更好,其準確率提高了2.5%~10%。在三種優(yōu)化算法中,WOA 表現(xiàn)出比GA 和PSO 更好的優(yōu)化性能,這是由于鯨魚優(yōu)化算法具有良好的尋優(yōu)能力,使得收斂速度和收斂精度得到了較大幅度的提升,避免了傳統(tǒng)集群優(yōu)化算法的早熟現(xiàn)象、易陷入局部最優(yōu)等現(xiàn)象。

表2 各模型分類結果Table 2 Model classification results
研究采用伏安電子舌對不同貯藏年限的紅酒進行辨別分析,針對電子舌信號數(shù)據(jù)量大、復雜的特點,提出一種基于EEMD-WOA-LSSVM的組合模式識別模型。采用EEMD 對紅酒電子舌信號進行多尺度分解,得到多個IMF 函數(shù)并選取對應的奇異譜熵和希爾伯特邊際譜作為特征向量。同時為解決LSSVM 模型參數(shù)選擇的盲目性問題,提出了利用WOA 對LSSVM 模型參數(shù)進行尋優(yōu),有效的提高了模型的辨別準確度。實驗結果表明,利用電子舌結合EEMD-WOA-LSSVM 模型各項精度評價指標比其他模型更高,其準確率、精確率、召回率、F1-Score、Kappa 系數(shù)分別為97.5%、97.75%、97.5%、0.98 和0.97,能夠很好地區(qū)分4 種不同貯藏年限的紅酒。該研究將為紅酒貯藏年限區(qū)分提供一種新的研究思路和技術手段。