殷 勇 申曉鵬 于慧春
(河南科技大學食品與生物工程學院, 洛陽 471023)
作為一種快速、無損檢測的鑒別工具,電子鼻在白酒鑒別分析中[1-3]均是對類別的簡單識別,鑒別工作相對容易。白酒屬于復雜樣品,在類別較多且存在質量等級相近的樣品時,其鑒別難度明顯增加。此時傳統(tǒng)的線性模式識別方法,如主成分分析(Principal component analysis, PCA)[4-5]、Fisher判別分析(Fisher discriminant analysis, FDA)[6-8]等已很難滿足鑒別工作的要求,需要更先進的模式識別技術來提升電子鼻的鑒別能力。
模式識別中核變換方法的引入較好解決了用線性模式識別技術處理非線性復雜分類的問題[9-11]。其中核熵成分分析(Kernel entropy component analysis, KECA)以最大熵理論為依據進行核熵成分選擇,不僅能夠解決很多非線性問題,而且在提高模式識別的鑒別能力上也有很大的潛力[12]。但KECA在電子鼻檢測中的應用尚屬起步階段。文獻[13]中將KECA應用于室內單一污染成分的鑒別分析,其最佳鑒別正確率為91.9%。文獻[14]在對白酒的分類識別中僅將KECA用于數據降維,并未對核參數選擇及模型進行深入驗證。為了鑒別質量等級相近的6種白酒,本文在提取6種白酒樣本電子鼻信號的積分值(Integral value, INV)、方差(Variance, VAR)、相對穩(wěn)態(tài)平均值(Average value in relative steady-state, AVRS)、平均微分值(Average differential value, ADV)以及小波能量(Wavelet energy value, WEV)等5種特征的基礎上,借助特征選擇與特征組合,深入研究KECA對電子鼻鑒別白酒效能的提高程度,以便較好實現(xiàn)電子鼻對6種白酒樣品的準確鑒別。
1.1.1試驗儀器
試驗使用的測試儀器是由實驗室自行研制的電子鼻系統(tǒng)。該系統(tǒng)主要由氣敏傳感器陣列、測量室、數據采集裝置、穩(wěn)壓電源及計算機等幾部分組成。傳感器陣列由14支金屬氧化物氣敏傳感器組成。各傳感器型號及其對應的敏感氣體見文獻[15]。試驗過程中,氣敏傳感器的測量回路電壓為(10±0.01) V,加熱電壓為(5±0.05) V。此外,該系統(tǒng)還配有外置的溫、濕度傳感器來測量環(huán)境溫、濕度的變化,以補償環(huán)境對氣敏傳感器的影響。
1.1.2試驗材料
試驗選取瀘州老窖紅瓷頭曲、瀘州老窖頭曲、綿竹頭曲3號、綿竹頭曲6號、一滴醇醇和、一滴醇醇錦3個品牌6種類別白酒(表1)進行測試,分別用LZA、LZB、MZA、MZB、YDCA、YDCB來表示。

表1 白酒樣品的基本信息Tab.1 Basic information of white spirit samples
每種白酒采集58個樣本,總計得到6×58=348個樣本測試結果,測試時間歷時4個月,且為間斷性隨機測量每種樣品。每個樣本測試前先采集傳感器對環(huán)境的響應值(簡稱空載響應值),然后進行樣本測試。采用定量取樣,每次用移液管量取5 mL樣本于表面皿中,迅速將表面皿放入電子鼻測量室進行數據采集。根據預試驗結果,設置電子鼻的工作參數為:空采20 s,樣本采集1 200 s,采樣間隔為1 s,采后恢復時間為960 s。
每種樣品隨機抽取44個樣本(占樣本數的3/4)構成訓練集,訓練集樣本數共為6×44=264個,剩下的14個樣本構成測試集,測試集樣本數共為6×14=84個。
為減少環(huán)境溫、濕度及信號噪聲的影響,首先對電子鼻數據去基準處理,即每個樣本采集的1 200個響應值減去其空載條件下的響應平均值,以部分補償環(huán)境溫濕度的影響。然后采用Savitzky-Golay五點二次多項式[16]對數據進行平滑處理,以消除噪聲信號。
以傳感器TGS825對1個LZA樣本的測試結果為例,由于測試結果在200 s后噪聲現(xiàn)象明顯,所以在該測試結果去基準后,為了突出展示平滑后的效果,圖1給出了200 s之后平滑處理前、后的曲線圖。從圖1可以看出,去基準后的數據經平滑處理后,可以明顯消除噪聲信號。文中的所有數據處理工作均在Matlab R2014a軟件平臺上實現(xiàn)。

圖1 TGS825對1個LZA樣本平滑前、后的響應曲線Fig.1 Response curve of TGS825 to a LZA sample before and after smoothness processing
為比較不同特征對白酒電子鼻鑒別結果的影響,選取積分值、方差、相對穩(wěn)態(tài)平均值、平均微分值以及小波能量等5種特征參量[17],并進行提取。計算式分別為
(1)
(2)
(3)
(4)
(5)
式中I——積分值S——方差
R——相對穩(wěn)態(tài)平均值
A——平均微分值
N——傳感器對一個樣本的采集時間,取1 200 s
E——小波能量
ci——傳感器對一個樣本第i秒的響應值

t0——曲線即將穩(wěn)定時所對應時間,s
a3i——信號三尺度分解后逼近系數集中第i個分解系數
m——逼近系數集中的系數總數
由于5個特征值的數量級不同、量綱不同,所以特征提取結果均進行歸一化處理。
圖2給出了每個傳感器對一個LZA樣本響應信號的特征柱狀圖。從圖中可以看出,同一個傳感器,不同特征體現(xiàn)不同的響應;而同一特征對不同的傳感器也存在差異,體現(xiàn)了傳感器的選擇性。這說明了該陣列生成的樣本數據模式可用來表征6種白酒的差異性,實現(xiàn)了響應模式與樣本的一一對應。因此,該陣列可用來鑒別6種白酒樣品。

圖2 各傳感器對1個LZA樣本的5個特征的柱狀圖Fig.2 Bar results of five kinds of features for each gas sensor to one sample LZA
KECA的核心思想是將原始數據投影到高維特征空間后,對生成的核矩陣進行特征分解,選取前l(fā)個對瑞利熵貢獻最大的特征向量,然后向這些特征向量投影構成新的數據集[18-19]。
瑞利熵[20-21]不僅可以度量數據攜帶的信息量,而且還可作為數據分類或聚類優(yōu)劣的評價指標,其定義為
(6)
式中x——原始數據空間中的數據
p(x)——原始數據x對應的概率密度函數
由于對數函數具有單調性,故對式(6)中瑞利熵可量化估計為
(7)
KECA的詳細分析見文獻[22],在選用Parzen窗密度估計的基礎上,最終瑞利熵估計V(p)可進一步估計為
(8)
式中K——n×n階的核矩陣
λi——核矩陣K特征分解后的第i個特征值
ei——λi對應的特征向量
i——n維單位向量
(9)
依據每一項的貢獻值,在選擇對瑞利熵貢獻最大的前l(fā)個特征值對應的特征向量作為核熵成分分析變量后,便可進行后續(xù)的鑒別分析。
3.2.1核矩陣
由于徑向基核函數(Radial basis function, RBF)應用最為廣泛,適用于低維、高維、小樣本、大樣本等情況,具有較寬的收斂域,是較為理想的分類依據函數[23]。故本文選取RBF作為核變換函數,表達式為
k(xi,xj)=exp(-‖xi,xj‖2/η)
(10)
式中η——待定核參數
xi——原數據第i個數據向量
xj——原數據第j個數據向量
根據核變換中的核技巧[24],采用RBF作為核函數,通過計算原數據空間中任意2個數據向量xi、xj的內積kij,可構造核矩陣K,kij為核矩陣中的元素。定義矩陣K為實際樣本Gram矩陣。
3.2.2核參數確定方法
依據實際樣本核矩陣,理想條件下,即xi、xj完全相同時,兩個向量的內積為1。由此可構造理想Gram矩陣G,其元素構成為
(11)
xi=xj表示xi、xj屬同類樣本,xi≠xj表示xi、xj屬異類樣本。矩陣K與理想Gram矩陣G越相近,對分類越有利,此時確定的核參數η就越適用。因此引入基于歐氏距離測度的矩陣相似性度量方法來確定核參數η[25]。計算公式為

(12)
式中K′——實際Gram矩陣K轉化的n2維向量
G′——理想Gram矩陣G轉化的n2維向量
D值越小,說明矩陣K與矩陣G越相似。通過求取式中D的極小值即可確定核參數。
特征不同,白酒的鑒別效果會存在差異,因此需要選擇合適的特征來表征電子鼻信號。6種白酒對應于5種特征的FDA鑒別正確率見表2。需說明的是,文中FDA的鑒別正確率均為在取前5個判別函數條件下得到的結果,但直觀圖對應的是前2個判別向量(便于直觀分析)的鑒別效果。

表2 單特征下對應的FDA鑒別正確率Tab.2 FDA correct identification rate based on each single feature %
從表2可以看出,表中5種特征值在單獨表征電子鼻測試信號時,鑒別正確率較低,不能滿足不同白酒的鑒別需求。考慮到電子鼻響應信號構成復雜,故采用多特征表征。但是,表征特征參量增多,會造成核變換過程的計算復雜性增大,且會產生較多的冗余信息。因此,在采用多特征表征電子鼻信號時,需進行選擇。依據表2選擇有較好鑒別結果的INV、AVRS與WEV,分別實施兩兩組合、3種特征組合來表征電子鼻信號,得到4種表征方式,其FDA結果見表3。

表3 各組合特征對應的FDA鑒別正確率Tab.3 FDA correct identification rate based on different features combination %
從表3中可以看出,組合特征提高了電子鼻鑒別6種白酒的能力,尤其用三特征表征電子鼻信號時訓練集的鑒別正確率達到82.14%,測試集正確率也提高至79.92%。圖3、4分別給出基于WEV特征及三特征組合表征下FDA直觀圖。

圖3 WEV對應的FDA結果Fig.3 FDA results of WEV

圖4 三特征組合下對應的FDA結果Fig.4 FDA results of three features combination
從圖3中可以看出,用WEV表征電子鼻信號時除MZB以外,其他5種白酒混雜現(xiàn)象明顯,可分性不高。由圖4可看出,用3種特征組合表征電子鼻信號時,同類白酒的聚集增加,混雜度也有所下降。這說明三特征組合表征電子鼻信號可以更加全面地體現(xiàn)白酒響應信息之間的差異,有利于白酒鑒別。但圖4中各類白酒之間分界處仍存在交錯,被認為是非線性分類問題。因此,在三特征組合表征的前提下,進行了KECA+FDA分析,并與BP神經網絡、支持向量機等方法進行了比較。
在三特征組合表征電子鼻信號下KECA+FDA鑒別分析的具體過程如下:
(1)由式(10)、(11)分別計算實際Gram矩陣與理想Gram矩陣中的各元素,生成相應的Gram矩陣,其中實際Gram矩陣中含待定核參數η。
(2)運用式(12)計算兩個Gram矩陣間的歐氏距離,通過對距離D值求取極值,即可確定對應核參數η,其值為16.860 8。然后運用式(10)計算確定實際核矩陣K,K為348×348維的對稱矩陣。
(3)對核矩陣K進行分解,得到各特征值及其對應的特征向量。
(4)由式(9)計算每個特征值所對應的瑞利熵,根據對瑞利熵貢獻的大小,選取對應前l(fā)個貢獻最大的特征值對應的特征向量,依據選出的特征向量來確定核熵成分矩陣T。
(5)對T矩陣進行FDA分析,即實現(xiàn)KECA+FDA分析。
不同的l值對應的KECA+FDA鑒別結果差異很大,在三特征組合表征的前提下,圖5為不同個數的核熵成分對應的KECA+FDA鑒別結果。

圖5 三特征組合下不同核熵成分數對應的KECA+FDA鑒別正確率Fig.5 KECA+FDA correct identification rate of different KEC numbers based on three features combination
圖5顯示,隨著所選擇核熵成分數的增多,KECA+FDA鑒別正確率也隨之提高,當選擇前220個核熵成分并采用5個判別函數時,訓練集、測試集鑒別正確率均達到100%。因為5個投影方向的鑒別直觀圖不易給出,為了能直觀表示鑒別效果,圖6給出了基于第1判別函數和第2判別函數下的鑒別效果圖,其中KEFD1和KEFD2分別為第1判別函數和第2判別函數。圖6中,同類樣本之間與圖3相比更加聚集,6種白酒基本上能得以鑒別(在5個判別函數下可完全分開)。與表3中三特征組合下FDA鑒別結果相比較,KECA+FDA顯著提高了電子鼻對6種白酒的鑒別能力。

圖6 三特征組合下KECA+FDA結果Fig.6 KECA+FDA results of three features combination
在三特征組合表征電子鼻信號的前提下,分別采用BP神經網絡、支持向量機兩種非線性方法進行分析,其鑒別結果見表4。
從表4中可以發(fā)現(xiàn),與KECA+FDA方法相比較,這2種方法對6種白酒的鑒別能力明顯不足。這充分說明了KECA+FDA具有較高的鑒別優(yōu)勢。
(1)多種且具有質量等級相近的白酒樣品的電子鼻鑒別屬于復雜的非線性分類問題。電子鼻信號的單一特征不能充分表征其響應信息,進而不能有效實施鑒別。通過對比單一特征時的Fisher鑒別結果,篩選出了INV、AVRS、WEV 3種特征。然后分別研究它們不同組合表征時的鑒別結果。結果表明,三特征組合表征時的鑒別結果更好。

表4 BP神經網絡與支持向量機方法的分類結果Tab.4 Classification results based on BP neural network and support vector machine %
(2)在以INV、AVRS、WEV 3種特征值組合表征的基礎上,選擇RBF函數為核函數,并借助于基于矩陣最佳相似性的方法確定了RBF核參數為16.860 8。在運用KECA+FDA對6種白酒進行了鑒別分析后,測試集樣本鑒別正確率由FDA的 79.92%提高到KECA+FDA 的100%。而且對比BP神經網絡和支持向量機,KECA+FDA也有明顯優(yōu)勢。這說明了基于KECA+FDA的白酒電子鼻鑒別方式是行之有效的,為今后用電子鼻鑒別其他多類復雜樣品提供了一種可借鑒的模式識別方法。
1ZENG Hui, LI Qiang, GU Yu. New pattern recognition system in the e-nose for Chinese spirit identification[J]. Chinese Physics B, 2016, 25(2):164-169.
2王輝,李臻峰,鄧霞,等.基于電子鼻對不同香型白酒的快速識別和分類[J].食品工業(yè)科技,2017,38(6):62-65.
WANG Hui, LI Zhenfeng, DENG Xia, et al. Rapid identification and classification of Chinese spirits of different flavor types by electronic nose [J]. Science and Technology of Food Industry, 2017, 38(6): 62-65. (in Chinese)
3LI Q, GU Y, JIA J. Classification of multiple Chinese liquors by means of a QCM-based E-Nose and MDS-SVM classifier[J]. Sensors, 2017, 17(2):272.
4YAO Y, PAN S, FAN G, et al. Evaluation of volatile profile of Sichuan dongcai, a traditional salted vegetable, by SPME-GC-MS and E-nose[J]. LWT—Food Science and Technology, 2015, 64(2):528-535.
5何余勤,胡榮鎖,張海德,等.基于電子鼻技術檢測不同焙烤程度咖啡的特征性香氣[J].農業(yè)工程學報,2015,31(18):247-255.
HE Yuqin, HU Rongsuo, ZHANG Haide, et al. Characteristic aroma detection of coffee at different roasting degree based on electronic nose[J]. Transactions of the CSAE, 2015, 31(18): 247-255. (in Chinese)
6王虎玄,胡仲秋,龍芳羽,等.蘋果汁中魯氏接合酵母早期污染的電子鼻識別研究[J/OL].農業(yè)機械學報,2016,47(1):209-214.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20160127&journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2016.01.027.
WANG Huxuan, HU Zhongqiu, LONG Fangyu, et al. Research on identification of spoilage in apple juice caused byZygosaccharomycesrouxiiat early stage using electronic nose[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(1): 209-214. (in Chinese)
7SHAO X, LI H, WANG N, et al. Comparison of different classification methods for analyzing electronic nose data to characterize sesame oils and blends[J]. Sensors, 2015, 15(10):26726-26742.
8徐賽,陸華忠,周志艷,等.基于電子鼻的果園荔枝成熟階段監(jiān)測[J].農業(yè)工程學報,2015,31(18):240-246.
XU Sai, LU Huazhong, ZHOU Zhiyan, et al. Electronic nose monitoring mature stage of litchi in orchard[J]. Transactions of the CSAE, 2015, 31(18): 240-246. (in Chinese)
9DIAF A, BBOUFAMA B, BENLAMRI R. Non-parametric Fisher’s discriminant analysis with kernels for data classification [J]. Pattern Recognition Letters, 2013, 34: 552-558.
10ALI H, HARIHARAN M, YAACOB S, et al. Facial emotion recognition using empirical mode decomposition[J]. Expert Systems with Applications. An International Journal, 2015, 42(3):1261-1277.
11黃麗瑾,施俊,鐘瑾.基于核熵成分分析的數據降維[J].計算機工程,2012,38(2):175-177.
HUANG Lijin, SHI Jun, ZHONG Jin. Data dimension reduction based on kernel entropy component analysis[J]. Computer Engineering, 2012, 38(2): 175-177. (in Chinese)
12常鵬,王普,高學金,等.基于核熵投影技術的多階段間歇過程監(jiān)測研究[J].儀器儀表學報,2014,35(7):1654-1661.
CHANG Peng, WANG Pu, GAO Xuejin, et al. Research on batch process monitoring based on multi-stage kernel pattern entropy projection technology[J]. Journal of Scientific Instrument, 2014, 35(7): 1654-1661. (in Chinese)
13PENG X, ZHANG L, TIAN F, et al. A novel sensor feature extraction based on kernel entropy component analysis for discrimination of indoor air contaminants[J]. Sensors & Actuators A, 2015, 234(11): 143-149.
14JING Y, MENG Q, QI P, et al. Electronic nose with a new feature reduction method and a multi-linear classifier for Chinese liquor classification[J]. Review of Scientific Instruments, 2014, 85(5): 11543-11549.
15殷勇, 白玉, 于慧春,等. 電子鼻信號小波去漂移方法及其鑒別白酒研究[J/OL].農業(yè)機械學報,2016,47(11):219-223. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20161130&journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2016.11.030.
YIN Yong, BAI Yu, YU Huichun, et al. Drift elimination method of electronic nose signals based on wavelet analysis and discrimination of white spirit samples [J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(11): 219-223. (in Chinese)
16趙安新,湯曉君,張鐘華,等.優(yōu)化Savitzky-Golay濾波器的參數及其在傅里葉變換紅外氣體光譜數據平滑預處理中的應用[J].光譜學與光譜分析,2016,36(5):1340-1344.
ZHAO Anxin, TANG Xiaojun, ZHANG Zhonghua, et al. Optimizing Savitzky-Golay parameters and its smoothing pretreatment for FTIR gas spectra[J]. Spectroscopy and Spectral Analysis, 2016, 36(5):1340-1344. (in Chinese)
17于慧春,褚冰,殷勇.食醋電子鼻檢測中一種特征參量評價方法[J].農業(yè)工程學報,2013,29(3):258-264.
YU Huichun, CHU Bing, YIN Yong. Evaluation method of feature vector in vinegar identification by electronic nose[J]. Transactions of the CSAE, 2013, 29(3): 258-264. (in Chinese)
18PRINCIPE J C. Information theoretic learning: Renyi’s entropy and kernel perspectives[M]. New York: Springer Verlag, 2010: 47-88.
19JENSSEN R, ELTOFT T. A new information theoretic analysis of sum-of-squared-error kernel clustering[J]. Neurocomputing, 2008, 72(1-3): 23-31.
20YANG Y, LI X, LIU X, et al. Wavelet kernel entropy component analysis with application to industrial process monitoring [J]. Neurocomputing, 2015, 147(1):395-402.
21何飛,徐金梧,梁治國,等.基于核熵成分分析的熱軋帶鋼自適應聚類分析[J].中南大學學報:自然科學版,2012,43(5):1732-1738.
HE Fei, XU Jinwu, LIANG Zhiguo, et al. Hot rolled strip state clustering based on kernel entropy component analysis[J]. Journal of Central South University: Natural Science Edition, 2012, 43(5): 1732-1738. (in Chinese)
22JENSSEN R. Kernel entropy component analysis[J]. Pattern Analysis and Machine Intelligence, 2010, 32(5): 847-860.
23宋暉,薛云,張良均.基于SVM分類問題的核函數選擇仿真研究[J].計算機與現(xiàn)代化,2011(8):133-136.
SONG Hui, XUE Yun, ZHANG Liangjun. Research on kernel function selection simulation based on SVM classification[J]. Computer & Modernization, 2011(8):133-136. (in Chinese)
24陳才扣,高林,楊靜宇.一種基于空間變換的核Fisher鑒別分析[J].計算機工程,2005,31(8):17-18.
CHEN Caikou, GAO Lin, YANG Jingyu. Space transformation-based kernel Fisher discriminant analysis[J]. Computer Engineering, 2005, 31(8):17-18. (in Chinese)
25李曉宇,張新峰,沈蘭蓀,等.一種確定徑向基核函數參數的方法[J].電子學報,2005,33(增刊):2459-2463.
LI Xiaoyu, ZHANG Xinfeng, SHEN Lansun, et al. A selection means off the parameter of radius basis function[J]. Chinese Journal of Electronics, 2005, 33(Supp.): 2459-2463. (in Chinese)