鄭 劼,吳文林,萬渝平,梁恒興,肖全偉,朱霞萍
(1.成都理工大學材料與化學化工學院,四川成都 610059;2.成都市食品藥品檢驗研究院,四川成都 610100)

鄭 劼1,吳文林2,*,萬渝平2,梁恒興2,肖全偉2,朱霞萍1
(1.成都理工大學材料與化學化工學院,四川成都 610059;2.成都市食品藥品檢驗研究院,四川成都 610100)
采用電感耦合等離子體原子發射光譜(ICP-AES)測定了四種品牌56個白酒樣品(五糧液,郎酒,全興,五津醇)中的16種元素含量。通過對結果進行z-score標準化,消除各元素間量綱差異,再對其進行主成分分析。結果表明,第一主成分的方差貢獻率為40.3%,前十主成分的貢獻率達96.3%,基本保留了原變量的所有信息。選擇前十主成分建立決策樹分類預測模型,模型的交叉驗證準確率高達97.6%,再用模型預測未參與建模的15個白酒樣品,準確率高達100%。模型能夠準確區分五糧液,郎酒,全興,五津醇四種品牌白酒。
白酒,元素,ICP-AES,主成分分析,決策樹模型
酒是一種廣受全世界人民喜愛,具有極高商業價值的飲品[1]。白酒是我國具有5000多年歷史的傳統特色食品之一,其制作工藝獨特,和白蘭地(Brandy)、威士忌(Whisky)、金酒(Gin)、伏特加(Vodka)、朗姆酒(Rum)并稱為世界六大著名蒸餾酒[2-3]。
據報道[4],2015年全年全國白酒折65度商品量達1312.80萬千升。但在白酒產業蓬勃發展的同時,白酒的制假售假案件屢禁不止。由于行業門檻低,小規模酒廠數量眾多,白酒生產流通環節監管不力等因素,導致消費者買到以假充真,以次充好的假冒偽劣白酒的案件時有發生,嚴重損害了消費者的健康和合法權益,對白酒行業的健康發展產生了巨大的影響。
隨著人們對白酒的深入研究,白酒中的元素越來越受到人們的重視。一方面,白酒中元素含量的高低直接影響消費者的身體健康,另一方面,元素可以直接影響白酒的感官。對于不同的品牌白酒,由于其生產原料、蒸餾設備、儲存器皿等不同,某些微量元素的含量也不盡相同。國內外研究者采用ICP-OES[5],ICP-MS[8]等測定酒中元素含量,并用PCA[9],PLS-DA[12],SVM[15]等多元統計分析方法對采集的數據進行分析,挖掘數據內在聯系,建立不同產地,不同品牌白酒的分類預測模型。Vivien F[16]用ICP-MS分析了加拿大兩個主要產酒城市尼加拉瓜(Niagara)和奧肯那根(Okanagan)的酒的痕量金屬指紋圖譜。通過同時測定白酒中的34種痕量元素(Li,Be,Mg,Al,P,Cl,Ca,Ti,V,Mn,Fe,Co,Ni,Cu,Zn,As,Se,Br,Rb,Sr,Mo,Ag,Cd,Sb,I,Cs,Ba,La,Ce,Tl,Pb,Bi,Th,和U)濃度,并用統計學工具建模。結果表明,兩種產地的酒能夠區分,且準確度高達100%。Eugenio C[6]用ICP-MS研究了凈化,過濾,儲存等對白葡萄酒樣品中的稀土元素(Rare Earth Elements,REEs)含量的影響。研究表明,凈化、過濾等操作均會不同程度的影響稀土元素濃度但不會影響其它金屬元素的含量,用木頭或不銹鋼儲存會比用玻璃儲存的濃度影響小。
現有研究多集中于白酒中香味物質的鑒別,通過白酒中微量元素濃度差異來區分各品牌白酒的研究較少。本實驗采用ICP-AES測定了四種具有代表性的白酒(五糧液,郎酒,全興,五津醇)中16種元素含量,再用Matlab軟件分析其差異。對z-score標準化的數據進行主成分分析,并建立四種品牌白酒的決策樹模型。建立的模型可正確預測四種品牌白酒,為白酒的鑒別提供科學有效的技術手段。
1.1 材料與儀器
白酒S1~S11為五糧液(WLY)、S12~22為郎酒(LJ)、S23~38為全興(QX)、S39~56為五津醇(WJC) 其中五糧液的生產日期為2012~2014年,郎酒為2009~2014年,全興為2012~2014年,五津醇2013~2014年;Al、As、Ca、Cd、Cr、Cu、Fe、K、Mg、Mn、Na、Ni、Pb、Se、Sr和Zn標準儲備液 由國家有色金屬及電子材料分析測試中心提供;硝酸(優級純) 由西隴化工股份有限公司提供;高氯酸(優級純) 由天津鑫源化工有限責任公司提供;實驗用水 為一級水。
電感耦合等離子體原子發射光譜儀 美國Varian公司VISTA-PRO型;Milli-Q凈化系統 美國Millipore公司;所有玻璃器皿 均用10%硝酸浸泡24 h以上。
1.2 樣品前處理
準確稱取15 g(精確至0.1 mg)白酒樣品于250 mL錐形瓶中,置于電熱板(250 ℃)蒸發濃縮至1 mL,冷卻后加入10 mL混合酸(硝酸∶高氯酸,5∶1),于電熱板上消解至無色,繼續加熱至溶液剩約1 mL;轉移至25 mL容量瓶,定容。
1.3 儀器分析條件
功率:1.25 kW;等離子氣流量:18.0 L/min;助燃氣流速:2.25 L/min;噴霧壓力:200 kPa;進樣延遲:25 s;泵速:15 r/min;清洗時間:10 s。
1.4 數據處理與分析
1.4.1 原始數據標準化 對原始數據進行z-score標準化。將原數據減去該變量的平均數,然后除以該變量的標準差。以消除原始數據間的量綱影響,使數據更具可比性。
1.4.2 數據分析 采用Matlab(R2015a)對不同品牌白酒元素濃度進行主成分分析并用經主成分分析降維的數據建立四種品牌白酒的決策樹模型。
2.1 白酒樣品元素的測定
采用ICP-AES測定樣品中Al、As、Ca、Cd、Cr、Cu、Fe、K、Mg、Mn、Na、Ni、Pb、Se、Sr和Zn等16種元素含量。測定結果如表1所示,箱型圖如圖1所示。結果表明,不同白酒樣品中各元素含量差異較大,因此對數據進行標準化處理,消除量綱影響是很有必要的。

圖1 56組白酒樣品中的元素含量箱型圖Fig.1 Concentration box plot of elements in the 56 analyzed spirit samples

表1 各品牌白酒元素濃度范圍(mg/L)
2.2 主成分分析
主成分分析法(Principal Component Analysis,PCA)是一種降低數據維度并且能夠最大限度地保留了樣本所固有的原始信息的有效方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,使復雜的原始數據變成幾個新變量,轉換后的這組變量叫主成分。這是挖掘多變量間關聯問題的有效方法[17]。
本研究以56個酒樣中16種元素濃度構成56×16的矩陣,經z-score標準化后,利用Matlab軟件進行主成分分析,其因子數目和特征值大小如圖2所示。碎石圖的拐點出現在第二和第三主成分之間。第一主成分的方差貢獻率為40.3%,前三主成分特征值累積占方差的66.1%,解釋了白酒樣品間的大部分差異,后面的特征值貢獻率越來越少。前十主成分方差貢獻率為96.3%,基本保留了原來變量的所有信息,故選擇前十主成分進行品牌白酒的建模分析。

圖2 主成分碎石圖Fig.2 Scree plot of PCA
以主成分PC 1為X軸,分別以PC 2,PC 3為Y軸,建立每個白酒樣品的得分圖(圖3)。如圖3A所示,五津醇白酒與郎酒、五糧液、全興白酒相比差異明顯,能與其它品牌白酒區分開,但其點相對離散,在主成分1上的得分范圍較廣。郎酒與五糧液可各自區分,但與全興白酒部分分布存在交叉。
如圖3B所示,四種品牌白酒能夠有效區分,但其區分度不及圖3A。郎酒被五津醇、五糧液、全興從三個方向包圍,雖然在圖中并沒有交點,但是建立分類預測模型時極有可能誤判。前三組分的方差貢獻率為66.1%,解釋了四種品牌白酒樣品的大部分差異,能將四種品牌白酒有效區分,但區分不明顯,辨識度不高。由于白酒中各元素濃度受較多因素影響,同一品牌,不同品種、批次的樣品的含量差異也較大。基于主成分分析的白酒區分方法體現了不同品牌白酒中16種元素種類和含量的個性和共性,反映了不同品牌白酒的典型性及相似性。

圖3 白酒樣品主成分得分圖Fig.3 PCA score plot for spirit sample
2.3 分類預測模型建立
決策樹(Decision Tree,DT)是一個樹結構(可以是二叉樹或非二叉樹)。其每個非葉節點表示一個特征屬性上的測試,每個分支代表這個特征屬性在某個值域上的輸出,而每個葉節點存放一個類別。使用決策樹進行決策的過程就是從根節點開始,測試待分類項中相應的特征屬性,并按照其值選擇輸出分支,直到到達葉子節點,將葉子節點存放的類別作為決策結果[17]。相比貝葉斯或偏最小二乘判別分析等算法,決策樹的優勢在于構造過程不需要任何領域知識或參數設置,因此在實際應用中,對于探測式的知識發現,決策樹更加適用。
交叉驗證[11](cross-validation)是驗證分類預測模型的最常用方法,它將樣品分為兩部分,一部分為訓練集,另一部分為驗證集,訓練集和驗證集均有不同類別的獨立樣品。模型的建立和驗證過程會重復多次來保證每個樣品都能作為訓練或者測試的樣本。通常采用的交叉驗證方法分別為Leave One Out和N-flod。N-fold指所有樣品被隨機均分為N組,N-1組作為訓練集,1組作為驗證集。再以不同的組作為驗證集,重復N次,直至每個樣品都能作為一次訓練集和一次驗證集,輸出其混淆矩陣。
本研究以經主成分分析降維后的數據為變量,將樣品隨機分為兩組,訓練集41個樣品,驗證集15個樣品,以5-flod為交叉驗證方法建立四種品牌白酒樣品的決策樹模型,驗證結果如表2。模型的總準確率達97.6%。五糧液、五津醇、全興的真陽率(Ture Positive Rates,TPR)為100%,郎酒的假陰率(False Negative Rate,FNR)為12.5%,有一個樣品被誤判,22號郎酒樣品被誤判為全興。22號為郎酒原槳酒。8組郎酒樣品中6組為醬香型,1組為濃醬兼香型,1組為濃香型。由于醬香型和濃香型白酒的生產工藝不同,導致22號白酒樣品的16種元素的濃度特征與其余郎酒樣品有所差異,在該模型中被誤判為正常現象。再用經交叉驗證的模型預測15個未參與建模的白酒樣品,預測準確率高達100%。根據主成分分析結果(圖3),郎酒和五糧液,五糧液和五津醇,全興和五津醇均無重疊區域,能直接區分,不存在誤判的可能性,郎酒與其余三種品牌白酒的區分度較低,可能存在誤判。在本模型中,兩組郎酒樣品分別被誤判為全興和五津醇。決策樹模型結果與主成分分析結果相符。

表2 決策樹模型交叉驗證及預測結果
圖4為所建立的決策樹模型。五津醇首先通過PC 1與其它3個品牌白酒分開,然后通過PC 3將樣品分為2組,一組為五糧液和郎酒,另一組為郎酒和全興。最后再分別分開。結果表明,通過ICP-AES測定酒中的16種元素含量,經z-score標準化,主成分分析降維,可以有效區分四種品牌白酒。

圖4 決策樹模型圖Fig.4 plot of Decision Tree
本文采用ICP-AES測定了四種品牌56個白酒樣品中的16種元素含量。分析數據經z-score標準化后,進行主成分分析降維。前十主成分方差貢獻率為96.3%,基本保留了原來變量的所有信息。選擇前十主成分建立決策樹模型,交叉驗證結果表明模型的總準確率達97.6%,再用模型預測未參與建模的15個白酒樣品,準確率高達100%。模型能夠有效區分五糧液、郎酒、全興、五津醇四種品牌白酒,建立的模型可為品牌白酒鑒別提供參考。
[1]Vaclavik L,Lacina O,Hajslova J,et al. The use of high performance liquid chromatography-quadrupole time-of-flight mass spectrometry coupled to advanced data mining and chemometric tools for discrimination and classification of red wines according to their variety[J]. Analytica Chimica Acta,2011,685(1):45-51.
[2]王傳榮. 白酒的香型及其風味特征研究[J]. 釀酒科技,2008(9):49-52.
[3]劉玉平,黃明泉,鄭福平,等. 中國白酒中揮發性成分研究進展[J]. 食品科學,2010,31(21):437-441.
[4]馬勇. 中國白酒三十年發展報告(上)[J]. 釀酒科技,2016(2):17-22.
[6]Rossano E C,Szilágyi Z,Malorni A,et al. Influence of Winemaking Practices on the Concentration of Rare Earth Elements in White Wines Studied by Inductively Coupled Plasma Mass Spectrometry[J]. Journal of Agricultural and Food Chemistry,2007,55(2):311-317.
[7]Zhuang H,Ni Y,Kokot S. Combining HPLC-DAD and ICP-MS data for improved analysis of complex samples:Classification of the root samples from Cortex moutan[J]. Chemometrics and Intelligent Laboratory Systems,2014,135(2014):183-191.
[8]Kruzlicova D,Fiket ?,Kniewald G. Classification of Croatian wine varieties using multivariate analysis of data obtained by high resolution ICP-MS analysis[J]. Food Research International,2013,54(1):621-626.
[9]Wang M,Avula B,Wang Y-H,et al. An integrated approach utilising chemometrics and GC/MS for classification of chamomile flowers,essential oils and commercial products[J]. Food Chemistry,2014,152(2014):391-398.
[10]Bannur Z,Teh L K,Hennesy T,et al. The differential metabolite profiles of acute lymphoblastic leukaemic patients treated with 6-mercaptopurine using untargeted metabolomics approach[J]. Clinical Biochemistry,2014,47(6):427-431.
[11]Zhu K,Nie S,Gong D,et al. Effect of polysaccharide from Ganoderma atrum on the serum metabolites of type 2 diabetic rats[J]. Food Hydrocolloids,2016,53:31-36.
[12]Zheng J,Liang R,Wu C,et al. Discrimination of different kinds of Luzhou-flavor raw liquors based on their volatile features[J]. Food Research International,2014,56:77-84.
[13]Worley B,Halouska S,Powers R. Utilities for quantifying separation in PCA/PLS-DA scores plots[J]. Analytical Biochemistry,2013,433(2):102-104.
[14]Almeida M R,Fidelis C H V,Barata L E S,et al. Classification of Amazonian rosewood essential oil by Raman spectroscopy and PLS-DA with reliability estimation[J]. Talanta,2013,117:305-311.
[15]朱焯煒,闕立志,吳亞敏,等. 三維熒光光譜結合PARAFAC和GA對中國白酒品牌的鑒別[J]. 中國激光,2015,42(06):315-320.
[16]Taylor V F,Longerich H P,Greenough J D. Multielement Analysis of Canadian Wines by Inductively Coupled Plasma Mass Spectrometry(ICP-MS)and Multivariate Statistics[J]. Journal of Agricultural and Food Chemistry,2003,51(4):856-860.
[17]Berrueta L A,Alonso-Salces R M,Héberger K. Supervised pattern recognition in food analysis[J]. Journal of Chromatography A,2007,1158(12):196-214.
Study on discrimination of four Chinese brand spirits based on ICP-AES coupled the principal component and decision tree analysis
ZHENG Jie1,WU Wen-lin2,*,WAN Yu-ping2,LIANG Heng-xing2,XIAO Quan-wei2,ZHU Xia-ping1
(1.College of Materials and Chemistry & Chemical Engineering,Chengdu University of Technology,Chengdu 610059,China; 2.Chengdu Institute for Food and Drug Control,Chengdu 610100,China)
The potential of ICP-AES for metal element profiling of Chinese spirit samples was examined. Sixteen elements in fifty six spirits samples representing four varieties of brands(Wuliangye,Lang Liquor,Quanxing,Wujinchun)were determined. The set of data was employed to construct a sample class prediction model based on z-score standardization followed by principal component analysis(PCA)and Decision Tree analysis(DT),which was employed to explore the structure of the data and construct classification and prediction model. The First principal component explained 40.3% of variance while the top ten components explained 96.3% of variance which was employed to construct the DT model. The validated DT model based on 5-fold cross-validation enabled correct classification of 97.6% of samples,and other 15 spirit samples could be predict correctly. The Wuliangye,Lang Liquor,Quanxing,Wujinchun could be classified intensively.
spirit;element;ICP-AES;PCA;decision tree
2016-07-05
鄭劼(1992-),男,碩士,研究方向:分析化學,E-mail:zhengj159@icloud.com。
*通訊作者:吳文林(1986-),男,碩士,工程師,研究方向:食品化學,E-mail:wuwenlin@163.com。
科技部國家重大科學儀器設備開發專項(2012YQ09016705)。
TS207.3
A
1002-0306(2016)24-0000-00
10.13386/j.issn1002-0306.2016.24.000