








摘要:基于煙葉化學數據建立烤煙香型分類模型,然后對各模型進行篩選比較選出最優模型。首先對142個烤煙煙葉樣品中的9類成分的63個指標采用行業標準進行檢測,然后采用逐步回歸法篩選出19個煙葉化學成分,依據這19個指標采用線性判別分析法、Logistic回歸、高斯混合模型、分類樹、K最鄰近法、人工神經網絡和支持向量機七種方法進行建模。通過對不同方法建立的模型采用100次隨機抽取訓練集樣本和測試樣本計算錯誤分類率,選擇錯誤分類率較低的模型作為優選模型。經比較發現,線性判別法和高斯混合模型建立的兩種香型函數能較好地對未知樣品的香型進行正確分類,且效果較好。篩選出的兩種優選模型對于烤煙香型分類研究具有一定的應用價值。
關鍵詞:煙葉化學成分;烤煙香型;模型分類法
中圖分類號:TS44+1 文獻標識碼:A 文章編號:0439-8114(2015)05-1220-07
DOI:10.14088/j.cnki.issn0439-8114.2015.05.049
Abstract: Based on the chemical components of tobacco leaves, the classification models of tobacco flavor were established. All models were compared to select the optimal model. 63 components of 9 kinds of 142 tobacco leaves were detected by tobacco industry standards. 19 chemical components were selected by stepwise regression method. Seven methods including discriminate analysis, Logistic regression, Gauss mixture model, classification tree, K nearest neighbor method, artificial neural network and support vector machine were used to establish the models based on the 19 index. 100 randomly selected samples were used as the training sets and test samples to calculate the error classification rate through the establishment of the different methods of models. The model was the preferred model with classification error rate lower than others. By comparision, two kinds of flavor function model (linear discriminate method and Gauss mixed) were better to unknown sample types. Two kinds of optimization models had a certain application value for classifying tobacco flavor.
Key words: chemical components of tobacco leaves; tobacco flavor; model classification methods
目前利用烤煙中化學成分、致香成分對三種烤煙香型進行模式識別已有相關文獻報道[1-4]。在國內的研究中,朱立軍等[2]對112份市售卷煙樣品中20種化學成分采用逐步判別方法進行判別分析取得了較好的分類結果,Zhan等[4]以63個中部和65個上部煙葉為材料,基于其中的67種致香物質對三種香型進行逐步判別分析也取得較好的分類結果并得到很好的應用。目前在利用化學計量學進行模式識別的過程中,已發展出了各種各樣的方法[5],采用其他類型的方法是否與經典的判別分析方法具有同樣的效果,或是效果要好于經典方法,此方面的研究還未見相關的報道。為此,采用目前較為成熟的經典判別分析方法(LDA)、Logistic回歸(LR)、高斯混合模型(Mix)、分類樹(Tree)、K最鄰近法(KNN)、人工神經網絡(CANN)和支持向量機(SVM)七種化學計量學方法,隨機抽取不同的訓練集和測試集進行分析,擬篩選出分類效果較優且精度較為穩健的模型,以期為烤煙香型分類優化模型的選擇提供理論依據。
1 材料與方法
1.1 材料
2011年收集142份烤煙樣品,分別來自中國14個省份,16個品種。其中清香型(簡稱“清”)50個,中間香型簡稱“中”40個,濃香型(簡稱“濃”)52個。本次收集的樣品均由全國評煙委員會委員組成的評吸專家組對烤煙香型(清香型、濃香型和中間香型)進行鑒定。
1.2 方法
1.2.1 分析檢測 在煙葉化學成分中主要對9類成分中的63個指標采用行業標準進行檢測。63個指標具體是總糖、還原糖、氯、鉀、氮、總植物堿、石油醚提取物、粗纖維素、揮發酸、揮發堿、葡萄糖、果糖、蔗糖、綠原酸、莨菪亭、蕓香苷、鐵、錳、銅、鋅、鈉、硼、鈣、鎂、硝酸根、硫酸根、磷酸根、草酸、丙二酸、蘋果酸、棕櫚酸、硬脂酸、檸檬酸、亞油酸、亞麻酸、煙堿、降煙堿、麥斯明、假木賊堿、新煙草堿、2,3-聯吡啶、葉黃素、胡蘿卜素、天冬酰胺酸、組氨酸、絲氨酸、谷氨酰胺酸、精氨酸、甘氨酸、高絲氨酸、天冬氨酸、谷氨酸、蘇氨酸、丙氨酸、γ-氨基丁酸、脯氨酸、賴氨酸、酪氨酸、纈氨酸、異亮氨酸、亮氨酸、苯丙氨酸、色氨酸。
1.2.2 統計分析方法 主要的統計分析程序采用R-2.15.3進行。
1)自變量篩選方法。變量篩選方法采用逐步方法,該方法與逐步回歸方法較為一致[6,7]。主要通過計算每一逐步過程中所得的F值與指定值進行判斷變量移除或進入,并獲得每個變量的Wilks’lambda統計量。
2)建模及評估方法。主要采用了判別分析法[8,9]、Logistic回歸[10]、高斯混合模型[11]、分類樹[12]、K最鄰近法[13-15]、人工神經網絡[16]和支持向量機[17,18]七種方法進行建模。通過對不同方法建立的模型采用100次隨機抽取訓練樣本和測試樣本計算錯誤分類率[19],選擇錯誤分類率較低的方法所建模型作為優選模型。
3)隱含層計算。在采用人工神經網絡進行建模的過程中,涉及到兩個參數的優化,一個是隱含層單元數的確定,另一個是權衰減系數的確定。對于權衰減系數的確定主要參看下面“參數優化選擇”中的內容進行優化選擇,而隱含層單元數的確定主要采用以下公式進行計算:
其中,s為隱含層節點數,m為輸入層節點數,n為輸出層節點數。通過式(1)可對各化學成分、致香成分和近紅外光譜信息的隱含層數進行選擇。
4)參數優化選擇。在分類樹、K最鄰近法、人工神經網絡和支持向量機這四種方法進行建模的過程需要對分類樹中樹的復雜度、K最鄰近法中最鄰近點、人工神經網絡權衰減系數及支持向量機中的懲罰因子進行優化選擇[19]。一般情況下,優化參數的選擇估計主要通過CV(交叉驗證)方法進行[20],本研究主要采用十折交叉驗證方法(10-fold CV)結合“單個標準誤”準則對模型參數進行優化選擇。
2 結果與分析
分別采用逐步回歸法篩選后的各化學成分對三種烤煙香型進行建模,各模型建立后分別采用100次隨機抽取訓練樣本和測試樣本計算錯誤分類率,選擇錯誤分類率較低、分類準確率高的方法所建模型作為優選模型。
2.1 基于各化學成分對三種烤煙香型定性建模比較擇優
對逐步回歸篩選出的還原糖、鉀、氮、石油醚提取物、揮發酸、葡萄糖、果糖、蔗糖、蕓香苷、鐵、錳、銅、檸檬酸、煙堿、假木賊堿、2,3-聯吡啶、胡蘿卜素、天冬酰胺、甘氨酸這19個指標與三種香型采用不同的方法進行定性建模,其結果如下。
從圖1可知,采用線性判別分析法對三種烤煙香型數據進行定性建模,其中100次隨機抽取訓練樣本和測試樣本計算的三種香型的錯誤分類率水平較為一致,基本保持在10%以下,中間香型的錯誤分類率分布范圍較濃香型、清香型廣,三種香型綜合起來的錯誤分類率分布范圍較小。
從圖2可知,采用Logistic回歸法對三種烤煙香型數據進行定性建模,其中100次隨機抽取訓練樣本和測試樣本計算的三種香型與合計的錯誤分類率水平濃香型、清香型較為一致,基本保持在10%左右,中間香型錯誤分類率水平較高,為15%~20%,中間香型的錯誤分類率分布范圍較濃香型、清香型和總計廣,總計的錯誤分類率分布范圍較小。
從圖3可知,采用高斯混合模型對三種烤煙香型數據進行定性建模,其中100次隨機抽取訓練樣本和測試樣本計算的三種香型的錯誤分類率水平較為一致,基本保持在10%左右,三種香型綜合起來的錯誤分類率分布范圍較小。
從圖4、圖5和圖6可知,采用K最鄰近法(KNN法)對三種烤煙香型數據進行定性建模,在最鄰近點數目優化選擇中采用隨機抽樣的測試誤差與CV誤差法篩選的K值為1;采用100次隨機抽取訓練樣本和測試樣本對不同最鄰近點數目構建的模型計算總體錯誤分類率進行優選后的K值可為1、3、4、5、6、7、8和9之間的數值,最終指定優化K值為1。最終利用優化參數所建模型經過100次隨機抽取訓練樣本和測試樣本計算的三種香型與合計的錯誤分類率水平和清香型較為一致,基本保持在20%左右,中間香型錯誤分類率水平較高,為25%~30%,濃香型錯誤分類率水平較低,在15%左右,中間香型、清香型的錯誤分類率分布范圍較廣,三種香型綜合起來的錯誤分類率分布范圍較小。
從圖7、圖8和圖9可知,采用分類樹法對三種烤煙香型數據進行定性建模,在樹復雜度優化選擇中采用隨機抽樣的測試誤差與CV誤差法篩選的樹復雜度為0.01;采用100次隨機抽取訓練樣本和測試樣本對不同樹復雜度構建的模型計算總體錯誤分類率篩選的樹復雜度沒有找到明顯較低趨勢的值,最終指定優化樹復雜度為0.01。最終利用優化參數所建模型經過100次隨機抽取訓練樣本和測試樣本計算的三種香型與合計的錯誤分類率水平在濃香型、清香型上較為一致,保持在60%~70%,中間香型錯誤分類率水平較高,在80%左右,三種香型綜合起來的錯誤分類率分布范圍較小。
從圖10、圖11和圖12可知,采用神經網絡法對三種烤煙香型數據進行定性建模,主要采用三層神經網絡結構,在隱含層節點數選擇中采用公式進行計算為9,在權衰減系數優化選擇中隨機抽樣的測試誤差與CV誤差法篩選的權衰減系數為0.15;采用100次隨機抽取訓練樣本和測試樣本對不同權衰減系數構建的模型計算總體錯誤分類率,篩選的權衰減系數沒有找到明顯較低趨勢的值,最終指定優化權衰減系數為0.15。最終利用優化參數所建模型經過100次隨機抽取訓練樣本和測試樣本計算的三種香型的錯誤分類率水平在濃香型、清香型上較為一致,保持在60%左右,中間香型錯誤分類率水平較高,為70%~80%,中間香型的錯誤分類率分布范圍較廣,三種香型綜合起來的錯誤分類率分布范圍較小。
從圖13、圖14和圖15可知,采用支持向量法對三種烤煙香型數據進行定性建模,核函數采用徑向基函數,在懲罰因子優化選擇中采用隨機抽樣的測試誤差與CV誤差法篩選的懲罰因子為0.05;采用100次隨機抽取訓練樣本和測試樣本對不同懲罰因子構建的模型計算總體錯誤分類率,篩選的懲罰因子為0.05,最終指定優化懲罰因子為0.05。最終利用優化參數所建模型經過100次隨機抽取訓練樣本和測試樣本計算的三種香型的錯誤分類率水平在濃香型和總計上較為一致,保持在15%~20%,中間香型錯誤分類率水平較高,為25%~30%,清香型錯誤分類率水平較低,在10%左右,三種香型綜合起來的錯誤分類率分布范圍較小。
對以上幾種模型100次隨機抽取訓練樣本和測試樣本的總體錯誤分類率進行比較(圖16),發現線性判別法和高斯混合模型具有較低的錯誤分類率,可作為19種化學成分對三種烤煙香型分類的最優模型。
2.2 基于19個化學成分對三種烤煙香型的分類模型信息匯總
基于煙葉中19個化學成分采用了線性判別分析法、Logistic回歸、高斯混合模型、分類樹、K最鄰近法、人工神經網絡和支持向量機七種方法建立了烤煙香型分類模型,然后對所建模型的分類效果進行了比較,選擇分類效果最佳的模型為優選模型,主要是依據100次隨機抽取訓練樣本和測試樣本集的錯誤分類率,錯誤分類率最低、分類效果最好的模型為優選模型。具體結果見表1,從表1中可以看出,線性判別分析法和高斯混合模型對烤煙香型判斷準確率均達到90%及以上,因此確定這兩種模型可作為優選模型。
3 小結
基于煙葉中19個化學成分分別采用線性判別分析法、Logistic回歸、高斯混合模型、分類樹、K最鄰近法、人工神經網絡和支持向量機七種方法建立了烤煙香型的分類模型,并分別比較了七種模型對100次隨機抽取訓練樣本和測試樣本的錯誤分類率,最終選擇錯誤分類率較低、分類效果較好的模型作為優選模型。通過比較對烤煙香型分類的結果,發現采用線性判別分析法和高斯混合模型建立的兩種香型函數能較好地對未知樣品的香型進行正確分類,且效果較好(各項正確率均達到90%及以上),因此可將這兩種模型確定為烤煙香型分類的優選模型。通過本研究確定的兩種優選分類模型對于烤煙香型分類研究具有一定的應用價值。
參考文獻:
[1] 畢淑峰, 朱顯靈, 馬成澤. 逐步判別分析在中國烤煙香型鑒定中的應用[J]. 熱帶作物學報,2006,27(4):104-107.
[2] 朱立軍,王 鵬,施豐成,等. 基于化學成分的卷煙類型逐步判別分析[J]. 西南大學學報(自然科學版),2012,34(3):9-13.
[3] GAO Q, YU L, CHEN L, LIU B Z, et al. Data discriminant analysis of aroma characteristics of tobacco based on DHS-GC/MS volatile data[J]. Computers and Applied Chemistry, 2012, 29(3):309-312.
[4] ZHAN J, ZHOU F F, BAO C Y, et al. Judgment of aroma types of the up-middle flue-cured tobacco leaves based on proportions of aroma components[J]. Agricultural Science Technology,2013,14(4):612-619.
[5] 褚小立. 化學計量學方法與分子光譜分析技術[M]. 北京: 化學工業出版社, 2011.
[6] HABBEMA J D F, HERMANS J. Selection of variables in discriminant analysis by F-statistic and error rate[J]. Technometrics,1977,19(4):487-493.
[7] MCKAY R J, CAMPBELL N A. Variable selection techniques in discriminant analysis: Ⅱ. Allocation[J]. British Journal of Mathematical and Statistical Psychology, 1982, 35(1): 30-41.
[8] HUBERTY C J. Applied Discriminant Analysis[M]. New York: Wiley,1994.
[9] JOHNSON R A, WICHERN D W. Applied Multivariate Statistical Analysis[M]. New Jersey:Prentice Hall, 2002.
[10] KLEINBAUM D G, KLEIN M. Logistic Regression[M]. New York: Springer, 2002.
[11] HASTIE T, TIBSHIRANI R. Discriminant analysis by gaussian mixtures[J]. JRSS-B, 1996, 58(1):155-176.
[12] BREIMAN L, FRIEDMAN J H, OLSHEN R H, et al. Classification and regression trees[M]. California:Wadsworth Belmont,1984.
[13] DAVIES A N. Mass spectrometry[A]. GAUGLITZ G,VO-DINH T. Handbook of Spectroscopy Vol.2[C]. Weinheim: Wiley-VCH,2003.488-504.
[14] ROBIEN W. Nuclear magnetic resonance spectroscopy[A]. Gauglitz G,Vo-Dinh T. Handbook of Spectroscopy Vol.2 [C]. Weinheim:Wiley-VCH,2003,469-487.
[15] THIELE S, SALZER R. Optical spetcroscopy[A]. Gauglitz G, Vo-Dinh T.Handbook of Spectroscopy Vol.2[C]. Weinheim:Wiley-VCH, 2003.441-468.
[16] RIPLEY B D. Pattern Recognition and Neural Networks[M]. London:Cambridge University Press,1996.
[17] CHRISTIANINI N, SHAWE-TAYLOR J. An Introduction to Support Vector Nachines and Other Kernel-based Learning Methods[M]. London:Cambridge University Press,2000.
[18] VAPNIK V. The Nature of Statistical Learning Theory[M]. New York: Springer,1995.
[19] VARMUZA K, FILZMOSER P. Introduction to Multivariate Statistical Analysis in Chemometrics[M].Boca Raton: CRC Press, 2009.
[20] ANTHONY M, HOLDEN S B. Cross-validation for binary classification by real-valued functions:theoretical analysis[A]. Bartlett P, MANSOUR Y. COLT'98 Proceedings of the eleventh annual conference on computational learning theory[C]. New York:ACM,1998.218-229.