胡建軍,李廣才,李耀光,馮曉民,周冀衡,柳 昕
1.中國煙草總公司職工進修學院,鄭州市金水區鑫苑路7號 450008
2.河南中煙工業有限責任公司技術中心,鄭州市管城區隴海東路72號 450000
3.湖南農業大學煙草與健康重點實驗室,長沙市芙蓉區農大路1號 410128
4.北京市煙草質量監督檢驗站,北京市朝陽區櫻花西街10號 100029
煙葉化學成分與感官品質的關系較為復雜,一直備受廣大研究者的關注[1-11]。事實上,二者之間存在著較為復雜的線性或非線性關系,其中線性關系得到了較為廣泛的分析[2-9],而非線性關系的研究則較少[10-11]。統計上,兩個變量之間的關系是一次函數關系的,其圖像是直線,兩個變量之間的這種關系就是“線性關系”;如果不是一次函數關系的,其圖像不是直線,就是“非線性關系”。廣義可加模型(Generalized Additive Model,GAM)作為一種能夠較好地擬合變量間非線性關系的統計分析方法[12-13],為揭示煙葉化學成分與感官評吸質量間存在何種形式的非線性關系提供了新的途徑。目前,廣義可加模型在生態學、醫學、環境科學等領域得到了廣泛的應用[14-16],但在煙草科學研究領域尚未得到廣泛而靈活的應用[10-11]。因此,構建了基于廣義可加模型的非線性關系識別方法,并分析了國內烤煙4 種常規化學成分(總氮、煙堿、總糖和還原糖)含量與感官評價指標間的非線性關系。
2005—2007年采集云南、貴州、河南、湖南、福建、四川、山東、安徽等國內主產煙區烤煙中部煙葉(8~12葉位)497 個樣本。
1.2.1 煙葉常規化學成分分析與感官質量評價
采用連續流動法[17]測定了各煙葉樣本的總氮、煙堿、總糖和還原糖含量,并由省級以上卷煙感官評吸專家(5~8 名)按9 分標度制[6],對各卷制樣品的香氣質、香氣量、雜氣、刺激性和余味等感官評價指標進行定量評分,取其平均值作為各感官評價指標得分。
1.2.2 基于廣義可加模型的非線性關系識別
設Y 為因變量,X1,X2,…,Xp為自變量,經典的線性回歸模型一般可表示為:

式中:回歸系數β0,β1,…,βp的參數估計一般通過最小二乘法獲得。
可加模型是線性模型的擴展,其一般形式為:

式中:si(Xi)為光滑函數(i=1,2,…,p),滿足E[sj(Xj)]=0。si(Xi)并不給定參數形式,而是以非參數形式來估計。它的非參數形式使得模型非常靈活,可以是光滑樣條函數、核函數或局部回歸光滑函數,以揭示自變量的非線性效應。
廣義可加模型與廣義線性模型類似,包括1 個隨機成分(random component),1 個可加成 分(additive component)以及兩者的連接函數(link function)。隨機成分,即因變量Y,服從指數分布族,可以是正態分布、二項分布、負二項分布、Poisson 分布、Gamma 分布等,即:

式中:θi為該指數類分布的似然參數,不同yi對應不同的θi;φ 為尺度參數,它對所有yi都取相同值;b(·)和c(·)為 函數,它們決定了分布的特殊形式。
可加成分為:

連接函數g(·)將隨機成分與可加成分聯結成g(μ)=η。例如,對于服從正態分布的模型,其連接函數為恒等變換函數η=g(μ)=μ;對于二分類數據的非參數logit 模型,其連接函數則為logit 變換函數
廣義可加模型的估計,是在最小二乘法的基礎上增加了1 項懲罰項來保證節點處的光滑性,稱為懲罰最小二乘法(penalized sum of squares)。實際計算中采用局部積分(local scoring)算法,即由迭代再復加權最小二乘法(Iterative Reweighted Least Squares,IRLS)與反向擬合(back-fitting)過程合并而成[12-13]。
廣義可加模型中每一項不必都是非線性的,可以納入線性等參數項,這種模型稱為半參數廣義可加模型(semi-parametric generalized additive models)。為揭示自變量Xi與因變量Y 之間的線性與非線性關系,同時構建了1 個半參數廣義可加模型[18](模型1)和1個線性模型(模型2)。
第1 個模型對于變量Xi包括線性和非線性兩部分,可表示為:

第2 個模型對于變量Xi是線性的,可表示為:

假設K1,K2分別表示模型1 和2 的對數似然函數值,則在原假設為兩變量間不存在非線性關系的前提下,統計量D=K1-K2服從自由度為df 的卡方分布(Chi-square distribution)。其中,n 為樣本量,tr()為“平滑系數”矩陣的逆矩陣的跡,“平滑系數”矩陣的定義與計算見文獻[12]。假設α=0.05,進行統計假設檢驗。若P 值大于0.05,則說明兩變量間不存在非線性關系;否則,兩變量間存在非線性關系。
運用Trevor Hastie 開發的基于R 軟件的GAM 軟件包完成統計分析[19-23]。
對烤煙研究樣本的常規化學成分與感官評價指標進行了描述統計,結果見表1。由表1 可以看出,樣品煙葉4 種常規化學成分與感官評價指標在不同樣品間存在較為廣泛的變異,煙堿、總氮、總糖和還原糖等常規化學成分的變異明顯大于香氣質、香氣量、雜氣、刺激性和余味等感官評價指標的變異;常規化學成分以煙堿的變異最大、總糖的變異最小,感官評價指標中以香氣質得分的變異最大、余味得分的變異最小。對于全部497 個樣本,煙堿的偏度系數大于0,為正向偏態分布;總氮、總糖、還原糖、香氣質、香氣量、雜氣、刺激性和余味的偏度系數都小于0,為負向偏態分布;煙堿、總氮、總糖、還原糖、香氣質、香氣量、雜氣、刺激性和余味的峰度系數大于0,為尖峭峰,數據大多集中在平均值附近。

表1 樣品烤煙常規化學成分與感官評價指標的描述統計
烤煙煙葉總氮含量與感官評價指標的廣義可加模型分析結果(表2)表明,在樣品煙葉化學成分的分布范圍內和5%顯著水平下,總氮與香氣質、香氣量、雜氣、刺激性和余味呈顯著線性負相關,與香氣質、雜氣、刺激性和余味呈顯著非線性相關。統計檢驗結果(表3)也表明,只有總氮與香氣量的非線性關系不顯著(P 值大于0.05)。圖1 表明,總氮與香氣質、雜氣、刺激性和余味間存在明顯的“∩”型曲線關系。烤煙煙葉總氮含量為2.5%左右時評吸質量最佳,低于1.5%或高于2.8%時評吸質量明顯下降,適宜區間為1.5%~2.8%。

表2 總氮含量與感官評價指標的廣義可加模型分析結果

表3 總氮含量與感官評價指標的非線性關系統計檢驗結果

圖1 煙葉總氮含量與感官評價指標的相互關系
烤煙煙葉煙堿含量與感官評價指標的廣義可加模型分析結果(表4)表明,在樣品煙葉化學成分的分布范圍內和5%顯著水平下,煙堿與香氣量呈顯著線性正相關,與余味呈顯著線性負相關,與香氣質、香氣量、雜氣、刺激性和余味均呈現顯著非線性相關。統計檢驗結果(表5)也表明,煙堿與香氣質、香氣量、雜氣、刺激性和余味均存在顯著的非線性關系。圖2 表明,煙堿與香氣質、香氣量、雜氣、刺激性和余味之間存在明顯的“∩”型曲線關系。烤煙煙葉煙堿含量為2.5%左右時評吸質量最佳,低于2.0%或超過3.5%時評吸質量明顯下降,適宜區間為2.0%~3.5%。

表4 煙堿含量與感官評價指標的廣義可加模型分析結果

表5 煙堿含量與感官評價指標的非線性關系統計檢驗結果

圖2 煙堿含量與感官評價指標的相互關系
烤煙煙葉總糖含量與感官評價指標的廣義可加模型分析結果(表6)表明,在樣品煙葉化學成分的分布范圍內和5%顯著水平下,總糖與香氣質、香氣量、雜氣、刺激性和余味呈顯著線性正相關,與香氣質、香氣量、雜氣、刺激性和余味呈顯著非線性相關。統計檢驗結果(表7)也表明,總糖與香氣質、香氣量、雜氣、刺激性和余味均存在顯著的非線性關系。圖3 表明,總糖與香氣質、香氣量、雜氣、刺激性和余味間存在明顯的“∩”型曲線關系。烤煙煙葉總糖含量為22%左右時評吸質量最佳,低于15%或超過28%時評吸質量明顯下降,適宜區間為15%~28%。

表6 總糖含量與感官評價指標的廣義可加模型分析結果

表7 總糖含量與感官評價指標的非線性關系統計檢驗結果

圖3 總糖含量與感官評價指標的相互關系
烤煙煙葉還原糖含量與感官評價指標的廣義可加模型分析結果(表8)表明,在樣品煙葉化學成分的分布范圍內和5%顯著水平下,還原糖與香氣質、香氣量、雜氣、刺激性和余味呈顯著線性正相關,與香氣質、香氣量、雜氣、刺激性和余味呈顯著非線性相關。統計檢驗結果(表9)也證實,還原糖與香氣質、香氣量、雜氣、刺激性和余味均存在顯著的非線性關系。圖4 表明,還原糖與香氣質、香氣量、雜氣、刺激性和余味間存在明顯的“∩”型曲線關系。烤煙煙葉還原糖含量為18%左右時評吸質量最佳,低于15%或超過25%時評吸質量明顯下降,適宜區間為15%~25%。

表8 還原糖含量與感官評價指標的廣義可加模型分析結果①

表9 還原糖含量與感官評價指標的非線性關系統計檢驗結果

圖4 還原糖含量與感官評價指標的相互關系
在樣品煙葉化學成分的分布范圍內和5%顯著水平下,總氮與香氣質、香氣量、雜氣、刺激性和余味呈顯著線性負相關,煙堿與香氣量、余味分別呈顯著線性正相關和負相關,總糖、還原糖與香氣質、香氣量、雜氣、刺激性和余味均呈顯著線性正相關。這與文獻[6-8]研究結論基本一致,但總氮與香氣的關系存在差異。
總氮與香氣質、雜氣、刺激性和余味之間,煙堿、總糖、還原糖與香氣質、香氣量、雜氣、刺激性和余味之間都存在顯著的非線性關系,且上述非線性關系均表現為明顯的“∩”型曲線關系,而總氮與香氣量的非線性關系在5%顯著水平下是不顯著的。因此,當非線性關系顯著時,應慎重對待線性相關分析的結論。例如,在一些文獻中,經常出現總氮與香氣質、香氣量的線性相關系數正負不一致的結論,主要是因為兩者間的真實關系是“∩”型曲線關系,其線性相關系數的正負主要取決于煙葉樣本總氮含量的分布范圍。
烤煙煙葉總氮、煙堿、總糖和還原糖含量的適宜區間分別為1.5%~2.8%,2.0%~3.5%,15%~28%和15%~25%。這與中國煙草種植區劃課題組確定的適宜區間(總氮含量2.0%~2.5%、煙堿含量2.2%~2.8%和還原糖含量18%~22%)基本一致[24]。需要指出的是,在實際應用中,若能綜合考慮煙葉產區、品種、部位的影響,劃分的化學成分適宜區間的實際意義將得到明顯提升。
[1]謝劍平.煙草香料技術原理與應用[M].北京:化學工業出版社,2009:129-153.
[2]杜詠梅,張懷寶,付秋娟,等.烤煙非揮發有機酸、高級脂肪酸與其他成分及其感官品質的關系[J].煙草科技,2011(6):29-34.
[3]高遠,張艷玲,張仕祥,等.不同香型烤煙類胡蘿卜素及其降解產物含量與感官質量的關系[J].煙草科技,2014(2):38-43.
[4]薛超群,王建偉,奚家勤,等.烤煙煙葉理化指標與焦甜感程度的關系[J].煙草科技,2011(12):9-13.
[5]王麗麗,湯朝起,王以慧,等.賀州曬黃煙主要生物堿含量與其評吸質量的相關性研究[J].中國煙草學報,2013,19(3):23-27.
[6]鄧小華,周冀衡,陳冬林,等.湖南烤煙還原糖含量區域特征及其對評吸質量的影響[J].煙草科技,2008(12):13-19.
[7]胡建軍,馬明,李耀光,等.煙葉主要化學指標與其評吸質量的灰色關聯分析[J].煙草科技,2001(1):3-7.
[8]閆克玉,王建民,屈劍波,等.河南烤煙評吸質量與主要理化指標的相關分析[J].煙草科技,2001(10):5-9.
[9]胡建軍,周冀衡,李文偉,等.烤煙香味成分與其評吸質量的典型相關分析[J].煙草科技,2007(3):9-15,20.
[10]胡建軍,李廣才,周冀衡,等.湖南烤煙生物堿含量與其評吸質量的相互關系研究[J].中國煙草學報,2011,17(4):31-42.
[11]李廣才,余玉梅,胡建軍,等.湖南烤煙主要化學成分與評吸質量的非線性關系解析[J].中國煙草學報,2012,18(4):17-26.
[12]Hastie T J,Tibshirani R J.Generalized additive models [M].London:Chapman and Hall,1990:89-90.
[13]Wood S N.Generalized Additive Models:An Introduction with R[M].New York:Chapman and Hall/CRC,2006.
[14]Lehmann A.GIS modeling of submerged macrophyte distribution using generalized additive models[J].Plant Ecology,1998,139(1):113-124.
[15]Johansen D,Gr?nb?k M,Overvad K,et al.Generalized additive models applied to analysis of the relation between amount and type of alcohol and all-cause mortality[J].European Journal of Epidemiology,2005,20(1):29-36.
[16]Politou C Y,Tserpes G,Dokos J.Identification of deep-water pink shrimp abundance distribution patterns and nursery grounds in the eastern Mediterranean by means of generalized additive modelling [J].Hydrobiologia,2008,612(1):99-107.
[17]黃嘉礽.煙草工業手冊[M].北京:中國輕工業出版社,1999:625-870.
[18]Radomski D,Lewandowski Z,Roszkowski P I.An application of a generalized additive model for an identification of a nonlinear relation between a course of menstrual cycles and a risk of endometrioid cysts[J].Information Technologies in Biomedicine:Advances in Soft Computing,2008,47(1):482-487.
[19]Venables W N,Ripley B D.Modern applied statistics with S-PLUS[M].4th Edition.New York :Springer Verlag,2002.
[20]Brian S E.A handbook of statistical analyses using S-PLUS[M].2nd Edition.New York:CRC,2001.
[21]Wood S N.Fast stable direct fitting and smoothness selection for generalized additive models[J].Journal of the Royal Statistical Society Series B,2008,70(3):495-518.
[22]Michael J C.The R book[M].Chichester:John Wiley&Sons Ltd,2007.
[23]The R development core team.R:A language and environment for statistical computing[CP/OL].[2014-06-24].Vienna:R Foundation for Statistical Computing.http://www.R-project.org.
[24]王彥亭,謝劍平,李志宏.中國煙草種植區劃[M].北京:科學出版社,2010.