999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于原煙外觀圖像和近紅外光譜的煙葉感官質(zhì)量模型研究

2023-04-20 01:22:46陳思昂王敏杜薇高旭李海濤鄧羽翔王俊稀郭彥旭
甘肅農(nóng)業(yè)科技 2023年3期

陳思昂 王敏 杜薇 高旭 李海濤 鄧羽翔 王俊稀 郭彥旭

摘要:為了探討不同產(chǎn)地、不同等級以及不同品種來料煙外觀指標(biāo)、物理特性及近紅外光譜對其感官質(zhì)量的影響,找到一種可以客觀反映煙葉感官質(zhì)量的方法。選取了四川3個(gè)產(chǎn)地、3個(gè)部位、10個(gè)等級和2個(gè)品種的單料煙,以組為單位進(jìn)行采集,每組10片,共采集煙葉7897片。使用變量標(biāo)準(zhǔn)化(SNV)方法對原始光譜數(shù)據(jù)進(jìn)行校正,用Standard Scaler方法對煙葉外觀指標(biāo)、物理特性、校正后的光譜數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。采用主成分分析(PCA)法對數(shù)據(jù)進(jìn)行降維。分別運(yùn)用二次判別分析算法(QDA)、K近鄰算法(KNN)、支持向量機(jī)(SVC)構(gòu)建訓(xùn)練模型,用Grid Search CV算法進(jìn)行超參優(yōu)化,以平衡準(zhǔn)確率作為模型評價(jià)指標(biāo)。結(jié)果表明,3個(gè)訓(xùn)練模型中,SVC的泛化能力最優(yōu)。其中,香氣風(fēng)格彰顯程度、香氣質(zhì)、香氣量、雜氣、濃度、勁頭、刺激性、余味及甜感的預(yù)測平衡準(zhǔn)確率分別為0.747、0.751、0.715、0.720、0.712、0.774、0.685、0.725、0.700。外觀指標(biāo)、物理特性及近紅外光譜共同影響著煙葉的感官質(zhì)量。

關(guān)鍵詞:煙葉綜合評價(jià);外觀指標(biāo);近紅外光譜;感官質(zhì)量

中圖分類號:S-3? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? ? ? ? ? 文章編號:2097-2172(2023)03-0260-10

doi:10.3969/j.issn.2097-2172.2023.03.013

Abstract: To investigate the influence of the appearance index, physical properties and near-infrared spectroscopy of cigarettes from different origins, different grades and different varieties on the sensory qualityand to find a way that could objectively reflect the sensory quality of tobacco leaf, in this study, single tobaccos including 3 parts, 10 grades and 2 varieties were selected from 3 origins of Sichuan Province, and 10 pieces of tobacco leaves in each group were adopted for the collection, i.e. a total of 7897 tobacco leaves were collected. The original spectral data was corrected by standard normalized variate (SNV), and the appearance index, physical properties and standarded spectral data of tobacco leaf were standardized with the Standard Scaler method subsequently. Principal Component Analysis(PCA) was used to reduce the dimensionality of the data. The quadratic Discriminant Analysis Algorithm(QDA), K-Nearest Neighbors (KNN), and Support Vector Machine (SVC) were performed to construct the training model, and the Grid Search CV algorithm was executed for hyperparameter optimization, and the balance accuracy was used as the model evaluation. The results showed that mong the three training models, SVC had the best generalization ability. The prediction balance accuracy of aroma style highlighting, aromatric, aroma volume,miscellaneous gas, concentration, strength, irritation, aftertaste and sweetness were 0.747, 0.751, 0.715, 0.720, 0.712, 0.774, 0.685, 0.725, 0.700, respectively. The appearance index, physical properties and near-infrared spectra jointly affect the sensory quality of tobacco leaf.

Key words: Comprehensive evaluation of tobacco leaf; Appearance index; Near-infrared spectroscopy; Sensory quality

煙草是我國重要的經(jīng)濟(jì)作物,而煙葉是卷煙工業(yè)最重要的原料基礎(chǔ)。煙葉的質(zhì)量直接影響著煙葉的可用性,影響著煙草經(jīng)濟(jì)的發(fā)展。煙葉質(zhì)量是一個(gè)綜合概念,包含了煙葉的外觀指標(biāo)、物理特性、化學(xué)成分以及感官質(zhì)量,它們從不同方面反映了煙葉的品質(zhì)特征。外觀特征中的煙葉顏色、物理特性中的長度、葉片結(jié)構(gòu)等是煙葉分級的重要依據(jù)。化學(xué)成分和感官質(zhì)量反映了煙葉的內(nèi)在質(zhì)量,化學(xué)成分的含量可通過近紅外光譜數(shù)據(jù)建模測量。外觀特征、物理特性在某種程度上和煙葉的內(nèi)在質(zhì)量存在著必然的聯(lián)系[1 - 2 ],而感官質(zhì)量是目前鑒定煙葉內(nèi)在質(zhì)量的重要手段,是煙葉產(chǎn)品質(zhì)量的基礎(chǔ)和核心[3 ]。目前,煙葉的感官質(zhì)量主要依靠專家的評吸,較大程度上受專家的知識經(jīng)驗(yàn)水平、心理、情緒等的影響,指標(biāo)較主觀、片面。因此亟須尋找一種可以客觀反映煙葉感官質(zhì)量的方法。

近年來的研究表明,通過一些指標(biāo)可以一定程度上客觀反映煙葉的感官質(zhì)量。通過對煙葉的厚度、顏色和彈性與感官舒適性指標(biāo)中的甜潤、清晰、清爽度進(jìn)行相關(guān)性分析,發(fā)現(xiàn)這些外觀指標(biāo)可以反映煙葉的感官舒適性[4 ]。對煙葉化學(xué)成分與感官質(zhì)量進(jìn)行偏最小二乘回歸分析表明,煙葉的糖堿比、糖氮比、總植物堿、揮發(fā)堿、總氮、蛋白質(zhì)、水溶性總糖[5 ]、還原糖、K、Cl、揮發(fā)堿等分別與感官刺激性、雜氣、柔細(xì)度、余味、香氣質(zhì)、勁頭等感官質(zhì)量指標(biāo)有不同程度的相關(guān)性[6 ]。上述研究僅通過煙葉的某一類質(zhì)量,比如外觀質(zhì)量/內(nèi)在化學(xué)成分來評價(jià)煙葉的質(zhì)量,這種評價(jià)是片面的,因?yàn)闊熑~的質(zhì)量是各個(gè)指標(biāo)綜合表征的結(jié)果。同時(shí),相關(guān)研究主要集中在簡單的相關(guān)、偏回歸分析方法,這些分析方法只能反映變量內(nèi)各項(xiàng)指標(biāo)間的簡單相關(guān)性,難以客觀反映變量整體間的內(nèi)在聯(lián)系。有研究者對云南普洱煙區(qū)初烤煙葉的外觀質(zhì)量、常規(guī)化學(xué)成分進(jìn)行主成分分析或因子分析,之后對煙葉外觀質(zhì)量、常規(guī)化學(xué)成分與感官質(zhì)量指標(biāo)進(jìn)行典型相關(guān)分析,同樣表明外觀質(zhì)量、化學(xué)成分與感官質(zhì)量存在顯著的相關(guān)性[7 ],但這同樣不能反映煙葉的這些指標(biāo)對感官質(zhì)量的影響。除此之外,上述研究采用的是化學(xué)成分?jǐn)?shù)據(jù),是經(jīng)過模型計(jì)算出的數(shù)據(jù),存在一定的誤差,不同機(jī)器測量出的結(jié)果也會(huì)略有不同。為探討影響煙葉感官質(zhì)量各指標(biāo)的因素,我們從數(shù)據(jù)源頭出發(fā),采用最原始的近紅外光譜數(shù)據(jù),同時(shí)加上煙葉的外觀指標(biāo)、物理特性數(shù)據(jù),把這些數(shù)據(jù)綜合起來訓(xùn)練機(jī)器學(xué)習(xí)模型,從而建立一種全面、客觀表征煙葉的感官質(zhì)量的方法。

1? ?材料與方法

1.1? ?材料

1.1.1? ? 供試品種? ? 指示單料煙品種為云87、紅大,產(chǎn)自四川涼山州會(huì)東縣、會(huì)理縣、德昌縣。

1.1.2? ? 實(shí)驗(yàn)設(shè)備? ? 煙葉綜合測試臺(tái)(型號為GTM- 600),由上海創(chuàng)和億電子科技有限公司自主研發(fā),主要用于拍攝原煙圖像以及檢測原煙的物理特性指標(biāo)。手持式近紅外光譜儀(型號為AURA),由Carl Zeiss公司生產(chǎn),主要用于采集950~1 650 nm波長的近紅外光譜數(shù)據(jù)。

1.2? ?樣品采集

于2021年9月至2022年2月收集四川3個(gè)采樣點(diǎn)、2個(gè)單料煙品種的上中下3個(gè)部位、10個(gè)等級的煙葉,以組為單位進(jìn)行采集,每組數(shù)量為10片,共采集煙葉7 897片。以上單料煙由煙葉分級專家按照烤煙國家標(biāo)準(zhǔn)(GB 2635—1992)進(jìn)行等級分選,共包含10個(gè)等級,分別為上部橘黃二級煙(B2F)、下部橘黃二級煙(X2F)、上部橘黃三級煙(B3F)、中部橘黃一級煙(C1F)、中部橘黃三級煙(C3F)、上部橘黃一級煙(B1F)、中部橘黃二級煙(C2F)、中部橘黃四級煙(C4F)、中部檸檬黃三級煙(C3L)、中部微帶青三級煙(C3V)。采集煙葉時(shí)每10片煙葉作為一個(gè)整體,使用手持近紅外光譜儀采集光譜。每種單料煙采集的光譜數(shù)量為25~50,采集5~10組。

1.3? ?方法

1.3.1? ? 原煙外觀指標(biāo)檢測? ? RGB圖像是最常見的一種圖像表示方式,由R(紅色)、G(綠色)、B(藍(lán)色)3個(gè)通道組成。本研究通過對原煙圖像分別提取R、G、B通道的顏色值,并計(jì)算平均值和標(biāo)準(zhǔn)偏差,可以獲取圖像的R-均值、R-標(biāo)準(zhǔn)偏差、G-均值、G-標(biāo)準(zhǔn)偏差、B-均值、B-標(biāo)準(zhǔn)偏差等外觀指標(biāo)。HSV圖像是另外一種圖像表示方式,由H(色調(diào))、S(飽和度)、V(亮度)3個(gè)通道組成,本研究同時(shí)將圖像轉(zhuǎn)換到HSV顏色空間,分別提取H、S、V通道的顏色值,并計(jì)算各通道的平均值和標(biāo)準(zhǔn)偏差。

1.3.2? ? 原煙物理特性的檢測? ? 采用煙葉綜合測試臺(tái)稱取原煙重量,并獲取原煙的厚度。采用圖像預(yù)處理的方法從煙葉綜合測試臺(tái)拍攝的原煙圖像中提取長度、寬度、周長、面積、結(jié)構(gòu)等物理特性指標(biāo)。

1.3.3? ? 原煙近紅外光譜的檢測? ? 采用手持式近紅外光譜儀檢測范圍為950~1 650 nm的原煙近紅外光譜數(shù)據(jù)。

1.3.4? ? 原煙感官質(zhì)量評價(jià)? ? 煙葉感官質(zhì)量指標(biāo)包括香氣風(fēng)格彰顯程度、香氣質(zhì)、香氣量、雜氣、濃度、勁頭、刺激性、余味及甜感,按照GB5606.4 — 2005進(jìn)行評吸,利用香味輪廓法采用9分制判定。

1.4? ?數(shù)據(jù)挖掘

1.4.1? ? 數(shù)據(jù)劃分? ? 以組為單位進(jìn)行訓(xùn)練集和測試集的劃分。先采集的組數(shù)作為訓(xùn)練集,后采集的組數(shù)作為測試集。每個(gè)光譜號下的單料煙均會(huì)采集8~10組,用每個(gè)光譜號下單料煙的前8組來訓(xùn)練模型,剩下的組用來預(yù)測。

1.4.2? ? 數(shù)據(jù)探索? ? 采用matplotlib庫繪制外觀指標(biāo)、物理特性及近紅外光譜的頻數(shù)直方圖查看數(shù)據(jù)的整體分布情況。采用seaborn庫繪制相關(guān)系數(shù)矩陣查看外觀指標(biāo)、物理特性及近紅外光譜各指標(biāo)之間的相關(guān)性,探索數(shù)據(jù)之間是否存在多重共線性。

1.4.3? ? 管道模型訓(xùn)練及優(yōu)化? ? 考慮到測試集數(shù)據(jù)需要和訓(xùn)練集數(shù)據(jù)進(jìn)行相同的預(yù)處理,我們把樣本平衡、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)降維以及模型訓(xùn)練寫入一個(gè)管道模型。

由于感官質(zhì)量各指標(biāo)中各類別的樣本數(shù)存在明顯的樣本不平衡,因此樣本需要進(jìn)行平衡處理。本研究采用imbalanced-learn庫對樣本數(shù)少的類別進(jìn)行上采樣。

煙葉的外觀指標(biāo)、物理特性、近紅外光譜數(shù)據(jù)之間的量綱不同,可能會(huì)影響后續(xù)模型的精度,因此這些數(shù)據(jù)在建模前需要進(jìn)行標(biāo)準(zhǔn)化處理。我們采用Standard Scaler方法對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。原始近紅外光譜數(shù)據(jù)在采集時(shí)可能會(huì)受到散射帶來的光譜誤差,需要先進(jìn)行變量標(biāo)準(zhǔn)化(standard normalized variate,SNV)處理。

本研究的數(shù)據(jù)涵蓋了來自不同維度的特征,特征之間可能會(huì)存在著多重共線性,這會(huì)導(dǎo)致解的空間不穩(wěn)定,從而導(dǎo)致模型的泛化能力弱;同時(shí),高維空間樣本具有稀疏性,導(dǎo)致模型比較難找到數(shù)據(jù)特征。我們采用主成分分析方法(Principal Component Analysis,PCA)進(jìn)行數(shù)據(jù)降維。

QDA(Quadratic Discriminant Analysis Algorithm)為二次判別分析算法,是一種生成模型,它假設(shè)每個(gè)類別服從高斯分布,同線性判別分析一樣,求在輸入為 x 的情況下分類為 k 的概率最大的分類。KNN(K-Nearest Neighbors)為K近鄰算法,是一種分類算法,其思想是一個(gè)樣本與數(shù)據(jù)集中的k個(gè)樣本最相似,如果這k個(gè)樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。SVC(Support Vector Machine)是支持向量機(jī)中的一種分類算法,其原理是尋找一個(gè)能夠區(qū)分兩類的超平面,使得邊際最大。我們選取QDA、KNN、SVC 3種模型作為數(shù)據(jù)的訓(xùn)練模型,采用網(wǎng)格搜索+交叉驗(yàn)證(Grid Search CV)作為超參數(shù)優(yōu)化算法選取最優(yōu)的超參數(shù)及模型。

1.4.4? ? 模型測試和評估? ? 對測試集數(shù)據(jù)采用和訓(xùn)練集相同的處理方法,之后采用最優(yōu)模型對測試集數(shù)據(jù)進(jìn)行預(yù)測,并用平衡準(zhǔn)確率作為模型的評估指標(biāo)。

2? ?結(jié)果與分析

2.1? ?數(shù)據(jù)探索結(jié)果

2.1.1? ? 數(shù)據(jù)分布情況? ? 自變量的數(shù)據(jù)分布對后面的數(shù)據(jù)預(yù)處理以及建模有著非常重要的作用。本研究分別繪制了外觀指標(biāo)、物理特性及近紅外光譜數(shù)據(jù)的直方圖。從煙葉外觀指標(biāo)和物理特性的直方圖(圖1)可以看出,重量、寬度、周長、面積、結(jié)構(gòu)、R-均值、R-標(biāo)偏、G-均值、G-標(biāo)偏、B-均值、B-標(biāo)偏、H-均值、S-均值、S-標(biāo)偏、V-均值和V-標(biāo)偏數(shù)據(jù)近似服從正態(tài)分布;煙葉的厚度存在明顯的異常值,煙葉厚度為0.005~0.020的數(shù)據(jù)量極少;長度數(shù)據(jù)為左偏態(tài)分布;H-標(biāo)偏數(shù)據(jù)為右偏態(tài)分布。剔除煙葉厚度超過0.005的異常值后,再次探索煙葉厚度的數(shù)據(jù)分布情況,表明數(shù)據(jù)近似服從正態(tài)分布。

近紅外光譜數(shù)據(jù)維度比較高,因此每間隔50 nm繪制該波長的分布。從煙葉近紅外光譜數(shù)據(jù)的直方圖(圖2)可以看出,數(shù)據(jù)近似服從正態(tài)分布,沒有明顯的異常值。綜上可知,除了煙葉長度和H-標(biāo)偏數(shù)據(jù)服從偏態(tài)分布外,其他煙葉外觀指標(biāo)、物理特性及近紅外光譜數(shù)據(jù)均近似服從正態(tài)分布。

進(jìn)一步探討感官質(zhì)量指標(biāo)作為因變量的各類別數(shù)據(jù)情況,以查看各類別數(shù)據(jù)之間是否存在不平衡。如圖3所示,各個(gè)感官質(zhì)量指標(biāo)均出現(xiàn)中間類別數(shù)量多、兩邊類別數(shù)量少的情況。各個(gè)類別的數(shù)量極度不平衡,有些類別的數(shù)量所占總數(shù)比甚至小于5%,這種情況下建立的模型會(huì)比較偏重于數(shù)量占比多的類別,導(dǎo)致模型的泛化能力差,因此需要對占比小于5的類別進(jìn)行相鄰類別合并。本研究將香氣風(fēng)格彰顯程度中類別10合并到類別9中,香氣量中類別9合并到類別8中;將雜氣中類別10合并到類別9中,雜氣中類別4合并到類別5中;將濃度中類別9合并到類別8中;將勁頭中類別8合并到類別7中;將刺激性中類別10合并到類別9中;將余味中類別9與10歸并為類別8,余味中類別4歸并為類別5;將甜感中類別9歸并為類別8。經(jīng)過合并后,極少數(shù)占比的類別不存在,但各類別之間的數(shù)據(jù)仍然是不平衡的。綜上所述,感官質(zhì)量各指標(biāo)中的各類別之間不平衡,后續(xù)建模時(shí)需要對數(shù)據(jù)進(jìn)行平衡處理。

2.1.2? ? 數(shù)據(jù)相關(guān)性分析? ? 自變量之間較強(qiáng)的關(guān)聯(lián)性說明變量之間存在多重共線性,這種共線性會(huì)對后面的模型訓(xùn)練造成一定的影響,因此建模之前需要探索煙葉外觀指標(biāo)、物理特性及近紅外光譜數(shù)據(jù)之間的關(guān)聯(lián)性。從煙葉外觀指標(biāo)、物理特性之間的相關(guān)性分析(圖4)可以看出,各物理特性之間,重量與面積的相關(guān)系數(shù)為0.7,長度和周長的相關(guān)系數(shù)為0.7,寬度和面積的相關(guān)系數(shù)達(dá)到0.9。各顏色外觀指標(biāo)之間,R-均值、G-均值、B-均值、H-均值、V-均值之間的相關(guān)性很強(qiáng),相關(guān)系數(shù)達(dá)到0.9和1.0。R-標(biāo)偏、G-標(biāo)偏、B-標(biāo)偏、V-標(biāo)偏之間的相關(guān)性也很強(qiáng),相關(guān)系數(shù)也達(dá)到了0.8~1.0。H-標(biāo)偏與S-標(biāo)偏的相關(guān)系數(shù)為0.7,相關(guān)性也較強(qiáng)。總之物理特性與顏色指標(biāo)之間的相關(guān)性比較弱或沒有相關(guān)性。

對煙葉各近紅外光譜數(shù)據(jù)之間的相關(guān)性進(jìn)行分析(圖5)表明,各近紅外光譜數(shù)據(jù)之間的相關(guān)性很強(qiáng),說明變量之間存在很明顯的多重共線性。

對煙葉的外觀指標(biāo)、物理特性和近紅外光譜數(shù)據(jù)的相關(guān)性進(jìn)行分析(圖6)可以看出,煙葉的外觀指標(biāo)和物理特性與近紅外光譜數(shù)據(jù)之間的相關(guān)性比較弱。綜上所述,自變量之間存在比較多的共線性,后續(xù)建模時(shí)需要消除這種共線性。

2.2? ?模型訓(xùn)練與模型選擇

對訓(xùn)練集數(shù)據(jù)進(jìn)行樣本平衡、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)降維(保留數(shù)據(jù)方差占比0.999 5的主成分)處理后,采用QDA、KNN、SVC 3種模型對上述處理后的數(shù)據(jù)進(jìn)行訓(xùn)練并優(yōu)化。由表1可知,煙葉感官質(zhì)量各指標(biāo)中,SVC模型的平衡準(zhǔn)確率均表現(xiàn)最高,為0.725~0.773。其中,感官質(zhì)量各指標(biāo)模型中,勁頭的平衡準(zhǔn)確率最高,達(dá)到0.773;香氣風(fēng)格彰顯程度的平衡準(zhǔn)確率最低,為0.725。

2.3? ?模型預(yù)測與模型評估

采用最終選擇的SVC模型對測試集數(shù)據(jù)進(jìn)行預(yù)測的結(jié)果(表2)表明,感官質(zhì)量各指標(biāo)中, 勁頭模型的平衡準(zhǔn)確率最高,達(dá)到0.774,這與驗(yàn)證集的表現(xiàn)一致;刺激性的平衡準(zhǔn)確率最低,為0.685。

測試集數(shù)據(jù)中感官質(zhì)量各指標(biāo)的混淆矩陣見圖7。對角線上的數(shù)據(jù)為預(yù)測值與真實(shí)值表現(xiàn)一致的數(shù)量。在香氣風(fēng)格彰顯程度模型中,類別D的檢出率最高,100個(gè)樣品中可以檢測出86個(gè);類別B的檢出率最低,236個(gè)樣品中只檢測出160個(gè)。在香氣質(zhì)模型中,類別C-的檢出率最高,359個(gè)樣品中檢測出304個(gè);類別B的檢出率最低,246個(gè)樣品中只檢測出147個(gè)。在香氣量模型中,類別C的檢出率最高,426個(gè)樣品中檢測出341個(gè);類別D的檢出率最低,100個(gè)樣品中只檢測出61個(gè)。在雜氣模型中,類別C的檢出率最高,499個(gè)樣品中檢測出419個(gè);類別B的檢出率最低,150個(gè)樣品中只檢測出84個(gè)。在濃度模型中,類別C-的檢出率最高,190個(gè)樣品中檢測出145個(gè);類別B的檢出率最低,190個(gè)樣品中只檢測出118個(gè)。在勁頭模型中,類別C-的檢出率最高,280個(gè)樣品中檢測出230個(gè);類別B-的檢出率最低,485個(gè)樣品中只檢測出356個(gè)。在刺激性模型中,類別C的檢出率最高,409個(gè)樣品中檢測出332個(gè);類別C-的檢出率最低,150個(gè)樣品中只檢測出72個(gè)。在余味模型中,類別C-的檢出率最高,250個(gè)樣品中檢測出203個(gè);類別B-的檢出率最低,300個(gè)樣品中只檢測出190個(gè)。在甜感模型中,類別C-的檢出率最高,409個(gè)樣品中檢測出337個(gè);類別D的檢出率最低,80個(gè)樣品中只檢測出45個(gè)。

3? ?討論與結(jié)論

探索數(shù)據(jù)的分布情況對后續(xù)的建模起著至關(guān)重要的作用,是一個(gè)不容忽視的環(huán)節(jié)。通過研究自變量數(shù)據(jù)的分布情況,可以觀察樣本中是否存在異常點(diǎn),因?yàn)橛行┠P捅热鏠DA等對于異常點(diǎn)會(huì)非常敏感[8 ],模型會(huì)試圖擬合這部分?jǐn)?shù)據(jù),導(dǎo)致測試集數(shù)據(jù)的預(yù)測效能比較差。因此,本研究通過觀察數(shù)據(jù)的分布去除了一些厚度異常的數(shù)據(jù)。同時(shí),觀察數(shù)據(jù)的分布也可以幫助研究選擇合適的模型,比如生成式模型對數(shù)據(jù)的分布要求很高。QDA作為一種生成式模型,不要求每個(gè)類別的協(xié)方差相同,普適性更高,但其假設(shè)條件就是樣本必須服從正態(tài)分布。本研究對數(shù)據(jù)的分布進(jìn)行探索,去除異常值后,發(fā)現(xiàn)數(shù)據(jù)基本服從正態(tài)分布,因此可以構(gòu)建QDA模型。從煙葉的感官質(zhì)量各類別的數(shù)據(jù)分布來看,各類別之間均存在不平衡的情況,主要表現(xiàn)在中間類別多、兩邊類別少的情況,這說明工業(yè)生產(chǎn)中的煙葉質(zhì)量大部分處于一般水平,質(zhì)量很高和質(zhì)量較低的煙葉均較少,這跟工業(yè)生產(chǎn)中煙葉質(zhì)量的真實(shí)情況一致。這種不平衡數(shù)據(jù)挖掘在其他很多領(lǐng)域也是普遍存在的,基于精度的傳統(tǒng)分類算法和SVM在進(jìn)行分類時(shí)[9 ],模型會(huì)偏重于訓(xùn)練類別多的樣本,會(huì)忽視類別少的樣本,造成類別少的數(shù)目被錯(cuò)誤預(yù)測的概率增大;而通過增加類別少的數(shù)據(jù)的數(shù)量,可以糾正模型預(yù)測的“有偏性”;最后采用有效的評估指標(biāo)進(jìn)行模型評估,而不能再繼續(xù)采用準(zhǔn)確率來進(jìn)行評價(jià)。本研究通過對類別少的樣本進(jìn)行上采樣,以達(dá)到各類別之間樣本數(shù)目的平衡,從而避免模型預(yù)測的“有偏性”,同時(shí)采用平衡準(zhǔn)確率對模型效能進(jìn)行評估。

對自變量間的相關(guān)性分析可以探討數(shù)據(jù)之間是否存在多重共線性。多重共線性問題在很多模型的實(shí)際應(yīng)用中都普遍存在,比如多元線性回歸分析[10 ],SVM分類算法[11 ]。而多重共線性產(chǎn)生的原因可能來自兩個(gè)方面,一是自變量之間客觀存在共線性關(guān)系,二是樣本數(shù)據(jù)不是足夠多。本研究應(yīng)該屬于第一種情況,煙葉的顏色值比如R,G,B分別代表紅色,綠色和藍(lán)色通道的值,其不僅包含了顏色信息,還包含了亮度等信息。而H代表色調(diào),包含了所有顏色值的信息,因此,R,G,B,H通道之間必然相互關(guān)聯(lián),這與本研究中這4個(gè)通道之間相關(guān)性很高的結(jié)果是一致的。主成分分析為這種共線性問題的解決提供了一種有效的方法。通過主成分分析可以改進(jìn)多重共線性的問題,將多個(gè)指標(biāo)綜合為幾個(gè)主成分進(jìn)而減少信息的冗余[12 - 13 ],本研究也是通過PCA實(shí)現(xiàn)數(shù)據(jù)降維,從而消除變量間的多重共線性。

本研究同時(shí)采用煙葉的外觀物理特性及近紅外光譜數(shù)據(jù),各類型之間的數(shù)據(jù)由于量綱的不同,其數(shù)值差異也很大,比如近紅外光譜數(shù)據(jù)為小于1的值,而煙葉的顏色值可達(dá)到200多?;诰嚯x度量的模型如KNN、SVM模型以及線性回歸類的模型如邏輯回歸、嶺回歸、拉索回歸等對于特征之間不同取值范圍非常敏感,因此建模前必須要進(jìn)行標(biāo)準(zhǔn)化,以消除數(shù)據(jù)之間的差異。而近紅外光譜數(shù)據(jù),由于受到采集環(huán)境、儀器的運(yùn)行狀態(tài)或者技術(shù)人員操作等各種因素的影響,在采集時(shí)會(huì)存在基線偏移、干擾噪聲等問題[14 ],這會(huì)導(dǎo)致后期建立的模型出現(xiàn)偏倚,因此必須對光譜數(shù)據(jù)進(jìn)行校正。本研究采用SNV對光譜數(shù)據(jù)進(jìn)行預(yù)處理,提高KNN、SVM、QDA模型的精度。

SVC由于其在高維空間中非常有效,采用了結(jié)構(gòu)風(fēng)險(xiǎn)最小化使模型泛化能力提高,因此在煙草等多個(gè)領(lǐng)域廣泛應(yīng)用。有研究對中紅外和近紅外光譜數(shù)據(jù)進(jìn)行融合后,利用支持向量機(jī)可以建立煙葉濃香型、中間香型及清香型的分類判別模型,準(zhǔn)確率均大于85%[15 ]。通過煙葉的化學(xué)成分可以較好地預(yù)測煙葉感官品質(zhì)中的香氣量[16 ]。本研究選用QDA、KNN、SVC算法構(gòu)建煙葉感官質(zhì)量各個(gè)指標(biāo)的多分類模型,結(jié)果表明SVC的預(yù)測效能最優(yōu),煙葉感官質(zhì)量各指標(biāo)的平衡準(zhǔn)確率0.685~0.774,這進(jìn)一步說明SVC模型在預(yù)測煙葉感官質(zhì)量各指標(biāo)方面有著較大的優(yōu)勢。

近年來,計(jì)算機(jī)圖像處理技術(shù)在生物、醫(yī)學(xué)、農(nóng)業(yè)、建筑等方面都得到廣泛應(yīng)用。如通過對花牛蘋果葉片圖像進(jìn)行處理,提取圖像中R(紅色)、G(綠色)、B(藍(lán)色)各參數(shù)值以及各組合值,建立模型,可以快速有效無損檢測蘋果葉片的營養(yǎng)狀況[17 ]。近紅外光譜技術(shù)作為一種快速、無損檢測物質(zhì)的方法,在農(nóng)業(yè)、工業(yè)、食品等領(lǐng)域也得到廣泛應(yīng)用[18 ]。本研究也是通過圖像處理技術(shù)提取煙葉圖像各顏色信息(RGB、HSV顏色空間的顏色信息)和物理特性,結(jié)合近紅外光譜技術(shù)檢測煙葉化學(xué)成分的源頭數(shù)據(jù)(近紅外光譜數(shù)據(jù)),進(jìn)而預(yù)測煙葉的感官質(zhì)量各指標(biāo),其數(shù)據(jù)種類更全面,更能代表煙葉的整體質(zhì)量水平,這為工業(yè)生產(chǎn)中判定煙葉的整體質(zhì)量水平帶來了便利,可以快速檢測煙葉的整體質(zhì)量,提高工業(yè)檢測效率。

煙葉的外觀指標(biāo)、物理特性及近紅外光譜共同影響著煙葉的感官質(zhì)量。基于煙葉的外觀物理特性以及近紅外光譜數(shù)據(jù),可以預(yù)測煙葉的香氣風(fēng)格彰顯程度、香氣質(zhì)、香氣量、雜氣、濃度、勁頭、刺激性、余味和甜感等感官質(zhì)量指標(biāo)。在這些感官質(zhì)量指標(biāo)中,基本上類別C和類別C-的檢出率最高,類別B、類別B-和類別D的檢出率最低,這可能與工業(yè)生產(chǎn)中類別C和類別C-的煙葉樣品比較普遍,而類別B、類別B-和類別D的樣品數(shù)量比較稀少有關(guān)。同時(shí),由于本研究是基于2個(gè)品種的煙葉構(gòu)建的感官質(zhì)量模型,而這2個(gè)品種之間的感官評吸標(biāo)準(zhǔn)可能會(huì)有些差異,這也可能是模型平衡準(zhǔn)確率未超過0.8的原因。未來可能需要把兩個(gè)品種分別構(gòu)建煙葉的感官質(zhì)量模型。3個(gè)訓(xùn)練模型中,SVC的泛化能力最優(yōu)。其中,香氣風(fēng)格彰顯程度、香氣質(zhì)、香氣量、雜氣、濃度、勁頭、刺激性、余味及甜感的預(yù)測平衡準(zhǔn)確率分別為0.747,0.751,0.715,0.720,0.712, 0.774,0.685,0.725,0.700。

參考文獻(xiàn):

[1] 梁洪波,李念勝,元? ?建,等.? 烤煙煙葉顏色與內(nèi)在品質(zhì)的關(guān)系[J]. 中國煙草科學(xué),2002,23(1):9-11.

[2] 王? ?欣.? 湖北煙區(qū)烤煙質(zhì)量綜合評價(jià)及與國內(nèi)外優(yōu)質(zhì)烤煙的差異分析[D].? 鄭州:河南農(nóng)業(yè)大學(xué),2008.

[3] 張勇剛,宋朝鵬,李常軍.? 煙葉感官質(zhì)量評價(jià)研究進(jìn)展[J].? 湖北農(nóng)業(yè)科學(xué),2010,49(9):2271-2274.

[4] 閆鐵軍,馬俊桃,劉文鋒,等.? 煙葉外觀質(zhì)量與感官舒適性的相關(guān)性分析[J].? 湖北農(nóng)業(yè)科學(xué),2021,60(23):109-113.

[5] 陳劍明,楊式華,馮洪濤,等.? 云南主產(chǎn)煙區(qū)煙葉水溶性糖與感官質(zhì)量相關(guān)及通徑分析[J].? 西南農(nóng)業(yè)學(xué)報(bào),2017,30(11):2506-2511.

[6] 林順順,張曉鳴.? 基于PLSR分析煙葉化學(xué)成分與感官質(zhì)量的相關(guān)性[J].? 中國煙草科學(xué),2016,37(1):78-82.

[7] 潘義宏,李佳佳,蔣美紅.? 煙葉外觀質(zhì)量、常規(guī)化學(xué)成分與其感官質(zhì)量的典型相關(guān)分析[J].? 江蘇農(nóng)業(yè)科學(xué),2015,43(10):384-388.

[8] 王秀梅.? 基于二次判別模型(QDA)的土壤鎘安全閾值判定[D].?; 北京:中國農(nóng)業(yè)科學(xué)院,2018.

[9] 鄭恩輝,李? ?平,宋執(zhí)環(huán).? 不平衡數(shù)據(jù)知識挖掘_類分布對支持向量機(jī)分類的影響[J].? 信息與控制,2005,34(6):703-708.

[10] 魯? ?茂,賀昌政.? 對多重共線性問題的探討[J].? 統(tǒng)計(jì)與決策,2007(8):6-9.

[11] 冼廣銘,齊德昱,方? ?群.? 改進(jìn)SVM分類算法中多重共線性問題研究[J].? 計(jì)算機(jī)工程與應(yīng)用,2010,46(26):142-144.

[12] 陶? ?然.? Logistic模型多重共線性問題的診斷及改進(jìn)[J].? 統(tǒng)計(jì)與決策,2008(15):22-24.

[13] 姜有虎,李玉梅,李旭林,等.? 基于主成分分析的嘉峪關(guān)產(chǎn)區(qū)馬瑟蘭葡萄最佳采收期確定[J].? 甘肅農(nóng)業(yè)科技,2022,53(1):94-98.

[14] 李尚科,李? ?跑,杜國榮,等.? 基于近紅外光譜技術(shù)和優(yōu)化預(yù)處理方法的不同品牌燕麥無損鑒別分析[J].? 食品安全質(zhì)量檢測學(xué)報(bào),2019,10(24):8204-8210.

[15] 沙云菲,黃? ?雯,王? ?亮,等.? 中紅外和近紅外數(shù)據(jù)融合的香型風(fēng)格判別[J].? 光譜學(xué)與光譜分析,2021,41(2):473-476.

[16] 趙青松,李興兵,唐小松.? 基于支持向量機(jī)的煙葉感官品質(zhì)評價(jià)[J].? 計(jì)算機(jī)工程與應(yīng)用,2007,43(10):236-238.

[17] 楊煥昱,李幗英,馬建芳,等.? 基于圖像數(shù)字處理技術(shù)的元帥系蘋果葉片營養(yǎng)水平診斷研究[J].? 甘肅農(nóng)業(yè)科技,2022,53(3):59-63.

[18] 張華瑜,潘永東,柳小寧,等.? 利用近紅外谷物分析儀快速檢測青稞粗蛋白質(zhì)含量研究[J].? 甘肅農(nóng)業(yè)科技,2020(1):33-36.

主站蜘蛛池模板: 亚洲精品无码AⅤ片青青在线观看| 国产午夜精品鲁丝片| 久久精品电影| 在线观看欧美国产| 日本成人福利视频| 欧美国产精品拍自| 国产精品无码作爱| 小蝌蚪亚洲精品国产| 国产精品自在自线免费观看| 99999久久久久久亚洲| 伊人色在线视频| 欧美激情第一区| 午夜国产精品视频黄| 欧美www在线观看| 国产一级在线观看www色 | 成人免费黄色小视频| 国产精品手机视频一区二区| 亚洲一区色| 中文字幕佐山爱一区二区免费| 亚洲第一黄色网址| 久久这里只有精品2| 一本大道视频精品人妻| 色国产视频| 99re视频在线| 欧洲日本亚洲中文字幕| 亚洲欧美激情小说另类| 成人亚洲天堂| 无码免费视频| 午夜福利在线观看入口| 最新加勒比隔壁人妻| 99ri精品视频在线观看播放| 国产高清在线观看| 久草热视频在线| 性视频久久| 乱人伦中文视频在线观看免费| 毛片基地视频| 伊人AV天堂| 高清无码一本到东京热| 午夜综合网| 久久久久国产一级毛片高清板| 国产精品3p视频| 国产视频自拍一区| 久久精品人妻中文系列| 久久精品人人做人人爽97| 久久精品国产在热久久2019| 成年A级毛片| 免费网站成人亚洲| 精品国产aⅴ一区二区三区| 国产午夜无码专区喷水| 久久精品国产亚洲AV忘忧草18| 白丝美女办公室高潮喷水视频| 久久99国产乱子伦精品免| 无码国内精品人妻少妇蜜桃视频| 99热这里只有成人精品国产| 久草中文网| 亚洲经典在线中文字幕| 中文字幕66页| 中文字幕永久在线观看| 国产成人精品免费av| 思思热精品在线8| 一级黄色网站在线免费看| 91精品久久久无码中文字幕vr| 欧美福利在线观看| 国产成人1024精品| 婷婷开心中文字幕| www.亚洲天堂| 国产尤物jk自慰制服喷水| 91精选国产大片| 国产国语一级毛片在线视频| 成人毛片免费在线观看| 国语少妇高潮| 狠狠色丁香婷婷综合| 亚洲国产日韩欧美在线| 国产91久久久久久| av尤物免费在线观看| 国产午夜福利片在线观看| 91黄色在线观看| 亚洲第一黄片大全| 中国精品自拍| 日本尹人综合香蕉在线观看| 日本午夜三级| 喷潮白浆直流在线播放|