999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GC-MS指紋圖譜和XGBoost機器學習的瀘型基酒貯存時間鑒別

2023-01-07 03:22:00劉青茹孟連君張曉娟翟偉績柴麗娟陸震鳴許泓瑜王松濤張宿義沈才洪史勁松許正宏
食品科學 2022年24期
關鍵詞:特征模型

劉青茹,孟連君,張曉娟,翟偉績,柴麗娟,陸震鳴,,許泓瑜,王松濤,張宿義,沈才洪,史勁松,許正宏,*

(1.江南大學生物工程學院,江蘇 無錫 214122;2.江南大學 糧食發酵與食品生物制造國家工程研究中心,江蘇 無錫 214122;3.江南大學生命科學與健康工程學院,江蘇 無錫 214122;4.國家固態釀造工程技術研究中心,四川 瀘州 646000)

國外葡萄酒、白蘭地、威士忌等酒類產品的等級概念與年份酒密不可分,20世紀末,白酒中開始出現“年份酒”的概念[1]。白酒釀造技術多元化,但一般的流程可以概括為3 個基本步驟:發酵、蒸餾和陳釀[2-3],陳釀是白酒品質提升的重要環節之一。白酒價格與貯存時間的關系逐漸密切,其年份鑒定對于保障消費者和酒企權益、維持市場健康發展、促進白酒科學研究均具有重要價值[4-5]。

張宿義等[6]利用氣相色譜-質譜(gas chromatographymass spectrometry,GC-MS)技術統計了1、2、3、5 a瀘型酒中揮發性成分的變化規律,發現隨著白酒儲存時間的延長,酯類物質含量大體呈現下降趨勢,3 a之后趨于平衡;酸類物質逐漸增多,而醇類物質幾乎保持穩定,醛類物質隨著酒齡的增加呈先減少再增加的規律。仝建波等[7]通過GC-MS技術分析了不同酒度濃香型白酒中揮發性化合物隨貯存時間變化,在高度酒中,主要風味物質為己酸乙酯、乙酸乙酯和乳酸乙酯,且均隨著貯存時間的延長而減少,其對應酸類化合物上升;而在低度白酒中呈現相反規律,酯類物質上升,酸類物質減少。孟望霓等[8]采用液液萃取結合GC-MS技術解析了不同醬香型白酒儲存1 a周期內的主要揮發性成分的含量變化,發現酸類物質和醛酮類物質在1 a貯存期內對酒體影響較大。Zhu Lin等[9]研究老五甑酒陳釀1 a內的變化規律發現,乙酯、醛和酸等大多數芳香化合物(香氣活力值大于1)在同一時期內含量增加,而壬醛、2-苯乙酸乙酯、苯甲酸乙酯、4-乙基愈創木酚、丙醇和3-甲基-1-丁醇在貯存365 d后含量下降。唐賢華等[10]通過分析貯存6、12、18、24 個月和30 個月的濃香型白酒中揮發性化合物發現,醛類物質含量在儲存半年到兩年時間內減少,而酸類物質含量則持續下降,酯類物質呈現下降趨勢且在1 a時間后趨于平衡。Jia Wei等[11]采用超高效液相色譜單四極桿Orbitrap高分辨質譜對0~19 a的鳳酒進行研究發現,除5-氟-2,3,4-三氯苯甲酸含量下降外,10種酯類、6種有機酸、8種氨基酸、11種生物活性成分和9種其他成分隨陳釀年限的增加均表現出顯著的上調趨勢。

學者研究結果各異,白酒年份判別仍為技術難題。白酒貯存容器多用陶壇、玻璃等,較難通過外源物質溶出量進行鑒別;陳釀過程中多種物理、化學反應導致酒體內部物質發生變化[1],酒體物質組成的變化規律是鑒定的重要突破口,但其多菌種固態發酵技術使得約2%的微量成分中已檢出超過2 400種化合物[12-14],其中絕大多數為揮發性,近幾年隨著檢測技術的發展,不揮發性組分的研究逐漸進入人們的視野[15-16],復雜的物質組成導致分析難度大;此外,工藝、產地、原料、氣候等多種因素形成風格多元的白酒,白酒指紋圖譜的噪音清洗和年份特征化合物的篩選難度較大。白酒貯存時間和物質組成之間的關聯研究仍處于摸索階段。

白酒是蒸餾酒,絕大多數物質為揮發性化合物,因此,目前揮發性化合物仍然是白酒物質基礎解析的重要對象,主要采用GC-MS聯用技術及其相關高配升級設備進行分析,具有信息量大、特異性好、進樣量少、定性定量準確、適應范圍廣等優點。其前處理方法包括直接進樣[17]、液液萃取[18]、固相微萃取[19]、攪拌棒吸附萃取[20]、同時蒸餾萃取[21]、靜態頂空[22]等,各有優劣。其中頂空固相微萃?。╤eadspace-solid phase microextraction,HSSPME)技術[23],操作簡便、處理速度快,有利于白酒鑒定技術的推廣,因此本研究以其為數據采集方法。

GC-MS指紋圖譜包含較多物質信息,因此需要進行復雜的統計分析、運算,機器學習是很好的選擇。機器學習在基于復雜參數的去噪篩選、模型建立和預測方面展示了較高的優越性[24-25],國內外研究者已在疾病預測、氣候監測預測等復雜體系的鑒別和預測方面對其有較成熟的應用。基于學習方式對機器學習進行分類,可以大致分為監督學習、非監督學習和強化學習。監督學習的原理是利用有標簽的樣品構成訓練集,運用算法進行學習,再用模型對未知測試集進行預測[26-28],它包含兩類主要問題[29],一種是分類問題,用于預測非連續、離散型數值,簡單來說就是預測樣本屬于哪一類;一種是回歸問題,用于預測連續具體的數值(圖1)。

圖1 監督學習過程Fig. 1 Supervised learning process

對白酒貯存時間進行鑒別和預測就是回歸問題,因為時間是連續、具體的變量。模型眾多,本研究選用的極端梯度提升(eXtreme Gradient Boosting,XGBoost)算法因適用性高,無需構造高精度的回歸分析,通過反復調整參數就可以得到較好的組合回歸模型而被廣泛運用于回歸問題中[26]。蘇天培[30]利用XGBoost算法建立模型,利用血糖含量實現對白血病的預測。劉宇等[31]基于XGBoost算法以多項指標作為變量建立模型實現對心臟病的成功預測。張永梅等[32]提出一種基于XGBoost算法的特征提取和預測方法,實現對霧霾的短時預測。但是,目前鮮見基于機器學習對白酒貯存時間進行鑒定和預測的相關研究和應用。因此,本研究采用GC-MS聯合XGBoost機器學習進行年份鑒定的探索。

XGBoost是基于梯度提升樹實現的集成算法,是一種加法模型,通過不斷迭代從而使模型的誤差不斷減少,其中,每一次迭代都會根據上一次迭代的預測結果對樣本進行加權處理,從而對當前輪次中的子模型進行優化。假設已經訓練了K棵樹,則對于第i個樣本的最終的預測值為[33]:

式中:xi為樣本的特征;fk(xi)為用第k棵樹對xi樣本進行預測,將結果相加即獲得最終的預測值而該樣本的真實值為yi,因此該算法下,共n個樣本的目標函數為:

該算法的優點主要包括:1)實現了并行化運算,加快了訓練模型的速度;2)目標函數中引入了正則項,控制了模型的復雜度,可以有效避免模型的過擬合;3)XGBoost作為一種集成算法,不僅支持二叉樹作為基分類器,還支持線形模型。但是,XGBoost算法在每次迭代之前,需要對結點的特征進行預排序、遍歷,從而選擇最優的分割點,這便導致了該算法在訓練時具有耗時的缺點。

白酒揮發性化合物之間存在關聯,部分化合物對白酒年份鑒定并無顯著影響。因此可以通過篩選特征化合物減少模型輸入數據,減少運算量,從而一定程度上彌補XGBoost的缺點,一般的特征篩選過程如圖2所示,首先,對包含所有化合物相對含量的全數據集進行特征選擇,去除冗余特征,降低復雜度,然后隨機將數據分為兩部分,分別用于測試和訓練,用訓練數據結合數學理論構建模型,同時用測試數據對模型性能進行測試和改進。

圖2 監督學習模型特征篩選和建模過程Fig. 2 Feature selection and establishment of supervised learning model

本研究采用HS-SPME-GC-MS技術采集白酒揮發性指紋圖譜,聯合極端隨機森林(extremely randomized trees,Extra-Trees)的變量重要性排序、sklearn特征選擇模塊中的單變量線性回歸測試(F_regression)以及連續目標變量的互信息(mutual_info_regression),尋找合適的時間指示化合物,通過XGBoost算法建立回歸模型對白酒貯存時間進行預測,旨在為白酒乃至其他乙醇類飲料的貯存時間預測提供新思路。

1 材料與方法

1.1 材料

不同貯存時間白酒基酒樣品由四川省瀘州老窖有限公司提供,樣品均在實驗室條件下貯存。在基酒貯存的不同時間節點取樣檢測,共計檢測70 款基酒揮發性成分,70 款基酒包括7 個批次基酒分別在10 個時間點取樣檢測。具體酒樣信息和檢測時間見表1。

表1 白酒基酒信息Table 1 Information about base baijiu samples

1.2 試劑

叔戊醇、正構烷烴(C8~C40)、辛酸乙酯、丁酸乙酯、庚酸乙酯、乙酸乙酯、癸酸乙酯、壬酸乙酯、十二酸乙酯、乙酸己酯、異戊醇、異戊醛、正己醇、3-甲基丁酸乙酯、十四酸乙酯、十六酸乙酯、壬醛、己酸甲酯、己酸、2,4-二叔丁基苯酚、苯甲醛、己醛、異丁醇、油酸乙酯、乙酸-2-苯乙酯、乙酸-3-甲基-1-丁醇、辛酸、乳酸乙酯、乙醇、甲醇(均為色譜純或大于98%純度),購自Sigma Aldrich公司、上海阿拉丁生化科技股份公司;氯化鈉(優級純) 中國國藥上海化學試劑公司。

1.3 方法

1.3.1 揮發性成分的指紋圖譜采集

1.3.1.1 酒樣預處理方法

所有樣品于20 ℃保存。分析之前,用超純水將酒樣乙醇體積分數稀釋至8%,取4 mL稀釋后樣品置于20 mL頂空瓶中,加入1.5 g氯化鈉和10 μL叔戊醇內標(8.05 g/L)進行下一步的揮發性成分采集。

1.3.1.2 HS-SPME條件

采用實驗室前期優化條件[34],使用三相萃取頭80 μm DVB/Carboxen/PDMS在50 ℃平衡5 min,然后在50 ℃,350 r/min轉速萃取40 min。最后在250 ℃進樣口解吸附5 min完成進樣。

1.3.1.3 GC-MS條件

TG-WAXMS毛細管色譜柱(60 m×0.25 mm,0.25 μm);載氣:純度大于99.999%的He;流速:1.0 mL/min,分流比:20∶1;柱溫:進樣口溫度保持在250 ℃,起始氣相色譜柱在50 ℃維持2 min,以3 ℃/min升溫至145 ℃,再以15 ℃/min升溫至230℃,并保持3 min。

離子源溫度260 ℃;接口溫度200 ℃;電離方式:電子電離正離子模式;電子能量70 eV;掃描質量范圍m/z33~350。

1.3.2 化合物定性方法

首先利用儀器自帶的MASS HUNTER(B.08.00)軟件對采集的數據進行解卷積,通過比對質譜庫(NIST)僅保留匹配相似度大于700的定性結果,并手動過濾掉柱流失產生的化合物(主要是含硅和鹵素的化合物)。采用與樣品采集完全相同的參數進行正構烷烴混標(C8~C40)測定,計算保留指數(retention index,RI)。將本實驗條件下對化合物計算出的RI(RI cal)與文獻中該物質的RI(RI lit)對比進一步定性,由于實驗條件、儀器等因素會造成差異,認為RI cal和RI lit相差30以內時定性結果準確。最后,使用可獲得的91種物質標準品用于第3次定性。

1.3.3 特征化合物篩選及XGBoost模型構建方法

特征值篩選及模型構建均使用Anaconda Navigator運行Python代碼實現分析和可視化。采用10折交叉驗證避免XGBoost的過擬合,當預測結果已經很好時可提前停止建樹,這有助于提高訓練速度[35]?;赬GBoost算法建立白酒貯存時間回歸預測模型,通過Extra-Trees、F_regression以及mutual_info_regression進行特征值篩選,所用Python代碼已上傳至https://github.com/seaflyru/-/tree/main。具體建模思路如圖3所示。

步驟1):采用全指紋圖譜作為輸入數據集進行特征篩選和建立XGBoost回歸模型。根據樣本個數按照4∶1的比例隨機將數據集劃分為訓練集和測試集,訓練集的數據用于特征值篩選和模型的建立,測試集的數據用于樣品貯存時間預測。步驟2)~4)均只使用訓練集。

步驟2):基于不同特征值算法進行特征重要性排序。通過Extra-Trees的變量重要性排序、sklearn特征選擇模塊中的F_regression以及mutual_info_regression篩選對白酒貯存年份影響顯著的物質,其主要目的就是縮小數據集,優化模型參數,通過上述分析可得到3 組特征變量的重要性排序。

步驟3):特征值篩選。分別取步驟2)的3種方法特征變量的前i(25~80)個特征的交集作為XGBoost 回歸模型的特征變量,采用10折交叉檢驗進行模型優化,模型預測準確性降低或不再增加時的交集為代表性特征。

步驟4):模型建立及評估。以步驟3)所得的代表性特征為輸入數據集,以均方誤差(mean squared error,MSE)和R2值評估模型性能獲得最優模型參數,建立進行白酒貯存時間臨時性鑒別的XGBoost回歸模型。

步驟5):年份鑒別測試。將測試集數據的代表性特征值作為數據集輸入模型預測樣品的貯存時間,以R2和MSE的形式輸出預測結果。

隨著工藝技術的不斷提高,嵌入式SRAM的穩定性在設計和測試領域內也越來越受到廣泛關注。對于低電壓SRAM中的穩定性故障,由于開路電阻在一定范圍內很難通過傳統測試方法檢測出來,因此,需要增加專門的DFT電路來進行測試。

圖3 白酒貯存時間鑒別模型建立過程示意圖Fig. 3 Flow chart for the establishment of a predictive model for baijiu age

2 結果與分析

2.1 存放兩年的白酒基酒揮發性物質熱圖

采用GC-MS法進行白酒樣品測定,總離子流圖如圖4所示。經過定性去噪后貯存2 a的白酒基酒中共分離鑒定得到98種揮發性化合物(圖5),其中醇類物質6種、醛類物質9種、酸類物質7種、酯類物質68種、酮類物質3種、其他物質5種,在這些化合物中酯類物質數量最多(約70%),這一結果與前人的研究一致[36]?;衔锵鄬孔兓嬖诜呛唵尉€性增減的規律,且變化不顯著的噪音物質較多,因此,特征篩選和機器學習對貯存時間判別十分重要。

圖4 代表性樣品的總離子流圖Fig. 4 Total ion current chromatogram of representative sample

2.2 特征集篩選及預測白酒貯存時間的回歸模型構建

隨機將白酒樣品按照4∶1的比例劃分為訓練集和測試集,訓練集用于模型的建立,測試集用于模型的預測。通過特征值工程可以計算每個特征變量對模型的貢獻度,從而判斷哪些特征變量對于白酒貯存時間的鑒定更為重要。本研究運用Extra-Trees的變量重要性排序、sklearn特征選擇模塊中的F_regression以及mutual_info_regression這3種方法分別篩選重要的特征變量,得到各化合物的3 組重要性排序(圖6)。

圖5 貯存2 a白酒基酒的揮發性物質相對含量熱圖Fig. 5 Heatmap of the relative contents of volatile substances in base baijiu stored for two years

圖6 3種方法篩選白酒揮發性成分中的特征變量Fig. 6 Filtration of feature variables of volatile components in baijiu by three methods

Extra-Trees是2006年PierreGeurts等提出的算法,由許多決策樹集成[37]。每棵決策樹都使用全部訓練數據集進行完全隨機的計算實現決策分叉,在隨機的情況下某一特征值對于模型鑒別仍然表現出很強的區分度,即變量重要性(variable importance in projection,VIP)得分高,則該特征值對模型準確性貢獻大。F_regression是基于單變量線性回歸測試原理,適用于特征篩選過程中對多個回歸變量各自的線性擬合效果進行得分轉換,分兩個步驟完成,首先計算每個回歸變量與目標之間的線性相關性,然后將其轉換為F得分,F得分越大則該變量對鑒定的貢獻越大[38]。mutual_info_regression是基于鄰近算法的熵估計出一個互信息(mutual information,MI)。MI用來衡量兩個隨機變量間的依存關系,當且僅當兩個變量是獨立的,MI才為零值。一個變量的MI值越大時,該變量與其他隨機變量的相關性越強,越具有代表性[39]。

根據Extra-Trees重要性評估結果(圖6a)可以看出,油酸乙酯是最重要的特征變量,其次是2,6-二叔丁基-4-甲基苯酚和亞油酸乙酯,這一結果與本實驗室前期研究發現的時間指示性化合物吻合[34]。根據F_regression結果(圖6b)可以看出,油酸乙酯是篩選到的最關鍵特征,其次是亞油酸乙酯和2-十五烷酮,進一步證實了油酸乙酯作為時間指示性化合物的有效性。mutual_info_regression結果(圖6c)可以看出,己酸-2-苯乙酯被認為是最重要的化合物,這一物質也是前期篩選到的時間指示性化合物之一,其次是乙酸辛酯和己酸異戊酯。

圖7 特征子集篩選Fig. 7 Feature subset selection

取每種方法前25~80種特征變量的交集,采用10折交叉驗證評估所建模型的擬合程度。從圖7a可以看出,最有效的建模特征為3種篩選方法前59 個特征中共有的特征。將3種方法的前59 個特征變量進行Venn分析可得到共性化合物32種(圖7b、表2),其被認為是最有效的建模特征,以此特征變量交集建立最終的XGBoost分類預測模型。該32種特征化合物列表和在3種篩選方法的最終得分如表2所示。

表2 32種特征化合物及其在3種篩選方法中的得分Table 2 Scores for 32 compounds determined by three screening methods

2.3 白酒貯存時間回歸模型性能評估

對于使用32種特征化合物建立的回歸模型,采用MSE和R2值評估模型性能,結果如圖8所示,模型R2可達到0.987,MSE為1.044,該結果說明該模型穩定可靠,具有預測白酒貯存時間的能力。

圖8 預測結果和模型評估Fig. 8 Good agreement between model predictions and actual values

3 結 論

采用HS-SPME-GC-MS技術分離鑒定白酒基酒的揮發性指紋圖譜,70 個不同貯存時間的基酒共鑒定出98種揮發性成分,其中醇類6種、醛類9種、酸類7種、酯類68種、酮類3種、其他類5種?;赬GBoost算法,聯合Extra-Trees、F_regression、mutual_info_regression 3種特征值篩選手段,最終采用以油酸乙酯為首的32種特征化合物作為建模變量,建立回歸模型對白酒貯存時間進行臨時性鑒別,模型的R2評估結果為0.987,表明該模型可靠,為白酒酒齡的判斷提供了新思路。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产精品久久久久久久久久久久| 无码免费视频| 欧美一区二区三区香蕉视| 亚洲国产成人超福利久久精品| 国产精品任我爽爆在线播放6080 | 国产第一页屁屁影院| 久久精品电影| 国产精品自拍露脸视频| 97久久超碰极品视觉盛宴| 成人午夜亚洲影视在线观看| 无码国产伊人| 久久人体视频| 午夜一级做a爰片久久毛片| av一区二区三区在线观看| 色综合热无码热国产| 首页亚洲国产丝袜长腿综合| 欧美第一页在线| 亚洲一区波多野结衣二区三区| 操国产美女| 乱系列中文字幕在线视频| 欧美一区二区精品久久久| 国产一区二区三区在线观看视频 | 伊人欧美在线| 亚欧成人无码AV在线播放| 亚洲国产综合精品一区| 欧美69视频在线| 无码免费试看| 狠狠v日韩v欧美v| 成人毛片在线播放| 国产又粗又爽视频| 欧美一区二区三区国产精品| 伊人网址在线| 国产成+人+综合+亚洲欧美| 亚洲精品少妇熟女| 成人亚洲国产| a毛片在线播放| 久久情精品国产品免费| 高潮爽到爆的喷水女主播视频| 国产成人免费观看在线视频| 亚洲伊人久久精品影院| 国产福利2021最新在线观看| 国产拍在线| 国产综合在线观看视频| 尤物亚洲最大AV无码网站| 东京热一区二区三区无码视频| 中文字幕不卡免费高清视频| 久久国产亚洲偷自| 97久久精品人人| 欧美日韩中文国产va另类| 日韩精品一区二区深田咏美| 久久亚洲精少妇毛片午夜无码| 黄片一区二区三区| 国产精品香蕉在线| 91免费国产在线观看尤物| 久久人妻系列无码一区| 毛片网站在线看| 免费毛片在线| 国产中文一区二区苍井空| 国产波多野结衣中文在线播放 | 国产高清在线观看91精品| 久久青草免费91线频观看不卡| 亚洲最猛黑人xxxx黑人猛交| 欧美区国产区| 伊人久久精品无码麻豆精品| www.91中文字幕| 欧美在线综合视频| 一级毛片在线播放免费观看| 女人爽到高潮免费视频大全| 思思99思思久久最新精品| 欧美在线中文字幕| 国产青青草视频| 亚洲精品日产AⅤ| 久久五月视频| 国产中文在线亚洲精品官网| 国产玖玖视频| 秋霞午夜国产精品成人片| 国产麻豆精品久久一二三| 香蕉视频在线观看www| 91精品啪在线观看国产| 日韩av无码DVD| 欧美亚洲国产精品久久蜜芽| 国产午夜在线观看视频|