基于GC-MS指紋圖譜和XGBoost機器學習的瀘型基酒貯存時間鑒別

2023-01-07 03:22:00劉青茹孟連君張曉娟翟偉績柴麗娟陸震鳴許泓瑜王松濤張宿義沈才洪史勁松許正宏

食品科學 2022年24期

劉青茹，孟連君，張曉娟，翟偉績，柴麗娟，陸震鳴,，許泓瑜，王松濤，張宿義，沈才洪，史勁松，許正宏,*

（1.江南大學生物工程學院，江蘇無錫 214122；2.江南大學糧食發酵與食品生物制造國家工程研究中心，江蘇無錫 214122；3.江南大學生命科學與健康工程學院，江蘇無錫 214122；4.國家固態釀造工程技術研究中心，四川瀘州 646000）

國外葡萄酒、白蘭地、威士忌等酒類產品的等級概念與年份酒密不可分，20世紀末，白酒中開始出現“年份酒”的概念[1]。白酒釀造技術多元化，但一般的流程可以概括為3 個基本步驟：發酵、蒸餾和陳釀[2-3]，陳釀是白酒品質提升的重要環節之一。白酒價格與貯存時間的關系逐漸密切，其年份鑒定對于保障消費者和酒企權益、維持市場健康發展、促進白酒科學研究均具有重要價值[4-5]。

張宿義等[6]利用氣相色譜-質譜（gas chromatographymass spectrometry，GC-MS）技術統計了1、2、3、5 a瀘型酒中揮發性成分的變化規律，發現隨著白酒儲存時間的延長，酯類物質含量大體呈現下降趨勢，3 a之后趨于平衡；酸類物質逐漸增多，而醇類物質幾乎保持穩定，醛類物質隨著酒齡的增加呈先減少再增加的規律。仝建波等[7]通過GC-MS技術分析了不同酒度濃香型白酒中揮發性化合物隨貯存時間變化，在高度酒中，主要風味物質為己酸乙酯、乙酸乙酯和乳酸乙酯，且均隨著貯存時間的延長而減少，其對應酸類化合物上升；而在低度白酒中呈現相反規律，酯類物質上升，酸類物質減少。孟望霓等[8]采用液液萃取結合GC-MS技術解析了不同醬香型白酒儲存1 a周期內的主要揮發性成分的含量變化，發現酸類物質和醛酮類物質在1 a貯存期內對酒體影響較大。Zhu Lin等[9]研究老五甑酒陳釀1 a內的變化規律發現，乙酯、醛和酸等大多數芳香化合物（香氣活力值大于1）在同一時期內含量增加，而壬醛、2-苯乙酸乙酯、苯甲酸乙酯、4-乙基愈創木酚、丙醇和3-甲基-1-丁醇在貯存365 d后含量下降。唐賢華等[10]通過分析貯存6、12、18、24 個月和30 個月的濃香型白酒中揮發性化合物發現，醛類物質含量在儲存半年到兩年時間內減少，而酸類物質含量則持續下降，酯類物質呈現下降趨勢且在1 a時間后趨于平衡。Jia Wei等[11]采用超高效液相色譜單四極桿Orbitrap高分辨質譜對0～19 a的鳳酒進行研究發現，除5-氟-2,3,4-三氯苯甲酸含量下降外，10種酯類、6種有機酸、8種氨基酸、11種生物活性成分和9種其他成分隨陳釀年限的增加均表現出顯著的上調趨勢。

學者研究結果各異，白酒年份判別仍為技術難題。白酒貯存容器多用陶壇、玻璃等，較難通過外源物質溶出量進行鑒別；陳釀過程中多種物理、化學反應導致酒體內部物質發生變化[1]，酒體物質組成的變化規律是鑒定的重要突破口，但其多菌種固態發酵技術使得約2%的微量成分中已檢出超過2 400種化合物[12-14]，其中絕大多數為揮發性，近幾年隨著檢測技術的發展，不揮發性組分的研究逐漸進入人們的視野[15-16]，復雜的物質組成導致分析難度大；此外，工藝、產地、原料、氣候等多種因素形成風格多元的白酒，白酒指紋圖譜的噪音清洗和年份特征化合物的篩選難度較大。白酒貯存時間和物質組成之間的關聯研究仍處于摸索階段。

白酒是蒸餾酒，絕大多數物質為揮發性化合物，因此，目前揮發性化合物仍然是白酒物質基礎解析的重要對象，主要采用GC-MS聯用技術及其相關高配升級設備進行分析，具有信息量大、特異性好、進樣量少、定性定量準確、適應范圍廣等優點。其前處理方法包括直接進樣[17]、液液萃取[18]、固相微萃取[19]、攪拌棒吸附萃取[20]、同時蒸餾萃取[21]、靜態頂空[22]等，各有優劣。其中頂空固相微萃取（headspace-solid phase microextraction，HSSPME）技術[23]，操作簡便、處理速度快，有利于白酒鑒定技術的推廣，因此本研究以其為數據采集方法。

GC-MS指紋圖譜包含較多物質信息，因此需要進行復雜的統計分析、運算，機器學習是很好的選擇。機器學習在基于復雜參數的去噪篩選、模型建立和預測方面展示了較高的優越性[24-25]，國內外研究者已在疾病預測、氣候監測預測等復雜體系的鑒別和預測方面對其有較成熟的應用。基于學習方式對機器學習進行分類，可以大致分為監督學習、非監督學習和強化學習。監督學習的原理是利用有標簽的樣品構成訓練集，運用算法進行學習，再用模型對未知測試集進行預測[26-28]，它包含兩類主要問題[29]，一種是分類問題，用于預測非連續、離散型數值，簡單來說就是預測樣本屬于哪一類；一種是回歸問題，用于預測連續具體的數值（圖1）。

圖1 監督學習過程Fig. 1 Supervised learning process

對白酒貯存時間進行鑒別和預測就是回歸問題，因為時間是連續、具體的變量。模型眾多，本研究選用的極端梯度提升（eXtreme Gradient Boosting，XGBoost）算法因適用性高，無需構造高精度的回歸分析，通過反復調整參數就可以得到較好的組合回歸模型而被廣泛運用于回歸問題中[26]。蘇天培[30]利用XGBoost算法建立模型，利用血糖含量實現對白血病的預測。劉宇等[31]基于XGBoost算法以多項指標作為變量建立模型實現對心臟病的成功預測。張永梅等[32]提出一種基于XGBoost算法的特征提取和預測方法，實現對霧霾的短時預測。但是，目前鮮見基于機器學習對白酒貯存時間進行鑒定和預測的相關研究和應用。因此，本研究采用GC-MS聯合XGBoost機器學習進行年份鑒定的探索。

XGBoost是基于梯度提升樹實現的集成算法，是一種加法模型，通過不斷迭代從而使模型的誤差不斷減少，其中，每一次迭代都會根據上一次迭代的預測結果對樣本進行加權處理，從而對當前輪次中的子模型進行優化。假設已經訓練了K棵樹，則對于第i個樣本的最終的預測值為[33]：

式中：xi為樣本的特征；fk（xi）為用第k棵樹對xi樣本進行預測，將結果相加即獲得最終的預測值而該樣本的真實值為yi，因此該算法下，共n個樣本的目標函數為：

該算法的優點主要包括：1）實現了并行化運算，加快了訓練模型的速度；2）目標函數中引入了正則項，控制了模型的復雜度，可以有效避免模型的過擬合；3）XGBoost作為一種集成算法，不僅支持二叉樹作為基分類器，還支持線形模型。但是，XGBoost算法在每次迭代之前，需要對結點的特征進行預排序、遍歷，從而選擇最優的分割點，這便導致了該算法在訓練時具有耗時的缺點。

白酒揮發性化合物之間存在關聯，部分化合物對白酒年份鑒定并無顯著影響。因此可以通過篩選特征化合物減少模型輸入數據，減少運算量，從而一定程度上彌補XGBoost的缺點，一般的特征篩選過程如圖2所示，首先，對包含所有化合物相對含量的全數據集進行特征選擇，去除冗余特征，降低復雜度，然后隨機將數據分為兩部分，分別用于測試和訓練，用訓練數據結合數學理論構建模型，同時用測試數據對模型性能進行測試和改進。

圖2 監督學習模型特征篩選和建模過程Fig. 2 Feature selection and establishment of supervised learning model

本研究采用HS-SPME-GC-MS技術采集白酒揮發性指紋圖譜，聯合極端隨機森林（extremely randomized trees，Extra-Trees）的變量重要性排序、sklearn特征選擇模塊中的單變量線性回歸測試（F_regression）以及連續目標變量的互信息（mutual_info_regression），尋找合適的時間指示化合物，通過XGBoost算法建立回歸模型對白酒貯存時間進行預測，旨在為白酒乃至其他乙醇類飲料的貯存時間預測提供新思路。

1 材料與方法

1.1 材料

不同貯存時間白酒基酒樣品由四川省瀘州老窖有限公司提供，樣品均在實驗室條件下貯存。在基酒貯存的不同時間節點取樣檢測，共計檢測70 款基酒揮發性成分，70 款基酒包括7 個批次基酒分別在10 個時間點取樣檢測。具體酒樣信息和檢測時間見表1。

表1 白酒基酒信息Table 1 Information about base baijiu samples

1.2 試劑

叔戊醇、正構烷烴（C8～C40）、辛酸乙酯、丁酸乙酯、庚酸乙酯、乙酸乙酯、癸酸乙酯、壬酸乙酯、十二酸乙酯、乙酸己酯、異戊醇、異戊醛、正己醇、3-甲基丁酸乙酯、十四酸乙酯、十六酸乙酯、壬醛、己酸甲酯、己酸、2,4-二叔丁基苯酚、苯甲醛、己醛、異丁醇、油酸乙酯、乙酸-2-苯乙酯、乙酸-3-甲基-1-丁醇、辛酸、乳酸乙酯、乙醇、甲醇（均為色譜純或大于98%純度），購自Sigma Aldrich公司、上海阿拉丁生化科技股份公司；氯化鈉（優級純）中國國藥上海化學試劑公司。

1.3 方法

1.3.1 揮發性成分的指紋圖譜采集

1.3.1.1 酒樣預處理方法

所有樣品于20 ℃保存。分析之前，用超純水將酒樣乙醇體積分數稀釋至8%，取4 mL稀釋后樣品置于20 mL頂空瓶中，加入1.5 g氯化鈉和10 μL叔戊醇內標（8.05 g/L）進行下一步的揮發性成分采集。

1.3.1.2 HS-SPME條件

采用實驗室前期優化條件[34]，使用三相萃取頭80 μm DVB/Carboxen/PDMS在50 ℃平衡5 min，然后在50 ℃，350 r/min轉速萃取40 min。最后在250 ℃進樣口解吸附5 min完成進樣。

1.3.1.3 GC-MS條件

TG-WAXMS毛細管色譜柱（60 m×0.25 mm，0.25 μm）；載氣：純度大于99.999%的He；流速：1.0 mL/min，分流比：20∶1；柱溫：進樣口溫度保持在250 ℃，起始氣相色譜柱在50 ℃維持2 min，以3 ℃/min升溫至145 ℃，再以15 ℃/min升溫至230℃，并保持3 min。

離子源溫度260 ℃；接口溫度200 ℃；電離方式：電子電離正離子模式；電子能量70 eV；掃描質量范圍m/z33～350。

1.3.2 化合物定性方法

首先利用儀器自帶的MASS HUNTER（B.08.00）軟件對采集的數據進行解卷積，通過比對質譜庫（NIST）僅保留匹配相似度大于700的定性結果，并手動過濾掉柱流失產生的化合物（主要是含硅和鹵素的化合物）。采用與樣品采集完全相同的參數進行正構烷烴混標（C8～C40）測定，計算保留指數（retention index，RI）。將本實驗條件下對化合物計算出的RI（RI cal）與文獻中該物質的RI（RI lit）對比進一步定性，由于實驗條件、儀器等因素會造成差異，認為RI cal和RI lit相差30以內時定性結果準確。最后，使用可獲得的91種物質標準品用于第3次定性。

1.3.3 特征化合物篩選及XGBoost模型構建方法

特征值篩選及模型構建均使用Anaconda Navigator運行Python代碼實現分析和可視化。采用10折交叉驗證避免XGBoost的過擬合，當預測結果已經很好時可提前停止建樹，這有助于提高訓練速度[35]。基于XGBoost算法建立白酒貯存時間回歸預測模型，通過Extra-Trees、F_regression以及mutual_info_regression進行特征值篩選，所用Python代碼已上傳至https://github.com/seaflyru/-/tree/main。具體建模思路如圖3所示。

步驟1）：采用全指紋圖譜作為輸入數據集進行特征篩選和建立XGBoost回歸模型。根據樣本個數按照4∶1的比例隨機將數據集劃分為訓練集和測試集，訓練集的數據用于特征值篩選和模型的建立，測試集的數據用于樣品貯存時間預測。步驟2）～4）均只使用訓練集。

步驟2）：基于不同特征值算法進行特征重要性排序。通過Extra-Trees的變量重要性排序、sklearn特征選擇模塊中的F_regression以及mutual_info_regression篩選對白酒貯存年份影響顯著的物質，其主要目的就是縮小數據集，優化模型參數，通過上述分析可得到3 組特征變量的重要性排序。

步驟3）：特征值篩選。分別取步驟2）的3種方法特征變量的前i（25～80）個特征的交集作為XGBoost 回歸模型的特征變量，采用10折交叉檢驗進行模型優化，模型預測準確性降低或不再增加時的交集為代表性特征。

步驟4）：模型建立及評估。以步驟3）所得的代表性特征為輸入數據集，以均方誤差（mean squared error，MSE）和R2值評估模型性能獲得最優模型參數，建立進行白酒貯存時間臨時性鑒別的XGBoost回歸模型。

步驟5）：年份鑒別測試。將測試集數據的代表性特征值作為數據集輸入模型預測樣品的貯存時間，以R2和MSE的形式輸出預測結果。

隨著工藝技術的不斷提高,嵌入式SRAM的穩定性在設計和測試領域內也越來越受到廣泛關注。對于低電壓SRAM中的穩定性故障,由于開路電阻在一定范圍內很難通過傳統測試方法檢測出來,因此,需要增加專門的DFT電路來進行測試。

圖3 白酒貯存時間鑒別模型建立過程示意圖Fig. 3 Flow chart for the establishment of a predictive model for baijiu age

2 結果與分析

2.1 存放兩年的白酒基酒揮發性物質熱圖

采用GC-MS法進行白酒樣品測定，總離子流圖如圖4所示。經過定性去噪后貯存2 a的白酒基酒中共分離鑒定得到98種揮發性化合物（圖5），其中醇類物質6種、醛類物質9種、酸類物質7種、酯類物質68種、酮類物質3種、其他物質5種，在這些化合物中酯類物質數量最多（約70%），這一結果與前人的研究一致[36]。化合物相對含量變化存在非簡單線性增減的規律，且變化不顯著的噪音物質較多，因此，特征篩選和機器學習對貯存時間判別十分重要。

圖4 代表性樣品的總離子流圖Fig. 4 Total ion current chromatogram of representative sample

2.2 特征集篩選及預測白酒貯存時間的回歸模型構建

隨機將白酒樣品按照4∶1的比例劃分為訓練集和測試集，訓練集用于模型的建立，測試集用于模型的預測。通過特征值工程可以計算每個特征變量對模型的貢獻度，從而判斷哪些特征變量對于白酒貯存時間的鑒定更為重要。本研究運用Extra-Trees的變量重要性排序、sklearn特征選擇模塊中的F_regression以及mutual_info_regression這3種方法分別篩選重要的特征變量，得到各化合物的3 組重要性排序（圖6）。

圖5 貯存2 a白酒基酒的揮發性物質相對含量熱圖Fig. 5 Heatmap of the relative contents of volatile substances in base baijiu stored for two years

圖6 3種方法篩選白酒揮發性成分中的特征變量Fig. 6 Filtration of feature variables of volatile components in baijiu by three methods

Extra-Trees是2006年PierreGeurts等提出的算法，由許多決策樹集成[37]。每棵決策樹都使用全部訓練數據集進行完全隨機的計算實現決策分叉，在隨機的情況下某一特征值對于模型鑒別仍然表現出很強的區分度，即變量重要性（variable importance in projection，VIP）得分高，則該特征值對模型準確性貢獻大。F_regression是基于單變量線性回歸測試原理，適用于特征篩選過程中對多個回歸變量各自的線性擬合效果進行得分轉換，分兩個步驟完成，首先計算每個回歸變量與目標之間的線性相關性，然后將其轉換為F得分，F得分越大則該變量對鑒定的貢獻越大[38]。mutual_info_regression是基于鄰近算法的熵估計出一個互信息（mutual information，MI）。MI用來衡量兩個隨機變量間的依存關系，當且僅當兩個變量是獨立的，MI才為零值。一個變量的MI值越大時，該變量與其他隨機變量的相關性越強，越具有代表性[39]。

根據Extra-Trees重要性評估結果（圖6a）可以看出，油酸乙酯是最重要的特征變量，其次是2,6-二叔丁基-4-甲基苯酚和亞油酸乙酯，這一結果與本實驗室前期研究發現的時間指示性化合物吻合[34]。根據F_regression結果（圖6b）可以看出，油酸乙酯是篩選到的最關鍵特征，其次是亞油酸乙酯和2-十五烷酮，進一步證實了油酸乙酯作為時間指示性化合物的有效性。mutual_info_regression結果（圖6c）可以看出，己酸-2-苯乙酯被認為是最重要的化合物，這一物質也是前期篩選到的時間指示性化合物之一，其次是乙酸辛酯和己酸異戊酯。

圖7 特征子集篩選Fig. 7 Feature subset selection

取每種方法前25～80種特征變量的交集，采用10折交叉驗證評估所建模型的擬合程度。從圖7a可以看出，最有效的建模特征為3種篩選方法前59 個特征中共有的特征。將3種方法的前59 個特征變量進行Venn分析可得到共性化合物32種（圖7b、表2），其被認為是最有效的建模特征，以此特征變量交集建立最終的XGBoost分類預測模型。該32種特征化合物列表和在3種篩選方法的最終得分如表2所示。

表2 32種特征化合物及其在3種篩選方法中的得分Table 2 Scores for 32 compounds determined by three screening methods

2.3 白酒貯存時間回歸模型性能評估

對于使用32種特征化合物建立的回歸模型，采用MSE和R2值評估模型性能，結果如圖8所示，模型R2可達到0.987，MSE為1.044，該結果說明該模型穩定可靠，具有預測白酒貯存時間的能力。

圖8 預測結果和模型評估Fig. 8 Good agreement between model predictions and actual values

3 結論

采用HS-SPME-GC-MS技術分離鑒定白酒基酒的揮發性指紋圖譜，70 個不同貯存時間的基酒共鑒定出98種揮發性成分，其中醇類6種、醛類9種、酸類7種、酯類68種、酮類3種、其他類5種。基于XGBoost算法，聯合Extra-Trees、F_regression、mutual_info_regression 3種特征值篩選手段，最終采用以油酸乙酯為首的32種特征化合物作為建模變量，建立回歸模型對白酒貯存時間進行臨時性鑒別，模型的R2評估結果為0.987，表明該模型可靠，為白酒酒齡的判斷提供了新思路。