余松柏,趙小波,2,田 敏,鄒勝瓊,劉夢婕,周 軍,2,張宿義,2,3
(1.瀘州老窖股份有限公司,四川瀘州 646000;2.國家固態釀造工程技術研究中心,四川瀘州 646000;3.釀酒生物技術及應用四川省重點實驗室,四川瀘州 646000)
白酒酒醅的常規理化分析,作為釀酒企業重要的質量控制手段,其結果對于釀酒生產指導、酒醅配料調整、質量控制有著不可替代的作用。但是傳統的理化分析方法存在著工作量大、耗時長、耗費人力多、結果反饋不及時等諸多問題,制約著其在大規模生產中的進一步應用。為解決此類問題,近紅外光譜分析技術近年來逐漸引起行業從業人員的注意,利用其快速、無損、操作簡單等特點,以期達到白酒酒醅的快速、大批量檢測。
近紅外光是指介于可見光與中紅外光之間的電磁波,其波長介于0.75~2.5 μm之間,近紅外光譜主要是由于分子振動的非諧振性使分子振動從基態向高能級躍遷時所產生,其主要記錄的是含氫基團XH(X:C、N、O 等)振動的倍頻與合頻吸收[1-2]。近紅外光譜技術由于其操作簡單,無損,無需前處理等優點,近年來,已在食品、化工、醫藥等行業廣泛應用[3]。此外,在“中國制造2025”“工業4.0”等強調智能制造的大環境中,白酒生產向著機械化、信息化、智能化的發展必定是今后行業的發展方向,近紅外其自身具有的大批量、可移動車載式以及在線檢測等潛在的應用優勢,在白酒行業的廣泛應用,為白酒產業智能化發展奠定了技術上的可能。
近20 年以來,研究人員不斷嘗試將近紅外光譜技術應用于白酒酒醅的分析。2003年,五糧液集團的趙東等[1,4]首次將近紅外光譜技術應用于白酒的酒醅分析,研究人員使用布魯克的Vector 22/N型近紅外儀器,用于分析酒醅的酸度、淀粉、水分指標,完成了近紅外光譜技術應用于白酒酒醅分析的首次開拓性工作。隨后,將近紅外光譜應用于酒醅的檢驗引起了各酒廠的廣泛研究,汾酒集團的郝建國[5],劍南春酒廠的唐利[6],山東景芝酒業的曹建全[7],安徽古井貢的楊詩騰[2],安徽金種子酒業的林房[8],武漢黃鶴樓酒業的李良[9],江蘇雙溝酒業的姜福州[10]等研究者分別使用福斯(foss) InfraXact 型,布魯克MPA 型,瑞士Buchi 型,Thermo Antaris II 型,賽默飛Nicolet Antaris Ⅱ型,Nicolet Antaris Ⅱ型,瑞士Buchi 等近紅外儀器完成了適用于各自酒廠酒醅的近紅外快檢技術的開發工作。
縱觀此類報道,近紅外光譜法在我國釀酒行業酒醅分析方面的應用,仍然處于起步階段,大多數的研究仍然還停留于實驗室階段;雖然在各自報道中,近紅外檢測酒醅,其所預測的理化指標精確度都取得了不錯的效果,但是考慮到釀酒行業四季變化、環境溫濕度變化(尤其是釀酒車間夏季的高溫高濕環境)、酒醅狀態變化、酒醅配料調整,生產工藝改變等外界干擾因素的引入,將近紅外光譜技術應用于實際生產中,進行全生產周期釀酒酒醅的檢測,在當前的研究報道中,增加建模樣品的多樣性及代表性,優化算法增加模型準確性等諸多問題仍亟待解決。
本文旨在通過利用近紅外光譜技術,將過去近幾年內的糟醅近紅外光譜與理化指標一一對應,利用一階導結合單位長度歸一化(nle)等方法對光譜進行預處理,使用協同區間偏最小二乘法(SIPLS)、向后間隔偏最小二乘法(BIPLS)等算法對光譜波段進行優化選擇,建立最終的近紅外酒醅快速檢測模型。此外,通過模型參數、后期模型外部盲樣的理化分析數據作模型外部驗證等方式最終評定模型的穩定性、準確性及可靠性。最終,以期利用樣本數量的優勢性,盡可能的涵蓋生產中可能存在的內部及外部影響因素,建立一個覆蓋樣本數量廣泛,代表性強的酒醅快檢模型,以應用于釀酒車間酒醅的酸度、淀粉、水分的快速檢測,為后期釀酒車間向智能化升級提供技術支持。
實驗樣品:所用酒醅皆取自于瀘州老窖釀酒車間,按照五點取樣法取樣,盡可能降低樣品的差異性。按照生產工藝的不同,分別從春夏秋冬不同季節均勻地收集樣本。
實驗儀器及軟件:傅里葉變換近紅外光譜儀(瑞士),光譜范圍為10000~4000 cm-1,分辨率為8 cm-1,掃描次數為32。光譜采集軟件為NIRWare Opreator(北京中安信達科技有限公司)、建模軟件為NIRCal(北京中安信達科技有限公司)、算法選擇為Matlab軟件。
1.2.1 樣品的化學測定值分析方法
依據國標法或企標法分別對每個樣品進行水分、酸度、淀粉指標的檢測,其中水分檢測參考國標GB 5009.3—2016 直接干燥法,酸度檢測參考國標GB 5009.239—2016,淀粉檢測參考國標GB 5009.9—2016 酸水解法。
1.2.2 樣品光譜的采集
采用傅里葉變換近紅外光譜儀,InGaAs 控溫檢測器,以漫反射測量方式獲取酒醅樣品光譜信息。通過操作NIRWare Opreator 軟件采集每個樣品的光譜,每個樣品重復測定3次。
光譜的預處理、偏最小二乘計算,SIPLS 算法等程序均在Matlab環境下運行。
1.2.3 模型參數計算方法

式中:n——樣本個數;
YS——樣本的理化分析數值;
YC——樣本的近紅外預測值;
YP——樣本理化分析數值的平均值。
鑒于近紅外分析屬于間接分析方法,建模樣品光譜質量、傳統理化分析精確度、模型優化參數選擇都會對近紅外定量分析的準確度產生較大的影響[11]。除去建模優劣的影響外,實驗室分析數據的準確度對于近紅外模型的準確度至關重要,因此,我們對傳統分析方法檢測酒醅的數據是否滿足建模需求進行了驗證,選擇酒醅分析中步驟最為繁雜的酒醅淀粉分析為例,選擇5 份出窖酒醅樣品,分別分配于實驗員A、B、C、D、E、F 共6 人,每人做4個平行試驗,對所得的結果進行相對極差和平均偏差計算,結果統計于表1。

表1 不同人員傳統淀粉檢測結果統計分析
由表1 可知,使用傳統理化分析方法,分析酒醅分析過程最為復雜的淀粉,實驗員A、B、C、D、E共5 人均取得了較好的效果,個人的相對極差及平均偏差皆滿足要求,這表明傳統的理化分析方法及實驗室操作人員的檢測水平,皆滿足近紅外建模需求,為建模工作的順利開展奠定良好的基礎。
采集釀酒車間近兩年全部的酒醅出入窖樣品的近紅外光譜,刪除部分未及時進行光譜賦值的數據,然后將光譜按照Kennard-Stone(K-S)方法將總的光譜樣本分為校正集與驗證集。此外,保持適當比例同時期的非建模樣本作為新建模型驗證的測試集。分別按照出窖、入窖類別建立酒醅的酸度、淀粉、水分近紅外快檢模型。
2.2.1 淀粉模型建立
共采集到淀粉已賦值光譜3376 條,其中入窖酒醅光譜1425 條,出窖酒醅光譜1951 條,使用Matlab 進行算法選擇對波段進行優化,使用建模軟件NIRCal 對光譜進行預處理并建立模型。使用決定系數R2及預測標準偏差RMSEP 對模型進行評價,確定模型主成分數(PCs),建立出入窖酒醅快檢模型。
最終,入窖酒醅淀粉模型采用趨近歸一化(ncl)及一階導數(db1)作為光譜預處理方法,采用協同區間偏最小二乘法(SiPLS 作為)作為波段選擇方法,最終模型選擇波段5504~6400 cm-1、6404~7000 cm-1作為建模波段區間,以偏最小二乘法(PLS)建立模型,最終模型PCs 為9,RMSEP 為0.4096,決定系數R2為0.8362。入窖建模樣本其自身理化值及模型預測值散點分布圖如圖1。

圖1 入窖酒醅建模樣本淀粉理化值及模型預測值散點分布圖
出窖酒醅淀粉模型最終光譜預處理方法選擇為Segment 5 Gap5 的3點二階泰勒求導(ds2),建模波段選擇為4304~4600 cm-1、5504~6400 cm-1。最終模型PCs 為8,RMSEP 為0.3052,決定系數R2為0.9192。出窖建模樣本其自身理化值及模型預測值散點分布圖如圖2。
2.2.2 水分模型建立

圖2 出窖酒醅建模樣本淀粉理化值及模型預測值散點分布圖
共采集水分已賦值光譜2837 條,其中入窖酒醅光譜1049 條,出窖酒醅光譜1788 條。最終入窖酒醅水分模型選擇預處理方法9 點卷積平滑(sg9)及一階導結合單位長度歸一化(nle),建模波段選擇 為4304~4600 cm-1、5504~6100 cm-1、7600~7904 cm-1。最終模型PCs 為7,RMSEP 為0.5871,決定系數R2為0.8888。入窖建模樣本其自身水分理化值及模型預測值散點分布圖如圖3。

圖3 入窖酒醅建模樣本水分理化值及模型預測值散點分布圖
出窖酒醅水分模型選擇光譜預處理方法整點散射校正(mf),建模波段選擇為5504~6100 cm-1、6400~6700 cm-1、7600~7904 cm-1。最終模型PCs為9,RMSEP 為0.4766,決定系數R2為0.9118。出窖建模樣本其自身水分理化值及模型預測值散點分布圖如圖4。
2.2.3 酸度模型建立

圖4 出窖酒醅建模樣本水分理化值及模型預測值散點分布圖
采集酸度已賦值光譜4199 條,其中入窖酒醅光譜1732 條,出窖酒醅光譜2467 條。最終入窖酒醅酸度模型選擇光譜預處理方法為趨近歸一化(ncl)及一階導數(db1),建模波段選擇為4304~4900 cm-1、5804~6400 cm-1。最終模型PCs 為9,RMSEP 為0.0714,決定系數R2為0.8776。入窖建模樣本其自身酸度理化值及模型預測值散點分布圖如圖5。

圖5 入窖酒醅建模樣本酸度理化值及模型預測值散點分布圖
出窖酒醅酸度模型選擇光譜預處理方法為Segment 5 Gap5 的3 點二階泰勒求導(ds2),建模波段 選 擇 為4300~4600 cm-1、4904~5500 cm-1、5804~6100 cm-1。最終模型PCs 為10,RMSEP 為0.0922,決定系數R2為0.9427。出窖建模樣本其自身酸度理化值及模型預測值散點分布圖如圖6。
2.2.4 模型評價
在模型不過度擬合的前提下,預測標準偏差RMSEP 其數值越低,代表模型的效果越好;R2稱為決定系數,其可以認為代表真值與預測值的相關系數的平方,R2越接近于100,其代表模型預測值與理化值越接近。通常在一個模型中,如果樣品組分的最大值和最小值之間差值越大,決定系數R2越大[1,6]。

表2 瀘型白酒酒醅近紅外模型相關信息匯總

圖6 出窖酒醅建模樣本酸度理化值及模型預測值散點分布圖
新建立近紅外模型的各相關信息匯總于表2中,考慮到所建立模型樣本含量基數大,指標理化范圍跨度大,樣本包含外界變化因素多以及理化測定存在的一定誤差,從目前模型的參數水平上來看,總體上來說建立的模型是比較良好、穩定的。參考其他酒廠報道文獻中所建立模型的參數,我們所建立模型也是比較符合行業目前主流水平的。
除去建模時,選用一定比例的非建模樣品(建模樣品同時間段樣品)作測試集,來評價模型預測準確性外,為進一步驗證所建立模型的預測效果,在模型建立完成后的,抽取一定比例的后期近紅外檢測樣品,作為盲樣,對模型進行外部驗證,來評判模型的預測性能。結果見圖7。

圖7 淀粉模型預測絕對誤差分布圖
被抽取參與驗證的盲樣,對其模型預測值與理化分析值的絕對誤差進行統計分析。淀粉模型預測情況的絕對誤差分布圖如圖7,其中參與驗證的入窖盲樣197 個,出窖116 個。從圖7 中絕對誤差分布情況來看,模型預測效果整體是比較可靠的,總體來說,出窖模型要優于入窖模型,這與模型參數RMSEP(入窖0.4096,出窖0.3052)所反映的模型預測情況是一致的,出窖模型中淀粉預測值與理化值絕對差值<1.5 的樣品占比達到96.55%,入窖樣品占比達到87.31%。
水分模型預測值與理化值絕對差值分布圖如圖8,其中參與驗證的盲樣,入窖198 個,出窖115個。總體來說,入窖模型與出窖模型預測效果相差不大,整體預測效果比較可靠穩定,模型預測值與理化數值絕對差值<1.5的樣品占比皆達到了92%以上。

圖8 水分模型預測絕對誤差分布圖
酸度模型預測值與理化值的絕對差值分布圖如圖9,其中參與驗證的盲樣入窖個數200,出窖個數118。在模型參數中,入窖RMSEP 值為0.0714 優于出窖RMSEP 值0.0922,從模型盲樣驗證情況對比來看,入窖模型整體預測性能也是優于出窖模型的,其預測絕對差值<0.3 的樣品占比相較于出窖的92.37%,入窖占比達到95.50%。

圖9 酸度模型預測絕對誤差分布圖
2.4.1 季節性的工藝調整
釀酒生產隨著季節的變化,往往會在酒醅配料上進行調整以適應外界環境的變化。以入窖為例,我們曾統計過不同季度的入窖酒醅其各指標理化均值及其最大值與最小值情況,隨著季節的改變,酒醅的理化數據往往會發生一定規律上的變化。一般來說,二三季度的酒醅水分均值一般高于一四季度。水分和淀粉作為酒醅理化數據中的相對值,水分占比大,勢必造成淀粉相對含量的減少,故二三季度的淀粉均值一般低于一四季度。酸度上二三季度均值總體上高于一四季度。考慮到酒醅指標變化的波動性,因此建立適用于全年流水線式的近紅外酒醅檢測模型適用于生產,酒醅模型的樣本數量足夠大,代表性足夠廣泛是極其重要的。
2.4.2 檢測時效性的影響
酒醅作為一種釀造過程中的樣品,其變化因素多,富含多種活性微生物。作為發酵過程中的半成品產物,其理化指標始終處于一個動態的變化中。為保證建模精確度,這要求在建模過程中,需盡可能縮短理化分析與近紅外光譜掃描的時間間隔,提高酒醅檢測的時效性,以降低間隔時間可能帶來的精度影響。這也從另外一個方面說明,此類處在動態變化中且屬于反應過程中的產物,其變化因素多,勢必要求建模樣品多,建模周期長。
本研究利用近紅外光譜技術建立了瀘州老窖酒醅快速定量分析模型,所建立模型樣本基數大,時間跨度覆蓋整個釀酒生產周期,理化指標范圍足夠覆蓋整個生產周期樣本各自的情況,總的來說模型比較接近于實際生產。模型光譜以近紅外漫反射的方式采集,所建立模型中,使用整體散射校正(mf)、趨近歸一化(ncl)等手段對光譜進行了預處理,對于特征光譜波段也進行了篩選,最終利用偏最小二乘法建立模型。此外,我們利用外部盲樣作為驗證,對模型進行了預測效果的外部判斷,最終,在允許的檢測誤差范圍內,該模型預測效果是比較穩定可靠的。
近紅外光譜技術其批量性、快速性的檢測特點滿足釀酒車間智能化發展的方向,為釀酒行業實現過程控制,在生產中實現酒類食品質量預警,提高產品的優良率提供了技術上的支持。