王開鑄,田建平*,孫 婷,鞠 杰,黃 丹,胡新軍
(1.四川輕化工大學 機械工程學院,四川 宜賓644000;2.四川輕化工大學 生物工程學院,四川 宜賓644000)
大曲是白酒釀造的糖化劑、發酵劑和生香劑[1-2]。大曲酸度值的形成主要來源于生酸微生物進行的有機酸代謝以及脂肪、淀粉和蛋白質的降解,可作為判斷曲香強弱的一個指標[3-5]。酸度值檢測的傳統方法為電位滴定法,測定過程復雜且耗時長,不能及時地指導培曲生產[6-7]。
目前,相關學者對大曲研究更多是運用相關統計學軟件分析大曲不同對象之間的相關性[8-11],較少運用相關數學模型進行量化分析,存在較大局限性,如:趙金松等[8]運用多元統計、冗余分析(redundancy analysis,RDA)證實了揮發性特征組分與革蘭氏陽性(G+)菌量呈顯著正相關;王世寬等[9]利用SPSS軟件分析得出溫度對乳酸菌、酵母菌、霉菌和細菌的變化有較強的相關性;唐賢華等[10]進行窖外模擬發酵試驗,通過相關性分析發現糟醅的水分和酸度值與硬度、內聚性、回復性呈顯著正相關(P<0.01),與黏著性呈顯著負相關(P<0.01);黃治國等[11]研究濃香型酒醅一個發酵周期中主要的微生物群落變化規律和酒醅理化指標的變化規律,表明酒醅細菌群落的多樣性與淀粉的相關系數為0.717(P<0.01),與還原糖的相關系數為0.744(P<0.01),與總酸的相關系數為-0.704(P<0.01)。
本研究利用在大曲發酵周期(1~28 d)內采集的大曲內部溫度和水分數據,并結合電位滴定法測定的大曲酸度值數據,建立發酵過程中大曲酸度值快速檢測的數學模型。首先對原始數據進行異常樣本剔除,劃分樣本集,再分別運用偏最小二乘回歸(partial least squares regression,PLSR)、支持向量回歸機(support vector regression,SVR)和反向傳播神經網絡(back propagation neural network,BPNN)建立大曲內部溫度、水分與酸度值相關性預測模型,運用決定系數與均方根誤差(root mean square error,RMSE)對訓練集、測試集進行效果評價,找出最佳數學模型,并采用外部驗證方式驗證模型效果,為大曲指標的快速檢測技術提供依據,對于大曲生產技術進步和產品質量升級具有重大現實意義。
濃香型大曲:四川宜賓某酒業有限公司;氫氧化鈉(分析純):成都市科龍化工試劑廠。
PT100溫度傳感器:杭州美控自動化技術有限公司;FDS-100土壤水分傳感器:邯鄲市叢臺銳達儀器設備有限公司;曲房監測系統:四川輕化工大學自制;CP214電子天平、STARTER 3100 pH計:奧豪斯儀器(上海)有限公司;78-HW-1恒溫磁力攪拌器:金壇市醫療器械廠;ZDJ-5B型自動滴定儀:廣州市深華生物技術有限公司。
1.3.1 數據的采集與檢測
利用曲房監測系統采集濃香型大曲的內部溫度和水分,培曲前13 d每天從兩間曲房分別采集4個不同濃香型大曲樣本,后15 d隔天采集,共160個樣本,另外再采集11個樣本(發酵時間為1 d、3 d、5 d、7 d、9 d、11 d、13 d、17 d、21 d、25 d、28 d)作為外部驗證預測不參與建模,取樣點見圖1,并運用電位滴定法[12]檢測監測點大曲樣本的酸度值。

圖1 大曲取樣點分布Fig. 1 Distribution of sampling points of Daqu
1.3.2 數據分析方法
(1)樣本集劃分
為了達到充分訓練模型的效果,訓練集樣本數據要最大程度體現所有樣本數據狀況,根據K-S算法[13-15]將文中160個樣本數據按照3∶1的比例劃分為120個訓練集樣本,40個測試集樣本。
(2)偏最小二乘回歸[16-17]
偏最小二乘回歸(PLSR)是一種新型的多元統計數據分析方法,它將多元線性回歸分析、主成分分析與典型相關分析有機結合起來,其建模原理也是建立在這3種分析方法之上的,通過從自變量集合中提取若干相互獨立的主成分來建立與因變量之間的關系。
具體建模方法:設有2個自變量X=(x1,x2)、1個因變量Y=(y1)和n個樣本點,其中x1為大曲溫度,x2為水分,y1為大曲酸度,分別在X和Y中提取出主成分分量t1和u1,要求t1和u1應盡可能大地攜帶各自數據表中的變異信息,以及t1和u1的相關程度能夠達到最大,在第一個主成分分量t1和u1被提取后,分別實施X對t1以及Y對u1的回歸。若回歸方程此時已經達到滿意的精度,則成分確定,否則將利用X被t1以及Y被u1解釋后的殘余信息進行第二輪的成分提取,如此往復,直到精度滿足要求為止。
(3)支持向量回歸機
支持向量回歸機(SVR)是一種監督學習方法,廣泛應用于分類和回歸問題,其是由VAPNIK V N[18]在基于統計學理論中結構風險最小化原理的基礎上提出的。SVR最先是用來解決分類問題,后來通過使用替代懲罰函數(loss function)來解決回歸問題[19-22]。
大曲發酵酸度值預測模型樣本集合為{(xi,yi),…,(xs,ys)},i=1,2…,s,其中xi=(Xi1,Xi2)為大曲酸度值預測模型的特征矩陣,s=120,Xi1為大曲溫度,Xi2為大曲水分,yi為大曲發酵酸度值,通過求解函數f(x)來預測大曲溫度、水分對應大曲發酵酸度值y值。
線性函數設為式(1):

式中:f(x)為大曲發酵酸度值預測模型輸出,ω、b為大曲發酵酸度值預測模型系數。
引入松弛變量ξi、ξ*i,可將支持向量機線性回歸求解問題轉化為優化問題的方式確定ω的值。

式中:yi為大曲發酵酸度值預測樣本數據的輸出,xi為大曲發酵酸度值預測樣本數據的輸入,ε為松弛因子,C(C>0且為常數)為懲罰因子。
在實際工作中,采用上述線性回歸方法,難以達到大曲發酵酸度值預測的精度要求,因此引入Lagrange對偶問題求解,得到式(4)。


式中:σ為高斯核寬度系數。
(4)BP神經網絡[23]
BP神經網絡(BPNN),即誤差反向傳播算法的學習過程,包括信息的正向傳播和誤差的反向傳播兩個過程。一般結構可分為輸入層、隱含層、輸出層。在輸入層輸入訓練集樣本,訓練集樣本乘各自的連接權值輸入到隱含層,隱含層將上層傳遞下來的值再乘相應的連接權值輸入給輸出層,輸出層根據期盼結果判斷神經網絡處理是否正確,若正確則增加相應的連接權值,相反,則減少相應的權值。神經元的輸出大曲酸度值yi可以表示為式(6)。

式中:xi(i=1,2,…,n)為當前神經元相連的其他神經元傳遞的輸入信號,即xi=(X1,X2),X1為大曲溫度,X2為水分,wij為從神經元j到神經元i的連接強度或權值,θi為神經元的激活閾值或偏置,f為激活函數或轉移函數神經元的輸出。
(5)模型評價方法
為了驗證3種算法得到模型的泛化能力和預測精度,采用決定系數R2與均方根誤差(RMSE)2個指標進行評價,指標計算公式分別見式(7)和式(8)。在樣本數據相同的前提下,R2越接近1,RMSE越接近0時,模型的預測能力越強[24]。

式中:n為訓練集樣本總數;m為驗證集樣本總數;y?i為第i個樣本的預測值;yi為第i個樣本的實際測量值;ym為所有樣本實際測量值的平均值。
一個發酵周期(28 d)不同樣本大曲內部溫度、水分和酸度值隨時間變化的曲線見圖2。
由圖2a可知,大曲內部溫度變化呈現先上升后逐漸保持穩定,再到緩慢下降的趨勢。前3天溫度迅速增長,可能是由于大曲內部水分含量高,發酵前期微生物富集較快,第6天對曲房進行第一次翻曲(收堆),引起溫度小幅下降,第18天進行第二次翻曲(并房),導致溫度小幅上升。由圖2b可知,大曲內部水分在整個發酵周期里呈現下降趨勢,前13天水分急劇下降,可能是由于霉菌等微生物大量生長繁殖產熱,大曲水分被蒸發和消耗,而在發酵后期水分呈緩慢下降趨勢,可能是溫度降低水分蒸發變慢。由圖2c可知,酸度值在整個發酵周期呈下降趨勢。前8天酸度值急劇下降,分析可能是產酸細菌大量繁殖,溫度迅速上升,產酸量增幅較大;發酵8~15 d酸度值下降趨勢稍緩,產酸細菌生長較穩定,產酸量增幅較小;發酵后期,酸度值趨于平緩,表明產酸細菌生長受阻,此時,大量的霉菌和酵母菌開始生長,產酸細菌則停止代謝。分析表明,大曲內部溫度、水分與酸度值相關性無法直接獲得,需要借助現代數學方法建立相關預測模型,解析大曲內部溫度、水分與酸度值之間的關系。

圖2 發酵過程中大曲內部溫度(a)、水分(b)和酸度值(c)的變化Fig. 2 Changes in temperature (a), moisture (b) and acidity value (c)of Daqu during fermentation
2.2.1 PLSR法建立的大曲酸度值預測模型
PLSR法建立大曲酸度值預測模型的預測值與實測值的相關性散點分布見圖3。
采用PLSR法所建模型,在訓練集與測試集上的決定系數R2、均方根誤差(RMSE)分別為0.796 9和0.784 7、0.159 0和0.137 2。由圖3可知,訓練集與測試集的數據都偏離直線的數據點較多,故PLSR建立大曲酸度值預測模型性能很差,模型只能夠做近似運算。

圖3 偏最小二乘回歸法大曲酸度值預測值與實測值的相關性Fig. 3 Correlation between the measured value and predicted value of Daqu acidity value by partial least square regression method
2.2.2 SVR法建立的大曲酸度值預測模型
SVR法建立大曲酸度值預測模型預測值與實測值的相關性散點分布見圖4。

圖4 支持向量回歸機法大曲酸度值預測值與實測值的相關性Fig. 4 Correlation between the measured value and predicted value of Daqu acidity value by support vector regression machine method
采用SVR法所建模型,在訓練集與測試集上的決定系數R2、均方根誤差(RMSE)分別為0.916 7和0.896 7、0.101 8和0.101 0。由圖4可知,訓練集與測試集的數據都較好的集中于直線兩側,故模型性能良好,但樣本數據在訓練集數據上的表現要比測試集上好,說明模型的泛化性能不好,抗干擾能力較差。
2.2.3 BPNN法建立的大曲酸度值預測模型
BPNN法建立大曲酸度值預測模型的預測值與實測值的相關性散點分布見圖5。

圖5 BP神經網絡法大曲酸度值預測值與實測值的相關性Fig. 5 Correlation between the measured value and predicted value of Daqu acidity value by BP neural network method
采用BPNN法所建模型,在訓練集與測試集上的決定系數R2、均方根誤差(RMSE)分別為0.901 3和0.874 5、0.110 8和0.104 8。由圖5可知,訓練集與測試集的數據都較好的分布于直線兩側,故模型性能良好,但測試集效果明顯不如SVR法的測試集效果且比PLSR法的測試集效果好,同SVR模型一樣模型的泛化性能不好,抗干擾能力較差。
2.2.4 預測模型的效果對比
由圖6可知,采用PLSR法建立的大曲酸度值預測模型不管是在訓練集還是在測試集上性能都較差,而SVR、BPNN法建立的兩種大曲酸度值預測模型的精度均較高,模型的均方根誤差均較小,這表明本研究選取2個參數大曲內部溫度、水分所建立的預測模型可以成功地對大曲酸度值進行預測。此外,采用SVR法建立的大曲酸度值預測模型在訓練集和預測集的決定系數與均方根誤差都比BPNN好且運算時間更短,故采用SVR法建立的大曲酸度值預測模型性能要稍優于BPNN法建立的大曲酸度值預測模型,具有更好的實用性。SVR模型具有更強大的非線性擬合能力,因而具有較強的優越性。

圖6 三種算法預測結果對比Fig. 6 Comparison of prediction results of three algorithms
為了進一步驗證模型的準確性和穩定性,采用外部驗證方式驗證模型效果,即將未參與建模的11個預測樣本組成的驗證集代入模型進行預測,同時與電位滴定法測得的真實值進行比較,對比結果見表1。由表1知,酸度值實際值和預測值都呈下降的趨勢,且模型驗證集的大曲酸度值結果與電位滴定法測得的真實值相比,最小相對誤差為1.6%,最大相對誤差為11.1%。

表1 酸度真實值與預測值結果對比Table 1 Comparison of actual acidity and predicted results
大曲發酵過程中的酸度值與大曲內部溫度、水分相關性無法直接獲取,必須借助現代數學方法進行分析。分別使用偏最小二乘回歸(PLSR)、支持向量回歸機(SVR)、BP神經網絡(BPNN)建立大曲內部溫度、水分與酸度值的關聯性預測模型,綜合評價指標顯示支持向量回歸機(SVR)所建大曲酸度值預測模型效果最好,測試集上的決定系數(R2)為0.874 5,均方根誤差(RMSE)為0.104 8。該模型經外部驗證后,模型酸度的預測值與實際值的相對誤差為1.6%~11.1%,可以通過檢測大曲內部溫度、水分直接預測出大曲酸度值。本研究通過對大曲發酵過程酸度值的實時、無損檢測,為所有種類大曲酸度值的檢測提供了新方法,為其他理化指標的實時、無損檢測提供了新思路,為大曲在線檢測與控制系統的開發提供了理論支撐。