熊雅婷,李宗朋,王健,張英,馮斯雯,陳峰,宋全厚
1(中國(guó)食品發(fā)酵工業(yè)研究院,北京,100015)
2(江蘇張家港釀酒有限公司,江蘇 張家港,215600)
黃酒作為世界三大釀造酒之一,因其歷史悠久、品種繁多、營(yíng)養(yǎng)豐富而被譽(yù)為東方釀造界的典型代表和楷模[1]。其中酒精度、非糖固形物、總酸、氨基酸態(tài)氮等是黃酒質(zhì)量控制的關(guān)鍵因素,同時(shí)也是決定黃酒風(fēng)味的主要物質(zhì)[2]。目前常用的理化分析方法普遍存在操作繁瑣、分析周期長(zhǎng)、效率低下等不足,無(wú)法滿足黃酒品質(zhì)監(jiān)控中快速檢測(cè)的需求[3]。
近年來(lái),近紅外光譜分析技術(shù)作為一種無(wú)損、快速檢測(cè)手段而在國(guó)內(nèi)黃酒檢測(cè)行業(yè)快速發(fā)展:于海燕等[4]分析了不同光程近紅外透射光譜對(duì)黃酒中金屬元素的定量測(cè)定,并對(duì)1~5年酒齡的黃酒進(jìn)行了快速鑒別;劉飛等[5]采用可見(jiàn)/近紅外光譜對(duì)黃酒中非糖固形物、pH進(jìn)行了定量分析;胡小邦等[6]利用近紅外透射光譜技術(shù)結(jié)合連續(xù)投影算法(SPA)建立了干型、半干型黃酒中酒精度、酸度的定量檢測(cè)模型。以上研究均表明了近紅外光譜技術(shù)在黃酒品控中的巨大潛力,但是卻未全面覆蓋黃酒的多種指標(biāo),并未選擇出最佳的模型組合來(lái)解決黃酒自身吸收光信號(hào)強(qiáng)度較低,吸收帶較寬的問(wèn)題[7]。
本實(shí)驗(yàn)全面考慮了黃酒的酒精度、非糖固形物、總酸、氨基酸態(tài)氮等主要指標(biāo),采用連續(xù)投影算法(SPA)來(lái)提取各指標(biāo)特征波段,并利用特征波長(zhǎng)分別建立偏最小二乘(PLS)模型以及多元線性回歸(MLR)模型,同時(shí),添加無(wú)信息變量消除法(UVE)與SPA組合建模,通過(guò)對(duì)比建模結(jié)果,選取最佳波段優(yōu)化方法以及相應(yīng)的最佳建模組合,以此來(lái)降低模型復(fù)雜程度,提高模型精度和運(yùn)算速度,為黃酒品質(zhì)監(jiān)控的快速檢測(cè)提供一定參考。
本實(shí)驗(yàn)所用黃酒樣品共135個(gè),由某黃酒廠提供,涵蓋了黃酒成品與半成品(黃酒原漿酒)的干型、半干型、甜型、半甜型黃酒類型。為保證實(shí)驗(yàn)可靠性及模型準(zhǔn)確性,對(duì)黃酒樣品進(jìn)行2次平行采樣,采用透反射方式掃描采集黃酒的近紅外光譜,并對(duì)光譜進(jìn)行平均。黃酒酒精度、非糖固形物、總酸、氨基酸態(tài)氮等指標(biāo)的化學(xué)值根據(jù)GB/T 13662-2008測(cè)得。
實(shí)驗(yàn)使用QC-leader傅里葉變換近紅外光譜儀(北京中安信達(dá)科技有限公司)。光譜儀光源為鹵鎢燈,檢測(cè)器為溫控InGaAs,配有固體測(cè)量池及透反射蓋。光譜范圍為10 000~4 000 cm-1,分辨率為8 cm-1,掃描次數(shù)為32次;利用配套軟件 NIRWare Operator采集樣品的近紅外光譜信息。
1.3.1 校正集與驗(yàn)證集的劃分
本實(shí)驗(yàn)采用 Kennard-Stone(K-S)法[8]來(lái)進(jìn)行樣本集劃分,原理是基于變量之間的歐氏距離,在特征空間中均勻選取樣本。將光譜進(jìn)行主成分分析后,選用主成分得分為特征變量選擇樣本,重復(fù)循環(huán),依次將距離最遠(yuǎn)的樣本選入校正樣本集。
在剔除掉個(gè)別異常點(diǎn)的基礎(chǔ)上,利用K-S法以3∶1的比例對(duì)保留的131個(gè)黃酒樣本進(jìn)行校正集與驗(yàn)證集進(jìn)行樣本集劃分,最終得到校正集樣本100個(gè),驗(yàn)證集樣本31個(gè)。校正集樣本用于黃酒各指標(biāo)近紅外模型的建立,驗(yàn)證集樣本用于驗(yàn)證所建模型的準(zhǔn)確度與可靠性。其化學(xué)值統(tǒng)計(jì)結(jié)果如表1所示。

表1 校正集與驗(yàn)證集統(tǒng)計(jì)結(jié)果Table 1 Statistical results of calibration set and validation set
1.3.2 連續(xù)投影算法 (successive projection algorithm,SPA)
連續(xù)投影算法是一種前向循環(huán)選擇方法,從一個(gè)波長(zhǎng)開(kāi)始,每次循環(huán)都計(jì)算其在未選入波長(zhǎng)上的投影,將投影向量最大的波長(zhǎng)引入到波長(zhǎng)組合。使得每一個(gè)新選入的波長(zhǎng),都與前一個(gè)線性關(guān)系最小[9]。SPA能從光譜信息中充分尋找含有最低限度的冗余信息的變量組,消除波長(zhǎng)變量間的共線性,有效提高光譜信噪比,從而提高模型預(yù)測(cè)能力和穩(wěn)健性[10-11]。
1.3.3 無(wú)信息變量消除法(elimination of uninformative variables,UVE)
UVE是一種常用的波段優(yōu)化方法,基本思想是將偏最小二乘回歸系數(shù)作為波長(zhǎng)重要性的衡量指標(biāo),在選取波長(zhǎng)時(shí)集噪聲和濃度信息于一體,比較直觀實(shí)用[12]。
1.3.4 數(shù)據(jù)處理與分析
SPA、UVE等程序均在MATLAB環(huán)境下運(yùn)行,多元線性回歸模型和偏最小二乘計(jì)算應(yīng)用UnscramblerX10.3光譜分析軟件(挪威CAMO公司)實(shí)現(xiàn),模型的精確度與穩(wěn)定性通過(guò)決定系數(shù)R2、預(yù)測(cè)標(biāo)準(zhǔn)偏差RMSEP來(lái)評(píng)價(jià),R2越接近1,RMSEP越接近0,表明模型效果越好[13]。
2.1.1 連續(xù)投影算法(SPA)

圖1 SPA波段篩選最佳光譜變量總數(shù)Fig.1 Choice of the best number of selected wavelength using SPA

圖2 SPA波段篩選結(jié)果相應(yīng)波長(zhǎng)點(diǎn)Fig.2 The corresponding wavelength points by SPA band selection of the result
分別對(duì)黃酒的非糖固形物、酒精度、總酸、氨基酸態(tài)氮4個(gè)指標(biāo)進(jìn)行SPA波段篩選,由圖1可知,經(jīng)SPA篩選,黃酒的4個(gè)指標(biāo)從1 501個(gè)波長(zhǎng)點(diǎn)中分別篩選得20、23、19、13個(gè)特征波長(zhǎng)點(diǎn),在圖2中,其波長(zhǎng)點(diǎn)位置分布在 4 500、5 000、7 200、9 800 cm-1附近,分別與N—H、C—H、O—H分子結(jié)構(gòu)的倍頻與組合頻所在的吸收峰位置相對(duì)應(yīng)[14],說(shuō)明SPA的波段篩選算法能合理有效提取有用的光譜信息[15]。
2.1.2 無(wú)信息變量消除法(UVE)

圖3 UVE變量穩(wěn)定性分析結(jié)果Fig.3 UVE variable stability analysis results
在全光譜基礎(chǔ)上,對(duì)黃酒的非糖固形物、酒精度、總酸、氨基酸態(tài)氮4個(gè)指標(biāo)的分別進(jìn)行UVE篩選,計(jì)算結(jié)果如圖3所示,豎直實(shí)線左邊是波長(zhǎng)變量,右邊為引入的系統(tǒng)噪音變量。虛線表示變量穩(wěn)定性的上下閾值,處于兩閾值之間的變量可認(rèn)為是無(wú)關(guān)的信息量,超出閾值的部分為有用信息波長(zhǎng)變量[16],因此本實(shí)驗(yàn)選擇超出虛線閾值的光譜波段進(jìn)行后續(xù)建模。
2.2.1 SPA 模型建立
在SPA篩選結(jié)果基礎(chǔ)上,分別建立黃酒的非糖固形物、酒精度、總酸和氨基酸態(tài)氮4個(gè)指標(biāo)的SPAPLS模型以及SPA-MLR模型,與全光譜-PLS模型進(jìn)行比較[17],并通過(guò)決定系數(shù) R2、預(yù)測(cè)標(biāo)準(zhǔn)偏差 RMSEP來(lái)評(píng)價(jià)模型效果,模型計(jì)算結(jié)果如表2所示。

表2 黃酒各指標(biāo)定量模型計(jì)算結(jié)果Table 2 quantitative model calculation results of millet wine components
從表2可以看出,經(jīng)SPA波段優(yōu)選,黃酒的4個(gè)指標(biāo)的SPA-PLS和SPA-MLR模型效果較全光譜-PLS模型均有提高,決定系數(shù)R2相增大,預(yù)測(cè)標(biāo)準(zhǔn)偏差RMSEP相降低。說(shuō)明SPA方法確實(shí)能有效剔除光譜中的無(wú)用信息,提取建模所需關(guān)鍵波長(zhǎng),在加快建模速度的同時(shí)增強(qiáng)模型的準(zhǔn)確度與穩(wěn)定性。
比較SPA-PLS和SPA-MLR兩種建模方法可知,SPA-MLR模型優(yōu)化更為顯著,非糖固形物、酒精度、總酸、氨基酸態(tài)氮4個(gè)指標(biāo)的R2分別達(dá)到0.881、0.998、0.983 和0.924,且RMSEP 分別減少為2.457、0.183、0.430 和0.041,表現(xiàn)出更強(qiáng)的穩(wěn)定性與準(zhǔn)確度。多元線性回歸方法(MLR)作為近紅外光譜分析領(lǐng)域最基本的建模方法,更適用于線性關(guān)系好的簡(jiǎn)單體系,要求波長(zhǎng)數(shù)量簡(jiǎn)潔[18-19],SPA篩選后的較少的波長(zhǎng)點(diǎn)數(shù)正好滿足了其建模要求,并且可能選擇的波長(zhǎng)與黃酒指標(biāo)含量之間主要呈線性關(guān)系,所以不僅達(dá)到了簡(jiǎn)化模型的目的,而且提高了模型的準(zhǔn)確度。偏最小二乘法是將因子分析和回歸分析結(jié)合的方法,通過(guò)因子分析將光譜壓縮為較低維空間數(shù)據(jù)[20],然而,SPA在精簡(jiǎn)波段的同時(shí)也必然伴隨著部分有用信息的丟失,導(dǎo)致偏最小二乘法(PLS)建模準(zhǔn)確度受到影響。
2.2.2 UVE 建模
在全光譜基礎(chǔ)上,對(duì)黃酒的非糖固形物、酒精度、總酸、氨基酸態(tài)氮4個(gè)指標(biāo)分別進(jìn)行UVE篩選,由表3可看出,經(jīng)UVE篩選后仍保留較多變量數(shù),因此,為進(jìn)一步提高模型準(zhǔn)確度,將UVE與SPA組合用于全光譜的波段優(yōu)選并建立MLR模型。同時(shí),作為對(duì)照,另外單獨(dú)建立UVE-PLS模型與之對(duì)比。

表3 UVE波段篩選建模結(jié)果Table 3 The modeling results of selected wavelength by UVE
由表3可看出,UVE可將全光譜波段篩選至1/3,且UVE-PLS模型效果與表2中全光譜-PLS相比,有所改善。雖然經(jīng)UVE-SPA篩選,非糖固形物、酒精度、總酸以及氨基酸態(tài)氮的波長(zhǎng)點(diǎn)數(shù)分別精簡(jiǎn)為12、6、17 和 11 個(gè),但 UVE-SPA-MLR 建模結(jié)果顯示,4個(gè)指標(biāo)的R2和RMSEP均顯示模型效果反而較差。說(shuō)明,進(jìn)行UVE波段篩選雖然能達(dá)到簡(jiǎn)化建模波長(zhǎng)數(shù)的效果,但篩選過(guò)程可能造成光譜有用信息的丟失以及混入噪聲,導(dǎo)致光譜信噪比下降,影響了之后SPA的建模,使得模型準(zhǔn)確度反而降低。
綜合表2、表3可知,黃酒各成分含量檢測(cè)的最佳建模方法是SPA-MLR,增加UVE之后反而影響模型效果,說(shuō)明,UVE與SPA組合進(jìn)行波段篩選并不適合黃酒成分檢測(cè)。
將30個(gè)未參與建模的樣品光譜帶入SPA-MLR模型中進(jìn)行驗(yàn)證,由圖4可以看到各個(gè)理化指標(biāo)的實(shí)測(cè)值與預(yù)測(cè)值點(diǎn)呈對(duì)角線分布,且經(jīng)成對(duì)t檢驗(yàn),得到各項(xiàng)指標(biāo)預(yù)測(cè)值與實(shí)測(cè)值無(wú)明顯差異(P>0.05)。經(jīng)驗(yàn)證,黃酒非糖固形物 R2為 0.875,RMSEP為2.704;酒精度 R2為 0.996,RMSEP 為0.286;總酸 R2為0.981,RMSEP 為 0.467;氨基酸態(tài)氮 R2為 0.917,RMSEP 為0.042 1。

圖3 黃酒各指標(biāo)SPA-MLR模型理化值與預(yù)測(cè)值分布Fig.3 Predicted vs.reference values of compositions in millet wine by SPA-MLR model
本文以黃酒成品與半成品(黃酒原漿酒)為研究目標(biāo),綜合考慮了多種黃酒種類,采用近紅外光譜法對(duì)其非糖固形物、酒精度、總酸和氨基酸態(tài)氮4個(gè)指標(biāo)進(jìn)行了定量檢測(cè),利用連續(xù)投影算法(SPA)對(duì)波長(zhǎng)變量進(jìn)行優(yōu)選建模,以提高模型運(yùn)算速度與準(zhǔn)確性。
結(jié)果表明,經(jīng)SPA篩選,極大簡(jiǎn)化了黃酒的各指標(biāo)建模變量數(shù),并且篩選所得波長(zhǎng)點(diǎn)位置與各指標(biāo)特征官能團(tuán)的倍頻與合頻吸收峰位置相對(duì)應(yīng),說(shuō)明SPA能合理有效地優(yōu)選出黃酒各指標(biāo)的近紅外高信噪比特征波長(zhǎng)。
通過(guò)建立SPA-PLS和SPA-MLR模型進(jìn)行對(duì)比,發(fā)現(xiàn)非糖固形物、酒精度、總酸和氨基酸態(tài)氮定量檢測(cè)的SPA-MLR模型明顯優(yōu)于SPA-PLS建模。在簡(jiǎn)化模型加快運(yùn)算速度的同時(shí)增強(qiáng)了模型的準(zhǔn)確度,說(shuō)明SPA-MLR建模方法更適用于指導(dǎo)黃酒品質(zhì)的快速檢測(cè)。
此外,對(duì)比發(fā)現(xiàn),UVE-SPA-MLR建模效果反而不如SPA-MLR模型,可見(jiàn)UVE與SPA結(jié)合導(dǎo)致了特征光譜信息的丟失,進(jìn)而說(shuō)明只使用一種波段篩選方法效果更好,多種波段篩選方法結(jié)合反而可能會(huì)影響特征波段的準(zhǔn)確篩選。
[1]賴櫻花,成堅(jiān),李勇波,等.黃酒質(zhì)量指標(biāo)及其檢測(cè)技術(shù)的研究進(jìn)展[J].中國(guó)釀造,2011(11):21-25.
[2]朱宏霞,鄧德文,鄭校先.傅立葉變換近紅外透射法測(cè)定黃酒酒精度[J].中國(guó)釀造,2008(12):80 -82.
[3]陳郁,周小鋒,于文博,等.近紅外光譜法測(cè)定黃酒中氨基酸態(tài)氮和酒精度的研究[J].計(jì)算機(jī)與應(yīng)用化學(xué),2008,25(3):361 -364.
[4]于海燕,應(yīng)義斌,謝麗娟,等.光程對(duì)黃酒金屬元素近紅外透射光譜分析精度的影響[J].光譜學(xué)與光譜分析,2007,27(6):1 118 -1 120.
[5]劉飛,王莉,何勇,等.應(yīng)用可見(jiàn)/近紅外光譜進(jìn)行黃酒品種的判別[J].光譜學(xué)與光譜分析,2008,28(3):586-589.
[6]胡小邦,呂進(jìn),劉輝軍,等.基于近紅外透射光譜的黃酒酒精度、酸度檢測(cè)模型研究[J].光電工程2010,37(10):122-127.
[7]褚小立,袁洪福,陸婉珍.近紅外分析中光譜預(yù)處理及波長(zhǎng)選擇方法進(jìn)展與應(yīng)用[J].化學(xué)進(jìn)展,2004,14(4):528-542.
[8]陸婉珍.現(xiàn)代近紅外光譜分析技術(shù)[M].北京:中國(guó)石化出版社,2007:59 -90.
[9]謝廣發(fā),徐榕,樊阿萍,等.近紅外光譜技術(shù)在黃酒理化指標(biāo)快速檢測(cè)中的應(yīng)用[J].中國(guó)釀造,2011(11):182-185.
[10]Breitkreitz M,Raimundo I,Rohwedder J,et al.Determination of total sulfur in diesel fuel employing NIR spectroscopy and multivariate calibration[J].The Analyst(S0003 -2654),2003,128(9):1 204 -1 207.
[11]洪涯,洪添勝,代芬,等.連續(xù)投影算法在砂糖橘總酸無(wú)損檢測(cè)中的應(yīng)用[J].農(nóng)業(yè)工程學(xué)報(bào),2010,2(26):380-384.
[12]S F Carreiro Soares,A A Gomes,M C Ugulino Araujo,et al.The successive projections algorithm[J].TrAC Trends in Analytical Chemistry,2013(42):84 -98.
[13]褚小立,許育鵬,田高友.近紅外光譜解析實(shí)用指南[M].北京:化學(xué)工業(yè)出版社,2009.
[14]高洪智,盧啟鵬,丁海泉,等.基于連續(xù)投影算法的土壤總氮近紅外特征波長(zhǎng)的選取[J].光譜學(xué)與光譜分析,2009,29(11):2 951 -2 954.
[15]Gomes A A,Galv?o R K,Araújo M C,et al.The successive projections algorithm for interval selection in PLS[J].Microchemical Journal,2013,110:202 -208.
[16]周林峰.黃酒主要品質(zhì)的近紅外光譜檢測(cè)模型建立與轉(zhuǎn)移的研究[D].杭州:中國(guó)計(jì)量學(xué)院,2013:1-82.
[17]陳定星.連續(xù)投影算法應(yīng)用于土壤有機(jī)質(zhì)NIR光譜分析的波長(zhǎng)選擇[D].廣州:暨南大學(xué),2013:20-58.
[18]王爽,黃敏,朱啟兵.基于無(wú)信息變量和偏最小二乘投影分析的高光譜散射圖像最優(yōu)波段選擇[J].光子學(xué)報(bào),2011,40(3):428 -432.
[19]CAI W,LI Y,SHAO X.Avariable selection method based on uninformative varable elimination for multivariate calibration of near-infrared spectra[J].Chemometrics and Intelligent Laboratory Systems,2008,90(2):188 -194.
[20]包春芳.近紅外光譜技術(shù)在液態(tài)食品非破壞質(zhì)量分析中的應(yīng)用研究[D].吉林:吉林大學(xué),2009:28-35.