楊倩圓,謝 定,鄭瑞娜,劉金陽
(長沙理工大學化學與食品工程學院,湖南長沙 410114)
淀粉糖主要是指通過生物酶水解技術對富含淀粉的原料或直接使用淀粉進行深加工而得到的葡萄糖、麥芽糖等小分子產物。在食品工業生產中,淀粉液化液的葡萄糖當量(Dextrose Equivalent,DE)值是淀粉糖生產過程中一個重要測定指標,定義為產品還原糖占可溶性固形物含量的百分比[1-2]。目前使用的測定方法主要有國標定義的費林試劑法和高效液相色譜法;前者操作較為繁瑣、影響準確性的因素較多且所耗試劑較多,容易造成環境污染;后者精準,但是所使用化學試劑成本較高,也比較費時費事,不利于環保。
近紅外光譜(near-infrared spectroscopy,NIRS)分析技術依靠模型庫對被分析樣品進行判別分析,建模時所需代表性的樣品數量最少,僅需40個左右,不但分析快速、測樣時無損、還能在線及時反饋,從而在我國食品工業領域,特別是生產過程中的質量監控方面得到了迅速發展[3],在全球農林、食品、石油化工和制藥工程等學科中得到了廣泛應用[4-6];陳晨等[7]利用近紅外漫反射光譜技術建立了以可溶性固形物、總酸為評價指標的玫瑰香葡萄貯藏期間糖酸品質的快速檢測模型;馮曉元等[8]利用一階微分處理和化學值采用改進偏最小二乘法建立了久保桃可溶性固形物的近紅外預測模型;Munawar等[9]在利用近紅外光譜建模的過程中比較了不同預處理方式以及分別應用偏最小二乘法和主成分分析法建模對芒果品質測定模型的影響,最終建立了可溶性固形物含量、維生素C含量等芒果質量屬性的檢測模型;李海燕等[10]針對液體近紅外分析儀在葡萄糖漿檢測中的應用優勢展開了研究,發現利用近紅外確實能提高檢測速度并且重復性良好。近紅外光譜作為樣本化學信息的載體,從中提取與分析目標相關的特征信息具有一定的困難,建模波段的選擇、預處理方法的選擇、建模算法的設計等都是目前研究的重點和難點。
本文利用近紅外儀器對實際生產條件下的淀粉液化液DE值進行初始建模。為食品工業生產的可持續發展與形成淀粉糖生產的在線快速檢測技術提供依據,這對于淀粉糖生產技術進步和產品質量升級具有重大現實意義。
可溶性淀粉、葡萄糖、鹽酸、冰乙酸、乙酸鋅、氫氧化鈉、硫酸銅、酒石酸鉀鈉、亞甲藍、亞鐵氰化鉀 分析純,國藥集團化學試劑有限公司;α-淀粉酶 2000 U/g,廣東環凱微生物科技有限公司。
AntarisⅡ型傅里葉變換近紅外光譜儀 美國Thermo Nicolet公司;WYA-2W阿貝折光儀 上海精密科學儀器有限公司;DZKW電熱恒溫水浴鍋 北京市永光明醫療儀器廠;JJ-1增力電動攪拌器 江蘇金怡儀器科技有限公司;臺式FIveEasy pH計 梅特勒-托利多儀器(上海)有限公司;JY602電子天平 上海浦春計量儀器有限公司;DL-1萬用電爐 北京市永光明醫療儀器有限公司。
1.2.1 淀粉的液化以及樣本的收集 淀粉液化步驟:取淀粉80 g,加水400 mL,100 ℃糊化10 min后降溫放置至80 ℃水浴鍋加入耐高溫α淀粉酶0.43 g,攪拌。每隔10 min取樣,100 ℃水浴滅酶10 min,放置25 ℃恒溫箱中冷卻后待用。重復8次液化步驟,每次取11個樣,按收集順序編號,最終收集88個樣。
1.2.2 DE值的計算 可溶性固形物含量由阿貝折光儀直接測出,參照GB 5009.7-2016 食品安全國家標準食品中還原糖的測定中第一法,測定還原糖含量。
DE(%)=C/G×100
式中:C-還原糖含量,g;G-可溶性固形物含量(g)。
1.2.3 近紅外光譜采集 保持環境溫度為25 ℃,將已冷卻至室溫的淀粉液化液樣品倒入樣品杯,放入限光圈,蓋上金鏡片,選擇積分球檢測系統采集漫反射光譜,每次掃描波數范圍為4000~10000 cm-1,分辨率8 cm-1,1次光譜采集掃描32次,每個樣品采集3條光譜,最終取平均光譜。
1.2.4 光譜數據處理 運用多元散射校正(Multiplicative signal correction,MSC)與標準正態變量變化(Standard normal variate,SNV)對淀粉液化液光譜進行處理,消除由于應用漫反射光譜采集時,帶來的光程無法保持恒定、樣品均勻性不一致等因素帶來的干擾[11]。應用平滑(smoothing)、多項式平滑(Savitzky-Golay卷積平滑,SG)、一階導數(1st derivative,1D)、二階導數(2nd derivative,2D)等預處理方法處理樣品的光譜數據,從而消除光譜測量時產生的噪聲影響[12]。通過TQ analyst 9軟件根據光譜的分布差異計算馬氏距離鑒別問題樣品,直接剔除異常的樣品,從而提高校正模型的適應性和穩定性[13]。
1.2.5 模型的建立以及模型預測能力的評估 利用AntarisⅡ型傅里葉變換近紅外光譜儀自帶軟件TQ analyst 9對淀粉液化液DE值NIRS圖譜校正與建模;將剔除異常數據后的剩余82個數據導入軟件,通過軟件抽取10個樣品組成預測集,其余72個數據作為建模集。模型預測性能通過:預測殘差平方和(PRESS)、建模相關系數(Rc)、預測集相關系數(Rp)、交叉驗證均方根誤差(RMSEC)和預測均方根誤差(RMSEP)這5個指標進行評價,指標計算公式如(1)~(4),PRESS值越小,模型的預測能力越好;模型的相關系數越接近于1,預測均方根誤差和建模均方根誤差越小時,模型的預測能力越強[14]。
式(1)
式(2)
式(3)
式(4)

獲得最佳模型后,得出模型預測值,利用Excel對模型預測值和化學實測值進行方差分析。
圖1為由TQ analyst 9直接導出的波數在4000~10000 cm-1的樣本NIRS譜圖。偏最小二乘法具有較強的抗干擾能力,可以選擇全波段參與模型的建立[15]。為了比較PLS和PCR建模方法對DE值模型的影響,不同波段的選擇在簡化模型的同時,可以剔除不相關或非線性變量從而提高模型的預測能力,圖1顯示7600~8800 cm-1段的吸收峰,隨樣品濃度有明顯變化,選擇此區間為初步建模光譜區間。

圖1 淀粉液化液的近紅外漫反射原始光譜Fig.1 The NIR spectrum of starch liquefying solution
圖2為軟件隨機導出的由25號、07號樣組成的原始光譜經一階導數預處理后的淀粉液化液NIRS譜圖,其中光譜基線在5600~6400、8500~9500 cm-1范圍內有明顯下降趨勢。為避免遺失其他有用信息,除初始波段范圍,額外選取這兩處波數段加入最終建模范圍。

圖2 淀粉液化液經一階導數預處理后的NIRS譜圖Fig.2 The NIR spectrum of starch liquefying solution under the first derivative
表1中比較了使用多元信號修正(MSC)下無導數處理、一階導數處理(1D)、二階導數處理(2D)、S-G平滑(SG)互相組合和使用標準正態變量變化(SNV)下無導數處理、一階導數處理(1D)、二階導數處理(2D)、S-G平滑(SG)互相組合后應用偏最小二乘法(PLS)的建模效果。發現經MSC與一階導數預處理同時進行了S-G平滑處理光譜后的模型最穩定,其中Rc為0.9723,RMSEC為1.53,Rp為0.9746,RMSEP為1.44。

表1 不同預處理方法下淀粉液化液DE值的PLS建模Table 1 The PLS model of starch liquefying solution’DE value under different pretreatment
表2中比較了使用多元信號修正(MSC)下無導數處理、一階導數處理(1D)、二階導數處理(2D)、S-G平滑(SG)互相組合和使用標準正態變量變化(SNV)下無導數處理、一階導數處理(1D)、二階導數處理(2D)、S-G平滑(SG)互相組合后,應用主成分回歸法(PCR)的建模效果,發現經MSC與一階導數預處理同時進行了S-G平滑處理光譜后的模型最優,其中Rc為0.9680,RMSEC為1.64,Rp為0.9689,RMSEP為1.60。

表2 不同預處理方法下淀粉液化液DE值的PCR建模Table 2 The PCR model of starch liquefying solution’DE value under different pretreatment
依據B4組預處理方法,利用TQ analyst 9軟件得到校正模型——主成分回歸(PCR)模型;依據A4組預處理方法,利用TQ analyst 9軟件得到校正模型——偏最小二乘(PLS)模型。圖3為淀粉液化液DE值主成分回歸(PCR)法所建模型的預測值與化學實測值散點分布圖,圖中,DE值模型的Rc等于0.9680,Rp等于0.9690。圖4為淀粉液化液DE值偏最小二乘(PLS)法所建模型的預測值與化學實測值散點分布圖,圖中,DE值模型的Rc等于0.9723,Rp等于0.9746。

圖3 PCR模型的校正集和預測集淀粉液化液DE值的預測值與實際值的關系Fig.3 The relationship between predicted value and actual value of starch liquefying solution’DE in PCR model

圖4 PLS模型的校正集和預測集淀粉液化液DE值的預測值與實際值的關系Fig.4 The relationship between predicted value and actual value of starch liquefying solution’DE in PLS model
判定模型預測能力的一個主要因素是主成分因子數(Factor),主成分因子數太少,擬合不充分,主成分因子數太多,擬合過度,都將影響模型的預測性能,其最常用的選擇判據是預測殘差平方和(PRESS)。理想的PRESS圖是隨主成分的增加呈遞減趨勢,但當達到最低點后又開始出現微小上升或者波動[15]。由于PCR模型主成分因子數為10,產生了過擬合效應可能在與其他算法集成時不利于有效模型的建立[16],此處不做比較。圖5比較了PLS模型中十種預處理方法中PRESS值對應的主成分因子數的主成分數目圖。圖5中預處理條件為MSC+無導數的press在主成分因子數為8時才達到最小值122.5124,此時模型過度擬合,模型預測能力較差;預處理條件為MSC+1D、MSC+1D+SG、SNV+1D和SNV+1D+SG的PRESS值在主成分因子數為3時最小,分別為315.3215、295.3191、317.6811和297.4860,說明經過SG處理比不經過SG處理的模型預測能力要好,經過MSC處理比經過SNV處理的模型預測性能要高。在主成分因子數為3時,經過MSC+1D+SG處理后PRESS值最小,此時通過PLS法建立的模型預測能力最優。

圖5 不同預處理方法下交互驗證得到的PRESS圖Fig.5 Interactive verification of the obtained press graph under different pretreatment
為驗證PLS模型的預測精確度,將未參與建模的10個預測樣組成的預測集代入模型進行預測,同時與國標法測得的實際值進行比較,對比結果見表3。為檢驗所建模型得預測值與實測值是否有顯著性差異,利用Excel對兩組數據進行方差分析,結果如表4。圖中檢驗統計量F<臨界值F crit,表示兩組數據(所建模型的預測值與實測值是)在a=0.05的

表3 PLS模型的DE值預測值與實測值比較Table 3 Comparison between predicted value and actual value of starch liquefying solution’DE in PLS model

表4 雙樣本方差分析Table 4 Two-sample analysis of variance
水平上無顯著性差異[17],說明使用DE值模型得出的預測值和普通化學方法實測值沒有顯著性差異,該模型可以對淀粉液DE值進行預測。
研究結果表明,將直接滴定法實測的淀粉液化液DE值與對應采集的近紅外漫反射光譜相關聯,經多元散射校正結合一階導數和偏最小二乘法組合對原始光譜處理后,近紅外DE值模型的交叉驗證均方差(RMSEC)為1.53、交叉驗證決定系數(Rc)為0.9723、預測均方差(RMSEP)為1.44、預測決定系數(RP)0.9746。能夠較準確預測工業上淀粉液化過程中DE值的變化,為建立淀粉液化液DE值在線無損快速檢測的方法提供了理論依據,對于淀粉糖生產過程中需要頻繁測定DE值來控制工藝進程的企業來說,無疑提供了一種更加方便、快捷和綠色的方法。