李 慧,顧洪濤,蘇婷婷
(內蒙古華瑞檢驗檢測有限公司,內蒙古呼和浩特 010010)
藜麥(Chenopodium quinoa Willd)屬于藜科藜屬的雙子葉植物,原產地為南美洲安第斯山脈的高海拔山區,是當地印加人的傳統糧食作物[1-2]。近年來,我國內蒙古、山西、青海、甘肅等地大面積種植藜麥,目前已初步形成了藜麥規模化種植和智能化產業鏈[3]。藜麥的營養價值較高,富含蛋白質和膳食纖維等物質。有研究表明,藜麥中富含人體所需的9 種必需氨基酸和賴氨酸,脂肪中不飽和脂肪酸占80%左右;藜麥中豐富的皂苷、黃酮類物質、多酚和植物甾醇等具有多種生物活性,在食療領域發揮著有益功效[4]。
目前,藜麥營養成分檢測的方法以常規化學分析法和光譜技術為主,常規化學法操作方法比較復雜,且試驗中需要使用大量試劑,存在對環境、人體有害等諸多不足。為了滿足低成本、快速和無損檢測的需求,研究人員開發了核磁共振、高光譜、熒光光譜和紫外光譜等檢測技術[5-7]。與這些光譜技術相比,NIRS 作為一種便攜技術被更多人喜愛,具有快速且無損耗的檢測特點[8-9],可檢測到特定的已知化合物基團,常用于農產品安全檢測領域[10-11]。當通過漫反射或透射光譜處理樣品時,由于物料顆粒的尺寸、形狀和包裝等影響,散射光產生了不受控制的物理變化。因此,為了最大限度地減少散射干擾,開發和構建穩健的檢測模型也同樣重要。
自20 世紀50 年代起,人們對近紅外光譜有了初步認識,因靈敏度較低,有較強干擾性而逐漸被人淡忘。20 世紀80 年代以后,計算機技術的使用讓近紅外光譜不僅可用于評估食品質量安全方面,還可結合化學計量法應用于普通化學分析法難以檢測的成分特征,避免了常規圖譜解析的困難[12]。近紅外光譜測得的數據中不僅包含樣品的結構特征和組成信息,也包含了噪聲、漫反射和基線傾斜等背景及其他干擾信息。因此,需要在建立近紅外光譜模型前進行適當的預處理來降低或消除其他因素對光譜的干擾[13]。
平滑(Saviztky-Golay,SG)是消除噪聲的高效方法,該方法假設光譜中的噪聲為零均值隨機噪聲,取多次測量的平均值來減少隨機噪聲,以提高信噪比[14],濾除高頻噪聲并保留低頻噪聲。標準正態變量變換(Standard normal variate transformation,SNV)和多元散射校正(Multiplicative scatter correction,MSC)主要用于減弱不同粒度大小的物料顆粒造成的散射等物理影響,SNV 是單獨處理一條光譜,而MSC 的處理對象通常為一組光譜[15],因此部分研究認為SNV相比于MSC 更能提升藜麥營養組分的預處理效果。此外,還有加權多元散射處理(WMSC)、標準化多元散射處理(SMSC)和反向多元散射處理(IMSC)等方法。一階導數(First derivative,1st Der)和二階導數(Second derivative,2nd Der)用直接差分法和SG 法進行求導來消除基線偏移和光譜的旋轉,可以減少儀器背景等誤差,并且二階導數可以通過連續計算兩次一階導數得到。此外,在藜麥等谷物檢測用到較少的方法如隱變量正交投影(Orthogonal projection to latent structures,OPLS)和擴展乘法信號校正(Extended multiplication signal correction,EMSC)等,OPLS 可移除與樣品濃度無關的光譜數據,并有效增強非線性組分的預測模型和提高穩定性[16]。Encina-Zelada C 等人[17]為了最大限度地減少光散射的乘法效應,參考其他原料的EMSC 用于藜麥檢測中,EMSC 將物理散射光與化學吸收(振動)光分離,有助于校正光譜中與波長相關的基線效應[18]。
近紅外光譜數據為全波段型,包含豐富信息量的同時,也帶來了各種干擾信號,造成吸收帶嚴重重疊,因此對光譜的特征波長進行篩選來提高模型的準確度也是必要步驟?;谵见溕踔赁r產品的特征波長選擇多為經驗判斷,此外還有競爭性自適應重加權法(Competitive adaptive reweighted sampling,CARS)、連續投影算法(Successiveprojectionsalgorithm,SPA)[19]和無信息變量消除法(Uninformation variable elimination,UVE)[20]等常用于食品檢測的特征光譜可供選擇。CARS 算法可最小化光譜的無用信息;SPA 是一種通過向量的投影達到變量間共線性最小化的波長選擇算法,可最大程度消除共線性的影響。
1.3.1 定性分析
主成分分析(Principal component analysis,PCA)是常用的光譜定性分析方法,利用降維的思維將多個波長下的原始變量通過組合形成有限的幾個因子,且各成分之間的所屬類別也不同。PCA 對樣本與訓練集間的確切位置缺乏定量的解釋,單獨在藜麥等谷物檢測中很少使用,一般結合其他統計學方法用于產地溯源等方面。
馬氏距離(Mahalanobis distance,MD)是近紅外光譜定性分析中另一種常用的方法,一般適用于近紅外光譜中異常數據的剔除并建立樣本間相似度的模型。因為MD 常常依賴較為準確的預處理和波長篩選結果,所以獨立應用在食品中的場合較少。為此,研究人員常常先對樣本進行PCA 分析篩選主成分,再進行MD 分析,這樣可以得到較為準確的域值信息。
簇類獨立軟模式法(Soft independent modeling of class analogy,SIMCA)被普遍認為是發展最成熟的化學計量學方法之一。傳統的SIMCA 采用PCA 參數和F 檢驗構建新模型,并以樣本與各類主成分空間的歐氏距離作為判斷類別的依據[21],大量光譜應用。結果表明,SIMCA 方法分類可以獲得較好的效果,但是對于區分成分相近又存在著微小差異的樣本,SIMCA 方法分類的效果并不理想。
K -近鄰法(K-nearest neighbor,KNN)算法可以用來分類和回歸,是最簡單的算法之一,其核心是某樣本的k 個特征空間最鄰近樣本大部分屬于一個類別,則將該樣本歸為一類。KNN 理論成熟,易于理解,缺點是不僅計算量較大,當樣本容量不一致時,還容易產生新樣本對其他樣本的誤判,解決方法之一是去除已知樣本中對分類作用不大的樣本,但僅限于容量較大類域的自動分類。
BP 神經網絡是一種非線性回歸方法,可建立定性和定量分析模型,由輸入層、一個或多個隱藏層和輸出層組成的神經元。每個神經元具有激活功能。優點是可以自動找出規律來解決復雜問題,缺點是收斂速度慢、容易陷入局部極小值等。此外,還有研究者提出深度信念網絡(DBN)、卷積神經網絡(CNN)、徑向基神經網絡(RBF)等優化性能模型以待參考[22]。
1.3.2 定量分析
主成分回歸(Principle component regression,PCR)以主成分為自變量,將頻譜數據投影到新的正交二維軸上來做回歸分析,主要用于樣品的變量與質量參數之間的線性關聯。由于新變量之間互不相關,因此成功解決了多重共線性或變量相互依賴問題,但是無法處理非線性數據。
多元線性回歸(MLR)(Multivarate linear regression,MLR)是2 個或以上自變量的N 個推廣,用MLR 建模前應對原始光譜進行特征光譜篩選,適用于關聯性不強或微弱的圖譜。MLR 的計算簡單且容易理解,但無法解決多重共線性或非線性的波長數據,使用MLR 方法的前提是樣本數量必須大于特征數量[23]。
偏最小二乘回歸(Partial least squares regression,PLSR)是目前流行的模型方法,用于解決變量多和有著多重相關性等問題,對變量多的樣本及其成分分析較為友好,比PCR 更快且精度更高,結果更加合理,但是當圖譜數據有噪聲時,擬合模型也會更復雜,且當添加一組新數據時,模型需重新建立,因此在實際應用中常常被限制。最近有人提出了PLSR 的泛化,被稱為規范冪偏最小二乘法(CPPLS),以及正交偏最小二乘判別分析(OPLS-DA)有待應用。
隨機森林回歸(Random forest regression,RFR)是隨機森林的重要應用分支,通過樣品的特征進行獨立并行的結果預測,整合取平均值后得到整個森林的回歸預測。對數據維度要求相對要低,優點是受異常值和噪聲的干擾度較小,且計算成本低,不會過度擬合,是比較通用的方法之一。
支持向量機(Support vector machine,SVM)是一種由線性求解非線性的分類方法,常用于“二分類”問題中。通過核函數(如多項式、徑向基本函數等)將數據映射到更高維度的空間,構造線性的最優分類超平面,這樣的計算開銷小,基于校準集的子集可以獲得出色的模型,但屬于非概率性抽樣,需要設置缺失的數據和優化核函數等各種關鍵的參數[24]。此外,還可被用于多變量校正建模,即支持向量回歸(Support vector regression,SVR),在分析化學領域潛力巨大。
適合NIRS 的藜麥營養成分檢測步驟包括光譜采集、預處理、波長選擇和模型開發,具體的方法對于不同品種(白藜、黑藜和紅藜)和不同形態(谷粒、面粉)在一定程度上是通用的,但目前最常見方法為通過反復試驗將這些光譜數據處理方法結合起來獲得最優模型。藜麥含有豐富的微量元素,NIRS 評估其營養成分和其他雜糧不同,應該主要關注微量元素及相關參數方面。
近紅外光譜的不同處理方式對藜麥營養成分的影響見表1。

表1 近紅外光譜的不同處理方式對藜麥營養成分的影響
脂質水平與產品腐敗等質量問題息息相關,是農產品必檢的指標之一,藜麥中脂肪含量較多且種類豐富,是潛在的油品來源,也是藜麥作為健康減肥原料的原因之一。曹曉寧等人[25]采集100 個藜麥樣品,運用一階導數和矢量歸一化的化學計量學對光譜進行預處理,發現這2 種方法結合后校正和預測效果更佳,其中決定系數為0.939 3,與索氏抽提法相比具有快速無損的特點。石振興等人[26]采集國內外101 份藜麥原料制成粉末,通過構建最小二乘回歸預測模型來測定藜麥中粗脂肪含量,結果與國標脂肪含量測定的方法相比具有快速篩選和較高準確度。Martín M 等人[27]在智利采集不同品種的48 個藜麥樣品進行紅外光譜對營養成分的檢測分析。結果發現,比傳統定量酸培養基中測定醚提取物的方法效率更高,并且采用PCA 法應用于校準集的數據;用MD法檢測異常光譜數據;使用改進的偏最小二乘回歸法來獲取所研究營養成分的NIR 方程,采取SNV 和去趨勢化處理進行多元回歸方程優化,最終所得結果更穩定、更準確。Encina-Zelada C 等人[28]通過近紅外投射光譜估算藜麥中的成分,旨在開發應用于藜麥等谷物的穩健化學計量模型,該模型經過SG 預處理、MSC 和擴展乘法信號校正(EMSC)校正,通過PLSR 和規范動力偏最小二乘法(CPPLS)提取潛在變量,結果發現平滑光譜提高了脂肪檢測模型的準確性,EMSC 結合CPPLS 也獲得了較高的準確度,通過交叉驗證(Rcv)值為0.811 1。
藜麥的蛋白質具有較高營養價值,有開發嬰兒配方食品的潛力,藜麥蛋白質主要是白蛋白和球蛋白類型,由類似酪蛋白的平衡氨基酸組成[29]。傳統蛋白質檢測方法為國際通用的凱氏定氮法,結果較為準確但步驟繁瑣。張晉等人[30]通過NIRS 建立了一種藜麥粗蛋白含量的檢測方法,以100 份藜麥為樣品,采用一階導數結合矢量歸一化處理方式對光譜進行預處理,可減小其他因素(組分、粒度、光譜模型)對蛋白質含量的誤差,提高準確性,交叉驗證決定系數為0.918 2。趙麗華等人[31]采集122 份藜麥掃描得到近紅外原始光譜,比較了9 種光譜預處理方法,結果發現用濾波擬合法和標準正態變量建立的SIRS模型擬合度較高,R2為0.938 0,預測效果良好。有研究發現,NIRS 對藜麥蛋白質含量模型(CPPLS+EMSC)的檢測準確度最低,RCV 僅為0.5。Martín 發現,NIRS 測得蛋白質含量高于其他農作物,但Regalona 基因型藜麥的蛋白含量最低,僅為17.3左右。
淀粉是藜麥中含量最多的基礎物質,占干物質的50%以上,但對藜麥淀粉的研究明顯少于蛋白質等其他物質,常規的淀粉測定方法是酶解法,步驟特別繁瑣并且準確度不高,研究一種穩定、準確和快速檢測的淀粉含量測定方法至關重要。曹曉寧等人[32]對比旋光儀法和近紅外光譜法檢測藜麥淀粉含量,采集100 個藜麥樣品,運用一階導數結合矢量歸一化對光譜進行預處理,再結合化學方法建立藜麥粗淀粉含量定量模型。石振興等人[26]通過交叉驗證,篩選出藜麥淀粉最佳光譜區間為7 505.9~5 446.2 和4 605.4~4 242.8;最佳預處理方式為一階導數結合標準正態變量變換,該模型具有極高的決定系數(0.952 8)。Encina-Zelada C 等人[28]對比PLSR,CPPLS 和MSC,EMSC 對藜麥碳水化合物含量的影響,發現CPPLS+MSC 得到最高的驗證值(RCV=0.767),在他的另一篇文章中,藜麥光譜經過CPPLS 和EMSC 優化后,RCV 僅為0.599。
藜麥是膳食纖維和維E 的良好來源,其中可溶性膳食纖維和不溶性膳食纖維占總質量6%左右;藜麥中的微量營養素含量較高,鈣含量是大米的3 倍,鐵含量是大米的5 倍,磷含量與小麥相當[33-34]。曹曉寧等人[35]采集100 個藜麥樣品,將NIRS 原始光譜進行一階導數+矢量歸一化預處理,最終測定粗纖維含量與國標方法測定的數據接近,R2為0.884 8。Martín 通過馬氏距離和偏最小二乘回歸法優化光譜后,測得的Fe 和P 含量較接近ICPOES 測定的值,相關系數RSQ 大于0.7;Ca,K 和Mg 含量測RSQ 為0.5 左右,效果并不明顯。Moncada G 等人[36]通過PCA,MPLS 和多種散射校正的數學處理方法對光譜進行優化,測得藜麥中的維E 和總酚含量接近化學法所測,RSQ 分別為0.841 和0.947。
概述了部分可優化NIRS 的化學計量學方法,包括光譜預處理、波長選擇和模型評估,及其在藜麥營養成分檢測的應用,匯總后發現以下問題:
(1)盡管所有預處理經過反復交叉驗證用來提高信噪比,但是仍可能會導致原始信息丟失頻譜。此外,多項研究表明采用最佳數據集和應用程序先進的算法后,預處理的效果也在最終模型中不再突出[37]。
(2)目前,相對穩定、準確且高效的模型,如多元散射校正、偏最小二乘法和多元線性回歸等,其中涉及波長選擇的方法較少,合適的波長可以減少在原始光譜中的冗余信息,明顯提高性能并降低計算的消耗[38],因此將波長篩選結合研究前沿的預處理和回歸方法(線性、非線性)可能會得到更好的結果,尤其在藜麥蛋白質、膳食纖維、多酚和其他微量營養素定量檢測方面。
(3)有研究證明,NIRS 對部分谷物和豆類中不溶性膳食纖維的預測準確度遠大于可溶性膳食纖維含量[39-40],在藜麥中也同樣適用,今后的研究應該推進藜麥中微量元素的準確定量模型的開發。
(4)由于不同成分的交互作用,進行NIRS 檢測時應充分考慮外部因素(水分、物料形態等),利用感官評價等人工干預手段對光譜進行初篩,近紅外光譜用來評估藜麥保質期的模型也有待探究。