崔虎亮 張亞楠 賀 霞 袁星雨
(1 山西農業大學園藝學院/山西省功能農業提質增效協同創新中心,太谷 030801;2 中國科學院植物研究所/北方資源植物重點實驗室,北京 100093)
我國是食用油大國,食用油消費逐年增長,而油料消費增速遠遠高于供給增速,自2008 年以來我國植物油自給率逐年下降[1],油料已成為我國對國際市場依存度最高的大宗農產品。與此同時,隨著人們生活水平的不斷提高,消費者對食用油品質的追求也不斷提高。因此,提升油料生產效益,加快培育新優種質,增強油料供應自給能力對于維護國家糧油安全具有重要意義[2]。
近紅外光譜技術(NIRS,near infrared spectroscopy)是20 世紀80 年代后期迅速發展起來的一種物理測試技術。它利用有機化學物質在近紅外光譜區域的光學特性,快速估測樣品中的一種或多種化學成分的含量,具有成本低、分析速度快、樣品無需前處理及不使用有害化學藥品等優點[3],因此在測定有機物質化學成分方面受到青睞。早在20 世紀70 年代,Norris 等[4]就使用NIRS 技術進行農產品的檢測,此后,隨著NIRS 技術的不斷成熟,開始廣泛應用于糧食作物[5]、果蔬[6]、肉類乳制品[7]等農產品檢測,藥物藥材鑒別[8],林木[9]及石油化工產品檢測[10]等領域,在油料作物上也發揮著重要作用。
1.1 NIRS 技術特點近紅外光譜是介于可見光和中紅外光之間的電磁波,波長范圍780~2526nm(3959~12820cm-1),主要是由于分子振動的非諧振性使分子振動從基態向高能級態躍遷時產生的,該光譜區域主要記錄含氫基團(CH、OH 和NH)振動的倍頻和合頻吸收[3]。但是,有機物質在近紅外區域的吸收信號弱、譜帶重疊嚴重,解析難度大,因此長期以來近紅外光譜無法得到應用。20 世紀80 年代后,隨著計算機技術和化學計量學的發展,光譜信息的提取和背景噪音的解析等問題得到有效改善,人們重新認識了近紅外光譜的價值。
總體來看,近紅外光譜技術具有如下優點。第一,分析速度快、效率高,一次測量可同時對樣品多個組分進行測定;第二,適用范圍廣,可測量液體、固體和膠狀體等不同狀態的物質,且樣品不需要預處理,可直接測量;第三,對樣品無損害,可以實現活體測量,樣品測量后亦可用于其他分析;第四,不使用化學藥劑,不對環境產生污染和危害。
當然,該技術也有一定的局限性。首先,由于有機物質通常在近紅外區域吸收弱,一般要求被測組分的含量應大于4%,否則檢測結果不準確;其次,建模工作有一定難度,需要采集大量的有代表性的樣品;再次,由于樣品本身的特性和光譜采集的差異,一種模型通常僅適用一定的范圍和年限,需要不斷地維護。
1.2 NIRS 定性定量分析方法應用利用近紅外光譜結合化學計量學方法進行農產品產地判別和真偽鑒別[11],是NIRS 定性分析的主要應用領域。如劉翠玲等[12]利用近紅外光譜技術結合聚類分析,對30 種食用油的近紅外光譜進行鑒別,建立了芝麻油-大豆油-花生油-玉米油的定性識別模型,識別率和預測率達到100%。楊佳等[13]采用傅里葉變換近紅外光譜(FT-NIRS)結合化學計量學建立了芝麻油、大豆油、花生油和葵花籽油的分類模型,可準確預測芝麻油中10%~100%摻假油,其預測值與實際值的相對標準偏差(SEP)分別為1.027(大豆油)和0.9660(葵花籽油)。Jiménez-Carvelo 等[14]利用NIRS 和熒光光譜進行橄欖油產地和真偽鑒別,供試的60 份橄欖油樣品中,2 種光譜均能夠鑒定出摻雜菜籽油的橄欖油樣品,但NIRS 能夠100%鑒別出供試樣品的產地,而熒光光譜尚不能做到。Sinelli等[15]對112 組初榨橄欖油進行產地溯源研究,發現線性判別分析和模式識別分類法對初榨橄欖油產地的判別正確率分別為71.6%和100%。
NIRS 定量分析的主要難點是建模工作(圖1),而選擇樣品是建模工作的前提,因為樣品的代表性直接影響到所建模型的準確度和適用性。通常情況下,應當廣泛采集樣品,盡量包涵不同地區、不同氣候類型、不同品種或種質類型,必要時還應包涵不同年份的樣品材料。然后,將樣品按照一定比例(通常為2∶1)分為定標集和驗證集,定標集用于模型建立,驗證集用于評價模型預測準確度。常用評價參數有相關系數、均方根誤差(RMSEP,the root mean square error of predication)和范圍誤差比(RPD,the ratio of performance to deviation)。前人研究指出[16-17],定量模型相關系數越高、RMSEP 值越低,則表明模型預測準確度較高,此外,RPD≥2.5 則表明該模型準確性較高,可用于植物品種育種的篩選工作;若RPD≥5 則表明該模型精確度較高,可用于質量控制。常用建模方法主要有多元線性回歸法(MLR,multiple linear regression)、主成分分析法(PCA,principal component analysis)、偏最小二乘法(PLS,partial least square)、人工神經網絡法(ANN,artificial neural network)等[18]。
2.1 NIRS 在大宗油料種子中的應用NIRS 在油料作物中的應用極為廣泛,并且已經成為大宗油料作物育種世代材料品質檢測和性狀篩選的重要工具。
油菜是世界主要油料作物之一,20 世紀90 年代開始國內外就有大量關于油菜NIRS 應用的報道。Velasco 等[16]利用NIRS 進行油菜種子鮮重、含油量和脂肪酸含量模型構建,其中油酸(r=0.92)和芥酸(r=0.94)相關系數較高,亞油酸(r=0.75)和亞麻酸(r=0.73)的相關系數較低,種子鮮重和含油量的相關系數均達到0.92。Hom 等[19]則構建了油菜種子小樣品量NIRS 檢測模型,用于光譜掃描的樣品僅3~4g,能夠預測出油脂、蛋白和硫代葡萄糖苷的含量(r=0.82~1.00),同時該研究建立的單粒檢測模型可用于檢測烯酸、吲哚酸和硫代葡萄糖含量(r=0.83~0.86)。Niewitetzki 等[20]利用自動進樣設備(圖2)進行高通量油菜單粒種子NIRS 建模工作,該設備可掃描800 粒/h 種子,通過改良偏最小二乘回歸法(MPLS,modified partial least square regression)進行定標集和驗證集的校正,結果表明油酸標準偏差(SD)在2.7%~3.7%之間,亞麻酸的SD在1.2%~1.8%之間,從而證明NIRS 用于油菜單粒種子檢測的可行性。油菜小樣品量和單粒種子NIRS 模型的應用,實現了油菜種子單粒篩選,大大推動了油菜高效育種和精準育種工作。
大豆作為世界范圍內的大宗油料作物,NIRS技術應用也達到了小樣品量和單粒檢測水平。Armstrong 等[21]發現NIRS 在預測大豆蛋白和油脂方面具有較高的準確性,而構建的單粒模型亦可用于雜交后代種子遺傳背景篩選。Ferreira 等[22]利用播種于巴西隆德里納和蓬塔格洛薩2 個地區的20份大豆品種進行NIRS 研究,發現所建模型在預測種子含水量、灰分、蛋白和油脂含量等方面具有較好的適用性(R2=0.72~0.88)。Han 等[23]選擇600 粒大豆高油酸雜交F2種子進行NIRS 掃描,并準確建立了油酸含量預測模型,相關系數r2=0.99,該模型可用于大豆高油酸品質育種種質篩選。
向日葵是重要的油用作物,栽培分布十分廣泛。Leonardo 等[24]收集向日葵高硬脂酸突變體材料CAS-14 的種子,利用2510 粒去皮種子進行NIRS 建模,采用交叉驗證評估建模效果,發現硬脂酸(R2=0.80,SD=0.45)、油酸(R2=0.89,SD=0.34)、亞油酸(R2=0.91,SD=0.30)建模準確度較高,這一研究使得向日葵種子油脂實現了無損單粒檢測。Sato等[25]同樣發現NIRS 的準確性較高,其中利用去皮種仁建立的NIRS 模型相關系數達到0.993,而利用提取出來的葵花籽油建立的NIRS 模型相關系數達到0.989。
花生是出油率極高的油料作物,我國也是世界上最大的花生油消費國。Sundaram 等[26]利用維吉尼亞和瓦倫西亞2 種花生種質進行NIRS 建模研究,發現維吉尼亞花生種質所建模型RPD>5,可用于該類花生質量控制和成分檢測;而瓦倫西亞種質所建模型RPD>3.01,可用于初篩。酸價是花生油質量評價的重要指標,Rao 等[27]利用NIRS 對67 份花生油樣品進行酸價模型構建,發現使用判別最小二乘法(DPLS,discriminant partial least squares)能夠準確判別樣品酸價,準確率達到96.55%。
亞麻分纖維用亞麻、油用亞麻和油纖兼用亞麻3 種類型,其中油用亞麻又稱胡麻,在中國有1000多年的栽培歷史。東野廣智等[28]利用26 個亞麻油樣品進行NIRS 檢測,將亞麻油各組分模塊化后采用PLS 方法進行定量分析,實現了亞麻油的快速無損檢測。Ribeiro 等[29]利用NIRS 和中紅外(MIR)光譜分析黃色和棕色亞麻種子中亞油酸和亞麻酸含量,發現NIRS 可以較好地預測完整籽粒的亞油酸(R2=0.90,SEP=1.61)和亞麻酸(R2=0.86,SEP=0.63),而NIRS 和MIR 均可用于種子粉末的檢測。
可以說,經過30 多年的努力,NIRS 基本實現了對大宗油料種子含油量和主要脂肪酸含量的無損、快速和準確檢測,并且單粒種子檢測模型和高通量檢測模型的應用使得油料種子檢測更加精細和高效,克服了油料作物早期育種留種問題和材料較少等缺陷。
2.2 NIRS 在特種油料種子中的應用現狀相比大宗油料作物,其他特種油料作物NIRS 的應用水平尚待進一步提高。蓖麻(Ricinus communis)是熱帶地區常見的油料作物,其種子含油量高達42%~58%,Fernández-Cuesta 等[30]收集高蓖麻酸和高油酸種質872 份,發現在1400~1914nm 區域可檢測蓖麻酸含量;張良波等[31]收集46 份蓖麻籽樣品,測定其近紅外光譜值,并用索氏提取法測定了含油率,然后將二者擬合建立了定標模型,相關性為0.9655,可實現蓖麻籽含油率的快速無損檢測。水黃皮(Pongamia pinnata)廣泛分布于東南亞等熱帶地區,其種子油脂用途廣泛,Khamchum等[32]選擇60 份種子樣品建立含油量和脂肪酸含量的NIRS 模型,最終利用粉碎種子樣品建立的含油量模型準確度較高(R2=0.9),可用于未知樣品檢測。麻風樹(Jatropha curcas)是重要的能源植物,其種子含油量較高,Montes 等[17]收集740 份種子樣品進行NIRS 研究,發現硬脂酸、油酸、亞油酸和亞麻酸預測模型準確度較高,而花生酸和棕櫚酸預測模型尚不準確。紅花(Carthamus tinctorius)主要分布于干旱半干旱地區,其種子富含亞油酸和生育酚,可供食用和藥用,Rudolphi 等[33]收集完整籽粒和籽粕樣品108~534 份用于NIRS 建模,結果表明籽粕樣品模型準確度高于完整籽粒,而完整籽粒模型中,含油量準確度較高,相關系數R2=0.91,亞油酸和油酸準確度較低,相關系數R2分別為0.73 和0.68。
油茶(Camellia oleifera)是我國南方一帶較為常見的木本油料作物,富含維生素、磷脂和多種單不飽和脂肪酸。原嬌嬌等[34]以索氏提取法分析的30份油茶籽的含油量為化學值,利用傅里葉變換近紅外光譜儀測定相應的光譜,最終得到的預測模型相關系數(r)為0.8978。奚如春等[35]對150 份不同產地的油茶種子樣品進行含油量的NIRS 建模,發現粉碎樣品準確度最高,相關系數R2達到0.98,而無損樣品的相關系數R2僅0.88。同樣地,孫佩光[36]通過測定132 份廣寧紅花油茶茶籽含油率進行近紅外光譜預測模型的分析,發現粉碎種仁樣品的建模參數較高,外部驗證表明近紅外預測值與化學測定值的相關系數為0.98,標準誤差0.33,該模型可用于廣寧紅花油茶種子的含油量預測。
棉花籽油富含多種維他命、甾醇和脂肪酸,可供食用且具有明顯的抗氧化和延緩衰老的作用。Quampah 等[37]以444 份棉籽粉碎樣品為材料建立NIRS 模型,其中含油量(RPD=11.495)和亞油酸(RPD=5.026)含量建模預測結果準確,但軟脂酸、硬脂酸、油酸、亞麻酸不太理想(RPD<1.5);黃莊榮等[38]以385 份棉花種子為材料探討NIRS 棉籽脂肪酸含量檢測效果,結果表明硬脂酸、油酸和亞油酸的相關系數分別為0.881、0.843 和0.806,同時發現基于蒙特卡羅無信息變量消除法(MC-UVE)的非線性最小二乘支持向量機(LS-SVM)建模方法可提高精度。
油用牡丹是我國新型木本油料作物,其種子油脂富含α-亞麻酸、油酸、亞油酸等多不飽和脂肪酸,具有抗腫瘤、抗衰老、調節免疫等功能,近幾年推廣種植較為廣泛[39]。Cui 等[40]利用FT-NIR 對收集的115 份牡丹種子材料進行建模,同時利用聲光可調濾光型近紅外光譜(AOTF-NIR)對447 粒牡丹種子進行單粒建模,種子材料的前處理包括完整籽粒、去皮種仁和種子粉末等,結果表明去皮種仁的模型效果最好,可定量檢測亞麻酸、油酸和亞油酸的含量(RPD>2.5),而單粒種子模型僅可用于亞麻酸的定量分析。
3.1 種子理化特性對NIRS 的影響油料種子的外部形態會直接影響到NIRS 的檢測效果。大宗油料作物的種子通常體積較小,或形狀可看作近似的幾何體,種子體積小且形狀規則,利于NIRS 漫反射光譜的采集,反之,則NIRS 光譜數據易產生誤差。如油菜種子千粒重1.4~5.7g,大豆種子千粒重110~250g,花生種子千粒重290~500g,胡麻種子千粒重2~13g[41]。朱大洲等[42]認為,在利用近紅外漫反射光譜掃描大豆單粒種子時,光譜的準確獲取是關鍵,其中表面光滑的種子光譜重復性好,而表面存在缺陷的種子光譜數據存在明顯差異,不具有代表性。特種油料種子的外部形態直接影響近紅外光譜的采集,油茶種子體積較大,單果重量可達到22.6~681.6g,這對NIRS 光譜采集會產生影響,孫佩光[36]采用風干的整粒種子、風干后去殼種仁和風干后種仁粉碎粉末分別進行NIRS 建模,結果表明粉碎粉末的模型準確度最高,整粒種子的準確性最低;牡丹種子外形不規則,百粒重達到36.5~41.7g,且種仁外有黑色種皮,導致牡丹去皮籽粒和完整籽粒的NIRS 光譜吸收強度存在顯著差異[40],崔虎亮[39]采用完整籽粒、去皮籽粒和粉碎樣品進行油用牡丹NIRS 建模,發現去皮籽粒模型效果最好,而粉碎樣品最差。可見,特種油料種子體積和外觀均有其特殊性,需對種子樣品進行預處理才能用于光譜掃描。根據油料種子質地,選擇恰當的樣品預處理方法可以獲得較為準確的化學值。蓖麻種子含油量較高,且粘度較大,直接用研缽研磨易損失種子粉末及油脂,導致含油量結果測定偏低,張良波等[31]采用濾紙研磨,獲得較為準確的蓖麻籽含油量數據,從而建立了蓖麻籽含油量的NIRS 檢測模型。
3.2 NIRS 建模中光譜數據預處理的重要性不同有機物質的化學結構官能團在不同的近紅外光譜區域存在特征吸收峰。Sato 等[43]證明,1600~1800nm(波數6250~5555.6cm-1)的近紅外反射光譜波長區域與脂肪酸的碳鏈長度和順式不飽和脂肪酸的吸收帶有關,此后多位學者先后證明了油酸和亞油酸與該波段的光譜參數的極顯著相關性[44],如5801.0cm-1和5831.9cm-1波數附近為亞油酸和油酸的最佳建模光譜區段,亞麻酸的最佳建模區段為5603.1~5954.1cm-1[40]。
選擇最佳光譜預處理方法和譜區范圍對提高油料種子NIRS 建模準確性十分必要。常用的光譜預處理方法包括多元散射矯正(MSC),標準正則變換(SNV),標準化處理法(Normalization),1 階求導(1stderivative),2 階求導(2ndderivative)等,以及各種預處理方法的組合[3],同時,使用Savitzky-Golay對光譜數據進行平滑處理,可進一步提高光譜的精細度[32]。孫佩光[36]在構建油茶NIRS 模型中,通過對比不同光譜預處理及其組合構建的模型參數,最終篩選出了MSC+2 階求導的預處理方法構建的模型最優;油用牡丹去皮種仁亞麻酸的光譜預處理最優方法是MSC,亞油酸是MSC+1 階導數,油酸是SNV+1 階導數,而軟脂酸則是SNV[40];在蓖麻含油率測定的近紅外模型中,MSC+detrend(去偏異技術)是最佳處理方法[31]。
我國是食用油大國,發展特種油料作物對于緩解我國食用油壓力具有重大意義。NIRS 在檢測大宗油料種子脂肪酸含量上已取得成熟的經驗,而特種油料種子的理化性質常常較為復雜,這對NIRS光譜的采集產生干擾信息,從而影響NIRS 技術在特種油料種子上的應用。進行種子樣品預處理提高光譜采集的準確性,同時進行光譜數據預處理以消除噪音干擾,對于提高NIRS 建模準確度十分必要。隨著相關研究的進一步開展,NIRS 在特種油料中的應用也必然更加高效。