潘威+馬文廣+鄭昀曄



摘要:為探索近紅外光譜技術(near infrared spectroscopy,簡稱NIRS)在無損檢測煙草種子蛋白含量方面的應用,研究120份煙草種子的近紅外光譜,利用光譜影響值法(Leverage)對異常光譜進行處理后,在4 000~9 000 cm-1 波數,利用主成分回歸法(簡稱PCR)建立煙草種子蛋白質含量的定標模型,并采用外部獨立驗證的方式對模型進行檢驗。結果表明,標準正態變量轉換法(簡稱SNV)處理結合De-trending算法下,建立的煙草種子蛋白含量定標模型的確定系數高達99.86%,校正標準差、預測標準差分別為0.71、0.68,校正集、驗證集的預測值與化學測定值間均達極顯著正相關,說明該近紅外光譜定量分析模型效果較好,可用于煙草種子粗蛋白的測定。
關鍵詞:近紅外;煙草種子;主成分分析法;模型
中圖分類號:S572.01 文獻標志碼: A
文章編號:1002-1302(2016)11-0376-04
近紅外光譜(near infrared spectroscopy,簡稱NIRS)分析技術[1-3],是20世紀80年代后期迅速發展起來的一項物理測試技術,在種子內含物、種子活力及貯藏年份分析方面得到廣泛應用,如小麥蛋白、硬度、水分、氨基酸[4-8],水稻種子淀粉、蛋白[9-11],大豆蛋白[12],油菜、棉籽種子含油量、氨基酸[13-16]等,具有無損、快速、成本低等優點。目前,關于煙草種子品種性狀如蛋白、脂肪、含水量等的測定都是基于化學法測定,費時、繁瑣。本研究旨在利用Spectrum Two FT-IR型近紅外光譜儀和配套分析軟件建立煙草種子蛋白質含量的定標模型,并對其進行驗證,為煙草種子內部品質檢測提供一種快速、簡易的方法。
1 材料與方法
1.1 供試材料
收集MS云煙87、MS K326父本煙株花粉,晾干,4 ℃保存備用。分別在MS云煙87母本、MS K326母本煙株最佳授粉時期,選同一片區含蕾期煙株授粉,授粉時,用棉簽蘸取花粉均勻涂抹于母本柱頭上,對同一天授粉花朵進行掛牌標記,分別采集授粉后7、14、21、23、25、27、29、31、33、35 d所得蒴果,每個成熟階段收集3份。
選擇相同花序的云煙97、紅花大金元花朵(含蕾期),掛牌標記,分別在盛開期過后7、14、21、23、25、27、29、31、33、35 d 對蒴果進行采收,每個成熟階段收集3份。
4個品種煙株共獲得120份煙草種子。所有種子采收及處理工作均在玉溪中煙種子公司西雙版納冬繁基地進行。
1.2 紅外光譜測試儀器及建模軟件
近紅外光譜掃描采用珀金埃爾默儀器生產的Spectrum Two FT-IR光譜儀,建模軟件為系統配套的Spectrum Quant+。
1.3 測定方法
1.3.1 樣品化學特征值常規測定 蛋白質含量分析采用凱氏定氮法測試[17],每份樣品測定3次,取其平均值,允許的相對誤差不得大于3%。
1.3.2 紅外光譜特征數據采集 開機預熱至少30 min,待單束光圖形或能量值穩定后,開始光譜采集。設定試驗參數如下:掃描波段為4 000~10 000 cm-1,分辨率為16,累積量為32。使用儀器內置參比,將上述120份處理好的樣品依次放置在光譜儀樣品盤上,對樣品進行掃描。為降低裝樣不均勻產生的誤差,每個樣品掃描5次,取平均值,每次掃描前要進行背景消除。收集各個樣品的光譜特征數據。
1.3.3 光譜數據的預處理 近紅外光譜易受樣品均勻度、基線漂移和偏移、光散射、儀器噪音等非目標因素的干擾[18]。因此,在構建校正模型前,須對原始光譜進行預處理,提高信噪比,進而優化模型的預測性能。分別采用標準化處理法如標準正態變量轉換法(簡稱SNV)、乘積分散校正法(簡稱MSC)與基線校正方法如一階導數和二階導數等相結合的方法對所采集的光譜數據進行預處理。最后,根據定標模型的預測效果選出最佳數據預處理方法。
在建模軟件“Influence”圖形中,觀察校正集中各樣本對模型的影響。“Leverage”較大可能由于樣本中某些特征峰過強或過弱,或者存在某些異常峰;軟件中“Distance”是Cook's距離,用類衡量從校正集中移除該樣本時回歸模型的改變程度。如果2個閾值都超出,說明該樣本的光譜有問題,應剔除。在建模軟件“Validation Leverage Ratio”圖形中,將驗證集中權重過大的樣本,即與校正集樣本權重的比值明顯大于1的樣本從驗證集中移除。通過最小二乘法對原光譜進行線性擬合,從而扣除原光譜中的線性漂移(De-trending算法)。
1.3.4 定標模型的建立 分別采用線性相關的主成分分析法(簡稱PCR)、偏最小二乘法(簡稱PLS)對經過不同預處理的光譜數據進行回歸分析,從120份樣品中挑選校正集和驗證集樣品,比例為3 ∶1,進行外部獨立驗證。模型建立后以確定系數R2、校正標準差(簡稱SEE)、驗證標準差(簡稱SEP)來評價優劣。確定系數越接近1,校正標準差和驗證標準差越小,則說明回歸模型的定量分析結果越準確。
2 結果與分析
2.1 煙草種子的近紅外光譜
在4 000~10 000 cm-1波譜區內,煙草種子近紅外漫反射光譜曲線各波段表現出獨特吸收特征(圖1),這為煙草種子蛋白質含量的定量分析提供了豐富的信息基礎。從圖1中還可以看出,在4 000~9 000 cm-1范圍內,煙草種子大量含氫基團的合頻區、1倍頻區、部分高倍頻區均形成強烈的吸收,模型的建立選擇此波段范圍;而9 000~10 000 cm-1范圍相對來說無明顯吸收。
2.2 不同預處理方法的結果比較
根據Cooks距離和影響值法、殘差法綜合分析后,剔除1個對模型影響過大或具有異常吸收峰的驗證集紅外光譜,為保證驗證集在校正集中均勻分散,再將2個樣品設置為驗證樣品,即實際建模的校正集為88份樣品,驗證集為31份。以主成分分析法建立回歸模型,改變波段范圍、光譜歸一化方法、基線校正方法,研究模型的R2、SEE、SEP變化(表1)。考慮到平滑處理雖然可以提高光譜的信噪比,但是會造成吸收峰增寬,降低譜圖特征性,影響峰強度,所以所有光譜未進行平滑處理。
由表1可以看出,以主成分分析法建立的煙草種子回歸模型確定系數都較高,在91.75%~99.86%之間,說明模型線性相關性較高;而SNV與MSC 2種歸一化方法比較,SNV處理模型的確定系數明顯更高;但是導數處理進行基線校正反而使模型效果下降。另外,在確定最優前處理方法后,根據留一法交互驗證(圖2),主因子數為20個時,模型的SEE、SEP最低。
總的來說,在4 000~9 000 cm-1波譜范圍內,通過SNV即標準正態變量轉換法,將每個樣本的光譜數據進行標準正態化,使各波數變量處的吸光度均值為0,方差為1,通過最小二乘法對原光譜進行線性擬合,從而扣除原光譜中的線性漂移(De-trending算法),控制主因子數為20個時,回歸模型最成功,確定系數R2達到99.83%,校正標準差為0.71,預測標準差為0.68。
2.3 不同回歸方法結果的比較
根據表1結果,選擇幾種確定系數高,校正偏差小的預處理方法,采用PLS建立回歸模型,并與主成分回歸法比較。
表2結果表明,同樣處理方法下,偏最小二乘法回歸模型的確定系數為90.66%~92.08%,比主成分回歸法低很多,而校正標準差在0.97~1.04之間,預測標準差在 1.14~4.00間,明顯比主成分回歸法高很多,說明主成分回歸模型更加適用于煙草種子蛋白含量的定量分析。
2.4 近紅外定標模型外部驗證
建立的模型是否適用,主要通過外部驗證來評價,以檢驗樣品近紅外光譜法預測值與化學值的相關性及預測效果。由表3可以看出,31個外部驗證樣品化學法和最優模型預測的蛋白含量絕對誤差的絕對值在0.01%~1.79%之間,相對誤差的絕對值在0.09%~11.77%之間,它們的平均絕對誤差均在標準方法允許的范圍內,說明這個定標方程的預測效果較好,且準確度和精度較高,可以在實際中應用。
以煙草種子蛋白質含量的化學值為橫坐標、模型回歸值為縱坐標,得校正集、驗證集的散點圖(圖3、圖4)。在圖3、圖4中,校正集和驗證集的試驗點均勻分布在直線兩側,且偏離不大,表明119份煙草種子蛋白質含量的近紅外定標模型預測值與化學方法測定值呈線性相關,且校正集相關系數r=0.97,回歸方程為y=0.97x+0.39,驗證集相關系數r=0.95,回歸方程為y=0.96 x+0.58,相關性均達到極顯著水平,表明近紅外定標模型測定的結果準確可靠。
3 討論與結論
研究采用主成分回歸法建立了煙草種子蛋白含量的近紅外光譜定標模型,4 000~9 000 cm-1波譜范圍內,SNV結合De-trending算法下,模型的確定系數R2可達到99.83%,而校正標準差、預測標準差分別為0.71、0.68,可用于煙草種子蛋白含量的無損檢測。
本研究標準樣品數目為119個(剔除1個異常值),校正集88個,驗證集31個,包含4個主栽品種10個成熟階段種子,蛋白含量范圍在6%~18%,具有較好的代表性。定標模型建立時,樣品數量的多少和化學值范圍直接影響分析的準確性和普適性[19-20]。因此,有關研究結果只是初步的,為提高定標精度、擴大模型的預測范圍,應在以后的應用研究中不斷豐富校正集。
參考文獻:
[1]賈 婉,毛培勝. 近紅外光譜技術在種子質量檢測方面的研究進展[J]. 種子,2013,32(11):46-51.
[2]孫 群,王 慶,薛衛青,等. 無損檢測技術在種子質量檢驗上的應用研究進展[J]. 中國農業大學學報,2012,17(3):1-6.
[3]朱麗偉,馬文廣,胡 晉,等. 近紅外光譜技術檢測種子質量的應用研究進展[J]. 光譜學與光譜分析,2015,35(2):346-349.
[4]鄭詠梅,張 軍,李榮福,等. 小麥近紅外特征波長提取及蛋白質含量測定[J]. 激光與紅外,2003,33(2):125-127.
[5]任紅波. 近紅外儀快速測定小麥蛋白及硬度[J]. 黑龍江農業科學,2003(3):17-18.
[6]吳靜珠,吳勝男,劉翠玲,等. 近紅外和高光譜技術用于小麥籽粒蛋白含量預測探索[J]. 傳感器與微系統,2013,32(2):60-62.
[7]張玉榮,付 玲,周顯青. 基于BP神經網絡小麥含水量的近紅外檢測方法[J]. 河南工業大學學報:自然科學版,2013,34(1):17-20.
[8]李軍濤,楊文軍,陳義強,等. 近紅外反射光譜技術快速測定小麥中必需氨基酸含量的研究[J]. 中國畜牧雜志,2014,50(9):50-55.
[9]黃道強,周少川,李 宏,等. 近紅外分析技術輔助水稻直鏈淀粉含量育種方法研究[J]. 中國稻米,2004(1):17-18.
[10]肖 昕,謝新華,陳 奕,等. 應用近紅外透射光譜法測定水稻種子直鏈淀粉含量的初步研究[J]. 中國農業科學,2004,37(11):1709-1712.
[11]謝新華,肖 昕,劉彥卓,等. 小批量稻谷種子蛋白質含量的近紅外透射光譜分析[J]. 湖北農業科學,2004(2):16-18.
[12]王秀榮,廖 紅,嚴小龍. 應用近紅外光譜分析法測定大豆種子蛋白質和脂肪含量的研究[J]. 大豆科學,2005,24(3):199-201.
[13]陳文杰,譚小力,王竹云,等. 用傅立葉變換近紅外光譜儀測定油菜種子品質指標的研究[J]. 陜西農業科學,2002(8):6-9.
[14]黃莊榮,沙 莎,榮正勤,等. 基于近紅外技術快速無損分析整粒棉籽中的脂肪酸含量[J]. 分析化學,2013,41(6):922-926.
[15]商連光,李軍會,王玉美,等. 棉籽油分含量近紅外無損檢測分析模型與應用[J]. 光譜學與光譜分析,2015,35(3):609-612.
[16]黃莊榮,陳進紅,劉海英,等. 棉籽17種氨基酸含量的NIRS定標模型構建與測定方法研究[J]. 光譜學與光譜分析,2011,31(10):2692-2696.
[17]禹山林,朱雨杰,閔 平,等. 傅立葉近紅外漫反射非破壞性測定花生種子蛋白質及含油量[J]. 花生學報,2003,32(增刊):138-143.
[18]李君霞,閔順耕,張洪亮,等. 水稻糙米粗蛋白近紅外光譜定量分析模型的優化研究[J]. 光譜學與光譜分析,2006,26(5):833-837.
[19]禹山林,朱雨杰,閔 平,等. 傅立葉近紅外漫反射非破壞性測定花生種子主要脂肪酸含量[J]. 花生學報,2010,39(1):11-14,48.
[20]魏良明. 普通玉米籽粒品質性狀的遺傳及其近紅外測定方法的研究[D]. 北京:中國農業大學,2003.