石魯珍 張景川 蔣 霞 陳 杰 白鐵成
(1 塔里木大學信息工程學院, 新疆 阿拉爾 843300)(2 塔里木盆地生物資源保護利用重點實驗室, 新疆 阿拉爾 843300)(3 塔里木大學機械電氣化工程學院, 新疆 阿拉爾 843300)
?
光譜測定南疆鮮冬棗Vc含量方法的研究
石魯珍1,2張景川3蔣 霞1陳 杰1白鐵成1
(1 塔里木大學信息工程學院, 新疆 阿拉爾 843300)(2 塔里木盆地生物資源保護利用重點實驗室, 新疆 阿拉爾 843300)(3 塔里木大學機械電氣化工程學院, 新疆 阿拉爾 843300)
摘要本研究嘗試利用近紅外光譜技術測量冬棗的Vc含量,用連續投影算法(SPA)在校正模型中選擇有效的近紅外光譜波長變量,然后用篩選出的變量建立偏最小二乘(PLS)模型。該模型的預測標準偏差(RMSEP)為0. 249 3,預測相關系數(RP)為0. 919 7,并將SPA篩選的變量建立的PLS模型與全光譜建立PLS模型結果進行比較。結果表明,SPA優選出全光譜1 557個變量中的24個變量,建立的PLS模型預測效果要好于全光譜建立的PLS模型,SPA能夠有效地選取待測成分的特征波長,在冬棗Vc無損檢測方面提供理論基礎。
關鍵詞近紅外光譜; PLS; SPA; Vc
Testing Research on Fresh Jujube Vc in South Xinjiang by NIRS
冬棗又名凍棗、蘋果棗,以其成熟晚而得名。冬棗皮薄質脆,酸甜適口,且富含多種氨基酸和維生素,其中Vc含量達 300~500 mg/100g,被譽為“活的維生素丸”[1],已被列入保健食品行列[2,3,4]。隨著人們對冬棗營養價值及保健功效的認識,加之其獨特的風味,冬棗深受消費者青睞,已成為水果中的精品,發展前景巨大,市場空間廣闊。
傳統紅棗維生素C含量的檢測是用化學方法。化學方法既要破壞紅棗結構的完整性,又要使用有毒的化學藥品,費時、費工,而且不能實時跟蹤紅棗維生素C含量的變化。近紅外(NIR)光譜是一個快速無損的技術,可以實時檢測物質成分含量,在某種程度上優于一些耗時的化學分析。近紅外光譜的結構信息和組成信息都十分豐富,非常適用于含氫有機化合物(如農產品)的物化參數測量。如紅棗的糖度和水分[5,6]、蘋果的糖度[7]、臍橙的糖度[8]等。偏最小二乘法( partial least square, PLS )可有效地從復雜信息中提取相關信息,并建立可靠的模型, 如果選擇具有較好代表性的校正集,可以提高預測模型的預測能力。目前,較常用的選擇校正樣本的方法有Kennard Stone(KS)[9]和sample set partitioning based on joint x-y distances(SPXY)[10]等方法。
在利用NIR結合偏最小二乘法(PLS)建模過程中,發現雖然PLS方法的抗干擾能力較強,并可在全光譜范圍建立校正模型,但是隨著對PLS研究的深入,發現用經過篩選的特征變量或者特征譜區建立的定量校正模型[11]有可能更好。連續投影算法(SPA)[12]是在數據矩陣中尋找一個變量組,該變量組含有的冗余信息最低,并使該變量組中變量之間的共線性達到最小。連續投影算法只用少數幾列的原始數據信息就可以總結出絕大部分樣本的光譜信息,有力地減少了重疊信息。SPA除了可以用來選擇光譜變量,而且還可以用來確定主成分分析所得的最佳主成分數[13]。本文利用SPXY來劃分冬棗校正集樣本,應用連續投影算法(SPA)優化冬棗Vc的近紅外光譜無損檢測模型,并優選出冬棗Vc近紅外特征波長。
1材料與方法
1.1試驗材料與儀器
試驗所用冬棗于2014年10月采集于新疆阿拉爾市,挑選出沒有霉爛、破損的完好冬棗150顆,去除表面灰塵并做好標記,放入冷庫冷藏保鮮。
1.2光譜采集儀器及方法
紅棗近紅外光譜采集的光譜儀是美國生產的Antaris Ⅱ FT-NIR型。該光譜儀無需另外提供采樣背景,以儀器內部空氣為背景,測量波長范圍4 000~10 000 cm-1,1 557點的采樣點數,設定每張光譜掃描32次,設定8 cm-1的分辨率,儀器使用的檢測器為InGaAs。采集光譜條件:采集光譜前,先將紅棗放入溫度在19℃-23℃間,相對濕度在20%-25%之間的室內4h;測樣方式:開機預熱30分鐘后,用近紅外光譜儀對紅棗的可區別3個部位分別掃描32次,取3次采集光譜的平均值。
1.3光譜數據處理
圖1a為冬棗樣品的原始近紅外光譜。該光譜圖反映了維生素C含量在近紅外區各個波數上的吸收強度。原始光譜是通過近紅外光譜儀來獲取的,它包含背景信息和除樣品外的噪聲信息。為了獲得可靠、精確和穩定的模型,對模型校正集光譜進行預處理是很有必要的。目前光譜預處理方法很多,例如均值中心化,標準化,平滑,求導,標準正態變量變換(SNV),多元散射校正(MSC),傅立葉變化和其他一些新的方法。本研究試圖比較3種經典的光譜預處理方法,分別是均值中心化, MSC和導數。均值中心化是用來增強樣品光譜之間的差異,從而提高模型的穩健性和預測能力。MSC主要是消除因顆粒分布不均勻及顆粒大小造成的散射,基線和其他背景干擾可通過導數光譜有效地消除,分辨出重疊峰,從而提高分辨率和靈敏度。
通過比較3種光譜預處理,MSC預處理方法好于其他的方法。因此本研究采用MSC預處理方法。圖1b為光譜經過MSC處理。由經過MSC處理提取的反射光譜建立維生素C含量預測模型,在預測模型標準偏差和相關系數方面都優于其它方法。

(a) (b)
1.4冬棗Vc標準測定方法
冬棗的Vc標準測量方法采用2,4-二硝基苯肼法,按國標(GB/T 5009.86-2003)執行。
1.5軟件
所有的算法應用在Matlab 2009b (Mathworks,USA)上。Result軟件(Antaris II,賽默飛世爾科技,美國)用于近紅外光譜數據采集。
2結果與分析
2.1校正模型
校正集樣品的分布特點會直接影響校正模型的校正結果,采樣樣品密集的地方可能出現過擬合,而采樣樣品較少的地方則會擬合不足。這里用 SPXY(sample set partitioning based on joint x-y distances)[10]法對樣品進行選擇。SPXY是用來選擇校正樣本的方法,是有Galvao等人在KS方法[9]的基礎上提出的。SPXY法將光譜變量和濃度變量同時加入樣品間距離計算公式,其距離按公式(1)計算:

(1)
式中,dx(i,j)是以光譜為特征參數計算的樣本之間的距離;dy(i,j)是以濃度為特征參數計算的樣本之間的距離。為使樣本在光譜空間和濃度空間具有相同的權重,分別除以它們各自的最大值進行標準化處理。

表1 校正集和驗證集樣品Vc參考測量值
利用SPXY法劃分100個紅棗樣本作為校正集和50個樣本作為驗證集。通過校正集參數建立冬棗Vc近紅外光譜模型,通過驗證集參數驗證所建模型的準確性和可靠性。校正集和驗證集的參數統計結果表1所示,從表1中可以看出校正集樣品濃度范圍大于驗證集樣品濃度范圍,說明校正集樣品劃分是合理的。
在校正模型中,采用留一交互驗證法來建立校正模型。留一交互驗證法是這樣的:在樣本集的n個樣品中,(n-1)個樣品用來建立校正模型,剩余的一個樣品與校正模型的預測值進行比對。樣品集中的每個樣品都會與校正模型的預測值進行比對一次。交互驗證均方根誤差(RMSECV)是按照公式(2)計算的:
(2)
yi,actual為第i樣品參考方法的測量值,yi,predicted為留i樣品所建校正模型的預測值,n為校正集的總樣品數。最優模型是選擇通過全譜最低的RMSECV。
最后,最優的模型是通過獨立的樣品驗證集驗證的。預測均方根誤差(RMSEP)和相關系數r在預測集中通過公式(2)和(3)計算的。
(3)
yi,actual,為第i樣品參考方法的測量值,yi,predicted為預測模型對驗證集第i樣品的光譜預測值,m為驗證集的總樣品數。
(4)

2.2近紅外變量區間篩選
在采用近紅外光譜技術預測冬棗的Vc研究中,冬棗的近紅外光譜中可能有一個或若干個與Vc信息相關的區間,通過區間篩選法,可簡化建模過程,提高預測模型的預測精度。
連續投影算法(successive projections algorithm,SPA)[14]是前向循環選擇算法,它從某個波長開始,每次循環都計算它在未選入波長上的投影,并將投影向量最大的波長收入到波長組合中。每一個新收入的波長,都具有與前一個線性關系最小的特點。
校正集的光譜矩陣X(n×m)給出需要選擇的波長數h,SPA算法如下:
Step 1: 在光譜矩陣中任選一列向量xj,作為第一次迭代(p=1)的初始向量,記為;xk(0)=j,{j∈1,…,m}
Step 2:把光譜矩陣中沒有入選的其余列向量位置的集合記為s,s={j,1≤j≤m,j{k(0),…,k(p-1)}};
Step 3:分別計算剩余列向量xj(j∈s)與當前所選向量xk(p-1)的投影:

Step 4:提取最大投影值的波長點變量序號:k(p)=arg[max(‖Pxj‖)],j∈s;
Step 5:令xj=Pxj,j∈s;
Step 6: p=p+1,如果p 最后選用的波長變量為{k(p),p=0,…,h-1}。 對每一初始k(0)進行一次循環計算,再進行偏最小二乘法(PLS)交互驗證分析,選擇出最小RMSECV所對應的k(p)。 通過連續投影算法進行光譜變量選擇,相應于冬棗Vc的校正模型,以50作為提取光譜特征波長的最大值,分別選取1~50個特征光譜波長與冬棗Vc的標準測量方法獲取的結果(Vc含量)建立PLS模型,以PLS模型中的最低交互驗證均方根誤差(RMSECV)作為最優模型,圖2(a)為冬棗近紅外光譜中選用不同變量數的最低RMSECV值,方框為最終選用建立模型的變量數。當采用24個變量時,可得到最低的RMSECV值0. 220 97,對應的PLS模型為最佳模型。圖2(b)為所選擇的相應變量波數分別為8 388. 83cm-1, 4 003. 497 cm-1,5 781. 543 cm-1,6 961. 765 cm-1,4 844. 308 cm-1,8 496. 824 cm-1,4 153. 917 cm-1,5 337. 996 cm-1,9 812. 038 cm-1,5 299. 426 cm-1,8 427. 399 cm-1,7 779. 435 cm-1,8 701. 241 cm-1,4 713. 172 cm-1,7 899 cm-1,8 651. 102 cm-1,8 180. 556 cm-1,6 869. 198 cm-1,8 550. 821 cm-1,8 300. 12 cm-1,4 952. 302 cm-1,4 747. 885 cm-1,4 674. 603 cm-1,4 547. 324 cm-1。 (a)選用不同變量PLS模型的RMSECV值 (b)參加建模的近紅外光譜波長 2.3結果驗證與分析 將SPA所選擇的變量建立偏最小二乘(PLS)模型,圖3是PLS模型驗證集中NIR的預測值與實際測量值之間的相關性散點圖,數字代表驗證集樣品序號。 采用SPA篩選的變量與全光譜建立PLS模型結果比較如表2所示。通過SPA篩選的變量建立的PLS模型與全光譜變量建立的PLS模型相比較,前者的預測相關系數rp大,預測標準偏差RMESP=0. 249 3,小于全光譜變量PLS模型的預測相關系數。說明通過SPA選取的較少波長變量建立的模型,其預測精度比全光譜變量建立的PLS模型的預測精度要高,且SPA所篩選出的波長能夠正確反映待測組分(Vc)信息,優選出的波長間的共線性影響不影響預測,可以不予考慮。再者,用SPA篩選的變量建立預測模型的時間比用全光譜變量建立預測模型的時間要短得多。 圖3 SPA選擇的變量PLS模型驗證集中冬棗Vc參考值與NIR預測值對比圖 方法波數/cm-1變量數最佳主成分rcRMSECVrpRMSEP全光譜4000~100001557130.92480.26570.90890.2641SPA8388.83,4003.497,5781.543,6961.765,4844.308,8496.824,4153.917,5337.996,9812.038,5299.426,8427.399,7779.435,8701.241,4713.172,7899,8651.102,8180.556,6869.198,8550.821,8300.12,4952.302,4747.885,4674.603,4547.3242490.93340.220970.91970.2493 3結論 本文利用NIR法測定冬棗的Vc含量,利用SPXY方法劃分校正集,實驗結果表明SPXY法可以很好地選擇有代表性的校正樣本;利用連續投影(SPA)進行波長變量選擇,最終從1 557個變量中選擇出24個變量,光譜變量之間的共線性影響降到最低,大大簡化了模型的復雜度,可以有效地優選出特征光譜變量縮短校正時間,并且提高了冬棗Vc近紅外模型預測精度,是一種有效的光譜變量選擇方法,近紅外光譜技術可以對新疆冬棗Vc進行無損檢測。 參考文獻 [1]于洪長,高新一.珍稀果品—沾化冬棗[J].植物雜志,1998(3):8-9. [2]劉孟軍,彭建營,劉新云,等.鮮棗貯藏及酒制過程中營養成分的變化[J].河北農業大學學報,1996,19(1):36-39. [3]劉孟軍,王永蕙.棗和酸14種園藝植物 cAMp 含量的研究[J].河北農業大學學報,1991,14(4):20-23. [4]Chyul J C,Kiyomichi H.Cyclic adenosine monophosphate in fruits of Ziziphus jujuba[J]. Phytochemistry,1980(19):24-47. [5]彭云發,彭海根,詹映,等.近紅外光譜對南疆紅棗水分無損檢測的研究[J].食品科技,2013(11):260-263. [6]詹映,彭云發,彭海根,等.近紅外光譜在南疆紅棗糖度無損檢測中的應用[J].農機化研究,2014(06):179-183. [7]Jhs S N,Garg R.Non-destructive prediction of quality of intact apple using near infrared spectroscopy[J].Journal of Food Science and Technology,2010,47(2):207-213. [8]Yande L,Xudong S,Jianmin Z, Linear and nonlinear multivariate regressions for determinationsugar content of intact Gannan navel orange by Vis-NIR diffusereflectance spectroscopy[J]. Mathematical and Computer Modelling 2010, 51:1438-1443. [9]Kennard R W,Stone L A.Computer aided design of experiments[J].Technometrics,1969,11:137-148. [10]Galváo RKH, Araújo MCU, José GE, et al. A method for calibration and validation subset partitioning[J]. Talanta ,2005,67(4):736-740. [11]褚小立,袁洪福,陸婉珍.近紅外分析中光譜預處理及波長選擇方法進展與應用[J].化學進展,2004,16(4):528-542. [12]Arau jo M C U, Saldanha T C B, Galva o R K H, et al. The successive projections algorithm for variable selection in spectroscopic multicomponent analysis [J]. Chemometrics and intelligent laboratory systems, 2001, 57: 65-73. [13]吳迪,金春華,何勇.基于連續投影算法的光譜主成分組合優化方法研究[J].光譜學與光譜分析,2009,29(10):2734-2737. [14]付坦. 冬棗冰溫保鮮技術的研究[D].天津商業大學,2013 Shi Luzhen1,2Zhang Jingchuan3Jiang Xia1Chen Jie1Bei Tiecheng1 (1 College of Information Engineering, Tarim University, Alar, Xinjiang 843300) (2 Xinjiang Production& Construction Corps Key Laboratory of Protection and Utilization of Biological Resources in Tarim Basin, Alar, Xinjiang 843300) (3 College of Mechanic and Electrical Engineering, Tarim University, Alar, Xinjiang 843300) AbstractThe study attempts to detect fresh jujube Vc content by NIRS, Choose effective NIR wavelength variable in adjusted model by continuous projection algorithm (SPA), then establish partial least squares(PLS) model based on selected variables. The standard deviation of the predicted value(RMSEP) was 0. 249 3, the correlation coefficient (RP) of the predicted value was 0. 919 7, comparative the model based on the variables SPA screening with the model basted on the full spectrum. The results show, 24 variables were preferred from 1 557 full spectrum variables on SPA screening, the predicted value of PLS model established with the 24 variables is better than the predicted value of PLS model established with full-spectrum, the characteristic wavelength can be elected effectively by SPA, this provide a theoretical basis for non-destructive testing in Winter jujube Vc. Key wordsNIRS; least squares(PLS); continuous projection algorithm (SPA); Vc 中圖分類號:TP391.41 文獻標識碼:ADOI:10.3969/j.issn.1009-0568.2015.04.015 文章編號:1009-0568(2015)04-0093-06 作者簡介:石魯珍(1972-),女,講師,碩士,研究方向:微波技術與光譜應用研究。E-mail:shiluzhen08@yeah.net 基金項目:塔里木大學校長基金碩士項目(TDZKSS201413)。 收稿日期:2015-04-06

