吳靜珠,李 慧,劉翠玲,王克棟
(北京工商大學計算機與信息工程學院,北京100048)
基于近紅外的蔬菜農殘快速定性檢測技術研究
吳靜珠,李 慧,劉翠玲,王克棟
(北京工商大學計算機與信息工程學院,北京100048)
將基于統計學理論的支持向量機(SVM)和近紅外光譜(NIR)技術相結合,用于蔬菜上有機磷農藥殘留的快速檢測分析。實驗以蔬菜上常用的毒死蜱農藥為分析對象,配制了濃度為0.005~5mg/kg共86個模擬的蔬菜農殘樣品,分別采用含量梯度法和Kennard-Stone法挑選訓練集樣品,以0.05mg/kg為檢測閾值,建立基于樣品近紅外光譜的支持向量機定性識別模型,通過對懲罰參數的調整取得了滿意的鑒別效果,為實現對蔬菜上的農藥殘留分析進行快速檢測提供了一條可能的途徑。
近紅外光譜,支持向量機,定性分析,農藥殘留
Abstract:This paper presented a novel classifier built by support vector machines( S ∨M)and near infrared spectroscopy(NIR)to identify pesticide residue in vegetable rapidly.86 unit Chlorpyrifos samples were confected from 0.005mg/kg to 5mg/kg,which simulated pesticide residue samples of vegetables.According to the national standard,the detection value of Chlorpyrifos was 0.05mg/kg.The experimental samples were selected by content of the gradient and Kennard-Stone respectively.The satisfying classifier can be built by adjusting the penalty parameter of S∨M.Results indicated that the combination of S∨M and NIR can detect pesticide residue on the vegetable directly and lossless,it also provided a possible way of rapid detection on vegetable in the future.
Key words:NIR;S∨M;qualitative analysis;pesticide residue
農藥的發明和使用大大提高了農作物的產量。但是隨著農藥的大量和不合理使用,農作物中農藥殘留對人體健康的危害及農藥的使用對環境造成的負面影響也日益暴露出來,特別是蔬菜中由于使用高毒農藥或禁用農藥而引起中毒事件時有發生。目前廣泛應用于農藥殘留檢測的方法主要有氣相色譜法、高效液相色譜法和氣相色譜-質譜法等經典方法[1]。這些方法精度很高,但是費時長、檢測費用高,難以實現對蔬菜中農殘進行現場快速檢測。因此研究一種快速、預處理簡單的農殘檢測技術是當前亟待解決的問題。近紅外光譜分析技術是20世紀90年代以來發展最快、最引人注目的分析檢測析技術,快速、無破壞性和多組分分析以及分析過程的綠色化使該技術具有典型的時代特征。該技術目前已經在我國農業、食品等品質檢測領域的應用得到了迅速的發展,尤其是在線檢測和現場檢測方面,NIR技術具有很大的發展潛力和應用空間。目前,李文秀等利用高殘留農藥敵百蟲和敵敵畏在蔬菜汁溶劑的紅外吸收情況,可以直接對蔬菜上的農藥殘留進行檢測[2]。周向陽等以農藥甲胺磷為主要研究對象,分析了各種蔬菜樣品近紅外光譜圖的差異,采用差譜技術、導數預處理等進行指認,與GC-MS法比對,取得滿意的鑒別效果[3]。本工作探索將基于統計學理論的支持向量機[4]和近紅外光譜技術相結合,以蔬菜上常用的農藥毒死蜱為分析對象,根據其農殘樣品的近紅外光譜,建立支持向量機農殘定性識別模型,為實現對蔬菜上的農藥殘留快速檢測提出一種可能的途徑。
支持向量機(SVM)是一種新的通用的機器學習方法,以其小樣本下良好的推廣能力而被廣泛用于各種模式分類問題。支持向量機的基本思想是通過事先確定的非線性映射將輸入向量映射到一個高維特征空間中,然后在此高維空間中構建最優分類面。在最優分類面中采用適當的內積核函數K(xi,xj),就可以實現某一非線性變換后的線性分類,而計算復雜度卻沒有增加。此時,SVM分類函數形式類似于一個神經網絡,輸出是中間節點的線性組合,每個中間節點對應一個支持向量,如圖1所示。

圖1 支持向量機示意圖
設訓練集為{xi,yi},i=1,…,n,xi∈Rn,yi∈{-1,1},則SVM分類器的一般形式如下所示:



已有證明,如果訓練集中的樣本能被SVM建立的最優超平面完全劃分,則在測試未知樣本的最大出錯概率,即支持向量機期望風險的上界為:

上式表明,支持向量的數目越少,支持向量機期望風險的上界越小,該支持向量機泛化能力越強。
以1mg/mL的毒死蜱和甲醇溶液的標準物質(來自國家標準物質樣品信息中心)為母液,以甲醇和水作為稀釋溶液,分別配制毒死蜱濃度范圍為0.005~5mg/kg的樣品共86個。配制時,每個樣品的背景溶液甲醇和水的比例均作正交設計。考慮到蔬菜中可能含有的維生素和糖,因此每個樣品都隨機添加蔗糖、維生素C來模擬蔬菜汁溶液。將所配不同濃度的溶液樣品分別裝入20mL茶色螺口小瓶中。
感量0.1mg的電子天平預熱15min,將每個小瓶在加入稀釋液之前,除皮,然后加入水、甲醇、維生素C及蔗糖共20g,再使用移液槍把毒死蜱和甲醇的標準品加入小瓶中,標準品的量視所配濃度而定。
實驗采用德國BRUKER公司生產的MATRIX-F型傅立葉近紅外光譜儀,光纖探頭長2m,光程池1mm。測量時,在室溫下液體光纖探頭插入裝有樣本溶液的茶色小瓶中,采用透反射采樣模式,對12500~4000cm-1譜區掃描,分辨率為 8cm-1,每個樣品掃描32次。圖2所示是在MATRIX-F上采集的86個農殘樣品的近紅外采光譜圖。

圖2 86個農殘樣品的近紅外譜圖
近紅外光譜建模分析中,首先考慮的是訓練集和測試集樣本的劃分。為了充分考慮可能存在的偶然因素,本文分別從濃度差異和光譜差異兩個角度來劃分訓練集和測試集樣品,并且分別建立定性模型進行農殘鑒別。從濃度差異劃分,采用含量梯度法,以2∶1的比例劃分訓練集和測試集的樣品。從光譜差異劃分,采用 Kennard-Stone 法[5]。
SVM核函數主要有三類:多項式核函數;高斯徑向基函數(RBF)核函數;Sigmoid核函數。根據文獻所述[6],RBF徑向基函數是SVM首先的核函數。因此,本實驗以RBF徑向基函數為支持向量機的核函數,在其他參數保持不變的情況下,討論懲罰參數c的選擇對SVM定性模型性能的影響。本文在Matlab 6.5中調用SVM模式識別與回歸的軟件包LIBSVM(http://www.csie.ntu.edu.tw/~ cjlin/下載)實現 SVM的訓練和預測過程。由于支持向量機適合處理高維數據,其計算復雜性與輸入模式的維數沒有直接關系,因此實驗中直接將訓練樣品原始光譜集歸一化后作為SVM的輸入。
依據中華人民共和國農業行業標準NY/T743-2003中規定的綠色食品綠葉類蔬菜衛生指標,毒死蜱的檢出值應≤0.05mg/kg,因此將所有毒死蜱含量低于0.05mg/kg的樣品標記為-1,反之則標記為1。
在化學計量學中,評價定性判別模型的效果和預測精度通常使用識別率和預測率。所謂識別率,即是在訓練中得到的正確判別率,而用測試集所得到的正確判別率則稱為預測率,一般說來,預測率對模型好壞的判別比識別率更重要[7]。
對樣本集86個樣本采用含量梯度法劃分訓練集的樣品個數為58個,測試集樣品個數為28個。由于SVM參數的選擇對SVM的預測能力有著重要影響,但是目前SVM方法參數的選擇,國際上還沒有形成一個統一的模式。本實驗中采用LIBSVM軟件包參數設置如下:SVM類型采用C-SVC,核函數采用RBF函數,首先以默認的懲罰參數(默認為1)建立SVM模型。
根據模型的定性識別結果,在其他參數保持不變的情況下,調整懲罰參數在0.1~1000的范圍內分別建立SVM模型,以期找到一個穩健的且定性鑒別結果可行的SVM模型。實驗結果如表1所示。從表中可以得出,當懲罰參數為100和1000時建立的SVM定性識別模型的識別率達到了100%,而預測率也達到了92.85717%(26/28,即28個預測樣品中有26個分類正確),且支持向量數為16。因此根據濃度差異劃分的訓練集樣品建立的SVM定性識別模型達到了較高的識別率和預測率。

表1 含量梯度法劃分的SVM模型
對樣本集86個樣本采用Kennard-Stone法劃分訓練集的樣品個數為56個,測試集樣品個數為30個。同上選取了在懲罰參數0.1~1000的范圍內分別建立了SVM模型。實驗結果如表2所示。根據式(3)得出結論:支持向量的數目越少,支持向量機期望風險的上界越小,該支持向量機泛化能力越強。從表中可以得出,當懲罰參數為10時,支持向量數為20,建立的SVM定性識別模型的識別率達到了100%,而預測率也達到了96.6667%(29/30,即30個預測樣品中有29個分類正確),此時的模型鑒別結果可行且泛化能力較強。因此根據光譜差異劃分的訓練集樣品建立的SVM快速定性識別模型達到了較高的識別率和預測率。

表2 Kennard-Stone法劃分的SVM模型
本工作以蔬菜上常用的毒死蜱農藥為分析對象,通過實驗配制了濃度0.005~5mg/kg共86個模擬的蔬菜農殘樣品。分別采用含量梯度法和Kennard-Stone法挑選訓練集樣品,以0.05mg/kg為檢測閾值,建立基于樣品近紅外光譜的支持向量機模型,通過對懲罰參數的調整建立快速定性識別模型,均取得了滿意的鑒別效果。該方法為實現對蔬菜農藥殘留的快速檢測提供了一條可能的途徑。
[1]王朝瑾,蔡琦.農產品中農藥殘留的檢測趨勢[J].現代科學儀器,2006(1):106-108.
[2]李文秀,徐可欣.蔬菜農藥殘留檢測的紅外光譜法研究[J].光譜學與光譜分析,2004,24(10):1202-1204.
[3]周向陽,林純忠,胡祥娜.近紅外光譜法(NIR)快速診斷蔬菜中有機磷農藥殘殘留[J].食品科學,2004,25(5):151-154.
[4]張學工.關于統計學理論與支持向量機[J].自動化學報,2000,26(1):32-34.
[5]吳靜珠,王一鳴,張小超.近紅外光譜分析中定標集樣品挑選方法研究[J].農業機械學報,2006,37(4):80-82.
[6]B Sholkopf,K Sung,CJ C Burges,et al.Comparing support vector machine with Gaussian kernels to radial basis function classifiers[J].IEEE Trans Signal Processing,1997,45:2758-2765.
[7]梁逸增,俞汝勤.化學計量學[M].北京:高等教育出版社,2003:
191-202.
Study on rapid qualitative analysis of pesticide residue in vegetable based on near infrared spectroscopy
WU Jing-zhu,LI Hui,LIU Cui-ling,WANG Ke-dong
(School of Computer Science and Information Engineering,Beijing Technology and Business University,Beijing 100048,China)
TS207.3
A
1002-0306(2010)10-0377-03
2009-04-23
吳靜珠(1979-),女,博士,講師,主要從事基于近紅外光譜的農產品品質檢測技術研究。
北京市自然科學基金項目(4073031);北京市優秀人才資助項目(20081D0500300130)。