張 芳, 周 昊, 徐 蓉, 徐寸發, 韓 偉, 徐為民, 李 勇
(1.江蘇省農業科學院中心實驗室,江蘇南京 210014; 2.江蘇省農業科學院農產品質量安全與營養研究所,江蘇南京 210014)
山藥為薯蕷科植物薯蕷(Dioscoreaopposita)的干燥根莖,作為藥食兩用的中藥材,具有補脾養胃、生津益肺、補腎澀精功效,受區域氣候特征、地質特點、生長習性等因素的影響,具有不同的產地特征。以廣西、河北、河南等地為主的幾大產地構成了國內主要山藥栽培區。以河南懷慶府(今博愛、武陟、溫縣)所產最佳,歷史悠久,質量上乘,入藥療效好,謂之“懷山藥”,也稱道地山藥。傳統的道地山藥識別方法主要是感官評定法。感官評定法易受不同評定人經驗和主觀因素的影響,外界環境對感官評定法也會產生較大干擾,影響結果的客觀性和準確性,因此,建立一種快速、可靠、方便的鑒別方法尤為重要。
紅外光譜技術是一種分析物質結構和含量的有用工具,可用于未經化學方法提取樣本的分析,并且具有快速、無損、靈敏等特點[1],在化工、生物、醫藥等方面的應用[2-5]日漸廣泛,逐步取代了繁瑣的、可信度不高的傳統分析方法。紅外光譜中所反映的是樣品的整體信息,是混合樣品中所有成分的疊加,只要樣品的處理方法統一,樣品中各種化學成分的質和量相對穩定,則其紅外光譜應該是相對穩定的,地域、種質、加工方法、貯存等外界因素的影響,從紅外光譜上能夠反映出各自的差異性。但是,由于紅外光譜固有的復雜性及待測樣本中所含化合物的多樣性,紅外光譜解析比較困難,特別是譜圖僅有細微差別的樣品,如同種植物不同產地或不同栽培條件樣品的紅外光譜,這類光譜的差別肉眼不能有效識別,即使有的差別能夠識別,但是也不能確定哪些細微差別是鑒別的關鍵,而隱含的一些譜峰更是無法直接利用,因此,直接運用紅外光譜進行樣本鑒別存在較大局限。隨著化學計量學的發展,化學計量學方法被引入紅外光譜數據處理領域,在數據分析方面發揮出獨特優勢。目前,化學計量方法結合紅外光譜技術已廣泛應用于食品、飲料、土壤有機質檢測、礦物成分分析、藥物等成分和品質分析[6-8],以及產地和真偽鑒別[9-17]等領域。
本研究利用傅里葉變換紅外光譜儀鑒別道地山藥,采集樣本全波長透射率譜圖,通過化學計量學方法對光譜數據進行統一處理,以主成分分析(PCA)法、線性判別分析(LDA)法建立化學計量模型,實現對道地山藥和非道地山藥的有效鑒別。
本試驗樣本共107個,其中道地山藥樣本56個,采自河南省;非道地山藥樣本51個,采自河北省、江蘇省、山西省、山東省、安徽省、浙江省、云南省、廣東省。山藥樣品部分采購自原產地,部分由江蘇省農業科學院經濟作物研究所提供。樣本用毛刷刷去表面泥土,洗凈,過純水,切片,置于表面皿中,在60 ℃下干燥至恒質量,粉碎,過篩,裝入密封袋并保存于干燥器中待測。
試驗所用的中紅外光譜儀型號:美國Thermo Fisher Scientific Nicolet iS50 FT-IR型傅里葉變換紅外光譜儀,掃描范圍為4 000~525 cm-1,分辨率為4 cm-1,掃描次數為32次。采用衰減全反射模式,采集樣本全波長透射率光譜數據。
采用主成分分析和線性判別分析(PCA-LDA)對山藥道地性進行判別。光譜數據的采集和保持通過軟件OMNIC 9(Thermo Nicolet,USA)實現。數據分析前先將原始數據進行多元散射校正,然后采用PCA法對數據進行降維處理,通過蒙特卡洛法從各個區域中隨機選定一部分樣本,利用LDA進行建模,對剩余樣本進行判別驗證,重復1 000次,統計其準確率。所有數據分析均在Matlab環境中完成。
山藥不同產地代表樣本的紅外圖譜(圖1-a)。從譜圖中可以看出,不同產地山藥的譜圖極其相似,很難分辨出差別,這主要是由于山藥中淀粉的含量為20%~30%[18],造成譜圖差異性不明顯,憑借肉眼很難實現山藥道地性鑒別,因此必須借助化學計量學技術對其圖譜解析。
鑒于山藥樣品的不均一性,樣品在處理中出現的諸如粒度不均勻、混合不充分,利用紅外光譜測量樣品時,會出現的光散射等問題,本試驗利用多元散射校正預處理方法來消除散射的干擾[19]。經預處理后得到光譜(圖1-b)。

主成分分析(principal component analysis,PCA)是一種常用的提取光譜特征信息的方法,利用方差最大原則,對原始光譜數據所包含的多個自變量進行線性擬合,以新的低維變量代替原始高維變量,進而達到數據降維的目的[20]。主成分個數主要由累計貢獻率來決定,通常達到80%~90%時就可以用主成分代替原始變量作進一步的分析[21]。我們采用PCA對預處理后的原始數據進行降維處理,其中前7個特征矢量所對應的累積方差為88.5%(>80%),能夠有效地提取出數據中的信息,PC1、PC2、PC3、PC4、PC5、PC6、PC7的權重分別為33.66%、14.89%、14.03%、10.11%、6.91%、5.20%、3.73%。前人研究結果,前3個主成分就可以反映樣本的大部分原始光譜信息,本試驗需要6個主成分才能達到要求,可能是因為前人是選取某一段光譜進行研究,而本試驗選取整個光譜進行分析,光譜信息量太大,故需要的主成分數也多。
經主成分分析法降維處理后,用不同主成分組成二維投影見圖2。PC1和PC2、PC2和PC3、PC3和PC4、PC4和PC5組成的投影圖中,兩類樣本混合在一起,均不能將道地和非道地山藥進行有效區分,PC5和PC6、PC6和PC7基本實現了道地與非道地山藥的區分,但有些樣本出現了重疊。所以,僅利用PCA不能有效區分道地和非道地山藥。
線性判別分析(LDA)是用于判斷樣品所屬類型的一種統計分析方法,首先找出特征向量w,將k組m元數據投影到另一個更低維的方向,使得投影后組與組之間盡可能地分開,而同一組內的關系更加密切,從而在新空間對樣本進行分類,使得PCA投影后不能再分的樣本經LDA投影后則得到區分。通常在解決問題的過程中,LDA抓住了樣本的判別特征,而PCA抓住了樣本的描述特征[22]。在PCA-LDA的分析過程中,利用蒙特卡羅模擬隨機86個樣品為訓練集,利用LDA對前10個主成分進行模型建立,然后再對剩余21個樣品進行預測分析。
以其中一次判別為例,利用PCA-LDA建立模型如下:
Y=0.012 0×PC1+(-0.055 5)×PC2+0.030 6×PC3+(-0.037 2)×PC4+0.016 0×PC5+0.060 5×PC6+(-0.071 3)×PC7+0.036 0×PC8+0.005 7×PC9+0.080 7×PC10+(-0.004 1)。
式中:Y為判別函數,當Y>0時,樣品為道地山藥;當Y<0時,樣品為非道地山藥。
從圖3可以看出,道地和非道地山藥樣本都得到了很好的區分,訓練集中,地道山藥樣品10、21、33、42被錯誤識別為非道地山藥,非道地山藥樣品59被錯誤識別為道地山藥;驗證集中,21個樣品均分類正確。在1 000次運行PCA-LDA后,訓練集和驗證集的分類結果,訓練集鑒別道地山藥的準確率為97.53%,鑒別非道地山藥的準確率為98.88%;驗證集中鑒別道地山藥和非道地山藥的準確率分別為93.64%和95.70%(表1)。試驗結果表明,PCA-LDA能夠有效區分道地和非道地山藥。



表1 1 000次運行PCA-LDA分析結果
僅利用紅外光譜進行山藥道地性判別有一定難度,也存在局限性,本研究利用紅外光譜結合建立主成分分析法(PCA)、線性判別分析(LDA)法建立模型,可實現對道地山藥和非道地山藥的有效判別。訓練集鑒別道地山藥的準確率為97.53%,鑒別非道地山藥的準確率為98.88%,可見,采用PCA-LDA可以在一定程度上克服樣本數目少于量測變量的不足。對未知樣本進行預測,驗證集中鑒別道地山藥和非道地山藥的準確率分別為93.64%、95.70%,準確率均達到了90%以上,取得了良好的鑒別效果。本研究結果表明,紅外光譜結合主成分分析和線性判別分析法建立模型有較強的鑒別區分能力,可以作為一種快速鑒別道地山藥的方法,也為鑒別其他樣本提供參考。