, ,源棟,,, ,,*
(1.云南中煙工業有限責任公司技術中心,云南昆明 650231;2.科邁恩(北京)科技有限公司,北京 100080;3.云南煙草質量監督檢測站,云南昆明 650106)
根據2015年《中國藥典》[1]所收載的中藥材,將葛根分為柴葛(豆科葛屬植物野葛Puerarialobata(Willd.)Ohwi)和粉葛(豆科葛屬植物葛的變種甘葛藤PuerariathomsoniiBenth)兩個品種,二者在纖維性、葛根素、大豆苷、大豆苷元等含量差異都較大,前者味苦只能入藥,后者為藥食兩用[2]。葛根在我國分布廣泛,資源豐富,但不同產地葛根受環境、氣候等因素影響,品質之間差異較大。為此,鑒別葛根的地道性及質量評價一直是熱門課題。目前,對于葛根藥材及相關中藥制劑的質量控制主要是采用色譜及光譜技術測定其中一個或多個有效成分的含量,以含量的多少來評價其質量的優劣。近年來,色譜指紋圖譜分析應用較多[3-6]。
近紅外光譜(NIR)波長范圍在780~2498 nm,NIR光譜屬于分子光譜,主要是由分子振動的非諧振性使分子從基態向高能級躍遷時產生,分子在躍遷過程中吸收能量,從而產生了吸收光譜。相對傳統的化學分析技術,大多數類型的樣品均可采用NIR光譜技術直接進行測定,而不需要進行物理、化學等任何處理,尤其對于固體樣品,不需要進行溶劑提取等工藝,直接進行NIR光譜分析,具有快速、簡便、高效、準確且成本較低,不破壞樣品,不消耗化學試劑,不污染環境優點。因此,NIR光譜分析技術受到越來越多人的青睞,在農業[7]、食品[8]、石油化工[9]、生物醫學[10-12]等領域被廣泛研究和應用,相對于近紅外定量分析方面的發展,近紅外模式識別方面的研究進展較慢。近紅外光譜模式識別是基于采集到的樣品的光譜數據,采用計算機數學建模的方法,對樣品進行識別和分類的方法。在化學計量學分析中,用于模式識別的原始數據特征越多,所包含信息越豐富,對于分析實驗結果越有利。而近紅外光譜往往包含了樣品的大量特征信息,因此,將近紅外光譜結合模式識別方法,能更加有效地對樣品進行等級分類和屬性判別。目前,基于NIR光譜信息的模式識別技術已經成為研究熱點[13-16],在各個行業的產品真假識別、在線分類判別、原產地鑒定、產品質量監控與分析等方面發揮了重要的作用。近紅外光譜模式識別主要分為兩部分,首先是特征信息提取,常見的有效方法有主成分分析(PCA)[17]、偏最小二乘(PLS)[11,18]等,其次是分類器算法,常見的有效方法有線性判別分析(LDA)、人工神經網絡(ANN)[19]、支持向量機(SVM)[20-21]等。其中特征信息提取是重要的基礎性環節,它是對變量(如,波長)和樣品對應的數據矩陣進行特征分析和數據降維。k近鄰分類(k-nearest neighbor classification,kNN)[20,22]算法根據待識樣本在特征空間中k個最近鄰樣本中多數樣本的類別來進行分類,因此具有直觀、無需先驗統計知識、無師學習等特點,從而成為非參數分類的一種重要方法[23]。
本文通過ChemPattern軟件,采用基于多元統計分析PLS-DA及kNN建模,開展基于NIR光譜的不同種類和產地來源的葛根化學模式識別,以期為中藥葛根的質量評價與質量控制提供依據。
柴葛及粉葛樣品 從藥店以及香精香料公司購買的安徽、廣西、湖北、湖南、四川、云南及重慶等12個不同產地、不同批次共120個樣品作為實驗樣品;詳細信息如表1所示。

表1 葛根藥材樣品Table 1 Summary of Radix puerariae samples
1.2.1 葛根樣品處理 先將葛根樣品敲成小碎塊,然后用旋風磨粉碎,過60目篩,裝入密封袋中備用。
1.2.2 光譜數據的采集 在室內溫度24~28 ℃下,相對濕度≤70%,開機預熱光譜儀2 h;采集背景光譜后,把混勻的固體粉末樣品放入樣品杯中,使用壓樣器輕壓平整,樣品厚度≥10 mm;將裝好樣品的樣品杯置于旋轉臺上,采集樣品近紅外漫反射光譜并保存,每個樣品重新裝樣并連續進行3次平行采集。儀器參數為光譜掃描范圍4000~10000 cm-1;分辨率:8 cm-1;掃描次數不低于64次。采集完成后,用95%乙醇2~3次洗凈樣品杯上的殘留物,待乙醇揮發完畢后,進行下一個樣品光譜的采集。
1.2.3 葛根品種及產地的多元統計分析 采集12個產地共120個葛根樣品的近紅外光譜數據,對光譜進行預處理并建立共有模式,對全部樣品進行相似度分析、PLS判別分析及部分樣品(除差別較大的安徽柴葛)的PLS分析,初步對樣品種類及產地情況進行判定。
1.2.4 葛根品種及產地的模式識別 分別選擇不同的樣品為測試集和訓練集,基于PLS-DA對葛根的種類(粉葛和柴葛)進行模式識別,另外對比PLS-DA和kNN兩種方法,對葛根產地以及產地和種類同時進行識別,以樣品識別率為依據,選定較為合適的模式識別方法。
數據處理軟件:ChemPattern化學計量學與化學指紋圖譜系統解決方案軟件2017版[科邁恩(北京)科技有限公司(Chemmind Technologies Co.,Ltd.)]。
將光譜數據導入ChemPattern軟件,所有葛根樣品的紅外透過率疊加圖譜如圖1所示,可以看出,安徽柴葛的紅外光譜和其他組有明顯的差異,剩余各組樣品間的光譜曲線差異很小,很難對葛根的分類進行區分。

圖1 葛根樣品的NIR透過率疊加圖Fig.1 Near infrared transmission spectra of Radix Puerariae
對光譜進行校正后,設置重慶萬州的10批樣品為代表性樣品生成共有模式,如圖2所示。利用所建立的共有模式,采用歐氏距離計算相似度,結果如圖3(A)所示,結果顯示,除安徽柴葛外,其他組樣品之間的相似度較高,僅可大致區分出安徽柴葛和其他組兩個大類,但不能進行全部區分。對樣品進行偏最小二乘判別分析,分析結果如圖3(B)所示。由圖可知,偏最小二乘判別分析顯示,安徽柴葛明顯區別于其他組別的樣本。

圖2 葛根樣品模式Fig.2 Common pattern of Radix Puerariae Transmission spectra

圖3 葛根樣品相似度分析(A)及PLS潛變量分析(B)Fig.3 Similarity analyses(A)and PLS-DAscores plot(B)of all Radix Puerariae sample
對除安徽柴葛外的樣品做PLS分析如圖4(A),可以看出,絕大部分地區樣本都可以很好地區分,但四川粉葛和重慶萬州(圖4A實線圈)出現了重疊,四川和重慶地理位置相對比較接近,可以用于解釋造成該兩組樣本相似度高的原因。此外,粉葛和柴葛的區別,從圖中的分布也可以大致體現出來(圖4A、4B虛線圈為柴葛樣品)。以LV1、LV2和LV3進行作圖4B(實線圈)可以看出,原本重疊的四川粉葛和重慶萬州也可以完全區分開。
2.2.1 葛根品種識別 從柴葛和粉葛每組中隨機挑選1/5的樣本作為測試集,以剩余的粉葛(58個)和柴葛(32個)作為訓練集,進行PLS-DA模式識別,采用留一交叉驗證選擇潛變量數目。結果如圖5所示,根據訓練集留一交叉驗證結果,選出潛變量個數為3,訓練集交叉驗證葛根種類識別率為100%。同時,利用測試集對所建PLS-DA模型進行評價,5次隨機分組建模測試集葛根種類識別率平均結果為100%。以上結果表明所選的PLS-DA葛根種類識別模型準確可靠,可用于粉葛和柴葛的準確判別。

圖5 粉葛和柴葛的PLS-DA預測效果圖Fig.5 Performance of PLS-DA Radix Puerariae Varieties classification model
2.2.2 葛根地點的識別 根據葛根的地點分布,首先將所有樣品隨機分為訓練集(4/5)和測試集(1/5),然后采用PLS-DA建立葛根產地識別模型。PLS-DA的潛變量數用留一交叉驗證確定,結果如圖6所示,可以看出潛變量數為16時,模型的識別率最大僅為84.43%,可能的原因是PLS-DA為線性模型,而紅外光譜和地點信息之間可能是非線性的關系,所以導致模型的識別效果不夠理想。

圖6 PLS-DA建模潛變量數與模型識別率關系圖Fig.6 Accuracy of classification versus number of latent variable
采用kNN進行建模,留一交叉驗證進行鄰近樣本數目K值的選擇,結果如圖7所示,可以看出K值為1或2時,結果最好;K值增加到3時,模型效果有較大下降,而K越大模型越不容易過擬合,因此K值確定為2。采用非線性的方法kNN進行建模結果如圖8所示,可以看出kNN模型對各地點葛根可以進行很好的識別,模型訓練集和測試集識別率均為100%,表明模型對葛根地點的識別準確可靠,另外也表明葛根地點信息和紅外光譜之間可能存在非線性關系。

圖7 鄰近樣本數目與kNN葛根地點識別模型準確率關系圖Fig.7 Accuracy of kNN Radix Puerariae origin recognition model versus number of nearest neighbors

圖8 葛根地點的kNN模式識別效果Fig.8 Performance of kNN origin identification model for Radix Puerariae
2.2.3 葛根種類地點同時識別 由前2.2.2可知,葛根地點和紅外光譜之間存在非線性關系,因此將樣本分為訓練集(4/5)和測試集(1/5),采用kNN進行建模。如圖9所示,采用留一交叉驗證選出K值為2,訓練集交叉驗證識別率為99.30%。利用測試集評價所建kNN模型的識別效果,結果如圖10所示,可以看出此時模型對訓練集和測試集的識別率均為100%,表明kNN模型可對葛根的產地和種類同時進行準確的識別。

圖9 鄰近樣本數目與kNN葛根地點種類模型準確率關系圖Fig.9 Accuracy of kNN Radix Puerariae varieties and origin recognition model versus number of nearest neighbors

圖10 kNN建模對葛根地點種類模式識別結果Fig.10 Performance of kNN Radix Puerariae Varieties classification model
基于多元統計分析,對12個產地共120個葛根樣品進行相似度及PLS判別分析,結果顯示,除安徽柴葛外其他組樣品之間的相似度較高。結合藥材外觀,可以觀察到安徽柴葛的纖維性強、顏色較深,其性狀與其他野葛樣品亦有不同,推斷該樣品可能為生長年限較長的野生品種。分別選擇不同的樣品為測試集和訓練集,基于PLS-DA對葛根的兩個種類粉葛和柴葛進行模式識別,識別率達100%,另外采用該方法對葛根產地的識別率為84.44%,采用非線性的kNN后識別率提升為100%,表明葛根地點信息和紅外光譜間可能存在非線性關系。當采用kNN對葛根產地和品種同時進行模式識別,樣品識別率達100%。本文建立了基于近紅外光譜的化學計量學模式識別方法,為葛根的質量評價及控制提供了可靠的評價新方法。