岑忠用,雷順新,雷蕾,嚴軍,張暉英
1.河池學院化學與生物工程學院,宜州 546300; 2.廣西橫縣綜合檢驗檢測中心,橫縣 530300;3.廣西民族大學化學化工學院/廣西高校食品安全與藥物分析化學重點實驗室,南寧 530008
近年來我國的自然生態環境逐漸惡化,野生的中藥材生長環境遭到破壞,導致部分野生中藥材供應短缺,再加上中藥材種類較多,歷代本草記載、地區用藥名稱和使用習慣不同,類同品、代用品和民間用藥不斷出現,中藥材同名異物、同物異名、品種混亂現象比較普遍,使得中藥鑒別成為一個難題[1]。很多中藥材形態相似,但其化學成分、性味、毒性、用量、藥理作用和功能等方面均不完全相同,因此可能因藥材誤用而產生嚴重后果。傳統中藥鑒別方法有性狀鑒別、顯微鑒別、理化鑒別等,效率較為低下,且對于親緣關系近、生物形態相似度高的藥材難以獲得準確的鑒別結果[2-4]。色譜以及DNA分子鑒別能獲得極高的藥材鑒別準確率,但是往往需要復雜的前處理,且分析時間長、成本高、操作繁瑣,難以進行原位在線的快速鑒別[5-6]。近紅外漫反射光譜具有分析速度快、成本低、無損、前處理簡單等優點,近年來在中藥材質量控制領域得到了廣泛應用[7-9]。
根莖類中藥指入藥部分是根莖或帶有少量根部或肉質鱗葉的地下莖類藥材,由于根莖類藥材的植物形態相似性較高,導致了中藥材市場上真偽混淆難以辨別的問題,并進一步引起嚴重的臨床用藥危險。近年來,根莖類中藥材如百兩金、山豆根、千斤拔、滇豆根、北豆根等相似藥材因地區名稱和使用習慣不同而被誤用,或者由于不法商人為了牟利而故意售賣易混淆藥材,研究者已針對這一問題建立了一系列鑒別方法[10-11],但所建立的方法多是依賴于性狀鑒別和理化鑒別。本研究利用近紅外漫反射光譜技術結合模式識別方法建立6種易混淆的根莖類中藥材(山豆根、北豆根、滇豆根、百兩金、千斤拔、云南豇豆)的定性鑒別模型,以期為中藥材的快速、準確鑒別和質量控制提供參考。
共采集6種易混淆中藥材,即百兩金(BLJ)、山豆根(SDG)、千斤拔(QJB)、滇豆根(DDG)、云南豇豆(YNJD)、北豆根(BDG),產地包括廣西、云南、吉林等地。樣品經由野外采集及中藥材市場購買共2種方式獲得,所有中藥材均由河池學院化學與生物工程學院鑒定。試驗所用藥材樣品的信息如表1所示。

表1 6種根莖類中藥材樣品信息表Table 1 Sample informationTable of six rhizome Chinese medicinal materials
中藥粉碎機(寶利,中國江陰);近紅外光譜儀(必達泰克i-Spec型,美國),配置積分球采樣附件及InGaAs檢測器,光譜采集參數:掃描范圍為900~1 700 nm,積分時間為4 000 μs,掃描次數 20次,每個樣本采集3次光譜,并用平均光譜進行數據分析。
所有藥材均通過日曬的方式進行干燥以除去水分,干燥后的藥材經中藥粉碎機粉碎后過孔徑為0.25 mm的篩子,再次干燥所得粉末樣品,并經減重法證明樣品干燥前后質量無顯著差別,即說明樣品水分含量極低,不影響近紅外光譜分析,隨后取適量樣品裝入透明密封袋中,壓實,粉末樣品厚度約7 mm,袋裝粉末樣品直接用于近紅外漫反射光譜測定。
本研究先用無監督分析法(主成分分析、系統聚類分析)對藥材樣本進行分類,主成分分析和系統聚類分析基于不同的數學原理,且均可對樣本分類實現可視化,便于呈現數據結構。然后用有監督分析法(K近鄰法、線性判別分析)構建分類模型,所選方法同樣基于不同數學原理,以從不同角度證明近紅外光譜用于中藥材識別的可行性。在有監督分析中,137個藥材樣本通過Kennard-Stone算法分為訓練集(91個)和測試集(46個)兩部分,每種藥材按2∶1的質量比例均勻分布在訓練集和測試集中,訓練集用于構建分類模型,測試集用于評價模型的預測能力。本試驗所用算法均通過軟件Matlab 2015a編程,在計算機Windows 7.0系統下運行。
6種藥材的近紅外漫反射光譜(900~1 700 nm)如圖1所示,其中950 nm為O—H二級倍頻,1 200 nm為C—H二級倍頻,1 450 nm為O—H一級倍頻,1 360~1 390 nm為—CH3和—CH2的合頻,3個主要的吸收譜帶位于900~950 nm、1 200~1 250 nm、1 400~1 500 nm。通過譜圖比較可見,6種藥材的近紅外漫反射光譜總體具有明顯的相似性,尤其在1 200~1 700 nm內。同時,6種藥材的近紅外光譜在不同波長下的吸收強度具有一定的差異,比如云南豇豆(YNJD)和北豆根(BDG)相對于其他4種藥材在900~1 200 nm波段具有更強的吸收。其中,個別樣品表觀顏色較深,導致其吸收度偏大,因此,所得近紅外光譜與同類樣品的近紅外光譜在強度上呈現差異(例如北豆根(BDG)樣品的最上一條光譜曲線)。由于近紅外光譜反映的是化合物中分子振動的倍頻和合頻信息,信號弱、重疊度高、不具有特征峰,加之藥材的化學組成復雜,因此,僅從近紅外光譜圖的表觀圖譜特征無法對不同的藥材進行鑒別,必須借助于數學分析手段。

A:百兩金; B:山豆根; C:千斤拔; D:滇豆根; E:云南豇豆; F:北豆根。圖3同。 A:Ardisia crispa; B:Subprostrate Sophora; C:Philippine Flemingia; D:Yunnan bean; E:Yunnan cowpea; F:Rhizoma Menispermi.The same as Fig.3.
主成分分析是一種常用的無監督分析技術,可以通過將樣本在第一主成分(PC1)、第二主成分(PC2)、第三主成分(PC3)上進行投影實現數據可視化。本試驗中,通過對由139個樣本和511個波長點構成的近紅外光譜數據矩陣X139×511進行奇異值分解,主成分分析投影圖如圖2所示。方差分析結果表明,PC1能解釋73.95%的信息量,PC2能解釋25.04%的信息量,前2個主成分解釋的累積信息量達到了98.99%。由圖2可見,6種藥材在PC1和PC2的投影分布總體上具有良好的分類聚集特征,滇豆根(DDG)、千斤拔(QJB)、云南豇豆(YNJD)3種藥材均能和其他藥材完全區分,而百兩金(BLJ)、山豆根(SDG)、北豆根(BDG)3種藥材的分布存在一定的重疊。在PC1、PC2、PC3上進一步做主成分投影分析,由于PC3只解釋了0.49%的信息量,所以樣本在前3個主成分上的分類效果相對于前2個主成分并沒有顯著提高。樣本重疊的原因在于百兩金、北豆根、山豆根3種藥材的近紅外光譜所攜帶的樣本信息具有部分相似性。

圖2 6種藥材的主成分分析投影圖Fig.2 Principal component analysis projection diagram of six medicinal materials
易混藥材鑒定過程中面對最多的問題是2種相似藥材之間的鑒別,因此,在本試驗中,我們將6種藥材進行兩兩配對,一共得到15種組合,并對每一個組合進行系統聚類分析,研究系統聚類分析在藥材鑒別中的可行性。
本試驗中分別考察了9種樣本間距離(歐氏距離、標準化歐氏距離、絕對值距離、閔可夫斯基距離、夾角余弦、相關系數、斯皮爾曼距離、漢明距離、Jaccard系數)和7種類間距離(類平均法、重心法、最長距離法、中間距離法、最短距離法、離差平方和法、加權平均法)對系統聚類分析效果的影響,得到了最佳的參數組合:(1)“千斤拔-北豆根”組合采用夾角余弦作為樣本間距離,其余14種組合均采用斯皮爾曼距離;(2)所有組合的類間距離均通過類平均法定義。系統聚類分析譜系圖(圖3A、3B、3C)表明對于15種藥材組合均能有良好的聚類效果,相關系數(R)在0.906 3~0.991 2,最大顯示節點數為15。結果表明,通過近紅外光譜結合系統聚類分析方法,可以對易混藥材進行較為準確的分類識別。

圖3 6種易混藥材的系統聚類譜系圖Fig.3 The hierarchical clustering pedigree of six miscible medicinal materials
K近鄰法是一種常用的有監督模式識別方法,可根據K個樣本的主要類別對分類樣本進行歸類。為進行模型驗證,將原數據集分為訓練集和測試集,具體信息見表2。


表2 K近鄰法的訓練集及測試集個數Table 2 The number of training set and test setfor k-nearest neighbor method
在本試驗中,由于PCA能對6種中藥材有較好的聚類效果,且前5個主成分幾乎解釋了100%的方差,因此,將主成分分析的前5個主成分作為K近鄰法的輸入數據,標準歐氏距離作為距離參數。此外,K近鄰法中的K值對分類效果有顯著影響,選擇合適的K值能有效地改善分類效果。為確定最佳的主成分個數(PCs)和K值,本試驗采用留一法交互檢驗進行參數優化,如圖4所示。交互檢驗

圖4 留一法交互檢驗參數(PCs和K)優化結果示意圖Fig.4 Schematic diagram of optimization results of leave- one-out interactive test parameters (PCs and K)
結果表明,當采用5個主成分和K=3時分類效果最好,交互檢驗的分類準確率達到98.92%。
為評價K近鄰法對未知樣本的分類效果,通過優化得到的K近鄰法分類模型對46個未知樣本進行分類。在46個樣本中,只有3個樣本被錯誤識別,其中2個山豆根被錯判為北豆根,1個千斤拔被錯判為百兩金,總體分類準確率達到93.48%。
本研究采用Fisher判別法,將近紅外光譜數據的前5個主成分經標準化處理后作為輸入數據,建立了線性判別分析模型。通過將訓練集和測試集的樣本投影到前2個判別函數(F1和F2),可以看到訓練集樣本具有完全的分類聚集分布特征,而測試集的絕大多數樣本也能夠落入訓練集樣本的投影區域內(圖5)。F1和F2解釋的累積方差達到了總方差的83.86%。通過對46個未知樣本進行分類,結果表明線性判別分析具有很高的準確度,判別準確率達到了95.65%,除了2個山豆根被分別誤判為云南豇豆和北豆根之外,其余44個樣本全部判別正確。

☆訓練集樣本Training set samples;●測試集樣本Test set samples.
中藥材的準確鑒別是保證安全用藥和中藥復方開發的前提,也是中藥材質量控制的重要組成部分。近紅外光譜作為一種無損分析技術具有分析時間短、操作簡單、分析成本低等優勢,近年來在中藥材鑒別工作中日益受到關注。梁華倫等[12]利用近紅外光譜建立了不同廠家小柴胡顆粒的快速鑒別方法,可有效鑒別出不同廠家的藥品真偽;余梅等[13]通過采集不同產地陳皮的內外側近紅外光譜,建立的分類模型準確率可達到91.67%。但是,關于山豆根、千斤拔、百兩金、北豆根等性狀相似的根莖類藥材,目前大多采用性狀鑒別、顯微鑒別等技術,近紅外光譜在根莖類中藥材的鑒別中尚未見報道。
系統聚類的基本思想是根據不同樣本之間的“距離”進行分類,基于“相近者相似”的原理形成一個親疏關系圖譜。影響系統聚類分析效果的主要參數包括樣本之間的“距離”定義和聚類過程中類與類之間的“距離”。本研究針對6種易混淆的根莖類中藥材(百兩金、千斤拔、山豆根、滇豆根、云南豇豆、北豆根)建立了一種基于近紅外光譜和化學計量學的藥材快速鑒別方法。研究結果顯示,6種中藥材在主成分分析和系統聚類中均表現出明顯的分類聚集趨勢,說明6種中藥材的近紅外光譜信息具有足夠的差異性。進一步通過K近鄰法和線性判別分析建立的分類判別模型,具有較高的準確率,并通過外部測試集對模型的預測能力進行了評估。結果表明,將所建立的模型對包含6類藥材的46種未知樣本進行分類,準確率在93.48%~95.65%,說明模型具有良好的預測能力。與目前已報道的方法相比,本試驗方法可以有效縮短藥材鑒別時間,降低成本,同時保證鑒別結果的可靠性。
然而,任何模型的應用范圍都受到樣本空間的限制,盡管本試驗所建立的模型在交互檢驗和外部測試中均表現出良好的準確度和穩健性,但是要作為一種實用技術進行推廣仍有許多工作需要完善。一方面,需要進一步擴大樣本空間,收集不同產地、不同采集時間的樣本,提高模型的普適性;另一方面,研究不同實驗室或儀器之間的模型轉移誤差是否在可接受范圍之內。