楊文宇,游元元,萬德光
(1.西華大學生物工程學院,成都 610039;2.成都中醫藥大學藥學院,成都 610075;3.成都醫學院藥學院,成都 610083)
《中國藥典》所載的桑白皮為桑科植物桑Morus alba L.的已除去外層粗皮的干燥根皮[1],但市場上其同屬植物較多,如魯桑 M.alba var.multicaulis、蒙桑 M.mongolica、華桑M.cathayana等[2,3]。目前桑白皮的鑒別主要依靠性狀鑒別和薄層鑒別[1],但由于鑒別特征不甚明顯,往往難以準確判斷藥材樣品是否源于 M.alba L.。高效液相色譜(high performance liquid chromatography,HPLC)法能夠通過其給出的非線性、高維度的色譜峰指紋信息來綜合判斷樣品的屬性,是一種鑒別中藥的較好方法;但實驗表明,由于桑白皮藥材特征因種質、產地等因素而有較大變化,基于計算HPLC相似度的判別方法對某些桑白皮樣品的鑒別并不完全適用,有必要采用更好的數學分類方法以提高鑒別能力。支持向量機是一種非常適合非線性、高維度、小樣本數據分類的新方法[4-6],其原理是根據各樣本的屬性,對于給定的樣本復雜數據(即多維向量)構造一種決策函數,該函數能夠建立不同屬性樣本之間的分類超平面并使之盡可能大,類似于找到同一平面內多個不同顏色的點之間的最大分類界面。同一基原藥材的HPLC色譜峰之間的關系應當存在一定規律,這一規律可能正好是與源于同屬其他基原藥材的重要區別點。理論上將反映桑白皮HPLC色譜峰之間相互關系的數據作為輸入向量,用支持向量機方法尋找分類界面,應當能夠準確鑒別桑白皮藥材的基原。基于該推論,我們對此進行了探討。現將結果報道如下。
1.1.1 試劑與儀器 乙腈(色譜純,美國Fisher公司);甲醇、乙醇、石油醚(60~90℃)、乙醚、磷酸均為分析純,成都科龍化工廠產品;水為超純水。
Dionex P680型HPLC儀(美國戴安公司):P680泵、UV D170U紫外檢測器、TCC-100柱溫箱、ASI-100自動進樣器、Chromeleon色譜工作站。BP 1215電子天平(德國賽多利斯公司,d=0.1mg),Rios純水器(密理博上海貿易有限公司),AS5150BD-I超聲波清洗器(天津奧特賽恩斯儀器有限公司)。
1.1.2 藥材 共收集11批桑白皮藥材(表1),參照文獻[7]的方法鑒定種質不清的藥材。表中幾種雜交桑的基原:嘉陵16號為西慶一號×育二號,西慶一號為引自日本的四倍體桑樹,基原不詳,育二號為湖桑 39號(M.alba var.multicaulis)×廣東荊桑(M.atropurpurea);湘7920為中桑5801號×澧桑24號(M.albavar.multicaulis),中桑5801號為湖桑38號(M.alba var.multicaulis)×廣東荊桑(M.atropurpurea)。嘉陵20號為湘7920×西慶四號,西慶四號為桐鄉青(M.alba var.multicaulis)經秋水仙堿誘變所得的四倍體植株。廣東荊桑M.atropurpurea在《中國植物志》[8]中已被合并于M.alba之中。

表1 桑白皮藥材樣品的來源Tab.1 Original plants of Cortex Mori Radicis samples
1.1.3 軟件 支持向量機軟件Libsvm 2.85(臺灣大學林智仁博士提供,http://www.csie.ntu.edu.tw/?jlin/libsvm/),腳本執行程序Python 2.5(自由軟件,http://www.python.org/),數學繪圖軟件 Gnuplot 4.0(自由軟件,http://www.gnuplot.info/)。上述軟件均運行在 Microsoft Windows XP Professional操作系統上。
取粉碎后的藥材10g,用乙醇回流提取,提取液回收乙醇后,懸浮于水中,用等體積石油醚萃取3次,棄去石油醚,換用等體積乙醚萃取3次,合并乙醚萃取液,回收乙醚,殘渣用甲醇超聲溶解,轉移至100mL量瓶中并稀釋至刻度,取1.0mL,置10mL量瓶中,用乙腈稀釋至刻度,作為供試品溶液。
色譜柱:Phenomenex Luna C18(2)(250mm×4.6mm,5μm);流動相:乙腈(A)-0.5%磷酸(B);洗脫方式:梯度洗脫,梯度程序見表2。流速:0.8mL/min;檢測波長:320nm;柱溫:25℃。進樣量:10μL。
設定各藥材HPLC圖譜中色譜峰積分的閾值為5.0(信噪比約為10/1),全部采用手動積分以避免色譜工作站自動積分時默認參數導致的積分誤差。采用色譜峰積分值原始數據計算藥材相似度。在進行支持向量機分類時,以各樣本HPLC圖譜中峰面積最大者為參照峰,計算其圖中各峰與參照峰的比值,將所得數據用作支持向量機分類器的輸入值。

表2 流動相梯度程序Tab.2 The gradient elution scheme
采用向量夾角余弦法[9]計算各藥材HPLC圖譜的兩兩相似度:將藥材A的各色譜峰面積作為n維向量(x1,x2,…xn),藥材B的各色譜峰面積作為n維向量(y1,y2,…yn),則A與B的相似性可用二者在幾何空間的向量夾角θ的余弦來度量越接近1,則A與B的相似性越大。
設定源于M.alba的藥材HPLC色譜峰面積數據集樣本的分類屬性為1,非M.alba的樣本的分類屬性為-1。上述藥材樣本共11個,將屬于M.alba的5個藥材樣本的HPLC圖譜分別兩兩相加(相加結果相當于兩藥材供試品溶液混合后再進樣分析的結果),得到另10個屬于M.alba的樣本;將屬于非M.alba的6個藥材樣本的HPLC圖譜分別兩兩相加,得到另15個屬于非M.alba的樣本。總樣本量為36個,隨機選擇25個樣本作為支持向量機訓練樣本,另11個樣本作為測試樣本。
用Libsvm軟件對訓練樣本的輸入值進行機器學習,通過徑向基核函數構造分類決策函數從而建立分類模型;在此過程中,采用網格搜尋和交叉驗證方法搜索徑向基核函數的重要參數,即最優值即懲罰因子c和徑向基系數γ,用Gnuplot軟件繪制交叉驗證精度等高線[lg(c)-lg(γ)]以使參數尋優過程直觀化。用該模型預測各測試樣本的分類屬性,判斷其為1還是-1。具體運算時用Python軟件在命令行調用Libsvm和Gnuplot程序。
11批桑白皮藥材乙醚部位的HPLC圖譜總體上具有一定的相互相似性(圖1),這應當與它們均源于Morus L.屬有關,但藥材之間的差異也很明顯。

圖1 11批桑白皮藥材乙醚部位HPLC圖譜Fig.1 HPLC chromatograms of 11ether extract samples of Cortex Mori Radicis
11批桑白皮藥材乙醚部位的HPLC圖譜的兩兩相似度見表3。可以看出,源于M.alba L.的5批藥材中,除新疆樣本與其他藥材樣本相似度較小外,另4個藥材樣本的兩兩相似性均在90%以上。但非M.alba L.的藥材樣本也有一些與源于M.alba L.的藥材的相似性較高,如荷花池樣本與A2樣本、湖南樣本與A1樣本、潼南樣本與漢中樣本等的相似度均高于90%。因此,通過相似度分析并不能完全、準確地判斷桑白皮藥材是否來源于M.alba L.。

表3 11批桑白皮藥材乙醚部位HPLC圖譜的兩兩相似度Tab.3 The pairwise similarities of HPLC profiles of 11ether extract samples of Cortex Mori Radicis
參數尋優過程的交叉驗證精度等高線見圖2。圖中各曲線反映c和γ取不同值時,所建立的支持向量機分類模型的準確程度。本實驗數據用于支持向量機分類,其交叉驗證精度在97%~100%范圍內,這表明,對于根據HPLC數據判斷桑白皮是否屬于M.alba L.這一目的,用支持向量機方法建立分類模型是非常適宜的。支持向量機運算過程和結果見圖3,參數c的最優值為2.0、參數γ(gamma,g)的最優值為0.0078125,據此建立的支持向量機分類模型的交叉驗證精度為100%,用此模型對36個總樣本中11個測試樣本進行預測,結果對樣本是否屬于M.alba L.的預測準確率為100%。上述36個總樣本中,隨機重新挑選樣本組成訓練樣本和測試樣本,并按上述方法建模和預測,結果基本一致,所建模型對測試樣本均能達到100%的預測準確率。

支持向量機方法是一種“黑箱”方法,它只根據給定的樣本數據,即多維向量,找出處于分類界面邊緣的各個向量,即支持向量,并據此確定最佳的分類界面;但并不給出產生這種分類的機理,因此并不給出能涵蓋樣本集中每一數據的數學公式。因此,該方法特別適合用于復雜性高而分類特征不明顯的事物的分類,而且,這一特點使得其不僅適合大樣本量數據的分類,也能對小樣本量的數據給出良好的分類結果,這也是我們采用支持向量機方法分析桑白皮的HPLC數據的原因。另外,支持向量機方法的樣本集中,增加或刪除一些屬于非支持向量的數據,對分類模型不會產生影響,因此,該方法具有良好的魯棒性。本研究結果表明,用支持向量機方法,對桑白皮乙醚部位的HPLC數據進行數學運算,能夠建立一種判斷桑白皮是否屬于M.alba L.的分類模型,所建模型的預測準確率可達100%。該方法的分類效果優于相似度方法。
本研究所選桑白皮11批藥材的HPLC圖譜中,源于M.alba L.的5個藥材圖譜,其所檢出峰的數目、峰面積,相互之間均有較大差異,非M.alba L.藥材圖譜的情況也是這樣,而相似度計算結果也顯示難以按基原區分藥材,說明直接比較峰數目和峰面積無法達到分類目的。在進行支持向量機分類時,將各樣本色譜峰進行歸一化處理,采用峰面積比值進行運算。峰面積比值反映了藥材中各化學成分含量的相對關系,據此用支持向量機方法建立的分類模型能達到100%的預測準確度,即使對數據較為離群的新疆樣本也能給出準確的預測,表明同一基原樣本的一些主要化學成分之間的含量相對關系存在著一定的內在規律。實驗中按基原屬性分別對樣本HPLC圖譜兩兩相加,正是為了使這種內在規律更加明顯,從而有助于提高支持向量機模型的準確度。
市售桑白皮藥材的基原植物和種質非常復雜[7,10],致使評價不同基原、不同種質和不同產地的桑白皮藥材的品質變得十分困難。但根據中藥品質“遺傳主導論”和“環境飾變論”的理論[11],特定基原植物中藥材必定具有其特定的內在品質;而評價特定中藥材的內在品質,關鍵在于找到能充分揭示該中藥材內在品質的方法。上述實驗結果表明,對于HPLC分析所表征的不同基原、不同種質和不同產地的桑白皮藥材整體化學成分的特征屬性,按支持向量機原理進行分類,是一種能準確揭示桑白皮(M.alba L.)藥材內在品質的評價方法。本文結果為根據中藥品質理論解決類似復雜問題提供了成功的范例。
[1]國家藥典委員會.中國藥典(2010年版一部)[S].北京:中國醫藥科技出版社,2010:280.
[2]李振國,賈敏如.川、黔產桑白皮的品種調查[J].中藥材,1991,14(6):23-24.
[3]楊德泉.湖南桑白皮的原植物調查與鑒定[J].中藥材,1992,15(8):23.
[4]Cortes C,Vapnik V.Support-vector networks[J].Mach Learn,1995,20(3):273-297.
[5]Bradshaw D,Pensky M.Decision theory classification of highdimensional vectors based on small samples[J].Test,2008,17(1):83-100.
[6]Gu X,Yang SX,Qian SX,et al.Research on SVMs of small samples on rotary machine multiclass fault recognition[C].Proc SPIE,2006,6357:63575J.
[7]蔡少青.常用中藥材品種整理和質量研究(第4冊)[M].北京:北京醫科大學、中國協和醫科大學聯合出版社,2003:123-182.
[8]中國科學院中國植物志編輯委員會.中國植物志(第二十三卷第一分冊)[M].北京:科學出版社,1998:6-23.
[9]王龍星,肖紅斌,梁鑫淼,等.一種評價中藥色譜指紋譜相似性的新方法:向量夾角法[J].藥學學報,2002,37(9):713-717.
[10]楊文宇,萬德光.中藥桑枝和桑白皮的品種、品質與藥效的研究[D].成都:成都中醫藥大學博士學位論文,2008:9-25.
[11]萬德光.中藥品質研究——理論、方法與實踐[M].上海:上海科學技術出版社,2008:18-76.