展浩 言方榮 陸濤
摘要系統闡述了中藥指紋圖譜數據分析處理方法(包括指紋圖譜數據前期處理方法、相似度評價方法以及機器學習方法)在指紋圖譜數據處理中的應用,以期為中藥指紋圖譜數據分析提供參考。
關鍵詞指紋圖譜;機器學習;數據分析方法
中圖分類號S126文獻標識碼
A文章編號0517-6611(2017)16-0203-03
Research Progress on Data Analysis Methods in Traditional Chinese Medicine Fingerprints
ZHAN Hao,YAN Fangrong,LU Tao*(School of Sciences,China Pharmaceutical University,Nanjing,Jiangsu 211198)
AbstractThe application of the methods of data analysis and processing of traditional Chinese medicine fingerprints(including the fingerprints data pretreatment methods,similarity evaluation method as well as machine learning methods) in the data processing of fingerprints were systematically expounded,so as to provide references for data analysis of traditional Chinese medicine fingerprints.
Key wordsFingerprints; Machine learning; Data analysis methods
基金項目國家社會科學基金一般項目(16BTJ021)。
作者簡介展浩(1993—),男,安徽宿州人,碩士研究生,研究方向:生物統計與計算藥學。*通訊作者,教授,博士,博士生導師,從事藥物化學和藥學信息學研究。
收稿日期2017-04-12
近年來,中藥及中藥制劑在世界范圍內的需求增長迅速,因此中藥質量的評價和控制顯得尤為重要。然而,由于中藥具有組分復雜、靶點較多、整體協同作用等特點,使得中藥質量控制與評價成為制約中藥發展的一大難題。傳統的針對中藥單一化學成分或其中幾個成分的分析已無法準確對中藥質量進行整體評價[1]。
隨著生命科學以及分析化學技術的進步和發展,中藥質量控制領域的研究手段越來越豐富。指紋圖譜技術在中藥優劣評價、真偽鑒別、活性成分識別以及一致性和穩定性評價方面已成為國際公認有效方法。中藥指紋圖譜是指利用質量分析及信息采集等手段對中藥材或中成藥進行處理而得到的能夠顯示其性質的色譜、光譜等數據。常用的分析手段有紅外光譜法(IR)、紫外光譜法(UV)、核磁共振波譜法(NMR)、薄層色譜法(TLC)、高效液相色譜法(HPLC)、氣相色譜法(GC)等[2]。然而,中藥指紋圖譜技術的出現隨之而來的是大量的化學測量數據,如何通過有效的數據分析手段對指紋圖譜數據進行分析,進而挖掘出其中有價值信息已成為中藥指紋圖譜應用于中藥質量控制中所面臨的新難題。在中藥指紋圖譜數據處理過程中,由于圖譜十分復雜,常見的情況是將指紋圖譜數據處理與計算機圖譜解析、統計學、機器學習等技術相結合[3]。筆者對現有的指紋圖譜數據分析處理方法進行了系統闡述,旨在為研究者在相關領域的研究提供參考,并選擇適合的研究工具。
1中藥指紋圖譜前期校正方法
指紋圖譜相關研究通常可分為2個部分:指紋圖譜生成以及指紋圖譜的分析計算。在指紋圖譜的生成過程中,由于試驗條件的限制以及儀器的差別,經常導致所獲得的指紋圖譜都會有一定程度的噪聲、基線漂移、保留時間漂移等現象,因此指紋圖譜在進行分析計算前,必須對所獲得的指紋圖譜數據進行前期處理,從而解決上述問題,使后續的分析計算更加準確有效[4]。
1.1基于小波變換的基線校正和噪聲去除
小波變換(Wavelet transform ,WT)是一種基于時頻域的信號處理方法,該方法具有時頻局部性良好、選基靈活等優點[5]。在中藥指紋圖譜數據處理過程中,通常使用離散小波變換方法, Mallat快速離散小波變換算法如下:
f(t)=kzcJ,kφJ,k(t)+Jj=1
kzdj,kΨJ,k(t) (1)
式中,cJ,k表示f(t)在第J+1個頻段上第k個時段上的分量,也就是圖譜的低頻部分,dj,k表示f(t)在第j個頻段上的第k個時段的分量(1≤j≤J),代表圖譜的高頻部分。
圖譜數據的信號噪聲一般集中于高頻段的小波系數中,基線漂移一般表現在低頻信號中,所以在對圖譜基線進行校正時一般是對低頻段處理,信號噪聲的去除一般是針對高頻段的處理,二者之間相互獨立。通過將圖譜數據在低頻段的小波系數置為0,可解決基線漂移問題,將較高頻段的小波系數進行閾值處理可實現圖譜噪聲去除[6]。
在處理指紋圖譜噪聲和基線漂移問題的研究中,邵利民等[7]使用Haar小波對乳酸-稀土絡合物圖譜進行處理,成功去除了其信號中的噪聲,獲得了光滑的色譜曲線。袁海龍等[8]運用Daubechies8小波方法處理茵陳注射液HPLC數據,成功解決了色譜的基線漂移,得到了平直的基線。
1.2保留時間漂移校正
從理論上講,多種樣本經同一色譜儀分析,在得到的色譜圖中相同物質應該有相同的保留時間。然而,因為試驗條件等因素的限制,不同樣本使用同一色譜儀所測得的色譜圖中,相同物質的保留時間往往存在漂移現象。目前已提出的保留時間漂移校正算法主要包括相關最優化調整(Correlation optimized warping,COW)[9]、基于遺傳算法的校準方法(Peak alignment by a genetic algorithm,PAGA)[10]、動態時間調整(Dynamic time warping)[11]、參數化時間調整(Parametric time warping,PTW)[12]、半參數化時間調整(Semiparametric time warping,STW)[13]、模糊規整(Fuzzy alignment,FW)[14]等,其中相關最優化調整、動態時間調整以及基于遺傳算法的校準方法在指紋圖譜保留時間漂移校正方面的應用尤為廣泛。LucioGutiérrez等[15]在對38批特納草HPLC指紋圖譜數據使用偏最小二乘回歸模型建模之前,采用相關最優化調整方法對其進行保留時間漂移校正,偏峰問題明顯得到解決。
2基于指紋圖譜數據的中藥相似度計算方法
相似度是指中藥指紋圖譜之間的相似程度,已被認定成為評價中藥指紋圖譜的重要指標。常用的中藥相似度計算方法包括以下4種:夾角余弦法(Vector cosine)、相關系數法(Correlation coefficient)、峰重疊率法(Nei系數法)以及峰重疊率與共有峰強度結合法(改進Nei系數法)。
2.1夾角余弦法
中藥指紋圖譜數據是由各保留時間對應的峰面積或峰高的數值組成的一個n維向量X=[x1,x2,…,xn],其中n為譜峰數或原始數據點數。評價2個中藥的相似度,就可以通過計算2個n維向量X1和X2的相似度來實現。在評價向量相似度時,一般使用向量間夾角余弦值來表示,其夾角余弦值越趨近于1意味著向量之間相似度越高,反之相似度越低。向量X1和X2之間夾角余弦值的計算公式如下:
r(X1,X2)=cos(X1X2)=X′1X2(X′1X2)(X′2X1) (2)
王龍星等[16]通過計算11個不同產地及炮制方法的吳茱萸樣品指紋圖譜之間的夾角余弦值來評價樣品之間的相似度,結果顯示該方法可反映樣品之間的相似性。
2.2相關系數法
相關系數法是使用向量之間的相關系數來反映向量之間相似程度的方法,其本質上是對夾角余弦法的中心化變換,其計算公式如下:
r(X1,X2)=(X1-1)′(X2-2)(X1-1)′(X1-1)(X2-2)′(X2-2) (3)
聶磊等[17]使用相關系數法等4種相似度評價算法對痛必定粉針指紋圖譜進行相似度評價,結果顯示相關系數法對大峰缺失表現得比較敏感,而對小峰缺失問題不夠敏感。
2.3Nei系數法與改進Nei系數法
Nei系數法原是針對個體間遺傳相似性評價所提出的方法,現在應用于中藥指紋圖譜數據中,用于評價中藥之間的相似度,其計算公式如下:
r=2n0n1+n2×100%(4)
式中,n0表示兩待分析圖譜之間的共有峰的數量,n1和n2表示兩待分析圖譜的所有譜峰數。張聰等[18]對11批紅參甲醇提取液的指紋圖譜使用Nei系數法計算其重疊率,通過對八強峰的分析比較,結果發現國產紅參與高麗紅參品質相近。但是,Nei系數法只是考慮到圖譜共有峰的數量問題,并未考慮共有峰其峰強度的影響。孟慶華等[19]在峰重疊率的基礎上引入峰強度的信息提出了改進Nei系數法,其公式如下:
r=2n0n1+n2-2n1+n2h10-h20
h10+h20(5)
式中,h10、h20分別為2個待分析圖譜之間共有峰的峰強度。
3機器學習方法在指紋圖譜數據中的應用
機器學習(Machine learning,ML)是一類可以從數據中自動學習獲得規律,并且利用學習到的規律對未知數據進行預測的算法。根據樣本數據有無標記,機器學習算法可分為無監督學習和監督學習2大類。根據輸出變量是否為連續變量,監督學習方法又可分為分類算法和回歸算法。
3.1無監督學習
無監督學習方法是一類用于無標記數據的機器學習方法,主要包括主成分分析法(Principal component analysis,PCA)和聚類分析(Cluster analysis,CA)等。
3.1.1主成分分析法。
PCA可用于提取主成分,常用于高維數據的降維、變量的選擇以及去除變量間的相關性。由于中藥指紋圖譜數據往往為高維數據,因此使用PCA對其降維十分必要。在數據處理中PCA常與其他分類或回歸方法聯用,將其提取的主成分作為其他模型的輸入變量。馮慧萍等[20]對產自浙江麗水的15個厚樸樣品建立了HPLC-DAD指紋圖譜,利用PCA對其共有峰的相對峰面積進行分析,并將前4個主成分的得分作為人工神經網絡的輸入變量,厚樸樣品清除活性氧指標作為輸出變量,建立厚樸指紋圖譜與其清除活性氧能力之間的神經網絡。結果表明,使用主成分分析+神經網絡技術構建的網絡可準確預測厚樸清除活性氧能力的IC50值。
3.1.2聚類分析。
聚類分析又稱群集分析,它是根據“物以類聚”的思想把相似的對象通過靜態分類的方法分成不同的組別或者更多的子集,使在同一個子集中的樣本都具有一些相似的屬性。該方法通過對中藥指紋圖譜數據處理,可解決中藥品種的分類,真偽鑒別、質量評價、新舊工藝或不同炮制方法比較等問題。田蘭等[21]用各色譜峰對內標峰的相對保留時間定性獲得45個色譜峰,計算出各色譜峰相對于內標物的含量得到45個特征,并對所得特征進行標準化后使用聚類分析等方法,發現白術優質品種主要集中在浙江、湖南、四川一帶。
3.2監督學習
3.2.1分類算法。分類算法適用于樣本標記為分類變量的數據,常用的分類算法主要包括K近鄰法(knearest neighbor,kNN)、支持向量機(Support vector machine,SVM)、人工神經網絡(Artificial neural network,ANN)等,其在中藥指紋圖譜數據中一般用于解決中藥材的分類及歸屬問題。
3.2.1.1K近鄰法。
K近鄰法是由Cover與Hart于1967年提出的一種分類方法,其算法思想是若1個樣本的k個與其最相鄰的樣本大多屬于某一個類別,則該樣本也屬于這個類別,并且具有該類別樣本的某些特性[22]。在中藥指紋圖譜數據處理中,首先按照指紋圖譜特征參數相似度最相似的原則,取未知樣本的k個最近鄰樣本,然后所取的k個近鄰樣本大多數的歸類即為該未知樣本的類別。莊花等[23]使用K近鄰法對63個由安徽、山東、河北、貴州4省所生產的合歡花樣品的指紋圖譜數據及來源數據建立分類模型,實現了南北方樣品正確分類。
3.2.1.2支持向量機。
支持向量機是由Corinna Cortes和Vapnik等于1995年首先提出的解決小樣本、非線性及高維數據等問題的機器學習算法。當數據線性可分時,該方法通過樣本數據訓練學習線性支持向量機,找出間隔最大的的“超平面”,將樣本分類;當數據線性不可分時,通過使用核函數學習非線性支持向量機,相當于隱式的在高維特征空間中學習線性支持向量機實現樣本分類。王曉燕等[24]對10種寒性中藥和10種熱性中藥提取和精制多糖,使用三氟乙酸將得到的多糖水解成單糖,并測定了多糖的單糖組成HPLC指紋圖譜;然后利用支持向量機對指紋圖譜數據及藥性數據建立分類模型,實現了對20種中藥寒、熱藥性的準確分類,分類正確率達100%。
3.2.1.3人工神經網絡。
人工神經網絡是一種抽象人腦神經的一類機器學習算法,它是由大量的節點之間相互聯接構成。其中,每個節點代表1個激勵函數(Activation function),每2個節點間的連接都代表一個對于通過該連接信號的權重。應用最廣泛的神經網絡為BP神經網絡,其在結構上分為3層:輸入層、隱含層和輸出層。李芳等[25]使用BP神經網絡對采集的12個主產縣90批黃芪藥材的FTIR指紋圖譜建立了產地的鑒別及預測模型,模型成功地對測試集中的黃芪藥材產地進行了預測,其預測準確率達83%。
3.2.2回歸算法。
回歸算法適用于樣本標記為連續變量的數據,在處理高維數據時,常用算法為偏最小二乘回歸(Partial least squares regression,PLSR)。在處理中藥指紋圖譜數據時,一般結合相應的藥效數據,根據定量組效關系(Quantitative composition activity relationship,QCAR)來發現中藥材中相應的活性成分信息[26]。
偏最小二乘回歸是一種將主成分分析、回歸分析及典型相關分析有機結合起來的一種多元線性回歸方法。該方法較好地解決樣本個數少于變量個數時的建模問題,同時也克服了變量間多重共線性問題,因此非常適用于對中藥指紋圖譜數據進行回歸分析。在使用偏最小二乘回歸預測中藥材活性成分時,首先根據指紋圖譜數據與相應藥效數據建立回歸模型,然后使用顯著性檢驗計算回歸系數顯著性,顯著系數所對應的峰即為潛在的活性成分。Liu等[27]通過偏最小二乘回歸對來自29個省份的山香圓葉HPLC指紋圖譜數據及其抗氧化活性指標進行分析,構建了偏最小二乘回歸模型,通過對回歸系數進行jackknife檢驗,成功預測出山香圓葉中7種抗氧化活性成分。
45卷16期展 浩等中藥指紋圖譜數據分析方法研究進展
4小結與展望
目前,中藥指紋圖譜發展尚處于初級階段,數據量少、數據處理過程中分析方法的不合理應用制約著其在中藥質量控制等相關領域的發展。隨著分析化學手段的不斷豐富,計算機科學與數據科學的不斷發展,將會產生更多的指紋圖譜數據以及更加精確的指紋圖譜數據分析方法。從長遠來看,這種趨勢不僅將加速中藥指紋圖譜數據在中藥質量控制方面的應用,而且會促進其在中藥藥效、體內代謝變化以及臨床用藥療效等研究領域的應用與發展。
參考文獻
[1]
朱曉勤,尹蓮.化學模式識別在中藥分類和質量評價中的應用[J].中華中醫藥學刊,2007,25(10):2111-2114.
[2] 袁琴琴.中藥材指紋圖譜研究進展[J].安徽農業科學,2017,45(4):132-134.
[3] 屈景輝,廖琪梅,張星.指紋圖譜數據庫建立技術[J].醫學信息,2006,19(2):190-191.
[4] 張鋒.中藥指紋圖譜數據預處理及相似度計算評價軟件的開發[D].廣州:華南理工大學,2006.
[5] 朱來東,廉小親,江遠志.小波變換在信號降噪中的應用及MATLAB實現[J].北京工商大學學報(自然科學版),2009,27(2):46-49.
[6] 方勇華,孔超,蘭天鴿,等.應用小波變換實現光譜的噪聲去除和基線校正[J].光學精密工程,2006,14(6):1088-1092.
[7] 邵利民,唐兵,邵學廣,等.小波變換用于高效液相色譜的噪聲濾除[J].分析化學,1997,25(1):15-18.
[8] 袁海龍,雷長海,肖小河,等.小波變換校正茵陳注射液HPLC指紋圖譜基線的研究[J].中國新醫藥,2003,2(9):13-14.
[9] NIELSEN N P V,CARSTENSEN J M,SMEDSGAARD J.Aligning of single and multiple wavelength chromatographic profiles for chemometric data analysis using correlation optimised warping[J].Journal of chromatography A,1998,805(1/2):17-35.
[10] FORSHED J,SCHUPPEKOISTINEN I,JACOBSSON S P.Peak alignment of NMR signals by means of a genetic algorithm[J].Analytica chimica acta,2003,487(2):189-199.
[11] KASSIDAS A,MACGREGOR J F,TAYLOR P A.Synchronization of batch trajectories using dynamic time warping[J].AIChE Journal,1998,44(4):864-875.
[12] EILERS P H C.Parametric time warping[J].Analytical chemistry,2004,76(2):404-411.
[13] VAN NEDERKASSEL A M,XU C J,LANCELIN P,et al.Chemometric treatment of vanillin fingerprint chromatograms.Effect of different signal alignments on principal component analysis plots[J].Journal of chromatography A,2006,1120(1/2):291-298.
[14] WALCZAK B,WU W.Fuzzy warping of chromatograms[J].Chemometrics & intelligent laboratory systems,2005,77(1/2):173-180.
[15] LUCIOGUTIRREZ J R,GARZAJUREZ A,COELLO J,et al.Multiwavelength highperformance liquid chromatographic fingerprints and chemometrics to predict the antioxidant activity of Turnera diffusa,as part of its quality control[J].Journal of chromatography A,2012,1235(8):68-76.
[16] 王龍星,肖紅斌,梁鑫淼,等.一種評價中藥色譜指紋譜相似性的新方法:向量夾角法[J].藥學學報,2002,37(9):713-717.
[17] 聶磊,曹進,羅國安,等.中藥指紋圖譜相似度評價方法的比較[J].中成藥,2005,27(3):249-252.
[18] 張聰,王智華,金德莊.中國紅參與高麗紅參的指紋譜(HPLC-FPS)比較研究[J].中成藥,2001,23(3):160-163.
[19] 孟慶華, 劉永鎖, 王健松,等. 色譜指紋圖譜相似度的新算法及其應用[J]. 中成藥, 2003, 25(1):4-8.
[20] 馮慧萍, 楊中林, 尹小英,等. 應用PCA-ANN技術研究中藥厚樸色譜指紋譜與抗氧化活性的關系[J]. 中國天然藥物, 2005, 3(6):377-381.
[21] 田蘭,畢開順,孫穩健,等.白術的化學模式識別[J].中國中藥雜志,2003,28(2):143-146.
[22] COVER T,HART P.Nearest neighbor pattern classification[J].IEEE Transactions on Information Theory,1967,13(1):21-27.
[23] 莊花,倪永年.不同產地的合歡花藥材高效液相指紋圖譜[J].南昌大學學報(理科版),2013,37(1):59-63.
[24] 王曉燕,李峰.20種中藥多糖水解成分HPLC指紋圖譜與寒熱藥性關系的SVM分析研究[J].山東中醫藥大學學報,2012,36(5):439-442.
[25] 李芳,李欽,顧志榮,等.基于FTIR的黃芪藥材產地鑒別及預測研究[J].天然產物研究與開發,2016(11):1712-1717.
[26] 周立東.建議在天然藥物研究中建立“定量組效關系”(QCAR)概念[J].世界科學技術:中醫藥現代化,1999(2):33-34.
[27] LIU X,ZHAN H,QIAO Z,et al.Chemometric analysis based on HPLC multiwavelength fingerprints for prediction of antioxidant components in Turpiniae Folium[J].Chemometrics & intelligent laboratory systems,2016,152:54-61.