雷蕾,王新洲,張黎,朱永亮,楊策,崔蒙*,錢向平
(1.中國中醫科學院中醫藥信息研究所,北京 100700;2.蘇州潤新生物科技有限公司,江蘇 蘇州 215123)
·基礎研究·
中藥化學成分與CYP2C19相互作用預測研究△
——基于定量構效關系(QSAR)模型
雷蕾1,王新洲2,張黎1,朱永亮2,楊策1,崔蒙1*,錢向平2
(1.中國中醫科學院中醫藥信息研究所,北京 100700;2.蘇州潤新生物科技有限公司,江蘇 蘇州 215123)
目的:使用隨機森林(RF)算法和支持向量機(SVM)算法構建定量構效關系模型(QSAR),并篩選出最優模型,對部分有毒中藥包含的化學成分對CYP2C19可能的作用進行了預測,為臨床應用和藥物開發提供參考。方法:本文使用Mold2軟件(version 2.0.0)對收集到的130個化學成分進行分子描述符計算,對其進行初步篩選后,分別采用RF和SVM進行預測模型的構建,最后篩選出最優預測模型,并對中藥化學成分進行預測。結果:根據預測模型的準確度和接收器操作特征(ROC)值篩選出最優分子描述符為6個,合并SVM和Leave-10%-out交叉驗證方法模型為最優預測模型。對《中華人民共和國藥典》2010版10個大毒中藥,例如斑蝥、馬錢子、天仙子等包含的化學成分進行了預測,得到一些有意義的結果。結論:定量構效關系模型(QSAR)對中藥化學成分進行預測研究可以為聯合用藥和進一步研究提供參考。
定量構效關系模型;CYP2C19;中藥化學成分
近年來隨著臨床上對中藥和中藥制劑的廣泛應用,中藥對細胞色素P450的作用研究備受關注[1]。細胞色素P450為一類亞鐵血紅素-硫醇鹽蛋白的超家族,其參與內源性物質和包括藥物環境化合物在內的外源性物質的代謝[2]。中藥化學成分影響了機體細胞色素P450酶活性或蛋白表達,從而導致藥物之間的相互作用。中藥化學成分與細胞色素P450酶的相互作用研究逐漸成為熱門領域。值得關注的是CYP2C19是CYP450家族中最重要的藥物代謝酶之一,主要存在于肝臟微粒體內,許多內源性底物以及臨床上大約2%的藥物都由其催化代謝[3-4]。筆者搜集了相關中藥化學成分與CYP2C19相互作用的數據,使用定量結構-活性關系(Quantitative Structure-Activity Relationship,QSAR)方法對中藥化學成分與CYP2C19相互作用進行研究,并對部分有毒中藥的化學成分與CYP2C19的作用進行預測,為中藥新藥開發利用提供參考。
1.1 分子描述符的篩選
用Mold2軟件(version 2.0.0)對每個化合物的2D結構計算777個分子描述符。Mold2由美國國家毒理研究中心生物信息中心開發,是一款快速且免費的2D分子描述符計算軟件,能夠基于化合物的2D結構計算其2D描述符[5]。
使用R軟件(version 3.0.2)[6]對777個2D描述符進行篩選。首先,剔除了超過總數90%的計算值為恒定值的描述符;其次,在此基礎上對兩兩相關系數高于0.9的兩個描述符選用其中一個,以確保描述符之間沒有嚴重的依賴關系;然后對余下的描述符間存在多元相關的進行剔除。
1.2 QSAR模型構建
1.2.1 數據集分割 將集中的數據隨機分為訓練集(105個)和測試集(25個)。訓練集用來建立模型,測試集用以檢驗模型。
1.2.2 建立模型 本文分別使用隨機森林(Random Forest,RF)算法[7]和支持向量機(Support VectorMachine,SVM)算法構建模型。SVM算法用高斯函數作為建模的核函數[8]。在具體的模型構建過程中設定迭代次數為10次,并利用10折交叉驗證方法(10-fold cross-validation)對模型構建方法進行評估[9]。以上建模方法主要采用R軟件中的caret包[10]實現。
2.1 分子描述符的篩選和模型構建
利用Mold2軟件對訓練集中的每個化合物進行分子結構描述符計算,得到105×777 的描述符矩陣數據。利用R軟件對這777種描述符進行初步篩選,最后得到了97個描述符。
在模型構建階段,筆者采用隨機森林算法和支持向量機算法,同時隨機選取不同數量的分子描述符構建模型,并使用Leave-10%-out交叉驗證方法得到相關模型的準確度和ROC值。結果見圖1~2。

圖1 隨機選出分子描述符的數量和模型準確度的關系圖

圖2 隨機選出分子描述符的數量和模型ROC的關系圖
從圖1和圖2中可以看出,使用隨機森林算法合并Leave-10%-out交叉驗證,當描述符集合為97個時模型準確度為0.720 5,相關的ROC為0.731 7;使用支持向量機算法合并Leave-10%-out交叉驗證方法建立的模型,當描述符集合為6個時,模型準確度為0.772 7,相關的ROC為0.802 5。因此在支持向量機合并Leave-10%-out交叉驗證構建的模型中,以選取的6個描述符集合作為變量集合,所構建的模型為最優模型,此時的模型采用的變量數較少,而其模型效果也最優(相關的ROC值和準確度最高)。見表1。
2.2 最優模型的檢驗
為了更準確地計算出支持向量機合并Leave-10%-out交叉驗證預測模型的準確度,本文利用Mold2軟件對測試集(25個)中的每個化合物進行分子結構描述符計算,然后利用支持向量機合并Leave-10%-out交叉驗證最優預測模型對測試集進行相關預測,準確度為76%。

表1 最優預測模型所采用的描述符集合
2.3 對部分中藥化學成分的預測
本文對《中華人民共和國藥典》2010版記錄的10味大毒中藥川烏、馬錢子、馬錢子粉、天仙子、巴豆、巴豆霜、紅粉、鬧羊花、草烏、斑蝥包含的324個化學成分進行預測,預測結果見表2。

表2 10味大毒中藥包含的化學成分的預測結果
QSAR是使用數學模型來描述分子結構和分子的某種生物活性之間的關系,其基本假設是化合物的分子結構包含了決定其物理、化學及生物等方面的性質信息,而這些理化性質則進一步決定了該化合物的生物活性。由此可見,構建QSAR模型的基礎是分子結構?!吨腥A人民共和國藥典》2010版記載的10味大毒中藥中巴豆霜是巴豆的炮制品,馬錢子粉為馬錢子的炮制加工品,目前沒有巴豆霜和馬錢子粉的化學成分報道。此外,紅粉是由氧化汞和硝基汞無機物組成,因此本文沒有這3種中藥的預測結果。
從對其他大毒中藥化學成分的預測中可以看出,馬錢子包含的綠原酸對CYP2C19沒有抑制作用[11],與文獻報道一致。斑蝥含有4個化學成分,本文預測出其中3個:(2S)-6-氨基-2-[(3aR*,4S*,7R*,7aS*)-3a,7a-二甲基-1,3-二酮-4,7-環氧八氫異吲哚-2-基]-己酸、(2S)-2-[(3aR*,4S*,7R*,7aS*)-3a,7a-二甲基-1,3-二酮-4,7-環氧-八氫異吲哚-2-基]-5-胍基戊酸、(2S)-5-氨基-2-[(3aR*,4S*,7R*,7aS*)-3a,7a-二甲基-1,3-二酮-4,7-環氧八氫異吲哚-2-基]-戊酸對CYP2C19有抑制作用,預示著中藥斑蝥可能對CYP2C19有抑制作用。同時,本文還預測出馬錢子和天仙子包含的所有化合物都對CYP2C19沒有抑制作用,預示著馬錢子和天仙子可能對CYP2C19沒有抑制作用。這些預測結果可以為斑蝥、馬錢子和天仙子的聯合用藥提供參考。例如,如果斑蝥與需要通過CYP2C19酶進行代謝的藥物同時服用,那么就可能影響該藥物的正常代謝,而使其毒副作用增加。
[1] 翁小剛,朱曉新,梁日欣,等.中草藥代謝與細胞色素P450的關系研究進展[J].中國實驗方劑學雜志,2009,15(12):104-107.
[2] 嚴非,夏春華,熊玉卿.CYP2C19 基因多態性對藥物代謝的影響及其個體化用藥[J].中國臨床藥理學與治療學,2010(8):949-953.
[3] Pestka E L,Hale A M,Johnson B L,et al.Cytochrome P450 testing for better psychiatric care[J].Journal of Psychosocial Nursing and Mental Health Services,2007,45(10):15-18.
[4] Bertilsson L.Metabolism of antidepressant and neuroleptic drugs by cytochrome p450s:clinical and interethnic aspects[J].Clin Pharmacol Ther,2007,82(5):606-609.
[5] Hong H,Xie Q,Ge W,et al.Mold2,molecular descriptors from 2D structures for chemoinformatics and toxicoinformatics[J].Journal of Chemical Information and Modeling,2008,48(7):1337-1344.
[6] R Core Team(2013).R:A language and environment for statistical computing[CP/OL].Vienna Austria:R Foundation for Statistical Computing.http://www.R-project.org/.
[7] HO T K.RandomDecisionForest[M].Montreal,QC:1995:278-282.
[8] PRESS H,TEUKOLSKY A,VETTERLING T,et al.Numerical Recipes:The Art of Scientific Computing:Third Edition[M].New York:Cambridge University Press,2007:883-892.
[9] GEISSER S.The predictive sample reuse method with applications[J].JAmStatAssoc,1975,70(350):320-328.
[10] Max Kuhn.Building Predictive Models in R Using the caret Package[J/OL].Journal of Statistical Soft,2008,28(5).http://www.jstatsoft.org/v28/i05.
[11] 孔麗敏.人 CYP2C19.1 野生型和 CYP2C19.2 突變體蛋白體外表達模型的構建,活性表征及抑制劑研究[D].杭州:浙江大學,2012.
PredictionofInteractionbetweenChemicalComponentofChineseHerbsandCYP2C19withQSAR
LEIlei1,WANGXinzhou2,ZHANGLi1,ZHUYongliang2,YANGCe1,CUIMeng1*,QIANXiangping2
(1.InstituteofBasicResearchinClinicalMedicine,ChinaAcademyofChineseMedicalScience,Beijing100700,China;2.SuzhouNeupharmaCo.Ltd.Suzhou,215123,China)
Objective:In order to provide reference for clinical application and drug development,a quantitative structure-activity relationship(QSAR)model was build u Pusing Random Forest(RF)and Support Vector Machine(SVM)and predicted chemical components of some toxic Chinese herbs with the best QSAR model.Methods:First,Mold2 software(version 2.0.0)was used to calculate molecular descriptors of 130 chemical components.After preliminary screening of molecular descriptors,QSAR models were built u Pwith RF and SVM.Then interaction of chemical components and CYP2C19 was predicted by the QSAR model with the best accuracy and ROC.Results:The optimal QSAR model of six molecular descriptors,SVM and Leave-10%-out cross-validation was determined based on the accuracy and ROC value.And chemical components of ten toxic Chinese herbs such as cantharis,nux vomica,henbane were studied.Conclusion:QSAR model of Chinese herbs and some predict outcomes would provide references for drug use and experimental studies.
Quantitative structure-activity relationship(QSAR);CYP2C19;chemical components of Chinese herbs
2014-11-24)
國家自然科學基金項目—中藥對細胞色素P450酶作用及配伍減毒的計算預測(81374060)
*
崔蒙,研究員,研究方向:中藥信息學;E-mail:cm@mail.cintcm.ac.cn
10.13313/j.issn.1673-4890.2015.5.003