文/叢春雨
近年來,隨著越來越多的天然產物成功地通過認證而上市,中藥 (traditional Chinese medicines,TCMs) 作為天然產物的重要組成部分,在現代藥物研發中受到了越來越多的關注和重視。但中藥藥效物質基礎不明確、作用機制不清楚,很難從整體到組織器官、細胞和分子水平進行全面系統地研究。因此,中藥研究急需新的研究方法的出現。網絡藥理學的興起對中醫藥是一個很好的契機,其所強調的整體性與系統性和中醫藥理論不謀而合。因此,在分子水平上,中藥方劑用于治療疾病的機制與網絡藥理學(network pharmacology)或多向藥理學是相通的。由于中藥品種繁多,成分復雜,若通過生物學實驗手段確定各個化學成分的作用靶點,不僅耗時長,而且任務重,難以實現。相比之下,建立藥物—靶標預測模型是一種快速高效的方法,能夠減少成本,快速預測成分靶標,為中藥網絡藥理學的應用奠定基礎。
從DrugBank數據庫下載2388個美國FDA已經批準的小分子化學藥的分子結構及其相應靶蛋白受體,根據對應關系,獲得9275條藥物—靶點配對,作為本研究的陽性樣本集。將陽性樣本集中的藥物-靶點配對拆開,重新組合配對,剔除陽性樣本,從中隨機挑選出 2倍(18550條)于陽性樣本集的配對結果,即為陰性樣本集。從數據集中隨機選取陽性樣本1275條,陰性樣本2550條,組成獨立測試集,剩余的陽性樣本和陰性樣本組成訓練數據集,訓練數據24000條,測試數據3825條。
本模型應用PowerMV(www.niss.org/PowerMV)計算藥物分子,得到6122個描述符,用k-spaced氨基酸對構成(CKSAAP)編碼每一個靶蛋白。在本模型中,我們采用k=0,1,2,3,4對應的CKSAAP編碼,那么5-spaced特征向量的維數就是2205。基于以上兩種編碼方法組合的配對數據合計8327維。模型采用主成分分析法(principle component analysis,PCA)對上述數據進行降維處理,按保留原始信息97% 的信息量進行降維,獲得數據矩陣分別為24000*995,3825*995。
在我們的方法中,使用支持向量機算法建立預測模型,預測模型中最優參數(c,g)分別是(362.039,0.00552427)。模型在訓練數據集上的平均準確率可達79.74%,在獨立測試集上準確率達82.41%。

表1:與附子化學成分作用頻次較高同時決策值也較高的55個潛在作用靶點

Q9GZZ6 Neuronal acetylcholine receptor subunit alpha-10 10 P49888 Estrogen sulfotransferase 10 P01579 Interferon gamma 10 P07237 Protein disulfide-isomerase 9 Q14643 Inositol 1,4,5-trisphosphate receptor type 1 9 P49411 Elongation factor Tu,mitochondrial 9 Q53707 MecA PBP2'' 9 Q05655 Protein kinase C delta type 9 Q14571 Inositol 1,4,5-trisphosphate receptor type 2 9 O00264 Membrane-associated progesterone receptor component 1 9 P12259 Coagulation factor V 9 O60909 Beta-1,4-galactosyltransferase 2 9 Q9BXA5 Succinate receptor 1 8 O00341 Excitatory amino acid transporter 5 8 O75879 Glutamyl-tRNA 8 Q9UBX3 Mitochondrial dicarboxylate carrier 8 P37059 Estradiol 17-beta-dehydrogenase 2 7 Q27218 Acetylcholine receptor subunit beta-type lev-1 7 P23743 Diacylglycerol kinase alpha 7 Q16760 Diacylglycerol kinase delta 7 Q8TC12 Retinol dehydrogenase 11 7 Q9HBH5 Retinol dehydrogenase 14 7 Q9NYR8 Retinol dehydrogenase 8 7 Q6NUM9 All-trans-retinol 13,14-reductase 7 O75911 Short-chain dehydrogenase/reductase 3 7 Q5JTZ9 Alanine--tRNA ligase,mitochondrial 7 Q6IB77 Glycine N-acyltransferase 7 P02461 Collagen alpha-1 7 Q99418 Cytohesin-2 6 P29475 Nitric oxide synthase,brain 6 Q81F54 Glyoxalase family protein 6 P08149 Penicillin-binding protein 2 6 Q9NR33 DNA polymerase epsilon subunit 4 6 Q86VB7 Scavenger receptor cysteine-rich type 1 protein M130 6 O43766 Lipoyl synthase,mitochondrial 6 Q9Y2J8 Protein-arginine deiminase type-2 6 Q9UQD0 Sodium channel protein type 8 subunit alpha 6 P08123 Collagen alpha-2 6 P98164 Low-density lipoprotein receptor-related protein 2 6 P20333 Tumor necrosis factor receptor superfamily member 1B 6 P50406 5-hydroxytryptamine receptor 6 6 P02775 Platelet basic protein 6 Q06830 Peroxiredoxin-1 5 Q12882 Dihydropyrimidine dehydrogenase [NADP 5 Q9NY56 Odorant-binding protein 2a 5 Q01118 Sodium channel protein type 7 subunit alpha 5 Q9UGM1 Neuronal acetylcholine receptor subunit alpha-9 5
從TCMSP數據庫和附子相關文獻中收集和整理已報道的附子所含化學成分,共計64個。模型基于python語言和rdkit包,通過計算分子的Morgan指紋,進行附子成分和drugbank數據庫中美國FDA已經批準的小分子化學藥的相似性比對,從而在64個成分中挑選出了24個與訓練集中小分子藥物化學空間(chemical space)相近的化合物,將其與drugbank中已知靶點進行組合,構建預測集。
預測集按訓練集相應的方法計算分子描述符、歸一化和降維等處理,然后帶入模型進行靶點預測。本研究選取了與附子化學成分作用頻次較高同時決策值(dec_value,decision value是該樣本屬于該類的隸屬度,分值越大,代表屬于該類的置信度越大)也較高的前205個潛在作用靶點,總頻次1522次,但由于篇幅原因,表1只列出了其中部分潛在靶點。
預測出的潛在靶點需要通過實驗進一步驗證,這是本文研究的意義所在。本項目組建立的預測模型有較高的準確率,該方法可望用于虛擬篩選中藥有效成分及其作用靶點,為從分子水平上研究中藥的作用機制提供一定的方法學參考。