999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度神經(jīng)網(wǎng)絡(luò)的藥物蛋白虛擬篩選

2020-05-21 03:33:01周世英李福東姜定
軟件工程 2020年5期
關(guān)鍵詞:特征提取

周世英 李福東 姜定

摘? 要:藥物的研發(fā)是一種投入成本高、耗費時間長且成功率較低的一種研究,為了在藥物開發(fā)階段可以快速獲得潛在的化合物,針對性地提出一種基于深度神經(jīng)網(wǎng)絡(luò)的藥物蛋白虛擬篩選的方法。首先從給定數(shù)據(jù)集中學習如何提取相關(guān)特征,獲取配體原子和殘基類型進行特征分析,快速識別活性分子和非活性分子,然后使用降維方式和K折驗證等方法對藥物篩選的模型進行處理,最后通過分析富集因子和AUC值驗證誘餌化合物與分子蛋白的互相作用驗證模型的可靠程度,實驗結(jié)果表明所提出的篩選方法具有很好的可行性和有效性,有效地加快了虛擬篩選過程。

關(guān)鍵詞:深度神經(jīng)網(wǎng)絡(luò);虛擬篩選;特征提取

中圖分類號:TP391? ? ?文獻標識碼:A

Abstract: Drug development is a kind of research with high input cost, long development cycle and low success rate. In order to quickly obtain potential compounds in the drug development stage, the paper proposes a deep neural network based virtual screening method for drug proteins. First, by learning how to extract the features from a given data set, the ligand atoms and the residue type are acquired to conduct characteristic analysis. After fast identification of active and inactive molecules, the dimension reduction method and the K-fold validation method are used to process the drug screening model. Finally, by analyzing enrichment factors and the interaction between AUC value bait compounds and molecular protein, the reliability of the model is verified. The experiment proves the feasibility and effectiveness of the proposed screening method which can effectively speed up the virtual screening process.

Keywords: deep neural network; virtual screening; feature extraction

1? ?引言(Introduction)

虛擬篩選已經(jīng)成為現(xiàn)代藥物開發(fā)過程中的一個重要輔助工具[1],它可以在成千上萬的候選化合物藥物中篩選出與所需的藥物目標結(jié)合的新型化合物,得到可以激活或抑制選定蛋白的小分子。一般來說虛擬篩選方法可以分為基于受體的虛擬篩選和基于配體的虛擬篩選,前者通過對已知具有相同作用機理的化合物進行定量構(gòu)效(QSAR)關(guān)系研究,依照藥效團模型對化合物數(shù)據(jù)庫進行搜索以得到最佳的構(gòu)象。后者主要應(yīng)用分子對接技術(shù),實施這種篩選需要獲知藥物作用靶標的分子結(jié)構(gòu),通過分子模擬手段計算化合物庫中的小分子與靶標結(jié)合的能力,預(yù)測候選化合物的生理活性。雖然虛擬篩選的準確性有待提高,但是其快速廉價的特點使之成為發(fā)展最為迅速地藥物篩選技術(shù)之一。

到目前為止,隨著新的分子生物學技術(shù)的出現(xiàn),藥物開發(fā)產(chǎn)生了完全性的改變和演變,出現(xiàn)了神經(jīng)網(wǎng)絡(luò)等可以增強虛擬篩選能力的方法,可以訓練基于輸入和輸出對生成分類器。Adam[2]將可學習的原子卷積和softmax操作分別應(yīng)用于每個分子的基礎(chǔ)上建立了一種用于基于結(jié)構(gòu)的虛擬篩選的深度學習架構(gòu),該架構(gòu)可以生成固定大小的蛋白質(zhì)和小分子指紋并進行進一步的非線性變換,通過計算它們的內(nèi)積并用于預(yù)測結(jié)合勢得到篩選的效果。該方法的篩選效率較高,檢索速度快,但在針對不同特征的權(quán)重值方面存在著局限性,本文通過使用了深度神經(jīng)網(wǎng)絡(luò)來改進虛擬篩選的結(jié)果,提出了一種DL的虛擬篩選,它以深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),可以大量的小分子化合物進行分類篩選并排除不具有活性的小分子化合物,本文其余部分的結(jié)構(gòu)如下。

2? 基于深度神經(jīng)網(wǎng)絡(luò)藥物蛋白虛擬篩選算法構(gòu)建(Construction of virtual screening algorithm for drug protein based on deep neural network)

2.1? ?數(shù)據(jù)采集

A Directory of Useful Decoys(DUD)是由加州大學舊金山分校藥物化學系的Irwin和Shoichet實驗室所歸納的藥物數(shù)據(jù)集,它用于測試基于配體的誘餌對接算法,DUD是迄今為止用于對虛擬篩選程序進行基準測試的最大,最全面的公共數(shù)據(jù)集。DUD含有40個受體蛋白酶,每種蛋白酶的配體中都有幾十到幾百個分子從而組成了2950種配體。又從商業(yè)可用化合物ZINC數(shù)據(jù)庫中對每個配體檢索到36個誘餌以模擬相關(guān)配體的某些物理性質(zhì),它們在物理性質(zhì)上類似于特定的配體,如分子量、cLogP和氫鍵基團的數(shù)量,但在拓撲結(jié)構(gòu)上卻截然不同,從而形成了一個包含98266種化合物的數(shù)據(jù)庫。使用的數(shù)據(jù)集包括復(fù)雜晶體的PDB代號和結(jié)構(gòu)活性物的數(shù)量,誘餌數(shù)及不同的化學類型數(shù)。我們使用以下九個具有代表性的受體用于后續(xù)分析[3]。

2.2? 深度神經(jīng)網(wǎng)絡(luò)算法的構(gòu)建

深度神經(jīng)網(wǎng)絡(luò)(DNN)是一種多層神經(jīng)網(wǎng)絡(luò),它包含一個輸入層、一個輸出層和多個隱藏層,層與層之間通過前向或反饋連接方式相互結(jié)合,其中隱藏層可以根據(jù)模型需要設(shè)置層數(shù)以追求最佳的效果,連接強度使用權(quán)重因子表達,神經(jīng)元通過給定的數(shù)據(jù)集按照一定的規(guī)則對網(wǎng)絡(luò)連接權(quán)重進行學習,通過多次訓練以達到最佳的實際結(jié)構(gòu),本文的隱藏層包括三層,是一個全連接層序列,以每個化合物的特征為輸入并沿著網(wǎng)絡(luò)層依次計算,每一層通過前一層中的輸入值乘以當前隱藏層中每個單元的權(quán)向量計算加權(quán)和,其網(wǎng)絡(luò)拓撲結(jié)構(gòu)如圖1所示。本研究還通過在網(wǎng)絡(luò)中使用詞嵌入(word Enbedding)、Adam算法和K折交叉驗證進行訓練和網(wǎng)絡(luò)優(yōu)化。

(1)特征提取:詞嵌入是自然語言處理(NLP)語言模型與表征學習技術(shù)的統(tǒng)稱,它可以將高維度數(shù)量的詞嵌入到低維度的向量空間中,數(shù)據(jù)被映射為實數(shù)域上的向量,它可以對分子數(shù)據(jù)的特征進行進一步地進行信息抽取,從蛋白質(zhì)復(fù)合物中提取相關(guān)信息得到相關(guān)特征,通過相似量的表達得到數(shù)據(jù)處理,這里輸入層使用來自的信息包括Watom、Wdist、Wchrg和Wamino這四個特征量,既原子類型、相關(guān)距離、原子的電荷和氨基酸類型,這些特征量矩陣構(gòu)成一個隱層的權(quán)重矩陣,使用詞嵌入可以在很大程度上對數(shù)據(jù)維度縮減,有益于增加后續(xù)網(wǎng)絡(luò)訓練的收斂性,并且最大程度上保留了原分子的信息以確保篩選的正確性。嵌入層模型如圖2所示。

(2)Adam算法:Adam算法[4]是一種可以替代傳統(tǒng)隨機梯度下降(SGD)過程的一階優(yōu)化算法,它能基于訓練數(shù)據(jù)迭代地更新神經(jīng)網(wǎng)絡(luò)權(quán)重,不同于傳統(tǒng)的隨機梯度下降A(chǔ)dam算法通過計算梯度的一階矩估計和二階矩估計為不同的參數(shù)設(shè)計獨立的自適應(yīng)性學習率進行迭代的方式對神經(jīng)網(wǎng)絡(luò)進行更新。Adam算法同時獲得了適應(yīng)性梯度算法(AdaGrad)和均方根傳播算法(RMSProp)這兩種隨機梯度下降擴展式的優(yōu)點,通過維持每個參數(shù)的學習率以改善稀疏梯度的性能,自適應(yīng)地保持學習速率。

(3)交叉驗證:交叉驗證是一種評估泛化性能的統(tǒng)計學方法,他比單次劃分訓練集和測試集的方法更加全面穩(wěn)定,最常用的交叉驗證方法是K折交叉驗證(K-fold cross-validation),其中K是由用戶指定的數(shù)字,文中將數(shù)據(jù)集劃分為相等的五部分,每一部分叫作折(fold)。在實驗過程中對數(shù)據(jù)集中化合物具有活性值設(shè)為1,沒有活性值設(shè)為0,分別對應(yīng)標記1和0標簽,以40個藥物相關(guān)靶標蛋白質(zhì)對應(yīng)的活性非活性化合物作為基準測試數(shù)據(jù)集進行5折交叉驗證,對這個神經(jīng)網(wǎng)絡(luò)訓練過程重復(fù)40次,每次用不同的一組DUD的40個受體作為測試受體打分,基于結(jié)構(gòu)的虛擬篩選,需要蛋白質(zhì)的結(jié)構(gòu)信息來將配體候選體停靠在目標物的結(jié)合口袋中。在這里,大量的小分子被篩選來對抗目標蛋白的結(jié)構(gòu)。然后利用評分函數(shù)對蛋白質(zhì)與化合物的結(jié)合能力進行評估分類。

研究中基于深度神經(jīng)網(wǎng)絡(luò)的藥物蛋白虛擬篩選訓練步驟具體如下:

(1)將(DUD)蛋白酶數(shù)據(jù)進行預(yù)處理和篩選,考慮交叉富集相似關(guān)系去除相似的蛋白酶。

(2)通過原子綁定類型、相鄰原子距離和原子電荷作為特征進行篩選。

(3)采用DNN神經(jīng)網(wǎng)絡(luò)對網(wǎng)絡(luò)結(jié)構(gòu)進行調(diào)整。

(4)使用K折驗證在平均性能的基礎(chǔ)上對模型進行準確評估。

(5)計算富集因子和誤差和精度,得到篩選結(jié)果。如圖3所示。

3? 實驗結(jié)果及分析(Experimental results and analysis)

虛擬篩選結(jié)果評價是一項十分重要的工作,由于缺乏標準的評價準則,對應(yīng)的篩選結(jié)果差距也十分大,主流評價標準是使用富集因子(Enrichment Factor, EF)和AUC(Area Under Curve),即ROC曲線下的面積[5]。

3.1? ?富集因子

富集因子是評估分子對接性能的重要指標,主要考察對接計算所使用的參數(shù)是否從包含活性分子和誘餌分子的數(shù)據(jù)庫中將活性分子通過打分的形式篩選出來。本文通過這種方法驗證對接方法是否有效。其計算公式為:

式中,TP代表預(yù)測正確的正樣本數(shù),TN代表預(yù)測正確的負樣本數(shù),F(xiàn)P代表預(yù)測錯誤的負樣本數(shù),F(xiàn)N代表預(yù)測錯誤的正樣本數(shù)。模型的靈敏性分析SE(sensitivity)用于評估正樣本的預(yù)測正確率,特效性分析SP(specificity)用于評估負樣本的預(yù)測正確率。Nt為所有化合物分子個數(shù),Ns是取樣化合物數(shù)量,total actives為取樣重活性化合物的個數(shù),total molecules為測試集中所有活性化合物的個數(shù),EFX%為打分結(jié)果前x%分子的個數(shù)(本文設(shè)定為2%),對于同一數(shù)據(jù)集式中total actives/total molecules的值是固定的。當EF>1時,說明該方法具有顯著地活性化合物的富集能力,得到的結(jié)果是有效地,而且其富集能力隨著EF的值得增加而增加。如表2所示,除了ace蛋白外,我們的DL篩選方法均能得到驗證[6]。

3.2? ?AUC值

AUC是計算ROC曲線下的面積(area under curve),該值可反映虛擬篩選方法的效果。一般認為該值為0.7—1時具有一定的篩選效果,由于ROC曲線一般都處于y=x這條直線的上方,所以AUC正確的取值范圍在0.5—1。而且AUC越接近1.0,檢測方法真實性越高。當AUC值等于0.5時,則真實性最低,說明無應(yīng)用價值,得到的結(jié)果如表3所示。

將我們建立的模型的預(yù)測結(jié)果與文獻[6]預(yù)測的結(jié)果進行比較,以便檢驗我們模型的預(yù)測水平。文獻使用DOCK、RosettaLigand(RL)和AutodockVina(ADV)這三種篩選軟件進行篩選操作,計算結(jié)果如表2和表3所示。由于數(shù)據(jù)的特性問題研究中使用的DL方法與其他相比選取的靶點蛋白富集因子除ace外均大于1,證明對接得到的前期活性分子可被使用,可以驗證對接方法及參數(shù)適用于該體系。但是需要指出的是直接和不同模型的預(yù)測結(jié)果相比較不太合理,因為不同的模型采用了不同驗證方法和篩選特征。通過實驗結(jié)果對比可得可知DL這種研究所得到的富集因子和AUC值均能得到較好的結(jié)果,深度神經(jīng)網(wǎng)絡(luò)相比其他三種傳統(tǒng)方法的篩選效果穩(wěn)定性提高了很多。

4? ?結(jié)論(Conclusion)

本文在這項工作中引入的深度神經(jīng)網(wǎng)絡(luò)的方法進行虛擬篩選方法的開發(fā),有效考慮關(guān)鍵數(shù)據(jù)中的有效特征,通過提取目標原子種類、原子距離、電荷和氨基酸類型增強了虛擬篩選的正確性,這種方法大大減輕了人為干預(yù),可以為后續(xù)的對接實驗、蛋白活性實驗等操作打下了基礎(chǔ)。通過比較同類型的虛擬篩選所得到的富集因子和AUC值均表現(xiàn)出較好的結(jié)果,研究結(jié)果表明,建立深度神經(jīng)網(wǎng)絡(luò)模型在虛擬篩選方面的操作是成功的,研究中的DL方法對加快設(shè)計和發(fā)現(xiàn)藥物有著極其重要的意義。

參考文獻(References)

[1] Kristy A Carpenter,David S Cohen.Deep learning and virtual drug screening[J].Future.Medicinal.Chemistry,2018,10(21):2557-2567.

[2] Adam Gonczarek,Jakub M.TomczakInteraction prediction in structure-based virtual screening using deep learning[J].Computers in Biology and Medicine,2017(100):253-258.

[3] Andreas Jahn,Georg Hinselmann.Optimal assignment methods for ligand-based virtual screening[J].Journal of Cheminformatics,2009(1):1-14.

[4] 楊觀賜,楊靜,李少波,等.基于Dopout與ADAM優(yōu)化器的改進CNN算法[J].華中科技大學學報(自然科學版),2018,46(07):122-127.

[5] 楊國兵,李澤榮,饒含兵.機器學習方法用于建立乙酰膽堿酯酶抑制劑的分類模型[J].物理化學學報,2010,26(12):3351-3359.

[6] Marcelino Arciniega,Oliver F.Lange.Improvement of Virtual Screening Results by Docking Data Feature Analysis[J].Journal of Chemical Information and Modeling,2014(54):1401-1411.

猜你喜歡
特征提取
特征提取和最小二乘支持向量機的水下目標識別
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術(shù)
自動化學報(2017年7期)2017-04-18 13:41:09
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進WLD的紋理特征提取方法
計算機工程(2015年4期)2015-07-05 08:28:02
淺析零件圖像的特征提取和識別方法
機電信息(2015年3期)2015-02-27 15:54:46
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 久久无码高潮喷水| 久久毛片网| 国产精品三区四区| 国产综合欧美| 亚洲五月激情网| 亚洲综合亚洲国产尤物| 草草影院国产第一页| 久久黄色一级视频| 永久免费无码日韩视频| 波多野吉衣一区二区三区av| 人妻中文久热无码丝袜| 国产区福利小视频在线观看尤物| 日韩AV手机在线观看蜜芽| 在线看免费无码av天堂的| 91在线视频福利| 天堂va亚洲va欧美va国产| 精品国产电影久久九九| 成人福利一区二区视频在线| 亚洲精品无码抽插日韩| a级毛片毛片免费观看久潮| 亚洲中文久久精品无玛| 欧美一级高清免费a| 亚洲综合第一区| 亚洲三级片在线看| 午夜精品久久久久久久无码软件| 中日韩欧亚无码视频| 日韩天堂在线观看| 一级一级一片免费| 欧美一级夜夜爽| 91探花在线观看国产最新| 最新国产在线| 热99re99首页精品亚洲五月天| 伊在人亚洲香蕉精品播放| 中文字幕精品一区二区三区视频| 中文字幕色站| 国产成人精品一区二区| 亚洲av综合网| 亚洲国产高清精品线久久| 国产乱子伦视频三区| 久久久精品无码一二三区| 精品国产欧美精品v| 久草中文网| 9丨情侣偷在线精品国产| 国产欧美亚洲精品第3页在线| 91九色国产在线| 久久亚洲黄色视频| 91区国产福利在线观看午夜 | 尤物成AV人片在线观看| 国产乱肥老妇精品视频| 在线a网站| 亚洲伊人天堂| 欧美成在线视频| 最新加勒比隔壁人妻| 亚洲国产成人精品一二区| 久久这里只有精品免费| 亚洲中文字幕23页在线| 一级爆乳无码av| 亚洲手机在线| 国产成人精品无码一区二| 婷婷成人综合| 欧美精品伊人久久| 亚洲午夜18| 99国产精品免费观看视频| 亚洲毛片在线看| 91午夜福利在线观看| 久久成人免费| 亚洲无码久久久久| 99久久亚洲精品影院| 亚洲一区二区在线无码| 欧美另类视频一区二区三区| 亚洲国语自产一区第二页| 丰满人妻一区二区三区视频| 日韩欧美国产成人| 亚洲va视频| 亚洲国产成人无码AV在线影院L| 中文字幕在线视频免费| 成人精品亚洲| 国内精品一区二区在线观看| 国产精品偷伦在线观看| 亚洲资源在线视频| 亚洲色图欧美| 亚洲天堂视频网站|