999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多視角多注意力融合分子特征的藥物-靶標(biāo)親和力預(yù)測(cè)

2022-02-26 06:58:56王潤(rùn)澤張?jiān)虑?/span>秦琪琦張澤華郭旭敏
計(jì)算機(jī)應(yīng)用 2022年1期
關(guān)鍵詞:分子結(jié)構(gòu)特征融合

王潤(rùn)澤,張?jiān)虑?,秦琪琦,張澤華,郭旭敏

(1.太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院,太原 030600;2.山西青年職業(yè)學(xué)院計(jì)算機(jī)與信息工程系,太原 030032)

0 引言

藥物研發(fā)中一個(gè)不可或缺的過程是為蛋白質(zhì)目標(biāo)靶位篩選可結(jié)合并能產(chǎn)生效用的藥物化合物[1]。自2020 年新型冠狀病毒在全世界范圍出現(xiàn)以來,針對(duì)病毒的基因序列,快速發(fā)現(xiàn)可結(jié)合的藥物化合物以加速疫苗研發(fā)已成為學(xué)者們關(guān)注的焦點(diǎn)[2-3]。傳統(tǒng)的藥物研發(fā)通過大量的體外實(shí)驗(yàn),為目標(biāo)蛋白質(zhì)的靶位(或者基因)篩選候選配體物。但是隨著相關(guān)數(shù)據(jù)庫(kù)中分子及化合物數(shù)據(jù)量劇增,如僅PubChem[4]包含110 M 化合物,傳統(tǒng)的目標(biāo)靶位精準(zhǔn)篩選候選藥物方法、不僅產(chǎn)生高昂的研發(fā)成本,更使得藥物研發(fā)周期增長(zhǎng),耽誤相關(guān)疾病的治療[5]。研究者們進(jìn)而考慮計(jì)算機(jī)輔助藥物研發(fā)。現(xiàn)有研究主要集中于基于3D 化合物結(jié)構(gòu)的計(jì)算方法,簡(jiǎn)化輸入的機(jī)器學(xué)習(xí)方法以及自動(dòng)特征提取的深度學(xué)習(xí)方法。特別是基于深度學(xué)習(xí)預(yù)測(cè)藥物-靶標(biāo)相互作用(Drug-Target Interaction,DTI)和藥物-靶標(biāo)親和力(Drug-Target Affinity,DTA),成為目前研究的熱點(diǎn)。目前的研究雖能夠自動(dòng)提取到有效的生物特征,但致力于將分子-蛋白質(zhì)單方面結(jié)構(gòu)嵌入到特征空間,單一方面結(jié)構(gòu)信息對(duì)于精確提取分子的特征存在缺失不完備性。Lin 等[6]將分子局部圖結(jié)構(gòu)和序列結(jié)構(gòu)嵌入的特征向量直接拼接作為深度神經(jīng)網(wǎng)絡(luò)的輸入以預(yù)測(cè)親和力。但簡(jiǎn)單的融合方式導(dǎo)致無法捕捉到與蛋白質(zhì)靶位鏈接相關(guān)性更高的藥物特征,影響兩者結(jié)合強(qiáng)度的預(yù)測(cè)。

首先,分子不同視角生物屬性對(duì)最終特征嵌入有增益;其次,不同視角的分子結(jié)構(gòu)數(shù)據(jù)形態(tài)不同,所以需要有針對(duì)性的特征嵌入方式;最后,通過融合加權(quán)的多視角分子特征,能夠捕獲對(duì)靶位鏈接相關(guān)性更高的特征。

由此,提出多視角多注意力融合分子特征的端到端深度學(xué)習(xí)方法Ma2DTA(Multi-aspect Multi-attention Drug-Target Affinity),綜合學(xué)習(xí)分子特征表示執(zhí)行DTA 預(yù)測(cè)任務(wù)。Ma2DTA 主要包含兩個(gè)核心模塊:多視角分子結(jié)構(gòu)嵌入(Multi-aspect molecular structure embedding,Mas)和多注意力融合(Multi-attention feature fusion,Mat)。首先,Ma2DTA 將分子全局拓?fù)浣Y(jié)構(gòu)、原子關(guān)聯(lián)關(guān)系、原子化合鍵順序排列進(jìn)行嵌入。鑒于分子圖這類非歐空間數(shù)據(jù)以及卷積神經(jīng)網(wǎng)絡(luò)對(duì)于局部結(jié)構(gòu)的建模能力,利用圖卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)分子圖上原子與鄰域原子節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系特征[7],并且融入圖節(jié)點(diǎn)層級(jí)的注意力網(wǎng)絡(luò)提取分子全局拓?fù)浣Y(jié)構(gòu)特征。其次,提出注意力融合多視角特征,捕獲藥物結(jié)構(gòu)中對(duì)靶位鏈接親和力更高的部分。最后,不同于將預(yù)測(cè)藥物-靶標(biāo)相互作用作為二分類任務(wù),預(yù)測(cè)藥物-蛋白質(zhì)親和力分?jǐn)?shù)輸出表示鏈接結(jié)合強(qiáng)度的連續(xù)值,弱關(guān)系藥物-靶標(biāo)對(duì)被舍棄,以縮小候選藥物空間,加速藥物研發(fā)進(jìn)程,如圖1 所示。實(shí)驗(yàn)結(jié)果表明,基于注意力融合多視角分子特征能夠有效地捕獲到對(duì)目標(biāo)靶位鏈接親和力更高的分子結(jié)構(gòu)特征。

圖1 藥物研發(fā)階段中的Ma2DTAFig.1 Ma2DTA in drug discovery stage

本文的主要工作概括如下:

1)針對(duì)分子多類型結(jié)構(gòu)信息,提出注意力多視角分子特征融合方法,使得分子嵌入特征表示不同生物性質(zhì)的信息融合增益。

2)提出一種分子特征層級(jí)的多注意力融合策略Mat,根據(jù)目標(biāo)蛋白質(zhì),為每類分子結(jié)構(gòu)特征附加親和力權(quán)重,捕捉到對(duì)目標(biāo)靶位親和力更高的結(jié)構(gòu)。

3)針對(duì)不同類型的分子信息具有不同的生物性質(zhì)和形態(tài),Mas 模塊可通過不同嵌入的融合,學(xué)習(xí)代表其特有生物屬性的特征向量。在兩大數(shù)據(jù)集上實(shí)驗(yàn)表明Ma2DTA 的預(yù)測(cè)性能優(yōu)于當(dāng)前基準(zhǔn)方法。

1 相關(guān)工作

早期代表性方法分子拼接[8]通過分析分子和蛋白質(zhì)鏈接后的混合3D 結(jié)構(gòu),揭示分子鏈接靶位的機(jī)制。但由于3D 結(jié)構(gòu)數(shù)據(jù)存在不易獲取的局限性,研究人員考慮形式簡(jiǎn)易且生物屬性表達(dá)性強(qiáng)的結(jié)構(gòu)數(shù)據(jù)如生物實(shí)體之間的相似矩陣、關(guān)系矩陣和特征向量作為模型輸入,利用機(jī)器學(xué)習(xí)方法預(yù)測(cè)藥物-靶標(biāo)關(guān)系。Perlman 等[9]提出集成藥物-藥物、基因-基因相似性度量矩陣,結(jié)合邏輯回歸預(yù)測(cè)藥物-蛋白質(zhì)相互關(guān)系。Wang 等[10]提出一種關(guān)系矩陣補(bǔ)全方法融入藥物相似性和蛋白質(zhì)相似性作為對(duì)偶拉普拉斯正則項(xiàng)提升模型預(yù)測(cè)性能。He 等[11]從特征工程的角度提取藥物-蛋白質(zhì)對(duì)的相似性特征,引入梯度增強(qiáng)機(jī)來預(yù)測(cè)量化水平的藥物-靶標(biāo)親和力。雖然這些方法解決了數(shù)據(jù)輸入問題,并提高了預(yù)測(cè)的準(zhǔn)確率,但是不可避免存在以下問題:生物數(shù)據(jù)獲取困難、標(biāo)簽數(shù)據(jù)稀少、關(guān)系矩陣容量太大導(dǎo)致模型無法匹配、特征工程和專家經(jīng)驗(yàn)引起的信息丟失和有偏。

深度學(xué)習(xí)能夠在大規(guī)模數(shù)據(jù)中自動(dòng)提取局部結(jié)構(gòu)特征,受到研究者的廣泛關(guān)注。深度學(xué)習(xí)助力藥物研發(fā)也取得突破性進(jìn)展[12-13]。特別地,DeepMind 在預(yù)測(cè)蛋白質(zhì)3D 結(jié)構(gòu)中取得不俗的成績(jī),科學(xué)家表示其有望改變生物學(xué)[14]。基于深度學(xué)習(xí)的方法在預(yù)測(cè)藥物-蛋白質(zhì)關(guān)系研究上也取得了進(jìn)展。Wen 等[15]結(jié)合深度信念網(wǎng)絡(luò),從預(yù)訓(xùn)練和監(jiān)督微調(diào)的角度預(yù)測(cè) 兩者關(guān) 系。?ztürk 等[16]提出將 化合物SMILES(Simplified Molecular-Input Line-Entry System)序列和氨基酸序列作為輸入,利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)分別提取局部關(guān)系特征。Karimi 等[17]結(jié)合注意力機(jī)制組合循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和CNN 從局部和全局聯(lián)合學(xué)習(xí)序列特征預(yù)測(cè)親和力。除此之外,另外一類方法利用分子結(jié)構(gòu)本身存在的特性——可以自然地建模為圖,圖上的節(jié)點(diǎn)和邊分別表示分子中的原子和化學(xué)鍵[18]。Gao 等[19]在分子圖上定義卷積核實(shí)現(xiàn)原子節(jié)點(diǎn)與鄰域間信息傳播以挖掘分子圖局部結(jié)構(gòu)。Nguyen等[20]在分子圖上執(zhí)行不同類型的圖卷積算法捕獲分子圖拓?fù)浣Y(jié)構(gòu)特征,提高模型預(yù)測(cè)親和力能力。Li 等[21]同時(shí)編碼分子圖上節(jié)點(diǎn)和邊的特征,結(jié)合原子與殘基非共價(jià)關(guān)系指導(dǎo)親和力預(yù)測(cè)。無論是基于序列結(jié)構(gòu)還是圖拓?fù)漭斎耄鲜龇椒ㄖ铝τ趯⒎肿?蛋白質(zhì)單方面結(jié)構(gòu)嵌入到特征向量空間,但單一方面的結(jié)構(gòu)信息對(duì)于精確提取分子的特征存在缺失不完備性。

不同于上述方法,本文綜合考慮分子多視角結(jié)構(gòu)信息,通過注意力融合多視角分子結(jié)構(gòu)特征,捕獲對(duì)靶位鏈接相關(guān)性更高的部分分子結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,相較于現(xiàn)有方法,Ma2DTA 在藥物-靶標(biāo)親和力預(yù)測(cè)上能夠達(dá)到更優(yōu)的性能。

2 問題描述

本文的任務(wù)是融合多視角分子結(jié)構(gòu)信息——分子拓?fù)淇臻g、原子關(guān)聯(lián)關(guān)系、原子化學(xué)鍵順序排列結(jié)構(gòu),得到分子的綜合特征向量表示,根據(jù)給定蛋白質(zhì)預(yù)測(cè)藥物-靶標(biāo)親和力。

首先,模型的原始輸入數(shù)據(jù)為藥物SMILES 串和氨基酸序列,具體表示如圖2(a)輸入部分所示。

圖2 Ma2DTA的框架Fig.2 Framework of Ma2DTA

其次,利用化學(xué)信息工具RDKit[22]將輸入的SMILES 串轉(zhuǎn)換為分子圖Gm={V,E},其中vi∈V(i=1,2,…,Natom)表示分子中的第i個(gè)原子節(jié)點(diǎn),ei,j∈E(i,j∈{1,2,…,Na})表示分子圖中的第i個(gè)原子與第j個(gè)原子之間的化學(xué)鍵。使用{S1,S2,…,SNs}與{T1,T2,…,TNt}分別表示分子SMILES 串和蛋白質(zhì)序列的標(biāo)識(shí)符集合,Ns和Nt分別代表兩者序列各自的長(zhǎng)度。由于不同的分子結(jié)構(gòu)信息包含不同的生物屬性信息,具有不同的性質(zhì),所以針對(duì)不同的分子結(jié)構(gòu)需要不同的嵌入方法。因此需要學(xué)習(xí)的原子關(guān)聯(lián)關(guān)系結(jié)構(gòu)嵌入函數(shù)為fv_a(·):

其中hloc為原子關(guān)聯(lián)關(guān)系嵌入特征向量。分子全局拓?fù)浣Y(jié)構(gòu)嵌入函數(shù)為fv_s(·):

其中hsuper為學(xué)習(xí)的分子全局拓?fù)浣Y(jié)構(gòu)特征向量。vsuper表示在分子圖外定義的存儲(chǔ)全局圖拓?fù)涮卣鞯墓?jié)點(diǎn)[22]。原子與化學(xué)鍵排列結(jié)構(gòu)嵌入函數(shù)為fv_sim(·):

其中hsmi表示原子與化學(xué)鍵排列結(jié)構(gòu)嵌入特征向量。針對(duì)蛋白質(zhì)結(jié)構(gòu),需要學(xué)習(xí)的表征函數(shù)為fpro(·):

其中hpro為學(xué)習(xí)的蛋白質(zhì)結(jié)構(gòu)特征。得到3 個(gè)視角的分子結(jié)構(gòu)特征后,通過注意力函數(shù)為多視角分子結(jié)構(gòu)嵌入向量附加權(quán)重融合:

其中:hmol為嵌入的分子最終特征表示,Att(·)表示注意力融合函數(shù)。則整體模型的優(yōu)化可定義為:

其中:fpre(·)表示親和力回歸預(yù)測(cè)函數(shù),y為真實(shí)的親和力分?jǐn)?shù)值。

3 模型提出

本章分別介紹多視角分子結(jié)構(gòu)嵌入模塊Mas、蛋白質(zhì)結(jié)構(gòu)編碼模塊、多注意力分子特征融合模塊Mat 和藥物-靶標(biāo)親和力回歸預(yù)測(cè)模塊。Ma2DTA 整體框架如圖2 所示:圖2(a)描述Ma2DTA 從數(shù)據(jù)輸入到親和力輸出的框架,以藥物的SMILES 串和蛋白質(zhì)的氨基酸序列作為模型輸入,通過Mas 模塊將三種類型的分子結(jié)構(gòu)和蛋白質(zhì)序列結(jié)構(gòu)分別嵌入為代表各自生物屬性的特征向量;圖2(b)表示Mas 模塊中分子全局拓?fù)浣Y(jié)構(gòu)和原子關(guān)聯(lián)關(guān)系結(jié)構(gòu)的嵌入過程;圖2(c)展示原子化學(xué)鍵順序排列結(jié)構(gòu)的特征學(xué)習(xí)過程;圖2(d)表示蛋白質(zhì)序列結(jié)構(gòu)的特征嵌入。在Mat 模塊中,根據(jù)計(jì)算的分子結(jié)構(gòu)相對(duì)于靶蛋白的重要性系數(shù),對(duì)三類分子特征向量加權(quán),然后融合得到給定藥物的最終特征表示。最后,將藥物與蛋白質(zhì)特征向量拼接后利用多層神經(jīng)網(wǎng)絡(luò)擬合輸出親和力分?jǐn)?shù)。

3.1 多視角分子結(jié)構(gòu)嵌入模塊Mas

多視角分子結(jié)構(gòu)嵌入模塊針對(duì)不同生物屬性的分子結(jié)構(gòu)采用不同的表征策略。將5 類原子屬性——原子標(biāo)簽、原子節(jié)點(diǎn)的度、氫原子的總數(shù)、原子的隱含值、原子是否為芳香族采用one-hot 分別編碼為向量hlab、hdeg、hH、hhid、haro,則每個(gè)原子節(jié)點(diǎn)的初始化特征表示為:

其中||表示向量級(jí)聯(lián)。

針對(duì)原子關(guān)聯(lián)關(guān)系結(jié)構(gòu),優(yōu)化嵌入函數(shù)fv_a(·)以學(xué)習(xí)分子中每一個(gè)原子與鄰域原子節(jié)點(diǎn)消息傳播的特性,最終得到關(guān)聯(lián)特征hloc。采用圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Neural Network,GCN)[23]在頻譜空間上對(duì)分子圖執(zhí)行卷積運(yùn)算。式(8)定義了每一層圖卷積網(wǎng)絡(luò)的計(jì)算過程:

其中:A∈為分子圖鄰接矩陣,I為大小相同的單位矩陣,D是圖對(duì)角度矩陣,X和Θ分別表示分子特征矩陣和可學(xué)習(xí)的參數(shù)矩陣,Z∈表示每一次圖卷積后的中間隱含特征矩陣,dl為第l層原子的特征維度,ReLU(·)為非線性激活函數(shù)。最后,通過圖全局池化層得到分子的最終關(guān)聯(lián)關(guān)系特征hloc。

針對(duì)分子全局拓?fù)浣Y(jié)構(gòu),則需要通過優(yōu)化fv_s(·)以嵌入全局圖拓?fù)浣Y(jié)構(gòu)得到特征hsuper。此處通過圖節(jié)點(diǎn)層級(jí)的注意力捕獲每一個(gè)原子對(duì)分子全局結(jié)構(gòu)特征的貢獻(xiàn)。第一,累加每個(gè)原子特征初始化全局節(jié)點(diǎn)vsuper;第二,在計(jì)算圖節(jié)點(diǎn)層級(jí)注意力過程中融入多頭注意力機(jī)制集成多個(gè)空間的注意力信息以提升對(duì)注意力權(quán)重的學(xué)習(xí)。在注意力系數(shù)的計(jì)算中首先利用式(9)計(jì)算每一個(gè)原子節(jié)點(diǎn)對(duì)超節(jié)點(diǎn)vsuper貢獻(xiàn)系數(shù):

針對(duì)原子和化學(xué)鍵順序排列結(jié)構(gòu),優(yōu)化嵌入函數(shù)fv_sim(·)以提取原子-化學(xué)鍵序列局部結(jié)構(gòu)特征hsmi。首先結(jié)合標(biāo)簽嵌入和隨機(jī)初始化將SMILES 標(biāo)識(shí)符集合{S1,S2,…,}轉(zhuǎn)換為語(yǔ)義向量組[s1,s2,…,],si為具有固定維度的特定語(yǔ)義向量。其次采用CNN 學(xué)習(xí)序列中每一個(gè)標(biāo)識(shí)符的局部上下文信息,即捕獲局部原子與化學(xué)鍵連接關(guān)系,式(14)定義卷積的特征捕獲過程:

3.2 蛋白質(zhì)結(jié)構(gòu)編碼模塊

對(duì)于模型輸入的蛋白質(zhì)序列,同樣通過優(yōu)化表征函數(shù)fpro(·) 捕獲氨基酸順序排列特征hpro。類似于上文中對(duì)SMILES 序列編碼,使用標(biāo)簽嵌入和隨機(jī)初始化將氨基酸序列的標(biāo)識(shí)符集合{T1,T2,…,}編碼為向量組[t1,t2,…,]。采用CNN 提取蛋白質(zhì)序列中局部氨基酸順序排列特征:

3.3 多注意力分子特征融合模塊Mat

本模塊提出一種多注意力融合方式,得到代表不同分子生物性質(zhì)的信息融合增益。第一,不同類型的分子結(jié)構(gòu)表示不同的生物屬性,對(duì)最終的分子特征表示提供不同程度的信息增益;第二,多注意力融合能根據(jù)親和力權(quán)重捕獲分子上鏈接靶位更重要的特征;第三,粗略的融合方式無法突顯對(duì)靶位親和力更高的分子特征。基于此,本文提出分子結(jié)構(gòu)層級(jí)的注意力融合方法建模分子結(jié)構(gòu)對(duì)蛋白質(zhì)靶位鏈接相對(duì)重要的特征,提高模型預(yù)測(cè)親和力的性能。Mat 模塊優(yōu)化注意力函數(shù)Att(·),融合多視角分子結(jié)構(gòu)特征得到分子最終特征表示hmol。給定Mas 模塊嵌入的分子特征向量hloc、hsuper、hsmi,定義其對(duì)應(yīng)的注意力權(quán)重分別為βloc、βsuper、βsmi。以βloc為例,其計(jì)算如式(16)、(17)所示:

其中:Wtrans,2表示分子結(jié)構(gòu)層級(jí)的注意力參數(shù)矩陣;Wattn,l、Wattn,p分別代表原子關(guān)聯(lián)關(guān)系特征和蛋白質(zhì)結(jié)構(gòu)特征相對(duì)應(yīng)的線性特征變換矩陣。注意力權(quán)重βsuper、βsmi以相同的計(jì)算過程得到。最后,對(duì)不同視角下的分子特征根據(jù)各自的注意力系數(shù)加權(quán),經(jīng)過非線性聚合得到分子最終特征表示hmol,如式(18)所示:

《中華人民共和國(guó)印花稅暫行條例施行細(xì)則》[9]中明確規(guī)定:國(guó)家指定的收購(gòu)部門與村民委員會(huì)、農(nóng)民個(gè)人書立的農(nóng)副產(chǎn)品收購(gòu)合同免納印花稅。

其中Wmol為分子最終嵌入特征的線性變換矩陣。

3.4 藥物-靶標(biāo)親和力回歸預(yù)測(cè)

本階段利用回歸預(yù)測(cè)函數(shù)fpre(·)完成藥物-靶標(biāo)親和力預(yù)測(cè)。根據(jù)藥物-蛋白質(zhì)對(duì),其中h=[hmol||hpro]表示hmol與hpro的拼接,經(jīng)過L層深度特征變換輸出藥物-蛋白質(zhì)親和力分?jǐn)?shù)score:

4 實(shí)驗(yàn)與結(jié)果分析

在浪潮異構(gòu)機(jī)群GPU:12 *32 GB Tesla V100s,內(nèi)存640 GB DDR2 進(jìn)行實(shí)驗(yàn),驗(yàn)證Ma2DTA 的親和力預(yù)測(cè)性能。

4.1 數(shù)據(jù)集

在Davis[24]和KIBA[25]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。Davis 數(shù)據(jù)集包含激酶家族及其抑制劑的蛋白質(zhì)樣品,以及相應(yīng)的解離常數(shù)(dissociation constant)值Kd,本文使用通用方法將Davis 數(shù)據(jù)集中的Kd值轉(zhuǎn)換到log 空間以保證數(shù)值的平穩(wěn)性,如式(20):

KIBA 數(shù)據(jù)集整合抑制劑生物活性的各種來源,通過應(yīng)用其統(tǒng)計(jì)信息優(yōu)化抑制常數(shù)(inhibition constant)Ki、Kd和半抑制濃度(half-maximal inhibitory concentration)IC50 之間的一致性。表1 給出了兩個(gè)數(shù)據(jù)集上的數(shù)據(jù)統(tǒng)計(jì)。

表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)信息Tab.1 Statistics of experimental datasets

4.2 評(píng)價(jià)指標(biāo)

其中:bi是較大親和力δi的預(yù)測(cè)值,bj是較小親和力δj的預(yù)測(cè)值;Z是一個(gè)標(biāo)準(zhǔn)化常數(shù)。h(x)表示梯函數(shù):

MSE 量化模型預(yù)測(cè)值與數(shù)據(jù)真實(shí)值之間的差異性,如式(23)所示:

其中yi表示真實(shí)值。MSE 越小,模型的預(yù)測(cè)效果越好。評(píng)估模型對(duì)數(shù)據(jù)的擬合能力。越大,表明模型擬合程度越好,如式(24):

其中r2和分別代表有截距和無截距時(shí)的平方相關(guān)系數(shù)。

4.3 實(shí)驗(yàn)設(shè)置

為驗(yàn)證Ma2DTA 的親和力預(yù)測(cè)性能,分別將其同以下四個(gè)基準(zhǔn)深度學(xué)習(xí)模型比較。

1)DeepDTA[16]:端到端的深度學(xué)習(xí)系統(tǒng),從分子和蛋白質(zhì)序列結(jié)構(gòu)的角度提取特征。

2)AttentionDTA[27]:根據(jù)模型學(xué)習(xí)的SMILES 序列和氨基酸序列片段之間的權(quán)重預(yù)測(cè)可能性更高的鏈接位置。

3)GANsDTA[28]:構(gòu)建一個(gè)半監(jiān)督學(xué)習(xí)系統(tǒng),從藥物-蛋白質(zhì)無標(biāo)簽的角度,采用生成對(duì)抗網(wǎng)絡(luò)提取藥物與蛋白質(zhì)特征。

4)GraphDTA[20]:表征分子圖拓?fù)浣Y(jié)構(gòu)和蛋白質(zhì)氨基酸序列結(jié)構(gòu)預(yù)測(cè)藥物-蛋白質(zhì)親和力。

由于SMILES 序列和氨基酸序列長(zhǎng)度不等,為保證效果對(duì)比的公平性,實(shí)驗(yàn)中對(duì)SMILES 序列和蛋白質(zhì)序列分別設(shè)置固定長(zhǎng)度為85 和1 000,大于固定值的部分被截?cái)啵∮诠潭ㄖ档牟糠钟? 補(bǔ)充。實(shí)驗(yàn)表明,多視角分子結(jié)構(gòu)融入和多注意力融合均有助于藥物-靶標(biāo)親和力預(yù)測(cè)性能的提升。

4.4 結(jié)果分析

在Davis 和KIBA 數(shù)據(jù)集上執(zhí)行實(shí)驗(yàn)分析,將本文方法與當(dāng)前基準(zhǔn)方法進(jìn)行比較,分別考慮訓(xùn)練集的分割比率的影響,多視角特征融入和多注意力融合的有效性,以及對(duì)蛋白質(zhì)序列卷積的層數(shù)和分子圖上的池化方式的影響。

4.4.1 訓(xùn)練比率的影響

為驗(yàn)證訓(xùn)練集的所占比率對(duì)模型性能的影響,實(shí)驗(yàn)中將兩個(gè)數(shù)據(jù)集分割為訓(xùn)練集和測(cè)試集,分別設(shè)置4 個(gè)不同的訓(xùn)練比率——80%、60%、40%、20%,測(cè)試集比率對(duì)應(yīng)為20%、40%、60%、80%。圖3 展示在兩個(gè)數(shù)據(jù)集上執(zhí)行不同的數(shù)據(jù)分割對(duì)Ma2DTA 性能的影響。當(dāng)訓(xùn)練比率設(shè)置為80%時(shí),Ma2DTA 在所有指標(biāo)上達(dá)到最優(yōu)。

圖3 兩個(gè)數(shù)據(jù)集上訓(xùn)練比率對(duì)Ma2DTA性能的影響Fig.3 Influence of training ratio on Ma2DTA performance on two datasets

4.4.2 與基準(zhǔn)方法相比

如圖4 所示,在Davis 和KIBA 數(shù)據(jù)集上,將本文方法與基準(zhǔn)深度學(xué)習(xí)方法分別作了比較。首先,基于圖數(shù)據(jù)輸入的方法(GraphDTA)相較于基于序列結(jié)構(gòu)(DeepDTA,GANsDTA等)的方法,在CI 和MSE 上有明顯的提升,表明分子天然地可建模為分子圖的特性,可以有效地表達(dá)出原子與原子之間的關(guān)聯(lián)關(guān)系以及拓?fù)淇臻g攜帶的生物屬性信息。其次,無論是 在Davis 還 是KIBA 數(shù)據(jù)集 上,Ma2DTA 在CI 指標(biāo)上突破0.90,達(dá)到高準(zhǔn)確度。在Davis 數(shù)據(jù)集上,Ma2DTA 在MSE 值上,比GraphDTA 降低接近5%,其比最好的基準(zhǔn)方法AttentionDTA 提高了7%。在KIBA 數(shù)據(jù)集上,Ma2DTA 比基準(zhǔn)方法中效果最明顯的GraphDTA,MSE 降低6%,而比GraphDTA 大幅度提升接近10%,相較于在這個(gè)指標(biāo)上效果顯著的AttentionDTA 提高4%。實(shí)驗(yàn)性能比較如圖4 所示,Ma2DTA 均優(yōu)于基準(zhǔn)方法,一方面,表明融入三個(gè)不同方面的結(jié)構(gòu)能夠使得分子最終特征表示包含更豐富的生物屬性信息。另一方面,使用注意力機(jī)制從分子特征層面上融合,根據(jù)權(quán)重選擇對(duì)目標(biāo)靶位親密度更高的部分結(jié)構(gòu)執(zhí)行融合,避免造成次優(yōu)預(yù)測(cè)。

圖4 兩個(gè)數(shù)據(jù)集上所提方法與基準(zhǔn)方法的比較Fig.4 Comparison of the proposed method with baseline methods on two datasets

4.4.3 多視角分子特征融合的有效性分析

為驗(yàn)證多視角分子特征融合的有效性,本文在Davis 數(shù)據(jù)集上分別比較一種結(jié)構(gòu)、兩種結(jié)構(gòu)和三種結(jié)構(gòu)的分子特征融合對(duì)預(yù)測(cè)性能的影響。在實(shí)驗(yàn)中,對(duì)涉及的序列結(jié)構(gòu)均采用CNN 提取特征,對(duì)涉及的分子圖采用GCN 表征。比較結(jié)果如圖5 所示,MSE 隨著特征融合數(shù)量的增加呈下降趨勢(shì),而CI 和則呈上升趨勢(shì),說明原子關(guān)聯(lián)關(guān)系結(jié)構(gòu)、分子圖全局拓?fù)洹⒃踊瘜W(xué)鍵順序排列有益于整體分子結(jié)構(gòu)的表征學(xué)習(xí),并且從多個(gè)視角能夠綜合地分析分子結(jié)構(gòu),有助于提高預(yù)測(cè)藥物-蛋白質(zhì)親和力的效果。特別是Ma2DTA 除了在MSE 和CI 評(píng)估上均明顯達(dá)到最優(yōu),相較于單一序列結(jié)構(gòu)提取,MSE 降低16%,提高10%,CI 提高超過3%;而相較于單一局部分子圖結(jié)構(gòu)提取,MSE 降低了11%,提高6%,CI 明顯提高接近3%。綜上所述,Ma2DTA 采取多視角分子特征融合策略能夠?qū)Ψ肿幼罱K特征表示產(chǎn)生信息增益。

圖5 多視角分子結(jié)構(gòu)融合的有效性Fig.5 Effectiveness of multi-aspect molecular structure fusion

4.4.4 多注意力融合的有效性分析

為驗(yàn)證提出的注意力融合方式有效性,分別比較多注意力融合、均值化、累加和,以及特征向量級(jí)聯(lián)對(duì)預(yù)測(cè)結(jié)果的影響。實(shí)驗(yàn)執(zhí)行過程中,為了僅考慮融合方式的影響,對(duì)于上述4 種融合方式,均采取相同的參數(shù)選擇。如圖6 所示,多注意力融合多視角分子特征,均優(yōu)于其他的融合方式,表明基于多注意力機(jī)制的融合能夠從分子結(jié)構(gòu)層面,根據(jù)不同分子結(jié)構(gòu)對(duì)目標(biāo)蛋白質(zhì)結(jié)構(gòu)的權(quán)重系數(shù),捕捉到對(duì)目標(biāo)靶位親密度更高的部分結(jié)構(gòu),使得分子最終嵌入特征表示不同生物性質(zhì)的信息增益,從而提高藥物-蛋白質(zhì)親和力預(yù)測(cè)性能。

圖6 注意力融合的有效性Fig.6 Effectiveness of attention fusion

4.4.5 重要參數(shù)選擇

為考慮重要參數(shù)的選擇對(duì)于模型預(yù)測(cè)性能的影響,在Davis 數(shù)據(jù)集上通過實(shí)驗(yàn)分別比較針對(duì)蛋白質(zhì)序列結(jié)構(gòu)的CNN 層數(shù)和針對(duì)分子圖的全局池化方式。圖7(a)給出當(dāng)CNN 層數(shù)設(shè)置為1、2、3 時(shí),三個(gè)評(píng)價(jià)指標(biāo)的變化。圖7(b)表示原子關(guān)聯(lián)關(guān)系結(jié)構(gòu)嵌入過程選用全局累加(sum)、最大(max)、平均池化(mean)時(shí),對(duì)模型預(yù)測(cè)性能的影響。當(dāng)針對(duì)蛋白質(zhì)序列的卷積層數(shù)設(shè)置為3 層時(shí),模型表現(xiàn)出最佳性能。當(dāng)針對(duì)分子圖使用全局最大池化時(shí),由于映射出分子最突出顯著的局部特征,相較于其他兩種池化方式,性能最佳。

圖7 蛋白質(zhì)卷積層和分子圖池化方式對(duì)性能的影響Fig.7 Influence of protein convolutional layers and molecular map pooling methods on performance

5 結(jié)語(yǔ)

本文提出了一種多視角注意力融合分子特征的藥物-蛋白質(zhì)親和力預(yù)測(cè)方法Ma2DTA,分別從三個(gè)視角——原子關(guān)聯(lián)關(guān)系、分子全局拓?fù)洹⒃踊瘜W(xué)鍵順序排列提取不同的結(jié)構(gòu)特征(Mas),通過分子特征層級(jí)的注意力融合獲取每一類對(duì)目標(biāo)靶位親密度更高的部分結(jié)構(gòu)(Mat),保留對(duì)分子最終特征表示最有益的信息。實(shí)驗(yàn)結(jié)果表明Ma2DTA 在預(yù)測(cè)藥物-靶標(biāo)親和力任務(wù)上具有良好的性能。

未來的工作將進(jìn)一步嘗試多樣化的圖神經(jīng)網(wǎng)絡(luò)方法表征分子圖,并且考慮不同分子視角數(shù)量對(duì)預(yù)測(cè)的影響,以及更深層次地考慮氨基酸和原子之間的相互作用。

猜你喜歡
分子結(jié)構(gòu)特征融合
把握分子結(jié)構(gòu)理解物質(zhì)的性質(zhì)
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達(dá)“特征”
三步法確定有機(jī)物的分子結(jié)構(gòu)
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
解讀分子結(jié)構(gòu)考點(diǎn)
主站蜘蛛池模板: 亚洲福利一区二区三区| 日韩在线永久免费播放| 波多野结衣在线se| 精品国产美女福到在线不卡f| 国产精品视频系列专区| 日韩免费毛片| 色网站在线视频| 亚洲激情99| 色成人综合| 九九热精品在线视频| 成人午夜久久| 91精品久久久无码中文字幕vr| 日本欧美精品| 国产精品成人AⅤ在线一二三四| 亚洲成在线观看| 日韩欧美中文在线| 国产亚洲精品无码专| 婷婷激情亚洲| 亚洲无码高清视频在线观看| 毛片免费试看| 中文无码毛片又爽又刺激| 麻豆国产精品视频| 亚洲AⅤ无码国产精品| 久久久久青草大香线综合精品| 无码在线激情片| 2048国产精品原创综合在线| 亚洲第一成人在线| 米奇精品一区二区三区| 国产免费怡红院视频| 国产爽妇精品| 无码日韩精品91超碰| 国产chinese男男gay视频网| 亚洲精品欧美日本中文字幕| 91毛片网| 日日碰狠狠添天天爽| 色婷婷综合在线| 色婷婷国产精品视频| 久热re国产手机在线观看| 91口爆吞精国产对白第三集| 欧美日本在线观看| 无码高清专区| a级毛片免费看| 自拍亚洲欧美精品| 91精品国产91久久久久久三级| 在线精品视频成人网| 91网红精品在线观看| www.91在线播放| 亚洲乱强伦| 亚洲视频在线网| 免费看美女毛片| 欧美成人二区| 免费一级毛片在线播放傲雪网| 香蕉视频在线精品| 一本大道香蕉高清久久| 伊人成人在线视频| 亚洲欧美精品一中文字幕| 国产亚洲精久久久久久久91| 国产本道久久一区二区三区| 成人欧美日韩| 国产精品一老牛影视频| 国产精品久久久久久久久kt| 亚洲欧美国产视频| 国产肉感大码AV无码| 欧美一级特黄aaaaaa在线看片| 香蕉eeww99国产在线观看| 欧美精品H在线播放| 999精品色在线观看| 国产精品久久久久鬼色| 宅男噜噜噜66国产在线观看| 日本一区二区三区精品视频| 欧美一区精品| 刘亦菲一区二区在线观看| 九九热在线视频| 中文纯内无码H| 97av视频在线观看| 国产自无码视频在线观看| 亚洲欧美在线综合一区二区三区 | 欧美日韩亚洲综合在线观看| 色综合中文字幕| 久久国产拍爱| 69国产精品视频免费| 亚洲天堂精品在线|