徐國保,陳媛曉,王 驥
(廣東海洋大學電子與信息工程學院,廣東湛江 524088)
(*通信作者電子郵箱xuguobao@126.com;zjouwangji@163.com)
藥物與人類疾病息息相關,而藥物靶標點的確認是藥物研發工作的開始,因此,快速準確的預測藥物-靶標的相互作用是藥物研發的關鍵。然而,受到成本、通量等的影響,傳統的用于闡明藥物-靶標關系的生物實驗難以展開,很多潛在的藥物靶標相互作用關系尚未被研發出來。傳統的計算方法主要有分子對接方法[1]和基于配體的方法[2]。然而,當靶標蛋白的三維結構不明確時,分子對接方法的預測性能下降;當只有少數已知配體與靶標結合時,基于配體的方法預測結果往往較差。
過去十年,國內外學者致力于利用機器學習方法來預測藥物-靶標相互作用關系,這些機器學習方法主要可分為有監督學習和半監督學習兩大類:有監督學習如二分圖局部模型方法(Bipartite Local Model,BLM)[3]、基于核的回歸模型方法[4]及基于分子特征方法[5]等;半監督學習如基于拉普拉斯正則化的最小二乘法NetLapRLS[6]。文獻[6]中提出的NetLapRLS通過整合已知的化學結構信息、基因序列數據和藥物-蛋白相互作用網絡對藥物-蛋白質相互作用關系進行了預測[7]。文獻[8]使用帶高斯相互作用屬性(Gaussian Interaction Profile,GIP)核的正則化最小二乘法(Regularized Least Squares,RLS)分類器,結合局部二分圖模型(Bipartite Local Model,BLM),提出基于鄰居相互作用譜的局部二分圖模型(Bipartite Local Model-Neighbor-based Interaction-profile Inferring,BLM-NII),此外,有監督學習的方法還有二分圖模型[9]、基于網絡的推斷模型(Network-based Inference,NBI)[10]等。文獻[11]提出異質網絡上的可重啟隨機游走(Networkbased Random Walk with Restart on the Heterogeneous network,NRWRH)方法,該方法結合已知的藥物-靶標關聯關系、藥物相似網絡及靶標相似網絡,構建異質網絡并在該網絡上執行隨機游走算法。上述兩種方法都沒有考慮到靶標信息未知的藥物。此外,文獻[12]中結合標記數據(已知和未知)提出一種具有網絡一致性的藥物靶標相互作用半監督預測方法,但是該方法嚴重依賴于藥物和靶標的相似性。
以上這些方法雖然提高了機器學習性能,但它們僅使用了少量的生物特征信息,在預測潛在的藥物靶標關系中可能丟失一些重要的信息,如藥物靶標網絡拓撲結構信息等。
針對現有技術的不足,在前人工作的基礎上,本文利用圖卷積網絡(Graph Convolutional Network,GCN)結合自編碼技術來預測潛在的藥物-靶標關系對。在考慮藥物與靶標多種生物信息與拓撲網絡結構的前提下,綜合運用深度學習知識,設計合理的預測方案,提高藥物-靶標相互作用預測準確度。實驗結果表明,該方法能夠有效預測藥物-靶標相互作用關系,且具有較強的魯棒性。
本文的數據集來自文獻[13],可以在https://github.com/luoyunan/DTINet 中下載,該數據集包含1 923 個已知的藥物-靶標對,1 512 種不同類型的靶標蛋白質和708 種不同類型的藥物化合物。本文的任務是要利用已知的藥物-靶標關聯數據及藥物和靶標特征數據,從未標記的藥物靶標中尋找潛在的藥物靶標對。在現有的數據集中只有藥物相似矩陣和靶標相似矩陣,若直接使用稠密相似矩陣作為圖,計算是非常耗時的。此外,稠密圖還會產生噪聲,影響模型性能,因此,需要利用已知數據進行特征提取。本文特征提取的方法參照文獻[14]。
為了得到稀疏圖來避免耗時的計算,藥物G(u) ∈Rd×d和靶標G(v) ∈Rt×t之間的相似性可表示為:

其中:Sim(i,j)為藥物相似矩陣和靶標相似矩陣,h(x)是x的鄰居集合。本文分別取前10 個藥物相似矩陣鄰居節點和前50 個靶標相似矩陣鄰居節點,得到G(u)和G(v)后,將其作為藥物和靶標的特征輸入。
將已知藥物與靶標之間的關聯關系表示成二分圖,則本文提到的預測任務可以定義為在這樣一個圖上進行半監督預測。
給定一個二分圖G={V,E},其中V=(vd,vt)表示nd個藥物節點和nt個靶標節點,Xd=分別表示藥物特征矩陣和靶標特征矩陣。由于藥物和靶標節點的特征維度都很高,傳統的相似性度量方法如歐幾里得距離無法取得很好的效果。為此,本文使用譜圖卷積有效利用圖拓撲和節點特征信息。
目前在圖數據上使用卷積濾波器的方法大致可分為兩類:空域圖卷積[15-16]和譜圖卷積[17-19]??沼驁D卷積本質是不斷聚合節點的鄰居信息,即直接將卷積操作定義在每個節點的連接關系上,文獻[20]中曾指出這種方法存在的問題。相對于空間卷積,譜圖卷積則將卷積網絡濾波器與圖信號同時變換到傅立葉域后進行處理。
譜圖卷積可以定義為濾波器gθ=diag(θ)(θ∈RN)與信號x∈RN在傅里葉域的乘積:

其中UTx表示x的圖傅里葉變換,在這里gθ可以看作L特征向量的函數,即gθ(Λ),Λ是特征值對角矩陣。
當圖中節點數量多、節點關系復雜時,拉普拉斯矩陣L進行特征分解需要很大的計算量,為了解決這個問題,采用切比雪夫多項式Tk(x)直到第k階的截斷展開來近似gθ(Λ)。

文獻[17]通過限制k=1 并將L的最大特征值近似為2,進一步簡化了譜圖卷積的定義:

如前所述,藥物和靶標之間的關聯預測問題可以當作一個半監督預測問題。很多基于圖卷積神經網絡(GCN)的方法主要用于解決同質網絡上的節點分類問題,為充分利用圖卷積,使其能夠解決異質、二部、有屬性網絡的預測問題,文獻[21]首次結合圖卷積與自編碼技術,提出基于圖卷積的MicroRNA 和抗藥性關聯預測(Graph Convolution for association between MicroRNA and Drug Resistance,GCMDR)算法。為了確保模型有效訓練,本文在文獻[21]的基礎上,引入了集成學習(Ensemble Learning,EL)中的堆疊思想,將兩個組件線性組合在一起,聯合訓練。
給定鄰接矩陣M∈,其中Nd為藥物節點數量,Nt為蛋白質節點數量,矩陣的值Mij表示藥物i與蛋白質j是否已通過生物實驗驗證存在關聯:

模型的目標是通過構建基于圖卷積的編碼器[Fd,Ft]=fen(v,ε,Xd,Xt)來學習藥物和靶標的嵌入特征F,并且通過構建解碼器M′=fde(Fd,Ft)來預測新鏈接,式中Xd∈分別表示藥物和靶標的輸入特征矩陣,分別表示藥物和靶標學習到的特征矩陣。
為此,本文提出的模型由兩種不同類型的層組成:1)用于在藥物和靶標相互作用網絡圖上整合其節點特征的編碼層;2)使用上一層學到的嵌入特征來預測全連接交互網絡的編碼層。算法結構如圖1。

圖1 本文算法結構Fig.1 Structure of the proposed algorithm
1.3.1 編碼層
編碼層的輸入包括藥物和靶標的原始特征矩陣Xd、Xt和鄰接矩陣M。為了把藥物特征矩陣和靶標特征矩陣整合成一個輸入矩陣,定義一個新的特征矩陣:

同樣,鄰接矩陣重新定義為:

然后,GCDTI 對矩陣X進行行歸一化:Xrw=D-1X,其中表示輸入信號矩陣。根據式(6),可得到一個圖卷積矩陣G:

通過引入G的權重矩陣We和偏重矩陣Be構建隱藏層,選擇ReLU函數作為激活函數,則編碼層的輸出F如下:

式中可訓練權重矩陣We∈為傅里葉系數矩陣,它將矩陣G轉化為描述藥物靶標節點與潛在因子之間的關聯的隱藏矩陣F,Ne表示潛在因子的數量,是手動設置的。編碼層的輸出是輸入特征到隱藏空間的投影,其由兩部分組成,分別是藥物的嵌入特征矩陣Fd和靶標的嵌入特征矩陣Ft。
1.3.2 解碼層
為了重構藥物-靶標關聯矩陣,構建解碼器M′=fde(Fd,Ft)如下:

式中權重矩陣Wd∈RL×L描述了隱藏層潛在因子的相似性。在本文模型中使用文獻[22]提出的初始化方法來隨機初始化矩陣We、Be、Wd。
顯然,輸出矩陣M′與輸入矩陣M的維度相同,M′中的值表示所有藥物-靶標對的權值。所有在矩陣M中值為0 的藥物-靶標對將由解碼器賦予一個預測值,預測得分高的藥物-靶標對更有可能是關聯的。
此外,為了在半監督學習下訓練模型,本文使用了負抽樣方法。在每個訓練階段,隨機選擇未標記的藥物-靶標對作為負樣本進行訓練。給定訓練集,模型嘗試最小化以下損失函數:

為了評估模型性能,使用了k折交叉驗證。將數據隨機分成k份,每一份輪流作測試樣本(假設關聯關系未知)。在性能評估中,將測試樣本和所有未標記的藥物-靶標對都視為候選樣本,若測試樣本在所有候選樣本中排名較前,則表明該模型具有良好的預測性能。
在本文中,k分別取2、5、10,由于數據集中的樣本數量有限,因此對數據集進行10 次劃分,最后取10 次實驗的平均值作為模型整體的性能指標。
使用PyCharm 集成開發環境,TensorFlow 2.0.0 作為框架。
在本節中就圖卷積整合原始輸入特征數據的能力進行了評估,具體來說,將模型輸入原始特征數據與刪除輸入特征的情況進行對比。為此,將式(9)中輸入特征矩陣A的每個值都替換為1,在這種情況下,由于所有節點的特征都相同,因此圖卷積就沒有意義了。本節使用5 折交叉驗證法來做有無特征輸入的對比實驗,實驗結果表明,在沒有任何特征輸入的情況下,模型的受試者工作特性(Receiver Operating Characteristic,ROC)曲線下的面積(Area Under ROC Curve,AUC)為0.888 9,而有特征輸入時,模型的AUC 為0.920 1,明顯高于沒有特征輸入的情況。實驗結果證明提出的基于圖卷積的模型能夠有效地整合輸入特征數據。
為了評估本文提出的藥物靶標關聯預測模型的性能,分別使用了2 折、5 折和10 折交叉驗證,使用不同交叉驗證的AUC平均值見表1。

表1 不同交叉驗證方法的預測性能Tab.1 Prediction performance of different cross validation methods
從表中可以看出,預測精度隨著訓練數據集的增加而增加,由于10 折交叉驗證的訓練數據集大于2 折交叉驗證和5折交叉驗證,因此其平均AUC最高,為0.924 6±0.004 8。
此外,圖2和圖3給出了不同交叉驗證方法下的訓練損失和訓練誤差,訓練損失和訓練誤差分別由式(12)和式(12)的第一項計算而得。從圖中的曲線可以看出,不同交叉驗證方法下GCDTI 的訓練過程是相似的。在大多數實驗中,訓練損失和訓練誤差可以分別在第300 次遍歷數據集和第250 次遍歷數據集之前收斂到下界,說明采用不同的交叉驗證方法時,數據的差異對計算過程的影響很小,說明模型具有很強的魯棒性。

圖2 不同交叉驗證方法下的訓練損失Fig.2 Training loss under different cross validation methods

圖3 不同交叉驗證方法下的訓練誤差Fig.3 Training error under different cross validation methods
由于在本文所收集的數據庫中只有正樣本,因此需要找到負樣本進行半監督訓練來提高模型的預測性能。為此,對未標記的藥物-靶標對進行采樣,以生成負樣本進行訓練。然而,負樣本的數量也會對模型的預測性能產生影響,大量的負樣本可以為訓練提供數據資源,提高模型性能,但這同時也可能會造成訓練數據不平衡問題。因此,負樣本數量的選擇對準確預測GCDTI 模型是非常重要的。在每次采樣中,負樣本集固定為正樣本集的p倍。圖4 展示了不同負樣本集對預測性能的影響,從圖中可以看出,當負樣本數是正樣本數的10倍時,該模型的預測性能最高,AUC 為0.920 2±0.011 1。當p設為0 時,意味著沒有使用負樣本,只用正樣本進行訓練,此時AUC 遠低于有負樣本的情況。AUC 從p=0 到p=10 的變化體現了負樣本對GCDTI的重要性和有效性。

圖4 不同負樣本數量時的預測性能Fig.4 Prediction performance when having different negative sample numbers
由于本文提出的模型是基于潛在因子模型構建的,因此隱藏層的大小對其性能預測至關重要。本節討論潛在因子數量L對模型性能的影響,本節的實驗結果基于10 折交叉驗證法并且負樣本是正樣本的10 倍。從圖5 可看出,當L在5~80取值時,AUC 的平均值呈單峰分布,且當L=25時,模型性能達到最優。25 這個數字可能反映了藥物與靶標之間真實關聯的數量。

圖5 潛在因子數對模型的影響Fig.5 Influence of the number of latent factors on the model
為了進一步評估模型的預測性能,將實驗結果與其他5種較為先進的藥物靶標關聯預測方法在同一數據集上的實驗結果進行比較,這5 種方法包括BLM-NII[8]、NetLapRLS[23]、異構網絡模型(Heterogeneous Network Model,HNM)[24]、多相似度矩陣分解(multiple similarities Collaborative Matrix Factorization,CMF)模型[25]、藥物-靶標相互作用預測的網絡集成方法(Network integration approach for Drug-Target Interaction prediction,DTINet)[13]。比較結果見圖6,從圖6可以看出,GCDTI的平均AUC最高,為0.9246±0.004 8,比DTINet 高1.13 個百分點。本節實驗結果基于10 折交叉驗證并且負樣本是正樣本的10 倍。這些實驗表明利用端到端學習的模型架構,當需要預測大量的藥物和靶標數據的關聯關系時,GCDTI有潛力成為一種可靠的預測方法。

圖6 不同預測方法的性能比較Fig.6 Performance comparison of different prediction methods
為了更高效地識別潛在的藥物-靶標關系對,本文利用圖卷積神經網絡結合自編碼技術,提出GCDTI 模型。該方法通過輸入已知的藥物-靶標關系對以及藥物和節點的特征信息,以端到端學習的方式提取藥物和靶標的嵌入特征。一系列實驗結果表明,從模型中學習到的低維嵌入特征能夠有效地表達藥物靶標之間的相互作用關系。但是在當前的藥物靶標相互作用模型中,圖卷積只能輸入數值型數據,因此其他非數值型的特征仍不適用于當前的模型,接下來的工作將進一步研究解決這個問題的方案。