呂 嫄
(蕪湖職業技術學院 基礎教學部,安徽 蕪湖,241000)
近年來,藥物重定位技術在藥物研發領域的研究越來越受重視。與傳統的藥物研發相比,藥物重定位顯著降低了藥物研發的時間和成本。同時,可以用于重定位的藥物都是已經經過安全性測試的,所以也大大降低了藥物研發失敗的風險。在高通量測序技術的發展下,許多藥物重定位的方法被提出。
目前,藥物重定位的研究方法主要包括基于活體定位的方法、基于大數據挖掘定位的方法以及基于機器學習的方法。其中,基于機器學習的方法在藥物重定位的研究中具有成本低、速度快的優點。其處理流程通常包含數據預處理、特征提取及篩選、模型訓練和測試等步驟。特別地,機器學習方法又可細分為傳統的機器學習方法和深度學習方法。傳統的機器學習方法往往根據不同的統計學習方法訓練藥物重定位的模型,這方面有很多優秀的工作。CAO等[1]將藥物-靶標相互作用預測轉換為二元分類問題,利用生物和藥物-靶標相互作用網絡的信息訓練隨機森林模型,能夠較好地預測藥物-靶標的相互作用。PESKA等[2]通過貝葉斯排序矩陣分解預測藥物與靶標的相互作用,加快了藥物重新定位的過程。隨著大數據挖掘技術的發展,傳統的機器學習方法對于日益復雜的藥物樣本的特征學習的局限性逐漸凸顯出來,而且此方法在特征選取上的步驟過于復雜,性能難以進一步提高。而基于深度學習的藥物重定位方法解決了這一難題。深度學習擁有強大的特征學習能力,能夠獲取目標不同層次的表示信息,可以進一步提高機器學習算法在藥物重定位問題上的性能。LI等[3]將藥物與藥物之間的相似性信息和疾病與疾病之間的相似性信息進行融合,構建成一個新的二維矩陣并映射到灰度圖像中,再通過深度卷積神經網絡學習圖像的特征,識別潛在藥物疾病之間的關聯性。ZHAO等[4]將深度神經網絡與多種傳統機器學習方法在藥物研發領域進行了系統性對比,在細胞篩選的活性數據、單個蛋白的活性數據、化合物物理化學性質等數據集上的綜合評分表明,深度神經網絡的性能表現優于支持向量機、線性回歸和隨機森林等傳統的機器學習算法。然而,基于深度學習的算法往往需要大量的標簽用于模型的訓練,而這種標簽的獲取成本又往往較高,限制了深度神經網絡的發展[5]。
近年來,圖卷積神經網絡在網絡相關的預測任務上表現優異,引起了越來越多的關注[6-9]。ZHAO等[10]通過圖卷積網絡學習每個藥物-蛋白質對的特征,并將其特征表示作為網絡輸入,構建了一個可以識別藥物-藥物關聯和靶標-靶標關聯的圖模型,但是該方法忽略了藥物與靶標之間的相互作用信息。YU等[11]提出了一種基于端到端的層注意力的圖卷積網絡,結合不同卷積層的嵌入與注意力機制,并將已知的藥物-疾病關聯網絡、藥物-藥物相似性矩陣和疾病-疾病相似性矩陣集成到異構網絡中,有效預測了藥物與疾病之間的相關性,但是該方法沒有詳細區分藥物和疾病的網絡拓撲信息,在網絡學習過程中會造成大量的信息丟失。MENG等[12]提出了一種新的加權雙線性圖卷積網絡,將已知的藥物-疾病關聯,藥物和疾病的鄰域與鄰域相互作用的信息整合到統一的表示中,充分提取了不同網絡的信息,但是由于圖卷積網絡自身的不足,未能區分節點不同的鄰居對節點自身的影響。
基于上述方法的優缺點,提出了一種基于異構圖神經網絡的深度學習方法,用來預測未知的藥物和疾病關聯,挖掘發現疾病的候選藥物。通過并行融合藥物-疾病關聯網絡、藥物-藥物相似性網絡和疾病-疾病相似性網絡的信息,有效地保留了各個網絡的信息,同時針對圖卷積神經網絡提取信息能力的不足,加入圖注意力網絡,增強特征提取能力。實驗結果表明,與現有的方法相比,HGNN實現了性能的顯著提高。
為了提高模型對藥物樣本的特征提取能力,提出了一種異構圖神經網絡—HGNN,其整體結構如圖1所示。

圖1 DRGNN的整體網絡框架
基于相似的藥物或疾病具有相似的關聯關系的假設,這里構建了3個矩陣,即已知藥物-疾病關聯網絡、藥物-藥物相似性網絡和疾病-疾病相似性網絡。已知的藥物-疾病關聯網絡表示為具有N種藥物和M種疾病的圖G,其鄰接矩陣為A∈{0,1}N×M。如果藥物ri與疾病dj相關,則Aij=1。如果藥物ri和疾病dj之間的關聯未知或未觀察到,則Aij=0。
由于相似性矩陣包含了許多冗余的信息,因此通過采取K近鄰的方法,構建了藥物相似性網絡Ar∈RN×N和疾病相似性網絡Ad∈RM×M。將每種藥物或疾病在相似性矩陣中前k(k=15)個值保持不變,其余值設置為0。
圖神經網絡(GNN)是神經網絡在圖數據上的推廣,包括GCN,GAT等。其中,GCN是一種多層連接的神經網絡架構,通過聚合鄰居節點信息來從圖結構數據中學習節點的低維表示。而GAT是一種基于圖形結構數據的新型神經網絡架構,通過引入自注意力機制,解決了GCN無法識別不同相鄰節點重要性的缺陷。
DRGNN的編碼器基于藥物-藥物,疾病-疾病相似性網絡和藥物-疾病關聯網絡,使用GCN和GAT相結合的特征提取器分別提取藥物和疾病的嵌入,再融合不同網絡的嵌入以獲得藥物和疾病的最終嵌入表示。
首先,我們將藥物和疾病的嵌入初始化如下:
(1)
其次,特征提取模塊定義如下:
(2)

圖卷積運算表示為GCN(A,H,W),公式定義如下:
(3)
其中D=diag(∑jAij),σ(·)表示激活函數。
圖注意力運算表示為GAT(A,H,W),公式定義如下:
(4)
(5)

堆疊多層的神經網絡會導致常見的梯度消失問題[13]。因此,我們添加了一個跳躍連接,公式定義如下:
(6)
不同GCN層的嵌入捕獲了輸入圖的不同級別的信息[14]。因此我們也在不同的GNN層引入了層注意力機制,通過自適應地學習不同層的權重,進一步提高特征提取能力。公式定義如下:
(7)
上式中HR和HD表示最終的藥物和疾病嵌入,βl是第l層可學習的注意力權重。
采用內積譯解碼器來恢復藥物和疾病之間的關聯矩陣,公式定義如下:
(8)

已知藥物-疾病關聯對作為正樣本,未知的藥物-疾病對作為負樣本。但已知藥物-疾病關聯的數量遠遠少于未知的藥物-疾病對的數量。因此,HGNN通過最小化加權二進制交叉熵損失來學習參數,如下所示:
(9)

目前藥物和疾病相關的數據庫主要包括DrugBank[15]和OMIM[16]。DrugBank于2006年在艾伯塔大學的David Wishart博士的實驗室中啟動,是一個綜合數據庫,包含了大量藥物及其靶標的信息。而OMIM是一個關于人類基因和遺傳疾病文獻信息的公共數據庫,由維克多·麥庫西克博士開始,作為人類孟德爾遺傳的權威參考,現在由國家生物技術信息中心(NCBI)以電子方式分發。本工作分別從DrugBank和OMIM中提取了藥物數據集Fdataset[17]和疾病數據集Cdataset[18]用于訓練和測試模型,詳細信息如表1所示。基于以往的研究,使用基于SMILES[19]的化學結構計算藥物對的相似度矩陣Sr以及通過使用MimMiner[20]計算基于疾病表型的疾病對的相似性矩陣Sd。在數據劃分時采用了10折交叉驗證進行實驗。即隨機選擇了數據集中10%已知的藥物-疾病關聯對和10%的未知藥物-疾病關聯對作為測試集;其余90%已知的藥物-疾病關聯對和90%未知藥物-疾病關聯對用于訓練模型。

表1 數據集統計信息 種
為了驗證HGNN模型的有效性,將HGNN與4種最先進的藥物重新定位方法進行了對比。
(1)DRIMC是一種基于貝葉斯誘導矩陣恢復的藥物重新定位方法。
(2)DRRS基于已知藥物-疾病關聯,通過近似低秩矩陣預測疾病的治療方法。
(3)NRLMF通過邏輯矩陣分解對藥物與靶標相互作用的矩陣進行建模。
(4)DRWBNCF是一種新的加權雙線性圖卷積網絡來預測藥物和疾病關聯。
本研究提出的HGNN算法使用了4層架構,每層包含64個隱藏單元。通過Adam優化器來優化模型,同時添加節點dropout和邊緣dropout來增強模型的泛化性能。其中節點和邊緣dropout分別設置為0.4和0.2,學習率為0.05,在所有實驗中最大訓練時間為400個Epoch。
為了評估HGNN的性能,采用了接受者操作特征曲線下面積(Area Under the Receiver Operating Characteristic,AUROC)和精確-召回曲線下的區域(Area Under the Precision Recall Curve,AUPRC)已廣泛用于生物信息學研究,并用于評估HGNN的整體性能。所有模型在Fdataset上的實驗結果如表2所示,相比4種對比方法中性能最強的NRLMF,HGNN的AUROC和AUPR指標分別提升了0.8%和4.8%。相比性能最差的DRIMC,AUROC和AUPR指標分別提升了3.1%和25.6%。表3是所有模型在Cdataset上的實驗結果統計,HGNN的AUROC相較于第二名的NRLMF提升了1%,第五名的DRIMC提升了2.6%。而AUPRC相較于第二名的NRLMF提升了3.7%,第五名的DRIMC提升了26.1%。實驗結果表明,HGNN的性能優于4個最先進的預測模型。

表2 Fdataset上的實驗結果

表3 Cdataset上的實驗結果
本研究提出了一種基于異構圖神經網絡的深度學習方法(HGNN),用以預測未知的藥物和疾病關聯,挖掘發現疾病的候選藥物。通過并行融合藥物-疾病關聯網絡、藥物-藥物相似性網絡和疾病-疾病相似性網絡的信息,同時針對GCN提取信息能力的不足加入了GAT特征提取器,增強特征提取能力。實驗表明,DRGNN優于當前先進的預測方法,對快速發現疾病的候選藥物具有重要的意義。
雖然DRGNN取得了較好的結果,但該方法仍存在一定的局限性。首先,DRGNN在計算相似性矩陣方面只使用了單一的相似性矩陣以及沒有使用其他關聯網絡,如藥物和靶標,miRNA和靶標等等,在未來,我們考慮加入其他相似性矩陣和更多的關聯網絡來增強網絡的性能。其次,DRGNN是基于相似的疾病與藥物表現出相似的關聯模式,但該假設的缺陷是當兩個藥物或疾病大部分特征都相似,只在局部的特征不同,而該特征在關聯模式上起到重要作用,從相似性的角度,它們應該表現相似的關聯模式,但實際表現卻完全不同。為了避免這種缺陷,后面會考慮加入更多的藥物和疾病的特征,增強網絡的表達能力。最后,HGNN并行融合了多種異構網絡,通過使用GCN和GAT相結合的特征提取器,充分提取有效信息,在預測未知的藥物和疾病關聯方面表現了很好的性能,提供疾病的候選藥物,進一步指導濕實驗,加速藥物再利用。